一种基于知识图谱的监控预警方法、装置及电子设备
技术领域
本申请涉及深度学习技术领域,尤其涉及一种基于知识图谱的监控预警方法、装置及电子设备。
背景技术
目前,对企业经营风险预警研究主要集中在与企业相关的网络舆情分析领域,近年来,大数据备受全球瞩目,大数据使得舆情检测与分析的水平达到了个体级别,社会舆情的描述再也不是整体性的泛泛而谈,而是可以做到针对个体的可以得到更多细节的即时检测。大数据成为了舆情研究的利器。与此同时,数据之间存在着封闭性与关系断裂性会使得我们在整理数据获得规律时得到失真的信息。传统的数据跟踪搜集分析手段已经对此力不从心,这就对数据分析的技术手段提出了更高的要求。除此之外,海量的数据还使得数据安全的问题突显出来。
大数据为人们提供了一种可靠和令人信服的预测能力,尤其当各类管理活动面对着环境日益复杂和风险日渐增多的情况下,科学决策的意义就显得十分重要。但企业舆情系统的难点在于舆情数据的获取能力和舆情数据语义分析,这是大数据技术无法实现的。
因此,目前的风险预警实现方案会由于无法得到高维度的舆情数据而存在预警准确性低的技术问题。
发明内容
有鉴于此,本申请提供一种基于知识图谱的监控预警方法、装置及电子设备,如下:
一种基于知识图谱的监控预警方法,所述方法包括:
获得目标语料,所述目标语料中包含多个语句;
利用预先构建的知识图谱,对所述目标语料中各个语句进行词抽取,以得到所述目标语料对应的多个特征词,所述特征词包括至少一个目标对象的特征词;
利用风险识别模型,对所述目标语料对应的多个特征词进行风险识别,以得到所述目标对象的风险识别结果,所述风险识别模型为利用多个具有风险标签的训练特征词集合进行训练得到,所述风险识别结果表征所述目标对象的信用风险的高低;
根据所述风险识别结果,获得所述目标对象的风险预警结果。
上述方法,优选的,所述训练特征词集合的风险标签包括至少一个风险维度上的标签值;
其中,根据所述风险识别结果,获得所述目标对象的风险预警结果,包括:
判断所述风险识别结果中在每个所述风险维度上的信用风险值是否大于或等于相应风险维度上的风险阈值,以得到判断结果;
根据所述判断结果,获得所述目标对象在每个所述风险维度上的风险预警结果。
上述方法,优选的,还包括:
根据所述风险预警结果的类型,输出所述风险预警结果。
上述方法,优选的,所述知识图谱通过以下方式获得:
读取关系型数据库中存储的结构化数据,所述结构化数据与至少一个目标对象相关;
利用结构化数据与三元组之间的预设映射关系,将所述结构化数据转换为三元组数据,以得到所述知识图谱。
上述方法,优选的,所述知识图谱通过以下方式获得:
利用至少一个目标对象对应的预设词,获得行业网站中与所述目标对象相关的目标页面;
读取所述目标页面中的页面内容;
根据所述页面内容,生成三元组数据,以得到所述知识图谱。
上述方法,优选的,所述目标页面至少包括与所述预设词相关联的第一页面和对所述第一页面进行站内采集所得到的第二页面。
上述方法,优选的,所述风险识别模型通过以下方式训练得到:
获得多个具有风险标签的训练特征词集合;所述训练特征词集合为利用所述知识图谱对训练语料中的语句进行词抽取所得到的特征词集合;
将所述训练特征词集合作为所述风险识别模型的输入样本,以所述训练特征词集合的风险标签作为所述风险识别模型的输出样本,对所述风险识别模型进行训练。
上述方法,优选的,所述风险识别模型对所述训练语料对应的训练特征词集合进行风险识别得到的风险识别测试结果与所述训练语料所对应的风险标签之间的差值大于或等于预设阈值。
一种基于知识图谱的监控预警装置,所述方法包括:
语料获得单元,用于获得目标语料,所述目标语料中包含多个语句;
特征抽取单元,用于利用预先构建的知识图谱,对所述目标语料中各个语句进行词抽取,以得到所述目标语料对应的多个特征词,所述特征词包括至少一个目标对象的特征词;
风险识别单元,用于利用风险识别模型,对所述目标语料对应的多个特征词进行风险识别,以得到所述目标对象的风险识别结果,所述风险识别模型为利用多个具有风险标签的训练特征词集合进行训练得到,所述风险识别结果表征所述目标对象的信用风险的高低;
风险预警单元,用于根据所述风险识别结果,获得所述目标对象的风险预警结果。
一种电子设备,包括:
存储器,用于存储应用程序及应用程序运行所产生的数据;
处理器,用于执行所述应用程序,以实现:获得目标语料,所述目标语料中包含多个语句;利用预先构建的知识图谱,对所述目标语料中各个语句进行词抽取,以得到所述目标语料对应的多个特征词,所述特征词包括至少一个目标对象的特征词;利用风险识别模型,对所述目标语料对应的多个特征词进行风险识别,以得到所述目标对象的风险识别结果,所述风险识别模型为利用多个具有风险标签的训练特征词集合进行训练得到,所述风险识别结果表征所述目标对象的信用风险的高低;根据所述风险识别结果,获得所述目标对象的风险预警结果。
由上述方案可知,本申请提供的一种基于知识图谱的监控预警方法、装置及电子设备中,在获得到目标语料之后,利用预先构建的知识图谱,对目标语料中各个语句进行词抽取,以得到目标语料对应的多个特征词,这些特征词中包括至少一个目标对象的特征词,由此,利用风险识别模型,对目标语料对应的多个特征进行风险识别,以得到目标对象的风险识别结果,以此来表征其对应的目标对象的信用风险的高低,进而就可以根据风险识别结果获得到目标对象的风险预警结果。可见,本申请中利用知识图谱对某个信息维度上的特征词进行抽取,由此丰富输入到深度学习模型中的特征内容,由此来提高所获取到的风险预警结果的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种基于知识图谱的监控预警方法的流程图;
图2为本申请实施例一的部分流程图;
图3为本申请实施例一提供的一种基于知识图谱的监控预警方法的另一流程图;
图4-图5分别为本申请实施例一的另一部分流程图;
图6为本申请实施例二提供的一种基于知识图谱的监控预警装置的结构示意图;
图7-图8分别为本申请实施例二的另一结构示意图;
图9为本申请实施例三提供的一种电子设备的结构示意图;
图10为本申请实施例的系统架构图;
图11为本申请实施例的系统中图谱构建模块的架构图;
图12为本申请实施例的风险识别模型的示例图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,为本申请实施例一提供的一种基于知识图谱的监控预警方法的实现流程图,该方法适用于能够进行数据处理的电子设备中,如计算机或服务器等。本实施例中的技术方案主要用于对目标对象如企业或个人的信用风险进行预警。
具体的,本实施例中的方法可以包括以下步骤:
步骤101:获得目标语料。
其中,目标语料中包含多个语句。例如,目标语料为新闻片段,或者目标语料为总结报告,或者,目标语料为发言稿等。
需要说明的是,目标语料中的语句描述有待评级的目标对象,如企业或个人等,另外,目标语料中的语句还描述有与目标对象相关的内容。例如,目标语料中的语句描述有某个企业在企业工商信息维度上的相关内容,如企业工商信息维度上的关于法人股东变更、对外投资等相关内容,等等。
步骤102:利用预先构建的知识图谱,对目标语料中各个语句进行词抽取,以得到目标语料对应的多个特征词。
其中,目标语料对应的多个特征词中包括至少一个目标对象的特征词。例如,目标语料对应的特征词中包含有企业A在工商信息维度上的特征词。
具体的,本实施例中可以预先构建包含多个三元组数据的知识图谱,这里的三元组数据可以为关系型的三元组,如实体-关系-实体的三元组,也可以为属性型的三元组,如实体-属性-属性值的三元组,这些三元组数据包含有多个企业在工商信息维度上的三元组。基于此,本实施例中利用知识图谱中的三元组数据,对目标语料中的每个语句进行词的抽取,进而抽取出目标语料所对应的多个特征词,如“企业A”对“企业B”有“投资”的关系三元组等等。
步骤103:利用风险识别模型,对目标语料对应的特征词进行风险识别,以得到目标对象的风险识别结果。
其中,风险识别模型为利用多个具有风险标签的训练特征词集合进行训练得到,最终所得到的目标对象目标信息维度如工商信息维度上的风险识别结果表征其对应的目标对象在工商信息维度上的信用风险的高低。
例如,本实施例中预先构建一个风险识别模型,该风险识别模型对应于工商信息维度,之后,利用工商信息维度上对应的多个具有风险标签的训练特征词集合对工商信息维度上的风险识别模型进行训练,训练后的风险识别模型能够对目标对象在工商信息维度上的信用风险进行识别,以得到目标对象在工商信息维度上的风险识别结果,而目标对象在工商信息维度上的风险识别结果能够表征目标对象在工商信息维度上的信用风险的高低,如企业A在工商信息维度上的信用评级结果表征企业A在工商信息维度上的信用风险较低,等等。
在一种实现方式中,本实施例中的风险识别模型可以为基于机器学习算法所构建的深度学习模型,如基于卷积神经网络所构建的深度学习模型等。
步骤104:根据风险识别结果,获得目标对象的风险预警结果。
其中,风险识别结果中以信用风险值表征,由此,本实施例中可以通过对风险识别结果中的信用风险值的大小进行判断,进而得到目标对象的风险预警结果,这里的风险预警结果表征是否对目标对象进行风险预警,例如,预警企业A具有较高的信用风险,要谨慎投资;再如,企业B具有较低的信用风险,不预警等。
由上述方案可知,本申请实施例一提供的一种基于知识图谱的监控预警方法中,在获得到目标语料之后,利用预先构建的知识图谱,对目标语料中各个语句进行词抽取,以得到目标语料对应的多个特征词,这些特征词中包括至少一个目标对象的特征词,由此,利用风险识别模型,对目标语料对应的多个特征进行风险识别,以得到目标对象的风险识别结果,以此来表征其对应的目标对象的信用风险的高低,进而就可以根据风险识别结果获得到目标对象的风险预警结果。可见,本实施例中利用知识图谱对某个信息维度上的特征词进行抽取,由此丰富输入到深度学习模型中的特征内容,由此来提高所获取到的风险预警结果的准确性。
在一种实现方式中,训练特征词集合的风险标签包含至少一个风险维度上的标签值,如法人变更风险维度、股东变动风险维度、对外投资风险维度等等,基于此,经过训练的风险识别模型对目标语料对应的多个特征词进行风险识别之后所得到的风险识别结果中包含有每个风险维度上的信用风险值,由此,步骤104中在根据风险识别结果,获得目标对象的风险预警结果时,具体可以通过以下方式实现,如图2中所示:
步骤201:判断风险识别结果中在每个所述风险维度上的信用风险值是否大于或等于相应风险维度上的风险阈值,以得到判断结果。
例如,风险识别结果中包含有三个信用风险值,分别对应于:法人变更风险维度、股东变动风险维度、对外投资风险维度,而这三个风险维度上的风险阈值分别为:0.4、0.5、0.3,基于此,本实施例中判断风险识别结果中每个风险维度上的信用风险值是否大于或等于相应的风险阈值,由此得到每个风险维度上的判断结果。
步骤202:根据判断结果,获得目标对象在每个风险维度上的风险预警结果。
例如,在法人变更风险维度上的判断结果为信用风险值等于相应的风险阈值,那么所对应的风险预警结果表征:在法人变更事件上的信用风险较高,需要进行预警;再如,在股东变动风险维度上的判断结果为信用风险值小于相应的风险阈值,那么所对应的风险预警结果表征:在股东变更事件上的信用风险较低,不需要进行预警;再如,在对外投资风险维度上的判断结果为信用封信值大于相应的风险阈值,那么所对应的风险预警结果表征:在对外投资事件上的风险较高,需要进行预警。
在一种实现方式中,在步骤104之后,本实施例中的方法还可以包括以下步骤,如图3中所示:
步骤105:根据风险预警结果的类型,输出风险预警结果。
例如,在风险预警结果为表征需要进行预警的类型时,以红灯闪烁的方式为用户输出风险预警结果,以提示用户谨慎进行投资或变更等操作;再如,在风险预警结果为表征不需要进行预警的类型时,以绿灯闪烁的方式为用户输出风险预警结果。
在一种实现方式中,本实施例中的知识图谱可以通过以下方式获得,如图4中所示:
步骤401:读取关系型数据库中存储的结构化数据。
其中,关系型数据库为存储有与目标对象相关的结构化数据的数据库,如注册数据库中包含有店铺、品牌及用户等结构化数据,这些结构化数据与至少一个目标对象如企业或个人等相关。
具体的,本实施例中可以通过堆栈或者队列等方式读取关系型数据库中的表和列等结构化数据。
步骤402:利用结构化数据与三元组之间的预设映射关系,将所述结构化数据转换为三元组数据,以得到所述知识图谱。
其中,在具体实现中,本实施例中的预设映射关系可以理解为从关系型数据库映射到语义数据的映射规范,具体可以利用可视化的规范配置工具,对结构化数据与三元组之间的预设映射关系进行配置。具体的,本实施例中通过对结构化数据中的基本结构和知识图谱的三元组的结构进行解析,如解析每个表格的含义及表之间的关联等以及三元组中的实体和实体属性等,进而配置出结构化数据与三元组之间的预设映射关系,如数据库中的user表对应知识图谱中的人物这个概念,数据库中的表中phone这个字段对应知识图谱中人物上定义的联系方式这个属性,等等。基于此,在从结构化数据向三元组数据进行转换时,利用该预设映射关系,将表中的行和列中的元素映射为三元组中的实体、实体关系或实体属性等元素,由此,得到三元组数据,进而形成知识图谱。
在一种实现方式中,本实施例中知识图谱还可以通过以下方式进行补充或者丰富,如图5中所示:
步骤501:利用至少一个目标对象对应的预设词,获得行业网站中与目标对象相关的目标页面。
其中,本实施例中可以基于预先设置的能够代表目标对象所在行业的种子词汇,即预设词,利用搜索引擎或搜索接口等对行业网站(包含行业知识库的页面)进行页面搜索,以获得到与目标对象相关的目标页面。
在一种实现方式中,目标页面中可以只包括与预设词相关联的第一页面,如直接包含该预设词的页面,或者,目标页面中还可以进一步包含有对第一页面进行站内采集所得到的第二页面,即第一页面中所包含的链接所对应的页面等等。
具体的,本实施例中可以先利用搜索引擎或搜索接口搜索包含预设词的第一页面,再对第一页面进行站内采集,且采集的最大深度设置为3层,即从首页开始,使用深度优先采集策略,总共采集3层。在其他实现方式中,采集深度也可以设置为其他数值,如2层或4层等。
步骤502:读取目标页面中的页面内容。
其中,本实施例中可以使用爬虫等技术对目标页面中的页面内容进行获取,以得到其中的文字等内容。
步骤503:根据页面内容,生成三元组数据,以得到所述知识图谱。
其中,本所述中可以使用预先构建并训练的三元组抽取模型对页面内容进行三元组抽取,以得到三元组数据,由此组成知识图谱。三元组抽取模型可以为基于深度学习算法所构建的模型,且利用具有三元组标签的训练语句样本进行训练,由此使得训练完成的三元组抽取模型能够对语句进行三元组抽取,以得到相应的三元组数据,并添加到知识图谱中。
在一种实现方式中,本实施例中的风险识别模型可以通过以下方式训练得到:
首先,获得多个具有风险标签的训练特征词集合,这里的每个训练特征词集合可以为利用知识图谱对相应的训练语料中的语句进行词抽取所得到的特征词集合;
需要说明的是,这里的训练特征词集合为目标信息维度如工商信息维度上的训练特征词;
之后,将训练特征词集合作为风险识别模型的输入样本,以训练特征词集合的风险标签作为风险识别模型的输出样本,对风险识别模型进行训练。
具体的,本实施例中将训练特征词集合输入到风险识别模型中,并得到风险识别模型针对该训练特征词集合所输出的风险识别测试结果,之后,将该风险识别测试结果与风险标签进行比对,并根据比对结果所表征的差异值来对风险识别模型的模型参数进行调整,以使得风险识别模型的损失函数减小,以此列推,直到损失函数收敛,训练完成。
进一步的,本实施例中为了提高训练样本的准确性,在对风险识别模型进行训练之前,先筛选出难样本。也就是说,参与到风险模型训练的训练语料为准确性较高的样本语料,此时风险识别模型对训练语料对应的训练特征词集合进行风险识别得到的风险识别测试结果与训练语料所对应的风险标签之间的差值大于或等于预设阈值。
具体实现中,本实施例中可以先利用风险识别模型进行小风险样本的测试训练,进而根据测试结果获得到预设阈值之后,利用该预设阈值筛选出参与训练的训练语料,再经过训练语料的反复迭代训练之后最终得到风险识别模型。
参考图6,为本申请实施例二提供的一种基于知识图谱的监控预警装置的结构示意图,该装置适用于能够进行数据处理的电子设备中,如计算机或服务器等。本实施例中的技术方案主要用于对目标对象如企业或个人的信用风险进行预警。
具体的,本实施例中的装置可以包括以下单元:
语料获得单元601,用于获得目标语料,所述目标语料中包含多个语句;
特征抽取单元602,用于利用预先构建的知识图谱,对所述目标语料中各个语句进行词抽取,以得到所述目标语料对应的多个特征词,所述特征词包括至少一个目标对象的特征词;
风险识别单元603,用于利用风险识别模型,对所述目标语料对应的多个特征词进行风险识别,以得到所述目标对象的风险识别结果,所述风险识别模型为利用多个具有风险标签的训练特征词集合进行训练得到,所述风险识别结果表征所述目标对象的信用风险的高低;
风险预警单元604,用于根据所述风险识别结果,获得所述目标对象的风险预警结果。
由上述方案可知,本申请实施例二提供的一种基于知识图谱的监控预警装置中,在获得到目标语料之后,利用预先构建的知识图谱,对目标语料中各个语句进行词抽取,以得到目标语料对应的多个特征词,这些特征词中包括至少一个目标对象的特征词,由此,利用风险识别模型,对目标语料对应的多个特征进行风险识别,以得到目标对象的风险识别结果,以此来表征其对应的目标对象的信用风险的高低,进而就可以根据风险识别结果获得到目标对象的风险预警结果。可见,本实施例中利用知识图谱对某个信息维度上的特征词进行抽取,由此丰富输入到深度学习模型中的特征内容,由此来提高所获取到的风险预警结果的准确性。
在一种实现方式中,所述训练特征词集合的风险标签包括至少一个风险维度上的标签值;其中,风险预警单元604具体用于:判断所述风险识别结果中在每个所述风险维度上的信用风险值是否大于或等于相应风险维度上的风险阈值,以得到判断结果;根据所述判断结果,获得所述目标对象在每个所述风险维度上的风险预警结果。
在一种实现方式中,风险预警单元604还用于:根据所述风险预警结果的类型,输出所述风险预警结果。
在一种实现方式中,本实施例中的装置还可以包括以下单元,如图7中所示:
第一图谱构建单元605,用于读取关系型数据库中存储的结构化数据,所述结构化数据与至少一个目标对象相关;利用结构化数据与三元组之间的预设映射关系,将所述结构化数据转换为三元组数据,以得到所述知识图谱。
第二图谱构建单元606,用于利用至少一个目标对象对应的预设词,获得行业网站中与所述目标对象相关的目标页面;读取所述目标页面中的页面内容;根据所述页面内容,生成三元组数据,以得到所述知识图谱。
可选的,所述目标页面至少包括与所述预设词相关联的第一页面和对所述第一页面进行站内采集所得到的第二页面。
在另一种实现方式中,本实施例中的装置还可以包括以下单元,如图8中所示:
模型训练单元607,用于获得多个具有风险标签的训练特征词集合;所述训练特征词集合为利用所述知识图谱对训练语料中的语句进行词抽取所得到的特征词集合;将所述训练特征词集合作为所述风险识别模型的输入样本,以所述训练特征词集合的风险标签作为所述风险识别模型的输出样本,对所述风险识别模型进行训练。
可选的,所述风险识别模型对所述训练语料对应的训练特征词集合进行风险识别得到的风险识别测试结果与所述训练语料所对应的风险标签之间的差值大于或等于预设阈值。
需要说明的是,本实施例中各单元的具体实现可以参考前文中的相应内容,此处不再详述。
参考图9,为本申请实施例三提供的一种电子设备的结果示意图,该电子设备可以为能够进行数据处理的电子设备,如计算机或服务器等。本实施例中的技术方案主要用于对目标对象如企业或个人的信用风险进行预警。
具体的,本实施例中的电子设备可以包括以下结构:
存储器901,用于存储应用程序及应用程序运行所产生的数据;
处理器902,用于执行所述应用程序,以实现:获得目标语料,所述目标语料中包含多个语句;利用预先构建的知识图谱,对所述目标语料中各个语句进行词抽取,以得到所述目标语料对应的多个特征词,所述特征词包括至少一个目标对象的特征词;利用风险识别模型,对所述目标语料对应的多个特征词进行风险识别,以得到所述目标对象的风险识别结果,所述风险识别模型为利用多个具有风险标签的训练特征词集合进行训练得到,所述风险识别结果表征所述目标对象的信用风险的高低;根据所述风险识别结果,获得所述目标对象的风险预警结果。
由上述方案可知,本申请实施例三提供的一种电子设备中,在获得到目标语料之后,利用预先构建的知识图谱,对目标语料中各个语句进行词抽取,以得到目标语料对应的多个特征词,这些特征词中包括至少一个目标对象的特征词,由此,利用风险识别模型,对目标语料对应的多个特征进行风险识别,以得到目标对象的风险识别结果,以此来表征其对应的目标对象的信用风险的高低,进而就可以根据风险识别结果获得到目标对象的风险预警结果。可见,本实施例中利用知识图谱对某个信息维度上的特征词进行抽取,由此丰富输入到深度学习模型中的特征内容,由此来提高所获取到的风险预警结果的准确性。
需要说明的是,本实施例中处理器的具体实现可以参考前文中的相应内容,此处不再详述。
以利用本申请的技术方案对企业监控预警为例,对本申请的技术方案进行举例说明:
本申请通过引入知识图谱技术解决多源异构数据的语义表示与理解问题,提升大数据企业监控预警的有效性。具体的,本申请的技术方案的实现主要分为两部分:企业知识图谱的构建和基于企业知识图谱的监控预警系统实现。
1、企业知识图谱的构建
选定企业领域构建知识图谱全局知识分类体系,从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱。在企业工商数据、变更记录和司法数据、财务数据、知识产权数据、百科数据、垂直网站、开放链接数据等企业相关各类知识资源中,进行实体抽取、关联标注、概念消歧等,从企业类别、产业链、主题分类等角度构建了企业领域知识图谱。主要包括三部分:本体建模、知识抽取与融合、D2R映射。
1)本体建模:
主要是对图谱中存在的实体类型,以及各实体的基本属性进行定义。根据提供的数据以及应用的需求对知识图谱中的数据模式进行合理定义,明确图谱中的实体、关系、以及各实体及关系的属性。
基本步骤如下:
(1)分析已有关系型及资源型数据,构建企业领域概念体系;
(2)定义企业监控预警场景中企业、人物、地区、事件等实体的基本属性,包括注册资本、地址、电话、年龄、职位等;
(3)定义企业监控预警场景中企业、人物、地区、事件等实体间的关系,包括投资关系、涉诉关系等。
2)知识抽取与融合
在通过多渠道获取到了企业相关数据和本体建模完成之后,下一步就是通过知识抽取技术根据本体建模步骤中所定义的实体和关系,从已有非结构化和半结构化数据中获取实体、关系以及实体属性信息;另外,知识抽取工作完成后再通过知识融合技术使来自不同知识源的知识在同一框架规范下进行异构数据整合、去冗余、消歧、加工、推理验证、更新等步骤,形成高质量的企业知识库。
(1)知识抽取:从不同数据来源,如用户评论、新闻资讯、爬取的web网页、企业工商详情、人物信息等,从中抽取本体建模中定义的实体、属性以及实体间关系。
①实体抽取:通过加入企业领域词典,可以使用双向长短期记忆人工神经网络Bi-LSTM(Long Short-Term Memory)结合条件随机场算法CRF(conditional random field)实现的模型来进行实体抽取;
②属性抽取:同实体抽取;
③关系抽取:使用远程监督方法,从现有知识库中抽取存在关系的实体对,然后从非结构化文本中抽取含有实体对的句子作为训练样例来训练关系提取器。
(2)知识融合:将多个数据源抽取的知识进行融合后集成到知识图谱中。在进行知识融合时,需要解决多种类型的数据冲突问题,如,包括一个短语对应多个实体、企业属性名不一致、属性缺失、属性值不一致、属性值一对多映射等情况。知识融合阶段主要对数据进行本体对齐和实体匹配。
3)D2R映射
D2R映射主要是把关系型数据库中的数据转化为资源描述框架RDF(ResourceDescription Framework)三元组形式的语义数据,需要制定一组从关系型数据库映射到语义数据的映射规范,并用XML语言描述,即D2RML。对结构化数据进行知识映射的关键之处在于充分理解结构化数据中的基本结构,包括每个表格的含义及表格之间的关联,以及知识图谱的结构,使用D2RML把结构化数据中的表格与知识图谱中的概念或实体关联起来。知识抽取服务连接映射文件中的目标数据库,读取相应表格中的数据,把关系型数据库中的表和列数据分别映射成概念的实体以及实体的属性,然后把这些映射得到的知识存储到企业知识图谱中。
2、基于企业知识图谱的监控预警系统实现
本申请可以通过Apriori算法对不同经营管理主体间的多维度信息进行关联,多维度信息一定存在固定的关联模式才可以被关联,而关联程度取决于频繁项集的频度。通过企业知识图谱中各类负面新闻、事件与企业本身的关联、联通分析实现企业监控预警。
Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法,也是最著名的关联规则挖掘算法之一。Apriori算法就是根据有关频繁项集特性的先验知识而命名的。它使用一种称作逐层搜索的迭代方法,k—项集用于探索(k+1)—项集。首先,找出频繁1—项集的集合.记做L1,L1用于找出频繁2—项集的集合L2,再用于找出L3,如此下去,直到不能找到频繁k—项集。找每个Lk需要扫描一次数据库。为提高按层次搜索并产生相应频繁项集的处理效率,Apriori算法利用了一个重要性质,并应用Apriori性质来帮助有效缩小频繁项集的搜索空间。Apriori性质:一个频繁项集的任一子集也应该是频繁项集。证明根据定义,若一个项集I不满足最小支持度阈值min_sup,则I不是频繁的,即P(I)<min_sup。若增加一个项A到项集I中,则结果新项集(I∪A)也不是频繁的,在整个事务数据库中所出现的次数也不可能多于原项集I出现的次数,因此P(I∪A)<min_sup,即(I∪A)也不是频繁的。这样就可以根据逆反公理很容易地确定Apriori性质成立。
针对Apriori算法的不足,对其进行优化:
(1)基于划分的方法。该算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频繁项集,然后把产生的频繁项集合并,用来生成所有可能的频繁项集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频繁项集至少在某一个分块中是频繁项集保证的。
上面的算法是可以高度并行的。可以把每一分块分别分配给某一个处产生全局的候选是一项集。通常这里的通信过程是算法执行时间的主要瓶颈。而另一方面,每个独立的处理器生成频繁项集的时间也是一个瓶颈。其他的方法还有在多处理器之间共享一个杂凑树来产生频繁项集,更多关于生成频繁项集的并行化方法可以在其中找到。
(2)基于Hash的方法。Park等人提出了一个高效地产生频繁项集的基于杂凑(Hash)的算法。通过实验可以发现,寻找频繁项集的主要计算是在生成频繁2—项集Lk上,Park等就是利用这个性质引入杂凑技术来改进产生频繁2—项集的方法。
(3)基于采样的方法。基于前一遍扫描得到的信息,对它详细地做组合分析,可以得到一个改进的算法,其基本思想是:先使用从数据库中抽取出来的采样得到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分验证这个结果。这个算法相当简单并显著地减少了FO代价,但是一个很大的缺点就是产生的结果不精确,即存在所谓的数据扭曲(Dataskew)。分布在同一页面上的数据时常是高度相关的,不能表示整个数据库中模式的分布,由此而导致的是采样5%的交易数据所花费的代价同扫描一遍数据库相近。
(4)减少交易个数。减少用于未来扫描事务集的大小,基本原理就是当一个事务不包含长度为志的大项集时,则必然不包含长度为走k+1的大项集。从而可以将这些事务删除,在下一遍扫描中就可以减少要进行扫描的事务集的个数。这就是AprioriTid的基本思想。
最终不同主体之间代表着不同的子图,子图之间不同维度之间的数据通过自身关联性关联。
基于以上实现,本申请利用可视化技术提供一种经营风险智能分析预警系统,系统总体实施路线框架图如图10中所示,其中,系统主要分为以下几个框架:
(1)数据采集更新与自然语言处理NLP(Natural Language Processing)模块:
利用分布式爬虫技术从微博、新闻等信息源处实时获取最新新闻信息,并且运行外部更新机制不停地获取最新的新闻数据,例如通过n个数据采集器采集数据,并利用任务调度管理器实现对各个数据采集器的调度,在此基础上实现机器学习的正文解析、标签规则正文解析、噪声数据格式清洗及外部实时数据更新等,将结构化数据存储在大数据平台中,进一步运行NLP模块进行文档主题自动生成、短文本立场判定、潜在语义分析及文本信息抽取等,得到对应的内容-主题加以存储,并通过数据接口实现数据存取。
(2)企业经营管理风险知识图谱模块
针对企业经营管理风险数据,构建管理风险数据Schema,形成企业经营管理知识图谱,图谱构建模块的架构如图11中所示。其中:
在原始数据层中,在关系型数据库及资源型数据源如网页等中采集数据,如店铺、品牌、用户、用户评论、行业报告、新闻资讯等;
在图谱构建层中,进行概念定义、关系定义及属性定义等本体定义,并进行D2R映射,如从表格、记录、列名、记录数据和表关联分别向概念、实体、属性、属性值即关系的映射;
在图谱存储层,实现图数据存储及分布式文件索引存储等;
在图谱应用层,通过各种接口实现数据访问,通过资源搜索和实体识别等实现知识检索,并且通过可视化分析实现图谱探索、路径分析、时序分析及关联发现等。
(3)深度学习模块
通过构建风险识别模型,对企业风险进行识别并进行监控预建。另外,本实施例中还可以通过对知识图谱的增量更新,对风险识别模型进行进一步优化,以提高风险识别模型的准确性。具体实现如工程项目的风险识别、资产管理的风险识别、外部舆情传播识别及外部实时数据更新等处理。
(4)平台应用模块
基于电网企业管理信息,及其相关的历史负面样本,人事数据等,利用深度学习自动提取特征的优点,将企业管理中的各类数据输入到神经网络框架中进行训练调参,最终得到风险预测识别模型,如图12中所示,风险识别模型对采集到的生产数据集进行风险预测,得到风险识别结果,同时,在生产数据集存在增量更新的情况下,对风险识别模型使用新知识进行更新,以使得更新的风险识别模型能够得到更为准确的风险识别结果。具体的,风险识别模型可以针对各类风险进行监测和预警等处理,如工程项目、资产管理、廉政建设等风险识别及风险智能分析预测,再如,立场判断、网络溯源、舆情监测及舆情控制等,再如风险推理、风险关联、多维关联及风险标识等处理。
可见,本申请通过统一的内外部经营风险智能分析预警系统,可及时、地、量化地、精准地判别风险。利用基于自然语言处理的舆情风险管控监测系统,基于可视化分析技术,使公司能够迅速地发现事件中的关键人物、关键信息、重要观点,更好地分析网络舆情中事件的发生与发展过程。利用基于深度学习的企业内部经营管理风险智能识别监测系统,能高效识别出公司内部经营管理制度、流程、规范中存在的逻辑漏洞,及落实不当、管理不到位等管理风险。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。