CN111309827A

CN111309827A - 知识图谱构建方法、装置、计算机系统及可读存储介质

Info

Publication number: CN111309827A
Application number: CN202010207440.XA
Authority: CN
Inventors: 郭建福; 吴东辉
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Ping An Medical and Healthcare Management Co Ltd
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2020-06-19

Abstract

本发明公开了知识图谱构建方法、装置、计算机系统及可读存储介质，包括：从数据库中获取正常基础信息，提取正常基础信息的关键字并去重获得正常信息元；挖掘各正常信息元中具有正常有向关联关系的两个正常信息元，并将两个正常信息元认定为正常有向关联特征；挖掘各正常信息元中具有正常无向关联关系的两个正常信息元，并将两个正常信息元认定为正常无向关联特征；根据正常有向关联特征和正常无向关联特征，构建用于表达各正常信息元之间关联关系的知识图谱。本发明构建了反映各正常信息元之间充分不必要条件关系以及充分必要条件关系的知识图谱，实现了对数据关系的深层挖掘，使机构能够通过该知识图谱对不同区域角度的风险进行识别。

Description

知识图谱构建方法、装置、计算机系统及可读存储介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种知识图谱构建方法、装置、计算机系统及可读存储介质。

背景技术

风控模型是一种能够通过智能风控，为各地医保局识别欺诈骗保人员，减少风险敞口，保护医保基金安全的计算机程序。当前的风控模型通常是基于经验总结风险规律制定风控规则，以构建的用于识别风险的风控模型。

然而这种风控模型因缺乏对数据关系深层挖掘的手段，造成风控模型的局限性较强，无法对不同区域角度的风险进行识别。

发明内容

本发明的目的是提供一种知识图谱构建方法、装置、计算机系统及可读存储介质，用于解决现有技术存在的因缺乏对数据关系深层挖掘的手段，造成风控模型的局限性较强，无法对不同区域角度的风险进行识别的问题。

为实现上述目的，本发明提供一种基于大数据的知识图谱构建方法，包括：

从数据库中获取正常基础信息，提取正常基础信息的关键字并对所述关键字去重，获得正常信息元；其中，所述正常基础信息反映了符合预设认证规则的虚拟主体的属性和/或行为，所述正常信息元反映了所述虚拟主体的任一属性或行为；

挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元，并将所述两个正常信息元认定为正常有向关联特征；其中，所述正常有向关联关系是指具有充分不必要条件关系的两个正常信息元；

挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元，并将所述两个正常信息元认定为正常无向关联特征；其中，所述正常无向关联关系是指具有充分必要条件关系的两个正常信息元；

根据所述正常有向关联特征和正常无向关联特征，构建用于表达各正常信息元之间关联关系的知识图谱。

上述方案中，提取正常基础信息的关键字并对所述关键字去重，获得正常信息元之后，还包括：

从数据库中获取异常基础信息，提取异常基础信息的关键字并对所述关键字去重，获得异常信息元，其中，所述异常基础信息反映了不符合预设认证规则的虚拟主体的属性和/或行为，所述异常信息元反映了所述虚拟主体的任一属性或行为。

上述方案中，挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元的步骤，包括：

计算具有正常信息元的正常基础信息的数量，并将该数量作为所述正常信息元的样本数量；

任意提取两个正常信息元，计算同时出现所述两个正常信息元的正常基础信息的数量作为关联总量；

将所述关联总量分别与所述两个正常信息元的样本数量相除，分别获得第一关联值和第二关联值；

若所述第一关联值和第二关联值分别大于预设的有向关联阈值时，则判定所述两个正常信息元之间具有关联关系；

比较所述第一关联值和第二关联值；若所述第一关联值大于第二关联值，则判定第一关联值对应的正常信息元是第二关联值对应的正常信息元的充分不必要条件；若所述第二关联值大于第一关联值，则判定第二关联值对应的正常信息元是第一关联值对应的正常信息元的充分不必要条件。

上述方案中，将所述两个正常信息元认定为正常有向关联特征之后，包括：

挖掘各所述异常信息元中具有异常有向关联关系的两个异常信息元，并将所述两个异常信息元认定为异常有向关联特征；其中，所述异常有向关联关系是指具有充分不必要条件关系的两个异常信息元。

上述方案中，挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元的步骤，包括：

任意提取两个正常信息元作为内正常组合，并将除所述内正常信息元外其他正常信息元作为外正常组合；

计算具有所述内正常组合的正常基础信息的数量作为内关联总量，将所述内关联总量依次与所述内正常组合中正常信息元的样本数量相除获得内信息熵；

分别从内正常组合和外正常组合中提取一个正常信息元并组合形成内外正常组合，计算具有内外正常组合的正常基础信息的数量作为外关联总量，将所述外关联总量依次与所述内外正常组合中正常信息元的样本数量相除获得外信息熵；

判断所述内信息熵是否超过预设的内信息阈值；若未超过所述内信息阈值，则判定所述内正常组合的正常信息元不具有正常无向关联关系；若超过所述内信息阈值，则判断所述外信息熵是否小于预设的外信息阈值；若不小于所述外信息阈值，则判定所述内正常组合的正常信息元不具有正常无向关联关系；若小于所述外信息阈值，则判定所述内正常判组合的正常信息元具有正常无向关联关系。

上述方案中，将所述两个正常信息元认定为正常无向关联特征之后，包括：

挖掘各所述异常信息元中具有异常无向关联关系的两个异常信息元，并将所述两个异常信息元认定为异常无向关联特征；其中，所述异常无向关联关系是指具有充分必要条件关系的两个异常信息元。

上述方案中，构建用于表达各正常信息元之间关联关系的知识图谱之后，包括：

根据所述异常有向关联特征和异常无向关联特征，在所述知识图谱中构建异常关系模型，以在所述知识图谱中反映异常的关联特征。

为实现上述目的，本发明还提供一种基于大数据的知识图谱构建装置，包括：

正常关键字提取模块，用于从数据库中获取正常基础信息，提取正常基础信息的关键字并对所述关键字去重，获得正常信息元；其中，所述正常基础信息反映了符合预设认证规则的虚拟主体的属性和/或行为，所述正常信息元反映了所述虚拟主体的任一属性或行为；

正常有向关联模块，用于挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元，并将所述两个正常信息元认定为正常有向关联特征；其中，所述正常有向关联关系是指具有充分不必要条件关系的两个正常信息元；

正常无向关联模块，用于挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元，并将所述两个正常信息元认定为正常无向关联特征；其中，所述正常无向关联关系是指具有充分必要条件关系的两个正常信息元；

图谱构造模块，用于根据所述正常有向关联特征和正常无向关联特征，构建用于表达各正常信息元之间关联关系的知识图谱。

为实现上述目的，本发明还提供一种计算机系统，其包括多个计算机设备，各计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述多个计算机设备的处理器执行所述计算机程序时共同实现上述知识图谱构建方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述知识图谱构建方法的步骤。

本发明提供的知识图谱构建方法、装置、计算机系统及可读存储介质，通过挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元，以及具有正常无向关联关系的两个正常信息元，为机构提供用于构建有方向关系规则以及无方向关系规则的知识支撑，通过正常有向关联特征和正常无向关联特征，构建了反映各正常信息元之间充分不必要条件关系以及充分必要条件关系的知识图谱，实现了对数据关系的深层挖掘，为机构提供了构建有方向关系规则以及无方向关系规则的知识支撑，使机构能够通过该知识图谱对不同区域角度的风险进行识别，避免了现有风控模型因其局限性较强，导致无法准确识别不同角度区域的风险的问题。

附图说明

图1为本发明知识图谱构建方法实施例一的流程图；

图2为本发明知识图谱构建方法实施例二中知识图谱构建方法的环境应用示意图；

图3为本发明知识图谱构建方法实施例二的具体方法流程图；

图4为本发明知识图谱构建方法实施例二中挖掘具有正常有向关联关系的两个正常信息元的流程图；

图5为本发明知识图谱构建方法实施例二中挖掘具有异常有向关联关系的两个异常信息元的流程图；

图6为本发明知识图谱构建方法实施例二中挖掘具有正常无向关联关系的两个正常信息元的流程图；

图7为本发明知识图谱构建方法实施例二中挖掘具有异常无向关联关系的两个异常信息元的流程图；

图8为本发明知识图谱构建装置实施例三的程序模块示意图；

图9为本发明计算机系统实施例四中计算机设备的硬件结构示意图。

附图标记：

1、知识图谱构建装置 2、服务器 3、网络 4、数据库

5、计算机设备 11、正常关键字提取模块 12、异常关键字提取模块

13、正常有向关联模块 14、异常有向关联模块 15、正常无向关联模块

16、异常无向关联模块 17、图谱构造模块 18、异常关系模块

51、存储器 52、处理器

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的知识图谱构建方法、装置、计算机系统及可读存储介质，适用于大数据的数据分析领域，为提供一种基于正常关键字提取模块、正常有向关联模块、正常无向关联模块、图谱构造模块的知识图谱构建方法。本发明通过从数据库中获取正常基础信息，提取正常基础信息的关键字并对所述关键字去重，获得正常信息元；挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元，并将所述两个正常信息元认定为正常有向关联特征；其中，所述正常有向关联关系是指具有充分不必要条件关系的两个正常信息元；挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元，并将所述两个正常信息元认定为正常无向关联特征；其中，所述正常无向关联关系是指具有充分必要条件关系的两个正常信息元；根据所述正常有向关联特征和正常无向关联特征，构建用于表达各正常信息元之间关联关系的知识图谱。

实施例一

请参阅图1，本实施例的一种基于大数据的知识图谱构建方法，包括：

S101：从数据库中获取正常基础信息，提取正常基础信息的关键字并对所述关键字去重，获得正常信息元；其中，所述正常基础信息反映了符合预设认证规则的虚拟主体的属性和/或行为，所述正常信息元反映了所述虚拟主体的任一属性或行为；

S103：挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元，并将所述两个正常信息元认定为正常有向关联特征；其中，所述正常有向关联关系是指具有充分不必要条件关系的两个正常信息元；

S105：挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元，并将所述两个正常信息元认定为正常无向关联特征；其中，所述正常无向关联关系是指具有充分必要条件关系的两个正常信息元；

S107：根据所述正常有向关联特征和正常无向关联特征，构建用于表达各正常信息元之间关联关系的知识图谱。

本申请通过挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元，以及具有正常无向关联关系的两个正常信息元，为机构提供用于构建有方向关系规则以及无方向关系规则的知识支撑，通过正常有向关联特征和正常无向关联特征，构建了反映各正常信息元之间充分不必要条件关系以及充分必要条件关系的知识图谱，为用户提供构建规则的数据支撑，使得用户可通过该图谱进行规则制定。

由于本申请基于大量的正常基础信息(如：历史上经过权威机构认证通过的医保报销单)，构建了能够反映各正常信息元之间充分不必要条件关系，以及充分必要条件关系的知识图谱，实现了对数据关系的深层挖掘，为机构提供了构建有方向关系规则以及无方向关系规则的知识支撑，使机构能够通过该知识图谱构建多区域多角度的风险识别规则，避免了现有风控模型因其局限性较强，导致无法准确识别超出经验范围的风险的问题。

因此，综上所述，本申请实现了基于关联分析技术，对正常基础信息中具有关联关系(有方向关系和无方向关系)的正常信息元进行挖掘，获得能够表达关联关系的知识关系数据，使机构能够通过该知识关系数据(即所述知识图谱)构建能够多区域多角度的识别医保或金融领域中风险的风控模型，消除了当前医保或金融风控模型的局限性问题。

需要说明的是，关联分析又称关联挖掘，就是在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构，于本申请中，即通过挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元并将其认定为正常有向关联特征以及，以及具有正常无向关联关系的两个正常信息元并将其认定为正常无向关联特征，再根据所述正常有向关联特征和正常无向关联特征，构建用于表达各正常信息元之间关联关系的知识图谱，实现所述关联分析。

实施例二：

本实施例为上述实施例一的一种具体应用场景，通过本实施例，能够更加清楚、具体地阐述本发明所提供的方法。

下面，以运行有知识图谱构建方法的服务器，构建数据库中反映各正常信息元及各异常基础信息之间，充分不必要条件关系和充分必要条件关系的知识图谱为例，来对本实施例提供的方法进行具体说明。需要说明的是，本实施例只是示例性的，并不限制本发明实施例所保护的范围。

图2示意性示出了根据本申请实施例二的知识图谱构建方法的环境应用示意图。

在示例性的实施例中，知识图谱构建方法所在的服务器2与通过网络3与数据库4连接，所述网络3可以为各种网络设备，例如路由器，交换机，多路复用器，集线器，调制解调器，网桥，中继器，防火墙，代理设备和/或等等实现通信，其可以包括物理链路，例如同轴电缆链路，双绞线电缆链路，光纤链路，它们的组合和/或类似物，或可以包括无线链路，例如蜂窝链路，卫星链路，Wi-Fi链路和/或类似物。

图3是本发明一个实施例提供的一种知识图谱构建方法的具体方法流程图，该方法具体包括步骤S201至S208。

S201：从数据库中获取正常基础信息，提取正常基础信息的关键字并对所述关键字去重，获得正常信息元，其中，所述正常基础信息反映了符合预设认证规则的虚拟主体的属性和/或行为，所述正常信息元反映了所述虚拟主体的任一属性或行为。

本步骤中，所述正常基础信息为经过人工或认证设备认证，符合认证规则的虚拟主体的属性和/或行为的数据；所述认证规则可因使用场景的不同而由使用者自行设置，由于认证规则是判定数据库中基础信息为正常或异常的计算机规则，而本步骤的目的在于提取正常基础信息的正常信息元，因此，认证规则的技术原理在此不做赘述。

示例性地，所述正常基础信息为已被金融机构认证规则认证成功的医保报销凭证，如包括阑尾炎手术和麻醉药两个正常信息元的医保报销单。

需要说明的是，可采用基于自然语言处理的神经网络模型，或正则表达式等技术提取所述正常基础信息中的关键字，以获得正常信息元；所述神经网络模型或正则表达式属于现有技术，本领域技术人员可通过公知常识即可获得该模型或表达式的工作原理，因此，本申请对此技术不做赘述。

S202：从数据库中获取异常基础信息，提取异常基础信息的关键字并对所述关键字去重，获得异常信息元，其中，所述异常基础信息反映了不符合预设认证规则的虚拟主体的属性和/或行为，所述异常信息元反映了所述虚拟主体的任一属性或行为。

本步骤中，所述异常基础信息为经过人工或认证设备认证，不符合认证规则的虚拟主体的属性和/或行为的数据；所述认证规则可因使用场景的不同而由使用者自行设置，由于认证规则是判定数据库中基础信息为正常或异常的计算机规则，而本步骤的目的在于提取异常基础信息的异常信息元，因此，认证规则的技术原理在此不做赘述。

示例性地，所述异常基础信息为已被金融机构认证规则认证失败(如：具有诈骗嫌疑，或不属于医保报销范围的情况)的医保结算凭证，如包括护理费和滋补保健品两个异常信息元的医保报销单。

S203：挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元，并将所述两个正常信息元认定为正常有向关联特征；其中，所述正常有向关联关系是指具有充分不必要条件关系的两个正常信息元。

为获得所有正常基础信息中，有方向关系的正常信息元，即:具有充分不必要条件关系的正常信息元，为机构提供用于构建有方向关系规则的知识支撑。

在一个优选的实施例中，请参阅图4，挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元的步骤，包括：

S213：计算具有正常信息元的正常基础信息的数量，并将该数量作为所述正常信息元的样本数量；

S223：任意提取两个正常信息元，计算同时出现所述两个正常信息元的正常基础信息的数量作为关联总量；

S233：将所述关联总量分别与所述两个正常信息元的样本数量相除，分别获得第一关联值和第二关联值；

若所述第一关联值和第二关联值分别大于预设的有向关联阈值时，则判定所述两个正常信息元之间具有关联关系；若所述第一关联值和/或第二关联值小于或等于所述有向关联阈值，则判定所述两个正常信息元之间不具有关联关系；

S243：比较所述第一关联值和第二关联值；若所述第一关联值大于第二关联值，则判定第一关联值对应的正常信息元是第二关联值对应的正常信息元的充分不必要条件；若所述第二关联值大于第一关联值，则判定第二关联值对应的正常信息元是第一关联值对应的正常信息元的充分不必要条件。

示例性地，假设所述两个正常信息元分别为“阑尾炎手术”和“麻醉药”，统计具有“阑尾炎手术”的正常基础信息数量P(阑尾炎手术)、具有“麻醉药”的正常基础信息数量P(麻醉药)、以及获取到的正常基础信息中，同时具有“阑尾炎手术”和“麻醉药”的正常基础信息数量P(阑尾炎手术，麻醉药)，并将其设为关联总量；获得第一关联值P(阑尾炎手术，麻醉药)/P(阑尾炎手术)，以及第二关联值P(阑尾炎手术，麻醉药)/P(麻醉药)；如果P(阑尾炎手术，麻醉药)/P(阑尾炎手术)和P(阑尾炎手术，麻醉药)/P(麻醉药)均大于预设的关联阈值，则说明“阑尾炎手术”与“麻醉药”之间具有关联关系，如果P(阑尾炎手术，麻醉药)/P(阑尾炎手术)大于P(阑尾炎手术，麻醉药)/P(麻醉药)，则说明“阑尾炎手术”是“麻醉药”的充分不必要条件，即正常基础信息中若出现阑尾炎手术，则一定会出现麻醉药。

S204：挖掘各所述异常信息元中具有异常有向关联关系的两个异常信息元，并将所述两个异常信息元认定为异常有向关联特征；其中，所述异常有向关联关系是指具有充分不必要条件关系的两个异常信息元。

为获得所有异常基础信息中，有方向关系的异常信息元，即:具有充分不必要条件关系的异常信息元，为机构的知识图谱提供用于构建反映异常的有方向关系规则的知识支撑。本步骤中。

在一个优选的实施例中，请参阅图5，挖掘各所述异常信息元中具有异常有向关联关系的两个异常信息元的步骤，包括：

S214：计算具有异常信息元的异常基础信息的数量，并将该数量作为所述异常信息元的样本数量；

S224：任意提取两个异常信息元，计算同时出现所述两个异常信息元的异常基础信息的数量作为关联总量；

S234：将所述关联总量分别与所述两个异常信息元的样本数量相除，分别获得第三关联值和第四关联值；若所述第三关联值和第四关联值分别大于预设的有向关联阈值时，则判定所述两个异常信息元之间具有关联关系；若所述第三关联值和/或第四关联值小于或等于所述有向关联阈值，则判定所述两个异常信息元之间不具有关联关系；

S244：比较所述第三关联值和第四关联值；若所述第三关联值大于第四关联值，则判定第三关联值对应的异常信息元是第四关联值对应的异常信息元的充分不必要条件；若所述第四关联值大于第三关联值，则判定第四关联值对应的异常信息元是第三关联值对应的异常信息元的充分不必要条件。

示例性地，假设所述两个正常信息元分别为“护理费”和“滋补保健品”，统计具有“护理费”的正常基础信息数量P(护理费)、具有“滋补保健品”的正常基础信息数量P(滋补保健品)、以及获取到的正常基础信息中，同时具有“护理费”和“滋补保健品”的正常基础信息数量P(护理费，滋补保健品)，并将其设为关联总量；获得第三关联值P(护理费，滋补保健品)/P(护理费)，以及第四关联值P(护理费，滋补保健品)/P(滋补保健品)；如果P(护理费，滋补保健品)/P(护理费)和P(护理费，滋补保健品)/P(滋补保健品)均大于预设的关联阈值，则说明“护理费”与“滋补保健品”之间具有关联关系，如果P(护理费，滋补保健品)/P(护理费)大于P(护理费，滋补保健品)/P(滋补保健品)，则说明“护理费”是“滋补保健品”的充分不必要条件，即正常基础信息中若出现护理费，则一定会出现滋补保健品。

S205：挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元，并将所述两个正常信息元认定为正常无向关联特征；其中，所述正常无向关联关系是指具有充分必要条件关系的两个正常信息元。

为获得所有正常基础信息中具有无方向关系的正常信息元，即:具有充分必要条件关系的正常信息元，为机构提供用于构建无方向关系规则的知识支撑。本步骤中，采用NLP(自然语言处理)领域的Nagao算法挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元。

在一个优选的实施例中，请参阅图6，挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元的步骤，包括：

S215：计算具有正常信息元的正常基础信息的数量，并将该数量作为所述正常信息元的样本数量；

S225：任意提取两个正常信息元作为内正常组合，并将除所述内正常信息元外其他正常信息元作为外正常组合；

S235：计算具有所述内正常组合的正常基础信息的数量作为内关联总量，将所述内关联总量依次与所述内正常组合中正常信息元的样本数量相除获得内信息熵；

S245：分别从内正常组合和外正常组合中提取一个正常信息元并组合形成内外正常组合，计算具有内外正常组合的正常基础信息的数量作为外关联总量，将所述外关联总量依次与所述内外正常组合中正常信息元的样本数量相除获得外信息熵；

S255：判断所述内信息熵是否超过预设的内信息阈值；若未超过所述内信息阈值，则判定所述内正常组合的正常信息元不具有正常无向关联关系；若超过所述内信息阈值，则判断所述外信息熵是否小于预设的外信息阈值；若不小于所述外信息阈值，则判定所述内正常组合的正常信息元不具有正常无向关联关系；若小于所述外信息阈值，则判定所述内正常判组合的正常信息元具有正常无向关联关系。

示例性地，假设所有的正常信息元分别为“感冒”、“感冒药”、“健胃药”、“维生素片”，所述内正常组合的正常信息元分别为“感冒”、“感冒药”，外正常组合的正常信息元分别为“健胃药”、“维生素片”；分别计算具有“感冒”、“感冒药”、“健胃药”、“维生素片”的正常基础信息的数量，并分别获得各正常信息元的样本数量并记为：P(感冒)、P(感冒药)、P(健胃药)、P(维生素片)；

计算同时具有“感冒”和“感冒药”的正常基础信息的数量作为内关联总量，记为P(感冒,感冒药)，并计算P(感冒,感冒药)/P(感冒)/P(感冒药)获得内信息熵N；计算分别从内正常组合和外正常组合中提取一个正常信息元并组合得到内外正常组合，即：“感冒”、“健胃药”，“感冒”、“维生素片”，“感冒药”、“健胃药”，“感冒药”，“维生素片”，计算具有内外正常组合的正常基础信息的数量得到外关联总量，记为P(感冒,健胃药)、P(感冒,维生素片)、P(感冒药，健胃药)、P(感冒,维生素片)，并计算P(感冒,健胃药)/P(感冒)/P(健胃药)得到第一外信息熵W1，P(感冒,维生素片)/P(感冒)/P(维生素片)得到第二外信息熵W2，P(感冒药，健胃药)/P(感冒药)/P(健胃药)得到第三外信息熵W3，P(感冒,维生素片)/P(感冒药)/P(维生素片)得到第四外信息熵W4；如果内信息熵N均大于第一外信息熵W1、第二外信息熵W2、第三外信息熵W3和第四外信息熵W4，则判断内信息熵N是否超过预设的内信息阈值R，且，第一外信息熵W1、第二外信息熵W2、第三外信息熵W3和第四外信息熵W4是否分别小于预设的外信息阈值Q；若是，则判定正常信息元“感冒”与“感冒药”之间具有正常无向关联关系。

需要说明的是，Nagao算法是一种统计各个子字符串的频次，然后基于这些频次统计每个字符串的词频、左右邻个数、左右熵、交互信息(内部凝聚度)，因此本申请可采用S215-S255的步骤运行所述Nagao算法挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元。

S206：挖掘各所述异常信息元中具有异常无向关联关系的两个异常信息元，并将所述两个异常信息元认定为异常无向关联特征；其中，所述异常无向关联关系是指具有充分必要条件关系的两个异常信息元。

为获得所有异常基础信息中具有无方向关系的异常信息元，即:不具有充分必要条件关系的异常信息元，为机构提供用于构建无方向关系规则的知识支撑。本步骤中，采用NLP的Nagao算法挖掘各所述异常信息元中具有异常无向关联关系的两个异常信息元。

在一个优选的实施例中，请参阅图7，挖掘各所述异常信息元中具有异常无向关联关系的两个异常信息元的步骤，包括：

S216：计算具有异常信息元的异常基础信息的数量，并将该数量作为所述异常信息元的样本数量；

S226：任意提取两个异常信息元作为内异常组合，并将除所述内异常信息元外其他异常信息元作为外异常组合；

S236：计算具有所述内异常组合的异常基础信息的数量作为内关联总量，将所述内关联总量依次与所述内异常组合中异常信息元的样本数量相除获得内信息熵；

S246：分别从内异常组合和外异常组合中提取一个异常信息元并组合形成内外异常组合，计算具有内外异常组合的异常基础信息的数量作为外关联总量，将所述外关联总量依次与所述内外异常组合中异常信息元的样本数量相除获得外信息熵；

S256：判断所述内信息熵是否超过预设的内信息阈值；若未超过所述内信息阈值，则判定所述内异常组合的异常信息元不具有异常无向关联关系；

若超过所述内信息阈值，则判断所述外信息熵是否小于预设的外信息阈值；若不小于所述外信息阈值，则判定所述内异常组合的异常信息元不具有异常无向关联关系；若小于所述外信息阈值，则判定所述内异常判组合的异常信息元具有异常无向关联关系。

示例性地，假设所有的异常信息元分别为“感冒”、“健胃药”、“维生素片”，所述内异常组合的异常信息元分别为“感冒”、“健胃药”，外异常组合的异常信息元分别为“健胃药”、“维生素片”；分别计算具有“感冒”、“健胃药”、“维生素片”的异常基础信息的数量，并分别获得各异常信息元的样本数量并记为：P(感冒)、P(健胃药)、P(维生素片)；计算同时具有“感冒”和“健胃药”的异常基础信息的数量作为内关联总量，记为P(感冒,健胃药)，并计算P(感冒,健胃药)/P(感冒)/P(健胃药)获得内信息熵YN；

计算分别从内异常组合和外异常组合中提取一个异常信息元并组合得到内外异常组合，即：

“感冒”，“维生素片”，计算具有内外异常组合的异常基础信息的数量得到外关联总量，记为P(感冒,维生素片)，并计算P(感冒,维生素片)/P(感冒)/P(维生素片)得到外信息熵YW，如果内信息熵YN大于外信息熵YW，则判断内信息熵YN是否超过预设的内信息阈值YR，且，外信息熵YW小于预设的外信息阈值YQ；若是，则判定异常信息元“感冒”与“健胃药”之间具有异常无向关联关系。

需要说明的是，Nagao算法是一种统计各个子字符串的频次，然后基于这些频次统计每个字符串的词频、左右邻个数、左右熵、交互信息(内部凝聚度)，因此本申请可采用S216-S256的步骤运行所述Nagao算法挖掘各所述异常信息元中具有正常无向关联关系的两个异常信息元。

S207：根据所述正常有向关联特征和正常无向关联特征，构建用于表达各正常信息元之间关联关系的知识图谱。

为了能够为用户提供构建规则的数据支撑，本步骤通过正常有向关联特征和正常无向关联特征，构建了反映各正常信息元之间充分不必要条件关系以及充分必要条件关系的知识图谱，使得用户可通过该图谱进行规则制定。

本步骤中，采用Apriori算法根据所述正常有向关联特征和正常无向关联特征，构建用于表达各信息元之间关联关系的知识图谱；需要说明的是，Apriori算法是一种关联规则挖掘算法，其利用逐层搜索的迭代方法找出数据库中项集的关系，以形成规则，其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。

于本实施例中，通过Apriori算法根据所述正常有向关联特征和正常无向关联特征进行类矩阵运算和剪枝运算，获得能够表达各正常信息元之间关联关系的可视化的知识图谱。

进一步地，还可通过Apriori算法将所述正常无向关联特征的子集作为构建所述知识图谱的数据支撑，其中，所述子集是指所有元素均属于正常无向关联特征的集合。例如，“感冒”、“感冒药”、“注射器”为正常无向关联特征，那么“感冒”、“感冒药”，“感冒”、“注射器”，“感冒药”、“注射器”为所述正常无向关联特征的子集。

S208：根据所述异常有向关联特征和异常无向关联特征，在所述知识图谱中构建异常关系模型，以在所述知识图谱中反映异常的关联特征。

为了能够为用户提供构建规则的数据支撑，本步骤通过异常有向关联特征和异常无向关联特征，构建了反映各异常信息元之间充分不必要条件关系以及充分必要条件关系的异常关系模型，以作为知识图谱的异常数据关系补充，使得用户可通过该图谱进行规则制定。

本步骤中，采用Apriori算法根据所述异常有向关联特征和异常无向关联特征，构建用于表达各信息元之间关联关系的知识图谱；需要说明的是，Apriori算法是一种关联规则挖掘算法，其利用逐层搜索的迭代方法找出数据库中项集的关系，以形成规则，其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。

于本实施例中，通过Apriori算法根据所述异常有向关联特征和异常无向关联特征进行类矩阵运算和剪枝运算，获得能够表达各异常信息元之间关联关系的可视化的异常关系模型，以作为知识图谱的规则补充，用于反应异常的关联特征。

进一步地，还可通过Apriori算法将所述异常无向关联特征的超集作为构建所述知识图谱的数据支撑，其中，所述子集是指至少含有所有属于异常无向关联特征元素的集合。例如，“感冒”、“健胃药”为异常无向关联特征，那么“感冒”、“健胃药”、“注射器”，“感冒”、“健胃药”，“保健药品”等均为所述异常无向关联特征的超集。

实施例三：

请参阅图8，本实施例的一种基于大数据的知识图谱构建装置，包括：

正常关键字提取模块11，用于从数据库中获取正常基础信息，提取正常基础信息的关键字并对所述关键字去重，获得正常信息元；其中，所述正常基础信息反映了符合预设认证规则的虚拟主体的属性和/或行为，所述正常信息元反映了所述虚拟主体的任一属性或行为；

正常有向关联模块13，用于挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元，并将所述两个正常信息元认定为正常有向关联特征；其中，所述正常有向关联关系是指具有充分不必要条件关系的两个正常信息元；

正常无向关联模块15，用于挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元，并将所述两个正常信息元认定为正常无向关联特征；其中，所述正常无向关联关系是指具有充分必要条件关系的两个正常信息元；

图谱构造模块17，用于根据所述正常有向关联特征和正常无向关联特征，构建用于表达各正常信息元之间关联关系的知识图谱。

可选的，所述知识图谱构建装置1还包括：

异常关键字提取模块12，用于从数据库中获取异常基础信息，提取异常基础信息的关键字并对所述关键字去重，获得异常信息元，其中，所述异常基础信息反映了不符合预设认证规则的虚拟主体的属性和/或行为，所述异常信息元反映了所述虚拟主体的任一属性或行为。

可选的，所述知识图谱构建装置1还包括：

异常有向关联模块14，用于挖掘各所述异常信息元中具有异常有向关联关系的两个异常信息元，并将所述两个异常信息元认定为异常有向关联特征；其中，所述异常有向关联关系是指具有充分不必要条件关系的两个异常信息元。

可选的，所述知识图谱构建装置1还包括：

异常无向关联模块16，用于挖掘各所述异常信息元中具有异常无向关联关系的两个异常信息元，并将所述两个异常信息元认定为异常无向关联特征；其中，所述异常无向关联关系是指具有充分必要条件关系的两个异常信息元。

可选的，所述知识图谱构建装置1还包括：

异常关系模块18，用于根据所述异常有向关联特征和异常无向关联特征，在所述知识图谱中构建异常关系模型，以在所述知识图谱中反映异常的关联特征。

本技术方案基于大数据的数据分析，通过从数据库中获取正常基础信息，提取正常基础信息的关键字并对所述关键字去重，获得正常信息元；挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元，并将所述两个正常信息元认定为正常有向关联特征；挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元，并将所述两个正常信息元认定为正常无向关联特征；根据所述正常有向关联特征和正常无向关联特征，构建用于表达各正常信息元之间关联关系的知识图谱，以实现对信息之间的知识关系挖掘。

实施例四：

为实现上述目的，本发明还提供一种计算机系统，该计算机系统包括多个计算机设备5，实施例二的知识图谱构建装置1的组成部分可分散于不同的计算机设备中，计算机设备可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器51、处理器52，如图9所示。需要指出的是，图9仅示出了具有组件-的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器51可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器51也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例一的知识图谱构建装置的程序代码等。此外，存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器52在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中，处理器52用于运行存储器51中存储的程序代码或者处理数据，例如运行知识图谱构建装置，以实现实施例一的知识图谱构建方法。

实施例五：

为实现上述目的，本发明还提供一种计算机可读存储系统，其包括多个存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储知识图谱构建装置，被处理器52执行时实现实施例一的知识图谱构建方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于大数据的知识图谱构建方法，其特征在于，包括：

2.根据权利要求1所述的知识图谱构建方法，其特征在于，提取正常基础信息的关键字并对所述关键字去重，获得正常信息元之后，还包括：

3.根据权利要求1所述的知识图谱构建方法，其特征在于，挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元的步骤，包括：

4.根据权利要求1所述的知识图谱构建方法，其特征在于，将所述两个正常信息元认定为正常有向关联特征之后，包括：

5.根据权利要求1所述的知识图谱构建方法，其特征在于，挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元的步骤，包括：

6.根据权利要求1所述的知识图谱构建方法，其特征在于，将所述两个正常信息元认定为正常无向关联特征之后，包括：

7.根据权利要求1所述的知识图谱构建方法，其特征在于，构建用于表达各正常信息元之间关联关系的知识图谱之后，包括：

8.一种基于大数据的知识图谱构建装置，其特征在于，包括：

9.一种计算机系统，其包括多个计算机设备，各计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述多个计算机设备的处理器执行所述计算机程序时共同实现权利要求1至7任一项所述知识图谱构建方法的步骤。

10.一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，其特征在于，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现权利要求1至7任一项所述知识图谱构建方法的步骤。