CN112612906B

CN112612906B - 一种基于最大熵模型的规则知识图谱构建方法及系统

Info

Publication number: CN112612906B
Application number: CN202011604545.5A
Authority: CN
Inventors: 林尔迅; 吴智海; 林海; 梁保华; 余永奎; 蔡春元; 陈仁威; 黄唯佳; 苏轩; 陈嘉俊
Original assignee: Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-01-11
Anticipated expiration: 2040-12-29
Also published as: CN112612906A

Abstract

本发明公开了一种基于最大熵模型的规则知识图谱构建方法及系统，所述方法包括以下步骤：S1：导入非结构化数据；S2：根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集；S3：利用现有的深度学习算法训练标注数据集生成规则模型；S4：利用规则模型提取需求的字段，并通过融合多特征的最大熵汉语命名实体识别模型，生成知识图谱；S5：利用寻径算法模型生成简化知识图谱；S6：将待处理的非结构化数据通过校验规则匹配依次执行步骤S2‑S5得计算结果。本发明通过生成知识图谱降低了搜索空间、简化了数据校验规则，满足了跨界面校验关联数据的需求，提高了校验效率。

Description

一种基于最大熵模型的规则知识图谱构建方法及系统

技术领域

本发明涉及知识图谱技术领域，更具体地，涉及一种基于最大熵模型的规则知识图谱构建方法及系统。

背景技术

随着信息社会的不断发展,人们所产出的知识以几何级数递增。在当今知识管理体系中,文档仍为一个主要的知识存在形式,它包括了图书、报纸、期刊和网络上数以亿记的各种格式文本文件。这种非结构化的文档中的知识很难为一些工具所利用以达到快速获取信息的目的,因此我们十分需要一种有效的从非结构化、半结构化文档中获取知识的方法，用这些有效的知识对一个非结构化的文档进行有效的筛选。常见的信息抽取方案有基于网页结构、基于文档结构的,也有基于文档内容分析的,但缺乏领域语义的支持。

电力公司计量中心使用的营销系统、计量自动化系统业务复杂性不断增加，字段多；在业务系统和发文数据中存在许多业务方需求的数据，如客户，设备，地址等。传统的处理方式是依靠专家规则判断，规则的制定往往不能匹配业务的发展速度，不能快速精确的发觉问题。存在跨界面校验关联数据的需求；目前无法自行配置一些校验任务，时效性较差；不同操作人员的数据校验方式都比较零散；缺乏一套解决业务数据校验问题的方法。

现有技术中，公开号为CN107291800A中国发明专利，于2017年10月24日公开了一种基于关联发现的知识图谱Horn规则挖掘方法，包括(1)输入一个三元组格式的知识图谱，初始化Horn规则配置参数；(2)从知识图谱中选择n个需要进行挖掘的关系，并将n个不含规则体的空Horn规则放入目标规则集合中；(3)在目标规则集合中取一个空Horn规则，从知识图谱中抽取所有的具有推导出空Horn规则所对应的挖掘关系可能性的规则体，将满足条件的由规则体与空Horn规则组成的Horn规则输出；(4)判断集合中的空Horn规则的个数是否为0，若是，结束Horn规则的挖掘，若否，执行步骤(3)。该方法实现了知识图谱Horn规则的自动学习。该方法需要对所有可能的规则体进行抽取，对大于10^3数量级的数据量不适用。

发明内容

本发明为克服上述现有技术中电力公司计量中心使用的营销系统无法解决跨界面校验关联数据的需求，数据校验方式零散、效率低的缺陷，提供一种基于最大熵模型的规则知识图谱构建方法及系统。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

本发明第一方面提供了一种基于最大熵模型的规则知识图谱构建方法，包括以下步骤：

S1：导入非结构化数据；

S2；根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集；

S3：利用现有的深度学习算法训练标注数据集生成规则模型；

S4：利用规则模型提取需求的字段，并通过融合多特征的最大熵汉语命名实体识别模型，生成知识图谱；

S5：利用寻径算法模型生成简化知识图谱；

S6：将待处理的非结构化数据通过校验规则匹配后依次执行步骤S2-S5得计算结果。

进一步地，所述非结构化数据包括有：网页、文本、PDF文档。

进一步地，通过融合多特征的最大熵汉语命名实体识别模型，生成知识图谱具体过程为：

S401：输入提取的字段对应的实体概念及其相互联系的文本数据；

S402：构建实体之间的关系值，实体间通过关系相互连结，形成网状知识结构；

S403：利用最大熵算法计算实体之间的关系值得到知识图谱。

进一步地，利用寻径算法模型生成简化知识图谱具体过程为：

S501：基于有向图寻径算法和历史数据，计算知识图谱中的数据内容实体间联系的相似或差异程度；

S502：检查所有输入的知识图谱中的数据之间的关系，然后建立数据间的关系，然后将数据之间的关系表达成一个图；

S503：应用最大连通子图方法对图谱进行最大程度的简化，得到简化知识图谱。

进一步地，所述深度学习算法为卷积神经网络算法或生成对抗神经网络算法。

本发明第二方面提供了一种基于最大熵模型的规则知识图谱构建系统，包括：数据对接模块、校验规则标注模块、校验规则训练模块、知识图谱生成模块、校验规则匹配模块，

所述据对接模块用于代入非结构化数据；

所述校验规则标注模块用于根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集；

所述校验规则训练模块利用现有的深度学习算法训练标注数据集生成规则模型；

所述知识图谱生成模块用于利用规则模型提取需求的字段，并通过融合多特征的最大熵汉语命名实体识别模型，生成知识图谱，利用寻径算法模型生成简化知识图谱；

所述校验规则匹配模块用于校验待处理的非结构化数据。

S403：利用最大熵算法计算实体之间的关系值得到知识图谱。

进一步地，S501：基于有向图寻径算法和历史数据，计算知识图谱中的数据内容实体间联系的相似或差异程度；

与现有技术相比，本发明技术方案的有益效果是：

本发明首先通过现有的深度学习算法生成规则模型，然后提取需要字段，通过融合多特征的最大熵汉语命名实体识别模型生成知识图谱并利用寻径算法模型生成简化知识图谱，本发明通过生成知识图谱降低了搜索空间、简化了数据校验规则，满足了跨界面校验关联数据的需求，提高了校验效率。

附图说明

图1为本发明方法流程图。

图2为本发明知识图谱生成流程图。

图3为本发明利用寻径算法模型生成简化知识图谱流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

如图1所示，本发明第一方面提供了一种基于最大熵模型的规则知识图谱构建方法，包括以下步骤：

S1：导入非结构化数据，所述非结构化数据包括有：网页、文本、PDF文档。

在一个具体的实施例中，所述非结构化数据还可以包括报表、图像等。

在一个具体的实施例中，所述深度学习算法可以为卷积神经网络算法或生成对抗神经网络算法。

如图2所示，通过融合多特征的最大熵汉语命名实体识别模型，生成知识图谱具体过程为：

S403：利用最大熵算法计算实体之间的关系值得到知识图谱；

现有的最大熵算法一般处理流程为：

定义：熵是随机变量不确定性的度量，不确定性越大，熵值就越大；若随机变量退化成定值，熵为0。均匀分布是“最不确定”的分布。假设离散随机变量X的概率分布为P(x)，则其熵为：

定义联合熵和条件熵：两个随机变量的X，Y的联合分布，可以形成联合熵，用H(X,Y)表示条件熵

定义相对熵：设p(x),q(x)是X中取值的两个概率分布，则p对q的相对熵是：

定义互信息：两个随机变量X，Y的互信息，定义为X，Y的联合分布和独立分布乘积的相对熵。

I(X,Y)＝D(P(X,Y)||P(X)P(Y))

注：最大熵原理认为，学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。

用特征函数f(x,y)描述输入x,输出y之间的某一个事实，只有0和1两种值，称为二值函数。

最大熵模型的学习等价于约束的最优化问题：

引入拉格朗日算子w，定义拉格朗日函数L(P,w)，w0为w的初始值，通常取一个0到1之间的随机数(w是最后要求得的一个参数)

优化的原始问题：

对偶问题是：

由于L(P,W)是P的凸函数，原始问题的解与对偶问题的解是等价的。这里通过求对偶问题的解来求原始问题的解。

第一步求解内部极小化问题，记为：

通过微分求导，得出P的解是：

第二步求外部的极大化问题：

最后的解记为：

S5：利用寻径算法模型生成简化知识图谱；

如图3所示，利用寻径算法模型生成简化知识图谱具体过程为：

所述据对接模块用于代入非结构化数据；

所述校验规则匹配模块用于校验待处理的非结构化数据。

S403：利用最大熵算法计算实体之间的关系值得到知识图谱。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于最大熵模型的规则知识图谱构建方法，其特征在于，包括以下步骤：

S1：导入非结构化数据；

S2：根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集；

所述通过融合多特征的最大熵汉语命名实体识别模型，生成知识图谱具体过程为：

S403：利用最大熵算法计算实体之间的关系值得到知识图谱；

S5：利用寻径算法模型生成简化知识图谱；

所述利用寻径算法模型生成简化知识图谱具体过程为：

S503：应用最大连通子图方法对图谱进行最大程度的简化，得到简化知识图谱；

2.根据权利要求1所述的一种基于最大熵模型的规则知识图谱构建方法，其特征在于，所述非结构化数据包括有：网页、文本、PDF文档。

3.根据权利要求1所述的一种基于最大熵模型的规则知识图谱构建方法，其特征在于，所述深度学习算法为卷积神经网络算法或生成对抗神经网络算法。

4.一种基于最大熵模型的规则知识图谱构建系统，其特征在于，包括：数据对接模块、校验规则标注模块、校验规则训练模块、知识图谱生成模块、校验规则匹配模块，

所述数据对接模块用于代入非结构化数据；

输入提取的字段对应的实体概念及其相互联系的文本数据；

构建实体之间的关系值，实体间通过关系相互连结，形成网状知识结构；

利用最大熵算法计算实体之间的关系值得到知识图谱；

所述利用寻径算法模型生成简化知识图谱具体过程为：

基于有向图寻径算法和历史数据，计算知识图谱中的数据内容实体间联系的相似或差异程度；

检查所有输入的知识图谱中的数据之间的关系，然后建立数据间的关系，然后将数据之间的关系表达成一个图；

应用最大连通子图方法对图谱进行最大程度的简化，得到简化知识图谱；

所述校验规则匹配模块用于校验待处理的非结构化数据。

5.根据权利要求4所述的一种基于最大熵模型的规则知识图谱构建系统，其特征在于，所述非结构化数据包括有：网页、文本、PDF文档。

6.根据权利要求4所述的一种基于最大熵模型的规则知识图谱构建系统，其特征在于，所述深度学习算法为卷积神经网络算法或生成对抗神经网络算法。