CN112612906B - 一种基于最大熵模型的规则知识图谱构建方法及系统 - Google Patents
一种基于最大熵模型的规则知识图谱构建方法及系统 Download PDFInfo
- Publication number
- CN112612906B CN112612906B CN202011604545.5A CN202011604545A CN112612906B CN 112612906 B CN112612906 B CN 112612906B CN 202011604545 A CN202011604545 A CN 202011604545A CN 112612906 B CN112612906 B CN 112612906B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- generating
- knowledge
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于最大熵模型的规则知识图谱构建方法及系统,所述方法包括以下步骤:S1:导入非结构化数据;S2:根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集;S3:利用现有的深度学习算法训练标注数据集生成规则模型;S4:利用规则模型提取需求的字段,并通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱;S5:利用寻径算法模型生成简化知识图谱;S6:将待处理的非结构化数据通过校验规则匹配依次执行步骤S2‑S5得计算结果。本发明通过生成知识图谱降低了搜索空间、简化了数据校验规则,满足了跨界面校验关联数据的需求,提高了校验效率。
Description
技术领域
本发明涉及知识图谱技术领域,更具体地,涉及一种基于最大熵模型的规则知识图谱构建方法及系统。
背景技术
随着信息社会的不断发展,人们所产出的知识以几何级数递增。在当今知识管理体系中,文档仍为一个主要的知识存在形式,它包括了图书、报纸、期刊和网络上数以亿记的各种格式文本文件。这种非结构化的文档中的知识很难为一些工具所利用以达到快速获取信息的目的,因此我们十分需要一种有效的从非结构化、半结构化文档中获取知识的方法,用这些有效的知识对一个非结构化的文档进行有效的筛选。常见的信息抽取方案有基于网页结构、基于文档结构的,也有基于文档内容分析的,但缺乏领域语义的支持。
电力公司计量中心使用的营销系统、计量自动化系统业务复杂性不断增加,字段多;在业务系统和发文数据中存在许多业务方需求的数据,如客户,设备,地址等。传统的处理方式是依靠专家规则判断,规则的制定往往不能匹配业务的发展速度,不能快速精确的发觉问题。存在跨界面校验关联数据的需求;目前无法自行配置一些校验任务,时效性较差;不同操作人员的数据校验方式都比较零散;缺乏一套解决业务数据校验问题的方法。
现有技术中,公开号为CN107291800A中国发明专利,于2017年10月24日公开了一种基于关联发现的知识图谱Horn规则挖掘方法,包括(1)输入一个三元组格式的知识图谱,初始化Horn规则配置参数;(2)从知识图谱中选择n个需要进行挖掘的关系,并将n个不含规则体的空Horn规则放入目标规则集合中;(3)在目标规则集合中取一个空Horn规则,从知识图谱中抽取所有的具有推导出空Horn规则所对应的挖掘关系可能性的规则体,将满足条件的由规则体与空Horn规则组成的Horn规则输出;(4)判断集合中的空Horn规则的个数是否为0,若是,结束Horn规则的挖掘,若否,执行步骤(3)。该方法实现了知识图谱Horn规则的自动学习。该方法需要对所有可能的规则体进行抽取,对大于10^3数量级的数据量不适用。
发明内容
本发明为克服上述现有技术中电力公司计量中心使用的营销系统无法解决跨界面校验关联数据的需求,数据校验方式零散、效率低的缺陷,提供一种基于最大熵模型的规则知识图谱构建方法及系统。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种基于最大熵模型的规则知识图谱构建方法,包括以下步骤:
S1:导入非结构化数据;
S2;根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集;
S3:利用现有的深度学习算法训练标注数据集生成规则模型;
S4:利用规则模型提取需求的字段,并通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱;
S5:利用寻径算法模型生成简化知识图谱;
S6:将待处理的非结构化数据通过校验规则匹配后依次执行步骤S2-S5得计算结果。
进一步地,所述非结构化数据包括有:网页、文本、PDF文档。
进一步地,通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱具体过程为:
S401:输入提取的字段对应的实体概念及其相互联系的文本数据;
S402:构建实体之间的关系值,实体间通过关系相互连结,形成网状知识结构;
S403:利用最大熵算法计算实体之间的关系值得到知识图谱。
进一步地,利用寻径算法模型生成简化知识图谱具体过程为:
S501:基于有向图寻径算法和历史数据,计算知识图谱中的数据内容实体间联系的相似或差异程度;
S502:检查所有输入的知识图谱中的数据之间的关系,然后建立数据间的关系,然后将数据之间的关系表达成一个图;
S503:应用最大连通子图方法对图谱进行最大程度的简化,得到简化知识图谱。
进一步地,所述深度学习算法为卷积神经网络算法或生成对抗神经网络算法。
本发明第二方面提供了一种基于最大熵模型的规则知识图谱构建系统,包括:数据对接模块、校验规则标注模块、校验规则训练模块、知识图谱生成模块、校验规则匹配模块,
所述据对接模块用于代入非结构化数据;
所述校验规则标注模块用于根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集;
所述校验规则训练模块利用现有的深度学习算法训练标注数据集生成规则模型;
所述知识图谱生成模块用于利用规则模型提取需求的字段,并通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱,利用寻径算法模型生成简化知识图谱;
所述校验规则匹配模块用于校验待处理的非结构化数据。
进一步地,所述非结构化数据包括有:网页、文本、PDF文档。
进一步地,通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱具体过程为:
S401:输入提取的字段对应的实体概念及其相互联系的文本数据;
S402:构建实体之间的关系值,实体间通过关系相互连结,形成网状知识结构;
S403:利用最大熵算法计算实体之间的关系值得到知识图谱。
进一步地,S501:基于有向图寻径算法和历史数据,计算知识图谱中的数据内容实体间联系的相似或差异程度;
S502:检查所有输入的知识图谱中的数据之间的关系,然后建立数据间的关系,然后将数据之间的关系表达成一个图;
S503:应用最大连通子图方法对图谱进行最大程度的简化,得到简化知识图谱。
进一步地,所述深度学习算法为卷积神经网络算法或生成对抗神经网络算法。
与现有技术相比,本发明技术方案的有益效果是:
本发明首先通过现有的深度学习算法生成规则模型,然后提取需要字段,通过融合多特征的最大熵汉语命名实体识别模型生成知识图谱并利用寻径算法模型生成简化知识图谱,本发明通过生成知识图谱降低了搜索空间、简化了数据校验规则,满足了跨界面校验关联数据的需求,提高了校验效率。
附图说明
图1为本发明方法流程图。
图2为本发明知识图谱生成流程图。
图3为本发明利用寻径算法模型生成简化知识图谱流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1所示,本发明第一方面提供了一种基于最大熵模型的规则知识图谱构建方法,包括以下步骤:
S1:导入非结构化数据,所述非结构化数据包括有:网页、文本、PDF文档。
在一个具体的实施例中,所述非结构化数据还可以包括报表、图像等。
S2;根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集;
S3:利用现有的深度学习算法训练标注数据集生成规则模型;
在一个具体的实施例中,所述深度学习算法可以为卷积神经网络算法或生成对抗神经网络算法。
S4:利用规则模型提取需求的字段,并通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱;
如图2所示,通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱具体过程为:
S401:输入提取的字段对应的实体概念及其相互联系的文本数据;
S402:构建实体之间的关系值,实体间通过关系相互连结,形成网状知识结构;
S403:利用最大熵算法计算实体之间的关系值得到知识图谱;
现有的最大熵算法一般处理流程为:
定义:熵是随机变量不确定性的度量,不确定性越大,熵值就越大;若随机变量退化成定值,熵为0。均匀分布是“最不确定”的分布。假设离散随机变量X的概率分布为P(x),则其熵为:
定义联合熵和条件熵:两个随机变量的X,Y的联合分布,可以形成联合熵,用H(X,Y)表示条件熵
定义相对熵:设p(x),q(x)是X中取值的两个概率分布,则p对q的相对熵是:
定义互信息:两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
I(X,Y)=D(P(X,Y)||P(X)P(Y))
注:最大熵原理认为,学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。
用特征函数f(x,y)描述输入x,输出y之间的某一个事实,只有0和1两种值,称为二值函数。
最大熵模型的学习等价于约束的最优化问题:
引入拉格朗日算子w,定义拉格朗日函数L(P,w),w0为w的初始值,通常取一个0到1之间的随机数(w是最后要求得的一个参数)
优化的原始问题:
对偶问题是:
由于L(P,W)是P的凸函数,原始问题的解与对偶问题的解是等价的。这里通过求对偶问题的解来求原始问题的解。
第一步求解内部极小化问题,记为:
通过微分求导,得出P的解是:
第二步求外部的极大化问题:
最后的解记为:
S5:利用寻径算法模型生成简化知识图谱;
如图3所示,利用寻径算法模型生成简化知识图谱具体过程为:
S501:基于有向图寻径算法和历史数据,计算知识图谱中的数据内容实体间联系的相似或差异程度;
S502:检查所有输入的知识图谱中的数据之间的关系,然后建立数据间的关系,然后将数据之间的关系表达成一个图;
S503:应用最大连通子图方法对图谱进行最大程度的简化,得到简化知识图谱。
S6:将待处理的非结构化数据通过校验规则匹配后依次执行步骤S2-S5得计算结果。
本发明第二方面提供了一种基于最大熵模型的规则知识图谱构建系统,包括:数据对接模块、校验规则标注模块、校验规则训练模块、知识图谱生成模块、校验规则匹配模块,
所述据对接模块用于代入非结构化数据;
所述校验规则标注模块用于根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集;
所述校验规则训练模块利用现有的深度学习算法训练标注数据集生成规则模型;
所述知识图谱生成模块用于利用规则模型提取需求的字段,并通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱,利用寻径算法模型生成简化知识图谱;
所述校验规则匹配模块用于校验待处理的非结构化数据。
进一步地,所述非结构化数据包括有:网页、文本、PDF文档。
进一步地,通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱具体过程为:
S401:输入提取的字段对应的实体概念及其相互联系的文本数据;
S402:构建实体之间的关系值,实体间通过关系相互连结,形成网状知识结构;
S403:利用最大熵算法计算实体之间的关系值得到知识图谱。
进一步地,S501:基于有向图寻径算法和历史数据,计算知识图谱中的数据内容实体间联系的相似或差异程度;
S502:检查所有输入的知识图谱中的数据之间的关系,然后建立数据间的关系,然后将数据之间的关系表达成一个图;
S503:应用最大连通子图方法对图谱进行最大程度的简化,得到简化知识图谱。
进一步地,所述深度学习算法为卷积神经网络算法或生成对抗神经网络算法。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种基于最大熵模型的规则知识图谱构建方法,其特征在于,包括以下步骤:
S1:导入非结构化数据;
S2:根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集;
S3:利用现有的深度学习算法训练标注数据集生成规则模型;
S4:利用规则模型提取需求的字段,并通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱;
所述通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱具体过程为:
S401:输入提取的字段对应的实体概念及其相互联系的文本数据;
S402:构建实体之间的关系值,实体间通过关系相互连结,形成网状知识结构;
S403:利用最大熵算法计算实体之间的关系值得到知识图谱;
S5:利用寻径算法模型生成简化知识图谱;
所述利用寻径算法模型生成简化知识图谱具体过程为:
S501:基于有向图寻径算法和历史数据,计算知识图谱中的数据内容实体间联系的相似或差异程度;
S502:检查所有输入的知识图谱中的数据之间的关系,然后建立数据间的关系,然后将数据之间的关系表达成一个图;
S503:应用最大连通子图方法对图谱进行最大程度的简化,得到简化知识图谱;
S6:将待处理的非结构化数据通过校验规则匹配后依次执行步骤S2-S5得计算结果。
2.根据权利要求1所述的一种基于最大熵模型的规则知识图谱构建方法,其特征在于,所述非结构化数据包括有:网页、文本、PDF文档。
3.根据权利要求1所述的一种基于最大熵模型的规则知识图谱构建方法,其特征在于,所述深度学习算法为卷积神经网络算法或生成对抗神经网络算法。
4.一种基于最大熵模型的规则知识图谱构建系统,其特征在于,包括:数据对接模块、校验规则标注模块、校验规则训练模块、知识图谱生成模块、校验规则匹配模块,
所述数 据对接模块用于代入非结构化数据;
所述校验规则标注模块用于根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集;
所述校验规则训练模块利用现有的深度学习算法训练标注数据集生成规则模型;
所述知识图谱生成模块用于利用规则模型提取需求的字段,并通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱,利用寻径算法模型生成简化知识图谱;
所述通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱具体过程为:
输入提取的字段对应的实体概念及其相互联系的文本数据;
构建实体之间的关系值,实体间通过关系相互连结,形成网状知识结构;
利用最大熵算法计算实体之间的关系值得到知识图谱;
所述利用寻径算法模型生成简化知识图谱具体过程为:
基于有向图寻径算法和历史数据,计算知识图谱中的数据内容实体间联系的相似或差异程度;
检查所有输入的知识图谱中的数据之间的关系,然后建立数据间的关系,然后将数据之间的关系表达成一个图;
应用最大连通子图方法对图谱进行最大程度的简化,得到简化知识图谱;
所述校验规则匹配模块用于校验待处理的非结构化数据。
5.根据权利要求4所述的一种基于最大熵模型的规则知识图谱构建系统,其特征在于,所述非结构化数据包括有:网页、文本、PDF文档。
6.根据权利要求4所述的一种基于最大熵模型的规则知识图谱构建系统,其特征在于,所述深度学习算法为卷积神经网络算法或生成对抗神经网络算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011604545.5A CN112612906B (zh) | 2020-12-29 | 2020-12-29 | 一种基于最大熵模型的规则知识图谱构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011604545.5A CN112612906B (zh) | 2020-12-29 | 2020-12-29 | 一种基于最大熵模型的规则知识图谱构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112612906A CN112612906A (zh) | 2021-04-06 |
CN112612906B true CN112612906B (zh) | 2022-01-11 |
Family
ID=75249232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011604545.5A Active CN112612906B (zh) | 2020-12-29 | 2020-12-29 | 一种基于最大熵模型的规则知识图谱构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112612906B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073673A (zh) * | 2017-05-15 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 |
CN111428053A (zh) * | 2020-03-30 | 2020-07-17 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法 |
CN111709235A (zh) * | 2020-05-28 | 2020-09-25 | 上海发电设备成套设计研究院有限责任公司 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8438386B2 (en) * | 2009-04-21 | 2013-05-07 | Webroot Inc. | System and method for developing a risk profile for an internet service |
US11699039B2 (en) * | 2017-06-28 | 2023-07-11 | Microsoft Technology Licensing, Llc | Virtual assistant providing enhanced communication session services |
-
2020
- 2020-12-29 CN CN202011604545.5A patent/CN112612906B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073673A (zh) * | 2017-05-15 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 |
CN111428053A (zh) * | 2020-03-30 | 2020-07-17 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法 |
CN111709235A (zh) * | 2020-05-28 | 2020-09-25 | 上海发电设备成套设计研究院有限责任公司 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
Non-Patent Citations (1)
Title |
---|
"面向企业知识图谱构建的中文实体关系抽取";孙晨 等;《华东师范大学学报(自然科学版)》;20180531;第55-66页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112612906A (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532542B (zh) | 一种基于正例与未标注学习的发票虚开识别方法及系统 | |
EP3506131A1 (en) | Analysis method using graph theory, analysis program, and analysis system | |
CN111932386B (zh) | 用户账号确定方法及装置、信息推送方法及装置、电子设备 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
KR101839932B1 (ko) | 특허 상용화 서비스 제공 방법 | |
CN110795525A (zh) | 文本结构化方法、装置、电子设备及计算机可读存储介质 | |
CN114419642A (zh) | 一种文档图像中键值对信息的抽取方法、装置及系统 | |
WO2020097313A1 (en) | Method for supervised graph sparsification | |
CN111062803A (zh) | 一种金融业务查询查复方法及系统 | |
CN111581945A (zh) | 一种基于舆情分析的数据分析方法、装置和系统 | |
CN114519571B (zh) | 一种工程建设项目审批系统 | |
CN113705909A (zh) | 基于预测模型的风险等级预测方法、装置与存储介质 | |
CN115577095A (zh) | 一种基于图论的电力标准信息推荐方法 | |
Chandra et al. | Utilizing gated recurrent units to retain long term dependencies with recurrent neural network in text classification | |
CN114330476A (zh) | 用于媒体内容识别的模型训练方法及媒体内容识别方法 | |
CN112612906B (zh) | 一种基于最大熵模型的规则知识图谱构建方法及系统 | |
CN113254649A (zh) | 敏感内容识别模型的训练方法、文本识别方法及相关装置 | |
CN116701734A (zh) | 地址文本的处理方法、设备及计算机可读存储介质 | |
CN116741396A (zh) | 文章归类方法和装置、电子设备和存储介质 | |
CN114445043B (zh) | 基于开放生态化云erp异质图用户需求精准发现方法及系统 | |
CN115471148A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN113190679A (zh) | 关系确定方法、装置、电子设备和存储介质 | |
Zhao et al. | Programming foundations for scientific big data analytics | |
Chen | An Artificial Intelligence Based Approach to Automate Document Processing in Business Area | |
CN111460107A (zh) | 一种应答方法和应答系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |