CN111782817B - 一种面向信息系统的知识图谱构建方法、装置及电子设备 - Google Patents
一种面向信息系统的知识图谱构建方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111782817B CN111782817B CN202010480291.4A CN202010480291A CN111782817B CN 111782817 B CN111782817 B CN 111782817B CN 202010480291 A CN202010480291 A CN 202010480291A CN 111782817 B CN111782817 B CN 111782817B
- Authority
- CN
- China
- Prior art keywords
- entity
- data
- graph
- entities
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明公开了一种面向信息系统的知识图谱构建方法、装置及电子设备,包括:采集信息系统的多源异构数据;数据整合与知识抽取,对结构化数据、半结构化数据和非结构化数据获取三元组数据;设定主图与辅图;遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,采用预设同名实体融合方法将实体e与主图G上的实体e1′融合;遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,采用预设不同名实体融合方法将实体e与主图G上的实体e2′融合;构建知识图谱;本发明在实体消歧中采用自适应双阈值设置提高决策精度,在共指消解中采用相似度多步计算方法减少运算复杂度,加快共指消解速度。
Description
技术领域
本发明涉及数据语义分析领域,具体涉及一种面向信息系统的知识图谱构建方法、装置及电子设备。
背景技术
步入大数据时代以来,互联网和信息技术的快速发展,各行各业都开始重视海量数据的收集处理与管理应用,从而衍生出了庞大复杂的众多信息系统。虽然各个领域都在不断结合信息技术来管理业务优化生产,但因为业务分支繁多、数据规模庞大、数据处理技术单一等原因,当前的信息系统虽然拥有丰富的数据资源,但是对于数据积累和知识理解都处于初级阶段,距离数据的充分利用还有很大的提升空间。
随着互联网的蓬勃发展,信息量呈爆炸式增长,人们开始渴望更加快速、准确地获取和处理信息。这时知识图谱成为了实现这一目的的有力工具,通过构建通用知识图谱或领域知识图谱,可以在此基础上实现自动问答、个性化推荐和智能检索等应用,更好的利用海量数据为实际业务挖掘潜在价值。要利用作为新型数据应用管理强力的知识图谱技术的价值,必须首先完成知识图谱的完整快速的构建。
对于信息系统的知识图谱构建来说,需要解决的一个关键问题是多源异构数据融合问题。该问题的出现是由于信息系统考虑到运营管理方便等原因,将系统分为了若干相对独立的信息子系统,不同的子系统产生不同来源的数据,而且其数据类型丰富,包括了各类结构化、半结构化、非结构化数据。多源异构数据间存在着潜在的关联,充分挖掘这样的关联正是知识图谱管理数据上的优势,但同时多源异构数据也给知识图谱的构建带来了难题,在知识图谱构建技术栈中通常的采用知识融合来解决这一问题。知识融合主要解决的是冲突、冗余两个问题,冲突主要是实体可能存在同名不同义/一词多义情况,用实体消歧解决;冗余主要是实体可能存在同义不同名/多词一义情况,用共指消解解决。
发明内容
本发明的目的在于提供一种面向信息系统的知识图谱构建方法、装置及电子设备,避免现有技术中实体消歧去除歧义或者冗余数据时采用单阈值设置的二元分割法,导致对同名实体是否同义的判断决策失误以及准确度较低的问题,以及共指消解去除冗余数据时运算复杂度大运算速度慢的问题。
本说明书的一种面向信息系统的知识图谱构建方法、装置及电子设备是包括如下方式实现的:
本发明的一种面向信息系统的知识图谱构建方法,包括:
(11)采集信息系统的多源异构数据,所述多源异构数据包括基于不同数据源获取的结构化数据、半结构化数据和非结构化数据;
(12)数据整合与知识抽取,对于结构化数据采用D2R技术抽取三元组数据,对于半结构化数据和非结构化数据采用实体识别、属性抽取、关系抽取技术获取三元组数据;
(13)设定主图与辅图,将结构化程度最高的数据源抽取的三元组数据作为主图G,将剩余数据源抽取的三元组数据作为辅图gi,i=1,2,...,n,n为辅图的总个数,用于将辅图上的知识融合到主图;
(14)遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,可以理解的是主图G中存在一个或多个实体e1′,采用预设同名实体融合方法将实体e与主图G上的实体e1′融合,以消除同名同义产生的数据冗余或者同名不同义产生的数据歧义;
(15)遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,可以理解的是主图G中存在一个或多个实体e2′,采用预设不同名实体融合方法将实体e与主图G上的实体e2′融合,以消除同义不同名实体产生的数据冗余;
(16)基于消除数据冗余和数据歧义的三元组数据构建知识图谱。
作为上述方案的进一步优化,所述预设同名实体融合方法具体为:采用多个不同的阈值区域范围,根据同名实体e和e1′的相似度所在的阈值区域范围,获取同名实体e和e1′对应的融合操作类型。
作为上述方案的进一步优化,所述不同的阈值区域范围,获取方法为:
(34)基于相似度阈值基准值T,获取偏差值Δ,如公式(2)所示:
(35)基于相似度阈值基准值T和偏差值Δ获取Th和Tl,如公式(3)和(4)所示:
Th=T+Δ (3)
Tl=T-Δ (4)
(36)获得第一阈值区域范围[0,Tl],第二阈值区域范围[Tl,Th],第三阈值区域范围[Th,1]。
作为上述方案的进一步优化,当同名实体e和e1′的相似度Sim1属于第一阈值区域范围[0,Tl]时,进一步判断实体类型是否允许同名实体存在,若允许,则e和e1′的融合操作类型为直接融合,若不允许,则e和e1′的融合操作类型为修改其中一个实体名,当Sim1属于第二阈值区域范围[Tl,Th]时,采用人工选择e和e1′的融合操作类型,当Sim1属于第三阈值区域范围[Th,1]时,e和e1′的融合操作类型为删除其中一个实体,并将其关系转移到另一实体上来实现实体的合并。
作为上述方案的进一步优化,所述预设不同名实体融合方法,包括:
采用第一预设相似度计算方法,初步筛除掉明显与e不相似不存在同义可能的实体e2′,获取初步候选实体集B1;
采用第二预设相似度计算方法,计算初步候选实体集B1中的实体e2′与e的相似度,所述第二预设相似度计算方法计算精度高于第一预设相似度计算方法,将初步候选实体集B1中的实体e2′与e的相似度Sim2与预设阈值T′进行比较,若Sim2大于T′,则e与e2′两实体同义不同名,将两实体之间建立等同关系以减少冗余,若Sim2小于T′,则直接将辅图上的实体e融合到主图G。
本发明的一种面向信息系统的知识图谱构建装置,其特征在于:包括:
信息系统多源异构数据采集模块,所述多源异构数据包括基于不同数据源获取的结构化数据、半结构化数据和非结构化数据;
数据整合与知识抽取模块,用于对结构化数据采用D2R技术抽取三元组数据,对于半结构化数据和非结构化数据采用实体识别、属性抽取、关系抽取技术获取三元组数据;
主图与辅图设定模块,将结构化程度最高的数据源抽取的三元组数据作为主图G,将剩余数据源抽取的三元组数据作为辅图gi,i=1,2,...,n,n为辅图的总个数,用于将辅图上的知识融合到主图;
同名实体融合模块,用于遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,采用预设同名实体融合方法将实体e与主图G上的实体e1′融合,以消除同名同义产生的数据冗余或者同名不同义产生的数据歧义;
不同名实体融合模块,用于遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,采用预设不同名实体融合方法将实体e与主图G上的实体e2′融合,以消除同义不同名实体产生的数据冗余;
知识图谱构建模块,用于基于消除数据冗余和数据歧义的三元组数据构建知识图谱。
作为上述方案的进一步优化,所述同名实体融合模块,包括:
阈值区域范围获取单元,用于自适应获取不同的阈值区域范围;
融合操作类型选择单元,用于根据同名实体e和e1′的相似度所在的阈值区域范围,自动匹配同名实体e和e1′对应的融合操作类型。
作为上述方案的进一步优化,所述融合操作类型选择单元,包括:当同名实体e和e1′的相似度Sim1属于第一阈值区域范围[0,Tl]时,进一步判断实体类型是否允许同名实体存在,若允许,则e和e1′的融合操作类型为直接融合,若不允许,则e和e1′的融合操作类型为修改其中一个实体名,当Sim1属于第二阈值区域范围[Tl,Th]时,采用人工选择e和e1′的融合操作类型,当Sim1属于第三阈值区域范围[Th,1]时,e和e1′的融合操作类型为删除其中一个实体,并将其关系转移到另一实体上来实现实体的合并。
作为上述方案的进一步优化,所述不同名实体融合模块,包括:
相似度初次计算单元,采用第一预设相似度计算方法,初步筛除掉明显与e不相似不存在同义可能的实体e2′,获取初步候选实体集B1;
相似度二次计算单元,采用第二预设相似度计算方法,计算初步候选实体集B1中的实体e2′与e的相似度,所述第二预设相似度计算方法计算精度高于第一预设相似度计算方法;
不同名实体融合单元,将初步候选实体集B1中的实体e2′与e的相似度Sim2与预设阈值T′进行比较,若Sim2大于T′,则e与e2′两实体同义不同名,将两实体之间建立等同关系以减少冗余,若Sim2小于T′,则直接将辅图上的实体e融合到主图G。
基于上述一种面向信息系统的知识图谱构建方法,本发明的一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,其中,所述处理器配置为经由执行所述可执行指令实现以下面向信息系统的知识图谱构建方法步骤:
(11)采集信息系统的多源异构数据,所述多源异构数据包括基于不同数据源获取的结构化数据、半结构化数据和非结构化数据;
(12)数据整合与知识抽取,对于结构化数据采用D2R技术抽取三元组数据,对于半结构化数据和非结构化数据采用实体识别、属性抽取、关系抽取技术获取三元组数据;
(13)设定主图与辅图,将结构化程度最高的数据源抽取的三元组数据作为主图G,将剩余数据源抽取的三元组数据作为辅图gi,i=1,2,...,n,n为辅图的总个数,用于将辅图上的知识融合到主图;
(14)遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,采用预设同名实体融合方法将实体e与主图G上的实体e1′融合,以消除同名同义产生的数据冗余或者同名不同义产生的数据歧义;
(15)遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,采用预设不同名实体融合方法将实体e与主图G上的实体e2′融合,以消除同义不同名实体产生的数据冗余;
(16)基于消除数据冗余和数据歧义的三元组数据构建知识图谱。
本发明的一种面向信息系统的知识图谱构建方法、装置及电子设备,具备如下有益效果:
1.本发明的一种面向信息系统的知识图谱构建方法,对于多源异构数据中出现的同名实体产生的歧义或冗余问题,采用自适应双阈值实体消歧技术解决,在实体消歧中采用双阈值设置,从而当高于上限阈值时认为同名同义,低于下限阈值时认为同名不同义,而在上、下限阈值之间时由运维人员或专家结合人工经验,决定最终的决策,有利于提高决策精度,避免了采用单阈值方法的二元分割法导致决策失误,精度较低的问题,而且双阈值的设置采用自适应调整方法获取,避免了采用固定阈值融合不同图谱或同一图谱的不同实体时的不合理以及准确率低的问题。
2.本发明的一种面向信息系统的知识图谱构建方法,对于多源异构数据中出现的不同名同义实体,采用相似度多步计算的共指消解,在共指消解过程中,先后采用第一预设相似度计算方法和第二预设相似度计算方法,实现计算精度低速度快的初步相似度计算和计算精度高的二次相似度计算,采用多步相似度计算方法缩小候选实体集,针对共指消解相对于实体消歧需要更大运算量的问题有效加快共指消解速度。
附图说明
图1为本发明的一种面向信息系统的知识图谱构建方法的整体流程框图;
图2为本发明的一种面向信息系统的知识图谱构建方法的预设同名实体融合方法流程框图;
图3为本发明的一种面向信息系统的知识图谱构建方法的预设不同名实体融合方法流程框图;
图4为本发明的一种面向信息系统的知识图谱构建装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明针对信息系统中多个子系统产生的多源异构数据,对于其中的同名实体产生的歧义或冗余问题,采用自适应双阈值实体消歧技术解决,对于其中不同名同义产生的冗余问题,采用相似度多步计算方法解决,以消除多源异构数据数据融合过程中的数据冗余和数据歧义问题,从而构建面向信息系统的知识图谱,具体的,本发明的一种面向信息系统的知识图谱构建方法,包括:
(11)采集信息系统的多源异构数据,数据采集源包括不同信息子系统,每个信息子系统作为一个数据源,多源异构数据包括基于不同数据源获取的结构化数据、半结构化数据和非结构化数据;
本实施例中,以电力信息系统的多源异构数据构建知识图谱的方法为例进行说明,电力信息系统较为成熟,各个子系统一般有对应的数据采集接口,所以采用其数据接口对配电自动化系统、电力数据采集与监控系统及数据库系统3个数据源进行多源异构数据采集,必要时可结合Hadoop大数据技术,其中,配电自动化系统会随电力业务的生产运行着产生大量的日志数据,属于非结构化数据;电力数据采集与监控系统会收集产生大量性能数据、告警数据,通常以较为固定的格式存储(比如表格),属于半结构化数据;数据库系统以固定的数据模型存储数据,属于典型的结构化数据。
(12)数据整合与知识抽取,对于结构化数据采用D2R技术抽取三元组数据,D2R主要包括D2R Server,D2RQ Engine和D2RRQ Mapping语言,对于半结构化数据和非结构化数据采用实体识别、属性抽取、关系抽取技术获取三元组数据;
其中,实体识别也称命名实体识别,是指从非结构化数据或半结构化数据中自动识别提取出专有名词或有意义的名词性短语,实体识别的准确性是知识图谱构建的基础,将直接影响知识图谱的质量和构建效率,可以采用最大熵分类模型、条件随机场模型等进行实体识别。
关系抽取是指对相关数据集抽取得到实体之间的关联关系,让实体识别中得到的离散的命名实体联系起来。可以采用比如基于特征向量或核函数的有监督学习、基于Bootstrap算法的半监督学习等方法来进行关系抽取过程。
属性抽取是指从数据集中获取实体的属性,属性是对实体某个维度上的描述,可以把实体的属性看作实体和属性值之间的一种名词性关系,所以可以将属性抽取视为关系抽取来进行,比如有学者使用SVM(支持向量机)实现属性抽取问题到关系抽取问题的转化,还有学者通过数据挖掘来确定实体属性和属性值之间的关系模式,据此来定位属性名和属性值。
本实施例中,数据库系统数据采用D2RRQ Mapping语言来数据整合得到三元组,形成子图1,电力数据采集与监控系统和配电自动化系统的数据,采用包括实体识别、属性抽取、关系抽取的知识抽取技术得到三元组,分别作为子图2、子图3。
(13)设定主图与辅图,将结构化程度最高的数据源抽取的三元组数据作为主图G,将剩余数据源抽取的三元组数据作为辅图gi,i=1,2,...,n,n为辅图的总个数,用于将辅图上的知识融合到主图;主图与辅图在知识置信度上有所差别,前者高于后者,这将影响知识融合出现知识不一致等冲突时的决策,在此将上述数据库系统数据得到的子图1设定为主图G,电力数据采集与监控系统与配电自动化系统得到的子图2、3分别记为为辅图g1、g2,2个辅图中的知识通过下述步骤(14)和步骤(15)依次融合到主图中。
(14)遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,采用预设同名实体融合方法(自适应双阈值实体消歧方法)将实体e与主图G上的实体e1′融合,以消除同名同义产生的数据冗余或者同名不同义产生的数据歧义;
上述预设同名实体融合方法具体为:采用多个不同的阈值区域范围,根据同名实体e和e1′的相似度所在的阈值区域范围,获取同名实体e和e1′对应的融合操作类型;
本实施例中获取阈值区域范围的基本思想是:首先根据能够表征G与g1整体相似程度的参数NSNE、确定初始参考阈值T,相似程度越高参考阈值越大。然后使用能够表征节点重要程度的两同名实体节点度均值决定阈值偏移量Δ,在参考阈值的T的基础上向两侧扩展Δ得到高低双阈值Tl、Th,节点度越大说明待融合的实体重要程度越高,需要更加谨慎地执行融合决策,具体的,不同的阈值区域范围的获取方法为:
考虑到阈值是用来根据相似度决定知识融合时的具体决策的,而相似度一般会归一化为(0,1)的取值范围,所以这里的阈值在计算时采用sigmod函数也进行归一化。
(34)基于相似度阈值基准值T,获取偏差值Δ,同样考虑到Tl与Th的取值范围问题,Th不能大于1,所以偏移量Δ的公式(2)所示:
(35)基于相似度阈值基准值T和偏差值Δ获取上限阈值Th和下限阈值Tl,如公式(3)和(4)所示:
Th=T+Δ (3)
Tl=T-Δ (4)
(36)获得第一阈值区域范围[0,Tl],第二阈值区域范围[Tl,Th],第三阈值区域范围[Th,1]。
基于上述获得的阈值区域范围,当同名实体e和e1′的相似度Sim1属于第一阈值区域范围[0,Tl]时,进一步判断实体类型是否允许同名实体存在,若允许,则e和e1′(即同名不同义)的融合操作类型为不做处理直接融合,若不允许,则e和e1′的融合操作类型为修改其中一个实体名,当Sim1属于第二阈值区域范围[Tl,Th]时,采用人工选择e和e1′的融合操作类型,由运维人员或专家结合人工经验,决定最终的决策;当Sim1属于第三阈值区域范围[Th,1]时,e和e1′(即同名同义)的融合操作类型为删除其中一个实体,并将其关系转移到另一实体上来实现实体的合并。
(15)遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,采用预设不同名实体融合方法(基于相似度多步计算的共指消解方法)将实体e与主图G上的实体e2′融合,以消除同义不同名实体产生的数据冗余;
所述预设不同名实体融合方法,包括:
采用第一预设相似度计算方法,基于主图G中与e不同名的所有实体e2′组成的实体集B0,初步筛除掉明显与e不相似不存在同义可能的实体e2′,获取初步候选实体集B1,第一预设相似度计算方法可考虑使用余弦相似度等计算速度较快的相似度计算方法,将低于某一阈值(比如0.5)的实体筛除掉,初步得到初步候选实体集B1;
采用第二预设相似度计算方法,计算初步候选实体集B1中的实体e2′与e的相似度,所述第二预设相似度计算方法计算精度高于第一预设相似度计算方法且计算速度大于第一预设相似度计算方法;
将初步候选实体集B1中的实体e2′与e的相似度Sim2与预设阈值T′进行比较,若Sim2大于T′,则e与e2′两实体同义不同名,将e与e2′合并以减少冗余,在两实体之间建立等同关系以减少冗余,即在e与e2′之间建立“SameAs”关系增强e与e2′之间的关联,若Sim2小于T′,则直接将辅图上的实体e融合到主图G。
预设不同名实体融合方法的目的是找出同义不同名实体,减少信息冗余加强知识图谱中知识间的关联性。考虑到不同子图之间的实体大多名称不同,理论上有海量实体都需要判断它们含义是否相同,所以找出同义不同名实体进行共指消解比找出同名实体进行实体消歧需要更大的运算量,本实施例中的预设不同名实体融合方法采用基于相似度多步计算的共指消解,旨在利用上述不同子图实体相似度整体偏低的情况,通过精度较低但计算速度快的第一预设相似度计算方法预先筛除掉明显不相似不存在同义可能的实体,减小候选实体集的大小,然后采用速度较慢但精度高的第二预设相似度计算方法进一步缩小候选实体集,最终确定需要跟阈值T′相比较的实体。若相似度大于阈值T′,那么说明两实体含义相同,需要合并减少冗余,建立两实体间的关系(如“SameAs”)增强关联,否则直接融合到G。
当然,本步骤中的T′采用单阈值设置,获取方法可采用上述公式(1)的方法,另外虽然鉴于计算自动化程度T′采用了单阈值,但也可以在考量测试单阈值在实际应用时决策失误概率的基础上,考虑使用上述预设同名实体融合方法中所使用的的自适应双阈值。
(16)基于消除数据冗余和数据歧义的三元组数据构建知识图谱。
基于上述所述的一种面向信息系统的知识图谱构建方法,本说明书的实施例还提供一种面向信息系统的知识图谱构建装置。所述的装置可以包括使用了本说明书实施例所述方法的系统、软件(应用)、装置模块、组件、服务器等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例装置提供的实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与装置方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不装置再赘述。具体的,所述一种面向信息系统的知识图谱构建装置,包括:
信息系统多源异构数据采集模块,所述多源异构数据包括基于不同数据源获取的结构化数据、半结构化数据和非结构化数据;
数据整合与知识抽取模块,用于对结构化数据采用D2R技术抽取三元组数据,对于半结构化数据和非结构化数据采用实体识别、属性抽取、关系抽取技术获取三元组数据;
主图与辅图设定模块,将结构化程度最高的数据源抽取的三元组数据作为主图G,将剩余数据源抽取的三元组数据作为辅图gi,i=1,2,...,n,n为辅图的总个数,用于将辅图上的知识融合到主图;
同名实体融合模块,用于遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,采用预设同名实体融合方法(自适应双阈值值实体消歧方法)将实体e与主图G上的实体e1′融合,以消除同名同义产生的数据冗余或者同名不同义产生的数据歧义;
不同名实体融合模块,用于遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,采用预设不同名实体融合方法将实体e与主图G上的实体e2′融合,以消除同义不同名实体产生的数据冗余;
知识图谱构模块,用于基于消除数据冗余和数据歧义的三元组数据构建知识图谱。
在本实施例中,同名实体融合模块,包括:
阈值区域范围获取单元,用于自适应获取不同的阈值区域范围;
融合操作类型选择单元,用于根据同名实体e和e1′的相似度所在的阈值区域范围,自动匹配同名实体e和e1′对应的融合操作类型。
上述融合操作类型选择单元的处理流程,包括:当同名实体e和e1′的相似度Sim1属于第一阈值区域范围[0,Tl]时,进一步判断实体类型是否允许同名实体存在,若允许,则e和e1′(即同名不同义)的融合操作类型为直接融合,若不允许,则e和e1′的融合操作类型为修改其中一个实体名,当Sim1属于第二阈值区域范围[Tl,Th]时,采用人工选择e和e1′的融合操作类型,当Sim1属于第三阈值区域范围[Th,1]时,e和e1′(即同名同义)的融合操作类型为删除其中一个实体,并将其关系转移到另一实体上来实现实体的合并。
在本实施例中,不同名实体融合模块,包括:
相似度初次计算单元,采用第一预设相似度计算方法,初步筛除掉明显与e不相似不存在同义可能的实体e2′,获取初步候选实体集B1;
相似度二次计算单元,采用第二预设相似度计算方法,计算初步候选实体集B1中的实体e2′与e的相似度,所述第二预设相似度计算方法计算精度高于第一预设相似度计算方法;
不同名实体融合单元,将初步候选实体集B1中的实体e2′与e的相似度Sim2与预设阈值T′进行比较,若Sim2大于T′,则e与e2′两实体同义不同名,将e与e2′合并以减少冗余,在两实体之间建立等同关系以减少冗余,即在e与e2′之间建立“SameAs”关系增强e与e2′之间的关联,若Sim2小于T′,则直接将辅图上的实体e融合到主图G。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果。因此,本说明书还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例所述的面向信息系统的知识图谱构建方法;还提供了一种电子设备,包括:处理器以及存储器,所述存储器用于存储所述处理器的可执行指令;所述处理器配置为经由执行所述可执行指令来实现上述实施例所述的面向信息系统的知识图谱构建方法。
本发明不局限于上述具体的实施方式,本领域的普通技术人员从上述构思出发,不经过创造性的劳动,所做出的种种变换,均落在本发明的保护范围之内。
Claims (7)
1.一种面向信息系统的知识图谱构建方法,其特征在于:包括:
(11)采集信息系统的多源异构数据,所述多源异构数据包括基于不同数据源获取的结构化数据、半结构化数据和非结构化数据;
(12)数据整合与知识抽取,对于结构化数据采用D2R技术抽取三元组数据,对于半结构化数据和非结构化数据采用实体识别、属性抽取、关系抽取技术获取三元组数据;
(13)设定主图与辅图,将结构化程度最高的数据源抽取的三元组数据作为主图G,将剩余数据源抽取的三元组数据作为辅图gi,i=1,2,...,n,n为辅图的总个数,用于将辅图上的知识融合到主图;
(14)遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,采用预设同名实体融合方法将实体e与主图G上的实体e1′融合,以消除同名同义产生的数据冗余或者同名不同义产生的数据歧义,所述预设同名实体融合方法具体为:采用多个不同的阈值区域范围,根据同名实体e和e1′的相似度所在的阈值区域范围,获取同名实体e和e1′对应的融合操作类型,所述多个不同的阈值区域范围包括第一阈值区域范围、第二阈值区域范围、第三阈值区域范围;
(15)遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,采用预设不同名实体融合方法将实体e与主图G上的实体e2′融合,以消除同义不同名实体产生的数据冗余,所述预设不同名实体融合方法,包括:
采用第一预设相似度计算方法,初步筛除掉明显与e不相似不存在同义可能的实体e2′,获取初步候选实体集B1;
采用第二预设相似度计算方法,计算初步候选实体集B1中的实体e2′与e的相似度,所述第二预设相似度计算方法计算精度高于第一预设相似度计算方法,将初步候选实体集B1中的实体e2′与e的相似度Sim2与预设阈值T′进行比较,若Sim2大于T′,则e与e2′两实体同义不同名,将两实体之间建立等同关系以减少冗余,若Sim2小于T′,则直接将辅图上的实体e融合到主图G;
(16)基于消除数据冗余和数据歧义的三元组数据构建知识图谱。
2.根据权利要求1所述的一种面向信息系统的知识图谱构建方法,其特征在于:所述不同的阈值区域范围,获取方法为:
(34)基于相似度阈值基准值T,获取偏差值Δ,如公式(2)所示:
(35)基于相似度阈值基准值T和偏差值Δ获取Th和Tl,如公式(3)和(4)所示:
Th=T+Δ (3)
Tl=T-Δ (4)
(36)获得第一阈值区域范围[0,Tl],第二阈值区域范围[Tl,Th],第三阈值区域范围[Th,1]。
3.根据权利要求2所述的一种面向信息系统的知识图谱构建方法,其特征在于:当同名实体e和e1′的相似度Sim1属于第一阈值区域范围[0,Tl]时,进一步判断实体类型是否允许同名实体存在,若允许,则e和e1′的融合操作类型为直接融合,若不允许,则e和e1′的融合操作类型为修改其中一个实体名,当Sim1属于第二阈值区域范围[Tl,Th]时,采用人工选择e和e1′的融合操作类型,当Sim1属于第三阈值区域范围[Th,1]时,e和e1′的融合操作类型为删除其中一个实体,并将其关系转移到另一实体上来实现实体的合并。
4.一种面向信息系统的知识图谱构建装置,其特征在于:包括:
信息系统多源异构数据采集模块,所述多源异构数据包括基于不同数据源获取的结构化数据、半结构化数据和非结构化数据;
数据整合与知识抽取模块,用于对结构化数据采用D2R技术抽取三元组数据,对于半结构化数据和非结构化数据采用实体识别、属性抽取、关系抽取技术获取三元组数据;
主图与辅图设定模块,将结构化程度最高的数据源抽取的三元组数据作为主图G,将剩余数据源抽取的三元组数据作为辅图gi,i=1,2,...,n,n为辅图的总个数,用于将辅图上的知识融合到主图;
同名实体融合模块,用于遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,采用预设同名实体融合方法将实体e与主图G上的实体e1′融合,以消除同名同义产生的数据冗余或者同名不同义产生的数据歧义,所述预设同名实体融合方法具体为:采用多个不同的阈值区域范围,根据同名实体e和e1′的相似度所在的阈值区域范围,获取同名实体e和e1′对应的融合操作类型,所述多个不同的阈值区域范围包括第一阈值区域范围、第二阈值区域范围、第三阈值区域范围;
不同名实体融合模块,用于遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,采用预设不同名实体融合方法将实体e与主图G上的实体e2′融合,以消除同义不同名实体产生的数据冗余;
知识图谱构建模块,用于基于消除数据冗余和数据歧义的三元组数据构建知识图谱;
其中,所述不同名实体融合模块,包括:
相似度初次计算单元,采用第一预设相似度计算方法,初步筛除掉明显与e不相似不存在同义可能的实体e2′,获取初步候选实体集B1;
相似度二次计算单元,采用第二预设相似度计算方法,计算初步候选实体集B1中的实体e2′与e的相似度,所述第二预设相似度计算方法计算精度高于第一预设相似度计算方法;
不同名实体融合单元,将初步候选实体集B1中的实体e2′与e的相似度Sim2与预设阈值T′进行比较,若Sim2大于T′,则e与e2′两实体同义不同名,将两实体之间建立等同关系以减少冗余,若Sim2小于T′,则直接将辅图上的实体e融合到主图G。
5.根据权利要求4所述的一种面向信息系统的知识图谱构建装置,其特征在于:所述同名实体融合模块,包括:
阈值区域范围获取单元,用于自适应获取不同的阈值区域范围;
融合操作类型选择单元,用于根据同名实体e和e1′的相似度所在的阈值区域范围,自动匹配同名实体e和e1′对应的融合操作类型。
6.根据权利要求5所述的一种面向信息系统的知识图谱构建装置,其特征在于:所述融合操作类型选择单元,包括:当同名实体e和e1′的相似度Sim1属于第一阈值区域范围[0,Tl]时,进一步判断实体类型是否允许同名实体存在,若允许,则e和e1′的融合操作类型为直接融合,若不允许,则e和e1′的融合操作类型为修改其中一个实体名,当Sim1属于第二阈值区域范围[Tl,Th]时,采用人工选择e和e1′的融合操作类型,当Sim1属于第三阈值区域范围[Th,1]时,e和e1′的融合操作类型为删除其中一个实体,并将其关系转移到另一实体上来实现实体的合并。
7.一种电子设备,其特征在于:包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,其中,所述处理器配置为经由执行所述可执行指令来实现权利要求l-3中任一项所述的面向信息系统的知识图谱构建方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010480291.4A CN111782817B (zh) | 2020-05-30 | 2020-05-30 | 一种面向信息系统的知识图谱构建方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010480291.4A CN111782817B (zh) | 2020-05-30 | 2020-05-30 | 一种面向信息系统的知识图谱构建方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111782817A CN111782817A (zh) | 2020-10-16 |
CN111782817B true CN111782817B (zh) | 2022-06-14 |
Family
ID=72754525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010480291.4A Active CN111782817B (zh) | 2020-05-30 | 2020-05-30 | 一种面向信息系统的知识图谱构建方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782817B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395433B (zh) * | 2021-01-21 | 2021-04-13 | 中国人民解放军国防科技大学 | 基于翻译模型的知识图谱消歧方法及相关设备 |
CN113032618A (zh) * | 2021-03-26 | 2021-06-25 | 齐鲁工业大学 | 基于知识图谱的音乐推荐方法及系统 |
CN113220904A (zh) * | 2021-05-20 | 2021-08-06 | 合肥工业大学 | 数据处理方法及数据处理装置、电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359178A (zh) * | 2018-09-14 | 2019-02-19 | 华南师范大学 | 一种检索方法、装置、存储介质及设备 |
CN110377747A (zh) * | 2019-06-10 | 2019-10-25 | 河海大学 | 一种面向百科网站的知识库融合方法 |
CN110674312A (zh) * | 2019-09-18 | 2020-01-10 | 泰康保险集团股份有限公司 | 构建知识图谱方法、装置、介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050278139A1 (en) * | 2004-05-28 | 2005-12-15 | Glaenzer Helmut K | Automatic match tuning |
US10884865B2 (en) * | 2018-01-26 | 2021-01-05 | International Business Machines Corporation | Identifying redundant nodes in a knowledge graph data structure |
-
2020
- 2020-05-30 CN CN202010480291.4A patent/CN111782817B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359178A (zh) * | 2018-09-14 | 2019-02-19 | 华南师范大学 | 一种检索方法、装置、存储介质及设备 |
CN110377747A (zh) * | 2019-06-10 | 2019-10-25 | 河海大学 | 一种面向百科网站的知识库融合方法 |
CN110674312A (zh) * | 2019-09-18 | 2020-01-10 | 泰康保险集团股份有限公司 | 构建知识图谱方法、装置、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111782817A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
CN111782817B (zh) | 一种面向信息系统的知识图谱构建方法、装置及电子设备 | |
US20150310862A1 (en) | Deep learning for semantic parsing including semantic utterance classification | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
EP2833271A1 (en) | Multimedia question and answer system and method | |
CN116775847B (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
WO2018045646A1 (zh) | 基于人工智能的人机交互方法和装置 | |
TW202020691A (zh) | 特徵詞的確定方法、裝置和伺服器 | |
CN114612759B (zh) | 视频处理方法、查询视频的方法和模型训练方法、装置 | |
US11120214B2 (en) | Corpus generating method and apparatus, and human-machine interaction processing method and apparatus | |
WO2021226840A1 (zh) | 热点新闻意图识别方法、装置、设备及可读存储介质 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN114003682A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN113722600B (zh) | 应用于大数据的数据查询方法、装置、设备及产品 | |
CN113159326B (zh) | 基于人工智能的智能业务决策方法 | |
CN111324705A (zh) | 自适应性调整关连搜索词的系统及其方法 | |
WO2022116324A1 (zh) | 搜索模型训练方法、装置、终端设备及存储介质 | |
CN106407332B (zh) | 基于人工智能的搜索方法和装置 | |
CN110377721B (zh) | 自动问答方法、装置、存储介质及电子设备 | |
CN117076636A (zh) | 一种智能客服的信息查询方法、系统和设备 | |
WO2023173552A1 (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
CN114444514B (zh) | 语义匹配模型训练、语义匹配方法及相关装置 | |
CN114611625A (zh) | 语言模型训练、数据处理方法、装置、设备、介质及产品 | |
KR20220074576A (ko) | 마케팅 지식 그래프 구축을 위한 딥러닝 기반 신조어 추출 방법 및 그 장치 | |
KR20220074572A (ko) | 딥러닝 기반 신조어 추출 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |