CN111782817B - 一种面向信息系统的知识图谱构建方法、装置及电子设备 - Google Patents

一种面向信息系统的知识图谱构建方法、装置及电子设备 Download PDF

Info

Publication number
CN111782817B
CN111782817B CN202010480291.4A CN202010480291A CN111782817B CN 111782817 B CN111782817 B CN 111782817B CN 202010480291 A CN202010480291 A CN 202010480291A CN 111782817 B CN111782817 B CN 111782817B
Authority
CN
China
Prior art keywords
entity
data
graph
entities
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010480291.4A
Other languages
English (en)
Other versions
CN111782817A (zh
Inventor
李宏发
周刚
赵子岩
闫龙川
孔美美
吴小华
李金凤
梁翀
张天奇
浦正国
毛舒乐
胡心颖
郭庆
赵云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Information and Telecommunication Co Ltd
State Grid Fujian Electric Power Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
State Grid Fujian Electric Power Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd, State Grid Fujian Electric Power Co Ltd, Anhui Jiyuan Software Co Ltd, Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN202010480291.4A priority Critical patent/CN111782817B/zh
Publication of CN111782817A publication Critical patent/CN111782817A/zh
Application granted granted Critical
Publication of CN111782817B publication Critical patent/CN111782817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种面向信息系统的知识图谱构建方法、装置及电子设备,包括:采集信息系统的多源异构数据;数据整合与知识抽取,对结构化数据、半结构化数据和非结构化数据获取三元组数据;设定主图与辅图;遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,采用预设同名实体融合方法将实体e与主图G上的实体e1′融合;遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,采用预设不同名实体融合方法将实体e与主图G上的实体e2′融合;构建知识图谱;本发明在实体消歧中采用自适应双阈值设置提高决策精度,在共指消解中采用相似度多步计算方法减少运算复杂度,加快共指消解速度。

Description

一种面向信息系统的知识图谱构建方法、装置及电子设备
技术领域
本发明涉及数据语义分析领域,具体涉及一种面向信息系统的知识图谱构建方法、装置及电子设备。
背景技术
步入大数据时代以来,互联网和信息技术的快速发展,各行各业都开始重视海量数据的收集处理与管理应用,从而衍生出了庞大复杂的众多信息系统。虽然各个领域都在不断结合信息技术来管理业务优化生产,但因为业务分支繁多、数据规模庞大、数据处理技术单一等原因,当前的信息系统虽然拥有丰富的数据资源,但是对于数据积累和知识理解都处于初级阶段,距离数据的充分利用还有很大的提升空间。
随着互联网的蓬勃发展,信息量呈爆炸式增长,人们开始渴望更加快速、准确地获取和处理信息。这时知识图谱成为了实现这一目的的有力工具,通过构建通用知识图谱或领域知识图谱,可以在此基础上实现自动问答、个性化推荐和智能检索等应用,更好的利用海量数据为实际业务挖掘潜在价值。要利用作为新型数据应用管理强力的知识图谱技术的价值,必须首先完成知识图谱的完整快速的构建。
对于信息系统的知识图谱构建来说,需要解决的一个关键问题是多源异构数据融合问题。该问题的出现是由于信息系统考虑到运营管理方便等原因,将系统分为了若干相对独立的信息子系统,不同的子系统产生不同来源的数据,而且其数据类型丰富,包括了各类结构化、半结构化、非结构化数据。多源异构数据间存在着潜在的关联,充分挖掘这样的关联正是知识图谱管理数据上的优势,但同时多源异构数据也给知识图谱的构建带来了难题,在知识图谱构建技术栈中通常的采用知识融合来解决这一问题。知识融合主要解决的是冲突、冗余两个问题,冲突主要是实体可能存在同名不同义/一词多义情况,用实体消歧解决;冗余主要是实体可能存在同义不同名/多词一义情况,用共指消解解决。
发明内容
本发明的目的在于提供一种面向信息系统的知识图谱构建方法、装置及电子设备,避免现有技术中实体消歧去除歧义或者冗余数据时采用单阈值设置的二元分割法,导致对同名实体是否同义的判断决策失误以及准确度较低的问题,以及共指消解去除冗余数据时运算复杂度大运算速度慢的问题。
本说明书的一种面向信息系统的知识图谱构建方法、装置及电子设备是包括如下方式实现的:
本发明的一种面向信息系统的知识图谱构建方法,包括:
(11)采集信息系统的多源异构数据,所述多源异构数据包括基于不同数据源获取的结构化数据、半结构化数据和非结构化数据;
(12)数据整合与知识抽取,对于结构化数据采用D2R技术抽取三元组数据,对于半结构化数据和非结构化数据采用实体识别、属性抽取、关系抽取技术获取三元组数据;
(13)设定主图与辅图,将结构化程度最高的数据源抽取的三元组数据作为主图G,将剩余数据源抽取的三元组数据作为辅图gi,i=1,2,...,n,n为辅图的总个数,用于将辅图上的知识融合到主图;
(14)遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,可以理解的是主图G中存在一个或多个实体e1′,采用预设同名实体融合方法将实体e与主图G上的实体e1′融合,以消除同名同义产生的数据冗余或者同名不同义产生的数据歧义;
(15)遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,可以理解的是主图G中存在一个或多个实体e2′,采用预设不同名实体融合方法将实体e与主图G上的实体e2′融合,以消除同义不同名实体产生的数据冗余;
(16)基于消除数据冗余和数据歧义的三元组数据构建知识图谱。
作为上述方案的进一步优化,所述预设同名实体融合方法具体为:采用多个不同的阈值区域范围,根据同名实体e和e1′的相似度所在的阈值区域范围,获取同名实体e和e1′对应的融合操作类型。
作为上述方案的进一步优化,所述不同的阈值区域范围,获取方法为:
(31)基于单个辅图gi的所有实体名称与主图G中所有实体名称,获取该辅图gi与主图G中同名实体的个数NSNE,并计算该辅图gi与主图G所有同名实体的相似度均值
Figure BDA0002517097740000031
(32)基于上述NSNE
Figure BDA0002517097740000032
获取相似度阈值基准值T,如公式(1)所示:
Figure BDA0002517097740000033
(33)获取用于表征节点重要程度的两同名实体节点度均值
Figure BDA0002517097740000034
(34)基于相似度阈值基准值T,获取偏差值Δ,如公式(2)所示:
Figure BDA0002517097740000035
(35)基于相似度阈值基准值T和偏差值Δ获取Th和Tl,如公式(3)和(4)所示:
Th=T+Δ (3)
Tl=T-Δ (4)
(36)获得第一阈值区域范围[0,Tl],第二阈值区域范围[Tl,Th],第三阈值区域范围[Th,1]。
作为上述方案的进一步优化,当同名实体e和e1′的相似度Sim1属于第一阈值区域范围[0,Tl]时,进一步判断实体类型是否允许同名实体存在,若允许,则e和e1′的融合操作类型为直接融合,若不允许,则e和e1′的融合操作类型为修改其中一个实体名,当Sim1属于第二阈值区域范围[Tl,Th]时,采用人工选择e和e1′的融合操作类型,当Sim1属于第三阈值区域范围[Th,1]时,e和e1′的融合操作类型为删除其中一个实体,并将其关系转移到另一实体上来实现实体的合并。
作为上述方案的进一步优化,所述预设不同名实体融合方法,包括:
采用第一预设相似度计算方法,初步筛除掉明显与e不相似不存在同义可能的实体e2′,获取初步候选实体集B1
采用第二预设相似度计算方法,计算初步候选实体集B1中的实体e2′与e的相似度,所述第二预设相似度计算方法计算精度高于第一预设相似度计算方法,将初步候选实体集B1中的实体e2′与e的相似度Sim2与预设阈值T′进行比较,若Sim2大于T′,则e与e2′两实体同义不同名,将两实体之间建立等同关系以减少冗余,若Sim2小于T′,则直接将辅图上的实体e融合到主图G。
本发明的一种面向信息系统的知识图谱构建装置,其特征在于:包括:
信息系统多源异构数据采集模块,所述多源异构数据包括基于不同数据源获取的结构化数据、半结构化数据和非结构化数据;
数据整合与知识抽取模块,用于对结构化数据采用D2R技术抽取三元组数据,对于半结构化数据和非结构化数据采用实体识别、属性抽取、关系抽取技术获取三元组数据;
主图与辅图设定模块,将结构化程度最高的数据源抽取的三元组数据作为主图G,将剩余数据源抽取的三元组数据作为辅图gi,i=1,2,...,n,n为辅图的总个数,用于将辅图上的知识融合到主图;
同名实体融合模块,用于遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,采用预设同名实体融合方法将实体e与主图G上的实体e1′融合,以消除同名同义产生的数据冗余或者同名不同义产生的数据歧义;
不同名实体融合模块,用于遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,采用预设不同名实体融合方法将实体e与主图G上的实体e2′融合,以消除同义不同名实体产生的数据冗余;
知识图谱构建模块,用于基于消除数据冗余和数据歧义的三元组数据构建知识图谱。
作为上述方案的进一步优化,所述同名实体融合模块,包括:
阈值区域范围获取单元,用于自适应获取不同的阈值区域范围;
融合操作类型选择单元,用于根据同名实体e和e1′的相似度所在的阈值区域范围,自动匹配同名实体e和e1′对应的融合操作类型。
作为上述方案的进一步优化,所述融合操作类型选择单元,包括:当同名实体e和e1′的相似度Sim1属于第一阈值区域范围[0,Tl]时,进一步判断实体类型是否允许同名实体存在,若允许,则e和e1′的融合操作类型为直接融合,若不允许,则e和e1′的融合操作类型为修改其中一个实体名,当Sim1属于第二阈值区域范围[Tl,Th]时,采用人工选择e和e1′的融合操作类型,当Sim1属于第三阈值区域范围[Th,1]时,e和e1′的融合操作类型为删除其中一个实体,并将其关系转移到另一实体上来实现实体的合并。
作为上述方案的进一步优化,所述不同名实体融合模块,包括:
相似度初次计算单元,采用第一预设相似度计算方法,初步筛除掉明显与e不相似不存在同义可能的实体e2′,获取初步候选实体集B1
相似度二次计算单元,采用第二预设相似度计算方法,计算初步候选实体集B1中的实体e2′与e的相似度,所述第二预设相似度计算方法计算精度高于第一预设相似度计算方法;
不同名实体融合单元,将初步候选实体集B1中的实体e2′与e的相似度Sim2与预设阈值T′进行比较,若Sim2大于T′,则e与e2′两实体同义不同名,将两实体之间建立等同关系以减少冗余,若Sim2小于T′,则直接将辅图上的实体e融合到主图G。
基于上述一种面向信息系统的知识图谱构建方法,本发明的一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,其中,所述处理器配置为经由执行所述可执行指令实现以下面向信息系统的知识图谱构建方法步骤:
(11)采集信息系统的多源异构数据,所述多源异构数据包括基于不同数据源获取的结构化数据、半结构化数据和非结构化数据;
(12)数据整合与知识抽取,对于结构化数据采用D2R技术抽取三元组数据,对于半结构化数据和非结构化数据采用实体识别、属性抽取、关系抽取技术获取三元组数据;
(13)设定主图与辅图,将结构化程度最高的数据源抽取的三元组数据作为主图G,将剩余数据源抽取的三元组数据作为辅图gi,i=1,2,...,n,n为辅图的总个数,用于将辅图上的知识融合到主图;
(14)遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,采用预设同名实体融合方法将实体e与主图G上的实体e1′融合,以消除同名同义产生的数据冗余或者同名不同义产生的数据歧义;
(15)遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,采用预设不同名实体融合方法将实体e与主图G上的实体e2′融合,以消除同义不同名实体产生的数据冗余;
(16)基于消除数据冗余和数据歧义的三元组数据构建知识图谱。
本发明的一种面向信息系统的知识图谱构建方法、装置及电子设备,具备如下有益效果:
1.本发明的一种面向信息系统的知识图谱构建方法,对于多源异构数据中出现的同名实体产生的歧义或冗余问题,采用自适应双阈值实体消歧技术解决,在实体消歧中采用双阈值设置,从而当高于上限阈值时认为同名同义,低于下限阈值时认为同名不同义,而在上、下限阈值之间时由运维人员或专家结合人工经验,决定最终的决策,有利于提高决策精度,避免了采用单阈值方法的二元分割法导致决策失误,精度较低的问题,而且双阈值的设置采用自适应调整方法获取,避免了采用固定阈值融合不同图谱或同一图谱的不同实体时的不合理以及准确率低的问题。
2.本发明的一种面向信息系统的知识图谱构建方法,对于多源异构数据中出现的不同名同义实体,采用相似度多步计算的共指消解,在共指消解过程中,先后采用第一预设相似度计算方法和第二预设相似度计算方法,实现计算精度低速度快的初步相似度计算和计算精度高的二次相似度计算,采用多步相似度计算方法缩小候选实体集,针对共指消解相对于实体消歧需要更大运算量的问题有效加快共指消解速度。
附图说明
图1为本发明的一种面向信息系统的知识图谱构建方法的整体流程框图;
图2为本发明的一种面向信息系统的知识图谱构建方法的预设同名实体融合方法流程框图;
图3为本发明的一种面向信息系统的知识图谱构建方法的预设不同名实体融合方法流程框图;
图4为本发明的一种面向信息系统的知识图谱构建装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明针对信息系统中多个子系统产生的多源异构数据,对于其中的同名实体产生的歧义或冗余问题,采用自适应双阈值实体消歧技术解决,对于其中不同名同义产生的冗余问题,采用相似度多步计算方法解决,以消除多源异构数据数据融合过程中的数据冗余和数据歧义问题,从而构建面向信息系统的知识图谱,具体的,本发明的一种面向信息系统的知识图谱构建方法,包括:
(11)采集信息系统的多源异构数据,数据采集源包括不同信息子系统,每个信息子系统作为一个数据源,多源异构数据包括基于不同数据源获取的结构化数据、半结构化数据和非结构化数据;
本实施例中,以电力信息系统的多源异构数据构建知识图谱的方法为例进行说明,电力信息系统较为成熟,各个子系统一般有对应的数据采集接口,所以采用其数据接口对配电自动化系统、电力数据采集与监控系统及数据库系统3个数据源进行多源异构数据采集,必要时可结合Hadoop大数据技术,其中,配电自动化系统会随电力业务的生产运行着产生大量的日志数据,属于非结构化数据;电力数据采集与监控系统会收集产生大量性能数据、告警数据,通常以较为固定的格式存储(比如表格),属于半结构化数据;数据库系统以固定的数据模型存储数据,属于典型的结构化数据。
(12)数据整合与知识抽取,对于结构化数据采用D2R技术抽取三元组数据,D2R主要包括D2R Server,D2RQ Engine和D2RRQ Mapping语言,对于半结构化数据和非结构化数据采用实体识别、属性抽取、关系抽取技术获取三元组数据;
其中,实体识别也称命名实体识别,是指从非结构化数据或半结构化数据中自动识别提取出专有名词或有意义的名词性短语,实体识别的准确性是知识图谱构建的基础,将直接影响知识图谱的质量和构建效率,可以采用最大熵分类模型、条件随机场模型等进行实体识别。
关系抽取是指对相关数据集抽取得到实体之间的关联关系,让实体识别中得到的离散的命名实体联系起来。可以采用比如基于特征向量或核函数的有监督学习、基于Bootstrap算法的半监督学习等方法来进行关系抽取过程。
属性抽取是指从数据集中获取实体的属性,属性是对实体某个维度上的描述,可以把实体的属性看作实体和属性值之间的一种名词性关系,所以可以将属性抽取视为关系抽取来进行,比如有学者使用SVM(支持向量机)实现属性抽取问题到关系抽取问题的转化,还有学者通过数据挖掘来确定实体属性和属性值之间的关系模式,据此来定位属性名和属性值。
本实施例中,数据库系统数据采用D2RRQ Mapping语言来数据整合得到三元组,形成子图1,电力数据采集与监控系统和配电自动化系统的数据,采用包括实体识别、属性抽取、关系抽取的知识抽取技术得到三元组,分别作为子图2、子图3。
(13)设定主图与辅图,将结构化程度最高的数据源抽取的三元组数据作为主图G,将剩余数据源抽取的三元组数据作为辅图gi,i=1,2,...,n,n为辅图的总个数,用于将辅图上的知识融合到主图;主图与辅图在知识置信度上有所差别,前者高于后者,这将影响知识融合出现知识不一致等冲突时的决策,在此将上述数据库系统数据得到的子图1设定为主图G,电力数据采集与监控系统与配电自动化系统得到的子图2、3分别记为为辅图g1、g2,2个辅图中的知识通过下述步骤(14)和步骤(15)依次融合到主图中。
(14)遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,采用预设同名实体融合方法(自适应双阈值实体消歧方法)将实体e与主图G上的实体e1′融合,以消除同名同义产生的数据冗余或者同名不同义产生的数据歧义;
上述预设同名实体融合方法具体为:采用多个不同的阈值区域范围,根据同名实体e和e1′的相似度所在的阈值区域范围,获取同名实体e和e1′对应的融合操作类型;
本实施例中获取阈值区域范围的基本思想是:首先根据能够表征G与g1整体相似程度的参数NSNE
Figure BDA0002517097740000101
确定初始参考阈值T,相似程度越高参考阈值越大。然后使用能够表征节点重要程度的两同名实体节点度均值
Figure BDA0002517097740000102
决定阈值偏移量Δ,在参考阈值的T的基础上向两侧扩展Δ得到高低双阈值Tl、Th,节点度越大说明待融合的实体重要程度越高,需要更加谨慎地执行融合决策,具体的,不同的阈值区域范围的获取方法为:
(31)基于单个辅图gi的所有实体名称与主图G中所有实体名称,获取该辅图gi与主图G中同名实体的个数NSNE,并计算该辅图gi与主图G所有同名实体的相似度均值
Figure BDA0002517097740000103
其中,
Figure BDA0002517097740000104
Sim(e,e′1)是辅图gi中的一个实体e和在主图G中与e同名的一个实体e1′的语义相似度,具体相似度算法可以是向量余弦相似度等。
考虑到阈值是用来根据相似度决定知识融合时的具体决策的,而相似度一般会归一化为(0,1)的取值范围,所以这里的阈值在计算时采用sigmod函数也进行归一化。
(32)基于上述NSNE
Figure BDA0002517097740000105
获取相似度阈值基准值T,如公式(1)所示:
Figure BDA0002517097740000111
(33)获取用于表征节点重要程度的两同名实体节点度均值
Figure BDA0002517097740000112
其中,
Figure BDA0002517097740000113
De是辅图gi中实体e的节点度,
Figure BDA0002517097740000114
是主图G中实体e′1的节点度,某个实体的节点度等于与它有边(关系)相连的实体个数。
(34)基于相似度阈值基准值T,获取偏差值Δ,同样考虑到Tl与Th的取值范围问题,Th不能大于1,所以偏移量Δ的公式(2)所示:
Figure BDA0002517097740000115
(35)基于相似度阈值基准值T和偏差值Δ获取上限阈值Th和下限阈值Tl,如公式(3)和(4)所示:
Th=T+Δ (3)
Tl=T-Δ (4)
(36)获得第一阈值区域范围[0,Tl],第二阈值区域范围[Tl,Th],第三阈值区域范围[Th,1]。
基于上述获得的阈值区域范围,当同名实体e和e1′的相似度Sim1属于第一阈值区域范围[0,Tl]时,进一步判断实体类型是否允许同名实体存在,若允许,则e和e1′(即同名不同义)的融合操作类型为不做处理直接融合,若不允许,则e和e1′的融合操作类型为修改其中一个实体名,当Sim1属于第二阈值区域范围[Tl,Th]时,采用人工选择e和e1′的融合操作类型,由运维人员或专家结合人工经验,决定最终的决策;当Sim1属于第三阈值区域范围[Th,1]时,e和e1′(即同名同义)的融合操作类型为删除其中一个实体,并将其关系转移到另一实体上来实现实体的合并。
(15)遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,采用预设不同名实体融合方法(基于相似度多步计算的共指消解方法)将实体e与主图G上的实体e2′融合,以消除同义不同名实体产生的数据冗余;
所述预设不同名实体融合方法,包括:
采用第一预设相似度计算方法,基于主图G中与e不同名的所有实体e2′组成的实体集B0,初步筛除掉明显与e不相似不存在同义可能的实体e2′,获取初步候选实体集B1,第一预设相似度计算方法可考虑使用余弦相似度等计算速度较快的相似度计算方法,将低于某一阈值(比如0.5)的实体筛除掉,初步得到初步候选实体集B1
采用第二预设相似度计算方法,计算初步候选实体集B1中的实体e2′与e的相似度,所述第二预设相似度计算方法计算精度高于第一预设相似度计算方法且计算速度大于第一预设相似度计算方法;
将初步候选实体集B1中的实体e2′与e的相似度Sim2与预设阈值T′进行比较,若Sim2大于T′,则e与e2′两实体同义不同名,将e与e2′合并以减少冗余,在两实体之间建立等同关系以减少冗余,即在e与e2′之间建立“SameAs”关系增强e与e2′之间的关联,若Sim2小于T′,则直接将辅图上的实体e融合到主图G。
预设不同名实体融合方法的目的是找出同义不同名实体,减少信息冗余加强知识图谱中知识间的关联性。考虑到不同子图之间的实体大多名称不同,理论上有海量实体都需要判断它们含义是否相同,所以找出同义不同名实体进行共指消解比找出同名实体进行实体消歧需要更大的运算量,本实施例中的预设不同名实体融合方法采用基于相似度多步计算的共指消解,旨在利用上述不同子图实体相似度整体偏低的情况,通过精度较低但计算速度快的第一预设相似度计算方法预先筛除掉明显不相似不存在同义可能的实体,减小候选实体集的大小,然后采用速度较慢但精度高的第二预设相似度计算方法进一步缩小候选实体集,最终确定需要跟阈值T′相比较的实体。若相似度大于阈值T′,那么说明两实体含义相同,需要合并减少冗余,建立两实体间的关系(如“SameAs”)增强关联,否则直接融合到G。
当然,本步骤中的T′采用单阈值设置,获取方法可采用上述公式(1)的方法,另外虽然鉴于计算自动化程度T′采用了单阈值,但也可以在考量测试单阈值在实际应用时决策失误概率的基础上,考虑使用上述预设同名实体融合方法中所使用的的自适应双阈值。
(16)基于消除数据冗余和数据歧义的三元组数据构建知识图谱。
基于上述所述的一种面向信息系统的知识图谱构建方法,本说明书的实施例还提供一种面向信息系统的知识图谱构建装置。所述的装置可以包括使用了本说明书实施例所述方法的系统、软件(应用)、装置模块、组件、服务器等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例装置提供的实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与装置方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不装置再赘述。具体的,所述一种面向信息系统的知识图谱构建装置,包括:
信息系统多源异构数据采集模块,所述多源异构数据包括基于不同数据源获取的结构化数据、半结构化数据和非结构化数据;
数据整合与知识抽取模块,用于对结构化数据采用D2R技术抽取三元组数据,对于半结构化数据和非结构化数据采用实体识别、属性抽取、关系抽取技术获取三元组数据;
主图与辅图设定模块,将结构化程度最高的数据源抽取的三元组数据作为主图G,将剩余数据源抽取的三元组数据作为辅图gi,i=1,2,...,n,n为辅图的总个数,用于将辅图上的知识融合到主图;
同名实体融合模块,用于遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,采用预设同名实体融合方法(自适应双阈值值实体消歧方法)将实体e与主图G上的实体e1′融合,以消除同名同义产生的数据冗余或者同名不同义产生的数据歧义;
不同名实体融合模块,用于遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,采用预设不同名实体融合方法将实体e与主图G上的实体e2′融合,以消除同义不同名实体产生的数据冗余;
知识图谱构模块,用于基于消除数据冗余和数据歧义的三元组数据构建知识图谱。
在本实施例中,同名实体融合模块,包括:
阈值区域范围获取单元,用于自适应获取不同的阈值区域范围;
融合操作类型选择单元,用于根据同名实体e和e1′的相似度所在的阈值区域范围,自动匹配同名实体e和e1′对应的融合操作类型。
上述融合操作类型选择单元的处理流程,包括:当同名实体e和e1′的相似度Sim1属于第一阈值区域范围[0,Tl]时,进一步判断实体类型是否允许同名实体存在,若允许,则e和e1′(即同名不同义)的融合操作类型为直接融合,若不允许,则e和e1′的融合操作类型为修改其中一个实体名,当Sim1属于第二阈值区域范围[Tl,Th]时,采用人工选择e和e1′的融合操作类型,当Sim1属于第三阈值区域范围[Th,1]时,e和e1′(即同名同义)的融合操作类型为删除其中一个实体,并将其关系转移到另一实体上来实现实体的合并。
在本实施例中,不同名实体融合模块,包括:
相似度初次计算单元,采用第一预设相似度计算方法,初步筛除掉明显与e不相似不存在同义可能的实体e2′,获取初步候选实体集B1
相似度二次计算单元,采用第二预设相似度计算方法,计算初步候选实体集B1中的实体e2′与e的相似度,所述第二预设相似度计算方法计算精度高于第一预设相似度计算方法;
不同名实体融合单元,将初步候选实体集B1中的实体e2′与e的相似度Sim2与预设阈值T′进行比较,若Sim2大于T′,则e与e2′两实体同义不同名,将e与e2′合并以减少冗余,在两实体之间建立等同关系以减少冗余,即在e与e2′之间建立“SameAs”关系增强e与e2′之间的关联,若Sim2小于T′,则直接将辅图上的实体e融合到主图G。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果。因此,本说明书还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例所述的面向信息系统的知识图谱构建方法;还提供了一种电子设备,包括:处理器以及存储器,所述存储器用于存储所述处理器的可执行指令;所述处理器配置为经由执行所述可执行指令来实现上述实施例所述的面向信息系统的知识图谱构建方法。
本发明不局限于上述具体的实施方式,本领域的普通技术人员从上述构思出发,不经过创造性的劳动,所做出的种种变换,均落在本发明的保护范围之内。

Claims (7)

1.一种面向信息系统的知识图谱构建方法,其特征在于:包括:
(11)采集信息系统的多源异构数据,所述多源异构数据包括基于不同数据源获取的结构化数据、半结构化数据和非结构化数据;
(12)数据整合与知识抽取,对于结构化数据采用D2R技术抽取三元组数据,对于半结构化数据和非结构化数据采用实体识别、属性抽取、关系抽取技术获取三元组数据;
(13)设定主图与辅图,将结构化程度最高的数据源抽取的三元组数据作为主图G,将剩余数据源抽取的三元组数据作为辅图gi,i=1,2,...,n,n为辅图的总个数,用于将辅图上的知识融合到主图;
(14)遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,采用预设同名实体融合方法将实体e与主图G上的实体e1′融合,以消除同名同义产生的数据冗余或者同名不同义产生的数据歧义,所述预设同名实体融合方法具体为:采用多个不同的阈值区域范围,根据同名实体e和e1′的相似度所在的阈值区域范围,获取同名实体e和e1′对应的融合操作类型,所述多个不同的阈值区域范围包括第一阈值区域范围、第二阈值区域范围、第三阈值区域范围;
(15)遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,采用预设不同名实体融合方法将实体e与主图G上的实体e2′融合,以消除同义不同名实体产生的数据冗余,所述预设不同名实体融合方法,包括:
采用第一预设相似度计算方法,初步筛除掉明显与e不相似不存在同义可能的实体e2′,获取初步候选实体集B1
采用第二预设相似度计算方法,计算初步候选实体集B1中的实体e2′与e的相似度,所述第二预设相似度计算方法计算精度高于第一预设相似度计算方法,将初步候选实体集B1中的实体e2′与e的相似度Sim2与预设阈值T′进行比较,若Sim2大于T′,则e与e2′两实体同义不同名,将两实体之间建立等同关系以减少冗余,若Sim2小于T′,则直接将辅图上的实体e融合到主图G;
(16)基于消除数据冗余和数据歧义的三元组数据构建知识图谱。
2.根据权利要求1所述的一种面向信息系统的知识图谱构建方法,其特征在于:所述不同的阈值区域范围,获取方法为:
(31)基于单个辅图gi的所有实体名称与主图G中所有实体名称,获取该辅图gi与主图G中同名实体的个数NSNE,并计算该辅图gi与主图G所有同名实体的相似度均值
Figure FDA0003591676960000021
(32)基于上述NSNE
Figure FDA0003591676960000022
获取相似度阈值基准值T,如公式(1)所示:
Figure FDA0003591676960000023
(33)获取用于表征节点重要程度的两同名实体节点度均值
Figure FDA0003591676960000024
(34)基于相似度阈值基准值T,获取偏差值Δ,如公式(2)所示:
Figure FDA0003591676960000025
(35)基于相似度阈值基准值T和偏差值Δ获取Th和Tl,如公式(3)和(4)所示:
Th=T+Δ (3)
Tl=T-Δ (4)
(36)获得第一阈值区域范围[0,Tl],第二阈值区域范围[Tl,Th],第三阈值区域范围[Th,1]。
3.根据权利要求2所述的一种面向信息系统的知识图谱构建方法,其特征在于:当同名实体e和e1′的相似度Sim1属于第一阈值区域范围[0,Tl]时,进一步判断实体类型是否允许同名实体存在,若允许,则e和e1′的融合操作类型为直接融合,若不允许,则e和e1′的融合操作类型为修改其中一个实体名,当Sim1属于第二阈值区域范围[Tl,Th]时,采用人工选择e和e1′的融合操作类型,当Sim1属于第三阈值区域范围[Th,1]时,e和e1′的融合操作类型为删除其中一个实体,并将其关系转移到另一实体上来实现实体的合并。
4.一种面向信息系统的知识图谱构建装置,其特征在于:包括:
信息系统多源异构数据采集模块,所述多源异构数据包括基于不同数据源获取的结构化数据、半结构化数据和非结构化数据;
数据整合与知识抽取模块,用于对结构化数据采用D2R技术抽取三元组数据,对于半结构化数据和非结构化数据采用实体识别、属性抽取、关系抽取技术获取三元组数据;
主图与辅图设定模块,将结构化程度最高的数据源抽取的三元组数据作为主图G,将剩余数据源抽取的三元组数据作为辅图gi,i=1,2,...,n,n为辅图的总个数,用于将辅图上的知识融合到主图;
同名实体融合模块,用于遍历每个辅图gi中的每个实体e,从主图G中获取与实体e同名的实体e1′,采用预设同名实体融合方法将实体e与主图G上的实体e1′融合,以消除同名同义产生的数据冗余或者同名不同义产生的数据歧义,所述预设同名实体融合方法具体为:采用多个不同的阈值区域范围,根据同名实体e和e1′的相似度所在的阈值区域范围,获取同名实体e和e1′对应的融合操作类型,所述多个不同的阈值区域范围包括第一阈值区域范围、第二阈值区域范围、第三阈值区域范围;
不同名实体融合模块,用于遍历每个辅图gi中的每个实体e,从主图G中找出与之不同名的实体e2′,采用预设不同名实体融合方法将实体e与主图G上的实体e2′融合,以消除同义不同名实体产生的数据冗余;
知识图谱构建模块,用于基于消除数据冗余和数据歧义的三元组数据构建知识图谱;
其中,所述不同名实体融合模块,包括:
相似度初次计算单元,采用第一预设相似度计算方法,初步筛除掉明显与e不相似不存在同义可能的实体e2′,获取初步候选实体集B1
相似度二次计算单元,采用第二预设相似度计算方法,计算初步候选实体集B1中的实体e2′与e的相似度,所述第二预设相似度计算方法计算精度高于第一预设相似度计算方法;
不同名实体融合单元,将初步候选实体集B1中的实体e2′与e的相似度Sim2与预设阈值T′进行比较,若Sim2大于T′,则e与e2′两实体同义不同名,将两实体之间建立等同关系以减少冗余,若Sim2小于T′,则直接将辅图上的实体e融合到主图G。
5.根据权利要求4所述的一种面向信息系统的知识图谱构建装置,其特征在于:所述同名实体融合模块,包括:
阈值区域范围获取单元,用于自适应获取不同的阈值区域范围;
融合操作类型选择单元,用于根据同名实体e和e1′的相似度所在的阈值区域范围,自动匹配同名实体e和e1′对应的融合操作类型。
6.根据权利要求5所述的一种面向信息系统的知识图谱构建装置,其特征在于:所述融合操作类型选择单元,包括:当同名实体e和e1′的相似度Sim1属于第一阈值区域范围[0,Tl]时,进一步判断实体类型是否允许同名实体存在,若允许,则e和e1′的融合操作类型为直接融合,若不允许,则e和e1′的融合操作类型为修改其中一个实体名,当Sim1属于第二阈值区域范围[Tl,Th]时,采用人工选择e和e1′的融合操作类型,当Sim1属于第三阈值区域范围[Th,1]时,e和e1′的融合操作类型为删除其中一个实体,并将其关系转移到另一实体上来实现实体的合并。
7.一种电子设备,其特征在于:包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,其中,所述处理器配置为经由执行所述可执行指令来实现权利要求l-3中任一项所述的面向信息系统的知识图谱构建方法步骤。
CN202010480291.4A 2020-05-30 2020-05-30 一种面向信息系统的知识图谱构建方法、装置及电子设备 Active CN111782817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010480291.4A CN111782817B (zh) 2020-05-30 2020-05-30 一种面向信息系统的知识图谱构建方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010480291.4A CN111782817B (zh) 2020-05-30 2020-05-30 一种面向信息系统的知识图谱构建方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111782817A CN111782817A (zh) 2020-10-16
CN111782817B true CN111782817B (zh) 2022-06-14

Family

ID=72754525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010480291.4A Active CN111782817B (zh) 2020-05-30 2020-05-30 一种面向信息系统的知识图谱构建方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111782817B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395433B (zh) * 2021-01-21 2021-04-13 中国人民解放军国防科技大学 基于翻译模型的知识图谱消歧方法及相关设备
CN113032618A (zh) * 2021-03-26 2021-06-25 齐鲁工业大学 基于知识图谱的音乐推荐方法及系统
CN113220904A (zh) * 2021-05-20 2021-08-06 合肥工业大学 数据处理方法及数据处理装置、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359178A (zh) * 2018-09-14 2019-02-19 华南师范大学 一种检索方法、装置、存储介质及设备
CN110377747A (zh) * 2019-06-10 2019-10-25 河海大学 一种面向百科网站的知识库融合方法
CN110674312A (zh) * 2019-09-18 2020-01-10 泰康保险集团股份有限公司 构建知识图谱方法、装置、介质及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278139A1 (en) * 2004-05-28 2005-12-15 Glaenzer Helmut K Automatic match tuning
US10884865B2 (en) * 2018-01-26 2021-01-05 International Business Machines Corporation Identifying redundant nodes in a knowledge graph data structure

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359178A (zh) * 2018-09-14 2019-02-19 华南师范大学 一种检索方法、装置、存储介质及设备
CN110377747A (zh) * 2019-06-10 2019-10-25 河海大学 一种面向百科网站的知识库融合方法
CN110674312A (zh) * 2019-09-18 2020-01-10 泰康保险集团股份有限公司 构建知识图谱方法、装置、介质及电子设备

Also Published As

Publication number Publication date
CN111782817A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN111782817B (zh) 一种面向信息系统的知识图谱构建方法、装置及电子设备
US20150310862A1 (en) Deep learning for semantic parsing including semantic utterance classification
CN109815336B (zh) 一种文本聚合方法及系统
EP2833271A1 (en) Multimedia question and answer system and method
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和系统
WO2018045646A1 (zh) 基于人工智能的人机交互方法和装置
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN114612759B (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
US11120214B2 (en) Corpus generating method and apparatus, and human-machine interaction processing method and apparatus
WO2021226840A1 (zh) 热点新闻意图识别方法、装置、设备及可读存储介质
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN114003682A (zh) 一种文本分类方法、装置、设备及存储介质
CN113722600B (zh) 应用于大数据的数据查询方法、装置、设备及产品
CN113159326B (zh) 基于人工智能的智能业务决策方法
CN111324705A (zh) 自适应性调整关连搜索词的系统及其方法
WO2022116324A1 (zh) 搜索模型训练方法、装置、终端设备及存储介质
CN106407332B (zh) 基于人工智能的搜索方法和装置
CN110377721B (zh) 自动问答方法、装置、存储介质及电子设备
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN114444514B (zh) 语义匹配模型训练、语义匹配方法及相关装置
CN114611625A (zh) 语言模型训练、数据处理方法、装置、设备、介质及产品
KR20220074576A (ko) 마케팅 지식 그래프 구축을 위한 딥러닝 기반 신조어 추출 방법 및 그 장치
KR20220074572A (ko) 딥러닝 기반 신조어 추출 방법 및 그 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant