CN110727802A - 知识图谱构建方法及装置、存储介质及电子终端 - Google Patents

知识图谱构建方法及装置、存储介质及电子终端 Download PDF

Info

Publication number
CN110727802A
CN110727802A CN201910872798.1A CN201910872798A CN110727802A CN 110727802 A CN110727802 A CN 110727802A CN 201910872798 A CN201910872798 A CN 201910872798A CN 110727802 A CN110727802 A CN 110727802A
Authority
CN
China
Prior art keywords
entity
knowledge
path
graph
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910872798.1A
Other languages
English (en)
Other versions
CN110727802B (zh
Inventor
孙树春
陈阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Golden Panda Co Ltd
Original Assignee
Golden Panda Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Golden Panda Co Ltd filed Critical Golden Panda Co Ltd
Priority to CN201910872798.1A priority Critical patent/CN110727802B/zh
Publication of CN110727802A publication Critical patent/CN110727802A/zh
Application granted granted Critical
Publication of CN110727802B publication Critical patent/CN110727802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及计算机技术领域,具体涉及一种知识图谱构建方法、一种知识图谱构建装置、一种存储介质以及一种电子终端。所述方法包括:遍历第一知识图谱,提取以各实体为起点的路径数据,以及各所述实体对应的词组集合;选取所述第一知识图谱中的目标实体,并基于所述目标实体对应的路径数据与第二知识图谱进行匹配,以获取所述实体对应的区别特征;根据所述区别特征更新所述第一知识图谱。本公开的方法可以实现将两知识图谱的自动融合。并且,通过对实体和实体对应的路径进行比对,有效的提高了融合的准确性。

Description

知识图谱构建方法及装置、存储介质及电子终端
技术领域
本公开涉及计算机技术领域,具体涉及一种知识图谱构建方法、一种知识图谱构建装置、一种存储介质以及一种电子终端。
背景技术
近年来随着互联网技术的发展,知识图谱已经被广泛应用于智能搜索、自动问答、个性化推荐、内容分发等应用中。不同用户在面对相同实体类别的术语结构构建知识图谱时,由于数据源存在样本分布的差异,容易导致各知识图谱之间存在实体关系的上下位结构以及同义关系的差别;构建的单个知识图谱中可能存在实体同义关系;另外,还容易导致上下位结构缺失的情况。
现有技术在进行知识图谱补全或融合时,需要利用大量的训练数据来训练模型。另外,现有技术中还存在基于机器学习的知识图谱补全方法,但这样的技术方案具有一定的错误率,对于要求低容错率的知识图谱来说并不适用。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种知识图谱构建方法、一种知识图谱构建装置、一种存储介质以及一种电子终端,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种知识图谱构建方法,包括:
遍历第一知识图谱,提取以各实体为起点的路径数据,以及各所述实体对应的词组集合;
选取所述第一知识图谱中的目标实体,并基于所述目标实体对应的路径数据与第二知识图谱进行匹配,以获取所述实体对应的区别特征;
根据所述区别特征更新所述第一知识图谱。
在本公开的一种示例性实施例中,所述选取所述第一知识图谱中的目标实体,并基于所述目标实体对应的路径数据与第二知识图谱进行匹配,以获取所述实体对应的区别特征,包括:
选取一所述实体作为所述第一知识图谱的目标实体,并提取所述目标实体对应的目标路径;
基于所述目标实体的词组集合确定第二知识图谱中的匹配实体;
结合所述目标路径和所述匹配实体,与所述第二知识图谱进行路径匹配以获取所述第二知识图谱中的匹配路径;
将所述目标路径与所述匹配路径进行比对,以获取区别特征。
在本公开的一种示例性实施例中,所述基于所述目标实体的词组集合确定第二知识图谱中的匹配实体,包括:
遍历所述第二知识图谱,以获取包含多个第二实体的第二实体集合;
将所述目标实体的词组集合与所述第二实体集合进行比对,以确定所述匹配实体。
在本公开的一种示例性实施例中,所述选取所述第一知识图谱中的目标实体,并基于所述目标实体对应的路径数据与第二知识图谱进行匹配,以获取所述实体对应的区别特征,还包括:
遍历所述第二知识图谱,提取所述所述第二知识图谱包含的以第二实体为起点的第二路径数据;
获取与所述目标实体相匹配的所述第二实体,以及提取以所述第二实体为起点的多个第二路径作为待匹配路径;
将所述目标实体对应的目标路径与所述第二配路径进行比对,以确定所述匹配路径,并提取所述匹配路径与所述目标路径之间的所述区别特征。
在本公开的一种示例性实施例中,所述基于所述目标实体对应的路径数据与第二知识图谱进行匹配时,所述方法还包括:
在所述目标实体对应的词组集合与所述第二知识图谱包含的第二实体匹配失败时,构建所述目标实体的词组集合的目标属性特征向量;
将所述目标属性特征向量与各所述第二实体对应的属性特征向量计算相似度,并选取相似度最大值对应的所述第二实体作为候选匹配实体;以及
构建所述目标实体对应的所述目标路径的词向量,并计算所述目标路径的词向量与所述第二知识图谱中以所述候选匹配实体为起点的第二路径的词向量之间的相似度,并选取相似度对最大值对应的所述第二路径作为候选匹配路径。
在本公开的一种示例性实施例中,所述词组集合包括所述实体对应的首选词组和同义词组。
在本公开的一种示例性实施例中,所述区别特征包括:区别词组或区别结构中的任意一项或任意多项。
在本公开的一种示例性实施例中,所述根据所述区别特征更新所述第一知识图谱,包括:
对所述区别特征进行转换;
根据转换结果更新所述第一知识图谱。
根据本公开的第二方面,提供一种知识图谱构建装置,包括:
第一知识图谱遍历模块,用于遍历第一知识图谱,提取以各实体为起点的路径数据,以及各所述实体对应的词组集合;
区别特征识别模块,用于选取所述第一知识图谱中的目标实体,并基于所述目标实体对应的路径数据与第二知识图谱进行匹配,以获取所述实体对应的区别特征;
第一知识图谱更新模块,用于根据所述区别特征更新所述第一知识图谱。
根据本公开的第三方面,提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的知识图谱构建方法。
根据本公开的第四方面,提供一种电子终端,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述的知识图谱构建方法。
本公开的一种实施例所提供的知识图谱构建方法中,通过对第一知识图谱进行遍历,来提取第一知识图谱所包含的实体以及各实体对应的路径。在选取目标实体后,将目标实体以及目标实体对应的目标路径与第二知识图谱进行匹配,从而获取第一知识图谱相对于第二知识图谱所缺少的区别特征。再根据该些区别特征更新第一知识图谱,从而实现将第二知识图谱与第一知识图谱之间的自动融合。并且,通过对实体和实体对应的路径进行比对,有效的提高了融合的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开示例性实施例中一种知识图谱构建方法的流程示意图;
图2示意性示出本公开示例性实施例中一种执行知识图谱匹配的方法流程示意图;
图3示意性示出本公开示例性实施例中一种更新第一知识图谱的方法流程示意图;
图4示意性示出本公开示例性实施例中一种知识图谱构建装置组成示意图;
图5示意性示出本公开示例性实施例中一种电子设备的组成示意图;
图6示意性示出本公开示例性实施例中一种程序产品的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
本示例实施方式中首先提供了一种知识图谱构建方法,可以应用于对知识图谱的补全,或者多个知识图谱的融合。能够有效的提升知识图谱融合的准确性。参考图1中所示,上述的知识图谱构建方法可以包括以下步骤:
步骤S11,遍历第一知识图谱,提取以各实体为起点的路径数据,以及各所述实体对应的词组集合;
步骤S12,选取所述第一知识图谱中的目标实体,并基于所述目标实体对应的路径数据与第二知识图谱进行匹配,以获取所述实体对应的区别特征;
步骤S13,根据所述区别特征更新所述第一知识图谱。
本示例实施方式所提供的知识图谱构建方法,一方面,通过将第一知识图谱中的目标实体以及目标实体对应的目标路径逐个与第二知识图谱进行匹配,从而确定第一知识图谱相对于第二知识图谱所缺少的区别特征。再根据该些区别特征更新第一知识图谱,可以实现将第二知识图谱与第一知识图谱之间的自动融合。另一方面,通过以各目标实体为起点,能够有效的提取知识图谱中的多级路径。再一方面,通过逐个对实体和实体对应的路径进行比对,有效的提高了融合的准确性。
下面,将结合附图及实施例对本示例实施方式中的知识图谱构建方法中各个步骤进行更详细的说明。
步骤S11,遍历第一知识图谱,提取以各实体为起点的路径数据,以及各所述实体对应的词组集合。
本示例实施方式中,对于待处理的两个包含相同实体类别以及属于结构的第一知识图谱和第二知识图谱,可以将第一知识图谱作为主图谱,将第二知识图谱作为辅图谱。可以首先对第一知识图谱进行遍历。例如,遍历指定类型的实体,在第一知识图谱中,以某一实体为起点出发,至最后一级的实体结束,得到以该实体为起点的上下位路径数据。路径中可以包含多级实体。
同时,还可提取每个实体对应的词组集合。该词组集合可以包含该实体在第一知识图谱中对应的首选词组和同义词组,可以用于在指定类别中标识该实体的名称。
步骤S12,选取所述第一知识图谱中的目标实体,并基于所述目标实体对应的路径数据与第二知识图谱进行匹配,以获取所述实体对应的区别特征。
本示例实施方式中,对于第一知识图谱和第二知识图谱来说,可以对两知识图谱中的实体数据进行比对。参考图2所示,上述的步骤S12可以包括以下步骤:
步骤S121,选取一所述实体作为所述第一知识图谱的目标实体,并提取所述目标实体对应的目标路径。
本示例实施方式中,对于第一知识图谱来说,在执行遍历后,可以逐一选取目标类型的实体,作为执行后续匹配操作的目标实体,同时提取出该目标实体的一个或多个路径。或者,也可以将目标类型的实体创建实体集合,从而可以从该集合中依次提取各实体。
步骤S122,基于所述目标实体的词组集合确定第二知识图谱中的匹配实体。
本示例实施方式中,对于第二知识图谱来说,在对第一知识图谱执行遍历操作时,也可以对第二知识图谱执行遍历操作。具体来说,上述的步骤S122可以包括:
步骤S21,遍历所述第二知识图谱,以获取包含多个第二实体的第二实体集合;
步骤S22,将所述目标实体的词组集合与所述第二实体集合进行比对,以确定所述匹配实体。
通过遍历第二知识图谱,来提取第二知识图谱中目标类型的至少一个第二实体,并根据该些第二实体创建第二实体集合。
对于选定的第一知识图谱中的目标实体,可以首先根据该目标实体的首选词组,即利用第一知识图谱中的首选词与上述的第二知识图谱的目标类型的第二实体集合进行比对,判断是否存在相同的第二实体。若不存在与首选词组相同的第二实体,便可以利用目标实体对应词组集合中的统一词组进行比对,从而确定第二知识图谱中目标类型的匹配实体,即将路径的起点进行对齐。
此外,对于第一知识图谱和第二知识图谱来说,在对实体数据进行对比和匹配后,还可以根据实体数据的匹配结果对路径数据进行比对和匹配。
步骤S123,结合所述目标路径和所述匹配实体,与所述第二知识图谱进行路径匹配以获取所述第二知识图谱中的匹配路径。
本示例实施方式中,具体来说,上述的步骤S123可以包括:
步骤S31,遍历所述第二知识图谱,提取所述所述第二知识图谱包含的以第二实体为起点的第二路径数据;
步骤S32,获取与所述目标实体相匹配的所述第二实体,以及提取以所述第二实体为起点的多个第二路径作为待匹配路径;
步骤S33,将所述目标实体对应的目标路径与所述第二配路径进行比对,以确定所述匹配路径,并提取所述匹配路径与所述目标路径之间的所述区别特征。
对于第二知识图谱来说,在执行遍历提取目标类型的第二实体时,还可以提取以各目标类型的第二实体为起点的至少一个第二路径。对于各第二实体来说,以第二实体为起点,可以在第二知识图谱中提取至少一条第二路径。
在将第二实体与目标实体进行对比和匹配后,确认与第一知识图谱中的目标实体相匹配的第二知识图谱中的第二实体后,可以将该第二实体作为匹配实体。然后,便可以将目标实体对应的目标路径与该匹配实体对应的待匹配路径逐级进行比对,从而确定与目标路径相匹配的一待匹配路径,并将该待匹配路径作为匹配路径。
步骤S124,将所述目标路径与所述匹配路径进行比对,以获取区别特征。
本示例实施方式中,在进行路径对比时,在路径起点对齐后,便可以将路径逐级进行对比。举例来说,可以包括以下情况:
1)目标路径与匹配路径结构完全匹配,匹配路径中的实体在目标路径中全部存在,同时上下位顺序相同,即上下位结构相同。此时,可以在匹配路径中提取出目标路径所未包含的同义词数据,作为区别特征。
2)目标路径的上下位结构和各级实体,匹配路径中的起始实体与终点实体,在目标路径存在,且目标路径中终点实体是起始实体的直接下位实体,匹配路径属于包含结构。此时,可以将匹配路径中起始实体与终点实体间的目标路径所未包含的上下位结构,以及目标路径中未包含的同义词数据,作为区别特征。
3)通过各级实体的首选词结合同义词实体对齐后,目标路径与各待匹配路径结构不匹配,也不存在包含关系。此时,便可以提取目标路径中未包含的同义词数据,作为区别特征。
步骤S13,根据所述区别特征更新所述第一知识图谱。
本示例实施方式中,具体来说,参考图3所示,上述的步骤S13可以包括:
步骤S131,对所述区别特征进行转换;
步骤S132,根据转换结果更新所述第一知识图谱。
举例来说,区别特征可以是同义词数据以及上下位结构。对于获取的上述同义词数据,以及上下位结构,可以利用预设的脚本转换为三元组数据,再将转换结果导入第一知识图谱中。
具体来说,三元组是知识图谱的一种通用表示方式,其基本形式可以包括:“实体1-关系-实体2”,以及“实体-属性-属性值”等。其中,每个实体可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair,AVP)可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联
基于上述内容,在本公开的其他示例性实施方式中,在对目标实体与第二知识图谱进行匹配时,还可以通过构建实体的属性特征向量,以及路径的词向量计算相似度的方式来确定匹配实体以及路径。
举例来说,上述的方法还可以包括:
步骤S41,在所述目标实体对应的词组集合与所述第二知识图谱包含的第二实体匹配失败时,构建所述目标实体的目标属性特征向量;
步骤S42,将所述目标属性特征向量与各所述第二实体对应的属性特征向量计算相似度,并选取相似度最大值对应的所述第二实体作为候选匹配实体;
步骤S43,构建所述目标实体对应的所述目标路径的词向量,并计算所述目标路径的词向量与所述候选匹配实体对应的第二路径的词向量的相似度,并选取相似度对最大值对应的所述第二路径作为候选匹配路径。
具体来说,若目标实体的词组集合中的首先词组和同义词组未能在第二实体集合中确定相同的匹配实体时,便可以构建目标实体的词组集合中各词组的属性特征向量,以及第二实体集合中各第二实体的属性特征向量,并计算各属性特征向量之间的余弦相似度,从而可以根据相似度确定与目标实体相似度最高的第二实体,作为目标实体的候选匹配实体,该候选匹配实体可以作为目标实体的候选同义词。
另外,还可以计算目标路径的词向量,以及候选匹配实体对应的第二路径的词向量,并计算各词向量之间的相似度,从而选取与目标路径相似度最高的第二路径,作为目标路径对应的候选匹配路径。
或者,在对路径进行上下位结构的对比时,还可以利用文本编辑距离算法来计算目标路径与待匹配路径之间的相似度。或者,也可以利用TF-IDF(term frequency–inversedocument frequency,词频-逆向文件频率)算法来计算两路径中上下位结构的相似性。
在确定相似度最高的第二路径后,便可以进行对比来提取区别特征,并根据区别特征来更新第一知识图谱。
在本公开的其他示例性实施方式中,在遍历第一知识图谱和第二知识图谱提取第一知识图谱对应的目标路径以及第二知识图谱对应的第二路径数据后,也可以直接对第一知识图谱和第二知识图谱进行路径匹配。举例来说,可以根据路径中包含实体对应的词向量构建各路径的词向量,并计算各路径词向量的相似度,并选取相似度高的词向量作为路径的匹配结果。
举例而言,若获取的第一知识图谱A的路径数据包含路径A1:心律失常>预激综合征>A型预激综合征;路径A2:循环系统疾病>缺血性心脏病>急性心肌梗死>前壁急性透壁性心肌硬死>急性前侧壁心肌梗死。
第二知识图谱B的路径数据包含路径B1:心律失常>房室交界区心律失常>预激综合征>A型预激综合征;路径B2:冠状动脉粥样硬化性心脏病>心肌梗死型冠心病>急性心肌梗死>急性ST段抬高型心肌梗死>急性侧壁心肌梗死>急性前侧壁心肌梗死(同义词:急性心肌梗死(前侧壁))。
在对第二知识图谱B中的路径和实体与第一知识图谱A进行对比。对于路径A1和路径B1来说:
A1.心律失常>?>预激综合征>A型预激综合征
B1.心律失常>房室交界区心律失常>预激综合征>A型预激综合征
在进行对比后,因为起始实体与终点实体对齐,且A1中不存在B1中不存在的上下位结构,路径A1被完全包含在路径B1中,实体“房室交界区心律失常”可以直接补充到路径A1中。
对于路径A2和路径B2来说:
A2.急性心肌梗死>前壁急性透壁性心肌硬死>急性前侧壁心肌梗死
B2.急性心肌梗死>急性ST段抬高型心肌梗死>急性侧壁心肌梗死>急性前侧壁心肌梗死(同义词:急性心肌梗死(前侧壁))
在将路径的起始实体与终点实体对齐后,路径A2中存在路径B2中不存在的上下位结构,所以不可以直接补充结构。
但在将路径A2中的“急性前侧壁心肌梗死”与路径B2对齐后,路径B2中存在路径A2中不存在的同义词;因此可以将同义词“急性心肌梗死(前侧壁)”补充到路径A2中。
本公开所提供的知识图谱构建方法,对于两个知识图谱,将其中一个作为主知识图谱,通过预先遍历两知识图谱,提取两知识图谱中指定类型的实体,以及以各实体为起点的路径数据。从而在对两知识图谱进行对比时,可以首先利用各实体的首选词和同义词做实体对齐,而后对路径逐级进行比对,实现基于一定的规则进行路径比对,区分出主知识图谱相对于另一知识图谱中已存在、包含或完全不存在的同义词数据以及路径上下位结构,从而能够准确的对比结果。再利用对比结果来更新两知识图谱中的主知识图谱,进而实现将两知识图谱的自动融合。并且,在进行路径比对时,通过将路径整体作为比较对象,考虑了路径包含两个以上数量实体的情况,有效的提高了路径中上下位结构融合的准确性。
需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
进一步的,参考图4所示,本示例的实施方式中还提供了一种知识图谱构建装置40,包括:第一知识图谱遍历模块401、区别特征识别模块402以及第一知识图谱更新模块403。其中:
所述第一知识图谱遍历模块可以用于遍历第一知识图谱,提取以各实体为起点的路径数据,以及各所述实体对应的词组集合。
所述区别特征识别模块402可以用于选取所述第一知识图谱中的目标实体,并基于所述目标实体对应的路径数据与第二知识图谱进行匹配,以获取所述实体对应的区别特征。
所述第一知识图谱更新模块403可以用于根据所述区别特征更新所述第一知识图谱。
本示例实施方式中,所述的区别特征识别模块402可以包括:目标实体处理单元、实体匹配单元、路径匹配单元以及路径比对单元。其中,所述目标实体处理单元可以用于选取一所述实体作为所述第一知识图谱的目标实体,并提取所述目标实体对应的目标路径。
所述实体匹配单元可以用于基于所述目标实体的词组集合确定第二知识图谱中的匹配实体。
所述路径匹配单元可以用于结合所述目标路径和所述匹配实体,与所述第二知识图谱进行路径匹配以获取所述第二知识图谱中的匹配路径。
所述路径比对单元可以用于将所述目标路径与所述匹配路径进行比对,以获取区别特征。
本示例实施方式中,所述实体匹配单元可以包括:第二知识图谱处理单元、实体比对单元。其中,
所述第二知识图谱处理单元可以用于遍历所述第二知识图谱,以获取包含多个第二实体的第二实体集合。
所述实体比对单元可以用于将所述目标实体的词组集合与所述第二实体集合进行比对,以确定所述匹配实体。
本示例实施方式中,所述区别特征识别模块还包括:第二路径数据处理单元、待匹配路径选取单元以及路径数据比对单元。其中,
所述第二路径数据处理单元可以用于遍历所述第二知识图谱,提取所述所述第二知识图谱包含的以第二实体为起点的第二路径数据。
所述待匹配路径选取单元可以用于获取与所述目标实体相匹配的所述第二实体,以及提取以所述第二实体为起点的多个第二路径作为待匹配路径。
所述路径数据比对单元可以用于将所述目标实体对应的目标路径与所述第二配路径进行比对,以确定所述匹配路径。
本示例实施方式中,所述装置40还包括:属性特征向量计算单元,词向量计算单元、相似度计算单元和路径比对单元。其中,
所述词向量计算单元可以用于在所述目标实体对应的词组集合与所述第二知识图谱包含的第二实体匹配失败时,构建所述目标实体的词组集合的目标词向量。
所述相似度计算单元可以用于将所述目标词向量与各所述第二实体对应的词向量计算相似度,并选取相似度最大值对应的所述第二实体作为所述匹配实体。
所述路径比对单元可以用于构建所述目标实体对应的所述目标路径的词向量,并计算所述目标路径的词向量与所述第二知识图谱中以所述候选匹配实体为起点的第二路径的词向量之间的相似度,并选取相似度对最大值对应的所述第二路径作为候选匹配路径。
本示例实施方式中,所述词组集合包括所述实体对应的首选词组和同义词组。
本示例实施方式中,所述第二知识图谱处理单元可以第二路径处理单元,可以用于提取以各所述第二实体为起点的第二路径数据。
本示例实施方式中,所述路径匹配模块可以包括:第二路径提取单元和匹配执行单元。其中,
所述第二路径提取单元可以用于提取以所述匹配实体为起点的多个第二路径作为待匹配路径。
所述匹配执行单元可以用于将所述目标路径与所述待匹配路径进行比对,以确定所述匹配路径。
本示例实施方式中,所述区别特征包括区别词组,或区别词组和区别结构。
本示例实施方式中,所述第一知识图谱更新模块可以包括:转换单元和更新单元。其中,
所述转换单元可以用于对所述区别特征进行转换。
所述更新单元可以用于根据转换结果更新所述第一知识图谱。
上述的知识图谱构建装置40中各模块的具体细节已经在对应的知识图谱构建方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1中所示的知识图谱构建方法。
存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器560通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品600,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (10)

1.一种知识图谱构建方法,其特征在于,包括:
遍历第一知识图谱,提取以各实体为起点的路径数据,以及各所述实体对应的词组集合;
选取所述第一知识图谱中的目标实体,并基于所述目标实体对应的路径数据与第二知识图谱进行匹配,以获取所述实体对应的区别特征;
根据所述区别特征更新所述第一知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述选取所述第一知识图谱中的目标实体,并基于所述目标实体对应的路径数据与第二知识图谱进行匹配,以获取所述实体对应的区别特征,包括:
选取一所述实体作为所述第一知识图谱的目标实体,并提取所述目标实体对应的目标路径;
基于所述目标实体的词组集合确定第二知识图谱中的匹配实体;
结合所述目标路径和所述匹配实体,与所述第二知识图谱进行路径匹配以获取所述第二知识图谱中的匹配路径;
将所述目标路径与所述匹配路径进行比对,以获取区别特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标实体的词组集合确定第二知识图谱中的匹配实体,包括:
遍历所述第二知识图谱,以获取包含多个第二实体的第二实体集合;
将所述目标实体的词组集合与所述第二实体集合进行比对,以确定所述匹配实体。
4.根据权利要求1所述的方法,其特征在于,所述选取所述第一知识图谱中的目标实体,并基于所述目标实体对应的路径数据与第二知识图谱进行匹配,包括:
遍历所述第二知识图谱,提取所述所述第二知识图谱包含的以第二实体为起点的第二路径数据;
获取与所述目标实体相匹配的所述第二实体,以及提取以所述第二实体为起点的多个第二路径作为待匹配路径;
将所述目标实体对应的目标路径与所述第二配路径进行比对,以确定所述匹配路径。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标实体对应的路径数据与第二知识图谱进行匹配时,所述方法还包括:
在所述目标实体对应的词组集合与所述第二知识图谱包含的第二实体匹配失败时,构建所述目标实体的词组集合的目标属性特征向量;
将所述目标属性特征向量与各所述第二实体对应的属性特征向量计算相似度,并选取相似度最大值对应的所述第二实体作为候选匹配实体;以及
构建所述目标实体对应的所述目标路径的词向量,并计算所述目标路径的词向量与所述第二知识图谱中以所述候选匹配实体为起点的第二路径的词向量之间的相似度,并选取相似度对最大值对应的所述第二路径作为候选匹配路径。
6.根据权利要求1所述的方法,其特征在于,所述词组集合包括所述实体对应的首选词组和同义词组。
7.根据权利要求1或2所述的方法,其特征在于,所述区别特征包括:区别词组或区别结构中的任意一项或任意多项。
8.一种知识图谱构建装置,其特征在于,包括:
第一知识图谱遍历模块,用于遍历第一知识图谱,提取以各实体为起点的路径数据,以及各所述实体对应的词组集合;
区别特征识别模块,用于选取所述第一知识图谱中的目标实体,并基于所述目标实体对应的路径数据与第二知识图谱进行匹配,以获取所述实体对应的区别特征;
第一知识图谱更新模块,用于根据所述区别特征更新所述第一知识图谱。
9.一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至7中任一项所述的知识图谱构建方法。
10.一种电子终端,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行如权利要求1至7中任一项所述的知识图谱构建方法。
CN201910872798.1A 2019-09-16 2019-09-16 知识图谱构建方法及装置、存储介质及电子终端 Active CN110727802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910872798.1A CN110727802B (zh) 2019-09-16 2019-09-16 知识图谱构建方法及装置、存储介质及电子终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910872798.1A CN110727802B (zh) 2019-09-16 2019-09-16 知识图谱构建方法及装置、存储介质及电子终端

Publications (2)

Publication Number Publication Date
CN110727802A true CN110727802A (zh) 2020-01-24
CN110727802B CN110727802B (zh) 2022-10-28

Family

ID=69219102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910872798.1A Active CN110727802B (zh) 2019-09-16 2019-09-16 知识图谱构建方法及装置、存储介质及电子终端

Country Status (1)

Country Link
CN (1) CN110727802B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488461A (zh) * 2020-03-24 2020-08-04 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN112835992A (zh) * 2020-11-20 2021-05-25 武汉烽火众智数字技术有限责任公司 一种基于知识图谱的路径发现方法及装置
CN113342986A (zh) * 2021-03-25 2021-09-03 曼汉教育科技(上海)有限公司 一种基于知识图谱的个性化知识服务推荐系统
CN113535977A (zh) * 2021-07-13 2021-10-22 泰康保险集团股份有限公司 一种知识图谱融合方法和装置及设备
CN114398464A (zh) * 2021-12-28 2022-04-26 北方工业大学 一种基于知识图谱的研讨数据展示方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038183A (zh) * 2017-12-08 2018-05-15 北京百度网讯科技有限公司 结构化实体收录方法、装置、服务器和存储介质
US20180159876A1 (en) * 2016-12-05 2018-06-07 International Business Machines Corporation Consolidating structured and unstructured security and threat intelligence with knowledge graphs
CN109726280A (zh) * 2018-12-29 2019-05-07 北京邮电大学 一种针对同名学者的排歧方法及装置
CN109960810A (zh) * 2019-03-28 2019-07-02 科大讯飞(苏州)科技有限公司 一种实体对齐方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180159876A1 (en) * 2016-12-05 2018-06-07 International Business Machines Corporation Consolidating structured and unstructured security and threat intelligence with knowledge graphs
CN108038183A (zh) * 2017-12-08 2018-05-15 北京百度网讯科技有限公司 结构化实体收录方法、装置、服务器和存储介质
CN109726280A (zh) * 2018-12-29 2019-05-07 北京邮电大学 一种针对同名学者的排歧方法及装置
CN109960810A (zh) * 2019-03-28 2019-07-02 科大讯飞(苏州)科技有限公司 一种实体对齐方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488461A (zh) * 2020-03-24 2020-08-04 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN112835992A (zh) * 2020-11-20 2021-05-25 武汉烽火众智数字技术有限责任公司 一种基于知识图谱的路径发现方法及装置
CN113342986A (zh) * 2021-03-25 2021-09-03 曼汉教育科技(上海)有限公司 一种基于知识图谱的个性化知识服务推荐系统
CN113535977A (zh) * 2021-07-13 2021-10-22 泰康保险集团股份有限公司 一种知识图谱融合方法和装置及设备
CN113535977B (zh) * 2021-07-13 2023-12-19 泰康保险集团股份有限公司 一种知识图谱融合方法和装置及设备
CN114398464A (zh) * 2021-12-28 2022-04-26 北方工业大学 一种基于知识图谱的研讨数据展示方法及系统

Also Published As

Publication number Publication date
CN110727802B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN110727802B (zh) 知识图谱构建方法及装置、存储介质及电子终端
CN108363698B (zh) 兴趣点关系识别方法及装置
US10572594B2 (en) Extracting domain-specific actions and entities in natural language commands recognized based on edition and recognition scores
US10628467B2 (en) Log-aided automatic query expansion approach based on topic modeling
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
US8355905B2 (en) Mapping of relationship entities between ontologies
US20200349228A1 (en) Significant correlation framework for command translation
CN109241319B (zh) 一种图片检索方法、装置、服务器和存储介质
US20190027134A1 (en) Extracting domain-specific actions and entities in natural language commands
CN110019650B (zh) 提供搜索联想词的方法、装置、存储介质及电子设备
US10552426B2 (en) Adaptive conversational disambiguation system
WO2023207096A1 (zh) 一种实体链接方法、装置、设备及非易失性可读存储介质
JP5722415B2 (ja) 自動完成質疑語提供システム、検索システム、自動完成質疑語提供方法並びに記録媒体
US20200183961A1 (en) External action execution with conversational agent
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
US11145308B2 (en) Symbol sequence estimation in speech
Burgdorf et al. Towards NLP-supported Semantic Data Management
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置
CN116501834A (zh) 地址信息处理方法、装置、移动终端及存储介质
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN116414808A (zh) 详细地址规范化的方法、装置、计算机设备和存储介质
US20200272691A1 (en) Translation of ticket for resolution
CN111767722A (zh) 一种分词方法和装置
KR20230008306A (ko) 도서목록정보(marc data) 구축을 위한 인공지능을 이용한 분류번호(kdc, ddc) 생성 방법 및 시스템
US11294907B2 (en) Domain query execution using user-provided definition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant