CN111597276B - 实体对齐方法、装置和设备 - Google Patents

实体对齐方法、装置和设备 Download PDF

Info

Publication number
CN111597276B
CN111597276B CN202010384445.XA CN202010384445A CN111597276B CN 111597276 B CN111597276 B CN 111597276B CN 202010384445 A CN202010384445 A CN 202010384445A CN 111597276 B CN111597276 B CN 111597276B
Authority
CN
China
Prior art keywords
entity
relation
representation
triplet
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010384445.XA
Other languages
English (en)
Other versions
CN111597276A (zh
Inventor
何莹
陈嘉
李直旭
陈志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Suzhou Technology Co Ltd
Original Assignee
Iflytek Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek Suzhou Technology Co Ltd filed Critical Iflytek Suzhou Technology Co Ltd
Priority to CN202010384445.XA priority Critical patent/CN111597276B/zh
Publication of CN111597276A publication Critical patent/CN111597276A/zh
Application granted granted Critical
Publication of CN111597276B publication Critical patent/CN111597276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实体对齐方法、装置和设备。本发明的核心构思在于提出一种根据基于度感知的采样策略生成异质序列,并基于异质序列中各节点彼此之间的相关性得到目标实体表示的实体对齐方案,具体是根据预设的基于度感知的采样策略,为合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列;基于实体节点与关系节点在异质序列中的位置,以及关系节点和实体节点彼此之间的相关性,得到目标实体表示。由于基于实体与关系在异质序列中的位置,以及彼此之间的相关性得到目标实体表示,可以加强实体间的依赖性,便于捕捉实体间长距离的互相依赖特征,提高对实体的表示能力,有效传播对齐信息,提高实体对齐效果。

Description

实体对齐方法、装置和设备
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种实体对齐方法、装置和设备。
背景技术
最近几年,知识图谱(Knowledge Graph,简称KG)在人工智能的多项研究与应用中扮演着举足轻重的角色,它作为问答、推荐系统等领域的技术基石,受到了广泛关注。知识图谱主要描述各类实体(如中国、马云等)的属性以及它们之间的关系,通常用三元组的形式表达:(主语,谓语,宾语)可以简写成SPO(subject,predicate,object),描述各类实体之间关系的三元组称为关系三元组:(entity,relation,entity)。
知识图谱是从非结构化的信息中构建出来的,目前存在的知识图谱都是从各大百科网站和非结构化的文本集中抽取出来的。由于来源的多样性,不可避免地造成了知识图谱中三元组的差异,例如从百度百科页面抽取构成知识图谱中的某个三元组是(马云,创始人,淘宝),而从微博或者其他资源抽取构成的另一个知识图谱中表达相同含义的三元组是(马爸爸,创始人,某宝),这两个知识图谱由于存在互补关系,需要利用实体对齐技术进行融合消歧,其目标主要是将两个知识图谱中表达一个意思的实体进行对齐合并,比如这里的马云和马爸爸,某宝与淘宝。
由于不同的知识图谱对于实体各方面信息的表达差异性较大,现有针对实体对齐的方法,大多通过知识图谱特有的三元组结构的学习来传播对齐信息,存在表达能力低和信息传播不充分有效的问题,很难高效地获得两个距离较远的实体之间的依赖。因此,如何高效地捕获实体间的长期依赖特征,是本领域亟待解决的重要问题之一。
发明内容
鉴于此,本发明提供了一种实体对齐方法、装置和设备,本发明还相应提供了一种计算机程序产品,通过以上形式,能够高效地捕获实体间的长期依赖特征。
关于上述本发明采用的技术方案具体如下:
第一方面,本发明提供了一种实体对齐方法,包括:
利用预设的预对齐种子,将多个知识图谱融合,得到合并知识图谱;
根据预设的基于度感知的采样策略,为所述合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列;
基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示;
利用所述目标实体表示,将多个知识图谱中的实体进行对齐。
在其中一种可能的实现方式中,所述基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示包括:
根据所述实体节点、所述关系节点以及各节点的位置关系,得到包含位置信息的实体嵌入表示和关系嵌入表示;
根据各所述实体嵌入表示和各所述关系嵌入表示进行相关性计算,得到具有上下文信息的实体相关表示;
根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关表示,得到所述目标实体表示。
在其中一种可能的实现方式中,所述根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关表示,得到所述目标实体表示包括:
将所述关系嵌入表示和所述关系节点的前一个实体节点对应的实体相关表示融合,得到关系更新表示;
将所述实体嵌入表示和对应的所述实体相关表示融合,得到实体更新表示;
将所述关系更新表示作为新的关系嵌入表示,将所述实体更新表示作为新的实体嵌入表示,迭代上述计算过程,直至达到最大迭代次数,得到所述目标实体表示。
在其中一种可能的实现方式中,所述基于度感知的采样策略包括:
在所述合并知识图谱中,将由一个关系三元组的尾实体作为头实体的所有关系三元组作为该关系三元组的候选三元组,构建候选三元组集合;
根据所述候选三元组集合中的各候选三元组相对于所述候选三元组集合内其他候选三元组的度感知偏差以及相对于对应的所述关系三元组的空间关系,构建所述异质序列。
在其中一种可能的实现方式中,所述根据所述候选三元组集合中的各候选三元组相对于所述候选三元组集合内其他候选三元组的度感知偏差以及相对于对应的所述关系三元组的空间关系,构建所述异质序列包括:
计算所述合并知识图谱中各实体的度以及各关系的频率;
将各所述候选三元组中的关系的频率和尾实体的度融合,得到所述度感知偏差;
根据各所述候选三元组的尾实体与所述关系三元组的头实体之间的距离,得到深度感知偏差;
根据所述度感知偏差和所述深度感知偏差,构建所述异质序列。
在其中一种可能的实现方式中,所述根据所述度感知偏差和所述深度感知偏差,构建所述异质序列包括:
计算所述度感知偏差和所述深度感知偏差的乘积,得到各所述候选三元组的转移概率;
在各所述候选三元组中选择转移概率最大的候选三元组作为增补三元组;
将所述增补三元组作为新的关系三元组,重复执行为新的关系三元组确定增补三元组的步骤,直到所述异质序列达到预设长度。
第二方面,本发明提供了一种实体对齐装置,包括:
知识图谱融合模块,用于利用预设的预对齐种子,将多个知识图谱融合,得到合并知识图谱;
异质序列生成模块,用于根据预设的基于度感知的采样策略,为所述合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列;
实体表示模块,用于基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示;
实体对齐模块,用于利用所述目标实体表示,将多个知识图谱中的实体进行对齐。
在其中一种可能的实现方式中,所述实体表示模块包括:
嵌入表示单元,用于根据所述实体节点、所述关系节点以及各节点的位置关系,得到包含位置信息的实体嵌入表示和关系嵌入表示;
相关表示单元,用于根据各所述实体嵌入表示和各所述关系嵌入表示进行相关性计算,得到具有上下文信息的实体相关表示;
目标表示单元,用于根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关表示,得到所述目标实体表示。
在其中一种可能的实现方式中,所述异质序列生成模块包括:
候选三元组建立单元,用于在所述合并知识图谱中,将由一个关系三元组的尾实体作为头实体的所有关系三元组作为该关系三元组的候选三元组,构建候选三元组集合;
异质序列构建单元,用于根据所述候选三元组集合中的各候选三元组相对于所述候选三元组集合内其他候选三元组的度感知偏差以及相对于对应的所述关系三元组的空间关系,构建所述异质序列。
第三方面,本发明提供了一种实体对齐设备,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,所述存储器可以采用非易失性存储介质,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如第一方面或者第一方面的任一可能实现方式中的所述方法。
本发明的核心构思在于提出一种根据基于度感知的采样策略生成异质序列,并基于异质序列中各节点彼此之间的相关性得到目标实体表示的实体对齐方案,具体是利用预设的预对齐种子,将多个知识图谱融合,得到合并知识图谱;根据预设的基于度感知的采样策略,为合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列;基于实体节点与关系节点在异质序列中的位置,以及关系节点和实体节点彼此之间的相关性,得到目标实体表示;利用目标实体表示,将多个知识图谱中的实体进行对齐。由于基于实体节点与关系节点在异质序列中的位置,以及关系节点和实体节点彼此之间的相关性,得到目标实体表示,可以加强实体间的依赖性,便于捕捉实体间长距离的互相依赖特征,得到具有长期依赖特征的实体表示,进而提高对实体的表示能力,可以有效地传播对齐信息,提高实体对齐的效果;另外,根据基于度感知的采样策略生成异质序列,便于采集三元组信息稀缺的长尾实体的信息,有效地解决采集的序列中长尾实体与正常实体信息不均衡的问题,便于后续基于异质序列充分地获取实体间和关系间的相关性。
进一步来说,本发明对各实体嵌入表示和各关系嵌入表示进行相关性计算,得到具有上下文信息的实体相关表示,因此无需借助于外部信息,仅通过自身的信息来更新相关表示参数,可以更有效地捕捉异质序列中长距离的互相依赖特征。
进一步来说,本发明考虑到实体的重要性要大于关系的重要性,将关系嵌入表示和关系节点的前一个实体节点对应的实体相关表示融合,得到关系更新表示,将实体嵌入表示和对应的实体相关表示融合,得到实体更新表示,并以此得到目标实体表示,这样可以体现其在先实体的重要性,对实体间的相关性进行了额外加强,可以高效地捕获实体间的长期依赖特征。
进一步来说,本发明所采用的基于度感知的异质序列生成方法,根据度感知偏差和深度感知偏差,构建异质序列,同时考虑了三元组之间的深层结构关联特征和距离远近特征生成高质的异质序列,在采样时优先采集到出现次数少的实体,因此在异质序列中,长尾实体对应的序列可以被优先采集到,有效地解决采集的序列中长尾实体与正常实体信息不均衡的问题,便于后续基于异质序列充分地获取实体间和关系间的相关性;而且,在考虑了距离远近特征后,在异质序列中优先出现在合并知识图谱中远离关系三元组的候选三元组,保证生成的异质序列中不会出现重复的实体,提高生成异质序列的质量。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为本发明提供的实体对齐方法的实施例的流程图;
图2为本发明提供的异质序列生成与异质序列学习的实施例的示意图;
图3为本发明提供的基于度感知的采样策略的实施例的流程图;
图4为本发明提供的构建异质序列的实施例的流程图;
图5为本发明提供的根据度感知偏差和深度感知偏差构建异质序列的实施例的示意图;
图6为本发明提供的基于实体节点与关系节点在异质序列中的位置,以及关系节点和实体节点彼此之间的相关性得到目标实体表示的实施例的示意图;
图7为本发明提供的根据实体嵌入表示、关系嵌入表示和实体相关表示,得到目标实体表示的实施例的流程图;
图8为本发明提供的实体对齐装置的实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
在对本发明方案进行具体展开前,本发明对相关现有技术及其问题进行了深入分析。目前,实体对齐的方案主要是基于知识图谱嵌入(embedding)的思想,将图谱中的实体和关系映射到向量空间中,这样实体间的相似度就可以通过计算向量间的距离得到,这种方法不依赖于外部信息,得到的实体向量表示是其在整个知识图谱上的深层结构信息,性质稳定易迁移,通常称之为结构嵌入(Structure Embedding)。还也有一些方法将实体的描述以及属性等外部信息考虑进来,利用这些辅助信息修正增强基于结构信息的实体向量表示,称之为基于多资源的嵌入(Multi-Resource-based Embedding)。
其中,结构嵌入中所采用的嵌入模型,大多都是基于TransE的模型,其核心思想是将关系三元组(h,r,t)中的头实体h、关系r、尾实体t映射到向量空间,使它们满足h+r=t。也有将图神经网路的模型应用到实体对齐的方法,其建模的初衷是相似实体的周围也都是相似的实体,因此可以通过所有邻居(即和某实体有关的全部三元组)的聚合来作为该实体的向量表示。这两类方法都可以称之为三元组级别的学习(triple-level learning),它们通过知识图谱特有的三元组结构的学习来传播对齐信息,存在表达能力低和信息传播不充分有效的问题,尤其是那些三元组信息稀缺的长尾实体,例如某个实体在知识图谱中只出现一次,跟其他实体之间只有一种关系,这种实体可称为长尾实体。
而引入外部资源信息的基于多资源的嵌入方法中所采用的嵌入模型则受限于外部资源的可获取性、完整性和可依赖性;且在执行多资源之间的互补增强实体表示时,选取的模型依然来自已有的结构嵌入方法,因此基于多资源的嵌入模型在很大程度上依赖于结构嵌入模型,同样存在表达能力低和信息传播不充分有效的问题。
为了解决上述三元组级别的学习带来的问题,基于序列学习的模型被提出,但它还是未能解决长尾实体的问题,且其基于循环神经网络(RNN)的模型很难高效地学习到两个距离较远的实体之间的依赖。
正是基于对上述效果不佳方案的分析和探究,本发明才提出了一种根据基于度感知的采样策略生成异质序列,并基于异质序列中各节点彼此之间的相关性得到目标实体表示的实体对齐构思。具体如下,本发明提供了所述实体对齐方法的至少一种实施例,如图1所示,可包括:
步骤S1、利用预设的预对齐种子,将多个知识图谱融合,得到合并知识图谱。
此步骤即是将多个知识图谱合并成一个知识图谱,知识图谱可以从各大百科网站和非结构化的文本集中抽取得到,在图2的示意图中,在输入层中输入第一知识图谱KG1和第二知识图谱KG2,第一知识图谱KG1包括第一实体e1、第二实体e2和第三实体e3,第一实体e1和第三实体e3之间具有第一关系r1,第二实体e2和第三实体e3之间具有第二关系r2,第一实体e1和第二实体e2之间具有第三关系r3,例如第一实体e1为“马云”、第二实体e2为“淘宝”、第三实体e3为“妻子”。第二知识图谱KG2包括第一实体e1、第二实体e2、第三实体e3和第四实体e4,第一实体e1和第二实体e2之间具有第一关系r1,第二实体e2和第三实体e3之间具有第二关系r2,第一实体e1和第三实体e3之间具有第三关系r3,第三实体e3和第四实体e4之间具有第三关系r4,例如第一实体e1为“马爸爸”、第二实体e2为“某宝”、第三实体e3为“妻子”、第四实体e4为“妻子的儿子”。需要说明的是,图2中仅示出了两个知识图谱,在其他实施例中,对于多个知识图谱的情形,可以通过预对齐种子将多个知识图谱合并成一个知识图谱。另外,本发明在一些实施方式中,也可以将多个知识图谱两两合并,得到对齐结果,本发明对此不作限制。
在一种实施方式中,步骤S1可以包括如下步骤:
步骤S11、将多个所述知识图谱通过预对齐种子进行连接,得到合并知识图谱;
其中,预对齐种子为多个知识图谱内部具有对齐关系的实体,它在不同的知识图谱中指同一个实体,其可以是现有数据集中提供的实体对齐种子集中的实体,也可以通过人工标注的方法得到,利用预对齐种子可以实现多个知识图谱之间的连接,例如,根据现有数据集中提供的资料可以得到,第一知识图谱KG1中的第一实体“马云”与第二知识图谱KG2中的第一实体“马爸爸”为同一个实体,则将其作为预对齐种子,利用该预对齐种子实现这两个知识图谱之间的连接,将原来多个分散的独立的知识图谱融合成一个相互关联的合并知识图谱,在图2中,浅线表示来自于第一知识图谱KG1的实体及关系,深线表示来自于第二知识图谱KG2的实体及关系。
步骤S12、为所述合并知识图谱中的每个关系三元组添加反向关系;
在图2中,原来表示实体间关系的单箭头变成双箭头,例如,在合并知识图谱中添加的与第一知识图谱KG1对应的第一反向关系r1 -、第二反向关系r2 -、和第三反向关系r3 -,以及与第二知识图谱KG2对应的第一反向关系r1 -、第二反向关系r2 -、第三反向关系r3 -和第四反向关系r4 -。在一个关系三元组示例(马云,创始人,淘宝)中,“马云”是第一实体e1,“淘宝”是第二实体e2,“创始人”是第一关系r1,其表示马云是淘宝的创始人,“由谁创办”是第一反向关系r1 -,表示淘宝由马云创办。添加反向关系后,表达同一个含义可由关系三元组(主语,正向关系,宾语)表示,也可以由包含反向关系的关系三元组(宾语,反向关系,主语)表示,这样可以提高实体间关系的多样性。需要说明的是,本发明在其他实施例中可以先为多个知识图谱中的关系三元组添加反向关系,再利用预对齐种子将多个知识图谱连接,本发明对此不作限制。
将多个知识图谱融合成一个合并知识图谱,可以提高若干知识图谱之间的连通性,使得后续生成的异质序列(后文将作说明)不局限于一个知识图谱中,从而使得对齐信息可以在不同知识图谱的实体间更有效地传播,便于生成高质量的实体表示。
步骤S2、根据预设的基于度感知的采样策略,为所述合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列;
此步骤即是为合并知识图谱中的每一个三元组进行正向关系采样和反向关系采样两次采样。其中序列采样的大致过程可参考现有技术,例如基于采样得到的路径得到多条实体节点与关系节点交互出现的异质序列等,序列采样过程具体可以通过随机游走层实现,本发明强调的是采用基于度感知的采样策略,便于采集三元组信息稀缺的长尾实体的信息,可以有效地解决采集的序列中长尾实体与正常实体信息不均衡的问题,便于后续充分地获得实体间的相关性。需要说明的是,异质序列的起始节点和结束节点都为实体,起始节点可以由用户自定义,也可以在合并知识图谱中随机选择一个实体,本发明对此不作限制,如图2所示,生成的一条异质序列为:e3、r1、e1、r1 -、e2,其中,e1为预对齐种子,e3和r1来自于第一知识图谱KG1,r1 -和e2来自于第二知识图谱KG2。
具体地,本发明在一些实施方式中,预设的采样策略可以如图3所示,包括如下步骤:
步骤S21、在所述合并知识图谱中,将由一个关系三元组的尾实体作为头实体的所有关系三元组作为该关系三元组的候选三元组,构建候选三元组集合;
为一个关系三元组(h,r,t)生成候选三元组集合,这个集合由以t作为头实体的所有关系三元组构成,例如,关系三元组为(马云,国籍,中国),则在合并知识图谱找到以“中国”作为头实体的所有关系三元组,例如(中国,首都,北京)、(中国,瓷都,景德镇)等,作为该关系三元组(马云,国籍,中国)的候选三元组集合。构建候选三元组集合的目的是在生成一个关系三元组对应的序列后,按照一定的筛选方法在候选三元组集合中的诸多候选三元组中选择一个进行序列增补。例如,在生成关系三元组(马云,国籍,中国)对应的异质序列后,需要在(中国,首都,北京)、(中国,瓷都,景德镇)这两个候选三元组中选择一个,以确定下一步生成的异质序列。需要说明的是,采样过程的第一个关系三元组即是在异质序列中的初始关系三元组,其与异质序列起始节点对应,即该初始关系三元组为包含起始节点的某个关系三元组,在包含起始节点的关系三元组为多个的情况下,该关系三元组可以由用户自定义,也可以在包含起始节点的诸多关系三元组中随机选择一个。
步骤S22、根据所述候选三元组集合中的各候选三元组相对于所述候选三元组集合内其他候选三元组的度感知偏差以及相对于对应的所述关系三元组的空间关系,构建所述异质序列。
度感知偏差(degree-aware bias)表征的是候选三元组集合中的某个候选三元组与合并知识图谱中的其他关系三元组在深层结构方面的关联性,例如,候选三元组集合中的候选三元组(中国,首都,北京)的关系或实体与合并知识图谱中的其他关系三元组有无关联性。空间关系表征的是候选三元组集合中的某个候选三元组在合并知识图谱中相对于对应的关系三元组的距离远近,例如,在合并知识图谱中,候选三元组集合中的候选三元组(中国,首都,北京)与对应的关系三元组(马云,国籍,中国)之间的距离。
具体而言,本发明在一些实施方式中,步骤S22可以如图4所示,包括如下步骤:
步骤S221、计算所述合并知识图谱中各实体的度以及各关系的频率;
其中,某个实体的度是指与该实体连接的实体总数,记为该实体的度(degree),在其他实施例中,实体的度可以为包含该实体的三元组个数,由于反向关系的存在,通过包含该实体的三元组个数这一计量方式得到的度是通过与该实体连接的实体总数这一计量方式得到的度的两倍;某个关系的频率指某一关系在合并知识图谱的所有关系三元组中的出现次数。
步骤S222、将各所述候选三元组中的关系的频率和尾实体的度融合,得到所述度感知偏差;
本发明在计算度感知偏差时,考虑候选三元组的尾实体的度而不考虑头实体的度,其设计思路是在生成异质序列时,某个关系三元组确定之后,该关系三元组的尾实体即作为下一个进行序列增补的候选三元组的头实体,因此候选三元组的头实体已经确定了,而候选三元组的尾实体则不确定,因此不需要考虑头实体的度,而只考虑尾实体的度,并结合关系的频率得到度感知偏差,进而确定选择候选三元组集合中的哪一个候选三元组进行序列增补。
在本实施例中本发明采用融合方式,将前述候选三元组中的关系的频率和尾实体的度进行结合,具体的融合手段有多种选择,优选采用对尾实体的度与关系的频率求和,并计算求和结果的倒数,得到度感知偏差,还可以采用对尾实体的度与关系的频率求均值,并计算均值的倒数或者均值平方的倒数,得到度感知偏差。关系的频率和尾实体的度都没有单位,得到的度感知偏差也没有单位。本发明在其他实施方式中,度感知偏差还可以是其他的偏差形式,本发明对此不作限定。
通过上述度感知偏差的计算,可以发现在合并知识图谱中出现次数少的候选三元组,与其尾实体连接的所有实体的个数少,即尾实体的度比较低,其关系在所述合并知识图谱中的所有关系三元组中的出现次数也少,关系的频率比较低,最终得到的度感知偏差比较高,在生成异质序列时,其对应的序列可以被优先采集到。而其他在合并知识图谱中出现次数较多的候选三元组,其度感知偏差比较低,在为当前的关系三元组构建异质序列时,其对应的序列可能不会被采集到,由于该候选三元组在合并知识图谱中出现次数较多,在为其他关系三元组构建异质序列时,该候选三元组对应的序列就会被采集到。综上,通过基于度感知的采样策略,使包含长尾实体的候选三元组对应的度感知偏差更高,这样在采样时,可以提高长尾实体出现的概率,即长尾实体对应的序列可以被优先采集到,在异质序列中优先得到出现次数少的实体,可以解决长尾实体信息稀缺的问题。
步骤S223、根据各所述候选三元组的尾实体与所述关系三元组的头实体之间的距离,得到深度感知偏差;
深度感知偏差(depth-aware bias)表征的是候选三元组与对应的关系三元组在合并知识图谱中的距离,即为两个关系三元组之间的距离,例如,在合并知识图谱(马云,国籍,中国),(中国,首都,北京)中,候选三元组集合中的候选三元组(中国,首都,北京)的尾实体“北京”与对应的关系三元组(马云,国籍,中国)的头实体“马云”之间隔了两个实体“中国”、“中国”和两个关系“国籍”、“首都”,即隔了4个节点,得到的深度感知偏差则为4,深度感知偏差也没有单位。在合并知识图谱中越远离对应的关系三元组的候选三元组,深度感知偏差越大,在异质序列中优先出现在合并知识图谱中远离关系三元组的候选三元组,这样可以保证生成的异质序列中不会出现重复的实体,即不会形成闭环。本发明在其他实施方式中,深度感知偏差还可以采用其他的形式,本发明对此不作限制。
步骤S224、根据所述度感知偏差和所述深度感知偏差,构建所述异质序列;
本发明在一些实施方式中,步骤S224可以如图5所示,包括如下步骤:
步骤S2241、计算所述度感知偏差和所述深度感知偏差的乘积,得到各所述候选三元组的转移概率;
转移概率表征的是异质序列从与候选三元组集合对应的关系三元组转移到某个候选三元组的可能性,具体而言,通过计算所述度感知偏差和所述深度感知偏差的乘积,得到所述候选三元组的转移概率。本发明在其他实施方式中,转移概率还可以采用其他的形式,例如,计算度感知偏差的平方和深度感知偏差的乘积,或者计算度感知偏差和深度感知偏差的平方的乘积,本发明对此不作限制。
步骤S2242、在各所述候选三元组中选择转移概率最大的候选三元组作为增补三元组;
基于候选三元组集合中的候选三元组的转移概率的大小为每个关系三元组生成异质序列,即选择转移概率最大的候选三元组对应的实体和关系作为该关系三元组的增补序列进行序列增补。
步骤S2243、将所述增补三元组作为新的关系三元组,重复执行为新的关系三元组确定增补三元组的步骤,直到所述异质序列达到预设长度。
在得到一个关系三元组的增补三元组后,例如,在生成关系三元组(马云,国籍,中国)对应的异质序列后,在(中国,首都,北京)、(中国,瓷都,景德镇)这两个候选三元组中选择第一个候选三元组(中国,首都,北京)作为增补三元组进行序列增补,以此确定下一步生成的异质序列,得到异质序列:马云,国籍,中国,首都,北京。然后,将增补三元组(中国,首都,北京)作为新的关系三元组,重复执行为新的关系三元组(中国,首都,北京)确定增补三元组(例如,(北京,副中心,通州)),得到异质序列:马云,国籍,中国,首都,北京,副中心,通州,这样可以实现异质序列的逐步加长。如此往复,直到序列满足预设长度即可,其中指定长度包括了实体加关系的个数。例如,序列“马云,国籍,中国”的长度为3,序列“马云,国籍,中国,首都,北京”的长度为5,序列“马云,国籍,中国,首都,北京,副中心,通州”的长度为7。需要说明的是,这里的预设长度可以人为定义,一般地,预设长度在15左右比较合适,长度为3便是三元组级别的学习,越长越容易得到相距较远的实体之间的相关性,但太长也会影响学习的效率。
综上所述,本发明为了克服现有技术中存在的长尾实体的信息采集不充分的问题,采用基于度感知的异质序列生成方法,得到同时考虑了三元组之间的深层结构关联特征和距离远近特征的高质序列,有效地解决采集的序列中长尾实体与正常实体信息不均衡的问题,便于后续基于异质序列充分地获取实体间和关系间的相关性。而且,在考虑了距离远近特征后,在异质序列中优先出现在合并知识图谱中远离关系三元组的候选三元组,保证生成的异质序列中不会出现重复的实体,提高生成异质序列的质量。
步骤S3、基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示;
此步骤即是根据异质序列中各节点的位置以及个节点之间的相关性,得到目标实体表示,然后在后续的步骤中,利用目标实体表示将多个知识图谱中的实体对齐。作为一个示例而非限制,可以利用序列学习模型得到目标实体表示,序列学习模型的输入是步骤S2生成的异质序列,输出是经由序列学习模型学习到的目标实体表示。
本发明并不约束实现上述技术构思的表现形式,例如在一种实施方式中,步骤S3可以如图6所示,包括如下步骤:
步骤S31、根据所述实体节点、所述关系节点以及各节点的位置关系,得到包含位置信息的实体嵌入表示和关系嵌入表示;
具体地,可以通过嵌入层实现异质序列中实体节点和关系节点的嵌入表示,由于异质序列中存在实体和关系这两种类型的节点,本发明将异质序列中的每个实体节点和每个关系节点同时嵌入一个统一的向量空间,将异质序列中的每个实体节点和每个关系节点分别进行向量化表示,得到表示实体序列的实体嵌入矩阵和表示关系序列的关系嵌入矩阵。同时,将异质序列中的每个实体和每个关系对应的位置分别进行向量化表示,得到位置矩阵,并与前述实体嵌入矩阵和关系嵌入矩阵融合,得到包含位置信息的实体嵌入表示和关系嵌入表示,这样在后续进行实体相关表示时,可以利用异质序列中的顺序信息,具体的融合方式可以采用拼接方法,其中,拼接方法可以采用多种常规的方式,例如直接拼接等,对此本发明不作限定。
步骤S32、根据各所述实体嵌入表示和各所述关系嵌入表示进行相关性计算,得到具有上下文信息的实体相关表示;
这里所称的上下文信息是指结合各节点所在位置,得到的各节点彼此之间的关联性信息,并且所称上下文信息可以是指节点的自身信息,也可以是指节点(实体或关系)与其他节点(实体或关系)的具有关联性的信息等。
具体而言,可以通过自注意力模块来对各节点对应的嵌入表示两两之间进行相关性计算。将前述包含位置信息的实体嵌入矩阵和关系嵌入矩阵输入一个自注意力模块,即可得到异质序列中每个节点与自身和本异质序列中其他节点的依存关联表示,从而得到了整个序列的序列相关表示。自注意力模块可堆叠多层,每层由多头自注意力层和前馈层构成,通过堆叠多层来学习到更复杂的特征,多头注意力层用于在输入序列内计算异质序列中的每个实体节点或每个关系节点关于其自身以及其他实体节点或其他关系节点的注意力权重,以便得到每个实体或每个关系的上下文表示,即具有上下文信息的实体相关表示,其中,“多头”的含义是将输入的原始的实体嵌入表示和关系嵌入表示映射到多个子空间,并在这些子空间内计算上下文表示,最后将计算结果拼接在一起。前馈层(FFN)作用于多头注意力层的输出,每个前馈层由两个全连接层构成,包含两个线性转换操作和ReLU激活函数,用于增加模型非线性化拟合能力,使得不同维度的表示可以进行交互,因此可以得到更好的向量表示。
作为一个示例而非限制,将异质序列中的某个节点对应的嵌入表示和另一个节点对应的嵌入表示两两相乘,得到的结果作为这两个节点两者之间的自注意力权重值,例如将异质序列中的某个实体对应的实体嵌入表示和另一个实体对应的实体嵌入表示两两相乘,得到的结果作为这两个实体的自注意力权重值;然后将实体嵌入矩阵和关系嵌入矩阵分别与各自的自注意力权重值分别进行点乘,得到向量化的实体相关表示。
下面以异质序列S1为例进行具体说明,将S1的嵌入式表示向量结果(x1,x2,……,xn)经过一个自注意力层,分别得到将x1,x2,……,xn中的每一个向量与x1,x2,……,xn中的每一个向量两两之间所有的注意力权重W1,W2,……,Wn,其中,W1=(w11,w12,……w1n),w11表示x1和x1的注意力权重,可通过x1和x1相乘得到,w12表示x1和x2的注意力权重,可通过x1和x2相乘得到,n表示节点数量,以此类推即可。随后再将W1,W2,……,Wn分别与S1的嵌入式表示向量结果进行点乘,得到各节点对应的相关表示,即可得到实体节点对应的实体相关表示。
本发明所采用的自注意力机制与传统的注意力机制不同,它不需要外部信息,仅通过自身的信息来更新相关表示参数。加入自注意力机制之后会更好的捕捉异质序列中长距离的互相依赖特征,因为在计算权重矩阵的过程中自注意力模型可以将异质序列中任意一个实体或关系与另一个实体或关系通过一个计算步骤直接联系起来,而并非依次按照序列计算,这样就可以有效的缩短长距离依赖特征之间的关系。让模型将更多的注意力集中到异质序列的主要信息上,而其他相对无关紧要的信息则会被模型忽略。并且,由于在步骤S31中得到是包含位置信息的实体嵌入表示和关系嵌入表示,在步骤S32中进行实体相关表示时,可以利用异质序列中的顺序信息,这样可以弥补自注意力机制对位置信息不敏感的不足。
进一步地,为了防止过拟合和训练的不稳定,在自注意力层和前馈层中可以采用约束和/或dropout策略,其中约束例如可以在模型中加入正则化约束项,从而避免过拟合;dropout是指在隐层中间加入dropout函数,从而隐蔽一些隐藏层,达到更好的训练效果。需要说明的是,可以先进行约束再dropout,也可以先dropout再进行约束,也可以两者同时进行,本实施例对此不做具体限定。
步骤S33、根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关表示,得到所述目标实体表示。
在此步骤中,根据步骤S32得到的实体相关表示,结合步骤S31得到的实体嵌入表示和关系嵌入表示,可以得到最终输出的目标实体表示。由于在知识图谱中,实体的重要性要大于关系的重要性,本发明对实体间的相关性进行了额外加强,这样可以体现其在先实体的重要性,有利于高效地捕获实体间的长期依赖特征。
本发明在一些实施方式中,如图7所示,步骤S33可以包括如下步骤:
步骤S331、将所述关系嵌入表示和所述关系节点的前一个实体节点对应的实体相关表示融合,得到关系更新表示;
可以根据节点的位置向量确定节点类型,具体的融合手段包括但不限于将与关系节点对应的关系嵌入向量和关系节点在异质序列中的前一个实体节点对应的实体相关向量相加,得到关系更新表示,这样可以考虑三元组结构的独特性,体现了某个实体的在先实体的重要性。
步骤S332、将所述实体嵌入表示和对应的所述实体相关表示融合,得到实体更新表示;
具体的融合手段包括但不限于将与实体节点对应的实体嵌入向量和该实体节点对应的实体相关向量相加,得到实体更新表示。
步骤S333、将所述关系更新表示作为新的关系嵌入表示,将所述实体更新表示作为新的实体嵌入表示,迭代上述计算过程,直至达到最大迭代次数,得到所述目标实体表示。
本发明并不约束实现上述技术构思的表现形式,例如在一种实施方式中,步骤S32中自注意力模块的各个网络层之间通过交叉残差进行连接,作为一个示例而非限制,将经过步骤S31得到的实体嵌入矩阵和关系嵌入矩阵输入基于交叉残差连接的自注意力层进行特征学习,获取具有长期依赖特征的输出序列。
具体而言,将实体嵌入矩阵和关系嵌入矩阵输入第一层自注意力层,基于实体嵌入表示和关系嵌入表示得到第一层自注意力层的注意力权重,并以此得到经过第一层自注意力层处理的第一实体更新表示和第一关系更新表示,若自注意力只有一层,则得到的第一实体更新表示即为最终输出的目标实体表示,得到的第一关系更新表示即为最终输出的目标关系表示。
在存在多层自注意力层的情况下,将第一实体更新表示和第一关系更新表示输入第二层自注意力层,基于第一实体更新表示和第一关系更新表示得到第二层自注意力层的注意力权重,具体可以参照前述自注意力权重的计算方法,本发明对此不予赘述,并以此得到经过第二层自注意力层处理的第二实体更新表示和第二关系更新表示;
然后,将第二实体更新表示和第二关系更新表示输入第三层自注意力层,基于第二实体更新表示和第二关系更新表示得到第三层自注意力层的注意力权重,并以此得到经过第三层自注意力层处理的第三实体更新表示和第三关系更新表示;
以此类推,得到经过第b层自注意力层处理的第b实体更新表示和第b关系更新表示,则得到的第b实体更新表示即为最终输出的目标实体表示,可见最大迭代次数为自注意力块的层数b。
进一步地,本发明在一些实施方式中,在步骤S33之后还包括步骤:
根据所述目标实体表示中的实体正例与实体负例以及所述目标关系表示中的关系正例与关系负例的个数,预测所述异质序列中的下一个实体表示或下一个关系表示。
在模型训练阶段,还可以将预测结果的概率和训练数据中真实结果的概率之间的交叉熵损失作为损失函数,即通过梯度回传直至模型收敛。
经过步骤S33得到了序列中实体和关系的向量表示,本发明通过预测层利用损失函数来预测异质序列中的下一个实体表示或下一个关系表示,由于序列由两种类型的节点构成,因此损失函数由实体的预测和关系的预测两种损失求和构成,具体地,可通过以下公式计算损失函数:
其中,L表示损失函数,pe表示异质序列中实体正例的个数,ne表示异质序列中实体负例的个数,Fie表示目标实体表示,yie表示预测实体任务的标签,pr表示异质序列中关系正例的个数,nr表示异质序列中关系负例的个数,Fir表示目标关系表示,yir表示预测关系任务的标签。其中,实体正例是指训练集里面正确的实体结果,实体负例是指训练集中错误的实体结果,类似地,关系正例是指训练集里面正确的关系结果,关系负例是指训练集中错误的关系结果。
以上过程仅是对序列学习模型的一种示意性举例,本实施例并不限定具体的序列学习过程及手段,但仍需要强调的是:序列学习模型本身虽然是常规手段,但本实施例设计序列学习模型的目的是借助于序列学习模型来高效地捕获实体间的长期依赖特征,以有效地传播对齐信息。序列学习模型的训练与现有常见神经网络训练过程基本相同,在此不再详细阐述。
综上,由于基于实体与关系在异质序列中的位置以及关系和实体彼此之间的相关性得到目标实体表示,可以加强实体间的依赖性,便于捕捉实体间长距离的互相依赖特征,得到具有长期依赖特征的实体表示,进而提高对实体的表示能力,可以有效地传播对齐信息。
步骤S4、利用所述目标实体表示,将多个知识图谱中的实体进行对齐。
此步骤即是提取步骤S3得到的目标实体表示,得到实体之间的对齐结果。具体而言,可以根据异质序列中与各实体对应的目标实体表示之间的相似度,得到各实体之间的对齐结果。由于目标实体表示是基于实体与关系在异质序列中的位置以及关系和实体彼此之间的相关性得到的,可以加强实体间的依赖性,提高了对实体的表示能力,可以有效地传播对齐信息,因而在步骤S4中可以提高实体对齐的效果。作为一个示例而非限制,通过比较目标实体表示之间的余弦距离得到相似度,根据相似度即可得到实体之间的对齐结果。
综上所述,本发明的核心构思在于提出一种根据基于度感知的采样策略生成异质序列,并基于异质序列中各节点彼此之间的相关性得到目标实体表示的实体对齐方案,具体是利用预设的预对齐种子,将多个知识图谱融合,得到合并知识图谱;根据预设的基于度感知的采样策略,为合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列;基于实体节点与关系节点在异质序列中的位置,以及关系节点和实体节点彼此之间的相关性,得到目标实体表示;利用目标实体表示,将多个知识图谱中的实体进行对齐。由于基于实体节点与关系节点在异质序列中的位置,以及关系节点和实体节点彼此之间的相关性,得到目标实体表示,可以加强实体间的依赖性,便于捕捉实体间长距离的互相依赖特征,得到具有长期依赖特征的实体表示,进而提高对实体的表示能力,可以有效地传播对齐信息,提高实体对齐的效果;另外,根据基于度感知的采样策略生成异质序列,便于采集三元组信息稀缺的长尾实体的信息,有效地解决采集的序列中长尾实体与正常实体信息不均衡的问题,便于后续基于异质序列充分地获取实体间和关系间的相关性。
进一步来说,本发明对各实体嵌入表示和各关系嵌入表示进行相关性计算,得到具有上下文信息的实体相关表示,因此无需借助于外部信息,仅通过自身的信息来更新相关表示参数,可以更有效地捕捉异质序列中长距离的互相依赖特征。
进一步来说,本发明考虑到实体的重要性要大于关系的重要性,将关系嵌入表示和关系节点的前一个实体节点对应的实体相关表示融合,得到关系更新表示,将实体嵌入表示和对应的实体相关表示融合,得到实体更新表示,并以此得到目标实体表示,这样可以体现其在先实体的重要性,对实体间的相关性进行了额外加强,可以高效地捕获实体间的长期依赖特征。
进一步来说,本发明所采用的基于度感知的异质序列生成方法,根据度感知偏差和深度感知偏差,构建异质序列,同时考虑了三元组之间的深层结构关联特征和距离远近特征生成高质的异质序列,在采样时优先采集到出现次数少的实体,因此在异质序列中,长尾实体对应的序列可以被优先采集到,有效地解决采集的序列中长尾实体与正常实体信息不均衡的问题,便于后续基于异质序列充分地获取实体间和关系间的相关性;而且,在考虑了距离远近特征后,在异质序列中优先出现在合并知识图谱中远离关系三元组的候选三元组,保证生成的异质序列中不会出现重复的实体,提高生成异质序列的质量。
相应于上述各实施例及优选方案,本发明还提供了一种实体对齐装置的实施例,如图8所示,具体可以包括如下部件:
知识图谱融合模块101,用于利用预设的预对齐种子,将多个知识图谱融合,得到合并知识图谱;
异质序列生成模块102,用于根据预设的基于度感知的采样策略,为所述合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列;
实体表示模块103,用于基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示;
实体对齐模块104,用于利用所述目标实体表示,将多个知识图谱中的实体进行对齐。
在其中一种可能的实现方式中,所述实体表示模块103包括:
嵌入表示单元,用于根据所述实体节点、所述关系节点以及各节点的位置关系,得到包含位置信息的实体嵌入表示和关系嵌入表示;
相关表示单元,用于根据各所述实体嵌入表示和各所述关系嵌入表示进行相关性计算,得到具有上下文信息的实体相关表示;
目标表示单元,用于根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关表示,得到所述目标实体表示。
在其中一种可能的实现方式中,所述目标表示单元具体包括:
关系更新表示组件,用于将所述关系嵌入表示和所述关系节点的前一个实体节点对应的实体相关表示融合,得到关系更新表示;
实体更新表示组件,用于将所述实体嵌入表示和对应的所述实体相关表示融合,得到实体更新表示;
目标表示组件,用于将所述关系更新表示作为新的关系嵌入表示,将所述实体更新表示作为新的实体嵌入表示,迭代上述计算过程,直至达到最大迭代次数,得到所述目标实体表示。
在其中一种可能的实现方式中,所述异质序列生成模块102包括:
候选三元组建立单元,用于在所述合并知识图谱中,将由一个关系三元组的尾实体作为头实体的所有关系三元组作为该关系三元组的候选三元组,构建候选三元组集合;
异质序列构建单元,用于根据所述候选三元组集合中的各候选三元组相对于所述候选三元组集合内其他候选三元组的度感知偏差以及相对于对应的所述关系三元组的空间关系,构建所述异质序列。
在其中一种可能的实现方式中,所述异质序列构建单元具体包括:
度和频率计算组件,用于计算所述合并知识图谱中各实体的度以及各关系的频率;
度感知偏差计算组件,用于将各所述候选三元组中的关系的频率和尾实体的度融合,得到所述度感知偏差;
深度感知偏差计算组件,用于根据各所述候选三元组的尾实体与所述关系三元组的头实体之间的距离,得到深度感知偏差;
异质序列构建组件,用于根据所述度感知偏差和所述深度感知偏差,构建所述异质序列。
在其中一种可能的实现方式中,所述根据所述度感知偏差和所述深度感知偏差,构建所述异质序列包括:
计算所述度感知偏差和所述深度感知偏差的乘积,得到各所述候选三元组的转移概率;
在各所述候选三元组中选择转移概率最大的候选三元组作为增补三元组;
将所述增补三元组作为新的关系三元组,重复执行为新的关系三元组确定增补三元组的步骤,直到所述异质序列达到预设长度。
应理解以上图8所示的实体对齐装置的各个部件的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分部件以软件通过处理元件调用的形式实现,部分部件通过硬件的形式实现。例如,某个上述模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其他部件的实现与之类似。此外这些部件全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些部件可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些部件可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
综合上述各实施例及其优选方案,本领域技术人员可以理解的是,在实际操作中,本发明适用于多种实施方式,本发明以下述载体作为示意性说明:
(1)一种实体对齐设备,其可以包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行前述实施例或等效实施方式的步骤/功能。
应理解,实体对齐设备能够实现前述实施例提供的方法的各个过程。该设备中的各个部件的操作和/或功能,可分别为了实现上述方法实施例中的相应流程。具体可参见前文中关于方法、装置等实施例的描述,为避免重复,此处适当省略详细描述。
应理解,实体对齐设备中的处理器可以是片上系统SOC,该处理器中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其他类型的处理器,例如:图像处理器(Graphics Processing Unit;以下简称:GPU)等,具体在下文中再作介绍。
总之,处理器内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存储器中。
(2)一种可读存储介质,在可读存储介质上存储有计算机程序或上述装置,当计算机程序或上述装置被执行时,使得计算机执行前述实施例或等效实施方式的步骤/功能。
在本发明所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。
(3)一种计算机程序产品(该产品可以包括上述装置并可以存储于某存储介质中),该计算机程序产品在终端设备上运行时,使终端设备执行前述实施例或等效实施方式的实体对齐方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述计算机程序产品可以包括但不限于是指APP;接续前文再做补充说明,上述设备/终端可以是一台计算机设备(例如手机、PC终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等)。并且,该计算机设备的硬件结构还可以具体包括:至少一个处理器,至少一个通信接口,至少一个存储器和至少一个通信总线;处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中,处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network ProcessUnits;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括特定集成电路ASIC,或者是被配置成实施本发明实施例的一个或多个集成电路等,此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储器等存储介质中;而前述的存储器/存储介质可以包括:非易失性存储器(non-volatilememory),例如非可移动磁盘、U盘、移动硬盘、光盘等,以及只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)等。
本发明实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域技术人员可以意识到,本说明书中公开的实施例中描述的各模块、单元及方法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以及,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可。尤其,对于装置、设备等实施例而言,由于其基本相似于方法实施例,所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的,其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个地方,例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。

Claims (9)

1.一种实体对齐方法,其特征在于,包括:
利用预设的预对齐种子,将多个知识图谱融合,得到合并知识图谱;
根据预设的基于度感知的采样策略,为所述合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列;
基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示;
利用所述目标实体表示,将多个知识图谱中的实体进行对齐,
所述基于度感知的采样策略包括:
在所述合并知识图谱中,将由一个关系三元组的尾实体作为头实体的所有关系三元组作为该关系三元组的候选三元组,构建候选三元组集合;
根据各候选三元组相对于所属候选三元组集合内的其他候选三元组的度感知偏差以及相对于对应的所述关系三元组的空间关系,构建所述异质序列。
2.根据权利要求1所述的实体对齐方法,其特征在于,所述基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示包括:
根据所述实体节点、所述关系节点以及各节点的位置关系,得到包含位置信息的实体嵌入表示和关系嵌入表示;
根据各所述实体嵌入表示和各所述关系嵌入表示进行相关性计算,得到具有上下文信息的实体相关表示;
根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关表示,得到所述目标实体表示。
3.根据权利要求2所述的实体对齐方法,其特征在于,所述根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关表示,得到所述目标实体表示包括:
将所述关系嵌入表示和所述关系节点的前一个实体节点对应的实体相关表示融合,得到关系更新表示;
将所述实体嵌入表示和对应的所述实体相关表示融合,得到实体更新表示;
将所述关系更新表示作为新的关系嵌入表示,将所述实体更新表示作为新的实体嵌入表示,迭代上述计算过程,直至达到预设的最大迭代次数,得到所述目标实体表示。
4.根据权利要求3所述的实体对齐方法,其特征在于,所述根据各候选三元组相对于所属候选三元组集合内的其他候选三元组的度感知偏差以及相对于对应的所述关系三元组的空间关系,构建所述异质序列包括:
计算所述合并知识图谱中各实体的度以及各关系的频率;
将各所述候选三元组中的关系的频率和尾实体的度融合,得到所述度感知偏差;
根据各所述候选三元组的尾实体与所述关系三元组的头实体之间的距离,得到深度感知偏差;
根据所述度感知偏差和所述深度感知偏差,构建所述异质序列。
5.根据权利要求4所述的实体对齐方法,其特征在于,所述根据所述度感知偏差和所述深度感知偏差,构建所述异质序列包括:
计算所述度感知偏差和所述深度感知偏差的乘积,得到各所述候选三元组的转移概率;
在各所述候选三元组中选择转移概率最大的候选三元组作为增补三元组;
将所述增补三元组作为新的关系三元组,重复执行为新的关系三元组确定增补三元组的步骤,直到所述异质序列达到预设长度。
6.一种实体对齐装置,其特征在于,包括:
知识图谱融合模块,用于利用预设的预对齐种子,将多个知识图谱融合,得到合并知识图谱;
异质序列生成模块,用于根据预设的基于度感知的采样策略,为所述合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列;
实体表示模块,用于基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示;
实体对齐模块,用于利用所述目标实体表示,将多个知识图谱中的实体进行对齐,
所述异质序列生成模块包括:
候选三元组建立单元,用于在所述合并知识图谱中,将由一个关系三元组的尾实体作为头实体的所有关系三元组作为该关系三元组的候选三元组,构建候选三元组集合;
异质序列构建单元,用于根据各候选三元组相对于所属候选三元组集合内的其他候选三元组的度感知偏差以及相对于对应的所述关系三元组的空间关系,构建所述异质序列。
7.根据权利要求6所述的实体对齐装置,其特征在于,所述实体表示模块包括:
嵌入表示单元,用于根据所述实体节点、所述关系节点以及各节点的位置关系,得到包含位置信息的实体嵌入表示和关系嵌入表示;
相关表示单元,用于根据各所述实体嵌入表示和各所述关系嵌入表示进行相关性计算,得到具有上下文信息的实体相关表示;
目标表示单元,用于根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关表示,得到所述目标实体表示。
8.一种实体对齐设备,其特征在于,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如权利要求1~5任一项所述的实体对齐方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1~5任一项所述的实体对齐方法。
CN202010384445.XA 2020-05-07 2020-05-07 实体对齐方法、装置和设备 Active CN111597276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010384445.XA CN111597276B (zh) 2020-05-07 2020-05-07 实体对齐方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010384445.XA CN111597276B (zh) 2020-05-07 2020-05-07 实体对齐方法、装置和设备

Publications (2)

Publication Number Publication Date
CN111597276A CN111597276A (zh) 2020-08-28
CN111597276B true CN111597276B (zh) 2023-09-29

Family

ID=72185363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010384445.XA Active CN111597276B (zh) 2020-05-07 2020-05-07 实体对齐方法、装置和设备

Country Status (1)

Country Link
CN (1) CN111597276B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163092B (zh) * 2020-10-10 2022-07-12 成都数之联科技股份有限公司 实体及关系抽取方法及系统、装置、介质
CN112989804B (zh) * 2021-04-14 2023-03-10 广东工业大学 一种基于堆叠多头特征抽取器的实体消歧方法
CN113876354B (zh) * 2021-09-30 2023-11-21 深圳信息职业技术学院 胎心率信号的处理方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052683A (zh) * 2018-01-22 2018-05-18 桂林电子科技大学 一种基于余弦度量规则的知识图谱表示学习方法
CN109815345A (zh) * 2019-02-25 2019-05-28 南京大学 一种基于路径的知识图谱嵌入方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165385B (zh) * 2018-08-29 2022-08-09 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052683A (zh) * 2018-01-22 2018-05-18 桂林电子科技大学 一种基于余弦度量规则的知识图谱表示学习方法
CN109815345A (zh) * 2019-02-25 2019-05-28 南京大学 一种基于路径的知识图谱嵌入方法

Also Published As

Publication number Publication date
CN111597276A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111597276B (zh) 实体对齐方法、装置和设备
CN109902183B (zh) 一种基于多样图注意力机制的知识图谱嵌入方法
Spinelli et al. Adaptive propagation graph convolutional network
KR102234850B1 (ko) 릴레이션 네트워크에 기반한 지식 보완 방법 및 장치
US11030265B2 (en) Cross-platform data matching method and apparatus, computer device and storage medium
CN111708876B (zh) 生成信息的方法和装置
CN108921657B (zh) 一种基于知识增强记忆网络的序列推荐方法
CN108875053A (zh) 一种知识图谱数据处理方法及装置
CN113704495B (zh) 实体对齐方法、装置、电子设备和存储介质
WO2023142399A1 (zh) 信息搜索方法、装置、电子设备
CN114820871A (zh) 字体生成方法、模型的训练方法、装置、设备和介质
CN115757804A (zh) 一种基于多层路径感知的知识图谱外推方法及系统
CN107491500B (zh) 一种强适应性的知识库补全方法
CN116401353A (zh) 一种结合内部与外部知识图谱的安全多跳问答方法及系统
CN115062779A (zh) 基于动态知识图谱的事件预测方法及装置
CN113705402B (zh) 视频行为预测方法、系统、电子设备及存储介质
CN116151384A (zh) 量子电路处理方法、装置及电子设备
CN115238134A (zh) 用于生成图数据结构的图向量表示的方法及装置
WO2022127603A1 (zh) 一种模型处理方法及相关装置
CN118511177A (zh) 自动化电路拓扑选择和配置
CN113691403B (zh) 拓扑节点配置方法、相关装置及计算机程序产品
CN112927810B (zh) 基于大数据的智慧医疗响应方法及智慧医疗云计算系统
CN111460169B (zh) 语义表达式生成方法、装置及设备
Bae et al. Layer‐wise hint‐based training for knowledge transfer in a teacher‐student framework
CN110895567A (zh) 一种实体嵌入方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant