CN110929041A - 基于分层注意力机制的实体对齐方法及系统 - Google Patents

基于分层注意力机制的实体对齐方法及系统 Download PDF

Info

Publication number
CN110929041A
CN110929041A CN201911143409.8A CN201911143409A CN110929041A CN 110929041 A CN110929041 A CN 110929041A CN 201911143409 A CN201911143409 A CN 201911143409A CN 110929041 A CN110929041 A CN 110929041A
Authority
CN
China
Prior art keywords
entity data
vector
word
sentence
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911143409.8A
Other languages
English (en)
Inventor
杨杨
高志鹏
郝茂杰
郭少勇
徐思雅
袁翰青
辛锐
吴军英
葛宁玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Original Assignee
Beijing University of Posts and Telecommunications
Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications, Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd filed Critical Beijing University of Posts and Telecommunications
Priority to CN201911143409.8A priority Critical patent/CN110929041A/zh
Publication of CN110929041A publication Critical patent/CN110929041A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于分层注意力机制的实体对齐方法及系统,该方法包括:将知识图谱中待实体对齐的目标实体数据进行划分,得到词级别实体数据向量和句级别实体数据向量;根据注意力机制,获取所述词级别实体数据向量之间的词向量相似度,并根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度;根据所述词向量相似度,获取所述词级别实体数据向量的分配权重参数向量矩阵,并根据所述句向量相似度和杰卡德系数公式,获取所述句级别实体数据向量的分配权重参数向量矩阵,以用于对所述目标实体数据进行实体对齐。本发明实施例提高了实体对齐的准确率,使得实体向量更容易生成,有效解决实体对齐过程中先验信息不易获得的问题。

Description

基于分层注意力机制的实体对齐方法及系统
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种基于分层注意力机制的实体对齐方法及系统。
背景技术
知识图谱是用可视化技术描述知识资源及其载体的一种技术,其构建需要各种数据的支撑,但是通常这些数据的格式、存储方式以及应用场景都有所不同,因此,对多源知识融合技术的研究与整合已有知识资源势在必行。实体对齐是知识融合过程中的关键技术,其作用就在于推断来自不同知识库的不同实体是否指代现实世界中的同一客观对象,实体对齐技术实现的好坏直接影响到知识图谱的精确性和扩展性。
近年来,随着深度学习的发展,促使了知识表示学习的提出,它可以将知识图谱中的实体和关系映射到低纬空间,学习得到实体和关系的向量表示,利用该方法得到的向量不仅具备实体基本的语义信息,还包含了知识图谱的结构信息,可以从多个维度表示实体,极大的促进了实体对齐技术的发展。然而,利用深度学习的方法,在解决中文知识图谱实体对齐时,仍然存在着准确率较低,实体向量生成困难以及先验对齐数据不易获得等问题。
因此,现在亟需一种基于分层的注意力机制的实体对齐方法及系统来解决上述问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种基于分层注意力机制的实体对齐方法及系统。
第一方面,本发明实施例提供了一种基于分层注意力机制的实体对齐方法,包括:
将知识图谱中待实体对齐的目标实体数据进行划分,得到词级别实体数据向量和句级别实体数据向量;
根据注意力机制,获取所述词级别实体数据向量之间的词向量相似度,并根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度;
根据所述词向量相似度,获取所述词级别实体数据向量的分配权重参数向量矩阵,并根据所述句向量相似度和杰卡德系数公式,获取所述句级别实体数据向量的分配权重参数向量矩阵,以用于对所述目标实体数据进行实体对齐。
进一步地,所述根据注意力机制,获取所述词级别实体数据向量之间的词向量相似度,包括:
根据词级别实体数据向量之间的马氏距离和相关距离,获取词级别实体数据向量之间的词向量相似度。
进一步地,所述根据词级别实体数据向量之间的马氏距离和相关距离,获取词级别实体数据向量之间的词向量相似度,包括:
根据词级别实体数据向量之间的马氏距离和相关距离,构建相似度公式,所述相似度公式为:
Figure BDA0002281538490000021
其中,Qw,w'表示实体描述词向量w和实体描述词向量w'之间的相似度值,S-1表示词向量w的协方差矩阵,T表示矩阵转置,a和β表示权重系数,a+β=1,0<a<1,0<β<1。
进一步地,所述根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度,包括:
根据所述相似度公式,获取句级别实体数据向量中每个词向量之间的相似度;
根据句级别实体数据向量中每个词向量之间的相似度,获取句级别实体数据向量之间的句向量相似度。
进一步地,所述根据所述词向量相似度,获取所述词级别实体数据向量的分配权重参数向量矩阵,包括:
将所述词级别实体数据向量中每个词向量对应的最高相似度输入到Sigmoid函数中,得到所述词级别实体数据向量的注意力权重;
根据所述词级别实体数据向量的注意力权重,对所述词级别实体数据向量进行加权处理,得到所述词级别实体数据向量的分配权重参数向量矩阵。
进一步地,在所述根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度之后,所述方法还包括:
根据预设阈值,对杰卡德系数公式进行改进,若句级别实体数据向量中每个词向量之间的相似度大于预设阈值,则将相似度大于预设阈值的两个词向量作为杰卡德系数公式的相同元素,得到调整后的杰卡德系数公式;
根据改进后的杰卡德系数公式,获取所述句级别实体数据向量之间的杰卡德系数。
进一步地,所述根据所述句向量相似度和杰卡德系数公式,获取所述句级别实体数据向量的分配权重参数向量矩阵,包括:
根据所述杰卡德系数,对所述句级别实体数据向量的最高相似度进行调整,得到调整后的最高相似度;
将所述调整后的最高相似度输入到Sigmoid函数中,得到所述句级别实体数据向量的注意力权重;
根据所述句级别实体数据向量的注意力权重,对所述句级别实体数据向量进行加权处理,得到所述句级别实体数据向量的分配权重参数向量矩阵。
第二方面,本发明实施例提供了一种基于分层注意力机制的实体对齐系统,包括:
词句数据划分模块,用于将知识图谱中待实体对齐的目标实体数据进行划分,得到词级别实体数据向量和句级别实体数据向量;
相似度获取模块,用于根据注意力机制,获取所述词级别实体数据向量之间的词向量相似度,并根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度;
处理模块,用于根据所述词向量相似度,获取所述词级别实体数据向量的分配权重参数向量矩阵,并根据所述句向量相似度和杰卡德系数公式,获取所述句级别实体数据向量的分配权重参数向量矩阵,以用于对所述目标实体数据进行实体对齐。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的基于分层注意力机制的实体对齐方法及系统,通过将知识图谱中的实体数据分成词向量和句向量,根据两者的相似度分别生成对应的权重参数,通过调节分配权重使得后续深度学习模型在训练时有所侧重,使相似度高的内容更加容易被关注到,提高了实体对齐的准确率,使得实体向量更容易生成,有效解决实体对齐过程中先验信息不易获得的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于分层注意力机制的实体对齐方法的流程示意图;
图2为本发明实施例提供的基于词信息的注意力权重获取方式示意图;
图3为本发明实施例提供的基于句信息的注意力权重获取方式示意图;
图4为本发明实施例提供的基于分层注意力机制的实体对齐系统的结构示意图;
图5为本发明实施例提供的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
知识图谱是一种语义网络的知识库,被广泛应用于各个领域。实体对齐即实体匹配,是指从异构数据源知识库中的各个实体中,找出属于现实世界中的同一实体,其实现的好坏直接影响知识图谱的精准性。但是由于各类数据存在存储方式和数据格式等差异,使知识图谱的构建和实体对齐技术实现比较困难,通常存在实体对齐准确率较低,实体向量生成困难以及先验对齐数据不易获得等问题。针对上述问题,本发明实施例针对中文知识图谱实体对齐问题,提供了一种基于分层注意力机制的实体对齐方法,通过将输入数据分成词向量和句向量,对不同的向量表示进行不同的处理。对于词数据,由于词语之间的语序信息不必须,因此本发明实施例将所有词都看作是相互独立的;对于句数据,除了单词之外还需要关注句子中词序和语法等整体信息,以保证相似度计算更加合理和准确。需要说明的是,本发明实施例提供的基于分层注意力机制的实体对齐方法,可应用于金融领域(例如,金融知识图谱或企业关系查询软件等)、电商领域或教育领域(例如,智能客服或智能问答系统等),本发明实施例对此不作具体限定。
图1为本发明实施例提供的基于分层注意力机制的实体对齐方法的流程示意图,如图1所示,本发明实施例提供了一种基于分层注意力机制的实体对齐方法,包括:
步骤101,将知识图谱中待实体对齐的目标实体数据进行划分,得到词级别实体数据向量和句级别实体数据向量。
在本发明实施例中,首先需要对知识图谱中预进行实体对齐处理的实体数据进行划分,基于这些实体数据的词句属性,将目标实体数据划分为词级别实体数据和句级别实体数据,并根据划分后的数据构建对应的词级别实体数据向量和句级别实体数据向量。在本发明实施例中,分别以目标实体数据中的两组词级别实体数据向量和两组句级别实体数据向量进行说明。
步骤102,根据注意力机制,获取所述词级别实体数据向量之间的词向量相似度,并根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度。
其中,所述根据注意力机制,获取所述词级别实体数据向量之间的词向量相似度,具体包括:
根据词级别实体数据向量之间的马氏距离和相关距离,构建相似度公式,所述相似度公式为:
Figure BDA0002281538490000061
其中,Qw,w'表示实体描述词向量w和实体描述词向量w'之间的相似度值,S-1表示词向量w的协方差矩阵,T表示矩阵转置,a和β表示权重系数,a+β=1,0<a<1,0<β<1。从而根据相似度公式获取词级别实体数据向量之间的词向量相似度。
在本发明实施例中,针对目标实体数据E1和E2对应的词级别实体数据向量,通过对两组词级别实体数据向量的马氏距离和相关距离进行加权处理,获取每组目标实体数据的词属性和另一组目标实体数据的词属性之间的相似度。进一步地,通过相似度公式,获取目标实体数据E1中每个词语和目标实体数据E2中每个词语之间的相似度值,从而得到目标实体数据E1中每个词语的最高相似度在目标实体数据E2中对应的词语,相应地,得到目标实体数据E2中每个词语的最高相似度在目标实体数据E1中对应的词语。
进一步地,在上述实施例的基础上,所述根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度,包括:
根据所述相似度公式,获取句级别实体数据向量中每个词向量之间的相似度;
根据句级别实体数据向量中每个词向量之间的相似度,获取句级别实体数据向量之间的句向量相似度。
在本发明实施例中,获取句级别实体数据向量中每个词向量之间的相似度的步骤,和上述提供的获取词级别实体数据向量之间的词向量相似度的步骤相同,本发明实施例不再赘述。针对目标实体数据E1和E2对应的句级别实体数据向量,在获取到每组句级别实体数据向量中每个词之间的相似度之后,进一步获取两组句级别实体数据向量之间的相似度。
进一步地,在所述根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度之后,所述方法还包括:
根据预设阈值,对杰卡德系数公式进行改进,若句级别实体数据向量中每个词向量之间的相似度大于预设阈值,则将相似度大于预设阈值的两个词向量作为杰卡德系数公式的相同元素,得到调整后的杰卡德系数公式;
根据改进后的杰卡德系数公式,获取所述句级别实体数据向量之间的杰卡德系数。
在本发明实施例中,在计算目标实体数据E1和E2句级别的相似度时,添加杰卡德(Jaccard)系数,从而考虑两句话之间的整体相似性,其中,杰卡德系数越大,代表杰卡德系数对应的样本集S和S'的相似度越高。
进一步地,在现有的杰卡德系数公式中,两个完全相同的元素才可标记为相同,但是在实体对齐的场景中,两个相似的词之间仍然存在相互影响的关系,因此不能将它们简单的按照相等与否进行区分。在本发明实施例中,对现有杰卡德系数公式进行了改进,对“相同元素”进行了模糊化处理,通过判断两个词向量之间马氏距离和相关距离的加权和,是否大于预设阈值k,若大于预设阈值k,则判断获知两个词向量为相同元素,进而求得样本集S和S'的交集和并集,优选地,在本发明实施例中,将预设阈值设置为0.7。具体地,改进的杰卡德系数公式为:
Figure BDA0002281538490000071
其中,S和S'分别表示两个实体数据对应的描述信息集合;从而根据改进的杰卡德系数公式获取对应的杰卡德系数。
本发明实施例对杰卡德系数公式进行改进,将“相同元素”进行了模糊化处理,通过将两个词向量的马氏距离和相关距离的加权,与预设阈值进行判断,从而获知两个词是否为相同元素,使杰卡德系数更加符合实体对齐的场景。
步骤103,根据所述词向量相似度,获取所述词级别实体数据向量的分配权重参数向量矩阵,并根据所述句向量相似度和杰卡德系数公式,获取所述句级别实体数据向量的分配权重参数向量矩阵,以用于对所述目标实体数据进行实体对齐。
其中,所述根据所述词向量相似度,获取所述词级别实体数据向量的分配权重参数向量矩阵,包括:
将所述词级别实体数据向量中每个词向量对应的最高相似度输入到Sigmoid函数中,得到所述词级别实体数据向量的注意力权重;
根据所述词级别实体数据向量的注意力权重,对所述词级别实体数据向量进行加权处理,得到所述词级别实体数据向量的分配权重参数向量矩阵。
图2为本发明实施例提供的基于词信息的注意力权重获取方式示意图,可参考图2所示,在本发明实施例中,将目标实体数据E1中的每个词wn的属性和目标实体数据E2中每个词语wn'的属性之间最高相似度值作为纵向Sigmoid函数的输入,得到第一注意力权重;将目标实体数据E2中的每个词wn'的属性和目标实体数据E1中每个词语wn的属性之间最高相似度值作为横向Sigmoid函数的输入,得到第二注意力权重。进一步地,通过第一注意力权重对目标实体数据E2中的词向量进行加权,通过第二注意力权重对目标实体数据E1中的词向量进行加权,分别得到对应的分配权重参数向量矩阵。
在上述实施例的基础上,其特征在于,所述根据所述句向量相似度和杰卡德系数公式,获取所述句级别实体数据向量的分配权重参数向量矩阵,包括:
根据所述杰卡德系数,对所述句级别实体数据向量的最高相似度进行调整,得到调整后的最高相似度;
将所述调整后的最高相似度输入到Sigmoid函数中,得到所述句级别实体数据向量的注意力权重;
根据所述句级别实体数据向量的注意力权重,对所述句级别实体数据向量进行加权处理,得到所述句级别实体数据向量的分配权重参数向量矩阵。
图3为本发明实施例提供的基于句信息的注意力权重获取方式示意图,可参考图3所示,在本发明实施例中,对于目标实体数据E1中的句子S的第i个词wi,首先计算目标实体数据E2中的句子S'中所有词wi'与wi的相似度,记为
Figure BDA0002281538490000091
然后,获取其中的最大相似度
Figure BDA0002281538490000092
将最大相似度
Figure BDA0002281538490000093
乘以上述实施例得到的杰卡德系数,作为纵向Sigmoid函数的输入,得到wi的注意力权重,基于同样的方法,获取句子S中其他词的注意力权重,从而得到一组关于句子S的一组注意力权重,以根据该组注意力权重对目标实体数据E2中的矩阵S'进行加权,得到目标实体数据E2的句向量对应的分配权重参数向量矩阵。相应地,对于目标实体数据E2中的句子S'的第i个词wi',和上述步骤基本相同,在此不再赘述,唯一区别在于,可参考图3,将得到的最大相似度乘以上述实施例得到的杰卡德系数之后,作为横向Sigmoid函数的输入。
本发明实施例提供的基于分层注意力机制的实体对齐方法,通过将知识图谱中的实体数据分成词向量和句向量,根据两者的相似度分别生成对应的权重参数,通过调节分配权重使得后续深度学习模型在训练时有所侧重,使相似度高的内容更加容易被关注到,提高了实体对齐的准确率,使得实体向量更容易生成,有效解决实体对齐过程中先验信息不易获得的问题。
进一步地,在本发明一实施例中,对基于分层注意力机制的实体对齐方法进行说明,具体步骤为:
S11,获取词向量Vw1和Vw2,以及句向量Vs1和Vs2;然后,构建词向量矩阵Vw1=[20*300]和Vw2=[20*300],句向量矩阵Vs1=[50*300]和Vs2=[50*300];
S12,计算词向量矩阵Vw1和Vw2之间的相似度,获取词与词之间的词向量相似度矩阵Sw=[20*20];计算句向量矩阵Vs1和Vs2之间的相似度,获取句子与句子之间的句向量相似度矩阵ST=[50*50],并计算两个句向量矩阵之间的杰卡德系数T;
S13,根据词向量相似度矩阵Sw,得到矩阵行方向的最大相似度值W1和列方向的最大相似度值W2;根据句向量相似度矩阵ST,得到矩阵行方向的最大相似度值Q1和列方向的最大相似度值Q2;将Q1和Q2分别乘以杰卡德系数T,得到修正后的矩阵行方向和列方向的最大相似度值Q1'和Q2';
S14,将W1、W2、Q1'和Q2'输入到Sigmoid函数中,得到对应的注意力权重Aw1、Aw2、AQ1和AQ2
S15,将Aw1加权到词向量Vw2,得到Ow2;将Aw2加权到词向量Vw1,得到Ow1;将AQ1加权到句向量Vs2,得到Os2;将AQ2加权到句向量Vs1,得到Os1;以根据分配权重参数向量矩阵Ow1,Ow2,Os1和Os2,对知识图图谱的实体数据进行实体对齐。
图4为本发明实施例提供的基于分层注意力机制的实体对齐系统的结构示意图,如图4所示,本发明实施例提供了一种基于分层注意力机制的实体对齐系统,包括词句数据划分模块401、相似度获取模块402和处理模块403,其中,词句数据划分模块401用于将知识图谱中待实体对齐的目标实体数据进行划分,得到词级别实体数据向量和句级别实体数据向量;相似度获取模块402用于根据注意力机制,获取所述词级别实体数据向量之间的词向量相似度,并根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度;处理模块403用于根据所述词向量相似度,获取所述词级别实体数据向量的分配权重参数向量矩阵,并根据所述句向量相似度和杰卡德系数公式,获取所述句级别实体数据向量的分配权重参数向量矩阵,以用于对所述目标实体数据进行实体对齐。
本发明实施例提供的基于分层注意力机制的实体对齐系统,通过将知识图谱中的实体数据分成词向量和句向量,根据两者的相似度分别生成对应的权重参数,通过调节分配权重使得后续深度学习模型在训练时有所侧重,使相似度高的内容更加容易被关注到,提高了实体对齐的准确率,使得实体向量更容易生成,有效解决实体对齐过程中先验信息不易获得的问题。
本发明实施例提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图5为本发明实施例提供的电子设备结构示意图,参照图5,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行如下方法:将知识图谱中待实体对齐的目标实体数据进行划分,得到词级别实体数据向量和句级别实体数据向量;根据注意力机制,获取所述词级别实体数据向量之间的词向量相似度,并根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度;根据所述词向量相似度,获取所述词级别实体数据向量的分配权重参数向量矩阵,并根据所述句向量相似度和杰卡德系数公式,获取所述句级别实体数据向量的分配权重参数向量矩阵,以用于对所述目标实体数据进行实体对齐。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于分层注意力机制的实体对齐方法,例如包括:将知识图谱中待实体对齐的目标实体数据进行划分,得到词级别实体数据向量和句级别实体数据向量;根据注意力机制,获取所述词级别实体数据向量之间的词向量相似度,并根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度;根据所述词向量相似度,获取所述词级别实体数据向量的分配权重参数向量矩阵,并根据所述句向量相似度和杰卡德系数公式,获取所述句级别实体数据向量的分配权重参数向量矩阵,以用于对所述目标实体数据进行实体对齐。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于分层注意力机制的实体对齐方法,其特征在于,包括:
将知识图谱中待实体对齐的目标实体数据进行划分,得到词级别实体数据向量和句级别实体数据向量;
根据注意力机制,获取所述词级别实体数据向量之间的词向量相似度,并根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度;
根据所述词向量相似度,获取所述词级别实体数据向量的分配权重参数向量矩阵,并根据所述句向量相似度和杰卡德系数公式,获取所述句级别实体数据向量的分配权重参数向量矩阵,以用于对所述目标实体数据进行实体对齐。
2.根据权利要求1所述的基于分层注意力机制的实体对齐方法,其特征在于,所述根据注意力机制,获取所述词级别实体数据向量之间的词向量相似度,包括:
根据词级别实体数据向量之间的马氏距离和相关距离,获取词级别实体数据向量之间的词向量相似度。
3.根据权利要求2所述的基于分层注意力机制的实体对齐方法,其特征在于,所述根据词级别实体数据向量之间的马氏距离和相关距离,获取词级别实体数据向量之间的词向量相似度,包括:
根据词级别实体数据向量之间的马氏距离和相关距离,构建相似度公式,所述相似度公式为:
Figure FDA0002281538480000011
其中,Qw,w'表示实体描述词向量w和实体描述词向量w'之间的相似度值,S-1表示词向量w的协方差矩阵,T表示矩阵转置,a和β表示权重系数,a+β=1,0<a<1,0<β<1。
4.根据权利要求3所述的基于分层注意力机制的实体对齐方法,其特征在于,所述根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度,包括:
根据所述相似度公式,获取句级别实体数据向量中每个词向量之间的相似度;
根据句级别实体数据向量中每个词向量之间的相似度,获取句级别实体数据向量之间的句向量相似度。
5.根据权利要求3所述的基于分层注意力机制的实体对齐方法,其特征在于,所述根据所述词向量相似度,获取所述词级别实体数据向量的分配权重参数向量矩阵,包括:
将所述词级别实体数据向量中每个词向量对应的最高相似度输入到Sigmoid函数中,得到所述词级别实体数据向量的注意力权重;
根据所述词级别实体数据向量的注意力权重,对所述词级别实体数据向量进行加权处理,得到所述词级别实体数据向量的分配权重参数向量矩阵。
6.根据权利要求4所述的基于分层注意力机制的实体对齐方法,其特征在于,在所述根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度之后,所述方法还包括:
根据预设阈值,对杰卡德系数公式进行改进,若句级别实体数据向量中每个词向量之间的相似度大于预设阈值,则将相似度大于预设阈值的两个词向量作为杰卡德系数公式的相同元素,得到调整后的杰卡德系数公式;
根据改进后的杰卡德系数公式,获取所述句级别实体数据向量之间的杰卡德系数。
7.根据权利要求6所述的基于分层注意力机制的实体对齐方法,其特征在于,所述根据所述句向量相似度和杰卡德系数公式,获取所述句级别实体数据向量的分配权重参数向量矩阵,包括:
根据所述杰卡德系数,对所述句级别实体数据向量的最高相似度进行调整,得到调整后的最高相似度;
将所述调整后的最高相似度输入到Sigmoid函数中,得到所述句级别实体数据向量的注意力权重;
根据所述句级别实体数据向量的注意力权重,对所述句级别实体数据向量进行加权处理,得到所述句级别实体数据向量的分配权重参数向量矩阵。
8.一种基于分层注意力机制的实体对齐系统,其特征在于,包括:
词句数据划分模块,用于将知识图谱中待实体对齐的目标实体数据进行划分,得到词级别实体数据向量和句级别实体数据向量;
相似度获取模块,用于根据注意力机制,获取所述词级别实体数据向量之间的词向量相似度,并根据注意力机制,获取所述句级别实体数据向量之间的句向量相似度;
处理模块,用于根据所述词向量相似度,获取所述词级别实体数据向量的分配权重参数向量矩阵,并根据所述句向量相似度和杰卡德系数公式,获取所述句级别实体数据向量的分配权重参数向量矩阵,以用于对所述目标实体数据进行实体对齐。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于分层注意力机制的实体对齐方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于分层注意力机制的实体对齐方法的步骤。
CN201911143409.8A 2019-11-20 2019-11-20 基于分层注意力机制的实体对齐方法及系统 Pending CN110929041A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911143409.8A CN110929041A (zh) 2019-11-20 2019-11-20 基于分层注意力机制的实体对齐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911143409.8A CN110929041A (zh) 2019-11-20 2019-11-20 基于分层注意力机制的实体对齐方法及系统

Publications (1)

Publication Number Publication Date
CN110929041A true CN110929041A (zh) 2020-03-27

Family

ID=69851369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911143409.8A Pending CN110929041A (zh) 2019-11-20 2019-11-20 基于分层注意力机制的实体对齐方法及系统

Country Status (1)

Country Link
CN (1) CN110929041A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417159A (zh) * 2020-11-02 2021-02-26 武汉大学 一种上下文对齐增强图注意力网络的跨语言实体对齐方法
CN112445876A (zh) * 2020-11-25 2021-03-05 中国科学院自动化研究所 融合结构、属性和关系信息的实体对齐方法和系统
CN112800770A (zh) * 2021-04-15 2021-05-14 南京樯图数据研究院有限公司 一种基于异构图注意力网络的实体对齐方法
CN115659985A (zh) * 2022-12-09 2023-01-31 南方电网数字电网研究院有限公司 电力知识图谱实体对齐方法、装置和计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140281942A1 (en) * 2013-03-15 2014-09-18 Research In Motion Limited System and method for text editor text alignment control
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140281942A1 (en) * 2013-03-15 2014-09-18 Research In Motion Limited System and method for text editor text alignment control
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANG YANG等: "Entity Alignment Algorithm Based on Dual-Attention and Incremental Learning Mechanism", 《IEEE ACCESS》 *
刘煜等: "《稀疏表示基础理论与典型应用》", 31 October 2014, 国防科技大学出版社 *
蔡静颖等: "《模糊聚类算法及应用》", 31 August 2015, 冶金工业出版社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417159A (zh) * 2020-11-02 2021-02-26 武汉大学 一种上下文对齐增强图注意力网络的跨语言实体对齐方法
CN112445876A (zh) * 2020-11-25 2021-03-05 中国科学院自动化研究所 融合结构、属性和关系信息的实体对齐方法和系统
CN112445876B (zh) * 2020-11-25 2023-12-26 中国科学院自动化研究所 融合结构、属性和关系信息的实体对齐方法和系统
CN112800770A (zh) * 2021-04-15 2021-05-14 南京樯图数据研究院有限公司 一种基于异构图注意力网络的实体对齐方法
CN115659985A (zh) * 2022-12-09 2023-01-31 南方电网数字电网研究院有限公司 电力知识图谱实体对齐方法、装置和计算机设备
CN115659985B (zh) * 2022-12-09 2023-03-31 南方电网数字电网研究院有限公司 电力知识图谱实体对齐方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
US20210256403A1 (en) Recommendation method and apparatus
US20220222920A1 (en) Content processing method and apparatus, computer device, and storage medium
CN109783817B (zh) 一种基于深度强化学习的文本语义相似计算模型
CN110929041A (zh) 基于分层注意力机制的实体对齐方法及系统
CN110032641A (zh) 计算机执行的、利用神经网络进行事件抽取的方法及装置
CN111737426B (zh) 问答模型的训练方法、计算机设备以及可读存储介质
CN109766454A (zh) 一种投资者分类方法、装置、设备及介质
CN112231592B (zh) 基于图的网络社团发现方法、装置、设备以及存储介质
CN110009486A (zh) 一种欺诈检测的方法、系统、设备及计算机可读存储介质
CN112257841A (zh) 图神经网络中的数据处理方法、装置、设备及存储介质
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
CN112733043B (zh) 评论推荐方法及装置
WO2023213157A1 (zh) 数据处理方法、装置、程序产品、计算机设备和介质
CN111125318A (zh) 基于义原-义项信息提升知识图谱关系预测性能的方法
CN114490926A (zh) 一种相似问题的确定方法、装置、存储介质及终端
CN117541853A (zh) 一种基于类别解耦的分类知识蒸馏模型训练方法和装置
CN116756281A (zh) 知识问答方法、装置、设备和介质
WO2023011062A1 (zh) 信息推送方法、装置、设备、存储介质及计算机程序产品
CN114357203B (zh) 多媒体检索方法、装置及计算机设备
CN113761837B (zh) 实体关系类型确定方法、装置和设备及存储介质
CN112883256B (zh) 多任务处理方法、装置、电子设备及存储介质
CN115630147A (zh) 应答方法、装置、电子设备及存储介质
CN111291196B (zh) 知识图谱的完善方法及装置、数据处理方法及装置
CN111221880B (zh) 特征组合方法、装置、介质和电子设备
CN116955763A (zh) 内容推荐方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200327