CN111159485B - 尾实体链接方法、装置、服务器及存储介质 - Google Patents

尾实体链接方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN111159485B
CN111159485B CN201911404728.XA CN201911404728A CN111159485B CN 111159485 B CN111159485 B CN 111159485B CN 201911404728 A CN201911404728 A CN 201911404728A CN 111159485 B CN111159485 B CN 111159485B
Authority
CN
China
Prior art keywords
entity
linked
tail
entities
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911404728.XA
Other languages
English (en)
Other versions
CN111159485A (zh
Inventor
吴瑞萦
张大雷
郑新
李直旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Suzhou Technology Co Ltd
Original Assignee
Iflytek Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek Suzhou Technology Co Ltd filed Critical Iflytek Suzhou Technology Co Ltd
Priority to CN201911404728.XA priority Critical patent/CN111159485B/zh
Publication of CN111159485A publication Critical patent/CN111159485A/zh
Application granted granted Critical
Publication of CN111159485B publication Critical patent/CN111159485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本申请实施例提供一种尾实体链接方法、装置、服务器及存储介质,该方法包括:获取知识图谱,知识图谱包括头实体、待链接尾实体以及描述头实体和待链接尾实体的实体关系,通过单实体分类模型判断该待链接尾实体是否为单实体;若待链接尾实体是单实体,确定与单实体对应的候选已链接实体集合;该候选已链接实体集合包括N个候选已链接实体,N为正整数;通过相似度模型计算单实体与N个候选已链接实体中各个候选已链接实体的相似度;若单实体与目标候选已链接实体的相似度大于第一阈值,将目标候选已链接实体与单实体进行链接。本申请实施例可以提高尾实体链接的准确率。

Description

尾实体链接方法、装置、服务器及存储介质
技术领域
本申请涉及机器学习技术领域,具体涉及一种尾实体链接方法、装置、服务器及存储介质。
背景技术
随着科技的发展和互联网的普及,我们进入了大数据时代。尽管网络中有大量的数据资源,但是这些数据异质多元,组织结构松散,并不能被有效的利用起来,为了能够获取信息形成知识,人们提出了知识图谱。知识图谱(knowledge graph,KG)以其强大的语义处理能力和开放组织能力为网络数据组织化,智能化奠定了基础。目前,知识图谱作为人工智能技术发展和应用的关键技术之一,已经被广泛应用于智能搜索、智能问答、个性化推荐等领域。
一个知识图谱旨在描述现实世界中存在的实体以及实体之间的关系,知识图谱可以包括头实体、关系和尾实体。例如:<姚明,妻子,叶莉>三元组包含了:头实体“姚明”,尾实体“叶莉”以及关系“妻子”。然而在现实世界中存在多个叫“叶莉”的人,如何在知识库中找到正确的“叶莉”就是尾实体链接的相关工作。在通用知识图谱的构建过程中,数据量大,数据分布广,数据信息杂,成为了这类知识图谱构建的难点,亟需一种合适的链接方法适用于所有待链接的尾实体。
目前的实体链接过程中,通常采用人工标注特征输入到传统机器学习模型中计算相似度得分,这些特征多是统计共现窗口的次数,导致模型能够获取的信息量少,信息熵变大,最终链接的准确率较低。
发明内容
本申请实施例提供一种尾实体链接方法、装置、服务器及存储介质,可以提高尾实体链接的准确率。
本申请实施例的第一方面提供了一种尾实体链接方法,包括:
获取知识图谱,所述知识图谱包括头实体、待链接尾实体以及描述所述头实体和所述待链接尾实体的实体关系,通过单实体分类模型判断所述待链接尾实体是否为单实体;
若所述待链接尾实体是单实体,确定与所述单实体对应的候选已链接实体集合;所述候选已链接实体集合包括N个候选已链接实体,N为正整数;
通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;所述相似度模型包括第一编码模块、注意力模块和相似度计算模块;所述第一编码模块用于对所述知识图谱进行编码,得到单实体编码向量,所述注意力模块用于获取所述N个候选已链接实体中的N个重要上下文向量;所述相似度计算模块用于分别计算所述单实体编码向量与所述N个重要上下文向量的相似度,得到所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;
确定所述N个候选已链接实体中与所述单实体相似度最高的目标候选已链接实体;
若所述单实体与所述目标候选已链接实体的相似度大于第一阈值,将所述目标候选已链接实体与所述单实体进行链接。
本申请实施例的第二方面提供了一种尾实体链接装置,包括:
获取单元,用于获取知识图谱,所述知识图谱包括头实体、待链接尾实体以及描述所述头实体和所述待链接尾实体的实体关系;
判断单元,用于通过单实体分类模型判断所述待链接尾实体是否为单实体;
第一确定单元,用于在所述待链接尾实体是单实体的情况下,确定与所述单实体对应的候选已链接实体集合;所述候选已链接实体集合包括N个候选已链接实体,N为正整数;
计算单元,用于通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;所述相似度模型包括第一编码模块、注意力模块和相似度计算模块;所述第一编码模块用于对所述知识图谱进行编码,得到单实体编码向量,所述注意力模块用于获取所述N个候选已链接实体中的N个重要上下文向量;所述相似度计算模块用于分别计算所述单实体编码向量与所述N个重要上下文向量的相似度,得到所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;
第二确定单元,用于确定所述N个候选已链接实体中与所述单实体相似度最高的目标候选已链接实体;
尾实体链接单元,用于在所述单实体与所述目标候选已链接实体的相似度大于第一阈值的情况下,将所述目标候选已链接实体与所述单实体进行链接。
本申请实施例的第三方面提供了一种服务器,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如本申请实施例第一方面中的步骤指令。
本申请实施例的第四方面提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
本申请实施例的第五方面提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
本申请实施例中,在进行尾实体链接时,获取知识图谱,所述知识图谱包括头实体、待链接尾实体以及描述所述头实体和所述待链接尾实体的实体关系,通过单实体分类模型判断所述待链接尾实体是否为单实体;若所述待链接尾实体是单实体,确定与所述单实体对应的候选已链接实体集合;所述候选已链接实体集合包括N个候选已链接实体,N为正整数;通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;所述相似度模型包括第一编码模块、注意力模块和相似度计算模块;所述第一编码模块用于对所述知识图谱进行编码,得到单实体编码向量,所述注意力模块用于获取所述N个候选已链接实体中的N个重要上下文向量;所述相似度计算模块用于分别计算所述单实体编码向量与所述N个重要上下文向量的相似度,得到所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;确定所述N个候选已链接实体中与所述单实体相似度最高的目标候选已链接实体;若所述单实体与所述目标候选已链接实体的相似度大于第一阈值,将所述目标候选已链接实体与所述单实体进行链接。本申请实施例的单实体分类模型可以对未知的尾实体进行分类,筛除情况复杂的多实体和属性值,保留单实体,仅对单实体进行链接;相似度模型包括第一编码模块、注意力模块和相似度计算模块,注意力模块可以学习到重要的上下文信息,可以去除冗余信息,从而提取到上下文中的关键内容;第一编码模块可以对知识图谱中的头实体、待链接尾实体以及实体关系进行编码,得到的单实体编码向量也可以学习到待链接尾实体的上下文信息;相似度计算模块可以准确计算单实体编码向量和N个重要上下文向量的相似度,进而有效的捕捉实体之间的相似度,提高尾实体链接的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种系统架构的结构示意图;
图2是本申请实施例提供的一种尾实体链接方法的流程示意图;
图3a是本申请实施例提供的一种单实体分类模型的结构示意图;
图3b是本申请实施例提供的一种相似度模型的结构示意图;
图4是本申请实施例提供的另一种尾实体链接方法的流程示意图;
图5是本申请实施例提供的一种实体拆分模型的结构示意图;
图6是本申请实施例提供的一种尾实体链接装置的结构示意图;
图7是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
下面对本申请实施例进行详细介绍。
请参阅图1,图1是本申请实施例提供的一种系统架构的结构示意图,如图所示,系统架构包括服务器100和与服务器100通信连接的至少一个电子设备101。用户持有电子设备101;电子设备101上可以安装有客户端,服务器100上可以安装有服务端。客户端是指与服务器相对应,为客户提供本地服务的程序。服务端也是在服务器上安装的一段程序,服务端是为客户端服务的,服务的内容诸如向客户端提供计算或者应用服务,向客户端提供资源,保存客户端数据等。服务器100可以直接与电子设备101通过互联网建立通信连接,服务端100也可以通过其他服务器与电子设备101通过互联网建立通信连接。
本申请实施例所涉及到的服务器可以包括云服务器或云虚拟机。本申请实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(userequipment,UE),移动台(mobile station,MS),终端设备(terminal device)等等。
本申请实施例中的客户端可以向用户提供知识图谱链接服务、知识图谱检索服务、知识图谱显示服务等。比如,知识图谱客户端可以向用户提供知识图谱链接服务。举例来说,用户可以在知识图谱客户端上点击知识图谱中的待链接尾实体,该知识图谱可以包括头实体、该待链接尾实体以及描述头实体和该待链接尾实体的实体关系。知识图谱客户端可以向给服务端发送尾实体连接请求,该尾实体连接请求包括该待链接尾实体、知识图谱中的头实体以及描述头实体和待链接尾实体的实体关系,服务端可以判断该待链接尾实体是否为单实体,在该待链接尾实体为单实体的情况下,确定与该待链接尾实体对应的候选已链接实体集合;并计算该待链接尾实体与对应的候选已链接实体集合中每个候选已链接实体的相似度,根据该待链接尾实体与对应的候选已链接实体集合中每个候选已链接实体的相似度确定候选已链接实体集合中的目标候选已链接实体,将目标候选已链接实体与该待链接尾实体进行链接,服务端将该待链接尾实体与目标候选已链接实体的链接关系发送至知识图谱客户端,知识图谱客户端将该待链接尾实体标记为已链接尾实体,并显示与该待链接尾实体对应的目标候选已链接实体。
本申请实施例中,客户端可以将待链接尾实体发送给服务端进行链接,服务端可以找到该待链接尾实体对应的目标候选已链接实体后,将目标候选已链接实体与该待链接尾实体进行链接,并该待链接尾实体与目标候选已链接实体的链接关系发送客户端。客户端可以将该待链接尾实体标记为已链接尾实体,并显示与该待链接尾实体对应的目标候选已链接实体。对于待链接的尾实体,可以通过服务端快速确定唯一的目标候选已链接实体,提高尾实体链接的效率。
请参阅图2,图2是本申请实施例提供的一种尾实体链接方法的流程示意图。如图2所示。该尾实体链接方法可以包括如下步骤:
201,服务端获取知识图谱,知识图谱包括头实体、待链接尾实体以及描述头实体和待链接尾实体的实体关系,通过单实体分类模型判断待链接尾实体是否为单实体。
本申请实施例中,知识图谱可以是三元组知识图谱,知识图谱可以包括头实体、尾实体以及实体之间的关系。例如:<姚明,妻子,叶莉>三元组知识图谱包含了:头实体“姚明”,尾实体“叶莉”以及关系“妻子”。本申请的知识图谱可以是通用知识图谱。
本申请的知识图谱包括头实体、待链接尾实体以及描述头实体和待链接尾实体的实体关系。其中,头实体是已链接的实体。本申请实施例中的尾实体链接方法是从一个三元组中抽取出尾实体,并判断该尾实体对应于知识库的哪个实体。
通用知识图谱的尾实体可能会存在很多无需链接的属性值,以及包含多个实体的尾实体。例如:<姚明,身高,226厘米>三元组中“226厘米”就是作为一个属性值,<星光大道,主持人,朱迅、尼格买提>三元组中的尾实体就包含了两个实体信息。
单实体分类模型可以包括非线性分类器,比如神经网络分类器,具体的,单实体分类模型可以包括卷积神经网络(Convolutional Neural Networks,CNN)分类器。
可选的,单实体分类模型包括第一卷积神经网络、第二卷积神经网络和第一前馈神经网络;步骤201中,服务端通过单实体分类模型判断待链接尾实体是否为单实体,具体可以包括如下步骤:
(11)服务端将待链接尾实体的表征向量输入第一卷积神经网络,得到尾实体向量;
(12)服务端将实体关系的表征向量输入第二卷积神经网络,得到关系向量;
(13)服务端将尾实体向量和关系向量输入第一前馈神经网络,得到二分类结果。
本申请实施例中,待链接尾实体的表征向量可以包括词表征(word embedding)向量、位置表征(pos embedding)向量和长度表征(length embedding)向量的组合。实体关系的表征向量也可以包括词表征向量、词性表征向量和长度表征向量的组合。其中,词表征向量可以采用word2vec、GloV等模型得到。
请参阅图3a,图3a是本申请实施例提供的一种单实体分类模型的结构示意图,如图3a所示,该单实体分类模型包括第一卷积神经网络、第二卷积神经网络和第一前馈神经网络。可以对待链接尾实体和实体关系分布进行向量表征,得到待链接尾实体的表征向量和实体关系的表征向量。其中,待链接尾实体的表征向量x1可以由词表征向量w1、词性表征向量p1和长度表征向量l1拼接而成。表征向量x1的维度等于词表征w1的维度、词性表征向量p1的维度和长度表征向量l1的维度之和。x1=(w1,p1,l1)。比如,词表征w1的维度为n1,词性表征向量p1的维度为n2,长度表征向量l1的维度为n3,则表征向量x1的维度为(n1+n2+n3)。
类似的,实体关系的表征向量x2可以由词表征向量w2、词性表征向量p2和长度表征向量l2拼接而成。表征向量x2的维度等于词表征w2的维度、词性表征向量p2的维度和长度表征向量l2的维度之和。x2=(w2,p2,l2)。比如,词表征w2的维度为n1,词性表征向量p2的维度为n2,长度表征向量l2的维度为n3,则表征向量x2的维度为(n1+n2+n3)。
其中,第一卷积神经网络可以包括第一卷积层、第一池化层和第一丢弃(Dropout)层。第二卷积神经网络可以包括第二卷积层、第二池化层和第二Dropout层。第一卷积层可以采用三个卷积核(三个卷积核的大小可以相同,也可以不同)分别对待链接尾实体的表征向量x1中的w1,p1,l1分别进行卷积运算,三个卷积核可以分别学习到不同层次的知识表征,将待链接尾实体的表征向量x1经过卷积运算后得到的向量输入第一池化层后,输入第一Dropout层,得到尾实体向量xtail∈Rw+p+l。第二卷积层可以采用三个卷积核(三个卷积核的大小可以相同,也可以不同)分别对实体关系的表征向量x2中的w2,p2,l2分别进行卷积运算,三个卷积核可以分别学习到不同层次的知识表征,将待链接尾实体的表征向量x2经过卷积运算后得到的向量输入第二池化层后,输入第二Dropout层,得到关系向量xrelation∈Rw +p+l。最后,将上述尾实体向量xtail∈Rw+p+l和关系向量xrelation∈Rw+p+l输入到第一前馈神经网络中进行二分类处理,从而判断尾实体是否是单实体。
其中,二分类结果包括两种,一种结果是单实体,另一种结果是非单实体。
在步骤201之前,可以对单实体分类模型进行训练,得到训练好的单实体分类模型后,再执行步骤201。
由于知识库中已经存在部分已链接的实体,每个实体都有自己对应的id号,可以从知识库收集这些已链接的实体数据作为单实体分类模型训练的正例,同时可以构建了一个属性值表,通过查找该表抽取的三元组都是属性值,另外利用分隔字符和长尾元素(比如,定义经过分词后长度大于20的元素为长尾元素)抽取出多实体三元组,并将这些多实体三元组和属性值三元组作为模型训练的负例,搭建一个单实体分类模型(比如,CNN分类器)来划分库中的单实体和非单实体。
假设单实体分类模型的输出为y,真实标签为
Figure BDA0002348316910000081
可以利用损失计算函数(比如,交叉熵,0-1损失、Logistic loss等)计算损失Lossclass,对单实体分类模型的模型参数进行优化。比如,可以对单实体分类模型中的第一卷积神经网络、第二卷积神经网络和第一前馈神经网络中的权值矩阵进行优化。
202,若待链接尾实体是单实体,服务端确定与该单实体对应的候选已链接实体集合;候选已链接实体集合包括N个候选已链接实体,N为正整数。
本申请实施例中,服务端可以从已链接实体库中寻找与该单实体对应的候选已链接实体集合。
可选的,步骤202中,服务端确定与该单实体对应的候选已链接实体集合,可以包括如下步骤:
(21)服务端获取该单实体对应的别名集合;
(22)若已链接实体库中存在与别名集合对应的候选已链接实体,服务端从已链接实体库中获取与别名集合对应的候选已链接实体集合;
(23)若已链接实体库中不存在与别名集合对应的候选已链接实体,服务端采用爬虫技术从网页中获取与别名集合对应的候选已链接实体集合。
本申请实施例中,待链接的单实体可以称为元素(Mention)。为了能够利用知识库中已链接实体的经验知识,可以构建了一个别名库,在知识库中每个实体都有对应的别名,例如“姚明”的别名包括“明王”、“移动长城”、“小巨人”、“大姚”,这些名字都对应了“姚明”的id号,可以收集知识库中所有的别名(包含实体自身的名字),并统计每个别名对应的id。
通过这个别名库,我们可以通过字符串完全匹配法(即比较两个字符串是否完全相同)将待链接的单实体划分为三类:(1)候选实体唯一、(2)候选实体多个、(3)没有候选实体。然后对这三类待链接的单实体分别进行处理。
例如,待链接的单实体“NANA”在知识库中存在多个实体的别名,分别有“娜娜(佐拉创作长篇小说)”、“余娜(影视明星)”、“nana(日本矢泽爱创作漫画)”等,可以抽取这些实体信息作为候选已链接实体集合。又例如,待链接的单实体“辽宁辽阳”在知识库中找不到任何相关别名,此时可以借助爬虫技术从百度百科页面中找到它的相关候选已链接实体,得到候选已链接实体集合。又例如,待链接的单实体“中国政法大学海外留学教育中心”在知识库中只存在唯一一个别名,则将其归类为候选已链接实体唯一。
203,服务端通过相似度模型计算该单实体与N个候选已链接实体中各个候选已链接实体的相似度。
其中,该相似度模型包括第一编码模块、注意力模块和相似度计算模块;第一编码模块用于对知识图谱进行编码,得到单实体编码向量,注意力模块用于获取N个候选已链接实体中的N个重要上下文向量;相似度计算模块用于分别计算单实体编码向量与N个重要上下文向量的相似度,得到单实体与N个候选已链接实体中各个候选已链接实体的相似度。
本申请实施例中,第一编码模块可以对知识图谱中的头实体、待链接尾实体以及实体关系进行编码,得到单实体编码向量。注意力模块可以获取N个候选已链接实体中的每个候选已链接实体的重要上下文向量。
注意力模块可以学习到重要的上下文信息,可以去除冗余信息,从而提取到上下文中的关键内容;第一编码模块可以对知识图谱中的头实体、待链接尾实体以及实体关系进行编码,得到的单实体编码向量也可以学习到待链接尾实体的上下文信息;相似度计算模块可以准确计算单实体编码向量和N个重要上下文向量的相似度,进而有效的捕捉实体之间的相似度,提高尾实体链接的准确率。
在以往的基于Infoboxs的实体链接任务中,一般借助共现特征来计算相似度,然而这种方法常常会造成特征稀疏的现象,并且中文表达方式多样,利用共现特征并不能很好的表示待链接单实体与候选实体的相似度。本申请实施例构建一个神经网络模型(相似度模型)来学习每个元素实体对(mention-entity pair)的相似性。元素实体对,即为待链接的单实体(Mention)与候选已链接实体(entity)组成。
可选的,步骤203中,服务端通过相似度模型计算该单实体与N个候选已链接实体中各个候选已链接实体的相似度,具体可以包括如下步骤:
(31)服务端获取知识图谱对应的文本信息映射到向量空间的元素输入向量,通过第一编码模块对元素输入向量进行编码,输出元素输出向量;
(32)服务端获取第一候选已链接实体的描述文本映射到向量空间的第一实体描述文本向量,通过注意力模块对第一实体描述文本向量进行注意力过滤,输出第一实体重要上下文向量;
(33)服务端通过相似度计算模块计算元素输出向量和第一实体重要上下文向量的相似度,得到单实体与第一候选已链接实体的相似度;第一候选已链接实体为N个候选已链接实体中的任一个。
本申请实施例中,服务端获取知识图谱对应的文本信息映射到向量空间的元素输入向量,具体可以包括:
服务端获取知识图谱(包括头实体、待链接尾实体以及描述该头实体和该待链接尾实体的实体关系)对应的文本信息,将该知识图谱对应的文本信息中的每个字(或词或单词)进行词编码(word embedding)、位置编码(pos embedding)和类型编码(typeembedding),得到元素输入向量。其中,类型编码(type embedding)是指文本的组成元素,即属于头实体、实体关系或者尾实体。
其中,元素输入向量不仅对待链接尾实体对应的文本信息进行编码,还可以对头实体对应的文本信息和实体关系对应的文本信息进行编码,元素输入向量能够捕捉语义之间的相似性。
请参阅图3b,图3b是本申请实施例提供的一种相似度模型的结构示意图。如图3b所示,该相似度模型可以包括第一编码模块、注意力模块和相似度计算模块。第一编码模块可以包括第一编码网络和第二前馈神经网络,注意力模块可以包括向量过滤模块和向量拼接模块。第一编码网络可以包括双向长短时记忆(bi-directional long short-termmemory,Bi-LSTM)网络、循环神经网络(recurrent neural network,RNN)、门控循环单元(gated recurrent unit,GRU)网络中的任一种。
其中,元素输入向量为[m1,m2,m3,...mi]。举例来说,图3b中的元素输入向量包括m1、m2、m3、m4、m5和m6。其中,m1、m2为头实体元素输入向量,是头实体(head)对应的文本信息经过词编码(word embedding)、位置编码(pos embedding)和类型编码(type embedding)后得到的向量。m3、m4为实体关系元素输入向量,是实体关系(relation)对应的文本信息经过词编码、位置编码和类型编码后得到的向量。m5、m6为尾实体元素输入向量,是尾实体(tail)对应的文本信息经过词编码、位置编码和类型编码后得到的向量。图3b中的三元体知识图谱可以以<姚明,妻子,叶莉>为例。其中,“姚明”为头实体,“叶莉”为尾实体,“妻子”为实体关系。知识图谱对应的文本信息包括“姚明妻子叶莉”具体的,m1可以是“姚”经过词编码、位置编码和类型编码后得到的向量,m2可以是“明”经过词编码、位置编码和类型编码后得到的向量,m3可以是“妻”经过词编码、位置编码和类型编码后得到的向量,m4可以是“子”经过词编码、位置编码和类型编码后得到的向量,m5可以是“叶”经过词编码、位置编码和类型编码后得到的向量,m6可以是“莉”经过词编码、位置编码和类型编码后得到的向量。
将元素输入向量[m1,m2,m3,...m6]输入第一编码网络,再经过第二前馈神经网络获得输出
Figure BDA0002348316910000111
第一编码网络以Bi-LSTM网络为例。
Figure BDA0002348316910000112
其中,fmention为第二前馈神经网络的变换函数。
由于候选已链接实体自身所承载的信息量较少,本申请实施例可以借助数据库或者百度百科页面的候选已链接实体的实体描述文本来扩充实体的语义信息。然而,实体描述文本中只有部分重要的上下文信息是有用的,清洗掉其中的冗余文本(比如,在一些任务中删除掉实体描述文本中的所有非名词的单词)能够帮助我们减小噪音,本申请实施例可以利用注意力模块的注意力机制保留重要的上下文信息从而提高每个候选已链接实体的信息质量。
对每个候选已链接实体e的实体描述文本进行向量表征得到实体描述文本向量c=(c1,c2,c3,...cn),实体描述文本可以包括n个字。构成实体描述文本的每个字向量ci可以由词编码(word embedding)、位置编码(pos embedding)组成,为了从这段实体描述文本中获得重要的上下文信息,通过注意力模块对实体描述文本向量c使用注意力机制,A是注意力模块需要学习的参数。如图3b所示,实体描述文本向量c经过注意力模块的softmax层归一化后和该候选已链接实体e相关度高的上下文颜色更深,因此,注意力模块通过设定一个相关度参数αtop,通过向量过滤模块将权值低于该参数的所有上下文都过滤(如图3b所示,标记为N的向量被过滤),通过向量拼接模块将剩下的向量拼接获得输出
Figure BDA0002348316910000121
αi=softmax(eTAc)
Figure BDA0002348316910000122
本申请实施例,通过第一编码模块获得待链接尾实体(Mention)的元素输入向量进行编码,输出元素输出向量
Figure BDA0002348316910000123
通过注意力模块获得该待链接尾实体对应的候选已链接实体的实体重要上下文向量
Figure BDA0002348316910000124
其中C(m)表示候选实体集合。通过相似度计算模块计算每个mention-entity pair的相似度
Figure BDA0002348316910000125
即可得到待链接尾实体与每个候选已链接实体的相似度。
相似度计算模块可以采用余弦相似度算法来计算待链接尾实体与每个候选已链接实体的相似度。
在执行步骤203之前,还可以对相似度模型进行训练,得到训练好的相似度模型后,再执行步骤203。
可选的,在执行步骤203之前,还可以执行如下步骤:
(41)服务端获取训练数据集,该训练数据集包括正例元素实体对和反例元素实体对;
(42)服务端将训练数据集中获取的元素实体对输入相似度模型,得到模型训练损失;
(43)服务端根据模型训练损失对相似度模型的模型参数进行优化。
本申请实施例中,正例元素实体对可以从知识库中已链接的实体中选取。比如,李娜(姜山配偶)—李娜(网球运动员),乔丹(篮球之神)—Michael Jordan。反例数据可以将正确的实体进行替换。比如,李娜(姜山配偶)—李娜(流行歌手),乔丹(篮球之神)—Michael W Jordan(footballer)。
模型训练损失可以通过Losslink计算得到。其中:
Figure BDA0002348316910000131
Figure BDA0002348316910000132
其中,λ为设置的相似度阈值。元素实体对的相似度大于λ,则模型输出标签为二者相关,元素实体对的相似度小于λ,则模型输出标签为二者不相关。
204,服务端确定N个候选已链接实体中与单实体相似度最高的目标候选已链接实体。
205,若单实体与目标候选已链接实体的相似度大于第一阈值,服务端将目标候选已链接实体与单实体进行链接。
在找到Mention的候选已链接实体集合后,就要进行实体链接操作,即计算每个候选已链接实体与该Mention的相似度(比如,相似度以得分的形式呈现),我们称它为mention-entity pair,从中找到一个相似度最高的作为该Mention应链接的实体,值得注意的是,并不是所有的尾实体都能够在库中找到可以链接的实体项,因此,本申请实施例可以设置一个得分阈值λ,当该Mention的所有候选实体得分都低于该阈值时,我们则认为这个Mention在库中没有对应的实体。
可选的,若单实体与目标候选已链接实体的相似度小于第一阈值,服务端确定待链接尾实体为不可链接尾实体。
本申请实施例中,单实体分类模型可以对未知的尾实体进行分类,筛除情况复杂的多实体和属性值,保留单实体,仅对单实体进行链接;相似度模型包括第一编码模块、注意力模块和相似度计算模块,注意力模块可以学习到重要的上下文信息,可以去除冗余信息,从而提取到上下文中的关键内容;第一编码模块可以对知识图谱中的头实体、待链接尾实体以及实体关系进行编码,得到的单实体编码向量也可以学习到待链接尾实体的上下文信息;相似度计算模块可以准确计算单实体编码向量和N个重要上下文向量的相似度,进而有效的捕捉实体之间的相似度,提高尾实体链接的准确率。
请参阅图4,图4是本申请实施例提供的另一种尾实体链接方法的流程示意图。如图4所示。该尾实体链接方法可以包括如下步骤:
401,服务端获取知识图谱,知识图谱包括头实体、待链接尾实体以及描述头实体和待链接尾实体的实体关系,通过单实体分类模型判断待链接尾实体是否为单实体。若是,则执行步骤402,若否,则执行步骤403。
402,服务端确定与该单实体对应的候选已链接实体集合,该候选已链接实体集合包括N个候选已链接实体,N为正整数。
本申请实施例中,步骤401至步骤402的具体实施可以参见图2所示的步骤201至步骤202,此处不再赘述。
403,服务端通过多实体分类模型判断待链接尾实体是否为多实体。
本申请实施例中,知识图谱在构建的时候,因为数据来源多样,数据并不“干净”,因此构造的三元组知识图谱存在大量多个实体连接在一起的情况,影响知识图谱的质量。属性值与多实体的划分是把复杂尾实体分为属性值和多实体两个类别,多实体的含义是指尾实体由多个实体连接在一起,本申请实施例可以分类出多实体和属性值,方便下一步的多实体拆分任务。
多实体分类模型可以包括梯度提升树(Gradient Boosting Decision Tree,GBDT)模型,GBDT模型采用GBD算法,该算法预测精度高,适合低维数据,可以很好的处理非线性数据,相对于其他的分类算法,该算法区分多实体和属性值的效果最好。GBDT模型是一个集成模型,基分类器采用分类与回归树(Classification And Regression Tree,CART),集成方式为梯度提升(Gradient Boosting)。GBDT算法所采用的是加法模型和前向分步算法,树的类型则是CART树。
可选的,步骤403可以包括如下步骤:
(51)服务端获取待链接尾实体的特征集;
(52)若待链接尾实体的特征集输入多实体分类模型,服务端得到预测结果;预测结果包括待链接尾实体为多实体或待链接尾实体为属性值。
本申请实施例中,根据多实体和属性值的差异,可以构造特征集来完成分类任务。特征集可以包括多个特征。
比如,多实体数据中存在大量分隔符(例如句号、顿号、分号等)而属性值则没有分隔符,因此本申请实施例把待链接尾实体中特定分隔符的数量作为特征集的一个特征。又比如,“实体关系”在知识图谱中用来判断尾实体是否是实体有很大帮助,例如:“国籍”关系,尾实体应该为“国家”这样的实体。考虑到这个因素,本申请实施例利用知识图谱中相对干净的三元组作为本申请实施例的先验知识,把实体关系后是实体的概率作为特征集的一个特征,这个概率值是本申请实施例对知识库中数据统计得到,例如在知识图谱中,对于实体关系R1,本申请实施例统计所有包含实体关系R1的三元组(h,R1,t)个数为M,三元组的尾部t是一个实体的三元组数量是N,则此概率值为N/M。又比如,考虑到多实体和属性值的语义信息,把待链接尾实体中动词、量词、名词的数量作为特征集的一个特征。此外,还可以将尾实体的长度作为特征集的一个特征。
可选的,在执行步骤403之前,还可以对多实体分类模型进行训练,得到训练好的多实体分类模型后,再执行步骤403。
本申请实施例中,多实体的分类任务,数据的收集主要还是来自人工标注数据,本申请实施例对标注了10000+条数据来训练本申请实施例的多实体分类器。由于复杂实体情况多样,且长度较短,没有较深层次的语义可以挖掘,因此本申请实施例使用的机器学习的方法进行多实体的分类任务。本申请实施例一共构造了12个特征来完成分类任务。通过对数据的统计和分析,本申请实施例发现真实的多实体数据中存在大量分隔符(例如句号、顿号、分号等)而属性值则没有分隔符,因此本申请实施例把特定分隔符的数量作为重要特征。此外,“关系”在知识图谱中用来判断尾实体是否是实体有很大帮助,例如:“国籍”关系,尾实体应该为“国家”这样的实体,考虑到这个因素,本申请实施例利用知识图谱中相对干净的三元组作为本申请实施例的先验知识,把关系后是实体的概率作为一个特征,这个概率值是本申请实施例对知识库中数据统计得到,例如在知识图谱中,对于关系R1,本申请实施例统计所有包含关系R1的三元组(h,R1,t)个数为M,三元组的尾部t是一个实体的三元组数量是N,则此概率值为N/M。最后考虑到语义信息,把复杂尾实体中动词、量词、名词的数量作为特征加强模型的分类效果。除了考虑上述的情况,本申请实施例还认为尾实体的长度对分类任务有帮助。具体的特征情况见表1。
表1属性值和多实体划分特征表
Figure BDA0002348316910000151
Figure BDA0002348316910000161
其中,多实体分类模型的模型训练的目标函数Obj的前面一部分为损失函数,本申请实施例使用Huber损失,该损失函数对异常值的鲁棒性非常强,也可以用Quantile损失函数代替,它是均方差和绝对损失的折中,其中
Figure BDA0002348316910000162
为标签值,yi为预测的结果。后面的Ω为正则化项:
Figure BDA0002348316910000163
404,若待链接尾实体为多实体,服务端通过实体拆分模型将待链接尾实体拆分为M个单实体,M为大于或等于2的整数。
其中,在执行步骤404之后,还可以继续执行步骤402。
本申请实施例中,服务端通过实体拆分模型将待链接尾实体拆分为M个单实体后,对于M个单实体中的每个单实体,都可以采用步骤402、405至407来执行,最终找到与每个单实体相似度最高的目标候选已链接实体进行链接。
可选的,所述实体拆分模型包括第二编码模块和判别模块;步骤404可以包括如下步骤:
(61)服务端获取待链接尾实体的字向量序列,将该字向量序列输入第二编码模块,通过第二编码模块提取字向量序列中的上下文信息;
(62)服务端将上下文信息输入判别模块,得到字向量序列中每个字向量对应的标签;根据字向量序列中每个字向量对应的标签确定待链接尾实体包含的M个单实体。
本申请实施例中,请参阅图5,图5是本申请实施例提供的一种实体拆分模型的结构示意图,如图5所示,实体拆分模型可以包括第二编码模块和判别模块。其中,第二编码模块可以包括Bi-LSTM模型,判别模块可以包括条件随机场(conditional random field,CRF)模型。实体拆分模型采用Bi-LSTM+CRF模型,与单独采用CRF模块或隐马尔科夫模型(Hidden Markov Model,HMM)等序列化标注模型相比,经过Bi-LSTM可以提取多实体尾实体的词向量序列中的上下文信息,再经过CRF层得到词汇的标签,根据标签判断单词是否为实体,达到拆分多实体的目的。
举例来说,对于多实体三元组“(星光大道,主持人,朱迅和尼格买提)”,实体拆分模型会把“朱”标记为“B-ENT”,“迅”标记为“I-ENT”,对于分隔符“和”可以把它标记为“O”。类似的,“尼格买提”会被标记为“B-ENT I-ENT I-ENT I-ENT”。整个序列的标签为“B-ENTI-ENT O B-ENT I-ENT I-ENT I-ENT”,从标签“B-ENT”开始,若下一个标签为“I-ENT”则这些字符为一个实体,直到遇到其余标签则说明实体结束,因此可以得到实体“朱迅”和“尼合买提”,对于标签为“O”的字符则直接舍弃。
其中,如图5所示,待链接尾实体“朱迅和尼格买提”的字向量序列为W0、W1、W2、W3、W4、W5、W6。每个字可以对应一个字向量,字向量可以采用词编码(word embedding)方式进行编码,词编码可以采用word2vec、GloV等模型进行编码。服务端将该字向量序列(W0,W1,W2,W3,W4,W5,W6)输入第二编码模块Bi-LSTM,通过第二编码模块提取字向量序列中的上下文信息;服务端将该上下文信息输入判别模块CRF,得到字向量序列中每个字向量对应的标签。W0、W1、W2、W3、W4、W5、W6对应的标签分别为“B-ENT”、“I-ENT”、“O”、“B-ENT”、“I-ENT”、“I-ENT”、“I-ENT”;根据字向量序列中“O”标签的数量确定该待链接尾实体包含的单实体的数量。如果“O”标签的数量为n,则该待链接尾实体包含的单实体的数量为n+1。将W0、W1对应的字作为第一单实体,将W3、W4、W5、W6对应的字作为第二单实体。
可选的,在执行步骤404之前,还可以对该实体拆分模型进行训练,得到训练好的实体拆分模型后,再执行步骤404。
对于多实体的拆分,本申请实施例把实体的拆分问题作为序列标注问题来解决。训练和测试数据来自上一步的多实体分类结果,首先对标记为“多实体”的尾实体进行简单的拆分(根据特殊的分隔符进行简单拆分)构成本申请实施例的训练数据集,本申请实施例随机选取数据集中90%的数据作为训练数据,剩下的数据作为测试数据。搭建一个Bi-LSTM+CRF模型,来对多实体尾实体进行拆分,模型的框架图如图5所示。在以往的序列化标注任务中,Bi-LSTM+CRF模型的效果要远远好于CRF、HMM等序列化标注模型。本申请实施例模型的输入为多实体尾实体的词向量序列,经过BiLSTM提取多实体尾实体的词向量序列中的上下文信息,再经过CRF层得到词汇的标签,根据标签判断单词是否为实体,达到拆分多实体的目的。这里本申请实施例给出一个例子来具体说明,对于多实体三元组“(星光大道,主持人,朱迅和尼格买提)”,本申请实施例的模型会把“朱”标记为“B-ENT”,“迅”标记为“I-ENT”,对于分隔符“和”本申请实施例把它标记为“O”,同样的道理,“尼格买提”会被标记为“B-ENT I-ENT I-ENT I-ENT”。整个序列的标签为“B-ENT I-ENT O B-ENT I-ENT I-ENT I-ENT”,从标签“B-ENT”开始,若下一个标签为“I-ENT”则这些字符为一个实体,直到遇到其余标签则说明实体结束,因此本申请实施例可以得到实体“朱迅”和“尼合买提”,对于标签为“O”的字符本申请实施例直接舍弃。
对于输入序列X对应的输出tag序列y,定义分数为:
Figure BDA0002348316910000181
Bi-LSTM层的输出维度是tag size(标签个数,这就相当于是每个词wi映射到tag的发射概率值,设Bi-LSTM的输出矩阵为P,其中P1,代表词wi映射到tagj的非归一化概率。对于CRF来说,本申请实施例假定存在一个转移矩阵A,则Ai,j代表tagi转移到tagj的转移概率。
对输入序列X所对应的每个输出tag序列y计算这个分数,选择出分数最大的一个作为最终的输出tag序列。
本申请实施例,在实体拆分模型的训练过程中,可以对Bi-LSTM的输出矩阵为P、转移矩阵A的权值参数进行优化。
可选的,若待链接尾实体为属性值,则服务端确定该待链接尾实体为不可链接尾实体。
405,服务端通过相似度模型计算该单实体与N个候选已链接实体中各个候选已链接实体的相似度。
其中,该相似度模型包括第一编码模块、注意力模块和相似度计算模块;第一编码模块用于对知识图谱进行编码,得到单实体编码向量,注意力模块用于获取N个候选已链接实体中的N个重要上下文向量;相似度计算模块用于分别计算单实体编码向量与N个重要上下文向量的相似度,得到单实体与N个候选已链接实体中各个候选已链接实体的相似度。
406,服务端确定N个候选已链接实体中与单实体相似度最高的目标候选已链接实体。
407,若单实体与目标候选已链接实体的相似度大于第一阈值,服务端将目标候选已链接实体与单实体进行链接。
可选的,若单实体与目标候选已链接实体的相似度小于第一阈值,服务端确定待链接尾实体为不可链接尾实体。
本申请实施例中,步骤405至步骤407的具体实施可以参见图2所示的步骤203至步骤205,此处不再赘述。
请参阅图6,图6是本申请实施例提供的一种尾实体链接装置的结构示意图。如图6所示,该尾实体链接装置600可以包括获取单元601,判断单元602、第一确定单元603、计算单元604、第二确定单元605和尾实体链接单元606,其中:
获取单元601,用于获取知识图谱,所述知识图谱包括头实体、待链接尾实体以及描述所述头实体和所述待链接尾实体的实体关系;
判断单元602,用于通过单实体分类模型判断所述待链接尾实体是否为单实体;
第一确定单元603,用于在所述待链接尾实体是单实体的情况下,确定与所述单实体对应的候选已链接实体集合;所述候选已链接实体集合包括N个候选已链接实体,N为正整数;
计算单元604,用于通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;所述相似度模型包括第一编码模块、注意力模块和相似度计算模块;所述第一编码模块用于对所述知识图谱进行编码,得到单实体编码向量,所述注意力模块用于获取所述N个候选已链接实体中的N个重要上下文向量;所述相似度计算模块用于分别计算所述单实体编码向量与所述N个重要上下文向量的相似度,得到所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;
第二确定单元605,用于确定所述N个候选已链接实体中与所述单实体相似度最高的目标候选已链接实体;
尾实体链接单元606,用于在所述单实体与所述目标候选已链接实体的相似度大于第一阈值的情况下,将所述目标候选已链接实体与所述单实体进行链接。
可选的,所述计算单元604通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度,具体为:获取所述知识图谱对应的文本信息映射到向量空间的元素输入向量,通过所述第一编码模块对所述元素输入向量进行编码,输出元素输出向量;获取第一候选已链接实体的描述文本映射到向量空间的第一实体描述文本向量,通过所述注意力模块对所述第一实体描述文本向量进行注意力过滤,输出第一实体重要上下文向量;通过所述相似度计算模块计算所述元素输出向量和所述第一实体重要上下文向量的相似度,得到所述单实体与所述第一候选已链接实体的相似度;所述第一候选已链接实体为所述N个候选已链接实体中的任一个。
可选的,所述单实体分类模型包括第一卷积神经网络、第二卷积神经网络和第一前馈神经网络;所述判断单元602通过单实体分类模型判断所述待链接尾实体是否为单实体,具体为:将所述待链接尾实体的表征向量输入所述第一卷积神经网络,得到尾实体向量;将所述实体关系的表征向量输入所述第二卷积神经网络,得到关系向量;将所述尾实体向量和所述关系向量输入所述第一前馈神经网络,得到二分类结果。
可选的,所述第一确定单元603确定与所述单实体对应的候选已链接实体集合,具体为:获取所述单实体对应的别名集合;在已链接实体库中存在与所述别名集合对应的候选已链接实体的情况下,从所述已链接实体库中获取与所述别名集合对应的候选已链接实体集合。
可选的,所述第一确定单元603,还用于在所述已链接实体库中不存在与所述别名集合对应的候选已链接实体的情况下,采用爬虫技术从网页中获取与所述别名集合对应的候选已链接实体集合。
可选的,该尾实体链接装置600还可以包括实体拆分单元607;
所述判断单元602,还用于在所述待链接尾实体是非单实体的情况,通过多实体分类模型判断所述待链接尾实体是否为多实体;
所述实体拆分单元607,用于在所述待链接尾实体为多实体的情况,通过实体拆分模型将所述待链接尾实体拆分为M个单实体;M为大于或等于2的整数;
所述第一确定单元603,还用于在所述实体拆分单元607通过实体拆分模型将所述待链接尾实体拆分为M个单实体之后,确定与所述单实体对应的候选已链接实体集合的步骤。
可选的,所述判断单元602通过多实体分类模型判断所述待链接尾实体是否为多实体,具体为:获取所述待链接尾实体的特征集;在所述待链接尾实体的特征集输入所述多实体分类模型的情况下,得到预测结果;所述预测结果包括所述待链接尾实体为多实体或所述待链接尾实体为属性值。
可选的,所述实体拆分模型包括第二编码模块和判别模块;所述实体拆分单元607通过实体拆分模型将所述待链接尾实体拆分为M个单实体,具体为:获取所述待链接尾实体的字向量序列,将所述字向量序列输入所述第二编码模块,通过所述第二编码模块提取所述字向量序列中的上下文信息;将所述上下文信息输入所述判别模块,得到所述字向量序列中每个字向量对应的标签;根据所述字向量序列中每个字向量对应的标签确定所述待链接尾实体包含的M个单实体。
可选的,所述第一确定单元603,还用于在所述单实体与所述目标候选已链接实体的相似度小于所述第一阈值的情况下,确定所述待链接尾实体为不可链接尾实体。
可选的,该尾实体链接装置600还可以包括训练单元608;
所述训练单元608,用于在所述第一确定单元603确定与所述单实体对应的候选已链接实体集合之前,获取训练数据集,所述训练数据集包括正例元素实体对和反例元素实体对;将所述训练数据集中获取的元素实体对输入所述相似度模型,得到模型训练损失;根据所述模型训练损失对所述相似度模型的模型参数进行优化。
本申请实施例中,单实体分类模型可以对未知的尾实体进行分类,筛除情况复杂的多实体和属性值,保留单实体,仅对单实体进行链接;相似度模型包括第一编码模块、注意力模块和相似度计算模块,注意力模块可以学习到重要的上下文信息,可以去除冗余信息,从而提取到上下文中的关键内容;第一编码模块可以对知识图谱中的头实体、待链接尾实体以及实体关系进行编码,得到的单实体编码向量也可以学习到待链接尾实体的上下文信息;相似度计算模块可以准确计算单实体编码向量和N个重要上下文向量的相似度,进而有效的捕捉实体之间的相似度,提高尾实体链接的准确率。
图7是本申请实施例提供的一种服务器的结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)702(例如,一个或一个以上处理器)和存储器708,一个或一个以上存储应用程序706或数据705的存储介质707(例如一个或一个以上海量存储设备)。其中,存储器708和存储介质707可以是短暂存储或持久存储。存储在存储介质707的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器702可以设置为与存储介质707通信,在服务器700上执行存储介质707中的一系列指令操作。服务器700可以为本申请提供的软件运行设备。
服务器700还可以包括一个或一个以上电源703,一个或一个以上有线或无线网络接口709,一个或一个以上输入输出接口710,和/或,一个或一个以上操作系统704,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由软件运行设备所执行的步骤可以基于该图7所示的服务器结构。具体的,中央处理器702可实现图6中各单元的功能。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种模型训练方法的部分或全部步骤。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种尾实体链接方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种模型训练方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种尾实体链接方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在申请明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器、随机存取器、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种尾实体链接方法,其特征在于,包括:
获取知识图谱,所述知识图谱包括头实体、待链接尾实体以及描述所述头实体和所述待链接尾实体的实体关系,通过单实体分类模型判断所述待链接尾实体是否为单实体;所述单实体包括单个实体;
若所述待链接尾实体是单实体,确定与所述单实体对应的候选已链接实体集合;所述候选已链接实体集合包括N个候选已链接实体,N为正整数;所述候选已链接实体集合包括所述单实体对应的别名;
通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;所述相似度模型包括第一编码模块、注意力模块和相似度计算模块;所述第一编码模块用于对所述知识图谱进行编码,得到单实体编码向量,所述注意力模块用于获取所述N个候选已链接实体中的N个重要上下文向量;所述相似度计算模块用于分别计算所述单实体编码向量与所述N个重要上下文向量的相似度,得到所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;
确定所述N个候选已链接实体中与所述单实体相似度最高的目标候选已链接实体;
若所述单实体与所述目标候选已链接实体的相似度大于第一阈值,将所述目标候选已链接实体与所述单实体进行链接;
若所述待链接尾实体是非单实体,通过多实体分类模型判断所述待链接尾实体是否为多实体;所述非单实体包括多实体或属性值;
若所述待链接尾实体为多实体,通过实体拆分模型将所述待链接尾实体拆分为M个单实体,执行所述确定与所述单实体对应的候选已链接实体集合的步骤;M为大于或等于2的整数。
2.根据权利要求1所述的方法,其特征在于,所述通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度,包括:
获取所述知识图谱对应的文本信息映射到向量空间的元素输入向量,通过所述第一编码模块对所述元素输入向量进行编码,输出元素输出向量;
获取第一候选已链接实体的描述文本映射到向量空间的第一实体描述文本向量,通过所述注意力模块对所述第一实体描述文本向量进行注意力过滤,输出第一实体重要上下文向量;
通过所述相似度计算模块计算所述元素输出向量和所述第一实体重要上下文向量的相似度,得到所述单实体与所述第一候选已链接实体的相似度;所述第一候选已链接实体为所述N个候选已链接实体中的任一个。
3.根据权利要求1所述的方法,其特征在于,所述单实体分类模型包括第一卷积神经网络、第二卷积神经网络和第一前馈神经网络;
所述通过单实体分类模型判断所述待链接尾实体是否为单实体,包括:
将所述待链接尾实体的表征向量输入所述第一卷积神经网络,得到尾实体向量;
将所述实体关系的表征向量输入所述第二卷积神经网络,得到关系向量;
将所述尾实体向量和所述关系向量输入所述第一前馈神经网络,得到二分类结果。
4.根据权利要求1~3任一项所述的方法,其特征在于,所述确定与所述单实体对应的候选已链接实体集合,包括:
获取所述单实体对应的别名集合;
若已链接实体库中存在与所述别名集合对应的候选已链接实体,从所述已链接实体库中获取与所述别名集合对应的候选已链接实体集合。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述已链接实体库中不存在与所述别名集合对应的候选已链接实体,采用爬虫技术从网页中获取与所述别名集合对应的候选已链接实体集合。
6.根据权利要求1所述的方法,其特征在于,所述通过多实体分类模型判断所述待链接尾实体是否为多实体,包括:
获取所述待链接尾实体的特征集;
若所述待链接尾实体的特征集输入所述多实体分类模型,得到预测结果;所述预测结果包括所述待链接尾实体为多实体或所述待链接尾实体为属性值。
7.根据权利要求1所述的方法,其特征在于,所述实体拆分模型包括第二编码模块和判别模块;所述通过实体拆分模型将所述待链接尾实体拆分为M个单实体,包括:
获取所述待链接尾实体的字向量序列,将所述字向量序列输入所述第二编码模块,通过所述第二编码模块提取所述字向量序列中的上下文信息;
将所述上下文信息输入所述判别模块,得到所述字向量序列中每个字向量对应的标签;根据所述字向量序列中每个字向量对应的标签确定所述待链接尾实体包含的M个单实体。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述单实体与所述目标候选已链接实体的相似度小于所述第一阈值,确定所述待链接尾实体为不可链接尾实体。
9.根据权利要求1~3、5~8任一项所述的方法,其特征在于,所述确定与所述单实体对应的候选已链接实体集合之前,所述方法还包括:
获取训练数据集,所述训练数据集包括正例元素实体对和反例元素实体对;
将所述训练数据集中获取的元素实体对输入所述相似度模型,得到模型训练损失;
根据所述模型训练损失对所述相似度模型的模型参数进行优化。
10.根据权利要求4所述的方法,其特征在于,所述确定与所述单实体对应的候选已链接实体集合之前,所述方法还包括:
获取训练数据集,所述训练数据集包括正例元素实体对和反例元素实体对;
将所述训练数据集中获取的元素实体对输入所述相似度模型,得到模型训练损失;
根据所述模型训练损失对所述相似度模型的模型参数进行优化。
11.一种尾实体链接装置,其特征在于,包括:
获取单元,用于获取知识图谱,所述知识图谱包括头实体、待链接尾实体以及描述所述头实体和所述待链接尾实体的实体关系;
判断单元,用于通过单实体分类模型判断所述待链接尾实体是否为单实体;所述单实体包括单个实体;
第一确定单元,用于在所述待链接尾实体是单实体的情况下,确定与所述单实体对应的候选已链接实体集合;所述候选已链接实体集合包括N个候选已链接实体,N为正整数;所述候选已链接实体集合包括所述单实体对应的别名;
计算单元,用于通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;所述相似度模型包括第一编码模块、注意力模块和相似度计算模块;所述第一编码模块用于对所述知识图谱进行编码,得到单实体编码向量,所述注意力模块用于获取所述N个候选已链接实体中的N个重要上下文向量;所述相似度计算模块用于分别计算所述单实体编码向量与所述N个重要上下文向量的相似度,得到所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;
第二确定单元,用于确定所述N个候选已链接实体中与所述单实体相似度最高的目标候选已链接实体;
尾实体链接单元,用于在所述单实体与所述目标候选已链接实体的相似度大于第一阈值的情况下,将所述目标候选已链接实体与所述单实体进行链接;
所述尾实体链接装置还包括实体拆分单元;
所述判断单元,还用于在所述待链接尾实体是非单实体的情况,通过多实体分类模型判断所述待链接尾实体是否为多实体;
所述实体拆分单元,用于在所述待链接尾实体为多实体的情况,通过实体拆分模型将所述待链接尾实体拆分为M个单实体;M为大于或等于2的整数;
所述第一确定单元,还用于在所述实体拆分单元通过实体拆分模型将所述待链接尾实体拆分为M个单实体之后,确定与所述单实体对应的候选已链接实体集合。
12.一种服务器,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1~10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~10任一项所述的方法。
CN201911404728.XA 2019-12-30 2019-12-30 尾实体链接方法、装置、服务器及存储介质 Active CN111159485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911404728.XA CN111159485B (zh) 2019-12-30 2019-12-30 尾实体链接方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911404728.XA CN111159485B (zh) 2019-12-30 2019-12-30 尾实体链接方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN111159485A CN111159485A (zh) 2020-05-15
CN111159485B true CN111159485B (zh) 2020-11-13

Family

ID=70559743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911404728.XA Active CN111159485B (zh) 2019-12-30 2019-12-30 尾实体链接方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN111159485B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832293B (zh) * 2020-06-24 2023-05-26 四川大学 基于头实体预测的实体和关系联合抽取方法
CN112185574A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 远程医疗实体链接的方法、装置、设备及存储介质
CN112560466B (zh) * 2020-12-24 2023-07-25 北京百度网讯科技有限公司 链接实体关联方法、装置、电子设备和存储介质
CN112836513A (zh) * 2021-02-20 2021-05-25 广联达科技股份有限公司 一种命名实体的链接方法、装置、设备及可读存储介质
CN113360675B (zh) * 2021-06-25 2024-02-13 中关村智慧城市产业技术创新战略联盟 一种基于互联网开放世界的知识图谱特定关系补全方法
CN114647739B (zh) * 2022-02-25 2023-02-28 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN115129883B (zh) * 2022-05-27 2024-02-13 腾讯科技(深圳)有限公司 实体链接方法和装置、存储介质及电子设备
CN116681065B (zh) * 2023-06-09 2024-01-23 西藏大学 一种藏医药领域实体关系联合抽取方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和系统
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
CN107358315A (zh) * 2017-06-26 2017-11-17 深圳市金立通信设备有限公司 一种信息预测方法及终端
CN108681537A (zh) * 2018-05-08 2018-10-19 中国人民解放军国防科技大学 一种基于神经网络及词向量的中文实体链接方法
CN108959270A (zh) * 2018-08-10 2018-12-07 新华智云科技有限公司 一种基于深度学习的实体链接方法
CN109033129A (zh) * 2018-06-04 2018-12-18 桂林电子科技大学 基于自适应权重的多源信息融合知识图谱表示学习方法
CN109871428A (zh) * 2019-01-30 2019-06-11 北京百度网讯科技有限公司 用于确定文本相关度的方法、装置、设备和介质
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110427524A (zh) * 2019-08-05 2019-11-08 北京百度网讯科技有限公司 知识图谱补全的方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7953724B2 (en) * 2007-05-02 2011-05-31 Thomson Reuters (Scientific) Inc. Method and system for disambiguating informational objects
EP2545479A4 (en) * 2010-03-12 2014-12-24 Univ New York METHODS, COMPUTER-ACCESSIBLE SUPPORT AND SYSTEMS FOR CONSTRUCTING NETWORK DATA AND INFERENCE THEREWITH, FOR EXAMPLE IN FINANCIAL CONTEXT
EP2397939A1 (en) * 2010-06-17 2011-12-21 Siemens Aktiengesellschaft Accessing entities of a data access layer
US8370328B2 (en) * 2011-01-31 2013-02-05 Comsort, Inc. System and method for creating and maintaining a database of disambiguated entity mentions and relations from a corpus of electronic documents
CN105824802B (zh) * 2016-03-31 2018-10-30 清华大学 一种获取知识图谱向量化表示的方法以及装置
CN106934020B (zh) * 2017-03-10 2019-04-30 东南大学 一种基于多域实体索引的实体链接方法
CN107391623B (zh) * 2017-07-07 2020-03-31 中国人民大学 一种融合多背景知识的知识图谱嵌入方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和系统
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
CN107358315A (zh) * 2017-06-26 2017-11-17 深圳市金立通信设备有限公司 一种信息预测方法及终端
CN108681537A (zh) * 2018-05-08 2018-10-19 中国人民解放军国防科技大学 一种基于神经网络及词向量的中文实体链接方法
CN109033129A (zh) * 2018-06-04 2018-12-18 桂林电子科技大学 基于自适应权重的多源信息融合知识图谱表示学习方法
CN108959270A (zh) * 2018-08-10 2018-12-07 新华智云科技有限公司 一种基于深度学习的实体链接方法
CN109871428A (zh) * 2019-01-30 2019-06-11 北京百度网讯科技有限公司 用于确定文本相关度的方法、装置、设备和介质
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110427524A (zh) * 2019-08-05 2019-11-08 北京百度网讯科技有限公司 知识图谱补全的方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Graph-Based Short Text Entity Linking: A Data Integration Perspective";Bo Ma .etal;《2016 International Conference on Asian Language Processing(IALP)》;20161130;第193-197页 *
"基于神经网络的端到端的事件指代消解研究";吴瑞萦 等;《中文信息学报》;20190831;第33卷(第8期);第28-35页 *
"知识图谱构建技术综述";刘峤 等;《计算机研究与发展》;20161231;第582-600页 *

Also Published As

Publication number Publication date
CN111159485A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN108920622B (zh) 一种意图识别的训练方法、训练装置和识别装置
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN110083729B (zh) 一种图像搜索的方法及系统
CN111291188B (zh) 一种智能信息抽取方法及系统
CN109388743B (zh) 语言模型的确定方法和装置
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112069408A (zh) 一种融合关系抽取的推荐系统及方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN113297360A (zh) 基于弱监督学习和联合学习机制的法律问答方法及设备
CN110659392B (zh) 检索方法及装置、存储介质
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
JP7121819B2 (ja) 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
CN115879460A (zh) 面向文本内容的新标签实体识别方法、装置、设备及介质
CN113495964A (zh) 三元组的筛选方法、装置、设备及可读存储介质
CN113761123A (zh) 关键词获取的方法、装置、计算设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant