CN115470358A - 一种跨语言实体链接方法、系统、设备及终端 - Google Patents

一种跨语言实体链接方法、系统、设备及终端 Download PDF

Info

Publication number
CN115470358A
CN115470358A CN202210931239.5A CN202210931239A CN115470358A CN 115470358 A CN115470358 A CN 115470358A CN 202210931239 A CN202210931239 A CN 202210931239A CN 115470358 A CN115470358 A CN 115470358A
Authority
CN
China
Prior art keywords
entity
language
entities
link
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210931239.5A
Other languages
English (en)
Inventor
蔡超
严凤兵
郝雁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glabal Tone Communication Technology Co ltd
Original Assignee
Glabal Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glabal Tone Communication Technology Co ltd filed Critical Glabal Tone Communication Technology Co ltd
Priority to CN202210931239.5A priority Critical patent/CN115470358A/zh
Publication of CN115470358A publication Critical patent/CN115470358A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于跨语言实体链接技术领域,公开了一种跨语言实体链接方法、系统、介质、设备及终端,所述跨语言实体链接方法包括:搜索候选实体,构建实体名索引;构建基于不同线索的实体链接模型;基于属性的实体链接进行向量嵌入及融合;基于共现实体的多线索实体链接。本发明使用三种线索实现了实体链接,线索分别是实体属性、共现实体、上下文描述,并结合运用了LSTM、CNN、GCN等神经网络结构进行词嵌入表示与网络建模,相较于传统实体链接技术具有更强的语义表征能力和链接方法具有跨语言能力;通过分析不同形式的信息,实现三种不同结构的多线索跨语言实体链接算法,完成了新闻文本跨语言人物、机构等实体和给定知识库的精准链接。

Description

一种跨语言实体链接方法、系统、设备及终端
技术领域
本发明属于知识图谱技术领域,尤其涉及一种跨语言实体链接方法、系统、介质、设备及终端。
背景技术
目前,大数据时代,随着网络数据以指数级别增长,也对快速准确地获取目标信息提出了挑战。从文本数据中利用信息抽取技术得到结构化数据,知识图谱就已经初步成型,但是要真正大幅度使用还是有问题,因为自然语言具有复杂性、多义性和模糊性的多重特点,具体说来,即是同一实体可用不同的文本表达(多词一义),而同一文本可能表达多个不同的实体(一词多义)。通过进行实体链接(Entity Linking),也即将文本中的实体指称与知识库中的实体进行链接,能够将文本数据转化为带有实体标注的文本,进而帮助人和计算机理解文本的具体含义,其潜在的应用包括信息提取、信息检索和知识库填充。
同时,从网络上获取的结构化或非结构化数据往往由多种语言组成,如何整合多语言的数据,并结构化统一描述、存储,是目前业界的一大难题。
跨语言的实体链接可以链接不同语种的知识库,链接后的知识库允许用户同时检索查看同一知识在不同语种里的表达,具有现实意义。
因此,针对现有技术在知识图谱中同时存在多种语言的实体的场景下,无法进行跨语言链接的问题,亟需设计一种跨语言实体链接方法及系统。
通过上述分析,现有技术存在的问题及缺陷为:现有技术在知识图谱中同时存在多种语言的实体的场景下,无法进行跨语言链接的问题。
发明内容
针对现有技术存在的问题,本发明提供了一种跨语言实体链接方法、系统、介质、设备及终端,尤其涉及一种基于多线索的跨语言实体链接方法、系统、介质、设备及终端。
本发明是这样实现的,一种跨语言实体链接方法,所述跨语言实体链接方法包括:搜索候选实体,构建实体名索引;利用构建的实体链接模型实现跨语言实体链接;所述实体链接模型包含三种实体链接计算模型:基于属性、基于共现实体、基于上下文的实体链接模型,根据输入信息的不同线索,选取相应的模型进行计算,得到实体链接结果。
进一步,所述实体链接模型的构建方法包括:
构建基于不同线索的实体链接模型;
基于属性的实体链接进行向量嵌入及融合;
基于共现实体的多线索实体链接。
进一步,所述跨语言实体链接方法还包括:
对于给定语种的指称,找到在知识图谱中的候选实体;根据中英文的实体名和实体描述,将每个不同的描述文本映射到其目标实体名,构建实体名索引。
构建索引后,将指称项进行词嵌入,与图谱中的实体计算相似度,筛选相似度大于规定阈值的候选项后,利用向量融合的方法将其他语种的实体映射到同一向量空间中。
构建基于不同线索的实体链接模型:基于属性、基于共现实体、基于上下文的实体链接,并通过候选实体集合以及提供线索选择不同的实体链接模型,得到指称项在不同语种中的跨语言链接结果。
基于属性的实体链接,将实体指称项与属性描述进行向量嵌入后经过图卷积模型进行融合,计算各自属性向量的求和平均值作为实体之前的相似度系数,从而求出链接实体。
基于共现实体的实体链接,利用相似系数计算共现实体在中心实体所占的比重的注意力特征,结合共现关系的向量化特征计算目标实体与图谱中实体的相似度,得到链接实体。
基于上下文的实体链接,将实体指称与属于实体共指链的上下文组合在一起形成句子序列,使用神经网络模型对序列建模,与图谱中实体作相似度计算,得到链接实体。
进一步,所述跨语言实体链接方法包括以下步骤:
步骤一,从已有知识库中获取实体名—实体描述文本,根据既有知识库,将不同语种的实体描述文本映射到其在知识库中的实体名称,利用多语言知识库构建实体名索引;构建索引可以有效降低候选实体的检索时间。
步骤二,获取待链接目标文本,从文本中抽取待链接的实体指称项以及实体上下文描述,获取该实体拥有的属性,以及文本中出现的共现实体。
步骤三,通过实体名索引,计算实体指称项与知识库中实体之间的相似度,将相似度与预设的候选实体阈值进行比较,并判断是否存在相似度分数小于所述候选实体阈值;
若是,则对于该指称项放弃所述实体;若否,则将所述实体加入指称项的候选实体集合中,并转向步骤三;先一步筛选候选实体可以减少后续模型的计算量。
步骤四,利用向量融合方法将其他语言的词向量映射为英语的词向量,将不同语种的向量映射到同一向量空间中;将所有实体映射到同一向量空间以实现跨语言的实体比较。
步骤五,通过候选实体集合以及提取出的线索选择不同的实体链接模型,合并各个模型的链接结果,得到指称项在不同语种中最终的跨语言链接结果;根据线索选择不同的链接模型,可以更全面地利用实体的信息进行实体链接的计算,使得链接结果更加准确且合理。
进一步,所述步骤一中,对于跨语言实体链接实体名索引,使用英文实体名作为基础实体名索引,并从各自的目标语言知识库构建实体名索引;其中,使用经典word2vec中的CBOW(Continuous Bag-of-Words)模型生成各语种的单词嵌入。
所述步骤一后需要将描述文本-标题作为正样本,一个批次中其他样例作为负样本,计算指称项和实体之间的相似度;使用正负样本获取更准确地实体相似度,通过正负样本微调两个预训练模型,一个用于嵌入指称项,一个用于嵌入候选实体;在训练完成的基础上,将所有知识库的实体用向量表示存储在数据库中。
进一步,所述步骤四中使用多种不同的向量融合方法对比,包括:
CCA(Canonical Correlation Analysis):对不同语言的文本执行SVD(SingularValue Decomposition)后,对平行语料库中对齐的单词的向量对应用典型相关分析CCA,从而学习向量;对于跨语言实体链接,使用从维基百科中的跨语言链接获得的标题映射构建的嵌入。
MultiCCA:在CCA的基础上,使用线性算子将除母语外的每种语言中的预训练单语嵌入投影到预训练母语单词嵌入的向量空间。
LS(Weighted Least Squares):其他语种嵌入直接投影到母语上,映射通过多元回归构建。
进一步,所述步骤五中,基于属性的链接、基于共现实体的链接和基于上下文的链接。
利用以下距离方式计算属性向量:
OAE=-∑(a,c)∈Hwa,c·logp(c|a);
其中,w表示类型权重,若具有相同类型的属性,权重值会更高,从而将具有相关性的属性嵌入到相似的空间。
利用相似系数计算共现实体在中心实体所占的比重,计算方法为:
eij=a([Whi][Whj]),j∈Ni
其中,W为参数矩阵,h为各个实体经过向量融合后的向量。
利用多粒度文本对指称项进行向量嵌入:
Figure RE-GDA0003916535290000041
利用NTN(Neural Tensor Network)函数对mention(实体指称)的上下文进行建模,形成mention的细粒度上下文表示。
本发明的另一目的在于提供一种应用所述的跨语言实体链接方法的跨语言实体链接系统,所述跨语言实体链接系统包括:
候选实体搜索模块,对于给定语种的指称,找到在知识图谱中的候选实体;
实体名索引构建模块,用于根据中英文的实体名和实体描述,将每个不同的描述文本映射到其目标实体名,构建实体名索引;
向量融合模块,构建索引后,用于将指称项进行词嵌入,与图谱中的实体计算相似度,筛选相似度大于规定阈值的候选项后,利用向量融合的方法将其他语种的实体映射到同一向量空间中;
实体链接模型构建模块,用于基于属性、基于共现实体、基于上下文的实体链接,并通过候选实体集合以及提供线索选择不同的实体链接模型,得到指称项在不同语种中的跨语言链接结果;
链接实体获取模块,用于基于属性的实体链接,将实体指称项与属性描述进行向量嵌入后经过图卷积模型进行融合,计算各自属性向量的求和平均值作为实体之前的相似度系数,从而求出链接实体;和/或
基于共现实体的实体链接,利用相似系数计算共现实体在中心实体所占的比重的注意力特征,结合共现关系的向量化特征计算目标实体与图谱中实体的相似度,得到链接实体;和/或
基于上下文的实体链接,将实体指称与属于实体共指链的上下文组合在一起形成句子序列,使用神经网络模型对序列建模,与图谱中实体作相似度计算,得到链接实体。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
搜索候选实体,构建实体名索引;构建基于不同线索的实体链接模型;基于属性的实体链接进行向量嵌入及融合;基于共现实体的多线索实体链接。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
搜索候选实体,构建实体名索引;构建基于不同线索的实体链接模型;基于属性的实体链接进行向量嵌入及融合;基于共现实体的多线索实体链接。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的跨语言实体链接系统。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
本发明使用了三种线索实现了实体链接,线索分别是实体属性、共现实体、上下文描述,并结合运用了LSTM、CNN、GCN等神经网络结构进行词嵌入表示与网络建模,相较于传统实体链接技术主要具有以下两个技术特征:(1)具有更强的语义表征能力;(2)链接方法具有跨语言能力。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
跨语言实体链接解决了多语言知识图谱中不同语种实体的实体链接问题,本发明通过分析不同形式的信息,实现了三种不同结构的多线索跨语言实体链接算法,完成了新闻文本跨语言人物、机构等实体和给定知识库的精准链接。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:
业内现有技术在知识图谱中同时存在多种语言的实体的场景下,无法进行跨语言链接,本发明解决了这个问题。本发明构建跨语言向量索引,使用三种不同结构的多线索跨语言实体链接算法,完成了跨语言的新闻文本人物、机构等实体和给定跨语言知识库的精准链接。
附图说明
为了更清楚地说明本发明实施条例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的跨语言实体链接方法流程图;
图2是本发明实施例提供的跨语言实体链接系统结构框图;
图3是本发明应用实施例提供的基于属性的实体链接检索引擎页面图;
图4是本发明应用实施例提供的基于共现实体的实体链接检索引擎页面图;
图5是本发明应用实施例提供的基于上下文的实体链接检索引擎页面图;图中:1、候选实体搜索模块;2、实体名索引构建模块;3、向量融合模块;4、实体链接模型构建模块;5、链接实体获取模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种跨语言实体链接方法、系统、介质、设备及终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的跨语言实体链接方法包括以下步骤:
S101,从已有知识库中获取实体名—实体描述文本,根据既有知识库,将不同语种的实体描述文本映射到其在知识库中的实体名称,利用多语言知识库构建实体名索引;构建索引可以有效降低候选实体的检索时间。
S102,获取待链接目标文本,从文本中抽取待链接的实体指称项以及实体上下文描述,获取该实体拥有的属性,以及文本中出现的共现实体。
S103,通过实体名索引,计算实体指称项与知识库中实体之间的相似度,将相似度与预设的候选实体阈值进行比较,并判断是否存在相似度分数小于所述候选实体阈值;若是,则对于该指称项放弃所述实体;若否,则将所述实体加入指称项的候选实体集合中,并转向S103;先一步筛选候选实体可以减少后续模型的计算量。
S104,利用向量融合方法将其他语言的词向量映射为英语的词向量,将不同语种的向量映射到同一向量空间中;将所有实体映射到同一向量空间以实现跨语言的实体比较。
S105,通过候选实体集合以及提取出的线索选择不同的实体链接模型,合并各个模型的链接结果,得到指称项在不同语种中最终的跨语言链接结果;根据线索选择不同的链接模型,可以更全面地利用实体的信息进行实体链接的计算,使得链接结果更加准确且合理。
如图2所示,本发明实施例提供的跨语言实体链接系统包括:
候选实体搜索模块1,对于给定语种的指称,找到在知识图谱中的候选实体;
实体名索引构建模块2,用于根据中英文的实体名和实体描述,将每个不同的描述文本映射到其目标实体名,构建实体名索引;
向量融合模块3,构建索引后,用于将指称项进行词嵌入,与图谱中的实体计算相似度,筛选相似度大于规定阈值的候选项后,利用向量融合的方法将其他语种的实体映射到同一向量空间中;
实体链接模型构建模块4,用于基于属性、基于共现实体、基于上下文的实体链接,并通过候选实体集合以及提供线索选择不同的实体链接模型,得到指称项在不同语种中的跨语言链接结果;
链接实体获取模块5,用于基于属性的实体链接,将实体指称项与属性描述进行向量嵌入后经过图卷积模型进行融合,计算各自属性向量的求和平均值作为实体之前的相似度系数,从而求出链接实体;和/或
基于共现实体的实体链接,利用相似系数计算共现实体在中心实体所占的比重的注意力特征,结合共现关系的向量化特征计算目标实体与图谱中实体的相似度,得到链接实体;和/或
基于上下文的实体链接,将实体指称与属于实体共指链的上下文组合在一起形成句子序列,使用神经网络模型对序列建模,与图谱中实体作相似度计算,得到链接实体。
跨语言实体链接会加剧语言的多义性,其涉及将非母语文档的指称链接到母语知识图谱上的实体。为了比较跨语言的文本线索,本发明需要计算跨语言文本片段之间的相似性。本发明采用了一种结合卷积和张量网络的模型,从多个角度训练查询和候选文档之间的细粒度相似性和不同性。此外,通过使用有效使用多语言嵌入,这个训练系统可以在零样本学习中应用于其他语言。其主要流程为:候选实体搜索,向量嵌入及融合,多线索实体链接。
对于给定语种的指称,首要工作是找到其在知识图谱中的候选实体。本方案根据中英文的实体名和实体描述,将每个不同的描述文本映射到其目标实体名,构建实体名索引。
构建索引后,将指称项进行词嵌入,与图谱中的实体计算相似度,筛选相似度大于规定阈值的候选项。然后,利用向量融合的方法将其他语种的实体映射到同一向量空间中。
构建基于不同线索的实体链接模型:基于属性、基于共现实体、基于上下文的实体链接,并通过候选实体集合以及提供线索选择不同的实体链接模型,得到指称项在不同语种中的跨语言链接结果。
基于属性的实体链接,将实体指称项与属性描述进行向量嵌入后经过图卷积模型进行融合,计算各自属性向量的求和平均值作为实体之前的相似度系数,从而求出链接实体。
基于共现实体的实体链接,利用相似系数计算共现实体在中心实体所占的比重的注意力特征,结合共现关系的向量化特征计算目标实体与图谱中实体的相似度,得到链接实体。
基于上下文的实体链接,将实体指称与属于实体共指链的上下文组合在一起形成句子序列,使用神经网络模型对序列建模,与图谱中实体作相似度计算,得到链接实体。
本发明实施例提供的基于知识图谱的跨语言实体链接方法,包括以下步骤:
步骤一,从已有知识库中获取实体名—实体描述文本,根据既有知识库,将不同语种的实体描述文本映射到其在知识库中的实体名称,利用多语言知识库构建实体名索引;构建索引可以有效降低候选实体的检索时间。
步骤二,获取待链接目标文本,从文本中抽取待链接的实体指称项以及实体上下文描述,获取该实体拥有的属性,以及文本中出现的共现实体。
步骤三,通过实体名索引,计算实体指称项与知识库中实体之间的相似度,将相似度与预设的候选实体阈值进行比较,并判断是否存在相似度分数小于所述候选实体阈值;
若是,则对于该指称项放弃所述实体;若否,则将所述实体加入指称项的候选实体集合中,并转向步骤三;先一步筛选候选实体可以减少后续模型的计算量。
步骤四,利用向量融合方法将其他语言的词向量映射为英语的词向量,将不同语种的向量映射到同一向量空间中;将所有实体映射到同一向量空间以实现跨语言的实体比较。
步骤五,通过候选实体集合以及提取出的线索选择不同的实体链接模型,合并各个模型的链接结果,得到指称项在不同语种中最终的跨语言链接结果;根据线索选择不同的链接模型,可以更全面地利用实体的信息进行实体链接的计算,使得链接结果更加准确且合理。
所述S1进一步包括:对于跨语言实体链接实体名索引,除了使用英文维基百科索引(从英文快照构建),还从各自的目标语言维基百科构建实体名索引。
使用经典word2vec中的CBOW模型生成各语种的单词嵌入。将所有知识库的实体用向量表示存储在数据库中。
所述S4使用了多种不同的向量融合方法对比,包括了:
Canonical Correlation Analysis(CCA):首先对不同语言的文本执行SVD,然后对平行语料库中对齐的单词的向量对应用典型相关分析CCA,从而学习向量。对于跨语言实体链接,本发明使用从维基百科中的跨语言链接获得的标题映射构建的嵌入。
MultiCCA:在CCA的基础上,并使用线性算子将每种语言(母语除外)中的预训练单语嵌入投影到预训练母语单词嵌入的向量空间。
Weighted Least Squares(LS):其他语种嵌入直接投影到母语上,映射通过多元回归构建。
所述S5进一步包括:基于属性的链接、基于共现实体的链接和基于上下文的链接。
利用以下距离方式计算属性向量:
Figure RE-GDA0003916535290000111
其中H表示属性集合,a、c表示不同属性,w表示类型权重,若具有相同类型的属性,权重值会更高,从而将具有相关性的属性嵌入到相似的空间。
利用相似系数计算共现实体在中心实体所占的比重,其计算方法为:
eij=a([Whi][Whj]),j∈Ni
其中W为参数矩阵,h为各个实体经过向量融合后的向量。
利用多粒度文本来对指称项进行向量嵌入:
Figure RE-GDA0003916535290000112
用NTN函数来对mention的上下文进行建模,形成mention的细粒度上下文表示,其中l表示mention左侧的4个词,r表示mention右侧的4个词。
本发明的应用实施例为基于多线索实体链接的检索引擎。
图3是基于属性的实体链接检索引擎页面,如图3,在本实施例中,首先通过实体指称在知识图谱中检索出候选实体,然后将用户输入的实体指称项和属性描述转换为属性向量,通过图卷积模型将候选实体与他们的邻居信息作为融合,然后通过各自属性向量的求和平均值作为实体之前的相似度系数,计算出与用户输入最为相似的几个实体,按照相似度从高到低排序后,作为链接实体的结果;其中若实体存在跨语言实体,则以多语言标签的形式显示出来,如“CN/EN”。
图4是基于共现实体的实体链接检索引擎页面,如图4,在本实施例中,首先通过实体指称在知识图谱中检索出候选实体,接着对共现实体结合中心实体使用图全集神经网络进行共现实体信息的融合,计算得到共现关系间的内部依赖程度及邻居节点对中心实体的重要程度,然后以同样的手段对候选实体建模,最后结合共现关系向量化特征以及中心重要度的注意力特征,计算用户输入实体与候选实体的相似度,将超过阈值的候选实体按照相似度从高到低排序后,作为链接实体的结果;其中若实体存在跨语言实体,则以多语言标签的形式显示出来。
图5是基于上下文的实体链接检索引擎页面,如图5,在本实施例中,首先通过实体指称在知识图谱中检索出候选实体,然后将实体指称项和上下文描述组合形成包含实体指称的句子序列,接着使用券积神经网络生成句子嵌入,再取指称的窗口大小为4的上下文,使用NTN模型对上下文建模并使用BiLSTM 提取文本双向特征,最后,将候选实体也进行同样的建模,在顶层的NTN模型中将用户输入指称的向量表示和候选实体的向量表示拼接做特征融合,整体归一化之后得到相似度,将超过阈值的候选实体按照相似度从高到低排序后,作为链接实体的结果;其中若实体存在跨语言实体,则以多语言标签的形式显示出来。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体,或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
本发明实施例实现了三种基于不同线索的跨语言实体链接算法,在4000条英文新闻文本测试集与中文百科知识图谱中进行实验,其实验结果如下:
准确率 召回率
基于属性的实体链接 80.38% 82.50%
基于共现实体的实体链接 80.73% 89.30%
基于上下文的实体链接 82.35% 91.47%
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种跨语言实体链接方法,其特征在于,所述跨语言实体链接方法包括:搜索候选实体,构建实体名索引;利用构建的实体链接模型实现跨语言实体链接;
所述实体链接模型包含三种实体链接计算模型:基于属性、基于共现实体、基于上下文的实体链接模型,根据输入信息的不同线索,选取相应的模型进行计算,得到实体链接结果。
2.如权利要求1所述的跨语言实体链接方法,其特征在于,所述实体链接模型的构建方法包括:
构建基于不同线索的实体链接模型;
基于属性的实体链接进行向量嵌入及融合;
基于共现实体的多线索实体链接。
3.如权利要求1所述的跨语言实体链接方法,其特征在于,所述跨语言实体链接方法还包括:
对于给定语种的指称,找到在知识图谱中的候选实体;根据中英文的实体名和实体描述,将每个不同的描述文本映射到其目标实体名,构建实体名索引;
构建索引后,将指称项进行词嵌入,与图谱中的实体计算相似度,筛选相似度大于规定阈值的候选项后,利用向量融合的方法将其他语种的实体映射到同一向量空间中;
构建基于不同线索的实体链接模型:基于属性、基于共现实体、基于上下文的实体链接,并通过候选实体集合以及提供线索选择不同的实体链接模型,得到指称项在不同语种中的跨语言链接结果;
基于属性的实体链接,将实体指称项与属性描述进行向量嵌入后经过图卷积模型进行融合,计算各自属性向量的求和平均值作为实体之前的相似度系数,从而求出链接实体;
基于共现实体的实体链接,利用相似系数计算共现实体在中心实体所占的比重的注意力特征,结合共现关系的向量化特征计算目标实体与图谱中实体的相似度,得到链接实体;
基于上下文的实体链接,将实体指称与属于实体共指链的上下文组合在一起形成句子序列,使用神经网络模型对序列建模,与图谱中实体作相似度计算,得到链接实体。
4.如权利要求1所述的跨语言实体链接方法,其特征在于,所述跨语言实体链接方法包括以下步骤:
步骤一,从已有知识库中获取实体名—实体描述文本,根据既有知识库,将不同语种的实体描述文本映射到其在知识库中的实体名称,利用多语言知识库构建实体名索引;构建索引可以有效降低候选实体的检索时间;
步骤二,获取待链接目标文本,从文本中抽取待链接的实体指称项以及实体上下文描述,获取该实体拥有的属性,以及文本中出现的共现实体;
步骤三,通过实体名索引,计算实体指称项与知识库中实体之间的相似度,将相似度与预设的候选实体阈值进行比较,并判断是否存在相似度分数小于所述候选实体阈值;
若是,则对于该指称项放弃所述实体;若否,则将所述实体加入指称项的候选实体集合中,并转向步骤三;先一步筛选候选实体减少后续模型的计算量;
步骤四,利用向量融合方法将其他语言的词向量映射为英语的词向量,将不同语种的向量映射到同一向量空间中;将所有实体映射到同一向量空间以实现跨语言的实体比较;
步骤五,通过候选实体集合以及提取出的线索选择不同的实体链接模型,合并各个模型的链接结果,得到指称项在不同语种中最终的跨语言链接结果;根据线索选择不同的链接模型,更全面地利用实体的信息进行实体链接的计算,使得链接结果更加准确且合理。
5.如权利要求4所述的跨语言实体链接方法,其特征在于,所述步骤一中,对于跨语言实体链接实体名索引,使用英文维基百科索引,并从各自的目标语言维基百科构建实体名索引;其中,所述英文维基百科索引从英文快照构建;
使用经典word2vec中的CBOW模型生成各语种的单词嵌入;将所有知识库的实体用向量表示存储在数据库中。
6.如权利要求4所述的跨语言实体链接方法,其特征在于,所述步骤四中,使用多种不同的向量融合方法对比,包括:
CCA:对不同语言的文本执行SVD后,对平行语料库中对齐的单词的向量对应用典型相关分析CCA,从而学习向量;对于跨语言实体链接,使用从维基百科中的跨语言链接获得的标题映射构建的嵌入;
MultiCCA:在CCA的基础上,使用线性算子将除母语外的每种语言中的预训练单语嵌入投影到预训练母语单词嵌入的向量空间;
LS:其他语种嵌入直接投影到母语上,映射通过多元回归构建。
7.如权利要求4所述的跨语言实体链接方法,其特征在于,所述步骤五中,基于属性的链接、基于共现实体的链接和基于上下文的链接;
利用以下距离方式计算属性向量:
OAE=-∑(a,c)∈Hwa,c·logp(c|a);
其中,w表示类型权重,若具有相同类型的属性,权重值会更高,从而将具有相关性的属性嵌入到相似的空间;
利用相似系数计算共现实体在中心实体所占的比重,计算方法为:
eij=a([Whi][Whj]),j∈Ni
其中,W为参数矩阵,h为各个实体经过向量融合后的向量;
利用多粒度文本对指称项进行向量嵌入:
Figure FDA0003781581490000031
利用NTN函数对mention的上下文进行建模,形成mention的细粒度上下文表示。
8.一种实施权利要求1~7任意一项所述的跨语言实体链接方法的跨语言实体链接系统,所述跨语言实体链接系统包括:
候选实体搜索模块,对于给定语种的指称,找到在知识图谱中的候选实体;
实体名索引构建模块,用于根据中英文的实体名和实体描述,将每个不同的描述文本映射到其目标实体名,构建实体名索引;
向量融合模块,构建索引后,用于将指称项进行词嵌入,与图谱中的实体计算相似度,筛选相似度大于规定阈值的候选项后,利用向量融合的方法将其他语种的实体映射到同一向量空间中;
实体链接模型构建模块,用于基于属性、基于共现实体、基于上下文的实体链接,并通过候选实体集合以及提供线索选择不同的实体链接模型,得到指称项在不同语种中的跨语言链接结果;
链接实体获取模块,用于基于属性的实体链接,将实体指称项与属性描述进行向量嵌入后经过图卷积模型进行融合,计算各自属性向量的求和平均值作为实体之前的相似度系数,从而求出链接实体;和/或
基于共现实体的实体链接,利用相似系数计算共现实体在中心实体所占的比重的注意力特征,结合共现关系的向量化特征计算目标实体与图谱中实体的相似度,得到链接实体;和/或
基于上下文的实体链接,将实体指称与属于实体共指链的上下文组合在一起形成句子序列,使用神经网络模型对序列建模,与图谱中实体作相似度计算,得到链接实体。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
搜索候选实体,构建实体名索引;构建基于不同线索的实体链接模型;基于属性的实体链接进行向量嵌入及融合;基于共现实体的多线索实体链接。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述的跨语言实体链接系统。
CN202210931239.5A 2022-08-04 2022-08-04 一种跨语言实体链接方法、系统、设备及终端 Pending CN115470358A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210931239.5A CN115470358A (zh) 2022-08-04 2022-08-04 一种跨语言实体链接方法、系统、设备及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210931239.5A CN115470358A (zh) 2022-08-04 2022-08-04 一种跨语言实体链接方法、系统、设备及终端

Publications (1)

Publication Number Publication Date
CN115470358A true CN115470358A (zh) 2022-12-13

Family

ID=84366622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210931239.5A Pending CN115470358A (zh) 2022-08-04 2022-08-04 一种跨语言实体链接方法、系统、设备及终端

Country Status (1)

Country Link
CN (1) CN115470358A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680420A (zh) * 2023-08-02 2023-09-01 昆明理工大学 基于知识表示增强的低资源跨语言文本检索方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680420A (zh) * 2023-08-02 2023-09-01 昆明理工大学 基于知识表示增强的低资源跨语言文本检索方法及装置
CN116680420B (zh) * 2023-08-02 2023-10-13 昆明理工大学 基于知识表示增强的低资源跨语言文本检索方法及装置

Similar Documents

Publication Publication Date Title
JP6975377B2 (ja) テキスト相関度を確定するためのコンピュータ実施方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN106844368B (zh) 用于人机对话的方法、神经网络系统和用户设备
US10025819B2 (en) Generating a query statement based on unstructured input
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN110309268B (zh) 一种基于概念图的跨语言信息检索方法
JP5936698B2 (ja) 単語意味関係抽出装置
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN113157930A (zh) 基于多源异构数据的知识图谱构建方法、系统以及终端
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
Das et al. Deep learning based Bengali question answering system using semantic textual similarity
Chang et al. Using word semantic concepts for plagiarism detection in text documents
CN116244448A (zh) 基于多源数据信息的知识图谱构建方法、设备及系统
Korpusik et al. Data collection and language understanding of food descriptions
Utomo et al. New instances classification framework on Quran ontology applied to question answering system
Prudhomme et al. Automatic Integration of Spatial Data into the Semantic Web.
CN113963748B (zh) 一种蛋白质知识图谱向量化方法
CN115470358A (zh) 一种跨语言实体链接方法、系统、设备及终端
Safar Digital library of online PDF sources: An ETL approach
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
Abimbola et al. A noun-centric keyphrase extraction model: Graph-based approach
Zhu et al. Construction of transformer substation fault knowledge graph based on a depth learning algorithm
CN113468311B (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质
CN113111136B (zh) 一种基于ucl知识空间的实体消歧方法及装置
Liu et al. A semi-automated entity relation extraction mechanism with weakly supervised learning for Chinese Medical webpages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination