CN110674317B - 一种基于图神经网络的实体链接方法及装置 - Google Patents

一种基于图神经网络的实体链接方法及装置 Download PDF

Info

Publication number
CN110674317B
CN110674317B CN201910944936.2A CN201910944936A CN110674317B CN 110674317 B CN110674317 B CN 110674317B CN 201910944936 A CN201910944936 A CN 201910944936A CN 110674317 B CN110674317 B CN 110674317B
Authority
CN
China
Prior art keywords
sample
entity
linked
vector representation
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910944936.2A
Other languages
English (en)
Other versions
CN110674317A (zh
Inventor
胡琳梅
石川
丁嘉瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910944936.2A priority Critical patent/CN110674317B/zh
Publication of CN110674317A publication Critical patent/CN110674317A/zh
Application granted granted Critical
Publication of CN110674317B publication Critical patent/CN110674317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种基于图神经网络的实体链接方法及装置,该方法在对待链接对象进行实体链接时,从预设的知识库中确定待链接文本中所指定的待链接对象对应的实体作为潜在候选实体;根据关联对象,从潜在候选实体中确定指定候选实体;根据指定候选实体间的语义关系,构建实体‑单词异质图;将实体‑单词异质图输入至预设的向量表示模型中,得到实体‑单词异质图中实体的实体向量表示,将所得到的实体向量表示输入至预设的条件随机场CRF中,得到每一实体的链接值,并依据链接值,从指定候选实体中选择每一待链接对象对应的链接实体。应用本实施例提供的方法能够提高实体链接的准确率。

Description

一种基于图神经网络的实体链接方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于图神经网络的实体链接方法及装置。
背景技术
实体链接旨在自动将待链接文本中指定的单词或词组的提及解析为给定知识库中相应的链接实体,在实体链接研究中所使用的知识库包括英文知识库TAP、维基百科、Freebase、YAGO以及中文知识库百度百科、互动百科、中文维基百科等。实体链接能够利用知识库丰富文本的语义信息,在文本分类和聚类、信息检索、知识库构建、知识图谱构建等领域有着重要的理论意义和应用前景。
现有的实体链接方法为先从文本中确定待链接的单词,从知识库中确定所述单词对应的待链接实体;将各个确定的待链接实体输入至预设的实体向量表示模型中,得到待链接实体的向量表示,最后将所得到的向量表示输入至CRF中,从候选实体中得到每一单词对应的链接实体。其中,上述实体向量表示模型为预选采用样本文作为训练集,采用训练集对word2vec进行训练得到的、用于获得单词的向量表示的模型。
可见,该方法虽然利用知识库中的待链接实体丰富了待链接单词在文本中的语义,但是该方法仅考虑了文本中待链接单词的语义信息,忽略了各个待链接单词在文中的关联性,且各个待链接单词对应的待链接实体数量较多,致使利用该方法从知识库中获得的文本中的待链接单词对应的链接实体的准确率低。
发明内容
本发明实施例的目的在于提供基于图神经网络的实体链接方法及装置,以提高实体链接的准确率。具体技术方案如下:
第一方面,本发明实施例提供一种基于图神经网络的实体链接方法,所述方法包括:
从待链接文本中获取指定的单词或词组作为待链接对象;
从预设的知识库中确定所述待链接对象对应的实体作为潜在候选实体;
根据所述关联对象,从所述潜在候选实体中确定指定候选实体;其中,所述关联对象为所述待链接文本中除去所述待链接对象之外的单词或词组;
根据所述指定候选实体间的语义关系,构建实体-单词异质图;
将所述实体-单词异质图输入至预设的向量表示模型中,得到所述实体-单词异质图中实体的实体向量表示,其中,所述向量表示模型为预选采用样本实体-单词异质图对预设的图卷积神经网络进行训练得到的、用于获得异质图中实体的向量表示的模型;所述样本实体-单词异质图为根据从样本潜在候选实体间中确定的样本指定候选实体间的语义关系构建的异质图,所述样本指定候选实体为基于样本关联对象从所述样本潜在候选实体中确定的候选实体;所述样本潜在候选实体为从预设的知识库中确定的样本待链接对象对应的实体构成的候选实体,所述样本待链接对象为从样本待链接文本中获取指定的单词或词组;所述样本关联对象为所述样本待链接文本中除去所述样本待链接对象之外的单词或词组;
将所得到的实体向量表示输入至预设的条件随机场CRF中,得到每一实体的链接值,并依据所述链接值,从所述指定候选实体中选择每一待链接对象对应的链接实体。
本发明的一个实施例中,所述根据所述关联对象,从所述潜在候选实体中确定指定候选实体,包括:
分别将所述关联对象和所述待链接对象输入至预设的词向量表示模型中,得到所述关联对象的第一向量表示和所述待链接对象的第二向量表示;所述词向量表示模型为预选采用预设的知识库的数据对word2vec进行训练得到的、用于获得所述知识库中实体的向量表示的模型;所述知识库中实体包括所述单词-实体异质图中的实体;所述知识库还包括所述关联对象和所述待链接对象;
针对每一关联对象,根据该关联对象的第一向量表示,计算该关联对象与每一潜在候选实体间的相似性,并将相似性最高的值作为反映该关联对象与所述潜在候选实体具有的关联值;
利用softmax函数对每一关联对象的关联值进行归一化处理,得到每一关联对象的权重;
对所得到的权重与所述第一实体向量表示进行加权求和,得到用于表征所述待链接对象在所述待链接文本中的上下文向量表示;
针对每一待链接对象,计算所述上下文向量表示分别与该待链接对象的第二向量表示间的相似性,从所述潜在候选实体中相似性高的候选实体作为该待链接对象的指定候选实体。
本发明的一个实施例中,所述根据所述指定候选实体间的语义信息,构建实体-单词异质图,包括:
针对每一待链接对象的指定候选实体,计算该待链接对象的指定候选实体分别与余下待链接对象的指定候选实体之间的相似性,并将相似性高的指定候选实体间进行连边,并针对该待链接对象的每一指定候选实体,从知识库以及与所述知识库链接的网页中确定该指定候选实体所属描述文本中的单词,利用TF-IDF技术,计算所确定的单词对该指定候选实体的TF-IDF值,选取TF-IDF值高的单词与该指定候选实体进行连边;
计算所确定的单词间的相似性,将相似性高的单词间进行连边,以构建实体-单词异质图。
本发明的一个实施例中,按照以下方式获得向量表示模型:
获取样本待链接文本;
从所述样本待链接文本中获取样本待链接对象;
从知识库中确定所述样本待链接对象对应的样本实体作为样本潜在候选实体;
根据所述样本关联对象,从所述样本潜在候选实体中确定样本指定候选实体;其中,所述样本关联对象为所述样本待链接文本中除去所述样本待链接对象之外的单词或词组;
根据所述样本指定候选实体间的语义关系,构建样本实体-单词异质图;
获得所述样本实体-单词异质图中实体的向量表示标注;
采用所述样本实体-单词异质图以及所述链接实体标注,对预设的图卷积神经网络进行训练,获得用于预测异质图中实体的实体向量表示的向量表示模型。
本发明的一个实施例中,所述根据所述样本关联对象,从所述样本潜在候选实体中确定样本指定候选实体,包括:
分别将所述样本关联对象和所述样本待链接对象输入至所述词向量表示模型中,得到所述样本关联对象的第一样本向量表示和所述样本待链接对象的第二样本向量表示;所述知识库还包括所述样本关联对象和所述样本待链接对象;
针对每一样本关联对象,根据该样本关联对象的第一样本向量表示,计算该样本关联对象与每一样本潜在候选实体间的相似性,并将相似性最高的值作为反映该关联对象与所述样本潜在候选实体具有的关联值;
利用softmax函数对每一样关联对象的关联值进行归一化处理,得到每一样本关联对象的权重;
对所得到的权重与所述第一样本实体向量表示进行加权求和,得到用于表征所述样本待链接对象在所述样本待链接文本中的样本上下文向量表示;
针对每一样本待链接对象,计算所述样本上下文向量表示分别与该样本待链接对象的第二样本向量表示间的相似性,从所述样本潜在候选实体中相似性高的样本候选实体作为该样本待链接对象的指定候选实体。
本发明的一个实施例中,所述根据所述样本指定候选实体间的语义关系,构建实体-单词异质图,包括:
针对每一样本待链接对象的样本指定候选实体,计算该样本待链接对象的样本指定候选实体分别与余下样本待链接对象的样本指定候选实体之间的相似性,并将相似性高的样本指定候选实体间进行连边,并针对该样本待链接对象的每一样本指定候选实体,从知识库中确定该样本指定候选实体所属描述文本中的样本单词,利用TF-IDF技术,计算所确定的样本单词对该样本指定候选实体的TF-IDF值,选取TF-IDF值高的样本单词与该样本指定候选实体进行连边;
计算所确定的样本单词间的相似性,将相似性高的样本单词间进行连边,以构建样本实体-单词异质图。
第二方面,本发明实施例提供一种基于图神经网络的实体链接装置,所述装置包括:
待链接对象获取模块,用于从待链接文本中获取指定的单词或词组作为待链接对象;
潜在候选实体确定模块,用于从预设的第一知识库中确定所述待链接对象对应的实体作为潜在候选实体;
指定候选实体确定模块,用于根据所述关联对象和所述潜在候选实体间的相似性,从所述潜在候选实体中确定指定候选实体;其中,所述关联对象为所述待链接文本中除去所述待链接对象之外的单词或词组;
异质图构建模块,用于根据所述指定候选实体间的语义关系,构建实体-单词异质图;
实体向量表示得到模块,用于将所述实体-单词异质图输入至预设的向量表示模型中,得到所述实体-单词异质图中实体的实体向量表示,其中,所述向量表示模型为预选采用样本实体-单词异质图对预设的图卷积神经网络进行训练得到的、用于获得异质图中实体的向量表示的模型;所述样本实体-单词异质图为根据从样本潜在候选实体间中确定的样本指定候选实体间的语义关系构建的异质图,所述样本指定候选实体为基于样本关联对象从所述样本潜在候选实体中确定的候选实体;所述样本潜在候选实体为从预设的知识库中确定的样本待链接对象对应的实体构成的候选实体,所述样本待链接对象为从样本待链接文本中获取指定的单词或词组;所述样本关联对象为所述样本待链接文本中除去所述样本待链接对象之外的单词或词组;
链接值得到模块,用于将所得到的实体向量表示输入至预设的条件随机场CRF中,得到每一实体的链接值,并依据所述链接值,从所述指定候选实体中选择每一待链接对象对应的链接实体。
本发明的一个实施例中,所述指定候选实体确定模块,包括:
向量表示得到子模块,用于分别将所述关联对象和所述待链接对象输入至预设的词向量表示模型中,得到所述关联对象的第一向量表示和所述待链接对象的第二向量表示;所述词向量表示模型为预选采用预设的知识库的数据对word2vec进行训练得到的、用于获得所述知识库中实体的向量表示的模型;所述知识库中实体包括所述单词-实体异质图中的实体;所述知识库还包括所述关联对象和所述待链接对象;
关联值得到子模块,用于针对每一关联对象,根据该关联对象的第一向量表示,计算该关联对象与每一潜在候选实体间的相似性,并将相似性最高的值作为反映该关联对象与所述潜在候选实体具有的关联值;
权重得到子模块,用于利用softmax函数对每一关联对象的关联值进行归一化处理,得到每一关联对象的权重;
上下文向量表示得到子模块,用于对所得到的权重与所述第一实体向量表示进行加权求和,得到用于表征所述待链接对象在所述待链接文本中的上下文向量表示;
指定候选实体得到子模块,用于针对每一待链接对象,计算所述上下文向量表示分别与该待链接对象的第二向量表示间的相似性,从所述潜在候选实体中相似性高的候选实体作为该待链接对象的指定候选实体。
本发明的一个实施例中,所述异质图构建模块包括:
第一连边子模块,用于针对每一待链接对象的指定候选实体,计算该待链接对象的指定候选实体分别与余下待链接对象的指定候选实体之间的相似性,并将相似性高的指定候选实体间进行连边,并针对该待链接对象的每一指定候选实体,从知识库中确定该指定候选实体所属描述文本中的单词,利用TF-IDF技术,计算所确定的单词对该指定候选实体的TF-IDF值,选取TF-IDF值高的单词与该指定候选实体进行连边;
第二连边子模块,用于计算所确定的单词间的相似性,将相似性高的单词间进行连边,以构建实体-单词异质图。
在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上任一所述的基于图神经网络的实体链接方法。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的基于图神经网络的实体链接方法。
本发明实施例提供了一种基于图神经网络的实体链接方法及装置,该方法在对待链接对象进行实体链接时,从预设的知识库中确定待链接文本中所指定的待链接对象对应的实体作为潜在候选实体;根据关联对象,从潜在候选实体中确定指定候选实体;根据指定候选实体间的语义关系,构建实体-单词异质图;将实体-单词异质图输入至预设的向量表示模型中,得到实体-单词异质图中实体的实体向量表示,将所得到的实体向量表示输入至预设的条件随机场CRF中,得到每一实体的链接值,并依据链接值,从指定候选实体中选择每一待链接对象对应的链接实体。相对于现有技术而言,本实施例利用关联对象从潜在候选实体中进一步确定了指定候选实体,且利用指定候选实体间的意义关系构建的实体-单词异质图能够捕捉实体和单词之间的局部和全局的语义关系。可见,应用本实施例提供的方法能够提高实体链接的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的实体链接的示意图;
图2位本发明实施例提供的第一种基于图神经网络的实体链接方法的流程示意图;
图3为本发明实施例提供的第二种基于图神经网络的实体链接方法的流程示意图;
图4为本发明实施例提供的一种基于图神经网络的实体链接装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了使得对实体链接更加清楚,下面对实体链接以及应用场景做了进一步详细描述,具体为:
实体链接就是将文本中的待链接对象与知识库中的实体进行链接能够将文本数据转化为带有实体标注的文本,进而帮助人和计算机理解文本的具体含义。它一方面能够为人带来更好的阅读体验,帮助人们更好地理解所游览信息的含义,另一方面也能辅助构建以实体为核心的信息网络,推动语义网络和知识图谱的发展。通过为互联网上的文档添加能够被计算机所理解的语义数据,并将这些含有语义是实体以图的形式联结起来,是互联网的信息交流变得更有效率。实体链接是对文本的单词或词组标注,是计算机能够对单词或词组而非文本进行处理,从而更好地理解文本的含义。
实体链接是将文档中各个文本片段指定的单词或词组映射到给定的知识库,示例:KB(knowledge Base,知识库)中的对应实体上的任务。如图1所示,图1中矩形方框表示的是文本,文本中浅色字体为文本中的单词,平行四边形框表示的是KB,平行四边形中的小矩形框表示的是实体,椭圆形框表示的是单词,椭圆形框与小矩形框连接的实体线表示椭圆形框中单词与小矩形框中实体的关联关系,小矩形框与小矩形框连接的实体线表示小矩形框中实体与小矩形框实体之间的关联关系。
示例性的,根据图1中方框所给出的文本,该文本所提及的“Albert Park”可以指图1中平行四边形所示的KB中的两个实体即图1中虚线表示的“Albert Park Auckland”和“Albert Park Victoria”之一,利用实体链接方法可以正确识别实体即用对号符号表示的“Albert Park Auckland”而不是其他候选实体。可见,实体链接在自然语言理解中起着重要作用。它促进了其他各种任务,如信息抽取,问答,文本分类,和新闻推荐。
为了解决现有技术中的问题,本发明实施例提供了一种基于图神经网络的实体链接方法及装置。
参见图2,图2为本发明实施例提供的第一种基于图神经网络的实体链接方法的流程示意图,应用于客户端或服务器,该方法包括:
S101,从待链接文本中获取指定的单词或词组作为待链接对象。
其中,待链接文本可以为一个文本片段,待链接对象为待链接文本中指定的单词或词组,也就是说,一个待链接文本中的待链接对象是事先以及确定的。
上述待链接文本可以是从网页中获取的文本片段,也可以是从事先获得的数据库中获取,还可以是时时从服务器或客户端获取。
待链接对象在待链接文本中的顺序是事先确定的。
S102,从预设的知识库中确定待链接对象对应的实体作为潜在候选实体。
上述知识库可以是事先指定的知识库。
该知识库可以是英文知识库TAP、维基百科、Freebase、YAGO、中文知识库百度百科、互动百科或中文维基百科中的一种或多种组合。
知识库的选用与待链接文本的应用场景有关系,也就是说,待链接文本是来源于中国的新闻网页,则该知识库可以选用中文的百度百科或中文维基百科等。
实体链接旨在将待链接文本中的提及的待链接对象映射到给定知识库中对应的实体上。形式上,给定包含一组序号为1,…,i,…n的待链接对象m1,…,mi,…,mn的待链接文本d,实体链接将每个提及mi映射到知识库中的实体ei或当知识库中没有对应条目时映射到NILL即无,即ei=NILL。
针对一个待链接对象,知识库中存在多个该链接对象对应的实体,这些对应的实体就是该链接对象的候选实体。
示例性的,待链接对象为APPLE时,则知识库中存在APPLE公司,APPLE酱,APPLE水果等。这些APPLE公司,APPLE酱,APPLE水果就是APPLE的候选实体。
S103,根据关联对象,从潜在候选实体中确定指定候选实体;其中,关联对象为待链接文本中除去待链接对象之外的单词或词组。
其中,本步骤引入了关联对象,也就是,考虑了待链接文本中针对待链接对象的上下文中的语义信息,也就是考虑了待链接对象的局部语义信息。
由于知识库非常大,因此需要对获得的较多数量的潜在候选实体做预处理,如从潜在候选实体中删除极不可能的条目。
实现S103的一种实现方式可以根据关联对象和潜在候选实体间的相似性,从潜在候选实体中确定指定候选实体。
在获取较小的一组潜在候选实体之后,实体链接的任务被简化为排序问题,该排序问题计算提及待关联对象和潜在候选实体的相关性得分。排名高的潜在候选实体作为指定候选实体。
可见,本实施例根据关联对象和潜在候选实体间的相似性,从潜在候选实体中确定指定候选实体,能够缩小待链接对象所链接实体的范围,进一步提高实体链接的准确率。
本发明的一个实施例中,如图3所示,S103的实现方式可以包括如下步骤S1031~S1035:
S1031,分别将关联对象和待链接对象输入至预设的词向量表示模型中,得到关联对象的第一向量表示和待链接对象的第二向量表示;词向量表示模型为预选采用预设的知识库的数据对word2vec进行训练得到的、用于获得知识库中实体的向量表示的模型;知识库中实体包括单词-实体异质图中的实体;知识库还包括关联对象和待链接对象;
Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
训练Word2vec的训练集包括采集知识库中实体的正向词以及随机采集的负向词,采用训练集对Word2vec中的模型参数进行迭代调整,以获得知识库中实体的向量表示的模型。
S1032,针对每一关联对象,根据该关联对象的第一向量表示,计算该关联对象与每一潜在候选实体间的相似性,并将相似性最高的值作为反映该关联对象与潜在候选实体具有的关联值。
本步骤将注意力机制应用于关联对象上以获得该关联对象的特征表示。
按照如下表达式作为局部模型搜索解决实体链接问题:
Figure BDA0002223886470000111
其中,ei *为从知识库中确定的待链接对象mi的潜在候选实体ei的指定候选实体,ψ(ei,ci)为评估ei和待链接对象mi的关联对象ci的相关性函数,也就是,ei和mi相关性的局部评分函数,n为待链接对象的数量,i为待链接对象序号。
按照如下表达式计算该关联对象与每一潜在候选实体间的相似性;
表达式为:
Figure BDA0002223886470000112
其中,
Figure BDA0002223886470000113
为潜在候选实体ei的映射,A是
Figure BDA0002223886470000114
对应的对角矩阵,f(ci)为关联对象ci的映射函数。
S1033,利用softmax函数对每一关联对象的关联值进行归一化处理,得到每一关联对象的权重。
本步骤利用softmax函数对每一关联对象的关联值进行归一化处理,可以平衡概率分布,同时也能够避免出现概率为0的情况。
S1034,对所得到的权重与第一实体向量表示进行加权求和,得到用于表征待链接对象在待链接文本中的上下文向量表示。
本发明的一个实施例中,按照表达式
Figure BDA0002223886470000115
对所得到的注意力权重与第一实体向量表示进行加权求和,其中,αi为待链接对象i的关联对象wi的注意力权重。
上述注意力权重就是本实施例中的权重。
S1035,针对每一待链接对象,计算上下文向量表示分别与该待链接对象的第二向量表示间的相似性,从潜在候选实体中相似性高的候选实体作为该待链接对象的指定候选实体。
按照如下表达式,计算上下文向量表示分别与该待链接对象的第二向量表示间的相似性;
表达式为:
Figure BDA0002223886470000121
其中,φ(ei,ej)为评估潜在候选实体ei和潜在候选实体ej的相关性函数,
Figure BDA0002223886470000122
为潜在候选实体ej的映射,B为
Figure BDA0002223886470000123
对应的对角矩阵,
Figure BDA0002223886470000124
为ei的向量,
Figure BDA0002223886470000125
为ej的向量,n为待链接对象的总数。
可见,本实施例在确定指定候选实体时,在考虑同一待链接文本中待链接对象的全局一致性的基础上,还考虑了关联对象与潜在候选实体的相似性,也就是考虑了同一待链接文本中实体之间的语义关系,从而进一步能够提高链接实体的准确率。
S104,根据指定候选实体间的语义关系,构建实体-单词异质图。
所构建的实体-单词异质图包含了整个待链接文本的全局语义。
为了使得待处理文本中多个实体在进行链接时能够达到一致性,本实施例提出了一种全局模型,如下表达式所示,全局模型使用局部上下文信息ψ(ei,ci)和全局的实体φ(ei,ej)以达到一致性,旨在解决把待链接文本中的所有待链接对象映射到知识库对应的实体上。
全局模型为:
Figure BDA0002223886470000126
其中,C1为序号为1的待链接对象的指定候选实体,Cn为序号为n的待链接对象的指定候选实体,E*为待链接文本中待链接对象链接至指定候选实体C1,…,Cn的链接结果,j为与i不同的待处理实体,n为待链接对象的总数。
本发明的一个实施例中,如图4所示,S104的实现方式包括如下步骤S1041~S1042:
S1041,针对每一待链接对象的指定候选实体,计算该待链接对象的指定候选实体分别与余下待链接对象的指定候选实体之间的相似性,并将相似性高的指定候选实体间进行连边,并针对该待链接对象的每一指定候选实体,从知识库以及与知识库链接的网页中确定该指定候选实体所属描述文本中的单词,利用TF-IDF技术,计算所确定的单词对该指定候选实体的TF-IDF值,选取TF-IDF值高的单词与该指定候选实体进行连边。
本步骤中,TF-IDF(term frequency–inverse document frequency)技术是一种用于信息检索与数据挖掘的加权技术。
造了指定候选实体之间的关系,以及指定候选实体与单词之间的关系。
指定候选实体在实体-单词异质图中对应着实体表示的节点,也就是说,在实体-单词异质图中指定候选实体是作为一个节点存在。
单词在实体-单词异质图中对应着单词表示的节点。也就是说,在实体-单词异质图中单词是作为一个节点存在。
指定候选实体间的相似性可以通过基于两个指定候选实体的嵌入表示计算得到,即余弦相似度。
对TF-IDF值进行排序后得到的TF-IDF值确定TF-IDF值高的数量作为选取TF-IDF值高的单词的数量。
上述排序可以按照TF-IDF值的大小进行降序排序,也可以按照TF-IDF值的大小进行升序排序,本发明实施例对此并不限定。
对于每个指定候选实体,通过连接来自知识库(例如,实体的维基百科页面)的实体描述页面的内容来构造与一个指定候选实体相关的单词构成伪文档,以及围绕标注的语料库中的实体的提及(例如,维基百科超链接)的固定大小的上下文窗口内容。
S1042,计算所确定的单词间的相似性,将相似性高的单词间进行连边,以构建实体-单词异质图。
本步骤创造了单词之间的关系。
上述将相似性高于阈值的单词间进行连边,也可以是将相似性进行排序,将预设数量个相似性高的单词间进行连边。
如果两个单词间计算得到的相似性高于上述阈值,则在该两个单词之间建立一条边。
基于上述S1041~S1042创建了一个待链接文本的实体-单词异质图G,G={V,E},其中,V和E分别表示节点集中节点和边。该实体-单词异质图对同一待链接文本中的指定候选实体之间的语义关系(包括间接或直接关系)进行了编码。
为了提高同一待链接文本中提及待链接对象的全局一致性,本实施例分析了指定候选实体之间的语义关系。对于每个待链接文本,构建实体-词异构图以包含所有提及的指定候选实体之间的语义关系,如图1所示。上述构建的实体-词异构图中的单词节点是语料库中与待链接文本中的指定候选实体相关的单词。它们被引入以便于计算不同指定候选实体之间的语义关系。
需要说明的是,位于同一个待链接对象对应的指定候选实体之间是禁止连边的,因为它们具有不同的语义并且应该保持独立。
可见,本实施例构建的实体-单词异质图时引入了单词间的关系,丰富了待链接对象的语义信息,包含了待链接对象上下文语义信息以及与知识库中指定候选实体的语义信息,从而进一步能够提高实体链接的准确率。
S105,将实体-单词异质图输入至预设的向量表示模型中,得到实体-单词异质图中实体的实体向量表示,其中,向量表示模型为预选采用样本实体-单词异质图对预设的图卷积神经网络进行训练得到的、用于获得异质图中实体的向量表示的模型;样本实体-单词异质图为根据从样本潜在候选实体间中确定的样本指定候选实体间的语义关系构建的异质图,样本指定候选实体为基于样本关联对象从样本潜在候选实体中确定的候选实体;样本潜在候选实体为从预设的知识库中确定的样本待链接对象对应的实体构成的候选实体,样本待链接对象为从样本待链接文本中获取指定的单词或词组;样本关联对象为样本待链接文本中除去样本待链接对象之外的单词或词组。
以构建的实体-单词异质图作为输入参数,输入至向量表示模型,输出实体-单词异质图中实体的实体向量表示。
采用GCN(图卷积神经网络,Graph Convolutional Network)通过聚合来自其相邻节点的信息来学习更好的实体表示。可见,向量表示模型考虑了整个待链接文本的全局语义。
其中,GCN是一种处理非结构化数据的神经网络。它接受一个图作为输入,并学习节点的表示向量。作为图卷积网络的一种简化,GCN的主要思想类似于传播模型,即将相邻节点的表示融合到当前节点的表示中。
由上描述可知,构建的实体-单词异质图包含了待链接文本中待链接对象和关联对象即单词或词组之间的关系。本实施例应用GCN训练好的向量表示模型,动态地生成一组新的实体映射嵌入,新的实体映射用来自相关实体和单词的语义信息来增强。这些相关实体的动态实体嵌入在嵌入空间中变得更近,从而增加了实体的全局一致性。
本发明的一个实施例可以通过从样本待链接文本中的样本待链接对象所属的样本描述文本里采集正向的单,在上述样本描述文本中随机采样负向的词,然后,将上述采集的词作为训练集,基于损失函数,对图卷积神经网络进行训练,以得到预测异质图中实体的向量表示的向量表示模型。
基于上述描述,采用损失函数max-margin对图卷积神经网络进行训练得到的、用于获得异质图中实体的向量表示的模型。
Figure BDA0002223886470000151
Figure BDA0002223886470000152
其中,L(·)为损失函数,Θ是GCN的模型参数;P为样本待链接文本集合,D是为样本待链接文本,
Figure BDA0002223886470000153
是样本指定候选实体,mi为样本链接文本中第i个样本待链接对象,γ为间隔值,ρi(·)为得分函数,h(·,·)为选取的最大间隔值,max(·,·)为以样本待处理实体和样本指定候选实体之间的间隔值最大化为优化目标的优化函数,e为待链接对象。
后续将会对向量表示模型的具体实现进行介绍,这里不做详细描述。
S106,将所得到的实体向量表示输入至预设的条件随机场CRF中,得到每一实体链接值,并依据链接值,从指定候选实体中选择每一待链接对象对应的链接实体。
基于上述实施例,按照如下表达式定义用于集体实体链接的完全链接的成对条件随机场(CRF,conditional random field)。该表达式考虑了同一待链接文本中单词或词组的全局一致性。
表达式为:
Figure BDA0002223886470000154
其中,g(·)为待链接对象所对应指定候选实体的全局得分,e为待链接对象,m为指定候选实体的向量,c为关联对象,ψ(ei)为待链接对象ei的相关性函数,ψ(ei)=ψ(ei,ci),也可以说,待链接对象ei的局部函数,φ(ei,ej)为成对链接对象的全局得分。
对CRF执行最大后验推断作为目标,以找到最大化g(.)的实体集。
利用最大乘积循环信念传播(LBP,loopy belief propagation)来估计每个待链接对象mi的最大边际概率。
基于上述描述,本发明的一个实施例中,按照如下表达式从指定候选实体中选择每一待链接对象对应的链接实体。
表达式为:
Figure BDA0002223886470000161
其中,
Figure BDA0002223886470000162
为一组最大的全局得分,e1为序号为1的指定候选实体,ei为序号为i的指定候选实体,en为序号为n的指定候选实体,f(·,·)是一个两层神经网络,
Figure BDA0002223886470000163
是针对待链接对象mi挑选的指定候选实体的先验。
由此可见,本发明实施例提供的基于图神经网络的实体链接方法在对待链接对象进行实体链接时,从预设的知识库中确定待链接文本中所指定的待链接对象对应的实体作为潜在候选实体;根据关联对象,从潜在候选实体中确定指定候选实体;根据指定候选实体间的语义关系,构建实体-单词异质图;将实体-单词异质图输入至预设的向量表示模型中,得到实体-单词异质图中实体的实体向量表示,将所得到的实体向量表示输入至预设的条件随机场CRF中,得到每一实体的链接值,并依据链接值,从指定候选实体中选择每一待链接对象对应的链接实体。相对于现有技术而言,本实施例利用关联对象从潜在候选实体中进一步确定了指定候选实体,且利用指定候选实体间的意义关系构建的实体-单词异质图能够捕捉实体和单词之间的局部和全局的语义关系。可见,应用本实施例提供的方法能够提高实体链接的准确率。
本发明的一个实施例中,按照以下方式获得向量表示模型,具体包括如下步骤A~步骤F:
步骤A,获取样本待链接文本。
上述样本待链接文本的数量为多个,且每一样本待链接文本可以为一个文本片段。
上述待链接文本可以是从网页中获取的文本片段,也可以是从事先获得的数据库中获取。
步骤B,从样本待链接文本中获取样本待链接对象。
样本待链接对象为样本待链接文本中指定的单词或词组,也就是说,一个样本待链接文本中的样本待链接对象是事先以及确定的,且样本待链接对象在待链接文本中的顺序是事先确定的。
步骤C,从知识库中确定样本待链接对象对应的样本实体作为样本潜在候选实体。
上述知识库可以是事先指定的知识库。
知识库的选用与样本待链接文本的应用场景有关系,也就是说,样本待链接文本是来源于中国的新闻网页,则该知识库可以选用中文的百度百科或中文维基百科等。
步骤D,根据样本关联对象,从样本潜在候选实体中确定样本指定候选实体;其中,样本关联对象为样本待链接文本中除去样本待链接对象之外的单词或词组。
其中,本步骤引入了样本关联对象,也就是,考虑了样本待链接文本中针对待链接对象的上下文中的语义信息,也就是考虑了样本待链接对象的局部语义信息。
由于知识库非常大,因此需要对获得的样本潜在候选实体做预处理,如从样本潜在候选实体中删除极不可能的条目。
步骤E,根据样本指定候选实体间的语义关系,构建实体-单词异质图。
所构建的样本实体-单词异质图包含了整个待链接文本的全局语义。
步骤F,获得样本实体-单词异质图中实体的向量表示标注。
步骤G,采用样本实体-单词异质图以及实体的向量表示标注,对预设的图卷积神经网络进行训练,获得用于预测异质图中实体的实体向量表示的向量表示模型。
将所构建的样本实体-单词异质图对应输入图卷积神经网络中,对图卷积神经网络中的模型参数进行迭代调整,得到用于预测实体向量表示的向量表示模型。
可见,本实施例在构建向量表示模型时,利用样本指定候选实体间的语义关系构建了样本实体-单词异质图,并将样本实体-单词异质图作为输入参数,对预设的图卷积神经网络进行训练,得到用于预测实体向量表示的向量表示模型,该向量表示模型考虑了样本指定候选实体与样本单词间的语义关系,并采用GCN将语义信息聚合为增强的实体映射,能够提高实体链接的准确率。
本发明的一个实施例中,步骤D的实现方式具体包括步骤D1~步骤D5:
步骤D1,分别将样本关联对象和样本待链接对象输入至词向量表示模型中,得到样本关联对象的第一样本向量表示和样本待链接对象的第二样本向量表示;知识库还包括样本关联对象和样本待链接对象。
词向量表示模型是事先对采用知识库的数据对word2vec进行训练得到的、用于获得知识库中实体的向量表示的模型。
步骤D2,针对每一样本关联对象,根据该样本关联对象的第一样本向量表示,计算该样本关联对象与每一样本潜在候选实体间的相似性,并将相似性最高的值作为反映该关联对象与样本潜在候选实体具有的关联值。
本步骤将注意力机制应用于样本关联对象上以获得该关联对象的特征表示。
步骤D3,利用softmax函数对每一样关联对象的关联值进行归一化处理,得到每一样本关联对象的权重。
步骤D4,对所得到的权重与第一样本实体向量表示进行加权求和,得到用于表征样本待链接对象在样本待链接文本中的样本上下文向量表示。
步骤D5,针对每一样本待链接对象,计算样本上下文向量表示分别与该样本待链接对象的第二样本向量表示间的相似性,从样本潜在候选实体中相似性高的样本候选实体作为该样本待链接对象的指定候选实体。
可见,本实施例在确定样本指定候选实体时,在考虑同一样本待链接文本中待链接对象的全局一致性的基础上,还考虑了样本关联对象与样本潜在候选实体的相似性,也就是考虑了同一样本待链接文本中实体之间的语义关系,从而使得训练后的向量表示模型能过进一步提高链接实体的准确率。
本发明的一个实施例中,步骤E的具体实现方式包括如下步骤E1~步骤E2:
步骤E1,针对每一样本待链接对象的样本指定候选实体,计算该样本待链接对象的样本指定候选实体分别与余下样本待链接对象的样本指定候选实体之间的相似性,并将相似性高的样本指定候选实体间进行连边,并针对该样本待链接对象的每一样本指定候选实体,从知识库中确定该样本指定候选实体所属描述文本中的样本单词,利用TF-IDF技术,计算所确定的样本单词对该样本指定候选实体的TF-IDF值,选取TF-IDF值高的样本单词与该样本指定候选实体进行连边。
本步骤创造了样本指定候选实体之间的关系,以及样本指定候选实体与样本单词之间的关系。
样本指定候选实体在样本实体-单词异质图中对应着实体表示的节点,也就是说,在样本实体-单词异质图中样本指定候选实体是作为一个节点存在。
样本单词在样本实体-单词异质图中对应着样本单词表示的节点。也就是说,在样本实体-单词异质图中样本单词是作为一个节点存在。
样本指定候选实体间的相似性可以通过基于两个指定候选实体的嵌入表示计算得到,即余弦相似度。
对TF-IDF值进行排序后得到的TF-IDF值确定TF-IDF值高的数量作为选取TF-IDF值高的样本单词的数量。
上述排序可以按照TF-IDF值的大小进行降序排序,也可以按照TF-IDF值的大小进行升序排序,本发明实施例对此并不限定。
步骤E2,计算所确定的样本单词间的相似性,将相似性高的样本单词间进行连边,以构建样本实体-单词异质图。
本步骤创造了样本单词之间的关系。
上述将相似性高于阈值的样本单词间进行连边,也可以是将相似性进行排序,将预设数量个相似性高的样本单词间进行连边。
如果两个样本单词间计算得到的相似性高于上述阈值,则在该两个样本单词之间建立一条边。
为了提高同一样本待链接文本中提及样本待链接对象的全局一致性,本实施例分析了样本指定候选实体之间的语义关系。对于每个样本待链接文本,构建样本实体-词异构图以包含所有提及的样本指定候选实体之间的语义关系。上述样本构建的实体-词异构图中的单词节点是语料库中与待链接文本中的指定候选实体相关的单词。它们被引入以便于计算不同指定候选实体之间的语义关系。
需要说明的是,位于同一个样本待链接对象对应的样本指定候选实体之间是禁止连边的,因为它们具有不同的语义并且应该保持独立。
可见,本实施例在构建的样本实体-单词异质图时引入了样本单词间的关系,丰富了样本待链接对象的语义信息,包含了样本待链接对象上下文语义信息以及与知识库中指定候选实体的语义信息,从而使得训练的向量表示模型能过进一步提高实体链接的准确率。
与上述基于图神经网络的实体链接方法相对应,本发明实施例还提供了基于图神经网络的实体链接装置。
参加图4,图4为本发明实施例提供的一种基于图神经网络的实体链接装置,装置包括:
待链接对象获取模块201,用于从待链接文本中获取指定的单词或词组作为待链接对象。
潜在候选实体确定模块202,用于从预设的第一知识库中确定待链接对象对应的实体作为潜在候选实体。
指定候选实体确定模块203,用于根据关联对象和潜在候选实体间的相似性,从潜在候选实体中确定指定候选实体;其中,关联对象为待链接文本中除去待链接对象之外的单词或词组。
异质图构建模块204,用于根据指定候选实体间的语义关系,构建实体-单词异质图。
实体向量表示得到模块205,用于将实体-单词异质图输入至预设的向量表示模型中,得到实体-单词异质图中实体的实体向量表示,其中,向量表示模型为预选采用样本实体-单词异质图对预设的图卷积神经网络进行训练得到的、用于获得异质图中实体的向量表示的模型;样本实体-单词异质图为根据从样本潜在候选实体间中确定的样本指定候选实体间的语义关系构建的异质图,样本指定候选实体为基于样本关联对象从样本潜在候选实体中确定的候选实体;样本潜在候选实体为从预设的知识库中确定的样本待链接对象对应的实体构成的候选实体,样本待链接对象为从样本待链接文本中获取指定的单词或词组;样本关联对象为样本待链接文本中除去样本待链接对象之外的单词或词组。
链接值得到模块206,用于将所得到的实体向量表示输入至预设的条件随机场CRF中,得到每一实体的链接值,并依据链接值,从指定候选实体中选择每一待链接对象对应的链接实体。
可选的,指定候选实体确定模块203可以包括:
向量表示得到子模块,用于分别将关联对象和待链接对象输入至预设的词向量表示模型中,得到关联对象的第一向量表示和待链接对象的第二向量表示;词向量表示模型为预选采用预设的知识库的数据对word2vec进行训练得到的、用于获得知识库中实体的向量表示的模型;知识库中实体包括单词-实体异质图中的实体;知识库还包括关联对象和待链接对象。
关联值得到子模块,用于针对每一关联对象,根据该关联对象的第一向量表示,计算该关联对象与每一潜在候选实体间的相似性,并将相似性最高的值作为反映该关联对象与潜在候选实体具有的关联值。
权重得到子模块,用于利用softmax函数对每一关联对象的关联值进行归一化处理,得到每一关联对象的权重。
上下文向量表示得到子模块,用于对所得到的权重与第一实体向量表示进行加权求和,得到用于表征待链接对象在待链接文本中的上下文向量表示。
指定候选实体得到子模块,用于针对每一待链接对象,计算上下文向量表示分别与该待链接对象的第二向量表示间的相似性,从潜在候选实体中相似性高的候选实体作为该待链接对象的指定候选实体。
可选的,异质图构建模块204可以包括:
第一连边子模块,用于针对每一待链接对象的指定候选实体,计算该待链接对象的指定候选实体分别与余下待链接对象的指定候选实体之间的相似性,并将相似性高的指定候选实体间进行连边,并针对该待链接对象的每一指定候选实体,从知识库中确定该指定候选实体所属描述文本中的单词,利用TF-IDF技术,计算所确定的单词对该指定候选实体的TF-IDF值,选取TF-IDF值高的单词与该指定候选实体进行连边。
第二连边子模块,用于计算所确定的单词间的相似性,将相似性高的单词间进行连边,以构建实体-单词异质图。
可选的,该装置还包括:向量表示模型获得模块。
向量表示模型获得模块可以包括:
待链接样本获取子模块,用于获取样本待链接文本;
样本待链接对象获取子模块,用于从样本待链接文本中获取样本待链接对象;
样本潜在候选实体获取子模块,用于从知识库中确定样本待链接对象对应的样本实体作为样本潜在候选实体;
样本指定候选实体确定子模块,用于根据样本关联对象,从样本潜在候选实体中确定样本指定候选实体;其中,样本关联对象为样本待链接文本中除去样本待链接对象之外的单词或词组;
样本异质图构建子模块,用于根据样本指定候选实体间的语义关系,构建样本实体-单词异质图;
标注获得子模块,用于获得样本实体-单词异质图中实体的向量表示标注;
向量表示模块获得子模块,用于采用样本实体-单词异质图以及链接实体标注,对预设的图卷积神经网络进行训练,获得用于预测异质图中实体的实体向量表示的向量表示模型。
可选的,样本指定候选实体确定子模块可以包括:
向量表示得到单元,用于分别将样本关联对象和样本待链接对象输入至词向量表示模型中,得到样本关联对象的第一样本向量表示和样本待链接对象的第二样本向量表示;知识库还包括样本关联对象和样本待链接对象;
关联值确定单元,用于针对每一样本关联对象,根据该样本关联对象的第一样本向量表示,计算该样本关联对象与每一样本潜在候选实体间的相似性,并将相似性最高的值作为反映该关联对象与样本潜在候选实体具有的关联值;
权重得到单元,用于利用softmax函数对每一样关联对象的关联值进行归一化处理,得到每一样本关联对象的权重;
上下文向量表示得到单元,用于对所得到的权重与第一样本实体向量表示进行加权求和,得到用于表征样本待链接对象在样本待链接文本中的样本上下文向量表示;
指定候选实体得到单元,用于针对每一样本待链接对象,计算样本上下文向量表示分别与该样本待链接对象的第二样本向量表示间的相似性,从样本潜在候选实体中相似性高的样本候选实体作为该样本待链接对象的指定候选实体。
可选的,样本实体-单词异质图构建子模块可以包括:
第一连边单元,用于针对每一样本待链接对象的样本指定候选实体,计算该样本待链接对象的样本指定候选实体分别与余下样本待链接对象的样本指定候选实体之间的相似性,并将相似性高的样本指定候选实体间进行连边,并针对该样本待链接对象的每一样本指定候选实体,从知识库中确定该样本指定候选实体所属描述文本中的样本单词,利用TF-IDF技术,计算所确定的样本单词对该样本指定候选实体的TF-IDF值,选取TF-IDF值高的样本单词与该样本指定候选实体进行连边;
第二连边单元,用于计算所确定的样本单词间的相似性,将相似性高的样本单词间进行连边,以构建样本实体-单词异质图。
由此可见,本发明实施例提供的基于图神经网络的实体链接装置在对待链接对象进行实体链接时,从预设的知识库中确定待链接文本中所指定的待链接对象对应的实体作为潜在候选实体;根据关联对象,从潜在候选实体中确定指定候选实体;根据指定候选实体间的语义关系,构建实体-单词异质图;将实体-单词异质图输入至预设的向量表示模型中,得到实体的实体向量表示,将所得到的实体向量表示输入至预设的条件随机场CRF中,得到每一实体的链接值,并依据链接值,从指定候选实体中选择每一待链接对象对应的链接实体。相对于现有技术而言,本实施例利用关联对象从潜在候选实体中进一步确定了指定候选实体,且利用指定候选实体间的意义关系构建的实体-单词异质图能够捕捉实体和单词之间的局部和全局的语义关系。可见,应用本实施例提供的方法能够提高实体链接的准确率。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现本发明实施例提供的一种基于图神经网络的实体链接方法。
具体的,上述基于图神经网络的实体链接方法,包括:
从待链接文本中获取指定的单词或词组作为待链接对象;
从预设的知识库中确定待链接对象对应的实体作为潜在候选实体;
根据关联对象,从潜在候选实体中确定指定候选实体;其中,关联对象为待链接文本中除去待链接对象之外的单词或词组;
根据指定候选实体间的语义关系,构建实体-单词异质图;
将实体-单词异质图输入至预设的向量表示模型中,得到实体-单词异质图中实体的实体向量表示,其中,向量表示模型为预选采用样本实体-单词异质图对预设的图卷积神经网络进行训练得到的、用于获得异质图中实体的向量表示的模型;样本实体-单词异质图为根据从样本潜在候选实体间中确定的样本指定候选实体间的语义关系构建的异质图,样本指定候选实体为基于样本关联对象从样本潜在候选实体中确定的候选实体;样本潜在候选实体为从预设的知识库中确定的样本待链接对象对应的实体构成的候选实体,样本待链接对象为从样本待链接文本中获取指定的单词或词组;样本关联对象为样本待链接文本中除去样本待链接对象之外的单词或词组;
将所得到的实体向量表示输入至预设的条件随机场CRF中,得到每一实体的链接值,并依据链接值,从所述指定候选实体中选择每一待链接对象对应的链接实体。
由此可见,执行本实施例提供的电子设备,通过在对待链接对象进行实体链接时,从预设的知识库中确定待链接文本中所指定的待链接对象对应的实体作为潜在候选实体;根据关联对象,从潜在候选实体中确定指定候选实体;根据指定候选实体间的语义关系,构建实体-单词异质图;将实体-单词异质图输入至预设的向量表示模型中,得到实体的实体向量表示,将所得到的实体向量表示输入至预设的条件随机场CRF中,得到每一实体的链接值,并依据链接值,从指定候选实体中选择每一待链接对象对应的链接实体。相对于现有技术而言,本实施例利用关联对象从潜在候选实体中进一步确定了指定候选实体,且利用指定候选实体间的意义关系构建的实体-单词异质图能够捕捉实体和单词之间的局部和全局的语义关系。可见,应用本实施例提供的方法能够提高实体链接的准确率。
上述的相关内容知识图谱的表示学习方法的实施方式与前述方法实施例部分提供的知识图谱的表示学习方法方式相同,这里不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于图神经网络的实体链接。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一上述的基于图神经网络的实体链接方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于图神经网络的实体链接方法,其特征在于,所述方法包括:
从待链接文本中获取指定的单词或词组作为待链接对象;
从预设的知识库中确定所述待链接对象对应的实体作为潜在候选实体;
根据关联对象,从所述潜在候选实体中确定指定候选实体;其中,所述关联对象为所述待链接文本中除去所述待链接对象之外的单词或词组;
根据所述指定候选实体间的语义关系,构建实体-单词异质图;
将所述实体-单词异质图输入至预设的向量表示模型中,得到所述实体-单词异质图中实体的实体向量表示,其中,所述向量表示模型为预先采用样本实体-单词异质图对预设的图卷积神经网络进行训练得到的、用于获得异质图中实体的向量表示的模型;所述样本实体-单词异质图为根据从样本潜在候选实体间中确定的样本指定候选实体间的语义关系构建的异质图,所述样本指定候选实体为基于样本关联对象从所述样本潜在候选实体中确定的候选实体;所述样本潜在候选实体为从预设的知识库中确定的样本待链接对象对应的实体构成的候选实体,所述样本待链接对象为从样本待链接文本中获取指定的单词或词组;所述样本关联对象为所述样本待链接文本中除去所述样本待链接对象之外的单词或词组;
将所得到的实体向量表示输入至预设的条件随机场CRF中,得到每一实体的链接值,并依据所述链接值,从所述指定候选实体中选择每一待链接对象对应的链接实体。
2.如权利要求1所述的方法,其特征在于,所述根据所述关联对象,从所述潜在候选实体中确定指定候选实体,包括:
分别将所述关联对象和所述待链接对象输入至预设的词向量表示模型中,得到所述关联对象的第一向量表示和所述待链接对象的第二向量表示;所述词向量表示模型为预先采用预设的知识库的数据对word2vec进行训练得到的、用于获得所述知识库中实体的向量表示的模型;所述知识库中实体包括所述实体-单词异质图中的实体;所述知识库还包括所述关联对象和所述待链接对象;
针对每一关联对象,根据该关联对象的第一向量表示,计算该关联对象与每一潜在候选实体间的相似性,并将相似性最高的值作为反映该关联对象与所述潜在候选实体具有的关联值;
利用softmax函数对每一关联对象的关联值进行归一化处理,得到每一关联对象的权重;
对所得到的权重与所述第一向量表示进行加权求和,得到用于表征所述待链接对象在所述待链接文本中的上下文向量表示;
针对每一待链接对象,计算所述上下文向量表示分别与该待链接对象的第二向量表示间的相似性,从所述潜在候选实体中相似性高的候选实体作为该待链接对象的指定候选实体。
3.如权利要求2所述的方法,其特征在于,所述根据所述指定候选实体间的语义信息,构建实体-单词异质图,包括:
针对每一待链接对象的指定候选实体,计算该待链接对象的指定候选实体分别与余下待链接对象的指定候选实体之间的相似性,并将相似性高的指定候选实体间进行连边,并针对该待链接对象的每一指定候选实体,从知识库以及与所述知识库链接的网页中确定该指定候选实体所属描述文本中的单词,利用TF-IDF技术,计算所确定的单词对该指定候选实体的TF-IDF值,选取TF-IDF值高的单词与该指定候选实体进行连边;
计算所确定的单词间的相似性,将相似性高的单词间进行连边,以构建实体-单词异质图。
4.如权利要求2所述的方法,其特征在于,按照以下方式获得向量表示模型:
获取样本待链接文本;
从所述样本待链接文本中获取样本待链接对象;
从知识库中确定所述样本待链接对象对应的样本实体作为样本潜在候选实体;
根据所述样本关联对象,从所述样本潜在候选实体中确定样本指定候选实体;其中,所述样本关联对象为所述样本待链接文本中除去所述样本待链接对象之外的单词或词组;
根据所述样本指定候选实体间的语义关系,构建样本实体-单词异质图;
获得所述样本实体-单词异质图中实体的向量表示标注;
采用所述样本实体-单词异质图以及所述向量表示标注,对预设的图卷积神经网络进行训练,获得用于预测异质图中实体的实体向量表示的向量表示模型。
5.如权利要求4所述的方法,其特征在于,所述根据所述样本关联对象,从所述样本潜在候选实体中确定样本指定候选实体,包括:
分别将所述样本关联对象和所述样本待链接对象输入至所述词向量表示模型中,得到所述样本关联对象的第一样本向量表示和所述样本待链接对象的第二样本向量表示;所述知识库还包括所述样本关联对象和所述样本待链接对象;
针对每一样本关联对象,根据该样本关联对象的第一样本向量表示,计算该样本关联对象与每一样本潜在候选实体间的相似性,并将相似性最高的值作为反映该关联对象与所述样本潜在候选实体具有的关联值;
利用softmax函数对每一样关联对象的关联值进行归一化处理,得到每一样本关联对象的权重;
对所得到的权重与所述第一样本向量表示进行加权求和,得到用于表征所述样本待链接对象在所述样本待链接文本中的样本上下文向量表示;
针对每一样本待链接对象,计算所述样本上下文向量表示分别与该样本待链接对象的第二样本向量表示间的相似性,从所述样本潜在候选实体中相似性高的样本候选实体作为该样本待链接对象的指定候选实体。
6.如权利要求5所述的方法,其特征在于,所述根据所述样本指定候选实体间的语义关系,构建实体-单词异质图,包括:
针对每一样本待链接对象的样本指定候选实体,计算该样本待链接对象的样本指定候选实体分别与余下样本待链接对象的样本指定候选实体之间的相似性,并将相似性高的样本指定候选实体间进行连边,并针对该样本待链接对象的每一样本指定候选实体,从知识库中确定该样本指定候选实体所属描述文本中的样本单词,利用TF-IDF技术,计算所确定的样本单词对该样本指定候选实体的TF-IDF值,选取TF-IDF值高的样本单词与该样本指定候选实体进行连边;
计算所确定的样本单词间的相似性,将相似性高的样本单词间进行连边,以构建样本实体-单词异质图。
7.一种基于图神经网络的实体链接装置,其特征在于,所述装置包括:
待链接对象获取模块,用于从待链接文本中获取指定的单词或词组作为待链接对象;
潜在候选实体确定模块,用于从预设的第一知识库中确定所述待链接对象对应的实体作为潜在候选实体;
指定候选实体确定模块,用于根据关联对象和所述潜在候选实体间的相似性,从所述潜在候选实体中确定指定候选实体;其中,所述关联对象为所述待链接文本中除去所述待链接对象之外的单词或词组;
异质图构建模块,用于根据所述指定候选实体间的语义关系,构建实体-单词异质图;
实体向量表示得到模块,用于将所述实体-单词异质图输入至预设的向量表示模型中,得到所述实体-单词异质图中实体的实体向量表示,其中,所述向量表示模型为预先采用样本实体-单词异质图对预设的图卷积神经网络进行训练得到的、用于获得异质图中实体的向量表示的模型;所述样本实体-单词异质图为根据从样本潜在候选实体间中确定的样本指定候选实体间的语义关系构建的异质图,所述样本指定候选实体为基于样本关联对象从所述样本潜在候选实体中确定的候选实体;所述样本潜在候选实体为从预设的知识库中确定的样本待链接对象对应的实体构成的候选实体,所述样本待链接对象为从样本待链接文本中获取指定的单词或词组;所述样本关联对象为所述样本待链接文本中除去所述样本待链接对象之外的单词或词组;
链接值得到模块,用于将所得到的实体向量表示输入至预设的条件随机场CRF中,得到每一实体的链接值,并依据所述链接值,从所述指定候选实体中选择每一待链接对象对应的链接实体。
8.如权利要求7所述的装置,其特征在于,所述指定候选实体确定模块,包括:
向量表示得到子模块,用于分别将所述关联对象和所述待链接对象输入至预设的词向量表示模型中,得到所述关联对象的第一向量表示和所述待链接对象的第二向量表示;所述词向量表示模型为预先采用预设的知识库的数据对word2vec进行训练得到的、用于获得所述知识库中实体的向量表示的模型;所述知识库中实体包括所述实体-单词异质图中的实体;所述知识库还包括所述关联对象和所述待链接对象;
关联值得到子模块,用于针对每一关联对象,根据该关联对象的第一向量表示,计算该关联对象与每一潜在候选实体间的相似性,并将相似性最高的值作为反映该关联对象与所述潜在候选实体具有的关联值;
权重得到子模块,用于利用softmax函数对每一关联对象的关联值进行归一化处理,得到每一关联对象的权重;
上下文向量表示得到子模块,用于对所得到的权重与所述第一向量表示进行加权求和,得到用于表征所述待链接对象在所述待链接文本中的上下文向量表示;
指定候选实体得到子模块,用于针对每一待链接对象,计算所述上下文向量表示分别与该待链接对象的第二向量表示间的相似性,从所述潜在候选实体中相似性高的候选实体作为该待链接对象的指定候选实体。
9.如权利要求8所述的装置,其特征在于,所述异质图构建模块包括:
第一连边子模块,用于针对每一待链接对象的指定候选实体,计算该待链接对象的指定候选实体分别与余下待链接对象的指定候选实体之间的相似性,并将相似性高的指定候选实体间进行连边,并针对该待链接对象的每一指定候选实体,从知识库中确定该指定候选实体所属描述文本中的单词,利用TF-IDF技术,计算所确定的单词对该指定候选实体的TF-IDF值,选取TF-IDF值高的单词与该指定候选实体进行连边;
第二连边子模块,用于计算所确定的单词间的相似性,将相似性高的单词间进行连边,以构建实体-单词异质图。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
CN201910944936.2A 2019-09-30 2019-09-30 一种基于图神经网络的实体链接方法及装置 Active CN110674317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910944936.2A CN110674317B (zh) 2019-09-30 2019-09-30 一种基于图神经网络的实体链接方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910944936.2A CN110674317B (zh) 2019-09-30 2019-09-30 一种基于图神经网络的实体链接方法及装置

Publications (2)

Publication Number Publication Date
CN110674317A CN110674317A (zh) 2020-01-10
CN110674317B true CN110674317B (zh) 2022-04-12

Family

ID=69080656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910944936.2A Active CN110674317B (zh) 2019-09-30 2019-09-30 一种基于图神经网络的实体链接方法及装置

Country Status (1)

Country Link
CN (1) CN110674317B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021223165A1 (en) * 2020-05-07 2021-11-11 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for object evaluation
CN111753054B (zh) * 2020-06-22 2023-02-03 神思电子技术股份有限公司 一种基于图神经网络的机器阅读推断方法
CN111506709B (zh) * 2020-06-29 2020-10-20 科大讯飞(苏州)科技有限公司 实体链接方法、装置、电子设备和存储介质
CN112364650A (zh) * 2020-09-30 2021-02-12 深圳市罗湖区人民医院 一种实体关系联合抽取方法、终端以及存储介质
CN112507126B (zh) * 2020-12-07 2022-11-15 厦门渊亭信息科技有限公司 一种基于循环神经网络的实体链接装置和方法
CN112989235B (zh) * 2021-03-09 2023-08-01 北京百度网讯科技有限公司 基于知识库的内链构建方法、装置、设备和存储介质
CN113743104B (zh) * 2021-08-31 2024-04-16 合肥智能语音创新发展有限公司 实体链接方法及相关装置、电子设备、存储介质
WO2023068398A1 (ko) * 2021-10-20 2023-04-27 엘지전자 주식회사 무선 통신 시스템에서 시멘틱 통신을 지원을 하기 위한 방법 및 그 장치
CN114638231B (zh) * 2022-03-21 2023-07-28 马上消费金融股份有限公司 实体链接方法、装置及电子设备
WO2024072453A1 (en) * 2022-09-29 2024-04-04 Visa International Service Association Entity linking using a graph neural network

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783658B1 (en) * 2007-06-18 2010-08-24 Seisint, Inc. Multi-entity ontology weighting systems and methods
CN104915448A (zh) * 2015-06-30 2015-09-16 中国科学院自动化研究所 一种基于层次卷积网络的实体与段落链接方法
CN108763321A (zh) * 2018-05-02 2018-11-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN109753570A (zh) * 2019-01-11 2019-05-14 中山大学 一种基于Horn逻辑与图神经网络的场景图谱向量化方法
CN110277165A (zh) * 2019-06-27 2019-09-24 清华大学 基于图神经网络的辅助诊断方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020007290A1 (en) * 2000-05-15 2002-01-17 Gottlieb Joshua L. On-line system for service provisioning and reimbursement in health systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783658B1 (en) * 2007-06-18 2010-08-24 Seisint, Inc. Multi-entity ontology weighting systems and methods
CN104915448A (zh) * 2015-06-30 2015-09-16 中国科学院自动化研究所 一种基于层次卷积网络的实体与段落链接方法
CN108763321A (zh) * 2018-05-02 2018-11-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN109753570A (zh) * 2019-01-11 2019-05-14 中山大学 一种基于Horn逻辑与图神经网络的场景图谱向量化方法
CN110277165A (zh) * 2019-06-27 2019-09-24 清华大学 基于图神经网络的辅助诊断方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Entity Linking on Chinese Microblogs via Deep;Weixin Zeng等;《IEEE Access》;20180504;第25908-25920页 *
面向异质信息网络的表示学习方法研究综述;周慧等;《计算机科学与探索》;20190422;第1081-1093页 *

Also Published As

Publication number Publication date
CN110674317A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110674317B (zh) 一种基于图神经网络的实体链接方法及装置
CN112528672B (zh) 一种基于图卷积神经网络的方面级情感分析方法及装置
CN107491534B (zh) 信息处理方法和装置
Zhang et al. A quantum-inspired sentiment representation model for twitter sentiment analysis
US8452772B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere
CN110704626B (zh) 一种用于短文本的分类方法及装置
CN111401077B (zh) 语言模型的处理方法、装置和计算机设备
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111611807B (zh) 一种基于神经网络的关键词提取方法、装置及电子设备
CN111967264B (zh) 一种命名实体识别方法
WO2023159758A1 (zh) 数据增强方法和装置、电子设备、存储介质
Paul et al. Focused domain contextual AI chatbot framework for resource poor languages
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN113312480A (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
Mounika et al. Design of book recommendation system using sentiment analysis
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
Majdik et al. Building Better Machine Learning Models for Rhetorical Analyses: The Use of Rhetorical Feature Sets for Training Artificial Neural Network Models
CN111159405A (zh) 基于背景知识的讽刺检测方法
Asula et al. Kratt: Developing an automatic subject indexing tool for the national library of Estonia
Zadgaonkar et al. An Approach for Analyzing Unstructured Text Data Using Topic Modeling Techniques for Efficient Information Extraction
Sinan Yüksel et al. A real-time social network-based knowledge discovery system for decision making
Bucur Opinion Mining platform for Intelligence in business
CN113792131A (zh) 一种关键词的提取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant