CN109241294A - 一种实体链接方法及装置 - Google Patents

一种实体链接方法及装置 Download PDF

Info

Publication number
CN109241294A
CN109241294A CN201810994434.6A CN201810994434A CN109241294A CN 109241294 A CN109241294 A CN 109241294A CN 201810994434 A CN201810994434 A CN 201810994434A CN 109241294 A CN109241294 A CN 109241294A
Authority
CN
China
Prior art keywords
entity
vector
participle
censured
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810994434.6A
Other languages
English (en)
Inventor
郝茂祥
郑凯
段立新
江建军
王亚松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoxin Youe Data Co Ltd
Original Assignee
Guoxin Youe Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoxin Youe Data Co Ltd filed Critical Guoxin Youe Data Co Ltd
Priority to CN201810994434.6A priority Critical patent/CN109241294A/zh
Publication of CN109241294A publication Critical patent/CN109241294A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种实体链接方法及装置,其中,该方法包括:对文本进行处理,得到至少一个分词,至少一个分词中含有实体指称;确定至少一个分词各自对应的词向量;将至少一个分词各自对应的词向量输入至运算模型,计算实体指称的特征向量;计算实体指称的特征向量与候选实体集合中每个候选实体的特征向量之间的相似度;选取最大相似度对应的候选实体作为实体指称的链接实体。这样,能够从候选实体集合中选取出与文本中的实体指称匹配的候选实体,使得实体链接的准确性较高。

Description

一种实体链接方法及装置
技术领域
本申请涉及互联网技术领域,具体而言,涉及一种实体链接方法及装置。
背景技术
实体链接指的是将文本中的实体指称(Entity Mention)进行识别,并将其链接到知识图谱中相应实体的过程,可以解决实体间存在的歧义性问题。实体链接的关键在于如何从候选实体集合中筛选出正确的实体,这可以直接影响实体链接在自动问答、信息检索、知识图谱构建等领域的应用效果。例如,在智能回答系统中,对“职业生涯,乔丹的单场最高得分是多少?”这一文本进行解析时,首先要识别出“乔丹”这一实体指称实际上指的是知识图谱中“迈克尔·乔丹”这一实体,这样,才能够进一步根据知识图谱中关联的相关信息得到乔丹的单场最高得分。
相关技术中的实体链接方法仍然会存在准确度较低的缺陷,例如:基于流行度分析,主要是通过在候选实体集合中选择最流行的实体(即应用次数最多的实体)作为与实体指称相匹配的实体,这在实体不太常见时会出错。还有基于决策树的候选实体消歧,通过训练决策树进行消歧,准确度也有待提高,等等。
发明内容
有鉴于此,本申请实施例的目的在于提供一种实体链接方法及装置,以提高实体链接的准确性。
本申请实施例提供了一种实体链接方法,包括:
对文本进行处理,得到至少一个分词,所述至少一个分词中含有实体指称;
确定所述至少一个分词各自对应的词向量;
将所述至少一个分词各自对应的词向量输入至运算模型,计算所述实体指称的特征向量;
计算所述实体指称的特征向量与候选实体集合中每个候选实体的特征向量之间的相似度;
选取最大相似度对应的候选实体作为所述实体指称的链接实体。
可选的,所述运算模型包括双向长短时记忆网络模型,所述双向长短时记忆网络模型,基于输入的所述至少一个分词各自对应的词向量,计算得到所述至少一个分词各自的上下文向量;以及
所述计算所述实体指称对应的运算向量,包括:基于所述上下文向量计算所述实体指称对应的特征向量。
可选的,所述运算模型还包括注意力机制模型,所述注意力机制模型,基于输入的所述至少一个分词各自的上下文向量,按照时间顺序,先后输出所述至少一个分词各自对应的语境向量;以及
所述基于所述上下文向量计算所述实体指称对应的特征向量,包括:从基于所述上下文向量计算得到的所述语境向量中,选择所述实体指称对应的语境向量作为其特征向量。
可选的,所述方法还包括:基于已知实体链接结果对所述运算模型进行训练的步骤。
可选的,所述方法还包括:基于已有文本和/或词典,应用词向量生成模型,构建词向量库;以及
所述确定所述至少一个分词各自对应的词向量,包括:从所述词向量库中查找所述至少一个分词对应的词向量。
可选的,所述方法还包括:对于候选实体集合中的每个实体,基于该实体对应的摘要和/或正文信息,应用文档向量生成模型,计算得到该实体的特征向量。
可选的,所述方法还包括:将知识图谱中与所述实体指称有关的实体作为候选实体,形成所述候选实体集合。
可选的,所述相似度为余弦相似度。
本申请实施例还提供了一种实体链接装置,包括:
文本处理模块,用于对文本进行处理,得到至少一个分词,所述至少一个分词中含有实体指称;
词向量确定模块,用于确定所述至少一个分词各自对应的词向量;
指称向量计算模块,用于将所述至少一个分词各自对应的词向量输入至运算模型,计算所述实体指称的特征向量;
相似度计算模块,用于计算所述实体指称的特征向量与候选实体集合中每个候选实体的特征向量之间的相似度;
实体链接模块,用于选取最大相似度对应的候选实体作为所述实体指称的链接实体。
可选的,所述运算模型包括双向长短时记忆网络模型,所述双向长短时记忆网络模型,基于输入的所述至少一个分词各自对应的词向量,计算得到所述至少一个分词各自的上下文向量;
所述指称向量计算模块,具体用于基于所述上下文向量计算所述实体指称对应的特征向量。
本申请实施例提供的实体链接方法及装置,首先对文本进行处理,得到至少一个分词,至少一个分词中含有实体指称;然后确定至少一个分词各自对应的词向量,并将至少一个分词各自对应的词向量输入至运算模型,计算实体指称的特征向量;最后计算实体指称的特征向量与候选实体集合中每个候选实体的特征向量之间的相似度,并选取最大相似度对应的候选实体作为实体指称的链接实体。这样,便能够从候选实体集合中选取出与文本中的实体指称最匹配的候选实体,从而使得实体链接的准确性较高。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种实体链接方法的流程图;
图2示出了本申请实施例所提供的另一种实体链接方法的流程图;
图3示出了本申请实施例所提供的一种实体链接方法的应用示意图;
图4示出了本申请实施例所提供的一种实体链接装置的结构示意图;
图5示出了本申请实施例所提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到相关技术中基于流行度分析的实体链接方法往往会导致链接的实体不准确。基于此,本申请一种实施例提供了一种实体链接方法,以提高实体链接的准确性。
如图1所示,为本申请实施例提供的实体链接方法的流程图,应用于计算机设备,上述实体链接方法包括如下步骤:
S101、对文本进行处理,得到至少一个分词,至少一个分词中含有实体指称。
这里,文本的来源包括但不限于通过计算装置(如:计算机、服务器、笔记本、手持设备等)输入的一段文字,和/或对音频解析之后得到的一段文字,和/或对图像或视频解析之后得到的一段文字等。考虑到实体链接的关键与实体指称(即乔丹)的上下文有着密不可分的关系,因此,本申请实施例提供的实体链接方法在确定文本中实体指称的特征向量之前,首先需要对文本进行分词处理。通过对该文本的分词处理,便可以得到包含有实体指称的各个分词,其中,实体指称也作为一个分词。这里以“职业生涯中,乔丹的单场最高得分是多少”为例,通过分词处理,可以得到包含有“职业”、“生涯”、“中”、“乔丹”、“单场”、“最高”、以及“得分”等7个分词,其中,“乔丹”即作为实体指称。对文本的分词,可以采用现有技术中的分词方法,本申请对此并不做限制。
值得说明的是,在进行分词时,由于实体指称可能是一个长单词,如“苏州大学”,本身应该作为一个完整的分词,这种情况下,无需将“苏州”和“大学”作为两个分词。由此可以添加百科标题和词条同义词作为自定义词典,以根据该自定义词典确定最终的分词结果,从而更具适用性。除此之外,本申请实施例在分词的过程中,还可以直接去除一些停用词,如这、那、了、的等词。
S102、确定至少一个分词各自对应的词向量。
这里,在对目标文档进行分词处理得到的至少一个分词后,可以从预先构建的词向量库中得到该至少一个分词对应的词向量。上述词向量库,可以是基于已有文本和/或词典,在将文本和/或词典应用于词向量生成模型所生成的。例如,上述词向量生成模型可以基于数学化的方法:word2vec,将作为自然语言的分词(即文本和/或词典分词处理后的结果)转化为向量形式的数字信息,以便于机器识别,此过程称为编码(Encoder)。也即,采用语义向量(即词向量)来表示一个分词,这样,便可以基于所有分词的词向量构建词向量库。
常见的词表示模型包括基于一次性表示(One-hot Representation)的词表示模型、基于分布式表示(Distributed Representation)的词表示模型,等。例如,前一种词表示模型通常用一个很长的向量来表示一个词,向量长度为词典的词量大小N,每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典中的位置。也即,前一种词表示模型是采用稀疏方式存储词信息,也就是给每个词分配一个数字标识,表示形式相对简洁。后一种词表示模型则通常需要根据上下文信息进行语义表示,也即,相同语境出现的词,其语义也相近。也即,后一种词表示模型是采用稠密方式存储词信息,表示形式相对复杂,但其能挖掘词汇之间的关联属性,有助于提高语义表达的准确度。
S103、将至少一个分词各自对应的词向量输入至运算模型,计算实体指称的特征向量。
这里,在本申请实施例中,通过将分词对应的词向量输入至运算模型即可得到实体指称的特征向量。这里,运算模型可以是预先训练好的向量转换模型,该向量转换模型可以是根据所有参考分词对应的词向量以及实体指称对应的特征向量训练得到的,例如,上述参考分词可以是使用汉语言处理包(Han Language Processing,HanLP)开源工具爬取的百度百科词条的简介及其正文内容所对应的文本中分词得到的。
在具体实施中,采用的运算模型可以将至少一个分词各自对应的词向量映射为实体指称对应的特征向量,这样,对实体指称的特征向量表示综合了上下文信息。
S104、计算实体指称的特征向量与候选实体集合中每个候选实体的特征向量之间的相似度。
这里,为了便于从候选实体集合中筛选出与实体指称最相近的候选实体,本申请实施例提供的实体链接方法可以通过实体指称的特征向量与候选实体集合中每个候选实体的特征向量之间的相似度的计算结果来确定。
其中,上述相似度,可以是实体指称的特征向量与候选实体的特征向量之间的余弦相似度,如下式(1)来确定:
其中,A=(A1,A2,...,An),用于表示实体指称的特征向量,B=(B1,B2,...,Bn),用于表示任一候选实体的特征向量。
可见,基于实体指称的特征向量与候选实体的特征向量之间的余弦相似度便可以确定实体指称与候选实体集合中的任一候选实体的距离,距离越小,说明两者越接近,距离越大,说明两者越远离。
值得说明的是,为了便于从候选实体集合中选取出与实体指称最接近的候选实体,本申请实施例中的候选实体集合可以是将知识图谱中与实体指称有关的实体作为候选实体纳入至该候选实体集合中。其中,上述知识图谱可以是Freebase知识图谱,还可以是Wordnet知识图谱,还可以是YAGO知识图谱,还可以是其他知识图谱,本申请实施例对此不做具体的限制。
S105、选取最大相似度对应的候选实体作为实体指称的链接实体。
这里,本申请实施例旨在选取与实体指称最接近的候选实体,也即,可以从候选实体集合中选取最大相似度对应的候选实体作为实体指称的链接实体,由于充分考虑了上下文环境对实体指称的影响,从而使得实体链接的准确性较高。
本申请实施例中,考虑到实体指称的特征向量的确定与该实体指称的上下分词存在必然的联系,因此,为了便于将实体指称与候选实体集合中的候选实体放在同一条件下进行比较,本申请实施例对于候选实体的确定可以是依赖于该候选实体对应的摘要和/或正文信息的,这样,便可以应用文档向量生成模型,计算得到该候选实体的特征向量。
其中,上述文档向量生成模型可以基于数学化的方法:Doc2vec,将作为自然语言的文档(即包含候选实体对应的摘要和/或正文信息)转化为向量形式的数字信息,以便于机器识别。也即,采用语义向量(即特征向量)来表示一个文档,这样,便可以基于文档的向量生成结果得到对应于候选实体的特征向量。其中,该文档向量生成模型的训练过程与上述词向量生成模型的训练过程类似,可以利用现有的文档-词频矩阵(term frequency–inverse document frequency,TF-IDF),文档主题生成(Latent Dirichlet Allocation,LDA),文档相似度索引(Latent Semantic Indexing,LSI)等模型来具体实现,在此不再赘述。
在具体实施中,本申请实施例提供的实体链接方法可以采用循环神经网络(Recurrent Neural Networks,RNN)。更进一步,基于长短时记忆(Long Short-TermMemory,LSTM)网络进行模型训练及运算。采用LSTM网络通过反复迭代学习,逐渐掌握各种基础知识,并最终学习到如何根据分词处理得到的至少一个分词对应的词向量生成至少一个分词各自的上下文向量,以根据该上下文向量计算得到一个符合实体指称的特征向量,该特征向量能够兼容上下文的信息。
另外,本申请实施例还可以在LSTM网络的基础之上增加注意力机制模型,以通过考虑每个分词对实体指称的不同影响来确定相应的权重因素,以进一步提高向量转换的准确性。
接下来结合图2对本申请实施例采用LSTM网络和注意力机制模型进行训练的流程作如下说明。
这里,以“职业生涯中,乔丹的单场最高得分是多少”为例,进行分词并确定词向量之后,向模型输入“职业”、“生涯”、“中”、“乔丹”、“单场”、“最高”、以及“得分”这7个分词的词向量,经过LSTM网络相关内部参数(即l1~l7和r1~r7)的运算后,可以得到针对任一分词的中间向量hj,其中,j的取值范围为1~7,且h1~h7与上述7个分词一一对应。接着,输入h1~h7这7个中间向量,经过注意力机制模型相关内部参数(即at1~at7)的运算后,可以得到针对任一分词的语境向量St,其中,其中,t的取值范围为1~7,且S1~S7与上述7个分词一一对应。最后基于St便可以得到上述文本中所有分词的特征向量。
这里,上述注意力机制模型用于能够基于输入的至少一个分词各自的上下文向量,按照时间顺序,先后输出至少一个分词各自对应的语境向量,以从基于上下文向量计算得到的语境向量中,选择实体指称对应的语境向量作为其特征向量。
为了便于对上述注意力机制模型的进一步理解,现结合如下公式(2)进行具体说明。
st=f(st-1,Ct) (2)
其中,函数f可以是激活函数,如sigmod、tanh等函数,n代表共有n个单词作为输入。atj代表t时刻的单词注意力应该分配给单词j的权重,越大说明单词j对t时刻单词的影响比较大。
这里,仍以“职业生涯中,乔丹的单场最高得分是多少”为例,S0用于表示一个初始语境向量,S1~S7用于表示“职业”、“生涯”、“中”、“乔丹”、“单场”、“最高”、以及“得分”这7个分词对应的语境向量,每个分词对应的语境向量不仅和该分词前一时刻的一个分词的语境向量相关,还与其他分词的上下文向量及该上下文向量对该分词的权重分配值相关,这样,对于输入为7个分词的运算模型而言,针对每个分词均对应有相应的语境向量,也即,可以有7个语境向量,本申请实施例旨在选取实体指称所在时刻的语境向量。也即,在以“职业生涯中,乔丹的单场最高得分是多少”为例时,实体指称指的是“乔丹”,此时,只需将第四个时刻对应的语境向量,也即S4作为上述运算模型的输出向量,以得到对应于实体指称的特征向量即可。
本申请实施例在对运算进行训练时,还可以基于于已知实体链接结果对该运算模型进行训练,也即,本申请实施例可以利用已知的实体指称所代表的实体,将其向量输入到模型中,将模型结果与已知实体进行比较,通过不断调整模型的参数来进行运算模型的训练。
为了便于对本申请实施例提供的实体链接方法的进一步理解,现结合一个具体的应用实例进行说明。
如图3所示,在文本“职业生涯中,乔丹单场最高得分是多少?”中,可以知道“乔丹”是一个实体指称,在知识图谱中,对应着很多实体。根据已知知识可以判断的是上述“乔丹”应该指的是“迈克尔·乔丹”。通过本申请实施例提供的实体链接方法,可以得到短文本中实体指称“乔丹”的特征向量,同时训练出候选实体列表(即候选实体集合)中每个候选实体对应的文档向量作为对应候选实体的特征向量,最后计算指称向量和实体向量的余弦相似度。通过示例可知,“迈克尔·乔丹”这一实体的相似度最高,所以该候选实体即可以作为本申请实施例实现实体链接的最终结果。
基于同一发明构思,本申请实施例提供了一种与实体链接方法对应的实体链接装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述实体链接方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
如图4所示,本申请实施例所提供的实体链接装置的结构示意图,该实体链接装置具体包括:
文本处理模块401,用于对文本进行处理,得到至少一个分词,至少一个分词中含有实体指称;
词向量确定模块402,用于确定至少一个分词各自对应的词向量;
指称向量计算模块403,用于将至少一个分词各自对应的词向量输入至运算模型,计算实体指称的特征向量;
相似度计算模块404,用于计算实体指称的特征向量与候选实体集合中每个候选实体的特征向量之间的相似度;
实体链接模块405,用于选取最大相似度对应的候选实体作为实体指称的链接实体。
在一种实施方式中,运算模型包括双向长短时记忆网络模型,双向长短时记忆网络模型,基于输入的至少一个分词各自对应的词向量,计算得到至少一个分词各自的上下文向量;
指称向量计算模块403,具体用于基于上下文向量计算实体指称对应的特征向量。
在另一种实施方式中,运算模型还包括注意力机制模型,注意力机制模型,基于输入的至少一个分词各自的上下文向量,按照时间顺序,先后输出至少一个分词各自对应的语境向量;以及
指称向量计算模块403,具体用于从基于上下文向量计算得到的语境向量中,选择实体指称对应的语境向量作为其特征向量。
在另一种实施方式中,上述实体链接装置还包括:
模型训练模块406,用于基于已知实体链接结果对运算模型进行训练。
在又一种实施方式中,上述实体链接装置还包括:
向量库构建模块407,用于基于已有文本和/或词典,应用词向量生成模型,构建词向量库;
词向量确定模块402,用于从词向量库中查找至少一个分词对应的词向量。
在再一种实施方式中,上述实体链接装置还包括:
候选向量计算模块408,用于对于候选实体集合中的每个实体,基于该实体对应的摘要和/或正文信息,应用文档向量生成模型,计算得到该实体的特征向量。
在再一种实施方式中,上述实体链接装置还包括:
候选集合生成模块409,用于将知识图谱中与实体指称有关的实体作为候选实体,形成候选实体集合。
其中,上述相似度为余弦相似度。
如图5所示,为本申请实施例所提供的计算机设备的装置示意图,该计算机设备包括:处理器501、存储器502和总线503,存储器502存储执行指令,当装置运行时,处理器501与存储器502之间通过总线503通信,处理器501执行存储器502中存储的如下执行指令:
对文本进行处理,得到至少一个分词,至少一个分词中含有实体指称;
确定至少一个分词各自对应的词向量;
将至少一个分词各自对应的词向量输入至运算模型,计算实体指称的特征向量;
计算实体指称的特征向量与候选实体集合中每个候选实体的特征向量之间的相似度;
选取最大相似度对应的候选实体作为实体指称的链接实体。
在一种实施方式中,运算模型包括双向长短时记忆网络模型,双向长短时记忆网络模型,基于输入的至少一个分词各自对应的词向量,计算得到至少一个分词各自的上下文向量;上述处理器501执行的处理中,计算实体指称对应的运算向量,包括:基于上下文向量计算实体指称对应的特征向量。
在另一种实施方式中,运算模型还包括注意力机制模型,注意力机制模型,基于输入的至少一个分词各自的上下文向量,按照时间顺序,先后输出至少一个分词各自对应的语境向量;上述处理器501执行的处理中,基于上下文向量计算实体指称对应的特征向量,包括:从基于上下文向量计算得到的语境向量中,选择实体指称对应的语境向量作为其特征向量。
在又一种实施方式中,上述处理器501执行的处理还包括:基于已知实体链接结果对运算模型进行训练的步骤。
在再一种实施方式中,上述处理器501执行的处理还包括:基于已有文本和/或词典,应用词向量生成模型,构建词向量库;
上述处理器501执行的处理中,确定至少一个分词各自对应的词向量,包括:从词向量库中查找至少一个分词对应的词向量。
在再一种实施方式中,上述处理器501执行的处理还包括:对于候选实体集合中的每个实体,基于该实体对应的摘要和/或正文信息,应用文档向量生成模型,计算得到该实体的特征向量。
在再一种实施方式中,上述处理器501执行的处理还包括:将知识图谱中与实体指称有关的实体作为候选实体,形成候选实体集合。
其中,相似度为余弦相似度。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器501运行时执行实体链接方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述实体链接方法,从而解决相关技术中基于流行度分析的实体链接方法往往会导致链接的实体不准确的问题,用以提升实体链接的准确性。
本申请实施例所提供的实体链接方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种实体链接方法,其特征在于,包括:
对文本进行处理,得到至少一个分词,所述至少一个分词中含有实体指称;
确定所述至少一个分词各自对应的词向量;
将所述至少一个分词各自对应的词向量输入至运算模型,计算所述实体指称的特征向量;
计算所述实体指称的特征向量与候选实体集合中每个候选实体的特征向量之间的相似度;
选取最大相似度对应的候选实体作为所述实体指称的链接实体。
2.根据权利要求1所述的方法,其特征在于,所述运算模型包括双向长短时记忆网络模型,所述双向长短时记忆网络模型,基于输入的所述至少一个分词各自对应的词向量,计算得到所述至少一个分词各自的上下文向量;以及
所述计算所述实体指称对应的运算向量,包括:基于所述上下文向量计算所述实体指称对应的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述运算模型还包括注意力机制模型,所述注意力机制模型,基于输入的所述至少一个分词各自的上下文向量,按照时间顺序,先后输出所述至少一个分词各自对应的语境向量;以及
所述基于所述上下文向量计算所述实体指称对应的特征向量,包括:从基于所述上下文向量计算得到的所述语境向量中,选择所述实体指称对应的语境向量作为其特征向量。
4.根据权利要求1-3任一所述的方法,其特征在于,还包括:基于已知实体链接结果对所述运算模型进行训练的步骤。
5.根据权利要求1-3任一所述的方法,其特征在于,还包括:基于已有文本和/或词典,应用词向量生成模型,构建词向量库;以及
所述确定所述至少一个分词各自对应的词向量,包括:从所述词向量库中查找所述至少一个分词对应的词向量。
6.根据权利要求1-3任一所述的方法,其特征在于,还包括:对于候选实体集合中的每个实体,基于该实体对应的摘要和/或正文信息,应用文档向量生成模型,计算得到该实体的特征向量。
7.根据权利要求1-3任一所述的方法,其特征在于,还包括:将知识图谱中与所述实体指称有关的实体作为候选实体,形成所述候选实体集合。
8.根据权利要求1-3任一所述的方法,其特征在于,所述相似度为余弦相似度。
9.一种实体链接装置,其特征在于,包括:
文本处理模块,用于对文本进行处理,得到至少一个分词,所述至少一个分词中含有实体指称;
词向量确定模块,用于确定所述至少一个分词各自对应的词向量;
指称向量计算模块,用于将所述至少一个分词各自对应的词向量输入至运算模型,计算所述实体指称的特征向量;
相似度计算模块,用于计算所述实体指称的特征向量与候选实体集合中每个候选实体的特征向量之间的相似度;
实体链接模块,用于选取最大相似度对应的候选实体作为所述实体指称的链接实体。
10.根据权利要求9所述的装置,其特征在于,所述运算模型包括双向长短时记忆网络模型,所述双向长短时记忆网络模型,基于输入的所述至少一个分词各自对应的词向量,计算得到所述至少一个分词各自的上下文向量;
所述指称向量计算模块,具体用于基于所述上下文向量计算所述实体指称对应的特征向量。
CN201810994434.6A 2018-08-29 2018-08-29 一种实体链接方法及装置 Pending CN109241294A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810994434.6A CN109241294A (zh) 2018-08-29 2018-08-29 一种实体链接方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810994434.6A CN109241294A (zh) 2018-08-29 2018-08-29 一种实体链接方法及装置

Publications (1)

Publication Number Publication Date
CN109241294A true CN109241294A (zh) 2019-01-18

Family

ID=65068822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810994434.6A Pending CN109241294A (zh) 2018-08-29 2018-08-29 一种实体链接方法及装置

Country Status (1)

Country Link
CN (1) CN109241294A (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918669A (zh) * 2019-03-08 2019-06-21 腾讯科技(深圳)有限公司 实体确定方法、装置及存储介质
CN110147421A (zh) * 2019-05-10 2019-08-20 腾讯科技(深圳)有限公司 一种目标实体链接方法、装置、设备及存储介质
CN110287396A (zh) * 2019-05-07 2019-09-27 清华大学 文本匹配方法及装置
CN110413737A (zh) * 2019-07-29 2019-11-05 腾讯科技(深圳)有限公司 一种同义词的确定方法、装置、服务器及可读存储介质
CN110502740A (zh) * 2019-07-03 2019-11-26 平安科技(深圳)有限公司 问句实体识别与链接方法、装置、计算机设备及存储介质
CN110532368A (zh) * 2019-09-04 2019-12-03 深圳前海达闼云端智能科技有限公司 问答方法、电子设备及计算机可读存储介质
CN110659368A (zh) * 2019-09-20 2020-01-07 北京明略软件系统有限公司 知识图谱构建方法、装置、电子设备及可读存储介质
CN111062214A (zh) * 2019-11-25 2020-04-24 中国科学院计算技术研究所 基于深度学习的集成实体链接方法及系统
CN111159393A (zh) * 2019-12-30 2020-05-15 电子科技大学 一种基于lda和d2v进行摘要抽取的文本生成方法
CN111191454A (zh) * 2020-01-06 2020-05-22 精硕科技(北京)股份有限公司 一种实体匹配的方法及装置
CN111325033A (zh) * 2020-03-20 2020-06-23 中国建设银行股份有限公司 实体识别方法、装置、电子设备及计算机可读存储介质
CN111339737A (zh) * 2020-02-27 2020-06-26 北京声智科技有限公司 实体链接方法、装置、设备及存储介质
CN111368532A (zh) * 2020-03-18 2020-07-03 昆明理工大学 一种基于lda的主题词嵌入消歧方法及系统
CN111506709A (zh) * 2020-06-29 2020-08-07 科大讯飞(苏州)科技有限公司 实体链接方法、装置、电子设备和存储介质
CN111581973A (zh) * 2020-04-24 2020-08-25 中国科学院空天信息创新研究院 一种实体消歧方法及系统
CN112148886A (zh) * 2020-09-04 2020-12-29 上海晏鼠计算机技术股份有限公司 一种内容知识图谱的构建方法及系统
CN112185574A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 远程医疗实体链接的方法、装置、设备及存储介质
WO2021000676A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 问答方法、问答装置、计算机设备及存储介质
CN112214685A (zh) * 2020-09-27 2021-01-12 电子科技大学 一种基于知识图谱的个性化推荐方法
CN112380865A (zh) * 2020-11-10 2021-02-19 北京小米松果电子有限公司 识别文本中的实体方法、装置及存储介质
CN112463914A (zh) * 2021-02-01 2021-03-09 中国人民解放军国防科技大学 一种用于互联网服务的实体链接方法、装置及存储介质
CN112487211A (zh) * 2020-12-15 2021-03-12 交控科技股份有限公司 一种轨道交通知识库构建方法及系统
CN112560466A (zh) * 2020-12-24 2021-03-26 北京百度网讯科技有限公司 链接实体关联方法、装置、电子设备和存储介质
CN113010633A (zh) * 2019-12-20 2021-06-22 海信视像科技股份有限公司 一种信息交互方法及设备
CN113095524A (zh) * 2021-05-14 2021-07-09 中国电力科学研究院有限公司 电力设备检修工作单据智能生成方法、系统及存储介质
CN113220835A (zh) * 2021-05-08 2021-08-06 北京百度网讯科技有限公司 文本信息处理方法、装置、电子设备以及存储介质
CN113239257A (zh) * 2021-06-07 2021-08-10 北京字跳网络技术有限公司 信息处理方法、装置、电子设备及存储介质
CN113723605A (zh) * 2020-05-26 2021-11-30 株式会社理光 实体链接方法、装置及可读存储介质
CN115599903A (zh) * 2021-07-07 2023-01-13 腾讯科技(深圳)有限公司(Cn) 对象标签获取方法、装置、电子设备及存储介质
CN118093788A (zh) * 2024-04-22 2024-05-28 成都同步新创科技股份有限公司 一种基于大模型的中小企业知识库的构建与搜索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
CN106934020A (zh) * 2017-03-10 2017-07-07 东南大学 一种基于多域实体索引的实体链接方法
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107526798A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于神经网络的实体识别和规范化联合方法及模型
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
CN106934020A (zh) * 2017-03-10 2017-07-07 东南大学 一种基于多域实体索引的实体链接方法
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107526798A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于神经网络的实体识别和规范化联合方法及模型
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918669B (zh) * 2019-03-08 2023-08-08 腾讯科技(深圳)有限公司 实体确定方法、装置及存储介质
CN109918669A (zh) * 2019-03-08 2019-06-21 腾讯科技(深圳)有限公司 实体确定方法、装置及存储介质
CN110287396A (zh) * 2019-05-07 2019-09-27 清华大学 文本匹配方法及装置
CN110287396B (zh) * 2019-05-07 2021-08-03 清华大学 文本匹配方法及装置
CN110147421A (zh) * 2019-05-10 2019-08-20 腾讯科技(深圳)有限公司 一种目标实体链接方法、装置、设备及存储介质
CN110147421B (zh) * 2019-05-10 2022-06-21 腾讯科技(深圳)有限公司 一种目标实体链接方法、装置、设备及存储介质
CN110502740A (zh) * 2019-07-03 2019-11-26 平安科技(深圳)有限公司 问句实体识别与链接方法、装置、计算机设备及存储介质
CN110502740B (zh) * 2019-07-03 2022-05-17 平安科技(深圳)有限公司 问句实体识别与链接方法、装置、计算机设备及存储介质
WO2021000676A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 问答方法、问答装置、计算机设备及存储介质
CN110413737A (zh) * 2019-07-29 2019-11-05 腾讯科技(深圳)有限公司 一种同义词的确定方法、装置、服务器及可读存储介质
CN110413737B (zh) * 2019-07-29 2022-10-14 腾讯科技(深圳)有限公司 一种同义词的确定方法、装置、服务器及可读存储介质
CN110532368A (zh) * 2019-09-04 2019-12-03 深圳前海达闼云端智能科技有限公司 问答方法、电子设备及计算机可读存储介质
CN110659368A (zh) * 2019-09-20 2020-01-07 北京明略软件系统有限公司 知识图谱构建方法、装置、电子设备及可读存储介质
CN111062214A (zh) * 2019-11-25 2020-04-24 中国科学院计算技术研究所 基于深度学习的集成实体链接方法及系统
CN113010633B (zh) * 2019-12-20 2023-01-31 海信视像科技股份有限公司 一种信息交互方法及设备
CN113010633A (zh) * 2019-12-20 2021-06-22 海信视像科技股份有限公司 一种信息交互方法及设备
CN111159393B (zh) * 2019-12-30 2023-10-10 电子科技大学 一种基于lda和d2v进行摘要抽取的文本生成方法
CN111159393A (zh) * 2019-12-30 2020-05-15 电子科技大学 一种基于lda和d2v进行摘要抽取的文本生成方法
CN111191454A (zh) * 2020-01-06 2020-05-22 精硕科技(北京)股份有限公司 一种实体匹配的方法及装置
CN111339737A (zh) * 2020-02-27 2020-06-26 北京声智科技有限公司 实体链接方法、装置、设备及存储介质
CN111339737B (zh) * 2020-02-27 2023-12-12 北京声智科技有限公司 实体链接方法、装置、设备及存储介质
CN111368532B (zh) * 2020-03-18 2022-12-09 昆明理工大学 一种基于lda的主题词嵌入消歧方法及系统
CN111368532A (zh) * 2020-03-18 2020-07-03 昆明理工大学 一种基于lda的主题词嵌入消歧方法及系统
CN111325033A (zh) * 2020-03-20 2020-06-23 中国建设银行股份有限公司 实体识别方法、装置、电子设备及计算机可读存储介质
CN111581973A (zh) * 2020-04-24 2020-08-25 中国科学院空天信息创新研究院 一种实体消歧方法及系统
CN111581973B (zh) * 2020-04-24 2020-12-29 中国科学院空天信息创新研究院 一种实体消歧方法及系统
CN113723605A (zh) * 2020-05-26 2021-11-30 株式会社理光 实体链接方法、装置及可读存储介质
CN111506709A (zh) * 2020-06-29 2020-08-07 科大讯飞(苏州)科技有限公司 实体链接方法、装置、电子设备和存储介质
CN112148886A (zh) * 2020-09-04 2020-12-29 上海晏鼠计算机技术股份有限公司 一种内容知识图谱的构建方法及系统
CN112214685B (zh) * 2020-09-27 2023-03-28 电子科技大学 一种基于知识图谱的个性化推荐方法
CN112214685A (zh) * 2020-09-27 2021-01-12 电子科技大学 一种基于知识图谱的个性化推荐方法
CN112185574A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 远程医疗实体链接的方法、装置、设备及存储介质
CN112380865A (zh) * 2020-11-10 2021-02-19 北京小米松果电子有限公司 识别文本中的实体方法、装置及存储介质
CN112487211A (zh) * 2020-12-15 2021-03-12 交控科技股份有限公司 一种轨道交通知识库构建方法及系统
CN112487211B (zh) * 2020-12-15 2024-04-26 交控科技股份有限公司 一种轨道交通知识库构建方法及系统
CN112560466B (zh) * 2020-12-24 2023-07-25 北京百度网讯科技有限公司 链接实体关联方法、装置、电子设备和存储介质
CN112560466A (zh) * 2020-12-24 2021-03-26 北京百度网讯科技有限公司 链接实体关联方法、装置、电子设备和存储介质
CN112463914A (zh) * 2021-02-01 2021-03-09 中国人民解放军国防科技大学 一种用于互联网服务的实体链接方法、装置及存储介质
CN113220835A (zh) * 2021-05-08 2021-08-06 北京百度网讯科技有限公司 文本信息处理方法、装置、电子设备以及存储介质
CN113220835B (zh) * 2021-05-08 2023-09-29 北京百度网讯科技有限公司 文本信息处理方法、装置、电子设备以及存储介质
CN113095524A (zh) * 2021-05-14 2021-07-09 中国电力科学研究院有限公司 电力设备检修工作单据智能生成方法、系统及存储介质
CN113239257A (zh) * 2021-06-07 2021-08-10 北京字跳网络技术有限公司 信息处理方法、装置、电子设备及存储介质
CN113239257B (zh) * 2021-06-07 2024-05-14 北京字跳网络技术有限公司 信息处理方法、装置、电子设备及存储介质
CN115599903A (zh) * 2021-07-07 2023-01-13 腾讯科技(深圳)有限公司(Cn) 对象标签获取方法、装置、电子设备及存储介质
CN115599903B (zh) * 2021-07-07 2024-06-04 腾讯科技(深圳)有限公司 对象标签获取方法、装置、电子设备及存储介质
CN118093788A (zh) * 2024-04-22 2024-05-28 成都同步新创科技股份有限公司 一种基于大模型的中小企业知识库的构建与搜索方法

Similar Documents

Publication Publication Date Title
CN109241294A (zh) 一种实体链接方法及装置
Basaldella et al. Bidirectional lstm recurrent neural network for keyphrase extraction
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN110737758A (zh) 用于生成模型的方法和装置
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN107305539A (zh) 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
KR102695381B1 (ko) 엔티티-속성 관계 식별
WO2013144220A1 (en) A method and apparatus for computer assisted innovation
Xun et al. A survey on context learning
Wang et al. A deep learning approach for question answering over knowledge base
CN112800205A (zh) 基于语义变化流形分析获取问答相关段落的方法、装置
CN111881264A (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN110516175A (zh) 一种确定用户标签的方法、装置、设备和介质
CN110287396B (zh) 文本匹配方法及装置
CN116628162A (zh) 语义问答方法、装置、设备及存储介质
Zhao et al. Missing RDF triples detection and correction in knowledge graphs
Rakhimova et al. The Task of Generating Text Based on a Semantic Approach for a Low-Resource Kazakh Language
Popova et al. Sentiment analysis of short russian texts using bert and word2vec embeddings
CN105808522A (zh) 一种语义联想的方法及装置
Kyriakakis et al. Enabling ontology-based search: a case study in the bioinformatics domain
Abo-Elghit et al. Embedding Extraction for Arabic Text Using the AraBERT Model.
Mishra Natural Language Processing Using PyTorch
Görnerup et al. Knowing an object by the company it keeps: a domain-agnostic scheme for similarity discovery
Bosc et al. Learning word embeddings from dictionary definitions only

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 101-8, 1st floor, building 31, area 1, 188 South Fourth Ring Road West, Fengtai District, Beijing

Applicant after: Guoxin Youyi Data Co., Ltd

Address before: 100070, No. 188, building 31, headquarters square, South Fourth Ring Road West, Fengtai District, Beijing

Applicant before: SIC YOUE DATA Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190118