CN106295796A - 基于深度学习的实体链接方法 - Google Patents

基于深度学习的实体链接方法 Download PDF

Info

Publication number
CN106295796A
CN106295796A CN201610592067.8A CN201610592067A CN106295796A CN 106295796 A CN106295796 A CN 106295796A CN 201610592067 A CN201610592067 A CN 201610592067A CN 106295796 A CN106295796 A CN 106295796A
Authority
CN
China
Prior art keywords
entity
vector
candidate
linked
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610592067.8A
Other languages
English (en)
Other versions
CN106295796B (zh
Inventor
鲁伟明
张震宇
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201610592067.8A priority Critical patent/CN106295796B/zh
Publication of CN106295796A publication Critical patent/CN106295796A/zh
Application granted granted Critical
Publication of CN106295796B publication Critical patent/CN106295796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的实体链接方法。设计了一种神经网络来计算实体指称与所有候选实体概念之间的相似度,把文本构建成有向图,利用随机游走算法计算文本中每一实体指称到其对应的候选实体的相似度排序,选择相似度最高的实体作为实体指称链接的目标。本发明通过对实体指称的上下文分词结果、候选实体分类标签做词向量表达,对实体指称上下文、候选实体的百科文档做文档向量表达,来作为神经网络的特征输入。利用双向长短时记忆递归神经网络结合上下文文档向量来表达实体指称,卷积神经网络结合候选实体文档向量来表达候选实体,并用三元组损失函数来训练。本发明实现了文本中的实体指称链接,消除实体歧义,帮助理解文本和构建知识库。

Description

基于深度学习的实体链接方法
技术领域
本发明涉及一种基于深度学习的实体链接,尤其涉及一种利用神经网络和图算法结合来做实体链接的技术。
背景技术
信息爆炸在带来海量信息的同时,也对快速准确地获取目标信息提出了挑战。为了获取目标信息,我们需要处理大量无用的信息。这一问题源于自然语言表达的多样性,具体来说,即是同一实体可用不同的文本表达(多词一义),而同一文本可能表达多个不同的实体(一词多义)。通过进行实体链接(Entity Link),也即将文本中的实体指称与知识库中的实体进行链接,能够将文本数据转化为带有实体标注的文本,进而帮助人和计算机理解文本的具体含义。它一方面能够为人带来更好的阅读体验,帮助人们更好地理解所游览信息的含义,另一方面也能辅助构建以实体为核心的信息网络,推动语义网络和知识图谱的房展。通过为互联网上的文档添加能够被计算机所理解的语义数据,并将这些含有语义是实体以图的形式联结起来,是互联网的信息交流变得更有效率。实体链接是对文本的实体标注,是计算机能够对实体而非文本进行处理,从而更好地理解文本的含义。
实体链接是指将文档中出现的文本片段,即实体指称(entity mention)链向其在特定知识库(Knowledge Base)中响应条目的过程。在实体链接研究中所使用的知识库包括英文知识库TAP、维基百科、Freebase、YAGO以及中文知识库百度百科、互动百科、中文维基百科等。实体链接能够利用知识库丰富文本的语义信息,在文本分类和聚类、信息检索、知识库构建、知识图谱构建等领域有着重要的理论意义和应用前景。
此外,国际评测会议对实体链接的评测给予了一定的关注,如INEX会议中的“Linkthe Wiki”任务、TAC会议的KBP任务、TREC会议的KBA任务等。
实体链接是一个新兴的研究领域,对自然语言处理、信息检索领域有着重要的潜在价值,是语义网络技术的重要基础。尽管实体链接领域已有多年的研究,但依然存在一些局限。目前尚没有一个受到广泛认可的实体链接评测框架,不同实体链接研究在问题定义、基本假设、评测数据集、语言区别等多个维度均存在交大差异,难以进行有效的比较。不过,从会议的发展趋势来看,越来越多的会议让研究者通过参加挑战赛和研讨会的方式在定义明确的数据集上利用各自的算法解决问题。如由微软和谷歌赞助的实体检测与消歧挑战赛提供了开放的接口,供研究者评测其实体链接系统的性能,并参加研讨会交流经验,共同推动实体链接研究的发展。
发明内容
本发明的目的是利用知识库丰富的语义信息来帮助用户和计算机更好的理解文本的含义,达到阅读增强的目的,并给出了一种基于深度学习的实体链接方法。
本发明的目的是通过以下技术方案来实现的:一种基于深度学习的实体链接方法,实体链接是针对一段文本中的一些实体指称(mention),找到它们可能对应的多个概念并消除歧义,使得每个实体指称能够唯一地对应到知识库中的一个实体(entity)上。该方法包括以下步骤:
1)数据预处理:对百科数据库全文做基于深度学习的词向量表达和文档向量表达训练;然后用训练好的模型对分词后的词语做词向量表达,对所有百科数据库中的实体文档做文档向量表达;对于一段新输入的文本,分别提取文本中所有待链接的实体指称、实体指称对应的所有候选实体、以及所有无歧义已链接的实体指称;在百科数据库中找出候选实体的所有分类标签;
2)神经网络结构设计与训练:将步骤1)预处理后的数据作为神经网络的输入特征,对神经网络进行参数调整,并训练神经网络,最终得到文本中每一个待链接的实体指称到其对应的所有候选实体的相似度。神经网络用双向LSTM和文档向量的结合来表达实体指称,用卷积神经网络和文档向量的结合来表达候选实体;
3)基于神经网络相似度的有向图排序:将一段文本中的每一个待链接的实体指称和其对应的所有候选实体、以及文本中已存在的无歧义已链接的实体指称对应的实体作为图节点,将步骤2)得到的相似度作为待链接的实体指称节点和对应候选实体节点之间的边权重,将候选实体的百科文档的文档向量之间的相似度作为候选实体之间的边权重;通过随机游走算法对有向图进行迭代计算直到边权值收敛,最后得到待链接的实体指称到对应候选实体的最终边值,选取边值最高者作为实体链接对象。
进一步地,所述的步骤1)中,
1.1)训练词向量和文档向量的表达:语料库选择为百度百科所有词条全文文档的集合,用skip-gram模型对该语料库训练word2vector(词向量表达)和doc2vector(文档向量表达),对百度百科所有词条文档做文档向量表达,对百度百科所有分类标签做词向量表达,用基于HanLP汉语词性标准的one-hot(独热编码)来表达词性向量;
1.2)用步骤1.1)训练好的模型表达词向量:对于给定文本,用HanLP对该文本进行分词,每一个分词元组包括词语以及词性,并用训练好的词向量模型和词性向量模型来表达;
C = Σ ( V w → , V n → )
V w → = ( V ( w , f ) i , V ( w , b ) i ) ; V n → = ( V ( n , f ) i , V ( n , b ) i )
其中,C表示上下文词集数组,表示词向量,表示词性向量。即对于一段上下文,可以用有限个词向量和词性向量的集合来表达。
对于一个待链接的实体指称,用mi表示它的词向量,用表达它上文所有的词向量,用表达它下文所有的词向量,用表达它上文所有的词性向量,用表达它下文所有的词性向量。
进一步地,所述的步骤2)具体包括以下子步骤:
2.1)将提取的特征输入到神经网络的双向LSTM(BLSTM)部分中。对于一个待链接的实体指称mi,将它上下文的词向量和词性向量分别输入到两个BLSTM的网络中,并在输出序列中取到待链接的实体指称mi对应位置的输出公式如下:
M t i = BLSTM t ( V ( w , f ) i , V ( w , b ) i )
M s i = BLSTM s ( V ( n , f ) i , V ( n , b ) i )
然后将这两个向量和上下文的文档向量Dm进行拼接,并通过三层不同权重的全连接层让向量获得充分学习,获得表达一个待链接实体指称的向量Mi,公式如下:
M 0 i = ( M t i , M s i , D m )
M 1 i = W m 1 · M 0 i + b m 1
M 2 i = W m 2 · M 1 i + b m 2
M i = W m 3 · M 2 i + b m 3
Wm1、Wm2、Wm3、bm1、bm2、bm3是待训练参数;
用eij表示实体指称mi对应的第j个候选实体的词向量,用张量Tij来表示实体指称mi对应的第j个候选实体的分类标签的词向量集合。对Tij做卷积核大小为k的卷积运算后,做最大值子采样(max pooling)得到向量Oij,让Oij拼接上候选实体eij对应的词条文档的文档向量De,并同样通过三层不同权重的全连接层让向量充分学习,最后得到一个待链接实体指称mi对应的第j个候选实体的向量Eij,公式如下:
O i j = max p o o l i n g ( T i j ⊗ W c o n v + b c o n v )
E 0 i j = ( O i j , D e )
E 1 i j = W e 1 · E 0 i j + b e 1
E 2 i j = W e 2 · E 1 i j + b e 2
E i j = W e 3 · E 2 i j + b e 3
Wconv、bconv、We1、We2、We3、be1、be2、be3是待训练参数;
将待链接实体指称mi和他对应的候选实体eij的相似度sim(mi,eij)定义为余弦相似度cosin,公式如下:
s i m ( m i , e i j ) = cos i n ( m i , e i j ) = m i · e i j | m i | * | e i j |
2.2)训练模型:一组训练样本(batch)包括待链接的实体指称m,m所对应的正确链接的实体e,以及其他的错误候选实体集f,定义损失函数如下:
l o s s = Σ m , e , f ∈ b a t c h m a x ( 0 , g - cos i n ( m , e ) + cos i n ( m , f ) ) + λ | | W | |
其中,g为神经网络参数,λ||W||为训练参数的正则项。
进一步地,所述的步骤3)为:
3.1)通过神经网络计算出待链接的实体指称mi和其对应的候选实体eij的相似度sim(mi,eij),另外定义两个在知识库中的实体e1和e2的相似度为sim(e1,e2),公式如下:
sim(e1,e2)=cosin(De1,De2)
定义一个待链接的实体指称mi和其所在的上下文的相似度为sim(mi,Dm),公式如下:
sim(mi,Dm)=cosin(mi,Dm)
3.2)对于一段分词后的文本,将其中的待链接的实体指称mi,每个mi对应的候选实体eij,以及已链接的实体指称对应的实体ek作为节点构成一张有向图。该有向图中:mi有指向eij的边,边值即cosin(mi,eij),另外,eij,ek之间都有互相指向的边,值为sim(e1,e2)。将该有向图转换成邻接矩阵Q,矩阵Qxy的值表示从节点y连接到节点x的边值。定义s为节点的初始状态向量:
根据随机游走算法(random walk)的近似运算得到最终的状态向量R:
R=γ(I-(1-γ)Q)-1s
其中,γ为常系数,取值范围[0,1],I为单位矩阵,结果Rx表示待链接实体指称选择候选实体节点x为实际链接结果的概率,最后选择概率最高的候选实体为待链接实体指称的链接结果。
本发明方法与现有技术相比具有的有益效果:
1.该方法利用了实体指称的上下文的词语含义和词性含义来帮助表达该实体指称的类型,并用上下文的文档向量来帮助表达实体指称的含义,融合两者导出特征来更好地表达一个实体指称。同时,用候选实体的分类标签来表达候选实体的类型,候选实体的所在词条文档向量来表达候选实体的含义,融合两者导出特征来表达实体;
2.该方法设计了一种神经网络来利用词向量、词性向量、文档向量来表达实体指称和候选实体,并训练该网络来计算实体指称和候选实体之间的相似度,达到实体链接的目的;
3.该方法最终以图算法来更新神经网络中计算出的实体指称与候选实体之间的相似度,利用了上下文中实体间的关系对相似度进行修正,并提高了实体链接的正确率。
附图说明
图1是本发明方法系统架构图;
图2是一次实体链接的结果;
图3是神经网络的结构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
本发明提供的一种基于深度学习的实体链接方法,包括以下步骤:
1)数据预处理:对百科数据库全文做基于深度学习的词向量表达和文档向量表达训练;然后用训练好的模型对分词后的词语做词向量表达,对所有百科数据库中的实体文档做文档向量表达;对于一段新输入的文本,分别提取文本中所有待链接的实体指称、实体指称对应的所有候选实体、以及所有无歧义已链接的实体指称;在百科数据库中找出候选实体的所有分类标签;
2)神经网络结构设计与训练:将步骤1)预处理后的数据作为神经网络的输入特征,对神经网络进行参数调整,并训练神经网络,最终得到文本中每一个待链接的实体指称到其对应的所有候选实体的相似度。神经网络用双向LSTM和文档向量的结合来表达实体指称,用卷积神经网络和文档向量的结合来表达候选实体;
3)基于神经网络相似度的有向图排序:将一段文本中的每一个待链接的实体指称和其对应的所有候选实体、以及文本中已存在的无歧义已链接的实体指称对应的实体作为图节点,将步骤2)得到的相似度作为待链接的实体指称节点和对应候选实体节点之间的边权重,将候选实体的百科文档的文档向量之间的相似度作为候选实体之间的边权重;通过随机游走算法对有向图进行迭代计算直到边权值收敛,最后得到待链接的实体指称到对应候选实体的最终边值,选取边值最高者作为实体链接对象。
进一步地,所述的步骤1)中,
1.1)训练词向量和文档向量的表达:语料库选择为百度百科所有词条全文文档的集合,用skip-gram模型对该语料库训练word2vector(词向量表达)和doc2vector(文档向量表达),对百度百科所有词条文档做文档向量表达,对百度百科所有分类标签做词向量表达,用基于HanLP汉语词性标准的one-hot(独热编码)来表达词性向量;
1.2)用步骤1.1)训练好的模型表达词向量:对于给定文本,用HanLP对该文本进行分词,每一个分词元组包括词语以及词性,并用训练好的词向量模型和词性向量模型来表达;
C = Σ ( V w → , V n → )
V w → = ( V ( w , f ) i , V ( w , b ) i ) ; V n → = ( V ( n , f ) i , V ( n , b ) i )
其中,C表示上下文词集数组,表示词向量,表示词性向量。即对于一段上下文,可以用有限个词向量和词性向量的集合来表达。
对于一个待链接的实体指称,用mi表示它的词向量,用表达它上文所有的词向量,用表达它下文所有的词向量,用表达它上文所有的词性向量,用表达它下文所有的词性向量。
进一步地,所述的步骤2)具体包括以下子步骤:
2.1)将提取的特征输入到神经网络的双向LSTM(BLSTM)部分中。对于一个待链接的实体指称mi,将它上下文的词向量和词性向量分别输入到两个BLSTM的网络中,并在输出序列中取到待链接的实体指称mi对应位置的输出公式如下:
M t i = BLSTM t ( V ( w , f ) i , V ( w , b ) i )
M s i = BLSTM s ( V ( n , f ) i , V ( n , b ) i )
然后将这两个向量和上下文的文档向量Dm进行拼接,并通过三层不同权重的全连接层让向量获得充分学习,获得表达一个待链接实体指称的向量Mi,公式如下:
M 0 i = ( M t i , M s i , D m )
M 1 i = W m 1 · M 0 i + b m 1
M 2 i = W m 2 · M 1 i + b m 2
M i = W m 3 · M 2 i + b m 3
Wm1、Wm2、Wm3、bm1、bm2、bm3是待训练参数;
用eij表示实体指称mi对应的第j个候选实体的词向量,用张量Tij来表示实体指称mi对应的第j个候选实体的分类标签的词向量集合。对Tij做卷积核大小为k的卷积运算后,做最大值子采样(max pooling)得到向量Oij,让Oij拼接上候选实体eij对应的词条文档的文档向量De,并同样通过三层不同权重的全连接层让向量充分学习,最后得到一个待链接实体指称mi对应的第j个候选实体的向量Eij,公式如下:
O i j = max p o o l i n g ( T i j ⊗ W c o n v + b c o n v )
E 0 i j = ( O i j , D e )
E 1 i j = W e 1 · E 0 i j + b e 1
E 2 i j = W e 2 · E 1 i j + b e 2
E i j = W e 3 · E 2 i j + b e 3
Wconv、bconv、We1、We2、We3、be1、be2、be3是待训练参数;
将待链接实体指称mi和他对应的候选实体eij的相似度sim(mi,eij)定义为余弦相似度cosin,公式如下:
s i m ( m i , e i j ) = cos i n ( m i , e i j ) = m i · e i j | m i | * | e i j |
2.2)训练模型:一组训练样本(batch)包括待链接的实体指称m,m所对应的正确链接的实体e,以及其他的错误候选实体集f,定义损失函数如下:
l o s s = Σ m , e , f ∈ b a t c h m a x ( 0 , g - cos i n ( m , e ) + cos i n ( m , f ) ) + λ | | W | |
其中,g为神经网络参数,λ||W||为训练参数的正则项。
进一步地,所述的步骤3)为:
3.1)通过神经网络计算出待链接的实体指称mi和其对应的候选实体eij的相似度sim(mi,eij),另外定义两个在知识库中的实体e1和e2的相似度为sim(e1,e2),公式如下:
sim(e1,e2)=cosin(De1,De2)
定义一个待链接的实体指称mi和其所在的上下文的相似度为sim(mi,Dm),公式如下:
sim(mi,Dm)=cosin(mi,Dm)
3.2)对于一段分词后的文本,将其中的待链接的实体指称mi,每个mi对应的候选实体eij,以及已链接的实体指称对应的实体ek作为节点构成一张有向图。该有向图中:mi有指向eij的边,边值即cosin(mi,eij),另外,eij,ek之间都有互相指向的边,值为sim(e1,e2)。将该有向图转换成邻接矩阵Q,矩阵Qxy的值表示从节点y连接到节点x的边值。定义s为节点的初始状态向量:
根据随机游走算法(random walk)的近似运算得到最终的状态向量R:
R=γ(I-(1-γ)Q)-1s
其中,γ为常系数,取值范围[0,1],I为单位矩阵,结果Rx表示待链接实体指称选择候选实体节点x为实际链接结果的概率,最后选择概率最高的候选实体为待链接实体指称的链接结果。
实施例
如附图2所示,给出了基于深度学习的实体链接方法的一个应用实例。下面结合本技术的方法(技术流程如图1所示)详细说明该实例实施的具体步骤,如下:
(1)将知识库中的百科数据的所有词条文档作为语料库,训练词向量表达模型和文档向量表达模型,并对所有词条数据进行预处理,获取每个实体对应的文档向量表达以及大量的词向量表达。
(2)针对一个实体指称,对其上下文进行带词性的分词,并在知识库中找出该实体指称所有可能对应的候选实体。对上下文进行词向量表达以及文档向量表达,作为特征输入到神经网络的左半部分。获取每一个候选实体的对应所有分类标签,获取分类标签的词向量表达并结合候选实体对应的文档向量作为特征输入到神经网络的右半部分,如图3所示。
(3)用知识库中现有的实体衔接来训练神经网络,通过训练好的神经网络和特征来获得实体指称到每一个对应候选实体的相似度,以此作为有向图中指称节点到实体节点的边。以实体对应的文档向量之间的相似度来作为有向图中实体到实体的边(来自相同实体指称的候选实体之间不连线)。邻接矩阵来表达有向图并对邻接矩阵做数值归一化。
(4)用一个向量来表达图中每个节点的初始状态,对于一个指称节点的初始状态为它的词向量和它所在的上下文的文档向量的相似度,实体节点的初始状态为零。
(5)通过随机游走近似公式来更新状态,即更新实体指称到对应候选实体的相似度,最终选取相似度最高的候选实体为实体链接的对象。
本实例的运行结果在附图2中显示,用户分别输入文本“七里香喜温暖湿润气候,耐旱,不耐寒”以及“周杰伦对这张专辑的音乐充满自信,希望大家能把注意力焦点放在音乐上,将话题回归到音乐上,于是周杰伦把专辑命名为《七里香》”。系统对两段文本的实体链接结果如图显示,第一段文本中的“七里香”被链接到了植物上,而第二段的“七里香”被链接到了周杰伦的专辑上。

Claims (4)

1.一种基于深度学习的实体链接方法,其特征在于,包括以下步骤:
1)数据预处理:对百科数据库全文做基于深度学习的词向量表达和文档向量表达训练;然后用训练好的模型对分词后的词语做词向量表达,对所有百科数据库中的实体文档做文档向量表达;对于一段新输入的文本,分别提取文本中所有待链接的实体指称、实体指称对应的所有候选实体、以及所有无歧义已链接的实体指称;在百科数据库中找出候选实体的所有分类标签;
2)神经网络结构设计与训练:将步骤1)预处理后的数据作为神经网络的输入特征,对神经网络进行参数调整,并训练神经网络,最终得到文本中每一个待链接的实体指称到其对应的所有候选实体的相似度。神经网络用双向LSTM和文档向量的结合来表达实体指称,用卷积神经网络和文档向量的结合来表达候选实体;
3)基于神经网络相似度的有向图排序:将一段文本中的每一个待链接的实体指称和其对应的所有候选实体、以及文本中已存在的无歧义已链接的实体指称对应的实体作为图节点,将步骤2)得到的相似度作为待链接的实体指称节点和对应候选实体节点之间的边权重,将候选实体的百科文档的文档向量之间的相似度作为候选实体之间的边权重;通过随机游走算法对有向图进行迭代计算直到边权值收敛,最后得到待链接的实体指称到对应候选实体的最终边值,选取边值最高者作为实体链接对象。
2.根据权利要求1所述的一种基于深度学习的实体链接方法,其特征在于,所述的步骤1)中,
1.1)训练词向量和文档向量的表达:语料库选择为百度百科所有词条全文文档的集合,用skip-gram模型对该语料库训练word2vector(词向量表达)和doc2vector(文档向量表达),对百度百科所有词条文档做文档向量表达,对百度百科所有分类标签做词向量表达,用基于HanLP汉语词性标准的one-hot(独热编码)来表达词性向量;
1.2)用步骤1.1)训练好的模型表达词向量:对于给定文本,用HanLP对该文本进行分词,每一个分词元组包括词语以及词性,并用训练好的词向量模型和词性向量模型来表达;
C = Σ ( V w → , V n → )
V w → = ( V ( w , f ) i , V ( w , b ) i ) ; V n → = ( V ( n , f ) i , V ( n , b ) i )
其中,C表示上下文词集数组,表示词向量,表示词性向量。即对于一段上下文,可以用有限个词向量和词性向量的集合来表达。
对于一个待链接的实体指称,用mi表示它的词向量,用表达它上文所有的词向量,用表达它下文所有的词向量,用表达它上文所有的词性向量,用表达它下文所有的词性向量。
3.根据权利要求1所述的一种基于深度学习的实体链接方法,其特征在于,所述的步骤2)具体包括以下子步骤:
2.1)将提取的特征输入到神经网络的双向LSTM(BLSTM)部分中。对于一个待链接的实体指称mi,将它上下文的词向量和词性向量分别输入到两个BLSTM的网络中,并在输出序列中取到待链接的实体指称mi对应位置的输出公式如下:
M t i = BLSTM t ( V ( w , f ) i , V ( w , b ) i )
M s i = BLSTM s ( V ( n , f ) i , V ( n , b ) i )
然后将这两个向量和上下文的文档向量Dm进行拼接,并通过三层不同权重的全连接层让向量获得充分学习,获得表达一个待链接实体指称的向量Mi,公式如下:
M 0 i = ( M t i , M s i , D m )
M 1 i = W m 1 · M 0 i + b m 1
M 2 i = W m 2 · M 1 i + b m 2
M i = W m 3 · M 2 i + b m 3
Wm1、Wm2、Wm3、bm1、bm2、bm3是待训练参数;
用eij表示实体指称mi对应的第j个候选实体的词向量,用张量Tij来表示实体指称mi对应的第j个候选实体的分类标签的词向量集合。对Tij做卷积核大小为k的卷积运算后,做最大值子采样(max pooling)得到向量Oij,让Oij拼接上候选实体eij对应的词条文档的文档向量De,并同样通过三层不同权重的全连接层让向量充分学习,最后得到一个待链接实体指称mi对应的第j个候选实体的向量Eij,公式如下:
O i j = max p o o l i n g ( T i j ⊗ W c o n v + b c o n v )
E 0 i j = ( O i j , D e )
E 1 i j = W e 1 · E 0 i j + b e 1
E 2 i j = W e 2 · E 1 i j + b e 2
E i j = W e 3 · E 2 i j + b e 3
Wconv、bconv、We1、We2、We3、be1、be2、be3是待训练参数;
将待链接实体指称mi和他对应的候选实体eij的相似度sim(mi,eij)定义为余弦相似度cosin,公式如下:
s i m ( m i , e i j ) = cos i n ( m i , e i j ) = m i · e i j | m i | * | e i j |
2.2)训练模型:一组训练样本(batch)包括待链接的实体指称m,m所对应的正确链接的实体e,以及其他的错误候选实体集f,定义损失函数如下:
l o s s = Σ m , e , f ∈ b a t c h m a x ( 0 , g - cos i n ( m , e ) + cos i n ( m , f ) ) + λ | | W | |
其中,g为神经网络参数,λ‖W‖为训练参数的正则项。
4.根据权利要求1中所述的种基于深度学习的实体链接方法,其特征在于,所述的步骤3)为:
3.1)通过神经网络计算出待链接的实体指称mi和其对应的候选实体eij的相似度sim(mi,eij),另外定义两个在知识库中的实体e1和e2的相似度为sim(e1,e2),公式如下:
sim(e1,e2)=cosin(De1,De2)
定义一个待链接的实体指称mi和其所在的上下文的相似度为sim(mi,Dm),公式如下:
sim(mi,Dm)=cosin(mi,Dm)
3.2)对于一段分词后的文本,将其中的待链接的实体指称mi,每个mi对应的候选实体eij,以及已链接的实体指称对应的实体ek作为节点构成一张有向图。该有向图中:mi有指向eij的边,边值即cosin(mi,eij),另外,eij,ek之间都有互相指向的边,值为sim(e1,e2)。将该有向图转换成邻接矩阵Q,矩阵Qxy的值表示从节点y连接到节点x的边值。定义s为节点的初始状态向量:
根据随机游走算法(random walk)的近似运算得到最终的状态向量R:
R=γ(I-(1-γ)Q)-1s
其中,γ为常系数,取值范围[0,1],I为单位矩阵,结果Rx表示待链接实体指称选择候选实体节点x为实际链接结果的概率,最后选择概率最高的候选实体为待链接实体指称的链接结果。
CN201610592067.8A 2016-07-22 2016-07-22 基于深度学习的实体链接方法 Active CN106295796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610592067.8A CN106295796B (zh) 2016-07-22 2016-07-22 基于深度学习的实体链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610592067.8A CN106295796B (zh) 2016-07-22 2016-07-22 基于深度学习的实体链接方法

Publications (2)

Publication Number Publication Date
CN106295796A true CN106295796A (zh) 2017-01-04
CN106295796B CN106295796B (zh) 2018-12-25

Family

ID=57652384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610592067.8A Active CN106295796B (zh) 2016-07-22 2016-07-22 基于深度学习的实体链接方法

Country Status (1)

Country Link
CN (1) CN106295796B (zh)

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038249A (zh) * 2017-04-28 2017-08-11 安徽博约信息科技股份有限公司 基于词典的网络舆情信息情感分类方法
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107133259A (zh) * 2017-03-22 2017-09-05 北京晓数聚传媒科技有限公司 一种搜索方法和装置
CN107146620A (zh) * 2017-03-22 2017-09-08 北京晓数聚传媒科技有限公司 一种赛事状况数据展现方法和装置
CN107291795A (zh) * 2017-05-03 2017-10-24 华南理工大学 一种结合动态词嵌入和词性标注的文本分类方法
CN107608960A (zh) * 2017-09-08 2018-01-19 北京奇艺世纪科技有限公司 一种命名实体链接的方法和装置
CN107609185A (zh) * 2017-09-30 2018-01-19 百度在线网络技术(北京)有限公司 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质
CN107818080A (zh) * 2017-09-22 2018-03-20 新译信息科技(北京)有限公司 术语识别方法及装置
CN108052625A (zh) * 2017-12-18 2018-05-18 清华大学 一种实体精细分类方法
CN108108344A (zh) * 2016-11-24 2018-06-01 北京智能管家科技有限公司 一种联合识别和连接命名实体的方法及装置
CN108170667A (zh) * 2017-11-30 2018-06-15 阿里巴巴集团控股有限公司 词向量处理方法、装置以及设备
CN108182279A (zh) * 2018-01-26 2018-06-19 有米科技股份有限公司 基于文本特征的对象分类方法、装置和计算机设备
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108304552A (zh) * 2018-02-01 2018-07-20 浙江大学 一种基于知识库特征抽取的命名实体链接方法
CN108345580A (zh) * 2017-01-22 2018-07-31 阿里巴巴集团控股有限公司 一种词向量处理方法及装置
CN108446769A (zh) * 2018-01-23 2018-08-24 深圳市阿西莫夫科技有限公司 知识图谱关系推理方法、装置、计算机设备和存储介质
CN108491469A (zh) * 2018-03-07 2018-09-04 浙江大学 引入概念标签的神经协同过滤概念描述词推荐算法
CN108595437A (zh) * 2018-05-04 2018-09-28 和美(深圳)信息技术股份有限公司 文本查询纠错方法、装置、计算机设备和存储介质
CN108681537A (zh) * 2018-05-08 2018-10-19 中国人民解放军国防科技大学 一种基于神经网络及词向量的中文实体链接方法
CN108805291A (zh) * 2017-04-27 2018-11-13 清华大学 一种网络表示学习模型的训练方法及服务器
CN108921213A (zh) * 2018-06-28 2018-11-30 国信优易数据有限公司 一种实体分类模型训练方法及装置
CN108959270A (zh) * 2018-08-10 2018-12-07 新华智云科技有限公司 一种基于深度学习的实体链接方法
CN108959461A (zh) * 2018-06-15 2018-12-07 东南大学 一种基于图模型的实体链接方法
CN109165297A (zh) * 2018-08-10 2019-01-08 新华智云科技有限公司 一种通用实体链接装置及方法
CN109241294A (zh) * 2018-08-29 2019-01-18 国信优易数据有限公司 一种实体链接方法及装置
CN109271524A (zh) * 2018-08-02 2019-01-25 中国科学院计算技术研究所 知识库问答系统中的实体链接方法
CN109344399A (zh) * 2018-09-14 2019-02-15 重庆邂智科技有限公司 一种基于堆叠双向lstm神经网络的文本相似度计算方法
CN109408743A (zh) * 2018-08-21 2019-03-01 中国科学院自动化研究所 文本链接嵌入方法
CN109635114A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN109685204A (zh) * 2018-12-24 2019-04-26 北京旷视科技有限公司 模型搜索方法及装置、图像处理方法及装置
CN109697288A (zh) * 2018-12-25 2019-04-30 北京理工大学 一种基于深度学习的实例对齐方法
CN109857871A (zh) * 2019-01-28 2019-06-07 重庆邮电大学 一种基于社交网络海量情景数据的用户关系发现方法
CN109902186A (zh) * 2019-03-12 2019-06-18 北京百度网讯科技有限公司 用于生成神经网络的方法和装置
CN110659368A (zh) * 2019-09-20 2020-01-07 北京明略软件系统有限公司 知识图谱构建方法、装置、电子设备及可读存储介质
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110795527A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 候选实体排序方法、训练方法及相关装置
CN111062214A (zh) * 2019-11-25 2020-04-24 中国科学院计算技术研究所 基于深度学习的集成实体链接方法及系统
CN111159485A (zh) * 2019-12-30 2020-05-15 科大讯飞(苏州)科技有限公司 尾实体链接方法、装置、服务器及存储介质
CN111428443A (zh) * 2020-04-15 2020-07-17 中国电子科技网络信息安全有限公司 一种基于实体上下文语义交互的实体链接方法
CN111563149A (zh) * 2020-04-24 2020-08-21 西北工业大学 一种用于中文知识图谱问答系统的实体链接方法
CN111581973A (zh) * 2020-04-24 2020-08-25 中国科学院空天信息创新研究院 一种实体消歧方法及系统
CN111797945A (zh) * 2020-08-21 2020-10-20 成都数联铭品科技有限公司 一种文本分类方法
CN111967253A (zh) * 2020-08-29 2020-11-20 深圳呗佬智能有限公司 一种实体消歧方法、装置、计算机设备及存储介质
CN112434812A (zh) * 2020-11-26 2021-03-02 中山大学 一种基于对偶四元数的知识图谱链接预测方法及系统
WO2021042546A1 (zh) * 2019-09-06 2021-03-11 平安科技(深圳)有限公司 知识图谱链接错误的查修方法、装置及存储介质
CN112507126A (zh) * 2020-12-07 2021-03-16 厦门渊亭信息科技有限公司 一种基于循环神经网络的实体链接装置和方法
CN112560466A (zh) * 2020-12-24 2021-03-26 北京百度网讯科技有限公司 链接实体关联方法、装置、电子设备和存储介质
CN112989803A (zh) * 2021-02-25 2021-06-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接模型
CN113032523A (zh) * 2021-03-22 2021-06-25 平安科技(深圳)有限公司 三元组信息的抽取方法、装置、电子设备和存储介质
CN113268569A (zh) * 2021-07-19 2021-08-17 中国电子科技集团公司第十五研究所 基于语义的关联词查找方法及装置、电子设备、存储介质
CN113326383A (zh) * 2021-05-27 2021-08-31 中国平安人寿保险股份有限公司 一种短文本实体链接方法、装置、计算设备与存储介质
CN113641922A (zh) * 2021-07-13 2021-11-12 北京明略软件系统有限公司 实体链接方法、系统、存储介质及电子设备
CN113761208A (zh) * 2021-09-17 2021-12-07 福州数据技术研究院有限公司 一种基于知识图谱的科技创新资讯分类方法和存储设备
WO2022043782A1 (en) * 2020-08-28 2022-03-03 International Business Machines Corpofiation Automatic knowledge graph construction

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04252352A (ja) * 1991-01-28 1992-09-08 Fujitsu Ltd ニューラルネットワーク学習装置
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统
CN105224648A (zh) * 2015-09-29 2016-01-06 浪潮(北京)电子信息产业有限公司 一种实体链接方法与系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04252352A (ja) * 1991-01-28 1992-09-08 Fujitsu Ltd ニューラルネットワーク学習装置
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统
CN105224648A (zh) * 2015-09-29 2016-01-06 浪潮(北京)电子信息产业有限公司 一种实体链接方法与系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A.CARLSON,J ETAL.: "Coupled semi-supervised learning for information extoction", 《WEB SEARCH DATA MINING》 *
W.SHEN ETAL.: "LINDEN: Linking named entities with knowledge base via semantic knowledge", 《WORLD WIDE WEB》 *
张涛 等: "一种基于图模型的维基概念相似度计算方法及其在实体链接系统中的应用", 《中文信息学报》 *
谭咏梅 等: "基于上下文信息和排序学习的实体链接方法", 《北京邮电大学学报》 *

Cited By (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108344A (zh) * 2016-11-24 2018-06-01 北京智能管家科技有限公司 一种联合识别和连接命名实体的方法及装置
US10878199B2 (en) 2017-01-22 2020-12-29 Advanced New Technologies Co., Ltd. Word vector processing for foreign languages
CN108345580A (zh) * 2017-01-22 2018-07-31 阿里巴巴集团控股有限公司 一种词向量处理方法及装置
CN108345580B (zh) * 2017-01-22 2020-05-15 创新先进技术有限公司 一种词向量处理方法及装置
CN107133259A (zh) * 2017-03-22 2017-09-05 北京晓数聚传媒科技有限公司 一种搜索方法和装置
CN107146620A (zh) * 2017-03-22 2017-09-08 北京晓数聚传媒科技有限公司 一种赛事状况数据展现方法和装置
CN108805291B (zh) * 2017-04-27 2020-09-29 清华大学 一种网络表示学习模型的训练方法及服务器
CN108805291A (zh) * 2017-04-27 2018-11-13 清华大学 一种网络表示学习模型的训练方法及服务器
CN107038249A (zh) * 2017-04-28 2017-08-11 安徽博约信息科技股份有限公司 基于词典的网络舆情信息情感分类方法
CN107291795A (zh) * 2017-05-03 2017-10-24 华南理工大学 一种结合动态词嵌入和词性标注的文本分类方法
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107102989B (zh) * 2017-05-24 2020-09-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107608960A (zh) * 2017-09-08 2018-01-19 北京奇艺世纪科技有限公司 一种命名实体链接的方法和装置
CN107608960B (zh) * 2017-09-08 2021-01-08 北京奇艺世纪科技有限公司 一种命名实体链接的方法和装置
CN107818080A (zh) * 2017-09-22 2018-03-20 新译信息科技(北京)有限公司 术语识别方法及装置
CN107609185B (zh) * 2017-09-30 2020-06-05 百度在线网络技术(北京)有限公司 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质
CN107609185A (zh) * 2017-09-30 2018-01-19 百度在线网络技术(北京)有限公司 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质
TWI701588B (zh) * 2017-11-30 2020-08-11 香港商阿里巴巴集團服務有限公司 詞向量處理方法、裝置以及設備
WO2019105134A1 (zh) * 2017-11-30 2019-06-06 阿里巴巴集团控股有限公司 词向量处理方法、装置以及设备
CN108170667B (zh) * 2017-11-30 2020-06-23 阿里巴巴集团控股有限公司 词向量处理方法、装置以及设备
CN108170667A (zh) * 2017-11-30 2018-06-15 阿里巴巴集团控股有限公司 词向量处理方法、装置以及设备
CN108052625B (zh) * 2017-12-18 2020-05-19 清华大学 一种实体精细分类方法
CN108052625A (zh) * 2017-12-18 2018-05-18 清华大学 一种实体精细分类方法
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
US11455542B2 (en) 2018-01-17 2022-09-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN108446769A (zh) * 2018-01-23 2018-08-24 深圳市阿西莫夫科技有限公司 知识图谱关系推理方法、装置、计算机设备和存储介质
CN108446769B (zh) * 2018-01-23 2020-12-08 深圳市阿西莫夫科技有限公司 知识图谱关系推理方法、装置、计算机设备和存储介质
CN108182279A (zh) * 2018-01-26 2018-06-19 有米科技股份有限公司 基于文本特征的对象分类方法、装置和计算机设备
CN108304552A (zh) * 2018-02-01 2018-07-20 浙江大学 一种基于知识库特征抽取的命名实体链接方法
CN108491469B (zh) * 2018-03-07 2021-03-30 浙江大学 引入概念标签的神经协同过滤概念描述词推荐方法
CN108491469A (zh) * 2018-03-07 2018-09-04 浙江大学 引入概念标签的神经协同过滤概念描述词推荐算法
CN108595437B (zh) * 2018-05-04 2022-06-03 和美(深圳)信息技术股份有限公司 文本查询纠错方法、装置、计算机设备和存储介质
CN108595437A (zh) * 2018-05-04 2018-09-28 和美(深圳)信息技术股份有限公司 文本查询纠错方法、装置、计算机设备和存储介质
CN108681537A (zh) * 2018-05-08 2018-10-19 中国人民解放军国防科技大学 一种基于神经网络及词向量的中文实体链接方法
CN108959461B (zh) * 2018-06-15 2021-07-27 东南大学 一种基于图模型的实体链接方法
CN108959461A (zh) * 2018-06-15 2018-12-07 东南大学 一种基于图模型的实体链接方法
CN108921213A (zh) * 2018-06-28 2018-11-30 国信优易数据有限公司 一种实体分类模型训练方法及装置
CN108921213B (zh) * 2018-06-28 2021-06-22 国信优易数据股份有限公司 一种实体分类模型训练方法及装置
CN109271524A (zh) * 2018-08-02 2019-01-25 中国科学院计算技术研究所 知识库问答系统中的实体链接方法
CN109271524B (zh) * 2018-08-02 2021-10-15 中国科学院计算技术研究所 知识库问答系统中的实体链接方法
CN108959270B (zh) * 2018-08-10 2022-08-19 新华智云科技有限公司 一种基于深度学习的实体链接方法
CN109165297B (zh) * 2018-08-10 2021-12-24 新华智云科技有限公司 一种通用实体链接装置及方法
CN109165297A (zh) * 2018-08-10 2019-01-08 新华智云科技有限公司 一种通用实体链接装置及方法
CN108959270A (zh) * 2018-08-10 2018-12-07 新华智云科技有限公司 一种基于深度学习的实体链接方法
CN109408743A (zh) * 2018-08-21 2019-03-01 中国科学院自动化研究所 文本链接嵌入方法
CN109408743B (zh) * 2018-08-21 2020-11-17 中国科学院自动化研究所 文本链接嵌入方法
CN109241294A (zh) * 2018-08-29 2019-01-18 国信优易数据有限公司 一种实体链接方法及装置
CN109344399A (zh) * 2018-09-14 2019-02-15 重庆邂智科技有限公司 一种基于堆叠双向lstm神经网络的文本相似度计算方法
CN109344399B (zh) * 2018-09-14 2023-02-03 重庆邂智科技有限公司 一种基于堆叠双向lstm神经网络的文本相似度计算方法
CN109635114A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN109685204A (zh) * 2018-12-24 2019-04-26 北京旷视科技有限公司 模型搜索方法及装置、图像处理方法及装置
CN109697288A (zh) * 2018-12-25 2019-04-30 北京理工大学 一种基于深度学习的实例对齐方法
CN109857871A (zh) * 2019-01-28 2019-06-07 重庆邮电大学 一种基于社交网络海量情景数据的用户关系发现方法
CN109857871B (zh) * 2019-01-28 2021-04-20 重庆邮电大学 一种基于社交网络海量情景数据的用户关系发现方法
CN109902186A (zh) * 2019-03-12 2019-06-18 北京百度网讯科技有限公司 用于生成神经网络的方法和装置
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110705292B (zh) * 2019-08-22 2022-11-29 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110795527B (zh) * 2019-09-03 2022-04-29 腾讯科技(深圳)有限公司 候选实体排序方法、训练方法及相关装置
CN110795527A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 候选实体排序方法、训练方法及相关装置
WO2021042546A1 (zh) * 2019-09-06 2021-03-11 平安科技(深圳)有限公司 知识图谱链接错误的查修方法、装置及存储介质
CN110659368A (zh) * 2019-09-20 2020-01-07 北京明略软件系统有限公司 知识图谱构建方法、装置、电子设备及可读存储介质
CN111062214A (zh) * 2019-11-25 2020-04-24 中国科学院计算技术研究所 基于深度学习的集成实体链接方法及系统
CN111159485B (zh) * 2019-12-30 2020-11-13 科大讯飞(苏州)科技有限公司 尾实体链接方法、装置、服务器及存储介质
CN111159485A (zh) * 2019-12-30 2020-05-15 科大讯飞(苏州)科技有限公司 尾实体链接方法、装置、服务器及存储介质
CN111428443A (zh) * 2020-04-15 2020-07-17 中国电子科技网络信息安全有限公司 一种基于实体上下文语义交互的实体链接方法
CN111563149B (zh) * 2020-04-24 2023-01-31 西北工业大学 一种用于中文知识图谱问答系统的实体链接方法
CN111563149A (zh) * 2020-04-24 2020-08-21 西北工业大学 一种用于中文知识图谱问答系统的实体链接方法
CN111581973A (zh) * 2020-04-24 2020-08-25 中国科学院空天信息创新研究院 一种实体消歧方法及系统
CN111581973B (zh) * 2020-04-24 2020-12-29 中国科学院空天信息创新研究院 一种实体消歧方法及系统
CN111797945B (zh) * 2020-08-21 2020-12-15 成都数联铭品科技有限公司 一种文本分类方法
CN111797945A (zh) * 2020-08-21 2020-10-20 成都数联铭品科技有限公司 一种文本分类方法
GB2612225A (en) * 2020-08-28 2023-04-26 Ibm Automatic knowledge graph construction
WO2022043782A1 (en) * 2020-08-28 2022-03-03 International Business Machines Corpofiation Automatic knowledge graph construction
CN111967253A (zh) * 2020-08-29 2020-11-20 深圳呗佬智能有限公司 一种实体消歧方法、装置、计算机设备及存储介质
CN112434812B (zh) * 2020-11-26 2023-09-05 中山大学 一种基于对偶四元数的知识图谱链接预测方法及系统
CN112434812A (zh) * 2020-11-26 2021-03-02 中山大学 一种基于对偶四元数的知识图谱链接预测方法及系统
CN112507126A (zh) * 2020-12-07 2021-03-16 厦门渊亭信息科技有限公司 一种基于循环神经网络的实体链接装置和方法
CN112560466B (zh) * 2020-12-24 2023-07-25 北京百度网讯科技有限公司 链接实体关联方法、装置、电子设备和存储介质
CN112560466A (zh) * 2020-12-24 2021-03-26 北京百度网讯科技有限公司 链接实体关联方法、装置、电子设备和存储介质
CN112989803B (zh) * 2021-02-25 2023-04-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接预测方法
CN112989803A (zh) * 2021-02-25 2021-06-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接模型
WO2022198747A1 (zh) * 2021-03-22 2022-09-29 平安科技(深圳)有限公司 三元组信息的抽取方法、装置、电子设备和存储介质
CN113032523A (zh) * 2021-03-22 2021-06-25 平安科技(深圳)有限公司 三元组信息的抽取方法、装置、电子设备和存储介质
CN113326383A (zh) * 2021-05-27 2021-08-31 中国平安人寿保险股份有限公司 一种短文本实体链接方法、装置、计算设备与存储介质
CN113641922A (zh) * 2021-07-13 2021-11-12 北京明略软件系统有限公司 实体链接方法、系统、存储介质及电子设备
CN113268569A (zh) * 2021-07-19 2021-08-17 中国电子科技集团公司第十五研究所 基于语义的关联词查找方法及装置、电子设备、存储介质
CN113761208A (zh) * 2021-09-17 2021-12-07 福州数据技术研究院有限公司 一种基于知识图谱的科技创新资讯分类方法和存储设备

Also Published As

Publication number Publication date
CN106295796B (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN106295796B (zh) 基于深度学习的实体链接方法
CN109271505B (zh) 一种基于问题答案对的问答系统实现方法
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN109492227A (zh) 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN111488467B (zh) 地理知识图谱的构建方法、装置、存储介质及计算机设备
CN108268643A (zh) 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN107168945A (zh) 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN107480132A (zh) 一种基于图像内容的古诗词生成方法
CN111221962A (zh) 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN106055675A (zh) 一种基于卷积神经网络和距离监督的关系抽取方法
CN105808768A (zh) 一种基于图书的概念-描述词知识网络的构建方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN115795056A (zh) 非结构化信息构建知识图谱的方法、服务器及存储介质
CN111062214A (zh) 基于深度学习的集成实体链接方法及系统
Zhu et al. Part-of-speech-based long short-term memory network for learning sentence representations
CN110347812A (zh) 一种面向司法文本的搜索排序方法及系统
CN112749566B (zh) 一种面向英文写作辅助的语义匹配方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170104

Assignee: TONGDUN HOLDINGS Co.,Ltd.

Assignor: ZHEJIANG University

Contract record no.: X2021990000612

Denomination of invention: Entity linking method based on deep learning

Granted publication date: 20181225

License type: Common License

Record date: 20211012

EE01 Entry into force of recordation of patent licensing contract