CN108959270B - 一种基于深度学习的实体链接方法 - Google Patents

一种基于深度学习的实体链接方法 Download PDF

Info

Publication number
CN108959270B
CN108959270B CN201810906886.4A CN201810906886A CN108959270B CN 108959270 B CN108959270 B CN 108959270B CN 201810906886 A CN201810906886 A CN 201810906886A CN 108959270 B CN108959270 B CN 108959270B
Authority
CN
China
Prior art keywords
entity
candidate
vector
word
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810906886.4A
Other languages
English (en)
Other versions
CN108959270A (zh
Inventor
花京华
刘军宁
徐常亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Zhiyun Technology Co ltd
Original Assignee
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Zhiyun Technology Co ltd filed Critical Xinhua Zhiyun Technology Co ltd
Priority to CN201810906886.4A priority Critical patent/CN108959270B/zh
Publication of CN108959270A publication Critical patent/CN108959270A/zh
Application granted granted Critical
Publication of CN108959270B publication Critical patent/CN108959270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的实体链接方法,包括获取待识别文档中待链接的实体指称,并抽取库中与实体指称对应的候选实体集;计算每个候选实体与实体指称的概念相似度,抽取候选实体集中与实体指称的概念相似度最高的候选实体为待链接实体;获取待链接实体的属性信息,判断待链接实体能否与相应的实体指称进行链接,并将能够链接的待链接实体与实体指称进行链接。本发明能够结合候选实体的属性信息以及概念相似度对候选实体能否与实体指称进行链接进行判断,将确定候选实体与实体指称的概念相似度、候选实体是否链接实体指称两过程进行联合建模,模型训练过程中将自动学习候选实体能否与实体指称进行链接,使判断更加准确。

Description

一种基于深度学习的实体链接方法
技术领域
本发明涉及数据库领域,具体为一种基于深度学习的实体链接方法。
背景技术
互联网的迅猛发展使得数字资源随处可见,接触频率最高的信息载体就是文字信息,如新闻、博客、评论等。同时,随着生活节奏的加快,用户对高效阅读的需求更加强烈,数字资源内包含有大量具有明确语义信息的文本实体,如何在文本中高效地获取出实体并加以利用是具有现实意义的事情。特别地,实体链接是利用实体的流程中最为关键的步骤之一。例如,通过分析用户浏览或者分享的数字资源来提取实体并进行知识库链接,将链接过的实体作为关键字或者标签,为用户进行更精准的兴趣建模;再如,在数字资源中增加针对实体的用户可能感兴趣的内容链接,这些链接可能指向实体相关概念解释或者指向另一篇以此实体为主题的新闻,从而提升用户阅读体验;最后,针对数字资源中链接上的实体,可根据对被连接的数字资源进行统计和分析来实现对不同类型如人物、机构等进行舆情监控。
目前,常见的实体链接方法在进行实体指称链接时,仍旧会出现一些问题。如,传统的实体链接方法在进行候选实体筛选时,只考虑实体指称和候选实体的概念相似度,但是如果待识别文本给出的实体指称背景信息不足时无法保证链接到的候选实体为正确实体;当到所有的候选实体都不是待识别文本中的实体时,概念相似度最高的候选实体仍旧会被链接到待识别文档的实体上。同时,在概念相似度的判断上,一般只是通过主题模型抽取关键词,没有获得语义层面上的信息,如果待识别文档中的关键词与实体文档关检测是同一词,就无法进行正确的重合度的衡量;主题模型仅考虑了实体主题层面的高层次语义特征,未考虑低层次细粒度的词级别特征,对背景相似的候选实体也无法较精细区分。
发明内容
本发明的目的是为了提供一种基于深度学习的实体链接方法,能够结合候选实体的属性信息以及概念相似度对候选实体能否与实体指称进行链接进行判断,将确定候选实体与实体指称的概念相似度、候选实体是否链接实体指称两过程进行联合建模,模型训练过程中将自动学习候选实体能否与实体指称进行链接,使得对是否进行链接的判断更加准确。
为了实现上述发明目的,本发明采用了以下技术方案:一种基于深度学习的实体链接方法,包括
S1:获取待识别文档中待链接的实体指称,并抽取库中与所述实体指称对应的候选实体集;
S2:计算候选实体集中每个候选实体与实体指称的概念相似度,抽取候选实体集中与实体指称的概念相似度最高的候选实体为待链接实体;
S3:获取待链接实体的属性信息,结合所述属性信息判断所述待链接实体能否与相应的实体指称进行链接,并将能够链接的待链接实体与实体指称进行链接。
与现有技术相比,采用了上述技术方案的基于深度学习的实体链接方法,具有如下有益效果:
一、采用本发明的基于深度学习的实体链接方法,在抽取候选实体集中与相应的实体指称概念相似度最高的候选实体之后,对该候选实体与实体指称之间是否能够链接进行进一步判断,提高实体链接的准确率。
二、在判断概念相似度最高的候选实体与实体指称是否能够链接时,抽取了该候选实体本身的属性信息作为判断的依据,判断过程中结合了该候选实体本身、候选实体内部词义以及实体指称在候选实体中的上下文等多个不同级别的语义特征,从不同层面对候选实体与实体指称能够链接进行判断,保证本发明实体链接方法的准确性。
三、将候选实体与实体指称的概念相似度计算、最接近的候选实体与实体指称是否连接的两个过程进行联合建模,模型训练过程中将自动学习候选实体能否与实体指称进行链接,使得对是否进行链接的判断更加准确。
优选的,步骤S2中所述计算候选实体集中每个候选实体与实体指称的概念相似度包括:
S21:获取实体指称的指称特征编码;
S22:获取候选实体集中每个候选实体对应的候选实体特征编码;
S23:计算指称特征编码和每个候选实体特征编码之间的编码距离。
优选的,步骤S21中所述获取实体指称的指称特征编码包括:
S211:获取待识别文档的待识别文档向量:
对待识别文档的文本进行分词,查询得到每个分词的词向量,根据所有词向量确定待识别文档向量;
S212:获取待识别文档中实体指称所在句子的上下文向量:
对待识别文档的文本进行分词,获得包含所述实体指称的句子中长度最长的最长句,抽取最长句对应的分词结果集,查询所述分词结果集中每个词的词向量,确定是上下文特征向量集,通过上下文特征向量集确定上下文向量;
S213:根据待识别文档向量和上下文向量确定指称特征编码。
优选的,步骤22中所述获取候选实体集中每个候选实体对应的候选实体特征编码包括:
S221:获取候选实体的特征词向量:
对候选实体的百科页面正文进行分词,抽取分词结果中的特征词集,查询得到特征词集中每个特征词的词向量,根据所有词向量确定特征词向量;
S222:获取候选实体的重合特征向量:
对待识别文档的文本进行分词,抽取该分词结果中与所述特征词集中特征词重合的重合词,查询得到每个重合词的词向量,根据所有词向量确定重合特征向量;
S223:获取候选实体的候选文档向量:
对候选实体的百科页面正文进行分词,查询得到每个分词的词向量,根据所有词向量确定候选文档向量;
S224:根据所述特征词向量、重合特征向量和候选文档向量确定相应候选实体的候选实体特征编码。
优选的,步骤S3中所述获取待链接实体的属性信息包括:
获取待链接实体的统计特征信息:
获取待链接实体的百科页面中的统计信息,对统计信息做对数化处理得到统计特征信息;所述统计信息包括infobox信息、浏览次数、编辑次数、收藏次数、分享次数、参考次数以及通过数学统计直接获取的信息。
优选的,步骤S3中所述获取待链接实体的属性信息还包括:
获取待链接实体的实体类型信息:
获取待链接实体百科页面的词条标签和infobox信息,通过词条标签和infobox信息建立模型确定所述待链接实体的实体类型信息。
优选的,采用欧式距离确定实体指称和候选实体的概念相似度。
优选的,步骤S213中所述根据待识别文档向量和上下文向量确定指称特征编码包括:将待识别文档向量和上下文向量进行拼接和处理得到矩阵,将矩阵通过全连接层得到指称特征编码。
优选的,步骤S224中所述的根据所述特征词向量、重合特征向量和候选文档向量确定相应候选实体的候选实体特征编码包括:将特征词向量、重合特征向量和候选文档向量进行拼接和处理得到矩阵,将矩阵通过全连接层得到候选实体特征编码。
附图说明
图1为本发明基于深度学习的实体链接方法的流程示意图;
图2为本实施例中候选实体的筛选过程图;
图3为本实施例中步骤S2中具体步骤示意图;
图4为本实施例中步骤S3中具体步骤示意图;
图5为本实施例中各个过程量的转换图;
图6为本实施例中从上下文特征向量集到指称特征编码过程的流程图;
图7为本实施例中确定概念相似度的流程图;
图8为本实施例中判断待链接实体能否与实体指称进行连接的流程图。
具体实施方式
下面参考附图来更加详细地描述本发明的实施方式。
实施例的提供是为了使本发明更加详尽,并且向本领域技术人员充分的传达保护范围。阐述了众多的特定细节如特定部位、装置的例子,以提供对本发明的实施方式的详尽理解。对于本领域技术人员而言将会明显的是,实施例可以用许多不同的形式来实施而不一定适用这些特定的细节,因此它们都不应该被理解为限制本发明的范围。另外,在本发明的一个附图或者一种实施方式中描述的元素和特征可以与一个或更多个其他附图或实施方式中示出的元素和特征相结合。在某些实施例中,为了清楚目的,没有在附图和说明中详细地进行描述的众所周知的过程、结构和技术。
如图1所示为本发明基于深度学习的实体链接方法整体流程图,图2为本发明候选实体的筛选过程图,能够显示出使用本方法中涉及到的实体指称和候选实体等之间的关系变化。本发明的实体链接方法的步骤大致为:S1获取待识别文档中待链接的实体指称,并抽取库中与所述实体指称对应的候选实体集;S2:计算候选实体集中每个候选实体与实体指称的概念相似度,抽取候选实体集中与实体指称的概念相似度最高的候选实体为待链接实体;S3:获取待链接实体的属性信息,结合所述属性信息判断所述待链接实体能否与相应的实体指称进行链接,并将能够链接的待链接实体与实体指称进行链接。在使用本发明进行实体链接时,运行过程中会产生很多过程量,图5为实体链接过程中各个过程量的转换图。
其中,步骤S1获取待识别文档中待链接的实体指称,并抽取库中与所述实体指称对应的候选实体集。例如,对一篇新闻稿或博客文章等进行实体链接时,这篇新闻稿或者博客文章即为待识别文档,文章中的词即为待链接的实体指称。一般地,待识别文档中存在多个待链接的实体指称。在实体指称确定后可以根据每个实体指称直接在库中进行搜索与该实体指称对应的实体作为候选实体,每个实体指称对应的多个候选实体组成这个实体指称的候选实体集。例如,在待识别文档中,有一待链接的实体指称为“林群”,在百度百科等知识库中能够搜索到的许多同姓名不同身份的多个候选实体,这些候选实体组成实体指称“林群”相对应的候选实体集。上述的库包括但不限于与该方法所应用场景对应的特定知识库,例如维基百科、百度百科、互动百科、搜狗百科等。
如图3所示,在步骤S2中,计算候选实体集中每个候选实体与实体指称的概念相似度的过程包括:
S21获取实体指称的指称特征编码Vj anchor。实体指称编码中包含有待识别文档的整个文档的特征和实体指称在待识别文档中上下文特征。用待识别文档向量V(dj)代表整个待识别文档的特征,用上下文特征向量集表示待识别文档中实体指称的上下文特征。
待识别文档向量V(dj)的获取方法包括但不限于:利用分词工具将待识别文档进行分词,得到待识别文档的分词结果;根据分词结果得到每个分词对应的词向量,得到待识别文档对应的词向量列表;对待识别文档中的所有词向量求平均得到待识别文档向量V(dj)。其中,可以对待识别文档采用Ansj或Hanlp等分词工具进行分词;对分词结果采用词向量训练方法获取对应的词向量,词向量训练方法包括但不限于google的word2vec及相关变种,如Glove,SVD分解以及Gensim word2vec等。
上下文特征向量集的获取方法包括但不限于:从待识别文档的分词结果中抽取包含该实体指称句子的分词结果,统计每个句子的分词长度并且取出长度最长的句子分词结果作为该实体指称的句子上下文。查询该句子中每个分词的词向量,得到最长句的词向量序列,即上下文特征向量集,形式为:[V(s0),V(s1),……,V(si),……,V(sL-1),V(sL)],其中L为句子长度,V(si)为该句第i个词的词向量。
如图6所示为通过上下文特征向量集确定上下文向量
Figure DEST_PATH_IMAGE001
并通过
Figure DEST_PATH_IMAGE002
和V(dj)确定指称特征编码Vj anchor的流程图。其中,确定上下文向量
Figure 993130DEST_PATH_IMAGE001
的方法包括但不限于:将上下文特征向量集通过BI-LSTM网络获取实体指称所在最长句的每个词的隐编码向量
Figure DEST_PATH_IMAGE003
,其中
Figure DEST_PATH_IMAGE004
为前向和后向LSTM网络在第i个词输出的向量,即:
Figure DEST_PATH_IMAGE005
其中,WL为BI-LSTM待训练参数。
与此同时,本实施例将待识别文档的待识别文档向量V(dj)对隐编码向量序列加入注意力模型,得到带注意力的实体指称所在句子的上下文向量
Figure DEST_PATH_IMAGE006
Figure 503746DEST_PATH_IMAGE006
的计算公式为:
Figure DEST_PATH_IMAGE007
其中fAtt为注意力函数,tij为待识别文档向量V(dj)作用于BI-LSTM输出的隐编码向量序列 的注意力权值,然后对权值tij进行指数归一化得到aij,将aij
Figure DEST_PATH_IMAGE008
进行加权求和即得到待识别文档中带注意力的实体指称的句子上下文向量
Figure DEST_PATH_IMAGE009
。其中,注意力函数公式常用以下几种:
Figure DEST_PATH_IMAGE010
注意力模型包括本发明所使用的注意力模型及其变种,注意力函数还包括除上述列举的注意力函数之外的其他各类注意力函数。在本实施例中,隐编码向量序列
Figure DEST_PATH_IMAGE011
已为LSTM网络编码后的向量,故直接采用点积v1 Tv2作为注意力函数。
确定带注意力的实体指称句子的上下文向量
Figure DEST_PATH_IMAGE012
后,将待识别文档向量V(dj)和上下文向量
Figure DEST_PATH_IMAGE013
进行拼接得到矩阵
Figure DEST_PATH_IMAGE014
,将该矩阵进行2d卷积操作和max-pooling操作得到矩阵Dj’,即:
Figure DEST_PATH_IMAGE015
其中Wconv1,bconv1为待训练参数,将矩阵Dj’重构成单行向量得到
Figure DEST_PATH_IMAGE016
并接入全连接网络层,全连接采用sigmoid作为激活函数,得到实体指称的包含所有上下文的向量编码Vj anchor,计算公式为:
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
其中,Wfc1,bfc1为待训练参数。网络层激活函数除本发明中使用的sigmoid函数外,也包括tanh、relu等其他激活函数。
上述步骤S21获取到实体指称的指称特征编码之后,执行步骤S22。
S22:获取候选实体集中每个候选实体对应的候选实体特征编码
Figure DEST_PATH_IMAGE019
候选实体特征编码通过相应的候选实体的重合特征向量V(Uk),特征词向量V(fk)以及候选文档向量V(ek)三个向量按行拼接成矩阵,如图7所示,将该矩阵进行2d卷积操作和max-pooling操作,并接入全连接网络层得到实体各类特征的编码向量
Figure DEST_PATH_IMAGE020
计算公式为:
Figure DEST_PATH_IMAGE021
其中,Wconv2,bconv2,Wfc2,bfc2为待训练参数。
上述步骤S22获取到候选实体集中每个候选实体对应的候选实体特征编码
Figure DEST_PATH_IMAGE022
之后,执行步骤S23。步骤S23计算指称特征编码Vj anchor和每个候选实体的候选实体特征编码之间的距离。在本实施例中,在建立相应实体库时,其中包含有实体参考资料URL,通过实体参考资料URL抓取该网页并提取正文作为实体链接深度学习模型的训练语料。将被参考实例标记为正样本,与该实体指称同名的其他实体标记为负样本。
分别将正负样本实体的特征按照参数共享方式经过以上操作后得到为
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
,采用欧式距离作为距离度量函数,设计三元组损失函数:
Figure DEST_PATH_IMAGE025
其中d为距离函数,本发明采用欧式距离:
Figure DEST_PATH_IMAGE026
,λ为可调超参数。距离函数d为一种向量间的距离度量方式,本发明采用的欧氏距离为向量范数中的L2范数,可更换其他范数;同时,也可以采用其他概念相似度度量算法,如两向量夹角余弦值后通过取反或取倒数等方法变成距离度量。
在上述步骤S22中,特征词向量V(fk)的获取方法包括但不限于:将候选实体进行分词,抽取分词结果中的特征词集,并得到特征词集中每个特征词的词向量,将该候选实体中的所有特征词向量求平均得到特征词向量V(fk)。其中,特征词主要包括三类:第一类为根据分词工具标注的词性,抽取带有实体词性的词,如Hanlp中包括词性为nr开头的人名相关词性、ns开头的地名相关词性、ni和nt开头的机构名相关词性;第二类为实体百科页面摘要及正文介绍中带有超链接的锚文本;第三类为对实体百科页面的摘要及正文介绍进行关键词抽取方法获得的词。
在上述步骤S22中,重合特征向量V(Uk)的获取方法包括但不限于:从待识别文档的分词结果中抽取与上述特征词集中特征词重合的重合词,查询得到每个重合词的重合词向量,并且对所有重合词向量求平均得到重合特征向量V(Uk)。
在上述步骤S22中,候选文档向量V(ek)的获取方法包括但不限于:候选文档向量V(ek)与上述待识别文档向量V(dj)的获取方法相近似,对候选实体的百科页面正文进行分词,查询得到每个分词的词向量,所有词向量求平均得到候选文档向量
通过上述步骤后,得到待识别文档中的所有实体指称(m1……mn),并且对每个实体指称mi 获取相应的多个候选码实体,并将每个候选实体经过计算得到实体指称mi对应的每个候选实体的候选实体特征编码组成的候选实体特征编码序列
Figure DEST_PATH_IMAGE027
,并计算每个候选实体特征编码与实体指称编码的欧氏距离(dkl……dkx)。
对于一个实体指称,得到的欧氏距离为实体指称与候选实体之间的概念相似度,抽取其中欧式距离最小的对应的待链接实体ei。相应地,对待识别文档中的每个实体指称获取相应的欧式距离最小的待链接实体,组成待链接实体集(e1……en)。
得到每个实体指称相应的最接近的待链接实体后,进行步骤S3获取待链接实体的属性信息,根据候选实体的属性信息判断待链接实体能否和相应的实体指称进行链接,并将能够链接的待链接实体与实体指称进行链接。
结合附图8,对实体指称和待链接实体之间是否能够进行链接的判断方法和候选实体属性信息的获取方法包括但不限于:获取待链接实体的属性信息,将获取到的属性信息和上述候选实体特征编码
Figure DEST_PATH_IMAGE028
以及指称特征编码Vj anchor进行按列拼接并输入到全连接层中,用相应的候选实体的正或负样本作为监督信号,设计该网络层的损失函数为交叉熵损失cls_loss,计算函数为:
Figure DEST_PATH_IMAGE029
其中Wfc3,bfc3为待训练参数,di为向量Qk的维度,由于网络输出用于预测正负样本,因此Qk维度大小为2,Pk为该实体属于正或负样本的基于one-hot表达的监督向量,若该候选实体为被参考实体则为正样本,Pk=[0,1],若该候选实体为被参考实体的其他同名实体则为负样本,Pk=[1,0]。
其中,候选实体中的属性信息包括统计特征信息
Figure DEST_PATH_IMAGE030
和实体类型信息
Figure DEST_PATH_IMAGE031
其中,统计特征信息
Figure 489675DEST_PATH_IMAGE030
为待链接实体的百科页面中的统计信息,对统计信息做对数化处理得到统计特征;所述统计特征信息包括百科页面的infobox信息、浏览次数、编辑次数、收藏次数、分享次数、参考次数以及通过数学统计直接获取的特征等,能够通过数学统计直接获取的特征包括但不限于:实体百科页面段落数、摘要长度、百科页面正文中超链接数量以及实体被引用次数等。实体类型信息通过词条标签和infobox信息建立模型确定。实体类型信息
Figure DEST_PATH_IMAGE032
中包含有该实体的类型,如实体周XX百科页面中词条标签包括“歌手”、“人物”,而阿里巴巴的百科页面中词条标签包含“公司”,根据这些标签即可通过规则或模型设计实体的类型,本发明中实体类型包含人物、机构、地点三种类型,在必要时,可以根据不同场景需要设计不同的实体类型,如可扩展实体类型为书籍、电影、音乐等类型。本发明中加入了实体类型信息,目的是使模型对不同类型的实体特征进行区别对待,如与地址或机构类型实体相比人物实体的统计信息较大且百科正文也更丰富,模型将根据不同实体类型信息学习不同权重。
采用本实施例中的方法对实体进行链接前需要进行预处理,对库中的样本采用Mini-batch方式随机抽取正样本实体,对应的负样本实体及实体百科参考资料,及正样本实体对应的负样本实体,根据前述的三元组损失函数首先对用于概念相似度计算的网络结构进行预训练,保证指称特征编码和候选实体特征编码能得到较稳定的表达,然后对链接判断的网络结果进行预训练,最后再将两个网络进行联合训练。
以上所述是本发明的优选实施方式,对于本领域的普通技术人员来说不脱离本发明原理的前提下,还可以做出若干变型和改进,这些也应视为本发明的保护范围。

Claims (6)

1.一种基于深度学习的实体链接方法,其特征在于:包括
S1:获取待识别文档中待链接的实体指称,并抽取库中与所述实体指称对应的候选实体集;
S2:计算候选实体集中每个候选实体与实体指称的概念相似度,抽取候选实体集中与实体指称的概念相似度最高的候选实体为待链接实体;
S3:获取待链接实体的属性信息,结合所述属性信息判断所述待链接实体能否与相应的实体指称进行链接,并将能够链接的待链接实体与实体指称进行链接;
步骤S2中所述计算候选实体集中每个候选实体与实体指称的概念相似度包括:
S21:获取实体指称的指称特征编码;
S22:获取候选实体集中每个候选实体对应的候选实体特征编码;
S23:计算指称特征编码和每个候选实体特征编码之间的编码距离;
步骤S21中所述获取实体指称的指称特征编码包括:
S211:获取待识别文档的待识别文档向量:
对待识别文档的文本进行分词,查询得到每个分词的词向量,根据所有词向量确定待识别文档向量;
S212:获取待识别文档中实体指称所在句子的上下文向量:
对待识别文档的文本进行分词,获得包含所述实体指称的句子中长度最长的最长句,抽取最长句对应的分词结果集,查询所述分词结果集中每个词的词向量,确定是上下文特征向量集,通过上下文特征向量集确定上下文向量;
S213:根据待识别文档向量和上下文向量确定指称特征编码;
步骤22中所述获取候选实体集中每个候选实体对应的候选实体特征编码包括:
S221:获取候选实体的特征词向量:
对候选实体的百科页面正文进行分词,抽取分词结果中的特征词集,查询得到特征词集中每个特征词的词向量,根据所有词向量确定特征词向量;
S222:获取候选实体的重合特征向量:
对待识别文档的文本进行分词,抽取该分词结果中与所述特征词集中特征词重合的重合词,查询得到每个重合词的词向量,根据所有词向量确定重合特征向量;
S223:获取候选实体的候选文档向量:
对候选实体的百科页面正文进行分词,查询得到每个分词的词向量,根据所有词向量确定候选文档向量;
S224:根据所述特征词向量、重合特征向量和候选文档向量确定相应候选实体的候选实体特征编码。
2.根据权利要求1所述的基于深度学习的实体链接方法,其特征在于:步骤S3中所述获取待链接实体的属性信息包括:
获取待链接实体的统计特征信息:
获取待链接实体的百科页面中的统计信息,对统计信息做对数化处理得到统计特征信息;所述统计信息包括infobox信息、浏览次数、编辑次数、收藏次数、分享次数、参考次数以及通过数学统计直接获取的信息。
3.根据权利要求2所述的基于深度学习的实体链接方法,其特征在于:步骤S3中所述获取待链接实体的属性信息还包括:
获取待链接实体的实体类型信息:
获取待链接实体百科页面的词条标签和infobox信息,通过词条标签和infobox信息建立模型确定所述待链接实体的实体类型信息。
4.根据权利要求1所述的基于深度学习的实体链接方法,其特征在于:采用欧式距离确定实体指称和候选实体的概念相似度。
5.根据权利要求1所述的基于深度学习的实体链接方法,其特征在于:步骤S213中所述根据待识别文档向量和上下文向量确定指称特征编码包括:将待识别文档向量和上下文向量进行拼接和处理得到矩阵,将矩阵通过全连接层得到指称特征编码。
6.根据权利要求1所述的基于深度学习的实体链接方法,其特征在于:步骤S224中所述的根据所述特征词向量、重合特征向量和候选文档向量确定相应候选实体的候选实体特征编码包括:将特征词向量、重合特征向量和候选文档向量进行拼接和处理得到矩阵,将矩阵通过全连接层得到候选实体特征编码。
CN201810906886.4A 2018-08-10 2018-08-10 一种基于深度学习的实体链接方法 Active CN108959270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810906886.4A CN108959270B (zh) 2018-08-10 2018-08-10 一种基于深度学习的实体链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810906886.4A CN108959270B (zh) 2018-08-10 2018-08-10 一种基于深度学习的实体链接方法

Publications (2)

Publication Number Publication Date
CN108959270A CN108959270A (zh) 2018-12-07
CN108959270B true CN108959270B (zh) 2022-08-19

Family

ID=64468740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810906886.4A Active CN108959270B (zh) 2018-08-10 2018-08-10 一种基于深度学习的实体链接方法

Country Status (1)

Country Link
CN (1) CN108959270B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857871B (zh) * 2019-01-28 2021-04-20 重庆邮电大学 一种基于社交网络海量情景数据的用户关系发现方法
CN110427436B (zh) * 2019-07-31 2022-03-22 北京百度网讯科技有限公司 实体相似度计算的方法及装置
CN110879861B (zh) * 2019-09-05 2023-07-14 国家计算机网络与信息安全管理中心 基于表示学习的相似移动应用计算方法及装置
CN111104520B (zh) * 2019-11-21 2023-06-30 新华智云科技有限公司 一种基于人物身份的人物实体链接方法
CN111062214B (zh) * 2019-11-25 2021-11-19 中国科学院计算技术研究所 基于深度学习的集成实体链接方法及系统
CN110991187B (zh) * 2019-12-05 2024-03-08 北京奇艺世纪科技有限公司 一种实体链接的方法、装置、电子设备及介质
CN111159485B (zh) * 2019-12-30 2020-11-13 科大讯飞(苏州)科技有限公司 尾实体链接方法、装置、服务器及存储介质
CN111339737B (zh) * 2020-02-27 2023-12-12 北京声智科技有限公司 实体链接方法、装置、设备及存储介质
CN111428443B (zh) * 2020-04-15 2022-09-13 中国电子科技网络信息安全有限公司 一种基于实体上下文语义交互的实体链接方法
CN111581973B (zh) * 2020-04-24 2020-12-29 中国科学院空天信息创新研究院 一种实体消歧方法及系统
CN111737430B (zh) * 2020-06-16 2024-04-05 北京百度网讯科技有限公司 实体链接方法、装置、设备以及存储介质
CN112084777B (zh) * 2020-09-03 2023-09-01 新华智云科技有限公司 一种实体链接方法
CN112036171B (zh) * 2020-09-04 2024-06-25 平安科技(深圳)有限公司 医学特定指称及其关系的抽取方法、系统及装置
CN112560485B (zh) * 2020-11-24 2023-04-14 北京三快在线科技有限公司 一种实体链接方法、装置、电子设备及存储介质
CN112465036A (zh) * 2020-11-30 2021-03-09 上海寻梦信息技术有限公司 地址匹配模型的训练方法、代收地址确定方法及相关设备
CN112989235B (zh) * 2021-03-09 2023-08-01 北京百度网讯科技有限公司 基于知识库的内链构建方法、装置、设备和存储介质
CN113420224A (zh) * 2021-07-19 2021-09-21 北京字节跳动网络技术有限公司 一种信息处理的方法、装置以及计算机存储介质
WO2023010514A1 (en) * 2021-08-06 2023-02-09 Robert Bosch Gmbh Method for establishing knowledge repository for online courses
CN114090795B (zh) * 2022-01-11 2022-05-10 北京壬工智能科技有限公司 基于装备知识图谱的双向交互智能服务系统和方法
CN114647739B (zh) * 2022-02-25 2023-02-28 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN114594891B (zh) * 2022-03-09 2023-12-22 北京百度网讯科技有限公司 文档数据处理方法、装置、电子设备及介质
CN115062619B (zh) * 2022-08-11 2022-11-22 中国人民解放军国防科技大学 中文实体链接方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
EP3156949A2 (en) * 2015-10-16 2017-04-19 Baidu USA LLC Systems and methods for human inspired simple question answering (hisqa)
CN107368468A (zh) * 2017-06-06 2017-11-21 广东广业开元科技有限公司 一种运维知识图谱的生成方法及系统
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN108304552A (zh) * 2018-02-01 2018-07-20 浙江大学 一种基于知识库特征抽取的命名实体链接方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3156949A2 (en) * 2015-10-16 2017-04-19 Baidu USA LLC Systems and methods for human inspired simple question answering (hisqa)
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN107368468A (zh) * 2017-06-06 2017-11-21 广东广业开元科技有限公司 一种运维知识图谱的生成方法及系统
CN108304552A (zh) * 2018-02-01 2018-07-20 浙江大学 一种基于知识库特征抽取的命名实体链接方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的实体链接方法;张震宇;《中国优秀博硕士学位论文全文数据库(硕士)》;20180215;第I138-2949页 *

Also Published As

Publication number Publication date
CN108959270A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108959270B (zh) 一种基于深度学习的实体链接方法
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
WO2008131607A1 (en) A system and method for intelligent ontology based knowledge search engine
CN112069408A (zh) 一种融合关系抽取的推荐系统及方法
CN107506472B (zh) 一种学生浏览网页分类方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN110619051A (zh) 问题语句分类方法、装置、电子设备及存储介质
CN111241410B (zh) 一种行业新闻推荐方法及终端
CN111625715A (zh) 信息提取方法、装置、电子设备及存储介质
CN110110218B (zh) 一种身份关联方法及终端
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN111897953A (zh) 一种新型网络媒体平台评论文本分类标注数据纠正方法
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN111368093A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN113051455B (zh) 一种基于网络文本数据的水务舆情识别方法
CN110019814A (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant