CN108681537A - 一种基于神经网络及词向量的中文实体链接方法 - Google Patents
一种基于神经网络及词向量的中文实体链接方法 Download PDFInfo
- Publication number
- CN108681537A CN108681537A CN201810430281.2A CN201810430281A CN108681537A CN 108681537 A CN108681537 A CN 108681537A CN 201810430281 A CN201810430281 A CN 201810430281A CN 108681537 A CN108681537 A CN 108681537A
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- word
- text
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于神经网络的中文微博实体链接方法,其涉及实体链接技术领域,该方法包括以下步骤:S1,通过用于提升中文实体链接准确率上界的策略为每个实体指称生成与实体指称相应的候选实体;S2,以词语和实体标识符为基础构建联合训练语料库,并对联合训练预料库中的句子和扩展进行联合训练生成词语向量和实体嵌入向量;S3,将词语向量和实体嵌入向量作为神经网络的输入单元,利用长短时记忆网络生成实体指称和实体的表示,进一步被用来刻画实体指称和实体间的语义相似度。为调节不同词语对最终实体指称文本和实体描述表示的贡献,提出双重注意力机制,使整个神经网络更加高效。
Description
技术领域
本发明属于实体链接技术领域,具体涉及一种基于神经网络及词向量的中文实体链接方法。
背景技术
随着互联网上不规则数据的爆炸式增长,自动化抽取以及规范其中有价值的信息变得越来越重要。在这种情况下,知识库(KB)被提出并且得到了持续的发展,因为其能规范化以及组织新出现的信息并将知识以一种易接受的方式展现。在知识库构建以及更新过程中,实体链接通过连接多样化的文本和规则化的知识,起到重要的作用。
实体链接(EL)任务旨在确定文本中实体指称相对应的实体。实体是各种事物唯一的表征,而实体指称则是实体的表面形式,可能具有一定的歧义性和误导性。实体链接任务的目标是消除实体指称具有的歧义性。
尽管实体链接技术经历了不断的发展,但大多数工作仍然是基于英文语料的,而这些方法并不能直接用在其它语言上,这主要可以归结为两个主要原因,即不同的语言特征以及目标知识库质量的参差不齐。比如说中文与英语语系不同的是,中文的词语可能由多个字符组成,而且各个词语之间没有空格,在很多自然语言处理任务中需要切分后才能进一步使用,而这也被称为中文分词问题,因此,中文实体链接技术也无法避免的需要解决分词问题并且最小化其误差传播。此外,到目前为止,没有完全公开的高质量中文知识库,进而造成中文实体链接系统的落后发展。
现有常见的中文实体链接方法是通过手工设计多种特征来衡量实体指称和候选实体之间的相似度,这些值进一步被结合并用来进行候选实体排序,这种方法过于强调特征工程,在实际实现过程中取得的效果很一般,这种方法还经常使用词袋模型(BOW)来表示实体指称和实体的文本,但BOW无法捕捉文本中隐藏的深层含义,而这些深层含义对提升实体指称与实体间文本相似度计算的准确性起到决定性作用。此外,现有的中文实体链接数据集建立在部分并且过时的知识库之上,会限制实体链接的性能。
发明内容
为了克服现有技术应用领域中存在的不足,本发明提出了一种基于神经网络及词向量不需要复杂特征工程就能捕捉文本深层含义、消除实体支撑歧义、提升中文实体链接系统有效性的中文实体链接方法。
本发明是通过以下技术方案实现的:
一种基于神经网络及词向量的中文实体链接方法,包括以下步骤:
S1,生成候选实体;
通过用于提升中文实体链接准确率上界的策略为每个实体指称生成与实体指称相应的候选实体;
S2,词语及实体的联合向量训练;
以需要建立中文实体链接的文本中的词语为基础生成包括文本本身和两种扩展形式的联合向量训练语料库,通过联合向量训练方法将联合向量训练语料库中的文本和两种扩展形式生成为词语向量和实体嵌入向量;
S3,基于双重注意力机制的深度神经网络实体消岐,得到实体链接结果;
将通过联合向量训练方法生成的词语向量和实体嵌入向量作为神经网络的输入单元,通过长短时记忆网络生成实体指称表示和实体表示,并将生成的实体指称表示和实体表示拼接送入两层的全连接层,由全连接层生成实体与实体指称之间的相似度值,在长短时记忆网络框架中还嵌入了用于提高消歧效率的双重注意力机制。
进一步的,在S1中,用于提升中文实体链接准确率上界的策略包括实体指称规范化。
通过实体指称规范化去除实体指称中包含的无用标点符号,以及统一多种形式的外来名称,进而规范化各种实体指称的表现形式,此外,对于实体指称为互联网用户创造的复合词,在知识库中没有直接对应的实体条目,则利用中文分词工具来分割复合词。
进一步的,在S1中,用于提升中文实体链接准确率上界的策略包括频率字典。
通过构建名称词典规范化不规则实体指称形式,名称词典中的元素从维基百科页面的锚文本获取,此外,给定不规则实体指称,记录不规则实体指称可能指向实体的频率,以反映实体指称最可能对应的实体。
进一步的,在S1中,用于提升中文实体链接准确率上界的策略包括维基百科功能页面。
通过维基百科功能页面上丰富的语义结构查询实体指称,维基百科的语义结构包括消歧义页面、重定向页面和维基百科子页面间的超链接。
进一步的,在S1中,用于提升中文实体链接准确率上界的策略包括别名词典。
别名词典是由实体名称及其可能的别名组成,别名词典的具体条目信息从维基百科的信息框以及百度百科中挖掘得到。
进一步的,在S1中,需要建立中文实体链接的文本针对的是维基百科页面中的文本。
进一步的,在S2中,词语及实体联合向量训练包括创建联合向量训练语料库、联合向量训练。
联合向量训练的语料库包括需要建立中文实体链接的文本本身和两种扩展形式,文本包括词语和锚文本,词语包括实体指称和一般词语,将文本中锚文本的链接生成相应的实体标识符,将实体标识符视为特殊形式的实体指称,使用实体标识符替代文本中的锚文本,生成用于联合向量训练的扩展一,从文本中提取锚文本的实体标识符,生成用于联合向量训练的扩展二;
以联合向量训练语料库中的文本、扩展一、扩展二为输入,通过拟合实体指称与词语之间的上下文的共现关系,并利用上下文信息和共现频率来提取每一个实体指称与词语的潜在特征,将实体指称与词语映射到向量空间中,相似的实体指称和词语在向量空间中也会处于相近的位置,进而生成词语向量和实体嵌入向量。
进一步的,联合向量训练方法具体包括:设联合向量训练语料库中的文本、扩展一、扩展二为一个标记序列Λ=τ1,τ2,...τN,标记包括词语和实体标识符,为了更好捕捉标记序列中标记τi之间的关系,训练得到更高质量的向量表示,采取最大化平均对数概率:
公式(1)中,c是上下文窗口的大小,τi表示目标标记,τi+j是一个上下文标记,a表示带有实体标识的联合向量训练,i,j均用来标记位置,P代表概率值;
P(τi+j|τi)由以下softmax函数定义:
公式(2)中,τ表示语料库中所有标记的集合,矩阵V和U分别表示训练过程中学习得到的两个参数矩阵,Vτ和Uτ分别表示储存标记τ的向量,i,j均用来标志位置,T代表转置操作;
联合向量训练后,矩阵V用于储存生成的词向量和实体嵌入向量。
进一步的,双重注意力机制深度神经网络结构包括实体指称表示单元、实体表示单元、双重注意力机制单元、全连接层单元;
长短时记忆网络框架包括三个基本的LSTM单元,分别用于刻画实体指称的左侧上下文、实体指称的右侧上下文和实体描述,实体指称的两个LSTM的最大池化结果被连接并作为实体指称的表示,实体描述LSTM的最大池化结果和实体嵌入向量连接并作为实体的表示,通过将实体指称表示和实体表示进行拼接,并送入两层的全连接层生成相似度值,双重注意力机制的长短时记忆网络框架中还嵌入了用于减轻文本无关词语带来负面影响的双重注意力机制;
在实体指称表示单元中,将实体指称两侧窗口中大小为c的词作为上下文,表示为ω1,ω2,...,ωc,ωmention和ωmention,ωc+1,ωc+2,...,ω2c,实体指称被表示为单个符号ωmention,利用两个独立的长短时记忆网络模拟左右文,并且右文序列被逆转为ω2c,ω2c-1,...,ωc+1,ωmention;
在实体表示单元中,实体表示是实体嵌入向量和实体描述表示的组合,实体嵌入向量是由词语及实体的联合向量训练所获得的,实体嵌入向量包含实体指称上下文的句法和语义信息,设置一个大小为p的窗口来从维基百科页面的第一段中提取相应实体描述,在分词和嵌入之后,输入被送入带有最大池化的长短时记忆网络以生成实体描述表示,连接实体嵌入向量和实体表示并作为最终的实体表示;
在双重注意力机制单元中,通过给定的实体嵌入向量和实体表示来识别出输入中的有关的词语,将实体嵌入向量作为注意力向量来选择实体描述中有关的词语,以获取实体描述的精确表示,利用实体表示作为第二注意力向量来提取实体指称上下文中的有关的词语,以取出实体指称表示中的不相关信息。
进一步的,S3具体包括以下步骤:
S3.1,输入包括实体指称的文本和文本中实体指称对应的候选实体;
S3.2,得到实体指称与候选实体的相似度值,并结合实体流行度值,得到最终候选实体排序得分值;
S3.3,根据候选实体排序得分值对候选实体进行排序,取候选实体排序最大的作为中文实体链接的结果。
进一步的,步骤S3.2中,候选实体的排序并不仅仅基于上下文相似度,每个候选实体的最终得分是相似度值和实体e的先验概率p(e|m)的组合,其表示实体e是给定具体实体指称m的对应正确实体可能性,先验概率的具体值来自频率词典,而不在频率词典中的实体被赋予频率值为0,实体指称与实体对(m,e)的排序得分表示为:
r(m,e)=θsim(m,e)+ηp(e|m) (3)
公式(3)中θ和η是平衡相似度和先验概率的权重系数。
此外,实体指称和候选实体的类别相似度也能很好的捕捉候选实体和实体指称的相似程度。具体来说,利用现有的实体指称及候选实体类别标注技术,分别得到实体指称和候选实体的类别,如若实体指称和候选实体的类别相同,那么类别相似度Cate(e,m)=1,否则Cate(e,m)=0,实体指称与实体对(m,e)的排序得分表示为:
r(m,e)=θsim(m,e)+ηp(e|m)+σCate(m,e) (4)
公式(4)中θ,η和σ是平衡上下文相似度和先验概率以及类别相似度的权重系数。
与现有技术相比,本发明的有益效果有:
一种基于神经网络及词向量的中文实体链接方法,通过候选实体生成策略生成的候选实体,能够有效的提高实体链接准确率的上界,有效克服了现有中文知识库质量不高的问题;通过词语及实体的联合向量训练方法,有效的解决了中文分词的问题,使得词向量在概念上更准确;由联合向量训练得到的联合词和实体嵌入向量经过长短时记忆网络生成实体指称的表示和实体的表示,并通过基于双重注意力机制的深度神经网络,得到实体指称与候选实体之间的相似度得分值并对其排序,最终得到实体链接结果,可以直接获得词与向量的相似度值,不需要强调复杂的特征工程,在保证中文实体链接准确性的前提下,还能很好的捕捉文本中隐藏的深层含义。
附图说明
图1为本发明的实施流程示意图;
图2为本发明的候选实体生成过程流实施程图;
图3为本发明的词与实体联合向量训练语料库构建图;
图4为本发明的双重注意力机制深度神经网络结构图。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如附图1-4所示,一种基于神经网络及词向量的中文微博实体链接方法,包括以下步骤:
S1,生成候选实体;
通过直接查询实体指称的名称生成候选实体的方法,在大多数情况下不会得到很好的结果,因为实体指称可能以多种形式出现,特别是在中文文本中,为了提高实体生成的召回率;本发明通过利用四种高效的候选实体生成策略,为每个实体指称生成相应的候选实体,进而提升中文实体链接准确率的上界;
四种候选实体生成策略分别为实体指称规范化、频率字典、维基百科功能页面以及别名词典,四种候选实体生成策略对实体指称的处理的过程如下:
实体指称规范化:通过实体指称规范化去除实体指称中包含的无用标点符号,以及统一多种形式的外来名称,进而规范化各种实体指称的表现形式,此外,对于实体指称为互联网用户创造的复合词,在知识库中没有直接对应的实体条目,则利用中文分词工具来分割复合词。
频率字典:通过构建名称词典规范化不规则实体指称形式,名称词典中的元素从维基百科页面的锚文本获取,此外,给定不规则实体指称,记录不规则实体指称可能指向实体的频率,以反映实体指称最可能对应的实体,频率字典不仅有助于候选实体生成过程,而且为候选实体后续过程中计算先验概率提供帮助。
维基百科功能页面:通过维基百科功能页面上丰富的语义结构查询实体指称,维基百科的语义结构包括消歧义页面、重定向页面和维基百科子页面间的超链接,协助查询具有歧义的实体指称。
别名词典:由实体名称及其可能的别名组成,别名词典的具体条目信息从维基百科的信息框以及百度百科中挖掘得到。
通过以上四种实体生成策略,能够有效的提高实体链接准确率的上界。
S2,对候选实体进行排序,词语及实体向量联合向量训练;
将词语和实体映射到相同的高维连续向量空间中,其中相似的词和实体处于相近的位置,以更好地表示其语义信息,并作为神经网络的输入单元;
联合向量训练方法源于传统的skip-gram模型,skip-gram模型的训练目标是生成可以帮助预测给定词语的上下文词语的词语表示,形式上,设O=ω1,ω2,...ωN是一个词语序列,该模型旨在最大化以下平均对数概率:
公式(1)中,c是上下文窗口的大小,ωi表示目标词,ωi+j是上下文词;
由以下softmax函数定义:
公式(2)中,W表示词汇表中所有词语的集合,Vω和Uω表示在矩阵V和U中词ω的向量,训练后,矩阵V用于获取词嵌入向量。
联合向量训练方法将传统模型扩展为联合嵌入模型,首先需要创建联合向量训练的语料库,该语料库包括句子本身以及两种扩展形式,以维基百科页面中的文本为例,句子由词语和锚文本组成,利用与每个锚文本相关联的链接,可以获得锚文本的相应实体标识符,使用实体标识符替代锚文本,可以生成用于联合向量训练的扩展句子1,此外,还从原始句子中只提取实体标识符,以形成新的输入,更好地捕捉实体之间的关系2。
联合向量训练方法通过将实体标识符视为特殊形式的词语,将相应的公式(1)和公式(2)修改成如下公式:
公式(3)和公式(4)中,Λ=τ1,τ2,...τN是一个标记序列,标记包括词语和实体标识符,τi表示目标标记,τi+j是一个上下文标记,τ表示语料库中所有标记的集合,Vτ和Uτ表示储存标记τ的向量,经过训练,矩阵V用于储存生成的词向量和实体嵌入向量。
联合向量训练的优点有:
(1)最终词向量在概念上更准确,因为其上下文中形式各样的实体指称被实标识符替代;
(2)与源自知识库相对较小的语料库相比,联合向量训练获取的实体嵌入向量是在大规模的文本联合训练语料库上学习得到的,在训练过程中实体嵌入向量具有较高的频率;
(3)由于词语和实体的表示是在同一向量空间中学习得到的词和实体,词和实体之间相似性的度量可以通过相似度值实现。
S3,基于双重注意力机制深度神经网络的实体消岐过程;
为从候选实体中选出正确实体,本发明提出双重注意力机制的长短时记忆网络框架,该框架由三个基本的LSTM单元组成,分别用于刻画实体指称的左侧上下文、实体指称的右侧上下文和实体描述,实体指称的两个LSTM的最大池化结果被连接并作为实体指称表示,而实体表示则由实体描述LSTM的最大池化结果和实体向量连结组成,通过将实体指称表示和实体表示进行拼接并且送入全连接层来生成相似度值,双重注意力机制的长短时记忆网络框架中还嵌入了双重注意力机制,以减少文本无关词语带来的负面影响,并提高实体消岐的效率。
双重注意力机制的长短时记忆网络框架由实体指称表示单元、实体表示单元、双重注意力机制单元、全连接层单元,下面对各个单元进行描述:
实体指称表示单元中,考虑到实体指称上下文具有不同的长度,使用实体指称两侧的窗口大小为c中的词作为其上下文,并表示为ω1,ω2,...,ωc,ωmention和ωmention,ωc+1,ωc+2,...,ω2c,尽管实体指称被表示为单个符号ωmention,利用两个独立的LSTM来模拟左右文,并且右文序列被逆转为ω2c,ω2c-1,...,ωc+1,ωmention,一方面,将实体指称作为最后一个单元可以更好地利用实体指称的语义,另一方面,LSTM可以通过在序列结尾处对齐实体指称来获取实体指称位置。
与以往工作不同的是,本发明不直接使用上下文的词向量作为长短时记忆网络的输入,因为它无法捕获实体指称、实体和上下文之间的深层含义,相反,在传递到神经网络之前,将每个词语向量与实体指称向量和实体表示相连接,进而在生成实体指称表示时,充分的利用实体表示、实体指称向量和上下文词语之间的联系,接着将所有LSTM输出的最大池化结果作为左右文的表示,并将左右文的表示进一步连接得到固定长度的实体指称表示。
实体表示单元中,实体表示是实体向量和实体描述表示的组合,实体向量是从词和实体联合向量训练中所获得的,由于在训练中实体被看作是特殊形式的词语,实体向量包含了实体指称上下文的句法和语义信息,实体向量本身无法充分反映实体的相关信息,因此需要更多的文本描述来丰富实体表示,具体来说,由于维基百科页面第一段的文字质量最高,设置一个窗口大小p来从维基百科页面的第一段中提取相应的实体描述,在分词和嵌入之后,输入被送入带有最大池化的LSTM以生成实体描述表示,接着连接实体向量和实体描述向量,并作为最终的实体表示。
双重注意力机制单元中,通过给定的实体向量和实体表示来识别出文本中有关联的词语,将实体向量作为一个注意力向量来选择实体描述中有关联的词语,以获取实体描述的更精确表示,此外,利用实体表示作为另一个注意向量来提取实体指称上下文中有关联的词语,以去除实体指称表示中的不相关信息。
全连接层单元中,将实体指称和实体表示进行连接后,送入两层的全连接层,其中第二层全连接层的输出是个单节点,表示经sigmoid函数处理后的相似度值,假设s是最后的相似度值,g表示实体是否为正确对应实体,训练目标是尽量减少以下损失值:
L(s,g)=glog(s)+(1-g)log(1-s) (5)
结合双重注意力机制的长短时记忆网络框架,本发明采用基于双重注意力机制深度神经网络来实现消歧过程。
基于双重注意力机制深度神经网络的消歧过程包括以下步骤:
S3.1,输入包括实体指称的文本和文本中实体指称对应的候选实体;
S3.2,得到实体指称与候选实体的相似度值,并结合频率字典中的实体流行度值,得到最终候选实体排序得分值;
S3.3,根据候选实体排序得分值对候选实体进行排序,取候选实体排序最大的作为中文实体链接的结果。
上述3.2)中,候选实体的排序并不仅仅基于上下文相似度,事实上,每个候选实体的最终得分是相似度值和实体e的先验概率p(e|m)的组合,其表示实体e是给定具体实体指称m的对应的正确实体的可能性,先验概率的具体值来自频率词典,而不在频率词典中的实体被赋予频率值0,实体指称—实体对(m,e)的排序得分表示为:
r(m,e)=θsim(m,e)+ηp(e|m) (6)
公式(6)中θ和η是平衡相似度和先验概率的权重系数。
通过基于双重注意力机制的深度神经网络,根据候选实体得分值进行排序,最终得到实体链接结果;由于词与向量在相同的高维空间联合向量训练得到,可以直接通过相似度获得词与向量的相似度值,不需要强调复杂的特征工程,在保证中文实体链接准确性的前提下,还能很好的捕捉文本中隐藏的深层含义。
此外,实体指称和候选实体的类别相似度也能很好的捕捉候选实体和实体指称的相似程度。具体来说,利用现有的实体指称及候选实体类别标注技术,分别得到实体指称和候选实体的类别,如若实体指称和候选实体的类别相同,那么类别相似度Cate(e,m)=1,否则Cate(e,m)=0,实体指称与实体对(m,e)的排序得分表示为:
r(m,e)=θsim(m,e)+ηp(e|m)+σCate(m,e) (7)
公式(7)中θ,η和σ是平衡上下文相似度和先验概率以及类别相似度的权重系数。
以上实施例仅起到解释本发明技术方案的作用,本发明所要求的保护范围并不局限于上述实施例的实现系统和具体实施步骤。因此,仅对上述实施例中具体的公式及算法进行简单替换,但其实质内容仍与本发明方法相一致的技术方案,均应属于本发明的保护范围。
Claims (10)
1.一种基于神经网络及词向量的中文实体链接方法,其特征在于,包括以下步骤:
S1,生成候选实体;
通过用于提升中文实体链接准确率上界的策略为每个实体指称生成与实体指称相应的候选实体;
S2,词语及实体的联合向量训练;
以需要建立中文实体链接的文本中的词语为基础生成包括文本本身和两种扩展形式的联合向量训练语料库,通过联合向量训练方法将联合向量训练语料库中的文本和两种扩展形式生成为词语向量和实体嵌入向量;
S3,基于双重注意力机制的深度神经网络实体消岐,得到实体链接结果;
将通过联合向量训练方法生成的词语向量和实体嵌入向量作为神经网络的输入单元,通过长短时记忆网络生成实体指称表示和实体表示,并将生成的实体指称表示和实体表示拼接送入两层的全连接层,由全连接层生成实体与实体指称之间的相似度值,在长短时记忆网络框架中还嵌入了用于提高消歧效率的双重注意力机制。
2.根据权利要求1所述的一种基于神经网络及词向量的中文实体链接方法,其特征在于,在S1中,用于提升中文实体链接准确率上界的策略包括实体指称规范化。
3.根据权利要求1所述的一种基于神经网络及词向量的中文实体链接方法,其特征在于,在S1中,用于提升中文实体链接准确率上界的策略包括频率字典。
4.根据权利要求1所述的一种基于神经网络及词向量的中文实体链接方法,其特征在于,在S1中,用于提升中文实体链接准确率上界的策略包括维基百科功能页面。
5.根据权利要求1所述的一种基于神经网络及词向量的中文实体链接方法,其特征在于,在S1中,用于提升中文实体链接准确率上界的策略包括别名词典。
6.根据权利要求1-5任一项所述的一种基于神经网络及词向量的中文实体链接方法,其特征在于,在S1中,需要建立实体链接的文本针对的是维基百科页面中的文本。
7.根据权利要求6所述的一种基于神经网络及词向量的中文实体链接方法,其特征在于,在S2中,词语及实体联合向量训练包括创建联合向量训练语料库、联合向量训练;
创建联合向量训练语料库:联合向量训练的语料库包括需要建立中文实体链接的文本本身和两种扩展形式,文本包括词语和锚文本,词语包括实体指称(和一般词语),将文本中锚文本的链接生成相应的实体标识符,(将实体标识符视为特殊形式的实体指称,)使用实体标识符替代文本中的锚文本,生成用于联合向量训练的扩展一,从文本中提取锚文本的实体标识符,生成用于联合向量训练的扩展二;
联合向量训练:以联合向量训练语料库中的文本、扩展一、扩展二为输入,通过拟合实体指称与词语之间的上下文的共现关系,并利用上下文信息和共现频率来提取每一个实体指称与词语的潜在特征,将实体指称与词语映射到向量空间中,相似的实体指称和词语在向量空间中也会处于相近的位置,进而生成词语向量和实体嵌入向量。
8.根据权利要求7所述的一种基于神经网络及词向量的中文实体链接方法,其特征在于:双重注意力机制深度神经网络结构包括实体指称表示单元、实体表示单元、双重注意力机制单元、全连接层单元;
所述长短时记忆网络框架包括三个基本的LSTM单元,分别用于刻画实体指称的左侧上下文、实体指称的右侧上下文和实体描述,实体指称的两个LSTM的最大池化结果被连接并作为实体指称的表示,实体描述LSTM的最大池化结果和实体嵌入向量连接并作为实体的表示,通过将实体指称表示和实体表示进行拼接,并送入两层的全连接层生成相似度值,双重注意力机制的长短时记忆网络框架中还嵌入了用于减轻文本无关词语带来负面影响的双重注意力机制;
在实体指称表示单元中,将实体指称两侧窗口中大小为c的词作为上下文,表示为ω1,ω2,...,ωc,ωmention和ωmention,ωc+1,ωc+2,...,ω2c,实体指称被表示为单个符号ωmention,利用两个独立的长短时记忆网络模拟左右文,并且右文序列被逆转为ω2c,ω2c-1,...,ωc+1,ωmention;
在实体表示单元中,实体表示是实体嵌入向量和实体描述表示的组合,实体嵌入向量是由词语及实体的联合向量训练所获得的,实体嵌入向量包含实体指称上下文的句法和语义信息,设置一个大小为p的窗口来从维基百科页面的第一段中提取相应实体描述,在分词和嵌入之后,输入被送入带有最大池化的长短时记忆网络以生成实体描述表示,连接实体嵌入向量和实体表示并作为最终的实体表示;
在双重注意力机制单元中,通过给定的实体嵌入向量和实体表示来识别出输入中的重要部分,将实体嵌入向量作为注意力向量来选择实体描述中重要部分,以获取实体描述的精确表示,利用实体表示作为第二注意力向量来提取实体指称上下文中的重要部分,以取出实体指称表示中的不相关信息。
9.根据权利要求8所述的一种基于神经网络及词向量的中文实体链接方法,其特征在于:S3具体包括以下步骤:
S3.1,输入包括实体指称的文本和文本中实体指称对应的候选实体;
S3.2,得到实体指称与候选实体的相似度值,并结合实体流行度值,得到最终候选实体排序得分值;
S3.3,根据候选实体排序得分值对候选实体进行排序,取候选实体排序最大的作为中文实体链接的结果。
10.根据权利要求9所述的一种基于神经网络及词向量的中文实体链接方法,其特征在于:
步骤S3.2中,候选实体的排序并不仅仅基于上下文相似度,每个候选实体的最终得分是相似度值和实体e的先验概率p(e|m)的组合,其表示实体e是给定具体实体指称m的对应正确实体可能性,先验概率的具体值来自频率词典,而不在频率词典中的实体被赋予频率值为0,实体指称与实体对(m,e)的排序得分表示为:
r(m,e)=θsim(m,e)+ηp(e|m) (1)
公式(1)中θ和η是平衡相似度和先验概率的权重系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810430281.2A CN108681537A (zh) | 2018-05-08 | 2018-05-08 | 一种基于神经网络及词向量的中文实体链接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810430281.2A CN108681537A (zh) | 2018-05-08 | 2018-05-08 | 一种基于神经网络及词向量的中文实体链接方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108681537A true CN108681537A (zh) | 2018-10-19 |
Family
ID=63802994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810430281.2A Pending CN108681537A (zh) | 2018-05-08 | 2018-05-08 | 一种基于神经网络及词向量的中文实体链接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108681537A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933785A (zh) * | 2019-02-03 | 2019-06-25 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
CN110008307A (zh) * | 2019-01-18 | 2019-07-12 | 中国科学院信息工程研究所 | 一种基于规则和统计学习的变形实体识别方法和装置 |
CN110134965A (zh) * | 2019-05-21 | 2019-08-16 | 北京百度网讯科技有限公司 | 用于信息处理的方法、装置、设备和计算机可读存储介质 |
CN110516239A (zh) * | 2019-08-26 | 2019-11-29 | 贵州大学 | 一种基于卷积神经网络的分段池化关系抽取方法 |
CN110781646A (zh) * | 2019-10-15 | 2020-02-11 | 泰康保险集团股份有限公司 | 名称标准化方法、装置、介质及电子设备 |
CN110827831A (zh) * | 2019-11-15 | 2020-02-21 | 广州洪荒智能科技有限公司 | 基于人机交互的语音信息处理方法、装置、设备及介质 |
CN110852108A (zh) * | 2019-11-11 | 2020-02-28 | 中山大学 | 用于实体识别和实体消歧的联合训练方法、装置及介质 |
CN110866399A (zh) * | 2019-10-24 | 2020-03-06 | 同济大学 | 一种基于增强字符向量的中文短文本实体识别与消歧方法 |
CN111145913A (zh) * | 2019-12-30 | 2020-05-12 | 安徽科大讯飞医疗信息技术有限公司 | 基于多重注意力模型的分类方法、装置及设备 |
CN111159485A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
CN111274386A (zh) * | 2019-11-21 | 2020-06-12 | 国网浙江杭州市萧山区供电有限公司 | 基于卷积神经网络与多注意力机制的工单文本分类算法 |
CN111339267A (zh) * | 2020-02-17 | 2020-06-26 | 京东方科技集团股份有限公司 | 基于知识图谱的问答方法及系统、计算机设备及介质 |
CN111401049A (zh) * | 2020-03-12 | 2020-07-10 | 京东方科技集团股份有限公司 | 一种实体链接方法及装置 |
CN112883161A (zh) * | 2021-03-05 | 2021-06-01 | 龙马智芯(珠海横琴)科技有限公司 | 音译名识别规则的生成方法、装置、生成设备及存储介质 |
CN113032584A (zh) * | 2021-05-27 | 2021-06-25 | 北京明略软件系统有限公司 | 一种实体关联方法、装置、电子设备及存储介质 |
CN115062619A (zh) * | 2022-08-11 | 2022-09-16 | 中国人民解放军国防科技大学 | 中文实体链接方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
-
2018
- 2018-05-08 CN CN201810430281.2A patent/CN108681537A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
Non-Patent Citations (1)
Title |
---|
WEIXIN ZHAO: "Entity Linking on Chinese Micrologs via deep Neural Network", 《IEEE ACCESS》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008307B (zh) * | 2019-01-18 | 2021-12-28 | 中国科学院信息工程研究所 | 一种基于规则和统计学习的变形实体识别方法和装置 |
CN110008307A (zh) * | 2019-01-18 | 2019-07-12 | 中国科学院信息工程研究所 | 一种基于规则和统计学习的变形实体识别方法和装置 |
CN109933785A (zh) * | 2019-02-03 | 2019-06-25 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
CN110134965A (zh) * | 2019-05-21 | 2019-08-16 | 北京百度网讯科技有限公司 | 用于信息处理的方法、装置、设备和计算机可读存储介质 |
CN110134965B (zh) * | 2019-05-21 | 2023-08-18 | 北京百度网讯科技有限公司 | 用于信息处理的方法、装置、设备和计算机可读存储介质 |
CN110516239A (zh) * | 2019-08-26 | 2019-11-29 | 贵州大学 | 一种基于卷积神经网络的分段池化关系抽取方法 |
CN110781646A (zh) * | 2019-10-15 | 2020-02-11 | 泰康保险集团股份有限公司 | 名称标准化方法、装置、介质及电子设备 |
CN110781646B (zh) * | 2019-10-15 | 2023-08-22 | 泰康保险集团股份有限公司 | 名称标准化方法、装置、介质及电子设备 |
CN110866399A (zh) * | 2019-10-24 | 2020-03-06 | 同济大学 | 一种基于增强字符向量的中文短文本实体识别与消歧方法 |
CN110866399B (zh) * | 2019-10-24 | 2023-05-02 | 同济大学 | 一种基于增强字符向量的中文短文本实体识别与消歧方法 |
CN110852108A (zh) * | 2019-11-11 | 2020-02-28 | 中山大学 | 用于实体识别和实体消歧的联合训练方法、装置及介质 |
CN110827831A (zh) * | 2019-11-15 | 2020-02-21 | 广州洪荒智能科技有限公司 | 基于人机交互的语音信息处理方法、装置、设备及介质 |
CN111274386A (zh) * | 2019-11-21 | 2020-06-12 | 国网浙江杭州市萧山区供电有限公司 | 基于卷积神经网络与多注意力机制的工单文本分类算法 |
CN111159485B (zh) * | 2019-12-30 | 2020-11-13 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
CN111159485A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
CN111145913A (zh) * | 2019-12-30 | 2020-05-12 | 安徽科大讯飞医疗信息技术有限公司 | 基于多重注意力模型的分类方法、装置及设备 |
CN111145913B (zh) * | 2019-12-30 | 2024-02-20 | 讯飞医疗科技股份有限公司 | 基于多重注意力模型的分类方法、装置及设备 |
CN111339267A (zh) * | 2020-02-17 | 2020-06-26 | 京东方科技集团股份有限公司 | 基于知识图谱的问答方法及系统、计算机设备及介质 |
CN111401049A (zh) * | 2020-03-12 | 2020-07-10 | 京东方科技集团股份有限公司 | 一种实体链接方法及装置 |
US11914959B2 (en) | 2020-03-12 | 2024-02-27 | Boe Technology Group Co., Ltd. | Entity linking method and apparatus |
CN112883161A (zh) * | 2021-03-05 | 2021-06-01 | 龙马智芯(珠海横琴)科技有限公司 | 音译名识别规则的生成方法、装置、生成设备及存储介质 |
CN113032584A (zh) * | 2021-05-27 | 2021-06-25 | 北京明略软件系统有限公司 | 一种实体关联方法、装置、电子设备及存储介质 |
CN115062619A (zh) * | 2022-08-11 | 2022-09-16 | 中国人民解放军国防科技大学 | 中文实体链接方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108681537A (zh) | 一种基于神经网络及词向量的中文实体链接方法 | |
CN109284357B (zh) | 人机对话方法、装置、电子设备及计算机可读介质 | |
CN104809176B (zh) | 藏语实体关系抽取方法 | |
CN106407236B (zh) | 一种面向点评数据的情感倾向性检测方法 | |
CN109582704B (zh) | 招聘信息和求职简历匹配的方法 | |
CN108460014A (zh) | 企业实体的识别方法、装置、计算机设备及存储介质 | |
CN102693279B (zh) | 一种快速计算评论相似度的方法、装置及系统 | |
CN110866399B (zh) | 一种基于增强字符向量的中文短文本实体识别与消歧方法 | |
CN107690634B (zh) | 自动查询模式生成方法及系统 | |
CN117056471A (zh) | 知识库构建方法及基于生成式大语言模型的问答对话方法和系统 | |
CN106407235B (zh) | 一种基于点评数据的语义词典构建方法 | |
CN103886020B (zh) | 一种房地产信息快速搜索方法 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
Saloot et al. | An architecture for Malay Tweet normalization | |
CN108363688B (zh) | 一种融合先验信息的命名实体链接方法 | |
CN111680488A (zh) | 基于知识图谱多视角信息的跨语言实体对齐方法 | |
CN107092605A (zh) | 一种实体链接方法及装置 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN108021682A (zh) | 开放式信息抽取背景下一种基于维基百科的实体语义化方法 | |
CN101008941A (zh) | 多文档自动摘要的逐次主轴筛选法 | |
CN102929962B (zh) | 一种搜索引擎的评测方法 | |
JP3831357B2 (ja) | 対訳情報作成装置及び対訳情報検索装置 | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
US20210142002A1 (en) | Generation of slide for presentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181019 |