CN108681537A

CN108681537A - 一种基于神经网络及词向量的中文实体链接方法

Info

Publication number: CN108681537A
Application number: CN201810430281.2A
Authority: CN
Inventors: 赵翔; 曾维新; 黄培馨; 唐九阳; 葛斌; 张翀; 肖卫东
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-10-19

Abstract

本发明公开了一种基于神经网络的中文微博实体链接方法，其涉及实体链接技术领域，该方法包括以下步骤：S1，通过用于提升中文实体链接准确率上界的策略为每个实体指称生成与实体指称相应的候选实体；S2，以词语和实体标识符为基础构建联合训练语料库，并对联合训练预料库中的句子和扩展进行联合训练生成词语向量和实体嵌入向量；S3，将词语向量和实体嵌入向量作为神经网络的输入单元，利用长短时记忆网络生成实体指称和实体的表示，进一步被用来刻画实体指称和实体间的语义相似度。为调节不同词语对最终实体指称文本和实体描述表示的贡献，提出双重注意力机制，使整个神经网络更加高效。

Description

一种基于神经网络及词向量的中文实体链接方法

技术领域

本发明属于实体链接技术领域，具体涉及一种基于神经网络及词向量的中文实体链接方法。

背景技术

随着互联网上不规则数据的爆炸式增长，自动化抽取以及规范其中有价值的信息变得越来越重要。在这种情况下，知识库(KB)被提出并且得到了持续的发展，因为其能规范化以及组织新出现的信息并将知识以一种易接受的方式展现。在知识库构建以及更新过程中，实体链接通过连接多样化的文本和规则化的知识，起到重要的作用。

实体链接(EL)任务旨在确定文本中实体指称相对应的实体。实体是各种事物唯一的表征，而实体指称则是实体的表面形式，可能具有一定的歧义性和误导性。实体链接任务的目标是消除实体指称具有的歧义性。

尽管实体链接技术经历了不断的发展，但大多数工作仍然是基于英文语料的，而这些方法并不能直接用在其它语言上，这主要可以归结为两个主要原因，即不同的语言特征以及目标知识库质量的参差不齐。比如说中文与英语语系不同的是，中文的词语可能由多个字符组成，而且各个词语之间没有空格，在很多自然语言处理任务中需要切分后才能进一步使用，而这也被称为中文分词问题，因此，中文实体链接技术也无法避免的需要解决分词问题并且最小化其误差传播。此外，到目前为止，没有完全公开的高质量中文知识库，进而造成中文实体链接系统的落后发展。

现有常见的中文实体链接方法是通过手工设计多种特征来衡量实体指称和候选实体之间的相似度，这些值进一步被结合并用来进行候选实体排序，这种方法过于强调特征工程，在实际实现过程中取得的效果很一般，这种方法还经常使用词袋模型(BOW)来表示实体指称和实体的文本，但BOW无法捕捉文本中隐藏的深层含义，而这些深层含义对提升实体指称与实体间文本相似度计算的准确性起到决定性作用。此外，现有的中文实体链接数据集建立在部分并且过时的知识库之上，会限制实体链接的性能。

发明内容

为了克服现有技术应用领域中存在的不足，本发明提出了一种基于神经网络及词向量不需要复杂特征工程就能捕捉文本深层含义、消除实体支撑歧义、提升中文实体链接系统有效性的中文实体链接方法。

本发明是通过以下技术方案实现的：

一种基于神经网络及词向量的中文实体链接方法，包括以下步骤：

S1，生成候选实体；

通过用于提升中文实体链接准确率上界的策略为每个实体指称生成与实体指称相应的候选实体；

S2，词语及实体的联合向量训练；

以需要建立中文实体链接的文本中的词语为基础生成包括文本本身和两种扩展形式的联合向量训练语料库，通过联合向量训练方法将联合向量训练语料库中的文本和两种扩展形式生成为词语向量和实体嵌入向量；

S3，基于双重注意力机制的深度神经网络实体消岐，得到实体链接结果；

将通过联合向量训练方法生成的词语向量和实体嵌入向量作为神经网络的输入单元，通过长短时记忆网络生成实体指称表示和实体表示，并将生成的实体指称表示和实体表示拼接送入两层的全连接层，由全连接层生成实体与实体指称之间的相似度值，在长短时记忆网络框架中还嵌入了用于提高消歧效率的双重注意力机制。

进一步的，在S1中，用于提升中文实体链接准确率上界的策略包括实体指称规范化。

通过实体指称规范化去除实体指称中包含的无用标点符号，以及统一多种形式的外来名称，进而规范化各种实体指称的表现形式，此外，对于实体指称为互联网用户创造的复合词，在知识库中没有直接对应的实体条目，则利用中文分词工具来分割复合词。

进一步的，在S1中，用于提升中文实体链接准确率上界的策略包括频率字典。

通过构建名称词典规范化不规则实体指称形式，名称词典中的元素从维基百科页面的锚文本获取，此外，给定不规则实体指称，记录不规则实体指称可能指向实体的频率，以反映实体指称最可能对应的实体。

进一步的，在S1中，用于提升中文实体链接准确率上界的策略包括维基百科功能页面。

通过维基百科功能页面上丰富的语义结构查询实体指称，维基百科的语义结构包括消歧义页面、重定向页面和维基百科子页面间的超链接。

进一步的，在S1中，用于提升中文实体链接准确率上界的策略包括别名词典。

别名词典是由实体名称及其可能的别名组成，别名词典的具体条目信息从维基百科的信息框以及百度百科中挖掘得到。

进一步的，在S1中，需要建立中文实体链接的文本针对的是维基百科页面中的文本。

进一步的，在S2中，词语及实体联合向量训练包括创建联合向量训练语料库、联合向量训练。

联合向量训练的语料库包括需要建立中文实体链接的文本本身和两种扩展形式，文本包括词语和锚文本，词语包括实体指称和一般词语，将文本中锚文本的链接生成相应的实体标识符，将实体标识符视为特殊形式的实体指称，使用实体标识符替代文本中的锚文本，生成用于联合向量训练的扩展一，从文本中提取锚文本的实体标识符，生成用于联合向量训练的扩展二；

以联合向量训练语料库中的文本、扩展一、扩展二为输入，通过拟合实体指称与词语之间的上下文的共现关系，并利用上下文信息和共现频率来提取每一个实体指称与词语的潜在特征，将实体指称与词语映射到向量空间中，相似的实体指称和词语在向量空间中也会处于相近的位置，进而生成词语向量和实体嵌入向量。

进一步的，联合向量训练方法具体包括：设联合向量训练语料库中的文本、扩展一、扩展二为一个标记序列Λ＝τ₁,τ₂,...τ_N，标记包括词语和实体标识符，为了更好捕捉标记序列中标记τ_i之间的关系，训练得到更高质量的向量表示，采取最大化平均对数概率：

公式(1)中，c是上下文窗口的大小，τ_i表示目标标记，τ_i+j是一个上下文标记，a表示带有实体标识的联合向量训练，i,j均用来标记位置，P代表概率值；

P(τ_i+j|τ_i)由以下softmax函数定义：

公式(2)中，τ表示语料库中所有标记的集合，矩阵V和U分别表示训练过程中学习得到的两个参数矩阵，V_τ和U_τ分别表示储存标记τ的向量，i,j均用来标志位置，T代表转置操作；

联合向量训练后，矩阵V用于储存生成的词向量和实体嵌入向量。

进一步的，双重注意力机制深度神经网络结构包括实体指称表示单元、实体表示单元、双重注意力机制单元、全连接层单元；

长短时记忆网络框架包括三个基本的LSTM单元，分别用于刻画实体指称的左侧上下文、实体指称的右侧上下文和实体描述，实体指称的两个LSTM的最大池化结果被连接并作为实体指称的表示，实体描述LSTM的最大池化结果和实体嵌入向量连接并作为实体的表示，通过将实体指称表示和实体表示进行拼接，并送入两层的全连接层生成相似度值，双重注意力机制的长短时记忆网络框架中还嵌入了用于减轻文本无关词语带来负面影响的双重注意力机制；

在实体指称表示单元中，将实体指称两侧窗口中大小为c的词作为上下文，表示为ω₁,ω₂,...,ω_c,ω_mention和ω_mention,ω_c+1,ω_c+2,...,ω_2c，实体指称被表示为单个符号ω_mention，利用两个独立的长短时记忆网络模拟左右文，并且右文序列被逆转为ω_2c,ω_2c-1,...,ω_c+1,ω_mention；

在实体表示单元中，实体表示是实体嵌入向量和实体描述表示的组合，实体嵌入向量是由词语及实体的联合向量训练所获得的，实体嵌入向量包含实体指称上下文的句法和语义信息，设置一个大小为p的窗口来从维基百科页面的第一段中提取相应实体描述，在分词和嵌入之后，输入被送入带有最大池化的长短时记忆网络以生成实体描述表示，连接实体嵌入向量和实体表示并作为最终的实体表示；

在双重注意力机制单元中，通过给定的实体嵌入向量和实体表示来识别出输入中的有关的词语，将实体嵌入向量作为注意力向量来选择实体描述中有关的词语，以获取实体描述的精确表示，利用实体表示作为第二注意力向量来提取实体指称上下文中的有关的词语，以取出实体指称表示中的不相关信息。

进一步的，S3具体包括以下步骤：

S3.1，输入包括实体指称的文本和文本中实体指称对应的候选实体；

S3.2，得到实体指称与候选实体的相似度值，并结合实体流行度值，得到最终候选实体排序得分值；

S3.3，根据候选实体排序得分值对候选实体进行排序，取候选实体排序最大的作为中文实体链接的结果。

进一步的，步骤S3.2中，候选实体的排序并不仅仅基于上下文相似度，每个候选实体的最终得分是相似度值和实体e的先验概率p(e|m)的组合，其表示实体e是给定具体实体指称m的对应正确实体可能性，先验概率的具体值来自频率词典，而不在频率词典中的实体被赋予频率值为0，实体指称与实体对(m，e)的排序得分表示为：

r(m,e)＝θsim(m,e)+ηp(e|m) (3)

公式(3)中θ和η是平衡相似度和先验概率的权重系数。

此外，实体指称和候选实体的类别相似度也能很好的捕捉候选实体和实体指称的相似程度。具体来说，利用现有的实体指称及候选实体类别标注技术，分别得到实体指称和候选实体的类别，如若实体指称和候选实体的类别相同，那么类别相似度Cate(e,m)＝1,否则Cate(e,m)＝0，实体指称与实体对(m,e)的排序得分表示为：

r(m,e)＝θsim(m,e)+ηp(e|m)+σCate(m,e) (4)

公式(4)中θ，η和σ是平衡上下文相似度和先验概率以及类别相似度的权重系数。

与现有技术相比，本发明的有益效果有：

一种基于神经网络及词向量的中文实体链接方法，通过候选实体生成策略生成的候选实体，能够有效的提高实体链接准确率的上界，有效克服了现有中文知识库质量不高的问题；通过词语及实体的联合向量训练方法，有效的解决了中文分词的问题，使得词向量在概念上更准确；由联合向量训练得到的联合词和实体嵌入向量经过长短时记忆网络生成实体指称的表示和实体的表示，并通过基于双重注意力机制的深度神经网络，得到实体指称与候选实体之间的相似度得分值并对其排序，最终得到实体链接结果，可以直接获得词与向量的相似度值，不需要强调复杂的特征工程，在保证中文实体链接准确性的前提下，还能很好的捕捉文本中隐藏的深层含义。

附图说明

图1为本发明的实施流程示意图；

图2为本发明的候选实体生成过程流实施程图；

图3为本发明的词与实体联合向量训练语料库构建图；

图4为本发明的双重注意力机制深度神经网络结构图。

具体实施方式

下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如附图1-4所示，一种基于神经网络及词向量的中文微博实体链接方法，包括以下步骤：

S1，生成候选实体；

通过直接查询实体指称的名称生成候选实体的方法，在大多数情况下不会得到很好的结果，因为实体指称可能以多种形式出现，特别是在中文文本中，为了提高实体生成的召回率；本发明通过利用四种高效的候选实体生成策略，为每个实体指称生成相应的候选实体，进而提升中文实体链接准确率的上界；

四种候选实体生成策略分别为实体指称规范化、频率字典、维基百科功能页面以及别名词典，四种候选实体生成策略对实体指称的处理的过程如下：

实体指称规范化：通过实体指称规范化去除实体指称中包含的无用标点符号，以及统一多种形式的外来名称，进而规范化各种实体指称的表现形式，此外，对于实体指称为互联网用户创造的复合词，在知识库中没有直接对应的实体条目，则利用中文分词工具来分割复合词。

频率字典：通过构建名称词典规范化不规则实体指称形式，名称词典中的元素从维基百科页面的锚文本获取，此外，给定不规则实体指称，记录不规则实体指称可能指向实体的频率，以反映实体指称最可能对应的实体，频率字典不仅有助于候选实体生成过程，而且为候选实体后续过程中计算先验概率提供帮助。

维基百科功能页面：通过维基百科功能页面上丰富的语义结构查询实体指称，维基百科的语义结构包括消歧义页面、重定向页面和维基百科子页面间的超链接，协助查询具有歧义的实体指称。

别名词典：由实体名称及其可能的别名组成，别名词典的具体条目信息从维基百科的信息框以及百度百科中挖掘得到。

通过以上四种实体生成策略，能够有效的提高实体链接准确率的上界。

S2，对候选实体进行排序，词语及实体向量联合向量训练；

将词语和实体映射到相同的高维连续向量空间中，其中相似的词和实体处于相近的位置，以更好地表示其语义信息，并作为神经网络的输入单元；

联合向量训练方法源于传统的skip-gram模型，skip-gram模型的训练目标是生成可以帮助预测给定词语的上下文词语的词语表示，形式上，设O＝ω₁,ω₂,...ω_N是一个词语序列，该模型旨在最大化以下平均对数概率：

公式(1)中，c是上下文窗口的大小，ω_i表示目标词，ω_i+j是上下文词；

由以下softmax函数定义：

公式(2)中，W表示词汇表中所有词语的集合，V_ω和U_ω表示在矩阵V和U中词ω的向量，训练后，矩阵V用于获取词嵌入向量。

联合向量训练方法将传统模型扩展为联合嵌入模型，首先需要创建联合向量训练的语料库，该语料库包括句子本身以及两种扩展形式，以维基百科页面中的文本为例，句子由词语和锚文本组成，利用与每个锚文本相关联的链接，可以获得锚文本的相应实体标识符，使用实体标识符替代锚文本，可以生成用于联合向量训练的扩展句子1，此外，还从原始句子中只提取实体标识符，以形成新的输入，更好地捕捉实体之间的关系2。

联合向量训练方法通过将实体标识符视为特殊形式的词语，将相应的公式(1)和公式(2)修改成如下公式：

公式(3)和公式(4)中，Λ＝τ₁,τ₂,...τ_N是一个标记序列，标记包括词语和实体标识符，τ_i表示目标标记，τ_i+j是一个上下文标记，τ表示语料库中所有标记的集合，V_τ和U_τ表示储存标记τ的向量，经过训练，矩阵V用于储存生成的词向量和实体嵌入向量。

联合向量训练的优点有：

(1)最终词向量在概念上更准确，因为其上下文中形式各样的实体指称被实标识符替代；

(2)与源自知识库相对较小的语料库相比，联合向量训练获取的实体嵌入向量是在大规模的文本联合训练语料库上学习得到的，在训练过程中实体嵌入向量具有较高的频率；

(3)由于词语和实体的表示是在同一向量空间中学习得到的词和实体，词和实体之间相似性的度量可以通过相似度值实现。

S3，基于双重注意力机制深度神经网络的实体消岐过程；

为从候选实体中选出正确实体，本发明提出双重注意力机制的长短时记忆网络框架，该框架由三个基本的LSTM单元组成，分别用于刻画实体指称的左侧上下文、实体指称的右侧上下文和实体描述，实体指称的两个LSTM的最大池化结果被连接并作为实体指称表示，而实体表示则由实体描述LSTM的最大池化结果和实体向量连结组成，通过将实体指称表示和实体表示进行拼接并且送入全连接层来生成相似度值，双重注意力机制的长短时记忆网络框架中还嵌入了双重注意力机制，以减少文本无关词语带来的负面影响，并提高实体消岐的效率。

双重注意力机制的长短时记忆网络框架由实体指称表示单元、实体表示单元、双重注意力机制单元、全连接层单元，下面对各个单元进行描述：

实体指称表示单元中，考虑到实体指称上下文具有不同的长度，使用实体指称两侧的窗口大小为c中的词作为其上下文，并表示为ω₁,ω₂,...,ω_c,ω_mention和ω_mention,ω_c+1,ω_c+2,...,ω_2c，尽管实体指称被表示为单个符号ω_mention，利用两个独立的LSTM来模拟左右文，并且右文序列被逆转为ω_2c,ω_2c-1,...,ω_c+1,ω_mention，一方面，将实体指称作为最后一个单元可以更好地利用实体指称的语义，另一方面，LSTM可以通过在序列结尾处对齐实体指称来获取实体指称位置。

与以往工作不同的是，本发明不直接使用上下文的词向量作为长短时记忆网络的输入，因为它无法捕获实体指称、实体和上下文之间的深层含义，相反，在传递到神经网络之前，将每个词语向量与实体指称向量和实体表示相连接，进而在生成实体指称表示时，充分的利用实体表示、实体指称向量和上下文词语之间的联系，接着将所有LSTM输出的最大池化结果作为左右文的表示，并将左右文的表示进一步连接得到固定长度的实体指称表示。

实体表示单元中，实体表示是实体向量和实体描述表示的组合，实体向量是从词和实体联合向量训练中所获得的，由于在训练中实体被看作是特殊形式的词语，实体向量包含了实体指称上下文的句法和语义信息，实体向量本身无法充分反映实体的相关信息，因此需要更多的文本描述来丰富实体表示，具体来说，由于维基百科页面第一段的文字质量最高，设置一个窗口大小p来从维基百科页面的第一段中提取相应的实体描述，在分词和嵌入之后，输入被送入带有最大池化的LSTM以生成实体描述表示，接着连接实体向量和实体描述向量，并作为最终的实体表示。

双重注意力机制单元中，通过给定的实体向量和实体表示来识别出文本中有关联的词语，将实体向量作为一个注意力向量来选择实体描述中有关联的词语，以获取实体描述的更精确表示，此外，利用实体表示作为另一个注意向量来提取实体指称上下文中有关联的词语，以去除实体指称表示中的不相关信息。

全连接层单元中，将实体指称和实体表示进行连接后，送入两层的全连接层，其中第二层全连接层的输出是个单节点，表示经sigmoid函数处理后的相似度值，假设s是最后的相似度值，g表示实体是否为正确对应实体，训练目标是尽量减少以下损失值：

L(s,g)＝glog(s)+(1-g)log(1-s) (5)

结合双重注意力机制的长短时记忆网络框架，本发明采用基于双重注意力机制深度神经网络来实现消歧过程。

基于双重注意力机制深度神经网络的消歧过程包括以下步骤：

S3.2，得到实体指称与候选实体的相似度值，并结合频率字典中的实体流行度值，得到最终候选实体排序得分值；

上述3.2)中，候选实体的排序并不仅仅基于上下文相似度，事实上，每个候选实体的最终得分是相似度值和实体e的先验概率p(e|m)的组合，其表示实体e是给定具体实体指称m的对应的正确实体的可能性，先验概率的具体值来自频率词典，而不在频率词典中的实体被赋予频率值0，实体指称—实体对(m,e)的排序得分表示为：

r(m,e)＝θsim(m,e)+ηp(e|m) (6)

公式(6)中θ和η是平衡相似度和先验概率的权重系数。

通过基于双重注意力机制的深度神经网络，根据候选实体得分值进行排序，最终得到实体链接结果；由于词与向量在相同的高维空间联合向量训练得到，可以直接通过相似度获得词与向量的相似度值，不需要强调复杂的特征工程，在保证中文实体链接准确性的前提下，还能很好的捕捉文本中隐藏的深层含义。

r(m,e)＝θsim(m,e)+ηp(e|m)+σCate(m,e) (7)

公式(7)中θ，η和σ是平衡上下文相似度和先验概率以及类别相似度的权重系数。

以上实施例仅起到解释本发明技术方案的作用，本发明所要求的保护范围并不局限于上述实施例的实现系统和具体实施步骤。因此，仅对上述实施例中具体的公式及算法进行简单替换，但其实质内容仍与本发明方法相一致的技术方案，均应属于本发明的保护范围。

Claims

1.一种基于神经网络及词向量的中文实体链接方法，其特征在于，包括以下步骤：

S1，生成候选实体；

S2，词语及实体的联合向量训练；

2.根据权利要求1所述的一种基于神经网络及词向量的中文实体链接方法，其特征在于，在S1中，用于提升中文实体链接准确率上界的策略包括实体指称规范化。

3.根据权利要求1所述的一种基于神经网络及词向量的中文实体链接方法，其特征在于，在S1中，用于提升中文实体链接准确率上界的策略包括频率字典。

4.根据权利要求1所述的一种基于神经网络及词向量的中文实体链接方法，其特征在于，在S1中，用于提升中文实体链接准确率上界的策略包括维基百科功能页面。

5.根据权利要求1所述的一种基于神经网络及词向量的中文实体链接方法，其特征在于，在S1中，用于提升中文实体链接准确率上界的策略包括别名词典。

6.根据权利要求1-5任一项所述的一种基于神经网络及词向量的中文实体链接方法，其特征在于，在S1中，需要建立实体链接的文本针对的是维基百科页面中的文本。

7.根据权利要求6所述的一种基于神经网络及词向量的中文实体链接方法，其特征在于，在S2中，词语及实体联合向量训练包括创建联合向量训练语料库、联合向量训练；

创建联合向量训练语料库：联合向量训练的语料库包括需要建立中文实体链接的文本本身和两种扩展形式，文本包括词语和锚文本，词语包括实体指称(和一般词语)，将文本中锚文本的链接生成相应的实体标识符，(将实体标识符视为特殊形式的实体指称，)使用实体标识符替代文本中的锚文本，生成用于联合向量训练的扩展一，从文本中提取锚文本的实体标识符，生成用于联合向量训练的扩展二；

联合向量训练：以联合向量训练语料库中的文本、扩展一、扩展二为输入，通过拟合实体指称与词语之间的上下文的共现关系，并利用上下文信息和共现频率来提取每一个实体指称与词语的潜在特征，将实体指称与词语映射到向量空间中，相似的实体指称和词语在向量空间中也会处于相近的位置，进而生成词语向量和实体嵌入向量。

8.根据权利要求7所述的一种基于神经网络及词向量的中文实体链接方法，其特征在于：双重注意力机制深度神经网络结构包括实体指称表示单元、实体表示单元、双重注意力机制单元、全连接层单元；

所述长短时记忆网络框架包括三个基本的LSTM单元，分别用于刻画实体指称的左侧上下文、实体指称的右侧上下文和实体描述，实体指称的两个LSTM的最大池化结果被连接并作为实体指称的表示，实体描述LSTM的最大池化结果和实体嵌入向量连接并作为实体的表示，通过将实体指称表示和实体表示进行拼接，并送入两层的全连接层生成相似度值，双重注意力机制的长短时记忆网络框架中还嵌入了用于减轻文本无关词语带来负面影响的双重注意力机制；

在双重注意力机制单元中，通过给定的实体嵌入向量和实体表示来识别出输入中的重要部分，将实体嵌入向量作为注意力向量来选择实体描述中重要部分，以获取实体描述的精确表示，利用实体表示作为第二注意力向量来提取实体指称上下文中的重要部分，以取出实体指称表示中的不相关信息。

9.根据权利要求8所述的一种基于神经网络及词向量的中文实体链接方法，其特征在于：S3具体包括以下步骤：

10.根据权利要求9所述的一种基于神经网络及词向量的中文实体链接方法，其特征在于：

步骤S3.2中，候选实体的排序并不仅仅基于上下文相似度，每个候选实体的最终得分是相似度值和实体e的先验概率p(e|m)的组合，其表示实体e是给定具体实体指称m的对应正确实体可能性，先验概率的具体值来自频率词典，而不在频率词典中的实体被赋予频率值为0，实体指称与实体对(m，e)的排序得分表示为：

r(m,e)＝θsim(m,e)+ηp(e|m) (1)

公式(1)中θ和η是平衡相似度和先验概率的权重系数。