CN112765983A

CN112765983A - 一种基于结合知识描述的神经网络的实体消歧的方法

Info

Publication number: CN112765983A
Application number: CN202011467935.2A
Authority: CN
Inventors: 刘光毅
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-05-07

Abstract

本发明公开了一种基于结合知识描述的神经网络的实体消歧的方法，涉及自然语言处理技术领域。包括以下步骤：步骤1：使用指称上下文文本和候选实体进行建模，计算指称上下文文本与候选实体的相似度；步骤2：使用候选实体知识描述的文本信息与指称的上下文文本进行建模；步骤3：对候选实体知识描述关键词提取；步骤4：建立实体消歧的局部模型；步骤5：建立实体消歧的全局模型；步骤6：引入损失函数，训练找到步骤4中的目标式。本发明从候选实体以及本文上下文的向量中同时进行实体操作，将全局模型用于短文本的实体消歧中，结合优化后的局部模型，弥补了全局模型语料库缺乏以及局部模型缺少文本其他实体信息的问题。

Description

一种基于结合知识描述的神经网络的实体消歧的方法

技术领域

本发明涉及自然语言处理技术领域，更具体的说是涉及一种基于结合知识描述的神经网络的实体消歧的方法。

背景技术

实体消歧是NLP中实体链接的子任务，例如“十面埋伏”一词，可以是歌手陈奕迅演唱的一首歌曲，也可以是张艺谋导演执导拍摄的电影，还可能是汉语成语或者是琵琶曲。

目前主要的实体消歧方法主要分为机器学习和深度学习的方法：传统的机器学习方法按照模型分类主要包含基于检索的方法、基于排序模型的方法、基于空间向量的方法、基于主题模型的方法等；基于深度学习的实体消歧是目前主流的研究方法，根据模型利用的信息又可以分为局部模型和全局模型。基于上下文的局部模型与基于全局的模型可以从不同的方面进行实体消歧。结合两种方法一起使用是目前长文本实体消歧的主流思路。但是这些方法通过离线训练实体向量来表示实体，使得消歧模型存在天然的信息表示损失问题。

局部模型利用实体指称周围的局部文本上下文信息独立的解决每个实体指称的歧义问题，忽视了位于同一文档的不同实体间存在的语义联系；全局模型通常将文档中的实体指称及其候选实体构建为图结构,其中节点为实体，边表示其关系,利用实体指称间、候选实体间、实体指称与候选实体间的关系协同推理，同样存在数据缺乏的问题，同时，由于联合推理机制导致计算量庞大，在文档较长的情况下实体图包含节点过多导致计算量很大。

发明内容

本发明的目的在于提供一种基于结合知识描述的神经网络的实体消歧的方法，以期解决背景技术中的问题。本发明主要针对上述问题，在模型的基础上，融合实体知识的描述，在输入时不单输入文本的词向量或者字向量，而是指称上下文文本和候选实体的向量表示结合，构建融合了实体知识描述的消歧模型。

为了实现上述目的，本发明采用以下技术方案：

一种基于结合知识描述的神经网络的实体消歧的方法，包括以下步骤：

步骤1：使用指称上下文文本和候选实体进行建模，计算指称上下文文本与候选实体的相似度；

步骤2：使用候选实体知识描述的文本信息与指称的上下文文本进行建模；

步骤3：对候选实体知识描述关键词提取；

步骤4：建立实体消歧的局部模型；

步骤5：建立实体消歧的全局模型；

步骤6：引入损失函数，训练找到步骤4中的目标式。

所述步骤1，包括：对于指称m，选取大小为K的窗口作为其上下文c＝{ω₁,ω₂,ω₃…ω_k}，T(m)作为候选实体生成，元素e∈T(m)，利用

得到候选实体的权重信息，其中A为参数，之后根据式c＝{ω∈c|u(ω)∈topR(u)}除去上下文中不重要的词语，对上下文信息进行枝剪到R≤K，后将筛减后的上下文权重信息重新归一化：

式中：ω为上下文向量，u(ω)为候选实体权重信息，exp[u(ω)]为上下文权重信息数学期望值，β(ω)为归一化枝剪后的下上文权重信息；

得到上下文向量x_c以及其和各个候选实体向量之间的相似度，表示上下文与候选实体之间的相似度：

式中：x_c为计算到的上下文向量，β(ω)为上文中计算的归一化枝剪后的下上文权重，x_e为候选实体向量，B为参数矩阵，ψ(e,c)表示上下文与候选实体之间的相似度。

所述步骤2，包括：将上下文以及候选实体知识描述信息进行编码，每个候选实体的实体知识描述信息同指称上下文进行结合，得到未规范化的注意力权重

r代表第r个候选实体，i代表指称上下文的第i个编码向量，j代表候选实体知识描述的第j个编码向量；通过对增强后的局部推理信息进行池化，从而提取特征v^r表示第r个候选实体知识描述与指称上下文结合得到的特征向量；S表示候选实体数量；预测模块对所有候选实体的相关度进行归一化，可以得到各个候选实体同指称的相关度概率：

。

所述步骤3，包括：对实体知识描述页面的长度进行惩罚，以使得抽取时更关注实体知识描述页面信息少的实体；由实体知识描述页面长度K，知识库所有实体描述的平均页面长的S，平均从实体页面提取出的关键词个数l_m以及长度惩罚参数λ得出惩罚后的长度：

式中：len(K)表示实体知识描述页面惩罚后的长度，K为当前实体知识描述页面长度,S为知识库所有实体的知识描述页面的平均长度,lm为平均要从实体知识描述页面提取出的关键词个数,λ为长度惩罚参数；抽取完的关键词属于词袋模型，故而通用匹配模型采用的输入编码方式是直接映射这些词语到词向量空间。

所述步骤4，包括：结合知识库统计的指称与实体的先验概率分布

得出局部模型：

式中：ψ(e,c)为上下文与候选实体之间的相似度，G(e,c)为(2)中的概率相关度消歧模型，

为指称先验概率；

用于计算指称的上下文同指称的候选实体的分数。

所述步骤5，包括：

针对文本所有指称集合M，m∈M，以及各自上下文C，c∈C，和各自候选实体T(m₁),T(m₂)…，建立全局模型，e为每个指称候选实体中选择一个实体：

式中：Φ(e,e′)是二元因子式，x_e为实体e的向量表示；x_e′为实体e′的向量表示，；C是上下文文本集合，g(e,c,m)表示全局模型；ψ_i(e_i)＝F(e_i,c_i,m_i)为局部模型全连接网络的局部分数。

所述步骤6中的损失函数为最大边际损失函数(max-margin loss)。最大边际损失函数(max-margin loss)使得正确实体的排序高于其他候选实体。联合局部模型和全局模型从不同方面进行消歧。

本发明与现有技术相比具有的有益效果是：

本发明从候选实体以及本文上下文的向量中同时进行实体操作，将全局模型用于短文本的实体消歧中，结合优化后的局部模型，弥补了全局模型语料库缺乏以及局部模型缺少文本其他实体信息的问题。

附图说明

图1为模型整体识别流程图；

图2为局部模型示意图；

具体实施方式

下面结合实施例对本发明作进一步的描述，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域的普通技术人员在没有做出创造性劳动前提下所获得的其他所用实施例，都属于本发明的保护范围。

实施例1:

下面将结合附图1和2，对本发明的技术方案进行完整的描述。

步骤3：对候选实体知识描述关键词提取；

步骤4：建立实体消歧的局部模型；

步骤5：建立实体消歧的全局模型；

步骤6：引入损失函数，训练找到步骤4中的目标式。

。

式中：len(K)表示实体知识描述页面惩罚后的长度，K为当前实体知识描述页面长度,S为知识库所有实体的知识描述页面的平均长度,l_m为平均要从实体知识描述页面提取出的关键词个数,λ为长度惩罚参数；抽取完的关键词属于词袋模型，故而通用匹配模型采用的输入编码方式是直接映射这些词语到词向量空间。

得出局部模型：

为指称先验概率；

用于计算指称的上下文同指称的候选实体的分数。

所述步骤5，包括：

下面将结合具体一个实例在模型中训练的过程更详细地描述本发明的示例性实施例。

上下文与候选实体向量

在含有“十面埋伏”的文本中，抽取实体上下文信息，比如“演唱会”“陈奕迅”“演唱”等的向量表示，以及知识库中备选实体“十面埋伏(电影)”、“十面埋伏(歌曲)”、“十面埋伏(成语)”、“十面埋伏(乐曲)”的向量表示，由上述步骤(1)中提到的公式获取之间的相似度。

融合实体知识描述

将文本上下文的描述以及候选实体的描述，比如候选实体“十面埋伏(电影)”的知识描述“张艺谋执导电影”等信息，进行编码输入，得到其于上下文的注意力关系，通过联合模块的局部信息推理进行池化，提取特征，得到各个候选实体同指称的相关度概率。

实体知识关键词抽取

对候选实体的知识描述文本段落，进行关键词抽取，获得更简短的关键词信息如“电影”“张艺谋导演”等信息，之后利用上述步骤(3)中的长度惩罚机制，对热门实体进行惩罚以使得实体消歧时更多地关注非热门实体。

模型训练

在上述完成之后，输入模型训练，更具上述步骤(4)(5)(6)提到的公式，以及已知的训练数据“十面埋伏(歌曲)”，计算出模型的参数，可以用于后续实体识别时的预测。如利用训练好的模型，在识别包含“烟火人间这一首古风歌曲唱出了极致的磅礴和渺远感，让人感受到别样的新意和意义”这样一段的文本时，能够从候选实体“烟火人间(歌曲)”“烟火人间(散文集)”“烟火人间(老舍作品精选集)”中识别出“烟火人间(歌曲)”这一实体。

以上所述仅为本发明较佳实例而已，本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于结合知识描述的神经网络的实体消歧的方法，其特征在于，包括以下步骤：

步骤3：对候选实体知识描述关键词提取；

步骤4：建立实体消歧的局部模型；

步骤5：建立实体消歧的全局模型；

步骤6：引入损失函数，训练找到步骤4中的目标式。

2.根据权利要求1所述的一种基于结合知识描述的神经网络的实体消歧的方法，其特征在于，所述步骤1，包括：对于指称m，选取大小为K的窗口作为其上下文c＝{ω₁,ω₂,ω₃…ω_k}，T(m)作为候选实体生成，元素e∈T(m)，利用

3.根据权利要求2所述的一种基于结合知识描述的神经网络的实体消歧的方法，其特征在于，所述步骤2，包括：将上下文以及候选实体知识描述信息进行编码，每个候选实体的实体知识描述信息同指称上下文进行结合，得到未规范化的注意力权重

4.根据权利要求3所述的一种基于结合知识描述的神经网络的实体消歧的方法，其特征在于，所述步骤3，包括：对实体知识描述页面的长度进行惩罚，以使得抽取时更关注实体知识描述页面信息少的实体；由实体知识描述页面长度K，知识库所有实体描述的平均页面长的S，平均从实体页面提取出的关键词个数l_m以及长度惩罚参数λ得出惩罚后的长度：

5.根据权利要求4所述的一种基于结合知识描述的神经网络的实体消歧的方法，其特征在于，所述步骤4，包括：结合知识库统计的指称与实体的先验概率分布

得出局部模型：

为指称先验概率；

用于计算指称的上下文同指称的候选实体的分数。

6.根据权利要求5所述的一种基于结合知识描述的神经网络的实体消歧的方法，其特征在于，所述步骤5，包括：

7.根据权利要求5所述的一种基于结合知识描述的神经网络的实体消歧的方法，其特征在于，所述步骤6中的损失函数为最大边际损失函数(max-marginloss)。