CN108595408A

CN108595408A - 一种基于端到端神经网络的指代消解方法

Info

Publication number: CN108595408A
Application number: CN201810215428.6A
Authority: CN
Inventors: 卓汉逵; 刘恩乐
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2018-09-28

Abstract

本发明提供一种基于端到端神经网络的指代消解方法，该方法通过对知识库的抽取，解决了在代词消解问题中训练数据不足的问题，同时考虑了代词在句子中的结构信息，抽取出一系列特征用于训练深度神经网络，使得模型个具有代词消歧的能力。

Description

一种基于端到端神经网络的指代消解方法

技术领域

本发明涉及自然语言处理领域，更具体地，涉及一种基于端到端神经网络的的指代消解方法。

背景技术

深度学习(Deep Learning)：深度学习是由Hinton等人于2006年提出，是机器学习的一个新领域。深度学习被引入机器学习使其更接近最初目标----人工智能。深度学习是学习样本数据的内在规律和表示层次。这些学习过程中获得的信息对图像、文字等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别图像、文字等数据。

循环神经网络(Recurrent Neural Networks，RNN)：循环神经网络是Jordan，Pineda.Williams，Elman等神经网络专家于上世纪80年代末提出的一种神经网络结构模型。这种网络的本质特征是在处理单元之间既有内部的反馈连接又有前馈连接。从系统观点看，它是一个反馈动力系统，在计算过程中体现过程动态特性，比前馈神经网络具有更强的动态行为和计算能力。目前，循环神经网络已在机器翻译、语音识别、图像描述生成等领域广泛应用并获得极大成功。

Skip-Gram模型：Skip-Gram是一种自然语言模型，是用上下文来预测中心词，即输入是特定的一次词的词向量，而输出是特定词对应的上下文词向量。

在ACL2016举行的机器翻译的比赛中(WMT16 Shared Task)，其中一项是跨语言代词预测任务，在翻译系统中，往往不能很好翻译代词，不同语言中，代词语法具有较大的差异，任务要求源一个句子中的目标语言代词。目前主要有两种方法，第一个是解决文本对应词语以及使用相关的句子信息来帮助预测代词，如提取句子的特征信息，用最大熵来预测。第二个方法更多的依赖于上下文信息，如用代词上下文的特征的支持向量机，基于上下文名词短语特征的朴素贝叶斯分类器，用神经网络方法来处理前面的名词短语特征。

威诺格拉德模式挑战赛(Winograd Schema Challenge)是图灵测试的一个变种，旨在判定AI系统的常识推理能力。参与挑战的计算机程序需要回答一种特殊但简易的常识问题，即代词消歧问题，可是此项任务并没有提供可训练的数据，所以有参赛者用了知识库的来提取特征表示，即用分布式词向量来解决代词消解问题。

发明内容

本发明提供一种基于端到端神经网络的的指代消解方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于端到端神经网络的的指代消解方法，包括以下步骤：

S1：基于知识库的词向量通过WikiPedia和CBTest这两个数据集训练得到，提取知识库不等式；

S2：建立skip-gram权重矩阵；该权重表达了基于知识库的分布式词向量网络的全部内容；

S3：训练深度神经网络，网络的输入为句子提取的特征映射的低维空间的向量。

步骤S1中，提取wikipedia数据，制定知识库抽取的不定式关系：

关系如下：

ConceptNet：

(w _k∈V和w_kis not linked with w_h)

WordNet：

同义词反义词规则：同义词之间的相似性比反义词的相似性高；

语义种类规则：同种类的词的相似性比异种类的相似性高；

语义层次规则：层次越接近的词的相似性越高；

w_k∈V and w_k is not the effect of w_i。

步骤S2中，利用skip-gram模型对数据进行训练得到词向量，在训练过程中，把从知识库提取出的不等式规则作为联合优化,即将所有限制不等式作为一个目标函数的惩罚项。

步骤S3中，对ontonotes5、ParCor和DiscoMT2015.test数据集进行处理，提取候选词和代词。

步骤S4中，利用训练文本的所有单词之间的跨度来组合成不同的候选目标，通过模型得到端到端的候选簇类，用双向lstm来对候选词进行编码得到x,通过注意力机制a，级联编码g和注意力a,得到我们的跨度分布式表达g,再通过神经网络得到这个候选目标的分数S，以此方式，可以得到两个不同候选目标之间的分数S(i,j)，计算候选词指代的分数时，将前面得到的候选目标中选取分数较高的两个，与代词的向量作为输入到前向神经网络得到两个候选目标S(i,j)的分数。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过对知识库的抽取，解决了在代词消解问题中训练数据不足的问题，同时考虑了代词在句子中的结构信息，抽取出一系列特征用于训练深度神经网络，使得模型个具有代词消歧的能力。

附图说明

图1为本发明方法流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于端到端神经网络的的指代消解方法，包括以下步骤：

关系如下：

ConceptNet：

(w_k∈V和w_k is not linked with w_h)

WordNet：

语义种类规则：同种类的词的相似性比异种类的相似性高；

语义层次规则：层次越接近的词的相似性越高；

w_k∈V and w_k is not the effect of w_i。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于端到端神经网络的指代消解方法，其特征在于，包括以下步骤：