CN110134944A

CN110134944A - 一种基于强化学习的指代消解方法

Info

Publication number: CN110134944A
Application number: CN201910275651.4A
Authority: CN
Inventors: 赵忠华; 李舟军; 赵志云; 杨泽; 赵硕; 王禄恒; 付培国; 孙利远; 万欣欣
Original assignee: Beihang University; National Computer Network and Information Security Management Center
Current assignee: Beihang University; National Computer Network and Information Security Management Center
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2019-08-16

Abstract

本发明公开了一种基于强化学习的指代消解方法，包括：数据预处理：对文本数据进行分词、分句、词性标注、词形还原、命名实体识别、句法解析，词向量转换，得到候选先行词和指代词相关特征；构建神经网络模型：该模型结合词向量和相关特征能够学习指代对的特点和相关语义信息，更好的对候选先行词和指代词进行排序打分，最后得到指代链；使用训练好的模型进行指代消解，输入文本数据，输出消解链。本发明方法针对启发式损失函数的不足，采用奖励衡量的机制来进行深度学习训练，提高了模型效果，针对不同语言数据集自动进行超参设置，免除了手工设置的必要，提高了模型的实用性拓展了适用范围。

Description

一种基于强化学习的指代消解方法

技术领域

本发明涉及自然语言处理领域，更具体地，是一种基于强化学习的指代消解方法。

背景技术

指代是自然语言普遍存在的一种表达方式，人们为了避免重复，习惯用代词、称谓和缩略语等来指代前面提到的实体，这使得语言简洁连贯。然而大量的指代增加了自然语言处理的难度，指代消解就是识别文本中同一实体的不同的表达式的任务。对信息抽取、自动文摘、自动问答、机器翻译、以及机器阅读理解等自然语言处理应用都有极为重要的基础支撑作用。

指代消解的方法主要有以下几种：

基于启发式语言学规则的消解方法：由于缺少标准的语料资源，早期的指代消解系统采用的是基于启发性规则的消解方法，这些方法由人工制定的规则集合所组成，系统根据这些规则判断实体表达间是否存在指代关系。通过句法层面的语句分析再结合大量的语言学知识生成启发式规则应用于指代消解的任务中。基于启发式规则的方法是人对自然语言现象的经验性总结，需要大量的人工设计和标注。它的缺点是普适性和移植性差，很难找到一个普适的规则库覆盖所有的指代消解情况。

基于统计模型的方法：随着自然语言处理技术的发展和大规模语料库的不断出现，一些基于统计模型的方法被提出。基于统计模型的方法注重候选先行词和代词出现的频率关系，结合距离、数量一致性等因素构建统计模型。但是由于自然语言的复杂性，依赖大规模的统计规律只能针对某些情况有效，对复杂特殊文本的适应性较差。

基于机器学习模型的方法：随着机器学习技术的发展和计算机性能的不断提升，为使用机器学习模型来拟合大规模的语料库提供了基础，使众多自然语言处理的任务模型化和规范化。常见的指代消解模型有指代对模型、指代排序模型、实体表达模型等等，通常指代对模型只从两个独立的词中抽取信息去判断这两个词是否具有指代关系是远远不够的，特别当候选先行词实体表达缺乏有效信息描述时效果更差，所以只使用实体指代对的特征往往消解效果一般。另一方面，在消解模型训练过程中，多数模型采用启发式损失函数进行训练，针对不同语言和不同目标数据集时，往往需要手动调整损失函数的超参数，模型泛化能力不强。

发明内容

本发明的目的在于克服现有技术缺点，提出一种基于强化学习的指代消解方法。

为实现上述目的，本发明一种基于强化学习的指代消解方法，采用神经网络指代排序模型结构，通过增加丰富的指代特征进行指代消解。本发明包括：预处理模块：用于对文本进行预处理，完成候选先行词特征和指代词相关特征抽取并拼接为神经网络模型输入向量。神经网络模型：通过神经网络的学习特点，学习指代特征，输出指代排名。强化学习训练方法：通过对Max-Margin损失函数采用基于强化学习的奖励衡量机制的超参数调节方式来训练模型。具体的，本发明一种基于强化学习的指代消解方法，包括如下步骤：

S1、预处理；优选的，所述的步骤S1预处理，包括分词、分句、词性标注、词形还原、命名实体识别、句法解析；词向量转换和指代特征抽取，得到候选先行词和指代词相关特征；输入层将候选先行词词向量和相关特征、指代词词向量和相关特征以及其他相关特征做向量拼接处理产生一个i维向量h₀作为神经网络模型的输入；

S2、构建神经网络模型，对候选先行词和对应的指代词进行打分排序，得到指代链；

S3、通过改进的强化学习方法对模型进行训练；针对启发式损失函数的不足，采用奖励衡量的机制来进行深度学习训练，对启发式损失函数的代价参数Δh进行改进，用当前决策序列下，改动某一个决策所带来的奖励的下降来作为惩罚系数。

S4、使用训练好的模型进行指代消解，输入文本数据，输出消解链。

优选的，所述的词向量转换和指代特征抽取，包括：

候选先行词和指代词词向量特征：对候选先行词和指代词进行词向量转换，包括候选先行词和指代词的中心词，指代的前两个单词和指代的后两个单词。对候选先行词和指代词的前5个单词(如果该句指代词前单词少于5个则有几个取几个)，后5个单词(处理方法同上)分别求平均词向量；

额外的指代特征：包括候选先行词和指代词的词性，候选先行词和指代词所处文本序列中的位置以及候选先行词和指代词的长度；

文档类型特征：文本文档的类型；

独热编码转换：将上述几种特征进行独热编码转换；

距离特征：为了方便处理所有距离特征和长度特征，将其分为[0,1,2,3,4,5-7,8-15,16-31,32-63,64+]几类，并通过独热编码进行转换。

优选的，所述步骤S2中神经网络模型包含三个隐藏层，隐藏层中的每一个单元都与前一层完全连接，隐藏层采用ReLU作为激活函数，最后一层隐藏层连接分数获取层，其采用基本的线性相乘法，输出指代排名。

其中，所述的隐藏层公式定义如下：

h_i(c，m)＝max(0，W_ih_i-1(c，m)+b_i) (1)

其中，h_i(c，m)为该层神经网络输出向量，(c，m)中c代表候选先行词(candidateantecedent)，m代表指代词(mention)，W_i为权重矩阵，h_i-1(c，m)为前一层网络传递的输入向量，b_i为偏置。

其中，最后一层隐藏层连接分数获取层，其采用基本的线性相乘，公式定义如下：

S(c，m)＝W₄h₃(c，m)+b₄ (2)

其中，s(c，m)为候选先行词概率值，W₄为权重矩阵，h₃(c，m)为第3隐藏层网络传递的输入向量，b₄为偏置。

神经网络能够很好的学习到指代对的特征，结合词向量能够捕捉文本的语义信息，能够识别出一些语义近似而用词不同的指代，并综合指代词的相关特征更好的对指代进行排序，进一步提高消解准确率，选择概率最高的指代对作为指代消解结果，最后得到文本中所有的指代链。

优选的，步骤S3所述的改进的强化学习方法，是在启发式Max-Margin损失函数基础上进行改进，针对启发式损失函数的不足，采用奖励衡量的机制来进行深度学习训练，对启发式损失函数的代价参数Δh进行改进，用当前决策序列下，改动某一个决策所带来的奖励的下降来作为惩罚系数。

其中，所述的对启发式损失函数的代价参数Δh进行改进，损失函数的Δh如下：

其中，Δh(c，m_i)为当前候选先行词和指代词的代价函数，a_i代表正确的先行词(antecedent)，R(a₁，...，a_i′，...，a_T)为正确指代链得分，-R(a₁，...，(c，m_i)，...，a_T)为当前候选先行词和指代词在整个指代链中得分。

本发明一种基于强化学习的指代消解方法，优点和功效在于：充分利用了文本中指代的特征，包括候选先行词和指代词词向量特征，额外的指代特征等通过神经网络得到指代排名，最终得到指代链，提高了模型效果。对神经网络指代排名模型的启发式损失函数中的超参数利用强化学习方式进行优化，提出一种奖励衡量机制，跟其他方式相比，这种基于强化学习的奖励衡量机制的超参数调节方式一方面提高了模型消解中的准确率，一方面针对不同语言数据集自动进行超参设置，免除了手工设置的必要，提高了模型的实用性拓展了适用范围。

附图说明

图1本发明指代消解流程图。

图2本发明预处理流程图。

图3本发明向量拼接和神经网络结构图。

具体实施方式

下面结合所提供附图，对本发明的具体实施做进一步说明。

如图1所示，本发明包括以下步骤：对文本数据按8:2的比例分为训练语料和测试语料；预处理：对训练语料进行预处理，抽取特征向量，对其做向量拼接生成输入向量；神经网络模型：构建神经网络模型对候选先行词和指代词进行打分排序；强化学习方法训练模型：通过改进的强化学习方法对模型进行训练；模型预测：针对测试语料，做预处理，抽取特征向量，特征做向量拼接生成输入向量，使用训练好的模型进行指代消解，得到指代消解结果。

S1.预处理

主要针对文本数据进行预处理工作，如图2所示，整个预处理模块过程流程如下：

S1.1句法解析

原始数据是自然语言文本数据，为了进行后续工作，需要对原始的文本数据进行处理，具体的，本发明使用Stanford Core NLP工具对原始数据进行预处理包括分词、分句、词性标注、词形还原、命名实体识别、句法解析。

S1.2词向量转换和指代特征抽取

候选先行词和指代词词向量特征：对候选先行词和指代词进行词向量转换，包括候选先行词和指代词的中心词，指代的前两个单词和指代的后两个单词。对候选先行词和指代词的前5个单词(如果该句指代词前单词少于5个则有几个取几个)，后5个单词(处理方法同上)分别求平均词向量。

额外的指代特征：包括候选先行词和指代词的词性(代词、名性、专有名词等)，候选先行词和指代词所处文本序列中的位置以及候选先行词和指代词的长度。

文档类型特征：文本文档的类型(广播新闻、新闻专线、web数据等)。

独热编码转换：将上述几种特征进行独热编码转换。

S1.3特征拼接

将上述候选先行词词向量和相关特征，指代词词向量和相关特征以及其他相关特征做向量拼接处理产生一个i维向量h₀作为神经网络模型的输入。

S2.构建神经网络模型

如图3所示，神经网络包含三个隐藏层，隐藏层中的每一个单元都与前一层完全连接，隐藏层采用ReLU作为激活函数，其中隐藏层公式定义如下：

h_i(c，m)＝max(0，W_ih_i-1(c，m)+b_i) (I)

最后一层隐藏层连接分数获取层，其采用基本的线性相乘，公式定义如下：

s(c，m)＝W₄h₃(c，m)+b₄ (2)

候选先行词排序之后，选择概率最高的作为指代消解结果，最后得到文本中所有的指代链。

S3.通过改进的强化学习方法对模型进行训练

模型训练在启发式Max-Margin损失函数基础上进行改进，针对启发式损失函数的不足，采用奖励衡量的机制来进行深度学习训练，对启发式损失函数的代价参数Δh进行改进，用当前决策序列下，改动某一个决策所带来的奖励的下降来作为惩罚系数。比如正确指代消解序列的奖励是100，改动一个指代对，得到奖励的减少为85，在此基础上再改动一个指代对，得到奖励减少为66以此类推。

损失函数的Δh如下。

其中，Δh(c，m_i)为当前候选先行词和指代词的代价函数，a_i代表正确的先行词(anteceden t)，R(a₁，...，a′_i，...，a_T)为正确指代链得分，-R(a₁，...，(c，m_i)，...，a_T)为当前候选先行词和指代词在整个指代链中得分。

损失函数公式为：

其中，s(c，m_i)为候选先行词的概率值，中表示候选先行词中真实先行词的最高分，定义如下。

S4.模型预测

对测试语料进行预处理抽取特征向量，对特征向量做拼接处理得到输入向量，使用训练好的模型对输入向量做处理得到指代消解结果，输出消解链。

实施例一：

本实施例以模型训练过程为例，训练语料为CoNLL 2012英文数据集，例如“[I(12)]noticed that many friends,around[me(12)]received[it(119)].It seems thatalmost everyone received[this SMS(119)].”如标记(12)和标记(119)所示，[I(12)]指代[me(12)]，[it(119)]指代[this SMS(119)]，将[I(12)]和[me(12)]的词向量和相关特征做向量拼接得到i维向量h₀，将h₀作为模型输入，利用强化学习方法训练神经网络得到指代消解模型。

实施例二：

本实施例以模型预测过程为例，测试语料为“[My sister]has[a dog]and[she]loves[it]very much.”通过预处理得到指代词为[My sister]、[a dog]、[she]、[it]，两两组合将其词向量和相关特征做向量拼接得到i维向量h₀，将h₀作为模型输入利用模型预测进行打分排序，运行结果：[My sister]<->[a dog]得分-1.66，[My sister]<->[she]得分8.06，[My sister]<->[it]得分-1,83，选择分值最高为指代消解结果，即[she]指代[Mysister]。继续进行打分排序，[a dog]<->[she]得分2.92，[a dog]<->[it]得分6.61，[adog]<->[My sister]得分-1.66，选择分值最高为指代消解结果，即[it]指代[a dog]，[she]和[it]指代消解过程同上，最终得到指代消解结果[[she]<->[My sister]],[[it]<->[a dog]]。其中，预处理包括分词、分句、词性标注、词形还原、命名实体识别、句法解析)解析测试语料，再通过简单的规则匹配即可得到指代词。

显然本说明书的描述中，上述实施例仅仅是为了清晰表达本发明具体实施而做的举例，并非是本发明实施方法的限定，对本领域的普通技术人员而言，在不脱离本发明构思的前提下，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于强化学习的指代消解方法，其特征在于：包括如下步骤：

S1、预处理；包括分词、分句、词性标注、词形还原、命名实体识别、句法解析；词向量转换和指代特征抽取；输入层将候选先行词词向量和相关特征、指代词词向量和相关特征以及其他相关特征做向量拼接处理产生一个i维向量h₀作为神经网络模型的输入；

S3、通过改进的强化学习方法对模型进行训练；针对启发式损失函数的不足，采用奖励衡量的机制来进行深度学习训练，将启发式损失函数的代价参数Δh进行改进，用当前决策序列下，改动某一个决策所带来的奖励的下降来作为惩罚系数；

2.根据权利要求1所述的一种基于强化学习的指代消解方法，其特征在于：步骤S1所述的词向量转换和指代特征抽取，具体包括：

候选先行词和指代词词向量特征：对候选先行词和指代词进行词向量转换，包括候选先行词和指代词的中心词，指代的前两个单词和指代的后两个单词；对候选先行词和指代词的前5个单词，后5个单词分别求平均词向量；

文档类型特征：文本文档的类型；

独热编码转换：将上述几种特征进行独热编码转换；

3.根据权利要求1所述的一种基于强化学习的指代消解方法，其特征在于：所述步骤S2中神经网络模型包含三个隐藏层，隐藏层中的每一个单元都与前一层完全连接，隐藏层采用ReLU作为激活函数，最后一层隐藏层连接分数获取层，其采用基本的线性相乘法，输出指代排名；

其中，所述的隐藏层公式定义如下：

h_i(c，m)＝max(0，W_ih_i-1(c，m)+b_i) (1)

其中，h_i(c，m)为该层神经网络输出向量，(c，m)中c代表候选先行词，m代表指代词，W_i为权重矩阵，h_i-1(c，m)为前一层网络传递的输入向量，b_i为偏置；

s(c，m)＝W₄h₃(c，m)+b₄ (2)

其中，s(c，m)为候选先行词概率值，W₄为权重矩阵，h₃(c，m)为第3隐藏层网络传递的输入向量，b₄为偏置；

4.根据权利要求1所述的一种基于强化学习的指代消解方法，其特征在于：所述的对启发式损失函数的代价参数Δh进行改进，损失函数的Δh如下：

其中，Δh(c，m_i)为当前候选先行词和指代词的代价函数，a_i代表正确的先行词(antecedent)，R(a₁，…，a′_i，...，a_T)为正确指代链得分，-R(a₁，...，(c，m_i)，...，a_T)为当前候选先行词和指代词在整个指代链中得分。