CN110851673B

CN110851673B - 一种改进的集束搜索方法及问答系统

Info

Publication number: CN110851673B
Application number: CN201911100712.XA
Authority: CN
Inventors: 李自胜; 杨侨; 胡朝海; 肖晓萍
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2022-08-09
Anticipated expiration: 2039-11-12
Also published as: CN110851673A

Abstract

本发明提供了一种改进的集束搜索策略，在seq2seq模型中，包括以下过程，S1、根据上一时刻t‑1的最优解序列,得到序列中的每个单词对应的似然概率；S2、选取似然概率最大的i个单词分别作为解码器初始输入，对于i个初始输入，每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率，分别得到i个输出序列，根据择优标准保留i个输出序列中最优的序列作为下一时刻t的最优解序列；S3、重复步骤S1‑S2得到末时刻的最优解序列，即为最终答案。本发明提供的集束搜索策略不仅保证了解的质量，在过拟合的解空间中提高了模型的鲁棒性，而且还增加了解的多样性，使得采用该策略的问答系统具有良好的鲁棒性，系统本身也具有更高的自适应性。

Description

一种改进的集束搜索方法及问答系统

技术领域

本发明涉及智能问答领域，特别设计一种改进的集束搜索方法及问答系统。

背景技术

集束搜索(Beam Search)是一种启发式图搜索算法。不同于深度优先搜索和广度优先搜索，Beam Search每次仅将一定数量的局部最优选择作为候选路径，大大节省了搜索成本。其本质仍是贪心搜索，扩大了解的搜索范围，提高了找到全局最优解的概率。在Seq2Seq模型中，Decoder输出部分其实就是一种图搜索。Decoder是seq2seq模型的常见问题，常用方法有贪心搜索(Greedy Search)集束搜索(Beam Search)。

现有技术中贪心搜索方法如图1所示，Decoder根据Encoder的中间语义编码向量c和<s>标签得到第一个输出的概率分布[0.1,0.1,0.3,0.4,0.1]，选择概率最大的0.4，即b'。根据隐向量h1和b'得到第二个输出的概率分布[0.1,0.1,0.1,0.1,0.6]，选择概率最大的0.6，即a'。以此类推，直到遇到<\s>标签，得到最终的序列b'a'd'。

现有技术中集束搜索方法如图2所示，贪心搜索只选择了概率最大的一个，而集束搜索则选择了概率最大的前k个。这个k值也叫做集束宽度(Beam Width)。还是以上面的例子作为说明，k值等于2，得到第一个输出的概率分布[0.1,0.1,0.3,0.4,0.1]，选择概率最大的前两个，0.3和0.4，即c'和b'。然后c'和b'为Decoder的输入，得到两个概率分布，然后再选择概率和最大的前两个序列，0.3+0.8和0.4+0.6，即c'a'和b'a'。

以此类推，最终可以得到两个序列，即c'a'd'和b'a'd'，很明显前者的概率和最大，为2.2，所以这个序列是最终得到的结果。集束搜索本质上也是贪心的思想，只不过它考虑了更多的候选搜索空间。

集束搜索算法有效的重要原因之一便是解空间的客观性和准确性。对于普通的图论问题，图结构是固定的，即解空间是客观且准确的；而对于Seq2Seq中Decoder而言，其解空间是由模型根据训练集训练得到的，即模型的泛化性能直接影响解空间的准确性，进而影响集束搜索算法搜索的结果。对于机器翻译问题来说，其源语言与目标语言间的单词对应关系是比较固定的，因而过拟合问题不明显；而对于对话生成而言，其问句与答句间的对应关系是十分模棱两可的，这也直接导致了过拟合问题在基于Seq2Seq的对话生成上十分明显，从而导致其解空间不够准确，不够准确的解空间将导致不准确的序列似然概率估计，最终集束搜索得到的解也将不够好。且序列越长，其似然概率估计的误差越大。

发明内容

针对上述存在的问题，提供了在seq2seq(序列到序列)中的Decoder(解码)生成答案的搜索方法上对传统的集束搜索算法提出改进，解决了解空间中的过拟合因素，以提高回复质量。

本发明采用的技术方案如下：一种改进的集束搜索方法，其特征在于，在seq2seq模型的解码过程中，设定集束宽度为i，其中i为大于1的自然数，具体过程如下：

S1、根据上一时刻t-1的最优解序列,得到序列中的每个单词对应的似然概率；

S2、根据似然概率从大到小选取对应的i个单词分别作为解码器初始输入，对于i个初始输入，每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率，分别得到i个输出序列，根据择优标准保留i个输出序列中最优的序列作为下一时刻t的最优解序列；

S3、重复步骤S1-S2得到末时刻的最优解序列，即为最终答案。

进一步的，所述步骤S2中每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率的具体计算方法为：

其中，

表示给定x的情况下出现

的概率，x表示Decoder的输入，

表示

中第j个单词输出，

为上一时刻的第i个最优解序列。

进一步的，所述步骤S2中的择优标准为：对i个输出序列中单词计算对应似然概率的对数，以每个输出序列的对数和作为择优标准，保留i个输出序列中的对数和最大的一个下一时刻t的最优解序列。

进一步的，所述步骤S2中的择优标准为：将每个输出序列的似然概率的对数值与最优解序列长度的比值作为评价指标，取评价指标最大的序列作为最优解序列。

进一步的，所述评价指标中还采用了柔化系数在完全按照长度归一化与完全不按照长度归一化之间作一个权衡。

进一步的，所述评价指标具体确定方法为：

其中，

表示末时刻的第i个最优解序列的评价指标，

表示末时刻第i个最优解序列，α表示柔化系数。

本发明还提供了一种问答系统，所述问答系统基于序列到序列模型生成，通过基于循环神经网络的序列到序列模型对语料数据进行建模，实现单轮的对话生成；所述序列到序列模型包括双向GRU编码器、单向GRU解码器以及Luong Attention，所述解码器在解码过程中执行上述改进的搜索方法。

进一步的，所述编码器为5层双向GRU编码器；所述解码器为3层单向GRU解码器。

进一步的，所述序列到序列模型编解码过程为：首先利用词嵌入技术对输入序列进行词向量转换，然后送入双向GRU编码器中进行特征提取，最后解码器通过单向GRU对编码器的编码信息进行解码。

与现有技术相比，采用上述技术方案的有益效果为：改进的集束搜索方法不仅保证了解的质量，在过拟合的解空间中提高了模型的鲁棒性，而且还增加了解的多样性。这也证明改进的集束搜索算法更适合对话生成的Seq2Seq模型。通过使用该集束搜索方法使得问答系统具有良好的鲁棒性，系统本身也具有更高的自适应性。

附图说明

图1是现有技术中贪心搜索方法的解码器序列输出图。

图2是现有技术中集束搜索方法的解码器序列输出图。

图3是本发明中集束搜索方法的解码器序列输出图。

图4是传统集束搜索算法与本发明的集束搜索算法测试对比图。

具体实施方式

下面结合附图对本发明做进一步描述。

基于传统的集束搜索方法，本发明提供了一种改进后的集束搜索方法在seq2seq模型的解码过程中，设定集束宽度为i，其中i为大于1的自然数，具体过程如下：

S1、根据上一时刻t-1的最优解序列,得到序列中的每个单词对应的似然概率；其中，序列中每个单词的似然概率是编码过程输出的，此处为解码过程，可直接根据编码过程输出的似然概率进行使用。

S3、重复步骤S1-S2得到末时刻的最优解序列，即为最终答案。

其中，步骤S2中的择优标准为：对i个输出序列中单词计算对应似然概率的对数，以每个输出序列的对数和作为择优标准，保留i个输出序列中的对数和最大的一个下一时刻t的最优解序列。

具体方法如下：

定义搜索束宽度为i,设上一时刻t-1的i个最优解序列为

其中，

表示

中第j个单词输出。

其对应的似然概率为

在计算似然概率时，仅考虑序列最末时刻的在给定输入下的条件概率，并以其对数作为下一时刻t最优解序列的择优标准：

其中，

表示给定x的情况下出现

的概率，x表示Decoder的输入，

序列最末时刻的单词输出，

为上一时刻的第i个最优解序列。

为了防止下溢等情况的发生，一般对似然概率取对数得到

对于

计算所有可能的输出序列

然后根据其对应的

保留最优的

作为t时刻的i个最优解序列

最终，对于末时刻t_n'，保留i个输出序列

中的最大的一个序列作为

在另一个实施例中，提供了另外一种步骤2中保留输出序列中最优解序列的择优标准，按照输出序列对数似然概率值与序列长度的比值作为评价指标,取该指标最大的输出序列作为最优解序列

评价指标具体如下：

其中α表示柔化系数，用来在完全按长度归一化与完全不按长度归一化之间作一个权衡。采用该择优标准可以很明显的减少了对输出长的结果的惩罚，使得择优结果更精确。

本发明还提供了一种问答系统，所述问答系统基于所述问答系统基于序列到序列模型生成，通过基于循环神经网络的序列到序列模型对语料数据进行建模，实现单轮的对话生成；首先利用词嵌入技术对输入序列进行词向量转换，然后送入编码器中进行特征提取，编码器选用双向的门控循环单元(Gated Recurrent Unit，GRU)。而后解码器通过单向GRU对编码器的编码信息进行解码。并加入了注意力机制(Attention)。通过对话数据对不同模型结构和超参数(包括编码器双向GRU层数、解码器单向GRU层数、注意力计算方式等)的测试，最终确定为5层双向GRU的编码器、3层单向GRU的解码器以及Luong Attention的Seq2Seq结构。

所述解码器生成答案过程中执行上述本发明提供的改进的集束搜索方法。

其中，选取是来自青云语料，共包含105914条对话。

基于上述问答系统对改进后的搜索方法进行测试，采用精确率P，召回率R，综合评价指标F1，来检验系统的准确性和稳定性。通过实验测出传统集束搜索算法与改进后的集束搜索算法测试结果如图4所示，其中，

表示输出正确答案的个数，N表示输出错误答案的个数，F表示剩余正确答案的个数。

不难发现，传统的集束搜索在对话生成上，其准确率还不如贪心搜索方法，这是由于其解空间中的过拟合因素造成的。改进的集束搜索不仅保证了解的质量，在过拟合的解空间中提高了模型的鲁棒性，而且还增加了解的多样性。这也证明改进的集束搜索算法更适合对话生成的Seq2Seq模型。

在Decoder生成答案的搜索方法上对传统集束搜索算法进行了改进，使得问答系统具有良好的鲁棒性，系统本身也具有更高的自适应性。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员，在不脱离本发明的精神所做的非实质性改变或改进，都应该属于本发明权利要求保护的范围。

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

Claims

1.一种改进的集束搜索方法，其特征在于，在seq2seq模型的解码过程中，设定集束宽度为i，其中i为大于1的自然数，具体过程如下：

S3、重复步骤S1-S2得到末时刻的最优解序列，即为最终答案。

2.根据权利要求1所述的集束搜索方法，其特征在于，所述步骤S2中每个输出序列中单词的选取仅考虑序列最末时刻在给定输入条件下的概率的具体计算方法为：

其中，

表示给定x的情况下出现

的概率，x表示Decoder的输入，

表示中最末时刻的单词输出。

3.根据权利要求1所述的集束搜索方法，其特征在于，所述步骤S2中的择优标准为：对i个输出序列中单词计算对应似然概率的对数，以每个输出序列的对数和作为择优标准，保留i个输出序列中的对数和最大的一个下一时刻t的最优解序列。

4.根据权利要求1所述的集束搜索方法，其特征在于，所述步骤S2中的择优标准为：将每个输出序列的似然概率的对数值与最优解序列长度的比值作为评价指标，取评价指标最大的序列作为最优解序列。

5.根据权利要求4所述的集束搜索方法，其特征在于，所述评价指标中还采用了柔化系数在完全按照长度归一化与完全不按照长度归一化之间作一个权衡。

6.根据权利要求5所述的集束搜索方法，其特征在于，所述评价指标具体确定方法为：

其中，

表示末时刻的第i个最优解序列的评价指标，

表示末时刻第i个最优解序列，α表示柔化系数。

7.一种问答系统，其特征在于，所述问答系统基于序列到序列模型生成，通过基于循环神经网络的序列到序列模型对语料数据进行建模，实现单轮的对话生成；所述序列到序列模型包括双向GRU编码器、单向GRU解码器以及Luong Attention，所述解码器在解码过程中执行权利要求1-6之一的集束搜索方法。

8.根据权利要求7的问答系统，其特征在于,所述编码器为5层双向GRU编码器；所述解码器为3层单向GRU解码器。

9.根据权利要求8的问答系统，其特征在于，所述序列到序列模型编解码过程为：首先利用词嵌入技术对输入序列进行词向量转换，然后送入双向GRU编码器中进行特征提取，最后解码器通过单向GRU对编码器的编码信息进行解码。