CN111625639A

CN111625639A - 一种基于多轮响应生成的上下文建模方法

Info

Publication number: CN111625639A
Application number: CN202010490468.9A
Authority: CN
Inventors: 蔡飞; 凌艳香; 潘志强; 宋城宇; 王祎童; 陈皖玉; 张鑫; 陈洪辉
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-09-04
Anticipated expiration: 2040-06-02
Also published as: CN111625639B

Abstract

本发明公开了一种基于多轮响应生成的上下文建模方法，包括以下步骤：将多轮响应生成任务进行形式化定义，给定由M个语句组成的M轮会话，M>2，通过给定上下文和当前查询生成响应，计算公式如下，

B、构建编码器，用于对句子进行编码；C、构建保留模块，用于通过考虑每个句子与其前面句子的响应关系，将上下文中每个陈述的初始字级嵌入更新为陈述级表示形式；D、构建选择模块，用于按顺序集成保留模块输出的话语级嵌入，然后通过两层多头注意力机制来加权集成，将上下文语义注入查询表示；E、构建解码器，用于生成响应。本发明能够解决现有技术的不足，对话回答生成过程可以选择性丰富回答内容，提升人机对话的连贯性和内容丰富度。

Description

一种基于多轮响应生成的上下文建模方法

技术领域

本发明属于交互式人机对话技术领域，具体是一种基于多轮响应生成的上下文建模方法。

背景技术

人机对话，是人工智能领域的一个子方向，通俗的讲就是让人可以通过人类的语言即自然语言与计算机进行交互。而多回合对话在日常生活中更为广泛，并且对上下文一致性提出了更严格的要求。在多回合方案中，响应生成不仅应依赖于最新的用户陈述(查询)，还应与历史陈述(上下文)保持一致。因此，如何对上下文进行建模并进一步有利于响应生成过程是实现一致的多回合对话的关键。

发明内容

本发明要解决的技术问题是提供一种基于多轮响应生成的上下文建模方法，能够解决现有技术的不足，对话回答生成过程可以选择性丰富回答内容，提升人机对话的连贯性和内容丰富度。

本发明的内容包括以下步骤，

A、将多轮响应生成任务进行形式化定义，给定由M个语句组成的M轮会话，M>2，通过给定上下文和当前查询生成响应，计算公式如下，

B、构建编码器，用于对句子进行编码；

C、。构建保留模块，用于通过考虑每个句子与其前面句子的响应关系，将上下文中每个陈述的初始字级嵌入更新为陈述级表示形式；

D、构建选择模块，用于按顺序集成保留模块输出的话语级嵌入，然后通过两层多头注意力机制来加权集成，将上下文语义注入查询表示；

E、构建解码器，用于生成响应。

作为优选，步骤B中，给定任一个句子，使用双向GRU结构将句子中的每个词转化为前后两个隐向量，然后将前后两个方向的向量相加得到最终的向量表示，计算公式如下，

作为优选，步骤C中，给定上下文中每个句子的初始表示，我们利用多头注意力机制来使每个句子有选择的吸收前一个句子的信息。注意力分值的计算通过点积进行，计算公式如下，

在以上公式中，x^latter和x^former分别是指当前句子Um和邻接句子Um-1中的词向量，如下，

其中对于第一个句子U₁，x^latter和x^former的来源相同，此时的注意力机制实际上为自注意力机制，如下，

为了进一步提升注意力机制的性能，使其能够捕捉更多关于相应关系的特征，使用多头策略，

head_h＝Attention(q_h，k_h，v_h)，h＝1，2，...，H

o＝Concat[head₁，...，head_H]W^O，

通过以上方式，对于上下文中每个句子的词序列，获得一个新的词级别的向量表示，定义为keep向量，如下，

h^keep＝f(o)，

将每个句子中每个词对应的keep向量相加，作为整个句子的keep向量表示，

作为优选，步骤D中，首先使用一个单向GRU对上下文中的keep向量进行整合，方式如下，

然后，上下文的选择过程通过两层注意力机制实现；其中第一层注意力机制是通过多头自注意力机制实现，以当前查询的词级别向量为输入，捕捉当前查询中词之间的相互关系；第二层注意力机制是多头注意力机制，以当前查询中每个词向量作为query，然后吸收上下文的keep向量。

作为优选，步骤E中，给定选择模块的输出，通过单向GRU逐词解码出回复，计算公式如下，

为了训练模型，采用负对数似然作为损失函数，

本发明的有益效果是，本发明提出设计一种分层的神经网络框架，引入注意力机制，整合人机对话交互历史，通过神经网络结构自动感知对话历史上下文表示和对话问题表示，在此基础上，提出了一个分层的编码器和解码器框架，使历史对话编码过程可以吸收对话中的重要信息，对话回答生成过程可以选择性丰富回答内容，实现流程的人机多轮对话。保留模块使每个上下文话语的编码过程会用心地吸收其前面的话语中的信息，从而产生上下文的结构感知的语句表示。选择模块利用两层多头注意力机制，使查询话语有效地从上下文中选择相关信息来丰富自身。最后，根据查询话语的上下文感知表示形式生成响应。

附图说明

图1为本发明的模型原理图。

图2为本发明与现有的另外三种现有的基线模型在不同对话轮数下的BLEU-1指标对比图。

图3为本发明与现有的另外三种现有的基线模型在不同对话轮数下的BLEU-2指标对比图。

图4为本发明与现有的另外三种现有的基线模型在不同对话轮数下的BLEU-3指标对比图。

图5为本发明与现有的另外三种现有的基线模型在不同对话轮数下的BLEU-4指标对比图。

图6为本发明与现有的另外三种现有的基线模型的在不同对话轮数下的Distinct-1指标对比图。

图7为本发明与现有的另外三种现有的基线模型的在不同对话轮数下的Distinct-2指标对比图。

图8为本发明与现有的另外两种现有的基线模型在不同上下文长度下的BLEU-1指标对比图。

图9为本发明与现有的另外两种现有的基线模型在不同上下文长度下的BLEU-2指标对比图。

图10为本发明与现有的另外两种现有的基线模型在不同上下文长度下的BLEU-3指标对比图。

图11为本发明与现有的另外两种现有的基线模型在不同上下文长度下的BLEU-4指标对比图。

图12为本发明与现有的另外两种现有的基线模型在不同上下文长度下的Distinct-1指标对比图。

图13为本发明与现有的另外两种现有的基线模型在不同上下文长度下的Distinct-2指标对比图。

具体实施方式

参照图1，本实施例包括以下步骤，

B、构建编码器，用于对句子进行编码；

E、构建解码器，用于生成响应。

步骤B中，给定任一个句子，使用双向GRU结构将句子中的每个词转化为前后两个隐向量，然后将前后两个方向的向量相加得到最终的向量表示，计算公式如下，

步骤C中，给定上下文中每个句子的初始表示，我们利用多头注意力机制来使每个句子有选择的吸收前一个句子的信息。注意力分值的计算通过点积进行，计算公式如下，

head_h＝Attention(q_h，k_h，v_h)，h＝1，2，...，H

o＝Concat[head₁，...，head_H]W^O，

h^keep＝f(o)，

步骤D中，首先使用一个单向GRU对上下文中的keep向量进行整合，方式如下，

步骤E中，给定选择模块的输出，通过单向GRU逐词解码出回复，计算公式如下，

为了训练模型，采用负对数似然作为损失函数，

实验验证

1、实验数据集的预处理。

DailyDialog数据集和Reddit会话库(简称"Reddit")。DailyDialog是从日常生活中的人与人的谈话中收集的。它包含13118个人类书面会话，涵盖各种主题，如文化，教育，旅游和健康等。Reddit是从基于论坛的网站Reddit收集，用户可以发布帖子，其他用户可以对帖子发表评论或回复。它包含100291个对话，具有5轮交互。值得注意的是，DailyDialog是一个双对话者对话数据集，而Reddit可能涉及多个对话者。为了丰富训练示例，我们按照以下步骤对数据集进行预处理。给定一个M轮(M>3)对话，涉及多个语句，我们可以生成M+2三元组[上下文，查询，响应]，其中上下文包含陈述U1,…,Um，其中m＝1，2…M+2，查询是Um＝1和响应是Um＝2。然后，我们清理话语中的缩写和无意义符号。我们在三元组上采用截断，每个话语中会话轮数和单词的最大个数分别限制为12和30。最后，我们获取了DailyDialog数据集的76744个三元组和Reddit数据集的300873个三元组。DailyDialog数据集中有18585个唯一单词，Reddit数据集中有97168个唯一单词。我们将每个数据集分为三组，即80％用于培训，10％用于验证，其余10％用于测试，结果DailyDialog数据集的三元组分别为60744、8000和8000个，Reddit数据集分别为240873、30000和30000。

2、基线模型介绍。

我们将本申请模型(HredKS)的性能与以下多轮响应生成最先进的基线进行比较：

·S2S_Att：编码器解码器模型增强了注意机制。它实际上是一个单轮对话模型，并广泛作为响应生成任务的基准模型。

·HRED：引入上下文级循环编码器的分层模型，按顺序将陈述嵌入到上下文表示中，并应用最后一个隐藏状态来生成响应。

·WSI：基于HRED的分层模型，引入上下文和查询之间的相关性概念。

·Dynamic：一种注意力增强的分层模型，它使响应解码器中的每个隐藏状态都仔细读取上下文表示，并采用动态加权和上下文来解码响应。

·ReCoSa：利用屏蔽响应表示的Transformer和分层循环结构的混合模型，用自我注意机制来选择上下文。

3、评估指标介绍。

自动评估指标

我们使用两种类型的标准指标进行自动评估，即基于适宜性的指标和基于多样性的指标。

基于适当的指标。BLEU已被广泛使用在对话模型的评估中。它测量生成的响应和真实响应之间的N-gram单词重叠。BLEU分越高，表示生成的响应更接近真实相应，也更适合其先前的话语。在这里，我们使用BLEU-1、BLEU-2、BLEU-3和BLEU-4。

基于多样性的指标。Distinct-1和Distinct-2分别测量生成响应中不同单组和二元组的数目，这些响应通常用于测量生成响应的多样性。较高的不同分数对应于更多样化的响应。

人类评价指标

除了自动评估外，我们还邀请三名本科生作为人工评分员来评估生成的响应的质量。我们选取了100个测试集的三元组"上下文、查询、响应"之后。对于每个测试，我们根据给定的上下文和查询生成HredKS和五个基线的响应。然后，要求人工评分员在HredKS和一个基线之间执行一对比较，重点关注一致性和信息性。

4、实现细节

在DailyDialog数据集上，解码词汇表具有18585个唯一单词，Reddit数据集具有50000个最常见的单词。所有没有出现在词汇表中的单词将被符号"unk"替换。单词嵌入的维度为512，是随机初始化的。GRU和BiGRU单元都有一个1层结构，包含512个隐藏单元。所有多头注意的头部数为8。所有模型的参数都由Adam优化器更新，学习速率为0.001和渐变裁剪。我们设置批处理大小为64。所有基线和模型共享上述超参数，训练轮数最多50次。在训练期间，我们将BLEU-4上的验证集的性能用作提前停止的基础。

6、自动评估

我们分别从BLEU-1、BLEU-2、BLEU-3、BLEU-4、Distinct-1和Distinct-2的角度来考察HredKS生成响应的质量以及基线模型。我们还测试了HredKS结果与最佳性能基线之间观察到的差异的重要性。结果见表1。

表1

在DailyDialog数据集上，HredKS在所有指标方面实现了最佳性能。从Distinct分数来看，HredKS的性能优于其他上下文敏感模型，例如HRED、WSI、Dynamic和ReCoSa，这表明HredKS可以生成不同的响应。接下来，我们将放大在使用不同的评估指标时不同的基线模型的性能。例如，WSI在Distinct上的分的最高，而其在BLEU方面的性能相对较差。此外，我们发现HredKS对WSI、Dynamic和ReCoSa在BLEU分数方面的改进差距会随着N-gram的长度而增加。这表明，使用所有历史话语而不区分查询可能会导致不适当的响应。在多轮对话的设置中，主题可能会跨轮次转换，因此检测当前回合的相关上下文至关重要。HredKS可以利用上下文感知查询表示形式来生成响应，也就是说，它可以从上下文中吸收相关的语义并过滤掉偏离噪声。

在Reddit数据集上，HredKS在BLEU-4方面优于所有基线，并且在Distinct方面比基线显示较大的边距。这表明，我们的工作对多方对话是强有力的，能够产生适当和不同的答复。但是，就其他指标而言，即BLEU-1、BLEU-2和BLEU-3，HredKS会输给最佳基准。例如，S2S_Att在BLEU-2和BLEU-3方面实现了最佳性能，而其对应Distinct分数低于HredKS。这可能是由于Reddit中的对话来自论坛，其中上下文话语不一定具有明显的顺序响应关系。在这种情况下，HredKS很难作出一致的反应，因为它不仅需要处理语言背景，而且需要确定答复对应的对话者是谁。我们发现，对于每个特定模型，Reddit数据集上的评估分数低于DailyDialog数据集上的评估分数。Reddit数据集涉及多个对话者，并且往往在主题上存在较大转移，这增加了产生一致响应的难度；Reddit数据集中的对话比DailyDialog数据集中的对话更非正式，导致词汇量大得多，使神经模型更难生成信息性响应。

7、人工评估

我们对DailyDialog数据集进行了人工评估。我们选择这个数据集，因为它由日常生活中的人与人的谈话组成，通常涉及一些常见的主题，使人类评分员能够容易地理解和判断结果。人工评价的结果列在表2中。

表2

根据人类评估，HredKS优于所有基线，在相应的基线上产生近30％胜利和15％失败。在五个基准中，Dynamic对HredKS的胜率最高为19.44％。此外，我们调查每个模型的测试结果，并具有以下观察结果：

·S2S+Att对HredKS的胜利经常伴随着一般的回复，如"这是好的"和"你是对的"，这种回复是安全但不知情的。与S2S_Att相比，HredKS可以提供更多样化的词语，这些词更丰富、更吸引人。

·分层的经常性基线，即HRED、WSI和Dynamic，通常能产生流畅的响应。此外，HRED往往产生短期和一般性的反应。当会话转数增加时，WSI和Dynamic倾向于偏离。与分层的经常性基线相比，HredKS在对话回合的变化中表现出更好的稳健性，并且可以在多样性和适当性之间取得平衡。

·在每个比较对中，近50％比较被评为"平局"。对于这种情况，所有模型都会产生相对类似的响应，返回大多数联系。

8、对话轮数的影响。

我们分析HredKS和三个基线(即S2S_Att、HRED和WSI)在不同对话轮数的测试样本上的性能。我们之所以选择上述基线，是因为它们是上下文建模中的代表性模型，在自动和人工评估方面比其他基线取得了更好的性能。由于空间限制，我们仅在DailyDialog数据集上显示结果。我们按会话轮数将这8000个测试样本拆分，然后分别根据BLEU分数和不同分数来评估模型性能。结果如图2-5所示。

对于BLEU指标，HredKS在各种对话轮数下显示与基线相比，具有非常一致的改进。这支持了我们的说法，即HredKS在为多轮对话生成适当响应方面非常强大。有趣的是，基线模型，即S2S_Att、HRED和WSI，在轮数上比HredKS显示较大的差异。这可以通过以下事实来解释：更多的对话转数可能会导致更多的主题转换，这使得响应生成模型更难捕获主题流并选择相关的转换来生成响应。我们认为，HredKS的稳健性可归因于其选择模块有助于选择性地从上下文种吸收信息，从而最终抑制噪声并确保生成答复的质量。

在Distinct方面，HredKS和基线在不同对话轮数下实现可比性能，而HredKS在整个测试集(见表1)上具有更好的性能。此外，当对话轮数增加时，所有模型的显著分数都显示上升趋势，一直向上，然后下降。结果如图6-7所示。这表明，引入适量的上下文有利于生成响应的多样性。上下文太少可能无法描述正在进行的对话的语义，过多的上下文可能会增加理解对话的难度，这最终可能会导致一般响应。一般来说，HredKS在不同对话轮数下BLEU和Distinct指标方面的竞争绩效验证了我们的说法，即HredKS能够跨越多个回合捕获主题流，并可以利用正确的转弯生成适当的以及信息丰富的响应。我们归因于HredKS中的选择模块，该模块利用查询陈述作为对话的当前焦点，因此可以有选择地融合有用的上下文并过滤掉噪声。

9、上下文长度的影响。

在这里，我们将HredKS的性能与两个上下文敏感基线(即HRED和WSI)的性能进行比较，这些基线位于DailyDialog的测试样本中。平均而言，上下文(按字数计算)为49.83，最小值为1字，最大值为257。为了进行公平的比较，我们采用等频分法，根据测试集的上下文长度将测试集分成三组，其中每组包含数量相当的测试样本。然后，我们根据BLEU分和Distinct分数来评估每个特定组模型的性能。结果如图8-13所示。

在BLEU分数方面，HredKS始终以不同的上下文长度获得最佳性能。就基线而言，HRED优于WSI。可以解释的是，基于RNN的HRED顺序集成受到内存消失问题的挑战，这意味着上下文中的单词越多，RNN结构就越难捕获两者的长期纪念依赖关系。句子级和字级。然而，WSI引入了一个加权的集成策略，以在一定程度上缓解消失的记忆。在HredKS中，保留模块引入了响应关系，以确保每个上下文话语都使用其前面的话语，这最终增强了上下文表示学习的内存能力。

在Distinct方面，WSI在上下文长度超过30字时比HredKS性能好，而相应的BLEU得分明显低于HredKS。这可能是因为WSI的加权整合利用整个背景来产生响应，因此将引入各种主题(因此多样性)，同时注入噪声。与WSI相比，HredKS的保留模块特别注意上下文内对话的动态特性，并与相邻的上下文话语进行恰当的融合，这不仅有助于保持内部的长期依赖性上下文，但有选择地保留相关主题。

10、消融研究。

们一次消除"保留"和"选择"模块之一，然后训练不完整的HredKS模型以观察其性能，从而对DailyDialog数据集进行消融研究。我们根据BLEU和Distinct分数来评估不完整的HredKS模型的性能。结果如表3所示。

对于没有选择模块的HredKS，我们记作HredK，并且HredS表示没有保留模块的HredKS。如表3所示，与完整模型(即HredKS)相比，HredK在BLEU得分和Distinct得分方面的表现普遍下降。关于HredS，我们发现除BLUE-1之外的大多数指标都减少了。HredK的记忆能力似乎与HredS补充查询话语的能力相冲突，可能会添加不太相关的术语。有趣的是，如果我们比较表1中显示的基线结果，HredK和HredS的表现优于大多数基线。这些发现支持了我们模型的有效性。此外，HredS的BLEU较高，HredK的Distinct更高。这可能是由于保留模块有助于记忆对话上下文中的语义信息，从而导致不同的单词和短语选择(以及更好的不同分数)。选择模块侧重于查询陈述，并将其与相关上下文进行补充，从而获得信息性和连贯性的回复。

表3

。