CN115796187A

CN115796187A - 一种基于对话结构图约束的开放域对话方法

Info

Publication number: CN115796187A
Application number: CN202211494807.6A
Authority: CN
Inventors: 殷聪驰; 李丕绩
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-11-26
Filing date: 2022-11-26
Publication date: 2023-03-14

Abstract

本发明公开了一种基于对话结构图约束的开放域对话方法，该方法包括：获得编码器最初的对话语句向量表示后，利用对话顺序性与相关性的特征，设计全新的对比学习损失函数进一步训练，从而获取包含充分语义的对话语句向量；对新获得的对话语句向量做聚类，得到话题层级的句子聚类；最后使用模仿学习模仿对话数据集中话题的转移，从而构建话题层级的对话结构图，即聚类之间的转移，并用其约束自回归解码器的文本生成。本发明通过使用对比学习充分提取句意信息，利用模仿学习得到了对话结构图并用其预测下一轮对话话题，很好的约束了生成对话与话题的相关性，提升了整体对话的流畅性。

Description

一种基于对话结构图约束的开放域对话方法

技术领域

本发明属于计算机领域中自然语言处理领域，具体的为一种基于对话结构图约束的开放域对话方法。

背景技术

近年来，大规模预训练语言模型在自然语言处理领域的诸多任务上都取得了成效。在对话生成任务上，基于自回归的预训练语言模型可以生成流畅丰富的对话。然而在多轮开放域对话中，模型常常会忽视上下文之间话题的转移，生成与当前话题不相关的回应，从而让对话者感觉唐突生硬。所以需要对话结构图约束模型去生成话题相关的对话。过去的一些工作重点探讨了任务导向对话系统中的对话结构图。然而开放域对话和任务导向对话相比拥有巨量的对话状态以及大量不确定的转移对话状态转移，因此在任务导向对话中构建对话结构图的方法在开放域对话的场景下并不适用。开放域对话结构图构建的难点在于两个方面：如何利用无监督的方式提取对话状态或话题；如何捕捉话题之间的转移。

目前关于开放域对话中的对话结构图的研究很少，主流方法是利用图神经网络构建语句层级和话题层级的图，利用对词句同现频率的统计计算语句或话题之间的转移概率，完成对话结构图的构建，最后通过强化学习的方式，将话题信息融入到奖赏函数中，训练对话模型。

发明内容

本发明为解决的技术问题：

本发明的目的是设计一种基于对话结构图约束的开放域对话方法，以解决现有的对话生成与当前或预期话题不相关的问题。人类在对话中可以轻松意识到不同情况下的话题以及话题的转移，从而组织语言进行相关的回答。本发明尝试模仿人类对话题的把握，提供了如何构建开放域多轮对话的结构图，以及如何利用结构图约束生成对话的方法。该方法在高质量人类对话数据集上展现了优秀的性能，并且模型对参数不敏感，有很强的鲁棒性。

本发明为解决其技术问题采用如下技术方案：

一种基于对话结构图约束的开放域对话方法，包括以下步骤：

(1)输入对话语句，将双向注意力transformer编码器的平均池化输出作为对话语句的最初向量表示，设计损失函数，以自监督的方式训练所述双向注意力transformer编码器，训练完成后，所述双向注意力transformer编码器输出充分包含语义的对话语句向量表示；

(2)对得到的充分包含语义的对话语句向量表示做聚类，形成若干聚类簇，每个所述聚类簇均代表一个对话话题，使用行为克隆方法，模拟对话话题的转移，计算所述聚类簇之间的转移概率，以聚类簇为对话结构图的顶点，转移概率为对话结构图的边来构建对话结构图；

(3)通过得到的对话结构图约束自左向右注意力的transformer解码器生成的对话语句，拉近生成的对话语句与所述聚类簇之间的距离。

优选的，步骤1)中损失函数的设计过程为：基于输入的对话语句满足顺序性与相关性，定义绝对相关损失以及相对相关损失，

绝对相关损失为：

其中：S_i表示第i条对话语句，

表示A人物的第i条对话语句，

和

表示

的两个数据增强样本；

h_Ai表示A人物的第i条对话语句的最初向量表示，

和

表示h_i的两个数据增强样本的向量表示；

sim是对话语句向量之间的余弦距离，τ是一个超参数代表温度系数，X_j代表第j组对话语句的集合，D表示经过增强之后的对话数据集；

相对相关损失包括强相关损失和弱相关损失，将强相关损失定义为：

其中，

表示B人物的第i条对话语句，同时将

定义为对话语句

的下一条对话语句，

表示B人物的第i条对话语句的最初向量表示，同时将

定义为对话语句

的下一条对话语句的最初向量表示；将弱相关损失定义为：

其中，

定义为对话语句

的上一条对话语句，

定义为对话语句

的上一条对话语句的最初向量表示，λ₁为控制弱相关损失强度的超参数；

则有：绝对相关损失函数与相对相关损失函数分别为：

其中对N为批量大小，S_i-1表示第i-1条对话语句；

通过小批量梯度下降的方法在对话数据集上对所述双向注意力transformer编码器进行训练，训练完成之后所述双向注意力transformer编码器输出充分包含语义的对话语句向量表示。

优选的，步骤2)中使用行为克隆算法，模拟对话话题的转移的实现过程为：

(3)规定h_i为状态，每一个聚类簇的中心向量c为动作；

(4)获取欧几里得空间下连续的动作后，选择与该动作余弦距离上最接近的聚类中心向量c作为最终采取的动作，进入下一个状态。

优选的，步骤3)的实现过程为：缩小h_i与c的KL散度：

其中，h_i+1为所述自左向右注意力的transformer解码器原始输出平均池化后得到的对话语句向量，c_i+1为对话结构图预测该对话语句向量所属的聚类簇中心向量。

本发明采用以上技术方案与现有技术相比，具有以下有益效果：

提供了一种强大的对话语句向量表征的方法，这种方法充分利用了对话顺序性与相关性的特点。在优秀的语句表示的基础上构建了对话结构图，充分把握对话中话题的转移，生成话题相关的回答。实验表明，本发明提出了一种优秀的对话语句向量表征方法去建立对话结构图，在对话结构图约束下，可以有效的提升模型生成对话的流畅性和在话题转移之间的衔接。

附图说明

图1是提出的算法框架整体流程示意图。

具体实施方式

下面结合附图对本发明创造做进一步详细说明。

本发明在基于对话结构图下约束对话生成，总体框架如图1所示，分为三个部分：1.基于对比学习的对话语句向量表示。2.对话结构图的构建。

3.对话结构图约束的对话生成。

(1)基于对比学习的对话语句向量表示

对于每一个输入的句子，使用基于双向注意力的transformer编码器进行表示，对编码器的输出做平均池化得到最初的对话语句向量。对话中语句具有顺序性与相关性的特点，前者指对话可以看做话题的单向流动，对话的前后句子有内在的逻辑关系，不能随意调换位置。后者指对话中的每一个句子都与其上下文相关，并且与越靠近的语句越有关。利用这两个特点，可以得出一条语句在语义上与它后一句强相关，和前一句话弱相关。结合对比学习的相关知识，本发明设计了绝对相关损失和相对相关损失用于对话语句表征的训练。绝对相关损失指一条语句

的两个数据增强样本

和

构成一对正样本，和其他的样本构成负样本。公式如下，其中h是句子的表示，sim是向量之间的余弦距离。

相对相关损失由强相关损失和弱相关损失组成，强相关损失指一条语句

和下一条语句

构成正样本，和其他的样本构成负样本，

弱相关损失指一条语句

和上一条语句

构成稍弱正样本，和其他样本构成负样本，

训练借助小批量梯度下降的方法在对话数据集上进行训练，对批量大小为N的情况，绝对相关损失与相对相关损失分别为：

整个训练编码器的过程是自监督的，不需要额外数据的标注信息。训练完成之后编码器能够输出能够表征语义的对话语句向量。

(2)对话结构图的构建

对数据集中的句子向量做基于余弦距离的K-means聚类，共分为k个聚类簇，各自对应了对话中的一大类话题。接着需要计算话题之间的转移，采用模仿学习中行为克隆的方法，设每一条句子的对话语句向量h为状态，每一个聚类簇的中心向量c为动作，则专家轨迹为句子，聚类的交替排列h₁,c₂,h₂,c₃,h₃,…,h_m，其中每一个聚类代表着后面语句所属的话题聚类。模型使用极大似然估计的方法确定策略π，对于连续的动作空间和状态空间，假设策略的分布服从高斯分布，最大似然的优化目标可以写成

其中均值是需要估计的对象，方差假设是一个常数，则最终的问题规约成了一个均方误差的回归问题

模型使用神经网络解决这个回归问题，最终得到了策略，即在给定状态下应该采取什么样的动作。选择与该动作余弦距离上最接近的聚类中心向量作为最终采取的动作。完成上述步骤之后，对于对话中的任意的一句话，模型可以预测下一句回应所对应的话题以及相应的概率，对话结构图即话题状态转移图的构建完成。

(3)对话结构图约束的对话生成

模型采用一个基于自左向右注意力的transformer解码器以自回归的方式进行对话的生成，该步骤需要优化的损失函数为

当解码器完成句子的输出时，取输出的平均池化作为该语句的向量表示h_i+1，接着使用建立完成的对话结构图预测该语句所属的话题聚类簇中心向量c_i+1。这两个向量分属不同的向量空间，将其都看作一维的分布，拉近语句向量与话题聚类中心向量的距离，即缩小二者之间的KL散度

以此约束生成的对话与话题的相关性。最终在生成阶段解码器的训练损失为

Loss_Gen＝l_NLL+λ₂D_KL。

完成对解码器的训练之后，端对端的编码器-解码器架构可以直接用来生成对话。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。