CN113535902A

CN113535902A - 一种融合对抗训练的生成式对话系统

Info

Publication number: CN113535902A
Application number: CN202110787242.XA
Authority: CN
Inventors: 王伟; 阮文翰; 武聪; 吕明海
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-10-22

Abstract

神经网络对话生成模型的发展促进了短文本对话建模的研究。对经过清洗的大规模高质量中文会话数据集(large‑scale cleaned Chinese conversation dataset，LCCC)，预训练的中文对话模型在生成更符合汉语规范的高质量回复话语，但是泛化能力降低，导致在微调过程中评价指标偏低。针对此问题，利用生成对抗网络在自然语言处理处理任务中提高模型泛化能力的方法，提出一种融合对抗训练的中文GPT对话模型，首先在微调的过程中使用投影梯度下降的训练方法，提高了模型的泛化能力，然后使用Facal损失函数加快训练速度。

Description

一种融合对抗训练的生成式对话系统

技术领域

本发明涉及人工智能系统，特别是涉及当出现短文本多轮人机对话的生成式对话系统。

背景技术

随着人类社会信息化的不断演进以及人工服务成本的不断上升，人们越来越希望通过自然语言与计算机进行交流，智能对话机器人系统成为这样的历史背景下诞生的产物，尤其是能够像人一样理解话语，能够像人一样在即使有个别错字、语序颠倒等不影响句意理解的情况下，依旧能做出恰当回复，正成为各大公司及学术研究机构研发的方向和重点。

目前已有的智能对话系统的研究中，随着模型的性能、参数增强，语料库也越来越标准，模型在训练过程中拟合能力越来越强，但是泛化能力却没有得到提升。

对抗训练有两个作用，一是提高模型对恶意攻击的鲁棒性，二是提高模型的泛化能力。对抗训练最初用在图像领域中，其基本方法是通过选取训练数据潜在空间中的元素进行组合，并加入随机噪声作为虚假数据，在训练过程中，将真实数据和虚假数据送入到分类器中，最终使分类器无法区分输入数据是否为真实数据；在计算机视觉任务中，输入是连续的RGB的值，而在自然语言处理任务中，输入是离散的单词序列，一般以one-hot向量的形式呈现，如果直接在输入的文本上进行扰动，那么扰动的值和方向可能都没有意义，因此提出了可以在连续的embedding上做扰动的方法，但是与图像领域中直接在原始输入加扰动不同，在字或词嵌入向量上加扰动会带来这一问题：被构造出来的“对抗样本”并不能映射到某个单词上。因此，在词表中推理或查询字或词时，无法通过修改原始输入数据得到“对抗样本”；根据前人大量的实验工作显示，在自然语言处理任务中，对抗训练在非对抗样本上的表现更好，使模型的泛化能力变强，与视觉任务相反；在自然语言处理任务中，对抗训练的目的不再是为了防御基于梯度的恶意攻击，而是作为一种正则化方式来提高模型的泛化能力。

本发明针对此缺陷提出，利用对抗训练的方法解决人机对话系统泛化能力差的问题。

发明内容

一种融合对抗训练的生成式对话系统，其特征在于使用基于深度学习的GPT的端到端方式，研究针对提高泛化能力的人机智能对话系统，在即使有个别错字、语序颠倒等不影响句意理解的情况下，依旧能做出恰当回复。

本发明提供的技术方案包括如下步骤：在编码部分，直接用Hugging Face提供的transformers的BertTokenizer对历史对话和当前对话编码；解码部分使用的是中文GPT模型，首先将编码后的向量输入到解码部分，进行解码生成回复语句的第一个字，之后将编码后的向量和解码生成的字向量输入到解码部分中，直到生成最后一个字符；中文GPT模型在训练过程中，使用对抗训练中的投影梯度下降法进行训练，损失函数使用Facal损失函数。

附图说明

图1对话系统的模型架构图。

图2对话系统的模型内部结构图。

图3对话系统的模型详解图。

具体实施方式

第一步利用BertTokenizer将当前话语与历史对话进行编码；第二步将编码后的向量输入到中文GPT模型中，利用掩码多头注意力机制生成回复语句；第三步在训练过程中利用对抗训练中的投影梯度下降法进行训练，损失函数为Facal损失函数。

将多轮对话构建成长文本，并将生成回复话语任务构建为语言模型。首先将多轮对话中的所有对话连接成一个长文本x₁,…,x_N(N是序列长度)，以[sep]标记文本结尾；将源语句(历史对话)表示为S＝x₁,…,x_m，目标语句(语料库中真实回复语句即标写为一系列条件概率的乘积为公式1所示；对于多轮对话T₁,…,T_K，公式(1)的p(T|S)改成公式(2)，因此只对p(T_K,…,T₂|T₁)进行优化即可，

在模型训练完之后，得到模型的构造和参数以及训练过程在编码和解码部分。

编码部分：直接用Hugging Face提供的transformers的BertTokenizer对历史对话和当前对话编码。

解码部分：为中文GPT对话模型，将编码后的文本向量连续化并输入到模型中，GPT生成文本是根据用户特定的提示或无提示随机的方式生成的；在GPT体系结构的基础上训练了GPT对话模型，由12到48层的Transformer解码层构成，每层只有掩码多头自注意力机制(Masked self-attention)和归一化功能；自注意力机制为公式3，公式4，其中Q为查询向量，K为键向量，V为值向量，W_i ^Q，W_i ^K，W_i ^V是降维矩阵，比如Q,K,V的维度是768，注意力头数是12，那么是字嵌入向量的维度是(768，768/12)即(768，64)，d_k是Q和K的维度。考虑了修改模型初始化的深度以及对字而不是词编码。

对抗训练：对输入向量添加噪声，如公式5，公式6所示。θ为模型对应的参数，L为损失函数，S为扰动的范围，超参数α为步长。

x_t+1＝∏_x+S(x_t+αg(x_t)/||g(x_t)||₂) (5)

g(x_t)＝▽_xL(θ,x_t,y) (6)

为实现上述目的，本文提出的方案是：一种基于投影梯度下降训的对抗训练算法，具体步骤如下：

S1：将离散向量变成连续向量；

S2：计算loss值；

S3：定义循环次数K；

S4：反向传播，得到正常的grad；

S5：在字嵌入向量上添加对抗扰动，第一次添加对抗扰动时备份模型参数；

S6：循环轮数不等于K-1时，清空梯度，否则保留梯度；

S7：计算加入扰动后的loss值；

S8：结束循环；

S9：在添加扰动前的梯度基础上反向传播，累加对抗训练的梯度；

S10：恢复字嵌入向量参数；

S11：梯度下降，更新参数；

为了提高生僻字的预测能力，进而加快训练速度，采用Facal损失函数，其公式为：

Facal_Loss＝(1-p(T|S))^G×Loss (6)

其中，超参数G是调节简单样本权重降低速率的因子，Loss为交叉熵损失函数，其公式为：

例如某一个常用字和生僻字的概率分别为0.9和0.1，G＝2，生僻字的Facal损失值是原有损失值的0.81倍，而常用字的Facal损失值是原有损失值的0.01倍，使生僻字的Facal损失值的占比相对提升，梯度更能沿着生僻字的方向下降。

Claims

1.一种基于短文本多轮的生成式对话系统，其特征在于使用基于深度学习的GPT的端到端方式，研究针对提高泛化能力的人机智能对话系统，其包括如下：使用投影梯度下降的对抗训练算法来实现在有噪声但不改变语句意思输入的情况下，中文GPT对话模型依旧能给出合理答复，不会产生乱码；最后使用Facal损失函数提高生僻字预测能力，加快训练速度。

2.根据权利要求1所述一种基于投影梯度下降训的对抗训练算法，在微调过程中训练中文GPT对话模型，训练过程中，训练算法的输入是中文GPT对话模型。

3.根据权利要求1所述一种基于投影梯度下降训的对抗训练算法，包含三个部分，第一部分是对输入的字嵌入向量加入对抗扰动，第二部分是恢复字嵌入向量，第三部分恢复梯度；输入x_t添加对抗扰动后为：

x_t+1＝∏_x+λ(x_t+αg(x_t)/||g(x_t)||₂)

其中，扰动半径为ε，α为扰动空间上的步长，λ＝r∈R^d:||r||₂≤ε，g(x_t)为损失函数L的梯度，即：

其中θ为y与x_t之间映射关系的参数，例如：y＝θ·x_t，将中文GPT对话训练模型的输入(源语句和历史对话)表示为S＝x₁,···,x_m，输出的目标语句T(语料库中真实回复语句即标签)为条件概率的乘积：

对于多轮对话，p(T|S)可以改成：

4.根据权利要求1中为了提高生僻字的预测能力，进而加快训练速度，采用Facal损失函数，其公式为：

Facal_Loss＝(1-p(T|S))^G×Loss