CN112612881B

CN112612881B - 基于Transformer的中文智能对话方法

Info

Publication number: CN112612881B
Application number: CN202011579830.6A
Authority: CN
Inventors: 杨波; 巩固; 郑文锋; 刘珊
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-03-25
Anticipated expiration: 2040-12-28
Also published as: CN112612881A

Abstract

本发明公开了一种基于Transformer的中文智能对话方法，先使用大规模的中文闲聊语料库LCCC(Large‑scale Cleaned Chinese Conversation)构建训练数据集，作为Transformer模型的输入，然后基于深度学习的方式对Transformer模型进行训练，直至Transformer模型收敛，最后，将待对话的输入序列输入至Transformer模型，通过Transformer模型实时输出期望输出序列，从而实现中文智能实时对话。

Description

基于Transformer的中文智能对话方法

技术领域

本发明属于自然语言处理技术领域，更为具体地讲，涉及一种基于Transformer的中文智能对话方法。

背景技术

随着深度学习技术的快速发展，NLP(Nature language model，自然语言处理)领域也越来越多引入了深度学习技术，其效果相比传统的基于规则或者传统统计方法的处理方式有了长足的进步。而利用Transformer模型的预训练语言表示模型，如BERT(Bidirectional Encoder Representations from Transformers)，在各项NLP任务中取得了比传统的方法表现更出色的成绩，因为Transformer改进了RNN最为人诟病的训练慢的特点。利用Self-attention机制实现快速并行，并且Transformer可以增加到非常深的深度，充分发掘神经网络(Deep Neural Networks，DNN)模型的特征，提升模型准确率。智能化的问答系统系统层出不穷，并且给带来了许多便利。

原始的Transformer模型由编码器(encoder)和解码器(decoder)组成，这种架构在机器翻译任务中取得的成功证实了模型的有效性。2018年发布的预训练语言模型BERT，使用Transformer的encoder为重要结构，曾在11项自然语言处理任务上取得最好成绩，预训练语言模型开始引起极大关注，并已经成为自然语言处理的新范式。而GPT更好的实现生成语言这一特点，使用了Transformer的decoder，GPT单向的语言模型大大提高了推理、问答等应用问题的效果。

基于Transformer的预训练语言模型极大的促进了开发领域对话的研究进展，但是目前这一技术在中文对话领域并未广泛应用

GPT网络架构是一个多层Transformer的decoder网络，原始的Transformer模型和GPT分别采用函数式和参数式的绝对位置编码方式，本模型中使用了完全函数式的相对位置编码，实验表明该位置编码方式使得模型在各个下游任务中得到明显提升。

对Transformer模型中跨层参数进行共享，随着Transformer Block层数的增加，参数数量呈指数增长。为了解决这个问题，使用了跨层参数共享的概念，学习第一个快的参数，并在剩下的5个层中重用该块，只共享注意力参数。

在训练过程中，优化器方面使用Adam优化器，通常在深度神经网络训练的BatchSize很大的情况下会对模型的泛化能力带来负面影响，而Adam优化器通过一个自适应的方式为每个参数调整学习率，能够在Batch Size很大的情况下不损失模型效果。

大规模的、高质量的中文对话数据对模型起着重要的作用，目前已知的问答系统仅能机械地的回答问题，回复常常答非所问，并未达到智能理解语义和语境的程度。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于Transformer的中文智能对话方法，基于深度学习算法，在理解语义和语境的基础上模拟输出流畅的、符合语境的回答。

为实现上述发明目的，本发明一种基于Transformer的中文智能对话方法，其特征在于，包括以下步骤：

(1)、使用大规模的中文闲聊语料库LCCC(Large-scale Cleaned ChineseConversation)构建训练数据集；

(1.1)、构建长度为N的输入序列；

以[CLS]标签作为输入序列的开始符，然后从LCCC语料库中提取连续对话句，按照语句顺序将字填入输入序列，每个句子之间插入[SEP]标签，每次填入句子时，判定加入当前句总长度m是否大于N，若大于N，则停止填入；若小于N则继续填入，并将未填充部分设置为空值0，从而得到输入序列S_in；

(1.2)、构建等长的期望输出序列S_out；

从输入序列S_in的第2个字符开始依次填入至输出序列，输出序列的最后一个字符设置为空值0；

(1.3)、对输入序列和期望输出序列中的字符均用One-hot列向量进行编码，编码完成后将输入序列记为X，将期望输出序列记为Y，从而构建出训练数据集{X,Y}，其中，X,Y∈R^V×N，N表示输入序列的长度，V表示经过独热编码后字符向量的维度；

(2)、搭建Transformer模型

Transformer模型由若干层Decoder单元堆叠，在每个Decoder单元中又包括自注意力模块、残差连接模块和层归一化处理模块；

(3)、利用中文闲聊语料库提供字嵌入网络对输入序列X进行嵌入操作；

将输入序列X输入至字嵌入网络，经字嵌入网络编码后得到D×N的字嵌入矩阵X_WE＝WX，D表示字嵌入向量的维度，W为字嵌入矩阵；

(4)、用全0或全1填充的D维列向量，其中，0或1分别表示问或答者，从而构成D×N的段嵌入矩阵X_SE；

(5)、计算段嵌入后矩阵X_E＝X_WE+X_SE；

(6)、将X_E输入Transformer模块，用于提取语义信息；

(6.1)、将X_E分别与三个D×D的权重矩阵W^Q、W^K、W^I相乘，得到查询矩阵Q、键矩阵K和值矩阵V；

Q＝W^QX_E＝[q₁,q₂,…,q_N]

K＝W^KX_E＝[k₁,k₂,…,k_N]

V＝W^VX_E＝[v₁,v₂,…,v_N]

然后，基于矩阵Q、K、V，引入相对位置编码，计算注意力矩阵Z，设矩阵Z的i列向量为z_i，i＝1,2,…,N，则有：

其中，q_i、k_i、v_i分别为矩阵Q、K、V对应的列向量，p_ij是输出位置i和输入位置j的相对位置编码向量，p_ij的偶数和奇数元素计算公式为：

(6.2)、残差连接；

将注意力矩阵Z与段嵌入后矩阵X_E相加，得到矩阵X_A＝Z+X_E，再对X_A进行标准归一化处理，得到X'_A，设x′_i和x_i分别为X'_A和X_A的第i列向量，则有：

其中，μ_i和σ_i分别为x_i各元素的均值和标准差，ε为一极小常数，α,β为弥补归一化引起的信息损失值；

(6.3)、将X'_A输入至权重矩阵为W^H的前馈线性映射层，并经过ReLU激活，得到输出矩阵X_H＝ReLU(W^HX'_A)；

(6.4)、将矩阵X_H再进行残差连接，得到矩阵X'_H＝X'_A+X_H，对矩阵X'_H进行标准归一化处理，输出新的嵌入矩阵

(6.5)、重复步骤(6.1)～(6.4)，经过多层Decoder单元处理后输出D×N的矩阵X_TE；

(7)、利用反转嵌入模型W对X_TE进行解码操作，从而将X_TE重新转换回原One-hot编码空间，再经过SoftMax激活函数激活，输出预测矩阵

(8)、根据

与期望输出矩阵Y计算损失函数值

||·||_F表示求F范数，然后将损失值反向传播，更新Transformer模块；

(9)、重复步骤(3)～(8)，利用训练数据集反复对Transformer模型进行训练，在训练过程中，使用的一定学习率和权重衰减率的Adam优化器进行训练，每一轮完整的训练称为一次epoch，epoch中包括多个训练样本，每次epoch完成后，判断样本的累加损失值小于等于预设阈值，则训练结束，得到训练完成的Transformer模型；否则，继续重复步骤(3)～(8)进行下一轮训练，直至样本的累加损失值小于等于预设阈值；

(10)、基于Transformer模型的中文智能实时对话；

将待对话的输入序列输入至Transformer模型，通过Transformer模型实时输出期望输出序列，从而实现中文智能实时对话。

本发明的发明目的是这样实现的：

本发明基于Transformer的中文智能对话方法，先使用大规模的中文闲聊语料库LCCC(Large-scale Cleaned Chinese Conversation)构建训练数据集，作为Transformer模型的输入，然后基于深度学习的方式对Transformer模型进行训练，直至Transformer模型收敛，最后，将待对话的输入序列输入至Transformer模型，通过Transformer模型实时输出期望输出序列，从而实现中文智能实时对话。

同时，本发明基于Transformer的中文智能对话方法还具有以下有益效果：

(1)、在Transformer模型中，5层Decoder单元中使用相对位置编码替代原来的绝对位置编码，并对多层的解码器进行跨层参数共享，随着Transformer Block层数的增加，参数数量呈指数增长。为了解决这个问题，使用了跨层参数共享的概念，学习第一个快的参数，并在剩下的5个层中重用该块，只共享注意力参数；

(2)、发明是基于预训练语言模型GPT做改进，GPT网络架构是一个多层Transformer的decoder网络，原始的Transformer模型和GPT分别采用函数式和参数式的绝对位置编码方式，本发明中使用了完全函数式的相对位置编码，实验表明该位置编码方式使得模型在各个下游任务中得到明显提升；

(3)、本发明使用了在各项自然语言处理任务中取得了比传统的方法表现更出色的Transformer方法来实现问答对话模型，并使用相对位置编码和参数共享来调优模型，达到了较高的问答准确率，通过网络对数据集的训练，可实现实时的问答情景，具有广阔的应用前景。

附图说明

图1是本发明基于Transformer的中文智能对话方法流程图；

图2是多轮对话示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

为了方便描述，先对具体实施方式中出现的相关专业术语进行说明：

图1是本发明基于Transformer的中文智能对话方法流程图；

在本实施例中，如图1所示，本发明一种基于Transformer的中文智能对话方法，包括以下步骤：

S1、使用LCCC(Large-scale Cleaned Chinese Conversation)，以下称为大规模的中文闲聊语料库，简称语料库构建训练数据集；

S1.1、构建长度为N＝20的输入序列；

以[CLS]标签作为输入序列的开始符，然后从语料库中提取连续对话句，按照语句顺序将字填入输入序列，每个句子之间插入[SEP]标签，每次填入句子时，判定加入当前句总长度m是否大于N，若大于N，则停止填入；若小于N则继续填入，并将未填充部分设置为空值0，从而得到输入序列S_in，[[CLS][最][近][怎][么][样][SEP][还][行][你][呢][SEP][我][也][不][错][SEP][0][0][0]]；

S1.2、构建等长的期望输出序列S_out；

从输入序列S_in的第2个字符开始依次填入至输出序列，输出序列的最后一个字符设置为空值0，[[最][近][怎][么][样][SEP][还][行][你][呢][SEP][我][也][不][错][SEP][0][0][0][0]]；

S1.3、对输入序列和期望输出序列中的字符均用One-hot列向量进行编码，编码完成后将输入序列记为X，将期望输出序列记为Y，从而构建出训练数据集{X,Y}，其中，X,Y∈R^V×N，N表示输入序列的长度，V表示经过独热编码后字符向量的维度,设V＝372063，表示词表大小；

S2、搭建Transformer模型

Transformer模型由6层Decoder单元堆叠，在每个Decoder单元中又包括自注意力模块、残差连接模块和层归一化处理模块；

S3、利用中文闲聊语料库提供的字嵌入网络对输入序列X进行嵌入操作；

将输入序列X输入至字嵌入网络，经字嵌入网络编码后得到D×N的字嵌入矩阵X_WE＝WX，D表示字嵌入向量的维度，W为字嵌入矩阵，其中D＝256；

S4、如图2所示，用全0或全1填充的D维列向量，其中，0或1分别表示问或答者，从而构成D×N的段嵌入矩阵X_SE，[[0][0][0][0][0][0][0][1][1][1][1][1][0][0][0][0][0][0][0][0]]；

S5、计算段嵌入后矩阵X_E＝X_WE+X_SE；

S6、将X_E输入Transformer模块，用于提取语义信息；

S6.1、将X_E分别与三个D×D的权重矩阵W^Q、W^K、W^I相乘，得到查询矩阵Q、键矩阵K和值矩阵V；

Q＝W^QX_E＝[q₁,q₂,…,q_N]

K＝W^KX_E＝[k₁,k₂,…,k_N]

V＝W^VX_E＝[v₁,v₂,…,v_N]

在本实施例中，上述运算也可采用多头注意力机制，具体为：将Q、K、V通过线性映射分成若干组{Q_κ,K_κ,V_κ}_κ＝1,2,...，然后对每组进行上述操作，计算出多个Z_κ，最后将多个Z_κ拼接再进行线性投影，得到多头注意力矩阵Z^*。

S6.2、残差连接；

S6.3、将X'_A输入至权重矩阵为W^H的前馈线性映射层，并经过ReLU激活，得到输出矩阵X_H＝ReLU(W^HX'_A)；

S6.4、将矩阵X_H再进行残差连接，得到矩阵X'_H＝X'_A+X_H，对矩阵X'_H进行标准归一化处理，输出新的嵌入矩阵

S6.5、重复步骤S6.1～S6.4，经过多层Decoder单元处理后输出D×N的矩阵X_TE；

S7、利用反转嵌入模型W对X_TE进行解码操作，从而将X_TE重新转换回原One-hot编码空间，再经过SoftMax激活函数激活，输出预测矩阵

S8、根据

与期望输出矩阵Y计算损失函数值

S9、重复步骤S3～S8，利用训练数据集反复对Transformer模型进行训练，在训练过程中，使用的学习率为2×10^-5、权重衰减率为0.01的Adam优化器进行训练，训练样本进行完整的训练称为一次epoch，每次epoch完成后，判断样本的累加损失值小于等于预设阈值，则训练结束，得到训练完成的Transformer模型；否则，继续重复步骤S3～S8进行下一轮训练，直至样本的累加损失值小于等于预设阈值；

S10、基于Transformer模型的中文智能实时对话；

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。