CN111274362A

CN111274362A - 一种基于transformer架构的对话生成方法

Info

Publication number: CN111274362A
Application number: CN202010077900.1A
Authority: CN
Inventors: 蔡贤涛; 袁一鸣
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-02-01
Filing date: 2020-02-01
Publication date: 2020-06-12
Anticipated expiration: 2040-02-01
Also published as: CN111274362B

Abstract

本发明提出了一种基于transformer架构的对话生成方法，用于解决基于背景知识的对话生成问题，属于自然语言处理领域。其主要步骤为将对话上文以及背景知识输入到微调后的文本预训练模型，分别得到对应的向量化表示。做阅读理解任务，通过训练好的阅读理解模型得到背景知识符合当前语境的概率分布。做文本生成任务，根据概率最高的知识片段与对话上文的向量化表示通过多头注意力机制得到综合语义向量。根据综合语义向量结合复制机制生成回复。使用该方法可以生成具有信息量的、自然的、符合当前语境的回复。

Description

一种基于transformer架构的对话生成方法

技术领域

本发明属于自然语言处理领域，尤其涉及一种基于transformer架构的对话生成方法。

背景技术

人工智能的目的是让机器人越来越像人，因此能够交流是机器人的必备技能之一。随着深度学习的发展，序列到序列(Seq2Seq)模型被广泛用于会话建模中，为了解决原始模型倾向于产生无意义或无聊的回答，信息量小，与事实不符等问题，在对话系统中引入了知识信息。知识主要有两种形式：结构化的知识如知识图谱，非结构化的知识如文档。非结构化的知识由于其天然属性显然更加适合于开放域的对话系统。当前解决利用非结构知识进行开放域的回复生成的策略有两种，一种是将其视作阅读理解任务，选择与当前语境最相关的知识片段作为回复，由于回复是背景知识中的一个连续的片段，无法包含背景知识文档中没有的词语，所以会存在不自然的问题。另一种思路是将其视作文本生成任务，但在文本生成任务中将背景知识与对话历史的价值等同，缺少了知识选择的过程，容易被无关的知识混淆。本专利综合了两种策略，先选择出符合当前语境的知识片段，再利用拷贝机制将相关知识融入到回复中。使用该方法可以生成具有信息量的、自然的、符合当前语境的回复。

发明内容

本发明的目的在于提供一种基于transformer架构的对话生成方法。解决对话生成倾向于产生无意义或无聊的回答，信息量小，与事实不符等问题。

基于上述目的，本文提供的解决技术方案为一种基于transformer架构的对话生成方法，具体包括如下步骤：

步骤1：将对话上文以及背景知识中的词映射为词嵌入，位置嵌入，分割嵌入，进一步得到词向量化表示；

步骤2：将对话上文以及背景知识的词向量化表示输入到BERT模型，分别得到对话上文以及背景知识对应的语义表示；

步骤3：基于对话上文以及背景知识对应的语义表示，进一步做阅读理解任务，计算背景知识中符合当前语境的概率分布；

步骤4：基于对话上文以及背景知识对应的语义表示以及背景知识中符合当前语境的概率分布，进一步做文本生成任务，通过多头注意力机制结合背景知识中符合当前语境的概率分布得到综合语义向量，根据综合语义向量结合复制机制生成回复；

作为优选，步骤1中所述的对话上文为：

X＝(x₁，x₂，...，x_I)#(1)

其中，x_j是X的第j个词，I为词的数量，j∈[1，I]；

步骤1中所述背景知识为：

K＝(k₁，k₂，...，k_N)#(2)其中，k_i是K的第i个词，N为词的数量，i∈[1，N]；

步骤1中生成回复为；

Y＝(y₁，y₂，...，y_o)#(3)

其中，y_r是Y的第r个词，O为词的数量，r∈[1，O]；

上述涉及的每个词t_i的词嵌入为TE(t_i)，分割嵌入为SE(t_i)，位置嵌入为PE(t_i)，词的向量化模型为：

E(t_i)＝TE(t_i)+SE(t_i)+PE(t_i)#(4)

其中，i为第i个词。

作为优选，步骤2中所述将对话上文以及背景知识的词向量化表示输入到BERT(Bidirectional Encoder Representations from Transformers，来自Transformer的双向编码器表示)模型，分别得到对话上文以及背景知识对应的语义表示；

其中，BERT由l个Transformer编码器组成，语义表示的计算方法如下：

其中，C⁰(w_i)＝E(w_i)，C为编码器隐状态，W_i为知识与对话上文级联后的i个词，j为第j个编码器；

作为优选，步骤3中所述基于对话上文以及背景知识对应的语义表示进一步做阅读理解任务，计算背景知识中符合当前语境的概率分布，具体为：

计算第p个词w_p作为答案空间开始的概率为P_start(p)；

第q个词w_q作为结束的概率为P_end(q)，按照如下公式分别进行计算：

其中，S，E为可训练的参数矩阵，N为知识词的个数，C为编码器隐状态，p＜q。

根据开始概率和结束概率乘积最大值对应的单词索引得到选取知识片段的起始位置和结束位置；

将该知识片段中的词标记为1，其他标记为0，记为T_i；

作为优选，步骤4中所述基于对话上文以及背景知识对应的语义表示以及背景知识中符合当前语境的概率分布，进一步做文本生成任务，通过多头注意力机制结合背景知识中符合当前语境的概率分布得到综合语义向量，根据综合语义向量结合复制机制生成回复，具体为：

将步骤1中所述回复Y向量化表示为E(Y)，并输入到l层transformer解码器中进行训练，transformer解码器由三个子层构成包括：

第一个子层为掩码多头自注意力层，按照如下公式得到第一个子层的输出：

其中S^0，1＝E(Y)，S^j，1为解码器第一个子层的隐状态，j为第j个解码器；

第二个子层为编码器-解码器多头自注意力层，按照如下公式得到第二个子层的输出：

其中，α是注意力权重，S^j，2为解码器第二个子层的隐状态，j为第j个解码器，C为编码器隐状态；

第三个子层为位置全连接的前馈神经网络，按照如下公式得到transformer解码器的输出：

其中，GLUE为激活函数，S^j，3为解码器第三个子层的隐状态，j为第j个解码器，W，b分别为待训练的权重和偏置；

相邻的两个子层间还包括一个层归一化和残差连接操作；

将transformer解码器输出输入到生成器中，然后计算以下概率及概率分布：

计算回复中的下一个词从对话上文中拷贝的概率分布为：

回复中的下一个词从背景知识中拷贝的概率分布为：

其中，α_t，i是注意力权重为第t个解码步骤时第i个词对应的注意力权重；

计算综合拷贝概率分布：

其中，

[CLS]_X为对话上文整体标记，[CLS]_K为知识整体标记，

为解码器在第t个解码步骤时第二个子层的隐状态，

为编码器在第t个解码步骤时的隐状态。

为T_iα_t，i归一化后的结果；

计算下一个词是生成的概率：

其中，σ为sigmiod函数，W，b分别为待训练的权重和偏置，T为转置操作，

为解码器在第t个解码步骤时第二个子层的隐状态，

为解码器在第t个解码步骤时第三个子层的隐状态，E(y_t)为第t个解码步骤时回复词的语义表示；

计算回复中的下一个词是从词典中生成的概率分布：

其中，V，b分别为待训练的权重和偏置，

为解码器在第t个解码步骤时第二个子层的隐状态，

为解码器在第t个解码步骤时第三个子层的隐状态；

计算综合概率分布：

P(w)＝p_genP_vocab(w)+(1-p_gen)P_copy(w)#(15)

其中，P_vocab(w)为下一个词是从词典中生成的概率分布，P_copy(w)为综合拷贝概率分布，p_gen为下一个词是生成的概率。

选取最高综合概率对应的词依次输出作为回复。

与现有技术相比，本发明具有如下优点：

结合了阅读理解任务与文本生成任务各自的优势，通过做阅读理解任务选择出符合当前语境的知识，通过做文本生成任务，利用拷贝与生成机制将相关的背景知识自然地融入到回复中。最终得到的回复既包含背景知识又与对话上文连贯，生成的回复更加自然流畅，包含一定的信息量。本发明还可扩展应用到智能音箱、智能客服等设备中。

附图说明

图1：本发明方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图论述本发明的具体实施方式为，一种基于transformer架构的对话生成方法，该方法包括如下步骤：

作为优选，步骤1中所述的对话上文为：

X＝(x₁，x₂，...，x_I)#(1)

其中，x_j是X的第j个词，I为词的数量，j∈[1，I]；

步骤1中所述背景知识为：

步骤1中生成回复为；

Y＝(y₁，y₂，...，y_o)#(3)

其中，y_r是Y的第r个词，O为词的数量，r∈[1，O]；

E(t_i)＝TE(t_i)+SE(t_i)+PE(t_i)#(4)

其中，i为第i个词。

步骤2：将训练集中对话上文以及背景知识的词向量化表示输入到BERT(Bidirectional Encoder Representations from Transformers，来自Transformer的双向编码器表示)模型，分别得到对话上文以及背景知识对应的语义表示；

作为优选，步骤2中所述将训练集中对话上文以及背景知识的词向量化表示输入到BERT(Bidirectional Encoder Representations from Transformers，来自Transformer的双向编码器表示)模型，分别得到对话上文以及背景知识对应的语义表示；

其中，BERT由l个Transformer编码器组成，本发明使用了由谷歌公司提供的预训练版本对该部分进行参数初始化，语义表示的计算方法如下：

基于对话上文以及背景知识对应的语义表示进一步做阅读理解任务，计算背景知识中符合当前语境的概率分布，具体为：

计算第p个词w_p作为答案空间开始的概率为P_start(p)；

其中，S，E为可训练的参数矩阵，N为知识词的个数，C为编码器隐状态，p＜q；

该步骤以如下函数作为训练目标，使用Adam优化器进行训练：

其中a，b分别为训练集中提供的标准的知识片段起始词索引和结束词索引，

和

分别为第i个样本中词w_a作为答案空间开始的概率和词w_b作为答案空间结束的概率，M为训练集中的样本个数；

以验证集上的最佳结果来选择参数；

将该知识片段中的词标记为1，其他标记为0，记为T_i；

基于对话上文以及背景知识对应的语义表示以及背景知识中符合当前语境的概率分布，进一步做文本生成任务，通过多头注意力机制结合背景知识中符合当前语境的概率分布得到综合语义向量，根据综合语义向量结合复制机制生成回复，具体为：

将步骤1中所述回复Y向量化表示为E(Y)，并输入到l层transformer解码器中进行训练，该部分参数随机初始化，transformer解码器由三个子层构成包括：

相邻的两个子层间还包括一个层归一化和残差连接操作；

计算回复中的下一个词从对话上文中拷贝的概率分布为：

回复中的下一个词从背景知识中拷贝的概率分布为：

计算综合拷贝概率分布：

其中，

[CLS]_X为对话上文整体标记，[CLS]_K为知识整体标记，

为解码器在第t个解码步骤时第二个子层的隐状态，

为编码器在第t个解码步骤时的隐状态。

计算下一个词是生成的概率：

为解码器在第t个解码步骤时第二个子层的隐状态，

计算回复中的下一个词是从词典中生成的概率分布：

其中，V，b分别为待训练的权重和偏置，

为解码器在第t个解码步骤时第二个子层的隐状态，

为解码器在第t个解码步骤时第三个子层的隐状态；

计算综合概率分布：

P(w)＝p_genP_vocab(w)+(1-p_gen)P_copy(w)#(16)

其中，P_vocab(w)为下一个词是从词典中生成的概率分布，P_copy(w)为综合拷贝概率分布，p_gen为下一个词是生成的概率；

该步骤以如下函数作为训练目标，使用Adam优化器进行训练。

其中，M为训练集中样本个数，O为每个样本中词的个数，

为第t个解码步骤时训练集中的标准回复词的综合概率分布；

以验证集上的最佳结果来选择参数；

将背景知识以及对话上文和阅读理解模型的输出输入到训练好的对话生成模型中，按照上述方式计算，不同的是综合拷贝概率分布中，

α′_t，i为T_iα_t，i归一化后的结果，从而将选择的背景知识融入到回复中，其他概率计算与上述过程一致，此处不再赘述；

选取最高概率对应的词依次输出作为回复。

表1：实施效果

本发明在Holl-E数据集上实施，其效果如表1所示，为本发明展示的技术效果，以第一个样本为例，“I liked the scene where Banks comes along and while thereAlyssa is asked to sing a song.”中“Banks comes along and while there Alyssais asked to sing a song.”是背景知识文档中关于“scene”的知识片段，“I liked thescene where”是与对话上文“What scene did you like？”相对应的过渡词，可以看出本发明生成的回复是对背景知识文档中与对话上文相关的知识片段的改写。由于包含了背景知识，回复具有信息量，又增加了过渡词，更加的自然流畅。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于transformer架构的对话生成方法，其特征在于，包括如下步骤：

步骤4：基于对话上文以及背景知识对应的语义表示以及背景知识中符合当前语境的概率分布，进一步做文本生成任务，通过多头注意力机制结合背景知识中符合当前语境的概率分布得到综合语义向量，根据综合语义向量结合复制机制生成回复。

2.根据权利要求1所述的基于transformer架构的对话生成方法，其特征在于：步骤1中所述的对话上文为：

X＝(x₁，x₂，...，x_I)#(1)

其中，x_j是X的第j个词，I为词的数量，j∈[1，I]；

步骤1中所述背景知识为：

K＝(k₁，k₂，...，k_N)#(2)

其中，k_i是K的第i个词，N为词的数量，i∈[1，N]；

步骤1中生成回复为；

Y＝(y₁，y₂，...，y_O)#(3)

其中，y_r是Y的第r个词，O为词的数量，r∈[1，O]；

E(t_i)＝TE(t_i)+SE(t_i)+PE(t_i)#(4)

其中，i为第i个词。

3.根据权利要求1所述的基于transformer架构的对话生成方法，其特征在于：步骤2中所述将对话上文以及背景知识的词向量化表示输入到BERT(Bidirectional EncoderRepresentations from Transformers，来自Transformer的双向编码器表示)模型，分别得到对话上文以及背景知识对应的语义表示；

其中，C⁰(w_i)＝E(w_i)，C为编码器隐状态，w_i为知识与对话上文级联后的i个词，j为第j个编码器。

4.根据权利要求1所述的基于transformer架构的对话生成方法，其特征在于：步骤3中所述基于对话上文以及背景知识对应的语义表示进一步做阅读理解任务，计算背景知识中符合当前语境的概率分布，具体为：

计算第p个词w_p作为答案空间开始的概率为P_start(p)；

其中，S,E为可训练的参数矩阵，N为知识词的个数，C为编码器隐状态，p<q；

将该知识片段中的词标记为1，其他标记为0,记为T_i；。

5.根据权利要求1所述的基于transformer架构的对话生成方法，其特征在于：步骤4中所述基于对话上文以及背景知识对应的语义表示以及背景知识中符合当前语境的概率分布，进一步做文本生成任务，通过多头注意力机制结合背景知识中符合当前语境的概率分布得到综合语义向量，根据综合语义向量结合复制机制生成回复，具体为：