CN113139042B

CN113139042B - 一种利用微调和重排序策略的情感可控回复生成方法

Info

Publication number: CN113139042B
Application number: CN202110450102.3A
Authority: CN
Inventors: 杜宝祥; 马志强; 王春喻; 贾文超
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2022-04-29
Anticipated expiration: 2041-04-25
Also published as: CN113139042A

Abstract

一种利用微调和重排序策略的情感可控回复生成方法，利用微调算法对大规模开放域语言预训练模型GPT‑2进行训练，即，使用带有情感类别标签的开放领域多轮对话语料训练GPT‑2，通过将对话语句与其对应情感类别标签混合训练的方式，使语言模型学习语义和情感的依赖关系，得到EmoGPT模型，利用EmoGPT模型，根据指定的情感类别标签，将生成的K个回复进行情感重排序，得到最终的生成回复，本发明解决了多轮对话情况下由于对话生成模型中缺乏情感控制方法导致的生成回复的情感与指定情感不一致的问题，实现了多轮对话的情感可控回复生成，提高了对话生成回复的情感一致性。

Description

一种利用微调和重排序策略的情感可控回复生成方法

技术领域

本发明属于人工智能技术领域，涉及情感对话生成，特别涉及一种利用微调和重排序策略的情感可控回复生成方法。

背景技术

对话生成是指根据给定的对话上文，模型逐字或逐词生成回复语句。对于生成的回复语句最基本的要求是语法正确且语言表达自然流畅。情感对话生成则对模型生成的回复语句进行了更高的要求，除符合基本的语法和语言表达要求外，还需要富有情感。生成回复的情感可控性是目前情感对话生成的重要研究方向。

以往的研究工作主要基于Seq2Seq模型，通过情感标签结合情感记忆、注意力机制、多任务学习和对抗学习等方式提升了对话模型生成回复的情感表达和控制能力。

传统的基于Seq2Seq的对话生成模型存在一些明显缺陷，如生成回复的信息量少，模型倾向于生成低质量的通用回复等。随着Transformer在自然语言处理领域的卓越表现，基于Transformer的语言模型在自然语言生成类任务中得到广泛应用，并取得了良好的性能表现，GPT-2(Generative Pre-trained Transformer，生成式的预训练Transformer)是最典型的模型之一。GPT-2在开放领域多轮对话的应用使得语言质量和内容相关性和多样性等方面均有显著提升，能够极大地缓解传统Seq2Seq模型的安全回复问题。然而，对于基于GPT-2的多轮对话生成，回复情感的控制是一个亟待解决的问题，在多轮对话中准确控制生成回复的情感，对于未来对多轮对话的动态情感回复策略的研究是十分必要的。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种利用微调和重排序策略的情感可控回复生成方法，该方法主要针对现有基于Seq2Seq模型容易出现信息量少，低质量的安全回复，对话生成模型中缺乏情感控制方法导致的生成回复的情感与指定情感不一致的问题，将“预训练+微调”策略应用在情感可控回复生成中。

为了实现上述目的，本发明采用的技术方案是：

一种利用微调和重排序策略的情感可控回复生成方法，包括：

步骤1，利用微调算法对大规模开放域语言预训练模型GPT-2进行训练，即，使用带有情感类别标签的开放领域多轮对话语料训练GPT-2，通过将对话语句与其对应情感类别标签混合训练的方式，使语言模型学习语义和情感的依赖关系，得到EmoGPT模型；

步骤2，利用EmoGPT模型，根据指定的情感类别标签

将生成的K个回复进行情感重排序，得到最终的生成回复

其中，

T表示对话上下文中对话轮次，

为第T轮对话中回复语句的第j个词，t为R_T的序列长度，即第T轮对话中回复语句的词的数量，K可由用户指定。

所述大规模开放域语言预训练模型GPT-2是使用无情感标签的开放领域多轮对话语料训练得到的适用于开放领域多轮对话的语言模型。

所述GPT-2模型由多个Transformer模块堆栈构成，EmoGPT模型的初始输入为对话上文Context和指定的情感类别标签

的拼接序列

模型逐词生成并输出符合指定情感的回复，直到生成语句结束符号[SEP]或达到最大长度时停止，其中，Context＝{U₁,R₁,U₂,R₂,…,U_i,R_i,…,U_T}，U_i表示第i轮对话中用户话语的词序列，

为第i轮对话中用户话语的第j个词，

为U_i的序列长度，R_i表示第i轮对话中回复语句的词序列，

为第i轮对话中回复语句的第j个词，

为R_i的序列长度，U_T表示第T轮用户话语，所述U_i和R_i均以词序列的形式输入，每个词序列后加入一个[SEP]符号作为语句结束标签。

将所述指定的情感类别标签

拼接在初始输入序列后，得到长序列文本

即包含情感标签的多轮对话序列，将EC和真实的回复语句

输入EmoGPT模型，指定候选语句数量K，将对话上下文复制K份并行输入EmoGPT中，模型每轮次生成K个候选词，将生成的候选词对应地拼接到上轮次的输入对话序列后面，再次输入EmoGPT模型中生成下一轮次的K个候选词，以此循环迭代，直到生成语句结束符号[SEP]或达到最大长度时停止，根据

将生成的K个回复序列进行情感重排序，得到最终的生成回复

其中，

表示第i轮对话中用户话语的情感标签，

表示第i轮对话中回复语句的情感标签。

通过最大化条件概率使EmoGPT模型不断地拟合真实数据中有显式情感的语言分布，最大化条件概率公式如下：

EmoGPT模型通过学习情感类别标签和文本的共现关系，从而能够在生成阶段以情感类别标签引导的方式，实现对生成回复情感的控制。

所述EmoGPT模型的循环迭代过程如下：

(1)，加载GPT-2语言预训练模型，模型的权重和偏置参数为θ；

(2)，前向传播得到生成的回复语句；

(3)，使用交叉熵损失函数计算损失；

(4)，反向传播更新θ；

(5)，保存EmoGPT模型参数。

所述步骤2中，通过对EmoGPT模型同时生成的K句回复进行情感打分并重排序，选择与指定的情感类别最接近的回复语句作为最终的生成回复，从而保证生成回复的情感一致性。

所述重排序的流程如下：

(1)指定候选语句的数量K，将输入的多轮对话上文序列复制为K份；

(2)将K份对话上文序列并行输入EmoGPT模型，EmoGPT模型使用核采样的解码方法，解码出K个候选语句；

(3)根据指定的情感类别，使用训练好的情感分类器分别对K个候选语句计算损失值并排序；

(4)损失值最小的候选语句即为与指定情感类别最接近的语句，将其作为最终的回复。

与现有技术相比，本发明的有益效果是：

1)多轮对话场景下情感可控回复生成低信息，低质量的安全回复问题缓解：

EmoGPT底层利用大规模开放域语言预训练模型GPT-2。GPT-2大规模预训练模型在无监督多任务情况下拥有很好的表现，具备强大的语言建模能力，它经过微调和重排序能够根据指定的情感类别和多轮对话上文，进行较为可控的情感回复生成。对话上下文和情感类别标签进入GPT-2，然后GPT-2每一个模块逐词生成回复。通过微调算法的训练可以极大程度上缓解传统Seq2Seq带来的低信息，低质量的安全回复问题。

2)多轮对话场景下情感可控回复生成指定情感类别概率提高：

EmoGPT使用情感标签引导回复生成的方式来控制回复的情感，显著提升模型生成指定类情感的概率。

3)多轮对话场景下情感可控回复生成指定情感类别一致性得到可靠保证：

情感重排序策略，通过对EmoGPT同时生成的多句回复进行情感打分，选择与指定的情感类别最接近的回复语句作为最终的生成回复，可有效地保证生成回复的情感一致性。比起传统模型，EmoGPT能够显式地抽取对话语句的情感信息，有效控制生成回复的情感，避免生成回复的情感存在较大随机性；能够显著提高语言质量和情感一致性，且生成符合指定情感类别的高质量回复。

附图说明

图1为微调算法流程图。

图2为ER算法流程图。

图3为EmoGPT模型框架示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明为一种情感可控回复生成方法，主要是设计微调算法对预训练模型进行微调以提高模型输出同类别情感的概率，缓解回复内容质量低，安全回复问题，并设计情感排序算法对模型输出的语句构建。本发明具体采用了基于大规模预训练语言模型即“预训练+微调”的方式，在“预训练+微调”方式上改进了“微调”策略，并新增了“重排序”策略。改进的“微调”策略对预训练模型调整使语言模型学习语义和情感的依赖关系；“重排序”策略是指情感重排序策略(Emotion Reranking，ER)，本发明基于该策略选择与指定的情感类别最接近的回复语句作为最终的生成回复，有效地保证生成回复的情感一致性。

本发明主要包括两大步骤：

步骤1，大规模预训练语言模型是指GPT-2，将GPT-2预训练模型用在情感可控回复生成中，可缓解传统Seq2Seq出现的回复内容信息量少，低质量的安全回复问题，在语言质量和内容相关性和多样性等方面获得显著提升。本发明利用微调算法对GPT-2进行训练，即，使用带有情感类别标签的开放领域多轮对话语料训练GPT-2，通过将对话语句与其对应情感类别标签混合训练的方式，使语言模型学习语义和情感的依赖关系，得到适用于开放领域多轮对话的EmoGPT模型，EmoGPT通过学习情感类别标签和文本的共现关系，能够在生成阶段以情感类别标签引导的方式，实现对生成回复情感的控制。

本发明使用的大规模开放域语言预训练模型GPT-2是使用无情感标签的开放领域多轮对话语料训练得到的适用于开放领域多轮对话的语言模型，由多个Transformer模块堆栈构成，每个模块包含一个掩码注意力模块和前馈网络模块，GPT-2模型是在给已知序列进行条件概率建模，公式如下：

其中，{s₁,s₂,...,s_n-1}表示输入序列，p(s_n|s₁,s₂,...,s_n-1)表示在输入序列的条件下下一个词s_n的概率。

参考图1，本发明微调算法的具体流程为：

以对话上文Context＝{U₁，R₁，U₂,R₂，…,U_i，R_i，…，U_T}和指定的情感类别标签

的拼接序列

为EmoGPT模型的初始输入，其中U_i表示第i轮对话中用户话语的词序列，

为第i轮对话中用户话语的第j个词，

为U_i的序列长度，R_i表示第i轮对话中回复语句的词序列，

为第i轮对话中回复语句的第j个词，

为R_i的序列长度，U_T表示第T轮用户话语，U_i和R_i均以词序列的形式输入，每个词序列后加入一个[SEP]符号作为语句结束标签。EmoGPT模型逐词生成并输出符合指定情感的回复，直到生成语句结束符号[SEP]或达到最大长度时停止。

随后，将指定的情感类别标签

拼接在初始输入序列，得到长序列文本

即包含情感标签的多轮对话序列，将EC和真实的回复语句

输入EmoGPT模型，指定候选语句数量K，将对话上下文复制K份并行输入EmoGPT模型中，EmoGPT模型每轮次生成K个候选词，将生成的候选词对应地拼接到上轮次的输入对话序列后面，再次输入EmoGPT模型中生成下一轮次的K个候选词，以此循环迭代，直到生成语句结束符号[SEP]或达到最大长度时停止，根据

将生成的K个回复序列进行情感重排序，得到最终的生成回复

其中，

表示第i轮对话中用户话语的情感标签，

表示第i轮对话中回复语句的情感标签，情感类别标签、其他特殊标签与普通的词可共用一个词表。

可通过最大化条件概率使EmoGPT模型不断地拟合真实数据中有显式情感的语言分布，最大化条件概率公式如下：

EmoGPT模型的循环迭代过程如下：

(1)，加载GPT-2语言预训练模型，模型的权重和偏置参数为θ；

(2)，前向传播得到生成的回复语句；

(3)，使用交叉熵损失函数计算损失；

(4)，反向传播更新θ；

(5)，保存EmoGPT模型参数。

图2所示为EmoGPT模型框架。对话上文和情感类别标签输入GPT-2第一个模块逐词生成回复，然后进入下一个模块，以此类推，最后一个模块输出的是K个带情感标签的回复，此时的K个回复与初始情感类别相似且回复内容质量均较高。

步骤2，利用EmoGPT模型，根据指定的情感类别标签

将生成的K个回复进行情感重排序，得到最终的生成回复

R_T与原始情感类别最相近。其中，

T表示对话上下文中对话轮次，

为了解决回复生成的情感和指定情感类别不一致问题，本发明通过对EmoGPT模型同时生成的K句回复进行情感打分并重排序，选择与指定的情感类别最接近的回复语句作为最终的生成回复，从而保证生成回复的情感一致性。

参考图3，重排序的流程如下：

1)加载情感分类器和EmoGPT模型。

2)指定候选语句的数量K，将输入的多轮对话上文序列复制为K份，记为ECs。

3)将K份对话上文序列并行输入EmoGPT模型，EmoGPT模型使用核采样的解码方法，解码出K个候选语句，解码公式如下：

其中，V是构造的最小候选集，p定义为0.95，该集合构造好之后重新归一化集合内词的概率，并把集合外的词概率设为0。

核采样的解码方法有别于贪婪搜索，该方法使得低概率的词也有被采样到的可能性，从而确保模型根据相同输入能够解码出不同的结果，大大提升生成回复的多样性，使得EmoGPT生成多个不同情感回复的可能性大幅提升，这是ER策略得以采用的前提。

4)使用训练好的情感分类器对ECs进行前向传播得到K个回复语句的情感类别记为

遍历情感类别列表

通过交叉熵函数计算每一个回复语句情感类别

的损失值；计算公式如下

其中，

为真实情感类别样本标签，

表示预测样本标签；该公式表征真实样本标签和预测样本概率之间的差值。

5)根据指定的情感类别，使用训练好的情感分类器分别对K个候选语句计算损失值并排序，损失值最小的候选语句即为与指定情感类别最接近的语句，将其作为最终的回复。

本发明的整体流程如下：

(1)搭建EmoGPT模型的GPT堆栈

(2)设计EmoGPT模型训练微调算法

(3)设计情感重排序算法

(4)对话上下文和指定情感类别输入GPT堆栈

(5)训练EmoGPT

(6)利用微调算法不断更新GPT堆栈参数，直至参数最优

(7)ER算法对EmoGPT输出的多个不同语句进行打分

对所得EmoGPT模型的PPL、Distinct、EC值进行评价

表1是本发明EmoGPT模型的可控情感回复生成实例，即，给定对话历史，通过指定不同回复情感类别，EmoGPT是否使用重排序算法的对应生成的回复，其中U代表用户话语，R代表回复语句。

表1

可以看出，使用本发明方法的情况下，回复明显更加贴合实际场景。

Claims

1.一种利用微调和重排序策略的情感可控回复生成方法，其特征在于，包括：

的拼接序列

为第i轮对话中用户话语的第j个词，

为U_i的序列长度，R_i表示第i轮对话中回复语句的词序列，

为第i轮对话中回复语句的第j个词，

为R_i的序列长度，U_T表示第T轮用户话语，所述U_i和R_i均以词序列的形式输入，每个词序列后加入一个[SEP]符号作为语句结束标签；

将所述指定的情感类别标签

拼接在初始输入序列后，得到长序列文本

即包含情感标签的多轮对话序列，将EC和真实的回复语句

将生成的K个回复序列进行情感重排序，得到最终的生成回复

其中，

表示第i轮对话中用户话语的情感标签，

表示第i轮对话中回复语句的情感标签；

步骤2，利用EmoGPT模型，根据指定的情感类别标签

将生成的K个回复进行情感重排序，得到最终的生成回复

其中，

T表示对话上下文中对话轮次，

为第T轮对话中回复语句的第j个词，t为R_T的序列长度，即第T轮对话中回复语句的词的数量；

通过对EmoGPT模型同时生成的K句回复进行情感打分并重排序，选择与指定的情感类别最接近的回复语句作为最终的生成回复，从而保证生成回复的情感一致性；

所述重排序的流程如下：

2.根据权利要求1所述利用微调和重排序策略的情感可控回复生成方法，其特征在于，所述大规模开放域语言预训练模型GPT-2是使用无情感标签的开放领域多轮对话语料训练得到的适用于开放领域多轮对话的语言模型。

3.根据权利要求1所述利用微调和重排序策略的情感可控回复生成方法，其特征在于，通过最大化条件概率使EmoGPT模型不断地拟合真实数据中有显式情感的语言分布，最大化条件概率公式如下：

4.根据权利要求3所述利用微调和重排序策略的情感可控回复生成方法，其特征在于，所述EmoGPT模型的循环迭代过程如下：

(1)，加载GPT-2语言预训练模型，模型的权重和偏置参数为θ；

(2)，前向传播得到生成的回复语句；

(3)，使用交叉熵损失函数计算损失；

(4)，反向传播更新θ；

(5)，保存EmoGPT模型参数。