CN114547261A

CN114547261A - 针对请求和情感标签生成的带有指定情感的机器回复方法

Info

Publication number: CN114547261A
Application number: CN202210034903.6A
Authority: CN
Inventors: 宋丹丹; 侯思琦
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-05-27

Abstract

本发明涉及针对请求和情感标签生成的带有指定情感的机器回复方法，属于自然语言处理技术领域。本发明利用深度学习框架，引入预训练情感打分机制，能够控制回复生成过程中的情感表达，考虑到了词汇以及词与词之间相互作用；引入细粒度情感词典，综合考虑了情感词汇在不同情感类别中出现的概率，同时在训练过程中微调，能够丰富输出回复的情感表达；利用条件变分自编码器对参考回复建模，使得解码器能够学习到输入和输出的对应关系，优化回复与输入请求之间的语义关联。本发明在多个情感对话生成数据集上均取得了良好的性能提升，同时本发明提出的预训练情感打分器具有很强的灵活性和适配性。

Description

针对请求和情感标签生成的带有指定情感的机器回复方法

技术领域

本发明涉及一种针对请求和情感标签生成的带有指定情感的机器回复方法，属于自然语言处理技术领域。

背景技术

随着人机对话系统的不断发展，在生活中越来越多地接触到这类能够与人类进行交谈的“机器人”，它们正在一点点融入人们的日常生活，在帮助完成很多事情中不断提升生活水平。

目前，现有的基于深度学习的人机对话系统，机器生成的回复往往都是“冷冰冰”、不带有情感倾向的回复。而情感被视为一种“人类智能”，情感表达和感知能够通过自然语言实现，体现了基于情感的对话生成的重要性。

基于情感的对话生成，成为一个新颖且有意义的研究。然而，现有研究主要采取在解码器输入端拼接情感嵌入或引入外部情感词典方式，忽略了情感词更细力度的分类。

发明内容

本发明的目的是针对现有技术存在的缺陷，创造性地提出一种针对请求和情感标签生成的带有指定情感的机器回复方法。

本发明的创新点在于：利用深度学习框架，使用不同的情感标签生成表达指定情感的对话回复，实现在表达上更加流利且在情感上更加准确的人机对话机制。

一种针对请求和情感标签生成的带有指定情感的机器回复方法，包括以下步骤：

步骤1：获取训练数据，并进行数据处理。

具体地，利用带情感标签的对话数据集，提取其中带有情感的句子，得到用于预训练模型的语料集。计算词汇的TF-IDF(term frequency–inverse document frequency，词频-逆文本频率)，用于获取主题词典，同时，获取外部情感词典。利用整体语料集，训练获取词的向量表示。

步骤2：构建预训练网络模型，用于情感打分。

具体地，预训练网络模型由LSTM(长短期记忆，Long short-term memory)和全连接层构成，其输出为情感分类情况。

其中，情感得分score由余弦相似度计算，如式1所示：

其中，p_classify表示情感分类结果，l_one-hot表示情感标签的独热向量；‖·‖表示向量·的2范数；

预训练损失函数如下式所示：

L′＝L′₁+L′₂ (2)

L′₁＝(1-score) (3)

L′₂＝-∑_jy_jlog(p_j) (4)

其中，L′表示预训练损失函数，L′₁表示情感得分损失，L′₂表示情感分类损失；p_j表示数据被分到第j类的概率；y_j表示实际分类结果，当数据属于j类时为1，其余情况为0。

优选地，预训练网络模型包括编码器、解码器、条件变分自编码器、输出映射模块和预训练情感打分器。其中，编码器和解码器由门控循环单元GRU构成，用于进行输入输出映射；条件变分自编码器用于将参考回复映射到隐变量空间；输出映射模块用于将解码器的输出映射到词典中的词汇上；预训练情感打分器用于打分控制解码器中情感因子的输入。

步骤3：构建用于正式训练的损失函数。

正式训练损失函数包含三部分，一是条件变分自编码器分布之间的KL散度

表示如下：

其中，KL表示KL散度计算，P_r()表示条件变分自编码器中的识别网络输出的分布，z表示隐变量，X表示输入请求，

表示参考回复，P_p()表示条件变分自编码器中的先验网络输出的分布。

二是对隐变量的情感分类损失

表示如下：

其中，

表示在分布

下的交叉熵；P(label|z)表示对隐变量z的分类结果为label的概率，label表示目标情感类别。

三是输出回复序列与参考回复序列之间的交叉熵损失

表示如下：

其中，Y表示目标输出，z表示隐变量，t表示时间步，y_t表示第t个时间步的输出，y表示时间步的输出。

则用于正式训练的损失函数

整体表示如下：

其中，α为超参数，用于控制KL损失所占的权重，在训练过程中由0增至1。

步骤4：利用步骤1获取的训练数据和步骤2构建的预训练网络模型，训练得到预训练情感打分网络参数Parameter_pre-train。

步骤5：利用步骤1得到的训练数据、步骤3的损失函数，以及步骤4得到的预训练情感打分网络参数，训练步骤2构建的预训练网络模型。

具体地，方法如下：

Step 1：用步骤1的词向量和步骤4得到的网络参数Parameter_pre-train，初始化预训练网络模型。

Step 2：每一个批次包含步骤1得到的训练数据中的输入请求、参考回复和参考回复的情感标签，句子序列被映射到向量空间，分别送入编码器和变分自编码器，得到中间表示h和隐变量z。

Step 3：用step 2得到的输入中间表示，以及情感嵌入和情感得分，整合后送入解码器中，表示如下：

其中，s_t表示第t个时间步的状态输出，s_t-1表示第t-1个时间步的状态输出；

表示注意力机制的权重；h_i表示编码器第i个时间步的输出；C_t-1表示第t-1个时间步的输入，

表示参考回复第t-1个时间步的词，emb(y)表示词y对应的词向量，Extra_info表示由隐变量z和情感嵌入拼接成的向量，score_t-1表示第t-1步情感打分器的输出得分。

Step 4：将step 3的输出进行输出映射，得到输出词。

Step 5：将输出的词汇送入预训练情感打分器中，得到当前情感得分，并重复step3-5，直到输出为句子结束标志eos。

Step 6：计算损失函数并利用反向传播计算梯度，利用动量优化算法MomentumOptimizer进行优化，更新模型参数值。

Step 7：重复step2-6，直至损失函数趋于稳定。

实际运行情感对话生成应用，在没有参考回复的条件下，利用条件变分自编码器中的判别网络，生成隐变量的分布。

有益效果

本发明方法，与现有技术相比，具有以下有益效果：

1.本发明引入了预训练情感打分机制，能够控制回复生成过程中的情感表达，考虑到了词汇以及词与词之间相互作用。

2.本发明引入了细粒度情感词典，综合考虑了情感词汇在不同情感类别中出现的概率，同时在训练过程中微调，能够丰富输出回复的情感表达。

3.本发明利用了条件变分自编码器对参考回复建模，使得解码器能够学习到输入和输出的对应关系，优化回复与输入请求之间的语义关联。

4.本发明在多个情感对话生成数据集上均取得了良好的性能提升，同时本发明提出的预训练情感打分器具有很强的灵活性和适配性。

附图说明

图1为本发明方法的工作流程图；

图2为本发明方法的训练数据预处理图；

图3为本发明方法的整体网络架构图；

图4为本发明方法的输出映射结构图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明

实施例

如图1所述，一种针对请求和情感标签生成的带有指定情感的机器回复方法，包括以下步骤：

步骤1：获取训练数据，并进行数据处理。

利用现有的带情感标签的对话数据集emotional conversation generation(ECG)，提取其中情感标签为快乐、悲伤、厌恶、愤怒和喜欢的句子作为预训练语料集，同时搜集全部语句作为正式训练语料集。利用正式训练语料集计算词汇的TF-IDF用于获取主题词典，同时获取外部的情感词典。利用整体语料集采用GloVE方法获取词的向量表示，词向量维度选为100维。如图2所示。

步骤2：构建预训练网络模型。

预训练网络模型将被用于情感打分，模型由LSTM和全连接层构成，输出为情感分类结果，情感得分由分类结果与情感标签的独热编码余弦相似度计算得到，公式如下：

损失函数如下所示：

L′＝L′₁+L′₂

L′₁＝(1-score)

具体地，网络模型包括五部分，如图3所示，包括编码器(本实施例中采用1个编码器)、解码器、条件变分自编码器、输出映射模块和预训练情感打分器。其中，编码器和解码器用于进行输入输出映射，映射到大小为40000的词汇表中，均由通用的门控循环单元(GRU)构成，门控循环单元的大小设置为256维，实现时采用双向循环神经网络。条件变分自编码器用于将参考回复映射到隐变量空间，隐变量的大小为100维。输出映射模块用于将解码器的输出映射到词典中的词汇上，预训练情感打分器用于打分控制解码器中情感因子的输入，其中情感因子包括100维的情感嵌入以及100维的隐变量。

步骤3：设计损失函数。

损失函数包含三部分，其一是条件变分自编码器模块判别网络和先验网络产生的分布之间的KL散度，表示如下：

其二是对隐变量的情感分类损失，表示如下：

其三是输出回复序列与参考回复序列之间的交叉熵损失，表示如下：

损失函数整体表示如下：

α随训练由0增至1，在训练经过800000条数据后将固定为1。

步骤4：利用步骤1获取的训练数据和步骤2得到的预训练网络模型，训练直至损失函数趋于稳定，从而得到预训练情感打分的网络参数Parameter_pre-train。

步骤5：如图3所示，利用步骤1得到的训练数据、步骤4的网络损失函数以及步骤4得到的预训练情感打分参数，训练步骤3的网络模型。

Step 1：用步骤1的100维词向量和步骤5得到的预训练参数Parameter_pre-train初始化模型。

Step 3：用Step 2得到的输入中间表示以及100维的情感嵌入和预训练情感打分模块依据前序时间步输出单词计算得到的情感得分，整合后送入解码器中，公式表示如下：

Step 4：将step 3的输出送入输出映射模块，得到词汇表中概率值最大的词作为当前时间步的输出词。如图4所示，利用GRU输出和隐变量计算得到三个词典的概率，再根据GRU输出、情感嵌入、隐变量以及情感词典的细粒度先验概率值得到情感词典中的每个词汇的出现概率；利用GRU输出分别经过一层全连接层得到主题词典中词汇的概率以及通用词典中词汇的概率。

Step 5：将输出的词汇送入预训练情感打分器中得到当前情感得分，并重复step3-5，直到输出为句子结束标志(eos)。

Step 6：计算损失函数并利用反向传播计算梯度，利用动量优化算法MomentumOptimizer进行优化，学习率为0.0001，更新模型主框架的参数值。

Step 7：重复step2-6，训练30轮，直至损失函数趋于稳定。

Claims

1.针对请求和情感标签生成的带有指定情感的机器回复方法，其特征在于，包括以下步骤：

步骤1：利用带情感标签的对话数据集，提取其中带有情感的句子，得到用于预训练模型的语料集，同时搜集全部语句作为正式训练语料集；计算词汇的词频-逆文本频率，用于获取主题词典，同时，获取外部情感词典；利用整体语料集，训练获取词的向量表示；

步骤2：构建预训练网络模型，用于情感打分；

预训练网络模型由长短期记忆LSTM和全连接层构成，其输出为情感分类情况，其中，情感得分score由余弦相似度计算，如式1所示：

预训练损失函数如下式所示：

L′＝L′₁+L′₂ (2)

L′₁＝(1-score) (3)

L′₂＝-∑_jy_jlog(p_j) (4)

其中，L′表示预训练损失函数，L′₁表示情感得分损失，L′₂表示情感分类损失；p_j表示数据被分到第j类的概率；y_j表示实际分类结果，当数据属于j类时为1，其余情况为0；

步骤3：构建用于正式训练的损失函数；

正式训练损失函数包含以下三个部分：

一是条件变分自编码器分布之间的KL散度

表示如下：

表示参考回复，P_p()表示条件变分自编码器中的先验网络输出的分布；

二是对隐变量的情感分类损失

表示如下：

其中，

表示在分布

下的交叉熵；P(label|z)表示对隐变量z的分类结果为label的概率，label表示目标情感类别；

三是输出回复序列与参考回复序列之间的交叉熵损失

表示如下：

其中，Y表示目标输出，z表示隐变量，t表示时间步，y_t表示第t个时间步的输出，y表示时间步的输出；

则用于正式训练的损失函数

表示如下：

其中，α为超参数，用于控制KL损失所占的权重，在训练过程中由0增至1；

步骤4：利用步骤1获取的训练数据和步骤2构建的预训练网络模型，训练得到预训练情感打分网络参数Parameter_pre-train；

步骤5：利用步骤1得到的训练数据、步骤3的损失函数，以及步骤4得到的预训练情感打分网络参数，训练步骤2构建的预训练网络模型；

2.如权利要求1所述的针对请求和情感标签生成的带有指定情感的机器回复方法，其特征在于，步骤5包括以下步骤：

Step1：用步骤1的词向量和步骤4得到的网络参数Parameter_pre-train，初始化预训练网络模型；

Step2：每一个批次包含步骤1得到的训练数据中的输入请求、参考回复和参考回复的情感标签，句子序列被映射到向量空间，分别送入编码器和变分自编码器，得到中间表示h和隐变量z；

Step3：用step2得到的输入中间表示，以及情感嵌入和情感得分，整合后送入解码器中，表示如下：

表示参考回复第t-1个时间步的词，emb(y)表示词y对应的词向量，Extra_info表示由隐变量z和情感嵌入拼接成的向量，score_t-1表示第t-1步情感打分器的输出得分；

Step4：将step3的输出进行输出映射，得到输出词；

Step5：将输出的词汇送入预训练情感打分器中，得到当前情感得分，并重复step3-5，直到输出为句子结束标志eos；

Step6：计算损失函数并利用反向传播计算梯度，利用动量优化算法MomentumOptimizer进行优化，更新模型参数值；

Step7：重复step2-6，直至损失函数趋于稳定。

3.如权利要求1所述的针对请求和情感标签生成的带有指定情感的机器回复方法，其特征在于，步骤1中，利用整体语料集采用GloVE方法获取词的向量表示，词向量维度选为100维。

4.如权利要求1所述的针对请求和情感标签生成的带有指定情感的机器回复方法，其特征在于，步骤1中，提取句子的情感标签包括快乐、悲伤、厌恶、愤怒和喜欢。

5.如权利要求1所述的针对请求和情感标签生成的带有指定情感的机器回复方法，其特征在于，步骤2的预训练网络模型，包括编码器(1)、第二编码器(2)、第三编码器(3)、解码器、条件变分自编码器、输出映射模块和预训练情感打分器；其中，三个编码器以及解码器，均由门控循环单元GRU构成，用于进行输入输出映射；条件变分自编码器用于将参考回复映射到隐变量空间，条件变分自编码器中包括有编码器(1)；输出映射模块用于将解码器的输出映射到词典中的词汇上；预训练情感打分器用于打分控制解码器中情感因子的输入，预训练情感打分器包括有编码器(3)。