CN113420129B

CN113420129B - 一种基于大型通用预训练模型控制对话生成的方法

Info

Publication number: CN113420129B
Application number: CN202110501116.3A
Authority: CN
Inventors: 黄洪; 王赞; 贾勇哲; 马国宁
Original assignee: Tianjin Thai Technology Co ltd; Tianjin University
Current assignee: Tianjin Thai Technology Co ltd; Tianjin University
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2022-11-18
Anticipated expiration: 2041-05-08
Also published as: CN113420129A

Abstract

本发明公开了一种基于大型通用预训练模型控制评论生成的方法，第一步、通过一个前向过程获取性模型p(a|x)、p(x)；第二步、通过反向传播获取相对于H的梯度并更新H；第三步、利用更新之后的H来预测此时刻的词典分布；计算H_t的更新值

通过若干次重复计算梯度并衰减求和得到。本发明基于预训练的大型通用模型和利用有监督的鉴别器，实现可控主题和情感极性的文本评论生成；相对于传统的beam search解码评论文本生成，本发明使用的基于大型预训练语言模型的生成句子相对更“人性化”。

Description

一种基于大型通用预训练模型控制对话生成的方法

技术领域

本发明涉及社交网络开发技术领域，特别是涉及一种基于深度学习的大型预训练通用模型的对话生成方法。

背景技术

人机对话技术已经被工业界广泛应用到各种类型的产品服务中。现在耳熟能详的此类产品例如个人助理系统、智能家居服务系统以及电商智能客服系统等。这些人机对话产品给人们的日常生活带来了极大的便利性。

对话生成是一种具有对话属性的文本生成技术。在用预训练进行对话生成的过程中，现有的可控生成方式包括以下几类：

1.从一个预训练模型开始，应用调节机制，以便让语言模型始终都能生成某种特定风格的评论句子，粗糙的调节并不能生成理想效果句子文本；

2.从零开始训练一个大型条件生成模型，进行针对目标领域的评论生成，代价相对高昂；

3.不改变这个大的语言模型，而是通过关键N元组替换的方式，调节已经生成的评论句子风格，通过替换的方式生成的文本句意僵硬，可能出现语法错误。

总的来说这种直接针对文章进行评论生成，或花费较大成本训练一个适用于特定任务的模型来生成，且生成的评论与主题偏差较大，质量不是很高，也不能控制情感倾向；

发明内容

基于现有技术，本发明提出了一种基于大型通用预训练模型控制评论生成的方法，基于预训练的大型通用模型和利用有监督的情感分类判别器，实现可控主题和情感极性的文本评论生成。

本发明利用以下技术方案实现：

一种基于大型通用预训练模型控制评论生成的方法，该方法具体包括以下流程：

步骤1、采用通用预训练模型和属性判别模型实现前向计算，进行属性判别模型p(a|x)预测，该步骤包括：

首先，加载预训练模型和相对应的词典，在进行神经网络反向传播时冻结预训练模型的参数；向预训练模型输入初始引导词，得到无扰动的原始历史信息；将历史信息进行多轮迭代累加目标情感的梯度值；每轮迭代过程中，将当前词和历史信息输入预训练模型，输出当前词的词典分布和包含当前词的新历史信息；累加当前词在Transformer模型解码器最后一层的信息并对句子长度取平均后传入属性判别模型进行分类计算；

反向回传过程：根据属性判别模型回传的梯度，更新通用预训练模型内部历史状态，使得实际预测更接近想要的情感属性

步骤2、通过预训练模型生成原始文本和键值对的历史信息：

在原始文本中，当生成第t时刻词时，向预训练模型输入原始文本中初始的t-1时刻词，输出t-1时刻词在每层Transformer模型解码器的键值对的历史信息，将预训练模型记为H_t；

步骤3、通过情感分类判别器得到：计算H_t的更新值

利用更新之后的

来预测此时刻的词典分布，通过若干次重复计算梯度并衰减求和得到原始文本语义至主题类型或情感类型的目标判别属性的对应关系；具体包括以下处理：

利用情感分类判别器把文本主题语义引导到目标属性上，即：当要生成第t+1时刻词时，向预训练模型输入第t时刻词和t-1时刻Transformer模型解码器所有层的历史信息；当生成第t+1时刻词时，修改t-1时刻词的键值对历史信息，具体操作如下：

将从预训练模型中输出的t-1个词键值对历史信息记为H_t-1，H_t-1表示t时刻传入的历史信息，再输入给预训练模型第t时刻词和t-1时刻的历史信息，生成第t+1时刻词的初始词典分布和第t时刻词的键值对历史信息；

将第t时刻词的键值对历史信息记为H_t，传给情感分类判别器，通过多轮迭代的前向计算和反向传播计算，引导历史信息朝目标属性移动；具体实现过程是：构造一个和历史信息同样大小维度由0组成的初始化矩阵，在此初始化矩阵上迭加鉴别器loss反向传播后的梯度值ΔH_t，进行正则化后，将步骤3的上述过程设为迭代过程，每轮迭代结束时，将第t时刻词的键值对历史信息记为H_t和ΔH_t相加得到新的第t时刻词的键值对历史信息

公式如下：

其中，p表示条件概率，a表示目标属性，α表示梯度移动的步幅；

步骤4、优化调节：利用KL项缩小输出的分布和之前的分布的KL值；最终的采样分布结果是未改变的分布和改变后的分布的加权之和；根据属性判别模型p(a|x)采样出来的候选句子集合，判断与属性一致的程度进行排序。

本发明方法优点：

1、采用了基于梯度更新的主题回传，只需要训练时属性模型带动通用预训练模型进行生成，拿来即用，对预训练好的模型，无需进行微调或者重新训练模型，如果要生成目标领域文本只需要提供目标领域的常用词或提供一个训练好的小情感分类模型；

2、只需要训练一个敏感词模型，生成的评论相对具有内容正确可靠性，使得敏感词处理更方便；

3、相对于传统的beam search解码评论文本生成，使用的基于大型预训练模型的生成句子相对更“人性化”。

附图说明

图1为本发明的一种基于大型通用预训练模型控制评论生成的方法整体流程图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

本发明具体的做法是根据梯度将Transformer模型解码器每一层的隐层状态向通用语言模型和目标属性的方向改变一步。对于目标属性，进行了两类属性的控制，即：1)对情感属性的控制，通过一个预训练的分类器判断生成的候选文本的误差；2)对主题属性的控制，通过指定一个中心词，找到词表的相关词集合，以multi-hot的方式将这些词列为词典中的真实标签来计算误差。

如图1所示，为本发明的一种基于大型通用预训练模型控制评论生成的方法整体流程图。本流程具体包括以下步骤：

步骤1、采用通用预训练模型和属性判别模型实现前向计算，进行属性模型p(a|x)预测，过程包括：

首先，加载预训练模型和相对应的词典，在神经网络反向传播时冻结预训练模型的参数；向预训练模型输入初始引导词，得到无扰动的原始历史信息；将历史信息进行多轮迭代累加目标情感的梯度值；每轮迭代过程中，将当前词和历史信息输入预训练模型，输出当前词的词典分布和包含当前词的新历史信息；累加当前词在Transformer模型解码器最后一层的信息并对句子长度取平均后传入属性判别模型进行分类计算；

反向回传过程：根据属性判别模型回传的梯度，更新通用预训练语言模型内部历史状态，使得实际预测更接近想要的情感属性；

步骤2、通过预训练模型生成原始文本和键值对的历史信息：

在原本文本中，当生成第t时刻词时，向预训练模型输入原始文本中初始的t-1时刻词，输出t-1时刻词在每层Transformer解码器的键值对历史信息，将预训练模型记为Ht(t表示时刻)；

步骤3、通过情感分类判别器(比如一个情感分类器包含好、中、差三个分类)得到：利用更新之后的预训练模型H_t来预测此时刻的词典分布，计算H_t的更新值

通过若干次重复计算梯度并衰减求和得到原始文本语义至主题类型或情感类型的目标属性的对应关系；

利用鉴别器把文本主题语义引导到目标属性上，即：当要生成第t+1时刻词时，向预训练模型输入第t时刻词和t-1时刻Transformer模型解码器所有层的历史信息；当生成第t+1时刻词时，修改t-1时刻词的键值对历史信息，具体操作如下：

将从预训练模型中输出的t-1个词键值对历史信息记为H_t-1(表示t时刻传入的历史信息)，再输入给预训练模型第t时刻词和t-1时刻的历史信息，生成第t+1时刻词的初始词典分布和第t时刻词的键值对历史信息；

将第t时刻词的键值对历史信息记为H_t，传给情感分类判别器，通过多轮迭代的前向计算和反向传播计算，引导历史信息朝目标属性移动；具体实现过程是：构造一个和历史信息同样大小维度由0组成的初始化矩阵，在此初始化矩阵上迭加情感分类判别器loss反向传播后的梯度值ΔH，进行正则化后；

将步骤3的上述过程设定为迭代过程，每轮迭代结束时，将H_t和ΔH相加得到新的第t时刻词的键值对历史信息H_t；

公式如下：

其中，p表示条件概率，a表示目标属性，α表示梯度移动的步幅。

步骤4、优化调节：利用KL项缩小输出的分布和之前的分布的KL散度值；最终的采样分布结果是未改变的分布和改变后的分布的加权之和；根据属性模型p(a|x)采样出来的候选句子集合，判断与属性一致的程度进行排序

采取两个保证生成句子的语言模型，尽量与原语言模型接近的方法，以便生成更多样性，并且符合语言模型的句子，确保生成评论文本的流畅性：为了生成文本的流畅度，增加一项KL项，缩小输出的分布和之前的分布的KL值；最终的采样分布结果是未改变的分布和改变后的分布的加权之和；根据属性模型p(a|x)采样出来的候选句子集合，判断与属性一致的程度进行排序。

Kullback–Leibler(KL)散度：在计算历史信息ΔH更新值时，向其中加入一个KL散度损失，最小化改变前语言模型和改变后的预测概率分布的KL散度；

Post-norm Geometric Mean Fusion(后范数几何平均融合)：训练改变的同时，加入一个类似输出后处理的过程，直接让实际预测从下式中采样，让生成分布和语言模型直接绑定起来：

其中，β表示正则化因子，P表示输出分布。

实施例一：生成目标情感评论文本

采用通用预训练模型和属性判别模型实现前向计算，进行属性模型p(a|x)预测，过程包括：首先，加载预训练模型和相对应的词典，在神经网络反向传播时冻结预训练模型的参数；向预训练模型输入初始引导词，得到无扰动的原始历史信息；将历史信息进行多轮迭代累加目标情感的梯度值；每轮迭代过程中，将当前词和历史信输入预训练模型，输出当前词的词典分布和包含当前词的新历史信息；累加当前词在Transformer模型解码器最后一层的信息并对句子长度取平均后传入属性判别模型进行分类计算；

反向回传过程：根据属性判别模型回传的梯度，更新通用预训练模型内部历史状态，使得实际预测更接近想要的情感属性；

属性模型p(a|x)用于根据所需属性的(仅向前传递计算)，提供两个功能：；步骤a)获得对数似然分数对样本进行排名的得分；步骤b)在历史信息中，更新梯度上升方向。用于生成r个样本，并进行排名以选择最佳样本。生成新的词是根据获得的新输出概率分布中采样概率最大的词。

本发明中，预训练模型采用自回归模型：一般的自回归语言模型是指利用上文内容预测下一个可能的词,训练出来一个从左至右的语言模型。这种模型的优点是跟下游自然语言任务有关，比如生成类任务，比如文本摘要，机器翻译等，在实际生成内容的时候，就是从左向右的，自回归语言模型天然匹配这个过程。经典的自回归预训练模型有ELMO、GPT系列等。

当需要针对目标主题领域生成大量的文本内容，比如生成目标主题领域评论等，只需要提供少量的关键词就能生成大量的通顺流利的评论；

当需求在不需要在硬件资源不足的设备场景下生成可控评论文本，对预训练的语言模型不需要做任何改动(不需要重新训练或者精细调节)，大大降低了利用预训练模型生成评论的硬件需求。

本发明主要研究的社交网络特定领域评论生成技术，在网络发展的大背景下，聊天机器人逐渐走向人们视野中心，网上购物时，机器人可以取代客服推荐符合客户需求的商品；快节奏高强度的生活状态下，机器人可能成为用户不可或缺的排解心情的对话工具，网络对话开始占据生活交流的一大部分，因此，无论从聊天机器人的应用背景还是发展前景来看，聊天机器人进行对话生成都有无限潜力。本发明提出一种新的可以控制主题和情感的对话生成方法，可以丰富聊天机器人的对话生成内容，有很大的应用价值。

Claims

1.一种基于大型通用预训练模型控制评论生成的方法，其特征在于，该方法具体包括以下流程：

反向回传过程：根据属性判别模型回传的梯度，更新通用预训练模型内部历史状态，使得实际预测更接近所要表达的情感属性；

步骤2、通过预训练模型生成原始文本和键值对的历史信息：

步骤3、通过情感分类判别器得到：计算H_t的更新值

利用更新之后的

将第t时刻词的键值对历史信息记为H_t，传给情感分类判别器，通过多轮迭代的前向计算和反向传播计算，引导历史信息朝目标属性移动；具体实现过程是：构造一个和历史信息同样大小维度由0组成的初始化矩阵，在此初始化矩阵上迭加情感分类判别器loss反向传播后的梯度值ΔH_t，进行正则化后，将步骤3的上述过程设为迭代过程，每轮迭代结束时，将第t时刻词的键值对历史信息记为H_t和ΔH_t相加得到新的第t时刻词的键值对历史信息

公式如下：

步骤4、优化调节：利用KL散度损失项缩小输出的分布和之前的分布的KL散度值；最终的采样分布结果是未改变的分布和改变后的分布的加权之和；根据属性模型p(a|x)采样出来的候选句子集合，判断与属性一致的程度进行排序。