CN113343648B

CN113343648B - 基于潜在空间编辑的文本风格转换方法

Info

Publication number: CN113343648B
Application number: CN202110555718.7A
Authority: CN
Inventors: 易盼; 姜峰; 王辉
Original assignee: Hubei University
Current assignee: Hubei University
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2023-05-26
Anticipated expiration: 2041-05-21
Also published as: CN113343648A

Abstract

本发明涉及一种基于潜在空间编辑的文本风格转换方法，包括以下步骤：首先通过基于Transformer的自编码模型将不同文本风格的句子映射到低维潜在空间，然后根据潜在空间点和风格标签训练线性支持向量机获得风格分界面及其法向量,最后通过潜在空间编辑获得转换风格的文本。具体来说就是将文本通过预训练的自编码结构的编码器投影到潜在空间，然后将投影点沿超平面的法向量向超平面的反面进行移动，以完成文本风格转换，通过控制移动的距离来控制文本转换的程度。本发明通过移动z往分界面的反面来改变文本的属性，这样做可以达到文本的准确性和流畅性的平衡。

Description

基于潜在空间编辑的文本风格转换方法

技术领域

本发明属于文本风格转换方法，具体涉及一种基于潜在空间编辑的文本风格转换方法。

背景技术

近年来，随着人工智能领域的飞速发展，衍生很多新兴的发展领域，给人们的生活带来了极大的便利。基于深度学习的推荐系统让人们享受到千人千面的信息推送服务。基于图像识别的手机解锁可以解放人们的双手同时提高信息安全。基于深度学习的翻译技术人们可以享受免费而又快速的翻译服务，人工智能在各领域的渗透解放了人们的双手也提高了生产力水平，推动着社会的不断向前发展。

自然语言处理则是近年来人工智能领域的一个重要的研究分支，人类区别于其他的生物的一个标志就是人类创造了五花八门的语言，因此如何让计算机理解人类语言，为人类服务也是一个重要的研究课题。这其中包括了用智能算法去理解，分析和生成文本。文本风格转换是自然语言生成领域方向的一个很引人注意的子方向。

文本风格转换是通过文字编辑转换文本某种特定属性(例如：情感，语态，语言习惯)的任务。输入一源文本(比如积极情感)，希望生成目标文本(比如消极情绪)的句子的同时又不改变和该属性无关的内容。这一任务在图像风格转换也有类似应用，有一系列的图像风格转换的模型被提出，比如Stylegan，Cyclegan，这些模型可以将写实风格的图像转换为动漫风格的图像，或者将油画风格改为素描风格等等。

风格转换近年来的蓬勃发展也归功于工业界的成功应用带来的相互促进发展。在自动化写作领域，对话机器人领域，文本风格转换技术都取得了不错的效果。

发明内容

本发明的目的就是要提供一种基于潜在空间编辑的文本风格转换方法。

基于潜在空间编辑的文本风格转换方法，包括以下步骤：

步骤1、获取一批带有正向或者负向情感标签y的不同风格的句子x作为样本集；

步骤2、从样本集中选取一部分没有使用过的样本数据，将句子x对应的编码输入Transformer编码器，得到样本对应的潜在表征空间映射z，将潜在空间表示z输入解码器得到重建后的句子x′；

步骤3、利用损失函数计算x′与x之间的损失值，计算损失值是否小于预设阈值，若是，则转到下一步，若否，则转到步骤2；

步骤4、输出训练好的Transformer编码器和解码器；

步骤5、从样本集中随机选取一部分样本，将样本和样本和样本对应的情感标签输入支持向量机，得到潜在表征空间的超平面，超平面用于将潜在表征空间内带有正向情感属性和负向情感属性的映射z分开，所述超平面的法向量为w＝classifier.coef_[0]，对法向量进行归一化得到归一化后的法向量n＝w/w的二范数；

步骤5、将样本集中的样本输入步骤4得到的训练好的Transformer编码器，得到样本对应的潜在表征空间映射z；

步骤6、计算潜在表征空间映射z到超片面的距离

d＝n^Tz；

步骤7、将步骤5得到的潜在表征空间映射z沿着法向量n朝超平面的对面侧进行移动，得到z_edit，z_edit＝z+αn-dn，其中α为超参数，可根据需要进行设置，且需满足以下条件：样本的情感标签为正向情感时，α<0，样本的情感标签为负向情感时，α>0；

步骤8、将z_edit输入步骤4得到的训练好的解码器，得到输入样本对应的转换后的文本。

进一步的，所述损失函数为带有标签平滑的交叉熵损失函数。

进一步的，所述Transformer编码器包括两层自注意力单元。

进一步的，所述超参数α的绝对值范围为12-16。

本发明的有益效果为：1.基于Transformer框架可以更好地提取文本的特征，大部分的文章都是基于RNN，LSTM等等的框架，但是基于Transformer架构在预训练模型上的优秀表现，本发明也采用Transformer的基本单元作为编码器解码器的主体。

2.本发明采用自动编码器(Autoencoder)的框架，一方面绕开了对抗学习的制约，可以直接通过自编码的框架进行训练，有利于建立属性分界面进行潜在表征的移动。

3.受到图片编辑算法的启发，本发明研究文本属性(比如情感)如何在潜在表征z空间中受到影响。首先将文本通过预训练好的自动编码器的编码器部分映射到潜在表征z中，然后用SVM找到属性的分界面，通过移动z往分界面的反面来改变文本的属性，这样做可以达到文本的准确性和流畅性的平衡，本发明构造的模型基于明确的潜在表征的移动方向，就是往预训练好的分界面的反面移动，这区别于其它人采用的基于分类器，通过移动到满足分类器训练误差的要求的这些方法。

附图说明

图1为本发明的编码器和解码器结构示意图；

图2为T-SNE下随着α增大潜在空间变化示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细说明：

转换方法对应的模型主要分为三个部分：编码器

将输入x(句子的数字表示)编码进入潜在语义空间z，解码器/>

将从潜在语义空间z解码回句子x′，分隔超平面以及法向量n∈R^d。如下：

本文提出的模型是先运用基于Transformer的自动编码器学习到一个很好的潜在语义空间向量z，用低维的向量对句子进行表征，当学习好每一个句子的低维表示的时候，我们试图找出对立属性的分隔面，假设存在一个超平面将对立属性的表示在低维空间中分开。比如yelp数据集中有正面评论的句子和负面评论的句子，在潜在语义空间找到超平面分隔开属性，然后在往分隔面的另外一边移动的过程中，在解码器端出现评论属性的改变，分隔面指引z的移动方向。潜在语义空间z的编码包含着句子的内容和内容纠缠在一起，通过z的移动可以在保留内容的同时又改变句子的风格属性。在图像风格转换领域，人们便利用这种思路进行图像的编辑，比如将男性变为女性，又不改变基本五官特征等其它的属性。

本模型中最重要的部分之一就是将句子投射到潜在语义空间，用低维向量z表示句子。为了更好的表示句子，基于Transformer优异的性能，Encoder和Decoder均采用基于Transformer的基本结构，它具有更快的速度，由于解决了前人模型比如LSTM等在堆叠多层后会带来训练难度、信息丢失等问题，所以Transformer的优良性质可以更好的表示句子这种具有复杂信息的非连续结构。

在文本生成中，Transformer有过很多成功的应用，比如Bert，GPT等等预训练模型都提高了机器对语言的理解能力。基于此本文也引进了Transformer的基本结构来构建自动编码器。如图1所示，整个编码解码模型可分为三个部分：编码器、解码器和构建损失函数。

如图1所示，编码器部分，输入文本首先通过编码层，这里采用了一个初始化的词典大小的自己设定维度的随机矩阵，当输入字符编号时会出现相应位置的设定维度大小的数字。然后经过Transformer的基本单元，首先进行位置编码，然后进入多头注意力，然后进行相加和层归一化。由于需要获得中间的潜在语义空间z，所以在经过了两层的注意力机制后，先经过GRU然后SUM才得到z。句子x首先通过编码器E_transformer获得中间输出U，然后再加上位置编码信息H。，

获得z之后进入解码器部分，解码器的部分负责从z中解码出原始文本。这里依旧采用两层的自注意力单元，然后经过softmax函数输出。

最后构建损失函数L_ae(Dθ_d(Eθ_e(x)),x)，构建自动编码器的关键点在于损失函数的构建，传统的one-hot编码的误差构建采用的是交叉熵的损失函数，在交叉熵函数下神经网络会促使自身往正确标签和错误标签差值最大化方向学习，容易导致过拟合。在交叉熵损失函数中：

其中z_i表示模型输出的对各类别的置信分数，通过公式进行归一化得到属于每个类别的概率。K表示类别数，本模型中表示词汇表的大小，公式表明交叉熵损失“非黑即白”，类别相同时无损失，类别不同时损失巨大，这种方法容易使得模型出现过拟合。

标签平滑(label smoothing)便可以缓解上述问题，标签平滑采用了一种更“软化”的one-hot编码，增加了一个超参数ε来正则化，公式如下：

其中u(k)服从均匀分布，根据有关论文的做法

从公式可看到，相比于交叉熵损失函数，标签平滑加入了一项正则项，当ε等于0时，损失函数为交叉熵损失函数。当ε>0时，相当于有ε大小的概率从u(k)中进行取样。因此，本模型构建的损失函数为：

其中ε表示模型的标签平滑参数，v表示整个词汇表大小，p_i表示真实标签分布，q_i表示函数预测的标签分布概率。损失函数的左边

表示交叉熵，/>

表示固定分布，这样可以防止标签正确时损失函数过大而标签不正确时损失函数为0。构建完损失函数便可以训练获得每个句子的z空间映射。

通过上面我们获得了每个句子的z空间表示，同时知道了句子的分类结果。比如yelp提供了句子的标签，正向情感或者负向情感，我们假设潜在表征空间中存在一个超平面使得两种属性可以分开。接下来就是用支持向量机(SVM)算法来确定分类超平面。

假设获得一个超平面的法向量n∈R^d，那么潜在表征空间上的点z到超平面的距离可以定义为：

d(n,z)＝n^Tz

当文本编码为潜在表征z后，令z沿着法向量n朝超平面的反面进行移动，输出文本就会发生改变。

z_edit＝z+αn-dn

当x是负面评论时，d(n,z)为负数，此时α>0，z朝超平面正向移动。相反，α<0时，z朝着超平面反方向移动。通过设置α的大小来控制文本转换的程度。

将不同风格的句子转换为潜在表征空间中的点，然后找到空间中的属性分隔超平面，通过潜在表征空间点沿着法向量方向移动的方式移动到目标属性面，最后通过解码器生成既保留了内容又转换了风格的句子。

实施例

模型采用Yelp数据集作为评估数据集，Yelp数据集源自于美国各行业的评论，涉及5,200,000用户评论，174000个企业以及11个城市。我们选取了餐饮行业的数据进行清洗。每一个评论都有1-5星的评分，针对本模型需要进行情感转换的需要，我们将大于三颗星考虑设为“正向”情感，少于三颗星的设为“负面”情感。考虑到还有一些评论并没有包含情感因素只是自然的表达，而我们默认整个文本的所有句子情感取向是一致的，所以这显然有些过于简化了。因此，过滤掉了多于十句话的评论，因为长文本更倾向于做理性分析，有正向情感有负面情感，很难保持整个短文的情感一致性。同时，我们进一步删去了多于15个字的句子，整个做法参考了Shen等人采用的进行情感转换数据集的做法，最终得到数据集：

表1数据集汇总

删掉数据集中出现频率小于5的词语，得到了词汇表的大小为9339。

实验结果评估指标

测试结果的评估我们参考了前人的做法，主要从三个方面来评判：

1.BLEU

BLEU(Bilingual Evaluation Understudy)，其意思是“双语评估替补”，最早在2012年由IBM公司提出来用来代替人工评估翻译结果的。尽管最早用于评估翻译结果，但是这一指标被用于各类文本的结果评估。

BLEU的得分值值域在{0,1}之间，计算候选句和参考句之间的匹配程度，分值0代表两个句子完全不匹配，分值为1代表两个句子完全匹配，这里的匹配主要是衡量转换后句子的准确性。

首先给出公式：

其中：

公式由两个部分组成，BP部分和后面的部分。后面的部分是一个改进版本的n-gram，其中W_n代表各个n-gram的权重，p_n代表n-gram的匹配程度。N代表计算到N-gram，比如N设为3，那么就分别计算1-gram，2-gram，3-gram的p_n值，然后取log后分别乘上W_n得到来得到后部分的值。其中p_n的计算方式有些特别，首先统计参考句和转换句中各词语出现的次数，对于每个词语在各参考文本中频率的最大值为Max，被转换论文各词语出现频率与对应Max值的较小的值称为Min。那么p_n的计算公式如下：

其中K表示句子中n-gram的总数，例如当设置N等于3时，我们分别计算p₁、p₂、p₃然后计算得到后半部分结果。

前半部分简称BP(Brevity Penalty)，就是过短惩罚的意思，对于长度低于参考句的句子需要加入惩罚系数，长度小的句子匹配度会更高，所以必须加以平衡才能更客观的衡量匹配的多少。可以总结出BLEU评价标准有四个优点：

(1)计算速度快，公式简单

(2)与具体语言无关，可适用于各语言

(3)与人类评价结果高度相关

(4)广泛使用，由最早的机器翻译领域拓展到各领域

当然，BLEU也有很多缺点：

(1)不考虑语法上的准确性，只考虑n-gram的匹配程度

(2)评测精度受到常用词的干扰

(3)没有考虑同义词或者相似表达的情况，可能导致合理的句子得分不高

(4)短句的评测精度不够高

总结来说BLEU并不是最好的指标，但是一个很常用的很简单很直观的指标。

2.ppl(困惑度)

困惑度用来评价句子的流畅程度。一段文字越像“人话”那么说明文字的流畅度越高。困惑度的前提是语言模型，如果把可能出现的词汇设为10000，语句长度设为10，那么就有10000¹⁰种可能的排列组合，但是这里面有很多不符合语法规则不经常用到或者不符合逻辑常识的，所以语言的组合是一个不等概率的排列，语言模型就试图用某种方式去描述这种分布，给那些符合常规的我们平时用到的符合规律符合语法的句子赋予较大的出现概率，相反则赋予较小的概率。所以，我们基于一个客观的数据集，通过SRILM训练语言模型，就告诉语言模型什么是“正确”的句子，然后当输入待测的句子就会输出一个概率，这个时候就可以去衡量困惑度了，公式如下：

从公式可以看出，句子出现的概率越大，困惑度越小。当然，往往我们把语言模型部分简化成二元模型或者三元模型：

以上两个指标一个体现语言的准确度，一个体现语句的流畅通顺度，通过这两个指标就可以刻画出任务完成的状况。

3.SVM在验证集上的分类准确率

我们用实验的方法去表明潜在表征空间中是否存在一个超平面可以分开某种特定属性，比如yelp数据集中有好评和差评，把好评和差评都计算出其潜在表征，然后就可以训练出SVM。如果在验证集上获得一个较高的准确率就说明确实存在一个超平面可以分开两种属性的句子。

实验结果分析

在yelp数据集上，训练集的好评和差评加起来一共447259条，在阿里云上训练了100轮后，将输入句子映射到256维的潜在表征空间。然后从447259个句子中随机挑选了30000个256维的潜在表征，训练出线性SVM。在验证数据上，载入了一千个句子，当我们通过训练好的SVM测试验证集的分类准确率时，预测准确率达到了89.7％。当取20000个句子作为训练集时，验证集的预测准确率达到了90％。所以，确实存在潜在表征中存在一个属性分界面使得好评和差评的句子分开。

接下来进行潜在表征空间点的运算。通过调用sklearn.svm._coef，获得分界面的法向量，然后进行潜在空间的移动获得输出语句的变化。表2展示了yelp数据集上的自动评测的结果，相比于其他类型的方法，本文在BLEU和PPL(越低越好)上达到了一个平衡的结果。

表2各方法准确率对比

表3展示了一个负向评论转换的结果，随着α的加大，转换的强度越来越大。

表3部分文本转换结果展示

原文本为差评文本，位于超平面的反面，从表中看出α从-20到20移动的过程。可以看到当α为-20到-4时，z从超平面负面走向更负面，输出文本进行了自动增强，由负面情感变成更“负面”的句子。当α为-20时，句子走向“扭曲”，α为-16到-12的过程中句子的流畅度会提高很多。-8到+8的过程中句子的改变程度较小，基本不会造成句子情感倾向的改变。从8开始句子的情感倾向发生了明显的改变。当α到达20时句子也发生了明显的正向“扭曲”，流畅度下降。

为了更清楚的阐述潜在表征操作结果的意义，我们采用T-SNE进行降维来查看随着转换强度增大潜在表征空间的变化。从图2可以看出(深色为负向文本的结果，浅色为正向文本结果)：左上角是训练集的一千个数据降维后的结果，是没有分界面的。接下来的，取负面评论(深色)和潜在空间运算后变成正向评论(浅色)进行降维，可以看到随着α的增大，它们之间的差异逐渐增大呈现分离的趋势。α为4时基本上是重叠的，这点从转换后句子的结果也可以看出来差别不大，直到α为16时出现了很明显的两堆，所以通过控制α的大小可以控制潜在空间点沿着法向量或者法向量反向移动的距离从而控制文本转换的程度。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

任何基于本发明的技术启示而进行的等效变换，也在本发明的保护范围之内。

Claims

1.基于潜在空间编辑的文本风格转换方法，其特征在于，包括以下步骤：

步骤4、输出训练好的Transformer编码器和解码器；

步骤6、计算潜在表征空间映射z到超平面的距离

d＝n^Tz；

2.根据权利要求1所述的基于潜在空间编辑的文本风格转换方法，其特征在于，所述损失函数为带有标签平滑的交叉熵损失函数。

3.根据权利要求1所述的基于潜在空间编辑的文本风格转换方法，其特征在于，所述Transformer编码器包括两层自注意力单元。

4.根据权利要求1所述的基于潜在空间编辑的文本风格转换方法，其特征在于，所述超参数α的绝对值范围为12-16。