CN110738057B

CN110738057B - 一种基于语法约束和语言模型的文本风格迁移方法

Info

Publication number: CN110738057B
Application number: CN201910838854.XA
Authority: CN
Inventors: 印鉴; 周晨星
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2023-10-24
Anticipated expiration: 2039-09-05
Also published as: CN110738057A

Abstract

本发明提供了一种基于语法约束和语言模型的文本风格迁移方法，该方法首先利用Stanford依存句法工具包提取输入句子x的语法关系图G_x，然后通过一个自身graph‑transformer的结构对该语法关系图G_x加上原始输入句子的风格信息S_x与期望转化后句子的风格信息S_y得到语法关系图G′_x和G′_y，接着结合原始输入句子的语法关系图G_x通过一个交叉graph‑transformer的结构重建输入句子x′以及得到风格迁移后的句子y′。为了更好地学习融入风格信息的自身graph‑transformer结构以及学习重建风格迁移句子的交叉graph‑transformer结构，该方法还利用一个语言模型替代传统的CNN分类器去指导后者的学习。通过这样一种方式在相应的数据集上的实验表明，本发明对比之前的文本风格迁移方法，可以在改变句子风格的条件下更好地保持语义不变性。

Description

一种基于语法约束和语言模型的文本风格迁移方法

技术领域

本发明涉及计算机应用，自然语言处理领域，更具体地，涉及一种基于语法约束和语言模型的文本风格迁移方法。

背景技术

近些年来，互联网技术愈发成熟，越来越多的电子服务也由机器代替了人工。比如网上购物，是目前最流行的一种购物方式，但是在购物过程中不可避免的会出现一些问题，这时候人们需要向商家进行咨询，但是由于咨询人数众多，店家不可能亲自逐一解释，于是机器自动生成回复便成为了一项很热门且很方便的技术。但是机器本身生成的文本僵硬而且无趣，为了让机器自动生成的文本更具趣味和积极，需要控制生成文本的风格。由于风格本身是抽象的，要想直接控制生成的文本的风格无疑具备很大的难度，但是从一种风格转变成另一种风格难度就降低了。因此，研究文本风格迁移技术在学术界和工业界具有很高的应用价值。

由于高昂的标注成本，目前文本风格迁移任务缺乏平行的语料库。例如对于情感风格而言，拥有很多积极的情感语料和很多消极的情感语料，但是它们并不是一一对应的关系。也就是说，对于一句话缺少同时具备积极情感和消极情感的两种表达。因此，目前大部分的文本风格迁移方法采用的都是无监督学习的思路，他们的整体框架遵从编码器-解码器的设计，首先编码器将句子的隐层语义表达进行抽取，然后在此空间下对文本信息与风格信息进行剥离，接着加上想要迁移的风格信息于文本信息中再经过一个解码器得到风格迁移后的句子。整个过程的关键和难点就在于如何剥离文本信息与风格信息，最早有人用变分自编码来剥离这两部分，但是想法太过简单导致生成的迁移风格的句子效果不理想。为了使模型生成的风格迁移的句子更加贴近真实的句子，有些研究采用对抗的思想让模型生成的风格迁移的句子能够更好地拟合真实的同种风格的句子。还有一些研究采用反向翻译的思想，它们假设当把一个句子从某一种语言翻译成另一种语言的时候，该句子所包含的风格信息就被去除了，这时候加上风格信息再翻译回原始的语言即可得到风格迁移后的句子。

目前这些研究都是停留在将句子映射到一个隐藏的语义空间中去，这对于自然语言来说是远远不够的，并且通过这种方式生成的风格迁移的句子不能很好地保持语义的不变性。考虑，需要将自然语言限制在更小的一个语义空间中。语法规则就是其中的一种限制，对于一句话而言，不同词之间除了具有位置关系更重要的是具有逻辑关系，而这些逻辑关系就构成了这句话的一个图结构表示，因此，相比于传统的做法直接改变句子的隐藏语义来达到风格迁移的目的，通过在句子的图结构表示中去改变图节点的信息来达到风格迁移的目的，这样做既可以对句子的风格进行改变，又可以对句子的语义保持不变。

发明内容

本发明提供了一种基于语法约束和语言模型的文本风格迁移方法，该方法可实现增加了句子的语法约束和隐藏的语义空间的限制，使得模型在对句子进行风格转化的时候更好地保持了语义的不变性。

为了达到上述技术效果，本发明的技术方案如下：

一种基于语法约束和语言模型的文本风格迁移方法，包括如下步骤：

S1：建立抽取出句子语法信息获得语法关系图的网络结构；

S2：将S1中得到的语法关系图分别加上原始风格信息和迁移风格信息通过自身graph-transformer网络结构得到蕴含原始风格信息和迁移风格信息的语法关系图；

S3：将S2中得到的原始风格信息语法关系图与迁移风格信息语法关系图结合S1中的语法关系图通过交叉graph-transformer网络结构得到重构的具有原始风格信息的句子和重建的具有迁移风格信息的句子；

S4：将S2中得到的原始风格信息语法关系图与迁移风格信息语法关系图经过一个分类器Dgraph区分输入的语法关系图属于原始风格还是迁移风格；

S5：将S3中得到的具有原始风格信息的句子和具有迁移风格信息的句子经过一个语言模型Dlm去判别当前输入的句子是否符合其应该具有的风格；

S6：通过重构输入句子的误差，Dgraph的误差以及Dlm的误差去训练S2中的自身graph-transformer结构和S3中的交叉graph-transformer结构，然后进行测试；

进一步地，所述的步骤S1的具体过程是：

S11：利用Stanford工具包可以将输入的句子进行依存句法分析，依存句法分析可以得到不同词之间的逻辑关系，为了方便起见，忽略具体的逻辑关系，仅用0/1表示两个词之间是否存在逻辑上的关系。

S12：为了方便输入到网络结构中，将得到的离散关系图构建成一个连续的二维关系矩阵，该矩阵就代表了输入句子的图结构。第i行第j列的值表示第i个词和第j个词之间是否具有逻辑关系。若句子长度为n，则该关系矩阵的维度为n×n；

S13：用glove将每个单词用一个低维，稠密的实数向量进行表示，该向量的维度为300维，经过glove后可以获取到每个单词的初步的语义信息，然后将原始风格标签以及待转化风格标签通过一个感知机也分别映射到一个低维，稠密的实数向量中去，该向量的维度与每个单词的维度一致，也为300维。然后将其拼接到词向量的最开始的位置

进一步地，所述的步骤S2的具体过程是：

S21：将S13中得到的拼接后的两个向量分别与S12中得到的关系矩阵一同送入到自身graph-transformer中去。传统的transformer结构使用自注意力机制对当前每个词与其他所有词进行编码学习表示，但是，在自身graph-transformer结构中它根据关系矩阵只对与当前词具有逻辑关系的词进行自注意力机制的编码学习表示。假设所有词的集合为关系矩阵为E_x＝{e_ij|i，j∈[1，n]}，其中e_ij∈{0，1}，那么对于每个词k的编码表示，在自身graph-transformer结构中只与/>的那些词去进行自注意力机制的计算。其中，规定拼接的风格标签的向量也视为一个词并且与所有词都具有逻辑关系，因为这样可以更好地去学习每个词与风格标签之间的关系。至于剩余的网络结构部分与传统的transformer结构是一样的，最后获得了一个具有原始风格信息的语法关系图以及具有迁移后风格信息的语法关系图。

进一步地，所述的步骤S3的具体过程是：

S31：在S21中通过自身graph-transformer结构得到的语法关系图里重点考虑了每个词与风格标签的关系，但是为了更好地保持语义的不变性还需要考虑该语法关系图与原始句子的语法关系图的关系，因此提出了另外一种叫做交叉graph-transformer的结构去解决这个问题。假设经过S21得到的迁移风格信息的语法关系图为G′_y，对于G′_y中的每个词k′的编码表示，只利用原始输入句子的语法关系图而不再使用G′_y中的词去进行自注意力机制的计算，类似S21，假设在G_x中和G′_y中k′词对应的词为k，只与的那些词去和k′进行自注意力机制的计算。将S21中得到的两种语法关系图都与原始句子的语法关系图一起输入到交叉graph-transformer的结构中去，最后可以获得既包含原始句义又包含原始风格信息的语法关系图G′_x，又可以获得既包含原始句义又包含迁移风格信息的语法关系图G′_y；

S32：为了生成的风格迁移的句子看上去更加地自然而不显呆板，将S31中的语法关系图经过一个encoder-decoder模块，具体地，将G′_x输入encoder-decoder模块中得到重构句子x′，将G′_y输入encoder-decoder模块中得到风格迁移转化后的句子y′。

进一步地，所述的步骤S4的具体过程是：

S41：为了在S21中的语法关系图中更好地融入风格信息，设计了一个分类器Dgraph，当融入原始风格(迁移风格)的语法关系图经过Dgraph能够判别出此语法关系图属于原始风格(迁移风格)，说明该语法关系图已经很好地融合了需要融合的风格信息。

进一步地，所述的步骤S5的具体过程是：

S51：为了使S32中得到的句子更贴近其所应该属于的风格，也为了使模型能够更容易的判别哪些词导致模型生成的句子不贴进其所属的风格，提出使用一个语言模型Dlm作为判别器去判别当前输入的句子是否符合其应该具有的风格。但是在使用语言模型之前，需要先让该语言模型在不同风格的数据集上进行预训练，这样当该语言模型具备了一定的知识之后就可以当做判别器去判别当前输入的句子是否符合其应该具备的风格。

进一步地，所述的步骤S6的具体过程是：

S61：整个训练过程是一个端到端的训练过程，通过计算输入句子和S32中的重构句子的重构误差，可以让模型更好地学习到迁移风格前后的语义不变性，通过计算S41中的Dgraph误差可以让模型更好地学习到不同文本风格的特点，通过计算S51中的Dlm误差可以让模型生成的迁移风格的句子更加贴近其应该属于的风格并且还可以让生成的语句更加自然和流畅；

S62：训练的时候采用S61中三部分带权重的误差的和作为损失函数，S32中的encoder-decoder模块采用单层的GRU网络，S41中的分类器Dgraph采用TextCNN模型，整个模型使用ADAM作为优化器，学习率初始设定为5e-4，先进行10个epochs的预训练然后再进行2-3个epochs的正式训练；

S63：训练完后，将测试数据放入整个训练好的网络中进行测试，由于采用的是无监督学习思想，需要做的就是评估生成的风格迁移句子的好坏。从两方面对生成的句子进行评估，一方面是语义保持程度，一方面是风格迁移的转化强度。对于语义保持程度，希望将迁移句子中与风格相关的词去除后剩下的词与原句子保持不变，通过采用Word Mover’sdistance与BERTScore进行衡量；对于风格迁移的转化程度，希望风格迁移的句子与原句子的风格分布相距尽可能的大，通过采用Earth Mover’s distance与accuracy进行衡量。

与现有技术相比，本发明技术方案的有益效果是：

本发明不同于传统的文本风格迁移方法直接在句子的隐藏的语义空间中进行转化，而是先将句子映射到一个语法图结构中，然后通过两个网络结构自身graph-transformer以及交叉graph-transformer先对语法图的节点进行转化再经过一个encoder-decoder结构生成风格转化后的句子，这样做的优势是增加了句子的语法约束和隐藏的语义空间的限制，使得模型在对句子进行风格转化的时候更好地保持了语义的不变性。同时，本发明提出了使用语言模型来替代普通的CNN分类器能够更好地指导模型的学习。

附图说明

图1为本发明的语法约束和语言模型的网络流程示意图；

图2为本发明完整的风格迁移模型示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于语法约束和语言模型的文本风格迁移方法，包括如下步骤：

S1：建立抽取出句子语法信息获得语法关系图的网络结构；

步骤S1的具体过程是：

步骤S2的具体过程是：

步骤S3的具体过程是：

步骤S4的具体过程是：

步骤S5的具体过程是：

步骤S6的具体过程是：

实施例2

本发明所使用的数据集基本情况如下表所示：

整个风格迁移网络的搭建如图2所示。

以这句话为例子：I really like beef.将这个原始句子输入到模型中去。首先，经过Stanford工具包对这句话进行依存语法解析，解析之后可以得到哪些词之间具有怎样的关系，由此可以构建一个语法关系图。而得到的语法关系图是一个离散的表示，为了将其方便输入到后面的网络中去，需要将其连续化。因此，连续化之后可以得到一个n×n的矩阵，其中第i行第j列的值(0/1)即为第i个词和第j个词之间是否存在语法关系。为了让句子更好地融入风格信息，在当前语法关系图中加上一个节点，用来代表该句子的风格信息，并且该节点与其它所有的节点都相邻。因此得到的矩阵维度扩充为(n+1)×(n+1)，并且第一行与第一列的值均为1.然后使用glove作为句子的初始化词嵌入向量，每个词的维度为300维，因此得到一个300×n的一个矩阵。同样地，用一个多层感知机把风格标签信息映射到和词向量维度一样大的空间中去然后拼接到句子的最开头处，最后得到了一个300×(n+1)的矩阵。

希望：当加上当前句子风格信息的时候能够重建出该句子，而当加上另一种风格信息的时候能够在保证句义不变的情况下得到迁移风格的句子(这也是的最终任务)。将输入的句子分别加上这两种风格的信息，得到两个300×(n+1)的矩阵，但是它们的语法图结构是共享的，因此语法图矩阵也是共享的。将这两个300×(n+1)的矩阵结合(n+1)×(n+1)语法关系矩阵一起输入到自身graph-transformer中去。自身graph-transformer与普通的transformer区别就在于每个词不会与其他所有词去计算自注意力机制，它会结合语法关系矩阵(语法关系图)只计算和与当前词相邻的那些词计算自注意力机制。经过这样一个transformer的结构的输出包含了每个词关于风格信息的隐藏语义表示。然后让自身graph-transformer能够正确的融入风格信息，将经过自身graph-transformer的输出送入到一个CNN的分类器当中去预测当前输出属于哪一种风格，若CNN分类器预测出来的风格恰好是在经过自身graph-transformer之前所拼接的风格，说明自身graph-transformer能够使语法图很好地融合风格信息，从而使当前语法图具备融合的风格。

如果仅融合风格信息于语法图中确实可以得到具有相应风格信息的新语法图，但是，为了保证新语法图前后的语义不变性，需要结合原始句子的语法图去更新新语法图的节点，使其在融合风格信息的同时不会丢失原句子的语义信息。因此将新语法图(包含每个词的向量，即一个300×n的矩阵)，原始句子的语法图(包含每个词的向量，即也为一个300×n的矩阵)，原始句子的语法关系矩阵(n×n的矩阵)输入到交叉graph-transformer的结构中去。交叉graph-transformer和自身graph-transformer的共同点在于，在计算每个词与其他词的自注意力机制时，只计算与当前词直接相连的那些词的自注意力机制。但是区别在于交叉graph-transformer所利用的节点信息来自原始句子的语法图而并不是当前的新语法图中的节点信息，通过利用原始句子的语法图信息来更新当前新语法图的节点信息从而保证了新语法图的语义不变性。最后在新语法图后面再接上一个encoder-decoder模块保证了生成更加自然与通顺的文本。

当在前一步拼接融合原始风格信息的时候，希望经过交叉graph-transformer生成的句子能够与原始输入句子尽可能的像，当在前一步拼接融合迁移风格信息的时候，希望经过交叉graph-transformer生成的句子能够在风格上符合所迁移的风格，但是在语义内容上与原始输入句子也尽可能的像(这一步也是的任务所在)。为了达到这一点，首先计算一下重建原始句子所产生的误差，当误差越来越小时说明模型能够更好地保持语义的不变性。为了使生成的句子贴近其所具有的风格，训练一个语言模型来判断生成的句子属于哪一种风格，若判断出来的风格不属于生成句子本应具备的风格，则语言模型的所生成的困惑度会很大，从而再反馈到之前的模型中让模型再进一步进行学习。

整个模型需要优化的部分就是CNN分类器，重建误差以及语言模型。模型首先进行10个epochs的预训练，此时只训练重建误差，不训练CNN分类器以及语言模型。随后从第11个epochs开始再训练2-3个epochs，此时三个部分均要进行优化，用ADAM作为优化器，学习率为5e-4，batch_size为64.训练完后将测试数据放入训练好的模型得到其对应的转化风格后的文本然后进行测试。

为了表现本实验的良好效果，本实验和当前已有的效果很好的文本迁移模型Adversarially Regularized autoencoders(ARAE)模型进行了比较验证，评估指标主要包含两类，一类是语义保持程度，一类是风格迁移的准确度。语义保持程度主要从两个指标进行比较，一个是masked word Mover’s distance(WMD)，一个是masked BERTSCORE。两者在进行计算之前要先将测试数据与风格迁移后的数据中与风格相关的词进行筛除，然后再分别计算WMD和BERTSCORE。WMD是衡量两个句子意思是否相同的远近程度，若距离越小则说明两个句子意思越接近。而BERTSCORE是指借助bert预训练语言模型得到两个句子的隐藏表示，若分数越高则说明两个句子的语义相似度越高。风格迁移准确度也主要从两个指标进行比较，一个是准确度(ACCU)，一个是Earth Movers distance(EMD)。准确度是指将生成风格迁移后的句子扔进一个预训练好的该风格的分类器中进行预测，预测概率越高说明该句子属于该迁移风格的可能性越大。EMD是衡量两个风格分布的差异性，若原句子的风格与风格迁移后的句子的风格差异越大，说明该风格迁移的句子的风格迁移的准确度越高。实验结果如下：

从结果可以看出的发明相较于以前的方法有较大的的提升，本发明从语法约束和语言模型的角度出发，限制了文本的生成方向从而在对文本进行风格迁移的时候基本保持了语义的不变性。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于语法约束和语言模型的文本风格迁移方法，其特征在于，包括以下步骤：

S1：建立抽取出句子语法信息获得语法关系图的网络结构；

S6：通过重构输入句子的误差，Dgraph的误差以及Dlm的误差去训练S2中的自身graph-transformer结构和S3中的交叉graph-transformer结构，然后进行测试。

2.根据权利要求1所述的基于语法约束和语言模型的文本风格迁移方法，其特征在于，所述S1的具体过程是：

S11：利用Stanford工具包将输入的句子进行依存句法分析，依存句法分析可以得到不同词之间的逻辑关系，忽略具体的逻辑关系，仅用0/1表示两个词之间是否存在逻辑上的关系；

S12：为了方便输入到网络结构中，将得到的离散关系图构建成一个连续的二维关系矩阵，该矩阵就代表了输入句子的图结构，第i行第j列的值表示第i个词和第j个词之间是否具有逻辑关系，若句子长度为n，则该关系矩阵的维度为n×n；

S13：用glove将每个单词用一个低维，稠密的实数向量进行表示，该向量的维度为300维，经过glove后可以获取到每个单词的初步的语义信息，然后将原始风格标签以及待转化风格标签通过一个感知机也分别映射到一个低维，稠密的实数向量中去，该向量的维度与每个单词的维度一致，也为300维，然后将其拼接到词向量序列的最开始的位置。

3.根据权利要求2所述的基于语法约束和语言模型的文本风格迁移方法，其特征在于，所述步骤S2的具体过程是：

S21：将S13中得到的拼接后的两个向量分别与S12中得到的关系矩阵一同送入到自身graph-transformer中去，传统的transformer结构使用自注意力机制对当前每个词与其他所有词进行编码学习表示，但是，在自身graph-transformer结构中它根据关系矩阵只对与当前词具有逻辑关系的词进行自注意力机制的编码学习表示：令所有词的集合为关系矩阵为E_x＝{e_ij|i,j∈[1,n]}，其中e_ij∈{0,1}，那么对于每个词k的编码表示，在自身graph-transformer结构中只与/>的那些词去进行自注意力机制的计算，其中，规定拼接的风格标签的向量也视为一个词并且与所有词都具有逻辑关系，因为这样更好地去学习每个词与风格标签之间的关系，至于剩余的网络结构部分与传统的transformer结构是一样的，最后获得了一个具有原始风格信息的语法关系图以及具有迁移后风格信息的语法关系图。

4.根据权利要求3所述的基于语法约束和语言模型的文本风格迁移方法，其特征在于，所述步骤S3的具体过程是：

S31：在S21中通过自身graph-transformer结构得到的语法关系图里重点考虑了每个词与风格标签的关系，但是为了更好地保持语义的不变性还需要考虑该语法关系图与原始句子的语法关系图的关系，因此提出了另外一种叫做交叉graph-transformer的结构去解决这个问题：令经过S21得到的迁移风格信息的语法关系图为G_y ^′，对于G_y ^′中的每个词k^′的编码表示，只利用原始输入句子的语法关系图而不再使用G_y ^′中的词去进行自注意力机制的计算，假设在G_x中和G_y ^′中k^′词对应的词为k，只与的那些词去和k^′进行自注意力机制的计算，将S21中得到的两种语法关系图都与原始句子的语法关系图一起输入到交叉graph-transformer的结构中去，最后可以获得既包含原始句义又包含原始风格信息的语法关系图G_x ^′，又可以获得既包含原始句义又包含迁移风格信息的语法关系图G_y ^′；

S32：将S31中的语法关系图经过一个encoder-decoder模块，具体地，将G_x ^′输入encoder-decoder模块中得到重构句子x^′，将G_y ^′输入encoder-decoder模块中得到风格迁移转化后的句子y^′。

5.根据权利要求4所述的基于语法约束和语言模型的文本风格迁移方法，其特征在于，所述步骤S4的具体过程是：

为了在S21中的语法关系图中更好地融入风格信息，设计一个分类器Dgraph，当融入原始风格即迁移风格的语法关系图经过Dgraph能够判别出此语法关系图属于原始风格，说明该语法关系图已经很好地融合了需要融合的风格信息。

6.根据权利要求5所述的基于语法约束和语言模型的文本风格迁移方法，其特征在于，所述步骤S5的具体过程是：

为了使S32中得到的句子更贴近其所应该属于的风格，也为了使模型能够更容易的判别哪些词导致模型生成的句子不贴进其所属的风格，提出使用一个语言模型Dlm作为判别器去判别当前输入的句子是否符合其应该具有的风格，但是在使用语言模型之前，需要先让该语言模型在不同风格的数据集上进行预训练，经过训练的该语言模型就当做判别器去判别当前输入的句子是否符合其应该具备的风格。

7.根据权利要求6所述的基于语法约束和语言模型的文本风格迁移方法，其特征在于，所述步骤S6的具体过程是：

S61：整个训练过程是一个端到端的训练过程，通过计算输入句子和S32中的重构句子的重构误差，让模型更好地学习到迁移风格前后的语义不变性，通过计算S41中的Dgraph误差让模型更好地学习到不同文本风格的特点，通过计算S51中的Dlm误差让模型生成的迁移风格的句子更加贴近其应该属于的风格并且还让生成的语句更加自然和流畅；

S63：训练完后，将测试数据放入整个训练好的网络中进行测试，由于采用的是无监督学习思想，需要做的就是评估生成的风格迁移句子的好坏，从两方面对生成的句子进行评估，一方面是语义保持程度，一方面是风格迁移的转化强度；对于语义保持程度，将迁移句子中与风格相关的词去除后剩下的词与原句子保持不变，通过采用Word Mover’sdistance与BERTScore进行衡量；对于风格迁移的转化程度，希望风格迁移的句子与原句子的风格分布相距大，通过采用Earth Mover’s distance与accuracy进行衡量。