CN111737983B

CN111737983B - 文本写作风格处理方法、装置、设备及存储介质

Info

Publication number: CN111737983B
Application number: CN202010577039.5A
Authority: CN
Inventors: 黄诗磊; 张聪; 毛晓曦; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2023-07-25
Anticipated expiration: 2040-06-22
Also published as: CN111737983A

Abstract

本申请提供一种文本写作风格处理方法、装置、设备及存储介质，涉及计算机技术领域。该包括：获取目标应用场景的第一写作风格的输入文本；采用预先训练的目标应用场景的写作风格迁移模型，对输入文本进行处理，得到与输入文本语义相同的第二写作风格的文本。其中，写作风格迁移模型为：采用目标应用场景的语料文本，以及预先构造的伪平行数据集进行训练得到的模型；伪平行数据集包括：多个数据对，每个数据对包括：一个第二写作风格的语料文本，以及第一写作风格的回译文本，回译文本为对第二写作风格的语料进行回译得到的文本。本方案可以有效解决文本写作风格转换领域自适应问题，提高了文本写作风格转换的准确性。

Description

文本写作风格处理方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种文本写作风格处理方法、装置、设备及存储介质。

背景技术

文本风格迁移指的是，在不改变原文语义的情况下，改变其风格。实现文本风格的自动化转换，可以有效提高文本创作效率。

现有技术中，通常采用无监督方法实现文本风格的转换，具体通过分离文本风格和内容，对文本的风格和内容分开建模，将目标风格与内容进行融合以达到控制目标文本风格转换的目的。

但是，现有的方法，并未考虑场景自适应问题，从而导致文本风格转换准确性较差。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种文本写作风格处理方法、装置、设备及存储介质，以便于解决现有技术中存在的文本风格转换准确性较差的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种文本写作风格处理方法，包括：

获取目标应用场景的第一写作风格的输入文本；

采用预先训练的所述目标应用场景的写作风格迁移模型，对所述输入文本进行处理，得到与所述输入文本语义相同的第二写作风格的文本；

其中，所述写作风格迁移模型为：采用所述目标应用场景的语料文本，以及预先构造的伪平行数据集进行训练得到的模型；所述伪平行数据集包括：多个数据对，每个数据对包括：一个所述第二写作风格的语料文本，以及所述第一写作风格的回译文本，所述回译文本为对所述第二写作风格的语料进行回译得到的文本。

可选地，所述写作风格迁移模型为采用下述方式进行训练得到的模型：

采用所述目标应用场景的语料文本进行预训练，得到自编码器；所述自编码器的参数为与所述自编码器架构相同的所述写作风格迁移模型的初始化参数；

根据所述伪平行数据集对所述初始化参数进行调整，得到所述写作风格迁移模型。

可选地，所述根据所述伪平行数据集对所述初始化参数进行调整，得到所述写作风格迁移模型，包括：

采用所述写作风格迁移模型对所述伪平行数据集中每个第一写作风格的回译文本进行处理，得到目标写作风格的语料文本；

根据所述伪平行数据集中所述每个第一写作风格的回译文本对应的语料文本，以及所述目标写作风格的语料文本，对所述初始化参数进行调整，直至收敛，得到所述写作风格迁移模型。

可选地，所述伪平行数据集为采用下述方法进行构造得到的数据集：

获取所述第二写作风格的语料文本集；

采用至少一个翻译源，对所述语料文本集中每个语料文本进行回译，得到所述每个语料文本的至少一个候选回译文本；

从所述至少一个候选回译文本中确定所述每个语料文本的目标回译文本；

根据所述每个语料文本以及所述目标回译文本，得到所述伪平行数据集。

可选地，所述从所述至少一个候选回译文本中确定所述每个语料文本的目标回译文本，包括：

根据所述每个候选回译文本的回译质量参数，从所述至少一个候选回译文本中确定所述目标回译文本。

可选地，所述根据所述每个候选回译文本的回译质量参数，从所述至少一个候选回译文本中确定所述目标回译文本，包括：

采用预先训练的回译文本筛选模型，对所述至少一个候选回译文本的回译质量参数进行处理，确定所述目标回译文本；其中，所述回译文本筛选模型为采用预设的样本语料文本对应的回译质量参数以及所述样本语料文本对应的目标回译文本进行训练得到的。

可选地，所述样本语料文本为所述语料文本集中的部分语料文本。

可选地，所述根据所述每个候选回译文本的回译质量参数，从所述至少一个候选回译文本中确定所述目标回译文本之前，所述方法还包括：

根据至少一项回译指标的得分，确定所述每个候选回译文本的回译质量参数。

可选地，所述至少一项回译指标包括如下中的至少一项：语义相似度、长度比、写作风格差异度。

可选地，所述伪平行数据集中，所述每个数据对中所述第二写作风格的语料文本以及所述第一写作风格的回译文本中的预设实体采用所述预设实体对应的字符表示。

可选地，所述自编码器包括：编码器和解码器，所述编码器包括：依次连接的至少两个编码层；所述解码器包括依次连接的至少两个解码层，最后一个所述编码层的输出作为第一个所述解码层的输入；

所述至少两个编码层、以及所述至少两个解码层的学习率按照预设规则依次递减，所述学习率用于指示对所述写作风格迁移模型的初始化参数变化的学习率。

第二方面，本申请实施例还提供了一种文本写作风格处理装置，包括：获取模块、处理模块；

所述获取模块，用于获取目标应用场景的第一写作风格的输入文本；

所述处理模块，用于采用预先训练的所述目标应用场景的写作风格迁移模型，对所述输入文本进行处理，得到与所述输入文本语义相同的第二写作风格的文本；

可选地，所述装置还包括：预训练模块、调整模块；

所述写作风格迁移模型为采用下述方式进行训练得到的模型：

所述预训练模块，用于采用所述目标应用场景的语料文本进行预训练，得到自编码器；所述自编码器的参数为与所述自编码器架构相同的所述写作风格迁移模型的初始化参数；

所述调整模块，用于根据所述伪平行数据集对所述初始化参数进行调整，得到所述写作风格迁移模型。

可选地，所述调整模块，具体用于采用所述写作风格迁移模型对所述伪平行数据集中每个第一写作风格的回译文本进行处理，得到目标写作风格的语料文本；根据所述伪平行数据集中所述每个第一写作风格的回译文本对应的语料文本，以及所述目标写作风格的语料文本，对所述初始化参数进行调整，直至收敛，得到所述写作风格迁移模型。

可选地，所述装置还包括：回译模块、确定模块；

所述伪平行数据集为采用下述方法进行构造得到的数据集：

所述获取模块，还用于获取所述第二写作风格的语料文本集；

所述回译模块，用于采用至少一个翻译源，对所述语料文本集中每个语料文本进行回译，得到所述每个语料文本的至少一个候选回译文本；

所述确定模块，用于从所述至少一个候选回译文本中确定所述每个语料文本的目标回译文本；根据所述每个语料文本以及所述目标回译文本，得到所述伪平行数据集。

可选地，所述确定模块，具体用于根据所述每个候选回译文本的回译质量参数，从所述至少一个候选回译文本中确定回译质量参数最高的一个候选回译文本为所述目标回译文本。

可选地，所述确定模块，具体用于采用预先训练的回译文本筛选模型，对所述至少一个候选回译文本的回译质量参数进行处理，确定所述目标回译文本；其中，所述回译文本筛选模型为采用预设的样本语料文本对应的回译质量参数以及所述样本语料文本对应的目标回译文本进行训练得到的。

可选地，所述确定模块，还用于根据至少一项回译指标的得分，确定所述每个候选回译文本的回译质量参数。

第三方面，本申请实施例还提供了一种处理设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当处理设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行时执行如上述第一方面所述的文本写作风格处理方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面所述的文本写作风格处理方法的步骤。

本申请的有益效果是：

本申请提供的文本写作风格处理方法、装置、设备及存储介质，包括：获取目标应用场景的第一写作风格的输入文本；采用预先训练的目标应用场景的写作风格迁移模型，对输入文本进行处理，得到与输入文本语义相同的第二写作风格的文本。其中，写作风格迁移模型为：采用目标应用场景的语料文本，以及预先构造的伪平行数据集进行训练得到的模型；伪平行数据集包括：多个数据对，每个数据对包括：一个第二写作风格的语料文本，以及第一写作风格的回译文本，回译文本为对第二写作风格的语料进行回译得到的文本。本方案可以基于训练得到的写作风格迁移模型，对输入的目标应用场景的输入文本进行写作风格转换，得到与输入文本语义相同的第二写作风格的文本，从而实现了文本写作风格的转换，有效解决了文本写作风格领域自适应问题，提高了文本写作风格转换的准确性。

另外，通过对得到的伪平行数据集中的文本的预设实体进行字符替换，可以有效避免实体翻译错误的问题，提高伪平行数据集的质量。

最后，通过预设方式对自编码器中编码器和解码器的学习层的学习率进行设置，可以有效减轻写作风格迁移模型训练过程中出现的灾难性遗忘，提高写作风格迁移模型的精确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种文本写作风格处理方法的流程示意图；

图2为本申请实施例提供的另一种文本写作风格处理方法的流程示意图；

图3为本申请实施例提供的又一种文本写作风格处理方法的流程示意图；

图4为本申请实施例提供的另一种文本写作风格处理方法的流程示意图；

图5为本申请实施例提供的一种文本回译结果示意图；

图6为本申请实施例提供的一种文本写作风格处理装置的示意图；

图7为本申请实施例提供的处理设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

在对本申请的方案进行详细说明之前，先对相关的技术背景进行说明，文本风格迁移指的是，在不改变原文语义的情况下，改变其风格。比如，把游戏负面评论转为正面评论，但不改变其评价的内容、客体等与情感无关的信息。在该例子中，情感即文本的风格。文本风格是文本表现出来的一种带有综合性的总体特点。除了情感转换之外，文本风格迁移还包括文本正式化(把非正式语言转为正式语言)、文本简化、文本归一化、文本写作风格等任务。

本申请主要关注文本写作风格迁移，把一种写作风格文本迁移到另一种写作风格文本，但是改变文本的语义，比如把平实的写作风格迁移到金庸的写作风格上，或者是将平实的写作风格迁移到琼瑶的写作风格上等。该任务可以抽象为一种序列到序列的任务(sequence to sequence)。

在提出本申请方案之前，利用无监督的方法来实现写作风格迁移。无监督风格迁移大致分类两类：

第一：分离文本风格和内容，对文本的风格和内容分开建模，将目标风格与内容进行融合以达到控制风格转换的目的。这类技术，可以进一步划分为显式的风格内容分离，或者隐式的风格内容分离。显式的分离指的是将文本中表示风格的词标记出来，用离散的方式进行操作；隐式的分离指的是用专门设计的模型架构对风格和内容进行编码，以连续向量的方式进行表示。

第二，不分离文本风格和内容。这类研究认为风格和内容是交杂在一起的，没必要也很难将其进行有效的分离。采用对偶强化学习的方法来实现风格迁移，有的工作采用回译的方法来实现。

但是，无监督风格迁移方法一般存在下述缺点：

第一：单风格的语料不容易获取。现有的基于无监督方法的技术主要用于情感迁移任务上。情感是一种较容易识别和区分的风格，语料也相对好获取(电商、影视网站等的评论)。然而，对于写作风格，需要一定的文学素养才能较好地筛选出来(即使对于某个作者的作品，也不是每一句话都有强烈的个人风格)，或者进行区分。

第二：目前的无监督方法效果不好，有较大的局限性，许多工作只是在词汇层面进行替换，比如把正面的词汇改变为负面的词汇。对于更深层次的风格迁移任务，比如写作风格，无法通过简单地替换某个词实现。

另外，目前的工作均没有考虑领域自适应问题，比如语料本身是电商领域的评论，如果想对电影领域的评论进行风格迁移，效果会大打折扣；再以写作风格为例，风格语料是文学作品，我们想对日常对话进行风格迁移，由于两个场合用词差异较大，最终训练的模型实用性也不强。

为了解决上述技术问题，本发明实施例提供了一种文本写作风格处理方法。其核心的改进点在于：采用目标应用场景的语料，预训练自编码器；利用目标写作风格的伪平行语料，在自编码器上微调训练(解决领域自适应问题)，得到文本写作风格迁移模型，有效提高文本写作风格迁移的准确性。

下面通过可能的实现方式对本发明的技术方案进行说明。

图1为本申请实施例提供的一种文本写作风格处理方法的流程示意图；可选地，本方法的执行主体可以是计算机、服务器等设备。如图1所示，该方法可包括：

S101、获取目标应用场景的第一写作风格的输入文本。

可选地，目标应用场景可以理解为待处理的文本所属的应用领域，本申请的方法用于将目标应用场景的具有一种写作风格的文本，转换为其他写作风格的文本，也即，改变目标应用场景的文本的写作风格，不改变其语义。

目标应用场景可以为：电商领域、电影领域、游戏领域等，不同的目标应用场景，由于场景中对话的用词习惯等不同，会导致对应的输入文本的写作风格存在差异。

可选地，可以通过网络媒体数据，获取目标应用场景的第一写作风格的输入文本。例如：通过微博、博客、论坛等获取输入文本。

S102、采用预先训练的目标应用场景的写作风格迁移模型，对输入文本进行处理，得到与输入文本语义相同的第二写作风格的文本。

其中，写作风格迁移模型为：采用目标应用场景的语料文本，以及预先构造的伪平行数据集进行训练得到的模型；伪平行数据集包括：多个数据对，每个数据对包括：一个第二写作风格的语料文本，以及第一写作风格的回译文本，回译文本为对第二写作风格的语料进行回译得到的文本。

可选地，第二写作风格可以为任意风格，根据用户的实际需求进行设定，当用户的需求为将目标应用场景的第一写作风格的文本转换为金庸风格写作文本时，第二写作风格即为金庸风格。当用户的需求为将目标应用场景的第一写作风格的文本转换为琼瑶风格写作文本时，第二写作风格即为琼瑶风格。

需要说明的是，伪平行数据集中的每个数据对包括的第二写作风格的语料文本，可以为第二写作风格语料文本集中多条文本中的任一条文本，而第一写作风格的回译文本，可以为将该任一条文本回译为第一写作风格的文本，得到的回译文本。例如：第一写作风格为平实风格，第二写作风格语料文本集为金庸小说，那么，第二写作风格的语料文本即为小说中的一句话，而回译文本即为该句话对应的平实风格的文本。

基于通过目标应用场景的语料文本，以及预先构造的伪平行数据集进行训练得到的写作风格迁移模型，可以实现对目标应用场景的语料文本进行写作风格转换，以得到与该目标应用场景的语料文本语义相同的第二写作风格的文本。

综上，本实施例提供的文本写作风格处理方法，包括：获取目标应用场景的第一写作风格的输入文本；采用预先训练的目标应用场景的写作风格迁移模型，对输入文本进行处理，得到与输入文本语义相同的第二写作风格的文本。其中，写作风格迁移模型为：采用目标应用场景的语料文本，以及预先构造的伪平行数据集进行训练得到的模型；伪平行数据集包括：多个数据对，每个数据对包括：一个第二写作风格的语料文本，以及第一写作风格的回译文本，回译文本为对第二写作风格的语料进行回译得到的文本。本方案可以基于训练得到的写作风格迁移模型，对输入的目标应用场景的输入文本进行写作风格转换，得到与输入文本语义相同的第二写作风格的文本，从而实现了文本写作风格的转换，有效解决了文本写作风格领域自适应问题，提高了文本写作风格转换的准确性。

图2为本申请实施例提供的另一种文本写作风格处理方法的流程示意图；可选地，如图2所示，上述步骤S102中的写作风格迁移模型可以为采用下述方式进行训练得到的模型：

S201、采用目标应用场景的语料文本进行预训练，得到自编码器；自编码器的参数为与自编码器架构相同的写作风格迁移模型的初始化参数。

可选地，本实施例中，自编码器和写作风格迁移模型采用相同的架构(sequenceto sequence，序列到序列)构建得到，序列到序列的架构是目前翻译任务常用的架构。这样，可以较好地解决领域漂移问题。

通常，自编码器包括编码器和解码器，编码器对输入的文本进行编码，输出给解码器，解码器对其进行解码，输出结果。预训练自编码器的过程可以理解为：编码器对输入的目标应用场景的语料文本加入一定程度的噪声(删除某些词、调换任意两个词的顺序等)，解码器需要还原初始的输入文本。

可选地，噪声是随机加入的，自编码器是学习数据分布和表示的通用做法。以图片自编码器举例，随机扣掉图片中的某一块，进行编码，解码输出是原始图像，从而可以训练得到图像修复的模型，模型能够根据空白区域周围的像素来预测。文本类似，随机删掉文本中的某个字，进行编码，解码输出的问原始文本，从而可以训练得到文本修复模型。

例如：目标应用场景的输入文本为：“你们那边天气咋样啊？”，自编码器的输入为“你那边天咋样啊？”，输出为原始文本。即利用目标应用场景的语料文本训练得到去噪的自编码器。

S202、根据伪平行数据集对初始化参数进行调整，得到写作风格迁移模型。

可选地，预训练自编码器后，可得到自编码器的参数，本方案中，可以将预训练自编码器得到的参数作为写作风格迁移模型的初始化参数。

本实施例中，通过采用上述得到的伪平行数据集，将伪平行数据集中的具有第一写作风格的回译文本作为写作风格迁移模型的输入，将第二写作风格的语料文本作为写作风格迁移模型的输出，构建第一写作风格文本与第二写作风格文本之间的对应关系，得到写作风格迁移模型。

一方面，将自编码的参数作为写作风格迁移模型的初始化参数，可以使得训练得到的模型具有较好的去噪能力，另一方面，通过采用伪平行数据集对写作风格迁移模型的初始化参数进行调整，可以使得模型能够处理目标对应场景的文本输入，实现写作风格的转化，实用性和实用价值更高。

图3为本申请实施例提供的又一种文本写作风格处理方法的流程示意图，可选地，如图3所示，上述步骤S202中，根据伪平行数据集对初始化参数进行调整，得到写作风格迁移模型，可以包括：

S301、采用写作风格迁移模型对伪平行数据集中每个第一写作风格的回译文本进行处理，得到目标写作风格的语料文本。

可选地，可以将上述得到的伪平行数据集中的第一写作风格的回译文本作为输入，通过写作风格迁移模型进行写作风格转换，得到目标写作风格的语料文本。

S302、根据伪平行数据集中每个第一写作风格的回译文本对应的语料文本，以及目标写作风格的语料文本，对初始化参数进行调整，直至收敛，得到写作风格迁移模型。

可选地，可以将上述通过写作风格迁移模型进行写作风格转换，得到的目标写作风格的语料文本，与伪平行数据集中，第一写作风格的回译文本对应的语料文本(第二写作风格的语料文本)进行比对，计算模型的损失函数，直至模型的损失函数达到预设值时(模型收敛)，停止训练，并将此时的参数作为写作风格迁移模型的最终参数，得到写作风格迁移模型。

图4为本申请实施例提供的另一种文本写作风格处理方法的流程示意图，可选地，如图4所示，上述多个实施例中涉及的伪平行数据集可以为采用下述方法进行构造得到的数据集：

S401、获取第二写作风格的语料文本集。

S402、采用至少一个翻译源，对语料文本集中每个语料文本进行回译，得到每个语料文本的至少一个候选回译文本。

可选地，本实施例中以金庸风格为例，那么，第二写作风格的语料文本集可以为金庸小说，其中，可以为一本金庸小说，也可以为多本金庸小说。可以先采用分句处理方法，对小说文本集进行分句处理，得到多个语料文本。

可以通过传统的翻译系统(翻译源)，对得到的每个语料文本进行回译。回译可以理解为，将每个语料文本先翻译为中间语言，再由中间语言翻译为具有第一写作风格的文本(本实施例中为平实风格文本)。其中，中间语言可以英语、法语、日语等任意语言。对于每个语料文本，其对应的中间语言可以相同，也可以不同。例如：对于文本1，可以先将其翻译为英语，再由英语翻译为第一写作风格的文本；对于文本2，也可以先将其翻译为英语，再由英语翻译为第一写作风格的文本，或者，也可以先将其翻译为韩语，再由韩语翻译为第一写作风格的文本。上述两种方法均可实现语料文本的回译，相对来说，当每个语料文本对应的中间语言相同时，构建得到的伪平行数据集质量更好。

本实施例中，可以选用三种翻译系统对每个语料文本进行回译，从而避免采用过少的翻译系统进行回译，得到的回译文本质量较差。其中，可以包括：A翻译系统、B翻译系统、C翻译系统等。当时，也不限于所列举的几种翻译系统，在选择翻译系统时，选择翻译质量较高的翻译系统，可以有效提升回译质量。

图5为本申请实施例提供的一种文本回译结果示意图。如图5所示，通过采用三种翻译系统对每个语料文本进行回译，可以得到每个语料文本的至少一个候选回译文本。例如：语料文本为：请教阁下尊姓大名，通过A翻译系统翻译为中间语言，可以为“Ask yourhonorary name”，再对中间语言进行翻译，得到第一写作风格的回译文本为：问你名誉。通过B翻译系统翻译为中间语言，可以为“May I have your name”，再对中间语言进行翻译，得到第一写作风格的回译文本为：能告诉我你的名字吗。通过C翻译系统翻译为中间语言，可以为“May I have your name，please”，再对中间语言进行翻译，得到第一写作风格的回译文本为：请问你叫什么名字。那么，对于语料文本：请教阁下尊姓大名，其得到的候选回译文本即包括：问你名誉、能告诉我你的名字吗、请问你叫什么名字。

S403、从至少一个候选回译文本中确定每个语料文本的目标回译文本。

由上述得到的候选回译文本可看出，对于任意的语料文本，其候选回译文本的质量是存在差异的，为了保证得到的伪平行数据集的质量以及实用性，可以从多个候选回译文本中确定每个语料文本的目标回译文本，也即确定质量最好的回译文本。具体可参照下述的详细步骤，对目标回译文本的确定方法进行理解。

S404、根据每个语料文本以及目标回译文本，得到伪平行数据集。

可选地，如上述所说明的，伪平行数据集中包括多个数据对，而每个数据对中的文本由每个语料文本及语料文本的目标回译文本构成。也即，每个数据对包括：一个语料文本、该语料文本的目标回译文本。

可选地，上述步骤S403中，从至少一个候选回译文本中确定每个语料文本的目标回译文本，可以包括：根据每个候选回译文本的回译质量参数，从至少一个候选回译文本中确定目标回译文本。

可选地，可采用预先训练的回译文本筛选模型，对至少一个候选回译文本的回译质量参数进行处理，确定目标回译文本；其中，回译文本筛选模型为采用预设的样本语料文本对应的回译质量参数以及样本语料文本对应的目标回译文本进行训练得到的。

其中，样本语料文本为上述第二写作风格的语料文本集中的部分语料文本，或者也可以是具有第二写作风格的其他语料文本。

可选地，样本语料文本可以为语料文本集中小于或等于预设阈值的语料文本，本实施例中，预设阈值可以为500，当然，实际应用中并不限于500，可以进行适应性调整。

在一些实施例中，可以样本语料文本、以及每个语料文本的多个候选回译文本的回译质量参数，对样本语料文本进行标注，从而根据标注的语料文本，训练获取回译文本筛选模型，从而可以根据回译文本筛选模型，对第二写作风格的语料文本集中的每个语料文本的候选回译文本进行筛选，确定每个语料文本的目标回译文本。其中，可以根据每个语料文本的多个候选回译文本的回译质量参数，采用回译文本筛选模型，确定每个语料文本的目标回译文本，得到伪平行数据集，从而使得得到的伪平行数据集质量较高。

可选地，根据每个候选回译文本的回译质量参数，从至少一个候选回译文本中确定目标回译文本之前，本申请的方法还可包括：根据至少一项回译指标的得分，确定每个候选回译文本的回译质量参数。

在一些实施例中，可以对每个语料文本对应的每个候选文本进行打分，根据得分结果，确定每个候选回译文本的回译质量参数。

为了使得回译质量参数可靠性更高，避免漏译及重复翻译的问题，本实施例中，可以通过至少一项回译指标的得分，综合确定每个候选回译文本的回译质量参数。其中，至少一项回译指标可以包括如下中的至少一项：语义相似度、长度比、写作风格差异度。

关于语义相似度：本实施例中，可以采用有监督方法预训练的编码器得到语料文本的编码、以及语料文本的每个候选回译文本的编码，通过计算语料文本与每个候选回译文本两者的余弦相似度作为语义相似度得分。

关于长度比：长度比可以理解为语料文本与候选回译文本的字符长度，通过长度比一定程度上发现潜在存在的漏译、重复翻译等问题。可选地，可以将语料文本与其对应的每个候选回译文本分别计算长度比，得到每个候选回译文本的长度比得分。

关于写作风格差异度：本实施例中，可以采用PINC刻画两个文本之间的差异度，此处用来表示写作风格差异，通过计算语料文本与每个候选回译文本之间的差异度，得到每个候选文本的写作风格差异得分。

可选地，上述通过综合三个回译指标得分，可以计算得到每个样本语料文本对应的每个候选回译文本的回译质量参数。可选地，为了得到质量较高的伪平行数据集，还需要对伪平行数据集中的每个语料文本，确定其目标回译文本。

在一些实施例中，可以样本语料文本、以及每个样本语料文本的多个候选回译文本的回译质量参数，对样本语料文本进行标注，从而根据标注的样本语料文本，训练获取回译文本筛选模型，从而可以根据回译文本筛选模型，对第二写作风格的语料文本集中的每个语料文本的候选回译文本进行筛选，确定每个语料文本的目标回译文本。从而根据每个语料文本、以及每个语料文本的目标回译文本，得到伪平行数据集，从而使得得到的伪平行数据集质量较高。

可选地，上述伪平行数据集中，每个数据对中第二写作风格的语料文本以及第一写作风格的回译文本中的预设实体采用预设实体对应的字符表示。

通常，由于翻译系统的翻译精度问题，采用翻译系统对第二写作风格的语料文本进行回译得到的回译文本中还会存在实体翻译错误的问题。该问题的存在，会导致训练得到的写作风格迁移模型无法正确处理实体(直接保留)。

为了解决该问题，本实施例中，可以对满足一定规则的语料文本中的实体进行替换处理，以进一步提高伪平行数据集的质量。

可选地，可采用第三方实体识别工具jieba(结巴)，对满足一定规则的语料文本中的预设实体进行识别，由于预设的实体可以存在多种，那么，在对预设实体进行替换处理时，可以采用每种预设实体对应的字符替换该实体，也即，用预设实体对应的字符，在语料文本中该预设实体所在的位置替换该实体。

其中，满足一定规则的语料文本可以为：包含的每种预设实体的数量不超过两个，且同类实体在语料文本及语料文本的目标回译文本中出现的顺序是一致的。通过，当语料文本中包含的每种预设实体的数量超过两个，且同类实体在语料文本及语料文本的目标回译文本中出现的顺序不一致时，由于待替换的实体数量较多，通过实体替换的处理方式，得到的替换后的语料文本的可读性较多，与语料文本的原始语义可能存在差异，从而导致伪平行数据集的质量变低。当然，实际应用中，不限于采用上述两种规则选择需要替换处理的文本。

可选地，本实施例中，预设实体可以包括：人名和地名。当伪平行数据集中，数据对中的第二写作风格的语料文本和回译文本识别出来的人名和地名数量一致，且每种类型实体数量不超过两个，同时同类实体在两个文本中出现的顺序是一致的，则采用人名对应的字符对两个文本中的人名进行替换，采用地名对应的字符对两个文本中的地名进行替换，避免在伪平行数据集中引入更多的噪音。

本实施例中，预设实体为人名时，对应的字符为：“p”，预设实体为地名时，对应的字符为：“l”，而利用数字表示实体出现的顺序。

举例说明：满足规则的语料文本为在实体替换前为：“封万里正眼也不瞧他一下，向石清道：“石大哥、石大嫂，当年恒山聚会，屈指已一十二年，二位丰采如昔”。”实体替换后为“<p_0>正眼也不瞧他一下，<p_1>道：“石大哥、石大嫂，当年<l_0>聚会，屈指已一十二年，二位丰采如昔”。”该语料文本的目标回译文本在实体替换前为：冯万里没看他一眼，就对石青岛说：“石大哥和石大姐，在衡山已经聚了12年了，现在都一样好了”。”目标回译文本在实体替换后为：<p_0>没看他一眼，就对<p_1>说：“石大哥和石大姐，在<l_0>已经聚了12年了，现在都一样好了”。”由此可看出，在未对实体进行替换前，语料文本的目标回译文本中实体翻译均存在错误，从而改变了文本的语义，而通过实体替换，可以有效避免实体翻译错误的问题，进一步提升伪平行数据集的可用性。

可选地，自编码器包括：编码器和解码器，编码器包括：依次连接的至少两个编码层；解码器包括依次连接的至少两个解码层，最后一个编码层的输出作为第一个解码层的输入；至少两个编码层、以及至少两个解码层的学习率按照预设规则依次递减，学习率用于指示对写作风格迁移模型的初始化参数变化的学习率。

可选地，上述预训练得到的自编码器为现有中的常规自编码器，其可包括：编码器和解码器，编码器用于对输入的原始文本，经过加入噪音后，进行编码，解码器用于对编码得到的文本进行解码，还原输入的原始文本。

通常，编码器和解码器均类似于神经网络结构，由多个层构成，编码器由多个编码层构成，解码器由多个解码层构成。多个编码层依次连接，多个解码层依次连接，任意编码层的输出作为下一编码层的输入，任意解码层的输出作为下一解码层的输入，且编码层的最后一层的输出作为解码层第一层的输入。

可选地，被本申请方案中，写作风格迁移模型为基于神经网络架构的模型，通常训练神经网络模型需要设置学习率。如果是深层模型，浅层的部分更多学的是通用知识，以图像举例，浅层学到的是线条、曲线、纹理这些特征，深层学到的是具体任务相关的知识。以文本为例，浅层学到的是字、词这些特征，深层学到的是具体的用词习惯、及构词方式等知识。为了防止模型训练过程中遗忘通用知识，浅层(底层)的学习率设得低一点，深层(顶层)部分高一点。

由上述分析可知，为了减轻写作风格迁移模型在微调过程中出现的灾难性遗忘，本实施例中，对于编码器中依次连接的至少两个编码层的学习率，可以由高到低依次递减，例如：第一编码层(最顶层)的学习率为L，第二编码层的学习率为L/2，第三编码层的学习率为L/4，以此类推。同样的，对于解码层，也可采用同样的方式设置学习率，即第一解码层(最顶层)的学习率为L，第二解码层的学习率为L/2，第三解码层的学习率为L/4，以此类推。其中，学习率可以指对写作风格迁移模型的初始化参数变化的学习率。

如下表1为有无预训练自编码器时，得到的写作风格迁移模型进行写作风格迁移的效果对比表。

表1

由表1可看出，本申请的方案，通过采用第一写作风格的语料文本预训练自编码器，并采用伪平行数据集对写作风格迁移模型的初始化参数进行微调，使得写作风格迁移模型可以学习目标应用场景的一些先验知识，如：目标应用场景的语料文本的用词习惯，构词方式等，使得写作风格迁移模型可以对第一写作风格的输入文本有较好的处理能力，实现了领域自适应。比如，当第一写作风格的输入文本为平实风格文本时，假设输入文本中包含手机、微博等用词，而当将第一写作风格的输入文本转换为金庸写作风格文本时，写作风格迁移模型无法对手机这种用词进行准确处理，则会选择保留，以保证转换后的文本的准确性。

综上，本申请实施例提供的文本写作风格处理方法，包括：获取目标应用场景的第一写作风格的输入文本；采用预先训练的目标应用场景的写作风格迁移模型，对输入文本进行处理，得到与输入文本语义相同的第二写作风格的文本。其中，写作风格迁移模型为：采用目标应用场景的语料文本，以及预先构造的伪平行数据集进行训练得到的模型；伪平行数据集包括：多个数据对，每个数据对包括：一个第二写作风格的语料文本，以及第一写作风格的回译文本，回译文本为对第二写作风格的语料进行回译得到的文本。本方案可以基于训练得到的写作风格迁移模型，对输入的目标应用场景的输入文本进行写作风格转换，得到与输入文本语义相同的第二写作风格的文本，从而实现了文本写作风格的转换，有效解决了文本写作风格领域自适应问题，提高了文本写作风格转换的准确性。

下述对用以执行本申请所提供的文本写作风格处理方法的文本写作风格处理装置、设备及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

图6为本申请实施例提供的一种文本写作风格处理装置的示意图，可选地，如图6所示，该装置可包括：获取模块501、处理模块502；

获取模块501，用于获取目标应用场景的第一写作风格的输入文本；

处理模块502，用于采用预先训练的目标应用场景的写作风格迁移模型，对输入文本进行处理，得到与输入文本语义相同的第二写作风格的文本；

可选地，该装置还包括：预训练模块、调整模块；

写作风格迁移模型为采用下述方式进行训练得到的模型：

预训练模块，用于采用目标应用场景的语料文本进行预训练，得到自编码器；自编码器的参数为与自编码器架构相同的写作风格迁移模型的初始化参数；

调整模块，用于根据伪平行数据集对初始化参数进行调整，得到写作风格迁移模型。

可选地，调整模块，具体用于采用写作风格迁移模型对伪平行数据集中每个第一写作风格的回译文本进行处理，得到目标写作风格的语料文本；根据伪平行数据集中每个第一写作风格的回译文本对应的语料文本，以及目标写作风格的语料文本，对初始化参数进行调整，直至收敛，得到写作风格迁移模型。

可选地，该装置还包括：回译模块、确定模块；

伪平行数据集为采用下述方法进行构造得到的数据集：

获取模块，还用于获取第二写作风格的语料文本集；

回译模块，用于采用至少一个翻译源，对语料文本集中每个语料文本进行回译，得到每个语料文本的至少一个候选回译文本；

确定模块，用于从至少一个候选回译文本中确定每个语料文本的目标回译文本；根据每个语料文本以及目标回译文本，得到伪平行数据集。

可选地，确定模块，具体用于根据每个候选回译文本的回译质量参数，从至少一个候选回译文本中确定回译质量参数最高的一个候选回译文本为目标回译文本。

可选地，确定模块，具体用于采用预先训练的回译文本筛选模型，对至少一个候选回译文本的回译质量参数进行处理，确定目标回译文本；其中，回译文本筛选模型为采用预设的样本语料文本对应的回译质量参数以及样本语料文本对应的目标回译文本进行训练得到的。

可选地，样本语料文本为语料文本集中的部分语料文本。

可选地，确定模块，还用于根据至少一项回译指标的得分，确定每个候选回译文本的回译质量参数。

可选地，至少一项回译指标包括如下中的至少一项：语义相似度、长度比、写作风格差异度。

可选地，伪平行数据集中，每个数据对中第二写作风格的语料文本以及第一写作风格的回译文本中的预设实体采用预设实体对应的字符表示。

可选地，自编码器包括：编码器和解码器，编码器包括：依次连接的至少两个编码层；解码器包括依次连接的至少两个解码层，最后一个编码层的输出作为第一个解码层的输入；

至少两个编码层、以及至少两个解码层的学习率按照预设规则依次递减，学习率用于指示对写作风格迁移模型的初始化参数变化的学习率。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图7为本申请实施例提供的处理设备的示意图，该处理设备可以是计算机或者服务器等具备数据处理功能的处理设备。

该设备可包括：处理器601、存储器602。

存储器602用于存储程序，处理器601调用存储器602存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种文本写作风格处理方法，其特征在于，包括：

获取目标应用场景的第一写作风格的输入文本；

其中，所述写作风格迁移模型为：采用所述目标应用场景的语料文本，以及预先构造的伪平行数据集进行训练得到的模型；所述伪平行数据集包括：多个数据对，每个数据对包括：一个所述第二写作风格的语料文本，以及所述第一写作风格的回译文本，所述回译文本为对所述第二写作风格的语料进行回译得到的文本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述伪平行数据集对所述初始化参数进行调整，得到所述写作风格迁移模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述伪平行数据集为采用下述方法进行构造得到的数据集：

获取所述第二写作风格的语料文本集；

4.根据权利要求3所述的方法，其特征在于，所述从所述至少一个候选回译文本中确定所述每个语料文本的目标回译文本，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述每个候选回译文本的回译质量参数，从所述至少一个候选回译文本中确定所述目标回译文本，包括：

6.根据权利要求5所述的方法，其特征在于，所述样本语料文本为所述语料文本集中的部分语料文本。

7.根据权利要求5所述的方法，其特征在于，所述根据所述每个候选回译文本的回译质量参数，从所述至少一个候选回译文本中确定所述目标回译文本之前，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述至少一项回译指标包括如下中的至少一项：语义相似度、长度比、写作风格差异度。

9.根据权利要求1所述的方法，其特征在于，所述伪平行数据集中，所述每个数据对中所述第二写作风格的语料文本以及所述第一写作风格的回译文本中的预设实体采用所述预设实体对应的字符表示。

10.根据权利要求1所述的方法，其特征在于，所述自编码器包括：编码器和解码器，所述编码器包括：依次连接的至少两个编码层；所述解码器包括依次连接的至少两个解码层，最后一个所述编码层的输出作为第一个所述解码层的输入；

11.一种文本写作风格处理装置，其特征在于，包括：获取模块、处理模块；

所述装置还包括：预训练模块、调整模块；

12.一种处理设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当处理设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行时执行如权利要求1至10任一所述的文本写作风格处理方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至10任一所述的文本写作风格处理方法的步骤。