CN117473951A

CN117473951A - 文本处理方法、装置及存储介质

Info

Publication number: CN117473951A
Application number: CN202311539982.7A
Authority: CN
Inventors: 王皓冉; 刘星言; 陈默; 陈祺; 安东岳; 杜楠
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-01-30

Abstract

本申请公开了一种文本处理方法、装置及存储介质，先接收待处理文本和引导提示信息，再调用文本改写模型根据引导提示信息对待处理文本进行文本改写得到多个候选文本，当多个候选文本中的一个被选择为目标文本，将目标文本作为第一正样本标签，并将其余候选文本作为第一负样本标签，然后根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签对训练样本集进行更新，得到第一更新训练样本集，接着利用第一更新训练样本集对文本改写模型进行迭代训练。本申请实施例不仅能够使模型的文本改写能力突破固有训练数据的限制，还能够使模型以更优的目标进行迭代训练以学习相对好坏的消息，从而能够提高模型的文本改写效果以及鲁棒性。

Description

文本处理方法、装置及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种文本处理方法、装置及存储介质。

背景技术

保持语义的文本风格改写任务，是指在文本内容和意思保持不变的情况下，改变文本的文本风格，例如将文本风格从正式变为随意，或者从消极变为积极等。对于这种任务，目前常用的方式是使用基于有监督微调训练的网络模型对文本进行风格改写。

但是，基于有监督微调训练的网络模型的文本改写能力会受到固有训练数据的限制，并且，对一个文本进行风格改写，可能会有多种符合要求的“好答案”，但基于有监督微调训练的网络模型一般都是以单一的样本标签作为“参考答案”来进行训练的，因此训练后的网络模型难以学习到相对好坏的信息，从而可能会表现不够鲁棒。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供了一种文本处理方法、装置及存储介质，不仅能够使模型的文本改写能力突破固有训练数据的限制，还能够使模型以更优的目标进行迭代训练以学习相对好坏的消息，从而能够提高模型的文本改写效果以及鲁棒性。

一方面，本申请实施例提供了一种文本处理方法，包括以下步骤：

接收待处理文本和引导提示信息；

调用文本改写模型根据所述引导提示信息对所述待处理文本进行文本改写，得到多个候选文本，其中，所述文本改写模型根据训练样本集训练得到；

当多个所述候选文本中的一个被选择为目标文本，将所述目标文本作为第一正样本标签，并将多个所述候选文本中除所述目标文本之外的候选文本作为第一负样本标签；

根据所述待处理文本、所述引导提示信息、所述第一正样本标签和所述第一负样本标签，对所述训练样本集进行更新，得到第一更新训练样本集；

利用所述第一更新训练样本集对所述文本改写模型进行迭代训练。

另一方面，本申请实施例还提供了一种文本处理装置，包括：

文本获取单元，用于接收待处理文本和引导提示信息；

第一文本改写单元，用于调用文本改写模型根据所述引导提示信息对所述待处理文本进行文本改写，得到多个候选文本，其中，所述文本改写模型根据训练样本集训练得到；

第一标签确定单元，用于当多个所述候选文本中的一个被选择为目标文本，将所述目标文本作为第一正样本标签，并将多个所述候选文本中除所述目标文本之外的候选文本作为第一负样本标签；

第一样本更新单元，用于根据所述待处理文本、所述引导提示信息、所述第一正样本标签和所述第一负样本标签，对所述训练样本集进行更新，得到第一更新训练样本集；

第一模型训练单元，用于利用所述第一更新训练样本集对所述文本改写模型进行迭代训练。

可选地，所述文本处理装置还包括：

第二标签确定单元，用于当多个所述候选文本中的一个被选择后进行了编辑，将编辑后的文本作为第二正样本标签，并将多个所述候选文本作为第二负样本标签；

第二样本更新单元，用于根据所述待处理文本、所述引导提示信息、所述第二正样本标签和所述第二负样本标签，对所述训练样本集进行更新，得到第二更新训练样本集；

第二模型训练单元，用于利用所述第二更新训练样本集对所述文本改写模型进行迭代训练。

可选地，所述训练样本集包括训练样本、引导提示样本、正训练样本标签和负训练样本标签；所述文本处理装置还包括：

第二文本改写单元，用于调用所述文本改写模型根据所述引导提示样本对所述训练样本进行文本改写，得到多个文本改写结果；

模型参数更新单元，用于根据所述正训练样本标签、所述负训练样本标签和多个所述文本改写结果，对所述文本改写模型的模型参数进行更新；

第三样本更新单元，用于根据多个所述文本改写结果对所述训练样本集进行更新，得到第三更新训练样本集；

第三模型训练单元，用于利用所述第三更新训练样本集对所述模型参数更新后的所述文本改写模型进行迭代训练。

可选地，所述第三样本更新单元还用于：

在多个所述文本改写结果中确定目标改写文本；

根据所述目标改写文本对所述正训练样本标签进行更新，并将多个所述文本改写结果中除所述目标改写文本之外的文本改写结果添加到所述负训练样本标签中，得到第三更新训练样本集。

可选地，所述第三样本更新单元还用于：

将所述训练样本和每个所述文本改写结果分别构建待评分文本组；

调用改写质量评分模型对每个所述待评分文本组分别进行改写质量评分，得到每个所述文本改写结果的第一改写质量分数；

将所述第一改写质量分数最高的所述文本改写结果确定为目标改写文本。

可选地，所述第三样本更新单元还用于：

根据预设规则对每个所述文本改写结果分别进行改写质量评分，得到每个所述文本改写结果的第二改写质量分数；

将所述第二改写质量分数最高的所述文本改写结果确定为目标改写文本。

可选地，所述第三样本更新单元还用于：

根据所述第一改写质量分数和所述第二改写质量分数，在多个所述文本改写结果中确定目标改写文本。

可选地，所述第三样本更新单元还用于：

将每个所述文本改写结果的所述第一改写质量分数和所述第二改写质量分数进行累加或者加权累加，得到每个所述文本改写结果的第一改写质量综合分数；

将所述第一改写质量综合分数最高的所述文本改写结果确定为目标改写文本。

可选地，所述第三样本更新单元还用于：

在多个所述待评分文本组中进行多次随机抽样，得到多组抽样结果，其中，每组所述抽样结果均包括多个所述待评分文本组；

调用改写质量评分模型对每组所述抽样结果中的每个所述待评分文本组分别进行改写质量评分，得到每组所述抽样结果中的每个所述文本改写结果的第三改写质量分数；

对于每个所述文本改写结果，将在不同组的所述抽样结果中的所述第三改写质量分数进行加权平均，得到每个所述文本改写结果的第二改写质量综合分数；

将所述第二改写质量综合分数最高的所述文本改写结果确定为目标改写文本。

可选地，所述文本处理装置还包括：

第一样本获取单元，用于获取多个金标样本组，其中，所述金标样本组包括训练样本、引导提示样本和正训练样本标签，所述正训练样本标签根据所述引导提示样本对所述训练样本进行文本改写得到；

第一样本确定单元，用于遍历选择每个所述金标样本组，对于当前选择的所述金标样本组，在其他的所述金标样本组中确定所述训练样本相同的候选金标样本组；

第一样本处理单元，用于将所述候选金标样本组中的所述正训练样本标签作为负训练样本标签，添加到当前选择的所述金标样本组中，得到当前选择的所述金标样本组所对应的训练样本组；

第一样本构建单元，用于根据遍历选择所有所述金标样本组之后得到的所有所述训练样本组，构建得到所述训练样本集。

可选地，所述文本处理装置还包括：

第二样本获取单元，用于获取多个金标样本组，其中，所述金标样本组包括训练样本、引导提示样本和正训练样本标签，所述正训练样本标签根据所述引导提示样本对所述训练样本进行文本改写得到；

第二样本处理单元，用于对于每个所述金标样本组，根据与所述引导提示样本不同的引导提示信息对所述训练样本进行文本改写，得到改写后文本，将所述改写后文本作为负训练样本标签添加到所述金标样本组中，得到每个所述金标样本组对应的训练样本组；

第二样本构建单元，用于根据所有所述金标样本组对应的所述训练样本组，构建得到所述训练样本集。

另一方面，本申请实施例还提供了一种电子设备，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如前面所述的文本处理方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的计算机程序，所述处理器可执行的计算机程序被处理器执行时用于实现如前面所述的文本处理方法。

另一方面，本申请实施例还提供了一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或所述计算机指令存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令，所述处理器执行所述计算机程序或所述计算机指令，使得所述电子设备执行如前面所述的文本处理方法。

本申请实施例至少包括以下有益效果：在获取到待处理文本和引导提示信息之后，调用文本改写模型根据引导提示信息对待处理文本进行文本改写，得到多个候选文本，当多个候选文本中的一个被选择为目标文本，将目标文本作为第一正样本标签，并将多个候选文本中除目标文本之外的候选文本作为第一负样本标签，然后根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新，得到第一更新训练样本集，接着利用第一更新训练样本集对文本改写模型进行迭代训练。由于在文本改写模型输出多个候选文本之后，能够将被选择的候选文本作为第一正样本标签，并将剩余的候选文本作为第一负样本标签，对训练样本集进行更新并利用更新后的训练样本集对文本改写模型进行迭代训练，因此可以在使用文本改写模型进行文本改写的过程中，不断丰富训练样本集的内容并将内容丰富后的训练样本集继续对文本改写模型进行迭代训练，从而可以进一步增强文本改写模型的文本改写能力，使得文本改写模型的文本改写能力能够突破固有训练数据的限制，实现优化闭环；另外，由于会在文本改写模型所输出的多个候选文本中选择一个作为第一正样本标签，因此在文本改写模型每次输出多个候选文本时，都可以选择得到不同的第一正样本标签，使得文本改写模型不再以单一的样本标签作为“参考答案”来进行训练，因此可以使得文本改写模型能够以更优的目标进行迭代训练以学习相对好坏的消息，从而能够提高文本改写模型的文本改写效果以及鲁棒性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种应用场景的示意图；

图3是本申请实施例提供的另一种实施环境的示意图；

图4是本申请实施例提供的另一种应用场景的示意图；

图5是本申请实施例提供的一种文本处理方法的流程图；

图6是本申请实施例提供的一种根据文本改写结果对训练样本集进行更新的示意图；

图7是本申请实施例提供的一种在多个文本改写结果中确定目标改写文本的示意图；

图8是本申请实施例提供的另一种在多个文本改写结果中确定目标改写文本的示意图；

图9是本申请一个具体例子提供的文本处理方法的流程示意图；

图10是本申请一个具体例子提供的文本处理方法的具体流程图；

图11是本申请实施例提供的一种文本处理装置的示意图；

图12是本申请实施例提供的一种电子设备的示意图。

具体实施方式

下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)语言模型(Language Model)，是一类用于预测自然语言序列中下一个词或字符概率的机器学习模型。该模型依据前文的词语或字符序列来计算接下来可能出现的元素的概率。在自然语言处理领域，如语音识别、机器翻译与文本生成等任务中，语言模型具有广泛的应用价值。

3)预训练语言模型(Pretrained Language Model，PTM)，是通过大规模无标注文本数据进行自监督学习而获得的一类语言模型。这些模型通常利用自监督学习算法在大数据集上进行训练，以获取一种通用的语言表示。接着，模型可以通过微调或迁移学习的方式应用于特定的自然语言处理任务。预训练语言模型的优势在于能够有效地利用大量无标注数据进行训练，从而增强模型的泛化能力与性能。

4)大语言模型(Large Language Model，LLM)，是一种参数规模极其庞大，达到数百亿或甚至更高的语言模型。由于其规模庞大，训练过程通常需要消耗大量的数据和计算资源。LLM通常能生成高质量的自然语言文本，如文章、对话和诗歌等。此外，这类模型还具有出色的泛化能力，能够通过“少样本学习(few-shot learning)”或“零样本学习(zero-shot learning)”在多个自然语言处理任务上展示高效性能，例如文本分类、语言翻译和问答系统等。

5)监督微调(Supervised Fine Tuning，SFT)，是机器学习领域中的一种技术，在自然语言处理领域，SFT用于改进预训练语言模型，使其在特定任务上表现更好。这个过程类似于优化模型，使其更适合解决特定问题。

6)强化学习(Reinforcement learning，RL)是机器学习领域之一，受到行为心理学的启发，主要关注智能体如何在环境中采取不同的行动，以最大限度地提高累积奖励。强化学习主要由智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成。智能体执行了某个动作后，环境将会转换到一个新的状态，对于该新的状态环境会给出奖励信号(正奖励或者负奖励)。随后，智能体根据新的状态和环境反馈的奖励，按照一定的策略执行新的动作。上述过程为智能体和环境通过状态、动作、奖励进行交互的方式。智能体通过强化学习，可以知道自己在什么状态下，应该采取什么样的动作使得自身获得最大奖励。由于智能体与环境的交互方式与人类与环境的交互方式类似，可以认为强化学习是一套通用的学习框架，可用来解决通用人工智能的问题。因此强化学习也被称为通用人工智能的机器学习方法。

7)奖励模型(Reward model，RM)是构建于某个(模拟)环境中的一种奖赏机制或黑箱模型，例如游戏中对玩家某个行为的积分奖励。在强化学习中，奖励模型可以用来评估智能体在给定状态下的行为好坏，并给予相应的奖励或惩罚。在文本生成领域，奖励模型通常接受一个“问题”和“答案”作为输入，并返回一个分数，其数值大小反应了人类对输入文本的偏好程度。

8)人类偏好学习(Human Preference Learning)，也被称为“人类偏好对齐(HumanPreference Alignment)”，是大语言模型训练中的重要阶段，通常在SFT之后，通过向人类偏好进行对齐，可以进一步提升用户的交互体验。常见的人类偏好对齐算法(包括RLHF、RLAIF、Reject Sampling等)均依赖于一个代表人类偏好的奖励模型或者偏好模型(Preference Model)。目前的偏好模型主要考虑两个方面：有用性(Helpfulness)和无害性(Harmlessness)。通过向这两个偏好方向进行对齐，研究者们希望大模型的回复可以有用并且无毒害。

9)文本风格改写：对于给定的输入文本(例如一句话或一篇文章)，在尽可能保证文本原意不变的情况下，改变输入文本的风格(比如从正式变为随意、从消极变为积极，或改为某种文风等)。

对于保持语义的文本风格改写任务，目前常用的方式包括使用基于有监督微调训练的网络模型对文本进行风格改写。其中，有监督微调是最常用的语言模型训练策略，对于给定的风格约束和一个待改写的文本，通过最小化损失函数(或最大化参考文本的后验概率)，训练模型生成与参考文本(或金标样本)一致的文本。但是，对于基于有监督微调训练的网络模型，其表现尤其依赖于训练样本(即金标样本)的质量和数量。在文本风格改写任务中，这种方法需要构建大规模的高质量训练样本，因此需要消耗极高的人力成本；并且，基于有监督微调训练的网络模型的文本改写能力无法突破固有训练样本的上限。此外，对一个文本进行风格改写，可能会有多种符合要求的“好答案”，但基于有监督微调训练的网络模型一般都是以单一的样本标签(即金标样本标签)作为“参考答案”来进行训练的，因此训练后的网络模型难以学习到相对好坏的信息，从而可能会表现不够鲁棒。

另外，对于保持语义的文本风格改写任务，目前常用的方式还包括使用基于强化学习训练的网络模型对文本进行风格改写。其中，基于强化学习的训练方式需要首先构建一个奖励函数，该奖励函数可能基于简单的规则或基于预训练语言模型微调得到，然后利用该奖励函数来优化目标模型。在训练过程中，用奖励模型向待优化的目标模型提供反馈，促使目标模型多生成高奖励输出，少生成低奖励输出。同时，使用冻结的参考模型来确保目标模型的输出偏差不会太大，并保持输出的多样性，因此，通常在对目标函数进行设计时，需要添加一个相对于参考模型的KL散度惩罚项。但是，这种方法通常涉及训练多个模型，例如PPO算法在训练时会涉及目标模型(也称Actor模型，即主要训练的语言模型)、参考模型(大小和结构与Actor模型一致，但固定参数)、奖赏模型(预先训练，固定参数)以及Critic模型(用于动态估计实时奖赏)。这不仅需要消耗更多的计算资源，还会引入大量的需调节的超参数，从而会增加整个训练流程的复杂性；此外，这种方法在联合训练多个模型时，还会导致训练过程不稳定或难以收敛。

为了能够使模型的文本改写能力可以突破固有训练数据的限制，并且使模型以更优的目标进行迭代训练以学习相对好坏的消息进而提高模型的文本改写效果以及鲁棒性，本申请实施例提供了一种文本处理方法、文本处理装置、电子设备、计算机可读存储介质以及计算机程序产品，在获取到待处理文本和引导提示信息之后，调用文本改写模型根据引导提示信息对待处理文本进行文本改写，得到多个候选文本，当多个候选文本中的一个被选择为目标文本，将目标文本作为第一正样本标签，并将多个候选文本中除目标文本之外的候选文本作为第一负样本标签，然后根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新，得到第一更新训练样本集，接着利用第一更新训练样本集对文本改写模型进行迭代训练。由于在文本改写模型输出多个候选文本之后，能够将被选择的候选文本作为第一正样本标签，并将剩余的候选文本作为第一负样本标签，对训练样本集进行更新并利用更新后的训练样本集对文本改写模型进行迭代训练，因此可以在使用文本改写模型进行文本改写的过程中，不断丰富训练样本集的内容并将内容丰富后的训练样本集继续对文本改写模型进行迭代训练，从而可以进一步增强文本改写模型的文本改写能力，使得文本改写模型的文本改写能力能够突破固有训练数据的限制，实现优化闭环；另外，由于会在文本改写模型所输出的多个候选文本中选择一个作为第一正样本标签，因此在文本改写模型每次输出多个候选文本时，都可以选择得到不同的第一正样本标签，使得文本改写模型不再以单一的样本标签作为“参考答案”来进行训练，因此可以使得文本改写模型能够以更优的目标进行迭代训练以学习相对好坏的消息，从而能够提高文本改写模型的文本改写效果以及鲁棒性。

图1是本申请实施例提供的一种实施环境的示意图。参照图1，该实施环境包括第一用户终端101和第一人工智能生成内容服务器102。第一用户终端101和第一人工智能生成内容服务器102通过有线或无线通信方式进行直接或间接的连接，其中，第一用户终端101和第一人工智能生成内容服务器102可以为区块链中的节点，本实施例对此并不作具体限定。

第一用户终端101可以包括但不限于智能手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等智能设备。可选地，第一用户终端101可以安装有人工智能生成内容客户端，通过人工智能生成内容客户端可以访问部署于第一人工智能生成内容服务器102的文本改写模型，从而可以调用该文本改写模型对用户输入的文本进行风格改写。

第一人工智能生成内容服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。其中，第一人工智能生成内容服务器102可以部署有文本改写模型，该文本改写模型能够在保持文本原意不改变的情况下对用户输入的文本进行风格改写。

在一实施例中，第一人工智能生成内容服务器102至少具有调用文本改写模型对文本进行改写、对训练样本集进行更新、利用更新后的训练样本集对文本改写模型进行迭代训练等功能，例如，第一人工智能生成内容服务器102能够在接收到待处理文本和引导提示信息之后，调用文本改写模型根据引导提示信息对待处理文本进行文本改写，得到多个候选文本；当这些候选文本中的一个被选择为目标文本，第一人工智能生成内容服务器102还能够将该目标文本作为第一正样本标签，并将这些候选文本中除目标文本之外的其他候选文本作为第一负样本标签，然后根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新，得到第一更新训练样本集，接着利用第一更新训练样本集对文本改写模型进行迭代训练。

参照图2所示，在一应用场景中，假设第一用户终端101为智能手机，并且第一用户终端101安装有人工智能生成内容客户端；第一人工智能生成内容服务器102是部署有文本改写模型的云端服务器。在用户通过第一用户终端101中的人工智能生成内容客户端使用部署于第一人工智能生成内容服务器102的文本改写模型执行文本改写任务的过程中，响应于用户通过人工智能生成内容客户端输入待处理文本和引导提示信息，第一用户终端101将待处理文本和引导提示信息发送给第一人工智能生成内容服务器102；响应于接收到待处理文本和引导提示信息，第一人工智能生成内容服务器102将待处理文本和引导提示信息输入到文本改写模型，使得文本改写模型根据引导提示信息对待处理文本进行文本改写，得到多个候选文本，然后，第一人工智能生成内容服务器102将这些候选文本发送给第一用户终端101，使得第一用户终端101通过人工智能生成内容客户端将这些候选文本显示给用户；当检测到用户在这些候选文本中选择了一个作为其采纳的改写结果，第一用户终端101将被选择的候选文本发送给第一人工智能生成内容服务器102；响应于接收到被选择的候选文本，第一人工智能生成内容服务器102将被选择的候选文本确定为目标文本，再将该目标文本作为第一正样本标签，并将这些候选文本中除目标文本之外的其他候选文本都作为第一负样本标签，然后根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新，得到第一更新训练样本集，接着利用第一更新训练样本集对文本改写模型进行迭代训练，从而进一步优化文本改写模型的文本改写效果。

图3是本申请实施例提供的另一种实施环境的示意图。参照图3，该实施环境包括第二用户终端301、第二人工智能生成内容服务器302和数据服务器303。第二用户终端301和第二人工智能生成内容服务器302通过有线或无线通信方式进行直接或间接的连接，第二人工智能生成内容服务器302和数据服务器303通过有线或无线通信方式进行直接或间接的连接，其中，第二用户终端301、第二人工智能生成内容服务器302和数据服务器303均可以为区块链中的节点，本实施例对此并不作具体限定。

第二用户终端301可以包括但不限于智能手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等智能设备。可选地，第二用户终端301可以安装有人工智能生成内容客户端，通过人工智能生成内容客户端可以访问部署于第二人工智能生成内容服务器302的文本改写模型，从而可以调用该文本改写模型对用户输入的文本进行风格改写。

第二人工智能生成内容服务器302和数据服务器303均可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN网络以及大数据和人工智能平台等基础云计算服务的云服务器。其中，数据服务器303中可以保存有多种经过训练的网络模型，例如文本改写模型、文本翻译模型、问答模型等，第二人工智能生成内容服务器302可以从数据服务器303中调用相应的网络模型以执行用户发起的文本处理任务，例如，可以从数据服务器303中调用文本改写模型以在保持文本原意不改变的情况下实现对用户输入的文本进行风格改写。

在一实施例中，第二人工智能生成内容服务器302至少具有调用文本改写模型对文本进行改写、对训练样本集进行更新、利用更新后的训练样本集对文本改写模型进行迭代训练等功能，例如，第二人工智能生成内容服务器302能够在接收到待处理文本和引导提示信息之后，从数据服务器303中调用文本改写模型，然后将待处理文本和引导提示信息输入至文本改写模型，使得文本改写模型根据引导提示信息对待处理文本进行文本改写，得到多个候选文本；当这些候选文本中的一个被选择为目标文本，第二人工智能生成内容服务器302还能够将该目标文本作为第一正样本标签，并将这些候选文本中除目标文本之外的其他候选文本作为第一负样本标签，然后根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新，得到第一更新训练样本集，接着利用第一更新训练样本集对文本改写模型进行迭代训练。

参照图4所示，在另一应用场景中，假设第二用户终端301为电脑，并且第二用户终端301安装有人工智能生成内容客户端；数据服务器303保存有经过训练的文本改写模型。在用户通过第二用户终端301中的人工智能生成内容客户端请求第二人工智能生成内容服务器302进行文本改写的过程中，响应于用户通过人工智能生成内容客户端输入待处理文本和引导提示信息，第二用户终端301将待处理文本和引导提示信息发送给第二人工智能生成内容服务器302；响应于接收到待处理文本和引导提示信息，第二人工智能生成内容服务器302根据引导提示信息的要求，从数据服务器303中调用文本改写模型，然后将待处理文本和引导提示信息输入到文本改写模型，使得文本改写模型根据引导提示信息对待处理文本进行文本改写，得到多个候选文本，然后，第二人工智能生成内容服务器302将这些候选文本发送给第二用户终端301，使得第二用户终端301通过人工智能生成内容客户端将这些候选文本显示给用户；当检测到用户在这些候选文本中选择了一个作为其采纳的改写结果，第二用户终端301将被选择的候选文本发送给第二人工智能生成内容服务器302；响应于接收到被选择的候选文本，第二人工智能生成内容服务器302将被选择的候选文本确定为目标文本，再将该目标文本作为第一正样本标签，并将这些候选文本中除目标文本之外的其他候选文本都作为第一负样本标签，然后根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新，得到第一更新训练样本集，接着利用第一更新训练样本集对文本改写模型进行迭代训练，从而进一步优化文本改写模型的文本改写效果。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据目标对象(例如用户等)的属性信息或属性信息集合等与目标对象的特性相关的数据进行相关处理时，都会先获得目标对象的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本申请实施例需要获取目标对象的属性信息时，会通过弹窗或跳转到确认页面等方式获得目标对象的单独许可或者单独同意，在明确获得目标对象的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的目标对象的相关数据。

图5是本申请实施例提供的一种文本处理方法的流程图，该文本处理方法可以由服务器执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法由服务器执行为例进行说明。参照图5，该文本处理方法包括但不限于步骤510至步骤550。

步骤510：接收待处理文本和引导提示信息。

在一实施例中，待处理文本可以是用户输入的文字信息，例如一句话或一篇文章，也可以是用户所上传的文件，此处不作具体限定。

在一实施例中，引导提示信息是为了启动语言模型而提供的文本片段或提示信息。在本实施例中，引导提示信息可以是风格约束信息，用于启动文本改写模型根据引导提示信息的风格约束要求对待处理文本进行风格改写。引导提示信息可以是用户输入或者选择的一个单词、一个短语、一个句子、一个段落或者一整篇文章，此处不作具体限定。当文本改写模型接收到引导提示信息之后，文本改写模型可以根据该引导提示信息对待处理文本进行文本改写，并且文本改写模型会尽可能地使改写后的文本符合引导提示信息中所要求的风格。例如，假设待处理文本的内容为“明天上午10点在大会议室开总结会议。”，引导提示信息的内容为“改写成非正式文本风格”，那么在将该待处理文本和引导提示信息输入至文本改写模型之后，文本改写模型根据该引导提示信息对该待处理文本进行文本改写，可以得到文本改写结果为“明天上午10点，咱们在大会议室开个总结会议哈！别忘了哦！”，也就是说，文本改写模型能够根据引导提示信息的风格约束要求，将原本是正式文本风格的“明天上午10点在大会议室开总结会议。”改写成了非正式风格的“明天上午10点，咱们在大会议室开个总结会议哈！别忘了哦！”，从而能够满足用户的文本改写偏好。

步骤520：调用文本改写模型根据引导提示信息对待处理文本进行文本改写，得到多个候选文本，其中，文本改写模型根据训练样本集训练得到。

在一实施例中，由于引导提示信息能够使文本改写模型根据引导提示信息的风格约束要求对待处理文本进行风格改写，因此，调用文本改写模型根据引导提示信息对待处理文本进行文本改写，可以使得文本改写模型能够按照引导提示信息中的风格约束要求更加准确地对待处理文本进行文本改写，使得文本改写模型所输出的文本改写结果能够更加符合用户所希望的文本风格，从而可以提高用户对文本改写结果的认可度。

在一实施例中，在接收到用户输入的待处理文本和引导提示信息之后，可以调用预先根据训练样本集训练得到的文本改写模型根据引导提示信息对待处理文本进行文本改写，得到多个候选文本，以便于用户可以在这些候选文本中选择符合用户需求的目标文本，从而有利于可以根据用户所选择的目标文本得到新的正样本标签和新的负样本标签，进而有利于可以根据新的正样本标签和新的负样本标签对文本改写模型再次进行迭代训练，进一步提高文本改写模型的文本改写效果。

在一实施例中，对于一个文本来说，对其进行某一风格改写之后，是会有多种不同的文本改写结果的，如果文本改写模型在根据引导提示信息对待处理文本进行文本改写后，只输出一个文本改写结果，那么可能会出现该文本改写结果并不符合用户的期望的情况，但由于文本改写模型只提供了这一个文本改写结果，那么可能会导致用户认为该文本改写模型的改写能力差而不再使用该文本改写模型，或者可能会导致用户重新输入待处理文本和引导提示信息，使得文本改写模型重新根据引导提示信息对待处理文本进行文本改写，这样，不仅会多消耗了文本改写模型的处理资源，并且可能会降低用户对文本改写模型的文本改写能力的认可度。不论导致的结果如何，都会降低用户对该文本改写模型的文本改写能力的认可度，从而不利于该文本改写模型的推广使用。为了解决这个问题，在本实施例中，文本改写模型在根据引导提示信息对待处理文本进行文本改写之后，能够输出多个候选文本，例如，假设文本改写模型根据引导提示信息对待处理文本进行文本改写之后，可以得到3个候选文本，其中，待处理文本的内容为“明天上午10点在大会议室开总结会议。”，引导提示信息的内容为“改写成非正式文本风格”，那么，文本改写模型所输出的3个候选文本可以分别为：“明天上午10点，咱们在大会议室开个总结会议哈！别忘了哦！”、“明天上午10点，大家记得去大会议室开总结会议哈！”、“大家别忘了明天上午10点要在大会议室开总结会议哈！”。对于这3个候选文本，虽然都是非正式文本风格，但是这3个候选文本之间仍然存在不相同之处。其中，第一个候选文本通常用于朋友或同事之间的非正式交流，比较亲切随和；第二个候选文本稍微更简洁一些，也更随和一些，适合用于较为轻松的场合；第三个候选文本更随意，更接近口语化表达。因此，通过输出多个候选文本，能够更有利于用户可以在这些候选文本中选择得到符合其需求的目标文本，从而有利于可以根据用户所选择的目标文本得到新的正样本标签和新的负样本标签，进而有利于可以根据新的正样本标签和新的负样本标签对文本改写模型再次进行迭代训练，进一步提高文本改写模型的文本改写效果。

步骤530：当多个候选文本中的一个被选择为目标文本，将目标文本作为第一正样本标签，并将多个候选文本中除目标文本之外的候选文本作为第一负样本标签。

在一实施例中，在文本改写模型输出多个候选文本之后，可以将这些候选文本显示给用户，当用户在这些候选文本中选择了其中一个，那么该被选择的候选文本会被作为目标文本，也就是说，该目标文本是用户采纳了的文本改写结果，该目标文本更加符合用户的文本改写偏好，所以，可以将该目标文本作为第一正样本标签，而其他剩余的候选文本由于没有被选择，说明其他剩余的候选文本并不符合用户的文本改写偏好，因此可以将这多个候选文本中除目标文本之外的候选文本作为第一负样本标签，以便于后续步骤可以根据第一正样本标签和第一负样本标签对训练样本集进行更新，从而可以利用更新后的训练样本集对文本改写模型再次进行迭代训练，进一步提高文本改写模型的文本改写效果。例如，假设文本改写模型所输出的候选文本包括第一候选文本、第二候选文本和第三候选文本，其中第一候选文本的内容为“明天上午10点，咱们在大会议室开个总结会议哈！别忘了哦！”，第二候选文本的内容为“明天上午10点，大家记得去大会议室开总结会议哈！”，第三候选文本的内容为“大家别忘了明天上午10点要在大会议室开总结会议哈！”，其中第一候选文本被选择为目标文本，那么可以得到第一正样本标签为“明天上午10点，咱们在大会议室开个总结会议哈！别忘了哦！”，第一负样本标签包括“明天上午10点，大家记得去大会议室开总结会议哈！”和“大家别忘了明天上午10点要在大会议室开总结会议哈！”。由于能够在文本改写模型所输出的多个候选文本中选择一个作为第一正样本标签，因此在文本改写模型每次输出多个候选文本时，都可以选择得到不同的第一正样本标签，使得文本改写模型不再以单一的样本标签作为“参考答案”来进行训练，因此可以使得文本改写模型能够以更优的目标进行迭代训练以学习相对好坏的消息，从而能够提高文本改写模型的文本改写效果以及鲁棒性。

在一实施例中，确定多个候选文本中的一个被选择为目标文本，可以有多种不同的实现方式，可以根据实际应用情况进行适当的选择，此处不作具体限定。例如，在文本改写模型输出多个候选文本之后，可以采用多个选项的方式将多个候选文本显示给用户，当用户选择点击了其中一个选项，说明用户选择了该选项对应的候选文本，因此，可以认为用户所选择的选项所对应的候选文本即为目标文本。又如，在文本改写模型输出多个候选文本之后，可以将多个候选文本排列显示给用户，当用户选择了其中一个候选文本而使用鼠标光标选择该候选文本并进行内容复制时，通过检测鼠标光标在屏幕中的坐标位置，并结合用户进行的内容复制的操作，可以确定用户在屏幕中选择了哪个候选文本，因此，可以认为用户所选择的候选文本即为目标文本。

步骤540：根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新，得到第一更新训练样本集。

在一实施例中，在将用户选择的目标文本作为第一正样本标签，并且将这多个候选文本中除目标文本之外的候选文本都作为第一负样本标签之后，可以根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新，得到第一更新训练样本集，以便于后续步骤可以利用第一更新训练样本集对文本改写模型进行迭代训练，从而可以进一步提高文本改写模型的文本改写效果。另外，由于在文本改写模型输出多个候选文本之后，能够将被选择的候选文本作为第一正样本标签，并将剩余的候选文本作为第一负样本标签，对训练样本集进行更新，因此可以在使用文本改写模型进行文本改写的过程中，不断丰富训练样本集的内容，从而有利于可以将内容丰富后的训练样本集继续对文本改写模型进行迭代训练，进而可以进一步增强文本改写模型的文本改写能力，使得文本改写模型的文本改写能力能够突破固有训练数据的限制，实现优化闭环。

在一实施例中，在根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新时，可以将待处理文本、引导提示信息、第一正样本标签和第一负样本标签构建成一个样本对，该样本对的形式可以为“待处理文本+引导提示信息+第一正样本标签+第一负样本标签”，然后将该样本对添加到训练样本集中，实现对训练样本集的更新，从而得到第一更新训练样本集。例如，假设待处理文本的内容为“明天上午10点在大会议室开总结会议。”，引导提示信息的内容为“改写成非正式文本风格”，第一正样本标签为“明天上午10点，咱们在大会议室开个总结会议哈！别忘了哦！”，第一负样本标签包括“明天上午10点，大家记得去大会议室开总结会议哈！”和“大家别忘了明天上午10点要在大会议室开总结会议哈！”，那么，根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签构建得到的样本对可以为““明天上午10点在大会议室开总结会议。”+“改写成非正式文本风格”+“明天上午10点，咱们在大会议室开个总结会议哈！别忘了哦！”+“明天上午10点，大家记得去大会议室开总结会议哈！”、“大家别忘了明天上午10点要在大会议室开总结会议哈！””，然后，可以将““明天上午10点在大会议室开总结会议。”+“改写成非正式文本风格”+“明天上午10点，咱们在大会议室开个总结会议哈！别忘了哦！”+“明天上午10点，大家记得去大会议室开总结会议哈！”、“大家别忘了明天上午10点要在大会议室开总结会议哈！””添加到训练样本集中，得到第一更新训练样本集。

步骤550：利用第一更新训练样本集对文本改写模型进行迭代训练。

在一实施例中，由于已经根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签对训练样本集进行了更新，因此可以利用更新得到的第一更新训练样本集对文本改写模型进行迭代训练，进一步提高文本改写模型的文本改写效果。

本实施例中，通过包括前面步骤510至步骤550的文本处理方法，在获取到待处理文本和引导提示信息之后，调用文本改写模型根据引导提示信息对待处理文本进行文本改写，得到多个候选文本，当多个候选文本中的一个被选择为目标文本，将目标文本作为第一正样本标签，并将多个候选文本中除目标文本之外的候选文本作为第一负样本标签，然后根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新，得到第一更新训练样本集，接着利用第一更新训练样本集对文本改写模型进行迭代训练。由于在文本改写模型输出多个候选文本之后，能够将被选择的候选文本作为第一正样本标签，并将剩余的候选文本作为第一负样本标签，对训练样本集进行更新并利用更新后的训练样本集对文本改写模型进行迭代训练，因此可以在使用文本改写模型进行文本改写的过程中，不断丰富训练样本集的内容并将内容丰富后的训练样本集继续对文本改写模型进行迭代训练，从而可以进一步增强文本改写模型的文本改写能力，使得文本改写模型的文本改写能力能够突破固有训练数据的限制，实现优化闭环；另外，由于会在文本改写模型所输出的多个候选文本中选择一个作为第一正样本标签，因此在文本改写模型每次输出多个候选文本时，都可以选择得到不同的第一正样本标签，使得文本改写模型不再以单一的样本标签作为“参考答案”来进行训练，因此可以使得文本改写模型能够以更优的目标进行迭代训练以学习相对好坏的消息，从而能够提高文本改写模型的文本改写效果以及鲁棒性。

也就是说，本申请实施例能够分别针对相关技术中的有监督微调策略和强化学习策略的弊端，联合“监督学习”和“偏好学习”两个目标同时对文本改写模型进行训练。其中，针对“偏好学习”目标，本申请实施例可以通过离线构建偏好数据(即训练样本集)，结合隐式偏好优化的损失函数，实现简单且易于训练的偏好建模(即文本改写模型)，相比于相关技术中的PPO算法更加高效可控，而相比于相关技术中单纯的监督学习方式更能实现人类偏好对齐，以及从而能够达到更好的风格改写效果。此外，本申请实施例还可以通过后期评估以及在产品应用过程中获取相关的反馈信息，累积更多的偏好数据，从而可以进一步增强文本改写模型的能力，实现优化闭环。

在一实施例中，在调用文本改写模型根据引导提示信息对待处理文本进行文本改写得到多个候选文本之后，如果这多个候选文本中的一个被选择后进行了编辑，说明所有候选文本都没有符合用户的文本改写偏好，但是该被选择的候选文本能够接近用户的文本改写偏好。由于经过用户编辑的候选文本才是符合用户的文本改写偏好的文本，因此可以将编辑后的文本作为第二正样本标签，而由于所有候选文本都没有符合用户的文本改写偏好，因此可以将所有候选文本都作为第二负样本标签，以便于后续步骤可以根据第二正样本标签和第二负样本标签对训练样本集进行更新，从而可以利用更新后的训练样本集对文本改写模型再次进行迭代训练，进一步提高文本改写模型的文本改写效果。例如，假设文本改写模型所输出的候选文本包括第一候选文本、第二候选文本和第三候选文本，其中第一候选文本的内容为“明天上午10点，咱们在大会议室开个总结会议哈！别忘了哦！”，第二候选文本的内容为“明天上午10点，大家记得去大会议室开总结会议哈！”，第三候选文本的内容为“大家别忘了明天上午10点要在大会议室开总结会议哈！”，其中第一候选文本被选择并被修改为“明天上午10点，我们到大会议室开个总结会议！大家记住啦！”，那么可以得到第二正样本标签为“明天上午10点，我们到大会议室开个总结会议！大家记住啦！”，第二负样本标签包括“明天上午10点，咱们在大会议室开个总结会议哈！别忘了哦！”、“明天上午10点，大家记得去大会议室开总结会议哈！”和“大家别忘了明天上午10点要在大会议室开总结会议哈！”。由于能够基于文本改写模型所输出的多个候选文本中得到第二正样本标签，因此在文本改写模型每次输出多个候选文本时，都可以得到不同的第二正样本标签，使得文本改写模型不再以单一的样本标签作为“参考答案”来进行训练，因此可以使得文本改写模型能够以更优的目标进行迭代训练以学习相对好坏的消息，从而能够提高文本改写模型的文本改写效果以及鲁棒性。

在一实施例中，在将用户编辑后的候选文本作为第二正样本标签，并且将这多个候选文本都作为第二负样本标签之后，可以根据待处理文本、引导提示信息、第二正样本标签和第二负样本标签，对训练样本集进行更新，得到第二更新训练样本集，以便于后续步骤可以利用第二更新训练样本集对文本改写模型进行迭代训练，从而可以进一步提高文本改写模型的文本改写效果。另外，由于在文本改写模型输出多个候选文本之后，能够基于文本改写模型所输出的多个候选文本中得到第二正样本标签，并将所有候选文本都作为第二负样本标签，对训练样本集进行更新，因此可以在使用文本改写模型进行文本改写的过程中，不断丰富训练样本集的内容，从而有利于可以将内容丰富后的训练样本集继续对文本改写模型进行迭代训练，进而可以进一步增强文本改写模型的文本改写能力，使得文本改写模型的文本改写能力能够突破固有训练数据的限制，实现优化闭环。

在一实施例中，在根据待处理文本、引导提示信息、第二正样本标签和第二负样本标签，对训练样本集进行更新时，可以将待处理文本、引导提示信息、第二正样本标签和第二负样本标签构建成一个样本对，该样本对的形式可以为“待处理文本+引导提示信息+第二正样本标签+第二负样本标签”，然后将该样本对添加到训练样本集中，实现对训练样本集的更新，从而得到第二更新训练样本集。例如，假设待处理文本的内容为“明天上午10点在大会议室开总结会议。”，引导提示信息的内容为“改写成非正式文本风格”，第二正样本标签为“明天上午10点，我们到大会议室开个总结会议！大家记住啦！”，第二负样本标签包括“明天上午10点，咱们在大会议室开个总结会议哈！别忘了哦！”、“明天上午10点，大家记得去大会议室开总结会议哈！”和“大家别忘了明天上午10点要在大会议室开总结会议哈！”，那么，根据待处理文本、引导提示信息、第二正样本标签和第二负样本标签构建得到的样本对可以为““明天上午10点在大会议室开总结会议。”+“改写成非正式文本风格”+“明天上午10点，我们到大会议室开个总结会议！大家记住啦！”+“明天上午10点，咱们在大会议室开个总结会议哈！别忘了哦！”、“明天上午10点，大家记得去大会议室开总结会议哈！”、“大家别忘了明天上午10点要在大会议室开总结会议哈！””，然后，可以将““明天上午10点在大会议室开总结会议。”+“改写成非正式文本风格”+“明天上午10点，我们到大会议室开个总结会议！大家记住啦！”+“明天上午10点，咱们在大会议室开个总结会议哈！别忘了哦！”、“明天上午10点，大家记得去大会议室开总结会议哈！”、“大家别忘了明天上午10点要在大会议室开总结会议哈！””添加到训练样本集中，得到第二更新训练样本集。

在一实施例中，由于已经根据待处理文本、引导提示信息、第二正样本标签和第二负样本标签对训练样本集进行了更新，因此可以利用更新得到的第二更新训练样本集对文本改写模型进行迭代训练，进一步提高文本改写模型的文本改写效果。

在一实施例中，在练样本集包括训练样本、引导提示样本、正训练样本标签和负训练样本标签的情况下，在根据训练样本集对文本改写模型进行训练时，可以先调用文本改写模型根据引导提示样本对训练样本进行文本改写，得到多个文本改写结果，然后根据正训练样本标签、负训练样本标签和多个文本改写结果，对文本改写模型的模型参数进行更新，并根据多个文本改写结果对训练样本集进行更新，得到第三更新训练样本集，接着利用第三更新训练样本集对模型参数更新后的文本改写模型进行迭代训练。其中，在根据正训练样本标签、负训练样本标签和多个文本改写结果对文本改写模型的模型参数进行更新时，可以优化文本改写模型的模型参数，从而使得优化后的文本改写模型能够具有更好的文本改写能力。

在一实施例中，在根据正训练样本标签、负训练样本标签和多个文本改写结果对文本改写模型的模型参数进行更新时，可以利用正训练样本标签、负训练样本标签和多个文本改写结果，联合“监督学习”和“偏好学习”两个优化目标同时对文本改写模型的模型参数进行更新。其中，“偏好学习”优化目标是基于正训练样本标签和负训练样本标签之间的偏序关系，实现隐式的人类偏好对齐。在根据正训练样本标签、负训练样本标签和多个文本改写结果对文本改写模型的模型参数进行更新时，可以先构建文本改写模型的损失函数，然后通过对损失函数的函数值进行优化从而调整文本改写模型的模型参数。

在一实施例中，可以使用二元交叉熵作为损失函数(即优化目标)来调整文本改写模型的模型参数，从而无需在训练期间对奖励函数进行训练，或者从策略中采样。在本实施例中，损失函数可以参考如下公式(1)所示：

在公式(1)中，y_w是正训练样本标签；y_l是负训练样本标签；π_θ(y|x)和π_ref(y|x)分别表示文本改写模型和参考模型的生成分数；x是训练样本；表示训练样本集；/>表示期望值；σ表示激活函数；β是一个常量；/>是该损失函数的函数值。本实施例中，通过使用奖励函数和最优策略之间的映射(即直接度量给定的奖励函数与给定正训练样本标签的匹配程度，不再需要建模奖励模型)来约束奖励最大化问题，该过程可以直接通过公式(1)所示的单阶段策略训练来实现。

在一实施例中，可以基于“奖励分数数值越靠前的文本改写结果，其对应的模型概率排名也会越靠前”的优化目标来训练文本改写模型。例如，可以先分别求取偏序建模损失L_rank和有监督训练损失L_ft，然后根据偏序建模损失L_rank和有监督训练损失L_ft计算整体损失函数(即整体优化目标)。其中，偏序建模损失L_rank可以根据如下公式(2)计算得到，有监督训练损失L_ft可以根据如下公式(3)计算得到，整体损失函数可以根据如下公式(4)计算得到。

L＝L_rank+L_ft (4)

在上述公式(2)至(4)中，p_i表示第i个文本改写结果的模型概率；p_j表示第j个文本改写结果的模型概率；r_i表示第i个文本改写结果的奖励分数；r_j表示第j个文本改写结果的奖励分数；x是训练样本；y_i′,t是第t步预测时的正训练样本标签；P_π表示文本改写模型的输出概率；L表示整体的损失函数。本实施例中，由于文本改写模型生成文本改写结果的条件对数概率的顺序应该和奖励分数的顺序对齐，即希望文本改写模型对于更好的文本改写结果应该给予更高的概率值，并且给予较差的文本改写结果更低的概率值。因此，可以通过公式(2)求取偏序建模损失L_rank。

在一实施例中，还可以采用公式(5)作为损失函数来对文本改写模型的模型参数进行调整。

在公式(5)中，max(0,δ-logP_θ(y⁺|x)+logP_θ(y^-|x))表示矫正损失(CalibrationLoss)；λlogP_θ(y_ref|x)表示一个交叉熵损失函数；x是训练样本；y⁺是对文本改写模型输出的多个文本改写结果进行排序后确定的偏好结果(即偏向于正训练样本标签的文本改写结果)；y^-是对文本改写模型输出的多个文本改写结果进行排序后确定的非偏好结果(即偏向于负训练样本标签的文本改写结果)；δ是排序损失边界的超参数；y_ref是参考模型输出的目标文本改写结果；λ是正则权重。对于交叉熵损失函数λlogP_θ(y_ref|x)这一部分来说，其优化目标是希望文本改写模型可以尽可能地靠近参考模型，类似于KL散度项，但是这里不需要额外的复制存储参考模型的权重。

在一实施例中，在根据多个文本改写结果对训练样本集进行更新以得到第三更新训练样本集的过程中，可以先在多个文本改写结果中确定目标改写文本，然后根据目标改写文本对正训练样本标签进行更新，并将多个文本改写结果中除目标改写文本之外的文本改写结果添加到负训练样本标签中，得到第三更新训练样本集。例如图6所示，假设训练样本集610原本包括训练样本611、引导提示样本612、正训练样本标签613和负训练样本标签614，文本改写模型输出的多个文本改写结果包括第一文本改写结果621、第二文本改写结果622和第三文本改写结果623，其中第一文本改写结果621被确定为目标改写文本630，此时，可以根据目标改写文本630对正训练样本标签613进行更新，即将正训练样本标签613替换为目标改写文本630，然后将第二文本改写结果622和第三文本改写结果623添加到负训练样本标签614中，此时，即可得到第三更新训练样本集640，该第三更新训练样本集640包括训练样本611、引导提示样本612、目标改写文本630、负训练样本标签614、第二文本改写结果622和第三文本改写结果623，其中目标改写文本630为新的正训练样本标签，负训练样本标签614、第二文本改写结果622和第三文本改写结果623为新的负训练样本标签。

在一实施例中，当在多个文本改写结果中确定目标改写文本时，可以先将训练样本和每个文本改写结果分别构建待评分文本组，然后调用改写质量评分模型对每个待评分文本组分别进行改写质量评分，得到每个文本改写结果的第一改写质量分数，接着将第一改写质量分数最高的文本改写结果确定为目标改写文本。例如图7所示，假设文本改写模型输出的多个文本改写结果包括第四文本改写结果711、第五文本改写结果712和第六文本改写结果713，当将训练样本720和每个文本改写结果分别构建待评分文本组时，可以得到第一待评分文本组731、第二待评分文本组732和第三待评分文本组733，然后，调用改写质量评分模型740分别对第一待评分文本组731、第二待评分文本组732和第三待评分文本组733进行改写质量评分，得到第一待评分文本组731的第一改写质量分数为85，第二待评分文本组732的第一改写质量分数为90，第三待评分文本组733的第一改写质量分数为92，那么可以确定第三待评分文本组733中的第六文本改写结果713为目标改写文本。

在一实施例中，当在多个文本改写结果中确定目标改写文本时，可以先根据预设规则对每个文本改写结果分别进行改写质量评分，得到每个文本改写结果的第二改写质量分数，然后将第二改写质量分数最高的文本改写结果确定为目标改写文本。其中，预设规则可以是基于事实性、风格程度、流畅度、吸引人程度等多个维度进行评估的规则，因此采用预设规则对文本改写结果进行改写质量评分，可以是基于事实性、风格程度、流畅度、吸引人程度等多个维度对文本改写结果进行改写质量评分，例如，可以通过人工评分或者机器评分的方式，基于事实性、风格程度、流畅度、吸引人程度等多个维度对文本改写结果进行改写质量评分。

在一实施例中，当在多个文本改写结果中确定目标改写文本时，可以先将训练样本和每个文本改写结果分别构建待评分文本组，然后调用改写质量评分模型对每个待评分文本组分别进行改写质量评分，得到每个文本改写结果的第一改写质量分数，并且根据预设规则对每个文本改写结果分别进行改写质量评分，得到每个文本改写结果的第二改写质量分数，接着根据第一改写质量分数和第二改写质量分数，在多个文本改写结果中确定目标改写文本。其中，在根据第一改写质量分数和第二改写质量分数以在多个文本改写结果中确定目标改写文本的过程中，可以先将每个文本改写结果的第一改写质量分数和第二改写质量分数进行累加或者加权累加，得到每个文本改写结果的第一改写质量综合分数，然后将第一改写质量综合分数最高的文本改写结果确定为目标改写文本。例如图8所示，假设文本改写模型输出的多个文本改写结果包括第七文本改写结果811、第八文本改写结果812和第九文本改写结果813，当将训练样本820和每个文本改写结果分别构建待评分文本组时，可以得到第四待评分文本组831、第五待评分文本组832和第六待评分文本组833，然后，调用改写质量评分模型840分别对第四待评分文本组831、第五待评分文本组832和第六待评分文本组833进行改写质量评分，得到第四待评分文本组831的第一改写质量分数为90，第五待评分文本组832的第一改写质量分数为92，第六待评分文本组833的第一改写质量分数为85；此时，再根据预设规则对每个文本改写结果分别进行改写质量评分，得到第四待评分文本组831的第二改写质量分数为92，第五待评分文本组832的第二改写质量分数为95，第六待评分文本组833的第二改写质量分数为89；接着，将第四待评分文本组831的第一改写质量分数和第二改写质量分数进行相加，得到第四待评分文本组831的第一改写质量综合分数为182，将第五待评分文本组832的第一改写质量分数和第二改写质量分数进行相加，得到第五待评分文本组832的第一改写质量综合分数为187，将第六待评分文本组833的第一改写质量分数和第二改写质量分数进行相加，得到第六待评分文本组833的第一改写质量综合分数为174，那么可以确定第五待评分文本组832中的第八文本改写结果812为目标改写文本。

在一实施例中，当在多个文本改写结果中确定目标改写文本时，可以先将训练样本和每个文本改写结果分别构建待评分文本组，并在多个待评分文本组中进行多次随机抽样，得到多组抽样结果，其中，每组抽样结果均包括多个待评分文本组，再调用改写质量评分模型对每组抽样结果中的每个待评分文本组分别进行改写质量评分，得到每组抽样结果中的每个文本改写结果的第三改写质量分数，然后对于每个文本改写结果，将在不同组的抽样结果中的第三改写质量分数进行加权平均，得到每个文本改写结果的第二改写质量综合分数，接着将第二改写质量综合分数最高的文本改写结果确定为目标改写文本。例如，假设文本改写模型输出的多个文本改写结果包括文本改写结果A1、文本改写结果A2和文本改写结果A3，在将训练样本A0和每个文本改写结果分别构建待评分文本组之后，可以得到待评分文本组A01、待评分文本组A02和待评分文本组A03，其中待评分文本组A01包括训练样本A0和文本改写结果A1，待评分文本组A02包括训练样本A0和文本改写结果A2，待评分文本组A03包括训练样本A0和文本改写结果A3；然后在这些待评分文本组中进行3次随机抽样，得到3组抽样结果，其中第1组抽样结果包括待评分文本组A01和待评分文本组A02，第2组抽样结果包括待评分文本组A01和待评分文本组A03，第3组抽样结果包括待评分文本组A02和待评分文本组A03；此时，调用改写质量评分模型对每组抽样结果中的每个待评分文本组分别进行改写质量评分，得到每组抽样结果中的每个文本改写结果的第三改写质量分数，其中，得到第1组抽样结果中待评分文本组A01中的文本改写结果A1的第三改写质量分数为80，第1组抽样结果中待评分文本组A02中的文本改写结果A2的第三改写质量分数为82，第2组抽样结果中待评分文本组A01中的文本改写结果A1的第三改写质量分数为82，第2组抽样结果中待评分文本组A03中的文本改写结果A3的第三改写质量分数为78，第3组抽样结果中待评分文本组A02中的文本改写结果A2的第三改写质量分数为81，第3组抽样结果中待评分文本组A03中的文本改写结果A3的第三改写质量分数为80；然后，对于每个文本改写结果，将在不同组的抽样结果中的第三改写质量分数进行加权平均(假设权重全部均为1)，那么可以得到每个文本改写结果的第二改写质量综合分数分别为：文本改写结果A1的第二改写质量综合分数为80+82＝162，文本改写结果A2的第二改写质量综合分数为82+81＝163，文本改写结果A3的第二改写质量综合分数为78+80＝158，那么，可以确定第二改写质量综合分数最高的文本改写结果A2为目标改写文本。

在一实施例中，在构建训练样本集时，可以先获取多个金标样本组，其中，金标样本组包括训练样本、引导提示样本和正训练样本标签，正训练样本标签根据引导提示样本对训练样本进行文本改写得到，再遍历选择每个金标样本组，对于当前选择的金标样本组，在其他的金标样本组中确定训练样本相同的候选金标样本组，然后将候选金标样本组中的正训练样本标签作为负训练样本标签，添加到当前选择的金标样本组中，得到当前选择的金标样本组所对应的训练样本组，接着根据遍历选择所有金标样本组之后得到的所有训练样本组，构建得到训练样本集。例如，假设多个金标样本组包括金标样本组B1和金标样本组C1，其中金标样本组B1包括训练样本B11、引导提示样本B12和正训练样本标签B13，金标样本组C1包括训练样本B11、引导提示样本C12和正训练样本标签C13，那么，对于金标样本组B1来说，由于金标样本组C1与金标样本组B1具有相同的训练样本B11，那么可以确定金标样本组C1是候选金标样本组，此时，可以将金标样本组C1中的正训练样本标签C13作为金标样本组B1的负训练样本标签，添加到金标样本组B1之中，即可得到金标样本组B1所对应的训练样本组为“训练样本B11+引导提示样本B12+正训练样本标签B13(正样本标签)+正训练样本标签C13(负样本标签)”。对于金标样本组C1所对应的训练样本组的构建，可以参考对于金标样本组B1所对应的训练样本组的构建，此处不再赘述。

在一实施例中，在构建训练样本集时，还可以先获取多个金标样本组，其中，金标样本组包括训练样本、引导提示样本和正训练样本标签，正训练样本标签根据引导提示样本对训练样本进行文本改写得到，然后对于每个金标样本组，根据与引导提示样本不同的引导提示信息对训练样本进行文本改写，得到改写后文本，将改写后文本作为负训练样本标签添加到金标样本组中，得到每个金标样本组对应的训练样本组，接着根据所有金标样本组对应的训练样本组，构建得到训练样本集。例如，假设一个金标样本组D1，包括训练样本D11、引导提示样本D12和正训练样本标签D13，那么，对于该金标样本组D1，可以先获取与引导提示样本D12不同的引导提示信息E1，然后根据引导提示信息E对训练样本D11进行文本改写，得到改写后文本E12，接着将改写后文本E12作为负训练样本标签添加到金标样本组D1中，即可得到金标样本组D1所对应的训练样本组为“训练样本D11+引导提示样本D12+正训练样本标签D13(正样本标签)+改写后文本E12(负样本标签)”。

下面以具体的例子对本申请实施例所提供的文本处理方法进行详细的说明。

参照图9所示，图9是一个具体例子提供的文本处理方法的流程示意图。在图9中，该文本处理方法可以包括四大部分：样本构建部分910、模型训练部分920、质量评估部分930和数据扩充部分940。

在样本构建部分910中，可以预先获取成对的风格改写金标数据(即金标样本组)，该成对的风格改写金标数据的形式可以为“改写前文本+风格约束+风格改写后文本”，其中，“改写前文本”即是训练样本；“风格约束”即是引导提示信息，用于限制改写后的文本所属的文本风格；“风格改写后文本”即是训练样本的正训练样本标签。然后，可以采用以下4种方式中的任意一种或多种，构建训练样本的负训练样本标签：

(1)基于规则改写或模型改写构建负训练样本标签；

(2)利用用户未采纳的数据构建负训练样本标签；

(3)利用用户编辑前的数据构建负训练样本标签；

(4)基于人工智能生成内容模型或人工标注的方式构建负训练样本标签。

当采用基于规则改写或模型改写的方式构建负训练样本标签时，在成对的风格改写金标数据的数量为多个的情况下，可以将每一个金标数据分别作为“种子样本”，然后针对每个“种子样本”，分别构造一批相对低质量的样本，接着将构造得到的相对低质量的样本作为对应的“种子样本”的负训练样本标签。当采用基于规则改写的方式构建负训练样本标签时，例如给定风格A的改写任务和改写前文本，那么可以在其他金标数据中选择其他风格(例如风格B)但语义相同或相似的风格改写后文本作为该改写前文本的负训练样本标签，或者可以在其他金标数据中选择同类风格但不同语义的风格改写后文本作为该改写前文本的负训练样本标签。当采用基于模型改写的方式构建负训练样本标签时，对于每个金标数据，可以调用自然语言模型对金标数据中的改写前文本进行文本改写，或者对金标数据中的风格改写后文本进行文本改写，从而可以得到每个金标数据所对应的负训练样本标签。

当利用用户未采纳的数据构建负训练样本标签时，在用户使用文本改写模型对其输入的文本进行改写得到多个候选文本后，将用户采纳的候选文本作为正训练样本标签，而剩下的没有被选择的候选文本，都会被作为负训练样本标签。

当利用用户编辑前的数据构建负训练样本标签时，在用户使用文本改写模型对其输入的文本进行改写得到多个候选文本后，当用户选择了其中一个候选文本并对选择的候选文本进行了编辑，那么用户编辑后的文本会被作为正训练样本标签，而编辑前的文本和没有被选择的候选文本(即全部候选文本)，都会被作为负训练样本标签。

当采用基于人工智能生成内容模型或人工标注的方式构建负训练样本标签时，在用户使用文本改写模型对其输入的文本进行改写得到多个候选文本后，可以将用户输入的文本分别与各个候选文本组成文本对，然后将每个文本对分别输入至人工智能生成内容模型进行改写质量评估，得到各个候选文本的评估分数，接着将评估分数最高的候选文本作为正训练样本标签，并将其他的候选文本都作为负训练样本标签；或者，可以采用人工标注的方式，在所有候选文本中选择最优的一个作为正训练样本标签，并将剩余的其他候选文本都作为负训练样本标签。

在构建完成训练样本的负训练样本标签之后，将金标数据及其对应的负训练样本标签进行结合，即可得到用于对文本改写模型进行训练的偏好样本集(即训练样本集)，其中，偏好样本集中每个偏好样本的形式均可为“改写前文本+风格约束+风格改写后文本(正训练样本标签)+改写后文本(负训练样本标签)”。

在模型训练部分920中，可以利用样本构建部分910中得到的偏好样本集，联合“偏好学习”和“监督学习”两个优化目标，同时对文本改写模型进行训练。

在质量评估部分930中，可以利用人工智能生成内容模型或人工标注的方式对文本的改写质量进行评估。例如，在对文本改写模型进行训练的过程中，每当文本改写模型根据训练样本输出多个文本改写结果时，可以将训练样本分别和每个文本改写结果组成文本对，然后将每个文本对分别输入至人工智能生成内容模型，使得人工智能生成内容模型从例如事实性、风格程度、流畅度、吸引人程度等多个维度进行改写质量评估，得到各个文本改写结果的评估分数，接着将评估分数最高的文本改写结果作为待更新的正训练样本标签，并将剩余的其他文本改写结果作为待更新的负训练样本标签；或者，可以采用人工标注的方式，在所有文本改写结果中选择最优的一个作为待更新的正训练样本标签，并将剩余的其他文本改写结果作为待更新的负训练样本标签。

在数据扩充部分940中，当在质量评估部分930中确定了待更新的正训练样本标签和负训练样本标签之后，可以将待更新的正训练样本标签替换训练样本原来的正训练样本标签，并将训练样本原来的正训练样本标签作为新的负训练样本标签，然后将待更新的负训练样本标签添加到该训练样本所处的偏好样本中，完成对偏好样本集的更新，然后基于更新后的偏好样本集对文本改写模型进行下一轮迭代训练。

参照图10所示，图10是一个具体例子提供的文本处理方法的具体流程图。在图10中，该文本处理方法可以包括但不限于步骤1001至步骤1025。

步骤1001：获取多个金标样本组，其中金标样本组包括训练样本、引导提示样本和正训练样本标签，然后执行步骤1002和步骤1005。

本步骤中，正训练样本标签可以根据引导提示样本对训练样本进行文本改写而得到。

步骤1002：遍历选择每个金标样本组，对于当前选择的金标样本组，在其他的金标样本组中确定训练样本相同的候选金标样本组。

步骤1003：将候选金标样本组中的正训练样本标签作为负训练样本标签，添加到当前选择的金标样本组中，得到当前选择的金标样本组所对应的训练样本组。

步骤1004：根据遍历选择所有金标样本组之后得到的所有训练样本组，构建得到训练样本集，然后执行步骤1007。

步骤1005：对于每个金标样本组，根据与引导提示样本不同的引导提示信息对训练样本进行文本改写，得到改写后文本，将改写后文本作为负训练样本标签添加到金标样本组中，得到每个金标样本组对应的训练样本组。

步骤1006：根据所有金标样本组对应的训练样本组，构建得到训练样本集，然后执行步骤1007。

步骤1007：调用文本改写模型根据引导提示样本对训练样本进行文本改写，得到多个文本改写结果。

步骤1008：根据正训练样本标签、负训练样本标签和多个文本改写结果，对文本改写模型的模型参数进行更新。

步骤1009：判断所采用的对文本改写结果进行改写质量评分的方式，当采用改写质量评分模型进行改写质量评分，执行步骤1010；当采用预设规则进行改写质量评分，执行步骤1011；当采用模型结合规则的方式进行改写质量评分，执行步骤1012；当采用随机抽样的方式进行改写质量评分，执行步骤1014。

本步骤中，预设规则可以是基于事实性、风格程度、流畅度、吸引人程度等多个维度进行评估的规则，因此采用预设规则对文本改写结果进行改写质量评分，可以是基于事实性、风格程度、流畅度、吸引人程度等多个维度对文本改写结果进行改写质量评分。

步骤1010：将训练样本和每个文本改写结果分别构建待评分文本组，然后调用改写质量评分模型对每个待评分文本组分别进行改写质量评分，得到每个文本改写结果的第一改写质量分数，接着将第一改写质量分数最高的文本改写结果确定为目标改写文本，然后执行步骤1015。

步骤1011：根据预设规则对每个文本改写结果分别进行改写质量评分，得到每个文本改写结果的第二改写质量分数，然后将第二改写质量分数最高的文本改写结果确定为目标改写文本，然后执行步骤1015。

步骤1012：将训练样本和每个文本改写结果分别构建待评分文本组，然后调用改写质量评分模型对每个待评分文本组分别进行改写质量评分，得到每个文本改写结果的第一改写质量分数，并且根据预设规则对每个文本改写结果分别进行改写质量评分，得到每个文本改写结果的第二改写质量分数。

步骤1013：将每个文本改写结果的第一改写质量分数和第二改写质量分数进行累加或者加权累加，得到每个文本改写结果的第一改写质量综合分数，然后将第一改写质量综合分数最高的文本改写结果确定为目标改写文本，然后执行步骤1015。

步骤1014：先将训练样本和每个文本改写结果分别构建待评分文本组，再在多个待评分文本组中进行多次随机抽样，得到多组抽样结果，其中，每组抽样结果均包括多个待评分文本组，然后调用改写质量评分模型对每组抽样结果中的每个待评分文本组分别进行改写质量评分，得到每组抽样结果中的每个文本改写结果的第三改写质量分数，接着，对于每个文本改写结果，将在不同组的抽样结果中的第三改写质量分数进行加权平均，得到每个文本改写结果的第二改写质量综合分数，并将第二改写质量综合分数最高的文本改写结果确定为目标改写文本，然后执行步骤1015。

步骤1015：根据目标改写文本对正训练样本标签进行更新，并将多个文本改写结果中除目标改写文本之外的文本改写结果添加到负训练样本标签中，得到第三更新训练样本集。

步骤1016：利用第三更新训练样本集对模型参数更新后的文本改写模型进行迭代训练。

步骤1017：接收待处理文本和引导提示信息。

步骤1018：调用训练后的文本改写模型根据引导提示信息对待处理文本进行文本改写，得到多个候选文本。

步骤1019：判断多个候选文本中的一个是否被选择为目标文本，或者多个候选文本中的一个是否被选择后进行了编辑，如果多个候选文本中的一个被选择为目标文本，执行步骤1020；如果多个候选文本中的一个被选择后进行了编辑，执行步骤1023。

步骤1020：将目标文本作为第一正样本标签，并将多个候选文本中除目标文本之外的候选文本作为第一负样本标签。

步骤1021：根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新，得到第一更新训练样本集。

步骤1022：利用第一更新训练样本集对文本改写模型进行迭代训练，然后执行步骤1017。

步骤1023：将编辑后的文本作为第二正样本标签，并将多个候选文本作为第二负样本标签。

步骤1024：根据待处理文本、引导提示信息、第二正样本标签和第二负样本标签，对训练样本集进行更新，得到第二更新训练样本集。

步骤1025：利用第二更新训练样本集对文本改写模型进行迭代训练，然后执行步骤1017。

本实施例中，通过上述步骤1001至步骤1025的文本处理方法，在获取到待处理文本和引导提示信息之后，调用经过训练的文本改写模型根据引导提示信息对待处理文本进行文本改写，得到多个候选文本，当多个候选文本中的一个被选择为目标文本，将目标文本作为第一正样本标签，并将多个候选文本中除目标文本之外的候选文本作为第一负样本标签，然后根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新，得到第一更新训练样本集，接着利用第一更新训练样本集对文本改写模型进行迭代训练。由于在文本改写模型输出多个候选文本之后，能够将被选择的候选文本作为第一正样本标签，并将剩余的候选文本作为第一负样本标签，对训练样本集进行更新并利用更新后的训练样本集对文本改写模型进行迭代训练，因此可以在使用文本改写模型进行文本改写的过程中，不断丰富训练样本集的内容并将内容丰富后的训练样本集继续对文本改写模型进行迭代训练，从而可以进一步增强文本改写模型的文本改写能力，使得文本改写模型的文本改写能力能够突破固有训练数据的限制，实现优化闭环；另外，由于会在文本改写模型所输出的多个候选文本中选择一个作为第一正样本标签，因此在文本改写模型每次输出多个候选文本时，都可以选择得到不同的第一正样本标签，使得文本改写模型不再以单一的样本标签作为“参考答案”来进行训练，因此可以使得文本改写模型能够以更优的目标进行迭代训练以学习相对好坏的消息，从而能够提高文本改写模型的文本改写效果以及鲁棒性。

下面以一些实际例子说明本申请实施例的应用场景。

需要说明的是，本申请实施例提供的文本处理方法可应用于新闻稿件改写或商品介绍改写等不同的应用场景，下面以新闻稿件改写场景和商品介绍改写场景为例进行说明。

场景一

本申请实施例提供的文本处理方法可以应用于新闻稿件改写场景，例如，当新闻记者希望将其速记的新闻初稿改写成正式的新闻稿件时，新闻记者可以通过终端中的人工智能生成内容客户端将该新闻初稿以及引导提示信息(即风格正式的约束要求)发送到人工智能生成内容服务器进行文本改写。当接收到人工智能生成内容客户端发送的新闻初稿以及引导提示信息，人工智能生成内容服务器先调用文本改写模型根据引导提示信息对新闻初稿进行文本改写，得到多个候选文本，然后将这些候选文本发送给终端，使得终端通过人工智能生成内容客户端将这些候选文本显示给新闻记者；当检测到新闻记者在这些候选文本中选择了一个作为其采纳的改写结果，终端将被选择的候选文本发送给人工智能生成内容服务器；响应于接收到被选择的候选文本，人工智能生成内容服务器将被选择的候选文本确定为目标文本，再将该目标文本作为第一正样本标签，并将这些候选文本中除目标文本之外的其他候选文本都作为第一负样本标签，然后根据原始的新闻初稿、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新，得到第一更新训练样本集，接着利用第一更新训练样本集对文本改写模型进行迭代训练，从而进一步优化文本改写模型的文本改写效果。

场景二

本申请实施例提供的文本处理方法也可以应用于商品介绍改写场景，例如，当商家计划将其商品的商品介绍从严肃风格改写成俏皮风格，从而希望能够提高消费者对其商品的购买欲望时，商家可以通过终端中的人工智能生成内容客户端将该商品介绍以及引导提示信息(即风格俏皮的约束要求)发送到人工智能生成内容服务器进行文本改写。当接收到人工智能生成内容客户端发送的商品介绍以及引导提示信息，人工智能生成内容服务器先调用文本改写模型根据引导提示信息对商品介绍进行文本改写，得到多个候选文本，然后将这些候选文本发送给终端，使得终端通过人工智能生成内容客户端将这些候选文本显示给商家；当检测到商家在这些候选文本中选择了一个作为其采纳的改写结果，终端将被选择的候选文本发送给人工智能生成内容服务器；响应于接收到被选择的候选文本，人工智能生成内容服务器将被选择的候选文本确定为目标文本，再将该目标文本作为第一正样本标签，并将这些候选文本中除目标文本之外的其他候选文本都作为第一负样本标签，然后根据原始的商品介绍、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新，得到第一更新训练样本集，接着利用第一更新训练样本集对文本改写模型进行迭代训练，从而进一步优化文本改写模型的文本改写效果。

可以理解的是，虽然上述各个流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时间执行完成，而是可以在不同的时间执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

参照图11，本申请实施例还公开了一种文本处理装置，该文本处理装置1100能够实现前面实施例中的文本处理方法，该文本处理装置1100包括：

文本获取单元1110，用于接收待处理文本和引导提示信息；

第一文本改写单元1120，用于调用文本改写模型根据引导提示信息对待处理文本进行文本改写，得到多个候选文本，其中，文本改写模型根据训练样本集训练得到；

第一标签确定单元1130，用于当多个候选文本中的一个被选择为目标文本，将目标文本作为第一正样本标签，并将多个候选文本中除目标文本之外的候选文本作为第一负样本标签；

第一样本更新单元1140，用于根据待处理文本、引导提示信息、第一正样本标签和第一负样本标签，对训练样本集进行更新，得到第一更新训练样本集；

第一模型训练单元1150，用于利用第一更新训练样本集对文本改写模型进行迭代训练。

在一实施例中，文本处理装置1100还包括：

第二标签确定单元，用于当多个候选文本中的一个被选择后进行了编辑，将编辑后的文本作为第二正样本标签，并将多个候选文本作为第二负样本标签；

第二样本更新单元，用于根据待处理文本、引导提示信息、第二正样本标签和第二负样本标签，对训练样本集进行更新，得到第二更新训练样本集；

第二模型训练单元，用于利用第二更新训练样本集对文本改写模型进行迭代训练。

在一实施例中，训练样本集包括训练样本、引导提示样本、正训练样本标签和负训练样本标签；文本处理装置1100还包括：

第二文本改写单元，用于调用文本改写模型根据引导提示样本对训练样本进行文本改写，得到多个文本改写结果；

模型参数更新单元，用于根据正训练样本标签、负训练样本标签和多个文本改写结果，对文本改写模型的模型参数进行更新；

第三样本更新单元，用于根据多个文本改写结果对训练样本集进行更新，得到第三更新训练样本集；

第三模型训练单元，用于利用第三更新训练样本集对模型参数更新后的文本改写模型进行迭代训练。

在一实施例中，第三样本更新单元还用于：

在多个文本改写结果中确定目标改写文本；

根据目标改写文本对正训练样本标签进行更新，并将多个文本改写结果中除目标改写文本之外的文本改写结果添加到负训练样本标签中，得到第三更新训练样本集。

在一实施例中，第三样本更新单元还用于：

将训练样本和每个文本改写结果分别构建待评分文本组；

调用改写质量评分模型对每个待评分文本组分别进行改写质量评分，得到每个文本改写结果的第一改写质量分数；

将第一改写质量分数最高的文本改写结果确定为目标改写文本。

在一实施例中，第三样本更新单元还用于：

根据预设规则对每个文本改写结果分别进行改写质量评分，得到每个文本改写结果的第二改写质量分数；

将第二改写质量分数最高的文本改写结果确定为目标改写文本。

在一实施例中，第三样本更新单元还用于：

将训练样本和每个文本改写结果分别构建待评分文本组；

根据第一改写质量分数和第二改写质量分数，在多个文本改写结果中确定目标改写文本。

在一实施例中，第三样本更新单元还用于：

将每个文本改写结果的第一改写质量分数和第二改写质量分数进行累加或者加权累加，得到每个文本改写结果的第一改写质量综合分数；

将第一改写质量综合分数最高的文本改写结果确定为目标改写文本。

在一实施例中，第三样本更新单元还用于：

将训练样本和每个文本改写结果分别构建待评分文本组；

在多个待评分文本组中进行多次随机抽样，得到多组抽样结果，其中，每组抽样结果均包括多个待评分文本组；

调用改写质量评分模型对每组抽样结果中的每个待评分文本组分别进行改写质量评分，得到每组抽样结果中的每个文本改写结果的第三改写质量分数；

对于每个文本改写结果，将在不同组的抽样结果中的第三改写质量分数进行加权平均，得到每个文本改写结果的第二改写质量综合分数；

将第二改写质量综合分数最高的文本改写结果确定为目标改写文本。

在一实施例中，文本处理装置1100还包括：

第一样本获取单元，用于获取多个金标样本组，其中，金标样本组包括训练样本、引导提示样本和正训练样本标签，正训练样本标签根据引导提示样本对训练样本进行文本改写得到；

第一样本确定单元，用于遍历选择每个金标样本组，对于当前选择的金标样本组，在其他的金标样本组中确定训练样本相同的候选金标样本组；

第一样本处理单元，用于将候选金标样本组中的正训练样本标签作为负训练样本标签，添加到当前选择的金标样本组中，得到当前选择的金标样本组所对应的训练样本组；

第一样本构建单元，用于根据遍历选择所有金标样本组之后得到的所有训练样本组，构建得到训练样本集。

在一实施例中，文本处理装置1100还包括：

第二样本获取单元，用于获取多个金标样本组，其中，金标样本组包括训练样本、引导提示样本和正训练样本标签，正训练样本标签根据引导提示样本对训练样本进行文本改写得到；

第二样本处理单元，用于对于每个金标样本组，根据与引导提示样本不同的引导提示信息对训练样本进行文本改写，得到改写后文本，将改写后文本作为负训练样本标签添加到金标样本组中，得到每个金标样本组对应的训练样本组；

第二样本构建单元，用于根据所有金标样本组对应的训练样本组，构建得到训练样本集。

需要说明的是，由于本实施例的文本处理装置1100能够实现如前面实施例的文本处理方法，因此本实施例的文本处理装置1100与前面实施例的文本处理方法，具有相同的技术原理以及相同的有益效果，为了避免内容重复，此处不再赘述。

参照图12，本申请实施例还公开了一种电子设备，该电子设备1200包括：

至少一个处理器1201；

至少一个存储器1202，用于存储至少一个程序；

当至少一个程序被至少一个处理器1201执行时，实现如前面的文本处理方法。

本申请实施例还公开了一种计算机可读存储介质，其中存储有处理器可执行的计算机程序，处理器可执行的计算机程序被处理器执行时，用于实现如前面的文本处理方法。

本申请实施例还公开了一种计算机程序产品，包括计算机程序或计算机指令，计算机程序或计算机指令存储在计算机可读存储介质中，电子设备的处理器从计算机可读存储介质读取计算机程序或计算机指令，处理器执行计算机程序或计算机指令，使得电子设备执行如前面的文本处理方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的，一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器或者网络装置等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于上述方法实施例中的步骤编号，仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

Claims

1.一种文本处理方法，其特征在于，包括以下步骤：

接收待处理文本和引导提示信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当多个所述候选文本中的一个被选择后进行了编辑，将编辑后的文本作为第二正样本标签，并将多个所述候选文本作为第二负样本标签；

根据所述待处理文本、所述引导提示信息、所述第二正样本标签和所述第二负样本标签，对所述训练样本集进行更新，得到第二更新训练样本集；

利用所述第二更新训练样本集对所述文本改写模型进行迭代训练。

3.根据权利要求1所述的方法，其特征在于，所述训练样本集包括训练样本、引导提示样本、正训练样本标签和负训练样本标签；

根据所述训练样本集对所述文本改写模型进行训练的过程，包括以下步骤：

调用所述文本改写模型根据所述引导提示样本对所述训练样本进行文本改写，得到多个文本改写结果；

根据所述正训练样本标签、所述负训练样本标签和多个所述文本改写结果，对所述文本改写模型的模型参数进行更新；

根据多个所述文本改写结果对所述训练样本集进行更新，得到第三更新训练样本集；

利用所述第三更新训练样本集对所述模型参数更新后的所述文本改写模型进行迭代训练。

4.根据权利要求3所述的方法，其特征在于，所述根据多个所述文本改写结果对所述训练样本集进行更新，得到第三更新训练样本集，包括：

在多个所述文本改写结果中确定目标改写文本；

5.根据权利要求4所述的方法，其特征在于，所述在多个所述文本改写结果中确定目标改写文本，包括：

6.根据权利要求4所述的方法，其特征在于，所述在多个所述文本改写结果中确定目标改写文本，包括：

7.根据权利要求4所述的方法，其特征在于，所述在多个所述文本改写结果中确定目标改写文本，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一改写质量分数和所述第二改写质量分数，在多个所述文本改写结果中确定目标改写文本，包括：

9.根据权利要求4所述的方法，其特征在于，所述在多个所述文本改写结果中确定目标改写文本，包括：

10.根据权利要求1所述的方法，其特征在于，所述训练样本集由以下步骤构建得到：

获取多个金标样本组，其中，所述金标样本组包括训练样本、引导提示样本和正训练样本标签，所述正训练样本标签根据所述引导提示样本对所述训练样本进行文本改写得到；

遍历选择每个所述金标样本组，对于当前选择的所述金标样本组，在其他的所述金标样本组中确定所述训练样本相同的候选金标样本组；

将所述候选金标样本组中的所述正训练样本标签作为负训练样本标签，添加到当前选择的所述金标样本组中，得到当前选择的所述金标样本组所对应的训练样本组；

根据遍历选择所有所述金标样本组之后得到的所有所述训练样本组，构建得到所述训练样本集。

11.根据权利要求1所述的方法，其特征在于，所述训练样本集由以下步骤构建得到：

对于每个所述金标样本组，根据与所述引导提示样本不同的引导提示信息对所述训练样本进行文本改写，得到改写后文本，将所述改写后文本作为负训练样本标签添加到所述金标样本组中，得到每个所述金标样本组对应的训练样本组；

根据所有所述金标样本组对应的所述训练样本组，构建得到所述训练样本集。

12.一种文本处理装置，其特征在于，包括：

文本获取单元，用于接收待处理文本和引导提示信息；

13.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如权利要求1至11任意一项所述的文本处理方法。

14.一种计算机可读存储介质，其特征在于，其中存储有处理器可执行的计算机程序，所述处理器可执行的计算机程序被处理器执行时用于实现如权利要求1至11任意一项所述的文本处理方法。

15.一种计算机程序产品，包括计算机程序或计算机指令，其特征在于，所述计算机程序或所述计算机指令存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令，所述处理器执行所述计算机程序或所述计算机指令，使得所述电子设备执行如权利要求1至11任意一项所述的文本处理方法。