CN116992875B

CN116992875B - 文本生成方法、装置、计算机设备和存储介质

Info

Publication number: CN116992875B
Application number: CN202311263225.1A
Authority: CN
Inventors: 费军波; 张丽颖; 朱健; 曾令仿; 程稳; 陈�光
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-01-09
Anticipated expiration: 2043-09-27
Also published as: CN116992875A

Abstract

本申请涉及一种文本生成方法、装置、计算机设备和存储介质。所述方法包括：基于关键词数据集训练初始文本生成模型，所述关键词数据集包括参考关键词以及参考文本，将所述参考关键词输入所述初始文本生成模型，得到初始模型生成文本，将所述初始模型生成文本以及初始拼接文本作为关键词中文对比数据集，基于所述关键词中文对比数据集和标准中文对比数据集训练文本生成奖励模型，基于所述初始文本生成模型和文本生成奖励模型确定目标文本生成模型，将候选关键词输入所述目标文本生成模型，得到目标生成文本。不仅保证了关键词一定出现在生成文本中，还提高了生成文本的语义准确性。

Description

文本生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及文本生成技术领域，特别是涉及一种文本生成方法、装置、计算机设备和存储介质。

背景技术

文本生成作为自然语言处理技术的一个重要应用领域，利用自然语言处理技术，通过对大量文本数据的学习和理解，以及对语言规律的掌握，自动生成符合语法和语义要求的文本内容。随着文本生成技术的发展，其已经被广泛应用到各个领域中，比如文学创作、新闻报道、摘要生成、知识图谱构建、智能问答、机器翻译、聊天机器人等。通过自动生成文本内容，可以大大提高内容生产效率，降低生产成本。

然而，利用一般模型生成文本得到的内容不可控的缺点也越来越明显。在一些例如体育、财经、气象等应用领域，文本生成模型通常需要将结构化数据中的关键词准确、无遗漏的包含到生成文本中进行任务型问答或报道，因此，“受控”成为文本生成的一个重要要求标准。现有技术中，通常从“约束”入手，采用“硬约束”和“软约束”两种方法解决生成文本“受控”问题。其中，“硬约束”指基于关键词插入，保证给定的关键词一定出现在生成文本中，但在语义正确、语句通顺方面表现较差，“软约束”指通过特定的方法例如提示学习、监督学习等，使生成文本尽量包含给定的句子和词语中所含有的意思，但不能保证生成文本一定包含给定关键词。

因此，相关技术中亟需一种能够保证关键词覆盖率，同时提高生成文本的语义准确性的方式。

发明内容

基于此，有必要针对上述技术问题，提供一种能够保证关键词覆盖率，同时提高生成文本的语义准确性的文本生成方法、装置、计算机设备和计算机可读存储介质。

第一方面，本申请提供了一种文本生成方法。所述方法包括：

基于关键词数据集训练初始文本生成模型，所述关键词数据集包括参考关键词以及参考文本；

将所述参考关键词输入所述初始文本生成模型，得到初始模型生成文本，将所述初始模型生成文本以及初始拼接文本作为关键词中文对比数据集，其中，所述初始拼接文本通过对所述参考关键词拼接得到；

基于所述关键词中文对比数据集和标准中文对比数据集训练文本生成奖励模型；

基于所述初始文本生成模型和文本生成奖励模型确定目标文本生成模型；

将候选关键词输入所述目标文本生成模型，得到目标生成文本。

可选的，在本申请的一个实施例中，所述将所述参考关键词输入所述初始文本生成模型，得到初始模型生成文本，将所述初始模型生成文本以及初始拼接文本作为关键词中文对比数据集包括：

将所述参考关键词输入所述初始文本生成模型，得到至少两个所述初始模型生成文本；

基于所述参考关键词和所述初始模型生成文本确定参考关键词覆盖率；

基于所述参考关键词覆盖率确定至少两个所述初始模型生成文本在所述关键词中文对比数据集中的排序。

可选的，在本申请的一个实施例中，所述基于所述初始文本生成模型和文本生成奖励模型确定目标文本生成模型包括：

基于所述参考关键词覆盖率和初始模型生成文本的长度确定参考规则评分；

将所述初始模型生成文本输入所述文本生成奖励模型，得到参考奖励评分；

基于所述参考规则评分和参考奖励评分确定目标文本生成模型。

可选的，在本申请的一个实施例中，所述文本生成奖励模型包括编码模块和评分模块，所述基于所述关键词中文对比数据集和标准中文对比数据集训练文本生成奖励模型包括：

将所述关键词中文对比数据集和标准中文对比数据集分别输入所述编码模块，得到关键词中文文本向量和标准中文文本向量；

基于所述关键词中文文本向量以及标准中文文本向量训练所述评分模块。

可选的，在本申请的一个实施例中，所述基于所述关键词中文文本向量以及标准中文文本向量训练所述评分模块包括：

将所述关键词中文文本向量输入所述评分模块，得到评分结果，并基于所述评分结果与预设评分确定损失函数，所述预设评分基于所述标准中文文本向量确定，所述损失函数与关键词覆盖率相关；

基于所述损失函数调整所述评分模块的模型参数。

可选的，在本申请的一个实施例中，所述将候选关键词输入所述目标文本生成模型，得到目标生成文本包括：

将所述候选关键词输入所述目标文本生成模型，得到目标模型生成文本数据集；

基于所述候选关键词、目标模型生成文本数据集以及文本生成奖励模型确定目标评分；

基于所述目标评分确定目标生成文本。

可选的，在本申请的一个实施例中，所述基于所述候选关键词、目标模型生成文本数据集以及文本生成奖励模型确定目标评分包括：

基于所述候选关键词和目标模型生成文本数据集确定候选关键词覆盖率，基于所述候选关键词覆盖率和目标模型生成文本数据集确定候选规则评分；

将所述目标模型生成文本数据集输入所述文本生成奖励模型，得到候选奖励评分；

基于所述候选规则评分和候选奖励评分确定目标评分。

第二方面，本申请还提供了一种文本生成装置。所述装置包括：

初始文本生成模型训练模块，用于基于关键词数据集训练初始文本生成模型，所述关键词数据集包括参考关键词以及参考文本；

关键词中文对比数据集确定模块，用于将所述参考关键词输入所述初始文本生成模型，得到初始模型生成文本，将所述初始模型生成文本以及初始拼接文本作为关键词中文对比数据集，其中，所述初始拼接文本通过对所述参考关键词拼接得到；

文本生成奖励模型训练模块，用于基于所述关键词中文对比数据集和标准中文对比数据集训练文本生成奖励模型；

目标文本生成模型确定模块，用于基于所述初始文本生成模型和文本生成奖励模型确定目标文本生成模型；

目标生成文本确定模块，用于将候选关键词输入所述目标文本生成模型，得到目标生成文本。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行上述各个实施例所述方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个实施例所述方法的步骤。

上述文本生成方法、装置、计算机设备和存储介质，首先，基于关键词数据集训练初始文本生成模型，所述关键词数据集包括参考关键词以及参考文本，之后，将所述参考关键词输入所述初始文本生成模型，得到初始模型生成文本，将所述初始模型生成文本以及初始拼接文本作为关键词中文对比数据集，其中，所述初始拼接文本通过对所述参考关键词拼接得到，之后，基于所述关键词中文对比数据集和标准中文对比数据集训练文本生成奖励模型，之后，基于所述初始文本生成模型和文本生成奖励模型确定目标文本生成模型，最后，将候选关键词输入所述目标文本生成模型，得到目标生成文本。也就是说，在文本生成时，通过训练文本生成模型，引入开源的标准中文对比数据集训练文本生成奖励模型，并由此确定目标文本生成模型，不仅保证了关键词一定出现在生成文本中，还提高了生成文本的语义准确性。

附图说明

图1为一个实施例中文本生成方法的应用环境图；

图2为一个实施例中文本生成方法的流程示意图；

图3为一个实施例中训练文本生成奖励模型步骤的流程示意图；

图4为一个实施例中确定目标文本生成模型的流程示意图；

图5为一个实施例中文本生成方法具体步骤的流程示意图；

图6为一个实施例中文本生成装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的文本生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种文本生成方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S201：基于关键词数据集训练初始文本生成模型，所述关键词数据集包括参考关键词以及参考文本。

本申请实施例中，首先，基于关键词数据集训练初始文本生成模型。其中，关键词数据集包括参考关键词以及参考文本。将所述参考关键词输入初始文本生成模型，得到输入文本，基于参考文本对初始文本生成模型进行有监督的微调，调整模型内部参数，主要通过定义损失函数，计算输入文本和参考文本之间的损失来监督。损失函数可以定义为下式所示。

；

可以看作，根据前k个单词预测第k+1个单词具体为哪一个单词，并最大化单词出现的可能性P，P是根据参数为θ的神经网络所建模的。当损失函数最小时，初始文本生成模型初步训练完成。

S203：将所述参考关键词输入所述初始文本生成模型，得到初始模型生成文本，将所述初始模型生成文本以及初始拼接文本作为关键词中文对比数据集，其中，所述初始拼接文本通过对所述参考关键词拼接得到。

本申请实施例中，在初始文本生成模型初步训练完成之后，将关键词数据集中的参考关键词输入训练好的初始文本生成模型，多次生成文本，得到初始模型生成文本，另外，基于参考关键词，在其之前拼接指示，得到初始拼接文本，将初始拼接文本和多个初始模型生成文本共同加入数据集中，组成关键词中文对比数据集。

S205：基于所述关键词中文对比数据集和标准中文对比数据集训练文本生成奖励模型。

本申请实施例中，在得到关键词中文对比数据集之后，将其和标准中文对比数据集分别输入文本生成奖励模型，对文本生成奖励模型进行训练，同样的，通过定义损失函数用于确定文本生成奖励模型的训练程度。

S207：基于所述初始文本生成模型和文本生成奖励模型确定目标文本生成模型。

本申请实施例中，在初始文本生成模型和文本生成奖励模型都训练完成之后，将参考关键词分别输入初始文本生成模型和文本生成奖励模型，基于文本生成奖励模型的结果对初始文本生成模型的参数进行调整，最终确定目标文本生成模型。

S209：将候选关键词输入所述目标文本生成模型，得到目标生成文本。

本申请实施例中，目标文本生成模型确定之后，将候选关键词输入其中，得到目标生成文本。

上述文本生成方法中，首先，基于关键词数据集训练初始文本生成模型，所述关键词数据集包括参考关键词以及参考文本，之后，将所述参考关键词输入所述初始文本生成模型，得到初始模型生成文本，将所述初始模型生成文本以及初始拼接文本作为关键词中文对比数据集，其中，所述初始拼接文本通过对所述参考关键词拼接得到，之后，基于所述关键词中文对比数据集和标准中文对比数据集训练文本生成奖励模型，之后，基于所述初始文本生成模型和文本生成奖励模型确定目标文本生成模型，最后，将候选关键词输入所述目标文本生成模型，得到目标生成文本。也就是说，在文本生成时，通过训练文本生成模型，引入开源的标准中文对比数据集训练文本生成奖励模型，并由此确定目标文本生成模型，不仅保证了关键词一定出现在生成文本中，还提高了生成文本的语义准确性。

在本申请的一个实施例中，所述将所述参考关键词输入所述初始文本生成模型，得到初始模型生成文本，将所述初始模型生成文本以及初始拼接文本作为关键词中文对比数据集包括：

S301：将所述参考关键词输入所述初始文本生成模型，得到至少两个所述初始模型生成文本。

S303：基于所述参考关键词和所述初始模型生成文本确定参考关键词覆盖率；

S305：基于所述参考关键词覆盖率确定至少两个所述初始模型生成文本在所述关键词中文对比数据集中的排序。

在本申请的一个实施例中，首先，将参考关键词输入初始文本生成模型，多次生成文本，输出至少两个初始模型生成文本。之后，基于参考关键词和初始模型生成文本计算参考关键词覆盖率，其中，参考关键词覆盖率指在生成文本中出现的关键词数量和总关键词数量的比值。之后，根据参考关键词覆盖率对初始模型生成文本在关键词中文对比数据集中的先后顺序进行排序，将覆盖率高的初始模型生成文本排在覆盖率低的初始模型生成文本之前，需要说明的是，如果覆盖率相同，则文本长度长的初始模型生成文本排在文本长度短的初始模型生成文本之前。关键词中文对比数据集的最终形式为，其中，/>为初始拼接文本，/>，/>为初始模型生成文本，/>排在/>之前，说明/>的覆盖率高或覆盖率相同的情况下文本长度长。

本实施例中，通过将参考关键词输入初始文本生成模型，得到至少两个初始模型生成文本，基于参考关键词和初始模型生成文本确定参考关键词覆盖率，基于参考关键词覆盖率确定至少两个初始模型生成文本在关键词中文对比数据集中的排序，能够为后续的模型训练奠定基础，进一步提高文本生成结果的关键词覆盖率。

在本申请的一个实施例中，所述基于所述初始文本生成模型和文本生成奖励模型确定目标文本生成模型包括：

S401：基于所述参考关键词覆盖率和初始模型生成文本的长度确定参考规则评分。

S403：将所述初始模型生成文本输入所述文本生成奖励模型，得到参考奖励评分。

S405：基于所述参考规则评分和参考奖励评分确定目标文本生成模型。

在本申请的一个实施例中，首先，基于参考关键词覆盖率和初始模型生成文本的长度确定参考规则评分，具体的，参考关键词，通过初始文本生成模型得到初始模型生成文本/>，可以用下述公式计算参考规则评分/>。

；

其中，α是一个超参数，可根据实验确定，α越大表示初始文本生成模型生成的文本越长，指在初始模型生成文本中出现的关键词数量，/>指总的关键词数量，/>指初始模型生成文本长度，/>指关键词总长度。

之后，将初始模型生成文本输入文本生成奖励模型，得到参考奖励评分，之后，基于参考规则评分和参考奖励评分确定目标文本生成模型，具体的，将参考规则评分和参考奖励评分/>按/>加权相加，其中，γ是一个超参考，可根据实验确定，再使用强化学习算法，根据评分/>对初始文本生成模型的参数进行更新，直到更新步数达到上限，此时，确定目标文本生成模型。可选的，强化学习算法通常选择一般的强化学习算法均可，此处以采用PPO算法为例。

本实施例中，通过基于参考关键词覆盖率和初始模型生成文本的长度确定参考规则评分，将初始模型生成文本输入文本生成奖励模型，得到参考奖励评分，基于参考规则评分和参考奖励评分确定目标文本生成模型，能够使目标文本生成模型的生成结果覆盖率更高、语义更准确、语句更通顺。

在本申请的一个实施例中，所述文本生成奖励模型包括编码模块和评分模块，所述基于所述关键词中文对比数据集和标准中文对比数据集训练文本生成奖励模型包括：

S501：将所述关键词中文对比数据集和标准中文对比数据集分别输入所述编码模块，得到关键词中文文本向量和标准中文文本向量。

S503：基于所述关键词中文文本向量以及标准中文文本向量训练所述评分模块。

在本申请的一个实施例中，如图3所示，文本生成奖励模型包括编码模块和评分模块，首先，将关键词中文对比数据集和标准中文对比数据集分别输入编码模块，得到关键词中文文本向量和标准中文文本向量。其中，标准中文对比数据集指开源的中文对比数据集，形式和关键词中文对比数据集相同，为，将/>分别与/>，/>拼接，得到两条文本记为/>，/>，再将/>，/>输入编码模块，得到文本的向量表示/>，/>。之后，基于关键词中文文本向量和标准中文文本向量训练评分模块，具体的，将得到的文本向量/>，/>输入评分模块，得到对应的评分结果，并设定评估标准对评分结果进行评估，当评估结果达到预设目标时，评分模块训练完成。其中，评估标准可以是覆盖率更高或语义更通顺的评分结果更高。

本实施例中，通过将关键词中文对比数据集和标准中文对比数据集分别输入编码模块，得到关键词中文文本向量和标准中文文本向量，基于关键词中文文本向量以及标准中文文本向量训练评分模块，标准中文对比数据集作为一个语义准确、语句通顺的训练集参与文本生成奖励模型的训练，能够在训练过程中保证文本生成奖励模型的评估标准更贴近语义准确、语句通顺的标准。

在本申请的一个实施例中，所述基于所述关键词中文文本向量以及标准中文文本向量训练所述评分模块包括：

基于所述损失函数调整所述评分模块的模型参数。

在本申请的一个实施例中，训练评分模块时，通过预设评估标准以评估评分模块的训练程度。具体的，将关键词中文文本向量输入评分模块，得到评分结果，基于评分结果和预设评分确定损失函数，之后，基于损失函数调整评分模块的模型参数，其中，预设评分基于标准中文文本向量确定，损失函数和关键词覆盖率相关，当损失函数越小时，即关键词覆盖率高的文本向量对应的评分结果越高时，说明关键词覆盖率高且语义准确、语句通顺的文本得分越高，则评分模块训练完成。

本实施例中，通过将关键词中文文本向量输入评分模块，得到评分结果，并基于评分结果与预设评分确定损失函数，能够使覆盖率高且语义准确、语句通顺的文本得分越高，进一步的，使文本生成奖励模型的训练结果保证了不仅覆盖率高，且语义准确、语句通顺。

在本申请的一个实施例中，所述将候选关键词输入所述目标文本生成模型，得到目标生成文本包括：

S601：将所述候选关键词输入所述目标文本生成模型，得到目标模型生成文本数据集。

S603：基于所述候选关键词、目标模型生成文本数据集以及文本生成奖励模型确定目标评分。

S605：基于所述目标评分确定目标生成文本。

在本申请的一个实施例中，如图4所示，当确定目标文本生成模型之后，首先，将候选关键词输入目标文本生成模型，得到目标模型生成文本数据集，具体的，即将候选关键词K输入目标文本生成模型，获得输出，重复多次生成，获得目标模型生成文本数据集。之后，基于候选关键词、目标模型生成文本数据集和文本生成奖励模型确定目标评分，用于评估目标文本生成模型的生成结果。最后，基于目标评分确定目标生成文本，采用强化学习算法，结合目标评分，更新目标文本生成模型的参数，重复多次，直到目标评分不再升高或更新次数达到上限，此时，将最高目标评分对应的生成文本作为目标生成文本。可选的，强化学习算法通常选择一般的强化学习算法均可，此处以采用PPO算法为例。

本实施例中，通过将候选关键词输入目标文本生成模型，得到目标模型生成文本数据集，基于候选关键词、目标模型生成文本数据集以及文本生成奖励模型确定目标评分，基于目标评分确定目标生成文本，采用强化学习进行搜索，基于强化学习的特点，能够避免随机生成多个文本的盲目性。

在本申请的一个实施例中，所述基于所述候选关键词、目标模型生成文本数据集以及文本生成奖励模型确定目标评分包括：

S701：基于所述候选关键词和目标模型生成文本数据集确定候选关键词覆盖率，基于所述候选关键词覆盖率和目标模型生成文本数据集确定候选规则评分。

S703：将所述目标模型生成文本数据集输入所述文本生成奖励模型，得到候选奖励评分。

S705：基于所述候选规则评分和候选奖励评分确定目标评分。

在本申请的一个实施例中，如图4所示，首先，基于候选关键词和目标模型生成文本数据集确定候选关键词覆盖率，再基于候选关键词覆盖率和目标模型生成文本数据集确定候选规则评分，具体的，先分别计算目标模型生成文本数据集中的每个目标模型生成文本的关键词覆盖率，再确定每个候选规则评分，经过平均后得到最终的候选规则评分。每个候选规则评分/>可以基于下述公式计算。

；

之后，将目标模型生成文本数据集输入训练好的文本生成奖励模型，得到候选奖励评分，之后，基于候选规则评分和候选奖励评分确定目标评分，即将候选规则评分/>和候选奖励评分/>按/>加权相加，确定目标评分。

本实施例中，通过基于候选关键词和目标模型生成文本数据集确定候选关键词覆盖率，基于候选关键词覆盖率和目标模型生成文本数据集确定候选规则评分，将目标模型生成文本数据集输入文本生成奖励模型，得到候选奖励评分，基于候选规则评分和候选奖励评分确定目标评分，基于该目标评分去确定目标生成文本，综合了规则评分和奖励评分，能够使生成文本覆盖率更高，语义更准确，语句更通顺。

下面以一个具体实施例说明文本生成方法的具体实施步骤，如图5所示，首先，S801，基于关键词数据集训练初始文本生成模型，所述关键词数据集包括参考关键词以及参考文本，之后，S803，将所述参考关键词输入所述初始文本生成模型，得到初始模型生成文本，将所述初始模型生成文本以及初始拼接文本作为关键词中文对比数据集，其中，所述初始拼接文本通过对所述参考关键词拼接得到，具体的，S805-S809，将所述参考关键词输入所述初始文本生成模型，得到至少两个所述初始模型生成文本，基于所述参考关键词和所述初始模型生成文本确定参考关键词覆盖率，基于所述参考关键词覆盖率确定至少两个所述初始模型生成文本在所述关键词中文对比数据集中的排序。

之后，S811，基于所述关键词中文对比数据集和标准中文对比数据集训练文本生成奖励模型，具体的，所述文本生成奖励模型包括编码模块和评分模块，S813-S817，将所述关键词中文对比数据集和标准中文对比数据集分别输入所述编码模块，得到关键词中文文本向量和标准中文文本向量，将所述关键词中文文本向量输入所述评分模块，得到评分结果，并基于所述评分结果与预设评分确定损失函数，所述预设评分基于所述标准中文文本向量确定，所述损失函数与关键词覆盖率相关，基于所述损失函数调整所述评分模块的模型参数。

之后，S819，基于所述初始文本生成模型和文本生成奖励模型确定目标文本生成模型，具体的，S821-S825，基于所述参考关键词覆盖率和初始模型生成文本的长度确定参考规则评分，将所述初始模型生成文本输入所述文本生成奖励模型，得到参考奖励评分，基于所述参考规则评分和参考奖励评分确定目标文本生成模型。

最后，S827，将候选关键词输入所述目标文本生成模型，得到目标生成文本。具体的，S829，将所述候选关键词输入所述目标文本生成模型，得到目标模型生成文本数据集，S831，基于所述候选关键词和目标模型生成文本数据集确定候选关键词覆盖率，基于所述候选关键词覆盖率和目标模型生成文本数据集确定候选规则评分，S833，将所述目标模型生成文本数据集输入所述文本生成奖励模型，得到候选奖励评分，S835，基于所述候选规则评分和候选奖励评分确定目标评分，S837，基于所述目标评分确定目标生成文本。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的文本生成方法的文本生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个文本生成装置实施例中的具体限定可以参见上文中对于文本生成方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种文本生成装置600，包括：初始文本生成模型训练模块601、关键词中文对比数据集确定模块603、文本生成奖励模型训练模块605、目标文本生成模型确定模块607和目标生成文本确定模块模块609，其中：

初始文本生成模型训练模块601，用于基于关键词数据集训练初始文本生成模型，所述关键词数据集包括参考关键词以及参考文本。

关键词中文对比数据集确定模块603，用于将所述参考关键词输入所述初始文本生成模型，得到初始模型生成文本，将所述初始模型生成文本以及初始拼接文本作为关键词中文对比数据集，其中，所述初始拼接文本通过对所述参考关键词拼接得到。

文本生成奖励模型训练模块605，用于基于所述关键词中文对比数据集和标准中文对比数据集训练文本生成奖励模型。

目标文本生成模型确定模块607，用于基于所述初始文本生成模型和文本生成奖励模型确定目标文本生成模型。

目标生成文本确定模块609，用于将候选关键词输入所述目标文本生成模型，得到目标生成文本。

在本申请的一个实施例中，所述关键词中文对比数据集确定模块还用于：

在本申请的一个实施例中，所述目标文本生成模型确定模块还用于：

在本申请的一个实施例中，所述文本生成奖励模型包括编码模块和评分模块，所述文本生成奖励模型训练模块还用于：

在本申请的一个实施例中，所述文本生成奖励模型训练模块还用于：

基于所述损失函数调整所述评分模块的模型参数。

在本申请的一个实施例中，所述目标生成文本确定模块还用于：

基于所述目标评分确定目标生成文本。

基于所述候选规则评分和候选奖励评分确定目标评分。

上述文本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种文本生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种文本生成方法，其特征在于，所述方法包括：

将候选关键词输入所述目标文本生成模型，得到目标生成文本；

所述将所述参考关键词输入所述初始文本生成模型，得到初始模型生成文本，将所述初始模型生成文本以及初始拼接文本作为关键词中文对比数据集包括：

基于所述参考关键词覆盖率确定至少两个所述初始模型生成文本在所述关键词中文对比数据集中的排序；

所述基于所述初始文本生成模型和文本生成奖励模型确定目标文本生成模型包括：

2.根据权利要求1所述的方法，其特征在于，所述文本生成奖励模型包括编码模块和评分模块，所述基于所述关键词中文对比数据集和标准中文对比数据集训练文本生成奖励模型包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述关键词中文文本向量以及标准中文文本向量训练所述评分模块包括：

基于所述损失函数调整所述评分模块的模型参数。

4.根据权利要求1所述的方法，其特征在于，所述将候选关键词输入所述目标文本生成模型，得到目标生成文本包括：

基于所述目标评分确定目标生成文本。

5.根据权利要求4所述的方法，其特征在于，所述基于所述候选关键词、目标模型生成文本数据集以及文本生成奖励模型确定目标评分包括：

基于所述候选规则评分和候选奖励评分确定目标评分。

6.一种文本生成装置，其特征在于，所述装置包括：

目标生成文本确定模块，用于将候选关键词输入所述目标文本生成模型，得到目标生成文本；

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至权利要求5中任一项所述的方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至权利要求5中任一项所述的方法的步骤。