CN111597779B

CN111597779B - 文本生成方法、装置、设备以及存储介质

Info

Publication number: CN111597779B
Application number: CN202010328590.6A
Authority: CN
Inventors: 黄文璨; 邱东洋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2022-05-27
Anticipated expiration: 2040-04-23
Also published as: CN111597779A

Abstract

本申请公开了一种文本生成方法、装置、设备以及存储介质，属于数据处理领域，方法包括：获取第一文本。基于所述第一文本中的字符，获取所述第一文本的语义特征。也就是说在这个过程中是以第一位文本的字符为单位进行语义特征的提取，语义特征从一定程度上反映了字符之间的关系，语义特征的提取更加准确。基于随机生成的隐特征以及所述第一文本的语义特征，得到多个备选字符对应的概率。这样可以生成表述方式不同的文本，提高文本生成的多样性。基于所述概率符合目标概率条件的备选字符，生成多个第二文本。通过上述技术方案，服务器可以保证对第一文本语义特征提取准确性的前提下，通过隐特征提高生成文本的多样性，达到了更好的文本生成效果。

Description

文本生成方法、装置、设备以及存储介质

技术领域

本申请涉及数据处理领域，特别涉及一种文本生成方法、装置、设备以及存储介质。

背景技术

随着计算机技术的发展，一些情况下需要生成与语义相似且表述方式不同的文本来扩充文本数据库，便于后续基于文本数据库中的文本进行相应的查询操作。

相关技术中会通过一些基本的规则来生成与某一文本语义相似，但是表述方式不同的文本，从而扩充文本数据库，比如对该文本中的关键字或短语进行替换、语义平移或引入噪声等。由于规则可能无法适用于所有的文本，因此，采用上述扩充方式生成的文本可能会改变原文本的语义，导致生成的文本与原文本之间语义差别较大，文本生成的效果不佳。

发明内容

本申请实施例提供了一种文本生成方法、装置、设备以及存储介质，可以提升文本生成的效果。所述技术方案如下：

一方面，提供了一种文本生成方法，所述方法包括：

获取第一文本；

基于所述第一文本中的字符，获取所述第一文本的语义特征；

基于随机生成的隐特征以及所述第一文本的语义特征，得到多个备选字符对应的概率，所述概率用于表示所述备选字符在生成文本时的出现概率；

基于所述概率符合目标概率条件的备选字符，生成多个第二文本。

一方面，提供了一种文本生成装置，所述装置包括：

文本获取模块，用于获取第一文本；

语义特征获取模块，用于基于所述第一文本中的字符，获取所述第一文本的语义特征；

概率确定模块，用于基于随机生成的隐特征以及所述第一文本的语义特征，得到多个备选字符对应的概率，所述概率用于表示所述备选字符在生成文本时的出现概率；

生成模块，用于基于所述概率符合目标概率条件的备选字符，生成多个第二文本。

在一种可能的实施方式中，所述语义特征获取模块，还用于对所述第一文本中的字符进行嵌入编码，得到字符特征；为所述字符特征添加位置特征，基于注意力权重和添加位置特征后的字符特征，获取所述第一文本的语义特征，所述位置特征用于表示所述第一文本中的字符在所述第一文本中的位置。

在一种可能的实施方式中，所述概率确定模块，用于将所述隐特征以及所述第一文本的语义特征进行拼接，得到所述第一文本对应的第一融合特征；基于所述第一融合特征和所述第一文本的语义特征，得到多个备选字符对应的概率。

在一种可能的实施方式中，所述概率确定模块，用于对所述第一融合特征和所述第一文本的语义特征进行归一化处理，得到所述多个备选字符对应的第一概率和第二概率，所述第一概率用于表示多个备选字符对应的初始概率，所述第二概率用于表示采用备选字符对所述第一文本中的原字符进行替换的概率；基于所述第一概率和所述第二概率的乘积，得到多个备选字符对应的概率。

在一种可能的实施方式中，所述概率确定模块，用于对所述第一融合特征和所述第一文本的语义特征进行归一化处理，得到所述多个备选字符对应的第一概率和第二概率，所述第一概率用于表示多个备选字符对应的初始概率，所述第二概率用于表示备选字符对原字符进行替换的概率；基于所述第一概率和所述第二概率的乘积，得到多个备选字符对应的概率。

在一种可能的实施方式中，所述概率确定模块，用于将所述第一文本的语义特征中对应于不同字符的语义特征进行加权求和，得到第二融合特征；对所述第一融合特征和所述第二融合特征进行归一化处理，得到所述多个备选字符对应的第一概率和第二概率。

在一种可能的实施方式中，通过文本生成模型获取所述第一文本的语义特征以及所述多个备选字符对应的概率，所述文本生成模型的训练装置包括：

文本确定模块，用于确定样本文本和至少一个与所述样本文本之间相似度符合目标相似度条件的参考文本；

输入模块，用于将所述样本文本中的字符和所述参考文本中的字符输入初始文本生成模型，通过所述初始文本生成模型生成至少一个预测文本；

调整模块，用于基于所述至少一个预测文本与所述样本文本之间的差异信息，调整所述初始文本生成模型的模型参数；

模型确定模块，用于将所述差异信息符合目标条件的模型作为所述文本生成模型。

在一种可能的实施方式中，所述输入模块，用于基于所述样本文本中的字符确定所述样本文本对应的样本语义特征；基于所述参考文本中的字符确定所述参考文本对应的参考语义特征；基于所述样本语义特征以及所述参考语义特征生成所述至少一个预测文本。

在一种可能的实施方式中，所述输入模块，用于基于所述样本语义特征以及所述参考语义特征，确定后验高斯分布的分布参数；基于所述后验高斯分布的分布参数确定所述样本文本和所述参考文本对应的样本隐特征；基于所述样本隐特征和所述参考语义特征生成所述至少一个预测文本。

在一种可能的实施方式中，所述输入模块，用于将所述样本隐特征和所述参考语义特征进行拼接，得到样本融合特征；对所述样本融合特征和所述样本语义特征进行归一化处理，得到多个备选字符对应的概率；基于所述多个备选字符对应的概率，生成所述至少一个预测文本。

在一种可能的实施方式中，所述调整模块，用于确定所述至少一个预测文本与所述样本文本中字符的相对熵损失，根据所述相对熵损失调整所述初始文本生成模型的模型参数。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现所述文本生成方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现所述文本生成方法所执行的操作。

通过本申请实施例提供的技术方案，服务器可以根据第一文本的字符获取第一文本的语义特征，也就是说在这个过程中是以第一位文本的字符为单位进行语义特征的提取，语义特征从一定程度上反映了字符之间的关系，后续基于语义特征进行预测可以达到更加准确的效果。根据随机生成的隐特征和第一文本的语义特征，得到备选字符对应的概率，这样可以生成表述方式不同的文本，提高文本生成的多样性。通过上述技术方案，服务器可以保证对第一文本语义特征提取准确性的前提下，通过隐特征提高生成文本的多样性，达到了更好的文本生成效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以基于这些附图获得其他的附图。

图1是本申请实施例提供的一种文本生成方法的实施环境的示意图；

图2是本申请实施例提供的一种文本生成类应用的界面示意图；

图3是本申请实施例提供的一种文本生成模型的结构示意图；

图4是本申请实施例提供的一种文本生成模型的语义特征提取层的结构示意图；

图5是本申请实施例提供的一种文本生成模型的训练方法流程图；

图6是本申请实施例提供的一种文本生成方法的流程图；

图7是本申请实施例提供的一种确定备选字符对应概率的方法流程图；

图8是本申请实施例提供的一种应用界面示意图；

图9是本申请实施例提供的一种文本生成方法的流程图；

图10是本申请实施例提供的一种文本生成装置的结构框图；

图11是本申请实施例提供的一种文本生成模型训练装置的结构框图；

图12是本申请实施例提供的一种终端的结构示意图；

图13是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

语义特征：用于表示文本所表达语义的特征，不同的文本可以对应于相同的语义特征，例如文本“今天天气怎么样”和文本“今天天气如何”可以对应于同一个语义特征。计算机设备可以将文本中的字符映射为字符向量，根据字符之间的关系，对字符向量进行组合和运算，得到文本的语义特征。例如计算机设备可以采用编解码器的双向编码器表示(Bidirectional Encoder Representations from Transformers，BERT)。

掩码(Mask)：掩码是一串二进制代码对目标字段进行乘积运算，屏蔽或显示目标字段中的某个字符。例如，目标字段为(1，1，0，1)，掩码为(1，0，1，0)，目标字段和掩码进行乘积运算后得到(1，0，0，0)，也就是说目标字段中的第一个字符和第三个字符得以保留，第二个字符和第三个字符被“掩盖”变为0，通过掩码可以得知目标字段中被保留和被“掩盖”的字符。

归一化处理：将取值范围不同的数列映射到(0，1)区间上，便于数据的处理。在一些情况下，归一化后的数值可以直接被实现为概率。

高斯分布(Gaussian Distribution)：也被称为正态分布(NormalDistribution)，高斯分布的曲线呈钟型，中间高，两头低。高斯分布的期望值μ决定了高斯分布曲线的位置，标准差σ决定了曲线的范围。当μ＝0,σ＝1时的高斯分布是标准高斯分布。

随机失活(Dropout)：是对具有深度结构的人工神经网络进行优化的方法，在学习过程中通过将隐含层的部分权重或输出随机归零，降低节点间的相互依赖性从而实现神经网络的正则化，降低其结构风险。例如在模型训练过程中，存在一个向量(1，2，3，4)，将该向量输入随机失活层后，随机失活层可以随机将向量(1，2，3，4)中的一个数字转化为0，比如将2转化为0，那么向量就变成了(1，0，3，4)。

学习率(Learning Rate)：用于控制模型的学习进度，学习率可以指导模型在梯度下降法中，如何使用损失函数的梯度调整网络权重。学习率如果过大，可能会使损失函数直接越过全局最优点，此时表现为损失过大；学习率如果过小，损失函数的变化速度很慢，会大大增加网络的收敛复杂度，并且很容易被困在局部最小值或者鞍点。

嵌入编码(Embedded Coding)：嵌入编码在数学上表示一个对应关系，即通过一个函数F将X空间上的数据映射到Y空间上，其中该函数F是单射函数，映射的结果是结构保存，单射函数表示映射后的数据与映射前的数据唯一对应，结构保存表示映射前数据的大小关系后映射后数据的大小关系相同，例如映射前存在数据X₁以及X₂，映射后得到X₁对应的Y₁以及X₂对应的Y₂。若映射前的数据X₁＞X₂，那么相应的，映射后的数据Y₁大于Y₂。对于词语来说，就是将词语映射到另外一个空间，便于后续的机器学习和处理。

注意力权重：可以表示训练或预测过程中某个数据的重要性，重要性表示输入的数据对输出数据影响的大小。重要性高的数据其对应的注意力权重的值较高，重要性低的数据其对应的注意力权重的值较低。在不同的场景下，数据的重要性并不相同，模型的训练注意力权重的过程也即是确定数据重要性的过程。

采样宽度：可以表示采样的范围，举例来说，若存在一个服从当μ＝1,σ＝5的高斯分布，需要在随机获取服从该高斯分布的随机变量，在获取随机变量的数量较少时，可以在均值μ附近进行采样，例如以采样宽度为1进行采样，这时随机变量的取值范围可以为(0，2)，若获取随机变量的数量较多时，在(0，2)范围内进行采样可能导致数据的多样性不足，那么相应的可以扩大采样宽度，例如以采样宽度为2进行采样，这时随机变量的取值范围可以为(-1，3)，这样可以提高随机变量的多样性。

图1是本申请实施例提供的一种文本生成方法的实施环境示意图，参见图1，该实施环境中可以包括终端110和服务器140。

终端110通过无线网络或有线通信方式与服务器140进行直接或间接的连接。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端110安装和运行有支持问答的应用程序。

可选地，服务器140可以服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140用于提供文本生成有关的后台服务。

终端110可以泛指多个终端中的一个，本申请实施例仅以终端110来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

下面对本申请实施例涉及的应用场景进行说明：

技术人员可以通过开发终端和服务器构建一个文本数据库，将采用本申请提供的文本生成方法得到的文本存储在文本数据库中。在一种可能的实施方式中，本申请实施例中的文本可以是与某个标准问题语义接近的相似问题。终端上可以运行有的支持问答的应用程序，用户可以在支持问答的应用程序中输入问题，向终端发出答案查询操作，指示终端显示答案。终端可以响应于用户发出的答案查询操作，向服务器发送答案获取请求，获取请求中可以携带有用户输入的问题。服务器可以通过获取请求中的用户输入的问题，从文本数据库中查询该问题，确定与该问题对应的标准问题，将标准问题对应的答案发送给终端，终端通过支持问答的应用程序向用户展示答案。

下面以一个具体的例子进行说明：

在一种可能的场景中，参见图2，存在一个标准问题“什么时间有航线烟火表演”，技术人员可以在开发终端上将标准问题输入到支持文本生成的应用程序的输入框201中，由开发终端将标准问题发送至服务器，服务器采用本申请提供的技术方案对标准问题进行扩充，将扩充后的相似问题发送至开发终端，由开发终端展示如202所示的多条相似问题，其中“得分”列用于表示某个相似问题与标准问题之间的语义相似程度。得到如202所示的多条相似问题之后，技术人员可以对生成的多条相似问题进行人工筛选，建立标准问题与筛选过后的相似问题绑定关系，将具有绑定关系的标准问题和相似问题添加到文本数据库中。在使用过程中，若用户在终端输入问题“航线烟火表演什么时间有的看”这样的问题，终端可以将携带有该问题的查询请求发送给服务器，服务器可以基于查询请求中携带的问题在文本数据库中进行查询，确定用户输入的问题与标准问题“什么时间有航线烟火表演”具有绑定关系，那么就可以将与标准问题“什么时间有航线烟火表演”对应的答案推送给用户。

当然，上述说明是以生成与标准问题语义类似，表述不同的相似问题为例进行说明的，然而，本申请提供的技术方案不仅仅适用于上述场景，还可以适用于更多的场景，例如用于试卷的生成上，教师可以自己出一份标准题目的试卷，随后可以采用本申请提供的技术方案基于标准题目生成多分相似题目。教师可以将相似题目进行组合，生成多份试卷。这样从形式上来看，多份试卷的文字并不相同，但是实际考察的内容是相同的，提高了试卷的多样性，采用生成的试卷进行测试，也可以提高测试的效果。下面将以生成与标准问题语义类似，表述不同的相似问题为例进行说明。

在本申请涉及的文本生成方法可以为上述举例中的前半部分，即通过标准问题生成相似问题的步骤。本申请实施例提高的技术方案可以由服务器或终端作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端和服务器之间的交互来实施本申请提供的技术方法，本申请实施例对此不作限定。下面将以服务器作为执行主体为例进行说明：

在本申请实施例中，服务器可以训练一个文本生成模型来实现本申请提供的文本生成方法，为了更加清楚的对本申请的技术方案进行说明，首先对文本生成模型的结构进行说明：

图3为本申请实施例提供的一种文本生成模型的结构示意图，模型可以分为编码部分301，隐层信息部分302以及解码部分303。

编码部分301包括输入层3011、语义特征提取层3012、嵌入编码层3013以及多头注意力层3014。

输入层3011用于向模型中输入文本；语义特征提取层3012用于提取文本的语义特征；嵌入编码层3013用于对语义特征进行嵌入编码；多头注意力层3014用于对嵌入编码后的语义特征进行处理，得到文本对应的隐层特征。

隐层信息部分302包括先验高斯分布的分布参数确定层3021、后验高斯分布的分布参数确定层3022，以及两个隐特征确定层3023和3024。

先验高斯分布的分布参数确定层3021用于确定隐层特征的先验高斯分布的分布参数；后验高斯分布的分布参数确定层3022用于确定隐层特征的后验高斯分布的分布参数；隐特征提取层用于根据先验高斯分布的分布参数和后验高斯分布的分布参数确定隐特征。

解码部分303包括输入层3031、语义特征提取层3032、融合层3033、字符概率确定层3034以及输出层3035。

输入层3031用于输入文本；语义特征提取层用于提取文本的语义特征，解码部分303的语义特征提取层可以与编码部分的语义特征提取层属于同一结构并且共享参数；融合层3033用于将文本的语义特征以及隐特征进行融合；字符概率确定层3034用于确定备选字符对应的概率；输出层3035用于输出备选字符对应的概率。

文本生成模型中的语义特征提取层中包括多个子层，下面对语义特征提取层的结构进行说明：

图4为本申请实施例提供的文本生成模型中语义特征提取层的结构，语义特征提取层包括输入层401，位置特征添加层402，多头注意力层403，加与标准化层403以及向前传播层404。

其中，输入层401用于对输入的文本进行嵌入编码，得到字符特征；位置特征添加层402用于为字符特征添加位置特征，位置特征用于表示字符在文本中的位置；多头注意力层403用于对添加位置特征的字符特征进行运算，得到字符对应的的语义特征；加与标准化层404用于对字符对应的语义特征进行标准化；向前传播层405用于根据字符的位置关系对字符对应的语义特征进行调整，得到文本对应的语义特征。

多头注意力层403的功能可以通过公式(1)和公式(2)来实现。

MultiHead(Q，K，V)＝Concat(head₁，…，head_h)W^O

where head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V) (1)

其中，Multihead()为多头注意力层的输出，Q、K和V相同，均为添加添加位置特征的字符特征，Concat()拼接函数，head_i为多头注意力的第i个头，W^o为多头注意力层的权重，Attention()为计算第i个头的数值，W_i ^Q、W_i ^K以及W_i ^V为第i个头与Q、K和V对应的权重，softmax为归一化函数，d_k为Q、K和V的维度。

加与标准化层404可以通过公式(3)和公式(4)来实现。

AddAndNorm(x)＝M(x+Sublayer(x)) (3)

M＝(x-a)/b (4)

其中，AddAndNorm()为加与标准化层的输出，M为系数，x为加与标准化层的输入，Sublayer()为其他神经网络结构组成的函数。

向前传播层405的功能通过公式(5)来实现。

FFN(x)＝mcax(0,xW₁+b₁)W₂+b₂ (5)

其中，FFN()为向前传播层的输出，x为向前传播层的输入，max()为取最大值的函数，W₁、W₂、b₁以及b₂为可训练的权重的偏置参数。

为了更加清楚的对本申请的技术方案进行说明，在上述文本生成模型结构的基础上，对文本生成模型的训练方法进行说明：

501、服务器确定样本文本和至少一个与样本文本之间相似度符合目标相似度条件的参考文本。

其中，样本文本可以是技术人员指定的文本，样本文本可以包括标准问题，标准问题可以为技术人员指定的问题，例如标准问题可以是一些具有固定句式的文本；参考文本可以是与样本文本语义类似，表述不同的文本，例如与标准问题语义类似，表述不同的相似问题。若存在两个语义相似的问题“今天天气怎么样”以及“今天天气如何”，技术人员可以指定其中任一个问题为标准问题，另一个也即是标准问题的相似问题。样本文本和参考文本可以是中文，也可以是英文，当然也可以是其他语言，本申请实施例对此不作限定。在一种可能的实施方式中，服务器可以从网络上获取大量的问题，将问题存储在样本数据库中。其中，服务器获取问题的来源可以根据后续使用文本生成模型的场景决定，例如，若后续采用文本生成模型用于回答用户的问题，那么服务器可以从存储有用户问题的数据库中获取问题，将获取到的问题存储在样本数据库中。进一步地，若后续采用文本生成模型用于回答某些游戏类应用的相关问题，那么服务器可以中这些游戏在线客服的数据库收集用户提出的问题，将问题存储在样本数据库中。当然，若后续采用文本生成的模型用于生成试卷，那么服务器可以从存储有试卷的数据库中获取问题，将问题存储在样本数据库中。在一些可能的情景下，也可以由技术人员根据样本文本手动输入参考文本，或者在样本数据库中由技术人员手动标注样本文本和参考文本，本申请实施例对此不做限定。

在一种可能的实施方式中，服务器可以对样本数据库中的文本进行聚类，将与聚类中心之间相似度符合目标相似度条件的文本确定为一个簇，对每个簇进行数据过滤操作，将不包含任何一个相似文本的簇剔除，将剩余簇的聚类中心作为样本文本，将剩余簇中的其他文本作为与样本文本对应的参考文本。例如，服务器可以将样本数据库中的多个文本映射为多个语义特征，语义特征可以用于反映文本的语义，对多个语义特征进行聚类，得到至少一个簇，每个簇的聚类中心可以为样本文本对应的语义特征，该簇中其他语义特征可以为参考文本对应的语义特征。

进一步地，技术人员可以根据样本数据库中文本的数量确定生成簇的第一数量，服务器可以在多个语义特征中随机确定第一数量的聚类中心，根据其他语义特征与聚类中心之间的相似度生成第一数量的簇，并在每个簇中重新确定聚类中心，根据重新确定的聚类中心重新生成簇，直至新确定的聚类中心与当前聚类中心之间的差异信息符合目标差异条件。服务器可以将聚类中心对应的文本确定为样本文本，将与该聚类中心对应簇中其他语义特征对应的文本确定为参考文本。当然，技术人员也可以确定样本文本和参考文本是否具有相似的语义，并将与样本文本语义不相似的参考文本剔除。其中，相似度符合目标相似度条件可以是指相似度大于相似度阈值，差异信息符合目标差异条件可以使之差异信息小于差异信息阈值。

在另一种可能的实施方式中，服务器可以在样本数据库中获取多对由一个样本文本和至少一个参考文本组成的样本数据对；然后对样本数据对进行过滤操作，从所有数据对中剔除不包含任何相似文本的数据对，将过滤后的数据对作为样本数据对，样本数据对中存储有一个样本文本和至少一个与样本文本之间相似度符合目标相似度条件的参考文本。

通过上述任一种实现方式，服务器可以确定多个样本文本和与多个与样本文本对应的参考文本，由于样本文本与对应的参考文本所包含的字符的数量可能是不同的，服务器可以预设一个字符数量阈值，若样本文本或参考文本中字符的数量超过字符数量阈值时，服务器可以将超过字符数量阈值部分的字符删除，保留字符阈值内的字符。若样本文本或参考文本中字符的数量小于字符数量阈值时，服务器可以在样本文本或参考文本结尾采用目标字符进行填充，将样本文本或参考文本填充至字符数量阈值。当然，服务器可以采用掩码(Mask)的方式记录填充的字符，便于后续对文本的还原。掩码可以是长度等于字符数量阈值的向量，例如(1，1，1，1，0)，其中1表示样本文本或参考文本中与掩码对应位置的字符为非填充字符，0可以表示样本文本或参考文本中与掩码对应位置的字符为填充字符。采取这种实现方式，可以保证多个样本文本和与多个与样本文本对应的参考文本均具有相同的字符数量，有利于提高后续训练文本生成模型的效率。

举例来说，服务器可以将样本文本和参考文本中的文本用字符标识表示，相同的字符可以采用相同的字符标识，不同的字符可以采用不同的字符标识，若样本文本或参考文本中的字符数量未达到字符数量阈值，那么服务器可以在样本文本或参考文本的结尾添加目标字符标识，例如“0”。比如，对于样本文本“今天天气怎么样”和参考文本“今天天气如何”来说，服务器可以将样本文本“今天天气怎么样”表示为“1223456”，其中“1”为“今”的字符标识、“2”为“天”的字符标识、“3”为“气”的字符标识、“4”为“怎”的字符标识、“5”为“么”的字符标识、“6”为“样”的字符标识。相应的，服务器可以将参考文本“今天天气如何”表示为“122378”，其中“1223”与样本文本的含义相同、“7”为“如”的字符标识、“8”为“何”的字符标识。若服务器预设的字符数量阈值为8，那么服务器可以将样本文本“今天天气怎么样”表示为“12234560”，将参考文本“今天天气如何”表示为“12237800”，相应的，服务器可以通过掩码来记录目标字符标识的添加情况，比如样本文本“今天天气怎么样”对应的掩码可以为“11111110”，其中“1”可以表示该位置为原始字符标识，“0”可以表示该位置为添加的目标字符标识；若服务器预设的字符数量阈值为5，那么服务器可以将将样本文本“今天天气怎么样”表示为“12234”，将参考文本“今天天气如何”表示为“12237”。

进一步地，服务器还可以为每个用字符标识的文本添加开始标识和结束标识，开始标识位于文本的开头，结束标识位于文本的结尾。在这种实现方式下，服务器可以通过字符标识来表示样本文本或参考文本中的字符，减少了文本生成过程中的数据量，提高了运算效率。同时将文本都调整成了长度相同的文本，提高了后续文本生成的精准度。

502、服务器将样本文本中的字符和参考文本中的字符输入初始文本生成模型，通过初始文本生成模型生成至少一个预测文本。

在一种可能的实施方式中，服务器可以将样本文本中的字符和参考文本中的字符输入初始文本生成模型，通过初始文本生成模型基于样本文本中的字符确定样本文本对应的样本语义特征，基于参考文本中的字符确定参考文本对应的参考语义特征。服务器可以通过初始文本生成模型基于样本语义特征以及参考语义特征生成至少一个预测文本，该预测文本也即是初始文本生成模型根据样本文本和参考文本生成的，与样本文本语义相似但是表述方式不同的文本。

具体来说，服务器可以通过初始文本生成模型的语义特征提取层对样本文本和参考文本中的字符进行语义提取，得到样本文本对应的样本语义特征以及参考文本对应的参考语义特征。服务器可以通过初始文本生成模型，基于样本语义特征以及参考语义特征，确定后验高斯分布的分布参数，基于后验高斯分布的分布参数确定样本文本和参考文本对应的样本隐特征，基于样本隐特征和参考语义特征生成至少一个预测文本。其中，样本隐特征为符合上述后验高斯分布的随机变量，而高斯分布也即是正态分布，可以反映语义特征允许变化的范围，通过样本隐特征和参考语义特征生成的预测文本，可以保证其对应的语义特征与参考语义特征的变化不会太大，也就是保证了语义相似这一条件。

进一步地，生成至少一个预测文本可以为多个迭代过程，在每次迭代的过程中，服务器可以将样本隐特征和参考语义特征在维度上进行拼接，得到样本融合特征。服务器可以对样本融合特征和样本语义特征进行归一化处理，得到多个备选字符对应的概率。基于多个备选字符对应的概率，生成至少一个预测文本。

例如，在生成至少一个预测文本的过程中，服务器可以在初始文本模型解码部分的输入层中分多次输入参考文本，若参考文本中的字符是以字符标识来表示的，例如“#12345*”，其中#标识开始标识，*表示结束标识，“12345”为不同字符对应的标识，那么在第一次迭代的过程中，服务器可以将“#”输入初始文本模型解码部分的输入层，通过解码部分的语义特征提取层得到“#”对应的参考语义特征，服务器可以将“#”对应的参考语义特征与样本隐特征进行拼接，得到第一样本融合特征，基于样本融合特征和第一样本语义特征，得到一个备选字符对应的概率，该备选字符也即是预测文本的第一个字符，也即是表示开始的字符。在第二次迭代过程中，服务器可以将“#1”输入初始文本模型解码部分的输入层，通过解码部分的语义特征提取层得到“#1”对应的参考语义特征，服务器可以将“#1”对应的参考语义特征与样本隐特征进行拼接，得到第二样本融合特征，基于第二样本融合特征和样本语义特征，得到另一个备选字符对应的概率，该备选字符也即是预测文本的第二个字符，以此类推，分别输入“#12”、“#123”、“#1234”、“#12345”以及“#12345*”，直至迭代出的备选字符的字符标识为停止标识、或迭代出的备选字符的数量达到字符数量阈值时，停止迭代，将迭代出的所有备选字符进行组合，得到一个预测文本。在次之后，服务器可以对隐特征进行调整，再次按照上述方式输入参考文本，即可以得到另一个预测文本。

为了便于理解，还是以样本文本为“今天天气怎么样”和参考文本为“今天天气如何”来对上述实施方式进行说明：服务器可以将样本文本“今天天气怎么样”和参考文本“今天天气如何”输入初始文本生成模型，通过初始文本生成模型的语义特征提取层，得到样本文本对应的样本语义特征[1，2，3，4，5]和参考文本对应的参考语义特征[1，3，4，5，6]。服务器可以将样本文本对应的语义特征[1，2，3，4，5]和参考文本对应的语义特征[1，3，4，5，6]在维度上进行拼接，得到

服务器可以将

输入初始文本生成模型的后验高斯分布参数确定层，通过后验高斯分布参数确定层的权重矩阵和偏置参数，对

进行运算，得到后验高斯分布参数例如

服务器可以按照维度将高斯分布参数拆分为均值和方差，也即是服务器计算[1，3，4，5，7]的均值4，方差20，服务器计算[1，3，2，4，8]的均值3.6，方差19.36，进一步服务器可以计算得到平均均值3.8以及平均方差19.68。根据上述平均均值和平均方差所确定的分布进行采样，得到样本文本和参考文本对应的样本隐特征，例如[2，3，5，7，9]。通过后验高斯分布参数确定层确定后验高斯分布的参数的方法可以参见公式(6)。

Q(x)＝W₃*x+b₃ (6)

其中，Q为后验高斯分布的参数，W₃和b₃为后验高斯分布参数确定层的权重和偏置参数，x为后验高斯分布参数确定层的输入。

将高斯分布参数拆分为均值和方差，根据上述均值和方差所确定的分布进行采样，得到样本文本和参考文本对应的样本隐特征。也即是分别计算高斯分布参数中每个维度的均值和方差，计算多个维度的均值和方差的平均值，即得到上述均值和方差。

服务器可以将样本隐特征[2，3，5，7，9]和参考语义特征[1，3，4，5，6]在维度上进行拼接，得到

将拼接后的特征输入初始文本生成模型的融合层(Combination Layer)中，得到样本融合特征，例如[2，4，6，2，3]。通过融合层得到样本融合特征的公式可以参见公式(7)。

h＝W₅*Dropout(ReLU(W₄*x+b₄))+b₅ (7)

其中，h为样本融合特征，W₄、W₅、b₄以及b₅分别为可训练的权重和偏置，Dropout为随机失活层，表示以一定的概率随机将输入数据的某个元素设置为0，ReLU为激活函数，ReLU(x)＝max(x，0)，max()表示取最大值。

服务器可以将样本语义特征中对应于不同字符的语义特征进行加权求和，得到参考融合特征。其中，参考融合特征的确定方法可以参见公式(8)。

其中，h_t ^*为参考融合特征，h_i为样本语义特征中对应于第i个字符的语义特征，st为样本融合特征中对应于第t个字符的语义特征，W_h、W_s、b_attn以及v均未可训练参数、e表示自然对数的底数、a^t为样本语义特征中对应于第t个字符的语义特征的权重。

服务器可以根据样本融合特征，确定第一样本概率和第二样本概率，其中第一样本概率用于表示多个备选字符对应的概率，第二样本概率用于表示采用备选字符对样本文本中相同位置字符替换的概率。第一样本概率和第二样本概率的确定方法可以参见公式(9)和公式(10)。

p_vocab＝softmax(V`(V[s_t,h_t ^*]+b₆)+b₆') (9)

其中，p_vocab为第一样本概率，p_gen为第二样本概率，softmax和sigmoid为两种归一化函数，以h*和s为下标的w、V'、V、b₆、b₆'、b_ptr都是可训练参数。下面以两个具体的例子对softmax函数和sigmoid函数进行归一化的方法进行说明：

首先对采用softmax函数进行归一化的方法进行说明：若存在数列(1，2，3，4)，可以将数列中的每个数字相加，得到1+2+3+4＝10，softmax函数也即是求数列中每个数字与数列中每个数字和的比值。对于数列中的数字1来说，经过softmax函数可以将其归一化为1/10＝0.1，对于数列中的数字2来说，经过softmax函数可以将其归一化为2/10＝0.2，以此类推得到归一化后的数列(0.1，0.2，0.3，0.4)。

然后对采用sigmoid函数进行归一化的方法进行说明：sigmoid函数的公式可以参见公式(11)，还是以数列(1，2，3，4)为例进行说明，数列中的数字1被归一化为0.73，数列中的数字2被归一化为0.88，数列中的数字3被归一化为0.95，数列中的数字4被归一化为0.98。

其中，e为自然底数，x为输入值。

服务器可以根据第一样本概率和第二样本概率，得到多个备选字符对应的概率，具体可以参见公式(12)。

其中，P(w)表示备选字符对应的概率，w_i表示样本语义特征中第i个字符对应的特征。

服务器可以将概率最高的备选字符进行组合，得到至少一个预测文本。

503、服务器基于至少一个预测文本与样本文本之间的差异信息，调整初始文本生成模型的模型参数。

在一种可能的实施方式中，服务器可以确定至少一个预测文本与样本文本中每个字符的相对损失，根据该相对损失调整初始文本生成模型的模型参数。其中，至少一个预测文本与样本文本中每个字符的相对损失的计算方法可以参见公式(13)。

其中，loss₁为至少一个预测文本与样本文本中字符的相对熵损失，w为样本文本中的字符数量，y_w为预测文本中每个字符的生成概率。

在另一种可能的实施方式中，服务器可以将样本语义特征输入初始文本生成模型的先验高斯分布参数确定层中，通过先验高斯分布参数确定层对应的权重和偏置参数，确定与样本语义特征对应的先验高斯分布的分布参数。确定先验高斯分布的分布参数的方法可以参见公式(14)。

F(x)＝W₆*Dropout(ReLU(W₇*ReLU(W₈*x+b₇)+b₈))+b₉ (14)

其中，F()为先验高斯分布的分布参数，x为先验高斯分布参数确定层的输入，W₆，W₇，W₈，b₇，b₈，b₉均为可以训练的参数，W表示表示权重，b表示偏置参数。

服务器可以计算先验高斯分布的分布参数与后验高斯分布的分布参数之间的相对熵损失(Kullback–Leibler divergence，KL)，根据先验高斯分布的分布参数与后验高斯分布的分布参数之间的相对熵损失以及预测文本与样本文本中每个字符的相对损失，得到预测文本与样本文本之间的差异信息，根据差异信息调整初始文本生成模型的模型参数。其中，相对熵损失的计算方法可以参见公式(15)，预测文本与样本文本之间的差异信息的确定方法可以参见公式(16)。

其中，KL为相对熵损失，μ₁、∑₁分别为先验高斯分布的均值和方差，∑₁为对角矩阵，μ₂、∑₂分别为后验高斯分布的均值和方差，∑2也为对角矩阵。

loss＝loss₁+αKL (16)

其中，loss为预测文本与样本文本之间的差异信息，α为可调节超参数，α的确定方法可以参见公式(17)。在这种实现方式下，可以随着训练的次数动态调节超参数α，使得超参数α与模型的训练过程匹配，提高文本生成模型的文本生成效果。

其中，step表示训练的次数。

504、服务器将差异信息符合目标条件的模型作为文本生成模型。

其中，差异信息符合目标条件是指，差异信息小于预设差异阈值loss_k。对于步骤503的第一种可能的实施方式中来说，差异信息符合目标条件可以是指loos₁＜loss_k；对于步骤503的第二种可能的实施方式来说，差异信息符合目标条件可以是指loos＜loss_k。

除此之外，本申请实施例中的文本生成模型的学习率可以是动态调节的，具体的调节方式可以参见公式(18)。在这种实现方式下，服务器可以根据训练的进程step动态调节文本生成模型的学习率。由于学习率可以控制学习的进度，在文本生成模型开始训练的时候，可以采用较大的学习率，这样可以迅速将模型参数初始化至合适的范围，随着训练次数的增加，可以逐渐减少学习率，控制模型参数收敛至合适的范围，在保证文本生成模型的生成效果的前提下，提高文本生成模型的收敛速度。

r＝model_dim^-0.5min(step^-0.5,step*10000^-1.5) (18)

其中，model_dim为预设的特征维度，特征维度可以根据实际需要进行设定，例如设置为768。

除此之外，本申请还提供了一种评价文本生成模型生成文本多样性的方法，具体来说，服务器可以通过计算预测文本与样本文本的平均self-BLEU来评估生成文本的多样性。BLEU(Bilingual Evaluation Understudy)是一种开源的用于评估机器翻译质量的模型，也可以用来比较预测文本与样本文本之间的在句式句法上的相似性。服务器可以将预测文本和样本文本输入BLEU模型中，以得到两者之间的self-BLEU。self-BLEU可以用于评价预测文本与样本文本的在句式句法上的相似性，若self-BLEU太大则说明多样性不足，若self-BLEU太小则说明语义偏离较大或句子不通顺。服务器可以根据self-BLEU的结果对文本生成模型的模型参数进行进一步调整。

另外，本申请还提供了一种二次训练的训练方法，以提升文本生成模型的训练效果。具体来说，二次训练方法将训练过程分为两步：第一步为完整训练，在样本数据库上按照前面所述的动态权重和学习率调节方法，进行长时间的训练，观察训练日志，直到预测文本与样本文本之间的差异信息(loss)停留在较低水平而不再下降；第二步为再次训练，以第一步训练结束时的模型参数为初始参数，在样本数据库上同样按照前面所述的动态权重和学习率调节方法，进行短时间训练，观察训练日志，会发现相对熵损失(KL)出现先升高再降低、预测文本与样本文本之间的差异信息(loss)先下降再上升的现象，此时可以从预测文本与样本文本之间的差异信息(loss)最低点附近的模型中筛选出最优模型。采用本申请提供的二次训练方法，第一步将采用大量的数据将模型的参数训练到一个合适的取值，使得模型具备初步的文本生成能力。第二步对第一步得到的模型进行更加细致的训练，调整模型参数，提高了模型的文本生成能力。

在本申请实施例中，可以采用通过步骤501-503训练出的文本生成模型来实施本申请提供的文本生成方法，方法可以如下：

图6是本申请实施例提供的一种文本生成方法的流程图，参见图6，方法包括：

601、服务器获取第一文本。

其中，第一文本可以是用户输入的问题，例如“哪里有烟火表演”；也可以是试卷的某一个题目，例如“人体骨骼的数量是多少”。第一文本可以是中文，也可以是英文，当然也可以是其他语言，本申请实施例对此不做限定。

在一种可能的实施方式中，用户可以在运行有问答类应用的终端上输入问题，输入之后可以向终端发出查询操作。终端可以响应于用户的查询操作，向服务器发送答案获取请求，答案获取请求中携带有第一文本。服务器可以从答案获取请求中获取第一文本。

602、服务器通过文本生成模型对第一文本中的字符进行嵌入编码，得到字符特征，基于注意力权重和字符特征，获取第一文本的语义特征。

在一种可能的实施方式中，服务器可以采用预设的字符标识表示第一文本中的字符，对第一文本字符对应的字符标识进行嵌入编码，得到字符特征。服务器可以将字符特征输入文本生成模型的语义特征提取层。服务器通过语义特征提取层的注意力权重，对字符特征进行特征提取，获取第一文本的语义特征。

在另一种可能的实施方式中，服务器可以对第一文本中的字符进行嵌入编码，得到字符特征。服务器可以为字符特征添加位置特征，基于注意力权重和添加位置特征后的字符特征，获取第一文本的语义特征，位置特征用于表示第一文本中的字符在第一文本中的位置。具体来说，服务器可以采用预设的字符标识表示第一文本中的字符，对第一文本字符对应的字符标识进行嵌入编码，得到字符特征。服务器可以为字符特征添加位置特征，例如，若第一文本为“今天天气如何”，服务器对第一文本进行嵌入编码，得到字符特征为(1，2，2，3，4，5)，服务器根据第一文本中字符在第一文本中的位置，为字符特征添加位置特征，得到

其中(1，2，2，3，4，5)为字符特征，(1，2，3，4，5，6)为位置特征，将添加位置特征后的字符特征输入文本生成模型的语义特征提取层，通过语义特征提取层的注意力权重对添加位置特征后的字符特征进行特征提取，获取第一文本的语义特征。在这种实现方式下，服务器通过文本生成模型获取第一文本的语义特征的过程中参考了第一文本中字符的位置特征，这样得到的语义特征更加符合第一文本的语义，特征提取的精确度更高。

603、服务器基于随机生成的隐特征以及第一文本的语义特征，得到多个备选字符对应的概率，该概率用于表示备选字符在生成文本时的出现概率。

其中，隐特征可以为从符合均值为0，标准差为1或2的高斯分布中采样的随机变量。该隐特征可以用于对第一文本的语义特征进行微调，从而生成与第一文本语义相似但是表述方式不同的文本。隐特征的采样宽度可以与生成文本的数量相关，例如当生成文本的数量小于3时，服务器可以设置采样宽度为1，生成文本的数量大于3小于60时，服务器可以设置采样宽度为3，生成文本数量大于60小于80时，服务器可以设置采样宽度为5，生成文本数量大于80小于100时，服务器可以设置采样宽度为7。

在一种可能的实施方式中，参见图7，服务器可以将隐特征以及第一文本的语义特征进行拼接，得到第一文本对应的第一融合特征，基于第一融合特征和第一文本的语义特征，得到多个备选字符对应的概率。具体来说，服务器得到第一融合特征之后，可以对第一融合特征和第一文本的语义特征进行归一化处理，得到多个备选字符对应的第一概率和第二概率，第一概率用于表示多个备选字符对应的概率，第二概率用于表示采用备选字符对第一文本中的原字符进行替换的概率。服务器可以基于第一概率和第二概率的乘积，得到多个备选字符对应的概率。其中，第一概率和第二概率可以采用如下方法确定：服务器可以将第一文本的语义特征中对应于不同字符的语义特征进行加权求和，得到第二融合特征，基于第一融合特征和第二融合特征，得到多个字符对应的第一概率和第二概率。

需要说明的是，第一概率和第二概率的获取方法与步骤502中获取第一样本概率和第二样本概率属于同一发明构思，具体参见步骤502中对于公式(9)和公式(10)的描述，备选字符对应的概率的确定方法可以参见步骤502中公式(11)的描述，在此不做赘述。

需要说明的是，服务器隐特征以及第一文本的语义特征，得到多个备选字符对应的概率的方法可以为多个迭代过程，也即是第一文本的输入可以分为多次进行，在第一次迭代的过程中，服务器可以将第一文本的第一个字符输入文本生成模型，通过文本生成模型得到第一文本中第一个字符对应的语义特征，将隐特征以及第一文本中第一个字符对应的语义特征进行拼接，得到相应的融合特征，根据该融合特征和第一文本的语义特征，可以得到一个备选字符对应的概率，该备选字符也即是预测文本的第一个字符。在第二次迭代过程中，服务器可以将第一文本的第一个字符和第二个字符输入文本生成模型，通过文本生成模型得到第一文本中第一个字符和第二个字符对应的语义特征，将隐特征以及第一文本中第一个字符和第二个字符对应的语义特征进行拼接，得到相应的融合特征，根据该融合特征和第一文本的语义特征，可以得到另一个备选字符对应的概率，该备选字符也即是预测文本的第二个字符。以此类推，直至迭代出的备选字符的数量达到字符数量阈值时，停止迭代，得到多个备选字符对应的概率。

604、基于概率符合目标概率条件的字符标识，生成多个第二文本。

在一种可能的实施方式中，服务器可以将概率最高的备选字符进行组合，得到多个第二文本。第二文本的数量可以根据实际需要进行设定，本申请实施例对此不做限定。

生成多个第二文本之后，服务器可以将多个第二文本存储在结果集中，在结果集中进行去重处理，即删除掉相同的第二文本。服务器可以将第一文本映射为第一语义向量，将结果集中的每个第二文本映射为第二语义向量，计算第以语义向量和多个第二语义向量之间的语义距离，筛选出语义距离最小的目标数量的第二文本，将目标数量的第二文本展现给用户，目标数量也可以根据实际需要进行设定，例如20。其中语义距离可以采用欧氏距离。服务器将文本映射为语义向量时可以采用BERT(Bidirectional EncoderRepresentation from Transformers)模型来实现，当然也可以采用其他模型，本申请实施例对此不做限定。

在实验过程中，采用本申请提供的技术方案生成的应用界面可以参见图8。用户可以在801中输入相似问题，应用可以在804处显示相应的相似问题，用户可以勾选想要编辑的相似问题前的选择框805，勾选后的相似问题可以显示在编辑框803中。除此之外，用户可以在802处问题的答案进行编辑和删减。

图9是本申请实施例提供的一种文本生成方法的流程图，参见图9，方法包括：

901、获取第一文本。

902、基于第一文本中的字符，获取第一文本的语义特征。

903、基于随机生成的隐特征以及第一文本的语义特征，得到多个备选字符对应的概率，该概率用于表示备选字符在生成文本时的出现概率。

904、基于概率符合目标概率条件的备选字符，生成多个第二文本。

在一种可能的实施方式中，基于第一文本中的字符，获取第一文本的语义特征包括：

对第一文本中的字符进行嵌入编码，得到字符特征。

基于注意力权重和字符特征，获取第一文本的语义特征。

对第一文本中的字符进行嵌入编码，得到字符特征。

为字符特征添加位置特征，基于注意力权重和添加位置特征后的字符特征，获取第一文本的语义特征，位置特征用于表示第一文本中的字符在第一文本中的位置。

在一种可能的实施方式中，基于随机生成的隐特征以及第一文本的语义特征，得到多个备选字符对应的概率包括：

将隐特征以及第一文本的语义特征进行拼接，得到第一文本对应的第一融合特征。

基于第一融合特征和第一文本的语义特征，得到多个备选字符对应的概率。

在一种可能的实施方式中，基于第一融合特征和第一文本的语义特征，得到多个备选字符对应的概率包括：

对第一融合特征和第一文本的语义特征进行归一化处理，得到多个备选字符对应的第一概率和第二概率，第一概率用于表示多个备选字符对应的初始概率，第二概率用于表示采用备选字符对第一文本中的原字符进行替换的概率。

基于第一概率和第二概率的乘积，得到多个备选字符对应的概率。

在一种可能的实施方式中，对第一融合特征和第一文本的语义特征进行归一化处理，得到多个备选字符对应的第一概率和第二概率包括：

将第一文本的语义特征中对应于不同字符的语义特征进行加权求和，得到第二融合特征。

对第一融合特征和第二融合特征进行归一化处理，得到多个备选字符对应的第一概率和第二概率。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图10是本申请实施例提供的一种文本生成装置结构示意图，参见图10，装置包括：文本获取模块1001、语义特征获取模块1002、概率确定模块1003以及生成模块1004。

文本获取模块1001，用于获取第一文本。

语义特征获取模块1002，用于基于第一文本中的字符，获取第一文本的语义特征。

概率确定模块1003，用于基于随机生成的隐特征以及第一文本的语义特征，得到多个备选字符对应的概率，该概率用于表示备选字符在生成文本时的出现概率。

生成模块1004，用于基于概率符合目标概率条件的备选字符，生成多个第二文本。

在一种可能的实施方式中，语义特征获取模块1002，用于对第一文本中的字符进行嵌入编码，得到字符特征。基于注意力权重和字符特征，获取第一文本的语义特征。

在一种可能的实施方式中，语义特征获取模块1002，还用于对第一文本中的字符进行嵌入编码，得到字符特征。为字符特征添加位置特征，基于注意力权重和添加位置特征后的字符特征，获取第一文本的语义特征，位置特征用于表示第一文本中的字符在第一文本中的位置。

在一种可能的实施方式中，概率确定模块1003，用于将隐特征以及第一文本的语义特征进行拼接，得到第一文本对应的第一融合特征。基于第一融合特征和第一文本的语义特征，得到多个备选字符对应的概率。

在一种可能的实施方式中，概率确定模块1003，用于对第一融合特征和第一文本的语义特征进行归一化处理，得到多个备选字符对应的第一概率和第二概率，第一概率用于表示多个备选字符对应的初始概率，第二概率用于表示采用备选字符对第一文本中的原字符进行替换的概率。基于第一概率和第二概率的乘积，得到多个备选字符对应的概率。

在一种可能的实施方式中，概率确定模块1003，用于对第一融合特征和第一文本的语义特征进行归一化处理，得到多个备选字符对应的第一概率和第二概率，第一概率用于表示多个备选字符对应的初始概率，第二概率用于表示备选字符对原字符进行替换的概率。基于第一概率和第二概率的乘积，得到多个备选字符对应的概率。

在一种可能的实施方式中，概率确定模块1003，用于将第一文本的语义特征中对应于不同字符的语义特征进行加权求和，得到第二融合特征。对第一融合特征和第二融合特征进行归一化处理，得到多个备选字符对应的第一概率和第二概率。

图11是本申请实施例提供的一种文本生成模型训练装置结构示意图，参见图11，装置包括：文本确定模块1101、输入模块1102、调整模块1103以及模型确定模块1104。

文本确定模块1101，用于确定样本文本和至少一个与样本文本之间相似度符合目标相似度条件的参考文本。

输入模块1102，用于将样本文本中的字符和参考文本中的字符输入初始文本生成模型，通过初始文本生成模型生成至少一个预测文本。

调整模块1103，用于基于至少一个预测文本与样本文本之间的差异信息，调整初始文本生成模型的模型参数。

模型确定模块1104，用于将差异信息符合目标条件的模型作为文本生成模型。

在一种可能的实施方式中，输入模块1102，用于基于样本文本中的字符确定样本文本对应的样本语义特征。基于参考文本中的字符确定参考文本对应的参考语义特征。基于样本语义特征以及参考语义特征生成至少一个预测文本。

在一种可能的实施方式中，输入模块1102，用于基于样本语义特征以及参考语义特征，确定后验高斯分布的分布参数。基于后验高斯分布的分布参数确定样本文本和参考文本对应的样本隐特征。基于样本隐特征和参考语义特征生成至少一个预测文本。

在一种可能的实施方式中，输入模块1102，用于将样本隐特征和参考语义特征进行拼接，得到样本融合特征。对样本融合特征和样本语义特征进行归一化处理，得到多个备选字符对应的概率。基于多个备选字符对应的概率，生成至少一个预测文本。

在一种可能的实施方式中，调整模块1103，用于确定至少一个预测文本与样本文本中字符的相对熵损失，根据相对熵损失调整初始文本生成模型的模型参数。

本申请实施例提供了一种计算机设备，用于执行上述方法，该计算机设备可以实现为终端或者服务器，下面先对终端的结构进行介绍：

图12是本申请实施例提供的一种终端的结构示意图。该终端1200可以是：智能手机、平板电脑、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1200包括有：一个或多个处理器1201和一个或多个存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1201所执行以实现本申请中方法实施例提供的文本生成方法。

在一些实施例中，终端1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头1206、音频电路1207和电源1209中的至少一种。

外围设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。

显示屏1205用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。

摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。

电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。

在一些实施例中，终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、光学传感器1215以及接近传感器1216。

加速度传感器1211可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。

陀螺仪传感器1212可以检测终端1200的机体方向及转动角度，陀螺仪传感器1212可以与加速度传感器1212协同采集用户对终端1200的3D动作。

压力传感器1213可以设置在终端1200的侧边框和/或显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时，可以检测用户对终端1200的握持信号，由处理器1201基于压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在显示屏1205的下层时，由处理器1201基于用户对显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。

光学传感器1215用于采集环境光强度。在一个实施例中，处理器1201可以基于光学传感器1215采集的环境光强度，控制显示屏1205的显示亮度。接近传感器1216用于采集用户与终端1200的正面之间的距离。

本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述计算机设备还可以提供为服务器，下面对服务器的结构进行介绍：

图13是本申请实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1301和一个或多个的存储器1302，其中，所述一个或多个存储器1302中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器1301加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1300还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1300还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的文本生成方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来程序代码相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本生成方法，其特征在于，所述方法包括：

获取第一文本；

将随机生成的隐特征以及所述第一文本的语义特征进行拼接，得到所述第一文本对应的第一融合特征，所述隐特征用于对所述第一文本的语义进行调整；

基于所述第一融合特征和所述第一文本的语义特征，得到多个备选字符对应的概率，所述概率用于表示所述备选字符在生成文本时的出现概率；

基于所述概率符合目标概率条件的备选字符，生成多个第二文本，所述多个第二文本与所述第一文本的表述方式不同，所述多个第二文本的语义与所述第一文本的语义之间的相似度符合目标相似度条件。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一文本中的字符，获取所述第一文本的语义特征包括：

对所述第一文本中的字符进行嵌入编码，得到字符特征；

基于注意力权重和所述字符特征，获取所述第一文本的语义特征。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一文本中的字符，获取所述第一文本的语义特征包括：

对所述第一文本中的字符进行嵌入编码，得到字符特征；

为所述字符特征添加位置特征，基于注意力权重和添加位置特征后的字符特征，获取所述第一文本的语义特征，所述位置特征用于表示所述第一文本中的字符在所述第一文本中的位置。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一融合特征和所述第一文本的语义特征，得到多个备选字符对应的概率包括：

对所述第一融合特征和所述第一文本的语义特征进行归一化处理，得到所述多个备选字符对应的第一概率和第二概率，所述第一概率用于表示多个备选字符对应的初始概率，所述第二概率用于表示采用备选字符对所述第一文本中的原字符进行替换的概率；

基于所述第一概率和所述第二概率的乘积，得到多个备选字符对应的概率。

5.根据权利要求4所述的方法，其特征在于，所述对所述第一融合特征和所述第一文本的语义特征进行归一化处理，得到所述多个备选字符对应的第一概率和第二概率包括：

将所述第一文本的语义特征中对应于不同字符的语义特征进行加权求和，得到第二融合特征；

对所述第一融合特征和所述第二融合特征进行归一化处理，得到所述多个备选字符对应的第一概率和第二概率。

6.根据权利要求1所述的方法，其特征在于，通过文本生成模型获取所述第一文本的语义特征以及所述多个备选字符对应的概率，所述文本生成模型的训练方法包括：

确定样本文本和至少一个与所述样本文本之间相似度符合目标相似度条件的参考文本；

将所述样本文本中的字符和所述参考文本中的字符输入初始文本生成模型，通过所述初始文本生成模型生成至少一个预测文本；

基于所述至少一个预测文本与所述样本文本之间的差异信息，调整所述初始文本生成模型的模型参数；

将所述差异信息符合目标条件的模型作为所述文本生成模型。

7.根据权利要求6所述的方法，其特征在于，所述通过所述初始文本生成模型生成至少一个预测文本包括：

基于所述样本文本中的字符确定所述样本文本对应的样本语义特征；

基于所述参考文本中的字符确定所述参考文本对应的参考语义特征；

基于所述样本语义特征以及所述参考语义特征生成所述至少一个预测文本。

8.根据权利要求7所述的方法，其特征在于，所述基于所述样本语义特征以及所述参考语义特征生成所述至少一个预测文本包括：

基于所述样本语义特征以及所述参考语义特征，确定后验高斯分布的分布参数；

基于所述后验高斯分布的分布参数确定所述样本文本和所述参考文本对应的样本隐特征；

基于所述样本隐特征和所述参考语义特征生成所述至少一个预测文本。

9.根据权利要求8所述的方法，其特征在于，所述基于所述样本隐特征和所述参考语义特征生成所述至少一个预测文本包括：

将所述样本隐特征和所述参考语义特征进行拼接，得到样本融合特征；

对所述样本融合特征和所述样本语义特征进行归一化处理，得到多个备选字符对应的概率；

基于所述多个备选字符对应的概率，生成所述至少一个预测文本。

10.根据权利要求6所述的方法，其特征在于，所述基于所述至少一个预测文本与所述样本文本之间的差异信息，调整所述初始文本生成模型的模型参数包括：

确定所述至少一个预测文本与所述样本文本中字符的相对熵损失，根据所述相对熵损失调整所述初始文本生成模型的模型参数。

11.一种文本生成装置，其特征在于，所述装置包括：

文本获取模块，用于获取第一文本；

概率确定模块，用于

将随机生成的隐特征以及所述第一文本的语义特征进行拼接，得到所述第一文本对应的第一融合特征，所述隐特征用于对所述第一文本的语义进行调整；基于所述第一融合特征和所述第一文本的语义特征，得到多个备选字符对应的概率，所述概率用于表示所述备选字符在生成文本时的出现概率；

生成模块，用于基于所述概率符合目标概率条件的备选字符，生成多个第二文本，所述多个第二文本与所述第一文本的表述方式不同，所述多个第二文本的语义与所述第一文本的语义之间的相似度符合目标相似度条件。

12.根据权利要求11所述的装置，其特征在于，所述语义特征获取模块，用于对所述第一文本中的字符进行嵌入编码，得到字符特征；基于注意力权重和所述字符特征，获取所述第一文本的语义特征。

13.根据权利要求11所述的装置，其特征在于，所述语义特征获取模块，还用于对所述第一文本中的字符进行嵌入编码，得到字符特征；为所述字符特征添加位置特征，基于注意力权重和添加位置特征后的字符特征，获取所述第一文本的语义特征，所述位置特征用于表示所述第一文本中的字符在所述第一文本中的位置。

14.根据权利要求11所述的装置，其特征在于，所述概率确定模块，用于对所述第一融合特征和所述第一文本的语义特征进行归一化处理，得到所述多个备选字符对应的第一概率和第二概率，所述第一概率用于表示多个备选字符对应的初始概率，所述第二概率用于表示采用备选字符对所述第一文本中的原字符进行替换的概率；基于所述第一概率和所述第二概率的乘积，得到多个备选字符对应的概率。

15.根据权利要求14所述的装置，其特征在于，所述概率确定模块，用于将所述第一文本的语义特征中对应于不同字符的语义特征进行加权求和，得到第二融合特征；对所述第一融合特征和所述第二融合特征进行归一化处理，得到所述多个备选字符对应的第一概率和第二概率。

16.根据权利要求11所述的装置，其特征在于，通过文本生成模型获取所述第一文本的语义特征以及所述多个备选字符对应的概率，所述文本生成模型的训练装置包括：

17.根据权利要求16所述的装置，其特征在于，所述输入模块，用于基于所述样本文本中的字符确定所述样本文本对应的样本语义特征；基于所述参考文本中的字符确定所述参考文本对应的参考语义特征；基于所述样本语义特征以及所述参考语义特征生成所述至少一个预测文本。

18.根据权利要求17所述的装置，其特征在于，所述输入模块，用于基于所述样本语义特征以及所述参考语义特征，确定后验高斯分布的分布参数；基于所述后验高斯分布的分布参数确定所述样本文本和所述参考文本对应的样本隐特征；基于所述样本隐特征和所述参考语义特征生成所述至少一个预测文本。

19.根据权利要求18所述的装置，其特征在于，所述输入模块，用于将所述样本隐特征和所述参考语义特征进行拼接，得到样本融合特征；对所述样本融合特征和所述样本语义特征进行归一化处理，得到多个备选字符对应的概率；基于所述多个备选字符对应的概率，生成所述至少一个预测文本。

20.根据权利要求16所述的装置，其特征在于，所述调整模块，用于确定所述至少一个预测文本与所述样本文本中字符的相对熵损失，根据所述相对熵损失调整所述初始文本生成模型的模型参数。

21.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求10任一项所述的文本生成方法所执行的操作。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的文本生成方法所执行的操作。