CN111401037B

CN111401037B - 自然语言的生成方法、装置、电子设备及存储介质

Info

Publication number: CN111401037B
Application number: CN202010502618.3A
Authority: CN
Inventors: 梁关林
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-11-06
Anticipated expiration: 2040-06-05
Also published as: CN111401037A

Abstract

本申请实施例公开了一种自然语言的生成方法，包括：获取由种子句子、关键词和掩码字符生成的第一初始句子序列，对第一初始句子序列进行加噪处理，得到第一待处理序列；根据第一待处理序列生成第一文本序列，将该第一文本序列作为新的第一初始句子序列不断进行迭代，以生成新的第一文本序列，直到新的第一文本序列的通顺度符合预设指标；获取由种子句子、关键词和掩码字符生成的第二初始句子序列，对第二初始句子序列进行加噪处理，得到第二待处理序列；根据第二待处理序列生成第二文本序列，对第二文本序列进行语义判断，根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列，从而实现可控的自然语言生成。

Description

自然语言的生成方法、装置、电子设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种自然语言的生成方法、装置、电子设备及存储介质。

背景技术

自然语言生成（Natural Language Generation，NLG）在很多自然语言处理（Natural Language Processing，NLP）任务中都有涉及，主要利用人工智能技术将人们的概念、结构化的数据转化为文本或语音进行输出。目前自然语言生成可依赖的技术有模板设计、文档规划、素材筛选以及文本聚合等，例如：在文本聚合方面，可通过信息检索、文本摘要、句子融合等技术实现，但过程相对复杂。随着深度学习和自然语言处理的发展，对自然语言生成的期望和要求也越来越高，语言模型和主题模型被大量应用到自然语言生成的场景中，但是其输出却难以控制，难以满足实际需求，如何简易、可控地实现文本生成成为本领域一个技术难题。

发明内容

为解决上述问题，本申请提供了一种自然语言的生成方法、装置、电子设备及存储介质，有利于提高文档、信息查询和处理的效率和准确性。

本申请实施例第一方面提供了一种自然语言的生成方法，该方法包括：

获取由种子句子、关键词和掩码字符生成的第一初始句子序列，对所述第一初始句子序列进行加噪处理，得到第一待处理序列；

根据所述第一待处理序列生成第一文本序列，将该第一文本序列作为新的第一初始句子序列不断进行迭代，以生成新的第一文本序列，直到所述新的第一文本序列的通顺度符合预设指标；

获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列，对所述第二初始句子序列进行加噪处理，得到第二待处理序列；

根据所述第二待处理序列生成第二文本序列，对所述第二文本序列进行语义判断，根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。

结合第一方面，在一种可能的实施方式中，所述获取由种子句子、关键词和掩码字符生成的第一初始句子序列，包括：

获取所述种子句子和所述关键词；

根据用户输入的指令，保持所述种子句子不变，在所述关键词的第一目标位置随机加入所述掩码字符得到所述第一初始句子序列。

结合第一方面，在一种可能的实施方式中，所述对所述第一初始句子序列进行加噪处理，得到第一待处理序列，包括：

对于生成的所述第一初始句子序列，用所述掩码字符以预设概率随机替换所述第一初始句子序列中的字符以完成加噪处理，得到所述第一待处理序列；

所述对所述第二初始句子序列进行加噪处理，得到第二待处理序列，包括：

对于生成的所述第二初始句子序列，用所述掩码字符以所述预设概率随机替换所述第二初始句子序列中的字符以完成加噪处理，得到所述第二待处理序列。

结合第一方面，在一种可能的实施方式中，所述根据所述第一待处理序列生成第一文本序列，包括：

采用去噪自编码语言模型对所述第一待处理序列进行编码和解码，以产生重构分布；

在重构分布中进行采样得到所述第一文本序列。

结合第一方面，在一种可能的实施方式中，所述去噪自编码语言模型包括编码器和解码器；所述采用去噪自编码语言模型对所述第一待处理序列进行编码和解码，以产生重构分布，包括：

采用所述编码器对输入的所述第一待处理序列进行编码，得到编码信号；

采用所述解码器对所述编码信号进行解码，得到重构分布的参数，以产生重构分布；

所述重构分布用于表示所述第一待处理序列中的所述掩码字符属于预设词库中的目标字符的概率；所述在重构分布中进行采样得到所述第一文本序列，包括：

将概率最高的所述目标字符作为所述第一待处理序列中的所述掩码字符原本所属的字符；或者

在概率排序最高的N个所述目标字符中随机确定一个作为所述第一待处理序列中的所述掩码字符原本所属的字符。

结合第一方面，在一种可能的实施方式中，所述获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列，包括以下之一：

根据用户输入的指令，保持所述种子句子不变，在所述关键词的第一目标位置随机加入所述掩码字符，得到所述第二初始句子序列；

根据用户输入的指令，保持所述种子句子不变，在所述关键词的第一目标位置随机加入所述掩码字符、以及使用所述掩码字符对所述关键词的第二目标位置进行替换，得到所述第二初始句子序列。

结合第一方面，在一种可能的实施方式中，所述根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列，包括：

若所述第二文本序列的语义不符合目标语义，则不以所述第二文本序列进行迭代，若所述第二文本序列的语义符合目标语义，则将该第二文本序列作为新的第二初始句子序列不断进行迭代，以生成新的第二初始句子序列，直到所述新的第二初始句子序列的通顺度符合预设指标，且语义符合目标语义。

本申请实施例第二方面提供了一种自然语言的生成装置，该装置包括：

第一待处理序列生成模块，用于获取由种子句子、关键词和掩码字符生成的第一初始句子序列，对所述第一初始句子序列进行加噪处理，得到第一待处理序列；

第一文本序列迭代模块，用于根据所述第一待处理序列生成第一文本序列，将该第一文本序列作为新的第一初始句子序列不断进行迭代，以生成新的第一文本序列，直到所述新的第一文本序列的通顺度符合预设指标；

第二待处理序列生成模块，用于获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列，对所述第二初始句子序列进行加噪处理，得到第二待处理序列；

第二文本序列迭代模块，用于根据所述第二待处理序列生成第二文本序列，对所述第二文本序列进行语义判断，根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。

本申请实施例第三方面提供了一种电子设备，该电子设备包括输入设备和输出设备，还包括处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行上述第一方面所述的方法中的步骤。

本申请实施例第四方面提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行上述第一方面所述的方法中的步骤。

与现有技术相比，本申请实施例通过获取由种子句子、关键词和掩码字符生成的第一初始句子序列，对所述第一初始句子序列进行加噪处理，得到第一待处理序列；根据所述第一待处理序列生成第一文本序列，将该第一文本序列作为新的第一初始句子序列不断进行迭代，以生成新的第一文本序列，直到所述新的第一文本序列的通顺度符合预设指标；获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列，对所述第二初始句子序列进行加噪处理，得到第二待处理序列；根据所述第二待处理序列生成第二文本序列，对所述第二文本序列进行语义判断，根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。这样构造一条从初始句子序列到文本序列的马尔科夫链，利用马尔科夫链蒙特卡罗方法生成文本序列，由于马尔科夫链蒙特卡罗方法具有均衡分布的特点，任何初始句子序列经过迭代都会收敛为通顺的文本，同时，在第二阶段对生成的文本序列进行语义判断，根据语义判断结果生成通顺度和语义均符合预期的文本序列，从而实现可控的自然语言生成。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用环境的示例图；

图2为本申请实施例提供的一种自然语言的生成方法的流程示意图；

图3为本申请实施例提供的一种去噪自编码语言模型的结构示意图；

图4为本申请实施例提供的填充阶段生成文本序列的示例图；

图5为本申请实施例提供的润色阶段生成文本序列的示例图；

图6为本申请实施例提供的另一种自然语言的生成方法的流程示意图；

图7为本申请实施例提供的一种自然语言的生成装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同的对象，而并非用于描述特定的顺序。

本申请实施例提供一种自然语言的生成方案，分为两个阶段实施，在填充阶段对种子句子、关键词、掩码（MASK）字符构成的初始句子序列进行加噪，得到一个去噪自编码器的待处理序列，用去噪自编码器的编码器对待处理序列编码，得到编码信号，再用解码器对其进行解码以产生重构分布，对重构分布进行采样，得到一文本序列，以前述方式对该文本序列进行迭代，直至生成符合PPL（perplexity，困惑度）指标的文本。在润色阶段，同样是采用去噪自编码器得到重构分布、再进行采样，但是在构造初始句子序列时，与填充阶段不同的是可以对关键词进行替换或掩盖，对于采样得到的文本序列，与填充阶段不同的是，对其进行语义判断，不符合期望则丢弃产生的文本序列，不对其进行迭代，以控制生成的文本的语义和通顺度，从而实现可控的自然语言生成。

具体的，该自然语言的生成方案可基于图1所示的应用环境进行实施，如图1所示，该应用环境中至少应包括终端和服务器，终端和服务器通过网络连接以实现交互，应用环境中还可以包括各种数据库（例如：词库）、中继器、网关等等。终端主要根据用户的操作向服务器提交种子句子和关键词，以及向服务器发送用户输入的各种指令或请求，使得服务器执行相关操作，例如：对种子句子和关键词构成的序列进行加噪腐蚀的指令、将待处理序列输入去噪自编码语言模型（denoising autoencoder，DAE）进行编码、解码的指令等等，服务器为本方案的执行主体，其中部署有去噪自编码语言模型以及语义判断、采样等算法，以支撑本方案的实施。可以理解的，本申请中的终端可以是桌面电脑、平板电脑、笔记本电脑等设备，服务器包括但不限于本地服务器、云端服务器、服务器集群，图1仅仅是一种示例，并不对本申请实施例造成任何限定，在一些情况下，本方案还可以基于其他应用环境来实施，例如：区块链网络，训练好的去噪自编码语言模型可以存储于区块链网络节点中。

基于图1所示的应用环境，以下结合相关附图对本申请实施例提出的自然语言的生成方法进行详细阐述，请参见图2，图2为本申请实施例提供的一种自然语言的生成方法的流程示意图，如图2所示，包括步骤S21-S24：

S21，获取由种子句子、关键词和掩码字符生成的第一初始句子序列，对所述第一初始句子序列进行加噪处理，得到第一待处理序列；

本申请具体实施例中，第一初始句子序列即填充阶段的初始句子序列，种子句子和关键词的作用是限制最后生成的文本的语义，假设选定的种子句子为“我喜欢读文学小说”，可以看出种子句子的语义可能是兴趣爱好或者书本，那么关键词的选取也应是与该语义信息相关的词，例如：游戏、烹饪、菜谱等，种子句子和关键词可从语料库中选择，具体语义范围可根据实际需求而定。该阶段，保持种子句子不变，在关键词周围的一些位置上加入掩码字符，以生成第一初始句子序列x，对于生成的第一初始句子序列x，用掩码字符以预设概率（例如：15%）随机替换该第一初始句子序列x中的字符得到第一待处理序列

，完成加噪处理

，该第一待处理序列

作为后续去噪自编码语言模型的输入。

S22，根据所述第一待处理序列生成第一文本序列，将该第一文本序列作为新的第一初始句子序列不断进行迭代，以生成新的第一文本序列，直到所述新的第一文本序列的通顺度符合预设指标；

本申请具体实施例中，采用去噪自编码语言模型对第一待处理序列

进行处理，得到重构分布，从重构分布中进行采样得到上述第一文本序列

。具体的，如图3所示，去噪自编码语言模型的网络结构包括输入层（x），隐藏层（h）和输出层（y），是一种以损坏数据为输入以预测原始未被损坏的数据的自编码器，整个去噪自编码语言模型工作成编码器和解码器两部分，对于输入的第一待处理序列

，采用编码器f对其进行编码得到编码信号

，再采用解码器g对编码信号h进行解码得到重构分布的参数

，最后对重构分布

=

进行采样产生上述第一文本序列

。可以理解的，重构分布即指重构去噪自编码器输入句子序列的分布，可以预测出去噪自编码器输入句子序列中的掩码字符属于预设词库中的哪一个字符的概率，针对重构分布中的概率分布，我们是直接选取概率最高的字符，或者在概率最高的top-N字符中，随机选取一个，N可根据实际情况来确定。该去噪自编码语言模型可以是BERT模型，实际应用中也可以利用类似于BART模型的seq2seq解码器，但编码必须是双向的DAE模型。

对于得到的第一文本序列

，将其确定为新的第一初始句子序列x，保持种子句子和关键词不变，对该新的第一初始句子序列x进行加噪处理

，然后将加噪处理后得到的序列输入去噪自编码语言模型进行编码、解码产生新的重构分布，最后再进行采样得到新的第一文本序列

，如此不断进行迭代，直到生成的第一文本序列

的通顺度符合预设标准，该预设标准可以是语言模型评价指标PPL。需要说明的是，此处的新的第一初始句子序列x是没有掩码字符的句子序列，也就是说从迭代开始，输入的初始句子序列并没有加入掩码字符。

上述步骤S21和S22为填充阶段的具体实施，其实现过程可如图4所示，通过构造一条从第一初始句子序列x到第一文本序列

的马尔科夫链，利用马尔科夫链蒙特卡罗方法对去噪自编码语言模型学习到的语言分布进行采样，由于马尔科夫链蒙特卡罗采样具有均衡分布的特点，对于任何初始句子序列，经过迭代都会收敛为通顺的文本。

S23，获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列，对所述第二初始句子序列进行加噪处理，得到第二待处理序列；

本申请具体实施例中，第二初始句子序列x1即润色阶段的初始句子序列，与步骤 S21中生成第一初始句子序列x的方式有所区别，此处是允许使用掩码字符对关键词所在位置进行替换来得到第二初始句子序列x1，而填充阶段是不允许对关键词所在位置进行替换的，即润色阶段的第二初始句子序列x1可以是采用与步骤S21相同的方式得到，也可以在步骤S21所采用的方式的基础上以掩码字符对关键词进行替换，例如：“菜谱”这个关键词，可以替换为“*谱”、“菜*”，或者“**”。对于生成的第二初始句子序列x1，用掩码字符以预设概率随机替换该第二初始句子序列x1中的字符得到第二待处理序列

。

S24，根据所述第二待处理序列生成第二文本序列，对所述第二文本序列进行语义判断，根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。

本申请具体实施例中，采用去噪自编码语言模型对第二待处理序列

进行编码、解码，得到第二待处理序列

的重构分布，对第二待处理序列

的重构分布进行采样得到第二文本序列

，此处编码、解码、采样的方式与填充阶段相同。

目标语义可根据种子句子和关键词确定，或者根据具体业务需求确定，与步骤S22 中对第一文本序列进行迭代的要求不同，在润色阶段，采用现有文本相似度模型对第二文本序列

进行语义判断，若其语义不符合目标语义，直接将该第二文本序列

丢弃，拒绝将其作为新的第二初始句子序列x1进行迭代，同理，若其语义符合目标语义，则将其确定为新的第二初始句子序列x1按照步骤S23中描述的方法进行加噪、编码、解码、采样，以生成新的第二文本序列

，对于新的第二文本序列

仍然进行语义判断，直至生成的新的第二文本序列

通顺度符合PPL指标，且语义符合目标语义，即完成自然语义生成的整个过程。同理，此处的新的第二初始句子序列x1也是没有掩码字符的句子序列。

上述步骤S23和S24为润色阶段的具体实施，其实现过程可如图5所示，与填充阶段类似，第二初始句子序列x1到第二文本序列

同样是构造了一条马尔科夫链，不同之处在于会对生成的第二文本序列

进行语义判断，对不符合语义的文本序列拒绝进行迭代，从而实现可控的自然语言生成。

可以看出，本申请实施例通过获取由种子句子、关键词和掩码字符生成的第一初始句子序列，对所述第一初始句子序列进行加噪处理，得到第一待处理序列；根据所述第一待处理序列生成第一文本序列，将该第一文本序列作为新的第一初始句子序列不断进行迭代，以生成新的第一文本序列，直到所述新的第一文本序列的通顺度符合预设指标；获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列，对所述第二初始句子序列进行加噪处理，得到第二待处理序列；根据所述第二待处理序列生成第二文本序列，对所述第二文本序列进行语义判断，根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。这样构造一条从初始句子序列到文本序列的马尔科夫链，利用马尔科夫链蒙特卡罗方法生成文本序列，由于马尔科夫链蒙特卡罗方法具有均衡分布的特点，任何初始句子序列经过迭代都会收敛为通顺的文本，同时，在润色阶段对生成的文本序列进行语义判断，根据语义判断结果生成通顺度和语义均符合预期的文本序列，从而实现可控的自然语言生成。

请参见图6，图6为本申请实施例提供的另一种自然语言的生成方法的流程示意图，如图6所示，包括步骤S61-S66：

S61，获取种子句子和关键词；

本申请具体实施例中，种子句子和关键词为用户通过终端提交至服务器。种子句子和关键词可以来自于本地数据库，也可以来自于第三方平台。

S62，根据用户输入的指令，保持所述种子句子不变，在所述关键词的第一目标位置随机加入掩码字符得到第一初始句子序列；

本申请具体实施例中，用户通过终端输入指令，该指令可以是程序代码的形式，第一目标位置即指两个关键词之间或关键词的前后，例如：“菜谱”和“烹饪”加上掩码字符即变为“*菜谱*烹饪*”，此操作的目的是让关键词形成损坏的句子。

S63，对所述第一初始句子序列进行加噪处理，得到第一待处理序列；

在一种可能的实施方式中，上述对所述第一初始句子序列进行加噪处理，得到第一待处理序列，包括：

对于生成的所述第一初始句子序列，用所述掩码字符以预设概率随机替换所述第一初始句子序列中的字符以完成加噪处理，得到所述第一待处理序列。

S64，根据所述第一待处理序列生成第一文本序列，将该第一文本序列作为新的第一初始句子序列不断进行迭代，以生成新的第一文本序列，直到所述新的第一文本序列的通顺度符合预设指标；

在一种可能的实施方式中，上述根据所述第一待处理序列生成第一文本序列，包括：

在重构分布中进行采样得到所述第一文本序列。

其中，去噪自编码语言模型包括编码器和解码器；采用去噪自编码语言模型对所述第一待处理序列进行编码和解码，以产生重构分布，包括：采用所述编码器对输入的所述第一待处理序列进行编码，得到编码信号；采用所述解码器对所述编码信号进行解码，得到重构分布的参数，以产生重构分布。重构分布用于表示所述第一待处理序列中的所述掩码字符属于预设词库中的目标字符的概率；在重构分布中进行采样得到所述第一文本序列，包括：将概率最高的所述目标字符作为所述第一待处理序列中的所述掩码字符原本所属的字符；或者在概率排序最高的N个所述目标字符中随机确定一个作为所述第一待处理序列中的所述掩码字符原本所属的字符。

S65，获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列，对所述第二初始句子序列进行加噪处理，得到第二待处理序列；

在一种可能的实施方式中，上述获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列，包括以下之一：一、根据用户输入的指令，保持所述种子句子不变，在所述关键词的第一目标位置随机加入所述掩码字符，得到所述第二初始句子序列；二、根据用户输入的指令，保持所述种子句子不变，在所述关键词的第一目标位置随机加入所述掩码字符、以及使用所述掩码字符对所述关键词的第二目标位置进行替换，得到所述第二初始句子序列。其中，第二目标位置即指关键词本身所在的位置，例如：“菜谱”这个关键词中“菜”和“谱”所在的位置。

上述对所述第二初始句子序列进行加噪处理，得到第二待处理序列，包括：

S66，根据所述第二待处理序列生成第二文本序列，对所述第二文本序列进行语义判断，根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。

在一种可能的实施方式中，上述根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列，包括：

需要说明的是，图6所示实施例中的部分步骤在图2所示的实施例中已有相关说明，为避免重复，此处不再赘述。

基于上述方法实施例的描述，本申请实施例还提供一种自然语言的生成装置，所述自然语言的生成装置可以是运行于终端中的一个计算机程序（包括程序代码）。该自然语言的生成装置可以执行图2或图6所示的方法。请参见图7，该装置包括：

第一待处理序列生成模块71，用于获取由种子句子、关键词和掩码字符生成的第一初始句子序列，对所述第一初始句子序列进行加噪处理，得到第一待处理序列；

第一文本序列迭代模块72，用于根据所述第一待处理序列生成第一文本序列，将该第一文本序列作为新的第一初始句子序列不断进行迭代，以生成新的第一文本序列，直到所述新的第一文本序列的通顺度符合预设指标；

第二待处理序列生成模块73，用于获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列，对所述第二初始句子序列进行加噪处理，得到第二待处理序列；

第二文本序列迭代模块74，用于根据所述第二待处理序列生成第二文本序列，对所述第二文本序列进行语义判断，根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。

在一种可选的实施方式中，在获取由种子句子、关键词和掩码字符生成的第一初始句子序列方面，第一待处理序列生成模块71，具体用于：

获取所述种子句子和所述关键词；

在一种可选的实施方式中，在对所述第一初始句子序列进行加噪处理，得到第一待处理序列方面，第一待处理序列生成模块71，具体用于：

在对所述第二初始句子序列进行加噪处理，得到第二待处理序列方面，第二待处理序列生成模块73，具体用于：

在一种可选的实施方式中，在根据所述第一待处理序列生成第一文本序列方面，第一文本序列迭代模块72，具体用于：

在重构分布中进行采样得到所述第一文本序列。

在一种可选的实施方式中，所述去噪自编码语言模型包括编码器和解码器；在采用去噪自编码语言模型对所述第一待处理序列进行编码和解码，以产生重构分布方面，第一文本序列迭代模块72，具体用于：

所述重构分布用于表示所述第一待处理序列中的所述掩码字符属于预设词库中的目标字符的概率；在重构分布中进行采样得到所述第一文本序列方面，第一文本序列迭代模块72，具体用于：

在一种可选的实施方式中，在获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列方面，第二待处理序列生成模块73，具体用于执行以下之一：

在一种可选的实施方式中，在根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列方面，第二文本序列迭代模块74，具体用于：

根据本申请的一个实施例，图7所示的自然语言的生成装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，自然语言的生成装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图6中所示的相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造如图7所示的装置设备，以及来实现本发明实施例的上述方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种电子设备。请参见图8，该电子设备至少包括处理器81、输入设备82、输出设备83以及计算机存储介质84。其中，电子设备内的处理器81、输入设备82、输出设备83以及计算机存储介质84可通过总线或其他方式连接。

计算机存储介质84可以存储在电子设备的存储器中，所述计算机存储介质84用于存储计算机程序，所述计算机程序包括程序指令，所述处理器81用于执行所述计算机存储介质84存储的程序指令。处理器81（或称CPU（Central Processing Unit，中央处理器））是电子设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中，本申请实施例提供的电子设备的处理器81可以用于进行一系列自然语言的生成处理，包括：

在一个实施例中，处理器81执行所述获取由种子句子、关键词和掩码字符生成的第一初始句子序列，包括：

获取所述种子句子和所述关键词；

在一个实施例中，处理器81执行所述对所述第一初始句子序列进行加噪处理，得到第一待处理序列，包括：

处理器81执行所述对所述第二初始句子序列进行加噪处理，得到第二待处理序列，包括：

在一个实施例中，处理器81执行所述根据所述第一待处理序列生成第一文本序列，包括：

在重构分布中进行采样得到所述第一文本序列。

在一个实施例中，所述去噪自编码语言模型包括编码器和解码器；处理器81执行所述采用去噪自编码语言模型对所述第一待处理序列进行编码和解码，以产生重构分布，包括：

所述重构分布用于表示所述第一待处理序列中的所述掩码字符属于预设词库中的目标字符的概率；处理器81执行所述在重构分布中进行采样得到所述第一文本序列，包括：

在一个实施例中，处理器81执行所述获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列，包括以下之一：

在一个实施例中，处理器81执行所述根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列，包括：

本申请实施例通过获取由种子句子、关键词和掩码字符生成的第一初始句子序列，对所述第一初始句子序列进行加噪处理，得到第一待处理序列；根据所述第一待处理序列生成第一文本序列，将该第一文本序列作为新的第一初始句子序列不断进行迭代，以生成新的第一文本序列，直到所述新的第一文本序列的通顺度符合预设指标；获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列，对所述第二初始句子序列进行加噪处理，得到第二待处理序列；根据所述第二待处理序列生成第二文本序列，对所述第二文本序列进行语义判断，根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。这样构造一条从初始句子序列到文本序列的马尔科夫链，利用马尔科夫链蒙特卡罗方法生成文本序列，由于马尔科夫链蒙特卡罗方法具有均衡分布的特点，任何初始句子序列经过迭代都会收敛为通顺的文本，同时，在第二阶段对生成的文本序列进行语义判断，根据语义判断结果生成通顺度和语义均符合预期的文本序列，从而实现可控的自然语言生成。

示例性的，上述电子设备可以是服务器、云端服务器等。电子设备可包括但不仅限于处理器81、输入设备82、输出设备83以及计算机存储介质84。本领域技术人员可以理解，所述示意图仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

需要说明的是，由于电子设备的处理器81执行计算机程序时实现上述的自然语言的生成方法中的步骤，因此上述自然语言的生成方法的实施例均适用于该电子设备，且均能达到相同或相似的有益效果。

本申请实施例还提供了一种计算机存储介质（Memory），所述计算机存储介质是电子设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器81加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序（包括程序代码）。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器81的计算机存储介质。在一个实施例中，可由处理器81加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关自然语言的生成方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器81加载并执行如下步骤：

在一种示例中，计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤：

获取所述种子句子和所述关键词；

在重构分布中进行采样得到所述第一文本序列。

采用所述解码器对所述编码信号进行解码，得到重构分布的参数，以产生重构分布。

在一种示例中，计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤之一：

需要说明的是，由于计算机存储介质的计算机程序被处理器执行时实现上述的自然语言的生成方法中的步骤，因此上述自然语言的生成方法的所有实施例或实施方式均适用于该计算机存储介质，且均能达到相同或相似的有益效果。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种自然语言的生成方法，其特征在于，所述方法包括：

获取由种子句子、关键词和掩码字符生成的第一初始句子序列，对所述第一初始句子序列进行加噪处理，得到第一待处理序列；所述第一初始句子序列为填充阶段的初始句子序列；

获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列，对所述第二初始句子序列进行加噪处理，得到第二待处理序列；所述第二初始句子序列为润色阶段的初始句子序列；

所述第二待处理序列具体为：用掩码字符以预设概率随机替换该第二初始句子序列中的字符得到第二待处理序列；

根据所述第二待处理序列生成第二文本序列，对所述第二文本序列进行语义判断，根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列；

所述根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列具体包括：

采用相似度模型对第二文本序列进行语义判断，若其语义不符合目标语义，直接将该第二文本序列丢弃，拒绝将其作为新的第二初始句子序列进行迭代，若其语义符合目标语义，则将其确定为新的第二初始句子序列进行加噪、编码、解码、采样，以生成新的第二文本序列，对于新的第二文本序列仍然进行语义判断，直至生成的新的第二文本序列通顺度符合困惑度指标，且语义符合目标语义，新的第二初始句子序列为没有掩码字符的句子序列。

2.根据权利要求1所述的方法，其特征在于，所述获取由种子句子、关键词和掩码字符生成的第一初始句子序列，包括：

获取所述种子句子和所述关键词；

3.根据权利要求1所述的方法，其特征在于，所述对所述第一初始句子序列进行加噪处理，得到第一待处理序列，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述第一待处理序列生成第一文本序列，包括：

在重构分布中进行采样得到所述第一文本序列。

5.根据权利要求4所述的方法，其特征在于，所述去噪自编码语言模型包括编码器和解码器；所述采用去噪自编码语言模型对所述第一待处理序列进行编码和解码，以产生重构分布，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列，包括以下之一：

7.一种自然语言的生成装置，其特征在于，所述装置包括：

第一待处理序列生成模块，用于获取由种子句子、关键词和掩码字符生成的第一初始句子序列，对所述第一初始句子序列进行加噪处理，得到第一待处理序列；所述第一初始句子序列为填充阶段的初始句子序列；

第二待处理序列生成模块，用于获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列，对所述第二初始句子序列进行加噪处理，得到第二待处理序列；所述第二初始句子序列为润色阶段的初始句子序列；

第二文本序列迭代模块，用于根据所述第二待处理序列生成第二文本序列，对所述第二文本序列进行语义判断，根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列；

8.一种电子设备，包括输入设备和输出设备，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-6任一项所述的方法中的步骤。

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-6任一项所述的方法中的步骤。