CN111401037B - 自然语言的生成方法、装置、电子设备及存储介质 - Google Patents

自然语言的生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111401037B
CN111401037B CN202010502618.3A CN202010502618A CN111401037B CN 111401037 B CN111401037 B CN 111401037B CN 202010502618 A CN202010502618 A CN 202010502618A CN 111401037 B CN111401037 B CN 111401037B
Authority
CN
China
Prior art keywords
sequence
processed
text
sentence
initial sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010502618.3A
Other languages
English (en)
Other versions
CN111401037A (zh
Inventor
梁关林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202010502618.3A priority Critical patent/CN111401037B/zh
Publication of CN111401037A publication Critical patent/CN111401037A/zh
Application granted granted Critical
Publication of CN111401037B publication Critical patent/CN111401037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种自然语言的生成方法,包括:获取由种子句子、关键词和掩码字符生成的第一初始句子序列,对第一初始句子序列进行加噪处理,得到第一待处理序列;根据第一待处理序列生成第一文本序列,将该第一文本序列作为新的第一初始句子序列不断进行迭代,以生成新的第一文本序列,直到新的第一文本序列的通顺度符合预设指标;获取由种子句子、关键词和掩码字符生成的第二初始句子序列,对第二初始句子序列进行加噪处理,得到第二待处理序列;根据第二待处理序列生成第二文本序列,对第二文本序列进行语义判断,根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列,从而实现可控的自然语言生成。

Description

自然语言的生成方法、装置、电子设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种自然语言的生成方法、装置、电子设备及存储介质。
背景技术
自然语言生成(Natural Language Generation,NLG)在很多自然语言处理(Natural Language Processing,NLP)任务中都有涉及,主要利用人工智能技术将人们的概念、结构化的数据转化为文本或语音进行输出。目前自然语言生成可依赖的技术有模板设计、文档规划、素材筛选以及文本聚合等,例如:在文本聚合方面,可通过信息检索、文本摘要、句子融合等技术实现,但过程相对复杂。随着深度学习和自然语言处理的发展,对自然语言生成的期望和要求也越来越高,语言模型和主题模型被大量应用到自然语言生成的场景中,但是其输出却难以控制,难以满足实际需求,如何简易、可控地实现文本生成成为本领域一个技术难题。
发明内容
为解决上述问题,本申请提供了一种自然语言的生成方法、装置、电子设备及存储介质,有利于提高文档、信息查询和处理的效率和准确性。
本申请实施例第一方面提供了一种自然语言的生成方法,该方法包括:
获取由种子句子、关键词和掩码字符生成的第一初始句子序列,对所述第一初始句子序列进行加噪处理,得到第一待处理序列;
根据所述第一待处理序列生成第一文本序列,将该第一文本序列作为新的第一初始句子序列不断进行迭代,以生成新的第一文本序列,直到所述新的第一文本序列的通顺度符合预设指标;
获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,对所述第二初始句子序列进行加噪处理,得到第二待处理序列;
根据所述第二待处理序列生成第二文本序列,对所述第二文本序列进行语义判断,根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。
结合第一方面,在一种可能的实施方式中,所述获取由种子句子、关键词和掩码字符生成的第一初始句子序列,包括:
获取所述种子句子和所述关键词;
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符得到所述第一初始句子序列。
结合第一方面,在一种可能的实施方式中,所述对所述第一初始句子序列进行加噪处理,得到第一待处理序列,包括:
对于生成的所述第一初始句子序列,用所述掩码字符以预设概率随机替换所述第一初始句子序列中的字符以完成加噪处理,得到所述第一待处理序列;
所述对所述第二初始句子序列进行加噪处理,得到第二待处理序列,包括:
对于生成的所述第二初始句子序列,用所述掩码字符以所述预设概率随机替换所述第二初始句子序列中的字符以完成加噪处理,得到所述第二待处理序列。
结合第一方面,在一种可能的实施方式中,所述根据所述第一待处理序列生成第一文本序列,包括:
采用去噪自编码语言模型对所述第一待处理序列进行编码和解码,以产生重构分布;
在重构分布中进行采样得到所述第一文本序列。
结合第一方面,在一种可能的实施方式中,所述去噪自编码语言模型包括编码器和解码器;所述采用去噪自编码语言模型对所述第一待处理序列进行编码和解码,以产生重构分布,包括:
采用所述编码器对输入的所述第一待处理序列进行编码,得到编码信号;
采用所述解码器对所述编码信号进行解码,得到重构分布的参数,以产生重构分布;
所述重构分布用于表示所述第一待处理序列中的所述掩码字符属于预设词库中的目标字符的概率;所述在重构分布中进行采样得到所述第一文本序列,包括:
将概率最高的所述目标字符作为所述第一待处理序列中的所述掩码字符原本所属的字符;或者
在概率排序最高的N个所述目标字符中随机确定一个作为所述第一待处理序列中的所述掩码字符原本所属的字符。
结合第一方面,在一种可能的实施方式中,所述获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,包括以下之一:
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符,得到所述第二初始句子序列;
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符、以及使用所述掩码字符对所述关键词的第二目标位置进行替换,得到所述第二初始句子序列。
结合第一方面,在一种可能的实施方式中,所述根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列,包括:
若所述第二文本序列的语义不符合目标语义,则不以所述第二文本序列进行迭代,若所述第二文本序列的语义符合目标语义,则将该第二文本序列作为新的第二初始句子序列不断进行迭代,以生成新的第二初始句子序列,直到所述新的第二初始句子序列的通顺度符合预设指标,且语义符合目标语义。
本申请实施例第二方面提供了一种自然语言的生成装置,该装置包括:
第一待处理序列生成模块,用于获取由种子句子、关键词和掩码字符生成的第一初始句子序列,对所述第一初始句子序列进行加噪处理,得到第一待处理序列;
第一文本序列迭代模块,用于根据所述第一待处理序列生成第一文本序列,将该第一文本序列作为新的第一初始句子序列不断进行迭代,以生成新的第一文本序列,直到所述新的第一文本序列的通顺度符合预设指标;
第二待处理序列生成模块,用于获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,对所述第二初始句子序列进行加噪处理,得到第二待处理序列;
第二文本序列迭代模块,用于根据所述第二待处理序列生成第二文本序列,对所述第二文本序列进行语义判断,根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。
本申请实施例第三方面提供了一种电子设备,该电子设备包括输入设备和输出设备,还包括处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行上述第一方面所述的方法中的步骤。
本申请实施例第四方面提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行上述第一方面所述的方法中的步骤。
与现有技术相比,本申请实施例通过获取由种子句子、关键词和掩码字符生成的第一初始句子序列,对所述第一初始句子序列进行加噪处理,得到第一待处理序列;根据所述第一待处理序列生成第一文本序列,将该第一文本序列作为新的第一初始句子序列不断进行迭代,以生成新的第一文本序列,直到所述新的第一文本序列的通顺度符合预设指标;获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,对所述第二初始句子序列进行加噪处理,得到第二待处理序列;根据所述第二待处理序列生成第二文本序列,对所述第二文本序列进行语义判断,根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。这样构造一条从初始句子序列到文本序列的马尔科夫链,利用马尔科夫链蒙特卡罗方法生成文本序列,由于马尔科夫链蒙特卡罗方法具有均衡分布的特点,任何初始句子序列经过迭代都会收敛为通顺的文本,同时,在第二阶段对生成的文本序列进行语义判断,根据语义判断结果生成通顺度和语义均符合预期的文本序列,从而实现可控的自然语言生成。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种应用环境的示例图;
图2为本申请实施例提供的一种自然语言的生成方法的流程示意图;
图3为本申请实施例提供的一种去噪自编码语言模型的结构示意图;
图4为本申请实施例提供的填充阶段生成文本序列的示例图;
图5为本申请实施例提供的润色阶段生成文本序列的示例图;
图6为本申请实施例提供的另一种自然语言的生成方法的流程示意图;
图7为本申请实施例提供的一种自然语言的生成装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同的对象,而并非用于描述特定的顺序。
本申请实施例提供一种自然语言的生成方案,分为两个阶段实施,在填充阶段对种子句子、关键词、掩码(MASK)字符构成的初始句子序列进行加噪,得到一个去噪自编码器的待处理序列,用去噪自编码器的编码器对待处理序列编码,得到编码信号,再用解码器对其进行解码以产生重构分布,对重构分布进行采样,得到一文本序列,以前述方式对该文本序列进行迭代,直至生成符合PPL(perplexity,困惑度)指标的文本。在润色阶段,同样是采用去噪自编码器得到重构分布、再进行采样,但是在构造初始句子序列时,与填充阶段不同的是可以对关键词进行替换或掩盖,对于采样得到的文本序列,与填充阶段不同的是,对其进行语义判断,不符合期望则丢弃产生的文本序列,不对其进行迭代,以控制生成的文本的语义和通顺度,从而实现可控的自然语言生成。
具体的,该自然语言的生成方案可基于图1所示的应用环境进行实施,如图1所示,该应用环境中至少应包括终端和服务器,终端和服务器通过网络连接以实现交互,应用环境中还可以包括各种数据库(例如:词库)、中继器、网关等等。终端主要根据用户的操作向服务器提交种子句子和关键词,以及向服务器发送用户输入的各种指令或请求,使得服务器执行相关操作,例如:对种子句子和关键词构成的序列进行加噪腐蚀的指令、将待处理序列输入去噪自编码语言模型(denoising autoencoder,DAE)进行编码、解码的指令等等,服务器为本方案的执行主体,其中部署有去噪自编码语言模型以及语义判断、采样等算法,以支撑本方案的实施。可以理解的,本申请中的终端可以是桌面电脑、平板电脑、笔记本电脑等设备,服务器包括但不限于本地服务器、云端服务器、服务器集群,图1仅仅是一种示例,并不对本申请实施例造成任何限定,在一些情况下,本方案还可以基于其他应用环境来实施,例如:区块链网络,训练好的去噪自编码语言模型可以存储于区块链网络节点中。
基于图1所示的应用环境,以下结合相关附图对本申请实施例提出的自然语言的生成方法进行详细阐述,请参见图2,图2为本申请实施例提供的一种自然语言的生成方法的流程示意图,如图2所示,包括步骤S21-S24:
S21,获取由种子句子、关键词和掩码字符生成的第一初始句子序列,对所述第一初始句子序列进行加噪处理,得到第一待处理序列;
本申请具体实施例中,第一初始句子序列即填充阶段的初始句子序列,种子句子 和关键词的作用是限制最后生成的文本的语义,假设选定的种子句子为“我喜欢读文学小 说”,可以看出种子句子的语义可能是兴趣爱好或者书本,那么关键词的选取也应是与该语 义信息相关的词,例如:游戏、烹饪、菜谱等,种子句子和关键词可从语料库中选择,具体语 义范围可根据实际需求而定。该阶段,保持种子句子不变,在关键词周围的一些位置上加入 掩码字符,以生成第一初始句子序列x,对于生成的第一初始句子序列x,用掩码字符以预设 概率(例如:15%)随机替换该第一初始句子序列x中的字符得到第一待处理序列
Figure 59521DEST_PATH_IMAGE001
,完成加噪 处理
Figure 383186DEST_PATH_IMAGE002
,该第一待处理序列
Figure 959661DEST_PATH_IMAGE003
作为后续去噪自编码语言模型的输入。
S22,根据所述第一待处理序列生成第一文本序列,将该第一文本序列作为新的第一初始句子序列不断进行迭代,以生成新的第一文本序列,直到所述新的第一文本序列的通顺度符合预设指标;
本申请具体实施例中,采用去噪自编码语言模型对第一待处理序列
Figure 89291DEST_PATH_IMAGE004
进行处理,得 到重构分布,从重构分布中进行采样得到上述第一文本序列
Figure 559455DEST_PATH_IMAGE005
。具体的,如图3所示,去噪自 编码语言模型的网络结构包括输入层(x),隐藏层(h)和输出层(y),是一种以损坏数据为输 入以预测原始未被损坏的数据的自编码器,整个去噪自编码语言模型工作成编码器和解码器 两部分,对于输入的第一待处理序列
Figure 178656DEST_PATH_IMAGE003
,采用编码器f对其进行编码得到编码信号
Figure 180110DEST_PATH_IMAGE006
再采用解码器g对编码信号h进行解码得到重构分布的参数
Figure 51114DEST_PATH_IMAGE007
,最后对重构分布
Figure 454413DEST_PATH_IMAGE008
=
Figure 244515DEST_PATH_IMAGE009
进行采样产生上述第一文本序列
Figure 733265DEST_PATH_IMAGE005
。可以理解的,重构分布即指重构去 噪自编码器输入句子序列的分布,可以预测出去噪自编码器输入句子序列中的掩码字符属 于预设词库中的哪一个字符的概率,针对重构分布中的概率分布,我们是直接选取概率最 高的字符,或者在概率最高的top-N字符中,随机选取一个,N可根据实际情况来确定。该去 噪自编码语言模型可以是BERT模型,实际应用中也可以利用类似于BART模型的seq2seq解 码器,但编码必须是双向的DAE模型。
对于得到的第一文本序列
Figure 893113DEST_PATH_IMAGE005
,将其确定为新的第一初始句子序列x,保持种子句子 和关键词不变,对该新的第一初始句子序列x进行加噪处理
Figure 150919DEST_PATH_IMAGE002
,然后将加噪处理后得到 的序列输入去噪自编码语言模型进行编码、解码产生新的重构分布,最后再进行采样得到 新的第一文本序列
Figure 377501DEST_PATH_IMAGE005
,如此不断进行迭代,直到生成的第一文本序列
Figure 353547DEST_PATH_IMAGE005
的通顺度符合预设标 准,该预设标准可以是语言模型评价指标PPL。需要说明的是,此处的新的第一初始句子序 列x是没有掩码字符的句子序列,也就是说从迭代开始,输入的初始句子序列并没有加入掩 码字符。
上述步骤S21和S22为填充阶段的具体实施,其实现过程可如图4所示,通过构造一 条从第一初始句子序列x到第一文本序列
Figure 300775DEST_PATH_IMAGE005
的马尔科夫链,利用马尔科夫链蒙特卡罗方法对 去噪自编码语言模型学习到的语言分布进行采样,由于马尔科夫链蒙特卡罗采样具有均衡 分布的特点,对于任何初始句子序列,经过迭代都会收敛为通顺的文本。
S23,获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,对所述第二初始句子序列进行加噪处理,得到第二待处理序列;
本申请具体实施例中,第二初始句子序列x1即润色阶段的初始句子序列,与步骤 S21中生成第一初始句子序列x的方式有所区别,此处是允许使用掩码字符对关键词所在位 置进行替换来得到第二初始句子序列x1,而填充阶段是不允许对关键词所在位置进行替换 的,即润色阶段的第二初始句子序列x1可以是采用与步骤S21相同的方式得到,也可以在步 骤S21所采用的方式的基础上以掩码字符对关键词进行替换,例如:“菜谱”这个关键词,可 以替换为“*谱”、“菜*”,或者“**”。对于生成的第二初始句子序列x1,用掩码字符以预设概 率随机替换该第二初始句子序列x1中的字符得到第二待处理序列
Figure 678666DEST_PATH_IMAGE010
S24,根据所述第二待处理序列生成第二文本序列,对所述第二文本序列进行语义判断,根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。
本申请具体实施例中,采用去噪自编码语言模型对第二待处理序列
Figure 810570DEST_PATH_IMAGE010
进行编码、 解码,得到第二待处理序列
Figure 273913DEST_PATH_IMAGE010
的重构分布,对第二待处理序列
Figure 274099DEST_PATH_IMAGE011
的重构分布进行采样得到 第二文本序列
Figure 506497DEST_PATH_IMAGE012
,此处编码、解码、采样的方式与填充阶段相同。
目标语义可根据种子句子和关键词确定,或者根据具体业务需求确定,与步骤S22 中对第一文本序列进行迭代的要求不同,在润色阶段,采用现有文本相似度模型对第二文 本序列
Figure 74881DEST_PATH_IMAGE012
进行语义判断,若其语义不符合目标语义,直接将该第二文本序列
Figure 759941DEST_PATH_IMAGE013
丢弃,拒绝将 其作为新的第二初始句子序列x1进行迭代,同理,若其语义符合目标语义,则将其确定为新 的第二初始句子序列x1按照步骤S23中描述的方法进行加噪、编码、解码、采样,以生成新的 第二文本序列
Figure 314550DEST_PATH_IMAGE013
,对于新的第二文本序列
Figure 401455DEST_PATH_IMAGE012
仍然进行语义判断,直至生成的新的第二文本 序列
Figure 140741DEST_PATH_IMAGE012
通顺度符合PPL指标,且语义符合目标语义,即完成自然语义生成的整个过程。同理, 此处的新的第二初始句子序列x1也是没有掩码字符的句子序列。
上述步骤S23和S24为润色阶段的具体实施,其实现过程可如图5所示,与填充阶段 类似,第二初始句子序列x1到第二文本序列
Figure 313096DEST_PATH_IMAGE012
同样是构造了一条马尔科夫链,不同之处在 于会对生成的第二文本序列
Figure 156549DEST_PATH_IMAGE012
进行语义判断,对不符合语义的文本序列拒绝进行迭代,从 而实现可控的自然语言生成。
可以看出,本申请实施例通过获取由种子句子、关键词和掩码字符生成的第一初始句子序列,对所述第一初始句子序列进行加噪处理,得到第一待处理序列;根据所述第一待处理序列生成第一文本序列,将该第一文本序列作为新的第一初始句子序列不断进行迭代,以生成新的第一文本序列,直到所述新的第一文本序列的通顺度符合预设指标;获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,对所述第二初始句子序列进行加噪处理,得到第二待处理序列;根据所述第二待处理序列生成第二文本序列,对所述第二文本序列进行语义判断,根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。这样构造一条从初始句子序列到文本序列的马尔科夫链,利用马尔科夫链蒙特卡罗方法生成文本序列,由于马尔科夫链蒙特卡罗方法具有均衡分布的特点,任何初始句子序列经过迭代都会收敛为通顺的文本,同时,在润色阶段对生成的文本序列进行语义判断,根据语义判断结果生成通顺度和语义均符合预期的文本序列,从而实现可控的自然语言生成。
请参见图6,图6为本申请实施例提供的另一种自然语言的生成方法的流程示意图,如图6所示,包括步骤S61-S66:
S61,获取种子句子和关键词;
本申请具体实施例中,种子句子和关键词为用户通过终端提交至服务器。种子句子和关键词可以来自于本地数据库,也可以来自于第三方平台。
S62,根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入掩码字符得到第一初始句子序列;
本申请具体实施例中,用户通过终端输入指令,该指令可以是程序代码的形式,第一目标位置即指两个关键词之间或关键词的前后,例如:“菜谱”和“烹饪”加上掩码字符即变为“*菜谱*烹饪*”,此操作的目的是让关键词形成损坏的句子。
S63,对所述第一初始句子序列进行加噪处理,得到第一待处理序列;
在一种可能的实施方式中,上述对所述第一初始句子序列进行加噪处理,得到第一待处理序列,包括:
对于生成的所述第一初始句子序列,用所述掩码字符以预设概率随机替换所述第一初始句子序列中的字符以完成加噪处理,得到所述第一待处理序列。
S64,根据所述第一待处理序列生成第一文本序列,将该第一文本序列作为新的第一初始句子序列不断进行迭代,以生成新的第一文本序列,直到所述新的第一文本序列的通顺度符合预设指标;
在一种可能的实施方式中,上述根据所述第一待处理序列生成第一文本序列,包括:
采用去噪自编码语言模型对所述第一待处理序列进行编码和解码,以产生重构分布;
在重构分布中进行采样得到所述第一文本序列。
其中,去噪自编码语言模型包括编码器和解码器;采用去噪自编码语言模型对所述第一待处理序列进行编码和解码,以产生重构分布,包括:采用所述编码器对输入的所述第一待处理序列进行编码,得到编码信号;采用所述解码器对所述编码信号进行解码,得到重构分布的参数,以产生重构分布。重构分布用于表示所述第一待处理序列中的所述掩码字符属于预设词库中的目标字符的概率;在重构分布中进行采样得到所述第一文本序列,包括:将概率最高的所述目标字符作为所述第一待处理序列中的所述掩码字符原本所属的字符;或者在概率排序最高的N个所述目标字符中随机确定一个作为所述第一待处理序列中的所述掩码字符原本所属的字符。
S65,获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,对所述第二初始句子序列进行加噪处理,得到第二待处理序列;
在一种可能的实施方式中,上述获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,包括以下之一:一、根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符,得到所述第二初始句子序列;二、根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符、以及使用所述掩码字符对所述关键词的第二目标位置进行替换,得到所述第二初始句子序列。其中,第二目标位置即指关键词本身所在的位置,例如:“菜谱”这个关键词中“菜”和“谱”所在的位置。
上述对所述第二初始句子序列进行加噪处理,得到第二待处理序列,包括:
对于生成的所述第二初始句子序列,用所述掩码字符以所述预设概率随机替换所述第二初始句子序列中的字符以完成加噪处理,得到所述第二待处理序列。
S66,根据所述第二待处理序列生成第二文本序列,对所述第二文本序列进行语义判断,根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。
在一种可能的实施方式中,上述根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列,包括:
若所述第二文本序列的语义不符合目标语义,则不以所述第二文本序列进行迭代,若所述第二文本序列的语义符合目标语义,则将该第二文本序列作为新的第二初始句子序列不断进行迭代,以生成新的第二初始句子序列,直到所述新的第二初始句子序列的通顺度符合预设指标,且语义符合目标语义。
需要说明的是,图6所示实施例中的部分步骤在图2所示的实施例中已有相关说明,为避免重复,此处不再赘述。
基于上述方法实施例的描述,本申请实施例还提供一种自然语言的生成装置,所述自然语言的生成装置可以是运行于终端中的一个计算机程序(包括程序代码)。该自然语言的生成装置可以执行图2或图6所示的方法。请参见图7,该装置包括:
第一待处理序列生成模块71,用于获取由种子句子、关键词和掩码字符生成的第一初始句子序列,对所述第一初始句子序列进行加噪处理,得到第一待处理序列;
第一文本序列迭代模块72,用于根据所述第一待处理序列生成第一文本序列,将该第一文本序列作为新的第一初始句子序列不断进行迭代,以生成新的第一文本序列,直到所述新的第一文本序列的通顺度符合预设指标;
第二待处理序列生成模块73,用于获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,对所述第二初始句子序列进行加噪处理,得到第二待处理序列;
第二文本序列迭代模块74,用于根据所述第二待处理序列生成第二文本序列,对所述第二文本序列进行语义判断,根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。
在一种可选的实施方式中,在获取由种子句子、关键词和掩码字符生成的第一初始句子序列方面,第一待处理序列生成模块71,具体用于:
获取所述种子句子和所述关键词;
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符得到所述第一初始句子序列。
在一种可选的实施方式中,在对所述第一初始句子序列进行加噪处理,得到第一待处理序列方面,第一待处理序列生成模块71,具体用于:
对于生成的所述第一初始句子序列,用所述掩码字符以预设概率随机替换所述第一初始句子序列中的字符以完成加噪处理,得到所述第一待处理序列;
在对所述第二初始句子序列进行加噪处理,得到第二待处理序列方面,第二待处理序列生成模块73,具体用于:
对于生成的所述第二初始句子序列,用所述掩码字符以所述预设概率随机替换所述第二初始句子序列中的字符以完成加噪处理,得到所述第二待处理序列。
在一种可选的实施方式中,在根据所述第一待处理序列生成第一文本序列方面,第一文本序列迭代模块72,具体用于:
采用去噪自编码语言模型对所述第一待处理序列进行编码和解码,以产生重构分布;
在重构分布中进行采样得到所述第一文本序列。
在一种可选的实施方式中,所述去噪自编码语言模型包括编码器和解码器;在采用去噪自编码语言模型对所述第一待处理序列进行编码和解码,以产生重构分布方面,第一文本序列迭代模块72,具体用于:
采用所述编码器对输入的所述第一待处理序列进行编码,得到编码信号;
采用所述解码器对所述编码信号进行解码,得到重构分布的参数,以产生重构分布;
所述重构分布用于表示所述第一待处理序列中的所述掩码字符属于预设词库中的目标字符的概率;在重构分布中进行采样得到所述第一文本序列方面,第一文本序列迭代模块72,具体用于:
将概率最高的所述目标字符作为所述第一待处理序列中的所述掩码字符原本所属的字符;或者
在概率排序最高的N个所述目标字符中随机确定一个作为所述第一待处理序列中的所述掩码字符原本所属的字符。
在一种可选的实施方式中,在获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列方面,第二待处理序列生成模块73,具体用于执行以下之一:
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符,得到所述第二初始句子序列;
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符、以及使用所述掩码字符对所述关键词的第二目标位置进行替换,得到所述第二初始句子序列。
在一种可选的实施方式中,在根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列方面,第二文本序列迭代模块74,具体用于:
若所述第二文本序列的语义不符合目标语义,则不以所述第二文本序列进行迭代,若所述第二文本序列的语义符合目标语义,则将该第二文本序列作为新的第二初始句子序列不断进行迭代,以生成新的第二初始句子序列,直到所述新的第二初始句子序列的通顺度符合预设指标,且语义符合目标语义。
根据本申请的一个实施例,图7所示的自然语言的生成装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,自然语言的生成装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7所示的装置设备,以及来实现本发明实施例的上述方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
基于上述方法实施例以及装置实施例的描述,本发明实施例还提供一种电子设备。请参见图8,该电子设备至少包括处理器81、输入设备82、输出设备83以及计算机存储介质84。其中,电子设备内的处理器81、输入设备82、输出设备83以及计算机存储介质84可通过总线或其他方式连接。
计算机存储介质84可以存储在电子设备的存储器中,所述计算机存储介质84用于存储计算机程序,所述计算机程序包括程序指令,所述处理器81用于执行所述计算机存储介质84存储的程序指令。处理器81(或称CPU(Central Processing Unit,中央处理器))是电子设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
在一个实施例中,本申请实施例提供的电子设备的处理器81可以用于进行一系列自然语言的生成处理,包括:
获取由种子句子、关键词和掩码字符生成的第一初始句子序列,对所述第一初始句子序列进行加噪处理,得到第一待处理序列;
根据所述第一待处理序列生成第一文本序列,将该第一文本序列作为新的第一初始句子序列不断进行迭代,以生成新的第一文本序列,直到所述新的第一文本序列的通顺度符合预设指标;
获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,对所述第二初始句子序列进行加噪处理,得到第二待处理序列;
根据所述第二待处理序列生成第二文本序列,对所述第二文本序列进行语义判断,根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。
在一个实施例中,处理器81执行所述获取由种子句子、关键词和掩码字符生成的第一初始句子序列,包括:
获取所述种子句子和所述关键词;
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符得到所述第一初始句子序列。
在一个实施例中,处理器81执行所述对所述第一初始句子序列进行加噪处理,得到第一待处理序列,包括:
对于生成的所述第一初始句子序列,用所述掩码字符以预设概率随机替换所述第一初始句子序列中的字符以完成加噪处理,得到所述第一待处理序列;
处理器81执行所述对所述第二初始句子序列进行加噪处理,得到第二待处理序列,包括:
对于生成的所述第二初始句子序列,用所述掩码字符以所述预设概率随机替换所述第二初始句子序列中的字符以完成加噪处理,得到所述第二待处理序列。
在一个实施例中,处理器81执行所述根据所述第一待处理序列生成第一文本序列,包括:
采用去噪自编码语言模型对所述第一待处理序列进行编码和解码,以产生重构分布;
在重构分布中进行采样得到所述第一文本序列。
在一个实施例中,所述去噪自编码语言模型包括编码器和解码器;处理器81执行所述采用去噪自编码语言模型对所述第一待处理序列进行编码和解码,以产生重构分布,包括:
采用所述编码器对输入的所述第一待处理序列进行编码,得到编码信号;
采用所述解码器对所述编码信号进行解码,得到重构分布的参数,以产生重构分布;
所述重构分布用于表示所述第一待处理序列中的所述掩码字符属于预设词库中的目标字符的概率;处理器81执行所述在重构分布中进行采样得到所述第一文本序列,包括:
将概率最高的所述目标字符作为所述第一待处理序列中的所述掩码字符原本所属的字符;或者
在概率排序最高的N个所述目标字符中随机确定一个作为所述第一待处理序列中的所述掩码字符原本所属的字符。
在一个实施例中,处理器81执行所述获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,包括以下之一:
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符,得到所述第二初始句子序列;
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符、以及使用所述掩码字符对所述关键词的第二目标位置进行替换,得到所述第二初始句子序列。
在一个实施例中,处理器81执行所述根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列,包括:
若所述第二文本序列的语义不符合目标语义,则不以所述第二文本序列进行迭代,若所述第二文本序列的语义符合目标语义,则将该第二文本序列作为新的第二初始句子序列不断进行迭代,以生成新的第二初始句子序列,直到所述新的第二初始句子序列的通顺度符合预设指标,且语义符合目标语义。
本申请实施例通过获取由种子句子、关键词和掩码字符生成的第一初始句子序列,对所述第一初始句子序列进行加噪处理,得到第一待处理序列;根据所述第一待处理序列生成第一文本序列,将该第一文本序列作为新的第一初始句子序列不断进行迭代,以生成新的第一文本序列,直到所述新的第一文本序列的通顺度符合预设指标;获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,对所述第二初始句子序列进行加噪处理,得到第二待处理序列;根据所述第二待处理序列生成第二文本序列,对所述第二文本序列进行语义判断,根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。这样构造一条从初始句子序列到文本序列的马尔科夫链,利用马尔科夫链蒙特卡罗方法生成文本序列,由于马尔科夫链蒙特卡罗方法具有均衡分布的特点,任何初始句子序列经过迭代都会收敛为通顺的文本,同时,在第二阶段对生成的文本序列进行语义判断,根据语义判断结果生成通顺度和语义均符合预期的文本序列,从而实现可控的自然语言生成。
示例性的,上述电子设备可以是服务器、云端服务器等。电子设备可包括但不仅限于处理器81、输入设备82、输出设备83以及计算机存储介质84。本领域技术人员可以理解,所述示意图仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
需要说明的是,由于电子设备的处理器81执行计算机程序时实现上述的自然语言的生成方法中的步骤,因此上述自然语言的生成方法的实施例均适用于该电子设备,且均能达到相同或相似的有益效果。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是电子设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器81加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器81的计算机存储介质。在一个实施例中,可由处理器81加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关自然语言的生成方法的相应步骤;具体实现中,计算机存储介质中的一条或多条指令由处理器81加载并执行如下步骤:
获取由种子句子、关键词和掩码字符生成的第一初始句子序列,对所述第一初始句子序列进行加噪处理,得到第一待处理序列;
根据所述第一待处理序列生成第一文本序列,将该第一文本序列作为新的第一初始句子序列不断进行迭代,以生成新的第一文本序列,直到所述新的第一文本序列的通顺度符合预设指标;
获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,对所述第二初始句子序列进行加噪处理,得到第二待处理序列;
根据所述第二待处理序列生成第二文本序列,对所述第二文本序列进行语义判断,根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列。
在一种示例中,计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤:
获取所述种子句子和所述关键词;
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符得到所述第一初始句子序列。
在一种示例中,计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤:
对于生成的所述第一初始句子序列,用所述掩码字符以预设概率随机替换所述第一初始句子序列中的字符以完成加噪处理,得到所述第一待处理序列。
对于生成的所述第二初始句子序列,用所述掩码字符以所述预设概率随机替换所述第二初始句子序列中的字符以完成加噪处理,得到所述第二待处理序列。
在一种示例中,计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤:
采用去噪自编码语言模型对所述第一待处理序列进行编码和解码,以产生重构分布;
在重构分布中进行采样得到所述第一文本序列。
在一种示例中,计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤:
采用所述编码器对输入的所述第一待处理序列进行编码,得到编码信号;
采用所述解码器对所述编码信号进行解码,得到重构分布的参数,以产生重构分布。
在一种示例中,计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤:
将概率最高的所述目标字符作为所述第一待处理序列中的所述掩码字符原本所属的字符;或者
在概率排序最高的N个所述目标字符中随机确定一个作为所述第一待处理序列中的所述掩码字符原本所属的字符。
在一种示例中,计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤之一:
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符,得到所述第二初始句子序列;
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符、以及使用所述掩码字符对所述关键词的第二目标位置进行替换,得到所述第二初始句子序列。
在一种示例中,计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤:
若所述第二文本序列的语义不符合目标语义,则不以所述第二文本序列进行迭代,若所述第二文本序列的语义符合目标语义,则将该第二文本序列作为新的第二初始句子序列不断进行迭代,以生成新的第二初始句子序列,直到所述新的第二初始句子序列的通顺度符合预设指标,且语义符合目标语义。
需要说明的是,由于计算机存储介质的计算机程序被处理器执行时实现上述的自然语言的生成方法中的步骤,因此上述自然语言的生成方法的所有实施例或实施方式均适用于该计算机存储介质,且均能达到相同或相似的有益效果。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种自然语言的生成方法,其特征在于,所述方法包括:
获取由种子句子、关键词和掩码字符生成的第一初始句子序列,对所述第一初始句子序列进行加噪处理,得到第一待处理序列;所述第一初始句子序列为填充阶段的初始句子序列;
根据所述第一待处理序列生成第一文本序列,将该第一文本序列作为新的第一初始句子序列不断进行迭代,以生成新的第一文本序列,直到所述新的第一文本序列的通顺度符合预设指标;
获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,对所述第二初始句子序列进行加噪处理,得到第二待处理序列;所述第二初始句子序列为润色阶段的初始句子序列;
所述第二待处理序列具体为:用掩码字符以预设概率随机替换该第二初始句子序列中的字符得到第二待处理序列;
根据所述第二待处理序列生成第二文本序列,对所述第二文本序列进行语义判断,根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列;
所述根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列具体包括:
采用相似度模型对第二文本序列进行语义判断,若其语义不符合目标语义,直接将该第二文本序列丢弃,拒绝将其作为新的第二初始句子序列进行迭代,若其语义符合目标语义,则将其确定为新的第二初始句子序列进行加噪、编码、解码、采样,以生成新的第二文本序列,对于新的第二文本序列仍然进行语义判断,直至生成的新的第二文本序列通顺度符合困惑度指标,且语义符合目标语义,新的第二初始句子序列为没有掩码字符的句子序列。
2.根据权利要求1所述的方法,其特征在于,所述获取由种子句子、关键词和掩码字符生成的第一初始句子序列,包括:
获取所述种子句子和所述关键词;
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符得到所述第一初始句子序列。
3.根据权利要求1所述的方法,其特征在于,所述对所述第一初始句子序列进行加噪处理,得到第一待处理序列,包括:
对于生成的所述第一初始句子序列,用所述掩码字符以预设概率随机替换所述第一初始句子序列中的字符以完成加噪处理,得到所述第一待处理序列;
所述对所述第二初始句子序列进行加噪处理,得到第二待处理序列,包括:
对于生成的所述第二初始句子序列,用所述掩码字符以所述预设概率随机替换所述第二初始句子序列中的字符以完成加噪处理,得到所述第二待处理序列。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述第一待处理序列生成第一文本序列,包括:
采用去噪自编码语言模型对所述第一待处理序列进行编码和解码,以产生重构分布;
在重构分布中进行采样得到所述第一文本序列。
5.根据权利要求4所述的方法,其特征在于,所述去噪自编码语言模型包括编码器和解码器;所述采用去噪自编码语言模型对所述第一待处理序列进行编码和解码,以产生重构分布,包括:
采用所述编码器对输入的所述第一待处理序列进行编码,得到编码信号;
采用所述解码器对所述编码信号进行解码,得到重构分布的参数,以产生重构分布;
所述重构分布用于表示所述第一待处理序列中的所述掩码字符属于预设词库中的目标字符的概率;所述在重构分布中进行采样得到所述第一文本序列,包括:
将概率最高的所述目标字符作为所述第一待处理序列中的所述掩码字符原本所属的字符;或者
在概率排序最高的N个所述目标字符中随机确定一个作为所述第一待处理序列中的所述掩码字符原本所属的字符。
6.根据权利要求1所述的方法,其特征在于,所述获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,包括以下之一:
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符,得到所述第二初始句子序列;
根据用户输入的指令,保持所述种子句子不变,在所述关键词的第一目标位置随机加入所述掩码字符、以及使用所述掩码字符对所述关键词的第二目标位置进行替换,得到所述第二初始句子序列。
7.一种自然语言的生成装置,其特征在于,所述装置包括:
第一待处理序列生成模块,用于获取由种子句子、关键词和掩码字符生成的第一初始句子序列,对所述第一初始句子序列进行加噪处理,得到第一待处理序列;所述第一初始句子序列为填充阶段的初始句子序列;
第一文本序列迭代模块,用于根据所述第一待处理序列生成第一文本序列,将该第一文本序列作为新的第一初始句子序列不断进行迭代,以生成新的第一文本序列,直到所述新的第一文本序列的通顺度符合预设指标;
第二待处理序列生成模块,用于获取由所述种子句子、所述关键词和所述掩码字符生成的第二初始句子序列,对所述第二初始句子序列进行加噪处理,得到第二待处理序列;所述第二初始句子序列为润色阶段的初始句子序列;
所述第二待处理序列具体为:用掩码字符以预设概率随机替换该第二初始句子序列中的字符得到第二待处理序列;
第二文本序列迭代模块,用于根据所述第二待处理序列生成第二文本序列,对所述第二文本序列进行语义判断,根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列;
所述根据语义判断结果生成通顺度符合预设指标且语义符合目标语义的目标句子序列具体包括:
采用相似度模型对第二文本序列进行语义判断,若其语义不符合目标语义,直接将该第二文本序列丢弃,拒绝将其作为新的第二初始句子序列进行迭代,若其语义符合目标语义,则将其确定为新的第二初始句子序列进行加噪、编码、解码、采样,以生成新的第二文本序列,对于新的第二文本序列仍然进行语义判断,直至生成的新的第二文本序列通顺度符合困惑度指标,且语义符合目标语义,新的第二初始句子序列为没有掩码字符的句子序列。
8.一种电子设备,包括输入设备和输出设备,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-6任一项所述的方法中的步骤。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1-6任一项所述的方法中的步骤。
CN202010502618.3A 2020-06-05 2020-06-05 自然语言的生成方法、装置、电子设备及存储介质 Active CN111401037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010502618.3A CN111401037B (zh) 2020-06-05 2020-06-05 自然语言的生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010502618.3A CN111401037B (zh) 2020-06-05 2020-06-05 自然语言的生成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111401037A CN111401037A (zh) 2020-07-10
CN111401037B true CN111401037B (zh) 2020-11-06

Family

ID=71437629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010502618.3A Active CN111401037B (zh) 2020-06-05 2020-06-05 自然语言的生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111401037B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507711B (zh) * 2020-12-04 2023-08-08 南京擎盾信息科技有限公司 文本摘要抽取方法及系统
CN112612894B (zh) * 2020-12-29 2022-03-18 平安科技(深圳)有限公司 意图识别模型的训练方法、装置、计算机设备和存储介质
CN112800339B (zh) * 2021-04-06 2021-06-22 腾讯科技(深圳)有限公司 信息流搜索方法、装置及设备
CN113255918B (zh) * 2021-04-13 2023-04-25 国家计算机网络与信息安全管理中心 强化聚合知识指导的生成常识推理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN110717327A (zh) * 2019-09-29 2020-01-21 北京百度网讯科技有限公司 标题生成方法、装置、电子设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317721A (zh) * 2014-11-12 2015-01-28 大连交通大学 一种基于改进和声搜索算法的回归测试用例选择方法
CN109740145A (zh) * 2018-11-30 2019-05-10 平安科技(深圳)有限公司 歌词智能生成方法、装置、存储介质和计算机设备
CN110196894B (zh) * 2019-05-30 2021-06-08 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN110516244B (zh) * 2019-08-26 2023-03-24 西安艾尔洛曼数字科技有限公司 一种基于bert的句子自动填充方法
CN111061867B (zh) * 2019-10-29 2022-10-25 平安科技(深圳)有限公司 基于质量感知的文本生成方法、设备、存储介质及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN110717327A (zh) * 2019-09-29 2020-01-21 北京百度网讯科技有限公司 标题生成方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111401037A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111401037B (zh) 自然语言的生成方法、装置、电子设备及存储介质
CN111061862A (zh) 一种基于注意力机制生成摘要的方法
CN113590761B (zh) 文本处理模型的训练方法、文本处理方法及相关设备
CN112668338B (zh) 澄清问题生成方法、装置和电子设备
WO2022121251A1 (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
JP7413630B2 (ja) 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体
CN111241789A (zh) 一种文本生成的方法及装置
CN110956045A (zh) 机器翻译方法、训练方法、相应的装置及电子设备
CN109616093A (zh) 端对端语音合成方法、装置、设备及存储介质
JP2021033995A (ja) テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体
WO2020240709A1 (ja) 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム
JP2023012493A (ja) 言語モデルの事前トレーニング方法、装置、デバイスおよび記憶媒体
CN111563160B (zh) 基于全局语义的文本自动摘要方法、装置、介质及设备
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN116050425A (zh) 建立预训练语言模型的方法、文本预测方法及装置
JP7291181B2 (ja) 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品
CN109117471A (zh) 一种词语相关度的计算方法及终端
CN115879480A (zh) 语义约束机器翻译方法、装置、电子设备及存储介质
CN113191140B (zh) 文本处理方法、装置、电子设备及存储介质
CN113420869B (zh) 基于全方向注意力的翻译方法及其相关设备
Tiwari et al. Normalization of social media text using deep neural networks
US20200279024A1 (en) Non-transitory computer readable medium
CN113901841A (zh) 翻译方法、装置以及存储介质
CN114817469B (zh) 文本增强方法、文本增强模型的训练方法及装置
CN113268997B (zh) 文本翻译方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant