CN114282515B - 一种基于增量式片段预测的端到端词汇受限文本生成方法 - Google Patents
一种基于增量式片段预测的端到端词汇受限文本生成方法 Download PDFInfo
- Publication number
- CN114282515B CN114282515B CN202210148591.1A CN202210148591A CN114282515B CN 114282515 B CN114282515 B CN 114282515B CN 202210148591 A CN202210148591 A CN 202210148591A CN 114282515 B CN114282515 B CN 114282515B
- Authority
- CN
- China
- Prior art keywords
- keywords
- data set
- text generation
- vocabulary
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于增量式片段预测的端到端词汇受限文本生成方法,所述方法包括:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;使用所述训练数据集对所述词汇受限文本生成模型进行训练;将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。本发明具有逻辑清晰、效率高、准确率高的优点,妥善解决了现有端到端词汇受限文本生成技术无法保证包含所有关键词的技术问题。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于增量式片段预测的端到端词汇受限文本生成方法。
背景技术
词汇受限文本生成可以为给定的关键词生成一句包含所有关键词的自然语言,在语言学习、广告生成、故事生成等方面具有重大的理论力量和实践意义。
由于词汇受限文本生成要求生成的文本必须包含所有的关键词,而端到端的深度学习模型是基于概率建模,无法保证所有关键词都包含在生成的文本中。
现有的词汇受限文本生成技术基于随机搜索或改进的柱搜索来保证所有关键词都出现在生成的文本中。这两类方法都不是端到端方式生成,其生成速度非常慢,难以应用在实际场景中。
发明内容
针对上述问题,本发明的目的在于提供一种基于增量式片段预测的端到端词汇受限文本生成方法及系统,在生成过程中依次生成关键词之间的片段来保证所有关键词包含在生成的文本中。本发明创造性地提出增量式片段预测的端到端方法进行词汇受限文本生成,不仅保证了所有关键词包含在生成的文本中,而且具有高效的生成效率,方便应用于实际场景中。
为解决上述技术问题,本发明的实施例提供如下方案:
一方面,提供了一种基于增量式片段预测的端到端词汇受限文本生成方法,包括以下步骤:
步骤S1:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
步骤S2:构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;
步骤S3:使用所述训练数据集对所述词汇受限文本生成模型进行训练;
步骤S4:将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。
优选地,步骤S1中,构建训练数据集具体包括:
步骤S11:指定单语数据集,所述单语数据集中包含某一种语言的自然语言文本;
步骤S12:根据所述单语数据集构造平行的训练数据集。
优选地,步骤S12中,构造平行的训练数据集具体包括:
步骤S121:从所述单语数据集中提取关键词;
步骤S122:根据关键词的位置将所述单语数据集切分成不同的片段;
步骤S123:构造源端的输入数据,用两种不同的特殊标签[pred]和[blank]分别替换需要预测的片段和其他未知的片段;
步骤S124:构造目标端输出数据,将需要预测的片段作为目标端的输出数据;
步骤S125:将S123和S124中构造的数据作为平行的训练数据集。
优选地,所述词汇受限文本生成过程使用增量式片段预测方法,所述增量式片段预测是从左到右或从右到左按顺序依次预测一个片段。
优选地,所述片段是关键词之间的连续词汇。
优选地,在预测每个片段时,所述词汇受限文本生成模型使用自回归的方式进行预测。
优选地,所述词汇受限文本生成模型采用端到端的Seq2Seq模型,包括基于循环神经网络或自注意力网络的编码器-解码器模型。
优选地,步骤S2中,所述词汇受限文本生成模型的工作流程包括:
步骤S24:使用解码器构建语言模型,利用上述的隐状态序列,迭代生成输出片段中的每个词。
优选地,步骤S3中,在训练阶段,所述词汇受限文本生成模型的数据流向如下:
步骤S4中,在测试阶段,训练好的词汇受限文本生成模型接收利用关键词构建的
输入序列,经过编码器编码为隐状态序列,所述隐状态序列同时输入解码器,经解码
器进行解码,分别迭代的生成对应片段,将生成的片段填入[pred]标签位置,作为下一个片
段生成时模型的输入,依此类推直到生成完所有片段,从而得到包含所有关键词的完整句
子。
一方面,提供了一种基于增量式片段预测的端到端词汇受限文本生成系统,包括:
数据集构建模块,用于构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
模型构建模块,用于构建词汇受限文本生成模型,对给定的关键词生成包含所述关键词的文本;
训练模块,用于使用所述训练数据集对所述词汇受限文本生成模型进行训练;
文本生成模块,用于将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,通过构建训练数据集和词汇受限文本生成模型,并使用训练数据集对词汇受限文本生成模型进行训练,之后将训练好的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。所述词汇受限文本生成模型为基于循环神经网络或自注意力网络的编码器-解码器模型,所述训练数据是利用不同的特殊标签表征当前需要预测的片段和其他未知的片段来构造的成对有监督数据,用于训练模型增量式的进行片段预测。本发明具有逻辑清晰、效率高、准确率高的优点,妥善解决了现有端到端词汇受限文本生成技术无法保证包含所有关键词的技术问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于增量式片段预测的端到端词汇受限文本生成方法的流程图;
图2是本发明实施例所述方法的具体流程示意图;
图3是本发明实施例中词汇受限文本生成模型的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明的实施例首先提供了一种基于增量式片段预测的端到端词汇受限文本生成方法,如图1所示,所述方法包括以下步骤:
步骤S1:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
步骤S2:构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;
步骤S3:使用所述训练数据集对所述词汇受限文本生成模型进行训练;
步骤S4:将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。
进一步地,如图2所示,步骤S1中,构建训练数据集具体包括:
步骤S11:指定单语数据集,所述单语数据集中包含某一种语言的自然语言文本;
步骤S12:根据所述单语数据集构造平行的训练数据集。
之后,利用平行的训练数据集进行后续的模型训练。
具体地,步骤S12中,构造平行的训练数据集具体包括:
步骤S121:从所述单语数据集中提取关键词;
步骤S122:根据关键词的位置将所述单语数据集切分成不同的片段;
步骤S123:构造源端的输入数据,用两种不同的特殊标签[pred]和[blank]分别替换需要预测的片段和其他未知的片段;
步骤S124:构造目标端输出数据,将需要预测的片段作为目标端的输出数据;
步骤S125:将S123和S124中构造的数据作为平行的训练数据集。
其中,所述片段是关键词之间的连续词汇。
所述词汇受限文本生成过程使用增量式片段预测方法,所述增量式片段预测是从左到右或从右到左按顺序依次预测一个片段。例如,将关键词前后的片段按从左到右的顺序进行预测,最终生成完整的句子包含所有关键词。在预测每个片段时,所述词汇受限文本生成模型使用自回归的方式进行预测。
本发明实施例中,构建的所述词汇受限文本生成模型采用端到端的Seq2Seq模型,包括基于循环神经网络(RNN)或自注意力网络(Self-Attention)的编码器-解码器模型。
以基于自注意力网络的编码器-解码器模型为例,以所述平行的训练数据集中包含特殊标签[pred]和[blank]的序列作为输入,并迭代地生成输出片段的序列中的每个词。
如图3所示,步骤S2中,所述词汇受限文本生成模型的工作流程包括:
步骤S24:使用解码器构建语言模型,利用上述的隐状态序列,迭代生成输出片段中的每个词。
进一步的,所述,步骤S23所述编码器被配置为多头自注意力(Multi-Head Self-Attention)网络。在获取到所述输入序列的分布式向量后,编码器使用多头自注意力机制进行编码,编码过程可用如下公式表示:
步骤S24所述解码器在迭代地生成每个词时,还包括以下步骤:
在本发明实施例中,解码器被配置为自适应自注意力模型。接下来,对解码器分步骤进行详细说明。
其中,所得的概率即为 QUOTE 在词表中的概率分布。
进一步地,步骤S3中,在训练阶段,所述词汇受限文本生成模型的数据流向如下:
进一步地,步骤S4中,在测试阶段,训练好的词汇受限文本生成模型接收利用关键词构建的输入序列,经过编码器编码为隐状态序列,所述隐状态序列同时输入解码器,经解码器进行解码,分别迭代的生成对应片段,将生成的片段填入[pred]标签位置,作为下一个片段生成时模型的输入,依此类推直到生成完所有片段,从而得到包含所有关键词的完整句子。
相应地,本发明的实施例还提供了一种基于增量式片段预测的端到端词汇受限文本生成系统,包括:
数据集构建模块,用于构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
模型构建模块,用于构建词汇受限文本生成模型,对给定的关键词生成包含所述关键词的文本;
训练模块,用于使用所述训练数据集对所述词汇受限文本生成模型进行训练;
文本生成模块,用于将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。
本实施例的系统,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
综上所述,本发明通过构建训练数据集和词汇受限文本生成模型,并使用训练数据集对词汇受限文本生成模型进行训练,之后将训练好的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。所述词汇受限文本生成模型为基于循环神经网络或自注意力网络的编码器-解码器模型,所述训练数据是利用不同的特殊标签表征当前需要预测的片段和其他未知的片段来构造的成对有监督数据,用于训练模型增量式的进行片段预测。本发明具有逻辑清晰、效率高、准确率高的优点,妥善解决了现有端到端词汇受限文本生成技术无法保证包含所有关键词的技术问题。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (2)
1.一种基于增量式片段预测的端到端词汇受限文本生成方法,其特征在于,包括以下步骤:
步骤S1:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
步骤S1中,构建训练数据集具体包括:
步骤S11:指定单语数据集,所述单语数据集中包含某一种语言的自然语言文本;
步骤S12:根据所述单语数据集构造平行的训练数据集;
步骤S12中,构造平行的训练数据集具体包括:
步骤S121:从所述单语数据集中提取关键词;
步骤S122:根据关键词的位置将所述单语数据集切分成不同的片段;
步骤S123:构造源端的输入数据,用两种不同的特殊标签[pred]和[blank]分别替换需要预测的片段和其他未知的片段;
步骤S124:构造目标端输出数据,将需要预测的片段作为目标端的输出数据;
步骤S125:将S123和S124中构造的数据作为平行的训练数据集;
步骤S2:构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;
所述词汇受限文本生成模型采用端到端的Seq2Seq模型,包括基于循环神经网络或自注意力网络的编码器-解码器模型;
步骤S2中,所述词汇受限文本生成模型的工作流程包括:
步骤S24:使用解码器构建语言模型,利用上述的隐状态序列,迭代生成输出片段中的每个词;
步骤S3:使用所述训练数据集对所述词汇受限文本生成模型进行训练;
步骤S3中,在训练阶段,所述词汇受限文本生成模型的数据流向如下:
步骤S4中,在测试阶段,训练好的词汇受限文本生成模型接收利用关键词构建的输入
序列,经过编码器编码为隐状态序列,所述隐状态序列同时输入解码器,经解码器进
行解码,分别迭代的生成对应片段,将生成的片段填入[pred]标签位置,作为下一个片段生
成时模型的输入,依此类推直到生成完所有片段,从而得到包含所有关键词的完整句子;
步骤S4:将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本;
所述词汇受限文本生成过程使用增量式片段预测方法,所述增量式片段预测是从左到右或从右到左按顺序依次预测一个片段;所述片段是关键词之间的连续词汇;在预测每个片段时,所述词汇受限文本生成模型使用自回归的方式进行预测。
2.一种基于增量式片段预测的端到端词汇受限文本生成系统,其特征在于,包括:
数据集构建模块,用于构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
其中,构建训练数据集具体包括:
步骤S11:指定单语数据集,所述单语数据集中包含某一种语言的自然语言文本;
步骤S12:根据所述单语数据集构造平行的训练数据集;
步骤S12中,构造平行的训练数据集具体包括:
步骤S121:从所述单语数据集中提取关键词;
步骤S122:根据关键词的位置将所述单语数据集切分成不同的片段;
步骤S123:构造源端的输入数据,用两种不同的特殊标签[pred]和[blank]分别替换需要预测的片段和其他未知的片段;
步骤S124:构造目标端输出数据,将需要预测的片段作为目标端的输出数据;
步骤S125:将S123和S124中构造的数据作为平行的训练数据集;
模型构建模块,用于构建词汇受限文本生成模型,对给定的关键词生成包含所述关键词的文本;
所述词汇受限文本生成模型采用端到端的Seq2Seq模型,包括基于循环神经网络或自注意力网络的编码器-解码器模型;
其中,所述词汇受限文本生成模型的工作流程包括:
步骤S24:使用解码器构建语言模型,利用上述的隐状态序列,迭代生成输出片段中的每个词;
训练模块,用于使用所述训练数据集对所述词汇受限文本生成模型进行训练;
其中,在训练阶段,所述词汇受限文本生成模型的数据流向如下:
步骤S4中,在测试阶段,训练好的词汇受限文本生成模型接收利用关键词构建的输入
序列,经过编码器编码为隐状态序列,所述隐状态序列同时输入解码器,经解码器进
行解码,分别迭代的生成对应片段,将生成的片段填入[pred]标签位置,作为下一个片段生
成时模型的输入,依此类推直到生成完所有片段,从而得到包含所有关键词的完整句子;
文本生成模块,用于将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本;
所述词汇受限文本生成过程使用增量式片段预测方法,所述增量式片段预测是从左到右或从右到左按顺序依次预测一个片段;所述片段是关键词之间的连续词汇;在预测每个片段时,所述词汇受限文本生成模型使用自回归的方式进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210148591.1A CN114282515B (zh) | 2022-02-18 | 2022-02-18 | 一种基于增量式片段预测的端到端词汇受限文本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210148591.1A CN114282515B (zh) | 2022-02-18 | 2022-02-18 | 一种基于增量式片段预测的端到端词汇受限文本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114282515A CN114282515A (zh) | 2022-04-05 |
CN114282515B true CN114282515B (zh) | 2022-07-08 |
Family
ID=80881983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210148591.1A Active CN114282515B (zh) | 2022-02-18 | 2022-02-18 | 一种基于增量式片段预测的端到端词汇受限文本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114282515B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846130A (zh) * | 2018-06-29 | 2018-11-20 | 北京百度网讯科技有限公司 | 一种问题文本生成方法、装置、设备和介质 |
CN110287333A (zh) * | 2019-06-12 | 2019-09-27 | 北京语言大学 | 一种基于知识库进行释义生成的方法及系统 |
CN112364639A (zh) * | 2020-10-19 | 2021-02-12 | 北京语言大学 | 基于预训练语言模型的上下文敏感的释义生成方法及系统 |
CN113360646A (zh) * | 2021-06-02 | 2021-09-07 | 华院计算技术(上海)股份有限公司 | 基于动态权重的文本生成方法、设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11586827B2 (en) * | 2017-05-10 | 2023-02-21 | Oracle International Corporation | Generating desired discourse structure from an arbitrary text |
CN109522411B (zh) * | 2018-11-12 | 2022-10-28 | 南京德磐信息科技有限公司 | 一种基于神经网络的写作辅助方法 |
CN109635150B (zh) * | 2018-12-19 | 2021-07-02 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置以及存储介质 |
CN110991175B (zh) * | 2019-12-10 | 2024-04-09 | 爱驰汽车有限公司 | 多模态下的文本生成方法、系统、设备及存储介质 |
CN111325002A (zh) * | 2020-02-17 | 2020-06-23 | 广东博智林机器人有限公司 | 文本生成方法、装置、电子设备及存储介质 |
US11586829B2 (en) * | 2020-05-01 | 2023-02-21 | International Business Machines Corporation | Natural language text generation from a set of keywords using machine learning and templates |
CN112836519A (zh) * | 2021-02-08 | 2021-05-25 | 网易(杭州)网络有限公司 | 文本生成模型的训练方法、文本生成方法及装置 |
-
2022
- 2022-02-18 CN CN202210148591.1A patent/CN114282515B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846130A (zh) * | 2018-06-29 | 2018-11-20 | 北京百度网讯科技有限公司 | 一种问题文本生成方法、装置、设备和介质 |
CN110287333A (zh) * | 2019-06-12 | 2019-09-27 | 北京语言大学 | 一种基于知识库进行释义生成的方法及系统 |
CN112364639A (zh) * | 2020-10-19 | 2021-02-12 | 北京语言大学 | 基于预训练语言模型的上下文敏感的释义生成方法及系统 |
CN113360646A (zh) * | 2021-06-02 | 2021-09-07 | 华院计算技术(上海)股份有限公司 | 基于动态权重的文本生成方法、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
全局自匹配机制的短文本摘要生成方法;吴仁守 等;《软件学报》;20190930;第30卷(第9期);第2705-2717页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114282515A (zh) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106126507B (zh) | 一种基于字符编码的深度神经翻译方法及系统 | |
US20180357225A1 (en) | Method for generating chatting data based on artificial intelligence, computer device and computer-readable storage medium | |
CN107632981B (zh) | 一种引入源语组块信息编码的神经机器翻译方法 | |
US11488577B2 (en) | Training method and apparatus for a speech synthesis model, and storage medium | |
CN108153913B (zh) | 回复信息生成模型的训练方法、回复信息生成方法及装置 | |
US11663488B2 (en) | Initialization of parameters for machine-learned transformer neural network architectures | |
CN109785824A (zh) | 一种语音翻译模型的训练方法及装置 | |
CN111354333B (zh) | 一种基于自注意力的汉语韵律层级预测方法及系统 | |
WO2021023440A1 (en) | Fine-tuning language models for supervised learning tasks via dataset preprocessing | |
US20220383206A1 (en) | Task Augmentation and Self-Training for Improved Few-Shot Learning | |
CN112560456B (zh) | 一种基于改进神经网络的生成式摘要生成方法和系统 | |
CN112364639B (zh) | 基于预训练语言模型的上下文敏感的释义生成方法及系统 | |
CN113641819A (zh) | 基于多任务稀疏共享学习的论辩挖掘系统及方法 | |
CN115906815B (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
CN112162775A (zh) | 一种基于Transformer和混合代码表示的Java代码注释自动生成方法 | |
CN111401003B (zh) | 一种外部知识增强的幽默文本生成方法 | |
CN114282515B (zh) | 一种基于增量式片段预测的端到端词汇受限文本生成方法 | |
CN110569499B (zh) | 一种基于多模态词向量的生成式对话系统编码方法及编码器 | |
CN116611436A (zh) | 一种基于威胁情报的网络安全命名实体识别方法 | |
CN114358021A (zh) | 基于深度学习的任务型对话语句回复生成方法及存储介质 | |
US20220284196A1 (en) | Electronic device, method and computer program | |
CN113901841A (zh) | 翻译方法、装置以及存储介质 | |
CN114139532B (zh) | 一种基于多任务框架进行简单释义生成的方法与系统 | |
CN116681087B (zh) | 一种基于多阶段时序和语义信息增强的自动问题生成方法 | |
CN112395832B (zh) | 一种基于序列到序列的文本量化分析与生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |