CN114282515B - 一种基于增量式片段预测的端到端词汇受限文本生成方法 - Google Patents

一种基于增量式片段预测的端到端词汇受限文本生成方法 Download PDF

Info

Publication number
CN114282515B
CN114282515B CN202210148591.1A CN202210148591A CN114282515B CN 114282515 B CN114282515 B CN 114282515B CN 202210148591 A CN202210148591 A CN 202210148591A CN 114282515 B CN114282515 B CN 114282515B
Authority
CN
China
Prior art keywords
keywords
data set
text generation
vocabulary
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210148591.1A
Other languages
English (en)
Other versions
CN114282515A (zh
Inventor
杨麟儿
聂锦燃
刘鑫
孔存良
杨尔弘
黄轩成
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN202210148591.1A priority Critical patent/CN114282515B/zh
Publication of CN114282515A publication Critical patent/CN114282515A/zh
Application granted granted Critical
Publication of CN114282515B publication Critical patent/CN114282515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于增量式片段预测的端到端词汇受限文本生成方法,所述方法包括:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;使用所述训练数据集对所述词汇受限文本生成模型进行训练;将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。本发明具有逻辑清晰、效率高、准确率高的优点,妥善解决了现有端到端词汇受限文本生成技术无法保证包含所有关键词的技术问题。

Description

一种基于增量式片段预测的端到端词汇受限文本生成方法
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于增量式片段预测的端到端词汇受限文本生成方法。
背景技术
词汇受限文本生成可以为给定的关键词生成一句包含所有关键词的自然语言,在语言学习、广告生成、故事生成等方面具有重大的理论力量和实践意义。
由于词汇受限文本生成要求生成的文本必须包含所有的关键词,而端到端的深度学习模型是基于概率建模,无法保证所有关键词都包含在生成的文本中。
现有的词汇受限文本生成技术基于随机搜索或改进的柱搜索来保证所有关键词都出现在生成的文本中。这两类方法都不是端到端方式生成,其生成速度非常慢,难以应用在实际场景中。
发明内容
针对上述问题,本发明的目的在于提供一种基于增量式片段预测的端到端词汇受限文本生成方法及系统,在生成过程中依次生成关键词之间的片段来保证所有关键词包含在生成的文本中。本发明创造性地提出增量式片段预测的端到端方法进行词汇受限文本生成,不仅保证了所有关键词包含在生成的文本中,而且具有高效的生成效率,方便应用于实际场景中。
为解决上述技术问题,本发明的实施例提供如下方案:
一方面,提供了一种基于增量式片段预测的端到端词汇受限文本生成方法,包括以下步骤:
步骤S1:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
步骤S2:构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;
步骤S3:使用所述训练数据集对所述词汇受限文本生成模型进行训练;
步骤S4:将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。
优选地,步骤S1中,构建训练数据集具体包括:
步骤S11:指定单语数据集,所述单语数据集中包含某一种语言的自然语言文本;
步骤S12:根据所述单语数据集构造平行的训练数据集。
优选地,步骤S12中,构造平行的训练数据集具体包括:
步骤S121:从所述单语数据集中提取关键词;
步骤S122:根据关键词的位置将所述单语数据集切分成不同的片段;
步骤S123:构造源端的输入数据,用两种不同的特殊标签[pred]和[blank]分别替换需要预测的片段和其他未知的片段;
步骤S124:构造目标端输出数据,将需要预测的片段作为目标端的输出数据;
步骤S125:将S123和S124中构造的数据作为平行的训练数据集。
优选地,所述词汇受限文本生成过程使用增量式片段预测方法,所述增量式片段预测是从左到右或从右到左按顺序依次预测一个片段。
优选地,所述片段是关键词之间的连续词汇。
优选地,在预测每个片段时,所述词汇受限文本生成模型使用自回归的方式进行预测。
优选地,所述词汇受限文本生成模型采用端到端的Seq2Seq模型,包括基于循环神经网络或自注意力网络的编码器-解码器模型。
优选地,步骤S2中,所述词汇受限文本生成模型的工作流程包括:
步骤S21:接收构造的平行训练数据集的输入序列
Figure 695597DEST_PATH_IMAGE001
,并获取平行训练数据集的 输入序列所在上下文
Figure 59582DEST_PATH_IMAGE002
,同时接收输出片段的序列
Figure 748053DEST_PATH_IMAGE003
步骤S22:使用词嵌入层,获得输入序列的的分布式向量表示
Figure 197489DEST_PATH_IMAGE001
,输入序列所在上 下文的分布式向量表示
Figure 131072DEST_PATH_IMAGE002
,以及输出片段序列的分布式向量表 示
Figure 677460DEST_PATH_IMAGE003
步骤S23:使用编码器,对输入序列和输入序列所在上下文进行编码,输入序列和 输入序列所在上下文编码结果为隐状态序列
Figure 536831DEST_PATH_IMAGE004
步骤S24:使用解码器构建语言模型,利用上述的隐状态序列,迭代生成输出片段中的每个词。
优选地,步骤S3中,在训练阶段,所述词汇受限文本生成模型的数据流向如下:
输入序列经过编码器,被编码为隐状态序列
Figure 972098DEST_PATH_IMAGE004
隐状态序列
Figure 942328DEST_PATH_IMAGE004
输入解码器,生成对应的输出片段;
步骤S4中,在测试阶段,训练好的词汇受限文本生成模型接收利用关键词构建的 输入序列,经过编码器编码为隐状态序列
Figure 15327DEST_PATH_IMAGE004
,所述隐状态序列
Figure 248862DEST_PATH_IMAGE004
同时输入解码器,经解码 器进行解码,分别迭代的生成对应片段,将生成的片段填入[pred]标签位置,作为下一个片 段生成时模型的输入,依此类推直到生成完所有片段,从而得到包含所有关键词的完整句 子。
一方面,提供了一种基于增量式片段预测的端到端词汇受限文本生成系统,包括:
数据集构建模块,用于构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
模型构建模块,用于构建词汇受限文本生成模型,对给定的关键词生成包含所述关键词的文本;
训练模块,用于使用所述训练数据集对所述词汇受限文本生成模型进行训练;
文本生成模块,用于将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,通过构建训练数据集和词汇受限文本生成模型,并使用训练数据集对词汇受限文本生成模型进行训练,之后将训练好的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。所述词汇受限文本生成模型为基于循环神经网络或自注意力网络的编码器-解码器模型,所述训练数据是利用不同的特殊标签表征当前需要预测的片段和其他未知的片段来构造的成对有监督数据,用于训练模型增量式的进行片段预测。本发明具有逻辑清晰、效率高、准确率高的优点,妥善解决了现有端到端词汇受限文本生成技术无法保证包含所有关键词的技术问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于增量式片段预测的端到端词汇受限文本生成方法的流程图;
图2是本发明实施例所述方法的具体流程示意图;
图3是本发明实施例中词汇受限文本生成模型的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明的实施例首先提供了一种基于增量式片段预测的端到端词汇受限文本生成方法,如图1所示,所述方法包括以下步骤:
步骤S1:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
步骤S2:构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;
步骤S3:使用所述训练数据集对所述词汇受限文本生成模型进行训练;
步骤S4:将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。
进一步地,如图2所示,步骤S1中,构建训练数据集具体包括:
步骤S11:指定单语数据集,所述单语数据集中包含某一种语言的自然语言文本;
步骤S12:根据所述单语数据集构造平行的训练数据集。
之后,利用平行的训练数据集进行后续的模型训练。
具体地,步骤S12中,构造平行的训练数据集具体包括:
步骤S121:从所述单语数据集中提取关键词;
步骤S122:根据关键词的位置将所述单语数据集切分成不同的片段;
步骤S123:构造源端的输入数据,用两种不同的特殊标签[pred]和[blank]分别替换需要预测的片段和其他未知的片段;
步骤S124:构造目标端输出数据,将需要预测的片段作为目标端的输出数据;
步骤S125:将S123和S124中构造的数据作为平行的训练数据集。
其中,所述片段是关键词之间的连续词汇。
所述词汇受限文本生成过程使用增量式片段预测方法,所述增量式片段预测是从左到右或从右到左按顺序依次预测一个片段。例如,将关键词前后的片段按从左到右的顺序进行预测,最终生成完整的句子包含所有关键词。在预测每个片段时,所述词汇受限文本生成模型使用自回归的方式进行预测。
本发明实施例中,构建的所述词汇受限文本生成模型采用端到端的Seq2Seq模型,包括基于循环神经网络(RNN)或自注意力网络(Self-Attention)的编码器-解码器模型。
以基于自注意力网络的编码器-解码器模型为例,以所述平行的训练数据集中包含特殊标签[pred]和[blank]的序列作为输入,并迭代地生成输出片段的序列中的每个词。
如图3所示,步骤S2中,所述词汇受限文本生成模型的工作流程包括:
步骤S21:接收构造的平行训练数据集的输入序列
Figure 174355DEST_PATH_IMAGE005
,并获取平行训练数据集的输入序列所在上下文
Figure 948276DEST_PATH_IMAGE006
,同时接收输出片段的序列
Figure 875781DEST_PATH_IMAGE007
步骤S22:使用词嵌入层,获得输入序列的的分布式向量表示
Figure 76955DEST_PATH_IMAGE005
,输入序列所在上下文的分布式向量表示
Figure 227094DEST_PATH_IMAGE006
,以及输出片段序列的分布式向量表示
Figure 804706DEST_PATH_IMAGE007
步骤S23:使用编码器,对输入序列和输入序列所在上下文进行编码,输入序列和输入序列所在上下文编码结果为隐状态序列
Figure 586717DEST_PATH_IMAGE008
步骤S24:使用解码器构建语言模型,利用上述的隐状态序列,迭代生成输出片段中的每个词。
进一步的,所述,步骤S23所述编码器被配置为多头自注意力(Multi-Head Self-Attention)网络。在获取到所述输入序列的分布式向量后,编码器使用多头自注意力机制进行编码,编码过程可用如下公式表示:
Figure 788154DEST_PATH_IMAGE009
其中,
Figure 921195DEST_PATH_IMAGE010
,所述参数矩阵
Figure 302498DEST_PATH_IMAGE011
,
Figure 204595DEST_PATH_IMAGE012
,
Figure 246107DEST_PATH_IMAGE013
Figure 866444DEST_PATH_IMAGE014
,
Figure 723541DEST_PATH_IMAGE015
;
Figure 480145DEST_PATH_IMAGE016
Figure 226646DEST_PATH_IMAGE017
的维数,
Figure 68700DEST_PATH_IMAGE018
Figure 526226DEST_PATH_IMAGE019
的维数,
Figure 402915DEST_PATH_IMAGE020
为模型所使用的词向量维数,所述
Figure 780371DEST_PATH_IMAGE021
为多头自注意力机制的头数,且
Figure 109721DEST_PATH_IMAGE022
这样,编码器就将原始的输入序列,编码成了长度为
Figure 698834DEST_PATH_IMAGE023
的隐状态序列
Figure 102133DEST_PATH_IMAGE008
步骤S24所述语言模型通过输出片段中的前
Figure 659279DEST_PATH_IMAGE024
个词,预测第
Figure 475925DEST_PATH_IMAGE025
个词。
步骤S24所述解码器在迭代地生成每个词时,还包括以下步骤:
步骤S241:接收上一时刻输出的词
Figure 603150DEST_PATH_IMAGE026
,将其分布式向量表示
Figure 687387DEST_PATH_IMAGE027
作为当前时刻的输入;
步骤S242:获得当前语言模型的输出向量
Figure 179549DEST_PATH_IMAGE028
,作为语言模型向量;
步骤S243:使用自适应自注意力机制对所述隐状态序列进行筛选,并将筛选后所获得的向量
Figure 483491DEST_PATH_IMAGE029
作为知识信息向量;
步骤S244:使用自适应自注意力机制对所述知识信息向量和所述语言模型向量进行整合,获得上下文向量
Figure 86511DEST_PATH_IMAGE030
步骤S245:依据
Figure 293763DEST_PATH_IMAGE030
Figure 691247DEST_PATH_IMAGE026
,上一时刻的隐状态输出
Figure 685747DEST_PATH_IMAGE031
和上下文向量
Figure 826879DEST_PATH_IMAGE030
,获得当前时刻的隐状态
Figure 891568DEST_PATH_IMAGE032
步骤S246:利用隐状态
Figure 725531DEST_PATH_IMAGE032
,计算当前所预测词在词表范围内的概率分布,并取概率最大的词作为当前时刻的输出。
在本发明实施例中,解码器被配置为自适应自注意力模型。接下来,对解码器分步骤进行详细说明。
在时刻
Figure 738487DEST_PATH_IMAGE033
,步骤S242所述“获得当前语言模型的输出向量
Figure 480047DEST_PATH_IMAGE028
,作为语言模型向量”,指的是通过以下公式进行运算:
Figure 396312DEST_PATH_IMAGE034
其中,
Figure 401178DEST_PATH_IMAGE035
为第
Figure 901429DEST_PATH_IMAGE036
层的语言模型向量,
Figure 679636DEST_PATH_IMAGE037
为所述解码器中第
Figure 480102DEST_PATH_IMAGE038
层、第
Figure 655868DEST_PATH_IMAGE039
个时间步的隐状态;
Figure 846678DEST_PATH_IMAGE040
为所述解码器中第
Figure 634768DEST_PATH_IMAGE038
层、前
Figure 758581DEST_PATH_IMAGE039
个时间步的隐状态;
Figure 370828DEST_PATH_IMAGE041
为多头自注意力函数。
步骤S243所述“使用自适应自注意力机制对所述隐状态序列进行筛选,并将筛选后所获得的向量
Figure 845672DEST_PATH_IMAGE029
作为知识信息向量”,指的是使用以下公式进行计算:
Figure 264601DEST_PATH_IMAGE042
其中,
Figure 836397DEST_PATH_IMAGE043
为第
Figure 353966DEST_PATH_IMAGE036
层的知识信息向量。
步骤S244所述“使用自适应自注意力机制对所述知识信息向量和所述语言模型向量进行整合,获得上下文向量
Figure 551991DEST_PATH_IMAGE030
”,指的是通过以下公式进行运算:
Figure 180418DEST_PATH_IMAGE044
其中,
Figure 544404DEST_PATH_IMAGE045
是第
Figure 967295DEST_PATH_IMAGE036
层,第
Figure 915266DEST_PATH_IMAGE039
个时刻的权重,可以通过如下公式获得:
Figure 347384DEST_PATH_IMAGE046
步骤245所述“依据
Figure 300297DEST_PATH_IMAGE026
,上一时刻的隐状态输出
Figure 425248DEST_PATH_IMAGE031
和上下文向量
Figure 597865DEST_PATH_IMAGE030
,获得当前时刻的隐状态
Figure 302516DEST_PATH_IMAGE032
”,指的是通过以下公式进行运算:
Figure 375514DEST_PATH_IMAGE047
其中,
Figure 405787DEST_PATH_IMAGE030
为最后一层的上下文向量,
Figure 396527DEST_PATH_IMAGE031
为最后一层的隐状态,
Figure 170448DEST_PATH_IMAGE048
为长短期记忆循环函数。
步骤246所述“利用所述隐状态
Figure 363532DEST_PATH_IMAGE032
,计算当前所预测词在词表范围内的概率分布”,指的是通过以下公式进行计算:
Figure 66171DEST_PATH_IMAGE049
其中,所得的概率即为 QUOTE 在词表中的概率分布。
进一步地,步骤S3中,在训练阶段,所述词汇受限文本生成模型的数据流向如下:
输入序列经过编码器,被编码为隐状态序列
Figure 71539DEST_PATH_IMAGE008
;
隐状态序列
Figure 942149DEST_PATH_IMAGE008
输入解码器,生成对应的输出片段。
进一步地,步骤S4中,在测试阶段,训练好的词汇受限文本生成模型接收利用关键词构建的输入序列,经过编码器编码为隐状态序列
Figure 75190DEST_PATH_IMAGE008
,所述隐状态序列
Figure 190914DEST_PATH_IMAGE008
同时输入解码器,经解码器进行解码,分别迭代的生成对应片段,将生成的片段填入[pred]标签位置,作为下一个片段生成时模型的输入,依此类推直到生成完所有片段,从而得到包含所有关键词的完整句子。
相应地,本发明的实施例还提供了一种基于增量式片段预测的端到端词汇受限文本生成系统,包括:
数据集构建模块,用于构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
模型构建模块,用于构建词汇受限文本生成模型,对给定的关键词生成包含所述关键词的文本;
训练模块,用于使用所述训练数据集对所述词汇受限文本生成模型进行训练;
文本生成模块,用于将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。
本实施例的系统,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
综上所述,本发明通过构建训练数据集和词汇受限文本生成模型,并使用训练数据集对词汇受限文本生成模型进行训练,之后将训练好的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本。所述词汇受限文本生成模型为基于循环神经网络或自注意力网络的编码器-解码器模型,所述训练数据是利用不同的特殊标签表征当前需要预测的片段和其他未知的片段来构造的成对有监督数据,用于训练模型增量式的进行片段预测。本发明具有逻辑清晰、效率高、准确率高的优点,妥善解决了现有端到端词汇受限文本生成技术无法保证包含所有关键词的技术问题。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (2)

1.一种基于增量式片段预测的端到端词汇受限文本生成方法,其特征在于,包括以下步骤:
步骤S1:构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
步骤S1中,构建训练数据集具体包括:
步骤S11:指定单语数据集,所述单语数据集中包含某一种语言的自然语言文本;
步骤S12:根据所述单语数据集构造平行的训练数据集;
步骤S12中,构造平行的训练数据集具体包括:
步骤S121:从所述单语数据集中提取关键词;
步骤S122:根据关键词的位置将所述单语数据集切分成不同的片段;
步骤S123:构造源端的输入数据,用两种不同的特殊标签[pred]和[blank]分别替换需要预测的片段和其他未知的片段;
步骤S124:构造目标端输出数据,将需要预测的片段作为目标端的输出数据;
步骤S125:将S123和S124中构造的数据作为平行的训练数据集;
步骤S2:构建词汇受限文本生成模型,用于对给定的关键词生成包含所述关键词的文本;
所述词汇受限文本生成模型采用端到端的Seq2Seq模型,包括基于循环神经网络或自注意力网络的编码器-解码器模型;
步骤S2中,所述词汇受限文本生成模型的工作流程包括:
步骤S21:接收构造的平行训练数据集的输入序列
Figure 844577DEST_PATH_IMAGE001
,并获取平行训练数据集的输入 序列所在上下文
Figure 344959DEST_PATH_IMAGE002
,同时接收输出片段的序列
Figure 814118DEST_PATH_IMAGE003
步骤S22:使用词嵌入层,获得输入序列的分布式向量表示
Figure 157374DEST_PATH_IMAGE001
,输入序列所在上下文的 分布式向量表示
Figure 675075DEST_PATH_IMAGE002
,以及输出片段序列的分布式向量表示
Figure 154597DEST_PATH_IMAGE003
步骤S23:使用编码器,对输入序列和输入序列所在上下文进行编码,输入序列和输入 序列所在上下文编码结果为隐状态序列
Figure 791728DEST_PATH_IMAGE004
步骤S24:使用解码器构建语言模型,利用上述的隐状态序列,迭代生成输出片段中的每个词;
步骤S3:使用所述训练数据集对所述词汇受限文本生成模型进行训练;
步骤S3中,在训练阶段,所述词汇受限文本生成模型的数据流向如下:
输入序列经过编码器,被编码为隐状态序列
Figure 497647DEST_PATH_IMAGE004
;
隐状态序列
Figure 881355DEST_PATH_IMAGE004
输入解码器,生成对应的输出片段;
步骤S4中,在测试阶段,训练好的词汇受限文本生成模型接收利用关键词构建的输入 序列,经过编码器编码为隐状态序列
Figure 480963DEST_PATH_IMAGE004
,所述隐状态序列
Figure 291924DEST_PATH_IMAGE004
同时输入解码器,经解码器进 行解码,分别迭代的生成对应片段,将生成的片段填入[pred]标签位置,作为下一个片段生 成时模型的输入,依此类推直到生成完所有片段,从而得到包含所有关键词的完整句子;
步骤S4:将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本;
所述词汇受限文本生成过程使用增量式片段预测方法,所述增量式片段预测是从左到右或从右到左按顺序依次预测一个片段;所述片段是关键词之间的连续词汇;在预测每个片段时,所述词汇受限文本生成模型使用自回归的方式进行预测。
2.一种基于增量式片段预测的端到端词汇受限文本生成系统,其特征在于,包括:
数据集构建模块,用于构建训练数据集,所述训练数据集中包含给定的单个或多个受限词汇和包含所述受限词汇的文本,所述受限词汇也称为关键词;
其中,构建训练数据集具体包括:
步骤S11:指定单语数据集,所述单语数据集中包含某一种语言的自然语言文本;
步骤S12:根据所述单语数据集构造平行的训练数据集;
步骤S12中,构造平行的训练数据集具体包括:
步骤S121:从所述单语数据集中提取关键词;
步骤S122:根据关键词的位置将所述单语数据集切分成不同的片段;
步骤S123:构造源端的输入数据,用两种不同的特殊标签[pred]和[blank]分别替换需要预测的片段和其他未知的片段;
步骤S124:构造目标端输出数据,将需要预测的片段作为目标端的输出数据;
步骤S125:将S123和S124中构造的数据作为平行的训练数据集;
模型构建模块,用于构建词汇受限文本生成模型,对给定的关键词生成包含所述关键词的文本;
所述词汇受限文本生成模型采用端到端的Seq2Seq模型,包括基于循环神经网络或自注意力网络的编码器-解码器模型;
其中,所述词汇受限文本生成模型的工作流程包括:
步骤S21:接收构造的平行训练数据集的输入序列
Figure 485139DEST_PATH_IMAGE001
,并获取平行训练数据集的输入 序列所在上下文
Figure 200767DEST_PATH_IMAGE002
,同时接收输出片段的序列
Figure 858144DEST_PATH_IMAGE003
步骤S22:使用词嵌入层,获得输入序列的分布式向量表示
Figure 777690DEST_PATH_IMAGE001
,输入序列所在上下文的 分布式向量表示
Figure 520518DEST_PATH_IMAGE002
,以及输出片段序列的分布式向量表示
Figure 308346DEST_PATH_IMAGE003
步骤S23:使用编码器,对输入序列和输入序列所在上下文进行编码,输入序列和输入 序列所在上下文编码结果为隐状态序列
Figure 85809DEST_PATH_IMAGE004
步骤S24:使用解码器构建语言模型,利用上述的隐状态序列,迭代生成输出片段中的每个词;
训练模块,用于使用所述训练数据集对所述词汇受限文本生成模型进行训练;
其中,在训练阶段,所述词汇受限文本生成模型的数据流向如下:
输入序列经过编码器,被编码为隐状态序列
Figure 238572DEST_PATH_IMAGE004
隐状态序列
Figure 137871DEST_PATH_IMAGE004
输入解码器,生成对应的输出片段;
步骤S4中,在测试阶段,训练好的词汇受限文本生成模型接收利用关键词构建的输入 序列,经过编码器编码为隐状态序列
Figure 667072DEST_PATH_IMAGE004
,所述隐状态序列
Figure 95780DEST_PATH_IMAGE004
同时输入解码器,经解码器进 行解码,分别迭代的生成对应片段,将生成的片段填入[pred]标签位置,作为下一个片段生 成时模型的输入,依此类推直到生成完所有片段,从而得到包含所有关键词的完整句子;
文本生成模块,用于将训练后的词汇受限文本生成模型应用于给定的任意关键词,生成包含所有给定的任意关键词的文本;
所述词汇受限文本生成过程使用增量式片段预测方法,所述增量式片段预测是从左到右或从右到左按顺序依次预测一个片段;所述片段是关键词之间的连续词汇;在预测每个片段时,所述词汇受限文本生成模型使用自回归的方式进行预测。
CN202210148591.1A 2022-02-18 2022-02-18 一种基于增量式片段预测的端到端词汇受限文本生成方法 Active CN114282515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210148591.1A CN114282515B (zh) 2022-02-18 2022-02-18 一种基于增量式片段预测的端到端词汇受限文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210148591.1A CN114282515B (zh) 2022-02-18 2022-02-18 一种基于增量式片段预测的端到端词汇受限文本生成方法

Publications (2)

Publication Number Publication Date
CN114282515A CN114282515A (zh) 2022-04-05
CN114282515B true CN114282515B (zh) 2022-07-08

Family

ID=80881983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210148591.1A Active CN114282515B (zh) 2022-02-18 2022-02-18 一种基于增量式片段预测的端到端词汇受限文本生成方法

Country Status (1)

Country Link
CN (1) CN114282515B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846130A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 一种问题文本生成方法、装置、设备和介质
CN110287333A (zh) * 2019-06-12 2019-09-27 北京语言大学 一种基于知识库进行释义生成的方法及系统
CN112364639A (zh) * 2020-10-19 2021-02-12 北京语言大学 基于预训练语言模型的上下文敏感的释义生成方法及系统
CN113360646A (zh) * 2021-06-02 2021-09-07 华院计算技术(上海)股份有限公司 基于动态权重的文本生成方法、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11586827B2 (en) * 2017-05-10 2023-02-21 Oracle International Corporation Generating desired discourse structure from an arbitrary text
CN109522411B (zh) * 2018-11-12 2022-10-28 南京德磐信息科技有限公司 一种基于神经网络的写作辅助方法
CN109635150B (zh) * 2018-12-19 2021-07-02 腾讯科技(深圳)有限公司 文本生成方法、装置以及存储介质
CN110991175B (zh) * 2019-12-10 2024-04-09 爱驰汽车有限公司 多模态下的文本生成方法、系统、设备及存储介质
CN111325002A (zh) * 2020-02-17 2020-06-23 广东博智林机器人有限公司 文本生成方法、装置、电子设备及存储介质
US11586829B2 (en) * 2020-05-01 2023-02-21 International Business Machines Corporation Natural language text generation from a set of keywords using machine learning and templates
CN112836519A (zh) * 2021-02-08 2021-05-25 网易(杭州)网络有限公司 文本生成模型的训练方法、文本生成方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846130A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 一种问题文本生成方法、装置、设备和介质
CN110287333A (zh) * 2019-06-12 2019-09-27 北京语言大学 一种基于知识库进行释义生成的方法及系统
CN112364639A (zh) * 2020-10-19 2021-02-12 北京语言大学 基于预训练语言模型的上下文敏感的释义生成方法及系统
CN113360646A (zh) * 2021-06-02 2021-09-07 华院计算技术(上海)股份有限公司 基于动态权重的文本生成方法、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
全局自匹配机制的短文本摘要生成方法;吴仁守 等;《软件学报》;20190930;第30卷(第9期);第2705-2717页 *

Also Published As

Publication number Publication date
CN114282515A (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN106126507B (zh) 一种基于字符编码的深度神经翻译方法及系统
US20180357225A1 (en) Method for generating chatting data based on artificial intelligence, computer device and computer-readable storage medium
CN107632981B (zh) 一种引入源语组块信息编码的神经机器翻译方法
US11488577B2 (en) Training method and apparatus for a speech synthesis model, and storage medium
CN108153913B (zh) 回复信息生成模型的训练方法、回复信息生成方法及装置
US11663488B2 (en) Initialization of parameters for machine-learned transformer neural network architectures
CN109785824A (zh) 一种语音翻译模型的训练方法及装置
CN111354333B (zh) 一种基于自注意力的汉语韵律层级预测方法及系统
WO2021023440A1 (en) Fine-tuning language models for supervised learning tasks via dataset preprocessing
US20220383206A1 (en) Task Augmentation and Self-Training for Improved Few-Shot Learning
CN112560456B (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN112364639B (zh) 基于预训练语言模型的上下文敏感的释义生成方法及系统
CN113641819A (zh) 基于多任务稀疏共享学习的论辩挖掘系统及方法
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN112162775A (zh) 一种基于Transformer和混合代码表示的Java代码注释自动生成方法
CN111401003B (zh) 一种外部知识增强的幽默文本生成方法
CN114282515B (zh) 一种基于增量式片段预测的端到端词汇受限文本生成方法
CN110569499B (zh) 一种基于多模态词向量的生成式对话系统编码方法及编码器
CN116611436A (zh) 一种基于威胁情报的网络安全命名实体识别方法
CN114358021A (zh) 基于深度学习的任务型对话语句回复生成方法及存储介质
US20220284196A1 (en) Electronic device, method and computer program
CN113901841A (zh) 翻译方法、装置以及存储介质
CN114139532B (zh) 一种基于多任务框架进行简单释义生成的方法与系统
CN116681087B (zh) 一种基于多阶段时序和语义信息增强的自动问题生成方法
CN112395832B (zh) 一种基于序列到序列的文本量化分析与生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant