CN115730567A - 基于动态划分的数据到文本的生成方法、装置及电子设备 - Google Patents
基于动态划分的数据到文本的生成方法、装置及电子设备 Download PDFInfo
- Publication number
- CN115730567A CN115730567A CN202110980771.1A CN202110980771A CN115730567A CN 115730567 A CN115730567 A CN 115730567A CN 202110980771 A CN202110980771 A CN 202110980771A CN 115730567 A CN115730567 A CN 115730567A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- sentence
- record
- records
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 91
- 239000013598 vector Substances 0.000 claims abstract description 68
- 238000000638 solvent extraction Methods 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims description 32
- 238000007781 pre-processing Methods 0.000 claims description 18
- 230000002457 bidirectional effect Effects 0.000 claims description 11
- 238000012805 post-processing Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000003068 static effect Effects 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 2
- 229910052731 fluorine Inorganic materials 0.000 description 2
- 125000001153 fluoro group Chemical group F* 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请涉及一种基于动态划分的数据到文本的生成方法、装置及电子设备。所述方法包括:获取结构化数据,构建基于动态划分的数据到文本的生成网络,该网络包括编码器和解码器;编码器用于对输入进行编码得到对上下文敏感的向量空间;在解码器中使用一个规划器和一个生成器交替地进行数据划分和文本生成,从而使得规划器可以感知已生成的内容动态的调整数据划分;采用无监督训练策略对网络进行训练,得到数据到文本的生成模型;获取待测结构化数据,并输入到该模型中,得到由数据生成的文本。本方法中的规划器可以根据已生成的文本及时调整数据划分,采用无监督训练网络的方法,可以解除模型对标准数据划分的依赖,从而减少数据标注成本。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于动态划分的数据到文本的生成方法、装置及电子设备。
背景技术
数据到文本的生成是自然语言生成领域的一个经典任务,目前为止已经在很多应用中发挥了作用,包括天气预报生成、体育报道生成和传记生成。近年来,凭借着强大的表征能力,带有注意力的神经网络模型,尤其是编解码器结构,在数据到文本的生成中取得了成功的应用。而另一方面,抛却神经网络模型这些成功的应用,其在数据到文本的生成中还存在亟待解决的问题,即难以准确的生成连贯的长文本。因此,最近有工作尝试将内容选择和文本规划等过程引入到数据到文本的生成中以克服以上问题。这些方法根据提取输入内容与目标序列之间的对齐关系或序关系,并基于这些信息进行有监督训练。
当前的规划过程通常是静态的,使得规划器无法根据已生成的文本及时调整数据划分,有监督训练需要大量的有监督语料。
发明内容
基于此,有必要针对上述技术问题,提供一种基于动态划分的数据到文本的生成方法、装置及电子设备。
一种基于动态划分的数据到文本的生成方法,所述方法包括:
获取结构化数据,所述结构化数据是记录集合,包括多条记录,并将所述离散记录作为训练样本。
构建基于动态划分的数据到文本的生成网络,所述数据到文本的生成网络包括编码器和解码器;所述编码器用于对输入的记录进行预处理和词插入处理得到记录的嵌入表示,并将所述插入表示映射到对上下文敏感的向量空间;所述解码器包括规划器和生成器;所述规划器用于以句子为单位根据已生成的句子预测下一个句子的记录组,得到数据划分;所述生成器用于参照所述数据划分以词为单位按照自回归式生成句子,当生成器生成分隔符时,当前句子生成过程终止,规划器开始对下一个句子进行数据划分,当生成器产生终止符时,句子生成过程结束,进入后处理阶段,删除分割符和终止符,得到生成的文本。
根据所述训练样本,采用无监督训练的策略对所述数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型。
获取待测结构化数据,并将所述待测结构化数据输入到所述数据到文本的生成模型中,得到由数据生成的文本。
在其中一个实施例中,所述编码器包括预处理模块、词嵌入模块和编码模块。
所述预处理模块用于根据字母序对输入的离散记录进行排序。
所述词嵌入模块用于对所述离散记录进行嵌入操作,得到记录的嵌入表示。
所述编码模块用于将记录的嵌入表示映射到对上下文敏感的向量空间。
在其中一个实施例中,根据所述训练样本,采用无监督训练的策略对所述数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型,包括:
将所述训练样本输入到所述编码器中,得到编码向量。
将所述编码向量输入到所述解码器中,得到由数据生成的预测文本。
根据所述训练样本和所述预测文本,采用无监督训练的策略对所述数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型。
在其中一个实施例中,所述编码器的编码模块包括双向LSTM网络;
将所述训练样本输入到所述编码器中,得到编码向量,包括:
将所述训练样本输入到所述预处理模块,得到有序记录
将所述有序记录输入到所述词嵌入模块中,得到记录的嵌入表示。
将所述嵌入表示输入到所述双向LSTM网络中,得到编码向量。
在其中一个实施例中,所述规划器和所述生成器均包括单向LSTM网络。
将所述编码向量输入到所述解码器中,得到由数据生成的预测文本,包括:
将生成器的状态和尚未被选择的记录输入到规划器中,得到每个记录在给定已生成的句子和数据划分条件下被选择的概率,将所述概率大于0.5所对应的记录作为下一个句子的预测记录组;所述尚未被选择的记录为尚未被规划器划分给某个句子的记录。
将所述预测记录组输入到所述生成器中,得到已生成的句子,若是第一个句子则在句首生成起始符合,当生成器产生分隔符时,当前的句子的生成过程便终止,所述规划器则开始确定下一个句子的数据划分,当生成器产生终止符时,句子生成过程结束,进入后处理阶段,删除分割符和终止符,得到由数据生成的预测文本;所述生成器已生成的句子的过程包括:生成记录对应的词,并在句尾生成分隔符,若是第一个句子则在句首生成起始符合。
根据所述训练样本和所述预测文本,采用无监督训练的策略和策略梯度算法对所述数据到文本的生成网络进行方向训练,得到训练好的数据到文本的生成模型。
在其中一个实施例中,每个记录在给定已生成的句子和数据划分条件下被选择的概率的计算公式为:
其中h'-1表示生成器最新的状态向量;h″k表示规划器对句子sk进行规划时的状态向量;表示在前k-1个句子中尚未被选择的记录的集合;是一个条件指示函数,当给定的条件成立时返回1,否则返回0;dh表示状态向量维度;xi表示第i条记录;n是记录的数量;gk表示第k个记录组;P(xi∈gk|g<k,s<k)表示记录xi被选择进入当前的记录组gk的条件概率。
在其中一个实施例中,将所述嵌入表示输入到所述双向LSTM网络中,得到编码向量,包括:
将所述嵌入表述输入到所述双向LSTM网络中,通过正向LSTM进行编码,得到正向编码向量,通过反向LSTM进行编码,得到反向编码向量。
将所述正向编码向量和负向编码向量进行拼接,得到编码向量。
在其中一个实施例中,所述数据到文本的生成网络包括编码器和解码器采用神经网络结构或Transformer网络结构。
一种基于动态划分的数据到文本的生成装置,所述装置包括:
训练样本获取模块,用于获取结构化数据,所述结构化数据是记录集合,包括多条记录,并将所述离散记录作为训练样本。
基于动态划分的数据到文本的生成模型构建模块,用于构建基于动态划分的数据到文本的生成网络,所述数据到文本的生成网络包括编码器和解码器;所述编码器用于对输入的记录进行预处理和词插入处理得到记录的嵌入表示,并将所述插入表示映射到对上下文敏感的向量空间;所述解码器包括规划器和生成器;所述规划器用于以句子为单位根据已生成的句子预测下一个句子的记录组,得到数据划分;所述生成器用于参照所述数据划分以词为单位按照自回归式生成句子,当生成器生成分隔符时,当前句子生成的过程终止,规划器开始对下一个句子进行数据划分,当生成器产生终止符时,句子生成过程结束,进入后处理阶段,删除分割符和终止符,得到生成的文本。
基于动态划分的数据到文本的生成模型训练模块,用于根据所述训练样本,采用无监督训练的策略对所述数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型。
数据生成的文本的确定模块,用于获取待测结构化数据,并将所述待测结构化数据输入到所述数据到文本的生成模型中,得到由数据生成的文本。
上述基于动态划分的数据到文本的生成方法、装置及电子设备,所述方法包括:获取结构化数据,构建基于动态划分的数据到文本的生成网络,该网络包括编码器和解码器;编码器用于对输入进行编码得到对上下文敏感的向量空间;在解码器中使用一个规划器和一个生成器交替地进行数据划分和文本生成,从而使得规划器可以感知已生成的内容动态的调整数据划分;采用无监督训练策略对网络进行训练,得到数据到文本的生成模型;获取待测结构化数据,并输入到该模型中,得到由数据生成的文本。本方法中的规划器可以根据已生成的文本及时调整数据划分,采用无监督训练网络的方法,可以解除模型对标准数据划分的依赖,从而减少数据标注成本。
附图说明
图1为一个实施例中基于动态划分的数据到文本的生成方法的流程示意图;
图2为一个实施例中基于动态划分的数据到文本的生成的模型结构;
图3为一个实施例中基于动态划分的数据到文本的生成装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
给定输入的结构化数据X和输出的文本序列Y,数据到文本(Data-to-Text)任务的目标是根据X生成连贯正确的Y。其中Y=y1,y2,…,yi…,ym表示目标序列,yi代表一个词或符号,m表示词或符号的数量。当Y包含多个句子时,也可以表示成Y=s1,s2,…,si,…,sk,其中si=yi1,yi2,…,yil表示句子,il表示句子si的长度。X=x1,x2,…,xi,…,xn为记录的集合,n表示记录的数量。xi为一条单独的记录。每条记录为一个N元组,包含多个属性及其具体的取值,其中属性的数量和类型取决于具体的数据集。例如:在E2E数据集中,每条记录xi是一个三元组(attribute,index,value),其中attribute表示属性类型,index表示单词的索引,value表示该类型属性取值中索引为index的词;在EPW数据集中,由于所有的属性值都不会包含多个词,因此每条记录是一个仅包含属性类型和具体取值的二元组。
在一个实施例中,如图1所示,提供了一种基于动态划分的数据到文本的生成方法,该方包括以下步骤:
步骤100:获取结构化数据,结构化数据是记录集合,包括多条记录,并将离散记录作为训练样本。
数据到文本的生成是一种将结构化数据转换成对应的连贯且语义一致的文本的任务。
结构化数据多种多样,包括表格、概念等。这些结构化的数据大多可以转换成一条条的记录(record),每条记录是一个N元组,包括一个或多个属性以及对应的取值。
步骤102:构建基于动态划分的数据到文本的生成网络。
数据到文本的生成网络包括编码器和解码器。
编码器用于对输入的记录进行预处理和词插入处理得到记录的嵌入表示,并将插入表示映射到对上下文敏感的向量空间。
解码器包括规划器和生成器;规划器用于以句子为单位根据已生成的句子预测下一个句子的记录组,得到数据划分;生成器用于参照数据划分以词为单位按照自回归式生成句子,当生成器生成分隔符时,当前句子生成过程终止,规划器开始对下一个句子进行数据划分,当生成器产生终止符时,句子生成过程结束,进入后处理阶段,删除分割符和终止符,得到生成的文本。
该网络模型在解码器包括一个规划器和一个生成器,其中,规划器负责将给定的记录划分成记录组,每个组对应一个待生成的句子。而生成器则是根据规划器的结果生成句子。该网络模型与使用静态规划的生成方法之间一个关键的不同点在于:它将静态规划中的解耦的“规划”和“生成”两个过程进行了耦合。在该网络模型中,“规划”和“生成”不再是完全分离的过程,而是以句子为单位交替进行。
规划器能够感知到已生成的内容,从而当生成过程脱离既定的规划时能够根据自身的状态和生成器的状态进行动态的调整。
基于动态划分的数据到文本的生成网络模型文本序列的生成被分解成了多个连续句子的生成。
步骤104:根据训练样本,采用无监督训练的策略对数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型。
在基于强化学习的无监督训练中,将规划器的输出作为agent的行动,利用目标句子在生成器中的似然概率作为奖励,并利用策略梯度算法反向传播梯度。
步骤106:获取待测结构化数据,并将待测结构化数据输入到数据到文本的生成模型中,得到由数据生成的文本。
上述基于动态划分的数据到文本的生成方法中,所述方法包括:获取结构化数据,构建基于动态划分的数据到文本的生成网络,该网络包括编码器和解码器;编码器用于对输入进行编码得到对上下文敏感的向量空间;在解码器中使用一个规划器和一个生成器交替地进行数据划分和文本生成,从而使得规划器可以感知已生成的内容动态的调整数据划分;采用无监督训练策略对网络进行训练,得到数据到文本的生成模型;获取待测结构化数据,并输入到该模型中,得到由数据生成的文本。本方法中的规划器可以根据已生成的文本及时调整数据划分,采用无监督训练网络的方法,可以解除模型对标准数据划分的依赖,从而减少数据标注成本。
在其中一个实施例中,步骤102中,编码器包括预处理模块、词嵌入模块和编码模块;预处理模块用于根据字母序对输入的离散记录进行排序;词嵌入模块用于对离散记录进行嵌入操作,得到记录的嵌入表示;编码模块用于将记录的嵌入表示映射到对上下文敏感的向量空间。
一条记录的嵌入表示是其元组内所有元素嵌入的加和。在一个记录中,最后的元素通常会与目标序列中的某些词对应,因此认为其包含的信息量比元组中的其它元素更多。为了突出最后的元素,本章使用嵌入表示维度的平方根对最后一个元素的词嵌入进行了放缩。例如在E2E数据集中,一条记录x的嵌入表示为:
其中d表示词嵌入的维度。
在其中一个实施例中,步骤104还包括:将训练样本输入到编码器中,得到编码向量;将编码向量输入到解码器中,得到由数据生成的预测文本;根据训练样本和预测文本,采用无监督训练的策略对数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型。
在其中一个实施例中,编码器的编码模块包括双向长短期记忆网络(Long Short-Term Memory,简称:LSTM)网络。步骤104还包括:将训练样本输入到预处理模块,得到有序记录;将有序记录输入到词嵌入模块中,得到记录的嵌入表示;将嵌入表示输入到双向LSTM网络中,得到编码向量。
在其中一个实施例中,规划器和生成器均包括单向LSTM网络。步骤104还包括:将生成器的状态和尚未被选择的记录输入到规划器中,得到每个记录在给定已生成的句子和数据划分条件下被选择的概率,将概率大于0.5所对应的记录作为下一个句子的预测记录组;尚未被选择的记录为尚未被规划器划分给某个句子的记录;将预测记录组输入到生成器中,得到已生成的句子,若是第一个句子则在句首生成起始符合,当生成器产生分隔符时,当前的句子的生成过程便终止,规划器则开始确定下一个句子的数据划分,当生成器产生终止符时,句子生成过程结束,进入后处理阶段,删除分割符和终止符,得到由数据生成的预测文本;生成器已生成的句子的过程包括:生成记录对应的词,并在句尾生成分隔符,若是第一个句子则在句首生成起始符合;根据训练样本和预测文本,采用无监督训练的策略和策略梯度算法对数据到文本的生成网络进行方向训练,得到训练好的数据到文本的生成模型。
在其中一个实施例中,步骤104中,每个记录在给定已生成的句子和数据划分条件下被选择的概率的计算公式为:
其中h'-1表示生成器最新的状态向量;h″k表示规划器对句子sk进行规划时的状态向量;表示在前k-1个句子中尚未被选择的记录的集合;是一个条件指示函数,当给定的条件成立时返回1,否则返回0;dh表示状态向量维度;xi表示第i条记录;n是记录的数量;gk表示第k个记录组;P(xi∈gk|g<k,s<k)表示记录xi被选择进入当前的记录组gk的条件概率。
在其中一个实施例中,步骤104还包括:将嵌入表述输入到双向LSTM网络中,通过正向LSTM进行编码,得到正向编码向量,通过反向LSTM进行编码,得到反向编码向量;将正向编码向量和负向编码向量进行拼接,得到编码向量。
在其中一个实施例中,步骤104中,数据到文本的生成网络包括编码器和解码器采用神经网络结构或Transformer网络结构。
在另一个实施例中,如图2所示,提供了一种基于动态划分的数据到文本的生成网络的结构,该网络整体上采用了编码器-解码器的结构,其中,编码器是一个双向的LSTM网络,负责将输入的离散记录映射到对上下文敏感的向量空间,而解码器则包含了两个模块,分别是规划器和生成器,这两个模块和编码器一样也采用了LSTM网络,但只是一个单向LSTM。采用该网络模型文本序列的生成被分解成了多个连续句子的生成。
具体来说,在生成过程(即解码过程)中,规划器以句子为单位进行数据划分。在生成一个句子之前,规划器根据已划分的数据和已生成的句子预测下一个句子的记录组。使用符号gi={xi1,xi2,…,xil′}表示一个拥有il′个记录的集合,即记录组,其中il′表示第i个记录组的大小。由规划器确定一个句子所对应的记录组之后,生成器开始生成一个新句子。与规划器不同的是,生成器是以词为单位进行自回归式的生成,但在开始生成一个句子之前会参照由规划器输出的数据划分。图2中还包括了三个特殊的字符:<bos>、<sep>和<eos>,分别表示句子的起始、句子之间的分隔符和句子的终止,生成器产生该分隔符就意味着完成了一个句子的生成,此时规划器就开始确定下个句子的记录组。规划器和生成器交替地进行,直到生成器生成终止符<eos>,这意味着模型完成了整个序列的生成。
本实施例利用双向LSTM网络对记录的嵌入表示进行编码从而使每条记录都能够感知到其它的记录。由于使用了双向LSTM,因此一条记录xi可以得到两个根据不同方向编码而来的向量:
如图2所示将生成器的状态输入给规划器从而使其支持动态的数据划分。对于一条记录,如果规划器已经将其划分给某个句子,我们称其为已被选择,否则称其为未被选择。规划器除了采取生成器的状态作为输入,还以那些尚未被选择的记录作为输入,从而使其这些记录更为敏感。
规划器在每一步的输出是每个记录在给定已生成的句子和数据划分条件下被选择的概率,其中,记录xi被选择进入当前的记录组gk的条件概率计算公式如式(2)所示。
在推断过程中,一个记录xi是否要被划分到记录组gk需要满足以下条件:记录xi被选择进入当前的记录组gk的条件概率大于等于0.5。
其中,h′t是生成器在生成第t个词是的状态,本发明采用了向量点乘作为具体的得分函数Score。在完成上下文向量的计算之后,生成器计算目标词在这个词表上的概率分布,即:
P(yt|x<t,gk)=Softmax(W(h't||ct))
在规划器的每一步为那些没有被选择的记录定义了一个潜在奖励,该奖励为目标句子中单词概率似然平均的提升空间:
p(X-∪g<k|g<k,s<k)=1-r(gk|g<k,s<k)
潜在奖励p使得那些记录组之外记录具有再次被选择的可能性。
生成器的目标保持为最大化目标序列的似然概率不变,而规划器的目标则是最大化累计奖励,该奖励通过策略梯度算法进行梯度的反向传播。模型最终的训练目标转化为:
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种基于动态划分的数据到文本的生成装置,包括:训练样本获取模块、基于动态划分的数据到文本的生成模型构建模块、基于动态划分的数据到文本的生成模型训练模块以及数据生成的文本的确定模块,其中:
训练样本获取模块,用于获取结构化数据,结构化数据是记录集合,包括多条记录,并将离散记录作为训练样本。
基于动态划分的数据到文本的生成模型构建模块,用于构建基于动态划分的数据到文本的生成网络,数据到文本的生成网络包括编码器和解码器;编码器用于对输入的记录进行预处理和词插入处理得到记录的嵌入表示,并将插入表示映射到对上下文敏感的向量空间;解码器包括规划器和生成器;规划器用于以句子为单位根据已生成的句子预测下一个句子的记录组,得到数据划分;生成器用于参照数据划分以词为单位按照自回归式生成句子,当生成器生成分隔符时,当前句子生成的过程终止,规划器开始对下一个句子进行数据划分,当生成器产生终止符时,句子生成过程结束,进入后处理阶段,删除分割符和终止符,得到生成的文本。
基于动态划分的数据到文本的生成模型训练模块,用于根据训练样本,采用无监督训练的策略对数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型。
数据生成的文本的确定模块,用于获取待测结构化数据,并将待测结构化数据输入到数据到文本的生成模型中,得到由数据生成的文本。
在其中一个实施例中,基于动态划分的数据到文本的生成模型构建模块中,编码器包括预处理模块、词嵌入模块和编码模块;预处理模块用于根据字母序对输入的离散记录进行排序;词嵌入模块用于对离散记录进行嵌入操作,得到记录的嵌入表示;编码模块用于将记录的嵌入表示映射到对上下文敏感的向量空间。
在其中一个实施例中,基于动态划分的数据到文本的生成模型训练模块,还用于将训练样本输入到编码器中,得到编码向量;将编码向量输入到解码器中,得到由数据生成的预测文本;根据训练样本和预测文本,采用无监督训练的策略对数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型。
在其中一个实施例中,编码器的编码模块包括双向LSTM网络。基于动态划分的数据到文本的生成模型训练模块,还用于将训练样本输入到预处理模块,得到有序记录;将有序记录输入到词嵌入模块中,得到记录的嵌入表示;将嵌入表示输入到双向LSTM网络中,得到编码向量。
在其中一个实施例中,规划器和生成器均包括单向LSTM网络。基于动态划分的数据到文本的生成模型训练模块,还用于将生成器的状态和尚未被选择的记录输入到规划器中,得到每个记录在给定已生成的句子和数据划分条件下被选择的概率,将概率大于0.5所对应的记录作为下一个句子的预测记录组;尚未被选择的记录为尚未被规划器划分给某个句子的记录;将预测记录组输入到生成器中,得到已生成的句子,若是第一个句子则在句首生成起始符合,当生成器产生分隔符时,当前的句子的生成过程便终止,规划器则开始确定下一个句子的数据划分,当生成器产生终止符时,句子生成过程结束,进入后处理阶段,删除分割符和终止符,得到由数据生成的预测文本;生成器已生成的句子的过程包括:生成记录对应的词,并在句尾生成分隔符,若是第一个句子则在句首生成起始符合;根据训练样本和预测文本,采用无监督训练的策略和策略梯度算法对数据到文本的生成网络进行方向训练,得到训练好的数据到文本的生成模型。
在其中一个实施例中,基于动态划分的数据到文本的生成模型训练模块中,每个记录在给定已生成的句子和数据划分条件下被选择的概率的计算公式为:
其中h'-1表示生成器最新的状态向量;h″k表示规划器对句子sk进行规划时的状态向量;表示在前k-1个句子中尚未被选择的记录的集合;是一个条件指示函数,当给定的条件成立时返回1,否则返回0;dh表示状态向量维度;xi表示第i条记录;n是记录的数量;gk表示第k个记录组;P(xi∈gk|g<k,s<k)表示记录xi被选择进入当前的记录组gk的条件概率。
在其中一个实施例中,基于动态划分的数据到文本的生成模型训练模块,还用于将嵌入表述输入到双向LSTM网络中,通过正向LSTM进行编码,得到正向编码向量,通过反向LSTM进行编码,得到反向编码向量;将正向编码向量和负向编码向量进行拼接,得到编码向量。
在其中一个实施例中,基于动态划分的数据到文本的生成模型训练模块中,数据到文本的生成网络包括编码器和解码器采用神经网络结构或Transformer网络结构。
关于基于动态划分的数据到文本的生成装置的具体限定可以参见上文中对于基于动态划分的数据到文本的生成方法的限定,在此不再赘述。上述基于动态划分的数据到文本的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种电子设备,该电子设备可以是终端,其内部结构图可以如图4所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于动态划分的数据到文本的生成方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种电子设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例所述方法的步骤。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于动态划分的数据到文本的生成方法,其特征在于,所述方法包括:
获取结构化数据,所述结构化数据是记录集合,包括多条记录,并将所述离散记录作为训练样本;
构建基于动态划分的数据到文本的生成网络,所述数据到文本的生成网络包括编码器和解码器;所述编码器用于对输入的记录进行预处理和词插入处理得到记录的嵌入表示,并将所述插入表示映射到对上下文敏感的向量空间;所述解码器包括规划器和生成器;所述规划器用于以句子为单位根据已生成的句子预测下一个句子的记录组,得到数据划分;所述生成器用于参照所述数据划分以词为单位按照自回归式生成句子,当生成器生成分隔符时,当前句子生成过程终止,规划器开始对下一个句子进行数据划分,当生成器产生终止符时,句子生成过程结束,进入后处理阶段,删除分割符和终止符,得到生成的文本;
根据所述训练样本,采用无监督训练的策略对所述数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型;
获取待测结构化数据,并将所述待测结构化数据输入到所述数据到文本的生成模型中,得到由数据生成的文本。
2.根据权利要求1所述的方法,其特征在于,所述编码器包括预处理模块、词嵌入模块和编码模块;
所述预处理模块用于根据字母序对输入的离散记录进行排序;
所述词嵌入模块用于对所述离散记录进行嵌入操作,得到记录的嵌入表示;
所述编码模块用于将记录的嵌入表示映射到对上下文敏感的向量空间。
3.根据权利要求1所述的方法,根据所述训练样本,采用无监督训练的策略对所述数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型,包括:
将所述训练样本输入到所述编码器中,得到编码向量;
将所述编码向量输入到所述解码器中,得到由数据生成的预测文本;
根据所述训练样本和所述预测文本,采用无监督训练的策略对所述数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型。
4.根据权利要求2或3所述的方法,其特征在于,所述编码器的编码模块包括双向LSTM网络;
将所述训练样本输入到所述编码器中,得到编码向量,包括:
将所述训练样本输入到所述预处理模块,得到有序记录
将所述有序记录输入到所述词嵌入模块中,得到记录的嵌入表示;
将所述嵌入表示输入到所述双向LSTM网络中,得到编码向量。
5.根据权利要求4所述的方法,其特征在于,所述规划器和所述生成器均包括单向LSTM网络;
将所述编码向量输入到所述解码器中,得到由数据生成的预测文本,包括:
将生成器的状态和尚未被选择的记录输入到规划器中,得到每个记录在给定已生成的句子和数据划分条件下被选择的概率,将所述概率大于0.5所对应的记录作为下一个句子的预测记录组;所述尚未被选择的记录为尚未被规划器划分给某个句子的记录;
将所述预测记录组输入到所述生成器中,得到已生成的句子,若是第一个句子则在句首生成起始符合,当生成器产生分隔符时,当前的句子的生成过程便终止,所述规划器则开始确定下一个句子的数据划分,当生成器产生终止符时,句子生成过程结束,进入后处理阶段,删除分割符和终止符,得到由数据生成的预测文本;所述生成器已生成的句子的过程包括:生成记录对应的词,并在句尾生成分隔符,若是第一个句子则在句首生成起始符合;
根据所述训练样本和所述预测文本,采用无监督训练的策略和策略梯度算法对所述数据到文本的生成网络进行方向训练,得到训练好的数据到文本的生成模型。
7.根据权利要求4所述的方法中,其特征在于,将所述嵌入表示输入到所述双向LSTM网络中,得到编码向量,包括:
将所述嵌入表述输入到所述双向LSTM网络中,通过正向LSTM进行编码,得到正向编码向量,通过反向LSTM进行编码,得到反向编码向量;
将所述正向编码向量和负向编码向量进行拼接,得到编码向量。
8.根据权利要求1所述的方法,其特征在于,所述数据到文本的生成网络包括编码器和解码器采用神经网络结构或Transformer网络结构。
9.一种基于动态划分的数据到文本的生成装置,其特征在于,所述装置包括:
训练样本获取模块,用于获取结构化数据,所述结构化数据是记录集合,包括多条记录,并将所述离散记录作为训练样本;
基于动态划分的数据到文本的生成模型构建模块,用于构建基于动态划分的数据到文本的生成网络,所述数据到文本的生成网络包括编码器和解码器;所述编码器用于对输入的记录进行预处理和词插入处理得到记录的嵌入表示,并将所述插入表示映射到对上下文敏感的向量空间;所述解码器包括规划器和生成器;所述规划器用于以句子为单位根据已生成的句子预测下一个句子的记录组,得到数据划分;所述生成器用于参照所述数据划分以词为单位按照自回归式生成句子,当生成器生成分隔符时,当前句子生成的过程终止,规划器开始对下一个句子进行数据划分,当生成器产生终止符时,句子生成过程结束,进入后处理阶段,删除分割符和终止符,得到生成的文本;
基于动态划分的数据到文本的生成模型训练模块,用于根据所述训练样本,采用无监督训练的策略对所述数据到文本的生成网络进行训练,得到训练好的数据到文本的生成模型;
数据生成的文本的确定模块,用于获取待测结构化数据,并将所述待测结构化数据输入到所述数据到文本的生成模型中,得到由数据生成的文本。
10.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110980771.1A CN115730567A (zh) | 2021-08-25 | 2021-08-25 | 基于动态划分的数据到文本的生成方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110980771.1A CN115730567A (zh) | 2021-08-25 | 2021-08-25 | 基于动态划分的数据到文本的生成方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115730567A true CN115730567A (zh) | 2023-03-03 |
Family
ID=85290010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110980771.1A Pending CN115730567A (zh) | 2021-08-25 | 2021-08-25 | 基于动态划分的数据到文本的生成方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115730567A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117201485A (zh) * | 2023-11-07 | 2023-12-08 | 北京飞轮数据科技有限公司 | 文本文件传输方法、装置、电子设备和计算机可读介质 |
-
2021
- 2021-08-25 CN CN202110980771.1A patent/CN115730567A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117201485A (zh) * | 2023-11-07 | 2023-12-08 | 北京飞轮数据科技有限公司 | 文本文件传输方法、装置、电子设备和计算机可读介质 |
CN117201485B (zh) * | 2023-11-07 | 2024-02-06 | 北京飞轮数据科技有限公司 | 文本文件传输方法、装置、电子设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670029B (zh) | 用于确定问题答案的方法、装置、计算机设备及存储介质 | |
US11776531B2 (en) | Encoder-decoder models for sequence to sequence mapping | |
CN108038107B (zh) | 基于卷积神经网络的语句情感分类方法、装置及其设备 | |
CN111611805B (zh) | 一种基于图像的辅助写作方法、装置、介质及设备 | |
JP7346788B2 (ja) | 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 | |
US11693854B2 (en) | Question responding apparatus, question responding method and program | |
WO2020172329A1 (en) | Learning to extract entities from conversations with neural networks | |
CN112528655B (zh) | 关键词生成方法、装置、设备及存储介质 | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
JP7163618B2 (ja) | 学習装置、学習方法、プログラム及び推定装置 | |
CN112232052B (zh) | 文本拼接方法、装置、计算机设备及存储介质 | |
US20220129671A1 (en) | Document Information Extraction Without Additional Annotations | |
CN114723064A (zh) | 预训练语言模型的微调方法、装置及计算机可读存储介质 | |
CN111967253A (zh) | 一种实体消歧方法、装置、计算机设备及存储介质 | |
CN114064852A (zh) | 自然语言的关系抽取方法、装置、电子设备和存储介质 | |
CN112464642A (zh) | 文本添加标点的方法、装置、介质及电子设备 | |
CN111814479A (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
CN113807512A (zh) | 机器阅读理解模型的训练方法、装置及可读存储介质 | |
CN113435180B (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN115730567A (zh) | 基于动态划分的数据到文本的生成方法、装置及电子设备 | |
US20220138425A1 (en) | Acronym definition network | |
CN117634599A (zh) | 基于知识图谱的路径推理方法、装置、电子设备及介质 | |
CN116362242A (zh) | 一种小样本槽值提取方法、装置、设备及存储介质 | |
CN114792097B (zh) | 预训练模型提示向量的确定方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |