CN110609986A

CN110609986A - 一种基于预训练的结构化数据生成文本的方法

Info

Publication number: CN110609986A
Application number: CN201910940399.4A
Authority: CN
Inventors: 冯骁骋; 秦兵; 刘挺; 陈昱宇
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2019-12-24
Anticipated expiration: 2039-09-30
Also published as: CN110609986B

Abstract

一种基于预训练的结构化数据生成文本的方法，本发明涉及结构化数据生成文本方法。本发明的目的是为了解决在结构化数据生成文本上，现有模型对表格数据进行建模时，没有考虑数据之间的内在隐含关系，导致文本生成准确率低的问题。过程为：一、随机MASK掉若干个三元组中一个三元组中的一个数据，用@代替；根据表格中数据间具有的计算序列关系得到表征@隐去的计算序列；二、得到表格中同一行的所有记录均值池化后的行向量；三、得到预训练模型，保留预训练模型的参数；四：得到表格行向量；五：验证步骤三的预训练模型；六：得到对表格中同一行的所有记录进行均值池化后的行向量；七：得到表格中数据代表的信息。本发明用于生成文本领域。

Description

一种基于预训练的结构化数据生成文本的方法

技术领域

本发明涉及结构化数据生成文本方法。

背景技术

在目前的已经公布的结构化数据生成文本的研究工作里，生成的文本的好坏往往取决于模型对数字大小、数字之间关系建模的能力等，当bert,elmo等语言模型的提出，通过模型预训练，增强了一句话中每个单词的上下文关系。bert,elmo等语言模型的预训练是基于文本训练，使得模型通过预训练得到文本表述中的关系包括词性，动宾关系等(通俗来说，就是模型通过预先分析大量的文本信息，获取了文本表示中的主谓宾语的关系，一词在不同语境中的意义不同的表达方式等信息)，而Table-to-text由于输入是单一的三元组数据，而不是文字，缺少类似的关系。因此为了提升结构化数据生成文本的质量，提出了针对table-to-text的预训练方法。

当前预训练模型^[1](作者：Kaitao Song,Xu Tan,Tao Qin,Jianfeng Lu,Tie-YanLiu年份2019：题目：MASS:Masked Sequence to Sequence Pre-training for LanguageGeneration会议：International Conference on Machine Learning 2019)在自然语言处理领域应用非常广，包括BERT，GPT等模型在多项任务上均刷新了指标，但是目前的预训练模型往往都是基于上下文的语义信息，在table-to-text领域，由于输入是独立的数据，并没有很强的上下文关系，因此目前发表的预训练模型基本在table-to-text领域上不能应用。

而目前对于table-to-text的技术大都采用的是端到端(seq2seq)的模型^[2](作者:Ilya Sutskever,Oriol Vinyals,and Quoc V Le.年份：2014.题目:Sequence tosequence learning with neural networks.会议：Advances in neural informationprocessing systems,pages 3104–3112)。

现有实现table-to-text的方法的基线模型：CC(Wiseman et al.,2017)^[3](作者：Sam Wiseman,Stuart M.Shieber,and Alexander M.Rush.年份：2017.题目：Challengesin data-to-document generation.会议：In Proceedings of the 2017Conference onEmpirical Methods in Natural Language Processing.)。

目前已公布的可对比模型：hieratical(Gong et al.,2019)^[4](作者：Gong Heng,XiaochengFeng,Bin Qin and TingLiu.年份：2019.题目：Table-to-Text Generationwith Effective Hierarchical Encoder on Three dimensions(Row,Column and Time).会议：In Proceedings of the 2019Conference on Empirical Methods in NaturalLanguage Processing.)。

发明内容

本发明的目的是为了解决在结构化数据生成文本上，现有模型对表格数据进行建模时，没有考虑数据之间的内在隐含关系，导致文本生成准确率低的问题，而提出了一种基于预训练的结构化数据生成文本的方法。

一种基于预训练的结构化数据生成文本的方法，其特征在于：所述方法具体过程为：

步骤一、将表格中数据间具有计算序列关系的同类型数据划分为一组；

将表格中数据转化成若干个三元组，一个三元组对应表格中的一个记录；

随机MASK掉若干个(602个)三元组中一个三元组中的一个数据，用@代替；

根据表格中数据间具有的计算序列关系得到表征@隐去的计算序列，@隐去的计算序列即为训练目标；

步骤二、将步骤一得到的所有三元组信息(包括用@代替的一个三元组信息)输入预训练模型进行实体关系建模，得到对表格中同一行的所有记录进行均值池化后的行向量row_i；

步骤三、要生成@隐去的计算序列，解码器需要在每一个时刻进行解码，生成组成计算序列内容；每一个解码t时刻，通过解码得到文字有两种方式，一种从三元组中拷贝，即拷贝概率，另一种从词表中选择一个词来生成，即生成概率；

通过生成文字或拷贝三元组的值组成@隐去的计算序列，直到所有三元组信息输入到预训练模型，保留预训练模型的参数，保留参数就相当于保留模型通过预训练得到的能力；

具体过程为：

将解码器LSTM当前时刻的隐层通过MLP函数，得到当前时刻生成内容的拷贝概率a，则生成概率为1-a；

所述MLP函数为多层感知机函数；

若拷贝概率a大于生成概率1-a，则从三元组中拷贝值，三元组中拷贝值确定过程为：通过解码器LSTM对步骤二得到的row_i进行解码，生成每个三元组的权重，在t时刻选择权重最大的三元组作为待拷贝三元组，拷贝值即待拷贝三元组中的值；

若拷贝概率小于等于生成概率，则再将解码器LSTM当前时刻的隐层映射到词表上，选择词表中概率最大的文字作为当前t时刻的生成文字；

直到全部输入到预训练模型，保留预训练模型的参数，保留参数就相当于保留模型通过预训练得到的能力；

步骤四：将步骤一得到的所有三元组信息(包括用@代替的一个三元组信息)输入步骤三预训练模型进行实体关系建模，得到对表格中同一行的所有记录进行均值池化后的行向量row_i；

步骤五：每一个解码t时刻，通过解码得到文字有两种方式，一种从三元组中拷贝，即拷贝概率，另一种从词表中选择一个词来生成，即生成概率；

将生成文字或拷贝三元组的值作为生成的值；根据生成的值对测试集中三元组MASK掉的记录数据还原，若还原后三元组与步骤一中MASK掉记录前的三元组相比较，准确率达到90％的，则步骤三得到的预训练模型为训练好的预训练模型，若还原后三元组与步骤一中MASK掉记录前的三元组相比较，准确率低于90％，则重新执行步骤三；

具体过程为：

将解码器LSTM当前的隐层Hidden通过MLP激活，得到的拷贝概率a和生成概率1-a；

比较拷贝概率a和生成概率1-a大小；

若拷贝概率a大于生成概率1-a，则采用解码器LSTM对步骤四得到的row_i进行解码，得到当前t时刻所有三元组的权重值，选择权重值最大的三元组的值作为当前时刻拷贝的值；

若拷贝概率小于等于生成概率，即将当前解码器LSTM的隐层映射到词表上，从词表中选择一个概率最大值作为生成的值；

根据生成的值对测试集中三元组MASK掉的记录数据还原，若还原后三元组与步骤一中MASK掉记录前的三元组相比较，准确率达到90％的，则步骤三得到的预训练模型为训练好的预训练模型，若还原后三元组与步骤一中MASK掉记录前的三元组相比较，准确率低于90％，则重新执行步骤三；

步骤六：将待测试的表格中数据(一个表格代表一个新闻)转化成若干个三元组，一个三元组对应表格中的一个记录；

将所有三元组输入步骤三预训练好预训练模型进行实体关系建模，得到对表格中同一行的所有记录进行均值池化后的行向量row_i；

步骤七：每一个解码t时刻，通过解码得到文字有两种方式，一种从三元组中拷贝，即拷贝概率，另一种从词表中选择一个词来生成，即生成概率；

将生成文字或拷贝三元组的值作为生成的值，直到生成EOS结束标识，生成文字结束，得到表格中数据代表的信息；

具体过程为：

比较拷贝概率a和生成概率1-a大小；

直到生成EOS结束标识，生成文字结束，得到表格中数据代表的新闻信息。

本发明的有益效果为：

本发明一种基于预训练的结构化数据生成文本的方法引入预训练方法，让模型能够更好的建模表格数据之间的内在关系，使模型在生成文字前，增强了识别数据大小，数据之间内在的关系的能力。

本方法的目的在结构化数据生成文本任务上，改进现有模型在建模时，无法预先考虑数据大小，数据之间内在的隐含关系，导致数据建模不理想的情况，而提出的一种基于结构化数据生成文本的方法，即在模型进行生成文本任务前，对模型进行预训练，使模型增强识别数字大小能力，数据之间隐含关系能力，解决在结构化数字生成文本上，现有模型没有考虑数字的隐含关系，导致文本生成准确率低的问题，提高了文本生成准确率。

本发明提出了利用表格数据间的关系对模型进行预训练。本发明提出的方式在CC模型以及hieratical层次化模型上都进行了实验。

本发明提出了预先对模型进行数据之间逻辑关系的加减乘除运算，使模型在生成文本任务前具有一定的数字识别大小、数据之间隐含的内在关系的能力(暨具有数字敏感性)，再进行生成文字的模型训练，生成相应描述表格信息的文本。该方法在ROTOWIRE数据集上进行了实验，生成的文本结果(如下表)和BLEU以及事实类指标上等都证明了提出的方法的有效性，且均优于目前已公布的所有模型，见下表；

事实类指标为ACC、#、F1、P、R、DLD；

本发明方法在ROTOWIRE数据集上进行了实验，证明了本发明提出的方法是有效的，提升模型对数字的敏感度和提升生成文本的质量，在BLEU和事实类等评价指标上优于目前已公布的所有模型。

附图说明

图1为本发明流程图；

图2为本发明预先的数据处理部分示意图；

图3为实施例1中原始方法操作流程图；

图4为实施例1中本发明方法操作流程图。

具体实施方式

具体实施方式一：结合图1说明本实施方式，本实施方式一种基于预训练的结构化数据生成文本的方法具体过程为：

具体实施在NBA比赛数据集rotowire上进行，NBA比赛Rotowire数据集是由美国哈佛大学自然语言处理研究组在2017年度EMNLP会议上《Challenges in Data-to-documentGeneration》论文工作中提出。数据集由4853场NBA比赛构成，每场比赛对应一篇记者发布的新闻报道。

通过人为写规则的方式构建数字建模预训练目标：由于表格信息中，存在数据之间的加减乘除的逻辑关系，即球队总分由该球队所有球员得分构成，或者球员总分由球队四节相应得分构成。因此将不同实体或同一实体间的数字逻辑关系序列\划分一组(例如球队总得分，球员个人得分，全是得分，并且具有隐含关系，即球队得分由球员得分相加得到，划分为一组)，随机的将表格中得分、篮板或助攻一组中的属性进行MSAK，用“@”符号进行代替(举例：火箭队总分100分，13个球员得分10,10,10,10,10,10,10,10,10,4,3,2,1相加应该等于100分，随机MASK一个，即随机扣掉一个数字，就是在总分和13个球员得分中扣掉一个数字，希望由其他数字推理计算出来，例如选中mask的为4分，那么计算序列目标最终为100-10-10-10-10-10-10-10-10-10-3-2-1)；预先训练就是训练模型通过生成计算序列计算出MASK隐掉的数字，在此过程中，模型逐步具备了识别数字大小和数字间隐含关系的能力。

步骤一、将表格中数据间具有计算序列关系的同类型数据划分为一组(例如球队总得分和球队四小节比赛得分等)；

将表格中数据(每场NBA比赛的表格数据)转化成若干个三元组(table-to-text的数据抽取成三元组)，一个三元组对应表格中的一个记录；每个三元组具体形式为(球队、球员，属性，具体值)，例如(黄队，总分，119)，得到一场NBA比赛数据处理602个三元组信息；

根据表格中数据间具有的计算序列关系得到表征@隐去的计算序列(相应的计算关系(加减乘除))，@隐去的计算序列即为训练目标；

如图2；

举例：

选中将(A队、第一节得分、29)这个三元组进行MASK，得到(A队，第一的节分，@)，此时预训练目标为106-23-21-33。

步骤一完成后，预训练的输入为602个三元组，但其中关于A队第一节的得分的三元组为(A队，第一的节分，@)，训练目标为106-23-21-33。

(注：原始模型的方法的训练目标只有一步，就是直接生成新闻，本发明提出的预训练方法的目标有两步，第一步生成计算@原先的数字是多少的计算序列，第二步生成新闻)

步骤二、进行模型预训练编码部分，将步骤一得到的所有三元组信息(包括用@代替的一个三元组信息)输入预训练模型进行实体关系建模，得到对表格中同一行的所有记录进行均值池化后的行向量row_i(表格中同一行属于一个实体，得到该实体的总体表示)；

步骤三、要生成@隐去的计算序列，解码器需要在每一个时刻进行解码，生成组成计算序列内容；每一个解码t时刻，通过解码得到文字有两种方式，一种从602个三元组中拷贝，即拷贝概率，另一种从词表中选择一个词来生成，即生成概率；

通过生成文字(词表生成)或拷贝三元组的值(三元组拷贝)组成@隐去的计算序列，直到所有三元组信息输入到预训练模型，保留预训练模型的参数，保留参数就相当于保留模型通过预训练得到的能力；

具体过程为：

将解码器LSTM当前时刻的隐层通过MLP(多层感知机)函数，得到当前时刻生成内容的拷贝概率a，则生成概率为1-a；

所述MLP函数为多层感知机函数；

例如，此时拷贝概率大于生成概率，那么找三元组权重中最大值，比如(姚明、得分、16)这个三元组权重最大，那么生成的文字就是16；

若拷贝概率小于等于生成概率，则再将解码器LSTM当前时刻的隐层映射到词表上，选择词表中概率最大的文字作为当前t时刻的生成文字；比如说词表有1000个词，那么就选出1000个词中概率最大的文字作为生成字。

直到所有三元组信息全部输入到预训练模型，保留预训练模型的参数，保留参数就相当于保留模型通过预训练得到的能力；

词表是设置的，比如：

序号名词次数

1、比赛 6

2、胜利 5

3、周三 4

4、得分 4

直接从数据集中抽实体，统计次数排序就好；

(例如@的计算序列为100-24-25，那么t＝1时刻，即模型拷贝三元组中100这个数字，t＝2时刻，模型通过映射词表，生成-这个符号，t＝3时刻，拷贝三元组中24这个数字....)

步骤四：由步骤一到步骤三，模型通过预训练，提升了对数字大小的判别和识别数字之间隐含关系的能力。

因此步骤四主要对模型进行正式训练，训练模型生成新闻报道的能力。

将步骤一得到的所有三元组信息(包括用@代替的一个三元组信息)输入步骤三预训练模型进行实体关系建模，得到对表格中同一行的所有记录进行均值池化后的行向量row_i；

步骤五：每一个解码t时刻，通过解码得到文字有两种方式，一种从602个三元组中拷贝，即拷贝概率，另一种从词表中选择一个词来生成，即生成概率；

将生成文字(词表生成)或拷贝三元组的值(三元组拷贝)作为生成的值；根据生成的值对测试集中三元组MASK掉的记录数据还原，若还原后三元组与步骤一中MASK掉记录前的三元组相比较，准确率达到90％的，则步骤三得到的预训练模型为训练好的预训练模型，若还原后三元组与步骤一中MASK掉记录前的三元组相比较，准确率低于90％，则重新执行步骤三；

具体过程为：

将解码器LSTM当前的隐层Hidden通过MLP(多层感知机)激活，得到的拷贝概率a和生成概率1-a；

比较拷贝概率a和生成概率1-a大小；

若拷贝概率a大于生成概率1-a，则采用解码器LSTM对步骤四得到的row_i进行解码，得到当前t时刻所有三元组的权重值，选择权重值最大的三元组的值作为当前时刻拷贝的值；例如，此时拷贝概率大于生成概率，那么找三元组权重，比如(姚明、得分、16)这个三元组权重大，那么生成的文字就是16；

比如说词表有1000个词，那么就选出1000个词中概率最大的文字作为生成字。

词表是设置的，比如：

序号名词次数

1、比赛 6

2、胜利 5

3、周三 4

4、得分 4

直接从数据集中抽实体，统计次数排序就好；

将生成文字或拷贝三元组的值作为生成的值；具体过程为：

比较拷贝概率a和生成概率1-a大小；

最终本发明还是生成新闻报道，怎么说呢，原先的模型没有识别数字大小的能力，没有识别数字之间关系的能力，所以生成文字的时候，效果不如本发明提出的模型。

本发明就是既然你缺少这个能力，我就在模型开始生成文字前，通过预训练给你这个能力，这就是本发明的内容----预训练，使模型对数字更加敏感，建模更好；

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤二中进行模型预训练编码部分，将步骤一得到的所有三元组信息输入预训练模型进行实体关系建模，得到对表格中同一行的所有记录进行均值池化后的行向量row_i(表格中同一行属于一个实体，得到该实体的总体表示)；

举例说明如下：A球员一场比赛中得分为16分，篮板10个，助攻4个....所有A球员这个实体的属性为一行，假设第i行一行为A球员的数据，第j个属性为得分，即r_i,j表示A球员本场得分16分，最终建模的目的是希望得分16这个向量，融合了A球员所有数据的信息，即通过A球员篮板助攻等属性衡量本场得分16分是否正常或者失常；

具体过程为：

步骤二一、对当前A球员得分16分为例，对表格中的每一个数据进行实体属性间的建模：

式中，为A球员当前第i行第j列的数据在表格中同一行数据的总体表现，即A球员的得分数据，用其他数据来衡量是否发挥出色或失常等，r_i,j′为表格第i行第j′列的记录，即除助攻外的其他篮板得分抢断等数据，j≠j′；为表格中在A球员比赛的一行数据中，当前助攻9个和其他所有篮板12，助攻1等记录中的相关性占比的权重；

式中，∝为正比，为表格数据第i行第j列的记录转置；r_i,j′为表格第i行第j′列的记录，即除助攻外的其他篮板得分抢断等数据，j≠j′；W_o为模型训练参数，为表格中在A球员比赛的一行数据中，当前助攻9个和其他所有篮板12，助攻1等记录中的相关性占比的权重；

将r_i,j和两者拼在一起，经过tanh函数激活，得到表格中行维度每个数据新的记录表示(表示的A球员助攻9个的向量)表达式为：

式中，W_f是模型可训练参数，r_i,j为表格第i行第j列的记录；

对于每个表格中的每个实体，每个实体的所有属性，都对其进行属性的建模，融入该记录在自身实体属性记录的重要程度，得到每个实体所有记录新的表示，即不仅仅是A球员，包括所有球员/球队的所有属性都进行实体建模，得到新的记录的向量；

步骤二二、对表格中同一行的所有记录进行均值池化(MeanPooling)，得到对表格中同一行的所有记录进行均值池化后的行向量row_i(表格中同一行属于一个实体，得到该实体的总体表示)，表达式为：

式中，表示表格中同一行的每个数据新的记录表示，即同一个实体(球员/球队)的数据，例如A球员的得分，A球员的助攻......A球员的抢断，通过MeanPooling，得到A球员自身数据的总体表现。Mean Pooling为均值池化。

以上步骤一和步骤二即为模型增加预训练的编码阶段。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤三中要生成@隐去的计算序列，解码器需要在每一个时刻进行解码，生成组成计算序列内容；每一个解码t时刻，通过解码得到文字有两种方式，一种从602个三元组中拷贝，即拷贝概率，另一种从词表中选择一个词来生成，即生成概率；

通过生成文字(词表生成)或拷贝三元组的值(三元组拷贝)组成@的计算序列，直到全部输入到预训练模型，保留预训练模型的参数，保留参数就相当于保留模型通过预训练得到的能力；过程为：

将解码器LSTM当前时刻的隐层通过MLP(多层感知机)函数，得到当前时刻生成内容的拷贝概率a，则生成概率为1-a；(每个时刻将LSTM的隐层通过MLP(多层感知机)，最终得到一个具体数值a，这个数值，即拷贝概率，那么生成概率为＝1-拷贝概率a

例如，把当前LSTM的隐层映射成一个数值0.3，由于文字要么是从三元组中拷贝而来的，要么就根据词表中概率生成而来，所以生成概率为1-0.3＝0.7)

若拷贝概率a大于生成概率1-a，则从三元组中拷贝值，三元组中拷贝值确定过程为：通过解码器LSTM对步骤二得到的row_i进行解码，生成每个三元组的权重，模型在t时刻选择权重最大的三元组作为待拷贝三元组，拷贝值即待拷贝三元组中的值；

例如，此时拷贝概率大于生成概率，根据解码器LSTM对步骤二得到的row_i进行解码，生成602个三元组权重，选择三元组中权重最大的三元组的值进行拷贝，作为此刻生成的文字，比如(姚明、得分、16)这个三元组权重最大，那么生成的文字就是16，进而生成步骤一种@隐去的计算序列；

若拷贝概率小于等于生成概率，则将解码器LSTM当前时刻的隐层映射到词表上，选择词表中概率最大的文字作为当前t时刻的生成文字，进而生成步骤一种@隐去的计算序列；比如说词表有1000个词，那么就选出1000个词中概率最大的文字作为生成字。

词表是设置的，比如：

序号名词次数

1、比赛 6

2、胜利 5

3、周三 4

4、得分 4

直接从数据集中抽实体，统计次数排序就好；

具体过程为：

将当前解码器LSTM的隐层Hidden通过MLP多层感知器映射成一个概率值a，即拷贝概率，那么生成概率为1-a，每个时刻通过比较当前时刻的拷贝概率a和生成概率1-a的大小，判断当前是拷贝还是生成，进而得到@的计算序列，若当前时刻拷贝概率a大于生成概率1-a，那么即当前生成的文字是通过拷贝三元组的值得到，而选择哪个三元组进行拷贝则通过以下方式：

对编码得到的row_i进行解码，即再用解码器LSTM的当前隐层Hidden，对每个实体进行注意力权重计算，得到每个实体的注意力权重，再将每个实体得到的注意力和每个实体的所属属性进行注意力权重计算，最终得到602个三元组每一个三元组在当前解码时刻得到Hidden的注意力权重。

(即通过计算注意力权重，模型选出当前解码t时刻最关注的实体的某个属性，或理解为当前解码t时刻找出当前解码时刻最关注的三元组是哪个)；

若当前拷贝大概小于等于生成概率，则将当前解码器LSTM的隐层Hidden映射到词表上，选择词表中最大的词作为生成的结果，进而生成@隐去的计算序列。

步骤三一、将当前解码器LSTM的隐层通过MLP(多层感知机)得到一个拷贝概率a，则生成概率为1-a，公式为：

a＝MLP(W_ad_t) (5)

式中，MLP为公知的多层感知机函数；W_a为模型可训练参数；d_t为解码的状态(解码时候拥有的信息H)；

步骤三二、若当前时刻拷贝概率a大于生成概率1-a，则进行拷贝生成，即计算每个实体在解码器解码t时刻得到的注意力权重(找到此刻最受关注的球队、球员)；

步骤三三、当每个实体都通过注意力计算得到相应的权重后，将当前t时刻的解码器LSTM的隐层H与实体向量计算权重后的H’，和该实体(球员/球队)的所有属性的三元组计算注意力权重，得到该时刻应该更关注于实体的哪个属性。(例如，最后得到602个三元组中，(A球员，得分，16)这个属性注意力权重最大，那么生成的文字很可能提及了A球员的得分，即生成16这个数字)。

计算每个三元组的注意力权重；

步骤三四、求解每个三元组在解码t时刻和解码当前状态的相关程度，即三元组的权重(即每个三元组此刻的重要程度)；

即拷贝的三元组为t时刻602个中权重值最大的三元组的值，拷贝值即待拷贝三元组中的值。例如，此时拷贝概率大于生成概率，根据解码器LSTM对步骤二得到的row_i进行解码，生成602个三元组权重，选择三元组中权重最大的三元组的值进行拷贝，作为此刻生成的文字，比如(姚明、得分、16)这个三元组权重最大，那么生成的文字就是16，进而生成步骤一种@隐去的计算序列；

步骤三四、若拷贝概率小于等于生成概率，则将解码器LSTM当前时刻的隐层映射到词表上，选择词表中概率最大的文字作为当前t时刻的生成文字，进而生成步骤一种@隐去的计算序列；比如说词表有1000个词，那么就选出1000个词中概率最大的文字作为生成字。

以上步骤一、二、三为引入的预训练部分。

步骤一二三结束后，保留此时的模型，即通过生成计算序列，逐渐具备一定数字大小识别能力和数字间隐含关系能力。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤三二中若当前时刻拷贝概率a大于生成概率1-a，则进行拷贝生成，即计算每个实体在解码器解码t时刻得到的注意力权重(找到此刻最受关注的球队、球员)，公式为：

β_t,i∝exp(score(d_t,row_i)) (6)

式中，β_t,i为每个球员或者球队的注意力权重；d_t为解码的状态(解码时候拥有的信息H)。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述步骤三三中当每个实体都通过注意力计算得到相应的权重后，将当前t时刻的解码器LSTM的隐层H与实体向量计算权重后的H’，和该实体(球员/球队)的所有属性的三元组计算注意力权重，得到该时刻应该更关注于实体的哪个属性。(例如，最后得到602个三元组中，(A球员，得分，16)这个属性注意力权重最大，那么生成的文字很可能提及了A球员的得分，即生成16这个数字)。

计算每个三元组的注意力权重，公式如下：

式中，γ_t,i,j为每个三元组的注意力权重。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述步骤三四中求解每个三元组在解码t时刻和解码当前状态的相关程度，即三元组的权重(即每个三元组此刻的重要程度)，公式为：

式中，为t时刻602个三元组中第i行第j列的记录的权重。

其它步骤及参数与具体实施方式一至五之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

在公知模型CC模型和本发明所构造的模型上都进行该方法的验证(和原始模型最大的不同，即在原始模型前增加了预训练过程，具体对比如下表)；

原始模型方法操作如图3；

本发明提出的方法操作如图4；图4中上部分即为本方法提出的预训练方法，下部分为正常的结构化数据生成文本方法；本发明模型只增加了Mask掉一个信息后的表格信息，对模型没有进行任何的修改，只是预先对模型进行了训练，使模型能够在预训练后能够对数字建模更好(包括数字大小，数字之间的关系等等)。然后在模型具有一定的数字辨别能力之后，再按照原先的模型方法进行生成新闻。

实施例二：

对提出的方法在CC模型和Hieratical模型上进行了实现，在评价指标BLEU和CS、RG事实类评价指标上，本发明取得了优于目前提出模型的结果，证明了本发明方法的有效性。

表1方法在开发集上的指标对比

表2方法在测试集上的指标对比

从表1和表2可以看出，本发明的预先对模型训练推理计算能力的方法，和不加推理的模型相比，本发明方法BLEU指标和CS、RG指标均得到了提升，达到了目前最好的效果。

BLEU为机器翻译评测的标准方法，值越高表示效果越好；CS是指生成的文本内出现的表格数据和全部输入的表格数据的准确率和召回率；RG是指生成的文本内出现的表格数据和参考文本内出现的表格数据的准确率和召回率。ACC为RG中生成的文本内出现的表格数据和全部输入的表格数据的准确率；#为生成文本中提及三元组的个数；F1为生成的文本内出现的表格数据和参考文本内出现的表格数据的准确率和召回率的调和；P为生成的文本内出现的表格数据的准确率；R为生成的文本内出现的表格数据的召回率；DLD为生成文本中三元组的顺序和参考文本中三元组顺序的一致性。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于预训练的结构化数据生成文本的方法，其特征在于：所述方法具体过程为：

随机MASK掉若干个三元组中一个三元组中的一个数据，用@代替；

步骤二、将步骤一得到的所有三元组信息输入预训练模型进行实体关系建模，得到对表格中同一行的所有记录进行均值池化后的行向量row_i；

通过生成文字或拷贝三元组的值组成@隐去的计算序列，直到所有三元组信息输入到预训练模型，保留预训练模型的参数；

具体过程为：

所述MLP函数为多层感知机函数；

直到所有三元组信息全部输入到预训练模型，保留预训练模型的参数；

步骤四：将步骤一得到的所有三元组信息输入步骤三预训练模型进行实体关系建模，得到对表格中同一行的所有记录进行均值池化后的行向量row_i；

将生成文字或拷贝三元组的值作为生成的值；

根据生成的值对三元组MASK掉的记录数据还原，若还原后三元组与步骤一中MASK掉记录前的三元组相比较，准确率达到90％的，则步骤三得到的预训练模型为训练好的预训练模型，若还原后三元组与步骤一中MASK掉记录前的三元组相比较，准确率低于90％，则重新执行步骤三；

具体过程为：

比较拷贝概率a和生成概率1-a大小；

步骤六：将待测试的表格中数据转化成若干个三元组，一个三元组对应表格中的一个记录；

具体过程为：

比较拷贝概率a和生成概率1-a大小；

直到生成EOS结束标识，生成文字结束，得到表格中数据代表的信息。

2.根据权利要求1所述一种基于预训练的结构化数据生成文本的方法，其特征在于：所述步骤二中将步骤一得到的所有三元组信息输入预训练模型进行实体关系建模，得到对表格中同一行的所有记录进行均值池化后的行向量row_i；具体过程为：

步骤二一、对表格中的每一个数据进行实体建模：

式中，为当前第i行第j列的数据在表格中同一行数据的总体表现，r_i,j′为表格第i行第j′列的记录，j≠j′；为表格的一行数据中相关性占比的权重；

式中，∝为正比，为表格第i行第j列的记录转置；r_i,j′为表格第i行第j′列的记录，j≠j′；W_o为参数，为表格的一行数据中相关性占比的权重；

将r_i,j和两者拼在一起，经过tanh函数激活，得到表格中行维度每个数据新的记录表示表达式为：

式中，W_f是参数；

步骤二二、对表格中同一行的所有记录进行均值池化，得到对表格中同一行的所有记录进行均值池化后的行向量row_i，表达式为：

式中，表示表格中同一行的每个数据新的记录表示，Mean Pooling为均值池化。

3.根据权利要求1或2所述一种基于预训练的结构化数据生成文本的方法，其特征在于：所述步骤三中要生成@隐去的计算序列，解码器需要在每一个时刻进行解码，生成组成计算序列内容；每一个解码t时刻，通过解码得到文字有两种方式，一种从三元组中拷贝，即拷贝概率，另一种从词表中选择一个词来生成，即生成概率；

通过生成文字或拷贝三元组的值组成@的计算序列，直到所有三元组信息全部输入到预训练模型，保留预训练模型的参数；

具体过程为：

步骤三一、将当前解码器LSTM的隐层通过MLP得到一个拷贝概率a，则生成概率为1-a，公式为：

a＝MLP(W_ad_t) (5)

式中，MLP为多层感知机函数；W_a为参数；d_t为解码的状态；

步骤三二、若当前时刻拷贝概率a大于生成概率1-a，则进行拷贝生成，即计算每个实体在解码器解码t时刻得到的注意力权重；

步骤三三、计算每个三元组的注意力权重；

步骤三四、求解每个三元组在解码t时刻和解码当前状态的相关程度，即三元组的权重，拷贝的三元组为t时刻权重值最大的三元组的值；

步骤三五、若拷贝概率小于等于生成概率，则将解码器LSTM当前时刻的隐层映射到词表上，选择词表中概率最大的文字作为当前t时刻的生成文字；

直到所有三元组信息全部输入到预训练模型，保留预训练模型的参数。

4.根据权利要求3所述一种基于预训练的结构化数据生成文本的方法，其特征在于：所述步骤三二中若当前时刻拷贝概率a大于生成概率1-a，则进行拷贝生成，即计算每个实体在解码器解码t时刻得到的注意力权重，公式为：

β_t,i∝exp(score(d_t,row_i)) (6)

式中，β_t,i为注意力权重；d_t为解码的状态。

5.根据权利要求4所述一种基于预训练的结构化数据生成文本的方法，其特征在于：所述步骤三三中计算每个三元组的注意力权重，公式为：

式中，γ_t,i,j为每个三元组的注意力权重。

6.根据权利要求5所述一种基于预训练的结构化数据生成文本的方法，其特征在于：所述步骤三四中求解每个三元组在解码t时刻和解码当前状态的相关程度，即三元组的权重，公式为：

式中，为t时刻三元组中第i行第j列记录的权重。