CN111651970B

CN111651970B - 基于表格型数据生成文本的方法、装置、设备及存储介质

Info

Publication number: CN111651970B
Application number: CN202010675938.9A
Authority: CN
Inventors: 何霆; 许晓泓; 王华珍; 刘长昊; 熊英杰
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2022-07-22
Anticipated expiration: 2040-07-14
Also published as: CN111651970A

Abstract

本发明提供一种基于表格型数据生成文本的方法、装置、设备及存储介质，包括：构建数据特征表示空间，其中，所述数据特征表示空间包括记录编码层、内容选择层以及内容规划层，以实现层次化的特征表示；通过训练特征表示空间到输出向量的映射关系，构建深度生成网络；构建表格型数据到文本的生成模型；基于所述生成模型将输入的待转换的表格型数据转换为文本输出。本发明将基于层次化结构的数据特征表示与深度生成的文本生成技术融合，能够对整个表格型数据中的每条样本数据记录进行理解与推理，能够实现将结构化数据转换为全局语义连贯长文本，丰富了输入数据推理方式与输出文本表达多样性，有效提升数据到文本生成模型中BLEU与PPL等性能评测指标。

Description

基于表格型数据生成文本的方法、装置、设备及存储介质

技术领域

本发明涉及人机交互技术领域，具体而言，涉及一种基于表格型数据生成文本的方法、装置、设备及存储介质。

背景技术

文本生成技术是利用人工智能算法让计算机自主完成写作任务，在写作过程中不需要人工干预，自动撰写出高质量的自然语言文本。文本生成技术不仅可用于智能问答与对话、机器翻译等系统，还可实现更加智能与自然的人机交互；还可用于视觉图像领域进行图像描述的生成，加快视觉与自然语言处理领域的结合。

其中，数据到文本生成技术是当前研究的热点与难点，在多个场景中体现出重要的价值。数据到文本生成技术可处理诸如体育赛事得分记录数据的新闻文本自动生成，也可用于解决大量日益更新的货物产品信息的文字描述生成工作，还可用于各领域业绩报告生成，解决重复且繁琐的销售业绩数据的分析与处理，等等。

目前针对从表格型(结构化)数据(字符串、数字等)推导生成描述性文本的研究中，在具体数值、时间等信息的推理上仍存在无法有效地给出一个时间轴上数据间的分布规律的缺陷，且描述性文本生成过程中大多将语义和句法分离，使得文本缺乏逻辑性与连贯性，在文本表达方面也仍然缺少多样性。

发明内容

本发明的目的在于提供一种基于表格型数据生成文本的方法、装置、设备及存储介质用以解决上述存在的问题。

为实现上述目的，本发明采用的技术方案为：一种基于表格型数据生成文本的方法，包括：

构建数据特征表示空间，其中，所述数据特征表示空间包括记录编码层、内容选择层以及内容规划层，以实现层次化的特征表示；

通过训练特征表示空间到输出向量的映射关系，构建深度生成网络；

以所述数据特征表示空间为编码器，所述深度生成网络作为解码器，构建表格型数据到文本的生成模型；

基于所述生成模型将输入的待转换的表格型数据转换为文本输出。

进一步的，所述表格型数据包括多条记录，每条记录包括至少一个多元组；

则所述记录编码层用于：

对输入的表格型数据中的每条记录包含的多元组进行编码后，利用一层MLP转为一个数据记录向量r_j；

所述内容选择层用于，计算每个数据记录向量r_j的注意力分数ξ_j,k，并转化为注意力向量

通过Sigmoid激活函数选择出生成文本中所需的数据记录向量

所述内容规划层用于，采用Transformer模型，对生成文本中出现的数据记录与内容选择层输出的数据记录进行训练，从而获取到数据记录的生成顺序，实现生成内容的规划，并求得内容规划序列。

更进一步的，所述内容规划层具体为：

抽取样本中实际输出的数据记录，并获取对象的数据记录向量；

根据所述从样本实际输出中获取的数据记录向量，与获取的数据向量赋予一定的生成指引，即内容规划序列。

进一步的，所述深度生成网络用于：

获取原始词编码信息并结合内容规划信息，将内容规划序列进行规划编码，进而与数据记录向量

拼接为新的嵌入表示

推导句子层生成的潜在变量，采用GRU网络构建句子解码器；其中，对于每个句子s_t的生成，句子解码器提供了GRU网络生成的句子隐藏状态

与VAE算法获取的潜在变量

来控制句子的表达；

分析每个句子s_t传入的信息，利用句子解码器进行逐词的解码生成，从而生成完整的文本内容。

更进一步的，所述推导句子层生成的潜在变量具体包括以下内容：

获取在第t步时刻，所述句子解码器利用两个各向同性的高斯分布对潜在变量

的采样：

计算出第t个句子的隐藏状态

第t个句子的隐藏状态

计算出潜在变量

的分布：

其中：

表示解码出的句子s_t-1中最后一个词解码的隐藏状态，r与z分别表示记录编码与内容规划，μ与σ分别为高斯分布中的均值与方差，MLP为多层感知器。

更进一步的，所述分析每个句子s_t传入的信息，利用句子解码器进行逐词的解码生成，从而生成完整的文本内容具体包括：

获取句子解码器的第t个句子的第k个词的隐藏状态：

根据每个词的隐藏状态，将词解码生成完整的文本内容：

本发明还提供一种基于表格型数据生成文本的装置，所述装置包括:

获取模块，用于通过获取记录编码层、内容选择层以及内容规划层，实现层次化特征表示；

训练模块，用于通过训练特征表示空间到输出向量的映射关系，构建深度生成网络；

处理模块，用于采用序列到序列架构，融合层次化特征表示空间和深度生成网络，构建完整的数据到文本的生成模型，输出描述文本。

本发明还提供一种存储介质，所述存储介质用于存储至少一个程序，至少一个指令，所述至少一个程序、指令被执行实现一种基于表格型数据生成文本的方法。

本发明还提供一种基于表格型数据生成文本的设备，包括存储器以及处理器，所述存储器内存储有可执行的计算机程序，所述处理器用于运行所述计算机程序以实现一种基于表格型数据生成文本的方法。

本发明的有益技术效果：

本发明通过将基于层次化结构的数据特征表示与深度生成的文本生成技术融合，能够对整个表格型数据中的每条样本数据记录进行理解与推理，能够实现将结构化数据转换为全局语义连贯长文本，丰富了输入数据推理方式与输出文本表达多样性，有效提升数据到文本生成模型中BLEU与PPL等性能评测指标。并可将其应用于智能写作系统中提高文本生成模块的性能，无论是对认知智能领域的深入探索，还是对未来智能写作的发展，都具有重大的研究意义和应用价值。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例一提供的一种基于表格型数据生成文本的方法的主流程图。

图2为本发明实施例一提供的一种基于表格型数据生成文本的方法的结构示意图。

图3为本发明实施例一提供的一种基于表格型数据生成文本的方法的详细流程图。

图4为本发明实施例二提供的种基于表格型数据转换生成文本的装置示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

本发明第一实施例提供了一种基于表格型数据生成文本的方法，其用于将一份提供的表格型数据转换为文本数据。为便于对本发明的理解，以下将以ROTOWIRE公共测试数据集为例来阐述本发明的转换过程，但应当理解的是本发明适用的数据集并不限于此。

其中，ROTOWIRE数据集由的NBA赛事记录数据与专业人员撰写的赛事总结组成。该数据集共有4853个样本数据，每个样本对应的赛事报道文本结构与篇幅长度(平均337词)，样本词汇量约为11.3K个，带标记词汇量为1.6M个，赛事记录类型共39种，平均记录数为628条。其中，训练集包含3398条样本，验证集包含727条样本，测试集包含728条样本。表1为该数据集的一个实例，表1显示了该实例中部分输入数据。

表1 ROTOWIRE数据集实例

如图1-3所示，本发明第一实施例提供了一种基于表格型数据生成文本的方法，其具体包括如下步骤：

S11:构建数据特征表示空间，其中，所述数据特征表示空间包括记录编码层、内容选择层以及内容规划层，以实现层次化的特征表示。

S11.1，记录编码层是将输入表格型数据中的每条记录划分几部分，例如划分为四部分，包括：主题r_j,1、属性r_j,2、属性值r_j,3、额外特征r_j,4，每条记录包含多个4元组<r_j,1,r_j,2,r_j,3,r_j,4>，将每个4元组进行编码后，利用一层MLP转为一个数据记录向量r_j，当然需要说明的是在其他实施例中每条记录包含的多元组也可以是其他，这些方案均在本发明的保护范围。

r_j＝ReLU(W_r[r_j,1；r_j,2；r_j,3；r_j,4]+b_r) (1)

首先，例如表1，将实例中的数据划分为：主题：TEAM值、PLAYER值，属性：WIN、LOSS、PTS、AST(TEAM)、AST(PLAYER)、RB、CITY，属性值：属性对应的值，额外特征：H(主场)、V(客场)；

获取实例的4元组，如下表2所示：

然后将每个4元组当做该实例的一个数据记录进行one-hot编码，并通过一层MLP为其生成数据记录向量r_j；

S11.2，计算每个数据记录向量r_j的注意力分数ξ_j,k，并转化为注意力向量

通过Sigmoid激活函数选择出生成内容中所需的数据记录向量

以实现内容选择层；

S11.3，采用Transformer模型，对生成文本中出现的数据记录与内容选择层输出的数据记录进行训练，从而获取到数据记录的生成顺序，实现生成内容的规划，并求得内容规划序列z，以实现内容规划层；

所述内容规划层具体包括：

首先抽取样本中实际输出的数据记录，并获取对象的数据记录向量；

然后根据上述从样本实际输出中获取的数据记录向量，与S11.2获取的数据向量赋予一定的生成指引，即内容规划序列z＝{z₁,...,z_|z|}，z中每个元素指向一个数据记录向量。

S12:通过训练特征表示空间到输出向量的映射关系，构建深度生成网络。

S12.1，获取原始词编码信息并结合内容规划信息；将内容规划序列z进行规划编码，进而与数据记录向量

拼接为新的嵌入表示

S12.2，句子层生成的潜在变量推导；采用GRU网络实现构建句子解码器，对于每个句子s_t的生成，句子解码器提供了GRU网络生成的句子隐藏状态

与VAE算法获取的潜在变量

来控制句子的表达；

第t步生成时刻，句子解码器利用两个各向同性的高斯分布对潜在变量

进行采样：

可计算出第t个句子的隐藏状态

可计算出

分布：

其中：

S12.3，句子层到词层的生成，将每个s_t传入的信息进行分析，利用GRU网络进行逐词的解码生成，从而获取到完整的描述文本。

词解码器的第t个句子的第k个词的隐藏状态：

生成过程为：

S13:以所述数据特征表示空间为编码器，所述深度生成网络作为解码器，构建表格型数据到文本的生成模型。

首先采用编码器-解码器结构，层次化特征表示空间作为编码器部分，深度生成模型作为解码器；

然后编码器通过融合了利用多层感知器、注意力机制、Transformer网络的层次化特征表示技术理解不同类型数据的含义；

最后解码器利用变分自编码算法与GRU网络训练了编码部门到最终生成结果的转换过程，能够有效地对新样本数据的特征表示进行解码生成。

S14:基于所述生成模型将输入的待转换的表格型数据转换为文本输出。

最后得到输出文本“The Boston Celtics defeated the host IndianaPacers105-99at Bankers Life Field-house on Saturday.In a battle between twoinjury-riddled teams,the Celtics were able to prevail with a much needed roadvictory.The key was shooting and defense,as the Celtics outshot the Pacersfrom the field,from three-point range and from the free-throw line.Bostonalso held Indiana to 42percent from the field and 22percent from longdistance.The Celtics also won the rebounding and assisting differentials,while tying the Pacers in turnovers.There were 10ties and 10lead changes,asthis game went down to the final seconds.Boston(5–4)has had to deal with agluttony of injuries,but they had the fortunate task of playing a team justas injured here.Isaiah Thomas led the team in scoring,totaling 23points andfive assists on 4–of–13shooting.He got most of those points by going 14–of15from the free-throw line.Kelly Olynyk got a rare start and finished secondon the team with his 16points,six rebounds and four assists.”。

本发明在ROTOWIRE数据集上得到的评估文本连贯性指标BLEU值为16.9、评估语言模型困惑度指标PPL值7.38，较已有模型均有所提高。

本发明第二实施例还提供了一种基于表格型数据生成文本的装置，如图4，所述装置包括:

获取模块210，用于通过获取记录编码层、内容选择层以及内容规划层，实现层次化特征表示；

训练模块220，用于通过训练特征表示空间到输出向量的映射关系，构建深度生成网络；

处理模块230，用于采用序列到序列架构，融合层次化特征表示空间和深度生成网络，构建完整的数据到文本的生成模型，输出描述文本。

本发明第三实施例还提供了一种存储介质，所述存储介质用于存储至少一个程序，至少一个指令，所述至少一个程序、指令被执行以实现一种基于表格型数据生成文本的方法。

本发明第四实施例还提供了一种基于表格型数据生成文本的设备，包括存储器以及处理器，所述存储器内存储有计算机程序，所述处理器用于运行所述计算机程序以实现一种基于表格型数据生成文本的方法。

综上所述，本发明实施例可用于智能写作系统当中，实现输入表格数据输出描述文本的功能。其中表格数据指的是具有多列属性，且每行记录代表一条样本，样本值包含较多数值型数据以及少量的字符串数据，输出文本能够有效地描述该条记录中所有属性值所要表达的含义。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。