CN112069827A

CN112069827A - 一种基于细粒度主题建模的数据到文本生成方法

Info

Publication number: CN112069827A
Application number: CN202010754044.9A
Authority: CN
Inventors: 王旭强
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-12-11
Anticipated expiration: 2040-07-30
Also published as: CN112069827B

Abstract

本发明公开了一种基于细粒度主题建模的数据到文本生成方法，包括以下步骤：在编码层基于双向长短期记忆网络学习每个数据记录的语义表示；基于非负矩阵分解方法学习每个数据记录对应的主题分布以及各主题对应的词分布，得到每个数据记录对应的主题词表；在解码层基于每个数据记录的语义表示，利用长短期记忆网络、注意力机制、细粒度主题表示，并结合主题词表，进行文本生成；进行模型训练，得到最优的文本生成结果。本发明通过利用非负矩阵分解方法挖掘数据的主题分布以及主题对应的词分布，并以此来约束生成文本和数据表之间的主题一致性，并指导模型学习到更准确的用词方式；在文本生成过程中引入复制机制，保证模型可以准确生成数值描述。

Description

一种基于细粒度主题建模的数据到文本生成方法

技术领域

本发明涉及计算机应用技术领域，具体涉及一种基于细粒度主题建模的数据到文本生成方法。

背景技术

随着信息技术的发展，各个领域积累的行业数据正在快速增长，例如，金融领域积累的财务报表、体育领域积累的球赛实况数据等。为了解决海量数据带来的信息过载问题，数据到文本生成任务受到了越来越多研究者的关注。数据到文本生成任务旨在用自然语言描述结构化数据中包含的主要信息，进而帮助人们更好地把握海量数据背后包含的具体含义。

早期的研究工作主要将该任务拆分为内容规划、句子规划以及表层实现三个独立的子任务，并构建一系列人工规则来依次执行这些子任务，以得到最终的文本。因此，这类方法虽然结构简单且具有较好的可解释性，但存在错误传递、人工模板难以获取等问题，可扩展性较差。

近年来，随着深度学习技术的发展，基于编码器-解码器结构的端到端的学习方式逐渐成为了数据到文本生成任务的主流方法。Lebret等利用条件语言模型实现人物传记的生成。Mei等使用基于复制机制的序列到序列模型提升内容选择的效果。Li等采用两阶段的方式生成文本，首先生成文本模板，再采用延迟复制机制填入记录中的数值。Wiseman等关注数据到文档的生成，并在seq2seq模型中引入复制机制和损失重构机制。Gong等采用层次编码的方式学习数据记录的语义。Iso等设计了内容追踪模块，在生成文本的过程中通过跟踪数据记录来提升文本的真实性并减少冗余。Puduppully等在模型中显式地增加内容选择和内容规划模块，提升模型的内容组织能力。同年，Puduppully等还提出了基于实体建模的生成模型。此外，还有部分研究基于半隐马尔科夫模型，实现数据记录到文本的对齐与生成，提升系统的可解释性与可控性。这些方法以数据驱动的形式进行模型训练，避免了繁琐的人工规则，进而使得生成结果更加灵活多样。然而，这些模型主要依赖于神经网络自身的表示学习能力来提升生成文本的质量，而忽略了对文本和数据之间主题一致性的建模。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于细粒度主题建模的数据到文本生成方法。

本发明的技术目的通过下述技术方案予以实现。

一种基于细粒度主题建模的数据到文本生成方法，其特征在于，包括以下步骤：

步骤1：在编码层基于双向长短期记忆网络学习结构化数据表中每个数据记录的语义表示；

在步骤1中，首先将结构化数据表中每个数据记录包含的三个属性分别映射到低维、稠密的特征向量空间，得到三个特征向量，并将三个特征向量进行拼接，作为每个数据记录的初始特征表示；然后使用双向长短期记忆网络作为编码层，输入每个数据记录的初始特征表示，输出每个数据记录的语义表示。

步骤2：基于非负矩阵分解方法学习结构化数据表中每个数据记录对应的主题分布以及各主题对应的词分布，得到每个数据记录对应的主题词表；

在步骤2中，构建数据记录与数据记录中的词的共现矩阵；基于所述共现矩阵，利用非负矩阵分解方法学习数据记录对应的主题分布以及各主题对应的词分布；

在步骤2中，对于每个数据记录，选择其对应的主题分布中概率最大的主题作为该数据记录的主题，并从该主题对应的词分布中选择概率最大的一定个数的词作为该数据记录对应的主题词表。

步骤3：在解码层基于步骤1编码的结构化数据表中每个数据记录的语义表示，利用长短期记忆网络、注意力机制、细粒度主题表示，并结合步骤2得到的主题词表，进行文本生成；

在步骤3中，基于步骤1编码的结构化数据表中每个数据记录的语义表示，利用长短期记忆网络解码生成过程中每个时间步的隐藏表示；基于解码的隐藏表示和步骤1编码的数据记录的语义表示进行注意力计算，挖掘生成过程中需关注的数据表中的关键信息；基于解码的隐藏表示和步骤2得到的主题词表计算得到数据表的主题特征向量，最终结合所述的主题特征向量和数据表中的关键信息辅助文本生成；

在步骤3中，引入数值复制机制，用于提升文本中数值的生成效果。

步骤4：进行模型训练，构建损失函数对步骤1编码的结构化数据表中每个数据记录的语义表示和步骤3生成的文本进行优化，得到最优的文本生成结果。

与现有技术相比，本发明对数据表的主题信息进行建模，通过利用非负矩阵分解方法挖掘数据的主题分布以及主题对应的词分布，并以此来约束生成文本和数据表之间的主题一致性，并指导模型学习到更准确的用词方式，大大提升了文本的生成质量；另外，考虑到在数据表对应的描述文本中通常会包含一定的数值描述，而这些数值通常来源于原始数据表，本发明在文本生成过程中引入复制机制，考虑到被复制的数值可能为数据表中的记录值，也可能为对记录值进行数值运算后的结果，因此本发明不仅考虑对原始记录值进行复制，还实现了对记录值的数值运算的复制，从而保证了模型可以准确生成这类数值描述。

附图说明

附图1是本发明基于细粒度主题建模的数据到文本生成方法的方法流程图；

附图2是本发明基于细粒度主题建模的数据到文本生成方法的示意图。

具体实施方式

以下结合具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1和2所示，本发明的一种基于细粒度主题建模的数据到文本生成方法，包括以下步骤：

步骤1.1：给定数据表记录集合s，首先将s转化为数据记录序列s^q＝{r₁，r₂，...，r_|r|}，并将每个数据记录r_j中包含的三个属性

分别映射到低维、稠密的特征向量空间，得到三个特征向量

其中d_r表示每个特征向量的维度；通过拼接上述三个特征向量，可以得到每个数据记录的初始特征表示a_j；

通过拼接上述三个特征向量，可以得到该数据记录的初始特征表示a_j＝[0.54，0.22，...，-0.75，0.32，-0.82，...，0.28，0.65，0.78，...，0.05]；

步骤1.2：基于步骤1.1得到的数据记录的初始特征表示α_j，得到数据记录的初始特征表示序列A＝{a₁，a₂，...，a_|r|}，使用双向长短期记忆网络(BLSTM)作为编码层编码各个数据记录的隐藏向量表示，并将前向和后向的编码结果拼接作为如下所示的最终的隐藏表示；具体地，BLSTM的输入为每个数据记录的初始特征表示，输出为每个数据记录的语义表示：

例如，对于数据记录“毛利率排名0.0342”，其经过BLSTM编码后的语义表示可为h₁＝[-0.95，0.13，...，0.67]。

步骤2.1：构建数据记录与数据记录中的词的共现矩阵，考虑到数据记录的主题主要由记录的实体

和记录的类型

指示，而具体的记录值

与主题的关联通常较少，本发明基于二元组

构建数据记录和数据记录中的词的共现矩阵

其中B为数据集中记录二元组的个数，|D|代表词典的大小，矩阵中的元素G_ij代表第i个数据记录二元组与第j个词的共现次数；

例如，数据记录二元组“毛利率排名”与词“利润”的共现次数为100，与词“债券”的贡献次数为10；

步骤2.2：基于步骤2.1构建的数据记录与数据记录中的词的共现矩阵G，本发明利用非负矩阵分解方法(NMF)学习数据记录对应的主题分布以及各主题对应的词分布：

G≈UF

式中，U∈R^B×K代表数据记录对应的主题分布情况，F∈R^K×|D|代表各主题对应的词分布情况，K为设定的主题数；对于每个数据记录r_j，本发明选择其对应的主题分布中概率最大的主题作为该数据记录的主题，并从该主题对应的词分布中选择概率最大的|V^j|个词作为该数据记录对应的主题词表；

例如，当主题数K＝5时，数据记录二元组“毛利率排名”对应的主题分布可为[0.5，0.2，0.1，0.1，0.1]，而第一个主题对应的词分布可为[0.01，0.53，...，0.88]。

步骤3：在解码层基于步骤1编码的结构化数据表中每个数据记录的语义表示，利用长短期记忆网络(LSTM)、注意力机制、细粒度主题表示，并结合步骤2得到的主题词表，进行文本生成；

步骤3.1：基于步骤1编码的结构化数据表中每个数据记录的语义表示序列H＝{h₁，h₂，...，h_|r|}，本发明采用LSTM作为解码器进行文本生成，对于每个时间步t，LSTM单元接收上一步预测的词对应的词向量y_t-1以及解码器上一步的隐藏表示d_t-1作为输入，并输出当前时间步的隐藏表示d_t：

d_t＝LSTM_dec(y_t-1，d_t-1)；

例如，在第1-2个时间步，分别生成单词“主营”和“获利”，那么在第3个时间步，LSTM接收“获利”的词向量y₂＝[0.33，-0.12，...，0.73]和第2个时间步的隐藏表示d₂＝[0.9，0.4，...，-0.06]为输入，并解码当前时间步的隐藏表示d₃＝[0.86，0.43，...，0.1]；

步骤3.2：生成过程中还应该进一步地关注到原始数据表中的关键信息，由此，本发明在解码层引入注意力机制，具体地，基于解码器的隐藏表示d_t以及各个数据记录的隐藏表示h_j，可计算注意力权重β_t，j，根据该权重可对各个数据记录的隐藏表示加权求和，得到上下文向量

式中，W_a为模型参数；

通过对隐藏表示d_t和上下文向量

进行拼接和变换，可得到特征表示

式中，W_d和b_d为模型参数；

随后，本发明将该特征表示映射到主题词表空间，从而得到每个词的生成概率：

式中，W_y与b_y为模型参数,y_＜t代表第t个时间步之前生成的词序列,s代表输入的数据表；

例如，第三个时间步生成单词“能力”的概率为0.7，生成单词“增强”的概率为0.1；

步骤3.3：基于步骤3.1解码的隐藏表示和步骤2得到的主题词表(即主题分布和主题的词分布)计算得到数据表的主题特征向量，进一步通过主题特征向量得到特征向量，最终结合所述的特征向量和数据表中的关键信息辅助文本生成；

具体地，对于每个时间步t，本发明对步骤3.2中计算的上下文注意力权重β进行搜索，选择权重最大的数据记录对应的主题词表

并在此基础上计算解码器的隐藏表示d_t对于每个主题词的注意力权重，进而得到主题特征向量

随后，本发明将主题特征向量

与解码器的隐藏表示d_t进行融合，得到特征向量

式中，W_topic为模型参数；

最后，本发明将特征向量

映射到主题词表空间，得到主题词的生成概率：

为使得主题词表中的词有更高的概率被生成，本发明将主题词的生成概率和步骤3.2计算的词的生成概率进行整合，得到新的生成概率p_gen：

p_gen(y_t|y_＜t，s)＝p(y_t|y_＜t，s)+p_top(y_t|y_＜t，s，U，H)；

例如，在考虑主题信息的基础上，第二个时间步生成单词“获利”的概率可从0.3提升为0.9；

步骤3.4：在数据表对应的描述文本中通常会包含一定的数值描述，而这些数值通常来源于原始数据表，为保证本发明可以准确生成这类数值描述，本步骤进一步将复制机制引入生成过程中，考虑到这类数值可能为数据表中的记录值，也可能为记录值进行数值运算后的结果，因此本发明提出扩展的复制机制，该机制不仅可以对原始记录值进行复制，还可以对记录值的数值运算结果进行复制；

具体地，在每个时间步t，本发明首先根据解码器的隐藏表示d_t计算一个二元变量u_t，用以指示该时间步是否进行复制操作：

p(u_t＝1|y_＜t，s)＝sigmoid(w_u·d_t+b_u)

p(u_t＝0|y_＜t，s)＝1-p(u_t＝1|y_＜t，s)；

在此基础上，本发明词的生成概率更新为如下公式：

式中，当p(u_t＝1|y_＜t，s)≥0.5时，本发明认为u_t＝1，否则u_t＝0；p_gen的计算方法详见步骤3.3，而p_copy则根据上下文注意力权重β以及解码器隐藏表示d_t对记录中各类数值运算结果的关注程度计算得到：

式中，β_t，j为步骤3.2中得到的上下文注意力权重，表示在第t个时间步解码器对第j条记录的关注程度；α_t，k表示在第t个时间步解码器对第k类数值运算的关注程度；o_k为第k类数值运算的向量表示；

表示当第j条记录的第k类数值运算的结果等于y_t时，其对应的β_t，jα_t，k参与求和；

例如，经过上述计算，在第5个时间步，从数据表中复制数值的概率可为0.7，复制数值“82.43”的概率可为0.85。

步骤4：进行模型训练，构建损失函数对步骤1编码的结构化数据表中每个数据记录的语义表示和步骤3生成的文本进行优化，得到最优的文本生成结果；

在训练过程中，本发明最小化标准文本的负对数似然概率：

式中，

表示训练实例集合；

在推理过程中，对于给定的s，本发明利用集束搜索(Beam Search)来近似地得到最优生成结果。

本发明对数据表的主题信息进行建模，通过利用非负矩阵分解方法挖掘数据的主题分布以及主题对应的词分布，并以此来约束生成文本和数据表之间的主题一致性，并指导模型学习到更准确的用词方式，大大提升了文本的生成质量；另外，考虑到在数据表对应的描述文本中通常会包含一定的数值描述，而这些数值通常来源于原始数据表，本发明在文本生成过程中引入复制机制，考虑到被复制的数值可能为数据表中的记录值，也可能为对记录值进行数值运算后的结果，因此本发明不仅考虑对原始记录值进行复制，还实现了对记录值的数值运算的复制，从而保证了模型可以准确生成这类数值描述。

本发明公开和提出的方法，本领域技术人员可通过借鉴本文内容，适当改变条件路线等环节实现，尽管本发明的方法和制备技术已通过较佳实施例子进行了描述，相关技术人员明显能在不脱离本发明内容、精神和范围内对本文所述的方法和技术路线进行改动或重新组合，来实现最终的制备技术。特别需要指出的是，所有相类似的替换和改动对本领域技术人员来说是显而易见的，他们都被视为包括在本发明精神、范围和内容中。

Claims

1.一种基于细粒度主题建模的数据到文本生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法，其特征在于：在步骤1中，首先将结构化数据表中每个数据记录包含的三个属性分别映射到低维、稠密的特征向量空间，得到三个特征向量，并将三个特征向量进行拼接，作为每个数据记录的初始特征表示；然后使用双向长短期记忆网络作为编码层，输入每个数据记录的初始特征表示，输出每个数据记录的语义表示。

3.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法，其特征在于：在步骤2中，构建数据记录与数据记录中的词的共现矩阵；基于所述共现矩阵，利用非负矩阵分解方法学习数据记录对应的主题分布以及各主题对应的词分布。

4.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法，其特征在于：在步骤2中，对于每个数据记录，选择其对应的主题分布中概率最大的主题作为该数据记录的主题，并从该主题对应的词分布中选择概率最大的一定个数的词作为该数据记录对应的主题词表。

5.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法，其特征在于：在步骤3中，基于步骤1编码的结构化数据表中每个数据记录的语义表示，利用长短期记忆网络解码生成过程中每个时间步的隐藏表示；基于解码的隐藏表示和步骤1编码的数据记录的语义表示进行注意力计算，挖掘生成过程中需关注的数据表中的关键信息；基于解码的隐藏表示和步骤2得到的主题词表计算得到数据表的主题特征向量，最终结合所述的主题特征向量和数据表中的关键信息辅助文本生成。

6.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法，其特征在于：在步骤3中，引入数值复制机制，用于提升文本中数值的生成效果。