CN112507064B

CN112507064B - 一种基于主题感知的跨模态序列到序列生成方法

Info

Publication number: CN112507064B
Application number: CN202011241616.XA
Authority: CN
Inventors: 王旭强; 张旭; 郑阳; 杨青
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2022-05-24
Anticipated expiration: 2040-11-09
Also published as: CN112507064A

Abstract

本发明公开了一种基于主题感知的跨模态序列到序列生成方法，包括：1、利用双向长短期记忆网络学习数据表中的每个记录的上下文语义表示，得到数据记录的隐藏向量表示序列；2、根据数据表标题与数据表对应的文本学习各主题对应的词分布并通过对词的向量表示加权求和，得到主题的向量表示；3、基于步骤1中编码层得到的数据记录的隐藏向量表示序列及步骤2中得到的主题表示，使用基于注意力机制的LSTM结构作为解码器生成分析性文本；4、构建损失函数对步骤1‑3中的模型参数进行优化；5、在推理过程中对于给定的数据表，利用集束搜索来近似地得到最佳的文本生成结果。该方法能增强数据表和生成文本的主题一致性，提升生成文本的质量。

Description

一种基于主题感知的跨模态序列到序列生成方法

技术领域

本发明涉及数据处理领域，特别是涉及一种基于主题感知的跨模态序列到序列生成方法。

背景技术

随着大数据时代的到来，各行各业逐渐积累了海量的行业数据。这些数据与人类社会的生产管理息息相关，是各领域分析研究的主要对象。在这些行业数据中，结构化数据因其具有格式简单、便于记录与存储的特点成为最常见的一种数据形式，例如公司的财务报表、设备传感器记录等。然而，结构化数据又通常具有很强的领域性，缺乏行业知识的人很难理解其数值与指标背后的含义。因此，如何准确高效地传达结构化数据中蕴含的语义信息是一个重要的跨模态生成任务。该任务旨在基于给定的结构化数据来生成非结构化的文本，并通常被称为数据到文本生成任务。

为了解决该任务，早期的研究工作主要通过人工规则、模块式系统等方式来生成文本。这些方法通常将数据到文本任务分解为内容规划、句子规划以及表层实现三个独立的子任务，并串行地执行这三个子任务以实现从结构化数据模态到非结构化文本模态的生成。这种方法虽然结构简单并且易于理解，但是存在错误传递、模型性能严重依赖手工特征的有效性等问题。

随着深度学习技术的发展，近期的研究工作主要采用端到端的学习方式，通过数据驱动的形式进行模型的训练，避免繁琐的人工规则，并使得生成结果更灵活多样。这类方法通常先采用一个编码层将结构化数据映射到低维、稠密的语义向量空间，随后采用一个解码层基于该语义空间生成非结构化的文本，从而实现跨模态的文本生成。例如，Mei等在编码器-解码器框架中引入复制机制来提升内容选择的效果(Hongyuan Mei,MohitBansal,Matthew R.Walter.What to talk about and how？selective generation usingLSTMs with coarse-to-fine alignment[C]//.NAACL.San Diego California,USA.2016:720-730)。Li等采用两阶段的方式生成数据表对应的文本(Liunian Li,XiaojunWan.Point precisely:towards ensuring the precision of data in generated textsusing delayed copy mechanism[C]//.COLING.Santa Fe,New Mexico,USA.2018:1044-1055)，该方法在第一阶段仅生成文本的模板，在第二阶段采用复制机制填入记录中的数值，提升数值生成的准确性。Wiseman等关注数据到文档的生成，并在seq2seq模型中引入复制机制和损失重构机制(Sam Wiseman,Stuart M.Shieber,Alexander M.Rush.Challengesin data-to-document generation[C]//.EMNLP.Copenhagen,Denmark.2017:2253–2263)。Iso等构建了内容追踪模块，在生成文本的过程中通过跟踪数据记录来提升文本的真实性并减少冗余(Hayate Iso,Yui Uehara,Tatsuya Ishigaki,et al.Learning to select,track,and generate for data-to-text.[C]//.ACL.Florence,Italy.2019:2102-2113)。Puduppully等在模型中显式地增加内容选择和内容规划模块，提升模型的内容组织能力(Ratish Puduppully,Li Dong,Mirella Lapata.Data-to-text generation withcontent selection and planning[C]//.AAAI.Honolulu,Hawaii,USA.2019:6908-6915)。同年，Puduppully等人还提出了基于实体建模的生成模型，通过建模实体之间的转移关系，提升模型的内容组织能力(Ratish Puduppully,Li Dong,Mirella Lapata.Data-to-textgeneration with entity modeling[C]//.ACL.Florence,Italy.2019:2023-2035.)。虽然上述方法在很大程度上提升了文本生成质量，但它们通常仅关注于提升文本的流畅性与内容组织能力，而忽略了对数据的数值编码，以及对数据和文本之间主题一致性的建模。

发明内容

为解决现有数据到文本生成任务中存在的主题一致性与数值编码问题，本发明提供一种基于主题感知的跨模态序列到序列生成方法。

为此，本发明的技术方案如下：

一种基于主题感知的跨模态序列到序列生成方法，包括按顺序执行的下列步骤：

S1，数据记录编码：利用双向长短期记忆网络学习数据表中的每个记录的上下文语义表示,得到数据记录的隐藏向量表示序列；

S2，主题编码：根据数据表标题与数据表对应的文本学习各主题对应的词分布，并通过对词的向量表示加权求和，得到主题的向量表示；

S3，文本解码：基于步骤1)中编码层得到的数据记录的隐藏向量表示序列以及步骤2)中得到的数据表的主题表示，使用基于注意力机制的LSTM结构作为解码器生成分析性文本；

S4模型训练：构建损失函数对步骤1到步骤3中的模型参数进行优化；

S5文本生成：在推理过程中，对于给定的数据表，利用集束搜索(Beam Search)来近似地得到最佳的文本生成结果。

其中，步骤S1所述的数据记录编码包括以下步骤：

S1-1，将数据表中每个数据记录对应的行、列、值三个属性均映射到低维、稠密的向量表示：

对于给定的数据表s，假设

为数据表的记录集合，|r|表示记录个数，将数据表中每条记录r_j对应的行、列、值三个属性

和

分别映射到低维、稠密的向量表示

和

其中d_r为数据表中的记录所对应的向量表示的维度；

S1-2，根据数据集中数值的分布情况将所有数值划分为不同的区间，并依据每个数据记录中数值所属的区间对其进行记录的数值编码：

首先根据数据集中数值的分布情况将所有数值划分为不同的区间，并使得不同的区间对应不同的参数设置；在数值编码时，首先根据

对应的区间范围选择参数

和

随后将

的具体数值输入到线性变换层得到指示向量

并通过该指示向量对量化单元的嵌入矩阵进行加权求和得到数值特征表示，具体计算过程如下：

式中，

为量化单元的嵌入矩阵，M为量化单元个数，d_q为数值特征的维度；

S1-3，将每个记录对应的三个属性的向量表示以及数据编码的表示进行拼接，作为每个数据记录的初始表示：

将每个记录对应的三个属性的向量表示

和

以及数值特征表示

进行拼接，作为每个数据记录的初始表示a_j：

S1-4，基于数据记录的初始向量表示序列A＝{a₁,a₂,…,a_|r|}，利用双向长短期记忆网络(BLSTM)对数据记录初始表示进行编码，得到数据记录对应的隐藏向量表示序列H＝{h₁,h₂,…,h_|r|}，对初始向量表示序列A中第j个记录进行编码的计算方法如下：

其中，h_j为第j个记录对应的上下文语义表示。

其中，步骤S2所述的主题编码包括以下步骤：

S2-1，将标题相同的数据表对应的文本进行聚合，并对其中出现的词进行统计，构建主题-词的共现矩阵：

所述数据表的主题由数据表的标题s^t标记，首先将标题相同的数据表对应的文本进行聚合，并对其中出现的词进行统计，构建主题-词的共现矩阵

其中L代表主题个数，|D|代表由数据集中全部词构成的词表的大小，矩阵元素U_im代表第i种主题对应的第m个词的特征值；

S2-2，根据共现矩阵，选择每个主题下的高频主题词表，并将每个主题下高频词的词向量进行平均，作为该主题的特征表示：

根据共现矩阵选出每个主题下的高频主题词表

其中L_t代表高频词词表的大小，将每个主题下高频词的词向量进行平均，作为该主题的特征表示：

式中，Z_i为第i个主题的特征表示，

为第i个主题对应的高频主题词表中第l个词对应的预训练词向量，由此得到的主题特征集Z＝{Z₁,z₂,…,z_L}；

S2-3，对于给定的数据表标题s^t，根据查表法从主题特征集合中选择对应的主题表示Z_s，并在解码层引入该主题表示，以指导生成过程中词项的选择，获得更好的生成结果。

步骤S3所述的文本解码包括以下步骤：

S3-1，在解码过程的每个时间步，采用LSTM结构解码生成词的隐藏表示，LSTM接收上一步预测的词对应的词向量以及解码器上一步的隐藏表示作为输入，解码得到当前时间步的隐藏表示：

在解码过程的第t个时间步，LSTM单元的接收上一步预测的词对应的词向量y_t-1以及解码器上一步的隐藏表示d_t-1作为输入，解码得到当前时间步的隐藏表示d_t：

d_t＝LSTM_dec(y_t-1,d_t-1) (8)

在第1个时间步中，将y₀初始化为全零向量，并将编码器中前向LSTM的最后一个隐藏表示与反向LSTM的最后一个隐藏表示进行拼接作为d₀：

S3-2，在文本解码的过程中引入注意力机制，使解码过程关注到原始数据表中的重要信息：

给定第t个时间步解码器的隐藏表示d_t，以及每个数据记录的隐藏表示h_j，计算注意力权重β_i,j；基于注意力权重β_i,j，对每个数据记录的隐藏表示进行加权求和，得到上下文向量

式中，W_a为模型参数；

S3-3，在生成过程中引入数据表的主题表示，保证文本与数据表的主题一致性，提升用词的准确性：

将解码器隐藏表示d_t、上下文向量

以及主题表示z_s进行拼接和非线性变换，得到特征表示

式中，W_d和b_d为模型参数；

S3-4，将特征表示映射到词表空间，计算每个词的生成概率：

式中，W_y与b_y为模型参数，y_＜t代表第t个时间步之前生成的词序列，s代表输入的数据表。

在步骤S4中，在训练过程中，最大化正确词生成概率的对数似然函数：

max∑_(y,s)∈Dlogp(y|s) (14)

式中，D表示训练实例集合。

在步骤S5中，在推理过程中，对于给定的s，利用集束搜索(Beam Search)生成其对应的分析性文本如下：

式中，y′表示输出文本的候选项，在文本生成阶段，利用集束搜索来近似地得到最佳生成结果。

为了保证数据表和文本之间的主题一致性，本发明将数据表的标题作为主题的标识，并通过对相同主题下的词频进行统计得到主题-词的共现矩阵。基于该共现矩阵，可以得到不同主题下的高频词表，通过对词表中每个词的嵌入表示进行平均，可以得到不同主题的语义表示。最后，本发明将主题表示引入到编码器-解码器框架中，指导模型生成文本。此外，考虑到数据表中包含大量的数值，为了提升模型的数据表编码能力，本发明进一步在模型编码阶段中引入了数值编码机制。本发明具有以下有益效果：

1、本发明提供了一种数值编码机制。通过对数据集中的全部数字划分合理的数值区间，并根据数值区间选择对应的模型参数实现数值编码，可以充分学习数据表中每个数据的语义特征，进而增强模型对数据表的表征能力，提升其对应的文本的生成质量。

2、本发明提供了一种数据表主题信息建模方法。通过统计主题-词的共现矩阵，可以有效计算不同主题的数据表对应的语义表示。通过将数据表对应的主题的语义表示引入模型的解码阶段，可以有效指导模型学习到更准确、更高质量的文本用词方式，进而增强数据表和生成文本之间的主题一致性，提升生成文本的质量。

附图说明

图1是本发明基于主题感知的跨模态序列到序列生成方法的流程图；

图2本发明的步骤S1-S3中基于主题感知的跨模态序列到序列方法的示意图。

具体实施方式

下面结合附图对本发明的基于主题感知的跨模态序列到序列生成方法进行详细说明。

本发明主要采用深度学习技术以及自然语言处理相关的理论方法实现数据到文本的生成，并保证数据和文本之间的主题一致性。为了保证系统的正常运行，在具体实施中，要求所使用的计算机平台配备不低于8G的内存，CPU核心数不低于4个且主频不低2.6GHz、GPU环境、Linux操作系统，并安装Python 3.6及以上版本、pytorch0.4及以上版本等必备软件环境。

如图1所示，本发明提供的基于主题感知的跨模态序列到序列生成方法具体包括按顺序执行的下列步骤：

S1，数据记录编码：利用双向长短期记忆网络学习数据表中的每个记录的上下文语义表示；

S2，主题编码：根据数据表标题与数据表对应的文本学习各主题对应的词分布，并通过对词的向量表示加权求和，得到主题的向量表示。

S3，文本解码：基于步骤1)中编码层得到的数据记录的隐藏向量表示序列以及步骤2)中得到的数据表的主题表示，使用基于注意力机制的LSTM结构作为解码器生成分析性文本。

S4模型训练：构建损失函数对步骤1到步骤3中的模型参数进行优化。

下面对上述步骤进行详细说明。

S1，数据记录编码。参见图2，具体包括以下步骤：

S1-1，将数据表中每个数据记录对应的行、列、值三个属性均映射到低维、稠密的向量表示。

对于给定的数据表s，假设

为数据表的记录集合，|r|表示记录个数。本步骤将数据表中每条记录r_j对应的行、列、值三个属性

和

分别映射到低维、稠密的向量表示

和

和

S1-2，根据数据集中数值的分布情况将所有数值划分为不同的区间，并依据每个数据记录中数值所属的区间对其进行记录的数值编码。

考虑到属性

通常为数值型的记录值，本步骤对属性

进行数值编码。考虑到数值之间的差异程度通常会导致语义的差异，例如当表示下降幅度时，数值“0.25”和“15”表达的语义分别为“略有下降”和“大幅下降”，因此本步骤首先根据数据集中数值的分布情况将所有数值划分为不同的区间，并使得不同的区间对应不同的参数设置。在数值编码时，首先根据

对应的区间范围选择参数

和

随后将

的具体数值输入到线性变换层得到指示向量

式中，

为量化单元的嵌入矩阵，M为量化单元个数，d_q为数值特征的维度。通过上述方法得到的数值特征既考虑到数值本身的大小，又避免语义的分散，从而提升模型对数值的理解能力。

例如，对于上述例子中的第一个数据记录“usd 2014 111.3”，其数值所属的区间可为“100—200”区间，其对应的数值特征表示

S1-3，将每个记录对应的三个属性的向量表示以及数据编码的表示进行拼接，作为每个数据记录的初始表示。

将每个记录对应的三个属性的向量表示

和

以及数据值特征表示

进行拼接，作为每个数据记录的初始表示a_j：

例如，对于上述例子中的第一个数据记录“usd 2014 111.3”，经过特征拼接，可以得到数据记录的初始表示a₁＝[0.11,0.21,…,0.9,…,0.00,-0.62,…,0.017]。

S1-4，利用双向长短期记忆网络对数据记录初始表示进行编码，得到数据表中每个数据对应的上下文语义表示。

基于数据记录的初始向量表示序列A＝{a₁,a₂,…,a_|r|}，利用双向长短期记忆网络(BLSTM)对数据记录初始表示进行编码，得到数据记录对应的隐藏向量表示序列H＝{h₁,h₂,…,h_|r|}，对初始向量表示序列A中第j个记录进行编码的计算方法如下：

其中，h_j为第j个记录对应的上下文语义表示。(6)

例如，对于上述例子中的第一个数据记录“usd 2014 111.3”，经过BLSTM，可以得到数据记录的上下文语义表示h₁＝[0.611,-0.021,…,0.06]。

S2，主题编码。具体包括以下步骤：

S2-1，将标题相同的数据表对应的文本进行聚合，并对其中出现的词进行统计，构建主题-词的共现矩阵。

考虑到数据表的主题可以由数据表的标题s^t标记，因此本步骤首先将标题相同的数据表对应的文本进行聚合，并对其中出现的词进行统计，构建主题-词的共现矩阵

其中L代表主题个数，|D|代表由数据集中全部词构成的词表的大小，矩阵元素U_im代表第i种主题对应的第m个词的特征值。具体地，本发明使用词在不同主题类别下出现的次数作为特征值。

例如，主题-词的共现矩阵可为

S2-2，根据共现矩阵，选择每个主题下的高频主题词表，并将每个主题下高频词的词向量进行平均，作为该主题的特征表示。

根据共现矩阵，可以选出每个主题下的高频主题词表

其中L_t代表高频词词表的大小。由此，本节将每个主题下高频词的词向量进行平均，作为该主题的特征表示，即：

式中，z_i为第i个主题的特征表示，

为第i个主题对应的高频主题词表中第l个词对应的预训练词向量。由此得到的主题特征集Z＝{z₁,z₂,…,z_L}。

例如，数据集中第一种主题对应的表示可为z₁＝[0.008,0.77,…,0.51]。

S2-3，对于给定的数据表标题，根据查表法从主题特征集合中选择对应的主题表示。

对于给定的数据表标题s^t，本发明根据查表法从主题特征集合中选择对应的主题表示z_s，并在解码层引入该主题表示，以指导生成过程中词项的选择，获得更好的生成结果。

例如，上述例子中的数据表属于第一种主题，由此，其对应的主题表示z_s＝[0.008,0.77,…,0.51]。

S3，文本解码：基于编码层得到的数据记录的隐藏向量表示序列H以及数据表的主题表示z_s，使用基于注意力机制的LSTM结构作为解码器生成分析性文本y＝{y₁,y₂,…,y_|y|}。具体包括以下步骤：

S3-1，在解码过程的每个时间步，采用LSTM结构解码生成词的隐藏表示。LSTM接收上一步预测的词对应的词向量以及解码器上一步的隐藏表示作为输入，解码得到当前时间步的隐藏表示。

本步骤采用LSTM结构解码生成词的隐藏表示。具体地，在解码过程的第t个时间步，LSTM单元的接收上一步预测的词对应的词向量y_t-1以及解码器上一步的隐藏表示d_t-1作为输入，解码得到当前时间步的隐藏表示d_t：

d_t＝LSTM_dec(y_t-1，d_t-1) (8)

特别地，在第1个时间步中，本发明将y₀初始化为全零向量，并将编码器中前向LSTM的最后一个隐藏表示与反向LSTM的最后一个隐藏表示进行拼接作为d₀：

例如，在第3个时间步，LSTM解码的隐藏表示为d₃＝[0.00，0.28，...，0.44]。

S3-2，在文本解码的过程中引入注意力机制，使解码过程可以关注到原始数据表中的重要信息。

具体地，给定第t个时间步解码器的隐藏表示d_t，以及每个数据记录的隐藏表示h_j，可计算注意力权重β_i，j。基于注意力权重β_i，j，可对每个数据记录的隐藏表示进行加权求和，得到上下文向量

式中，W_a为模型参数。

例如，在第3个时间步，通过注意力机制得到的上下文向量为

S3-3，在生成过程中引入数据表的主题表示，保证文本与数据表的主题一致性，提升用词的准确性。

具体地，本发明将解码器隐藏表示d_t、上下文向量

以及主题表示z_s进行拼接和非线性变换，得到特征表示

式中，W_d和b_d为模型参数。

S3-4，将特征表示映射到词表空间，计算每个词的生成概率：

例如，在第3个时间步，模型生成单词“usd”的概率为0.9，生成单词“the”的概率为0.01。

S4，模型训练：构建损失函数对步骤1到步骤3中的模型参数进行优化。具体地，在训练过程中，本发明最大化正确词生成概率的对数似然函数：

max∑_(y,s)∈Dlogp(y|s) (14)

式中，D表示训练实例集合。

S5，文本生成：在推理过程中，对于给定的s，利用集束搜索(Beam Search)生成其对应的分析性文本如下：

式中，y′表示输出文本的候选项。在文本生成阶段，本发明利用集束搜索(BeamSearch)来近似地得到最佳生成结果。

Claims

1.一种基于主题感知的跨模态序列到序列生成方法，包括按顺序执行的下列步骤：

S1，数据记录编码：利用双向长短期记忆网络学习数据表中的每个记录的上下文语义表示，得到数据记录的隐藏向量表示序列；

S3，文本解码：基于步骤S1得到的隐藏向量表示序列以及步骤S2中得到的主题的向量表示，使用基于注意力机制的LSTM结构作为解码器生成分析性文本，

S4模型训练，构建损失函数，对S1到S3中的模型参数进行优化；

S5文本生成：在推理过程中，对于给定的数据表，利用集束搜索来近似地得到最佳的文本生成结果；

其中，步骤S1所述的数据记录编码包括以下步骤：

对于给定的数据表s，假设

和

分别映射到低维、稠密的向量表示

和

其中d_r为数据表中的记录所对应的向量表示的维度；

对应的区间范围选择参数

和

随后将

的具体数值输入到线性变换层得到指示向量

式中，

将每个记录对应的三个属性的向量表示

和

以及数值特征表示

进行拼接，作为每个数据记录的初始表示a_j：

S1-4，基于数据记录的初始向量表示序列A＝{a₁，a₂，…，a_|r|}，利用双向长短期记忆网络BLSTM对数据记录初始表示进行编码，得到数据记录对应的隐藏向量表示序列H＝{h₁，h₂，…，h_|r|}，对初始向量表示序列A中第j个记录进行编码的计算方法如下：

其中，h_j为第j个记录对应的上下文语义表示；

步骤S2所述的主题编码包括以下步骤：

根据共现矩阵选出每个主题下的高频主题词表

式中，z_i为第i个主题的特征表示，

为第i个主题对应的高频主题词表中第l个词对应的预训练词向量，由此得到的主题特征集Z＝{z₁，z₂，…，z_L}；

S2-3，对于给定的数据表标题s^t，根据查表法从主题特征集合中选择对应的主题表示z_s，并在解码层引入该主题表示，以指导生成过程中词项的选择，获得更好的生成结果；

步骤S3所述的文本解码包括以下步骤：

d_t＝LSTM_dec(y_t-1，d_t-1) (8)

给定第t个时间步解码器的隐藏表示d_t，以及每个数据记录的隐藏表示h_j，计算注意力权重β_i，j；基于注意力权重β_i，j，对每个数据记录的隐藏表示进行加权求和，得到上下文向量

式中，W_a为模型参数；

将解码器隐藏表示d_t、上下文向量

以及主题表示z_s进行拼接和非线性变换，得到特征表示

式中，W_d和b_d为模型参数；

S3-4，将特征表示映射到词表空间，计算每个词的生成概率：

式中，W_y与b_y为模型参数，y＜t代表第t个时间步之前生成的词序列，s代表输入的数据表。

2.根据权利要求1所述的基于主题感知的跨模态序列到序列生成方法，其特征在于：步骤S4中，在训练过程中，最大化正确词生成概率的对数似然函数：

max∑_(y，s)∈Dlogp(y|s) (14)

式中，D表示训练实例集合。

3.根据权利要求1所述的基于主题感知的跨模态序列到序列生成方法，其特征在于：步骤S5中，在推理过程中，对于给定的s，利用集束搜索Beam Search生成其对应的分析性文本如下：