CN114020900A

CN114020900A - 基于融合空间位置注意力机制的图表英语摘要生成方法

Info

Publication number: CN114020900A
Application number: CN202111351738.9A
Authority: CN
Inventors: 王鑫; 许文全; 覃琴; 冯意; 颜靖柯; 王琴
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-08
Anticipated expiration: 2041-11-16
Also published as: CN114020900B

Abstract

本发明公开了一种基于融合空间位置注意力机制的图表英语摘要生成方法，包括1）创建图表英语摘要描述数据集；2）数据变量替换图表数据值；3）基于空间关系的词向量位置编码；4）采用Diverse Beam Search搜索词向量结果。这种方法基于融合空间位置注意力机制，采用数据变量替换图表数据值、采用空间注意力机制的方式学习词之间的关系、增强词向量与词向量之间的空间位置关系和正确的词位置排序、采用Diverse Beam Search搜索更好的词向量结果，能提高生成图表英语摘要的质量。

Description

基于融合空间位置注意力机制的图表英语摘要生成方法

技术领域

本发明涉及计算机自然语言生成技术，具体是一种基于融合空间位置注意力机制的图表英语摘要生成方法。

背景技术

数据可视化将高维复杂的数据以条形图、折线图等直观形式呈现，但据有关研究表明：实践过程中对图表的解析和利用存在一定的困难且利用不充分。在图表语料库上的研究表明，通过传统视觉方式观察图表，存在35％的描述不能表达出文本传达的关键信息，26％的描述下只能表达小部分图表预期信息。但采用英文摘要的形式分析描述图表内容，就可以达到降低图表解析难度的目的，使得图表更加直观易懂。

近年来，许多研究者对数据到文本的生成任务中作了大量的研究，它逐渐成为自然语言的多项任务中一项非常重要自然语言生成NlG(Natural Language Generation，简称NlG) 子任务。NLG任务主要分为传统英语摘要生成方法和基于时间序列英语摘要生成方法。其中，传统英语摘要生成方法利用语料库关注数据表“说了什么”和“用什么方式说的”，它们采用统计学习的方法，搜索描述数据表的摘要，一旦数据表的风格发生变化，该类方法将导致其描述失真，因此该类方法缺乏通用性；基于时间序列英语摘要生成方法能通过数据表中的时间和数据间因果关系分析数据表所表达的关键信息，尽管基于时间序列英语摘要生成方法也可以生成数据的描述摘要，但是存在以下问题：

(1)该方法和其它NLG任务不同，如机器翻译的句子和词语是成对出现的，训练的数据更容易产生，然而，数据可视化任务需要结构化的数据，在获取数据的过程中存在着一定的困难；

(2)该方法将摘要中的实例数据(名称、数值等)进行了等价标记，这可能会导致模型预测不正确的摘要；

(3)该方法生成数据描述摘要过程中每组源语句和目标语句之间彼此等价，并没有考虑每组语句之间可能存在的空间位置嵌入关系、生成过程中没有采用词向量搜索算法，可能会生成不合逻辑的英语摘要。

传统方法倾向于从海量数据中自动提取对该数据集的描述。基于统计学习型的模型利用统计分析推断数据潜在的重要理论依据，然后利用图表或者自然语言的方式将它们模板化呈现出来。虽然统计学习型的模型也能生成数据描述，但是他们使用预先定义模板的方法生成摘要，导致这些方法缺乏通用性，在语法风格和词汇方面有较少的选择。基于编码器-解码器框架的模型中编码器作用是识别输入的表的数据，解码器的作用是利用长短期记忆网络创建基于表数据描述，然而该方法在内容选择方面表现不佳，并且缺乏句子间的连贯性。基于结构化的数据生成文本摘要的模型，首先将摘要文本编码为记录表，然后将内容选择和规划机制结合进神经网络模型进行描述，但是，该方法不仅没有编码词与词之间潜在的空间位置关系，不能覆盖多种语句之间的位置关系，而且没有将不同类型的数据进而分类标记，从而导致存在生成的摘要不合逻辑的情况。

传统的自然语言算法RNN、LSTM只能从左到右或从右到左依次提取特征，这样可能导致两个问题：(1)t时刻计算的特征依赖前面t-1时刻特征的值，极大的限制了模型的并行能力；(2)长期特征值之间较远距离的依赖过程，可能存在特征信息丢失的情况。Transformer 利用自注意力机制和前馈神经网络对特征进行“自我学习”和“自我调整”，不仅表现出了强大的并行能力，而且一定程度上缓解了特征信息丢失的问题。Transformer的计算原理是计算输入进的每对词向量之间关联情况，并利用相互之间的关联关系分配每个词向量权重，从而体现出不同词向量之间的重要程度。Transformer不仅考虑了自身词向量的特征，而且还将该词向量与其他样本词向量的关系融入到权重内，获得词向量的特征表达。

传统英语摘要生成方法数据表的风格一旦发生变化，将导致英语摘要描述失真、缺乏通用性。基于时间序列英语摘要生成方法也存在获取结构化数据困难、模型预测不正确、英语摘要生成不合逻辑的问题。

发明内容

本发明的目的是针对现有技术得不足，而提供一种基于融合空间位置注意力机制的图表英语摘要生成方法。这种方法基于融合空间位置注意力机制，采用数据变量替换图表数据值、采用空间注意力机制的方式学习词之间的关系、增强词向量与词向量之间的空间位置关系和正确的词位置排序、采用Diverse Beam Search搜索更好的词向量结果，能提高生成图表英语摘要的质量。

实现本发明目的的技术方案是：

一种基于融合空间位置注意力机制的图表英语摘要生成方法，包括如下步骤：

1)创建图表英语摘要描述数据集：选择多个网站的数据作为模型训练的数据来源，创建图表英语摘要描述数据集，该数据集由条形图和折线图组成，采用爬虫框架抓取8300条数据， 8300条数据分别包括广告业、农业、化工业、建造业、消费业、电子商务业、经济业、能源与环境业、金融与保险业、健康与医疗业、互联网业、生活业、媒体业、金属与电子业、房地产业、零售业、服务业、社会业、运动休闲业、科技与电信业、运输与物流业、旅行、旅游与酒店业22个行业的数据统计表格、表格标题和对图表描述的英语摘要，采用TransChartText的英语摘要生成任务通过给定结构化的数据生成描述性的英语摘要：模型输入的结构化数据由记录表组成，其中，每条记录表包括标题r_i(0)、表格单元格的值r_i(1)、列索引值r_i(2)、图表的类型r_i(3)，输出的w＝w₁+.....+w_i是基于图表的描述性英语摘要向量，i表示文本的长度，数据到英语摘要的生成概率权重如公式(1)、公式(2)所示：

其中w＝w₁+.....+w_i表示生成的英语摘要向量、W表示模型参数；

2)数据变量替换图表数据值：采用数据变量替换图表数据值，在数据变量中定义七类数据变量，它们分别是标题实体变量、日期、x轴标签、y轴标签、表格单元格的数据、条形图和折线图趋势、占比，对于所定义的七个变量，采用命名识别构建变量模板数据库，在数据进入编码器的时候，首先，修改英语摘要，用预选设置的变量模板来替换摘要中的数值，将数值映射到某类别变量，然后，将修改后的摘要用来模型的训练和预测，最后，将生成的索引和预定义的数据变量进行匹配，生成摘要；

3)基于空间关系的词向量位置编码：采用空间注意力机制的方式学习词之间的关系，其中

表示词向量r_i的空间位置关系特征，

表示词向量r_i的词向量特征，

表示词向量r_j的空间位置关系特征，

表示词向量r_j的词向量特征，

表示词向量r_i与其它词向量之间的位置关系，在位置嵌入编码模块，对于向量r_i，1≤i≤n，计算向量r_i空间注意力权重，获取与其它单词的空间位置关系，并融合r_i的词向量特征，作为向量r_i的最终语义表示进行输出，定义如公式(3)所示进行变换操作：

其中w_A表示词向量的长度，计算给定单词向量r_i和r_j间的位置关系，定义如公式(4)所示计算空间位置注意力权重：

其中

表示r_i的空间位置关系特征，

表示r_j的空间位置关系特征，ε_G是由cos和sin函数构成，能对

和

提升向量维度，在TransChartText Encoder模块嵌入一组Relation 模块，每个Relation模块都采用词向量空间位置特征作为输入，采用公式(5)学习与另外词向量之间的位置关系来更新词向量的表示：

最后通过融合一组Relation模块得到

并与当前模块的词向量特征

进行融合，作为当前词向量的语义表示，计算公式如公式(6)所示：

其中Concat表示对所有词向量进行拼接操作，Transformer编码模块不仅记录对应词向量与其它向量之间的位置关系，而且还采用Self-Attention更新语义信息表示，Self-Attention将词向量映射得到矩阵查询矩阵Q、键矩阵K和值矩阵V，计算方式如公式(7)所示：

Q＝XW_Q,K＝X W_K,V＝X W_V (7)，

其中X表示输入的编码后的特征词向量，W_Q，W_K，W_V表示权重矩阵，它们通过模型的训练获得，n个单向量的语义信息表示采用如公式(8)所示计算：

Transformer词向量的编码器采用Multi-head-Attention将多个Self-Attention得到的语义信息进行拼接，计算方式如公式(9)所示：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W (9)；

4)采用Diverse Beam Search搜索词向量结果：最终采用Diverse Beam Search搜索更好的词向量结果，Transformer解码器是根据编码器的输出词向量和上一个单词的词向量预测下一个单词，解码器通过条件概率选择当前时间序列局部最优的候选值加入单词序列y，解码器计算方式如公式(10)、(11)所示：

θ(y_t)＝log Pr(y_t∣y_t-1,...,y₁,x) (10)，

其中x表示编码器的输出向量，y_t表示在t时刻基于上一个单词预测的词向量，θ(y_t)表示当前词向量的条件概率、θ(y_t)的值取决于前t-1输出的词向量，y[_t-1]，Θ(y_[t])表示t个词向量的条件概率，采用Diver Beam Search集束搜索算法，将Y_[t]分成G组Y^g _[t]进行词序列的搜索，产生多个词序列进行选择，其中，g∈[G]，Diver Beam Search算法中每一组有B/G个候选词向量，引入Δ(Y_[t])惩罚因子用来保证组与组之间的差异，Diver BeamSearch算法计算方式如公式(12)所示：

其中λ是控制分组的惩罚项。

步骤1)中所述的TransChartText的英语摘要生成模型框架设有顺序连接的TransChartText Encoder模块、Prediction Layer、TransChartText Decoder模块、Softmax、 Diverse Beam Search和Substitute variables六个单元模块，在TransChartText Encoder 模块中，设有位置嵌入编码和多头注意力机制，TransChartTextEncoder第一层设有一组 Relation模块构成位置嵌入编码模块，每个Relation模块输入一个词向量特征，通过学习与其它词向量之间的关系来更新语义表示，在Relation模块中，首先，为了增强词语与词语之间存在的空间位置关系，对单词r_i的词向量特征

设计注意力机制，用于获取词向量间(如

和

)空间位置注意力权重，然后，与公式(7)Q＝XW_Q,K＝XW_K,V＝X W_V中的词向量间关系权重组合作为总的权重，最后，以这些权重融合其他词向量之间的特征信息(

和

)作为每个词向量的语义表示

其中

表示词向量r_i的空间位置关系特征，

表示词向量r_i的词向量特征，

表示词向量r_j的空间位置关系特征，

表示词向量r_j的词向量特征，

表示词向量r_i与其它词向量之间的位置关系，在位置嵌入编码模块，对于向量r_i，1≤i≤n，计算向量r_i空间注意力权重，获取与其它单词的空间位置关系，并融合r_i的词向量特征，作为向量r_i的最终语义表示进行输出，在TransChartText Encoder模块输出的顶部添加一个单独的pred layer，pred layer的输出范围为[0,1]，它的作用是从输入的词向量中选择重要的词向量，(如实体名称、图表上升或下降的最大值(最小值)等)，这些重要的词向量可能在图表生成的英语摘要中被提出，这样可以使模型更好地预测重要的数值，在TransChartText Decoder模块中,完成编码后则开始进入解码阶段，解码阶段采用多头注意力机制每个时间步都会输出一个输出序列的元素，直到到达终止符号，TransChartText Encoder模块已经完成了它的输出，因为TransChartText Encoder的自注意力层只被允许处理输出序列中更靠前的位置，所以在Softmax步骤之前，添加Masked将后面的位置特征信息隐藏，Softmax层将把TransChartText Decoder模块输出的特征向量映射到概率权重，权重全部为正数、各项相加和为1.0，概率最高的单元被选中，且与该概率单元相关联的单词将成为该步骤的输出， TransChartText采用Softmax计算概率值、根据概率值计算条件概率选择当前时间序列局部最优的候选值加入单词序列y，Diver BeamSearch集束搜素算法可以将每个时间序列节点存储概率值最高的前B个候选词向量，作为下一步搜索的候选词向量路径，极大程度上保证了全局最优解，它将Y_[t]分成G组Y^g _[t]，g∈[G]，进行词序列的搜索，产生多个词序列进行选择，解决词向量因出现微小扰动产生错误的词序问题，Diver Beam Search算法中每一组有 B/G个候选词向量，它为了保证组与组之间的差异，引入Δ(Y_[t])惩罚因子用来保证组与组之间的差异，最后，TransChartText利用Substitute variables进行变量替换，将单词序列y 转换为单词字母，得到最终的输出。

Transformer采用自注意力机制和前馈神经网络对特征进行“自我学习”和“自我调整”，不仅表现出了强大的并行能力，而且一定程度上缓解了特征信息丢失的问题，Transformer 的计算原理是计算输入进的每对词向量之间关联情况，并利用相互之间的关联关系分配每个词向量权重，从而体现出不同词向量之间的重要程度，Transformer不仅考虑了自身词向量的特征，而且还将该词向量与其他样本词向量的关系融入到权重内，获得词向量的特征表达。

注意力机制(Attention Mechanism)源于对人类视觉的研究，在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其它可见的信息，它是机器学习中的一种数据处理方法，广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中，在本技术方案中，采用空间注意力机制的方式学习词之间的关系，增强词向量与词向量之间的空间位置关系和正确的词位置排序。

在本技术方案中，提供TransChartText网络模型，该模型采用变量替换图表数据的标记，提高了位置关系的覆盖程度，使生成的摘要更符合事实；采用空间位置嵌入编码，解决图表摘要中词语与词语或句子与句子的空间位置关系的问题，赋予图表数据之间有序关系；引入集束搜索算法Diverse Beam search解决Transformer解码生成摘要时，将原来指数级别的求解空间压缩到线性长度大小，导致丢弃大多数可能得解的问题，从而获得较优的选择结果。

这种方法基于融合空间位置注意力机制，采用数据变量替换图表数据值、使模型能更容易总结图表内容信息，采用空间注意力机制的方式学习词之间的关系，增强词向量与词向量之间的空间位置关系和正确的词位置排序、采用Diverse Beam Search搜索更好的词向量结果，提高了生成图表英语摘要的质量。

附图说明

图1为实施例中方法流程示意图；

图2为实施例中基于空间关系的词向量位置编码方法示意图；

图3为实施例中数据表和图表元数据示意图；

图4为实施例中基于Transformer英语摘要生成模型示意图。

具体实施方式

下面结合附图和实施例对本发明的内容做进一步的阐述，但不是对本发明的限定。

实施例：

参照图1，一种基于融合空间位置注意力机制的图表英语摘要生成方法，包括如下步骤：

3)基于空间关系的词向量位置编码：采用空间注意力机制的方式学习词之间的关系，增强词向量与词向量之间的空间位置关系和正确的词位置排序，基于空间关系的位置编码方式如图2所示，其中

表示词向量r_i的空间位置关系特征，

表示词向量r_i的词向量特征，

表示词向量r_j的空间位置关系特征，

表示词向量r_j的词向量特征，

其中

表示r_i的空间位置关系特征，

表示r_j的空间位置关系特征，ε_G是由cos和sin函数构成，在TransChartText Encoder模块嵌入一组Relation模块，每个Relation模块都采用词向量空间位置特征作为输入，采用公式(5)学习与另外词向量之间的位置关系来更新词向量的表示：

最后通过融合一组Relation模块得到

并与当前模块的词向量特征

Q＝XW_Q,K＝X W_K,V＝X W_V (7)，

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W (9)；

θ(y_t)＝log Pr(y_t∣y_t-1,...,y₁,x) (10)，

其中λ是控制分组的惩罚项。

如图4所示，步骤1)中所述的TransChartText的英语摘要生成模型框架设有顺序连接的TransChartText Encoder模块、Prediction Layer、TransChartText Decoder模块、Softmax、 Diverse Beam Search和Substitute variables六个单元模块，在TransChartText Encoder 模块中，设有位置嵌入编码和多头注意力机制，TransChartTextEncoder第一层设有一组 Relation模块构成位置嵌入编码模块，每个Relation模块输入一个词向量特征，通过学习与其它词向量之间的关系来更新语义表示，在Relation模块中，首先，为了增强词语与词语之间存在的空间位置关系，对单词r_i的词向量特征

设计注意力机制，用于获取词向量间(如

和

和

)作为每个词向量的语义表示

其中

表示词向量r_i的空间位置关系特征，

表示词向量r_i的词向量特征，

表示词向量r_j的空间位置关系特征，

表示词向量r_j的词向量特征，

表示词向量r_i与其它词向量之间的位置关系，在位置嵌入编码模块，对于向量r_i，1≤i≤n，计算向量r_i空间注意力权重，获取与其它单词的空间位置关系，并融合r_i的词向量特征，作为向量r_i的最终语义表示进行输出，在TransChartText Encoder模块输出的顶部添加一个单独的pred layer，pred layer的输出范围为[0,1]，它的作用是从输入的词向量中选择重要的词向量，(如实体名称、图表上升或下降的最大值(最小值)等)，这些重要的词向量可能在图表生成的英语摘要中被提出，这样可以使模型更好地预测重要的数值，在TransChartText Decoder模块中,完成编码后则开始进入解码阶段，解码阶段采用多头注意力机制每个时间步都会输出一个输出序列的元素，直到到达终止符号，数据表和图表元数据作为 TransChartText的英语摘要生成模型框架的模型输入，生成英语摘要，如图3所示， TransChartText Encoder模块已经完成了它的输出，因为TransChartTextEncoder的自注意力层只被允许处理输出序列中更靠前的位置，所以在Softmax步骤之前，添加Masked将后面的位置特征信息隐藏，Softmax层将把TransChartText Decoder模块输出的特征向量映射到概率权重，权重全部为正数、各项相加和为1.0，概率最高的单元被选中，且与该概率单元相关联的单词将成为该步骤的输出，TransChartText采用Softmax计算概率值、根据概率值计算条件概率选择当前时间序列局部最优的候选值加入单词序列y，Diver Beam Search 集束搜素算法可以将每个时间序列节点存储概率值最高的前B个候选词向量，作为下一步搜索的候选词向量路径，极大程度上保证了全局最优解，它将Y_[t]分成G组Y^g _[t]，g∈[G]，进行词序列的搜索，产生多个词序列进行选择，解决词向量因出现微小扰动产生错误的词序问题， Diver Beam Search算法中每一组有B/G个候选词向量，它为了保证组与组之间的差异，引入Δ(Y_[t])惩罚因子用来保证组与组之间的差异，最后，TransChartText利用Substitute variables进行变量替换，将单词序列y转换为单词字母，得到最终的输出。

Claims

1.一种基于融合空间位置注意力机制的图表英语摘要生成方法，其特征在于，包括如下步骤：

1)创建图表英语摘要描述数据集：选择公开网站的数据作为模型训练的数据来源，创建图表英语摘要描述数据集，该数据集由条形图和折线图组成，采用爬虫框架抓取8300条数据，8300条数据分别包括广告业、农业、化工业、建造业、消费业、电子商务业、经济业、能源与环境业、金融与保险业、健康与医疗业、互联网业、生活业、媒体业、金属与电子业、房地产业、零售业、服务业、社会业、运动休闲业、科技与电信业、运输与物流业、旅行、旅游与酒店业22个行业的数据统计表格、表格标题和对图表描述的英语摘要，采用TransChartText的英语摘要生成任务通过给定结构化的数据生成描述性的英语摘要：模型输入的结构化数据由记录表组成，其中，每条记录表包括标题r_i(0)、表格单元格的值r_i(1)、列索引值r_i(2)、图表的类型r_i(3)，输出的w＝w₁+.....+w_i是基于图表的描述性英语摘要向量，i表示文本的长度，数据到英语摘要的生成概率权重如公式(1)、公式(2)所示：

表示词向量r_i的空间位置关系特征，

表示词向量r_i的词向量特征，

表示词向量r_j的空间位置关系特征，

表示词向量r_j的词向量特征，

其中

表示r_i的空间位置关系特征，

最后通过融合一组Relation模块得到

并与当前模块的词向量特征

Q＝XW_Q,K＝XW_K,V＝XW_V (7)，

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W (9)；

θ(y_t)＝log Pr(y_t∣y_t-1,...,y₁,x) (10)，

其中x表示编码器的输出向量，y_t表示在t时刻基于上一个单词预测的词向量，θ(y_t)表示当前词向量的条件概率、θ(y_t)的值取决于前t-1输出的词向量，y[_t-1]，Θ(y_[t])表示t个词向量的条件概率，采用Diver Beam Search集束搜索算法，将Y_[t]分成G组Y^g _[t]进行词序列的搜索，产生多个词序列进行选择，其中，g∈[G]，Diver Beam Search算法中每一组有B/G个候选词向量，引入Δ(Y_[t])惩罚因子用来保证组与组之间的差异，Diver Beam Search算法计算方式如公式(12)所示：

其中λ是控制分组的惩罚项。

2.根据权利权要求1所述的基于融合空间位置注意力机制的图表英语摘要生成方法，其特征在于，步骤1)中所述的TransChartText的英语摘要生成模型框架设有顺序连接的TransChartText Encoder模块、Prediction Layer、TransChartText Decoder模块、Softmax、Diverse Beam Search和Substitute variables六个单元模块，在TransChartText Encoder模块中，设有位置嵌入编码和多头注意力机制，TransChartTextEncoder第一层设有一组Relation模块构成位置嵌入编码模块，每个Relation模块输入一个词向量特征，通过学习与其它词向量之间的关系来更新语义表示，在Relation模块中，首先，对单词r_i的词向量特征

设计注意力机制，用于获取词向量间空间位置注意力权重，然后，与公式(7)Q＝XW_Q,K＝XW_K,V＝XW_V中的词向量间关系权重组合作为总的权重，最后，以这些权重融合其他词向量之间的特征信息作为每个词向量的语义表示

其中

表示词向量r_i的空间位置关系特征，

表示词向量r_i的词向量特征，

表示词向量r_j的空间位置关系特征，

表示词向量r_j的词向量特征，

表示词向量r_i与其它词向量之间的位置关系，在位置嵌入编码模块，对于向量r_i，1≤i≤n，计算向量r_i空间注意力权重，获取与其它单词的空间位置关系，并融合r_i的词向量特征，作为向量r_i的最终语义表示进行输出，在TransChartText Encoder模块输出的顶部添加一个单独的pred layer，pred layer的输出范围为[0,1]，在TransChartText Decoder模块中,完成编码后则开始进入解码阶段，解码阶段采用多头注意力机制每个时间步都会输出一个输出序列的元素，直到到达终止符号，在Softmax步骤之前，添加Masked将后面的位置特征信息隐藏，Softmax层将把TransChartText Decoder模块输出的特征向量映射到概率权重，权重全部为正数、各项相加和为1.0，概率最高的单元被选中，且与该概率单元相关联的单词将成为该步骤的输出，TransChartText采用Softmax计算概率值、根据概率值计算条件概率选择当前时间序列局部最优的候选值加入单词序列y，最后，TransChartText利用Substitute variables进行变量替换，将单词序列y转换为单词字母，得到最终的输出。