CN111709230A

CN111709230A - 基于词性软模板注意力机制的短文本自动摘要方法

Info

Publication number: CN111709230A
Application number: CN202010366742.1A
Authority: CN
Inventors: 余正涛; 左一溪; 郭军军; 张亚飞; 高盛祥; 王振晗
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-09-25
Anticipated expiration: 2040-04-30
Also published as: CN111709230B

Abstract

本发明涉及基于词性软模板注意力机制的短文本自动摘要方法，属于自然语言处理技术领域。本发明首先对文本进行词性标记，将标出的词性序列视为文本的词性软模板，指导模型学习构造摘要句的结构规范，在模型的编码端实现词性软模板的表征，然后引入词性软模板注意力机制，将文中名词、动词等词性序列以注意力的方式增强模型对核心词性的关注，最后在解码端联合词性软模板注意力与传统注意力产生摘要句；本发明提出在构建神经网络摘要生成框架时，加入词性软模板注意力机制，指导模型学习合理的词性组合方式，辅助生成结构清晰且语义完整的摘要。本发明有效提升了生成式摘要的性能，在当前ROUGE评价指标上取得了较好的效果。

Description

基于词性软模板注意力机制的短文本自动摘要方法

技术领域

本发明涉及基于词性软模板注意力机制的短文本自动摘要方法，属于自然语言处理技术领域。

背景技术

文本摘要任务旨在通过对原文核心信息进行提炼，生成一段高度概括原文内容的摘要句，帮助人们提高日常浏览和获取知识的效率。文本摘要从实现方法上主要分为抽取式和生成式两种。抽取式文摘直接从原文本中选出若干重要句子，将这些句子进行拼接组合，形成摘要句。而生成式文摘主要利用序列到序列的深度学习模型进行文本语义理解，再通过语言生成模型、信息压缩等处理手段来生成最终的摘要句，生成的摘要可读性、连贯性更强。基于深度学习的文本摘要任务取得了很多优秀的研究成果，但大部分模型中的注意力仅限于考虑整个原文内容，忽略了文本背后重要结构信息的影响，而词性组合对句子结构有约束作用。为增强模型对句子结构的学习，有效地将词性信息与注意力机制结合，让模型学习合理的词性组合方式有利于文摘系统生成结构清晰且语义完整的摘要。因此，本发明提出词性软模板注意力机制，指导模型学习合理的词性组合方式，辅助摘要的生成。

发明内容

本发明提供了基于词性软模板注意力机制的短文本自动摘要方法，以用于解决神经网络模型中传统注意力仅考虑整个原文内容，忽略了文本背后重要结构信息影响的问题，以及生成的摘要句结构不清晰、语义不完整的问题。

本发明的技术方案是：基于词性软模板注意力机制的短文本自动摘要方法，具体步骤如下：

Step1、使用开源的词性标注工具将原句子进行词性标注，将词性序列视为原句的词性软模板；

Step2、将原句子及其对应的词性软模板分别在双向LSTM中进行编码，分别得到原文上下文语义向量与词性软模板隐藏层向量；

Step3、引入词性软模板注意力机制，计算出词性软模板注意力系数，并将模型学习到的核心词性信息融入原句子隐层向量中，得到融合词性的原文上下文语义向量；

Step4、将融合词性的原文上下文语义向量与词性软模板隐藏层向量进行融合；得到融合了词和词性的高层语义表达向量，将其作为解码端的输入向量；

Step5、利用带有传统注意力机制的单向LSTM解码出文摘。

进一步地，所述步骤Step2中，具体包括：

(1)原句子编码：双向LSTM由前向和后向两个隐状态组成，原句子x的前向隐状态和后向隐状态的输出被分别表示成

和

下标“-1”代表隐状态中最后一个元素，i时刻原句中某个词的隐状态就形如

而整个原句子的原文上下文语义向量最终被完整地表示成

(2)词性软模板编码：词性软模板r经过双向LSTM编码后，整个词性软模板的隐藏层向量最终被完整地表示成

进一步地，所述步骤Step3的具体步骤为：

Step3.1、引入词性软模板注意力机制；注意力机制的关键在于对注意力系数进行计算，词性软模板注意力系数

具体计算方法如公式(1)所示：

x表示原句子，r表示词性软模板，利用涵盖原文全局信息的隐向量

和每个时间步i下的词性隐向量

计算词性软模板注意力系数，下标“-1”代表隐层中最后一个元素，η₀是一个多层感知器，使用tanh作为激活函数。

Step3.2、把模型学习到的核心词性信息融入原句子隐层向量；将Step3.1计算出的词性软模板注意力系数

融进原句子隐向量中，得到融合词性信息的原文上下文语义向量o_i，具体计算方法如公式(2)所示：

进一步地，所述步骤Step4中，具体包括：

将得到的融合词性的原文上下文语义向量o_i与词性软模板隐藏层向量

进行融合，向量融合过程中采用了线性相加的方式，如公式(3)所示：

向量融合后得到解码端的输入h_i，h_i表示融合了词和词性的高层语义表达。

进一步地，所述步骤Step5中，具体包括：

首先计算出解码端i时刻的注意力系数值α_t,i，如公式(4)和公式(5)所示：

其中s_t-1表示解码器的隐状态，下标“t-1”代表当前隐状态的前一个状态，W_a是神经网络模型学习到的权重矩阵，h_i表示融合了词和词性的高层语义表达；

然后计算出上下文向量c_t和最终用于解码的向量s_t，如公式(6)和公式(7)所示：

s_t＝LSTM(y_t-1,s_t-1,C_t-1) (7)

其中C是LSTM中的细胞状态，y表示预测的单词；

最终计算出词典内每个单词的概率P_vocab，输出预测单词完成解码，具体过程如公式(8)所示：

P_vocab＝softmax(g([c_t；st]))(8)

其中g(·)代表一个非线性函数。

本发明的有益效果是：

1.本发明基于仿写思想，将原文对应的词性标注序列当作词性软模板融入模型，该软模板能为句子结构的学习提供参考；

2.本发明提出的词性软模板注意力机制可以让模型学习合理的词性组合方式，词性组合对句子结构有约束作用，该机制最终引导模型生成结构清晰的摘要；

3.本发明中模型的解码端综合模型学习到的核心词性信息和原文内容进行解码，生成的摘要语义更加完整。

附图说明

图1为本发明中的模型总体流程图；

图2为本发明中的流程图。

具体实施方式

实施例1：如图1-2所示，基于词性软模板注意力机制的短文本自动摘要方法，本发明的主要思想是：首先对文本进行词性标记，将标出的词性序列视为文本的词性软模板，指导模型学习构造摘要句的结构规范，在模型的编码端实现词性软模板的表征，然后引入词性软模板注意力机制，将文中名词、动词等词性序列以注意力的方式增强模型对核心词性的关注，最后在解码端联合词性软模板注意力与传统注意力产生摘要句；本发明提出在构建神经网络摘要生成框架时，加入词性软模板注意力机制，指导模型学习合理的词性组合方式，辅助生成结构清晰且语义完整的摘要。本发明有效提升了生成式摘要的性能，在当前ROUGE评价指标上取得了较好的效果；本发明的具体步骤如下：

Step1、使用词性标注工具NLTK对英文语料Gigaword进行词性标注，用pyhanlp对自己收集的司法领域中文语料进行分词与词性标注，将词性序列视为原句的词性软模板；以一个英文句子为例，使用词性标注工具NLTK对其进行词性标注，具体如下表1所示：

表1原文及其词性标注示例

原句子	Sri lanka closes schools as war escalates
		原句子的词性标注序列	NN NN VBZ NNS IN NN NNS

词性标注序列对句中的单词词性进行了标识，其中NN代表名词，NNS代表名词复数，VBZ代表动词第三人称时态，IN代表介词连词；

进一步地，所述步骤Step2中，具体包括：

和

而整个原句子的原文上下文语义向量最终被完整地表示成

进一步地，所述步骤Step3的具体步骤为：

具体计算方法如公式(1)所示：

和每个时间步i下的词性隐向量

进一步地，所述步骤Step4中，具体包括：

Step5、利用带有传统注意力机制的单向LSTM解码出文摘。

进一步地，所述步骤Step5中，具体包括：

s_t＝LSTM(y_t-1,s_t-1,C_t-1) (7)

其中C是LSTM中的细胞状态，y表示预测的单词；

P_vocab＝softmax(g([c_t；s_t])) (8)

其中g(·)代表一个非线性函数。

本实施中的方法针对短文本的摘要生成，使用的数据集为英文公共数据集Gigaword和自已收集的中文司法领域数据集，表2展示了这两个数据集的详细情况。

表2为Gigaword和司法领域数据集的详细情况

收集司法领域数据集时，从新浪微博爬取了约468k条包括微博正文及标题的新闻文本，经筛选、过滤处理后，构造出司法领域数据集。

由于不同词性标注工具对中英语料处理各有优势，所以本实施中的方法使用词性标注工具NLTK对英文语料Gigaword进行词性标注，用pyhanlp对自己收集的司法领域中文语料进行分词与词性标注。

本实施中的方法采用基于召回率统计的ROUGE评价方法来进行模型性能的评估。ROUGE主要用来计算模型产生的文摘与标准文摘之间的一元词、二元词及最长公共子串等的重叠率。本实施中的方法通过分析ROUGE评测标准中的ROUGE-1、ROUGE-2、ROUGE-L的F值来进行实验结果的评价。

本实施中的方法使用PyTorch深度学习框架来编写模型。在NVIDIA Tesla K40mGPU上进行实验。原文本词典大小限制为50k。词嵌入向量和LSTM的隐藏层向量维度都为512维，考虑到原文对应词性的词典规模太小，故将词性的词向量维度设为30维。编码端与解码端的LSTM都采用三层结构。训练阶段，使用带默认参数的Adam优化器，学习率在每一轮的训练过程中折半进行衰减。批处理大小设置为64，dropout为0.3。

为了说明本发明的性能，实验设置了3组对比实验。第一组实验验证在英文数据集Gigaword上本发明方法和7个基准实验性能，实验结果见表3；第二个实验验证在英文数据集Gigaword上词性软模板和词性软模板注意力对模型性能提升的效果，实验结果见表4；第三个实验验证在自收集的中文司法领域数据集上词性软模板和词性软模板注意力对模型性能提升的效果，实验结果见表5。

表3本发明方法在英文数据集Gigaword上与其他模型实验对比结果

Model	ROUGE-1	ROUGE-2	ROUGE-L
				ABS	29.55	11.32	26.42
ABS+	29.76	11.88	26.96
				Luong-NMT	33.10	14.45	30.71
Feats2s	32.67	15.59	30.64
				SEASS	36.15	17.54	33.63
FTSum	37.27	17.65	34.24
				Re<sup>3</sup>Sum	37.04	19.03	34.46
seq2seq(base)	33.30	16.21	30.08
				+POSTemp_Att<sub>+</sub>	37.39	17.56	34.16

其中seq2seq(base)表示本发明使用的基础模型，在seq2seq(base)上加入本发明方法后得到POSTemp_Att₊模型。

表3的实验数据说明：本发明方法在ROUGE-1分数上达到了最好结果。相较于seq2seq(base)模型，POSTemp_Att+在ROUGE-1、ROUGE-2、ROUGE-L上分别提高了4.09、1.35、4.08个百分点，说明本发明方法是有效的。

表4本发明方法在英文数据集Gigaword上词性软模板和词性软模板注意力有效性实验对比结果

Model	ROUGE-1	ROUGE-2	ROUGE-L
				seq2seq(base)	33.30	16.21	30.08
+POSTemp	34.91	16.67	32.27
				+POSTemp_Att<sub>+</sub>	37.39	17.56	34.16

首先在基础模型上加入词性软模板POSTemp，接着在上一步基础上加入词性软模板注意力机制POSTemp_Att₊。

表4的实验数据说明：在基础模型上加入POSTemp后，相较于seq2seq(base)，模型在ROUGE-1、ROUGE-2、ROUGE-L上分别提高了1.61、0.46、2.19个百分点，说明词性软模板对辅助摘要的生成是有效的，它在模型生成摘要过程中发挥了一定的参考作用；加入POSTemp_Att+后，相较于POSTemp，模型在ROUGE-1、ROUGE-2、ROUGE-L上分别提高了2.48、0.89、1.89个百分点，说明本发明提出的词性软模板注意力机制是有效的，该机制能帮助模型捕获合理的词性组合方式，生成结构更优的摘要句。

表5本发明方法在自收集的中文司法领域数据集上词性软模板和词性软模板注意力有效性实验对比结果

Model	ROUGE-1	ROUGE-2	ROUGE-L
				seq2seq(base)	39.19	21.05	35.77
+POSTemp	41.41	23.43	38.12
				+POSTemp_Att<sub>+</sub>	43.27	27.22	40.55

表5的实验数据说明：在基础模型上加入POSTemp后，相较于seq2seq(base)，模型在ROUGE-1、ROUGE-2、ROUGE-L上分别提高了2.22、2.38、2.35个百分点；加入POSTemp_Att+后，相较于POSTemp，模型在ROUGE-1、ROUGE-2、ROUGE-L上分别提高了1.86、3.79、2.43个百分点，说明本发明方法同样适用于中文语料。

以上实验数据结果表明本发明方法在短文本摘要任务上取得了较好的结果。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。