CN114969304A

CN114969304A - 基于要素图注意力的案件舆情多文档生成式摘要方法

Info

Publication number: CN114969304A
Application number: CN202210499501.3A
Authority: CN
Inventors: 余正涛; 李刚; 黄于欣
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-08-30

Abstract

本发明涉及基于要素图注意力的案件舆情多文档生成式摘要方法，属于自然语言处理领域。本发明包括：构建案件舆情多文档摘要数据集；首先通过基于图注意力机制融入案件要素的方法，构建一个由句子节点、词节点以及案件要素节点组成的异构图，来捕捉句子间的关联关系，最后对句子进行分类，生成摘要。本发明采用图注意力表示不同节点的方式，通过对句子节点与要素节点之间的关联性，采用图注意力机制和更新主任务模型和辅助模型的参数。本发明通过融合案件要素并进行有效筛选包含较多关键词的句子，实现了舆情摘要的生成式工作，从获取的案件舆情数据中抽取出摘要，为后续快速了解案情、掌握和监控舆情的发展态势起到重要支撑作用。

Description

基于要素图注意力的案件舆情多文档生成式摘要方法

技术领域

本发明涉及基于要素图注意力的案件舆情多文档生成式摘要方法，属于自然语言处理领域。

背景技术

案件舆情摘要可以看作一个面向特定领域的摘要，其中生成式摘要直接从原文中生成与原文主题相似的摘要，因为生成的句忠实与原文主题，流畅度和忠实度较好，在实际场景下取得了很好的效果。

生成式摘要方法是指对输入文档进行理解和归纳其核心思想，然后生成摘要。这种方法生成的摘要由新的句子构成且与原文语义契合度高。传统的生成式摘要方法可以分为基于句子融合的方法，基于主题转述和基于信息抽取的方法。

随着深度学习的深入研究，生成式方法在单文档摘要上取得很好的效果。其中基于transformer的方法成为生成式摘要以及预训练语言模型的主流方法。张等人提出分层双向编码器(HIerachical Bidirectional Encoder Representations fromTransformers，Hibert)模型，分别构建了两种Bert用于文档编码和使用未标记数据进行预训练，从预训练的编码器中初始化模型来对句子进行分类的方法。此外，还提出了几种通用的序列到序列预训练模型，如T5和BART，它们针对摘要任务进一步进行微调，优化预训练模型。Zhang等人提出了PEGASUS模型，设计了一个专门针对生成式摘要的自监督预训练模型，从文档中删除或屏蔽某个关键句子，并按照文档的其他句子生成这个关键句，这些句子就作为摘要句，类似于抽取式摘要。zou等人提出在无标签文本上预训练一个基于Seq2Seq的生成式摘要模型。通过给定人工构造的输入文本，对模型进行预训练以恢复用于生成摘要的源文本，提出了三个序列到序列的预训练目标模型，这些目标包括句子重排、下一个句子的生成和屏蔽文档的生成，这三个目标与生成式摘要任务有着密切的关系。

传统基于图的摘要方法是指对图上的文本单元进行排序，然后选择具有显著信息的文本单元构成摘要。LexRank通过余弦相似度连接图中的特征向量中心，来计算句子显著性得分，然后抽取得分高的句子构成摘要。万等人提出一种基于图排序算法的多文档摘要模型，将文档级信息和句子到文档的关系相结合，并运用到基于图的排序过程中。Christensen等人提出一种联合模型来选择和排序，分别基于包括话语线索、动词名词、共指等在内的指标，构建多文档图来表示句子间的话语关系，估计一个候选摘要的连贯性。

在图神经网络的方法中，Tan等人在传统的encoder-decoder模型中，引入了一种基于图的注意力机制，识别显著句；在解码端，提出一种分层解码模型，并引入了参考机制(reference mechanism)，提高了摘要的新颖性、信息正确性与流畅性。Yasunaga等人构建了一个基于话语标记和案件要素链接的近似话语图，然后在关系图上应用图卷积网络对句子进行打分。Fan等人提出一个基于查询的开放域自然语言处理任务的模型，构建了一个局部图知识库，压缩网络搜索信息，减少冗余，然后将其线性化为一个结构化的输入序列，模型可以在一个标准的Seq2Seq设置中编码图的表示。黄等人进一步设计了一种图编码器，改进了图注意网络，使用双编码器、文档编码器和图编码器，来维护实体信息的上下文全局和局部信息特征。王等人通过引入不同粒度级别的文本节点来构建异构图，实现生成式摘要任务，这些文本节点充当句子之间的中介，丰富了交叉句的关系。

发明内容

本发明提供了一个基于要素图注意力的案件舆情多文档生成式摘要模型，从案件舆情中文文本和案件要素的角度进行摘要生成，通过引入共享特征过滤选择层用于丢弃无效特征和选择有利特征提升生成式摘要任务的性能。

发明技术方案：基于要素图注意力的案件舆情多文档生成式摘要方法，所述方法的具体步骤如下：

所述方法的具体步骤如下：

Step1、通过爬虫技术爬取案件舆情文本数据集，通过人工对数据集进行清洗、标注得到案件舆情摘要多文档数据集；构造一个包含案件名称的案件库，根据案件名称去搜索，搜索结果以网页的形式展现，以网页内容第一条为摘要，把网页第二条描述案件相关的内容定义为案件要素，经过筛选与预处理形成的json格式文件；

Step2、通过词嵌入和位置嵌入分别对案件舆情正文和案件要素进行特征编码，利用CNN与BiLSTM编码器提取句子特征，将获得的句子特征和案件要素特征构建异构图提取文档特征，再对文档特征采用基于图注意力机制融入案件要素的方法对句子进行有效地过滤筛选，采用图注意力同时学习和更新主任务模型和辅助模型的参数。

作为本发明的进一步方案，所述Step1的具体步骤为：

Step1.1、通过爬虫技术爬取案件舆情新闻文本，共爬取4569篇文档，每一篇包含着摘要，案件要素以及对于案件描述的正文；

Step1.2、对案件舆情摘要多文档数据集中的正文及案件要素进行过滤筛选，过滤筛选的方式如下所示：(1)、去除文本内容中的多余符号、超链接和特殊字符；(2)、去除正文中相同的案件要素信息；

Step1.3、采用人工标注，获得案件舆情数据集；首先对正文中的每一句话打上标签，1为候选摘要，0则不是候选摘要。

作为本发明的进一步方案，所述Step2的具体步骤如下：

Step2.1、构建要素关系图构建：输入源文档是多篇文档D＝{d₁,d₂,...,d_n}，首先D将分成更小的语义单元段落p＝{p₁,p₂,...,p_n}；然后构造一个要素关系图G＝(V,E)；V包括段落节点V_p和案件要素节点V_c，E表示节点之间的无向边，段落节点或案件要素节点内部没有边，只有段落节点或案件要素节点之间有边，p_i和c_j之间的边是指案件要素节点c_j包含在段落节点p_i中，其中p_i表示第i个段落节点，c_j表示第j个案件要素节点；

为了获得更多的语义信息，通过融合案件要素节点与段落节点，得到关系矩阵

E中的元素e_ij≠0时表示要素节点c_j在包含在段落节点p_i中，基于E，计算要素节点与段落节点间的TFIDF值，构成边的权重矩阵

以建模案件要素与段落之间关系的重要性；

Step2.2、对多篇文档进行分段，然后几个token级transformer编码层堆叠在一起，对每个段落中的上下文信息进行编码，

表示输入token向量，对于第l个transformer层，输入特征为

隐藏状态为

输出为

LayerNorm是规一化操作，MHAttn是transformer的多头注意力，FFN表示前馈神经网络，其激活函数为ReLU，将最后一层的输出作为token级特征，使用

来表示token级特征矩阵，其中n_w是所有段落中标记的总数,d_w是标记嵌入的维数；

为了获得固定长度的段落表示，应用加权合并运算，多头注意力机制计算token上的权重分布，允许模型通过不同的头在不同的子空间表示时灵活地编码段落；

h_p＝MHPool(h_w1,h_w2,...) (3)

使用

来表示段落的特征矩阵，n表示段落数量，d_h表示隐藏层维度大小；案件要素编码器表示与段落编码器表示过程相同，但是两个编码器之间不共享参数，在统一的语义空间中建模段落和案件要素之间的关系；删除案件要素中的代词和停止词，分别用

和

来表示token级特征矩阵和案件要素级特征矩阵；其中_mw表示案件要素通过分词后获得token级特征的总数，m表示案件要素数目；

Step2.3、使用图注意力网络GAT来更新语义节点的表示；i,j∈{1,2,...,(m+n)}表示图中的任意节点，用

表示节点表示，用N_i表示节点i的相邻节点集，GAT层设计如下:

z_ij＝LeakyReLU(W_a[W_qh_i；W_kh_j]) (4)

其中W_a,W_q,W_k,W_v表示可训练权重，σ是sigmoid激活函数，

是从TFIDF值矩阵导出的边权重，其思想是通过将实数值离散成整数来表示边权重，然后学习整数的嵌入，将权重映射到多维嵌入空间

这样，值中包含的信息需要通过附加的嵌入矩阵来学习，TFIDF值表明了案件要素节点和段落节点之间的接近程度，因此，通过使用式(5)更新注意力权重，直接将原始TFIDF信息合并到GAT机制中；

将图注意力机制GAT和多头操作相结合得到h_i，添加了一个残差连接，以避免在几次迭代后梯度消失:

使用上面的GAT层和位置前馈层来迭代更新节点表示；每个迭代包含一个段落到案件要素和案件要素到段落的更新过程，迭代t次后，将

表示每个输入特征矩阵；

表示通过案件要素更新后的段落特征矩阵；其中n_c表示要素节点的数目，d_c表示要素节点的输入维度，d_h表示上下文维度；

Step2.4、在每个解码步骤中，解码器的状态是s，计算案件要素节点c_i的注意力得分：

式(10)中

表示经过训练后获得的转置矩阵，W_q,W_k是可训练参数，z_i是状态s时注意力系数；

式(11)中

是从TFIDF值矩阵导出的边权重，

表示段落节点系数，式(11)通过要素节点与段落节点之间的信息流动；

式(12)通过归一化操作，加权求和后经过一个激活函数，得到要素节点的注意力权重；选择注意力得分β_j最高的前k个段落节点，然后对所选段落节点中的T_w个tokens采用注意力机制；

式(13)中

表示经过训练后获得的转置矩阵，W_q,W_k是可训练参数，z_wi是状态s时段落节点token级的注意力系数，

表示段落经过分词后获得的token级的上下文向量；

式(14)通过归一化操作，加权求和后经过一个激活函数，得到段落节点中token级的注意力权重；选择注意力得分β_j最高的前k个段落节点，然后对所选段落中的T_w个tokens应用注意力机制；

式(15)通过要素节点注意力β_j与token级的段落特征聚合，得到两级注意力机制的token级的段落特征，

式(16)中

表示token级的上下文向量，经过与两级注意力机制的token级的段落特征

加权求和后，最终得到段落上下文向量表示v_t；

将上下文向量作为从源文档中摘要生成出来的显著信息，与解码器隐藏状态s_t连接，得到词汇表分布:

P_vocab＝Softmax(W_o[s_t；v_t]) (17)

式(17)通过隐藏状态s_t与段落上下文向量表示v_t拼接，再与可训练矩阵参数W₀经过归一化操作得到最终的解码结果；

Step2.5、进行摘要生成：最后选择Adam优化器，基于训练数据迭代地更新神经网络权重，用训练好的神经网络进行摘要生成。

本发明的有益效果是：

(1)针对案件舆情中文多文档生成式摘要，如何既考虑案件舆情中文正文与案件要素之间的差别，又考虑它们之间的联系，同时如何过滤和选择案件要素中关键的特征提高摘要抽取准确率。提出一种图注意力机制实现段落与案件要素的融合，设计了一个融合案件要素的筛选多任务联合学习模型来促进对摘要的生成，首次引入案件要素作为辅助任务改善其预测性能。

(2)提出的模型通过图注意力机制来过滤和选择句子特征流来对句子节点进行有效的筛选，从而提升模型的预测效果。

(3)使用图注意力GAT的编码器结构的多头注意力(Multi-Head attention)能够捕获更加丰富的字符特征和字符类别特征，具有很好的并行性。

附图说明

图1是本发明提出的基于要素图注意力的案件舆情多文档生成式摘要方法的具体结构示意图。

具体实施方式

实施例1：如图1所示，基于要素图注意力的案件舆情多文档生成式摘要方法，所述方法的具体步骤如下：

所述方法的具体步骤如下：

作为本发明的进一步方案，所述Step1的具体步骤为：

Step1.1、通过爬虫技术爬取案件舆情新闻文本，共爬取14214篇文档，每一篇包含着摘要，案件要素以及对于案件描述的正文；

Step1.3、采用人工标注，获得案件舆情数据集；首先对正文中的每一句话打上标签，1为候选摘要，0则不是候选摘要。实验语料规模如表1所示：

表1多文档摘要数据集信息

作为本发明的进一步方案，所述Step2的具体步骤如下：

以建模案件要素与段落之间关系的重要性；

表示输入token向量，对于第l个transformer层，输入特征为

隐藏状态为

输出为

h_p＝MHPool(h_w1,h_w2,...) (3)

使用

和

z_ij＝LeakyReLU(W_a[W_qh_i；W_kh_j]) (4)

其中W_a,W_q,W_k,W_v表示可训练权重，σ是sigmoid激活函数，

表示每个输入特征矩阵；

式(10)中

式(11)中

是从TFIDF值矩阵导出的边权重，

式(13)中

表示段落经过分词后获得的token级的上下文向量；

式(16)中

加权求和后，最终得到段落上下文向量表示v_t；

P_vocab＝Softmax(W_o[s_t；v_t]) (17)

Step2.5、进行摘要生成：最后选择Adam优化器，基于训练数据迭代地更新神经网络权重，用训练好的神经网络进行摘要生成。Adam优化器，它收敛速度较快且收敛过程较稳定，能基于训练数据迭代地更新神经网络权重。学习率(步长)设置为5e-4，决定了在梯度下降迭代的过程中，每一步沿梯度负方向前进的长度。步长太小，收敛慢，步长太大，会远离最优解。所以从小到大，分别测试，选出一个最优解5e-4。

为了说明本发明的效果，设置了3组对比实验。第一组实验验证生成式摘要性能的提升，第二组是消融实验，第三组实验验证不同案件要素抽取方法的实验。

(1)生成式摘要性能提升验证，本实验在案件舆情多文档摘要数据集上做实验，使用ROUGE值来自动评估摘要质量，分别采用ROUGE-1(RG-1)、ROUGE-2(RG-2)、ROUGE-L(RG-L)作为评价指标。超参数中Transformer编码层的数量设置为6，隐藏大小设置为256，head的数量设置为8，而前馈层的隐藏大小为1024。我们将输入段落和案件要素的长度分别截断为100和10个标记。在多头池化层，head的数量是8。在图编码过程中，每层有8个头，隐藏大小为256。其他的训练参数如表2所示：

表2模型训练参数设置

为验证提出的方法的有效性，选择与基于Transformer和图的摘要模型进行比较：

(1)Flat transformer(FT)是一个6层基于编码器-解码器模型，案件舆情数据标题和文档连接为一个长文本，并被截取前800个token作为模型输入。

(2)T-DMCA(Transformer Decoder with Memory Compressed Attention model)基于Transformer编码的交叉注意力机制，使用了一个Transformer解码器，应用了一个卷积层在self-attention自注意力机制中压缩key和value值。

(3)HT(Hierarchical Transformer)该模型可以有效地处理多个输入文档，并提取具有以分层方式编码文档能力的Transformer体系结构。首先通过一种注意力机制来表示跨文档关系。

(4)GraphSum该模型应用图来表示文档的多文档生成式摘要模型，构建了主题关系图，篇章结构图，模型用图来编码文档，目的是捕获文档与文档之间的关系。

第一组实验是本发明模型和4个基线模型在案件舆情单文档、多文档摘要数据集上的对比实验，结果如表3所示。

表3基线模型对比实验

从上表实验结果可以看出：(1)本发明模型与FT模型相比，，RG-1和RG-2的值分别提升2.53和2.66，这是由于在FT模型多文档摘要中，截取前800个词，这种方法截取的词可能导致案件舆情的关键信息被去除，不能完全概括文章的主题；(2)本发明模型与T-DMCA模型相比，RG-1和RG-2的值分别提升1.59和1.56，这是由于在T-DMCA模型中，Transformer中的多层解码器产生的信息有冗余，并且多层的解码器会造成推理时效率不高的问题，并行的矩阵操作能够提高解码器的解码速度；(3)本发明模型与HT相比，RG-1和RG-2分别提升了0.87和1.02，这是由于在HT模型中，同时引入句子级和词级transformer对案件舆情文本进行编码，参数量增加，模型复杂度提高；(4)本发明模型与GraphSum模型相比,在RG-1和RG-2上分别提升了0.29、0.82，说明运用图结构表征文档跨句子之间的关联关系，但本发明模型融入案件要素作为辅助信息的方法是更有效的，能有效地降低冗余信息，对于生成更贴近文档主题的句子有着重要的指导作用。

(2)消融实验

为了验证图编码器模块和两级注意模块等单个组件的有效性，我们进行了消融研究实验，结果如表4所示：

表4消融实验

w/o graph enconder表示没有图编码模块的实验，将案件要素表示和段落表示固定在多头池化层之后；w/o two-level attention表示没有两级注意的实验，我们直接应用标记级注意，但额外关注案件要素表示，这是一种结合案件要素信息的简单方法。表4结果显示了我们新引入模块的有效性。结合案件要素信息来构建异构图网络使得文本节点之间能够更好地进行信息流动，在多文档摘要任务中采用两级注意机制起到了重要作用。

(3)不同案件要素抽取方法对比实验分析

第三组实验主要验证采用不同方法获取案件要素对摘要生成的影响，用TFIDF、TextRank和命名实体识别算法，从案件文本中抽取关键词充当案件要素，融入到本发明模型中生成摘要，结果如表5所示。

表5不同案件要素抽取方法对比实验(％)

从上表可以看出：(1)本发明模型与NER模型相比，RG-1和RG-2值提升1.57、1.51，因为NER方法得到大量的冗余信息，不利于图注意力的学习，导致摘要概括性能下降；(2)本发明模型与TFIDF模型相比，RG-1和RG-2值分别提高了1.44和1.29，因为TFIDF是基于词频统计的方法，在文中关键词能全面地表达文章的主题信息，从而提高摘要性能，但案件舆情文本中词频较高的词不一定与文本主题有关；(3)本发明模型与TextRank方法相比，在RG-1和RG-2上分别提升了0.66和0.45，TextRank抽取关键词的方法，差距很小，当存在多个文档而没有案件要素时，可以抽取关键词充当案件要素，融入本发明模型中辅助摘要的生成。

在本发明中，提出了基于案件要素图注意力的多文档生成式摘要模型。除了文本单元节点外，还引入案件要素节点来构造异构图，辅助模型捕捉文本单元之间的复杂关系。还引入了一个两级注意机制的解码器，首先关注案件要素节点，然后利用注意权值将注意力引导至文本单元，能够有效地处理显著性和冗余性问题。

在下一步的研究中，会继续探索其他方法，如基于强化学习的方法，以进一步提高多文档摘要环境下的摘要质量，还可以将本发明模型应用于其他任务，如多文档问答。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。