CN114969304A - 基于要素图注意力的案件舆情多文档生成式摘要方法 - Google Patents

基于要素图注意力的案件舆情多文档生成式摘要方法 Download PDF

Info

Publication number
CN114969304A
CN114969304A CN202210499501.3A CN202210499501A CN114969304A CN 114969304 A CN114969304 A CN 114969304A CN 202210499501 A CN202210499501 A CN 202210499501A CN 114969304 A CN114969304 A CN 114969304A
Authority
CN
China
Prior art keywords
case
paragraph
node
attention
public opinion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210499501.3A
Other languages
English (en)
Inventor
余正涛
李刚
黄于欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210499501.3A priority Critical patent/CN114969304A/zh
Publication of CN114969304A publication Critical patent/CN114969304A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于要素图注意力的案件舆情多文档生成式摘要方法,属于自然语言处理领域。本发明包括:构建案件舆情多文档摘要数据集;首先通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图,来捕捉句子间的关联关系,最后对句子进行分类,生成摘要。本发明采用图注意力表示不同节点的方式,通过对句子节点与要素节点之间的关联性,采用图注意力机制和更新主任务模型和辅助模型的参数。本发明通过融合案件要素并进行有效筛选包含较多关键词的句子,实现了舆情摘要的生成式工作,从获取的案件舆情数据中抽取出摘要,为后续快速了解案情、掌握和监控舆情的发展态势起到重要支撑作用。

Description

基于要素图注意力的案件舆情多文档生成式摘要方法
技术领域
本发明涉及基于要素图注意力的案件舆情多文档生成式摘要方法,属于自然语言处理领域。
背景技术
案件舆情摘要可以看作一个面向特定领域的摘要,其中生成式摘要直接从原文中生成与原文主题相似的摘要,因为生成的句忠实与原文主题,流畅度和忠实度较好,在实际场景下取得了很好的效果。
生成式摘要方法是指对输入文档进行理解和归纳其核心思想,然后生成摘要。这种方法生成的摘要由新的句子构成且与原文语义契合度高。传统的生成式摘要方法可以分为基于句子融合的方法,基于主题转述和基于信息抽取的方法。
随着深度学习的深入研究,生成式方法在单文档摘要上取得很好的效果。其中基于transformer的方法成为生成式摘要以及预训练语言模型的主流方法。张等人提出分层双向编码器(HIerachical Bidirectional Encoder Representations fromTransformers,Hibert)模型,分别构建了两种Bert用于文档编码和使用未标记数据进行预训练,从预训练的编码器中初始化模型来对句子进行分类的方法。此外,还提出了几种通用的序列到序列预训练模型,如T5和BART,它们针对摘要任务进一步进行微调,优化预训练模型。Zhang等人提出了PEGASUS模型,设计了一个专门针对生成式摘要的自监督预训练模型,从文档中删除或屏蔽某个关键句子,并按照文档的其他句子生成这个关键句,这些句子就作为摘要句,类似于抽取式摘要。zou等人提出在无标签文本上预训练一个基于Seq2Seq的生成式摘要模型。通过给定人工构造的输入文本,对模型进行预训练以恢复用于生成摘要的源文本,提出了三个序列到序列的预训练目标模型,这些目标包括句子重排、下一个句子的生成和屏蔽文档的生成,这三个目标与生成式摘要任务有着密切的关系。
传统基于图的摘要方法是指对图上的文本单元进行排序,然后选择具有显著信息的文本单元构成摘要。LexRank通过余弦相似度连接图中的特征向量中心,来计算句子显著性得分,然后抽取得分高的句子构成摘要。万等人提出一种基于图排序算法的多文档摘要模型,将文档级信息和句子到文档的关系相结合,并运用到基于图的排序过程中。Christensen等人提出一种联合模型来选择和排序,分别基于包括话语线索、动词名词、共指等在内的指标,构建多文档图来表示句子间的话语关系,估计一个候选摘要的连贯性。
在图神经网络的方法中,Tan等人在传统的encoder-decoder模型中,引入了一种基于图的注意力机制,识别显著句;在解码端,提出一种分层解码模型,并引入了参考机制(reference mechanism),提高了摘要的新颖性、信息正确性与流畅性。Yasunaga等人构建了一个基于话语标记和案件要素链接的近似话语图,然后在关系图上应用图卷积网络对句子进行打分。Fan等人提出一个基于查询的开放域自然语言处理任务的模型,构建了一个局部图知识库,压缩网络搜索信息,减少冗余,然后将其线性化为一个结构化的输入序列,模型可以在一个标准的Seq2Seq设置中编码图的表示。黄等人进一步设计了一种图编码器,改进了图注意网络,使用双编码器、文档编码器和图编码器,来维护实体信息的上下文全局和局部信息特征。王等人通过引入不同粒度级别的文本节点来构建异构图,实现生成式摘要任务,这些文本节点充当句子之间的中介,丰富了交叉句的关系。
发明内容
本发明提供了一个基于要素图注意力的案件舆情多文档生成式摘要模型,从案件舆情中文文本和案件要素的角度进行摘要生成,通过引入共享特征过滤选择层用于丢弃无效特征和选择有利特征提升生成式摘要任务的性能。
发明技术方案:基于要素图注意力的案件舆情多文档生成式摘要方法,所述方法的具体步骤如下:
所述方法的具体步骤如下:
Step1、通过爬虫技术爬取案件舆情文本数据集,通过人工对数据集进行清洗、标注得到案件舆情摘要多文档数据集;构造一个包含案件名称的案件库,根据案件名称去搜索,搜索结果以网页的形式展现,以网页内容第一条为摘要,把网页第二条描述案件相关的内容定义为案件要素,经过筛选与预处理形成的json格式文件;
Step2、通过词嵌入和位置嵌入分别对案件舆情正文和案件要素进行特征编码,利用CNN与BiLSTM编码器提取句子特征,将获得的句子特征和案件要素特征构建异构图提取文档特征,再对文档特征采用基于图注意力机制融入案件要素的方法对句子进行有效地过滤筛选,采用图注意力同时学习和更新主任务模型和辅助模型的参数。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、通过爬虫技术爬取案件舆情新闻文本,共爬取4569篇文档,每一篇包含着摘要,案件要素以及对于案件描述的正文;
Step1.2、对案件舆情摘要多文档数据集中的正文及案件要素进行过滤筛选,过滤筛选的方式如下所示:(1)、去除文本内容中的多余符号、超链接和特殊字符;(2)、去除正文中相同的案件要素信息;
Step1.3、采用人工标注,获得案件舆情数据集;首先对正文中的每一句话打上标签,1为候选摘要,0则不是候选摘要。
作为本发明的进一步方案,所述Step2的具体步骤如下:
Step2.1、构建要素关系图构建:输入源文档是多篇文档D={d1,d2,...,dn},首先D将分成更小的语义单元段落p={p1,p2,...,pn};然后构造一个要素关系图G=(V,E);V包括段落节点Vp和案件要素节点Vc,E表示节点之间的无向边,段落节点或案件要素节点内部没有边,只有段落节点或案件要素节点之间有边,pi和cj之间的边是指案件要素节点cj包含在段落节点pi中,其中pi表示第i个段落节点,cj表示第j个案件要素节点;
为了获得更多的语义信息,通过融合案件要素节点与段落节点,得到关系矩阵
Figure BDA0003634810710000031
E中的元素eij≠0时表示要素节点cj在包含在段落节点pi中,基于E,计算要素节点与段落节点间的TFIDF值,构成边的权重矩阵
Figure BDA0003634810710000032
以建模案件要素与段落之间关系的重要性;
Step2.2、对多篇文档进行分段,然后几个token级transformer编码层堆叠在一起,对每个段落中的上下文信息进行编码,
Figure BDA0003634810710000033
表示输入token向量,对于第l个transformer层,输入特征为
Figure BDA0003634810710000034
隐藏状态为
Figure BDA0003634810710000035
输出为
Figure BDA0003634810710000036
Figure BDA0003634810710000037
Figure BDA0003634810710000038
LayerNorm是规一化操作,MHAttn是transformer的多头注意力,FFN表示前馈神经网络,其激活函数为ReLU,将最后一层的输出作为token级特征,使用
Figure BDA0003634810710000039
来表示token级特征矩阵,其中nw是所有段落中标记的总数,dw是标记嵌入的维数;
为了获得固定长度的段落表示,应用加权合并运算,多头注意力机制计算token上的权重分布,允许模型通过不同的头在不同的子空间表示时灵活地编码段落;
hp=MHPool(hw1,hw2,...) (3)
使用
Figure BDA00036348107100000310
来表示段落的特征矩阵,n表示段落数量,dh表示隐藏层维度大小;案件要素编码器表示与段落编码器表示过程相同,但是两个编码器之间不共享参数,在统一的语义空间中建模段落和案件要素之间的关系;删除案件要素中的代词和停止词,分别用
Figure BDA00036348107100000311
Figure BDA00036348107100000312
来表示token级特征矩阵和案件要素级特征矩阵;其中mw表示案件要素通过分词后获得token级特征的总数,m表示案件要素数目;
Step2.3、使用图注意力网络GAT来更新语义节点的表示;i,j∈{1,2,...,(m+n)}表示图中的任意节点,用
Figure BDA00036348107100000313
表示节点表示,用Ni表示节点i的相邻节点集,GAT层设计如下:
zij=LeakyReLU(Wa[Wqhi;Wkhj]) (4)
Figure BDA00036348107100000314
Figure BDA0003634810710000041
Figure BDA0003634810710000042
其中Wa,Wq,Wk,Wv表示可训练权重,σ是sigmoid激活函数,
Figure BDA0003634810710000043
是从TFIDF值矩阵导出的边权重,其思想是通过将实数值离散成整数来表示边权重,然后学习整数的嵌入,将权重映射到多维嵌入空间
Figure BDA0003634810710000044
这样,值中包含的信息需要通过附加的嵌入矩阵来学习,TFIDF值表明了案件要素节点和段落节点之间的接近程度,因此,通过使用式(5)更新注意力权重,直接将原始TFIDF信息合并到GAT机制中;
将图注意力机制GAT和多头操作相结合得到hi,添加了一个残差连接,以避免在几次迭代后梯度消失:
Figure BDA0003634810710000045
使用上面的GAT层和位置前馈层来迭代更新节点表示;每个迭代包含一个段落到案件要素和案件要素到段落的更新过程,迭代t次后,将
Figure BDA0003634810710000046
表示每个输入特征矩阵;
Figure BDA0003634810710000047
Figure BDA0003634810710000048
表示通过案件要素更新后的段落特征矩阵;其中nc表示要素节点的数目,dc表示要素节点的输入维度,dh表示上下文维度;
Step2.4、在每个解码步骤中,解码器的状态是s,计算案件要素节点ci的注意力得分:
Figure BDA0003634810710000049
式(10)中
Figure BDA00036348107100000410
表示经过训练后获得的转置矩阵,Wq,Wk是可训练参数,zi是状态s时注意力系数;
Figure BDA00036348107100000411
式(11)中
Figure BDA00036348107100000412
是从TFIDF值矩阵导出的边权重,
Figure BDA00036348107100000413
表示段落节点系数,式(11)通过要素节点与段落节点之间的信息流动;
Figure BDA00036348107100000414
式(12)通过归一化操作,加权求和后经过一个激活函数,得到要素节点的注意力权重;选择注意力得分βj最高的前k个段落节点,然后对所选段落节点中的Tw个tokens采用注意力机制;
Figure BDA00036348107100000415
式(13)中
Figure BDA0003634810710000051
表示经过训练后获得的转置矩阵,Wq,Wk是可训练参数,zwi是状态s时段落节点token级的注意力系数,
Figure BDA0003634810710000052
表示段落经过分词后获得的token级的上下文向量;
Figure BDA0003634810710000053
式(14)通过归一化操作,加权求和后经过一个激活函数,得到段落节点中token级的注意力权重;选择注意力得分βj最高的前k个段落节点,然后对所选段落中的Tw个tokens应用注意力机制;
Figure BDA0003634810710000054
式(15)通过要素节点注意力βj与token级的段落特征聚合,得到两级注意力机制的token级的段落特征,
Figure BDA0003634810710000055
式(16)中
Figure BDA0003634810710000056
表示token级的上下文向量,经过与两级注意力机制的token级的段落特征
Figure BDA0003634810710000057
加权求和后,最终得到段落上下文向量表示vt
将上下文向量作为从源文档中摘要生成出来的显著信息,与解码器隐藏状态st连接,得到词汇表分布:
Pvocab=Softmax(Wo[st;vt]) (17)
式(17)通过隐藏状态st与段落上下文向量表示vt拼接,再与可训练矩阵参数W0经过归一化操作得到最终的解码结果;
Step2.5、进行摘要生成:最后选择Adam优化器,基于训练数据迭代地更新神经网络权重,用训练好的神经网络进行摘要生成。
本发明的有益效果是:
(1)针对案件舆情中文多文档生成式摘要,如何既考虑案件舆情中文正文与案件要素之间的差别,又考虑它们之间的联系,同时如何过滤和选择案件要素中关键的特征提高摘要抽取准确率。提出一种图注意力机制实现段落与案件要素的融合,设计了一个融合案件要素的筛选多任务联合学习模型来促进对摘要的生成,首次引入案件要素作为辅助任务改善其预测性能。
(2)提出的模型通过图注意力机制来过滤和选择句子特征流来对句子节点进行有效的筛选,从而提升模型的预测效果。
(3)使用图注意力GAT的编码器结构的多头注意力(Multi-Head attention)能够捕获更加丰富的字符特征和字符类别特征,具有很好的并行性。
附图说明
图1是本发明提出的基于要素图注意力的案件舆情多文档生成式摘要方法的具体结构示意图。
具体实施方式
实施例1:如图1所示,基于要素图注意力的案件舆情多文档生成式摘要方法,所述方法的具体步骤如下:
所述方法的具体步骤如下:
Step1、通过爬虫技术爬取案件舆情文本数据集,通过人工对数据集进行清洗、标注得到案件舆情摘要多文档数据集;构造一个包含案件名称的案件库,根据案件名称去搜索,搜索结果以网页的形式展现,以网页内容第一条为摘要,把网页第二条描述案件相关的内容定义为案件要素,经过筛选与预处理形成的json格式文件;
Step2、通过词嵌入和位置嵌入分别对案件舆情正文和案件要素进行特征编码,利用CNN与BiLSTM编码器提取句子特征,将获得的句子特征和案件要素特征构建异构图提取文档特征,再对文档特征采用基于图注意力机制融入案件要素的方法对句子进行有效地过滤筛选,采用图注意力同时学习和更新主任务模型和辅助模型的参数。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、通过爬虫技术爬取案件舆情新闻文本,共爬取14214篇文档,每一篇包含着摘要,案件要素以及对于案件描述的正文;
Step1.2、对案件舆情摘要多文档数据集中的正文及案件要素进行过滤筛选,过滤筛选的方式如下所示:(1)、去除文本内容中的多余符号、超链接和特殊字符;(2)、去除正文中相同的案件要素信息;
Step1.3、采用人工标注,获得案件舆情数据集;首先对正文中的每一句话打上标签,1为候选摘要,0则不是候选摘要。实验语料规模如表1所示:
表1多文档摘要数据集信息
Figure BDA0003634810710000061
作为本发明的进一步方案,所述Step2的具体步骤如下:
Step2.1、构建要素关系图构建:输入源文档是多篇文档D={d1,d2,...,dn},首先D将分成更小的语义单元段落p={p1,p2,...,pn};然后构造一个要素关系图G=(V,E);V包括段落节点Vp和案件要素节点Vc,E表示节点之间的无向边,段落节点或案件要素节点内部没有边,只有段落节点或案件要素节点之间有边,pi和cj之间的边是指案件要素节点cj包含在段落节点pi中,其中pi表示第i个段落节点,cj表示第j个案件要素节点;
为了获得更多的语义信息,通过融合案件要素节点与段落节点,得到关系矩阵
Figure BDA0003634810710000071
E中的元素eij≠0时表示要素节点cj在包含在段落节点pi中,基于E,计算要素节点与段落节点间的TFIDF值,构成边的权重矩阵
Figure BDA0003634810710000072
以建模案件要素与段落之间关系的重要性;
Step2.2、对多篇文档进行分段,然后几个token级transformer编码层堆叠在一起,对每个段落中的上下文信息进行编码,
Figure BDA0003634810710000073
表示输入token向量,对于第l个transformer层,输入特征为
Figure BDA0003634810710000074
隐藏状态为
Figure BDA0003634810710000075
输出为
Figure BDA0003634810710000076
Figure BDA0003634810710000077
Figure BDA0003634810710000078
LayerNorm是规一化操作,MHAttn是transformer的多头注意力,FFN表示前馈神经网络,其激活函数为ReLU,将最后一层的输出作为token级特征,使用
Figure BDA0003634810710000079
来表示token级特征矩阵,其中nw是所有段落中标记的总数,dw是标记嵌入的维数;
为了获得固定长度的段落表示,应用加权合并运算,多头注意力机制计算token上的权重分布,允许模型通过不同的头在不同的子空间表示时灵活地编码段落;
hp=MHPool(hw1,hw2,...) (3)
使用
Figure BDA00036348107100000710
来表示段落的特征矩阵,n表示段落数量,dh表示隐藏层维度大小;案件要素编码器表示与段落编码器表示过程相同,但是两个编码器之间不共享参数,在统一的语义空间中建模段落和案件要素之间的关系;删除案件要素中的代词和停止词,分别用
Figure BDA00036348107100000711
Figure BDA00036348107100000712
来表示token级特征矩阵和案件要素级特征矩阵;其中mw表示案件要素通过分词后获得token级特征的总数,m表示案件要素数目;
Step2.3、使用图注意力网络GAT来更新语义节点的表示;i,j∈{1,2,...,(m+n)}表示图中的任意节点,用
Figure BDA00036348107100000713
表示节点表示,用Ni表示节点i的相邻节点集,GAT层设计如下:
zij=LeakyReLU(Wa[Wqhi;Wkhj]) (4)
Figure BDA00036348107100000714
Figure BDA00036348107100000715
Figure BDA0003634810710000081
其中Wa,Wq,Wk,Wv表示可训练权重,σ是sigmoid激活函数,
Figure BDA0003634810710000082
是从TFIDF值矩阵导出的边权重,其思想是通过将实数值离散成整数来表示边权重,然后学习整数的嵌入,将权重映射到多维嵌入空间
Figure BDA0003634810710000083
这样,值中包含的信息需要通过附加的嵌入矩阵来学习,TFIDF值表明了案件要素节点和段落节点之间的接近程度,因此,通过使用式(5)更新注意力权重,直接将原始TFIDF信息合并到GAT机制中;
将图注意力机制GAT和多头操作相结合得到hi,添加了一个残差连接,以避免在几次迭代后梯度消失:
Figure BDA0003634810710000084
使用上面的GAT层和位置前馈层来迭代更新节点表示;每个迭代包含一个段落到案件要素和案件要素到段落的更新过程,迭代t次后,将
Figure BDA0003634810710000085
表示每个输入特征矩阵;
Figure BDA0003634810710000086
Figure BDA0003634810710000087
表示通过案件要素更新后的段落特征矩阵;其中nc表示要素节点的数目,dc表示要素节点的输入维度,dh表示上下文维度;
Step2.4、在每个解码步骤中,解码器的状态是s,计算案件要素节点ci的注意力得分:
Figure BDA0003634810710000088
式(10)中
Figure BDA0003634810710000089
表示经过训练后获得的转置矩阵,Wq,Wk是可训练参数,zi是状态s时注意力系数;
Figure BDA00036348107100000810
式(11)中
Figure BDA00036348107100000811
是从TFIDF值矩阵导出的边权重,
Figure BDA00036348107100000812
表示段落节点系数,式(11)通过要素节点与段落节点之间的信息流动;
Figure BDA00036348107100000813
式(12)通过归一化操作,加权求和后经过一个激活函数,得到要素节点的注意力权重;选择注意力得分βj最高的前k个段落节点,然后对所选段落节点中的Tw个tokens采用注意力机制;
Figure BDA00036348107100000814
式(13)中
Figure BDA00036348107100000815
表示经过训练后获得的转置矩阵,Wq,Wk是可训练参数,zwi是状态s时段落节点token级的注意力系数,
Figure BDA00036348107100000816
表示段落经过分词后获得的token级的上下文向量;
Figure BDA0003634810710000091
式(14)通过归一化操作,加权求和后经过一个激活函数,得到段落节点中token级的注意力权重;选择注意力得分βj最高的前k个段落节点,然后对所选段落中的Tw个tokens应用注意力机制;
Figure BDA0003634810710000092
式(15)通过要素节点注意力βj与token级的段落特征聚合,得到两级注意力机制的token级的段落特征,
Figure BDA0003634810710000093
式(16)中
Figure BDA0003634810710000094
表示token级的上下文向量,经过与两级注意力机制的token级的段落特征
Figure BDA0003634810710000095
加权求和后,最终得到段落上下文向量表示vt
将上下文向量作为从源文档中摘要生成出来的显著信息,与解码器隐藏状态st连接,得到词汇表分布:
Pvocab=Softmax(Wo[st;vt]) (17)
式(17)通过隐藏状态st与段落上下文向量表示vt拼接,再与可训练矩阵参数W0经过归一化操作得到最终的解码结果;
Step2.5、进行摘要生成:最后选择Adam优化器,基于训练数据迭代地更新神经网络权重,用训练好的神经网络进行摘要生成。Adam优化器,它收敛速度较快且收敛过程较稳定,能基于训练数据迭代地更新神经网络权重。学习率(步长)设置为5e-4,决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。步长太小,收敛慢,步长太大,会远离最优解。所以从小到大,分别测试,选出一个最优解5e-4。
为了说明本发明的效果,设置了3组对比实验。第一组实验验证生成式摘要性能的提升,第二组是消融实验,第三组实验验证不同案件要素抽取方法的实验。
(1)生成式摘要性能提升验证,本实验在案件舆情多文档摘要数据集上做实验,使用ROUGE值来自动评估摘要质量,分别采用ROUGE-1(RG-1)、ROUGE-2(RG-2)、ROUGE-L(RG-L)作为评价指标。超参数中Transformer编码层的数量设置为6,隐藏大小设置为256,head的数量设置为8,而前馈层的隐藏大小为1024。我们将输入段落和案件要素的长度分别截断为100和10个标记。在多头池化层,head的数量是8。在图编码过程中,每层有8个头,隐藏大小为256。其他的训练参数如表2所示:
表2模型训练参数设置
Figure BDA0003634810710000101
为验证提出的方法的有效性,选择与基于Transformer和图的摘要模型进行比较:
(1)Flat transformer(FT)是一个6层基于编码器-解码器模型,案件舆情数据标题和文档连接为一个长文本,并被截取前800个token作为模型输入。
(2)T-DMCA(Transformer Decoder with Memory Compressed Attention model)基于Transformer编码的交叉注意力机制,使用了一个Transformer解码器,应用了一个卷积层在self-attention自注意力机制中压缩key和value值。
(3)HT(Hierarchical Transformer)该模型可以有效地处理多个输入文档,并提取具有以分层方式编码文档能力的Transformer体系结构。首先通过一种注意力机制来表示跨文档关系。
(4)GraphSum该模型应用图来表示文档的多文档生成式摘要模型,构建了主题关系图,篇章结构图,模型用图来编码文档,目的是捕获文档与文档之间的关系。
第一组实验是本发明模型和4个基线模型在案件舆情单文档、多文档摘要数据集上的对比实验,结果如表3所示。
表3基线模型对比实验
Figure BDA0003634810710000102
从上表实验结果可以看出:(1)本发明模型与FT模型相比,,RG-1和RG-2的值分别提升2.53和2.66,这是由于在FT模型多文档摘要中,截取前800个词,这种方法截取的词可能导致案件舆情的关键信息被去除,不能完全概括文章的主题;(2)本发明模型与T-DMCA模型相比,RG-1和RG-2的值分别提升1.59和1.56,这是由于在T-DMCA模型中,Transformer中的多层解码器产生的信息有冗余,并且多层的解码器会造成推理时效率不高的问题,并行的矩阵操作能够提高解码器的解码速度;(3)本发明模型与HT相比,RG-1和RG-2分别提升了0.87和1.02,这是由于在HT模型中,同时引入句子级和词级transformer对案件舆情文本进行编码,参数量增加,模型复杂度提高;(4)本发明模型与GraphSum模型相比,在RG-1和RG-2上分别提升了0.29、0.82,说明运用图结构表征文档跨句子之间的关联关系,但本发明模型融入案件要素作为辅助信息的方法是更有效的,能有效地降低冗余信息,对于生成更贴近文档主题的句子有着重要的指导作用。
(2)消融实验
为了验证图编码器模块和两级注意模块等单个组件的有效性,我们进行了消融研究实验,结果如表4所示:
表4消融实验
Figure BDA0003634810710000111
w/o graph enconder表示没有图编码模块的实验,将案件要素表示和段落表示固定在多头池化层之后;w/o two-level attention表示没有两级注意的实验,我们直接应用标记级注意,但额外关注案件要素表示,这是一种结合案件要素信息的简单方法。表4结果显示了我们新引入模块的有效性。结合案件要素信息来构建异构图网络使得文本节点之间能够更好地进行信息流动,在多文档摘要任务中采用两级注意机制起到了重要作用。
(3)不同案件要素抽取方法对比实验分析
第三组实验主要验证采用不同方法获取案件要素对摘要生成的影响,用TFIDF、TextRank和命名实体识别算法,从案件文本中抽取关键词充当案件要素,融入到本发明模型中生成摘要,结果如表5所示。
表5不同案件要素抽取方法对比实验(%)
Figure BDA0003634810710000112
从上表可以看出:(1)本发明模型与NER模型相比,RG-1和RG-2值提升1.57、1.51,因为NER方法得到大量的冗余信息,不利于图注意力的学习,导致摘要概括性能下降;(2)本发明模型与TFIDF模型相比,RG-1和RG-2值分别提高了1.44和1.29,因为TFIDF是基于词频统计的方法,在文中关键词能全面地表达文章的主题信息,从而提高摘要性能,但案件舆情文本中词频较高的词不一定与文本主题有关;(3)本发明模型与TextRank方法相比,在RG-1和RG-2上分别提升了0.66和0.45,TextRank抽取关键词的方法,差距很小,当存在多个文档而没有案件要素时,可以抽取关键词充当案件要素,融入本发明模型中辅助摘要的生成。
在本发明中,提出了基于案件要素图注意力的多文档生成式摘要模型。除了文本单元节点外,还引入案件要素节点来构造异构图,辅助模型捕捉文本单元之间的复杂关系。还引入了一个两级注意机制的解码器,首先关注案件要素节点,然后利用注意权值将注意力引导至文本单元,能够有效地处理显著性和冗余性问题。
在下一步的研究中,会继续探索其他方法,如基于强化学习的方法,以进一步提高多文档摘要环境下的摘要质量,还可以将本发明模型应用于其他任务,如多文档问答。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.基于要素图注意力的案件舆情多文档生成式摘要方法,其特征在于:所述方法的具体步骤如下:
Step1、通过爬虫技术爬取案件舆情文本数据集,通过人工对数据集进行清洗、标注得到案件舆情摘要多文档数据集;构造一个包含案件名称的案件库,根据案件名称去搜索,搜索结果以网页的形式展现,以网页内容第一条为摘要,把网页第二条描述案件相关的内容定义为案件要素,经过筛选与预处理形成的json格式文件;
Step2、通过词嵌入和位置嵌入分别对案件舆情正文和案件要素进行特征编码,利用CNN与BiLSTM编码器提取句子特征,将获得的句子特征和案件要素特征构建异构图提取文档特征,再对文档特征采用基于图注意力机制融入案件要素的方法对句子进行有效地过滤筛选,采用图注意力同时学习和更新主任务模型和辅助模型的参数。
2.根据权利要求1所述的基于要素图注意力的案件舆情多文档生成式摘要方法,其特征在于:所述Step1的具体步骤为:
Step1.1、通过爬虫技术爬取案件舆情新闻文本,共爬取4569篇文档,每一篇包含着摘要,案件要素以及对于案件描述的正文;
Step1.2、对案件舆情摘要多文档数据集中的正文及案件要素进行过滤筛选,过滤筛选的方式如下所示:(1)、去除文本内容中的多余符号、超链接和特殊字符;(2)、去除正文中相同的案件要素信息;
Step1.3、采用人工标注,获得案件舆情数据集;首先对正文中的每一句话打上标签,1为候选摘要,0则不是候选摘要。
3.根据权利要求1所述的基于要素图注意力的案件舆情多文档生成式摘要方法,其特征在于:所述Step2中包括:
Step2.1、构建要素关系图构建:输入源文档是多篇文档D={d1,d2,...,dn},首先D将分成更小的语义单元段落p={p1,p2,...,pn};然后构造一个要素关系图G=(V,E);V包括段落节点Vp和案件要素节点Vc,E表示节点之间的无向边,段落节点或案件要素节点内部没有边,只有段落节点或案件要素节点之间有边,pi和cj之间的边是指案件要素节点cj包含在段落节点pi中,其中pi表示第i个段落节点,cj表示第j个案件要素节点;
为了获得更多的语义信息,通过融合案件要素节点与段落节点,得到关系矩阵
Figure FDA0003634810700000011
E中的元素eij≠0时表示要素节点cj在包含在段落节点pi中,基于E,计算要素节点与段落节点间的TFIDF值,构成边的权重矩阵
Figure FDA0003634810700000012
以建模案件要素与段落之间关系的重要性。
4.根据权利要求1所述的基于要素图注意力的案件舆情多文档生成式摘要方法,其特征在于:所述Step2中包括:
Step2.2、对多篇文档进行分段,然后几个token级transformer编码层堆叠在一起,对每个段落中的上下文信息进行编码,
Figure FDA0003634810700000021
表示输入token向量,对于第l个transformer层,输入特征为
Figure FDA0003634810700000022
隐藏状态为
Figure FDA0003634810700000023
输出为
Figure FDA0003634810700000024
Figure FDA0003634810700000025
Figure FDA0003634810700000026
LayerNorm是规一化操作,MHAttn是transformer的多头注意力,FFN表示前馈神经网络,其激活函数为ReLU,将最后一层的输出作为token级特征,使用
Figure FDA0003634810700000027
来表示token级特征矩阵,其中nw是所有段落中标记的总数,dw是标记嵌入的维数;
为了获得固定长度的段落表示,应用加权合并运算,多头注意力机制计算token上的权重分布,允许模型通过不同的头在不同的子空间表示时灵活地编码段落;
hp=MHPool(hw1,hw2,...) (3)
使用
Figure FDA0003634810700000028
来表示段落的特征矩阵,n表示段落数量,dh表示隐藏层维度大小;案件要素编码器表示与段落编码器表示过程相同,但是两个编码器之间不共享参数,在统一的语义空间中建模段落和案件要素之间的关系;删除案件要素中的代词和停止词,分别用
Figure FDA0003634810700000029
Figure FDA00036348107000000210
来表示token级特征矩阵和案件要素级特征矩阵;其中mw表示案件要素通过分词后获得token级特征的总数,m表示案件要素数目。
5.根据权利要求1所述的基于要素图注意力的案件舆情多文档生成式摘要方法,其特征在于:所述Step2中包括:
Step2.3、使用图注意力网络GAT来更新语义节点的表示;i,j∈{1,2,...,(m+n)}表示图中的任意节点,用hi,
Figure FDA00036348107000000211
表示节点表示,用Ni表示节点i的相邻节点集,GAT层设计如下:
zij=LeakyReLU(Wa[Wqhi;Wkhj]) (4)
Figure FDA00036348107000000212
Figure FDA00036348107000000213
Figure FDA00036348107000000214
其中Wa,Wq,Wk,Wv表示可训练权重,σ是sigmoid激活函数,
Figure FDA00036348107000000215
是从TFIDF值矩阵导出的边权重,其思想是通过将实数值离散成整数来表示边权重,然后学习整数的嵌入,将权重映射到多维嵌入空间
Figure FDA0003634810700000031
这样,值中包含的信息需要通过附加的嵌入矩阵来学习,TFIDF值表明了案件要素节点和段落节点之间的接近程度,因此,通过使用式(5)更新注意力权重,直接将原始TFIDF信息合并到GAT机制中;
将图注意力机制GAT和多头操作相结合得到hi,添加了一个残差连接,以避免在几次迭代后梯度消失:
Figure FDA0003634810700000032
使用上面的GAT层和位置前馈层来迭代更新节点表示;每个迭代包含一个段落到案件要素和案件要素到段落的更新过程,迭代t次后,将
Figure FDA0003634810700000033
表示每个输入特征矩阵;
Figure FDA0003634810700000034
Figure FDA0003634810700000035
表示通过案件要素更新后的段落特征矩阵;其中nc表示要素节点的数目,dc表示要素节点的输入维度,dh表示上下文维度。
6.根据权利要求1所述的基于要素图注意力的案件舆情多文档生成式摘要方法,其特征在于:所述Step2中包括:
Step2.4、在每个解码步骤中,解码器的状态是s,计算案件要素节点ci的注意力得分:
Figure FDA0003634810700000036
式(10)中
Figure FDA0003634810700000037
表示经过训练后获得的转置矩阵,Wq,Wk是可训练参数,zi是状态s时注意力系数;
Figure FDA0003634810700000038
式(11)中
Figure FDA0003634810700000039
是从TFIDF值矩阵导出的边权重,
Figure FDA00036348107000000310
表示段落节点系数,式(11)通过要素节点与段落节点之间的信息流动;
Figure FDA00036348107000000311
式(12)通过归一化操作,加权求和后经过一个激活函数,得到要素节点的注意力权重;选择注意力得分βj最高的前k个段落节点,然后对所选段落节点中的Tw个tokens采用注意力机制;
Figure FDA00036348107000000312
式(13)中
Figure FDA00036348107000000313
表示经过训练后获得的转置矩阵,Wq,Wk是可训练参数,zwi是状态s时段落节点token级的注意力系数,
Figure FDA00036348107000000314
表示段落经过分词后获得的token级的上下文向量;
Figure FDA0003634810700000041
式(14)通过归一化操作,加权求和后经过一个激活函数,得到段落节点中token级的注意力权重;选择注意力得分βj最高的前k个段落节点,然后对所选段落中的Tw个tokens应用注意力机制;
Figure FDA0003634810700000042
式(15)通过要素节点注意力βj与token级的段落特征聚合,得到两级注意力机制的token级的段落特征,
Figure FDA0003634810700000043
式(16)中
Figure FDA0003634810700000044
表示token级的上下文向量,经过与两级注意力机制的token级的段落特征
Figure FDA0003634810700000045
加权求和后,最终得到段落上下文向量表示vt
将上下文向量作为从源文档中摘要生成出来的显著信息,与解码器隐藏状态st连接,得到词汇表分布:
Pvocab=Softmax(Wo[st;vt]) (17)
式(17)通过隐藏状态st与段落上下文向量表示vt拼接,再与可训练矩阵参数W0经过归一化操作得到最终的解码结果;
Step2.5、进行摘要生成:最后选择Adam优化器,基于训练数据迭代地更新神经网络权重,用训练好的神经网络进行摘要生成。
CN202210499501.3A 2022-05-09 2022-05-09 基于要素图注意力的案件舆情多文档生成式摘要方法 Pending CN114969304A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210499501.3A CN114969304A (zh) 2022-05-09 2022-05-09 基于要素图注意力的案件舆情多文档生成式摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210499501.3A CN114969304A (zh) 2022-05-09 2022-05-09 基于要素图注意力的案件舆情多文档生成式摘要方法

Publications (1)

Publication Number Publication Date
CN114969304A true CN114969304A (zh) 2022-08-30

Family

ID=82980891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210499501.3A Pending CN114969304A (zh) 2022-05-09 2022-05-09 基于要素图注意力的案件舆情多文档生成式摘要方法

Country Status (1)

Country Link
CN (1) CN114969304A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115641955A (zh) * 2022-10-19 2023-01-24 哈尔滨工业大学 基于深度学习的胃癌分期判别系统及存储介质
CN115860002A (zh) * 2022-12-27 2023-03-28 中国人民解放军国防科技大学 一种基于事件抽取的作战任务生成方法及系统
CN116562275A (zh) * 2023-06-09 2023-08-08 创意信息技术股份有限公司 一种结合实体属性图的自动文本摘要方法
CN117408651A (zh) * 2023-12-15 2024-01-16 辽宁省网联数字科技产业有限公司 基于人工智能的招标方案在线编制方法及系统
CN117725928A (zh) * 2024-02-18 2024-03-19 西南石油大学 基于关键词异构图和语义匹配的金融文本摘要方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115641955A (zh) * 2022-10-19 2023-01-24 哈尔滨工业大学 基于深度学习的胃癌分期判别系统及存储介质
CN115860002A (zh) * 2022-12-27 2023-03-28 中国人民解放军国防科技大学 一种基于事件抽取的作战任务生成方法及系统
CN115860002B (zh) * 2022-12-27 2024-04-05 中国人民解放军国防科技大学 一种基于事件抽取的作战任务生成方法及系统
CN116562275A (zh) * 2023-06-09 2023-08-08 创意信息技术股份有限公司 一种结合实体属性图的自动文本摘要方法
CN116562275B (zh) * 2023-06-09 2023-09-15 创意信息技术股份有限公司 一种结合实体属性图的自动文本摘要方法
CN117408651A (zh) * 2023-12-15 2024-01-16 辽宁省网联数字科技产业有限公司 基于人工智能的招标方案在线编制方法及系统
CN117725928A (zh) * 2024-02-18 2024-03-19 西南石油大学 基于关键词异构图和语义匹配的金融文本摘要方法
CN117725928B (zh) * 2024-02-18 2024-04-30 西南石油大学 基于关键词异构图和语义匹配的金融文本摘要方法

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
Biten et al. Good news, everyone! context driven entity-aware captioning for news images
CN108519890B (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN110390103B (zh) 基于双编码器的短文本自动摘要方法及系统
CN106484674B (zh) 一种基于深度学习的中文电子病历概念抽取方法
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN110413986A (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN109992775A (zh) 一种基于高级语义的文本摘要生成方法
Tripathy et al. Comprehensive analysis of embeddings and pre-training in NLP
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN114547298A (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113076483A (zh) 基于案件要素异构图的舆情新闻抽取式摘要方法
CN114254645A (zh) 一种人工智能辅助写作系统
CN115329088A (zh) 图神经网络事件检测模型的鲁棒性分析方法
CN113961706A (zh) 一种基于神经网络自注意力机制的精确文本表示方法
CN113806528A (zh) 一种基于bert模型的话题检测方法、设备及存储介质
CN116821371A (zh) 一种主题知识图联合增强的多文档科学摘要生成方法
CN116521857A (zh) 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置
Tian et al. Chinese short text multi-classification based on word and part-of-speech tagging embedding
CN110674293A (zh) 一种基于语义迁移的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination