CN111339754B

CN111339754B - 基于案件要素句子关联图卷积的案件舆情摘要生成方法

Info

Publication number: CN111339754B
Application number: CN202010141405.2A
Authority: CN
Inventors: 余正涛; 韩鹏宇; 黄于欣; 高盛祥; 郭军军; 王振晗
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2022-06-21
Anticipated expiration: 2040-03-04
Also published as: CN111339754A

Abstract

本发明涉及基于案件要素句子关联图卷积的案件舆情摘要生成方法，属于自然语言处理技术领域。本发明融合案件要素和词构建基于案件要素的句子关联图，来表征句子信息和句子之间的关联关系；使用图卷积神经网络学习句子信息和句子之间的关联关系，对句子进行分类，得到每个句子的重要性评分；按重要性对句子进行排序，通过去重和时序关系调整得到摘要。本发明实现了从涉及特定案件的多个新闻文本中，获取重要信息作为其简短摘要。对于相关人员快速掌控舆情态势有着重要的作用，解决了针对案件舆情摘要如何融入领域知识和跨文档句子关联关系的问题。

Description

基于案件要素句子关联图卷积的案件舆情摘要生成方法

技术领域

本发明涉及基于案件要素句子关联图卷积的案件舆情摘要生成方法，属于自然语言处理技术领域。

背景技术

案件舆情是指与案件相关的互联网舆情，与一般的新闻舆情相比，案件舆情具有敏感性、特殊性，有着更大的社会影响。案件舆情摘要能够从案件相关新闻文本中摘取重要信息，从而简化新闻文本长度，帮助用户在大量的舆情数据中获取舆情事件的关键信息，对于案件舆情的监控与及时处理有着重要的作用。

案件舆情摘要本质上是一种特定领域的多文档摘要任务，在多文档摘要的研究中，关键问题是对句子的重要性进行评价，并以此抽取摘要句子。传统方法有基于统计的摘要方法、基于主题模型的摘要方法和基于图的摘要方法。基于统计的方法虽然简单且有一定效果，但对于句子的打分一般都是比较孤立的，忽略了文本结构信息、尤其是句子与句子之间的关联关系。基于主题模型的方法一般针对没有特定主题的多文档摘要任务，不适合主题信息明确的案件舆情摘要。基于图的方法虽然可以较好的表征句子间的关联关系，但构图方法一般是通用方法，多采用句子相似度作为边的计算方法。在案件舆情摘要中，传统方法不足之处在于多是通用领域的无监督文本摘要方法，没有考虑跨文档的句子之间关联关系、句子与案件要素之间的关联关系。针对这些问题，本发明提供基于案件要素句子关联图卷积的案件舆情摘要生成方法。

发明内容

本发明提供了基于案件要素句子关联图卷积的案件舆情摘要生成方法，解决了针对案件舆情摘要如何融入领域知识和跨文档句子关联关系的问题，提高案件舆情摘要生成方法的有效性。

本发明采用图的结构来对多文本簇进行建模。其中句子作为主节点，词和案件要素作为辅助节点来增强句子之间的关联关系，使用词频-逆文档频率(TF-IDF)、互信息(PMI)、同属关系、包含关系等多种方法来计算不同节点间的关联关系。然后使用图卷积神经网络学习句子关联图，并对句子进行分类得到候选摘要句，最后通过去重和排序得到案件舆情摘要。在案件舆情摘要领域的实验结果表明，该发明方法和多个基准模型相比，在ROUGE-1的F值评价指标上有着1.14至12.81个百分点的提升；

本发明的具体技术方案是：基于案件要素句子关联图卷积的案件舆情摘要生成方法，包括：

步骤1、融合案件要素和词构建基于案件要素的句子关联图，来表征句子信息和句子之间的关联关系；

步骤2、使用图卷积神经网络学习句子信息和句子之间的关联关系，对句子进行分类，得到每个句子的重要性评分；

步骤3、按重要性对句子进行排序，通过去重和时序关系调整得到摘要。

进一步地，所述步骤1中，构建基于案件要素的句子关联图中，包含3种节点：其中主节点是句子，辅助节点是词和案件要素，用来增强表征句子间的关联关系；该图中共有6种关系：(Sent，Sent)、(Sent，Word)、(Sent，Case)、(Word，Word)、(Word，Case)(Case，Case)，其中Sent表示句子节点，Word表示词节点，Case表示案件要素节点。

进一步地，所述步骤2中，使用图卷积神经网络的方法，在图上进行特征学习，得到每个句子的重要性表征，并使用softmax对句子进行打分。

进一步地，所述步骤3中，在句子打分的基础上，选取得分高的句子，使用ROUGE值的方法计算句子的相似性来去除冗余信息，使用新闻发布顺序来对句子进行重排序，最终得到摘要。

进一步地，所述步骤1中，案件要素由案件名、案发地、涉案人员和案件描述四种关键词构成。

进一步地，所述3种节点共具有6种关系，使用词频-逆文档频率TF-IDF、互信息PMI、同属关系、包含关系来计算边的权重：(Sent，Sent)关系使用是否同属于一篇文本来判断；(Sent，Word)关系使用词频-逆文档频率(TF-IDF)来计算；(Sent，Case)关系使用案件要素是否包含于句子来表示；(Word，Word)关系使用词的互信息(PMI)来计算；(Word，Case)关系使用词和案件要素是否相等来判断；(Case，Case)的关系使用案件要素是否同属于一案件来判断。

进一步地，所述融合案件要素和词构建基于案件要素的句子关联图，来表征句子信息和句子之间的关联关系，包括：

使用词频-逆文档频率TF-IDF、互信息PMI、同属关系、包含关系方法来计算边的权重，构建了一个包含句子、词和案件要素三种节点的句子关联图：

G＝(V,E) (1)

V＝{S,W,C} (2)

其中集合V表示图中节点的集合，由三部分构成：句子集合S、词集合W和案件要素集合C；

句子集合S＝{s₁,s₂...s_l}里共有l个句子，是不同文档簇的所有文档经过去除特殊字符、分句、去除短句子等预处理之后的句子总和，其中s₂表示第2个句子，l表示句子集合的大小；

词集合W＝{w₁,w₂...w_m}由所有的词构成，其中m表示词表大小；

案件要素集合C＝{c₁,c₂...c_n}共有n个案件要素，包括多文本簇中的案件要素，其中c₂表示第2个案件要素；E表示图中边的集合：E＝{(v_i,v_j)|v∈V}，其中v_i表征图中第i个节点；

因为图中有3种节点，所以图的邻接矩阵A由9个分块矩阵构成，如公式3所示，其中A_ss表是句子和句子节点的关系矩阵，A_sw表示句子和词节点的关系矩阵，A_sc表示句子和案件要素节点的关系矩阵，

表示句子和案件要素节点的关系矩阵的转置；

共有6种边，每种边的定义和计算如公式(4)：

其中A_ij表示第i和j两个节点之间边的权值，这六种关系的具体计算方法是：

(1)对于句子与句子节点的关系矩阵A_ss，使用同属关系来计算：当一个句子和另一个句子同属于一个文本时，在它们之间连接一条边。

(2)对于句子和词节点关系矩阵A_sw：使用词频-逆文档频率TF-IDF的方法来计算词节点w_j和句子节点s_i之间边的权重，如公式(5)所示：

TF-IDF(s_i,w_j)＝TF(s_i,w_j)*IDF(s_i) (5)

其中s_i表示第i个句子节点，w_j表示第j个词节点，TF表示词在句子中的词频，IDF表示词在所有文本中出现的频率；通过在句子和大量词之间构建关联关系，能用词来表征句子的特征，同时也在所有句子之间构建了一层关联关系；

(3)对于句子和案件要素节点关系矩阵A_sc，使用包含关系来计算：当一个案件要素出现在某个句子中时，在它们之间连接一条边；

(4)对于词于词关系矩阵A_ww：使用互信息PMI来计算两个词节点之间边的权重，如公式(6)所示：

其中w_i和w_j表示第i和第j个词节点，两个词的相关性越大，其PMI值也就越大，当PMI的值小于0时，表示两个词相关性为负，也就是互斥的，此时两个词之间边权重为0；

(5)对于词与案件要素关系矩阵A_wc：当案件要素和词相同时，在它们之间连接一条边；

(6)对于案件要素和案件要素关系矩阵A_cc，使用同属关系来计算：当一个案件要素和另一个案件要素同属一个案件时，在它们之间连接一条边；

通过以上方法构建一个融合案件要素的句子关联图。

进一步地，所述使用图卷积神经网络学习句子信息和句子之间的关联关系，对句子进行分类，得到每个句子的重要性评分，包括：

使用两层图卷积网络GCN学习句子信息和句子之间的关联关系，对句子进行分类，得到每个句子的重要性评分，具体如下：

每一个节点在进行卷积的时候，既要包含周围节点的特征，又要包含自身的特征，所以每个节点还应该有一个连接到其自身的闭环，还需要将邻接矩阵A对角线上元素初始化为1，即：

A_ii＝1 (7)

最后构成一个大小为size*size的图的邻接矩阵A：

令图的度矩阵为D，表示每一个节点和多少个其他节点相连，其中度矩阵对角线上元素为：

D_ii＝∑_jA_ij (9)

根据公式(8)和(9)得到能进行图卷积操作的规范化的矩阵

将节点的特征矩阵X初始化为一个和邻接矩阵A一样大小的单位矩阵，相当于使用one-hot向量表示节点的特征；

在第一层图卷积网络中：

其中L⁽¹⁾表示第一层的输出，

是规范化的邻接矩阵，X是特征矩阵，W₀是参数矩阵，激活函数使用ReLU；在第二层图卷积网络中使用softmax进行分类,如公式(13)所示；

采用交叉熵作为模型的损失函数：

其中S是训练集中参与计算损失的所有的句子，y_i表示第i个句子的标签，

表示第i个句子的预测结果，通过两次图卷积操作后，得到每一个句子节点的分类结果，表示每一个句子的得分。

进一步地，所述按重要性对句子进行排序，通过去重和时序关系调整得到摘要，包括：

(1)对于测试集中不同的文本簇分别进行摘要生成；

(2)对于一个文本簇,首先选取一个得分最高的句子加入候选摘要句集合中；

(3)然后选取下一个句子和候选摘要句集合中的每一个句子计算相似性，采用基于ROUGE值的方法来计算两个句子之间的相似性，其值若小于相似性阈值，则将该句子加入候选摘要句集合中；

(4)重复第二步的操作，直到候选摘要句集合长度超过阈值；

(5)最后再对候选摘要句集合中的句子按照文章发表的时序、以及句子在文档中出现的顺序排序，得到最终的多文档摘要。

本发明的有益效果是：

本文考虑构建异构的句子关联图：借鉴基于统计的方法，引入词节点来得到句子的特征表示，借助案件要素节点来加强与案件主题相关的句子间的关联关系，然后再学习这些关系来对句子的重要性进行评价。最后通过去重和排序得到案件舆情摘要。在案件舆情摘要领域实行了理论与技术的验证，实验结果表明该发明方法和多个基准模型相比，在ROUGE-1的F值评价指标上有着1.14至12.81个百分点的提升，充分说明了该方法的有效性。

附图说明

图1为本发明中基于案件要素句子关联图卷积的案件舆情摘要模型具体结构图；

图2为本发明中的流程图。

具体实施方式

实施例1：如图1-2所示，基于案件要素句子关联图卷积的案件舆情摘要生成方法，包括：

Step1、实验语料的收集与数据集构建；

采用基于Scrapy框架的爬虫，使用案件名作为关键词从百度新闻(https://news.baidu.com/)，搜狗新闻(https://news.sogou.com/)等搜集案件舆情新闻，经过数据清洗和人工筛选获取不同案件相关的新闻文本。实验训练语料共收集了50个案件相关的500篇新闻文档，包含13133个句子。每个案件相关的10篇新闻文本构成一个文本簇，为每个文本簇人工撰写参考摘要，使用ROUGE值的方法来计算每个句子的分数，按得分将句子分为0-9共10类作为训练标签。分别构建了训练集、验证集和测试集；数据集相关信息如下表1所示。

表1为数据集

Step2、融合案件要素和词构建基于案件要素的句子关联图，来表征句子信息和句子之间的关联关系；其中，针对50个案件分别构建了50组对应的案件要素，每组案件要素都包括案件名、案发地、涉案主体、案件描述等关键词。对所有文本进行分词，构建词表；

所述Step2中，构建基于案件要素的句子关联图中，包含3种节点：其中主节点是句子，辅助节点是词和案件要素，用来增强表征句子间的关联关系；该图中共有6种关系：(Sent，Sent)、(Sent，Word)、(Sent，Case)、(Word，Word)、(Word，Case)(Case，Case)，其中Sent表示句子节点，Word表示词节点，Case表示案件要素节点。

所述3种节点共具有6种关系，使用词频-逆文档频率TF-IDF、互信息PMI、同属关系、包含关系来计算边的权重：(Sent，Sent)关系使用是否同属于一篇文本来判断；(Sent，Word)关系使用词频-逆文档频率(TF-IDF)来计算；(Sent，Case)关系使用案件要素是否包含于句子来表示；(Word，Word)关系使用词的互信息(PMI)来计算；(Word，Case)关系使用词和案件要素是否相等来判断；(Case，Case)的关系使用案件要素是否同属于一案件来判断。

Step3、使用图卷积神经网络学习句子信息和句子之间的关联关系，对句子进行分类，得到每个句子的重要性评分；

进一步地，所述Step3中，使用图卷积神经网络的方法，在图上进行特征学习，得到每个句子的重要性表征，并使用softmax对句子进行打分。

Step4、按重要性对句子进行排序，通过去重和时序关系调整得到摘要。

进一步地，所述Step4中，在句子打分的基础上，选取得分高的句子，使用ROUGE值的方法计算句子的相似性来去除冗余信息，使用新闻发布顺序来对句子进行重排序，最终得到摘要。

G＝(V,E) (1)

V＝{S,W,C} (2)

表示句子和案件要素节点的关系矩阵的转置；

共有6种边，每种边的定义和计算如公式(4)：

TF-IDF(s_i,w_j)＝TF(s_i,w_j)*IDF(s_i) (5)

通过以上方法构建一个融合案件要素的句子关联图。

A_ii＝1 (7)

最后构成一个大小为size*size的图的邻接矩阵A：

D_ii＝∑_jA_ij (9)

根据公式(8)和(9)得到能进行图卷积操作的规范化的矩阵

在第一层图卷积网络中：

其中L⁽¹⁾表示第一层的输出，

采用交叉熵作为模型的损失函数：

(1)对于测试集中不同的文本簇分别进行摘要生成；

(4)重复第二步的操作，直到候选摘要句集合长度超过阈值；

为了验证本发明的效果，在案件舆情数据集上进行实验，训练最优的模型。

共设置了3组对比实验和1个实例分析。第一组对比实验对比了本文模型和LEAD，Centroid，LexPageRank，TextRank，Submodular1，ClusterCMRW、“句子+词+GCN”等7个基准模型的性能。其中包括未融入案件要素的“句子+词+GCN”模型，验证了融入案件要素关联关系和句子关联关系的有效性，实验结果见表2。第二组对比实验研究了不同句子分类数目对生成摘要质量的影响，设置2、5、10和20等四种不同的分类数目，使用本文模型分别进行实验，实验结果见表3。第三组对比试验研究了不同长度摘要的效果，设置了50、100、150和200等四种不同长度的摘要预期长度分别进行实验，实验结果见表4。实例分析选取了针对“摩托车飙车案”案件的摘要实例进行对比分析，结果见表5。

表2本文模型与基准模型实验对比结果

表2的实验数据说明：1)在采用ROUGE的F值的评价方法中，采用神经网络的模型比基于特征和基于图的模型平均要高出6到9个百分点，说明在自动摘要任务中，基于神经网络的方法更有效。2)GRUcase_Attn_all和SummaRuNNer对比，ROUGE-1提高了3.4个百分点，ROUGE-2提高了4.2个百分点，ROUGE-L提高了2.2个百分点。3)结果表明案件要素通过注意力机制融入到文档编码中和分类中，可以较好地提高模型的摘要效果。

表3不同分类数目对比实验

根据表3的实验结果可以看出：在分类数目为10的时候取得的摘要效果最好，分类数目较低会略微降低摘要质量，分类数目过高会严重降低摘要的质量。分析可能是因为分类数目的不同导致了句子分类准确率的不同。

表4不同长度摘要对比实验

根据表4的实验结果可以看出：摘要长度在200字和150字的时候得到的结果是较好的，可能是因为测试集中平均的摘要长度在170字左右的原因，和参考摘要长度越匹配的摘要得分越高。

表5“摩托车飙车案”摘要对比实例

根据表5的实验结果在实例分析中，从测试集中选取了“摩托车飙车案”案件，针对该案件的部分基准模型生成的摘要进行实例分析。如表5所示：1)对比TextRank和本文模型，可以看出本文结果在事件表述的完整性上有着较好的效果；2)对比Centroid模型结果可以看出本文模型摘要更加贴近文档簇的中心思想；3)对比句子+词+GCN”的结果可以看出本文模型在连贯性和可读性上有一定的优势。

通过对以上几组实验的分析可以看出，本发明提出的一种融合案件要素关联的句子关联图构图方法，有效地通过案件要素融入了案件主题信息、很好地表征了跨文档的句子关联关系。使用图卷积的方法充分学习到了图中的结构信息，抽取的摘要和基准模型相比取得了一定的效果提升。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于案件要素句子关联图卷积的案件舆情摘要生成方法，其特征在于：包括：

步骤3、按重要性对句子进行排序，通过去重和时序关系调整得到摘要；

所述融合案件要素和词构建基于案件要素的句子关联图，来表征句子信息和句子之间的关联关系，包括：

G＝(V,E) (1)

V＝{S,W,C} (2)

句子集合S＝{s₁,s₂...s_l}里共有l个句子，是不同文档簇的所有文档经过去除特殊字符、分句、去除短句子预处理之后的句子总和，其中s₂表示第2个句子，l表示句子集合的大小；

因为图中有3种节点，所以图的邻接矩阵A由9个分块矩阵构成，如公式(3)所示，其中A_ss表是句子和句子节点的关系矩阵，A_sw表示句子和词节点的关系矩阵，A_sc表示句子和案件要素节点的关系矩阵，

表示句子和案件要素节点的关系矩阵的转置；

共有6种边，每种边的定义和计算如公式(4)：

(1)对于句子与句子节点的关系矩阵A_ss，使用同属关系来计算：当一个句子和另一个句子同属于一个文本时，在它们之间连接一条边；

TF-IDF(s_i,w_j)＝TF(s_i,w_j)*IDF(s_i) (5)

(4)对于词与词关系矩阵A_ww：使用互信息PMI来计算两个词节点之间边的权重，如公式(6)所示：

所述使用图卷积神经网络学习句子信息和句子之间的关联关系，对句子进行分类，得到每个句子的重要性评分，包括：

A_ii＝1 (7)

最后构成一个大小为size*size的图的邻接矩阵A：

D_ii＝∑_jA_ij (9)

根据公式(8)和(9)得到能进行图卷积操作的规范化的矩阵

在第一层图卷积网络中：

其中L⁽¹⁾表示第一层的输出，

采用交叉熵作为模型的损失函数：

2.根据权利要求1所述的基于案件要素句子关联图卷积的案件舆情摘要生成方法，其特征在于：所述步骤1中，构建基于案件要素的句子关联图中，包含3种节点：其中主节点是句子，辅助节点是词和案件要素，用来增强表征句子间的关联关系；该图中共有6种关系：(Sent，Sent)、(Sent，Word)、(Sent，Case)、(Word，Word)、(Word，Case)(Case，Case)，其中Sent表示句子节点，Word表示词节点，Case表示案件要素节点。

3.根据权利要求1所述的基于案件要素句子关联图卷积的案件舆情摘要生成方法，其特征在于：所述步骤2中，使用图卷积神经网络的方法，在图上进行特征学习，得到每个句子的重要性表征，并使用softmax对句子进行打分。

4.根据权利要求1所述的基于案件要素句子关联图卷积的案件舆情摘要生成方法，其特征在于：所述步骤3中，在句子打分的基础上，选取得分高的句子，使用ROUGE值的方法计算句子的相似性来去除冗余信息，使用新闻发布顺序来对句子进行重排序，最终得到摘要。

5.根据权利要求1所述的基于案件要素句子关联图卷积的案件舆情摘要生成方法，其特征在于：所述步骤1中，案件要素由案件名、案发地、涉案人员和案件描述四种关键词构成。

6.根据权利要求2所述的基于案件要素句子关联图卷积的案件舆情摘要生成方法，其特征在于：所述3种节点共具有6种关系，使用词频-逆文档频率TF-IDF、互信息PMI、同属关系、包含关系来计算边的权重：(Sent，Sent)关系使用是否同属于一篇文本来判断；(Sent，Word)关系使用词频-逆文档频率(TF-IDF)来计算；(Sent，Case)关系使用案件要素是否包含于句子来表示；(Word，Word)关系使用词的互信息(PMI)来计算；(Word，Case)关系使用词和案件要素是否相等来判断；(Case，Case)的关系使用案件要素是否同属于一案件来判断。

7.根据权利要求1所述的基于案件要素句子关联图卷积的案件舆情摘要生成方法，其特征在于：所述按重要性对句子进行排序，通过去重和时序关系调整得到摘要，包括：

(1)对于测试集中不同的文本簇分别进行摘要生成；

(4)重复第二步的操作，直到候选摘要句集合长度超过阈值；