CN110489541A

CN110489541A - 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法

Info

Publication number: CN110489541A
Application number: CN201910680097.8A
Authority: CN
Inventors: 余正涛; 韩鹏宇; 黄于欣; 高盛祥; 郭军军; 王振晗
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-22
Anticipated expiration: 2039-07-26
Also published as: CN110489541B

Abstract

本发明涉及基于案件要素及BiGRU的涉案舆情新闻文本摘要方法，属于自然语言处理技术领域。本发明首先构建涉案舆情新闻摘要数据集并定义相关案件要素，然后通过注意力机制将案件要素信息融入新闻文本的词、句子双层编码过程中，生成带有案件要素信息的新闻文本表征，最后利用多特征分类层对句子进行分类，得到摘要。本发明实现了从涉及特定案件的舆情新闻文本中，获取重要信息作为其简短摘要。对于相关人员快速掌控舆情态势有着重要的作用。

Description

基于案件要素及BiGRU的涉案舆情新闻文本摘要方法

技术领域

本发明涉及基于案件要素及BiGRU的涉案舆情新闻文本摘要方法，属于自然语言处理技术领域。

背景技术

涉案舆情是指与司法案件相关的互联网舆情。与一般的新闻舆情相比，涉案舆情具有敏感性、特殊性，极易诱发群体性事件，产生严重的社会不良影响。因此快速准确地获取舆情信息，掌控舆情发展动向对于防范和化解舆情风险至关重要。文本摘要任务，通过提取能够概括文本语义的核心句，从而简化新闻文本长度，可以有效地帮助用户在大量的舆情数据中获取舆情事件关键信息。通用的文本摘要方法通常关注开放域文本摘要任务，不能很好地利用领域知识来指导摘要的生成过程，而涉案舆情新闻文本通常具有和特定案件相关的主题信息，可以通过一些案件要素来指导得到更贴近于涉案领域新闻文本主题的摘要。

发明内容

本发明提供了基于案件要素及BiGRU的涉案舆情新闻文本摘要方法，用词、句子双层编码来对文本信息进行标注，在词、句子编码层分别采用注意力机制来融入案件要素信息，和一般的基于神经网络的方法相比，ROUGE的F值提高了。

本发明的技术方案是：基于案件要素及BiGRU的涉案舆情新闻文本摘要方法，所述基于案件要素及BiGRU的涉案舆情新闻文本摘要方法的具体步骤如下：

Step1、涉案舆情新闻文本的获取；采用基于Scrapy框架的爬虫从互联网上搜集相关新闻，构建涉案舆情新闻文本数据集。对每一篇新闻文档和案件之间的关系再进行分析和校对，得到每篇文档和一个案件对应的关系。对文本标题逐条进行人工修改校对，然后以修改后的文本标题作为参考摘要；

Step2、对训练数据进行标记：对比每一个句子和摘要句的ROUGE值，采用一种贪婪搜索的方法来寻找最优组合，以此来标记句子是否为摘要句来形成训练数据语料。

Step3、案件要素构建；

通过对中国裁判文书网中案件要素构成的分析，同时综合考虑新闻文本的舆情特点，定义了“案件名，案发地，涉案人员，案件描述，关键词”五个要素作为案件要素。针对同一案件除了具有特定案件相关的主题信息外，不同文章往往也会有不同侧重点的特点，采用TextRank算法对每个文档同时提取出5个最重要的关键词，用来表征不同新闻文本所具有的不同的主题信息，共同组成和特定涉案舆情新闻文本相关的案件要素。以榆林产妇坠楼事件为例，具体如下表1所示：

表1案件要素表

要素名	关键词
		案件名	榆林产妇坠楼事件
案发地	榆林、医院
		涉案人员	产妇、护士、家属
案件描述	坠楼
		关键词	马某某、榆林、瞬间、产妇、监控

这里，“案发地”包括案发的城市地区和案发的具体场所，例如“榆林、医院”等。“涉案人员”不仅仅局限于受害人与嫌疑人，而是包括关键证人，相关家属等所有与案件相关人员。“案件描述”是指发生的是什么事情，例如杀人，跳楼等。“关键词”是指同一个案件下不同新闻文本所对应的不同的关键词。

Step4、文本特征表示；通过使用词、句子双层循环门控神经网络BiGRU将句子和文本编码成向量，得到句子和文本的向量表示，来提取文本特征；

Step5、使用注意力机制将案件要素融入词、句子编码层得到带有案件要素注意力的句子向量和文本向量；

Step6、使用句子信息、句子位置信息、句子显著性信息、句子新颖度信息等多特征输入到softmax分类层来对句子进行分类，获得最终的分类结果。

作为本发明的优选方案，所述步骤Step4中：

Step4.1、编码层的输入是一篇含有l个句子的文本d＝{s₁,...s_i,...s_l}，其中s_i表示文档中第i个句子，每个句子由m个词组成s_j＝{w₁,...w_i,...w_m}；其中w_i表示第j个句子中第i个词；

Step4.2、在词编码层，将句子中每一个词的词向量按顺序送入一个由BiGRU单元构成的神经网络，得到词的隐层向量是句子中第i个词的隐层向量表示；这一阶段的每个步骤中，前向GRU基于当前输入w_i和先前隐状态向量计算当前的前向隐层向量还从w_m到w₁反向运行第二个GRU来生成后向隐层向量表示如公式(1)(2)所示：

Step4.3、最后，通过拼接前向隐层向量和后向隐层向量得到句子s_i的新表示

Step4.4、相似的，文档中每一个句子的表示，又作为句子编码器的输入；句子编码器同样采用一个BiGRU结构的神经网络，每一个GRU单元输入的是当前句子编码和是上一GRU单元句子的隐层表示拼接双向句子隐层向量后最终得到文档的编码向量d'：

其中，W_d和b_d是参数，l是文档中句子数；

通过词、句子双层编码器能得到句子和文本的向量表示。

作为本发明的优选方案，所述步骤Step5中，具体包括：

将Step3中得到的案件要素当作一个序列，通过一个BiGRU网络编码为一个向量；在Step4的基础上，分别在词、句子两个编码层利用注意力机制融入案件要素信息，得到带有案件要素注意力的句子向量和文本向量。

作为本发明的优选方案，所述步骤Step5的具体步骤如下：

Step5.1、将一个新闻文本对应的案件要素构成一个集合k＝{k₁,...k_i,...k_n}作为输入，其中n为案件要素的总数；采用与词编码层一样的词向量对k_i进行表示；将k通过一层BiGRU变换，得到的输出作为注意力向量q：

将k按顺序送入一个BiGRU单元，得到每一个时间步的隐层状态最终采用average polling计算所有的平均值得到注意力向量q：

这里，W_k和b_k是参数，l是文档中句子数；

Step5.2、在词编码层得到句子向量的过程中，通过案件要素注意力向量q，和每个词计算注意力权重得到然后计算出融合案件要素信息的当前文档的第i个句子的隐层向量

其中，m是当前句子的长度，是当前句子第i个词的隐层向量表示；是融合案件要素信息的当前文档第i个句子的隐层向量；

Step5.2、在句子编码层的得到文档的编码向量d的时候，首先通过案件要素注意力向量q，和每个句子计算权重得到然后融合案件要素的信息和句子信息生成当前文档的向量表示d：

这里，是融合案件要素信息的当前文档第i个句子的隐层向量，l表示当前文档共有l个句子；经过Step 5能得到含融合案件要素信息的句子向量表示和文本向量表示。

作为本发明的优选方案，所述步骤Step6中具体包括：

利用Step5中得到的带有案件要素注意力的句子向量和文档向量计算出来句子的显著性特征，利用句子在文本中的位置计算出绝对位置和相对位置特征，采用Nallapati的思想通过之前句子的加权和当前句子信息得到句子的新颖性特征，综合句子信息和以上多种特征对句子进行分类。

作为本发明的优选方案，所述步骤Step6的具体步骤如下：

Step6.1、通过融合案件要素信息的当前文档的第i个句子的隐层向量h_i和文本向量表示d求得句子显著性信息salience：

使用融合案件要素信息的当前文档的第i个句子的隐层向量h_i和之前句子信息的加权和s_j计算得到当前句子和前文的重复信息，减去重复的信息就能得到当前句子的新颖度novelty：

其中，h_i是融合案件要素信息的当前文档的第i个句子的隐层向量，d是融合案件要素信息的当前文本向量表示，W_s，W_r是一个参数矩阵；

最终使用公式(13)来对句子进行分类

其中，h_i是融合案件要素信息的第i个句子的隐层向量，W_c h_i是当前的句子信息，salience表示第i个句子在整篇文章中的显著性信息，novelty表示第i个句子和前面句子相比所具有的新颖度信息，W_c是参数矩阵，分别第i个句子绝对位置和相对位置的信息，W_ap、W_rp是对应的参数矩阵；

最终的句子被分为两种标签，是摘要句和不是摘要句，针对这样的二分类的问题，选择交叉熵作为损失函数：

这里N表示文档的数量，l表示每个文本句子数。

本发明的有益效果是：

1、本发明实现了从涉及特定案件的舆情新闻文本中，获取重要信息作为其简短摘要；对于相关人员快速掌控舆情态势有着重要的作用，解决了针对涉案舆情的特定领域新闻文本摘要任务如何融入领域知识的问题；

2、本发明用词、句子双层编码来对文本信息进行标注，在词、句子编码层分别采用注意力机制来融入案件要素信息；通过一些案件要素来指导得到更贴近于涉案领域新闻文本主题的摘要；

3、本发明能够较好的将案件要素的信息融入到摘要的生成中，案件要素对于摘要句的提取有着很好的指导作用，使摘要的生成更接近特定案件相关的主题；

4、针对涉案舆情新闻特定领域的摘要任务，和一般基于神经网络的方法SummaRuNNer相比，ROUGE的F值提高了3.41个百分点。

附图说明

图1为本发明中的模型具体结构图；

图2为本发明中的总的流程图。

具体实施方式

实施例1：如图1-2所示，基于案件要素及BiGRU的涉案舆情新闻文本摘要方法，所述基于案件要素及BiGRU的涉案舆情新闻文本摘要方法的具体步骤如下：

Step1、涉案舆情新闻文本的获取；采用基于Scrapy框架的爬虫从互联网上搜集相关新闻，并进行人工校对处理，构建涉案舆情新闻文本数据集。数据集相关信息如表2所示：

表2数据集

	文本数	平均句子数	平均文本长度
				训练集	17434	15.38	776
验证集	1000	16.46	776
				测试集	1000	14.42	722

Step2、对训练数据进行标记；

采用一种贪婪搜索的方法，通过文档中的句子和人工摘要的ROUGE评分，来寻找一个得分最高的句子组合作为摘要句。首先选取一个评分最高的句子加入到摘要集合内，然后在摘要集合中一次添加一个句子，观察集合的ROUGE得分是否上升。若上升，则将新句子加入到集合中，直到遍历完所有剩余的句子。最终，这个集合当中的句子都标记为1，其余的标记为0，用这样的数据来作为我们的训练数据数据

Step3、案件要素构建；把“案件名，案发地，涉案人员，案件描述，关键词”作为案件要素，其中关键词是采用TextRank方法从新闻文本中抽取出来的5个关键词，用于表征不同新闻文本所具有的不同的主题信息。

作为本发明的优选方案，所述步骤Step4中：

其中，W_d和b_d是参数，l是文档中句子数；

通过词、句子双层编码器能得到句子和文本的向量表示。

作为本发明的优选方案，所述步骤Step5中，具体包括：

作为本发明的优选方案，所述步骤Step5的具体步骤如下：

这里，W_k和b_k是参数，l是文档中句子数；

作为本发明的优选方案，所述步骤Step6中具体包括：

作为本发明的优选方案，所述步骤Step6的具体步骤如下：

最终使用公式(13)来对句子进行分类

这里N表示文档的数量，l表示每个文本句子数。

为了说明本发明的性能，实验设置了3组对比实验。第一组实验验证本文方法和5个基准实验性能。第二组实验验证案件要素和关键词对模型性能提升的效果。第三组实验验证词、句子编码层融入案件要素的有效性。实例分析选取了5个基准实验和本文方法的摘要实例进行对比分析。

特别说明：

GRUkey_Attn_all表示本文所述方法中案件要素仅使用了关键词时所作的实验；

GRUcase_(-)_Attn_all表示本文所述方法中案件要素中不用关键词时所作的实验；

GRUcase_Attn_all表示本文所述方法所作的实验；

GRUcase_Attn_word表示本文所述方法中仅在词编码层引入案件要素所作的实验；

GRUcase_Attn_sent表示本文所述方法中仅在句子编码层引入案件要素所作的实验。

表3本文方法与其它模型实验对比结果

模型	ROUGE-1	ROUGE-2	ROUGE-L
				LexPageRank	19.18	8.83	13.38
Submodular	19.38	8.83	13.38
				LEAD3	19.62	8.81	10.04
TextRank	23.09	12.25	19.94
				SummaRuNNer	25.53	14.11	18.52
GRUcase_Attn<sub>all</sub>	28.94	15.89	20.87

表3的实验数据说明：1)在采用ROUGE的F值的评价方法中，采用神经网络的模型比基于特征和基于图的模型平均要高出6到9个百分点，说明在自动摘要任务中，基于神经网络的方法更有效。2)GRUcase_Attn_all和SummaRuNNer对比，ROUGE-1提高了3.4个百分点，ROUGE-2提高了4.2个百分点，ROUGE-L提高了2.2个百分点。3)结果表明案件要素通过注意力机制融入到文档编码中和分类中，可以较好地提高模型的摘要效果。

表4案件要素有效性实验对比结果

模型	ROUGE-1	ROUGE-2	ROUGE-L
				GRU	25.53	14.11	18.52
GRUkey_Attn<sub>all</sub>	26.21	14.52	18.54
				GRUcase<sub>(-)</sub>_Attn<sub>all</sub>	27.38	15.43	19.86
GRUcase_Attn<sub>all</sub>	28.94	15.89	20.87

表4的实验数据说明：1)融入案件要素(案件名，案发地，涉案人员，案件描述)或关键词都可以使模型效果有一定的提升。2)融入案件要素(案件名，案发地，涉案人员，案件描述)比仅融入关键词的效果要好，充分体现了案件要素对涉案舆情新闻文本摘要的指导作用。

表5不同层融入案件要素注意力实验对比结果

模型	ROUGE-1	ROUGE-2	ROUGE-L
				GRU	25.53	14.11	18.52
GRUcase_Attn<sub>word</sub>	26.71	14.94	18.46
				GRUcase_Attn<sub>sent</sub>	28.04	15.01	20.25
GRUcase_Attn<sub>all</sub>	28.94	15.89	20.87

表5的实验数据表明：单独使用句子级注意力机制效果略优于词级注意力机制，因为该模型将案件要素关键词编码为注意力向量q。在模型上，q和句子的隐层向量有着相似的地位。而且，在多特征分类层都也都是对句子级别的信息进行的处理。因此，该组对比实验表明本文提出的基于案件要素的注意力方法能够较好的将案件要素的信息融入到摘要的生成中，使摘要的生成更接近特定案件相关的主题。

通过以上实验数据和分析，该方法通过构建相关的案件要素，并使用注意力机制将这些案件要素融入摘要句的分类的过程。实验结果表明，针对涉案领域的新闻摘要任务，案件要素对于摘要句的提取有着很好的指导作用，基于案件要素的注意力的方法也是有效的融入方法。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于案件要素及BiGRU的涉案舆情新闻文本摘要方法，其特征在于：

所述基于案件要素及BiGRU的涉案舆情新闻文本摘要方法的具体步骤如下：

Step1、涉案舆情新闻文本的获取；

Step2、对训练数据进行标记；

Step3、案件要素构建；

Step6、使用句子信息、句子位置信息、句子显著性信息、句子新颖度信息输入到softmax分类层来对句子进行分类，获得最终的分类结果。

2.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法，其特征在于：所述步骤Step1中，采用基于Scrapy框架的爬虫从互联网上搜集相关新闻，并进行人工校对处理，构建涉案舆情新闻文本数据集。

3.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法，其特征在于：所述步骤Step2中，具体包括：

对比每一个句子和摘要句的ROUGE值，采用一种贪婪搜索的方法来寻找最优组合，以此来标记句子是否为摘要句来形成训练数据语料。

4.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法，其特征在于：所述步骤Step3中，具体包括：

把“案件名，案发地，涉案人员，案件描述，关键词”作为案件要素，其中关键词是采用TextRank方法从新闻文本中抽取出来的5个关键词，用于表征不同新闻文本所具有的不同的主题信息。

5.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法，其特征在于：所述步骤Step4中：

Step4.2、在词编码层，将句子中每一个词的词向量按顺序送入一个由BiGRU单元构成的神经网络，得到词的隐层向量h_i ^w是句子中第i个词的隐层向量表示；这一阶段的每个步骤中，前向GRU基于当前输入w_i和先前隐状态向量计算当前的前向隐层向量还从w_m到w₁反向运行第二个GRU来生成后向隐层向量表示如公式(1)(2)所示：

Step4.3、最后，通过拼接前向隐层向量和后向隐层向量得到句子s_i的新表示h_i ^s：

Step4.4、相似的，文档中每一个句子的h_i ^s表示，又作为句子编码器的输入；句子编码器同样采用一个BiGRU结构的神经网络，每一个GRU单元输入的是当前句子编码和是上一GRU单元句子的隐层表示拼接双向句子隐层向量后最终得到文档的编码向量d'：

其中，W_d和b_d是参数，l是文档中句子数；

通过词、句子双层编码器能得到句子和文本的向量表示。

6.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法，其特征在于：所述步骤Step5中，具体包括：

7.根据权利要求1或6所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法，其特征在于：所述步骤Step5的具体步骤如下：

将k按顺序送入一个BiGRU单元，得到每一个时间步的隐层状态h_i ^k，最终采用averagepolling计算所有h_i ^k的平均值得到注意力向量q：

这里，W_k和b_k是参数，l是文档中句子数；

其中，m是当前句子的长度，h_i ^w是当前句子第i个词的隐层向量表示；是融合案件要素信息的当前文档第i个句子的隐层向量；

8.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法，其特征在于：

所述步骤Step6中具体包括：

9.根据权利要求1或8所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法，其特征在于：

所述步骤Step6的具体步骤如下：

最终使用公式(13)来对句子进行分类

其中，h_i是融合案件要素信息的第i个句子的隐层向量，W_c h_i是当前的句子信息，salience表示第i个句子在整篇文章中的显著性信息，novelty表示第i个句子和前面句子相比所具有的新颖度信息，W_c是参数矩阵，P_i ^a分别P_i ^r第i个句子绝对位置和相对位置的信息，W_ap、W_rp是对应的参数矩阵；

这里N表示文档的数量，l表示每个文本句子数。