CN110489541A - 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法 - Google Patents
基于案件要素及BiGRU的涉案舆情新闻文本摘要方法 Download PDFInfo
- Publication number
- CN110489541A CN110489541A CN201910680097.8A CN201910680097A CN110489541A CN 110489541 A CN110489541 A CN 110489541A CN 201910680097 A CN201910680097 A CN 201910680097A CN 110489541 A CN110489541 A CN 110489541A
- Authority
- CN
- China
- Prior art keywords
- sentence
- case
- vector
- case element
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000004927 fusion Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,属于自然语言处理技术领域。本发明首先构建涉案舆情新闻摘要数据集并定义相关案件要素,然后通过注意力机制将案件要素信息融入新闻文本的词、句子双层编码过程中,生成带有案件要素信息的新闻文本表征,最后利用多特征分类层对句子进行分类,得到摘要。本发明实现了从涉及特定案件的舆情新闻文本中,获取重要信息作为其简短摘要。对于相关人员快速掌控舆情态势有着重要的作用。
Description
技术领域
本发明涉及基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,属于自然语言处理技术领域。
背景技术
涉案舆情是指与司法案件相关的互联网舆情。与一般的新闻舆情相比,涉案舆情具有敏感性、特殊性,极易诱发群体性事件,产生严重的社会不良影响。因此快速准确地获取舆情信息,掌控舆情发展动向对于防范和化解舆情风险至关重要。文本摘要任务,通过提取能够概括文本语义的核心句,从而简化新闻文本长度,可以有效地帮助用户在大量的舆情数据中获取舆情事件关键信息。通用的文本摘要方法通常关注开放域文本摘要任务,不能很好地利用领域知识来指导摘要的生成过程,而涉案舆情新闻文本通常具有和特定案件相关的主题信息,可以通过一些案件要素来指导得到更贴近于涉案领域新闻文本主题的摘要。
发明内容
本发明提供了基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,用词、句子双层编码来对文本信息进行标注,在词、句子编码层分别采用注意力机制来融入案件要素信息,和一般的基于神经网络的方法相比,ROUGE的F值提高了。
本发明的技术方案是:基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,所述基于案件要素及BiGRU的涉案舆情新闻文本摘要方法的具体步骤如下:
Step1、涉案舆情新闻文本的获取;采用基于Scrapy框架的爬虫从互联网上搜集相关新闻,构建涉案舆情新闻文本数据集。对每一篇新闻文档和案件之间的关系再进行分析和校对,得到每篇文档和一个案件对应的关系。对文本标题逐条进行人工修改校对,然后以修改后的文本标题作为参考摘要;
Step2、对训练数据进行标记:对比每一个句子和摘要句的ROUGE值,采用一种贪婪搜索的方法来寻找最优组合,以此来标记句子是否为摘要句来形成训练数据语料。
Step3、案件要素构建;
通过对中国裁判文书网中案件要素构成的分析,同时综合考虑新闻文本的舆情特点,定义了“案件名,案发地,涉案人员,案件描述,关键词”五个要素作为案件要素。针对同一案件除了具有特定案件相关的主题信息外,不同文章往往也会有不同侧重点的特点,采用TextRank算法对每个文档同时提取出5个最重要的关键词,用来表征不同新闻文本所具有的不同的主题信息,共同组成和特定涉案舆情新闻文本相关的案件要素。以榆林产妇坠楼事件为例,具体如下表1所示:
表1案件要素表
要素名 | 关键词 |
案件名 | 榆林产妇坠楼事件 |
案发地 | 榆林、医院 |
涉案人员 | 产妇、护士、家属 |
案件描述 | 坠楼 |
关键词 | 马某某、榆林、瞬间、产妇、监控 |
这里,“案发地”包括案发的城市地区和案发的具体场所,例如“榆林、医院”等。“涉案人员”不仅仅局限于受害人与嫌疑人,而是包括关键证人,相关家属等所有与案件相关人员。“案件描述”是指发生的是什么事情,例如杀人,跳楼等。“关键词”是指同一个案件下不同新闻文本所对应的不同的关键词。
Step4、文本特征表示;通过使用词、句子双层循环门控神经网络BiGRU将句子和文本编码成向量,得到句子和文本的向量表示,来提取文本特征;
Step5、使用注意力机制将案件要素融入词、句子编码层得到带有案件要素注意力的句子向量和文本向量;
Step6、使用句子信息、句子位置信息、句子显著性信息、句子新颖度信息等多特征输入到softmax分类层来对句子进行分类,获得最终的分类结果。
作为本发明的优选方案,所述步骤Step4中:
Step4.1、编码层的输入是一篇含有l个句子的文本d={s1,...si,...sl},其中si表示文档中第i个句子,每个句子由m个词组成sj={w1,...wi,...wm};其中wi表示第j个句子中第i个词;
Step4.2、在词编码层,将句子中每一个词的词向量按顺序送入一个由BiGRU单元构成的神经网络,得到词的隐层向量是句子中第i个词的隐层向量表示;这一阶段的每个步骤中,前向GRU基于当前输入wi和先前隐状态向量计算当前的前向隐层向量还从wm到w1反向运行第二个GRU来生成后向隐层向量表示如公式(1)(2)所示:
Step4.3、最后,通过拼接前向隐层向量和后向隐层向量得到句子si的新表示
Step4.4、相似的,文档中每一个句子的表示,又作为句子编码器的输入;句子编码器同样采用一个BiGRU结构的神经网络,每一个GRU单元输入的是当前句子编码和是上一GRU单元句子的隐层表示拼接双向句子隐层向量后最终得到文档的编码向量d':
其中,Wd和bd是参数,l是文档中句子数;
通过词、句子双层编码器能得到句子和文本的向量表示。
作为本发明的优选方案,所述步骤Step5中,具体包括:
将Step3中得到的案件要素当作一个序列,通过一个BiGRU网络编码为一个向量;在Step4的基础上,分别在词、句子两个编码层利用注意力机制融入案件要素信息,得到带有案件要素注意力的句子向量和文本向量。
作为本发明的优选方案,所述步骤Step5的具体步骤如下:
Step5.1、将一个新闻文本对应的案件要素构成一个集合k={k1,...ki,...kn}作为输入,其中n为案件要素的总数;采用与词编码层一样的词向量对ki进行表示;将k通过一层BiGRU变换,得到的输出作为注意力向量q:
将k按顺序送入一个BiGRU单元,得到每一个时间步的隐层状态最终采用average polling计算所有的平均值得到注意力向量q:
这里,Wk和bk是参数,l是文档中句子数;
Step5.2、在词编码层得到句子向量的过程中,通过案件要素注意力向量q,和每个词计算注意力权重得到然后计算出融合案件要素信息的当前文档的第i个句子的隐层向量
其中,m是当前句子的长度,是当前句子第i个词的隐层向量表示;是融合案件要素信息的当前文档第i个句子的隐层向量;
Step5.2、在句子编码层的得到文档的编码向量d的时候,首先通过案件要素注意力向量q,和每个句子计算权重得到然后融合案件要素的信息和句子信息生成当前文档的向量表示d:
这里,是融合案件要素信息的当前文档第i个句子的隐层向量,l表示当前文档共有l个句子;经过Step 5能得到含融合案件要素信息的句子向量表示和文本向量表示。
作为本发明的优选方案,所述步骤Step6中具体包括:
利用Step5中得到的带有案件要素注意力的句子向量和文档向量计算出来句子的显著性特征,利用句子在文本中的位置计算出绝对位置和相对位置特征,采用Nallapati的思想通过之前句子的加权和当前句子信息得到句子的新颖性特征,综合句子信息和以上多种特征对句子进行分类。
作为本发明的优选方案,所述步骤Step6的具体步骤如下:
Step6.1、通过融合案件要素信息的当前文档的第i个句子的隐层向量hi和文本向量表示d求得句子显著性信息salience:
使用融合案件要素信息的当前文档的第i个句子的隐层向量hi和之前句子信息的加权和sj计算得到当前句子和前文的重复信息,减去重复的信息就能得到当前句子的新颖度novelty:
其中,hi是融合案件要素信息的当前文档的第i个句子的隐层向量,d是融合案件要素信息的当前文本向量表示,Ws,Wr是一个参数矩阵;
最终使用公式(13)来对句子进行分类
其中,hi是融合案件要素信息的第i个句子的隐层向量,Wc hi是当前的句子信息,salience表示第i个句子在整篇文章中的显著性信息,novelty表示第i个句子和前面句子相比所具有的新颖度信息,Wc是参数矩阵,分别第i个句子绝对位置和相对位置的信息,Wap、Wrp是对应的参数矩阵;
最终的句子被分为两种标签,是摘要句和不是摘要句,针对这样的二分类的问题,选择交叉熵作为损失函数:
这里N表示文档的数量,l表示每个文本句子数。
本发明的有益效果是:
1、本发明实现了从涉及特定案件的舆情新闻文本中,获取重要信息作为其简短摘要;对于相关人员快速掌控舆情态势有着重要的作用,解决了针对涉案舆情的特定领域新闻文本摘要任务如何融入领域知识的问题;
2、本发明用词、句子双层编码来对文本信息进行标注,在词、句子编码层分别采用注意力机制来融入案件要素信息;通过一些案件要素来指导得到更贴近于涉案领域新闻文本主题的摘要;
3、本发明能够较好的将案件要素的信息融入到摘要的生成中,案件要素对于摘要句的提取有着很好的指导作用,使摘要的生成更接近特定案件相关的主题;
4、针对涉案舆情新闻特定领域的摘要任务,和一般基于神经网络的方法SummaRuNNer相比,ROUGE的F值提高了3.41个百分点。
附图说明
图1为本发明中的模型具体结构图;
图2为本发明中的总的流程图。
具体实施方式
实施例1:如图1-2所示,基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,所述基于案件要素及BiGRU的涉案舆情新闻文本摘要方法的具体步骤如下:
Step1、涉案舆情新闻文本的获取;采用基于Scrapy框架的爬虫从互联网上搜集相关新闻,并进行人工校对处理,构建涉案舆情新闻文本数据集。数据集相关信息如表2所示:
表2数据集
文本数 | 平均句子数 | 平均文本长度 | |
训练集 | 17434 | 15.38 | 776 |
验证集 | 1000 | 16.46 | 776 |
测试集 | 1000 | 14.42 | 722 |
Step2、对训练数据进行标记;
采用一种贪婪搜索的方法,通过文档中的句子和人工摘要的ROUGE评分,来寻找一个得分最高的句子组合作为摘要句。首先选取一个评分最高的句子加入到摘要集合内,然后在摘要集合中一次添加一个句子,观察集合的ROUGE得分是否上升。若上升,则将新句子加入到集合中,直到遍历完所有剩余的句子。最终,这个集合当中的句子都标记为1,其余的标记为0,用这样的数据来作为我们的训练数据数据
Step3、案件要素构建;把“案件名,案发地,涉案人员,案件描述,关键词”作为案件要素,其中关键词是采用TextRank方法从新闻文本中抽取出来的5个关键词,用于表征不同新闻文本所具有的不同的主题信息。
Step4、文本特征表示;通过使用词、句子双层循环门控神经网络BiGRU将句子和文本编码成向量,得到句子和文本的向量表示,来提取文本特征;
Step5、使用注意力机制将案件要素融入词、句子编码层得到带有案件要素注意力的句子向量和文本向量;
Step6、使用句子信息、句子位置信息、句子显著性信息、句子新颖度信息等多特征输入到softmax分类层来对句子进行分类,获得最终的分类结果。
作为本发明的优选方案,所述步骤Step4中:
Step4.1、编码层的输入是一篇含有l个句子的文本d={s1,...si,...sl},其中si表示文档中第i个句子,每个句子由m个词组成sj={w1,...wi,...wm};其中wi表示第j个句子中第i个词;
Step4.2、在词编码层,将句子中每一个词的词向量按顺序送入一个由BiGRU单元构成的神经网络,得到词的隐层向量是句子中第i个词的隐层向量表示;这一阶段的每个步骤中,前向GRU基于当前输入wi和先前隐状态向量计算当前的前向隐层向量还从wm到w1反向运行第二个GRU来生成后向隐层向量表示如公式(1)(2)所示:
Step4.3、最后,通过拼接前向隐层向量和后向隐层向量得到句子si的新表示
Step4.4、相似的,文档中每一个句子的表示,又作为句子编码器的输入;句子编码器同样采用一个BiGRU结构的神经网络,每一个GRU单元输入的是当前句子编码和是上一GRU单元句子的隐层表示拼接双向句子隐层向量后最终得到文档的编码向量d':
其中,Wd和bd是参数,l是文档中句子数;
通过词、句子双层编码器能得到句子和文本的向量表示。
作为本发明的优选方案,所述步骤Step5中,具体包括:
将Step3中得到的案件要素当作一个序列,通过一个BiGRU网络编码为一个向量;在Step4的基础上,分别在词、句子两个编码层利用注意力机制融入案件要素信息,得到带有案件要素注意力的句子向量和文本向量。
作为本发明的优选方案,所述步骤Step5的具体步骤如下:
Step5.1、将一个新闻文本对应的案件要素构成一个集合k={k1,...ki,...kn}作为输入,其中n为案件要素的总数;采用与词编码层一样的词向量对ki进行表示;将k通过一层BiGRU变换,得到的输出作为注意力向量q:
将k按顺序送入一个BiGRU单元,得到每一个时间步的隐层状态最终采用average polling计算所有的平均值得到注意力向量q:
这里,Wk和bk是参数,l是文档中句子数;
Step5.2、在词编码层得到句子向量的过程中,通过案件要素注意力向量q,和每个词计算注意力权重得到然后计算出融合案件要素信息的当前文档的第i个句子的隐层向量
其中,m是当前句子的长度,是当前句子第i个词的隐层向量表示;是融合案件要素信息的当前文档第i个句子的隐层向量;
Step5.2、在句子编码层的得到文档的编码向量d的时候,首先通过案件要素注意力向量q,和每个句子计算权重得到然后融合案件要素的信息和句子信息生成当前文档的向量表示d:
这里,是融合案件要素信息的当前文档第i个句子的隐层向量,l表示当前文档共有l个句子;经过Step 5能得到含融合案件要素信息的句子向量表示和文本向量表示。
作为本发明的优选方案,所述步骤Step6中具体包括:
利用Step5中得到的带有案件要素注意力的句子向量和文档向量计算出来句子的显著性特征,利用句子在文本中的位置计算出绝对位置和相对位置特征,采用Nallapati的思想通过之前句子的加权和当前句子信息得到句子的新颖性特征,综合句子信息和以上多种特征对句子进行分类。
作为本发明的优选方案,所述步骤Step6的具体步骤如下:
Step6.1、通过融合案件要素信息的当前文档的第i个句子的隐层向量hi和文本向量表示d求得句子显著性信息salience:
使用融合案件要素信息的当前文档的第i个句子的隐层向量hi和之前句子信息的加权和sj计算得到当前句子和前文的重复信息,减去重复的信息就能得到当前句子的新颖度novelty:
其中,hi是融合案件要素信息的当前文档的第i个句子的隐层向量,d是融合案件要素信息的当前文本向量表示,Ws,Wr是一个参数矩阵;
最终使用公式(13)来对句子进行分类
其中,hi是融合案件要素信息的第i个句子的隐层向量,Wc hi是当前的句子信息,salience表示第i个句子在整篇文章中的显著性信息,novelty表示第i个句子和前面句子相比所具有的新颖度信息,Wc是参数矩阵,分别第i个句子绝对位置和相对位置的信息,Wap、Wrp是对应的参数矩阵;
最终的句子被分为两种标签,是摘要句和不是摘要句,针对这样的二分类的问题,选择交叉熵作为损失函数:
这里N表示文档的数量,l表示每个文本句子数。
为了说明本发明的性能,实验设置了3组对比实验。第一组实验验证本文方法和5个基准实验性能。第二组实验验证案件要素和关键词对模型性能提升的效果。第三组实验验证词、句子编码层融入案件要素的有效性。实例分析选取了5个基准实验和本文方法的摘要实例进行对比分析。
特别说明:
GRUkey_Attnall表示本文所述方法中案件要素仅使用了关键词时所作的实验;
GRUcase(-)_Attnall表示本文所述方法中案件要素中不用关键词时所作的实验;
GRUcase_Attnall表示本文所述方法所作的实验;
GRUcase_Attnword表示本文所述方法中仅在词编码层引入案件要素所作的实验;
GRUcase_Attnsent表示本文所述方法中仅在句子编码层引入案件要素所作的实验。
表3本文方法与其它模型实验对比结果
模型 | ROUGE-1 | ROUGE-2 | ROUGE-L |
LexPageRank | 19.18 | 8.83 | 13.38 |
Submodular | 19.38 | 8.83 | 13.38 |
LEAD3 | 19.62 | 8.81 | 10.04 |
TextRank | 23.09 | 12.25 | 19.94 |
SummaRuNNer | 25.53 | 14.11 | 18.52 |
GRUcase_Attn<sub>all</sub> | 28.94 | 15.89 | 20.87 |
表3的实验数据说明:1)在采用ROUGE的F值的评价方法中,采用神经网络的模型比基于特征和基于图的模型平均要高出6到9个百分点,说明在自动摘要任务中,基于神经网络的方法更有效。2)GRUcase_Attnall和SummaRuNNer对比,ROUGE-1提高了3.4个百分点,ROUGE-2提高了4.2个百分点,ROUGE-L提高了2.2个百分点。3)结果表明案件要素通过注意力机制融入到文档编码中和分类中,可以较好地提高模型的摘要效果。
表4案件要素有效性实验对比结果
模型 | ROUGE-1 | ROUGE-2 | ROUGE-L |
GRU | 25.53 | 14.11 | 18.52 |
GRUkey_Attn<sub>all</sub> | 26.21 | 14.52 | 18.54 |
GRUcase<sub>(-)</sub>_Attn<sub>all</sub> | 27.38 | 15.43 | 19.86 |
GRUcase_Attn<sub>all</sub> | 28.94 | 15.89 | 20.87 |
表4的实验数据说明:1)融入案件要素(案件名,案发地,涉案人员,案件描述)或关键词都可以使模型效果有一定的提升。2)融入案件要素(案件名,案发地,涉案人员,案件描述)比仅融入关键词的效果要好,充分体现了案件要素对涉案舆情新闻文本摘要的指导作用。
表5不同层融入案件要素注意力实验对比结果
模型 | ROUGE-1 | ROUGE-2 | ROUGE-L |
GRU | 25.53 | 14.11 | 18.52 |
GRUcase_Attn<sub>word</sub> | 26.71 | 14.94 | 18.46 |
GRUcase_Attn<sub>sent</sub> | 28.04 | 15.01 | 20.25 |
GRUcase_Attn<sub>all</sub> | 28.94 | 15.89 | 20.87 |
表5的实验数据表明:单独使用句子级注意力机制效果略优于词级注意力机制,因为该模型将案件要素关键词编码为注意力向量q。在模型上,q和句子的隐层向量有着相似的地位。而且,在多特征分类层都也都是对句子级别的信息进行的处理。因此,该组对比实验表明本文提出的基于案件要素的注意力方法能够较好的将案件要素的信息融入到摘要的生成中,使摘要的生成更接近特定案件相关的主题。
通过以上实验数据和分析,该方法通过构建相关的案件要素,并使用注意力机制将这些案件要素融入摘要句的分类的过程。实验结果表明,针对涉案领域的新闻摘要任务,案件要素对于摘要句的提取有着很好的指导作用,基于案件要素的注意力的方法也是有效的融入方法。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (9)
1.基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,其特征在于:
所述基于案件要素及BiGRU的涉案舆情新闻文本摘要方法的具体步骤如下:
Step1、涉案舆情新闻文本的获取;
Step2、对训练数据进行标记;
Step3、案件要素构建;
Step4、文本特征表示;通过使用词、句子双层循环门控神经网络BiGRU将句子和文本编码成向量,得到句子和文本的向量表示,来提取文本特征;
Step5、使用注意力机制将案件要素融入词、句子编码层得到带有案件要素注意力的句子向量和文本向量;
Step6、使用句子信息、句子位置信息、句子显著性信息、句子新颖度信息输入到softmax分类层来对句子进行分类,获得最终的分类结果。
2.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,其特征在于:所述步骤Step1中,采用基于Scrapy框架的爬虫从互联网上搜集相关新闻,并进行人工校对处理,构建涉案舆情新闻文本数据集。
3.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,其特征在于:所述步骤Step2中,具体包括:
对比每一个句子和摘要句的ROUGE值,采用一种贪婪搜索的方法来寻找最优组合,以此来标记句子是否为摘要句来形成训练数据语料。
4.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,其特征在于:所述步骤Step3中,具体包括:
把“案件名,案发地,涉案人员,案件描述,关键词”作为案件要素,其中关键词是采用TextRank方法从新闻文本中抽取出来的5个关键词,用于表征不同新闻文本所具有的不同的主题信息。
5.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,其特征在于:所述步骤Step4中:
Step4.1、编码层的输入是一篇含有l个句子的文本d={s1,...si,...sl},其中si表示文档中第i个句子,每个句子由m个词组成sj={w1,...wi,...wm};其中wi表示第j个句子中第i个词;
Step4.2、在词编码层,将句子中每一个词的词向量按顺序送入一个由BiGRU单元构成的神经网络,得到词的隐层向量hi w是句子中第i个词的隐层向量表示;这一阶段的每个步骤中,前向GRU基于当前输入wi和先前隐状态向量计算当前的前向隐层向量还从wm到w1反向运行第二个GRU来生成后向隐层向量表示如公式(1)(2)所示:
Step4.3、最后,通过拼接前向隐层向量和后向隐层向量得到句子si的新表示hi s:
Step4.4、相似的,文档中每一个句子的hi s表示,又作为句子编码器的输入;句子编码器同样采用一个BiGRU结构的神经网络,每一个GRU单元输入的是当前句子编码和是上一GRU单元句子的隐层表示拼接双向句子隐层向量后最终得到文档的编码向量d':
其中,Wd和bd是参数,l是文档中句子数;
通过词、句子双层编码器能得到句子和文本的向量表示。
6.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,其特征在于:所述步骤Step5中,具体包括:
将Step3中得到的案件要素当作一个序列,通过一个BiGRU网络编码为一个向量;在Step4的基础上,分别在词、句子两个编码层利用注意力机制融入案件要素信息,得到带有案件要素注意力的句子向量和文本向量。
7.根据权利要求1或6所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,其特征在于:所述步骤Step5的具体步骤如下:
Step5.1、将一个新闻文本对应的案件要素构成一个集合k={k1,...ki,...kn}作为输入,其中n为案件要素的总数;采用与词编码层一样的词向量对ki进行表示;将k通过一层BiGRU变换,得到的输出作为注意力向量q:
将k按顺序送入一个BiGRU单元,得到每一个时间步的隐层状态hi k,最终采用averagepolling计算所有hi k的平均值得到注意力向量q:
这里,Wk和bk是参数,l是文档中句子数;
Step5.2、在词编码层得到句子向量的过程中,通过案件要素注意力向量q,和每个词计算注意力权重得到然后计算出融合案件要素信息的当前文档的第i个句子的隐层向量
其中,m是当前句子的长度,hi w是当前句子第i个词的隐层向量表示;是融合案件要素信息的当前文档第i个句子的隐层向量;
Step5.2、在句子编码层的得到文档的编码向量d的时候,首先通过案件要素注意力向量q,和每个句子计算权重得到然后融合案件要素的信息和句子信息生成当前文档的向量表示d:
这里,是融合案件要素信息的当前文档第i个句子的隐层向量,l表示当前文档共有l个句子;经过Step 5能得到含融合案件要素信息的句子向量表示和文本向量表示。
8.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,其特征在于:
所述步骤Step6中具体包括:
利用Step5中得到的带有案件要素注意力的句子向量和文档向量计算出来句子的显著性特征,利用句子在文本中的位置计算出绝对位置和相对位置特征,采用Nallapati的思想通过之前句子的加权和当前句子信息得到句子的新颖性特征,综合句子信息和以上多种特征对句子进行分类。
9.根据权利要求1或8所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,其特征在于:
所述步骤Step6的具体步骤如下:
Step6.1、通过融合案件要素信息的当前文档的第i个句子的隐层向量hi和文本向量表示d求得句子显著性信息salience:
使用融合案件要素信息的当前文档的第i个句子的隐层向量hi和之前句子信息的加权和sj计算得到当前句子和前文的重复信息,减去重复的信息就能得到当前句子的新颖度novelty:
其中,hi是融合案件要素信息的当前文档的第i个句子的隐层向量,d是融合案件要素信息的当前文本向量表示,Ws,Wr是一个参数矩阵;
最终使用公式(13)来对句子进行分类
其中,hi是融合案件要素信息的第i个句子的隐层向量,Wc hi是当前的句子信息,salience表示第i个句子在整篇文章中的显著性信息,novelty表示第i个句子和前面句子相比所具有的新颖度信息,Wc是参数矩阵,Pi a分别Pi r第i个句子绝对位置和相对位置的信息,Wap、Wrp是对应的参数矩阵;
最终的句子被分为两种标签,是摘要句和不是摘要句,针对这样的二分类的问题,选择交叉熵作为损失函数:
这里N表示文档的数量,l表示每个文本句子数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910680097.8A CN110489541B (zh) | 2019-07-26 | 2019-07-26 | 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910680097.8A CN110489541B (zh) | 2019-07-26 | 2019-07-26 | 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110489541A true CN110489541A (zh) | 2019-11-22 |
CN110489541B CN110489541B (zh) | 2021-02-05 |
Family
ID=68548336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910680097.8A Active CN110489541B (zh) | 2019-07-26 | 2019-07-26 | 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489541B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111260223A (zh) * | 2020-01-17 | 2020-06-09 | 山东省计算中心(国家超级计算济南中心) | 一种审判风险智能识别与预警方法、系统、介质及设备 |
CN111339754A (zh) * | 2020-03-04 | 2020-06-26 | 昆明理工大学 | 基于案件要素句子关联图卷积的案件舆情摘要生成方法 |
CN111382333A (zh) * | 2020-03-11 | 2020-07-07 | 昆明理工大学 | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 |
CN111476483A (zh) * | 2020-04-07 | 2020-07-31 | 南京森林警察学院 | 基于大数据的缉私案件情报关联方法 |
CN111581982A (zh) * | 2020-05-06 | 2020-08-25 | 首都师范大学 | 一种基于本体的医疗纠纷案件舆情预警等级的预测方法 |
CN111597333A (zh) * | 2020-04-27 | 2020-08-28 | 国家计算机网络与信息安全管理中心 | 一种面向区块链领域的事件与事件要素抽取方法及装置 |
CN111597327A (zh) * | 2020-04-22 | 2020-08-28 | 哈尔滨工业大学 | 一种面向舆情分析的无监督式多文档文摘生成方法 |
CN111666756A (zh) * | 2020-05-26 | 2020-09-15 | 湖北工业大学 | 一种基于主题融合的序列模型文本摘要生成方法 |
CN111709230A (zh) * | 2020-04-30 | 2020-09-25 | 昆明理工大学 | 基于词性软模板注意力机制的短文本自动摘要方法 |
CN111832295A (zh) * | 2020-07-08 | 2020-10-27 | 昆明理工大学 | 基于bert预训练模型的刑事案件要素识别方法 |
CN112287105A (zh) * | 2020-09-30 | 2021-01-29 | 昆明理工大学 | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 |
CN112287687A (zh) * | 2020-09-17 | 2021-01-29 | 昆明理工大学 | 基于案件属性感知的案件倾向性抽取式摘要方法 |
CN111538829B (zh) * | 2020-04-27 | 2021-04-20 | 众能联合数字技术有限公司 | 一种新的工程机械租赁场景网页文本关键内容提取方法 |
CN113076483A (zh) * | 2021-04-27 | 2021-07-06 | 昆明理工大学 | 基于案件要素异构图的舆情新闻抽取式摘要方法 |
CN113158079A (zh) * | 2021-04-22 | 2021-07-23 | 昆明理工大学 | 基于差异性案件要素的案件舆情时间线生成方法 |
WO2022228127A1 (zh) * | 2021-04-29 | 2022-11-03 | 京东科技控股股份有限公司 | 要素文本处理方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908694A (zh) * | 2017-11-01 | 2018-04-13 | 平安科技(深圳)有限公司 | 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质 |
CN108197112A (zh) * | 2018-01-19 | 2018-06-22 | 成都睿码科技有限责任公司 | 一种从新闻中提取事件的方法 |
WO2018233647A1 (zh) * | 2017-06-22 | 2018-12-27 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置、计算机设备以及存储介质 |
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
US10242260B1 (en) * | 2017-11-02 | 2019-03-26 | Sap Se | Using machine learning to flag gender biased words within free-form text, such as job descriptions |
CN109726281A (zh) * | 2018-12-12 | 2019-05-07 | Tcl集团股份有限公司 | 一种文本摘要生成方法、智能终端及存储介质 |
-
2019
- 2019-07-26 CN CN201910680097.8A patent/CN110489541B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018233647A1 (zh) * | 2017-06-22 | 2018-12-27 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置、计算机设备以及存储介质 |
CN107908694A (zh) * | 2017-11-01 | 2018-04-13 | 平安科技(深圳)有限公司 | 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质 |
US10242260B1 (en) * | 2017-11-02 | 2019-03-26 | Sap Se | Using machine learning to flag gender biased words within free-form text, such as job descriptions |
CN108197112A (zh) * | 2018-01-19 | 2018-06-22 | 成都睿码科技有限责任公司 | 一种从新闻中提取事件的方法 |
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN109726281A (zh) * | 2018-12-12 | 2019-05-07 | Tcl集团股份有限公司 | 一种文本摘要生成方法、智能终端及存储介质 |
Non-Patent Citations (1)
Title |
---|
叶雷等: "多特征融合的汉越双语新闻摘要方法", 《中文信息学报》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111260223A (zh) * | 2020-01-17 | 2020-06-09 | 山东省计算中心(国家超级计算济南中心) | 一种审判风险智能识别与预警方法、系统、介质及设备 |
CN111339754A (zh) * | 2020-03-04 | 2020-06-26 | 昆明理工大学 | 基于案件要素句子关联图卷积的案件舆情摘要生成方法 |
CN111339754B (zh) * | 2020-03-04 | 2022-06-21 | 昆明理工大学 | 基于案件要素句子关联图卷积的案件舆情摘要生成方法 |
CN111382333A (zh) * | 2020-03-11 | 2020-07-07 | 昆明理工大学 | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 |
CN111382333B (zh) * | 2020-03-11 | 2022-06-21 | 昆明理工大学 | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 |
CN111476483A (zh) * | 2020-04-07 | 2020-07-31 | 南京森林警察学院 | 基于大数据的缉私案件情报关联方法 |
CN111597327A (zh) * | 2020-04-22 | 2020-08-28 | 哈尔滨工业大学 | 一种面向舆情分析的无监督式多文档文摘生成方法 |
CN111538829B (zh) * | 2020-04-27 | 2021-04-20 | 众能联合数字技术有限公司 | 一种新的工程机械租赁场景网页文本关键内容提取方法 |
CN111597333A (zh) * | 2020-04-27 | 2020-08-28 | 国家计算机网络与信息安全管理中心 | 一种面向区块链领域的事件与事件要素抽取方法及装置 |
CN111597333B (zh) * | 2020-04-27 | 2022-08-02 | 国家计算机网络与信息安全管理中心 | 一种面向区块链领域的事件与事件要素抽取方法及装置 |
CN111709230B (zh) * | 2020-04-30 | 2023-04-07 | 昆明理工大学 | 基于词性软模板注意力机制的短文本自动摘要方法 |
CN111709230A (zh) * | 2020-04-30 | 2020-09-25 | 昆明理工大学 | 基于词性软模板注意力机制的短文本自动摘要方法 |
CN111581982B (zh) * | 2020-05-06 | 2023-02-17 | 首都师范大学 | 一种基于本体的医疗纠纷案件舆情预警等级的预测方法 |
CN111581982A (zh) * | 2020-05-06 | 2020-08-25 | 首都师范大学 | 一种基于本体的医疗纠纷案件舆情预警等级的预测方法 |
CN111666756A (zh) * | 2020-05-26 | 2020-09-15 | 湖北工业大学 | 一种基于主题融合的序列模型文本摘要生成方法 |
CN111666756B (zh) * | 2020-05-26 | 2023-12-05 | 湖北工业大学 | 一种基于主题融合的序列模型文本摘要生成方法 |
CN111832295A (zh) * | 2020-07-08 | 2020-10-27 | 昆明理工大学 | 基于bert预训练模型的刑事案件要素识别方法 |
CN112287687A (zh) * | 2020-09-17 | 2021-01-29 | 昆明理工大学 | 基于案件属性感知的案件倾向性抽取式摘要方法 |
CN112287105A (zh) * | 2020-09-30 | 2021-01-29 | 昆明理工大学 | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 |
CN112287105B (zh) * | 2020-09-30 | 2023-09-12 | 昆明理工大学 | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 |
CN113158079A (zh) * | 2021-04-22 | 2021-07-23 | 昆明理工大学 | 基于差异性案件要素的案件舆情时间线生成方法 |
CN113158079B (zh) * | 2021-04-22 | 2022-06-17 | 昆明理工大学 | 基于差异性案件要素的案件舆情时间线生成方法 |
CN113076483A (zh) * | 2021-04-27 | 2021-07-06 | 昆明理工大学 | 基于案件要素异构图的舆情新闻抽取式摘要方法 |
WO2022228127A1 (zh) * | 2021-04-29 | 2022-11-03 | 京东科技控股股份有限公司 | 要素文本处理方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110489541B (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489541A (zh) | 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法 | |
CN108073569B (zh) | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 | |
CN102332028B (zh) | 一种面向网页的不良Web内容识别方法 | |
CN107315738B (zh) | 一种文本信息的创新度评估方法 | |
CN110377738A (zh) | 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法 | |
CN104679825B (zh) | 基于网络文本的地震宏观异常信息获取与筛选方法 | |
WO2021051518A1 (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN111339754B (zh) | 基于案件要素句子关联图卷积的案件舆情摘要生成方法 | |
CN110472047A (zh) | 一种多特征融合的汉越新闻观点句抽取方法 | |
CN108763485A (zh) | 一种基于文本相似度的裁判文书的证据链关系模型构建方法 | |
CN106844632A (zh) | 基于改进支持向量机的产品评论情感分类方法及装置 | |
CN110334213A (zh) | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 | |
CN110347836A (zh) | 融入观点句特征的汉越双语新闻情感分类方法 | |
CN105760439A (zh) | 一种基于特定行为共现网络的人物共现关系图谱构建方法 | |
Scrivens et al. | Searching for extremist content online using the dark crawler and sentiment analysis | |
CN108614855A (zh) | 一种谣言识别方法 | |
CN108595525A (zh) | 一种律师信息处理方法和系统 | |
Aldhaln et al. | Improving knowledge extraction of Hadith classifier using decision tree algorithm | |
CN108681548A (zh) | 一种律师信息处理方法和系统 | |
Ke et al. | Consistsum: Unsupervised opinion summarization with the consistency of aspect, sentiment and semantic | |
CN110046225B (zh) | 一种科技项目材料完整性评估决策模型训练方法 | |
CN109635089A (zh) | 一种基于语义网络的文学作品新颖度评价系统和方法 | |
Pouromid et al. | ParsBERT post-training for sentiment analysis of tweets concerning stock market | |
CN108681977A (zh) | 一种律师信息处理方法和系统 | |
CN106202299A (zh) | 一种基于残疾人特征的残疾人权威用户推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |