CN111339754B - 基于案件要素句子关联图卷积的案件舆情摘要生成方法 - Google Patents

基于案件要素句子关联图卷积的案件舆情摘要生成方法 Download PDF

Info

Publication number
CN111339754B
CN111339754B CN202010141405.2A CN202010141405A CN111339754B CN 111339754 B CN111339754 B CN 111339754B CN 202010141405 A CN202010141405 A CN 202010141405A CN 111339754 B CN111339754 B CN 111339754B
Authority
CN
China
Prior art keywords
sentence
case
sentences
word
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010141405.2A
Other languages
English (en)
Other versions
CN111339754A (zh
Inventor
余正涛
韩鹏宇
黄于欣
高盛祥
郭军军
王振晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010141405.2A priority Critical patent/CN111339754B/zh
Publication of CN111339754A publication Critical patent/CN111339754A/zh
Application granted granted Critical
Publication of CN111339754B publication Critical patent/CN111339754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于案件要素句子关联图卷积的案件舆情摘要生成方法,属于自然语言处理技术领域。本发明融合案件要素和词构建基于案件要素的句子关联图,来表征句子信息和句子之间的关联关系;使用图卷积神经网络学习句子信息和句子之间的关联关系,对句子进行分类,得到每个句子的重要性评分;按重要性对句子进行排序,通过去重和时序关系调整得到摘要。本发明实现了从涉及特定案件的多个新闻文本中,获取重要信息作为其简短摘要。对于相关人员快速掌控舆情态势有着重要的作用,解决了针对案件舆情摘要如何融入领域知识和跨文档句子关联关系的问题。

Description

基于案件要素句子关联图卷积的案件舆情摘要生成方法
技术领域
本发明涉及基于案件要素句子关联图卷积的案件舆情摘要生成方法,属于自然语言处理技术领域。
背景技术
案件舆情是指与案件相关的互联网舆情,与一般的新闻舆情相比,案件舆情具有敏感性、特殊性,有着更大的社会影响。案件舆情摘要能够从案件相关新闻文本中摘取重要信息,从而简化新闻文本长度,帮助用户在大量的舆情数据中获取舆情事件的关键信息,对于案件舆情的监控与及时处理有着重要的作用。
案件舆情摘要本质上是一种特定领域的多文档摘要任务,在多文档摘要的研究中,关键问题是对句子的重要性进行评价,并以此抽取摘要句子。传统方法有基于统计的摘要方法、基于主题模型的摘要方法和基于图的摘要方法。基于统计的方法虽然简单且有一定效果,但对于句子的打分一般都是比较孤立的,忽略了文本结构信息、尤其是句子与句子之间的关联关系。基于主题模型的方法一般针对没有特定主题的多文档摘要任务,不适合主题信息明确的案件舆情摘要。基于图的方法虽然可以较好的表征句子间的关联关系,但构图方法一般是通用方法,多采用句子相似度作为边的计算方法。在案件舆情摘要中,传统方法不足之处在于多是通用领域的无监督文本摘要方法,没有考虑跨文档的句子之间关联关系、句子与案件要素之间的关联关系。针对这些问题,本发明提供基于案件要素句子关联图卷积的案件舆情摘要生成方法。
发明内容
本发明提供了基于案件要素句子关联图卷积的案件舆情摘要生成方法,解决了针对案件舆情摘要如何融入领域知识和跨文档句子关联关系的问题,提高案件舆情摘要生成方法的有效性。
本发明采用图的结构来对多文本簇进行建模。其中句子作为主节点,词和案件要素作为辅助节点来增强句子之间的关联关系,使用词频-逆文档频率(TF-IDF)、互信息(PMI)、同属关系、包含关系等多种方法来计算不同节点间的关联关系。然后使用图卷积神经网络学习句子关联图,并对句子进行分类得到候选摘要句,最后通过去重和排序得到案件舆情摘要。在案件舆情摘要领域的实验结果表明,该发明方法和多个基准模型相比,在ROUGE-1的F值评价指标上有着1.14至12.81个百分点的提升;
本发明的具体技术方案是:基于案件要素句子关联图卷积的案件舆情摘要生成方法,包括:
步骤1、融合案件要素和词构建基于案件要素的句子关联图,来表征句子信息和句子之间的关联关系;
步骤2、使用图卷积神经网络学习句子信息和句子之间的关联关系,对句子进行分类,得到每个句子的重要性评分;
步骤3、按重要性对句子进行排序,通过去重和时序关系调整得到摘要。
进一步地,所述步骤1中,构建基于案件要素的句子关联图中,包含3种节点:其中主节点是句子,辅助节点是词和案件要素,用来增强表征句子间的关联关系;该图中共有6种关系:(Sent,Sent)、(Sent,Word)、(Sent,Case)、(Word,Word)、(Word,Case)(Case,Case),其中Sent表示句子节点,Word表示词节点,Case表示案件要素节点。
进一步地,所述步骤2中,使用图卷积神经网络的方法,在图上进行特征学习,得到每个句子的重要性表征,并使用softmax对句子进行打分。
进一步地,所述步骤3中,在句子打分的基础上,选取得分高的句子,使用ROUGE值的方法计算句子的相似性来去除冗余信息,使用新闻发布顺序来对句子进行重排序,最终得到摘要。
进一步地,所述步骤1中,案件要素由案件名、案发地、涉案人员和案件描述四种关键词构成。
进一步地,所述3种节点共具有6种关系,使用词频-逆文档频率TF-IDF、互信息PMI、同属关系、包含关系来计算边的权重:(Sent,Sent)关系使用是否同属于一篇文本来判断;(Sent,Word)关系使用词频-逆文档频率(TF-IDF)来计算;(Sent,Case)关系使用案件要素是否包含于句子来表示;(Word,Word)关系使用词的互信息(PMI)来计算;(Word,Case)关系使用词和案件要素是否相等来判断;(Case,Case)的关系使用案件要素是否同属于一案件来判断。
进一步地,所述融合案件要素和词构建基于案件要素的句子关联图,来表征句子信息和句子之间的关联关系,包括:
使用词频-逆文档频率TF-IDF、互信息PMI、同属关系、包含关系方法来计算边的权重,构建了一个包含句子、词和案件要素三种节点的句子关联图:
G=(V,E) (1)
V={S,W,C} (2)
其中集合V表示图中节点的集合,由三部分构成:句子集合S、词集合W和案件要素集合C;
句子集合S={s1,s2...sl}里共有l个句子,是不同文档簇的所有文档经过去除特殊字符、分句、去除短句子等预处理之后的句子总和,其中s2表示第2个句子,l表示句子集合的大小;
词集合W={w1,w2...wm}由所有的词构成,其中m表示词表大小;
案件要素集合C={c1,c2...cn}共有n个案件要素,包括多文本簇中的案件要素,其中c2表示第2个案件要素;E表示图中边的集合:E={(vi,vj)|v∈V},其中vi表征图中第i个节点;
因为图中有3种节点,所以图的邻接矩阵A由9个分块矩阵构成,如公式3所示,其中Ass表是句子和句子节点的关系矩阵,Asw表示句子和词节点的关系矩阵,Asc表示句子和案件要素节点的关系矩阵,
Figure GDA0003619373170000031
表示句子和案件要素节点的关系矩阵的转置;
Figure GDA0003619373170000032
共有6种边,每种边的定义和计算如公式(4):
Figure GDA0003619373170000033
其中Aij表示第i和j两个节点之间边的权值,这六种关系的具体计算方法是:
(1)对于句子与句子节点的关系矩阵Ass,使用同属关系来计算:当一个句子和另一个句子同属于一个文本时,在它们之间连接一条边。
(2)对于句子和词节点关系矩阵Asw:使用词频-逆文档频率TF-IDF的方法来计算词节点wj和句子节点si之间边的权重,如公式(5)所示:
TF-IDF(si,wj)=TF(si,wj)*IDF(si) (5)
其中si表示第i个句子节点,wj表示第j个词节点,TF表示词在句子中的词频,IDF表示词在所有文本中出现的频率;通过在句子和大量词之间构建关联关系,能用词来表征句子的特征,同时也在所有句子之间构建了一层关联关系;
(3)对于句子和案件要素节点关系矩阵Asc,使用包含关系来计算:当一个案件要素出现在某个句子中时,在它们之间连接一条边;
(4)对于词于词关系矩阵Aww:使用互信息PMI来计算两个词节点之间边的权重,如公式(6)所示:
Figure GDA0003619373170000041
其中wi和wj表示第i和第j个词节点,两个词的相关性越大,其PMI值也就越大,当PMI的值小于0时,表示两个词相关性为负,也就是互斥的,此时两个词之间边权重为0;
(5)对于词与案件要素关系矩阵Awc:当案件要素和词相同时,在它们之间连接一条边;
(6)对于案件要素和案件要素关系矩阵Acc,使用同属关系来计算:当一个案件要素和另一个案件要素同属一个案件时,在它们之间连接一条边;
通过以上方法构建一个融合案件要素的句子关联图。
进一步地,所述使用图卷积神经网络学习句子信息和句子之间的关联关系,对句子进行分类,得到每个句子的重要性评分,包括:
使用两层图卷积网络GCN学习句子信息和句子之间的关联关系,对句子进行分类,得到每个句子的重要性评分,具体如下:
每一个节点在进行卷积的时候,既要包含周围节点的特征,又要包含自身的特征,所以每个节点还应该有一个连接到其自身的闭环,还需要将邻接矩阵A对角线上元素初始化为1,即:
Aii=1 (7)
最后构成一个大小为size*size的图的邻接矩阵A:
Figure GDA0003619373170000051
令图的度矩阵为D,表示每一个节点和多少个其他节点相连,其中度矩阵对角线上元素为:
Dii=∑jAij (9)
根据公式(8)和(9)得到能进行图卷积操作的规范化的矩阵
Figure GDA0003619373170000052
Figure GDA0003619373170000053
将节点的特征矩阵X初始化为一个和邻接矩阵A一样大小的单位矩阵,相当于使用one-hot向量表示节点的特征;
在第一层图卷积网络中:
Figure GDA0003619373170000054
其中L(1)表示第一层的输出,
Figure GDA0003619373170000055
是规范化的邻接矩阵,X是特征矩阵,W0是参数矩阵,激活函数使用ReLU;在第二层图卷积网络中使用softmax进行分类,如公式(13)所示;
Figure GDA0003619373170000056
采用交叉熵作为模型的损失函数:
Figure GDA0003619373170000057
其中S是训练集中参与计算损失的所有的句子,yi表示第i个句子的标签,
Figure GDA0003619373170000058
表示第i个句子的预测结果,通过两次图卷积操作后,得到每一个句子节点的分类结果,表示每一个句子的得分。
进一步地,所述按重要性对句子进行排序,通过去重和时序关系调整得到摘要,包括:
(1)对于测试集中不同的文本簇分别进行摘要生成;
(2)对于一个文本簇,首先选取一个得分最高的句子加入候选摘要句集合中;
(3)然后选取下一个句子和候选摘要句集合中的每一个句子计算相似性,采用基于ROUGE值的方法来计算两个句子之间的相似性,其值若小于相似性阈值,则将该句子加入候选摘要句集合中;
(4)重复第二步的操作,直到候选摘要句集合长度超过阈值;
(5)最后再对候选摘要句集合中的句子按照文章发表的时序、以及句子在文档中出现的顺序排序,得到最终的多文档摘要。
本发明的有益效果是:
本文考虑构建异构的句子关联图:借鉴基于统计的方法,引入词节点来得到句子的特征表示,借助案件要素节点来加强与案件主题相关的句子间的关联关系,然后再学习这些关系来对句子的重要性进行评价。最后通过去重和排序得到案件舆情摘要。在案件舆情摘要领域实行了理论与技术的验证,实验结果表明该发明方法和多个基准模型相比,在ROUGE-1的F值评价指标上有着1.14至12.81个百分点的提升,充分说明了该方法的有效性。
附图说明
图1为本发明中基于案件要素句子关联图卷积的案件舆情摘要模型具体结构图;
图2为本发明中的流程图。
具体实施方式
实施例1:如图1-2所示,基于案件要素句子关联图卷积的案件舆情摘要生成方法,包括:
Step1、实验语料的收集与数据集构建;
采用基于Scrapy框架的爬虫,使用案件名作为关键词从百度新闻(https://news.baidu.com/),搜狗新闻(https://news.sogou.com/)等搜集案件舆情新闻,经过数据清洗和人工筛选获取不同案件相关的新闻文本。实验训练语料共收集了50个案件相关的500篇新闻文档,包含13133个句子。每个案件相关的10篇新闻文本构成一个文本簇,为每个文本簇人工撰写参考摘要,使用ROUGE值的方法来计算每个句子的分数,按得分将句子分为0-9共10类作为训练标签。分别构建了训练集、验证集和测试集;数据集相关信息如下表1所示。
表1为数据集
Figure GDA0003619373170000061
Step2、融合案件要素和词构建基于案件要素的句子关联图,来表征句子信息和句子之间的关联关系;其中,针对50个案件分别构建了50组对应的案件要素,每组案件要素都包括案件名、案发地、涉案主体、案件描述等关键词。对所有文本进行分词,构建词表;
所述Step2中,构建基于案件要素的句子关联图中,包含3种节点:其中主节点是句子,辅助节点是词和案件要素,用来增强表征句子间的关联关系;该图中共有6种关系:(Sent,Sent)、(Sent,Word)、(Sent,Case)、(Word,Word)、(Word,Case)(Case,Case),其中Sent表示句子节点,Word表示词节点,Case表示案件要素节点。
所述3种节点共具有6种关系,使用词频-逆文档频率TF-IDF、互信息PMI、同属关系、包含关系来计算边的权重:(Sent,Sent)关系使用是否同属于一篇文本来判断;(Sent,Word)关系使用词频-逆文档频率(TF-IDF)来计算;(Sent,Case)关系使用案件要素是否包含于句子来表示;(Word,Word)关系使用词的互信息(PMI)来计算;(Word,Case)关系使用词和案件要素是否相等来判断;(Case,Case)的关系使用案件要素是否同属于一案件来判断。
Step3、使用图卷积神经网络学习句子信息和句子之间的关联关系,对句子进行分类,得到每个句子的重要性评分;
进一步地,所述Step3中,使用图卷积神经网络的方法,在图上进行特征学习,得到每个句子的重要性表征,并使用softmax对句子进行打分。
Step4、按重要性对句子进行排序,通过去重和时序关系调整得到摘要。
进一步地,所述Step4中,在句子打分的基础上,选取得分高的句子,使用ROUGE值的方法计算句子的相似性来去除冗余信息,使用新闻发布顺序来对句子进行重排序,最终得到摘要。
进一步地,所述融合案件要素和词构建基于案件要素的句子关联图,来表征句子信息和句子之间的关联关系,包括:
使用词频-逆文档频率TF-IDF、互信息PMI、同属关系、包含关系方法来计算边的权重,构建了一个包含句子、词和案件要素三种节点的句子关联图:
G=(V,E) (1)
V={S,W,C} (2)
其中集合V表示图中节点的集合,由三部分构成:句子集合S、词集合W和案件要素集合C;
句子集合S={s1,s2...sl}里共有l个句子,是不同文档簇的所有文档经过去除特殊字符、分句、去除短句子等预处理之后的句子总和,其中s2表示第2个句子,l表示句子集合的大小;
词集合W={w1,w2...wm}由所有的词构成,其中m表示词表大小;
案件要素集合C={c1,c2...cn}共有n个案件要素,包括多文本簇中的案件要素,其中c2表示第2个案件要素;E表示图中边的集合:E={(vi,vj)|v∈V},其中vi表征图中第i个节点;
因为图中有3种节点,所以图的邻接矩阵A由9个分块矩阵构成,如公式3所示,其中Ass表是句子和句子节点的关系矩阵,Asw表示句子和词节点的关系矩阵,Asc表示句子和案件要素节点的关系矩阵,
Figure GDA0003619373170000083
表示句子和案件要素节点的关系矩阵的转置;
Figure GDA0003619373170000081
共有6种边,每种边的定义和计算如公式(4):
Figure GDA0003619373170000082
其中Aij表示第i和j两个节点之间边的权值,这六种关系的具体计算方法是:
(1)对于句子与句子节点的关系矩阵Ass,使用同属关系来计算:当一个句子和另一个句子同属于一个文本时,在它们之间连接一条边。
(2)对于句子和词节点关系矩阵Asw:使用词频-逆文档频率TF-IDF的方法来计算词节点wj和句子节点si之间边的权重,如公式(5)所示:
TF-IDF(si,wj)=TF(si,wj)*IDF(si) (5)
其中si表示第i个句子节点,wj表示第j个词节点,TF表示词在句子中的词频,IDF表示词在所有文本中出现的频率;通过在句子和大量词之间构建关联关系,能用词来表征句子的特征,同时也在所有句子之间构建了一层关联关系;
(3)对于句子和案件要素节点关系矩阵Asc,使用包含关系来计算:当一个案件要素出现在某个句子中时,在它们之间连接一条边;
(4)对于词于词关系矩阵Aww:使用互信息PMI来计算两个词节点之间边的权重,如公式(6)所示:
Figure GDA0003619373170000091
其中wi和wj表示第i和第j个词节点,两个词的相关性越大,其PMI值也就越大,当PMI的值小于0时,表示两个词相关性为负,也就是互斥的,此时两个词之间边权重为0;
(5)对于词与案件要素关系矩阵Awc:当案件要素和词相同时,在它们之间连接一条边;
(6)对于案件要素和案件要素关系矩阵Acc,使用同属关系来计算:当一个案件要素和另一个案件要素同属一个案件时,在它们之间连接一条边;
通过以上方法构建一个融合案件要素的句子关联图。
进一步地,所述使用图卷积神经网络学习句子信息和句子之间的关联关系,对句子进行分类,得到每个句子的重要性评分,包括:
使用两层图卷积网络GCN学习句子信息和句子之间的关联关系,对句子进行分类,得到每个句子的重要性评分,具体如下:
每一个节点在进行卷积的时候,既要包含周围节点的特征,又要包含自身的特征,所以每个节点还应该有一个连接到其自身的闭环,还需要将邻接矩阵A对角线上元素初始化为1,即:
Aii=1 (7)
最后构成一个大小为size*size的图的邻接矩阵A:
Figure GDA0003619373170000092
令图的度矩阵为D,表示每一个节点和多少个其他节点相连,其中度矩阵对角线上元素为:
Dii=∑jAij (9)
根据公式(8)和(9)得到能进行图卷积操作的规范化的矩阵
Figure GDA0003619373170000093
Figure GDA0003619373170000101
将节点的特征矩阵X初始化为一个和邻接矩阵A一样大小的单位矩阵,相当于使用one-hot向量表示节点的特征;
在第一层图卷积网络中:
Figure GDA0003619373170000102
其中L(1)表示第一层的输出,
Figure GDA0003619373170000103
是规范化的邻接矩阵,X是特征矩阵,W0是参数矩阵,激活函数使用ReLU;在第二层图卷积网络中使用softmax进行分类,如公式(13)所示;
Figure GDA0003619373170000104
采用交叉熵作为模型的损失函数:
Figure GDA0003619373170000105
其中S是训练集中参与计算损失的所有的句子,yi表示第i个句子的标签,
Figure GDA0003619373170000106
表示第i个句子的预测结果,通过两次图卷积操作后,得到每一个句子节点的分类结果,表示每一个句子的得分。
进一步地,所述按重要性对句子进行排序,通过去重和时序关系调整得到摘要,包括:
(1)对于测试集中不同的文本簇分别进行摘要生成;
(2)对于一个文本簇,首先选取一个得分最高的句子加入候选摘要句集合中;
(3)然后选取下一个句子和候选摘要句集合中的每一个句子计算相似性,采用基于ROUGE值的方法来计算两个句子之间的相似性,其值若小于相似性阈值,则将该句子加入候选摘要句集合中;
(4)重复第二步的操作,直到候选摘要句集合长度超过阈值;
(5)最后再对候选摘要句集合中的句子按照文章发表的时序、以及句子在文档中出现的顺序排序,得到最终的多文档摘要。
为了验证本发明的效果,在案件舆情数据集上进行实验,训练最优的模型。
共设置了3组对比实验和1个实例分析。第一组对比实验对比了本文模型和LEAD,Centroid,LexPageRank,TextRank,Submodular1,ClusterCMRW、“句子+词+GCN”等7个基准模型的性能。其中包括未融入案件要素的“句子+词+GCN”模型,验证了融入案件要素关联关系和句子关联关系的有效性,实验结果见表2。第二组对比实验研究了不同句子分类数目对生成摘要质量的影响,设置2、5、10和20等四种不同的分类数目,使用本文模型分别进行实验,实验结果见表3。第三组对比试验研究了不同长度摘要的效果,设置了50、100、150和200等四种不同长度的摘要预期长度分别进行实验,实验结果见表4。实例分析选取了针对“摩托车飙车案”案件的摘要实例进行对比分析,结果见表5。
表2本文模型与基准模型实验对比结果
Figure GDA0003619373170000111
表2的实验数据说明:1)在采用ROUGE的F值的评价方法中,采用神经网络的模型比基于特征和基于图的模型平均要高出6到9个百分点,说明在自动摘要任务中,基于神经网络的方法更有效。2)GRUcase_Attnall和SummaRuNNer对比,ROUGE-1提高了3.4个百分点,ROUGE-2提高了4.2个百分点,ROUGE-L提高了2.2个百分点。3)结果表明案件要素通过注意力机制融入到文档编码中和分类中,可以较好地提高模型的摘要效果。
表3不同分类数目对比实验
Figure GDA0003619373170000112
根据表3的实验结果可以看出:在分类数目为10的时候取得的摘要效果最好,分类数目较低会略微降低摘要质量,分类数目过高会严重降低摘要的质量。分析可能是因为分类数目的不同导致了句子分类准确率的不同。
表4不同长度摘要对比实验
Figure GDA0003619373170000121
根据表4的实验结果可以看出:摘要长度在200字和150字的时候得到的结果是较好的,可能是因为测试集中平均的摘要长度在170字左右的原因,和参考摘要长度越匹配的摘要得分越高。
表5“摩托车飙车案”摘要对比实例
Figure GDA0003619373170000122
根据表5的实验结果在实例分析中,从测试集中选取了“摩托车飙车案”案件,针对该案件的部分基准模型生成的摘要进行实例分析。如表5所示:1)对比TextRank和本文模型,可以看出本文结果在事件表述的完整性上有着较好的效果;2)对比Centroid模型结果可以看出本文模型摘要更加贴近文档簇的中心思想;3)对比句子+词+GCN”的结果可以看出本文模型在连贯性和可读性上有一定的优势。
通过对以上几组实验的分析可以看出,本发明提出的一种融合案件要素关联的句子关联图构图方法,有效地通过案件要素融入了案件主题信息、很好地表征了跨文档的句子关联关系。使用图卷积的方法充分学习到了图中的结构信息,抽取的摘要和基准模型相比取得了一定的效果提升。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (7)

1.基于案件要素句子关联图卷积的案件舆情摘要生成方法,其特征在于:包括:
步骤1、融合案件要素和词构建基于案件要素的句子关联图,来表征句子信息和句子之间的关联关系;
步骤2、使用图卷积神经网络学习句子信息和句子之间的关联关系,对句子进行分类,得到每个句子的重要性评分;
步骤3、按重要性对句子进行排序,通过去重和时序关系调整得到摘要;
所述融合案件要素和词构建基于案件要素的句子关联图,来表征句子信息和句子之间的关联关系,包括:
使用词频-逆文档频率TF-IDF、互信息PMI、同属关系、包含关系方法来计算边的权重,构建了一个包含句子、词和案件要素三种节点的句子关联图:
G=(V,E) (1)
V={S,W,C} (2)
其中集合V表示图中节点的集合,由三部分构成:句子集合S、词集合W和案件要素集合C;
句子集合S={s1,s2...sl}里共有l个句子,是不同文档簇的所有文档经过去除特殊字符、分句、去除短句子预处理之后的句子总和,其中s2表示第2个句子,l表示句子集合的大小;
词集合W={w1,w2...wm}由所有的词构成,其中m表示词表大小;
案件要素集合C={c1,c2...cn}共有n个案件要素,包括多文本簇中的案件要素,其中c2表示第2个案件要素;E表示图中边的集合:E={(vi,vj)|v∈V},其中vi表征图中第i个节点;
因为图中有3种节点,所以图的邻接矩阵A由9个分块矩阵构成,如公式(3)所示,其中Ass表是句子和句子节点的关系矩阵,Asw表示句子和词节点的关系矩阵,Asc表示句子和案件要素节点的关系矩阵,
Figure FDA0003619373160000011
表示句子和案件要素节点的关系矩阵的转置;
Figure FDA0003619373160000021
共有6种边,每种边的定义和计算如公式(4):
Figure FDA0003619373160000022
其中Aij表示第i和j两个节点之间边的权值,这六种关系的具体计算方法是:
(1)对于句子与句子节点的关系矩阵Ass,使用同属关系来计算:当一个句子和另一个句子同属于一个文本时,在它们之间连接一条边;
(2)对于句子和词节点关系矩阵Asw:使用词频-逆文档频率TF-IDF的方法来计算词节点wj和句子节点si之间边的权重,如公式(5)所示:
TF-IDF(si,wj)=TF(si,wj)*IDF(si) (5)
其中si表示第i个句子节点,wj表示第j个词节点,TF表示词在句子中的词频,IDF表示词在所有文本中出现的频率;通过在句子和大量词之间构建关联关系,能用词来表征句子的特征,同时也在所有句子之间构建了一层关联关系;
(3)对于句子和案件要素节点关系矩阵Asc,使用包含关系来计算:当一个案件要素出现在某个句子中时,在它们之间连接一条边;
(4)对于词与词关系矩阵Aww:使用互信息PMI来计算两个词节点之间边的权重,如公式(6)所示:
Figure FDA0003619373160000023
其中wi和wj表示第i和第j个词节点,两个词的相关性越大,其PMI值也就越大,当PMI的值小于0时,表示两个词相关性为负,也就是互斥的,此时两个词之间边权重为0;
(5)对于词与案件要素关系矩阵Awc:当案件要素和词相同时,在它们之间连接一条边;
(6)对于案件要素和案件要素关系矩阵Acc,使用同属关系来计算:当一个案件要素和另一个案件要素同属一个案件时,在它们之间连接一条边;
所述使用图卷积神经网络学习句子信息和句子之间的关联关系,对句子进行分类,得到每个句子的重要性评分,包括:
使用两层图卷积网络GCN学习句子信息和句子之间的关联关系,对句子进行分类,得到每个句子的重要性评分,具体如下:
每一个节点在进行卷积的时候,既要包含周围节点的特征,又要包含自身的特征,所以每个节点还应该有一个连接到其自身的闭环,还需要将邻接矩阵A对角线上元素初始化为1,即:
Aii=1 (7)
最后构成一个大小为size*size的图的邻接矩阵A:
Figure FDA0003619373160000031
令图的度矩阵为D,表示每一个节点和多少个其他节点相连,其中度矩阵对角线上元素为:
Dii=∑jAij (9)
根据公式(8)和(9)得到能进行图卷积操作的规范化的矩阵
Figure FDA0003619373160000032
Figure FDA0003619373160000033
将节点的特征矩阵X初始化为一个和邻接矩阵A一样大小的单位矩阵,相当于使用one-hot向量表示节点的特征;
在第一层图卷积网络中:
Figure FDA0003619373160000034
其中L(1)表示第一层的输出,
Figure FDA0003619373160000035
是规范化的邻接矩阵,X是特征矩阵,W0是参数矩阵,激活函数使用ReLU;在第二层图卷积网络中使用softmax进行分类,如公式(13)所示;
Figure FDA0003619373160000036
采用交叉熵作为模型的损失函数:
Figure FDA0003619373160000037
其中S是训练集中参与计算损失的所有的句子,yi表示第i个句子的标签,
Figure FDA0003619373160000041
表示第i个句子的预测结果,通过两次图卷积操作后,得到每一个句子节点的分类结果,表示每一个句子的得分。
2.根据权利要求1所述的基于案件要素句子关联图卷积的案件舆情摘要生成方法,其特征在于:所述步骤1中,构建基于案件要素的句子关联图中,包含3种节点:其中主节点是句子,辅助节点是词和案件要素,用来增强表征句子间的关联关系;该图中共有6种关系:(Sent,Sent)、(Sent,Word)、(Sent,Case)、(Word,Word)、(Word,Case)(Case,Case),其中Sent表示句子节点,Word表示词节点,Case表示案件要素节点。
3.根据权利要求1所述的基于案件要素句子关联图卷积的案件舆情摘要生成方法,其特征在于:所述步骤2中,使用图卷积神经网络的方法,在图上进行特征学习,得到每个句子的重要性表征,并使用softmax对句子进行打分。
4.根据权利要求1所述的基于案件要素句子关联图卷积的案件舆情摘要生成方法,其特征在于:所述步骤3中,在句子打分的基础上,选取得分高的句子,使用ROUGE值的方法计算句子的相似性来去除冗余信息,使用新闻发布顺序来对句子进行重排序,最终得到摘要。
5.根据权利要求1所述的基于案件要素句子关联图卷积的案件舆情摘要生成方法,其特征在于:所述步骤1中,案件要素由案件名、案发地、涉案人员和案件描述四种关键词构成。
6.根据权利要求2所述的基于案件要素句子关联图卷积的案件舆情摘要生成方法,其特征在于:所述3种节点共具有6种关系,使用词频-逆文档频率TF-IDF、互信息PMI、同属关系、包含关系来计算边的权重:(Sent,Sent)关系使用是否同属于一篇文本来判断;(Sent,Word)关系使用词频-逆文档频率(TF-IDF)来计算;(Sent,Case)关系使用案件要素是否包含于句子来表示;(Word,Word)关系使用词的互信息(PMI)来计算;(Word,Case)关系使用词和案件要素是否相等来判断;(Case,Case)的关系使用案件要素是否同属于一案件来判断。
7.根据权利要求1所述的基于案件要素句子关联图卷积的案件舆情摘要生成方法,其特征在于:所述按重要性对句子进行排序,通过去重和时序关系调整得到摘要,包括:
(1)对于测试集中不同的文本簇分别进行摘要生成;
(2)对于一个文本簇,首先选取一个得分最高的句子加入候选摘要句集合中;
(3)然后选取下一个句子和候选摘要句集合中的每一个句子计算相似性,采用基于ROUGE值的方法来计算两个句子之间的相似性,其值若小于相似性阈值,则将该句子加入候选摘要句集合中;
(4)重复第二步的操作,直到候选摘要句集合长度超过阈值;
(5)最后再对候选摘要句集合中的句子按照文章发表的时序、以及句子在文档中出现的顺序排序,得到最终的多文档摘要。
CN202010141405.2A 2020-03-04 2020-03-04 基于案件要素句子关联图卷积的案件舆情摘要生成方法 Active CN111339754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010141405.2A CN111339754B (zh) 2020-03-04 2020-03-04 基于案件要素句子关联图卷积的案件舆情摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010141405.2A CN111339754B (zh) 2020-03-04 2020-03-04 基于案件要素句子关联图卷积的案件舆情摘要生成方法

Publications (2)

Publication Number Publication Date
CN111339754A CN111339754A (zh) 2020-06-26
CN111339754B true CN111339754B (zh) 2022-06-21

Family

ID=71184047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010141405.2A Active CN111339754B (zh) 2020-03-04 2020-03-04 基于案件要素句子关联图卷积的案件舆情摘要生成方法

Country Status (1)

Country Link
CN (1) CN111339754B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015890B (zh) * 2020-09-07 2024-01-23 广东工业大学 电影剧本摘要的生成方法和装置
CN112287687B (zh) * 2020-09-17 2022-06-14 昆明理工大学 基于案件属性感知的案件倾向性抽取式摘要方法
CN112241481B (zh) * 2020-10-09 2024-01-19 中国人民解放军国防科技大学 基于图神经网络的跨模态新闻事件分类方法及系统
CN112148863B (zh) * 2020-10-15 2022-07-01 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
US20220171936A1 (en) * 2020-12-02 2022-06-02 Fujitsu Limited Analysis of natural language text in document
CN113051604B (zh) * 2021-03-08 2022-06-14 中国地质大学(武汉) 一种基于生成式对抗网络的涉密地理表格类数据保护方法
CN113076483A (zh) * 2021-04-27 2021-07-06 昆明理工大学 基于案件要素异构图的舆情新闻抽取式摘要方法
CN114579734B (zh) * 2022-03-24 2024-08-06 昆明理工大学 基于gcn网络融合要素关联图的汉越新闻抽取式摘要方法
US11836175B1 (en) 2022-06-29 2023-12-05 Microsoft Technology Licensing, Llc Systems and methods for semantic search via focused summarizations
CN117610990B (zh) * 2023-11-13 2024-06-28 中国通信建设集团有限公司数智科创分公司 一种基于大数据的司法案例质量智能评价系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282881A (ja) * 1998-01-27 1999-10-15 Fuji Xerox Co Ltd 文書要約装置および記録媒体
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN110378409A (zh) * 2019-07-15 2019-10-25 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN110472047A (zh) * 2019-07-15 2019-11-19 昆明理工大学 一种多特征融合的汉越新闻观点句抽取方法
CN110472003A (zh) * 2019-08-08 2019-11-19 东北大学 基于图卷积网络的社交网络文本情感细粒度分类方法
CN110489541A (zh) * 2019-07-26 2019-11-22 昆明理工大学 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法
CN110516146A (zh) * 2019-07-15 2019-11-29 中国科学院计算机网络信息中心 一种基于异质图卷积神经网络嵌入的作者名字消歧方法
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282881A (ja) * 1998-01-27 1999-10-15 Fuji Xerox Co Ltd 文書要約装置および記録媒体
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN110378409A (zh) * 2019-07-15 2019-10-25 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN110472047A (zh) * 2019-07-15 2019-11-19 昆明理工大学 一种多特征融合的汉越新闻观点句抽取方法
CN110516146A (zh) * 2019-07-15 2019-11-29 中国科学院计算机网络信息中心 一种基于异质图卷积神经网络嵌入的作者名字消歧方法
CN110489541A (zh) * 2019-07-26 2019-11-22 昆明理工大学 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法
CN110472003A (zh) * 2019-08-08 2019-11-19 东北大学 基于图卷积网络的社交网络文本情感细粒度分类方法
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Deep association: End-to-end graph-based learning for multiple object tracking with conv-graph neural network;Ma Cong 等;《Proceedings of the 2019 on International Conference on Multimedia Retrieval》;20190630;253-261 *
Graph convolutional neural networks for web-scale recommender systems;Ying Rex 等;《Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining》;20180731;974-983 *
基于改进朴素贝叶斯算法实现评教评语情感分析;张俊飞;《现代计算机》;20181115(第32期);3-6 *
案件要素句子关联图卷积的案件舆情摘要方法;韩鹏宇 等;《软件学报》;20211208;第32卷(第12期);3829-3838 *
融合深度学习和句义结构模型的微博摘要方法研究;原玉娇;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20180615(第06期);I138-2234 *
面向微博的文本情感分类的研究;郑雅雯;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190115(第01期);I138-5292 *

Also Published As

Publication number Publication date
CN111339754A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111339754B (zh) 基于案件要素句子关联图卷积的案件舆情摘要生成方法
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
CN109189926B (zh) 一种科技论文语料库的构建方法
Agirre et al. Enriching WordNet concepts with topic signatures
CN108763213A (zh) 主题特征文本关键词提取方法
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN108960317B (zh) 基于词向量表示和分类器联合训练的跨语言文本分类方法
Kmail et al. An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures
CN110222172B (zh) 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN113806547B (zh) 一种基于图模型的深度学习多标签文本分类方法
CN110457562A (zh) 一种基于神经网络模型的食品安全事件分类方法及装置
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
CN113076483A (zh) 基于案件要素异构图的舆情新闻抽取式摘要方法
CN111538828A (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN114048305A (zh) 一种基于图卷积神经网络的行政处罚文书的类案推荐方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN114611491A (zh) 基于文本挖掘技术的智慧政务舆情分析研究方法
CN114742071B (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN112925907A (zh) 基于事件图卷积神经网络的微博评论观点对象分类方法
CN110489624B (zh) 基于句子特征向量的汉越伪平行句对抽取的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant