CN112287687B - 基于案件属性感知的案件倾向性抽取式摘要方法 - Google Patents
基于案件属性感知的案件倾向性抽取式摘要方法 Download PDFInfo
- Publication number
- CN112287687B CN112287687B CN202010980726.1A CN202010980726A CN112287687B CN 112287687 B CN112287687 B CN 112287687B CN 202010980726 A CN202010980726 A CN 202010980726A CN 112287687 B CN112287687 B CN 112287687B
- Authority
- CN
- China
- Prior art keywords
- case
- sentence
- vector
- document
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及基于案件属性感知的案件倾向性抽取式摘要方法。本发明根据案件属性词构建案件信息库并提出基于案件属性感知的层级选择性编码结构、提出案件倾向性联合注意力机制,获得更倾向于涉案新闻的文本语义表征、通过句子打分与选择框架联合学习完成摘要句的抽取。本发明基于涉案新闻文本数据集的实验结果表明,本文模型的Rouge评价指标均取得显著提升并抽取出更倾向于与案件相关的摘要句。且在涉案新闻文本数据集上,加入案件信息库可以有效的提升新闻摘要句与领域的相关性,实验结果表明本发明提出方法的有效性。
Description
技术领域
本发明涉及基于案件属性感知的案件倾向性抽取式摘要方法,属于自然语言处理技术领域。
背景技术
随着信息化时代的到来,舆情信息爆炸性增长,网络越来越影响着法院的方方面面,舆论监督也已经渗透到案件的方方面面,涉案新闻文本摘要的形成有利于在司法实践和行政管理中极大地提高工作效率。目前,面向通用领域的文本摘要研究进展较为迅速,然而受限于法律领域知识及开放数据集规模,以涉案新闻文本为核心的文本摘要形成面临极大困难与挑战。
面向涉案新闻的文本摘要方法,其技术难点在于涉及法院新闻的数据包含大量的案件细节及案件属性词,并且主题句都凝练的非常准确,案件属性词是描述某一事物属性的词语,是定位、黏着性较强的黏着饰词,其内部结构对涉案新闻文本分布功能会产生重要影响并与文本存在较密切的语义结构关系。
当前文本摘要的方法主要分为抽取式和生成式,抽取式摘要方法是通过分析文本统计特征、潜意语义特征等从原文中选取关键词、关键句,在句子或段落级别上组成摘要,生成式摘要方法是在理解原文语义的基础上,在词语级别上组成摘要,有可能生成新的词组。涉案新闻文本摘要需考虑其可读性、连续性和逻辑完整性,简单地将一个个单词实体拼接起来,无法形成可读的文段。因此上述文本特点要求模型更善于捕捉句子级特征与语义层面的特征。近年来,序列到序列网络模型已被广泛应用于文本摘要任务中,以层级编码框架为代表的深度学习框架目前已在文本摘要任务中得到成果应用。然而,这些成果仅是解决了通用领域文本摘要问题,尚未解决特定领域如涉案新闻文本中领域知识的相关性对文本语义理解所造成的影响。
发明内容
为解决上述问题,本发明根据案件属性信息构建案件信息库,将领域信息与现有的文本摘要方法联合学习完成涉案新闻文本摘要任务,并提出一种基于案件属性感知的案件倾向性抽取式文本摘要模型,进行涉案新闻文本摘要句的抽取。
本发明的技术方案是:基于案件属性感知的案件倾向性抽取式摘要方法,根据案件属性词构建案件信息库并提出基于案件属性感知的层级选择性编码结构、提出案件倾向性联合注意力机制,获得更倾向于涉案新闻的文本语义表征、通过句子打分与选择框架联合学习完成摘要句的抽取。
具体的,本发明首先使用双向循环神经网络对案件信息库进行编码,并通过自注意力机制获得案件信息库的权重信息;其次使用句子级选择性编码对涉案新闻文本句子依次进行编码并选择重要信息获得句子级向量的语义表征,通过双向循环神经网络获得文档级语义向量,并通过感知案件属性选择编码策略将特定案件信息库已获得的语义向量与文档级语义向量共同学习得到案件属性感知的文档级语义向量,然后通过案件倾向性联合注意力网络将案件属性感知文档级选择性编码向量表示与案件信息库编码语义表征进行联合学习,得到更倾向于案件信息的文档表示;最后通过句子提取器完成摘要句的提取。
作为本发明的进一步方案,所述方法包括:
Step1、涉案新闻文本数据爬取并进行数据预处理;
Step2、通过案件信息库编码器模型得到案件信息库的语义向量;
Step3、构建案件属性感知文档编码器模型,案件属性感知文档编码器模型得到倾向于案件信息语义的文档级定制向量表示:案件属性感知文档编码器模型中使用层级编码器对句子和文档进行向量语义化表示,层级编码器是由句子级编码器与文档级编码器组成构建的模型,在模型中,提出句子级选择性编码策略、案件属性感知的文档级选择性编码策略,最后通过案件倾向性联合注意力机制获得最终的涉案新闻文本的语义向量,通过编码得到最终的语义向量;
Step4、利用KL损失函数训练模型参数,构建句子提取器模型,通过句子提取器模型抽取摘要。
作为本发明的进一步方案,所述步骤Step1包括:
Step1.1、对法院舆情系统进行爬取,经过人工筛选和标注后构成训练集20.02k条、验证集2k条涉案新闻文本,每个训练样本包含一对输入文本和摘要句;
Step1.2、构建案件信息库,由不同案件属性词构成:(1)、通过TF-IDF算法对篇章数据与对应对摘要句抽取关键信息;(2)、根据涉案新闻文本数据特点手动构建;
Step1.3、涉案新闻文本数据集通过Glove工具来预训练词向量。
作为本发明的进一步方案,所述步骤Step2的具体步骤如下:
Step2.1、通过BiGRU网络读取输入的案件信息库单词获得案件信息库的隐层向量然后使用自注意力机制完成对案件信息库的多语义信息的表征,通过计算不同隐层向量的权重信息ai得到案件信息库的语义向量Ci;
其中BiGRU表示双向循环神经网络,ci是第i个案件信息库的词向量,是上一层案件信息库的隐层向量表征,是当前层案件信息库的隐层向量表征;softmax是归一化操作,Ws是权重矩阵,tanh是非线性激活函数,是求和函数。
作为本发明的进一步方案,所述步骤Step3的具体步骤如下:
Step3.1、句子级选择性编码策使用BiGRU网络逐个单词地读取句子直到结尾,模型分别从左到右与从右到左读取句子sj中的单词(x1,x2,…xn)的词嵌入,获得句子级编码层的隐层状态hi,在阅读了句子sj的单词之后,通过串联最后一个前向和后向的GRU隐层向量构造了它的句子级向量表示句子编码层使用选择机制过滤文本重要信息,句子选择编码层使用句子词向量和句子表示向量作为输入,并输出selectSTi,然后重新表示生成隐层向量通过串联新产生的最后一个前向和后向的GRU隐层向量拼接构造句子选择性编码层的句子级表示句子sj的文档级表示si是前向和后向隐层向量的拼接,最后将此新序列用作下一案件属性感知文档编码器的输入,
其中为从左到右读取单词的词嵌入获得的前向隐层向量状态,为从右到左读取单词的词嵌入获得的反向隐层向量状态,为第j个句子的第i个单词;为最后一个前向隐层向量表征,为后向隐层向量表征,为句子级向量表征用于表示句子的含义;Ws和Us是权重矩阵,bs是偏差矢量,σ表示非线性激活函数,selectSTi为句子选择门向量表征;⊙是点乘法,是BiGRU编码器的输出,代表单词的含义和上下文信息;为含有重要信息的句子隐层向量表征,分别为前向和反向的GRU隐层向量表征,为含有重要信息的句子级表示;为文档级编码层的前向隐层向量表征,为文档级编码层的反向隐层向量表征;si为文档级向量表征用于表示文档的含义;
Step3.2、考虑涉案新闻文本数据的特点,本发明提出了一种案件信息属性感知的选择策略,从具有不同案件属性信息库中选择出重要信息。案件属性感知文档级选择性编码策略过Step2.1节中案件信息库表示Ci和Step3.1文档级表示si作为输入构建感知案件信息属性的定制表示,并输出门向量select_gate_si,,然后重新表示感知案件属性选择性编码层的文档级表示向量si′,
select_gate_si=σ(WaCi+Uasi+ba) (10)
si′=si⊙select_gate_si (11)
其中Wa和Ua是权重矩阵,ba是偏差矢量,σ表示非线性激活函数,si为文档级向量表示,Ci为案件信息库向量表示,select_gate_si为感知案件信息属性的选择门向量表征;si′为感知案件属性的文档级向量表征;
Step3.3、对于特定领域数据,如涉案新闻文本,在抽取摘要句时,含有领域知识的文本数据(如本文构建的案件信息库)会有自己特有的语义信息。因此,在预测输出摘要时,要考虑案件信息属性的信息Ci,以获得更倾向于涉案新闻语义信息。案件倾向性联合注意力网络通过感知案件属性选择性编码层的文档级表示向量si′与案件信息库信息表示向量Ci作为输入构建更倾向于案件信息语义的文档级定制向量表示
其中si′是感知案件属性文档级选择性编码器的输出用于表示文档的含义,Ci是案件信息库编码器的输出用于表示不同涉案新闻文本的关键信息,其中Wn、Un和Mn是权重矩阵,softmax是归一化操作,是求和函数,为倾向于案件信息语义的文档级定制向量表征。
作为本发明的进一步方案,所述步骤Step4的具体步骤如下:
Step4.1、这里使用联合打分与选择框架进行摘要的提取,具体过程为GRU将最后感知案件属性文档级编码提取的句子的文档级别表示Csi-1作为输入以产生其当前隐藏状态hs;句子评分器是一个两层MLP,即当前隐藏状态hs和句子表示向量Csi-1通过一非线性激活函数来计算句子Csi的分数
hs=GRU(Csi-1,hs-1) (13)
其中CRU表示循环神经网络,Csi-1为上一层提取句子的文档级向量表征,hs-1为上一层隐层向量表征,hs为当前层隐藏状态向量表征;Wl,Ul,Wl是可学习的参数,,tanh是非线性激活函数,Csi为当前句子的文档级向量表征,为句子Csi的分数。
Step4.3、使用KL损失函数优化我们的模型预测p和训练数据分布q,摘要输出集为S={Csi|Csi∈T},文本摘要一般使用Rouge来衡量模型性能,这里使用RougeF1作为评估函数r(·)。在数据训练期间,学习RougeF1的得分函数g(·)增益,这里期望摘要模型在时间步t使用上一步选择的句子Csi-1学习ROUGE F1的相对增益,
g(Csi)=r(Csi-1∪{Csi})-r(Csi-1) (16)
其中Csi-1为上一步选择的句子,Csi为当前步选择的句子,∪为合并运算。
Step4.4、使用softmax函数对预测句子分数进行归一化,以获得模型预测分布P,使用另外一个softmax去计算以产生带有标记的数据分布X作为训练目标。这里将τ作为平滑因子以产生平滑的标签分布q,
q(Csi)=softmax(τg(Csi)) (18)
其中softmax是归一化操作,τ为平滑因子。
Step4.5、最后通过相对熵最小化KL损失函数kl:
kl=TKL=(p‖q) (19)
其中TKL为文本T的KL损失函数,p为模型预测分布,q为训练数据分布;
Step4.6、利用KL损失函数训练模型参数,构建案句子提取器模型,通过案句子提取器模型抽取摘要。
本发明的有益效果是:
本发明提出了一个基于案件属性感知的案件倾向性抽取式文本摘要模型,该模型结合了案件信息库属性和全局上下文信息,将案件信息库融入到文本摘要中,利用与涉案新闻文本的相关性,设计了句子级选择性编码与感知案件属性的文档级选择性编码的网络结构完成特定领域数据的语义向量表示。在涉案新闻文本数据集上,加入案件信息库可以有效的提升新闻摘要句与领域的相关性,实验结果表明本发明提出方法的有效性。
附图说明
图1为本发明中的模型构建示意图;
图2为本发明提出的案件信息库编码模型;
图3为本发明提出的案件属性感知文档编码模型;
图4为本发明中的流程图;
图5为本发明中的不同案件信息库大小实验结果图。
具体实施方式
实施例1:如图1-图5所示,基于案件属性感知的案件倾向性抽取式摘要方法,首先使用双向循环神经网络对案件信息库进行编码,并通过自注意力机制获得案件信息库的权重信息;其次使用句子级选择性编码对涉案新闻文本句子依次进行编码并选择重要信息获得句子级向量的语义表征,通过双向循环神经网络获得文档级语义向量,并通过感知案件属性选择编码策略将特定案件信息库已获得的语义向量与文档级语义向量共同学习得到案件属性感知的文档级语义向量,然后通过案件倾向性联合注意力网络将案件属性感知文档级选择性编码向量表示与案件信息库编码语义表征进行联合学习,得到更倾向于案件信息的文档表示;最后通过句子提取器完成摘要句的提取。
所述方法包括:
Step1、涉案新闻文本数据爬取并进行数据预处理;
Step1.1、对法院舆情系统进行爬取,经过人工筛选和标注后构成训练集20.02k条、验证集2k条涉案新闻文本,每个训练样本包含一对输入文本和摘要句;
Step1.2、构建案件信息库,由不同案件属性词构成:(1)、通过TF-IDF算法对篇章数据与对应对摘要句抽取关键信息;(2)、根据涉案新闻文本数据特点手动构建;
Step1.3、涉案新闻文本数据集通过Glove工具来预训练词向量。
Step2、通过案件信息库编码器模型得到案件信息库的语义向量;
Step2.1、通过BiGRU网络读取输入的案件信息库单词获得案件信息库的隐层向量然后使用自注意力机制完成对案件信息库的多语义信息的表征,通过计算不同隐层向量的权重信息ai得到案件信息库的语义向量Ci;
其中BiGRU表示双向循环神经网络,ci是第i个案件信息库的词向量,是上一层案件信息库的隐层向量表征,是当前层案件信息库的隐层向量表征;softmax是归一化操作,Ws是权重矩阵,tanh是非线性激活函数,是求和函数。
Step3、构建案件属性感知文档编码器模型,案件属性感知文档编码器模型得到倾向于案件信息语义的文档级定制向量表示:案件属性感知文档编码器模型中使用层级编码器对句子和文档进行向量语义化表示,层级编码器是由句子级编码器与文档级编码器组成构建的模型,在模型中,提出句子级选择性编码策略、案件属性感知的文档级选择性编码策略,最后通过案件倾向性联合注意力机制获得最终的涉案新闻文本的语义向量,通过编码得到最终的语义向量;
Step3.1、句子级选择性编码策使用BiGRU网络逐个单词地读取句子直到结尾,模型分别从左到右与从右到左读取句子sj中的单词(x1,x2,…xn)的词嵌入,获得句子级编码层的隐层状态hi,在阅读了句子sj的单词之后,通过串联最后一个前向和后向的GRU隐层向量构造了它的句子级向量表示句子编码层使用选择机制过滤文本重要信息,句子选择编码层使用句子词向量和句子表示向量作为输入,并输出selectSTi,然后重新表示生成隐层向量通过串联新产生的最后一个前向和后向的GRU隐层向量拼接构造句子选择性编码层的句子级表示句子sj的文档级表示si是前向和后向隐层向量的拼接,最后将此新序列用作下一案件属性感知文档编码器的输入,
其中为从左到右读取单词的词嵌入获得的前向隐层向量状态,为从右到左读取单词的词嵌入获得的反向隐层向量状态,为第j个句子的第i个单词;为最后一个前向隐层向量表征,为后向隐层向量表征,为句子级向量表征用于表示句子的含义;Ws和Us是权重矩阵,bs是偏差矢量,σ表示非线性激活函数,selectSTi为句子选择门向量表征;⊙是点乘法,是BiGRU编码器的输出,代表单词的含义和上下文信息;为含有重要信息的句子隐层向量表征,分别为前向和反向的GRU隐层向量表征,为含有重要信息的句子级表示;为文档级编码层的前向隐层向量表征,为文档级编码层的反向隐层向量表征;si为文档级向量表征用于表示文档的含义;
Step3.2、考虑涉案新闻文本数据的特点,本发明提出了一种案件信息属性感知的选择策略,从具有不同案件属性信息库中选择出重要信息。案件属性感知文档级选择性编码策略过Step2.1节中案件信息库表示Ci和Step3.1文档级表示si作为输入构建感知案件信息属性的定制表示,并输出门向量select_gate_si,,然后重新表示感知案件属性选择性编码层的文档级表示向量si′,
select_gate_si=σ(WaCi+Uasi+ba) (10)
si′=si⊙select_gate_si (11)
其中Wa和Ua是权重矩阵,ba是偏差矢量,σ表示非线性激活函数,si为文档级向量表示,Ci为案件信息库向量表示,select_gate_si为感知案件信息属性的选择门向量表征;si′为感知案件属性的文档级向量表征;
Step3.3、对于特定领域数据,如涉案新闻文本,在抽取摘要句时,含有领域知识的文本数据(如本文构建的案件信息库)会有自己特有的语义信息。因此,在预测输出摘要时,要考虑案件信息属性的信息Ci,以获得更倾向于涉案新闻语义信息。案件倾向性联合注意力网络通过感知案件属性选择性编码层的文档级表示向量si′与案件信息库信息表示向量Ci作为输入构建更倾向于案件信息语义的文档级定制向量表示
其中si′是感知案件属性文档级选择性编码器的输出用于表示文档的含义,Ci是案件信息库编码器的输出用于表示不同涉案新闻文本的关键信息,其中Wn、Un和Mn是权重矩阵,softmax是归一化操作,是求和函数,为倾向于案件信息语义的文档级定制向量表征。
Step4、利用KL损失函数训练模型参数,构建句子提取器模型,通过句子提取器模型抽取摘要。
Step4.1、这里使用联合打分与选择框架进行摘要的提取,具体过程为GRU将最后感知案件属性文档级编码提取的句子的文档级别表示Csi-1作为输入以产生其当前隐藏状态hs;句子评分器是一个两层MLP,即当前隐藏状态hs和句子表示向量Csi-1通过一非线性激活函数来计算句子Csi的分数
hs=GRU(Csi-1,hs-1) (13)
其中GRU表示循环神经网络,Csi-1为上一层提取句子的文档级向量表征,hs-1为上一层隐层向量表征,hs为当前层隐藏状态向量表征;Wl,Ul,Wl是可学习的参数,,tanh是非线性激活函数,Csi为当前句子的文档级向量表征,为句子Csi的分数。
Step4.3、使用KL损失函数优化我们的模型预测p和训练数据分布q,摘要输出集为S={Csi|Csi∈T},文本摘要一般使用Rouge来衡量模型性能,这里使用RougeF1作为评估函数r(·)。在数据训练期间,学习RougeF1的得分函数g(·)增益,这里期望摘要模型在时间步t使用上一步选择的句子Csi-1学习ROUGE F1的相对增益,
g(Csi)=r(Csi-1∪{Csi})-r(Csi-1) (16)
其中Csi-1为上一步选择的句子,Csi为当前步选择的句子,∪为合并运算。
Step4.4、使用softmax函数对预测句子分数进行归一化,以获得模型预测分布P,使用另外一个softmax去计算以产生带有标记的数据分布X作为训练目标。这里将τ作为平滑因子以产生平滑的标签分布q,
q(Csi)=softmax(τg(Csi)) (18)
其中softmax是归一化操作,τ为平滑因子。
Step4.5、最后通过相对熵最小化KL损失函数kl:
kl=TKL=(p‖q) (19)其中TKL为文本T的KL损失函数,p为模型预测分布,q为训练数据分布;
Step4.6、利用KL损失函数训练模型参数,构建案句子提取器模型,通过案句子提取器模型抽取摘要。
为了验证本发明的效果,以下介绍实验数据集、评价指标、实验的详细参数设置及对比的基准模型,并对实验结果进行分析和讨论。
其中法院舆情新闻数据集相关信息如下表1所示:
表1法院舆情新闻数据集.
本发明中,涉案新闻文本与案件信息库的词向量维度为50维(案件信息库词向量使用涉案新闻文本训练好的词向量),词表大小分别为30000、4000。本发明的句子级选择性编码层、感知案件属性文档级选择性编码层、句子提取器的词嵌入大小分别设置为50维,256维,256维。案件信息库编码层的词嵌入大小设置为50维。本发明的学习率设置为0.0001,dropout设置为0.2,在训练与测试期间,本发明将每篇文章设置为80个句子并且将每个句子的长度设置为100个单词,本发明由pytorch实现。
本发明采用Rouge作为评价指标,Rouge是由Chin-Yew Lin在2004年提出的一种自动摘要评价方法,Rouge基于摘要中n元词(n-gram)的共现信息来评价摘要,在本发明中,使用Rouge-1,Rouge-2和Rouge-L的“f”值作为评估指标。
本发明选取以下5个模型作为基准模型,所有基准模型的训练数据和测试数据均与本发明相同。
Lead3:该方法是选取文本的前三句作为最终的摘要;
TextRank:通过选取文本中重要度较高的句子形成摘要;
Nmf:它使用句子和主题之间的关系构造权重矩阵,并对每个句子的主题概率进行排序,以完成摘要的提取;
SummaRunner:该模型是基于序列分类器的循环神经网络模型,提出了一种新的训练机制,使用生成式训练机制来训练这个抽取式模型;
NeuSum:该模型采用编解码的方式将句子排序和选择联合在一个端到端模型里完成摘要的提取。
Ours:本发明实现的编解码模型。
表2列出了本发明模型与基准模型在涉案新闻文本数据集上的Rouge-1,Rouge-2和Rouge-L的f值比对结果。
表2.涉案新闻文本数据集实验.
从表2中可以看出,第一部分Lead3、TextRank、Nmf模型是传统机器学习模型,第二部分SummaRunner、NeuSum是神经网络模型,第三部分Ours是本发明的实验模型。通过分析上表实验结果可得,
在Rouge的评价方法下,使用神经网络结构模型性能高于传统方法的文本摘要模型,因此目前使用神经网络结构模型可以有效处理文本语义问题。传统Nmf模型Rouge-1评分略高于神经网络SummaRunner模型,结果表明捕获主题层面模型可以有效的提升文本摘要性能。
Ours与SummaRunner,NeuSum对比,Rouge-1评分分别提高了3.08、2.48,结果表明本发明提出将案件信息库作为外部知识融入的感知案件属性的案件倾向性文本摘要模型可以较好的提高模型的摘要性能,能使抽取出的摘要更贴近涉案新闻文本主题,相关性更高。
为验证Ours模型中每一层网络对于整体有效,设计了消融实验,
本发明基于案件属性感知的案件倾向性抽取式文本摘要模型主要是加入了案件信息库与感知案件属性选择性编码结构,因此针对这俩个网络结构部分做了不同的对比分析,如下表3,
表3.网络结构实验.
上表Ours_case代表本发明只加入案件信息库的语义表征,涉案新闻文本的编码使用BiGRU编码句子并构成文档级的表示,然后再通过联合注意力机制对涉案新闻文本与案件信息库进行语义表征,最后再通过联合打分与选择进行摘要的提取。Ours_(select_case)意指本发明对案件信息库进行语义的表征,对涉案新闻文本进行感知案件属性的文档级选择性编码并表征文档的语义向量,最后完成摘要的提取。
从上表Rouge值可知,
Ours_case只加入案件信息库的语义表征,与基线NeuSum相比有1.12的提升,结果表明,将案件信息库作为外部知识的融入,对于涉案新闻文本的文本表征能力优于传统的文本表征方法。
Ours_(select_case)性能明显优于上述所有基线模型的方法,与Ours_case、Ours_(select_case)模型相比,模型在Rouge-1、Rouge-2、Rouge-L评分分别有0.85、0.47、0.89的提升,实验结果表明对涉案新闻文本的案件信息属性建模,可以提高模型的性能。
本发明主要是将案件信息库作为外部知识融入模型以提升特定领域数据(涉案新闻文本)的语义识别问题,案件信息库主要是从涉案新闻文本与标题分别抽取不同关键词并进行数据的清洗组成,考虑案件信息库的不同规模大小有可能影响涉案新闻文本的语义理解,因此本发明构造不同规模大小的案件信息库进行实验,如下图5所示;
上表横坐标表示本发明涉案新闻文本的案件信息库个数,纵坐标表示Rouge的F值。通过分析图5实验结果可得,案件信息库数据越小,实验的性能越差,表明案件信息库的大小对涉案新闻文本摘要方法有一定的影响。当案件信息库数据越大,实验结果得分趋于一致,表明对于涉案新闻文本摘要任务而言,案件信息库数据趋于正常值,模型的性能可以达到足够好的泛化能力。
本发明针对涉案新闻文本摘要任务,提出了一个基于案件属性感知的案件倾向性抽取式文本摘要模型,结合了案件信息库属性和全局上下文信息,将案件信息库融入到文本摘要中,利用与涉案新闻文本的相关性,设计了句子级选择性编码与感知案件属性的文档级选择性编码的网络结构完成特定领域数据的语义向量表示。在涉案新闻文本数据集上,加入案件信息库可以有效的提升新闻摘要句与领域的相关性,其实验结果表明了本发明的有效性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (4)
1.基于案件属性感知的案件倾向性抽取式摘要方法,其特征在于:根据案件属性词构建案件信息库并提出基于案件属性感知的层级选择性编码结构、提出案件倾向性联合注意力机制,获得更倾向于涉案新闻的文本语义表征、通过句子打分与选择框架联合学习完成摘要句的抽取;
所述方法包括:
Step1、涉案新闻文本数据爬取并进行数据预处理;
Step2、通过案件信息库编码器模型得到案件信息库的语义向量;
Step3、构建案件属性感知文档编码器模型,案件属性感知文档编码器模型得到倾向于案件信息语义的文档级定制向量表示:案件属性感知文档编码器模型中使用层级编码器对句子和文档进行向量语义化表示,层级编码器是由句子级编码器与文档级编码器组成构建的模型,在模型中,提出句子级选择性编码策略、案件属性感知的文档级选择性编码策略,最后通过案件倾向性联合注意力机制获得最终的涉案新闻文本的语义向量,通过编码得到最终的语义向量;
Step4、利用KL损失函数训练模型参数,构建案句子提取器模型,通过句子提取器模型抽取摘要;
步骤Step3的具体步骤如下:
Step3.1、句子级选择性编码策使用BiGRU网络逐个单词地读取句子直到结尾,模型分别从左到右与从右到左读取句子sj中的单词(x1,x2,...xn)的词嵌入,获得句子级编码层的隐层状态hi,在阅读了句子sj的单词之后,通过串联最后一个前向和后向的GRU隐层向量构造了它的句子级向量表示句子编码层使用选择机制过滤文本重要信息,句子选择编码层使用句子词向量和句子表示向量作为输入,并输出selectSTi,然后重新表示生成隐层向量通过串联新产生的最后一个前向和后向的GRU隐层向量拼接构造句子选择性编码层的句子级表示句子sj的文档级表示si是前向和后向隐层向量的拼接,最后将此新序列用作下一案件属性感知文档编码器的输入,
其中为从左到右读取单词的词嵌入获得的前向隐层向量状态,为从右到左读取单词的词嵌入获得的反向隐层向量状态,为第j个句子的第i个单词;为最后一个前向隐层向量表征,为后向隐层向量表征,为句子级向量表征用于表示句子的含义;Ws和Us是权重矩阵,bs是偏差矢量,σ表示非线性激活函数,selectSTi为句子选择门向量表征;⊙是点乘法,是BiGRU编码器的输出,代表单词的含义和上下文信息;为含有重要信息的句子隐层向量表征,分别为前向和反向的GRU隐层向量表征,为含有重要信息的句子级表示;为文档级编码层的前向隐层向量表征,为文档级编码层的反向隐层向量表征;si为文档级向量表征用于表示文档的含义;
Step3.2、考虑涉案新闻文本数据的特点,本发明提出了一种案件信息属性感知的选择策略,从具有不同案件属性信息库中选择出重要信息;案件属性感知文档级选择性编码策略过Step2.1节中案件信息库表示Ci和Step3.1文档级表示si作为输入构建感知案件信息属性的定制表示,并输出门向量select_gate_si,然后重新表示感知案件属性选择性编码层的文档级表示向量si′,
select_gate_si=σ(WaCi+Uasi+ba) (7)
si′=si⊙select_gate_si (8)
其中Wa和Ua是权重矩阵,ba是偏差矢量,σ表示非线性激活函数,si为文档级向量表示,Ci为案件信息库向量表示,select_gate_si为感知案件信息属性的选择门向量表征;si′为感知案件属性的文档级向量表征;
Step3.3、对于特定领域数据,如涉案新闻文本,在抽取摘要句时,含有领域知识的文本数据会有自己特有的语义信息,因此,在预测输出摘要时,要考虑案件信息属性的信息Ci,以获得更倾向于涉案新闻语义信息,案件倾向性联合注意力网络通过感知案件属性选择性编码层的文档级表示向量si′与案件信息库信息表示向量Ci作为输入构建更倾向于案件信息语义的文档级定制向量表示
2.根据权利要求1所述的基于案件属性感知的案件倾向性抽取式摘要方法,其特征在于:步骤Step1包括:
Step1.1、对法院舆情系统进行爬取,经过人工筛选和标注后构成训练集20.02k条、验证集2k条涉案新闻文本,每个训练样本包含一对输入文本和摘要句;
Step1.2、构建案件信息库,由不同案件属性词构成:(1)、通过TF-IDF算法对篇章数据与对应对摘要句抽取关键信息;(2)、根据涉案新闻文本数据特点手动构建;
Step1.3、涉案新闻文本数据集通过Glove工具来预训练词向量。
4.根据权利要求1所述的基于案件属性感知的案件倾向性抽取式摘要方法,其特征在于:步骤Step4的具体步骤如下:
Step4.1、这里使用联合打分与选择框架进行摘要的提取,具体过程为GRU将最后感知案件属性文档级编码提取的句子的文档级别表示Csi-1作为输入以产生其当前隐藏状态hs;句子评分器是一个两层MLP,即当前隐藏状态hs和句子表示向量Csi-1通过一非线性激活函数来计算句子Csi的分数
hs=GRU(Csi-1,hs-1) (13)
其中GRU表示循环神经网络,Csi-1为上一层提取句子的文档级向量表征,hs-1为上一层隐层向量表征,hs为当前层隐藏状态向量表征;Wl,Ul,Wl是可学习的参数,tanh是非线性激活函数,Csi为当前句子的文档级向量表征,为句子Csi的分数;
Step4.3、使用KL损失函数优化我们的模型预测p和训练数据分布q,摘要输出集为S={Csi|Csi∈T},文本摘要一般使用Rouge来衡量模型性能,这里使用RougeF1作为评估函数r(·),在数据训练期间,学习RougeF1的得分函数g(·)增益,这里期望摘要模型在时间步t使用上一步选择的句子Csi-1学习ROUGE F1的相对增益,
g(Csi)=r(Csi-1∪{Csi})-r(Csi-1) (16)
其中Csi-1为上一步选择的句子,Csi为当前步选择的句子,∪为合并运算;
Step4.4、使用softmax函数对预测句子分数进行归一化,以获得模型预测分布P,使用另外一个softmax去计算以产生带有标记的数据分布X作为训练目标,这里将τ作为平滑因子以产生平滑的标签分布q,
q(Csi)=softmax(τg(Csi)) (18)
其中softmax是归一化操作,τ为平滑因子;
Step4.5、最后通过相对熵最小化KL损失函数kl:
kl=TKL=(p||q) (19)
其中TKL为文本T的KL损失函数,p为模型预测分布,q为训练数据分布;
Step4.6、利用KL损失函数训练模型参数,构建案句子提取器模型,通过案句子提取器模型抽取摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010980726.1A CN112287687B (zh) | 2020-09-17 | 2020-09-17 | 基于案件属性感知的案件倾向性抽取式摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010980726.1A CN112287687B (zh) | 2020-09-17 | 2020-09-17 | 基于案件属性感知的案件倾向性抽取式摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287687A CN112287687A (zh) | 2021-01-29 |
CN112287687B true CN112287687B (zh) | 2022-06-14 |
Family
ID=74419900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010980726.1A Active CN112287687B (zh) | 2020-09-17 | 2020-09-17 | 基于案件属性感知的案件倾向性抽取式摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287687B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113536804B (zh) * | 2021-06-29 | 2022-05-03 | 北京理工大学 | 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法 |
CN113901990A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 多视角集成学习的案件与新闻相关性分析方法 |
CN113988083B (zh) * | 2021-11-17 | 2024-07-12 | 上海海事大学 | 一种用于航运新闻摘要生成的事实性信息编码与评估方法 |
CN114969304B (zh) * | 2022-05-09 | 2024-08-23 | 昆明理工大学 | 基于要素图注意力的案件舆情多文档生成式摘要方法 |
CN114880461B (zh) * | 2022-06-02 | 2024-10-15 | 大连理工大学 | 一种结合对比学习和预训练技术的中文新闻文本摘要方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474709B2 (en) * | 2017-04-14 | 2019-11-12 | Salesforce.Com, Inc. | Deep reinforced model for abstractive summarization |
CN108932229A (zh) * | 2018-06-13 | 2018-12-04 | 北京信息科技大学 | 一种金融新闻倾向性分析方法 |
CN109325109B (zh) * | 2018-08-27 | 2021-11-19 | 中国人民解放军国防科技大学 | 基于注意力编码器的抽取式新闻摘要生成装置 |
CN110390103B (zh) * | 2019-07-23 | 2022-12-27 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及系统 |
CN110489541B (zh) * | 2019-07-26 | 2021-02-05 | 昆明理工大学 | 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法 |
CN111339754B (zh) * | 2020-03-04 | 2022-06-21 | 昆明理工大学 | 基于案件要素句子关联图卷积的案件舆情摘要生成方法 |
CN111666756B (zh) * | 2020-05-26 | 2023-12-05 | 湖北工业大学 | 一种基于主题融合的序列模型文本摘要生成方法 |
-
2020
- 2020-09-17 CN CN202010980726.1A patent/CN112287687B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112287687A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287687B (zh) | 基于案件属性感知的案件倾向性抽取式摘要方法 | |
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN110717332B (zh) | 基于非对称孪生网络的新闻与案件相似度计算方法 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
CN110717843A (zh) | 一种可复用的法条推荐框架 | |
CN115146629B (zh) | 一种基于对比学习的新闻文本与评论相关性分析方法 | |
CN111814477B (zh) | 一种基于争议焦点实体的争议焦点发现方法、装置及终端 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN111291188A (zh) | 一种智能信息抽取方法及系统 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN113656561A (zh) | 实体词识别方法、装置、设备、存储介质及程序产品 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114647715A (zh) | 一种基于预训练语言模型的实体识别方法 | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
CN109284381A (zh) | 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法 | |
CN117876929B (zh) | 一种渐进式多尺度上下文学习的时序目标定位方法 | |
CN114611520A (zh) | 一种文本摘要生成方法 | |
CN114742071A (zh) | 基于图神经网络的汉越跨语言观点对象识别分析方法 | |
CN113012685A (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN112749566A (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
CN115017404A (zh) | 基于压缩空间句子选择的目标新闻话题摘要方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |