CN112434212B - 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置 - Google Patents

基于神经自回归分布估计的涉案新闻主题模型构建方法及装置 Download PDF

Info

Publication number
CN112434212B
CN112434212B CN202010984648.2A CN202010984648A CN112434212B CN 112434212 B CN112434212 B CN 112434212B CN 202010984648 A CN202010984648 A CN 202010984648A CN 112434212 B CN112434212 B CN 112434212B
Authority
CN
China
Prior art keywords
case
news
involved
model
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010984648.2A
Other languages
English (en)
Other versions
CN112434212A (zh
Inventor
毛存礼
梁昊远
余正涛
郭军军
黄于欣
高盛祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010984648.2A priority Critical patent/CN112434212B/zh
Publication of CN112434212A publication Critical patent/CN112434212A/zh
Application granted granted Critical
Publication of CN112434212B publication Critical patent/CN112434212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于神经自回归分布估计的涉案新闻主题模型构建方法及装置,属于自然语言处理技术领域。本发明首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率;依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索。本发明在困惑度和主题连贯性以及文档检索精确率等指标上的表现均优于基线模型。

Description

基于神经自回归分布估计的涉案新闻主题模型构建方法及 装置
技术领域
本发明涉及基于神经自回归分布估计的涉案新闻主题模型构建方法及装置,属于自然语言处理技术领域。
背景技术
涉案新闻是指与司法案件相关的新闻,准确抽取涉案新闻主题信息对进一步开展涉案新闻检索、涉案新闻事件分析等研究具有重要价值。概率主题模型是文档主题抽取、文档语义表征的有效方式,常用于信息检索、文本分类或摘要任务。传统主题模型主要考虑词频统计特征,而忽略了文档中的词语出现的次序及上下文信息。神经主题模型由于能够获得文本的深层语义信息,既可以在文本中捕获词汇之间的依赖关系,也能利用潜在主题捕获全局语义信息,有效弥补了传统主题模型的缺陷,近年来在文本检索、文本分类、文本摘要等自然语言处理任务中表现出较好的效果。
涉案新闻通常包含了案件名称、涉案人员、涉案地点、涉案触发词等案件要素,这些案件要素能够简洁、准确地描绘一个案件的重要特征。由此可见,涉案新闻主题分析任务的关键在于分析主题词与案件之间的关联关系,以此作为先验知识指导文本中词语的主题分布和文本的主题表征。然而,针对通用文档建模的神经主题模型不能将案件要素作为先验知识来帮助提升涉案新闻文本中词语主题分布的准确性。
发明内容
为解决上述问题,本发明提供了基于神经自回归分布估计的涉案新闻主题模型构建方法及装置,本发明在困惑度、主题连贯性以及文档检索精确率等指标上表现均优于基线模型,精确率普遍都有所提升。
第一方面,本发明提供一种基于神经自回归分布估计的涉案新闻主题模型构建方法,首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率;依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索。
其中,所述构建涉案新闻数据并预处理,得到案件要素库和涉案词向量包括如下:
对涉案新闻和案件本体进行分析,根据其涉案人名、地名、事件描述以及案件触发词案件特征构建案件要素库作为模型的涉案外部知识;
利用裁判文书数据、涉案新闻数据以及word2vec算法预训练涉案领域的词向量作为模型的涉案先验知识。
其中,由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:
不同于iDocNADEe的输入,将新闻分别表示为词序列v以及新闻中包含的案件要素序列k;
利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻中包含的案件要素的双向隐状态;
Figure GDA0002891938390000021
Figure GDA0002891938390000022
Figure GDA0002891938390000023
Figure GDA0002891938390000024
其中,
Figure GDA0002891938390000025
Figure GDA0002891938390000026
分别代表了新闻在位置i的前后向隐状态,
Figure GDA0002891938390000027
Figure GDA0002891938390000028
分别代表了新闻所包含的案件要素在位置i的前后向隐状态,g(·)代表sigmoid激活函数,
Figure GDA0002891938390000029
代表前后向偏置向量,
Figure GDA00028919383900000210
分别代表参数矩阵和涉案领域词向量矩阵,H,V分别代表了主题数量和词表大小,
Figure GDA00028919383900000211
分别代表新闻中第k个词在参数矩阵和涉案领域词向量矩阵中的向量表示,
Figure GDA00028919383900000212
分别代表新闻中第j个案件要素在参数矩阵和涉案领域词向量矩阵中的向量表示,λ代表了平衡权重系数。
其中,用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权的具体步骤如下:
A、利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息:
Figure GDA00028919383900000213
Figure GDA0002891938390000031
其中,
Figure GDA0002891938390000032
分别代表了前向注意力向量和后向注意力向量,n为案件要素的数量;
B、利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度:
Figure GDA0002891938390000033
Figure GDA0002891938390000034
其中,
Figure GDA0002891938390000035
分别代表了前向相关度和后向相关度,v<i为上文信息,v>i为下文信息,k<i为上文中包含的案件要素,k>i为下文中包含的案件要素,相关度的计算函数为点乘运算:
Figure GDA0002891938390000036
C、利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息:
Figure GDA0002891938390000037
Figure GDA0002891938390000038
其中,
Figure GDA0002891938390000039
分别代表了案件信息加权的新闻文本隐状态。
其中,利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率为:
Figure GDA00028919383900000310
Figure GDA00028919383900000311
其中,w∈{1,...,V},
Figure GDA00028919383900000312
分别代表前后向偏置向量,
Figure GDA00028919383900000313
代表了连接隐藏层和输出层的权重矩阵。
其中,依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索包括:
根据每个词在案件要素指导下的自回归条件,计算新闻的对数似然函数logp(v):
Figure GDA0002891938390000041
其中,D代表了新闻文本的长度,p(vi|v<i,k<i),p(vi|v>i,k>i)分别代表了第i个位置的词的前后向自回归条件概率。
利用梯度下降算法训练参数以最大化对数似然函数,由此构建涉案新闻的主题模型。
本发明还提供一种基于神经自回归分布估计的涉案新闻主题模型构建装置,该装置包括用于执行第一方面的所述方法的模块。
本发明的有益效果是:
本发明将上下文信息和案件信息进行融合,既能利用上下文信息弥补传统主题模型忽略文本语序的问题,又能利用案件要素增强文本中与案件信息有关的词语的语义特征表示,从而提高了用于涉案新闻领域的主题模型的性能;
实验结果表明本发明提出的方法在困惑度、主题连贯性以及文档检索精确率等指标表现上均优于基线系统。
附图说明
图1为本发明中的模型构建示意图;
图2为本发明中的隐状态计算示意图;
图3为本发明中的文档检索实验精确率对比图;
图4为本发明中的装置结构框图;
图5为本发明中的流程图。
具体实施方式
实施例1:如图1-5所示,第一方面,本发明提供一种基于神经自回归分布估计的涉案新闻主题模型构建方法,首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率;依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索。
具体步骤如下:
Step1、涉案新闻数据爬取并根据涉案特性进行数据预处理;
Step1.1、根据近年来的数十起热点案件的关键词从互联网爬取相关新闻,并通过人民法院涉法涉诉舆情监测系统(http://116.55.241.12:8080/zhfyfull)判断该新闻是否属于涉案新闻,最后得到涉及65个案件的新闻40000余条;
Step1.2、对涉案新闻和案件本体进行分析,根据其涉案人名、地名、事件描述以及案件触发词等案件特征构建案件要素库作为模型的涉案外部知识;
Step1.3、从中国裁判文书网爬取裁判文书数据(约9G),并利用裁判文书数据和涉案新闻数据以及word2vec算法预训练涉案领域的词向量作为模型的涉案先验知识。
Step2、构建基于神经自回归分布估计的涉案新闻主题模型;
由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:
Step2.1、不同于iDocNADEe的输入,将新闻分别表示为词序列v以及新闻中包含的案件要素序列k;
Step2.2、利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻中包含的案件要素的双向隐状态;
Figure GDA0002891938390000051
Figure GDA0002891938390000052
Figure GDA0002891938390000053
Figure GDA0002891938390000054
其中,
Figure GDA0002891938390000055
Figure GDA0002891938390000056
分别代表了新闻在位置i的前后向隐状态,
Figure GDA0002891938390000057
Figure GDA0002891938390000058
分别代表了新闻所包含的案件要素在位置i的前后向隐状态,g(·)代表sigmoid激活函数,
Figure GDA0002891938390000059
代表前后向偏置向量,
Figure GDA00028919383900000510
分别代表参数矩阵和涉案领域词向量矩阵,H,V分别代表了主题数量和词表大小,
Figure GDA00028919383900000511
分别代表新闻中第k个词在参数矩阵和涉案领域词向量矩阵中的向量表示,
Figure GDA00028919383900000512
分别代表新闻中第j个案件要素在参数矩阵和涉案领域词向量矩阵中的向量表示,λ代表了平衡权重系数。
Step2.3、利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息:
Figure GDA0002891938390000061
Figure GDA0002891938390000062
其中,
Figure GDA0002891938390000063
分别代表了前向注意力向量和后向注意力向量,n为案件要素的数量;
Step2.4、利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度:
Figure GDA0002891938390000064
Figure GDA0002891938390000065
其中,
Figure GDA0002891938390000066
分别代表了前向相关度和后向相关度,v<i为上文信息,v>i为下文信息,k<i为上文中包含的案件要素,k>i为下文中包含的案件要素,相关度的计算函数为点乘运算:
Figure GDA0002891938390000067
Step2.5、利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息:
Figure GDA0002891938390000068
Figure GDA0002891938390000069
其中,
Figure GDA00028919383900000610
分别代表了案件信息加权的新闻文本隐状态。
Step2.6、利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率为:
Figure GDA00028919383900000611
Figure GDA00028919383900000612
其中,w∈{1,...,V},
Figure GDA00028919383900000613
分别代表前后向偏置向量,
Figure GDA00028919383900000614
代表了连接隐藏层和输出层的权重矩阵。
Step2.7、根据每个词在案件要素指导下的自回归条件,计算新闻的对数似然函数logp(v):
Figure GDA0002891938390000071
其中,D代表了新闻文本的长度,p(vi|v<i,k<i),p(vi|v>i,k>i)分别代表了第i个位置的词的前后向自回归条件概率。
Step2.8、利用梯度下降算法训练参数以最大化对数似然函数,由此构建涉案新闻的主题模型。
本发明还提供一种基于神经自回归分布估计的涉案新闻主题模型构建装置,该装置包括用于执行第一方面的所述方法的模块。
具体的,例如所述方法的模块可以包括如下:
涉案数据自动获取和存储模块,根据设置的案件关键词和新闻来源,自动爬取新闻,其中新闻来源包括微博、新闻网站和论坛,其中微博来源主要包括了各类法院账号、经常问询法院的蓝V账号以及各类新闻、报刊的微博账号,其中论坛来源主要来自对涉案信息关注度高的论坛。爬虫程序则会自动根据设置的来源配置爬取格式和X-path。若爬取到的新闻未在训练模型的语料中出现,则调用人民法院涉法涉诉舆情监测系统接口对新闻进行涉案相关性分析,然后通过构建的案件要素库自动抽取新闻中包含的案件要素,最后存储方式为数据库存储和文本存储。其中,数据库存储是结构化的,将涉案新闻的ID、标题、正文、发布时间、新闻来源和案件要素存入Oracle数据库;在文本存储中根据案件要素构建倒排索引;
涉案新闻主题抽取模块,从数据库中读取新闻并进行预处理:去停用词、分词以及抽取案件要素。将新闻及其中的案件要素以序列的方式分别作为输入,自动调用训练好的基于神经自回归分布估计的涉案新闻主题模型,计算每条涉案新闻由案件要素加权的主题信息,计算步骤如下:
1、根据Step2.1计算词序列的前后向隐状态:
2、根据Step2.2计算案件要素序列的前后向隐状态:
3、根据Step2.3计算案件要素平均向量:
4、根据Step2.4计算案件要素与新闻文本的双向相关度:
5、根据Step2.5计算案件要素加权的前后向隐状态:
6、根据案件要素加权的前后向隐状态相加计算得到融合案件特征的主题信息:
Figure GDA0002891938390000081
其中,
Figure GDA0002891938390000082
代表了新闻的主题信息。
基于主题的涉案新闻检索模块,实验结果证明基于主题检索效果较好,因此利用新闻的主题信息进行相似度计算从而进行检索。更具体地,每输入一条涉案新闻,检索模块将利用该新闻的主题信息与数据库中其它新闻的主题信息两两计算余弦相似度:
Figure GDA0002891938390000083
其中,A,B代表了两条涉案新闻的主题信息,n代表得到的主题信息的维度。得到主题信息的余弦相似度后,并根据该相似度从大到小对检索集中的涉案新闻进行排序并返回新闻的ID。得到返回的新闻ID之后,模块将在数据库中查询相似度最高的N条新闻的ID,并将这些新闻的标题、正文、发布时间以及来源反馈给用户,其中N由用户设置。
实施例2:如图1-5所示,基于神经自回归分布估计的涉案新闻主题模型构建方法,所述方法首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率;依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索。
具体步骤为:
涉案新闻数据爬取并根据涉案特性进行数据预处理;
根据热点案件关键词从互联网爬取新闻数据,并通过人民法院涉法涉诉舆情监测系统(http://116.55.241.12:8080/zhfyfull)判断该新闻是否属于涉案新闻,最终得到涉及65个案件的40000余条新闻;
对涉案新闻和案件进行分析,根据其涉案人名、地名、事件描述以及案件触发词等构建案件要素库;
从中国裁判文书网爬取裁判文书数据(约9G),并利用裁判文书数据和涉案新闻数据以及word2vec算法预训练涉案领域的词向量;
由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:
将每一篇文档表示为一个序列v=[v1,v2,...,vD],其中,D是这篇文档的词数,vi∈{1,...,K}表示文档中第i个词在语料库词表中的下标,K是语料库词表的大小。基于iDocNADEe模型,文档的每个词汇vi都有两个包含了上下文信息的隐状态,分别是前向隐状态
Figure GDA0002891938390000091
以及后向隐状态
Figure GDA0002891938390000092
这两个隐状态分别由vi的上下文信息v<i=[v1,...,vi-1]与v>i=[vi+1,...,vD]以及引入预训练的词向量作为语义补充信息计算得到。即每个词vi的隐状态
Figure GDA0002891938390000093
包含了vi的完整上下文信息。前后向隐状态的计算公式如下:
Figure GDA0002891938390000094
Figure GDA0002891938390000095
其中,g(·)代表任意非线性激活函数,
Figure GDA0002891938390000096
为偏置向量,H代表隐藏层的大小,即主题数量。
Figure GDA0002891938390000097
为参数矩阵,
Figure GDA0002891938390000098
是预训练的词向量矩阵,λ是权重系数。
Figure GDA0002891938390000099
分别代表了矩阵W,E中的第vk列。如图2所示。其中参数矩阵W作为一个可学习的参数,代表了主题模型的主题——词分布,它的每一行Wj,:编码了第j个主题的主题分布,而每一列
Figure GDA00028919383900000910
则是第vk个词的主题信息。
案件要素是指案件的内在组成部分及各部分之间的相互关系和排列状况,如,刑事案件由何事、何时、何地、何物、何情、何故、何人等7要素构成,对案件构成要素进行分析能够从根本上把握案件发生、发展的趋势和规律。对于涉案新闻主题抽取任务,分析涉案文本与案件要素之间的关联关系有助于提高涉案主题分布的准确性。为此,根据刑事案件构成要素的特点,从互联网中收集了有关某地公交坠江案,等刑事案件的相关新闻文档,通过人工方式构建了案件要素库,为涉案新闻主题建模提供了外部知识。
虽然案件要素包含了丰富的案件信息,但不同的案件要素所包含的信息重要程度并不相同。以上述涉案新闻的案件要素为例,“殴打”、“坠江”的重要程度应大于“某地”,因此要计算出每个案件要素与主题的相关度,从而计算出各个不同案件要素的权重。此外,本发明还考虑了案件要素的上下文顺序,将上文包含的案件要素融入到前向隐状态,将下文包含的案件要素融入到后向隐状态。
针对文本序列v,通过构建的案件要素库,可以提取出案件要素序列k=[k1,k2,...,kn],其中n是序列中所包含的案件要素数。为构建注意力机制,首先计算案件要素的前后向隐状态,计算公式如下:
Figure GDA0002891938390000101
Figure GDA0002891938390000102
其中,k<i∈v<i,k>i∈v>i
Figure GDA0002891938390000103
分别代表文档v中第j个要素在参数矩阵W和预训练的词向量矩阵E中的向量表示。然后使用得到的案件要素的前后向隐状态计算出案件要素前后向注意力向量:
Figure GDA0002891938390000104
Figure GDA0002891938390000105
其中,
Figure GDA0002891938390000106
分别代表了前后向注意力向量,编码了案件要素所包含的信息,利用该向量对文本的隐状态进行加权可以得到带有案件信息的隐状态。使用新闻文本中第i个词的前后向隐状态与案件要素前后向注意力向量计算第i个词处的前后向注意力权值:
Figure GDA0002891938390000107
Figure GDA0002891938390000108
其中,
Figure GDA0002891938390000109
分别代表了前后向注意力权值,
Figure GDA00028919383900001010
表示注意力机制的对齐函数。最终新闻的案件要素加权隐向量由下式得到:
Figure GDA00028919383900001011
Figure GDA00028919383900001012
利用神经自回归算法和利用注意力机制得到的融合案件要素信息的文本隐状态,可以计算每个词最终的前后向自回归条件(如图1上方的
Figure GDA00028919383900001013
),计算公式如下:
Figure GDA00028919383900001014
Figure GDA0002891938390000111
其中,w∈{1,...,K}。
Figure GDA0002891938390000112
分别为前后向的偏置向量。
Figure GDA0002891938390000113
代表连接隐藏层与输出层的权重矩阵。
考虑到直接计算公式(11-12)的计算成本过高,本发明使用二叉树对其进行简化。在在二叉树中,从根到叶子的每个路径都对应一个词汇。树中每个节点向左(或右)的概率由一组二进制逻辑回归模型建模,然后通过这些概率来计算给定词的概率。利用二叉树,则概率p(vi=w|v<i,k<i)和p(vi=w|v>i,k>i)可以如下表示:
Figure GDA0002891938390000114
Figure GDA0002891938390000115
其中:
Figure GDA0002891938390000116
Figure GDA0002891938390000117
其中,l(vi)表示从根到词vi的路径上的树节点的序列,而π(vi)表示这些节点中的每个节点的二进制左(或右)选择的序列(例如l(vi)1将始终是树的根,如果词vi的叶子节点在其左子树中,则π(vi)1为0,否则为1)
在得到每个词的自回归条件概率之后,通过将文本中所有词的联合分布p(v)分解为每个词的条件分布的乘积对文本进行建模,即
Figure GDA0002891938390000118
最终,文档的对数似然函数的计算公式如下:
Figure GDA0002891938390000119
其中,p(vi|v<i,k<i),p(vi|v>i,k>i)分别代表了新闻第i个位置的词的前后向自回归条件概率,最终以文档的对数似然函数logp(v)为优化目标,使用随机梯度下降算法优化参数
Figure GDA00028919383900001110
根据训练好的的涉案新闻主题模型抽取涉案新闻的主题信息。对于一篇涉案新闻v*,其词汇大小为D*,案件要素k*的大小为n*。首先通过公式(1-2)计算新闻的双向隐状态
Figure GDA0002891938390000121
Figure GDA0002891938390000122
再由公式(3-8)计算案件要素双向注意力权值
Figure GDA0002891938390000123
Figure GDA0002891938390000124
最终由公式(9-10)计算带有案件要素加权的隐状态
Figure GDA0002891938390000125
Figure GDA0002891938390000126
最终,由下式得到涉案新闻经由案件要素加权的主题信息
Figure GDA0002891938390000127
Figure GDA0002891938390000128
经过对新闻的分析,发现与案件相关的新闻正文的长度不均衡,而且文本中包含了大量的噪声,但新闻标题基本上都包含了跟案件相关的一些信息,如案件名称、涉案人员等重要信息。因此本发明仅选择了涉案新闻的标题文本来构建实验数据集,具体数据集信息如表1。具体实验参数如表2所示。
表1数据集具体信息
Figure GDA0002891938390000129
表2实验参数设置
Figure GDA00028919383900001210
在评价指标方面,本发明选取了困惑度、主题连贯性以及文档检索精确率作为评价指标。具体介绍如下:
困惑度(PPL)是为了检验主题模型的泛化能力,困惑度越低,则代表模型具有更好的泛化能力。通过计算测试集中涉案新闻的困惑度来评估主题模型作为生成模型的文档生成性能。困惑度的计算公式如下:
Figure GDA0002891938390000131
主题连贯性是为了对主题词的语义进行评价。该指标使用参考语料库上的滑动窗口来确定每个主题词的上下文特征。该指标分数越高,主题词的语义越一致,即代表主题模型效果越好。本发明使用了
Figure GDA0002891938390000135
等人提出的自动度量指标CV来验证主题词的连贯性,并使用开源工具gensim完成此项指标的计算。
表3新闻检索系统中的混淆矩阵
Figure GDA0002891938390000132
为了对本发明提出的模型所抽取的主题信息进行评估,还设置了一个涉案新闻检索的实验,并使用精确率作为评价指标。新闻检索系统的精确率表示在检索到的文档中,相关文档所占比例。已知混淆矩阵(表3),则精确率计算公式如下:
Figure GDA0002891938390000133
本发明所采用的对比模型如下:
(1)DocNADE:一种NADE和RSM的扩展模型,使用神经自回归估计对文本进行主题建模;
(2)TDLM:一种基于卷积神经网络、注意力机制以及LSTM网络的双神经网络模型,是一种多任务学习模型,由两个子任务主题学习与文本推断组成;
(3)ctx-DocNADEe:在DocNADE的基础上引入了LSTM语言模型和Glove词向量,其文本的隐藏状态由三者共同计算得到;
(4)iDocNADEe:同样在DocNADE的基础上进行了改进,引入了Glove词向量和双向语言模型的计算方式。
表4主题数H=50各模型的PPL分数
Figure GDA0002891938390000134
Figure GDA0002891938390000141
表4展示了本发明提出的模型与其它对比实验在主题数H=50时的困惑度分数。由于TDLM模型主要针对语言模型,因此其在主题模型的效果并不明显。在相同主题数时,本发明提出的模型有着更低的困惑度分数,这充分证明了以案件要素作为指导确实能使模型具有更好的泛化能力。
表5主题数H=50各模型的主题连贯性CV
Figure GDA0002891938390000142
表5展示了本发明提出的模型与其它对比模型分别在不同主题数下,每个主题取前10个(T10)以及前20个(T20)主题词的平均主题连贯性分数。结果表明,TDLM模型所得到的主题词的语义连贯性较差,因为其主要目的通过主题模型来优化语言模型,而DocNADE只考虑了文本的前向序列并没有考虑反向序列,因此其效果较拓展类模型较差。而其它三种方法都考虑到了文章的上下文信息,所以效果较好。其中,本文方法由于加入了案件要素作为指导,故而产生的主题词更加连贯,且更加具有相关性。
表6模型所得5个最相邻词的相似度(%)
Figure GDA0002891938390000143
Figure GDA0002891938390000151
为了进行词汇向量表示的测试,本发明使用构建的涉案新闻数据集对所提出的模型进行了训练,并使用作为每个词汇的向量表示(200维)。表6显示了在某些选定词汇的五个近邻词汇及其对应的余弦相似度得分。sy,sw分别代表使用本文提出方法计算得到的词的向量表示与使用word2vec训练得到的词的向量表示所计算出余弦相似度。结果证实了本发明提出的模型抽取到的主题词跟案件要素具有更大的语义相关性。
主题模型的一个重要用途就是得到文档的主题信息。通过执行一个涉案新闻检索任务以评估本发明所提出方法以及对比方法所得到的新闻主题信息的质量。使用公式(18)来抽取每篇新闻的主题信息,并将训练集中的新闻用作检索,而测试集中的新闻用作查询。检索实验设置了多组不同的检索分数(fraction of retrieved documents)以进行对比。将用作查询的新闻的主题信息与所有检索集中的新闻的主题信息做相似度计算,返回相似度最高的前Np条新闻,Np的计算公式如下:
Np=Nr*检索分数 (21)
其中Nr是检索集的新闻数量。最终通过查询新闻的标签和返回的Np条新闻的标签计算检索精确率。结果如图3所示,纵轴代表各模型取得的精确率,横轴代表检索分数。可以看到,检索分数与精确率成反比,因为检索分数越高,代表返回的新闻数量越多,而检索到不相关新闻的数量也就越多,直接导致精确率的降低。当检索分数为1%时,检索系统所返回新闻的数量恰好与检索集中一个类别新闻的平均数量相近,当检索分数继续升高时,返回的新闻几乎都是无关新闻,因此精确率大幅度减低。但无论检索分数的高低,利用提出模型所抽取的主题信息获得的检索精确率始终是最高的。这是因为将案件要素融入到模型,因此模型所抽取的主题信息包含了案件信息能得到更好的质量。这也充分证明了使用案件要素信息对模型进行注意力加权指导是有效的。
根据本发明的构思,本发明还提供了一种基于神经自回归分布估计的涉案新闻主题模型构建装置,如图4所示,该装置包括:
涉案数据自动获取和存储模块,根据设置的案件关键词和新闻来源,自动爬取新闻,其中新闻来源包括微博、新闻网站和论坛,其中微博来源主要包括了各类法院账号、经常问询法院的蓝V账号以及各类新闻、报刊的微博账号,其中论坛来源主要来自对涉案信息关注度高的论坛。爬虫程序则会自动根据设置的来源配置爬取格式和X-path。若爬取到的新闻未在训练模型的语料中出现,则调用人民法院涉法涉诉舆情监测系统接口对新闻进行涉案相关性分析,然后通过构建的案件要素库自动抽取新闻中包含的案件要素,最后存储方式为数据库存储和文本存储。其中,数据库存储是结构化的,将涉案新闻的ID、标题、正文、发布时间、新闻来源和案件要素存入Oracle数据库;在文本存储中根据案件要素构建倒排索引;
涉案新闻主题抽取模块,从数据库中读取新闻并进行预处理:去停用词、分词以及抽取案件要素。将新闻及其中的案件要素以序列的方式分别作为输入,自动调用训练好的基于神经自回归分布估计的涉案新闻主题模型,根据公式(18)计算每条涉案新闻由案件要素加权的主题信息。
基于主题的涉案新闻检索模块,实验结果证明基于主题检索效果较好,因此利用新闻的主题信息进行相似度计算从而进行检索。更具体地,每输入一条涉案新闻,检索模块将利用该新闻的主题信息与数据库中其它新闻的主题信息两两计算余弦相似度:
Figure GDA0002891938390000161
其中,A,B分别代表了两条新闻的主题信息。得到主题信息的余弦相似度后,并根据该相似度从大到小对检索集中的涉案新闻进行排序并返回新闻的ID。得到返回的新闻ID之后,模块将在数据库中查询相似度最高的N条新闻的ID,并将这些新闻的标题、正文、发布时间以及来源反馈给用户,其中N由用户设置。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (7)

1.基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率,依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索;
利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻中包含的案件要素的双向隐状态;并包括了新闻在位置i的前后向隐状态和新闻所包含的案件要素在位置i的前后向隐状态;利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息;利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度;利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息。
2.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:所述构建涉案新闻数据并预处理,得到案件要素库和涉案词向量包括如下:
对涉案新闻和案件本体进行分析,根据其涉案人名、地名、事件描述以及案件触发词案件特征构建案件要素库作为模型的涉案外部知识;
利用裁判文书数据、涉案新闻数据以及word2vec算法预训练涉案领域的词向量作为模型的涉案先验知识。
3.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:
不同于iDocNADEe的输入,将新闻分别表示为词序列v以及新闻中包含的案件要素序列k;
利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻中包含的案件要素的双向隐状态;
Figure FDA0003285898970000021
Figure FDA0003285898970000022
Figure FDA0003285898970000023
Figure FDA0003285898970000024
其中,
Figure FDA0003285898970000025
Figure FDA0003285898970000026
分别代表了新闻在位置i的前后向隐状态,
Figure FDA0003285898970000027
Figure FDA0003285898970000028
分别代表了新闻所包含的案件要素在位置i的前后向隐状态,g(·)代表sigmoid激活函数,
Figure FDA0003285898970000029
Figure FDA00032858989700000210
代表前后向偏置向量,W,
Figure FDA00032858989700000211
分别代表参数矩阵和涉案领域词向量矩阵,H,V分别代表了主题数量和词表大小,
Figure FDA00032858989700000212
分别代表新闻中第k个词在参数矩阵和涉案领域词向量矩阵中的向量表示,
Figure FDA00032858989700000213
分别代表新闻中第j个案件要素在参数矩阵和涉案领域词向量矩阵中的向量表示,λ代表了平衡权重系数。
4.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权的具体步骤如下:
A、利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息:
Figure FDA00032858989700000214
Figure FDA00032858989700000215
其中,
Figure FDA00032858989700000216
分别代表了前向注意力向量和后向注意力向量,n为案件要素的数量;
B、利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度:
Figure FDA00032858989700000217
Figure FDA00032858989700000218
其中,
Figure FDA00032858989700000219
分别代表了前向相关度和后向相关度,v<i为上文信息,v>i为下文信息,k<i为上文中包含的案件要素,k>i为下文中包含的案件要素,相关度的计算函数为点乘运算:
Figure FDA0003285898970000031
Figure FDA0003285898970000032
C、利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息:
Figure FDA0003285898970000033
Figure FDA0003285898970000034
其中,
Figure FDA0003285898970000035
分别代表了案件信息加权的新闻文本隐状态。
5.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率为:
Figure FDA0003285898970000036
Figure FDA0003285898970000037
其中,w∈{1,...,V},
Figure FDA0003285898970000038
Figure FDA0003285898970000039
分别代表前后向偏置向量,
Figure FDA00032858989700000310
代表了连接隐藏层和输出层的权重矩阵。
6.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索包括:
根据每个词在案件要素指导下的自回归条件,计算新闻的对数似然函数logp(v):
Figure FDA00032858989700000311
其中,D代表了新闻文本的长度,p(vi|v<i,k<i),p(vi|v>i,k>i)分别代表了第i个位置的词的前后向自回归条件概率;
利用梯度下降算法训练参数以最大化对数似然函数,由此构建涉案新闻的主题模型。
7.基于神经自回归分布估计的涉案新闻主题模型构建装置,其特征在于,包括用于执行如权利要求1-6任一权利要求所述的方法的模块。
CN202010984648.2A 2020-09-18 2020-09-18 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置 Active CN112434212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010984648.2A CN112434212B (zh) 2020-09-18 2020-09-18 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010984648.2A CN112434212B (zh) 2020-09-18 2020-09-18 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置

Publications (2)

Publication Number Publication Date
CN112434212A CN112434212A (zh) 2021-03-02
CN112434212B true CN112434212B (zh) 2021-11-23

Family

ID=74690684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010984648.2A Active CN112434212B (zh) 2020-09-18 2020-09-18 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置

Country Status (1)

Country Link
CN (1) CN112434212B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154156A (zh) * 2017-11-30 2018-06-12 兰州理工大学 基于神经主题模型的图像集成分类方法及装置
CN111026866A (zh) * 2019-10-24 2020-04-17 北京中科闻歌科技股份有限公司 一种面向领域的文本信息抽取聚类方法、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154156A (zh) * 2017-11-30 2018-06-12 兰州理工大学 基于神经主题模型的图像集成分类方法及装置
CN111026866A (zh) * 2019-10-24 2020-04-17 北京中科闻歌科技股份有限公司 一种面向领域的文本信息抽取聚类方法、设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Document Informed Neural Autoregressive Topic Models with Distributional Prior;Pankaj Gupta1.et.l;《The Thirty-Third AAAI Conference on Artificial Intelligence》;20190114;第1-13页 *
textTOvec: DEEP CONTEXTUALIZED NEURAL AUTOREGRESSIVE TOPIC MODELS OF LANGUAGE WITH DISTRIBUTED COMPOSITIONAL PRIOR;Pankaj Gupta.et.l;《ICLR 2019》;20191231;第1-17页 *
Topic Modeling of Multimodal Data: an Autoregressive Approach;Yin Zheng.et.l;《2014 IEEE Conference on Computer Vision and Pattern Recognition》;20141231;第1370-1377页 *
基于事件句关联的新闻主题模型构建方法;洪旭东等;《教育探索》;20171231;第50-53,80页 *

Also Published As

Publication number Publication date
CN112434212A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN109492157B (zh) 基于rnn、注意力机制的新闻推荐方法及主题表征方法
US7844592B2 (en) Ontology-content-based filtering method for personalized newspapers
JP6309644B2 (ja) スマート質問回答の実現方法、システム、および記憶媒体
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN111368088A (zh) 一种基于深度学习的文本情感分类方法
CN107844533A (zh) 一种智能问答系统及分析方法
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN108182186B (zh) 一种基于随机森林算法的网页排序方法
CN109388743B (zh) 语言模型的确定方法和装置
CN112559684A (zh) 一种关键词提取及信息检索方法
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
CN105354216A (zh) 一种中文微博话题信息处理方法
Limam et al. Extracting user interests from search query logs: A clustering approach
Bansal et al. User tweets based genre prediction and movie recommendation using LSI and SVD
CN112989215B (zh) 一种基于稀疏用户行为数据的知识图谱增强的推荐系统
Xun et al. A survey on context learning
An et al. Question similarity modeling with bidirectional long short-term memory neural network
CN115827990B (zh) 搜索方法及装置
CN115827988B (zh) 一种自媒体内容热度预测方法
CN112434212B (zh) 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置
Li et al. Approach of intelligence question-answering system based on physical fitness knowledge graph
CN113868387A (zh) 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
Chen Improving the performance of Wikipedia based on the entry relationship between articles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant