CN112434212A - 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置 - Google Patents
基于神经自回归分布估计的涉案新闻主题模型构建方法及装置 Download PDFInfo
- Publication number
- CN112434212A CN112434212A CN202010984648.2A CN202010984648A CN112434212A CN 112434212 A CN112434212 A CN 112434212A CN 202010984648 A CN202010984648 A CN 202010984648A CN 112434212 A CN112434212 A CN 112434212A
- Authority
- CN
- China
- Prior art keywords
- case
- news
- involved
- model
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001537 neural effect Effects 0.000 title claims abstract description 34
- 238000009826 distribution Methods 0.000 title claims abstract description 28
- 238000010276 construction Methods 0.000 title description 6
- 239000013598 vector Substances 0.000 claims abstract description 68
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000009193 crawling Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 101000933252 Homo sapiens Protein BEX3 Proteins 0.000 description 1
- 102100025955 Protein BEX3 Human genes 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于神经自回归分布估计的涉案新闻主题模型构建方法及装置,属于自然语言处理技术领域。本发明首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率;依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索。本发明在困惑度和主题连贯性以及文档检索精确率等指标上的表现均优于基线模型。
Description
技术领域
本发明涉及基于神经自回归分布估计的涉案新闻主题模型构建方法及装置,属于自然语言处理技术领域。
背景技术
涉案新闻是指与司法案件相关的新闻,准确抽取涉案新闻主题信息对进一步开展涉案新闻检索、涉案新闻事件分析等研究具有重要价值。概率主题模型是文档主 题抽取、文档语义表征的有效方式,常用于信息检索、文本分类或摘要任务。传统 主题模型主要考虑词频统计特征,而忽略了文档中的词语出现的次序及上下文信息。 神经主题模型由于能够获得文本的深层语义信息,既可以在文本中捕获词汇之间的 依赖关系,也能利用潜在主题捕获全局语义信息,有效弥补了传统主题模型的缺陷, 近年来在文本检索、文本分类、文本摘要等自然语言处理任务中表现出较好的效果。
涉案新闻通常包含了案件名称、涉案人员、涉案地点、涉案触发词等案件要素, 这些案件要素能够简洁、准确地描绘一个案件的重要特征。由此可见,涉案新闻主 题分析任务的关键在于分析主题词与案件之间的关联关系,以此作为先验知识指导 文本中词语的主题分布和文本的主题表征。然而,针对通用文档建模的神经主题模 型不能将案件要素作为先验知识来帮助提升涉案新闻文本中词语主题分布的准确性。
发明内容
为解决上述问题,本发明提供了基于神经自回归分布估计的涉案新闻主题模型构建方法及装置,本发明在困惑度、主题连贯性以及文档检索精确率等指标上表现 均优于基线模型,精确率普遍都有所提升。
第一方面,本发明提供一种基于神经自回归分布估计的涉案新闻主题模型构建方法,首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由 iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐 状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素 加权的新闻隐状态计算案件要素指导的自回归条件概率;依据涉案新闻的自回归条 件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索。
其中,所述构建涉案新闻数据并预处理,得到案件要素库和涉案词向量包括如下:
对涉案新闻和案件本体进行分析,根据其涉案人名、地名、事件描述以及案件 触发词案件特征构建案件要素库作为模型的涉案外部知识;
利用裁判文书数据、涉案新闻数据以及word2vec算法预训练涉案领域的词向量作为模型的涉案先验知识。
其中,由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:
不同于iDocNADEe的输入,将新闻分别表示为词序列v以及新闻中包含的案件 要素序列k;
利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方 式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻 中包含的案件要素的双向隐状态;
其中,和分别代表了新闻在位置i的前后向隐状态,和分别代表了新闻所包含的案件要素在位置i的前后向隐状态,g(·)代表 sigmoid激活函数,代表前后向偏置向量,分别代表参数矩阵和 涉案领域词向量矩阵,H,V分别代表了主题数量和词表大小,分别代表新 闻中第k个词在参数矩阵和涉案领域词向量矩阵中的向量表示,分别代表新 闻中第j个案件要素在参数矩阵和涉案领域词向量矩阵中的向量表示,λ代表了平衡 权重系数。
其中,用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权的 具体步骤如下:
A、利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息:
B、利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度:
C、利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息:
其中,利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率为:
其中,依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主 题模型进行涉案新闻检索包括:
根据每个词在案件要素指导下的自回归条件,计算新闻的对数似然函数logp(v):
其中,D代表了新闻文本的长度,p(vi|v<i,k<i),p(vi|v>i,k>i)分别代表了第i个位置的词的前后向自回归条件概率。
利用梯度下降算法训练参数以最大化对数似然函数,由此构建涉案新闻的主题模型。
本发明还提供一种基于神经自回归分布估计的涉案新闻主题模型构建装置,该装置包括用于执行第一方面的所述方法的模块。
本发明的有益效果是:
本发明将上下文信息和案件信息进行融合,既能利用上下文信息弥补传统主题模型忽略文本语序的问题,又能利用案件要素增强文本中与案件信息有关的词语的 语义特征表示,从而提高了用于涉案新闻领域的主题模型的性能;
实验结果表明本发明提出的方法在困惑度、主题连贯性以及文档检索精确率等指标表现上均优于基线系统。
附图说明
图1为本发明中的模型构建示意图;
图2为本发明中的隐状态计算示意图;
图3为本发明中的文档检索实验精确率对比图;
图4为本发明中的装置结构框图;
图5为本发明中的流程图。
具体实施方式
实施例1:如图1-5所示,第一方面,本发明提供一种基于神经自回归分布估计 的涉案新闻主题模型构建方法,首先构建涉案新闻数据并预处理,得到案件要素库 和涉案词向量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案 件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经 自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率;依 据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉 案新闻检索。
具体步骤如下:
Step1、涉案新闻数据爬取并根据涉案特性进行数据预处理;
Step1.1、根据近年来的数十起热点案件的关键词从互联网爬取相关新闻,并通过人民法院涉法涉诉舆情监测系统(http://116.55.241.12:8080/zhfyfull)判断该新闻是 否属于涉案新闻,最后得到涉及65个案件的新闻40000余条;
Step1.2、对涉案新闻和案件本体进行分析,根据其涉案人名、地名、事件描述 以及案件触发词等案件特征构建案件要素库作为模型的涉案外部知识;
Step1.3、从中国裁判文书网爬取裁判文书数据(约9G),并利用裁判文书数据 和涉案新闻数据以及word2vec算法预训练涉案领域的词向量作为模型的涉案先验知 识。
Step2、构建基于神经自回归分布估计的涉案新闻主题模型;
由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:
Step2.1、不同于iDocNADEe的输入,将新闻分别表示为词序列v以及新闻中包 含的案件要素序列k;
Step2.2、利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型 的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态 以及新闻中包含的案件要素的双向隐状态;
其中,和分别代表了新闻在位置i的前后向隐状态,和分别代表了新闻所包含的案件要素在位置i的前后向隐状态,g(·)代表 sigmoid激活函数,代表前后向偏置向量,分别代表参数矩阵和 涉案领域词向量矩阵,H,V分别代表了主题数量和词表大小,分别代表新 闻中第k个词在参数矩阵和涉案领域词向量矩阵中的向量表示,分别代表新 闻中第j个案件要素在参数矩阵和涉案领域词向量矩阵中的向量表示,λ代表了平衡 权重系数。
Step2.3、利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息:
Step2.4、利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度:
Step2.5、利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息:
Step2.6、利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率为:
Step2.7、根据每个词在案件要素指导下的自回归条件,计算新闻的对数似然函数logp(v):
其中,D代表了新闻文本的长度,p(vi|v<i,k<i),p(vi|v>i,k>i)分别代表了第i个位置的词的前后向自回归条件概率。
Step2.8、利用梯度下降算法训练参数以最大化对数似然函数,由此构建涉案新闻的主题模型。
本发明还提供一种基于神经自回归分布估计的涉案新闻主题模型构建装置,该装置包括用于执行第一方面的所述方法的模块。
具体的,例如所述方法的模块可以包括如下:
涉案数据自动获取和存储模块,根据设置的案件关键词和新闻来源,自动爬取 新闻,其中新闻来源包括微博、新闻网站和论坛,其中微博来源主要包括了各类法 院账号、经常问询法院的蓝V账号以及各类新闻、报刊的微博账号,其中论坛来源 主要来自对涉案信息关注度高的论坛。爬虫程序则会自动根据设置的来源配置爬取 格式和X-path。若爬取到的新闻未在训练模型的语料中出现,则调用人民法院涉法 涉诉舆情监测系统接口对新闻进行涉案相关性分析,然后通过构建的案件要素库自 动抽取新闻中包含的案件要素,最后存储方式为数据库存储和文本存储。其中,数 据库存储是结构化的,将涉案新闻的ID、标题、正文、发布时间、新闻来源和案件 要素存入Oracle数据库;在文本存储中根据案件要素构建倒排索引;
涉案新闻主题抽取模块,从数据库中读取新闻并进行预处理:去停用词、分词 以及抽取案件要素。将新闻及其中的案件要素以序列的方式分别作为输入,自动调 用训练好的基于神经自回归分布估计的涉案新闻主题模型,计算每条涉案新闻由案 件要素加权的主题信息,计算步骤如下:
1、根据Step2.1计算词序列的前后向隐状态:
2、根据Step2.2计算案件要素序列的前后向隐状态:
3、根据Step2.3计算案件要素平均向量:
4、根据Step2.4计算案件要素与新闻文本的双向相关度:
5、根据Step2.5计算案件要素加权的前后向隐状态:
6、根据案件要素加权的前后向隐状态相加计算得到融合案件特征的主题信息:
基于主题的涉案新闻检索模块,实验结果证明基于主题检索效果较好,因此利 用新闻的主题信息进行相似度计算从而进行检索。更具体地,每输入一条涉案新闻, 检索模块将利用该新闻的主题信息与数据库中其它新闻的主题信息两两计算余弦相 似度:
其中,A,B代表了两条涉案新闻的主题信息,n代表得到的主题信息的维度。得 到主题信息的余弦相似度后,并根据该相似度从大到小对检索集中的涉案新闻进行 排序并返回新闻的ID。得到返回的新闻ID之后,模块将在数据库中查询相似度最高 的N条新闻的ID,并将这些新闻的标题、正文、发布时间以及来源反馈给用户,其 中N由用户设置。
实施例2:如图1-5所示,基于神经自回归分布估计的涉案新闻主题模型构建方法,所述方法首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然 后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双 向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件 要素加权的新闻隐状态计算案件要素指导的自回归条件概率;依据涉案新闻的自回 归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索。
具体步骤为:
涉案新闻数据爬取并根据涉案特性进行数据预处理;
根据热点案件关键词从互联网爬取新闻数据,并通过人民法院涉法涉诉舆情监测系统(http://116.55.241.12:8080/zhfyfull)判断该新闻是否属于涉案新闻,最终得到涉 及65个案件的40000余条新闻;
对涉案新闻和案件进行分析,根据其涉案人名、地名、事件描述以及案件触发 词等构建案件要素库;
从中国裁判文书网爬取裁判文书数据(约9G),并利用裁判文书数据和涉案新 闻数据以及word2vec算法预训练涉案领域的词向量;
由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:
将每一篇文档表示为一个序列v=[v1,v2,...,vD],其中,D是这篇文档的词数, vi∈{1,...,K}表示文档中第i个词在语料库词表中的下标,K是语料库词表的大小。 基于iDocNADEe模型,文档的每个词汇vi都有两个包含了上下文信息的隐状态,分 别是前向隐状态以及后向隐状态这两个隐状态分别由vi的上下文信息 v<i=[v1,...,vi-1]与v>i=[vi+1,...,vD]以及引入预训练的词向量作为语义补充信息计算得 到。即每个词vi的隐状态包含了vi的完整上下文信息。前后向隐状态的计算 公式如下:
其中,g(·)代表任意非线性激活函数,为偏置向量,H代表隐藏 层的大小,即主题数量。为参数矩阵,是预训练的词向量矩阵, λ是权重系数。分别代表了矩阵W,E中的第vk列。如图2所示。其中参数 矩阵W作为一个可学习的参数,代表了主题模型的主题——词分布,它的每一行Wj,:编码了第j个主题的主题分布,而每一列则是第vk个词的主题信息。
案件要素是指案件的内在组成部分及各部分之间的相互关系和排列状况,如, 刑事案件由何事、何时、何地、何物、何情、何故、何人等7要素构成,对案件构 成要素进行分析能够从根本上把握案件发生、发展的趋势和规律。对于涉案新闻主 题抽取任务,分析涉案文本与案件要素之间的关联关系有助于提高涉案主题分布的 准确性。为此,根据刑事案件构成要素的特点,从互联网中收集了有关某地公交坠 江案,等刑事案件的相关新闻文档,通过人工方式构建了案件要素库,为涉案新闻 主题建模提供了外部知识。
虽然案件要素包含了丰富的案件信息,但不同的案件要素所包含的信息重要程度并不相同。以上述涉案新闻的案件要素为例,“殴打”、“坠江”的重要程度应大于 “某地”,因此要计算出每个案件要素与主题的相关度,从而计算出各个不同案件要 素的权重。此外,本发明还考虑了案件要素的上下文顺序,将上文包含的案件要素 融入到前向隐状态,将下文包含的案件要素融入到后向隐状态。
针对文本序列v,通过构建的案件要素库,可以提取出案件要素序列 k=[k1,k2,...,kn],其中n是序列中所包含的案件要素数。为构建注意力机制,首先计 算案件要素的前后向隐状态,计算公式如下:
其中,分别代表了前后向注意力向量,编码了案件要素所包含的信息,利用 该向量对文本的隐状态进行加权可以得到带有案件信息的隐状态。使用新闻文本中 第i个词的前后向隐状态与案件要素前后向注意力向量计算第i个词处的前后向注意 力权值:
考虑到直接计算公式(11-12)的计算成本过高,本发明使用二叉树对其进行简化。在在二叉树中,从根到叶子的每个路径都对应一个词汇。树中每个节点向左(或右) 的概率由一组二进制逻辑回归模型建模,然后通过这些概率来计算给定词的概率。 利用二叉树,则概率p(vi=w|v<i,k<i)和p(vi=w|v>i,k>i)可以如下表示:
其中:
其中,l(vi)表示从根到词vi的路径上的树节点的序列,而π(vi)表示这些节点中的每个节点的二进制左(或右)选择的序列(例如l(vi)1将始终是树的根,如果词vi的 叶子节点在其左子树中,则π(vi)1为0,否则为1)
根据训练好的的涉案新闻主题模型抽取涉案新闻的主题信息。对于一篇涉案新闻v*,其词汇大小为D*,案件要素k*的大小为n*。首先通过公式(1-2)计算新闻的双 向隐状态和再由公式(3-8)计算案件要素双向注意力权值和最终由公式(9-10)计算带有案件要素加权的隐状态和最终,由下式得到 涉案新闻经由案件要素加权的主题信息
经过对新闻的分析,发现与案件相关的新闻正文的长度不均衡,而且文本中包含了大量的噪声,但新闻标题基本上都包含了跟案件相关的一些信息,如案件名称、 涉案人员等重要信息。因此本发明仅选择了涉案新闻的标题文本来构建实验数据集, 具体数据集信息如表1。具体实验参数如表2所示。
表1数据集具体信息
表2实验参数设置
在评价指标方面,本发明选取了困惑度、主题连贯性以及文档检索精确率作为评价指标。具体介绍如下:
困惑度(PPL)是为了检验主题模型的泛化能力,困惑度越低,则代表模型具有更好的泛化能力。通过计算测试集中涉案新闻的困惑度来评估主题模型作为生成模型 的文档生成性能。困惑度的计算公式如下:
主题连贯性是为了对主题词的语义进行评价。该指标使用参考语料库上的滑动窗口来确定每个主题词的上下文特征。该指标分数越高,主题词的语义越一致,即代 表主题模型效果越好。本发明使用了等人提出的自动度量指标CV来验证主题 词的连贯性,并使用开源工具gensim完成此项指标的计算。
表3新闻检索系统中的混淆矩阵
为了对本发明提出的模型所抽取的主题信息进行评估,还设置了一个涉案新闻检索的实验,并使用精确率作为评价指标。新闻检索系统的精确率表示在检索到的文 档中,相关文档所占比例。已知混淆矩阵(表3),则精确率计算公式如下:
本发明所采用的对比模型如下:
(1)DocNADE:一种NADE和RSM的扩展模型,使用神经自回归估计对文本 进行主题建模;
(2)TDLM:一种基于卷积神经网络、注意力机制以及LSTM网络的双神经网络 模型,是一种多任务学习模型,由两个子任务主题学习与文本推断组成;
(3)ctx-DocNADEe:在DocNADE的基础上引入了LSTM语言模型和Glove词 向量,其文本的隐藏状态由三者共同计算得到;
(4)iDocNADEe:同样在DocNADE的基础上进行了改进,引入了Glove词向量 和双向语言模型的计算方式。
表4主题数H=50各模型的PPL分数
表4展示了本发明提出的模型与其它对比实验在主题数H=50时的困惑度分数。由于TDLM模型主要针对语言模型,因此其在主题模型的效果并不明显。在相同主 题数时,本发明提出的模型有着更低的困惑度分数,这充分证明了以案件要素作为 指导确实能使模型具有更好的泛化能力。
表5主题数H=50各模型的主题连贯性CV
表5展示了本发明提出的模型与其它对比模型分别在不同主题数下,每个主题取前10个(T10)以及前20个(T20)主题词的平均主题连贯性分数。结果表明,TDLM模 型所得到的主题词的语义连贯性较差,因为其主要目的通过主题模型来优化语言模 型,而DocNADE只考虑了文本的前向序列并没有考虑反向序列,因此其效果较拓 展类模型较差。而其它三种方法都考虑到了文章的上下文信息,所以效果较好。其 中,本文方法由于加入了案件要素作为指导,故而产生的主题词更加连贯,且更加 具有相关性。
表6模型所得5个最相邻词的相似度(%)
为了进行词汇向量表示的测试,本发明使用构建的涉案新闻数据集对所提出的模型进行了训练,并使用作为每个词汇的向量表示(200维)。表6显示了在某些选定 词汇的五个近邻词汇及其对应的余弦相似度得分。sy,sw分别代表使用本文提出方法 计算得到的词的向量表示与使用word2vec训练得到的词的向量表示所计算出余弦相 似度。结果证实了本发明提出的模型抽取到的主题词跟案件要素具有更大的语义相 关性。
主题模型的一个重要用途就是得到文档的主题信息。通过执行一个涉案新闻检索任务以评估本发明所提出方法以及对比方法所得到的新闻主题信息的质量。使用公 式(18)来抽取每篇新闻的主题信息,并将训练集中的新闻用作检索,而测试集中的新 闻用作查询。检索实验设置了多组不同的检索分数(fraction of retrieved documents)以 进行对比。将用作查询的新闻的主题信息与所有检索集中的新闻的主题信息做相似 度计算,返回相似度最高的前Np条新闻,Np的计算公式如下:
Np=Nr*检索分数 (21)
其中Nr是检索集的新闻数量。最终通过查询新闻的标签和返回的Np条新闻的标 签计算检索精确率。结果如图3所示,纵轴代表各模型取得的精确率,横轴代表检 索分数。可以看到,检索分数与精确率成反比,因为检索分数越高,代表返回的新 闻数量越多,而检索到不相关新闻的数量也就越多,直接导致精确率的降低。当检 索分数为1%时,检索系统所返回新闻的数量恰好与检索集中一个类别新闻的平均数 量相近,当检索分数继续升高时,返回的新闻几乎都是无关新闻,因此精确率大幅 度减低。但无论检索分数的高低,利用提出模型所抽取的主题信息获得的检索精确 率始终是最高的。这是因为将案件要素融入到模型,因此模型所抽取的主题信息包 含了案件信息能得到更好的质量。这也充分证明了使用案件要素信息对模型进行注 意力加权指导是有效的。
根据本发明的构思,本发明还提供了一种基于神经自回归分布估计的涉案新闻主题模型构建装置,如图4所示,该装置包括:
涉案数据自动获取和存储模块,根据设置的案件关键词和新闻来源,自动爬取 新闻,其中新闻来源包括微博、新闻网站和论坛,其中微博来源主要包括了各类法 院账号、经常问询法院的蓝V账号以及各类新闻、报刊的微博账号,其中论坛来源 主要来自对涉案信息关注度高的论坛。爬虫程序则会自动根据设置的来源配置爬取 格式和X-path。若爬取到的新闻未在训练模型的语料中出现,则调用人民法院涉法 涉诉舆情监测系统接口对新闻进行涉案相关性分析,然后通过构建的案件要素库自 动抽取新闻中包含的案件要素,最后存储方式为数据库存储和文本存储。其中,数 据库存储是结构化的,将涉案新闻的ID、标题、正文、发布时间、新闻来源和案件 要素存入Oracle数据库;在文本存储中根据案件要素构建倒排索引;
涉案新闻主题抽取模块,从数据库中读取新闻并进行预处理:去停用词、分词 以及抽取案件要素。将新闻及其中的案件要素以序列的方式分别作为输入,自动调 用训练好的基于神经自回归分布估计的涉案新闻主题模型,根据公式(18)计算每 条涉案新闻由案件要素加权的主题信息。
基于主题的涉案新闻检索模块,实验结果证明基于主题检索效果较好,因此利 用新闻的主题信息进行相似度计算从而进行检索。更具体地,每输入一条涉案新闻, 检索模块将利用该新闻的主题信息与数据库中其它新闻的主题信息两两计算余弦相 似度:
其中,A,B分别代表了两条新闻的主题信息。得到主题信息的余弦相似度后,并 根据该相似度从大到小对检索集中的涉案新闻进行排序并返回新闻的ID。得到返回 的新闻ID之后,模块将在数据库中查询相似度最高的N条新闻的ID,并将这些新 闻的标题、正文、发布时间以及来源反馈给用户,其中N由用户设置。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明 宗旨的前提下作出各种变化。
Claims (7)
1.基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率,依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索。
2.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:所述构建涉案新闻数据并预处理,得到案件要素库和涉案词向量包括如下:
对涉案新闻和案件本体进行分析,根据其涉案人名、地名、事件描述以及案件触发词案件特征构建案件要素库作为模型的涉案外部知识;
利用裁判文书数据、涉案新闻数据以及word2vec算法预训练涉案领域的词向量作为模型的涉案先验知识。
3.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:
不同于iDocNADEe的输入,将新闻分别表示为词序列v以及新闻中包含的案件要素序列k;
利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻中包含的案件要素的双向隐状态;
4.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权的具体步骤如下:
A、利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息:
B、利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度:
C、利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息:
7.基于神经自回归分布估计的涉案新闻主题模型构建装置,其特征在于,包括用于执行如权利要求1-6任一权利要求所述的方法的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010984648.2A CN112434212B (zh) | 2020-09-18 | 2020-09-18 | 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010984648.2A CN112434212B (zh) | 2020-09-18 | 2020-09-18 | 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434212A true CN112434212A (zh) | 2021-03-02 |
CN112434212B CN112434212B (zh) | 2021-11-23 |
Family
ID=74690684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010984648.2A Active CN112434212B (zh) | 2020-09-18 | 2020-09-18 | 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434212B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100191742A1 (en) * | 2009-01-27 | 2010-07-29 | Palo Alto Research Center Incorporated | System And Method For Managing User Attention By Detecting Hot And Cold Topics In Social Indexes |
CN108154156A (zh) * | 2017-11-30 | 2018-06-12 | 兰州理工大学 | 基于神经主题模型的图像集成分类方法及装置 |
CN111026866A (zh) * | 2019-10-24 | 2020-04-17 | 北京中科闻歌科技股份有限公司 | 一种面向领域的文本信息抽取聚类方法、设备和存储介质 |
-
2020
- 2020-09-18 CN CN202010984648.2A patent/CN112434212B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100191742A1 (en) * | 2009-01-27 | 2010-07-29 | Palo Alto Research Center Incorporated | System And Method For Managing User Attention By Detecting Hot And Cold Topics In Social Indexes |
CN108154156A (zh) * | 2017-11-30 | 2018-06-12 | 兰州理工大学 | 基于神经主题模型的图像集成分类方法及装置 |
CN111026866A (zh) * | 2019-10-24 | 2020-04-17 | 北京中科闻歌科技股份有限公司 | 一种面向领域的文本信息抽取聚类方法、设备和存储介质 |
Non-Patent Citations (4)
Title |
---|
PANKAJ GUPTA.ET.L: "textTOvec: DEEP CONTEXTUALIZED NEURAL AUTOREGRESSIVE TOPIC MODELS OF LANGUAGE WITH DISTRIBUTED COMPOSITIONAL PRIOR", 《ICLR 2019》 * |
PANKAJ GUPTA1.ET.L: "Document Informed Neural Autoregressive Topic Models with Distributional Prior", 《THE THIRTY-THIRD AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
YIN ZHENG.ET.L: "Topic Modeling of Multimodal Data: an Autoregressive Approach", 《2014 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
洪旭东等: "基于事件句关联的新闻主题模型构建方法", 《教育探索》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112434212B (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103425799B (zh) | 基于主题的个性化研究方向推荐系统和推荐方法 | |
CN101320375B (zh) | 基于用户点击行为的数字图书搜索方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN109492157A (zh) | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN109829104A (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
EP1995669A1 (en) | Ontology-content-based filtering method for personalized newspapers | |
Joho et al. | Overview of NTCIR-11 Temporal Information Access (Temporalia) Task. | |
CN103605665A (zh) | 一种基于关键词的评审专家智能检索与推荐方法 | |
CN108182186B (zh) | 一种基于随机森林算法的网页排序方法 | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
CN105354216B (zh) | 一种中文微博话题信息处理方法 | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN109409433A (zh) | 一种社交网络用户的人格识别系统和方法 | |
CN117094291B (zh) | 基于智能写作的自动新闻生成系统 | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
CN109145083A (zh) | 一种基于深度学习的候选答案选取方法 | |
CN112989215B (zh) | 一种基于稀疏用户行为数据的知识图谱增强的推荐系统 | |
CN113449204A (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
Li et al. | Approach of intelligence question-answering system based on physical fitness knowledge graph | |
CN113535949A (zh) | 基于图片和句子的多模态联合事件检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |