CN112417152A - 涉案舆情的话题检测方法和装置 - Google Patents

涉案舆情的话题检测方法和装置 Download PDF

Info

Publication number
CN112417152A
CN112417152A CN202011304974.0A CN202011304974A CN112417152A CN 112417152 A CN112417152 A CN 112417152A CN 202011304974 A CN202011304974 A CN 202011304974A CN 112417152 A CN112417152 A CN 112417152A
Authority
CN
China
Prior art keywords
public opinion
text
case
topic
vector representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011304974.0A
Other languages
English (en)
Inventor
刘杰
王佳薇
冀俊宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN202011304974.0A priority Critical patent/CN112417152A/zh
Publication of CN112417152A publication Critical patent/CN112417152A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请属于计算机技术领域,具体涉及一种涉案舆情的话题检测方法和装置。涉案舆情的话题检测方法包括:获取包含案件舆情文本的舆情文本数据;基于预先确定的案件要素信息和关键词在案件舆情文本中的位置,确定关键词的附加权重;根据附加权重和基于TF‑IDF算法确定的基本权重得到舆情文本数据的文本向量表示;通过自编码器对文本向量表示进行降维,得到低维文本向量表示;基于所述低维文本向量表示,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。通过本申请的方法进行话题检测,检测效率和检测准确率高,可及时捕获涉案舆情。

Description

涉案舆情的话题检测方法和装置
技术领域
本申请属于计算机技术领域,具体涉及一种涉案舆情的话题检测方法和装置。
背景技术
话题检测与跟踪(Topic Detection and Tracking,TDT)是自然语言处理领域的一项技术,它以海量信息流为研究对象,通过对新闻主题的监控和提取,来检测和捕捉用户感兴趣的信息。由于网络中的信息量太大,与话题相关的信息经常散布在不同的地方,并且在不同的时间分布在许多不同的地方,所以仅靠这些孤立的信息,人们很难全面掌握事件的信息。在这种情况下,话题检测技术应运而生,该技术可以帮助人们整合分散的信息,将同一个话题的信息作为一个整体进行组织,以供人们理解。
现有的话题检测方法不考虑案件要素信息,只对舆情文本进行话题检测,由于涉案舆情相似词语较多,将面临着数据特征稀疏问题和维度灾难问题,不仅算法开销大,而且无法有效提取案件特征,导致话题检测的准确率低、检测效率也不高。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本申请提供一种涉案舆情的话题检测方法和装置。
(二)技术方案
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请实施例提供一种涉案舆情的话题检测方法,该方法包括:
S10、获取包含案件舆情文本的舆情文本数据;
S20、基于预先确定的案件要素信息,确定所述舆情文本数据中的关键词,基于所述关键词在案件舆情文本中的位置,确定所述关键词的附加权重;
S30、通过TF-IDF算法确定所述舆情文本数据的基本权重,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示;
S40、通过自编码器对所述文本向量表示进行降维,得到低维文本向量表示;
S50、基于所述低维文本向量表示,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。
可选地,所述案件要素信息包括涉案人员信息、事件信息、法律机关相关信息。
可选地,所述附加权重的计算公式为:
Wa(x)=Len(d)/W1+Len(d)/W2+Len(d)/Wi+...+Len(d)/Wn
其中,d表示案件舆情文本,Len(d)表示案件舆情文本的长度,Wi 是案件要素x第i次出现在文本d中的位置,n为案件要素在文本d中出现的总次数,i为正整数,且取值为1到n。
可选地,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示,包括:
通过关键词权重公式计算得到关键词权重,所述关键词权重公式为:
W(x)=Wb(x)+Wa(x)/3
其中,Wb(x)表示关键词的基本权重,Wa(x)表示关键词的附加权重;
将所述舆情文本数据中非关键词的基本权重作为非关键词权重;
将所述舆情文本数据用所述关键词权重和所述非关键词权重表示,得到所述舆情文本数据的文本向量表示。
可选地,所述自编码器包括:两层相同的卷积层、中间的隐藏层和输出层,所述卷积层和所述隐藏层的激励函数使用ReLU函数。
可选地,步骤S50包括:
S51、基于所述低维文本向量表示,构建所述舆情文本数据的相似度矩阵;
S52、通过计算所述相似度矩阵的拉普拉斯矩阵的最小的k个特征值和其对应的特征向量,构建特征向量空间;
S53、利用K-means聚类算法对特征向量空间中的特征向量进行聚类;
S54、根据聚类的结果确定案件舆情文本的话题。
可选地,对于新增的舆情文本数据,步骤S50还包括:
S55、确定新增的舆情文本数据对应的低维文本向量表示与已分类的舆情文本数据聚类生成的簇的距离;
判断所述距离是否小于预设距离阈值;
若是,认定相应的案件舆情文本属于距离最近的簇对应的话题;
若否,则生成新的簇,根据新的簇确定案件舆情文本的话题。
可选地,在步骤S10之后、步骤S20之前还包括:舆情文本数据预处理,所述舆情文本数据预处理包括使用分词库Jieba进行中文分词、去除停用词。
第二方面,本申请实施例提供一种涉案舆情的话题检测装置,该装置包括:
数据获取模块,用于获取包含案件舆情文本的舆情文本数据;
附加权重确定模块,用于基于预先确定的案件要素信息,确定所述舆情文本数据中的关键词,基于所述关键词在案件舆情文本中的位置,确定所述关键词的附加权重;
文本向量表示模块,用于通过TF-IDF算法确定所述舆情文本数据的基本权重,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示;
低维文本向量表示模块,用于通过自编码器对所述文本向量表示进行降维,得到低维文本向量表示;
聚类模块,用于基于所述低维文本向量表示,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。
(三)有益效果
本申请的有益效果是:本申请提出了一种涉案舆情的话题检测方法和装置,其中的方法包括:获取包含案件舆情文本的舆情文本数据;基于预先确定的案件要素信息和关键词在案件舆情文本中的位置,确定关键词的附加权重;根据附加权重和基于TF-IDF算法确定的基本权重得到舆情文本数据的文本向量表示;通过自编码器对文本向量表示进行降维,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。通过本申请的方法进行话题检测,检测的准确率高,可及时捕获涉案舆情,并且通过采用降维和谱聚类有效降低了算法的开销,提到了检测的效率。
附图说明
本申请借助于以下附图进行描述:
图1为本申请一个实施例中的涉案舆情的话题检测方法流程示意图;
图2为本申请另一个实施例中的涉案舆情的话题检测方法流程示意图;
图3为本申请另一个实施例中的json文本格式示例图;
图4为本申请另一个实施例中的简单的三层自编码器结构示意图;
图5为本申请另一个实施例中的基于卷积神经网络的自编码器结构示意图;
图6为本申请另一个实施例中的图聚类方法示意图;
图7为本申请又一个实施例中的涉案舆情的话题检测装置架构示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。可以理解的是,以下所描述的具体的实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合;为了便于描述,附图中仅示出了与发明相关的部分。
本发明考虑到舆情文本中存在着能显著描述内容的一些关键字,故针对涉案舆情文本,将案件要素和案件舆情文本结合,提出基于案件要素的话题检测方案,以提高话题检测的准确率。下面将结合附图详细介绍本发明提供的涉案舆情的话题检测方法。
图1为本申请一个实施例中的涉案舆情的话题检测方法流程示意图。如图所示,本实施例的涉案舆情的话题检测方法,包括:
S10、获取包含案件舆情文本的舆情文本数据;
S20、基于预先确定的案件要素信息,确定舆情文本数据中的关键词,基于关键词在案件舆情文本中的位置,确定关键词的附加权重;
S30、通过TF-IDF算法确定舆情文本数据的基本权重,基于附加权重和基本权重得到舆情文本数据的文本向量表示;
S40、通过自编码器对文本向量表示进行降维,得到低维文本向量表示;
S50、基于低维文本向量表示,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。
本实施例方法针对数据的特殊性,提出基于案件要素的话题检测方法,从涉案舆情中关联到案件,并且挖掘出话题,以便整合同一话题的舆情文本,话题的检测准确率高。
实施例二
图2为本申请另一个实施例中的涉案舆情的话题检测方法流程示意图,如图2所示,该方法包括:
S1、基于案件要素关键字的向量表示。
S11、数据集的获取。
数据集中的文本数据的来源可以是网络交流平台、门户网站、信息服务平台。网络交流平台就是以互联网作为交流分享的平台,综合利用网络载体,达到双方思想交流,比如微博、贴吧、论坛、BLOG(博客)等网络交流载体。
网络文本数据为用户或官方在网络平台上发布的信息,网络文本数据既包括用户或官方自身发布的内容也包括用户或官方对其他用户的评论内容和转发内容。
本实施例中数据文本来源于案件舆情多发的微博、重点新闻网站、地方新闻信息服务平台等地,获得15个新闻话题共计2400篇报道。表1 为2400篇报道中部分话题报道数量统计表,新闻话题和相应的报道数量如表1所示。
表1
Figure RE-GDA0002849256250000061
Figure RE-GDA0002849256250000071
爬取数据为json格式,主要包含案件主题、案件报道内容、案件来源等,案件主题(case)用于话题检测算法外部评价指标的对比项,报道内容(content)则是算法所需数据,案件来源是指提供爬取数据的网站。
图3为本申请另一个实施例中的json文本格式示例图,图3示出了一条json数据经过一个json在线解析格式化的网站上解析后的文本格式。
S12、数据预处理。
数据预处理是对案件报到内容进行处理,主要包括中文分词、去除停用词以及文档向量表示,其中中文分词使用分词库Jieba完成,选取较全面的停用词表进行文本过滤。
S13、基于案件要素和TF-IDF算法得到文档向量表示。
此步骤中,将文档中的词语作为特征项来提取文档特征。
S131、基于案件要素的权重计算
本发明研究了裁判文书网、案件审判管理系统,案件执行系统等网站的规范法律文本,研究分析一个案件的必要组成部分,定义出能显著描述涉案文本的要素特征如表2所示,表2为涉案文本的要素特征表。
表2
Figure BDA0002788068740000072
Figure BDA0002788068740000081
因为通过对数百篇网站新闻报道的分析,发现文本中通常存在一些关键词,而相关研究并没有对此给予足够的重视,据此将案件要素的权重加重,为后续话题检测算法使用。根据公式(1)加重案件要素的权重,作为附加权重:
Wa(x)=Len(d)/W1+Len(d)/W2+Len(d)/Wi+...+Len(d)/Wn (1)
其中,d表示案件文本,Len(d)表示案件文本的长度,Wi是案件要素 x第i次出现在文本d中的位置,n为案件要素在文本d中出现的总次数, i为正整数,且取值为1到n。
本实施例通过定义案件要素信息和确定要素关键词在文本中的位置及附加权重,增加案件与案件之间的区分度,解决了相似案件文本难以区分的问题,进一步提高话题检测的准确率。
S132、基于TF-IDF算法的权重计算
文本中剩下特征项选用传统的词频--逆文本频率(term frequency– inversedocument frequency,TF-IDF)权重计算方法,通过公式(2)计算每个词的词频--逆文本频率tfi-idfi,作为特征项的基本权重。
tfi-idfi=tfi×idfi (2)
其中,tfi表示词频,idfi逆文本频率。
词频tfi通过公式(3)计算得到,逆文本频率idfi通过公式(4)计算得到。
Figure BDA0002788068740000082
其中,ni表示第i个词语出现的次数,∑knk表示文档中总词语数。
Figure BDA0002788068740000091
其中,|D|表示语料库中的文件总数,j表示包含第i个词语ti的文件数目。
如果该词语不在语料库中,就会导致分母为零,因此一般情况下在分母中加1。
S133、文本向量表示
考虑仅使用公式(1)来计算案件要素关键字的权重将忽略词频的影响,则将案件要素特征也计算它的tf-idf值,记为Wb(x),并且由于Wa(x) 值很容易过高,为了平衡权重,这部分的体权重应该减少,最后得出关键字权重公式,如公式(5)所示:
W(x)=Wb(x)+Wa(x)/3 (5)
将一篇报道用它含有的特征项所对应的权重所表示,如公式(6)所示:
V(d)=(W1(d)...Wi(d),...Wn(d)) (6)
其中,V(d)为案件文档的向量标识,Wi为第i个特征项的权重,n为特征项的总数量。
公式(6)中案件要素的权重值通过公式(5)得到,剩余特征项的权重值通过公式(2)得到,最终组成一个定长n的向量矩阵,即得到基于案件要素的向量表示。
S2、基于自编码器对文档向量进行降维处理,实现数据优化。
随着神经网络的发展和深度学习技术的兴起,使用神经网络如自编码器(AutoEncoder)来学习数据的内在特征成为一种新的可能,自编码器输入和输出是一致的,它借助稀疏编码的思想,目标是使用稀疏的一些高阶特征重新组合来重构自己,且可以将数据嵌入到低维潜在空间中,能一定程度上改善数据高维性问题,其中卷积神经网络CNN可以利用其卷积和池化操作学习到强鲁棒性特征。
针对文本数据高维性问题,本发明提出将上步得到的文本向量利用卷积神经网络和自编码器的特征提取能力,将文本向量嵌入到低维潜在空间中,从而避免数据高维性带来的无法有效提取数据特征、算法开销大的问题。
自编码器是一种前馈神经网络。图4为本申请另一个实施例中的简单的三层自编码器结构示意图,如图4所示,最简单的自编码器由三层神经网络构成:输入层x、隐藏层h和输出层y,其中输入层到隐藏层称为编码器部分,隐藏层到输出层称为解码器部分。编码器的输入节点个数和解码器的输出节点个数相等,目的是通过训练学习到一个恒等映射,使输入尽可能和输出相等,从而找出原始数据之间潜在的隐藏关联。
通过对输出设置一个损失函数,然后通过减少损失,这个损失可以是均方误差,来使隐藏层h学习数据中最重要的信息,也就是学习数据中的潜在特性。分别用上步得到的空间向量作为输入x和重构后的输出y 进行损失训练,通过降低损失就可以提取到数据集中的特征,最后,将提取的降维之后的特征再还原回来,从而完成对向量的降维优化。
由于卷积神经网络可以有效地分层提取原始数据的内在特征,因此本实施例中使用卷积神经网络来构成编码器部分,使用反卷积网络来构成解码器部分,即构成一个卷积自编码器(conv-autoencoder,下文简称 CAE)。图5为本申请另一个实施例中的基于卷积神经网络的自编码器结构示意图,如图5所示,本实施例中卷积自编码器共有5层,分别是输入层、卷积层、中间隐藏层、反卷积层和输出层,卷积层和隐藏层的激励函数使用ReLU函数,其形式为f(x)=max(0,x)。将文本的向量矩阵输入编码器,解码器即可输出重构的文本矩阵。
本实施例中考虑到案件文本长度较长,直接进行聚类特征矩阵的维度过大,数据维度高,将无法构建有效特征,故在文本表示后进行降维。卷积自编码器在降低向量维度的同时提高了样本密度,最大程度地保留原始数据的内部结构,可缩短聚类所需时间,提高话题检测算法的运行效率。将文档矩阵嵌入到低维潜在空间后,使用得到的低维向量表示再进行图聚类进而得到最终的话题检测结果。
S3、基于案件要素的图聚类算法进行话题检测
基于案件要素的话题进行检测时,使用谱聚类算法将得到的文档低维表示进行聚类。
聚类的直观解释是根据样本间相似度,将它们分成不同组。本发明中的聚类思想是先将样本点转换为低纬度的图向量表示,再进行聚类。将样本看作顶点,样本间的相似度看作带权的边,从而将聚类问题转为图分割问题:找到一种图分割的方法使得连接不同组的边的权重尽可能低(这意味着组间相似度要尽可能低),组内的边的权重尽可能高(这意味着组内相似度要尽可能高)。一般图的向量表示算法是将所有要聚类的数据文档组成一个全连接图,本发明根据案件舆情文本的特征,分别计算了案件要素和其余特征项的权重作为向量矩阵组成一个全连接图,案件要素是舆情文本中对内容贡献最大的地方,相比起不考虑案件要素的聚类,案件要素更能准确的代表一篇文章进行聚类。
基于案件要素的图聚类直观解释主要有两步,第一步是构图,将得到的向量构造成一张网图,表示为G(V,E),V表示图中的点,E表示点与点之间的边。第二步是切图,每一个向量当作图上的一个顶点,然后根据相似度将这些顶点连起来,切分成不同的图,而不同的子图,即是聚类结果。图6为本申请另一个实施例中的图聚类方法示意图,图6中(a)为图聚类方法的构图示意图,(b)为图聚类方法的切图示意图,如图6所示,一共有7个顶点(文本的向量表示),分别是A、B、C、D、 E、F、G,顶点之间的连线表示两个顶点的相似度,现在要将这图分成两个类,分别是A、B、C、D和E、F、G。根据切图的思想,应该去掉的边是用虚线表示的那条。最后,剩下的两个子图就分别对应两个类了。以下对本实施例中的构图和切图方法进行具体说明。
S31、构图:构建表示对象集的相似度矩阵。
将舆情文本的向量作为图中的节点,如果两个节点在一定程度上相似,就在两个点之间添加一条边,相似的程度由边的权重表示,形成一个相似度矩阵P={pij|1≤i≤N,1≤j≤N},其中两个样本点之间的相似度pij是按照高斯相似度来计算的,如公式(7)所示:
Figure BDA0002788068740000121
其中,σ为相似的域度,xi、xj分别为作为样本点的案件文本,即重构后的文本矩阵。
可以看出,相似度矩阵是一个对称矩阵。为了使某个单节点不会更容易被剔除,将相似度矩阵转换为一个归一化的对角矩阵,对角线上元素Dii是相似度矩阵一列,如公式(8)所示。
Figure BDA0002788068740000122
S32、通过计算拉普拉斯矩阵的最小的k个特征值和其对应的特征向量,构建特征向量空间。
切图的目的是每个子图内部结构相似,这个相似表现为连边的权重平均都较大,且互相连接,而每个子图间则尽量没有边相连,或者连边的权重很低,即使一个子图与剩下的子图之间的相似度最小,则它就能很好的作为一个类,转化为公式就是第一个子图与剩下图之间的边权重最小,第二个子图也与剩下图的边权重最小,把这些权重加起来,去求一个最小的和,如公式(9)所示。
Figure BDA0002788068740000131
其中,k表示子图的数量,Ai表示第i个子图,
Figure BDA0002788068740000132
表示Ai的补集,即除Ai之外的子图,
Figure BDA0002788068740000133
表示第i个子图与它的补集的边的权重。
显然这样是最快且最能满足那个最小化操作的,但这样会造成会切成很多个单点离散的图,为此本实施例中对这种方法的改进,改进切图公式如公式(10)所示。
Figure BDA0002788068740000134
其中,|Ai|表示Ai组中包含的顶点数目。
这样每个类不能分的太小,每个子图内部结构相似,大小适中。
现在只要将最小化Cut解出来,分割就完成了。但是最小化问题很难求解,经过转化可对应到公式(11)所示的拉普拉斯矩阵的特征值,
L(i,j)=D(i,i)-P(i,j) (11)
则求出最小K个特征值对应的特征向量,即为节点的向量表示。特征向量组成的N*k特征矩阵U,如式(12)所示,每一列为一个特征向量,则每行都包括了一个特征向量,K个N维的特征向量构成的向量空间。
Figure BDA0002788068740000135
考虑到普通的聚类方法聚集了整个的高纬度向量空间,算法开销较大,本实施例提出先将案件文本表示为图向量,将高维空间的数据映射到低维,然后在低维空间进行聚类,可减少算法开销。
S33、利用聚类算法对特征向量空间中的特征向量进行聚类。
对矩阵U的每行作为一个数据点进行聚类,即输入变成 U{u1,u2,u3...un,},第i行所属的类就是原来xi所属的类。本实施例中通过 K-means聚类算法进行聚类,其步骤包括:
(1)从U中随机选择k个样本作为初始的k个质心向量{t1,t2,t3,...tk};
(2)对于输入ui,根据公式(13)计算它与每一个质心向量的欧式距离距离d;
d=||u-k||2 (13)
(3)将ui标记为距离质心最小的类别,并且修改归入类别的质心向量;
(4)依次迭代,直到k个质心向量都没有变化,输出结果。
S4、输出检测结果。
经过这三部分最终将舆情文本按照几个要素的相似性分为一个个簇,比如簇一中能总结一些特征就是涉案人员是乘客和司机,案件性质是杀人案,那么含有这些相似特征的舆情文本都会分到簇1中,去作为一个话题。
由基于案件要素的图聚类得出一个个话题的簇,则为话题的分类,每个类簇能获得高权重关键词的分布,可以抽象的进行话题的描述,也可将收集来的待处理新闻报道按照其阐述相关话题内容归并到相应的话题类中。
本实施例中的话题检测方法首先对文本数据进行预处理,定义了案件的案件要素,在舆情文本上进行案件要素的标注,文本表示将案件要素向量和普通文本向量分别赋予不同的权重;针对文本表示矩阵稀疏的问题,设计卷积自编码器进行降维处理;聚类设计使用基于图论的谱聚类算法,谱聚类对处理稀疏数据和高维数据有很好的的效果。由于采用了无监督的聚类过程,建立的模型是无监督的聚类模型,所有数据对于模型来说都是测试数据,对于一个新增舆情,首先判断这个舆情与这些簇之间的距离,将它归到相似度最高的簇中,没有相似的就形成一个新簇,因此遇到新的舆情文本时,模型可依然按照流程进行聚类,即能够在检测到某话题的首次报道的时候建立新的话题类。
本发明立足于涉案舆情信息的话题检测,为法院提供舆情的监控措施,从而使相关法院可在舆论爆发之前有效的控制舆情,正确的引导舆情,消除网络舆情危机的负面影响,提高司法公信力。
针对本实施例的方法,与TF-IDF+k-means算法、TF-IDF+谱聚类算法进行了测试比较,使用互信息(Mutual Information,MI)和 Fowlkes-Mallow(FM)指数作为涉案舆情话题检测的外部评价指标,即需要原数据文本与算法结果对比,使用轮廓系数(SilhouetteCoefficient,SC) 作为内部评价指标;其中,TF-IDF+k-means算法是指通过TF-IDF算法得到文档向量表示,通过K均值聚类算法进行聚类进行话题检测的算法, TF-IDF+谱聚类算法是指通过TF-IDF算法得到文档向量表示,通过谱聚类算法进行聚类进行话题检测的算法。
互信息用来衡量两个数据分布的吻合程度,Fowlkes-Mallows指数是针对训练集和验证集数据之间求得的查全率和查准率的几何平均值。对于单个样本,设a是与它同类别中其他样本的平均距离,b是与它距离最近不同类别中样本的平均距离,定义通过公式(14)计算其轮廓系数。
Figure BDA0002788068740000151
对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值。轮廓系数的取值范围是[-1,1],同类别样本距离越相近不同类别样本距离越远,分数越高。
实验设置如下:
数据集进行中文分词、去除停用词等预处理,去重后剩余25234个独立词,实验环境采用Windows10企业版64位操作系统、Python 3.7.0 和TensorFlow1.0。
实验结果如表3所示,表3为算法对比测试结果表。
表3
MI FM SC
TF-IDF+k-means 0.620 0.593 0.0702
TF-IDF+谱聚类 0.657 0.621 0.124
TF-IDF+CAE+谱聚类 0.703 0.633 0.223
表3中的实验结果表明,谱聚类在大维度数据上有很好的的效果,外部评价指标与内部评价指标均优于k-means算法;将数据先通过卷积自编码(CAE)器降维后,再用于谱聚类,比直接用于谱聚类,数据的互信息指数提升较多,说明通过本发明方法(TF-IDF+CAE+谱聚类)得到的话题检测结果中,同一类簇中的文本相互关联程度较高。
本发明方法考虑到案件文本长度较长,直接进行聚类特征矩阵的维度过大,数据维度高,将无法构建有效特征,故考虑在文本表示后进行降维,提高样本密度,提升了话题检测算法的运行时间,互信息指数与轮廓系数较之前都有所提升。考虑到普通的聚类方法聚集了整个的高纬度向量空间,算法开销较大,提出先将案件文本表示为图向量,图向量可以理解为将高维空间的数据映射到低维,然后在低维空间进行聚类,可进一步减少算法开销,并且互信息指数和FM值都有所提升,内部评价指标的轮廓系数有很大改善。
本申请第二方面提出了一种涉案舆情的话题检测方法装置,该装置可执行上述的涉案舆情的话题检测方法。图7为本申请一个实施例中的涉案舆情的话题检测装置架构示意图。如图7所示,本实施例中的涉案舆情的话题检测装置100可以包括:
数据获取模块101,用于获取包含案件舆情文本的舆情文本数据;
附加权重确定模块102,用于基于预先确定的案件要素信息,确定舆情文本数据中的关键词,基于关键词在案件舆情文本中的位置,确定关键词的附加权重;
文本向量表示模块103,用于通过TF-IDF算法确定舆情文本数据的基本权重,基于附加权重和基本权重得到舆情文本数据的文本向量表示;
低维文本向量表示模块104,用于通过自编码器对文本向量表示进行降维,得到低维文本向量表示;
聚类模块105,用于基于低维文本向量表示,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。
上述涉案舆情的话题检测装置可执行本申请实施例所提供的涉案舆情的话题检测方法,具备执行方法相应的功能模块和有益效果。至于其中各个功能模块所执行的处理方法,例如数据获取模块101、附加权重确定模块102、文本向量表示模块103、低维文本向量表示模块104以及聚类模块105,可参照上述方法实施例中的描述,此处不再进行赘述。
上述的数据获取模块101、附加权重确定模块102、文本向量表示模块103、低维文本向量表示模块104以及聚类模块105通常可以设置在终端设备或服务器中。
用来实现本申请实施例的终端设备或服务器的计算机系统可以包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有系统操作所需的各种程序和数据。CPU、 ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。

Claims (9)

1.一种涉案舆情的话题检测方法,其特征在于,该方法包括:
S10、获取包含案件舆情文本的舆情文本数据;
S20、基于预先确定的案件要素信息,确定所述舆情文本数据中的关键词,基于所述关键词在案件舆情文本中的位置,确定所述关键词的附加权重;
S30、通过TF-IDF算法确定所述舆情文本数据的基本权重,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示;
S40、通过自编码器对所述文本向量表示进行降维,得到低维文本向量表示;
S50、基于所述低维文本向量表示,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。
2.根据权利要求1所述的涉案舆情的话题检测方法,其特征在于,所述案件要素信息包括涉案人员信息、事件信息、法律机关相关信息。
3.根据权利要求2所述的涉案舆情的话题检测方法,其特征在于,所述附加权重的计算公式为:
Wa(x)=Len(d)/W1+Len(d)/W2+Len(d)/Wi+...+Len(d)/Wn
其中,d表示案件舆情文本,Len(d)表示案件舆情文本的长度,Wi是案件要素x第i次出现在文本d中的位置,n为案件要素在文本d中出现的总次数,i为正整数,且取值为1到n。
4.根据权利要求3所述的涉案舆情的话题检测方法,其特征在于,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示,包括:
通过关键词权重公式计算得到关键词权重,所述关键词权重公式为:
W(x)=Wb(x)+Wa(x)/3
其中,Wb(x)表示关键词的基本权重,Wa(x)表示关键词的附加权重;
将所述舆情文本数据中非关键词的基本权重作为非关键词权重;
将所述舆情文本数据用所述关键词权重和所述非关键词权重表示,得到所述舆情文本数据的文本向量表示。
5.根据权利要求1所述的涉案舆情的话题检测方法,其特征在于,所述自编码器包括:两层相同的卷积层、中间的隐藏层和输出层,所述卷积层和所述隐藏层的激励函数使用ReLU函数。
6.根据权利要求1所述的涉案舆情的话题检测方法,其特征在于,步骤S50包括:
S51、基于所述低维文本向量表示,构建所述舆情文本数据的相似度矩阵;
S52、通过计算所述相似度矩阵的拉普拉斯矩阵的最小的k个特征值和其对应的特征向量,构建特征向量空间;
S53、利用K-means聚类算法对特征向量空间中的特征向量进行聚类;
S54、根据聚类的结果确定案件舆情文本的话题。
7.根据权利要求6所述的涉案舆情的话题检测方法,其特征在于,对于新增的舆情文本数据,步骤S50还包括:
S55、确定新增的舆情文本数据对应的低维文本向量表示与已分类的舆情文本数据聚类生成的簇的距离;
判断所述距离是否小于预设距离阈值;
若是,认定相应的案件舆情文本属于距离最近的簇对应的话题;
若否,则生成新的簇,根据新的簇确定案件舆情文本的话题。
8.根据权利要求1-7中任一权利要求所述的涉案舆情的话题检测方法,其特征在于,在步骤S10之后、步骤S20之前还包括:
舆情文本数据预处理,所述舆情文本数据预处理包括使用分词库Jieba进行中文分词、去除停用词。
9.一种涉案舆情的话题检测装置,其特征在于,该装置包括:
数据获取模块,用于获取包含案件舆情文本的舆情文本数据;
附加权重确定模块,用于基于预先确定的案件要素信息,确定所述舆情文本数据中的关键词,基于所述关键词在案件舆情文本中的位置,确定所述关键词的附加权重;
文本向量表示模块,用于通过TF-IDF算法确定所述舆情文本数据的基本权重,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示;
低维文本向量表示模块,用于通过自编码器对所述文本向量表示进行降维,得到低维文本向量表示;
聚类模块,用于基于所述低维文本向量表示,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。
CN202011304974.0A 2020-11-19 2020-11-19 涉案舆情的话题检测方法和装置 Pending CN112417152A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011304974.0A CN112417152A (zh) 2020-11-19 2020-11-19 涉案舆情的话题检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011304974.0A CN112417152A (zh) 2020-11-19 2020-11-19 涉案舆情的话题检测方法和装置

Publications (1)

Publication Number Publication Date
CN112417152A true CN112417152A (zh) 2021-02-26

Family

ID=74773783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011304974.0A Pending CN112417152A (zh) 2020-11-19 2020-11-19 涉案舆情的话题检测方法和装置

Country Status (1)

Country Link
CN (1) CN112417152A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989040A (zh) * 2021-03-10 2021-06-18 河南中原消费金融股份有限公司 一种对话文本标注方法、装置、电子设备及存储介质
CN113158079A (zh) * 2021-04-22 2021-07-23 昆明理工大学 基于差异性案件要素的案件舆情时间线生成方法
CN113609297A (zh) * 2021-08-23 2021-11-05 南京擎盾信息科技有限公司 用于法院行业的舆情监控方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516067A (zh) * 2019-08-23 2019-11-29 北京工商大学 基于话题检测的舆情监控方法、系统及存储介质
CN111401061A (zh) * 2020-03-19 2020-07-10 昆明理工大学 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN111597331A (zh) * 2019-12-29 2020-08-28 东南大学 一种基于贝叶斯网络的裁判文书分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516067A (zh) * 2019-08-23 2019-11-29 北京工商大学 基于话题检测的舆情监控方法、系统及存储介质
CN111597331A (zh) * 2019-12-29 2020-08-28 东南大学 一种基于贝叶斯网络的裁判文书分类方法
CN111401061A (zh) * 2020-03-19 2020-07-10 昆明理工大学 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐建国;蔺珍;张鹏;徐明磊;李恒忠;: "网络舆情热点获取与分析算法研究", 软件导刊 *
徐建国;蔺珍;张鹏;徐明磊;李恒忠;: "网络舆情热点获取与分析算法研究", 软件导刊, no. 05, 25 January 2019 (2019-01-25), pages 1 - 3 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989040A (zh) * 2021-03-10 2021-06-18 河南中原消费金融股份有限公司 一种对话文本标注方法、装置、电子设备及存储介质
CN112989040B (zh) * 2021-03-10 2024-02-27 河南中原消费金融股份有限公司 一种对话文本标注方法、装置、电子设备及存储介质
CN113158079A (zh) * 2021-04-22 2021-07-23 昆明理工大学 基于差异性案件要素的案件舆情时间线生成方法
CN113158079B (zh) * 2021-04-22 2022-06-17 昆明理工大学 基于差异性案件要素的案件舆情时间线生成方法
CN113609297A (zh) * 2021-08-23 2021-11-05 南京擎盾信息科技有限公司 用于法院行业的舆情监控方法和装置

Similar Documents

Publication Publication Date Title
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
CN108959431B (zh) 标签自动生成方法、系统、计算机可读存储介质及设备
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN105022754B (zh) 基于社交网络的对象分类方法及装置
CN112417152A (zh) 涉案舆情的话题检测方法和装置
WO2022126810A1 (zh) 文本聚类方法
CN109657011B (zh) 一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统
CN107329954B (zh) 一种基于文档内容和相互关系的主题检测方法
CN108228541A (zh) 生成文档摘要的方法和装置
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN110543590A (zh) 一种微博突发事件的检测方法
Angadi et al. Multimodal sentiment analysis using reliefF feature selection and random forest classifier
CN114742071B (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN112818121A (zh) 一种文本分类方法、装置、计算机设备及存储介质
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN109582743B (zh) 一种针对恐怖袭击事件的数据挖掘系统
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN110569351A (zh) 一种约束性用户偏好的网络媒体新闻分类方法
TW201243627A (en) Multi-label text categorization based on fuzzy similarity and k nearest neighbors
CN115329207A (zh) 智能销售信息推荐方法及系统
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法
Sun et al. Analysis of English writing text features based on random forest and Logistic regression classification algorithm
CN117436446B (zh) 基于弱监督的农业社会化销售服务用户评价数据分析方法
Zheng Individualized Recommendation Method of Multimedia Network Teaching Resources Based on Classification Algorithm in a Smart University

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination