CN113887219B - 一种主管部门热线舆情识别与预警方法及系统 - Google Patents
一种主管部门热线舆情识别与预警方法及系统 Download PDFInfo
- Publication number
- CN113887219B CN113887219B CN202110922347.1A CN202110922347A CN113887219B CN 113887219 B CN113887219 B CN 113887219B CN 202110922347 A CN202110922347 A CN 202110922347A CN 113887219 B CN113887219 B CN 113887219B
- Authority
- CN
- China
- Prior art keywords
- public opinion
- frequent
- case
- early warning
- hot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种主管部门热线舆情识别与预警方法及系统,采用改进的频繁模式挖掘算法实现对主题和对应的案件信息进行精准定位与展示,并采用词权重方法赋予频繁模式权重,使得较为重要的信息具有较高的权重,并设置权重阈值,小于权重阈值的则不认为是舆情热点,采用Bert模型计算频繁模式内容文本的相似度矩阵并准确的区别重复案件和热点案件,最后定义了群体性案件与突发性热点案件。采用真实的舆情发生案例作为实例研究,实验证明本发明系统具有准确的舆情识别与预警功能,成功的对舆情热点进行识别并做出预判,取得了良好的效果。本发明系统具有良好的可操作性、用户交互界面和数据可视化展示界面。
Description
技术领域
本发明属于人工智能与机器学习技术领域,尤其涉及一种主管部门热线舆情识别与预警方法及系统。
背景技术
随着移动互联网时代的来临,自然语言数据是大数据时代的一种重要表现形式,自然语言数据包含文本和语音等多种形式,对自然语言的处理也是近年来人工智能一个重要的研究方向。世界各地都在使用自然语言处理技术来缩小公民与主管部门之间的互动距离以达到改善服务的目的。通过网站反馈、公众访谈、社交媒体等形式收集了大量文本数据,而热线电话作为与公民沟通的主要渠道,一直是及时了解民情的窗口,是主管部门工作与决策的食粮,因此对海量的热线文本数据进行主题挖掘和舆情预警是主管部门热线建设的重要任务。
随着经济不断的发展,人民生活水平的不断提高,公民的维权意识也逐步增强。主管部门热线既是主管部门为市民排忧解难的重要平台,也是广大市民反应问题的重要渠道,是主管部门与市民沟通交流的重要途径。从市民的反应问题中提取有价值的信息并对可能产生舆情危机的事件做提前预测和报警是主管部门热线的迫切需求。但是,由于主管部门热线每日数据量较大,因此去检测事件或主题实时仍然是一个具有挑战性的问题。
近年来许多研究者对舆情分析进行了研究,舆情分析的主要研究方向大致分为三种:舆情情感分析、舆情主题发现和舆情用户行为分析。主管部门热线是非紧急救助服务中心、便民电话平台,是主管部门处理职能范围内非应急事务的公开电话服务平台,主要负责市民咨询和投诉来电的处理,对于咨询和投诉的案件,公民的情绪较为鲜明,咨询类为中立情绪为主,投诉类为负面情绪为主,因此情感分析研究对主管部门热线的研究意义不大,而主管部门热线咨询和投诉的主题发现可以有效的把握公民投诉热点问题,从而帮助主管部门热线科学决策。
主题发现又称为主题挖掘、主题抽取、主题识别等,其主要目的是为了对规模性的信息数据进行处理和分析,以便快速抽取到其中的主题性和关键性的信息。文本聚类法是主题发现的主要研究方向之一,其基于自然语言处理技术和数理统计的思想,直接计算文档中向量表示的术语相似度并利用聚类算法进行分类。基于文本聚类的主题发现方法主要有:基于共词分析法的主题发现,基于划分聚类法的主题发现,基于层次聚类法的主题发现和基于频繁项集挖掘的主题发现。主管部门热线数据由专业的坐席人员进行接听和文本的录入,相比于网络文本数据其具有更加规范的格式,主管部门热线本文数据以短中型文本为主且主题明确,文本内容较为单一,因此从计算复杂度的角度考虑,基于频繁项集挖掘的主题发现方法更加适用于主管部门热线的主题挖掘。
在主管部门热线数据中,有2类案件需要进行特殊处理:第一类案件是催单或者咨询投诉的处理流程,这类案件虽然属于频繁模式,但是并不能作为舆情热点看待,第二类为重复案件或者故意复制以增加工作量的案件,这类案件内容大致相同,因此需要对频繁模式下的工单进行一个排序和甄别,将真正的热点类投诉事件以较高的权重进行呈现和对重复或者复制案件进行识别。
从现有的舆情分析系统可以看出,系统都是从已经发生的舆情事件进行爬虫然后进行主题分析或者情感分析,但是缺少对舆情的预判和预警的研究,这也是因为网络数据的可靠性不高,其实网络数据充满不规范用词和假新闻,这使得舆情的预判和预警变得更加困难。但是主管部门热线数据源与网络数据源有着本质上的差异,主管部门热线的工作流程为,受过专业培训的工作人员接听公众的投诉电话,然后以文本的形式记录下来,这个过程是规范的,内容也是格式化的,这样可靠的数据来源为热线舆情的预判和预警提供了可能。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种主管部门热线舆情识别与预警方法及系统,基于主管部门热线的数据,采用自然语言处理的方法进行主管部门热线舆情识别与预警,成功的对舆情热点进行识别并做出预判,取得了良好的效果。
为实现本发明的目的,本发明所采用的技术方案是:
一种主管部门热线舆情识别与预警方法,所述方法包括步骤:
(1)从数据库获取主管部门热线的文本数据,进行预处理,去除噪音,提取关键词特征;
(2)基于频繁模式的主题发现,挖掘出关键词的频繁模式,即舆情主题;
(3)基于词权重的主题排序,计算频繁模式的权重,按权重大小进行舆情主题的排序,且超过热点权重阈值则认为是舆情热点;
(4)基于相似度矩阵的热点识别,计算频繁模式的相似度矩阵及其离散程度系数,超过热点识别阈值则为热点案件,否则为重复案件;
(5)群体性案件与突发性热点案件识别。
进一步地,所述文本数据包括案件编号、案件标题、案件内容、案件分类和案件创建时间。
进一步地,所述步骤(1)中,采用TF-IDF算法提取关键词特征。
进一步地,所述群体性案件为,在单位时间内,挖掘出来的频繁模式,其计算权重大于一定阈值,且识别为热点案件的频繁模式;所述单位时间为24小时;
所述突发性热点案件为,在时间周期T天内,有P天发生了群体性案件。
进一步地,所述步骤(3)中,对频繁模式中每个关键词进行加权计算:
其中,IDF(t)表示关键词t的权重值,len(D)表示文档集合D中文档的总数,n(t)表示含有关键词t的文档的数量;
频繁模式的权重计算:
其中,Weight(f)表示频繁模式f的权重值,||f||表示频繁模式的模,即长度。
进一步地,所述步骤(4)中,采用Bert模型,将案件文本处理成768维的向量,采用欧式距离计算向量之间的相似度作为文本之间的距离,距离越大相似度越小,得到一个频繁模式下的相似度矩阵;
定义矩阵行向量S{s1,s2,…si…,sn-1,sn},其中,n为相似度矩阵行数,i=1,…,n,si的计算公式如下:
其中,SimMat为频繁模式的相似度矩阵,m为相似度矩阵的列数,j=1,…,m,矩阵行向量S中的元素为相似度矩阵每行元素之和;
定义相似度矩阵离散程度系数γ,其计算公式如下:
其中,std表示求解标准差,||S||表示矩阵行向量的长度。
进一步地,所述步骤(2)中,基于频繁模式的主题发现的挖掘过程如下:
(2.1)采用word2vec算法对主管部门热线关键词进行训练,得出关键词之间的相似度;
(2.2)由训练后的主管部门热线关键词构建生成IFp-Tree;
(2.3)基于关键词IFp-Tree,挖掘出频繁模式;
(2.4)采用改进的WMD算法合并挖掘出来的频繁模式。
进一步地,所述IFp-Tree包括ID号,子节点、父节点、next节点和数量,并包含案件ID,挖掘完成后通过案件ID检索到具体的案件信息。
进一步地,所述改进的WMD算法为,
设频繁模式f1和频繁模式f2的WMD为WMD(f1,f2),则f1和f2之间的相似度为:
其中,Sim(f1,f2)为频繁模式f1和频繁模式f2之间的相似度,值属于0到1,值越大f1和f2之间的相似度越大,||f1||和||f2||表示对f1和f2取模。
一种主管部门热线舆情识别与预警系统,所述系统包括数据中心层、业务处理层和用户终端层;
数据中心层包括数据库,存储主管部门热线文本数据;
业务处理层,包括舆情预警、舆情分析、报表管理和统计分析模块;
舆情预警模块,根据舆情识别与预警方法,进行群体性案件与突发性热点案件识别;
舆情分析模块,进行舆情预警和舆情可视化;
统计分析模块,进行热点统计,并生成统计报表;
报表管理模块,包括舆情日报和舆情周报管理;
用户终端层,面向主管部门热线工作人员,包括移动端和PC端,移动端用于数据的展示和推送,PC端面向工作人员的操作使用。
本发明的有益效果在于,与现有技术相比:
本发明对FPGrowth算法的数据结构进行改造,使其可以记录案件具体信息,达到对舆情热点的精准展示。采用word2vec算法对热线数据进行训练并得出关键词之间的相似度,而后采用改进的WMD算法合并挖掘出来的频繁模式。
本发明设计一种评估关键词权重的方法并将其扩展到计算热点的权重,将所挖掘出来的舆情热点按权重大小进行展示并设置权重阈值,小于权重阈值的则不认为是舆情热点。
本发明设计一种基于相似度矩阵的热点与重复数据的甄别方法,准确的区分舆情热点和重复投诉或者复制案件。
本发明定义周期性事件和群体性事件,并开发一套面向热线舆情的预判和预警系统,对热线舆情进行实时的监控和预警。
附图说明
图1是本发明所述的主管部门热线舆情识别与预警系统示意图;
图2是单词相似度拓扑图;
图3是频繁模式的单词距离映射关系图;
图4是BERT模型示意图;
图5是热点案件与重复案件相似度矩阵元素分布热力图,a子图中所展示的是重复案件的热力图,b子图所展示的为热点案件的热力图;
图6是主管部门热线词汇分布图;
图7是重复案件和热点案件的文本对比图;
图8是某培训平台投诉舆情趋势图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明所述的主管部门热线舆情识别与预警系统,包括数据中心层、业务处理层和用户终端层。
数据中心层
本发明数据来源为主管部门热线的投诉与咨询案件的文本数据,获取的数据字段为案件编号、案件标题、案件内容、案件分类和案件创建时间,案件编号为数据库中案件的唯一标识,案件标题和案件内容为热线案件的基本信息,是自然语言处理的基础,案件分类主要为了对不同类型的案件进行精准的频繁模式挖掘,案件事件的获取主要是为了进行时序分析来挖掘周期性或者处于萌芽期的潜在舆情热点。
主管部门热线数据来源分为四种形式,第一种为通过打电话给热线,然后坐席人员进行内容的记录形成案件,其它三种分别是短信,微信和微博,这三种都是由市民自己录入文本信息然后再进行数据的存储,这三种方式的数据来源,同样会有坐席人员对内容进行校对和重新编辑,确定投诉和咨询主要内容后再形成案件,数据库的存储采用 Mysql数据库。
在使用数据之前,需要进行数据清洗预处理,包括去除噪音和关键词特征提取。去除噪音主要过程包含删除标点符号,停用词,重复词这类噪音。关键词特征提取为,提取内容文本的特征,特征提取主要采用jieba工具包,特征提取算法采用TF-IDF(termfrequency-inverse document frequency)。
业务处理层
业务处理层包含算法和系统的业务逻辑与功能,本发明所涉及的算法有改进的FPGrowth算法、词权重排序、重复案件识别和突发性热点识别,系统的业务逻辑与功能有舆情预警、舆情分析,统计分析和报表管理4大模块。
舆情预警模块,根据舆情识别与预警方法,进行群体性案件与突发性热点案件识别;舆情分析模块,进行舆情预警和舆情可视化。统计分析模块,进行热点统计,并生成统计报表;报表管理模块,包括舆情日报和舆情周报管理。
用户终端层
用户终端层主要面向于省市领导和主管部门热线的工作人员,系统分为2个端,移动端和PC端,移动端主要用于做数据的展示和推送,PC端主要面向工作人员的操作使用。
本发明所述的主管部门热线舆情识别与预警方法,包括步骤:
(1)基于频繁模式的主题发现,挖掘出关键词的频繁模式,即舆情主题;
频繁模式是主题发现的常用方法之一,但是对于频繁模式的主题发现算法,在挖掘过程中会有大量重复的术语,为了避免术语的“维度爆炸”,需要对术语的频繁集合进行合并,常用的合并手段是使用余弦相似度,但是余弦相似度在术语完全等价的时候才认为相似,对于近义词处理不够理想。
近年来基于词向量的词相似度研究十分火热,比较著名的算法有word2vec算法,Word2vec的核心思想是通过词的上下文得到词的向量化表示,利用训练样本进行训练与学习,将语句中的词语映射成多维的词向量,通过向量之间的距离来判断词语之间的相似程度。它的优势是不需要对样本数据进行复杂处理,就可以直接进行词向量训练。
本发明首先采用word2vec算法对热线数据进行训练,得出术语之间的相似度,如图2所示,单词相似度拓扑图。以术语“交通”为例,展示了与交通词意最接近的5个术语,分别是车辆通行(0.77)、交通安全(0.73)、交通秩序(0.71)、通行(0.68)和出行(0.66)。
单词移动距离(Word Mover′s Distance,WMD)算法被广泛应用于计算文档之间的相似度,为了保证独立性,在本发明中给出WMD算法的主要思想:
定义c(i,j)为术语i和术语j之间的距离,其值在0到1之间,值越大表示术语之间的距离越大,相似度就越小,则WMD定义对于两个频繁模式关键词术语间的距离公式如下:
每对术语i和j间的距离设定权重参数Tij,使得频繁模式f的第i个词对应到频繁模式 f′中所有的术语的权重值和等于fi。同理,频繁模式f′的第j个词的权重值的和等于fj′。彩用动态规划算法使得∑i,j=1Tijc(i,j)达到最优。
WMD对一对频繁模式之间的相似度计算分为2种形式,第一种情况为一对频繁模式中关键词数量相同,第二种情况为一对频繁模式中关键词数量不相同,为了减少计算复杂度,选择对频繁模式的关键词数量统一,这样便可以使得WMD算法对关键词进行一对一的映射,如图3所示,频繁模式的单词距离映射关系图。
为了使得相似度始终属于0到1之间,仿照余弦相似度的思想对WMD算法进行改造如下:
定义1WMDIP(WMD interesting pattern):设频繁模式f1和频繁模式f2的WMD为WMD(f1,f2),则f1和f2之间的相似度为:
其中,Sim(f1,f2)为频繁模式f1和频繁模式f2之间的相似度,值属于0到1,值越大f1和f2之间的相似度越大,||f1||和||f2||表示对f1和f2取模。
在热线数据中,挖掘出频繁模式后,只做术语的展示,不能全方位的展示热点的内容,因此需要将案件内容进行记录,传统的频繁模式挖掘出来的是术语的集合,不能满足案件内容展示的需求,因此需要将FPGrowth算法的数据结构和挖掘过程进行改进。
定义2IFp-Tree:原始的FPGrowth包含ID号,子节点、父节点、next节点和数量。在FP-Tree上加入一个节点集合,集合包含含有该术语的案件信息,具体案件信息为案件ID,为了不增加额外的内存开销,只将案件ID存入树的节点中,当挖掘完成后可以通过案件ID检索到具体的案件信息。
IFp-Tree是一种树结构,树结构定义如下:
本发明提出的基于频繁模式的主题发现的挖掘过程如下:
(1.1)采用word2vec算法对热线数据关键词进行训练,得出关键词术语之间的相似度;
(1.2)由训练后的市场热线关键词构建生成IFp-Tree;
(1.3)基于关键词IFp-Tree,挖掘出频繁模式;
(1.4)采用改进的WMD算法合并挖掘出来的频繁模式。
具体地,如果模式树中包含单个路径P,对于路径P中每个节点与后缀α,形成新的模式,如果支持度大于θs则保留该模式,记为α′,如果输出集合F中存在与新增模式 WMD相似度都小于θw的模式,则在F集合中新增一种模式,否则将α′与F集合中与α′相似度最大的模型进行合并。
具体地挖掘算法IFPGrowth:
(2)基于词权重的主题排序,计算频繁模式的权重,并按权重大小进行舆情主题的排序;并设置热点权重阈值τ,超过权重阈值的则认为是舆情热点,小于权重阈值的则认为不是舆情热点;
在主管部门热线的投诉案件中,有大量的催单、进度查询等情况出现,采用频繁模式挖掘主题的时候,会将这类案件误认为是舆情热点事件,为了对舆情主题的重要程度进行排序,提出了一种基于词权重的频繁模式排序方法,以将真正的舆情热点信息突出表现出来。
经典的词权重的方法有TF-IDF,是一种针对关键词的统计分析方法,用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比,跟它在语料库出现的次数成反比,这种计算方式能有效避免常用词对关键词的影响。采用IDF算法对频繁模式中每个关键词进行加权的计算公式如下:
其中,IDF(t)表示关键词t的权重值,len(D)表示文档集合D中文档的总数,n(t)表示含有关键词t的文档的数量。
对于挖掘出来的频繁模式进行合并后,其频繁模式的长度是不相同的,如果采用将频繁模式中的术语权重线性相加作为频繁模式的权重的话会导致长度较大的频繁模式会得到较大的权重,因此定义频繁模式的权重计算公式如下:
其中,Weight(f)表示频繁模式f的权重值,||f||表示频繁模式的模,即长度。
(3)基于相似度矩阵的热点识别,计算频繁模式的相似度矩阵及其离散程度系数,超过阈值则为热点案件,否则为重复案件;
通过对数据的分析和观察,挖掘出来的频繁模式中有2种情况,第一种为发生的热点事件,在短时期内同主题的投诉案件到达了最小支持度阈值,这类问题我们称之为舆情热点。第二种情况,是公民对一件事情投诉比较频繁,但是主题是完全一样的,内容文本大致相同,所以工作人员会直接选择复制文本,或者是工作人员为了增加自己的工作量从而应对硬性的考核指标,也会出现复制文本形成多条案件的情况,这类情况采用基于关键词的频繁模式的挖掘就很容易误判为舆情热点,从而导致错误的预判和预警。
因此本发明设计一种基于相似度矩阵的热点识别,将重复案件和热点事件做出相应的甄别,从而达到精准预警。对重复案件的甄别,最重要的一步是对文本之间的相似度做计算,常见的文本相似度计算有本发明提到的余弦相似度、单词移动距离等,由于余弦相似度和单词移动距离的算法都是基于关键词的提取后再进行相似度计算,因此相似度计算的准确性会依赖于分词的准确性。
Bert为谷歌公司推出的一款预训练模式,其优越的性能已经在多个数据集的测试上得到了验证,Bert的字符级的句子向量处理方式非常适合计算文本之间的相似度。
如图4所示,Bert模型的embedding层,将案件文本处理成768维的向量,再采用欧式距离计算向量之间的相似度作为文本之间的距离,距离越大相似度越小,这样便可以得到一个频繁模式下的相似度矩阵。
分别取一例识别出来的为热点案件和重复案件的频繁模式,这个过程是人为判断,当然这个区别还是一目了然的。将频繁模式按本发明的方法得到2个频繁模式的相似度矩阵,并将2个相似度矩阵中的数值热力图画出,如图5所示,热点案件与重复案件相似度矩阵元素分布热力图,a子图中所展示的是重复案件的热力图,b子图所展示的为热点案件的热力图。
从图中不难发现,对于热点案件其相似度矩阵中的元素分布比重复案件的分布要离散的多,这也验证了采用Bert的embedding层作为相似度计算的有效性。事实上,在相互之间内容大体相同的一组文本,其相似度矩阵的元素会比较集中在一定区域内。因此需要一个系数用来评估频繁模式的相似度矩阵元素的离散程度。
定义矩阵行向量S为{s1,s2,…si…,sn-1,sn},其中n为相似度矩阵行数,i=1,…,n, si的计算公式如下:
其中,SimMat为频繁模式的相似度矩阵,m为相似度矩阵的列数,j=1,…,m,矩阵行向量S中的元素为相似度矩阵每行元素之和。
定义评价相似度矩阵元素的离散程度的系数为γ,其计算公式如下:
其中,std表示求解标准差,||S||表示矩阵行向量的长度。
在一组内容相似的文本中,每一个文本与其它的文本相似度都处于一个相似的水平,因此在相似度矩阵的体现为每行元素和(某一文本与其它文本相似度之和)应该都是大同小异,但是由于矩阵行向量S的长度较小,标准差就会较小,因此采用γ来判断一个频繁模式是热点案件还是重复投诉,并设置一个阈值δ,当γ>δ时,某一文本与其它文本相似度之和相差较大,应为热点案件,反之则为重复案件。
(4)突发性热点案件与群体性案件识别;
在主管部门热线的工作体系中,领导们比较关注的有2类事件,我们称之为突发性热点案件和群体性案件,对这2类案件的识别和预警并高效及时的处理,是主管部门热线的工作重点之一。
群体性案件,顾名思义,就是在单位时间内,发生了很多同一类型的投诉案件,这种案件不加以处理很容易形成舆论危机。我们给出群体性案件的定义如下:
定义3群体性案件,在单位时间内,根据挖掘出来的频繁模式,并且计算权重大于一定阈值τ,且识别出来为热点案件的频繁模式,我们称之为群体性事件。一般而言,选择以24小时为单位时间去对群体性案件进行挖掘。
突发性热点案件,其具有信息生命周期的典型特征,可以分为潜伏期(舆情萌发)、爆发期(舆情高涨)、成熟期(舆情波动)和消退期(舆情淡化)四个典型的周期,我们定义突发性热点案件如下:
定义4突发性热点案件,在时间周期为T天的一段时间内,有P天发生了群体性案件,我们可以定义其为突发性热点案件。
在本发明中,对潜伏期和爆发期的预判显得尤为重要,在系统中应及时发现舆情趋势和采取措施处理显得尤为重要。
实验结果与案例研究
本发明的实验参数设置如表1,以进行频繁项集挖掘,因为热线数据文本的平均长度在60个字符左右,因此用4个关键词完全可以提取出每个案件的特征,最小支持度为4,认为一个案件有4次以上的投诉或者反映情况便可以视为萌芽的热点案件,热点权重阈值设置为4,因为在热线数据采用分词器统计词频,得出有399310个词汇,出现次数为1和2的占了接近60%,经过大量实验观察和对比选择阈值为4可以过滤掉大部分催单和询问流程的工单,WMD相似度阈值设置的较为严格采用0.3的取值是为了将舆情热点有更好的区分度,热点识别阈值设置为1这是由于bert的向量表示为768维,因此句子间有细微的差别,距离也会在1左右,因此将热点阈值设置较大。最后,我们认为7天内有3天发生同一种类型的群体性事件,便可以达到触发报警的条件。
表1
将所拥有的主管部门热线数据首先进行分词和做词频的统计,热线数据共计3273442条记录,统计出来399310个词汇,词汇的分布图如图6所示。从图6中可以看出,在主管部门热线的数据中,出现频率在1-5次的最多,占所有词汇的70%左右,出现频率在25-50次的最少,大约占3.7%左右。表2为出现频率最高的10个词汇,从表中可以看出,出现频率较高的词汇,都是坐席人员的固定输入格式,比如来电对象、反映问题等等。
表2
单词 | 出现频率 |
要求 | 1131937 |
来电 | 779972 |
街道 | 774553 |
对象 | 755098 |
市民 | 752374 |
服务 | 723666 |
反映 | 551766 |
问题 | 511119 |
关于 | 436768 |
此处 | 419251 |
以具体某一天的热线数据所挖掘出来的热点为例进行分析,由于涉及数据保密问题屏蔽掉一些关键词,用某区、某小区和某平台替代,对中国某市2019年某天的内容进行挖掘,采用频繁模式挖掘出来的主管部门热线舆情主题结果如表3所示,我们只选择合并后的5个代表性关键词来代表该频繁模式。
表3
编号 | 频繁项集 | 支持度 |
主题1 | 咨询,催单,告知,工单,进展 | 77 |
主题2 | 某区,某小区,填埋,绿化带,停车位 | 25 |
主题3 | 工单,投诉,告知,撤单,撤销 | 15 |
主题4 | 夜间,某区,扰民,噪音,施工 | 11 |
主题5 | 某区,某小区,物业公司,过度,电费 | 11 |
主题6 | 案件,出借,某平台,起诉,请求权 | 6 |
从当日挖掘出来的6个主题分别是对工单的进度进行咨询并催单的一共有74单,投诉某小区将绿化带改造成停车位的一共有25单,对投诉工单进行撤单操作的一共有 15单,投诉某个区有夜间施工,噪音扰民的一共有11单,投诉某区某小区的物业公司对电费存在乱收费的情况的有11单,投诉某金融平台违规的一共有6单。然后对频繁模式下的主题进行重新排序,排序结果如表4所示。
表4
编号 | 频繁项集 | 权重 |
主题6 | 案件,出借,某平台,起诉,请求权 | 8.72 |
主题5 | 某区,某小区,物业公司,过度,电费 | 6.53 |
主题2 | 某区,某小区,填埋,绿化带,停车位 | 5.67 |
主题4 | 夜间,某区,扰民,噪音,施工 | 4.24 |
主题1 | 咨询,催单,告知,工单,进展 | 3.97 |
主题3 | 工单,投诉,告知,撤单,撤销 | 3.66 |
从重新按权重排序后的主题我们可以发现,一些不经常出现的投诉案件排序会上升。因为不经常出现,所以有爆发舆情危机的风险,从表4中我们可以看出取阈值为4,只有主题6(权重8.72),主题5(权重6.53),主题2(5.67),主题4(4.24)为潜在舆情热点,而主题1和主题3为催单和撤单的流程性案件,在权重过滤下会被认为不是舆情热点。然后再对挖掘出来的4个热点判别其是否为重复投诉,从而甄别出真正的舆情热点,判断结果如表5所示,舆情热点与重复工单筛选结果。
表5
编号 | 频繁项集 | 类别 | γ值 |
主题6 | 案件,出借,某平台,起诉,请求权 | 重复案件 | 0.76 |
主题5 | 某区,某小区,物业公司,过度,电费 | 舆情热点 | 1.25 |
主题2 | 某区,某小区,填埋,绿化带,停车位 | 舆情热点 | 2.75 |
主题4 | 夜间,某区,扰民,噪音,施工 | 舆情热点 | 2.47 |
从热点识别结果我们可以发现,主题6的γ值小于1,因此我们判断其为重复案件,我们给出检索出来的文本对比图来验证本文算法的有效性,重复案件和热点案件的文本对比图如图7所示。
从图7中我们可以看出,对于重复案件我们达到了精准的识别,在重复案件的5条中,子图a,第1,2,4条内容完全一样,第3和5条完全一样,因此可以判定为重复录入的案件。对于热点案件,子图b,10条记录(一共记录为25条,为了方便展示选择了其中10条)的内容就完全不同,来电人员也完全不同,可见主题2中的绿化带问题已经引起了许多公众的不满,是潜在的舆情危机事件,应该给予重视。
以2019年10月某培训平台倒闭但是未赔付客户损失的事件,通过本发明算法挖掘出某培训平台的投诉量如图8所示,某培训平台投诉舆情趋势。
从图中可以看出,2019年10月15日为该事件的萌芽期,也就是这天该平台的线下加盟店倒闭关门并没有通知其会员,无助的家长向热点投诉,当天的投诉量为14单,到了10月16日对该平台的投诉量到达了53,较前一天增长率为279%,事件处于爆发期,在10月17日上午,该事件的投诉量到达4件触发了突发性热点问题的报警机制,我们的预警系统将触发报警,将该信息及时的反馈给相关部门处理,经过2天的处理,在10月19日妥善的处理完后,此次舆情结束。值得一提的是,在10月18日这天,在该城市的网络媒体上曝光了该培训平台的行为,从而也验证了本发明预警的价值,可以在事发前探测到即将发生的舆情危机。
本发明的舆情识别与预警系统,在多个城市的主管部门热线部署使用。本发明系统最重要的功能是舆情的精准识别并展示,重要强调是舆情的精准性,因此我们采用了改进的FPGrowth方法,使得频繁模式的具体内容可追溯,从而可以在系统做展示。本发明还设计了基于词权重和相似度矩阵的方法进一步的提取精确的舆情信息,最后对热线突发性热点进行定义和在系统中进行监控,实际案例证明本发明所提出的系统具有舆情识别与预警的功能。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (7)
1.一种主管部门热线舆情识别与预警方法,其特征在于,所述方法包括步骤:
(1)从数据库获取主管部门热线的文本数据,进行预处理,去除噪音,提取关键词;
(2)基于频繁模式的主题发现,挖掘出关键词的频繁模式,即舆情主题;
(3)基于词权重的主题排序,计算频繁模式的权重,按权重大小进行舆情主题的排序,且超过热点权重阈值则认为是舆情热点;
对频繁模式中每个关键词进行加权计算:
其中,IDF(t)表示关键词t的权重值,len(D)表示文档集合D中文档的总数,n(t)表示含有关键词t的文档的数量;
频繁模式的权重计算:
其中,Weight(f)表示频繁模式f的权重值,‖f‖表示频繁模式的模,即长度;
(4)基于相似度矩阵的热点识别,计算频繁模式的相似度矩阵及相似度矩阵离散程度系数,若频繁模式的相似度矩阵离散程度系数超过热点识别阈值则为热点案件,否则为重复案件;
采用Bert模型将案件文本处理成768维的向量,采用欧式距离计算向量之间的相似度作为文本之间的距离,距离越大相似度越小,得到一个频繁模式下的相似度矩阵;
定义矩阵行向量S{s1,s2,…si…,sn-1,sn},其中,n为相似度矩阵行数,i=1,…,n,si的计算公式如下:
其中,SimMat为频繁模式的相似度矩阵,m为相似度矩阵的列数,j=1,…,m,矩阵行向量S中的元素为相似度矩阵每行元素之和;
定义相似度矩阵离散程度系数γ,其计算公式如下:
其中,std表示求解标准差,‖S‖表示矩阵行向量的长度;
(5)群体性案件与突发性热点案件识别。
2.根据权利要求1所述的主管部门热线舆情识别与预警方法,其特征在于,所述文本数据包括案件编号、案件标题、案件内容、案件分类和案件创建时间。
3.根据权利要求1所述的主管部门热线舆情识别与预警方法,其特征在于,所述步骤(1)中,采用TF-IDF算法提取关键词特征。
4.根据权利要求1所述的主管部门热线舆情识别与预警方法,其特征在于,所述群体性案件为,在单位时间内,挖掘出来的频繁模式,计算频繁模式的权重若大于一定阈值,且识别为热点案件的频繁模式;所述单位时间为24小时;
所述突发性热点案件为,在时间周期T天内,有P天发生了群体性案件。
5.根据权利要求1所述的主管部门热线舆情识别与预警方法,其特征在于,所述步骤(2)中,基于频繁模式的主题发现的挖掘过程如下:
(2.1)采用word2vec算法对主管部门热线关键词进行训练,得出关键词之间的相似度;
(2.2)由训练后的主管部门热线关键词构建生成IFp-Tree;
(2.3)基于关键词IFp-Tree,挖掘出频繁模式;
(2.4)采用改进的WMD算法合并挖掘出来的频繁模式;所述改进的WMD算法为,
设频繁模式f1和频繁模式f2的WMD为WMD(f1,f2),则f1和f2之间的相似度为:
其中,Sim(f1,f2)为频繁模式f1和频繁模式f2之间的相似度,值属于0到1,值越大f1和f2之间的相似度越大,‖f1‖和‖f2‖表示对f1和f2取模。
6.根据权利要求5所述的主管部门热线舆情识别与预警方法,其特征在于,所述IFp-Tree包括节点ID号,子节点、父节点、next节点和数量,并包含案件ID,挖掘完成后通过案件ID检索到具体的案件信息。
7.一种主管部门热线舆情识别与预警系统,基于权利要求1-6任一项 所述的主管部门热线舆情识别与预警方法,其特征在于,所述系统包括数据中心层、业务处理层和用户终端层;
数据中心层包括数据库,存储主管部门热线文本数据;
业务处理层,包括舆情预警、舆情分析、报表管理和统计分析模块;
舆情预警模块,根据舆情识别与预警方法,进行群体性案件与突发性热点案件识别;
舆情分析模块,进行舆情预警和舆情可视化;
统计分析模块,进行热点统计,并生成统计报表;
报表管理模块,包括舆情日报和舆情周报管理;
用户终端层,面向主管部门热线工作人员,包括移动端和PC端,移动端用于数据的展示和推送,PC端面向工作人员的操作使用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110922347.1A CN113887219B (zh) | 2021-08-12 | 2021-08-12 | 一种主管部门热线舆情识别与预警方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110922347.1A CN113887219B (zh) | 2021-08-12 | 2021-08-12 | 一种主管部门热线舆情识别与预警方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113887219A CN113887219A (zh) | 2022-01-04 |
CN113887219B true CN113887219B (zh) | 2022-07-05 |
Family
ID=79010963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110922347.1A Active CN113887219B (zh) | 2021-08-12 | 2021-08-12 | 一种主管部门热线舆情识别与预警方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887219B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082947B (zh) * | 2022-07-12 | 2023-08-15 | 江苏楚淮软件科技开发有限公司 | 纸质信件快速采集分拣阅信系统 |
CN115934808B (zh) * | 2023-03-02 | 2023-05-16 | 中国电子科技集团公司第三十研究所 | 一种融入关联分析和风暴抑制机制的网络舆情预警方法 |
CN116860977B (zh) * | 2023-08-21 | 2023-12-08 | 之江实验室 | 一种面向矛盾纠纷调解的异常检测系统及方法 |
CN116910231B (zh) * | 2023-09-11 | 2023-11-17 | 社治无忧(成都)智慧科技有限公司 | 一种基于自然语言处理的微信群舆情预警方法和系统 |
CN117743956A (zh) * | 2024-01-05 | 2024-03-22 | 北京数字政通科技股份有限公司 | 一种智能标签算法进行热线预警的方法及系统 |
CN118012930B (zh) * | 2024-04-10 | 2024-07-05 | 数安在线(北京)信息技术有限公司 | 用于人防指挥的事件监测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008059600A (ja) * | 2007-10-03 | 2008-03-13 | Nec Corp | 文書処理装置、文書処理方法、および、文書処理プログラム |
CN107895008A (zh) * | 2017-11-10 | 2018-04-10 | 中国电子科技集团公司第三十二研究所 | 基于大数据平台的情报信息热点发现方法 |
CN109101597A (zh) * | 2018-07-31 | 2018-12-28 | 中电传媒股份有限公司 | 一种电力新闻数据采集系统 |
CN111460252A (zh) * | 2020-03-16 | 2020-07-28 | 青岛智汇文创科技有限公司 | 一种基于网络舆情分析的自动化搜索引擎方法及系统 |
-
2021
- 2021-08-12 CN CN202110922347.1A patent/CN113887219B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008059600A (ja) * | 2007-10-03 | 2008-03-13 | Nec Corp | 文書処理装置、文書処理方法、および、文書処理プログラム |
CN107895008A (zh) * | 2017-11-10 | 2018-04-10 | 中国电子科技集团公司第三十二研究所 | 基于大数据平台的情报信息热点发现方法 |
CN109101597A (zh) * | 2018-07-31 | 2018-12-28 | 中电传媒股份有限公司 | 一种电力新闻数据采集系统 |
CN111460252A (zh) * | 2020-03-16 | 2020-07-28 | 青岛智汇文创科技有限公司 | 一种基于网络舆情分析的自动化搜索引擎方法及系统 |
Non-Patent Citations (2)
Title |
---|
基于新词发现的网络新闻热点排名;王馨等;《图书情报工作》;20150331;第59卷(第06期);第68-74页 * |
网络舆情热点获取与分析算法研究;徐建国等;《软件导刊》;20190125;第18卷(第05期);第93-97页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113887219A (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113887219B (zh) | 一种主管部门热线舆情识别与预警方法及系统 | |
KR101907041B1 (ko) | 소셜 웹 콘텐츠에서의 예측 기반 리스크 관리 장치 및 그 방법 | |
CN108549647B (zh) | 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法 | |
Gründer-Fahrer et al. | Topics and topical phases in German social media communication during a disaster | |
US20110125746A1 (en) | Dynamic machine assisted informatics | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN111475557A (zh) | 一种普惠金融服务平台数据中台构建系统 | |
CN110689385A (zh) | 一种基于知识图谱的电力客服用户画像构建方法 | |
CN111611309A (zh) | 话单数据关系网络交互式可视化方法 | |
WO2023035330A1 (zh) | 一种长文本事件抽取方法、装置、计算机设备及存储介质 | |
Rahmadan et al. | Sentiment analysis and topic modelling using the lda method related to the flood disaster in jakarta on twitter | |
CN114860882A (zh) | 一种基于文本分类模型的公平竞争审查辅助方法 | |
CN114266455A (zh) | 一种基于知识图谱的可视化企业风险评估方法 | |
CN113946657A (zh) | 一种基于知识推理的电力业务意图自动识别方法 | |
Chaparro et al. | Quantifying perception of security through social media and its relationship with crime | |
CN114528405A (zh) | 一种基于网络突发热点的舆情监测方法 | |
CN112199488B (zh) | 面向电力客服问答的渐增式知识图谱实体抽取方法和系统 | |
CN112488736A (zh) | 一种住建领域政务热线工单数据分析方法及系统 | |
Subramanian et al. | A cognitive assistant for risk identification and modeling | |
Shang et al. | Social network analysis in multiple social networks data for criminal group discovery | |
CN113538011B (zh) | 一种电力系统中非在册联系信息与在册用户的关联方法 | |
CN110147980A (zh) | 工单处理方法及装置 | |
CN115423361A (zh) | 风险视图的数据处理方法、装置、存储介质和设备 | |
CN111080463B (zh) | 一种关键通讯节点识别方法、装置及介质 | |
Akatsuka et al. | Analysis of the relationship between urban dynamics and prevalence of remote work based on population data generated from cellular networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |