CN112199585A - 一种基于数据挖掘技术的网络舆情突发热点事件发现方法 - Google Patents
一种基于数据挖掘技术的网络舆情突发热点事件发现方法 Download PDFInfo
- Publication number
- CN112199585A CN112199585A CN202011055051.6A CN202011055051A CN112199585A CN 112199585 A CN112199585 A CN 112199585A CN 202011055051 A CN202011055051 A CN 202011055051A CN 112199585 A CN112199585 A CN 112199585A
- Authority
- CN
- China
- Prior art keywords
- event
- message
- public opinion
- type
- granularity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Abstract
Description
技术领域
本发明涉及一种基于数据挖掘技术的网络舆情突发热点事件发现方法,属于计算机数据挖掘领域中热点发现领域,涉及海量数据创新性分析,发明着重解决的问题是在海量信息中发掘突发热点事件并追踪事件的热度变化。
背景技术
近年来,随着Internet的迅速发展,网络在社会发展、人民生活中扮演着越来越重要的角色。互联网已经成为信息承载和传播的核心载体和社会舆论的放大器。网络舆情,特别是突发热点舆情有着发生范围广、传播速度快、影响大的特点。通过社交媒体数据,在突发事件发生的时候,通过挖掘与分析得到有价值的应急信息,对于及时应对网络突发的公共事件和全面掌握社情民意具有重大意义。
突发热点事件发现是一项面向新闻媒体信息流进行位置话题识别和已知话题追中的信息处理技术。当前主流的突发热点事件发现方法分为两类:一类是基于主题模型,例如PLSA、LDA等,这类方法通过迭代计算,近似描述出文档集中的每个主题,但是该类方法只考虑了单词和文档之间的从属关系,没有考虑时间信息,所以通过该类方法建模更容易得到时间无关的静态主题,很难得到时间相关的突发事件主题。第二类是基于聚类方法,包括KNN、凝聚层次聚类等方法识别突发事件。这两类方法都把重点放在文本内容的处理方面,未考虑时间因素。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种综合考虑突发事件的时间特征和社交媒体消息特点的突发热点事件发现方法,时间元素是突发热点事件的重要组成部分,通过时间轴可以追踪事件的热度变化并及时有效的发现事件的发生。此外,本发明通过异常点分析算法发现热点,该方法计算速度快,仅仅通过维护一些统计量便可以实时快速计算当前时间点是否有事件的方法并追踪事件热度变化。因此,本发明的方法不但具有深远的理论价值,而且有着广阔的应用前景,可以创造较大的社会和经济效益。
本发明提出了一个基于时间序列的突发热点事件发现方法流程如图1所示,主要包含两个方面:(1)分析突发事件特征,采用分词、命名实体、国家突发公共事件总体应急预案中规定的事件类型判断文本消息是否涉及事件的发生。(2)热点分析,通过对消息统计量,结合plotbox异常点挖掘算法识别出突发事件,该算法计算速度快,能够实时判断当前时刻是否有热点事件的发生,并追踪事件发展趋势。
舆情消息都是一些非结构化的数据,需要对其进行必要的预处理并提取事件特征,包括事件的发生时间、地点、事件类型特征,其中事件类型包括自然灾害、事故灾害、公共卫生事件以及安全事件四大类,对应164小类。预处理包括:对原始文本集合进行去重、广告和低频词汇进行过滤,短文本过滤、文本分词以及事件特征提取。对于每一个句子,首先判断该句子中是否包含停用词,是否为疑问句以及是否过短等对句子进行过滤。对于一个关于事件的消息,一个句子中必须同时包含事件和地点关键词,因此通过判断一个句子中是否同时包含事件和地点关键词确定该句子是否有效。对于同时包含事件和地点的句子,由于地点有不同的维度,因此要对地点级别进行统一,另外同一种事件类型的表述方式不同,因此对事件关键词也要进行统一,将一些常用口语化的事件表述为标准的事件术语,例如“发大水”转成“洪水”等等,经过上述处理最后完成对一条消息的处理。
热点分析部分涉及到日常数据统计,从大量数据中分析事件正常状态下的指标。通过对这些消息进行文本分析预处理(筛选出包含时间、地点和事件类型的消息),由于不同的消息描述事件的粒度不同,例如四川省发生地震和汶川县发生地震两条消息,对应的事件词语和地点词语为<四川省,地震>和<汶川县,地震>,统一转换成<四川省,地震>。将地点统一转换成一级省份(事件从164小类转成对应的4大类,地点从市、县转换成省),统计处理后针对164类事件在一天24小时每个时刻(相邻时刻之间间隔15分钟)的消息量,并进行归一化处理。给定一个日期T以及该天的时刻i,对该时刻所有消息进行处理,得到每条消息对应的<地点,事件类型>特征,统计第j类事件(满足在地点为jl,事件类型je)的消息量xTij=∑data<loc,event>if loc=jL and event=je。
给定一个日期T以及该天的时刻i,对于第j类事件,对应归一化方法如公式(1)所示,是xTij归一化之后的标准值,xTij表示日期T的第i-1时刻到第i时刻第j类事件的消息量,minij为历史数据中第j类事件在第i-1时刻到第i时刻的数据量最小值,maxij为历史数据中第j类事件在第i-1时刻到第i时刻的数据量最大值。
热点分析主要是基于事件的统计数据采用PlotBox算法从大量数据中挖掘出热点事件。如图2所示,对于第j类事件,在一个月的时间内每天第i时刻对第i-1时刻到第i时刻消息的归一化消息量计算Q的Q1ij(第一四分数)、Q2ij(第二四分数)和Q3ij(第三四分数),其中Q1ij又称较小四分位数,等于该样本中所有数值由小到大排列后第25%的数字。Q2ij又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。Q3ij有称较大四分位数,等于该样本中所有数值由小到大排列后第75%的数字。IQRij=Q3ij-Q1ij,为四分位中间距,等于该样本的Q3ij与Q1ij之间的差距。
其中IQRij=Q3ij-Q1ij,θ为热度敏感因子,通常取值为1.5。
否则该事件当前状态不变。
本发明首次提出对数据进行竖向统计归一化(因为一天中的不同时刻用户讨论度是不一样的,例如半夜两点一共有100条数据,其中2条数据是讨论汶川地震,上午九点一共有10000条数据,其中有50条讨论汶川地震,单纯比较两个时刻讨论汶川地震的条数是没有意义的,必须基于的消息量,通过时间的纵向归一化将不同时刻的讨论特定事件的数据量放到一个可比较的维度),归一化之后本发明将热点视为一种特殊的异常点,通过plotbox这个异常点分析算法挖掘出热点。
本发明还提供一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明的积极效果为:
本发明提出的综合考虑突发事件的时间特征和社交媒体消息特点的突发热点事件发现方法与现有的突发热点发现方法进行了对比验证。实验证明,本发明提出的突发热点事件发现方法不仅能够准确挖掘出突发的热点事件并且计算速度快实时性高,能够在海量数据中快速挖掘出热点事件并追踪事件热度变化。
附图说明
图1为本发明方法流程图。
图2为PlotBox图与正态分布的概率密度函数对比图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的目的、特征和优点能够更加明显易懂,下面结合附图和事例对本发明中技术核心作进一步详细的说明。
一种基于数据挖掘技术的网络舆情突发热点事件发现方法的基本步骤如下。
1.文本预处理部分,对于当前日期T的(i-1)~i时刻接收到的文本消息,进行预处理。
a)加载词典库文件
b)对原文本进行断句,根据回行换行符,标点符号,空格符号等
c)对断句后的每个断句进行分别处理
d)对每个断句进行分词优化,识别人名、地名及事件类型,通过地名和事件类型确定每一类事件的消息量。
2.热点事件发现部分,以第j类事件的发现为例,每一种事件发现都与该流程一致。
尽管为说明目的公开了本发明的具体内容、实施算法以及附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (9)
1.一种基于数据挖掘技术的网络舆情突发热点事件发现方法,其步骤包括:
1)提取当前日期T内每一条待处理的舆情消息的事件特征,包括事件的发生时间、地点、事件类型;
2)设置多个时刻,根据各舆情消息的事件特征,统计每一类事件的消息量;其中将时间段T内相邻的第i-1时刻到第i时刻、地点为jl、事件类型je的第j类事件的消息量记为xTij,对xTij归一化之后的标准值为
3.如权利要求1所述的方法,其特征在于,步骤1)中,对于每一条舆情消息的事件特征,如果事件类型的粒度不同,则就将其转换为设定最大粒度的事件类型;如果地点粒度不同,则将其转换为设定最大粒度的地点名称。
4.如权利要求3所述的方法,其特征在于,每一设定最大粒度的事件类型包括多个小粒度事件类型,根据事件类型包含关系将小粒度事件类型转换为对应的设定最大粒度的事件类型;根据行政区域规划将小粒度地点名称转换为设定最大粒度的地点名称。
5.如权利要求1或3或4所述的方法,其特征在于,所述事件类型包括自然灾害、事故灾害、公共卫生事件以及安全事件四大类。
6.如权利要求1所述的方法,其特征在于,步骤1)中,首先对待处理的舆情消息进行过滤,保留同时包含事件和地点关键词的舆情消息。
7.如权利要求1所述的方法,其特征在于,第i-1时刻到第i时刻的时间间隔为15分钟。
8.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011055051.6A CN112199585A (zh) | 2020-09-29 | 2020-09-29 | 一种基于数据挖掘技术的网络舆情突发热点事件发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011055051.6A CN112199585A (zh) | 2020-09-29 | 2020-09-29 | 一种基于数据挖掘技术的网络舆情突发热点事件发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112199585A true CN112199585A (zh) | 2021-01-08 |
Family
ID=74008098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011055051.6A Pending CN112199585A (zh) | 2020-09-29 | 2020-09-29 | 一种基于数据挖掘技术的网络舆情突发热点事件发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112199585A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590978A (zh) * | 2021-08-05 | 2021-11-02 | 迪爱斯信息技术股份有限公司 | 一种热点事件识别方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853261A (zh) * | 2009-11-23 | 2010-10-06 | 电子科技大学 | 一种基于社会网络的网络舆情行为分析方法 |
US20160162512A1 (en) * | 2013-07-15 | 2016-06-09 | Universita' Degli Studi Di Firenze | Method for the Creation of Databases of Events Having a Mediatic Echo in the Internet |
CN106294619A (zh) * | 2016-08-01 | 2017-01-04 | 上海交通大学 | 舆情智能监管方法 |
US20190026459A1 (en) * | 2017-07-18 | 2019-01-24 | Vmware, Inc. | Methods and systems to analyze event sources with extracted properties, detect anomalies, and generate recommendations to correct anomalies |
CN110705288A (zh) * | 2019-09-29 | 2020-01-17 | 武汉海昌信息技术有限公司 | 一种基于大数据的舆情分析系统 |
CN111461553A (zh) * | 2020-04-02 | 2020-07-28 | 上饶市中科院云计算中心大数据研究院 | 景区舆情监测分析系统和方法 |
-
2020
- 2020-09-29 CN CN202011055051.6A patent/CN112199585A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853261A (zh) * | 2009-11-23 | 2010-10-06 | 电子科技大学 | 一种基于社会网络的网络舆情行为分析方法 |
US20160162512A1 (en) * | 2013-07-15 | 2016-06-09 | Universita' Degli Studi Di Firenze | Method for the Creation of Databases of Events Having a Mediatic Echo in the Internet |
CN106294619A (zh) * | 2016-08-01 | 2017-01-04 | 上海交通大学 | 舆情智能监管方法 |
US20190026459A1 (en) * | 2017-07-18 | 2019-01-24 | Vmware, Inc. | Methods and systems to analyze event sources with extracted properties, detect anomalies, and generate recommendations to correct anomalies |
CN110705288A (zh) * | 2019-09-29 | 2020-01-17 | 武汉海昌信息技术有限公司 | 一种基于大数据的舆情分析系统 |
CN111461553A (zh) * | 2020-04-02 | 2020-07-28 | 上饶市中科院云计算中心大数据研究院 | 景区舆情监测分析系统和方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590978A (zh) * | 2021-08-05 | 2021-11-02 | 迪爱斯信息技术股份有限公司 | 一种热点事件识别方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zimmeck et al. | Privee: An architecture for automatically analyzing web privacy policies | |
Qian et al. | On detecting business event from the headlines and leads of massive online news articles | |
CN112182246B (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
Mao et al. | Mapping near-real-time power outages from social media | |
Kirelli et al. | Sentiment analysis of shared tweets on global warming on twitter with data mining methods: a case study on Turkish language | |
Ma et al. | Natural disaster topic extraction in sina microblogging based on graph analysis | |
US11599667B1 (en) | Efficient statistical techniques for detecting sensitive data | |
CN112328794B (zh) | 台风事件信息聚合方法 | |
CN110134847A (zh) | 一种基于互联网金融信息的热点挖掘方法及系统 | |
Prasad et al. | Identification and classification of transportation disaster tweets using improved bidirectional encoder representations from transformers | |
CN109033087B (zh) | 计算文本语义距离的方法、去重方法、聚类方法以及装置 | |
CN110880142A (zh) | 一种风险实体获取方法及装置 | |
CN114595689A (zh) | 数据处理方法、装置、存储介质和计算机设备 | |
Zhu et al. | What drives reputational risk? Evidence from textual risk disclosures in financial statements | |
Rahmadan et al. | Sentiment analysis and topic modelling using the lda method related to the flood disaster in jakarta on twitter | |
Arefi et al. | Assessing post deletion in Sina Weibo: Multi-modal classification of hot topics | |
CN113378090B (zh) | 一种互联网网站相似度分析方法、装置以及可读存储介质 | |
Singh et al. | Event detection from real-time twitter streaming data using community detection algorithm | |
CN112199585A (zh) | 一种基于数据挖掘技术的网络舆情突发热点事件发现方法 | |
Li et al. | automatically detecting peer-to-peer lending intermediary risk—Top management team profile textual features perspective | |
Tang et al. | Typhoon Risk Perception: A Case Study of Typhoon Lekima in China | |
Szabó et al. | Exploring the dynamic changes of key concepts of the Hungarian socialist era with natural language processing methods | |
Li et al. | Vandalism detection in OpenStreetMap via user embeddings | |
Yang et al. | Ott messages modeling and classification based on recurrent neural networks | |
Son | Quick-and-wide propagation of disaster tweets: Why it matters and how to measure it |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210108 |