CN108733791B - 网络事件检测方法 - Google Patents
网络事件检测方法 Download PDFInfo
- Publication number
- CN108733791B CN108733791B CN201810450980.3A CN201810450980A CN108733791B CN 108733791 B CN108733791 B CN 108733791B CN 201810450980 A CN201810450980 A CN 201810450980A CN 108733791 B CN108733791 B CN 108733791B
- Authority
- CN
- China
- Prior art keywords
- event
- sub
- data
- detected
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000008451 emotion Effects 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims description 22
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 6
- 230000011273 social behavior Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 10
- 238000011161 development Methods 0.000 description 8
- 230000018109 developmental process Effects 0.000 description 8
- 238000012216 screening Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000008033 biological extinction Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002459 sustained effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
Landscapes
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网络事件检测方法。其中,该方法包括:采用获取数据,其中,数据包含待检测事件;对数据进行初步聚类得到聚类结果;根据聚类结果获取相对应的待检测事件的热度曲线,其中,热度曲线是根据用户情绪等因素作为热度影响因子绘制的曲线,待检测事件由多个子事件组成,热度曲线是包含待检测事件中的所有子事件的热度曲线;根据热度曲线选取符合预定要求的子事件组成待检测事件的方式,至少解决了由于直接将数据聚类的结果作为检测结果以及需明确关键词检测所造成的检测效果差的技术问题。
Description
技术领域
本发明涉及人工智能和数据挖掘领域,具体而言,涉及一种网络事件检测方法。
背景技术
在线社交网络作为一种互联网时代的新型交流工具,具有实时性高、参与性强等特点,是网民交流事件信息的重要平台,同时也成为监测事件的绝佳信息来源。如何高效地从海量数据中检测实时事件,成为近年来国内外学者的研究热点。
目前,基于在线社交网络的事件检测技术按事件类型,主要分为特定事件检测和非特定事件检测两大类。特定事件检测主要集中在对疫情、地震等自然灾害、特定区域等的相关事件检测,依赖事件已知特定信息和特征,如地点、时间、类型、描述等;非特定事件检测面向在线社交网络所有事件,无先验信息,依赖于信息流的时间信号来检测事件。根据检测任务和目标应用程序,事件检测分为新事件检测(New Event Detection,简称NED)和回顾性事件检测(Retrospective Event Detection,简称RED)。回顾性事件检测是一种用于发现先前未在历史新闻语料库中标识的事件的技术;新事件检测需要持续检测在线社交网络事件信息,以便近乎实时的发现新的事件,适用于探测未知真实事件或者突发事件。基于在线社交网络实时未知新事件的检测,最简单的方法就是采集一定数量的在线社交网络数据信息,再根据关键词等查看相应事件所占比例,所占比例较多者则为热点事件。该方法对数据采集实时随机性要求较高,且需要明确关键词等信息,不适用于大量的自动化事件检测。
综上所述,当前事件检测研究方法总体可以分为两类:1.以在线社交网络的文本为中心,先进行文本聚类,再从类中抽取出特征词,从而进行事件检测。2.以特征词为中心,先从文本中抽取特征词,再对这些特征词聚类,进行事件检测。
由于在线社交网络中文本比较简短,难以从单篇文本中抽取出有效特征,而且文本中含有很多垃圾信息,先对文本进行聚类,再进行事件检测的效果差。在线社交网络为事件采集提供了良好的平台,同时其短周期、短文本、不规范语法、错字错词等也为事件信息的处理和研究过程带来了较大的困难。
除此之外,当前事件检测研究集中在单个社交网络平台,单纯的对事件的发生进行检测,对事件具体发展过程没有进行持续的检测,而一个事件往往是延续性复杂变化的,现有技术的检测对整个事件缺乏整体的认知和了解;在对事件进行跟踪调研时,也仅是考虑事件内容上的变化,不会考虑伴随事件的发展用户情绪和舆论风向带来事件的变化。实际上,在事件发展过程中,用户情绪、正负观点及舆论风向往往也是随之变化的。从实际预警角度来说,把握用户情绪和舆论风向的变化,比掌握事件的发生发展更加重要。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网络事件检测方法,以至少解决由于直接将数据聚类的结果作为检测结果以及需明确关键词检测所造成的检测效果差的技术问题。
根据本发明实施例的一个方面,提供了一种网络事件检测方法,包括:获取数据,其中,所述数据包含待检测事件;对所述数据进行分词处理,选取特征词集;根据所述特征词集进行聚类得到聚类结果;根据所述聚类结果获取相对应的待检测事件的热度曲线,其中,所述热度曲线是根据用户情绪绘制的热度曲线,所述待检测事件由多个子事件所组成,所述热度曲线包含所述待检测事件中的所有子事件的热度曲线;根据所述热度曲线选取符合预定要求的子事件组成待检测事件。
进一步地,判断所述数据的长度是否大于预定值;在判断结果为大于预定值的情况下,通过爬虫技术获取所述数据。
进一步地,对所述特征词集进行聚类得到聚类结果包括:通过层次聚类法对所述特征词集进行聚类得到聚类的特征词簇集;将所述特征词簇集进行排序得到所述聚类排序结果。
进一步地,根据所述热度曲线选取符合预定要求的子事件作为待检测事件包括:根据所述热度曲线确定每个子事件的持续时间;在每个子事件的持续时间内按照预定要求更新每个子事件;将所有更新的子事件组成待检测事件。
进一步地,根据所述热度曲线确定每个子事件的持续时间包括:将每个子事件的热度曲线的开始时间点作为其前一个子事件结束的时间点,每两个相邻的时间点之间的时间段是每个子事件的持续时间。
进一步地,在每个子事件的持续时间内按照预定要求更新每个子事件包括:在每个子事件的持续时间内获取子事件的评论转发数量和/或用户影响力;根据评论转发数量和/或用户影响力将每个子事件中的信息进行排序;根据排序结果选取符合预定要求的信息整合为一条信息作为更新后的子事件。
进一步地,所述热度曲线通过以下至少之一获得:单位时间内信息数量、活跃用户数量、用户情绪转变量、意见领袖数量、意见领袖影响力。
根据本发明实施例的另一方面,还提供了一种网络事件检测系统,包括:第一获取单元,用于获取数据,其中,所述数据包含待检测事件;处理单元,用于对所述数据进行分词处理得到特征词集;聚类单元,用于对特征词集进行聚类得到聚类结果;第二获取单元,用于根据所述聚类结果获取相对应的待检测事件的热度曲线,其中,所述热度曲线是根据用户情绪绘制的热度曲线,所述待检测事件由多个子事件所组成,所述热度曲线包含所述待检测事件中的所有子事件的热度曲线;分类单元,用于根据所述热度曲线选取符合预定要求的子事件组成待检测事件。
进一步地,所述第一获取单元包括:判断模块,用于判断所述数据的长度是否大于预定值;获取模块,用于在判断结果为大于预定值的情况下,通过爬虫技术获取所述数据。
进一步地,所述聚类单元包括:聚类模块,用于通过层次聚类法对所述特征词集进行聚类得到聚类的特征词簇;第一处理模块,用于将所述特征词簇进行排序得到所述聚类结果。
进一步地,所述分类单元包括:确定模块,用于根据所述热度曲线确定每个子事件的持续时间;更新模块,用于在每个子事件的持续时间内按照预定要求更新每个子事件;第二处理模块,用于将所有更新的子事件组成待检测事件。
根据本发明实施例的另一个方面,还提供给了一种存储介质,所述存储介质上保存有程序,所述程序被运行时执行上所述的方法。
根据本发明实施例的另一个方面,还提供给了一种处理器,所述程序被运行时执行上述的方法。
在本发明实施例中,采用获取数据,其中,所述数据包含待检测事件;对所述数据进行分词,计算得到特征词集;对特征词集进行初步聚类得到聚类结果;根据所述聚类结果获取相对应的待检测事件的热度曲线,其中,所述热度曲线是根据用户情绪绘制的热度曲线,所述待检测事件由多个子事件所组成,所述热度曲线包含所述待检测事件中的所有子事件的热度曲线;根据所述热度曲线选取符合预定要求的子事件组成待检测事件的方式,解决了由于直接将数据聚类的结果作为检测结果以及需明确关键词检测所造成的检测效果差的技术问题,使得检测结果更加及时、精确和快速。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网络事件检测方法的流程示意图;
图2是根据本发明实施例的整体数据工作流图;
图3是根据本发明实施例的一种事件信息聚类示意图;
图4是根据本发明实施例的特征词簇示意图;
图5是根据本发明实施例的某个总事件的热度曲线图;
图6是根据本发明实施例的网络事件检测系统的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种网络事件检测的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本发明实施例的一种网络事件检测方法,如图1所示,该方法包括如下步骤:
步骤S102,获取数据,其中,数据包含待检测事件;
步骤S104,对所述数据进行分词处理得到特征词集,可以根据词频率选取符合预定要求的特征词组成特征词集;
步骤S106,对特征词集进行聚类得到聚类结果;
步骤S108,根据聚类结果获取相对应的待检测事件的热度曲线,其中,热度曲线是根据用户情绪绘制的热度曲线,待检测事件由多个子事件所组成,热度曲线包含待检测事件中的所有子事件的热度曲线;
步骤S110,根据热度曲线选取符合预定要求的子事件组成待检测事件。
上述用户情绪是从数据中提取能够反映心情的词,再将这些词进行情绪判定,得到带有正负值的情绪数值,根据这些情绪数值绘制热度曲线。
上述热度曲线的绘制还可以根据其他影响因素共同绘制热度曲线。
例如,图2是根据本发明实施例的整体数据工作流图,如图2所示,在对事件信息数据集进行分词计算得到特征词集后,进行初步聚类得到聚类结果,聚类结果可以是特征词簇集,本实施例可以选取感兴趣的特征词簇进行检测,比如,图2中编号为1的特征词簇是武汉理工大学,研究生,王攀,该词簇可能是还没有被当前网络发现的热点事件,而本实施例可以自行选择这样感兴趣的词簇进行网络定向采集数据,根据该词簇获取相对应的待检测事件的热度曲线,再进行后续具体的检测,从而达到对当前热点进行实时的掌控的目的,及时快速的进行检测。
通过上述步骤先初步将数据分词,计算得到特征词集,对特征词集进行聚类,再用初步聚类过的词簇集根据词簇频度再进行筛选,筛选出更加精确的数据信息作为待检测的事件,不必像现有技术中那样直接将数据聚类的结果作为检测结果,从而避免了检测效果差,也不必像现有技术中需要明确关键词等信息,本申请先聚类后确定每个总事件的搜索方向,再去筛选每个总事件搜索方向中具体的每个子事件,将所有子事件组成总事件,更加符合网络热点事件的变化规律,因为有特征词簇的限定方向,可以避免垃圾信息的干扰,还可以在网络热点事件刚出现时便可以通过初步筛选保证检测的迅速及时,再通过具体的筛选来保证检测的准确性,从而使得检测结果更加精确快速。
对所述数据进行分词处理得到特征词集可以利用中文分词对所述数据进行分词处理;再将所有分词根据预定要求选择特征词集,在一个可选的实施方式中,。将所述数据进行分词处理时,首先按照预定要求提取所述数据中的特征词集:然后,从所述数据中获取词的关联用户,词的文档频率,词的社交行为和词的重点标注比;最后,根据这些因素计算词的频度,选出符合预定要求的词作为特征词,形成特征词集。
获取数据是用程序实时自动化爬取在线社交网络数据信息,在数据获取过程中需要先获取短文本,短文本可以是新闻报道的内容、微博或者知乎中帖子的内容等,而在获取短文本时往往存在一些干扰,在一个可选的实施方式中,获取数据集可以首先判断数据的长度是否大于预定值;其次,在判断结果为大于预定值的情况下,通过爬虫技术获取数据。通过上述步骤设置文本长度,自动过滤超短无效文本(表情、符号等)从而获取数据集的原始内容。图3是事件信息的聚类,根据在线社交网络不同平台数据特点,将新闻类网页信息内容保存至事件报道信息;将微博知乎等短文本类原始网页信息内容保存在事件评文信息中。如图3中的所示,该数据集中的原始内容可以是各个微博报道的新闻事件的文本、相关的转发报道,各种评论信息和回复信息等等。
在一个可选的实施方式中,对数据进行初步聚类得到聚类结果可以是通过层次聚类法对数据进行聚类得到聚类的特征词簇集;然后将特征词簇进行排序得到聚类结果。
下面结合一个可选的实施方式对上述过程进行说明:
A1.对不同平台数据,综合考虑词关联用户U(u|wi)、词的文档频率dfi(d|wi)、词的社交行为SBi(sb|wi)(即提及词的信息对应的转发数、评论数和点赞数)、重点标注pohi(n|wi)(如hashtag)等因素。计算特征词的频度P(wi)=α*U(u|wi)+β*dfi(d|wi)+γ*SBi(sb|wi)+δ*pohi(n|wi),其中,α+β+γ+δ=1,α≥0,β≥0,γ≥0,δ≥0,设置一个阈值k,提取数据集中词频度大于k的特征词集;
A2.根据特征词集中词的共现关系,利用自底向上的凝聚的层次聚类方法将特征词分组构建共现图,形成特征词簇ewc(如图4所示),图4是以{w1,w2,w3,w4,w5}特征词集为例,利用凝聚的层次聚类方法实现自底向上的特征词聚;
A3.对聚类的特征词簇ewc进行评分,评分结果为Score(ewci),Score(ewci)=α*OL(ewci)+β*F(ewci)+γ*MBI(ewci)+δ*MN(ewci),其中,α+β+γ+δ=1,α≥0,β≥0,γ≥0,δ≥O,OL(ewci)表示该词簇相关意见领袖数量,F(ewci)表示该词簇的文档频率,MBI(ewci)表示该词簇影响力,MN(ewci)表示该词簇关联信息数量。根据评分结果对特征词簇进行排序得到聚类结果,可以进一步选取感兴趣的总事件进行实时检测。
通过上述步骤及时发现热点事件,聚类筛选出特征词簇来确定搜索方向,每个词簇代表一个大概的总事件,如图2所示,用户可以根据需要再选取一个词簇作为进一步检测,比如,图2中的武汉理工大学、研究生、王攀……代表一个搜索词簇,通过该搜索词簇再进行定向爬虫去搜索相关的数据集,可以快速准确的定位。
在一个可选的实施方式中,根据热度曲线选取符合预定要求的子事件作为待检测事件包括:根据热度曲线确定每个子事件的持续时间;在每个子事件的持续时间内按照预定要求更新每个子事件;将所有更新的子事件组成待检测事件。
现有技术中对事件定义是某个特定的时间和地点,发生的某一件确定的事情。但在社交网络中事件却具有传播过程,并且会随着时间推移不断演化。本发明实施例中的事件由多个子事件构成,因为事件从产生至消亡具有一个完整的生命周期,在生命周期内不断动态发展变化的一个过程,结合在线社交网络的特点,所以本发明实施例将事件划分为由若干引起人们热烈讨论的子事件组成的总事件。即,
Eventi={subeventi1,subeventi2,subeventi3,…,subeventin};
其中,Eventi表示第i个总事件,subeventik表示第i个总事件Eventi的第k个子事件。在线社交网络中,事件具有发生、发展、消亡整个生命周期,伴随着网民情绪的变化而发展;而子事件(子事件)就是某个具体时间和地点,该事件发生发展过程中,引起人们热烈讨论和情绪变化的某件事情。
通过对总事件与子事件的划分,在针对整个大的网络环境,可以实时采集在线社交网络中数据信息,对及时热点事件进行检测,并持续跟进该事件,对其子事件和相关用户情绪进行分析,从而形成子事件的时间序列。通过对多平台、多通道、多数据类型信息进行统一管理分析,及时发现热点,掌握舆情动向,对热点事件持续检测,全方面了解事件发展过程、网民情绪及公众舆论走向等信息,统一监管网络大环境,净化网络文化,维护社会安定。
如图5所示,在一个可选的实施方式中,根据热度曲线可以确定每个子事件的持续时间包括:将每个子事件的热度曲线的开始时间点作为其前一个子事件结束的时间点,每两个相邻的时间点之间的时间段是每个子事件的持续时间。
通过上述每个子事件的持续时间的划分方法准确的描述了事件的相互影响关系,一个子事件的消亡是另一个子事件的起始点,从而使得筛选检测结果更加准确。
在一个可选的实施方式中,在每个子事件的持续时间内按照预定要求更新每个子事件包括:在每个子事件的持续时间内获取子事件的评论转发数量和/或用户影响力;根据评论转发数量和/或用户影响力将每个子事件中的信息进行排序;根据排序结果选取符合预定要求的信息整合为一条信息作为更新后的子事件。例如,可以在每个子事件的持续时间内选取评论转发数量和/或用户影响力排名最高的五个信息,这五个信息是根据热度计算得到的,信息可能是微信朋友圈、微博文章、知乎帖子等等,然后将这五个信息提取出可以进行人工整合变成一条信息,把这条信息作为更新后的子事件。
通过上述方式筛选出每个事件段中最有可能的子事件信息,准确率更高,也更加细化了检测方法。
为了更加精确的绘制热度曲线,考虑事件中舆论风向和用户情绪对事件热度变化的影响,在一个可选的实施方式中,热度曲线通过以下至少之一获得:单位时间内信息数量、活跃用户数量、用户情绪转变量、意见领袖数量、意见领袖影响力。例如,热度曲线可以根据公式画出实时热度曲线,HeatofEventi=α*NoIi+β*NoUi+γ*ToEi+δ*NoOLi+ε*IPi,其中,α+β+γ+δ+ε=1,α≥0,β≥0,γ≥0,δ≥0,ε≥0,以小时为单位,NoIi代表将单位时间内信息数量、NoUi代表活跃用户数量、ToEi代表用户情绪转变量、NoOLi代表意见领袖数量,IPi代表影响力,HeatofEventi代表事件热度。
下面结合一个可选的实施方式对上述实施例进行说明:
B1.对初步检测出的感兴趣事件设置多个关键词(词簇),基于关键词定向爬虫,检索出相关在线社交网络事件数据集;
B2.采用特征投票区间(Voting Feature Interval,VFI)对有效信息中用户情绪进行简单正负分类,并画出用户情绪分布图;
B3.以小时为单位,将单位时间内信息数量、活跃用户数量、用户情绪转变量、意见领袖数量及其影响力综合考虑,作为事件热度,画出实时热度曲线;
B4.根据热度曲线,找出某i个event(总事件)中第k个subevent(子事件)发生时间及其持续讨论时间,以持续讨论时间内,评论转发数量及用户影响力作为单个信息的热度,返回第k个subevent的前3条热度最高信息,作为第k个subevent的初步摘要,再对这3条信息进行整理,概括总结第k个subevent信息,最后依次找出第i个总事件中的每一个子事件subevent,由子事件组成第i个event(总事件),也就检测到了我们所感兴趣的某个事件。
下面结合另一个可选的实施方式对上述实施例进行说明:
1)实时数据集:利用程序自动化爬取微博、知乎、微信公众号、今日头条、网易新闻、腾讯新闻、搜狐新闻、新浪新闻等社交平台实时数据信息,利用贝叶斯分类器筛选有效信息作为事件数据集;
2)总事件发现检测:根据特征词集聚类得到的词簇,选择某个感兴趣的总事件进行进一步的事件检测;
3)子事件(subevent)检测:对感兴趣的总事件利用事件热度-时间曲线,根据subevent的定义,分析用户情绪等影响因素,找出subevent发生时间、持续周期;利用单个信息热度计算,选择热度最高的4条信息作为subevent的摘要。
通过添加用户情绪作为子事件检测的重要影响因素,加强了对事件检测的力度,结合在线社交网络特点,对事件信息进行实时监测和发现,全面了解和认识事件发生发展过程及其重要节点,提高了事件监管力度,结合用户情绪的监控,节省了大量不必要的分析。
本发明实施例还提供了一种网络事件检测系统,该系统可以第一获取单元、聚类单元、第二获取单元、分类单元实现其功能。需要说明的是,本发明实施例的一种网络事件检测系统可以用于执行本发明实施例所提供的一种网络事件检测方法,本发明实施例的一种网络事件检测方法也可以通过本发明实施例所提供的一种网络事件检测系统来执行。图6是根据本发明实施例的一种网络事件检测系统的示意图。如图6所示,图6是根据本发明实施例的一种网络事件检测系统的结构图。一种网络事件检测系统包括:第一获取单元62,用于获取数据,其中,所述数据包含待检测事件;处理单元64,用于对所述数据进行分词处理得到特征词集;聚类单元66,用于对特征词集进行聚类得到聚类结果;第二获取单元68,用于根据所述聚类结果获取相对应的待检测事件的热度曲线,其中,所述热度曲线是根据用户情绪绘制的热度曲线,所述待检测事件由多个子事件所组成,所述热度曲线包含所述待检测事件中的所有子事件的热度曲线;分类单元610,用于根据所述热度曲线选取符合预定要求的子事件组成待检测事件。
在一个可选的实施方式中,第一获取单元包括:判断模块,用于判断数据的长度是否大于预定值;获取模块,用于在判断结果为大于预定值的情况下,通过爬虫技术获取数据。
在一个可选的实施方式中,聚类单元包括:聚类模块,用于通过层次聚类法对特征词集进行聚类得到聚类的特征词簇;第一处理模块,用于将特征词簇进行排序得到聚类结果。
在一个可选的实施方式中,分类单元包括:确定模块,用于根据热度曲线确定每个子事件的持续时间;更新模块,用于在每个子事件的持续时间内按照预定要求更新每个子事件;第二处理模块,用于将所有更新的子事件组成待检测事件。
本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述方法。
本发明实施例提供了一种处理器,处理器包括处理的程序,其中,在程序运行时控制处理器所在设备执行上述方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种网络事件检测方法,其特征在于,包括:
获取数据,其中,所述数据包含待检测事件;
对所述数据进行分词处理得到特征词集;
对所述特征词集进行聚类得到聚类结果;
根据所述聚类结果获取相对应的待检测事件的热度曲线,其中,所述热度曲线是根据用户情绪绘制的热度曲线,所述待检测事件由多个子事件所组成,所述热度曲线包含所述待检测事件中的所有子事件的热度曲线;
根据所述热度曲线选取符合预定要求的子事件组成待检测事件;
其中,对所述数据进行分词处理得到特征词集;对所述特征词集进行聚类得到聚类结果,包括:
对所述数据进行分词处理,获取词的关联用户U(u|wi)、词的文档频率dfi(d|wi)、词的社交行为SBi(sb|wi)和词的重点标注pohi(n|wi);
计算词的频度P(wi)=α*U(u|wi)+β*dfi(d|wi)+γ*SBi(sb|wi)+δ*pohi(n|wi),其中,α+β+γ+δ=1,α≥0,β≥0,γ≥0,δ≥0;
提取所述数据中频度大于预设值的词,形成特征词集;
根据所述特征词集中词的共现关系,利用自底向上凝聚的层次聚类方法将特征词分组构建共现图,形成特征词簇;
对特征词簇进行评分Score(ewci)=α*OL(ewci)+β*F(ewci)+γ*MBI(ewci)+δ*MN(ewci),其中,α+β+γ+δ=1,α≥0,β≥0,γ≥0,δ≥0,OL(ewci)表示该特征词簇相关意见领袖数量,F(ewci)表示该特征词簇的文档频率,MBI(ewci)表示该特征词簇影响力,MN(ewci)表示该特征词簇关联信息数量;
根据特征词簇的评分结果对特征词簇进行排序得到聚类结果;
所述根据所述聚类结果获取相对应的待检测事件的热度曲线,包括:
对聚类结果中的用户情绪进行正负分类,并画出用户情绪分布图;
以小时为单位,综合单位时间内的信息数量、活跃用户数量、用户情绪转变量、意见领袖数量及其影响力作为事件热度,画出相应的待检测事件的热度曲线。
2.根据权利要求1所述的方法,其特征在于,获取所述数据包括:
判断所述数据的长度是否大于预定值;
在判断结果为大于预定值的情况下,通过爬虫技术获取所述数据。
3.根据权利要求1至2任意一项所述的方法,其特征在于,根据所述热度曲线选取符合预定要求的子事件组成待检测事件包括:
根据所述热度曲线确定每个子事件的持续时间;
在每个子事件的持续时间内按照预定要求更新每个子事件;
将所有更新的子事件组成待检测事件。
4.根据权利要求3所述的方法,其特征在于,根据所述热度曲线确定每个子事件的持续时间包括:将每个子事件的热度曲线的开始时间点作为其前一个子事件结束的时间点,每两个相邻的时间点之间的时间段是每个子事件的持续时间。
5.根据权利要求3所述的方法,其特征在于,在每个子事件的持续时间内按照预定要求更新每个子事件包括:
在每个子事件的持续时间内获取子事件的评论转发数量和/或用户影响力;
根据评论转发数量和/或用户影响力将每个子事件中的信息进行排序;
根据排序结果选取符合预定要求的信息整合为一条信息作为更新后的子事件。
6.一种网络事件检测系统,其特征在于,包括:
第一获取单元,用于获取数据,其中,所述数据包含待检测事件;
处理单元,用于对所述数据进行分词处理得到特征词集;
聚类单元,用于对所述特征词集进行聚类得到聚类结果;
第二获取单元,用于根据所述聚类结果获取相对应的待检测事件的热度曲线,其中,所述热度曲线是根据用户情绪绘制的热度曲线,所述待检测事件由多个子事件所组成,所述热度曲线包含所述待检测事件中的所有子事件的热度曲线;
分类单元,用于根据所述热度曲线选取符合预定要求的子事件组成待检测事件;
其中,所述处理单元和聚类单元,具体用于:
对所述数据进行分词处理,获取词的关联用户U(u|wi)、词的文档频率dfi(d|wi)、词的社交行为SBi(sb|wi)和词的重点标注pohi(n|wi);
计算词的频度P(wi)=α*U(u|wi)+β*dfi(d|wi)+γ*SBi(sb|wi)+δ*pohi(n|wi),其中,α+β+γ+δ=1,α≥0,β≥0,γ≥0,δ≥0;
提取所述数据中频度大于预设值的词,形成特征词集;
根据所述特征词集中词的共现关系,利用自底向上凝聚的层次聚类方法将特征词分组构建共现图,形成特征词簇;
对特征词簇进行评分Score(ewci)=α*OL(ewci)+β*F(ewi)+γ*MBI(ewci)+δ*MN(ewci),其中,α+β+γ+δ=1,α≥0,β≥0,γ≥0,δ≥0,OL(ewci)表示该特征词簇相关意见领袖数量,F(ewci)表示该特征词簇的文档频率,MBI(ewci)表示该特征词簇影响力,MN(ewci)表示该特征词簇关联信息数量;
根据特征词簇的评分结果对特征词簇进行排序得到聚类结果;
所述第二获取单元具体用于:
对聚类结果中的用户情绪进行正负分类,并画出用户情绪分布图;
以小时为单位,综合单位时间内的信息数量、活跃用户数量、用户情绪转变量、意见领袖数量及其影响力作为事件热度,画出相应的待检测事件的热度曲线。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至5中任意一项所述的方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810450980.3A CN108733791B (zh) | 2018-05-11 | 2018-05-11 | 网络事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810450980.3A CN108733791B (zh) | 2018-05-11 | 2018-05-11 | 网络事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108733791A CN108733791A (zh) | 2018-11-02 |
CN108733791B true CN108733791B (zh) | 2020-11-20 |
Family
ID=63938231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810450980.3A Active CN108733791B (zh) | 2018-05-11 | 2018-05-11 | 网络事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108733791B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670095A (zh) * | 2018-11-19 | 2019-04-23 | 成都电科成研企业管理有限公司 | 一种基于自然语义的舆情相关度匹配方法 |
CN110399491A (zh) * | 2019-07-19 | 2019-11-01 | 电子科技大学 | 一种基于特征词共现图的微博事件演化分析方法 |
CN111414550A (zh) * | 2019-11-07 | 2020-07-14 | 成都国腾实业集团有限公司 | 基于灰色关联分析的网络舆情热度值定量识别方法 |
CN111222032B (zh) * | 2019-12-17 | 2024-04-30 | 中国平安人寿保险股份有限公司 | 舆情分析方法及相关设备 |
CN115499258B (zh) * | 2022-08-03 | 2023-10-03 | 深圳市宇创兴业科技有限公司 | 智能家居中控系统的控制方法、装置、介质及计算机设备 |
CN116542238B (zh) * | 2023-07-07 | 2024-03-15 | 和元达信息科技有限公司 | 一种基于小程序的事件热度趋势确定方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102194001A (zh) * | 2011-05-17 | 2011-09-21 | 杭州电子科技大学 | 网络舆情危机预警方法 |
CN102214241A (zh) * | 2011-07-05 | 2011-10-12 | 清华大学 | 一种基于图聚类的用户生成文本流中的突发话题检测方法 |
CN103294818A (zh) * | 2013-06-12 | 2013-09-11 | 北京航空航天大学 | 多信息融合的微博热点话题检测方法 |
CN104572977A (zh) * | 2014-12-31 | 2015-04-29 | 北京农业信息技术研究中心 | 一种农产品质量安全事件在线检测方法 |
CN104598629A (zh) * | 2015-02-05 | 2015-05-06 | 北京航空航天大学 | 基于流式图模型的社交网络突发事件检测方法 |
CN104933475A (zh) * | 2015-05-27 | 2015-09-23 | 国家计算机网络与信息安全管理中心 | 网络转发行为预测方法及装置 |
CN107273496A (zh) * | 2017-06-15 | 2017-10-20 | 淮海工学院 | 一种微博网络地域突发事件的检测方法 |
US9965460B1 (en) * | 2016-12-29 | 2018-05-08 | Konica Minolta Laboratory U.S.A., Inc. | Keyword extraction for relationship maps |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8572084B2 (en) * | 2009-07-28 | 2013-10-29 | Fti Consulting, Inc. | System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor |
CN102945290B (zh) * | 2012-12-03 | 2015-12-23 | 北京奇虎科技有限公司 | 微博热点话题挖掘装置及方法 |
CN103605658B (zh) * | 2013-10-14 | 2016-08-10 | 北京航空航天大学 | 一种基于文本情感分析的搜索引擎系统 |
CN104536956A (zh) * | 2014-07-23 | 2015-04-22 | 中国科学院计算技术研究所 | 一种基于微博平台的事件可视化方法及系统 |
CN104216954B (zh) * | 2014-08-20 | 2017-07-14 | 北京邮电大学 | 突发事件话题状态的预测装置及预测方法 |
-
2018
- 2018-05-11 CN CN201810450980.3A patent/CN108733791B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102194001A (zh) * | 2011-05-17 | 2011-09-21 | 杭州电子科技大学 | 网络舆情危机预警方法 |
CN102214241A (zh) * | 2011-07-05 | 2011-10-12 | 清华大学 | 一种基于图聚类的用户生成文本流中的突发话题检测方法 |
CN103294818A (zh) * | 2013-06-12 | 2013-09-11 | 北京航空航天大学 | 多信息融合的微博热点话题检测方法 |
CN104572977A (zh) * | 2014-12-31 | 2015-04-29 | 北京农业信息技术研究中心 | 一种农产品质量安全事件在线检测方法 |
CN104598629A (zh) * | 2015-02-05 | 2015-05-06 | 北京航空航天大学 | 基于流式图模型的社交网络突发事件检测方法 |
CN104933475A (zh) * | 2015-05-27 | 2015-09-23 | 国家计算机网络与信息安全管理中心 | 网络转发行为预测方法及装置 |
US9965460B1 (en) * | 2016-12-29 | 2018-05-08 | Konica Minolta Laboratory U.S.A., Inc. | Keyword extraction for relationship maps |
CN107273496A (zh) * | 2017-06-15 | 2017-10-20 | 淮海工学院 | 一种微博网络地域突发事件的检测方法 |
Non-Patent Citations (2)
Title |
---|
Understanding Popularity Evolution Patterns of Hot Topics Based on Time Series Features;Hu, Changjun等;《WEB TECHNOLOGIES AND APPLICATIONS, APWEB 2014, PT II》;20141231;第8710卷;第58-68页 * |
面向舆情的社交媒体文本倾向性分析;朱岩等;《信息安全研究》;20170930;第3卷(第9期);第781-794页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108733791A (zh) | 2018-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108733791B (zh) | 网络事件检测方法 | |
Keneshloo et al. | Predicting the popularity of news articles | |
Olteanu et al. | Crisislex: A lexicon for collecting and filtering microblogged communications in crises | |
CN104765733B (zh) | 一种社交网络事件分析的方法和装置 | |
CN109299271B (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
US9990368B2 (en) | System and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information | |
CN104809108B (zh) | 信息监测分析系统 | |
CN111782965A (zh) | 意图推荐方法、装置、设备及存储介质 | |
US20140304267A1 (en) | Suffix tree similarity measure for document clustering | |
CN107577759A (zh) | 用户评论自动推荐方法 | |
CN104573016A (zh) | 一种基于行业的垂直舆情分析系统及方法 | |
US7539934B2 (en) | Computer-implemented method, system, and program product for developing a content annotation lexicon | |
CN108885623A (zh) | 基于知识图谱的语意分析系统及方法 | |
CN104978332B (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
CN105069080B (zh) | 一种文献检索方法及系统 | |
WO2018237098A1 (en) | METHODS AND SYSTEMS FOR IDENTIFYING COORDINATED ACTIVITY MARKERS IN SOCIAL MEDIA MOVEMENTS | |
CN111091006A (zh) | 一种实体意图体系的建立方法、装置、设备和介质 | |
CN108984514A (zh) | 词语的获取方法及装置、存储介质、处理器 | |
Emmery et al. | Simple queries as distant labels for predicting gender on twitter | |
CN111984786A (zh) | 一种基于新闻信息的智能吹哨预警方法及服务器 | |
Liu et al. | Detecting collusive spamming activities in community question answering | |
CN114138968A (zh) | 一种网络热点的挖掘方法、装置、设备及存储介质 | |
Ramachandran et al. | Event detection from Twitter–a survey | |
Dey et al. | Literature survey on interplay of topics, information diffusion and connections on social networks | |
TW201640383A (zh) | 網路事件自動蒐集分析方法及系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |