CN104598629A - 基于流式图模型的社交网络突发事件检测方法 - Google Patents
基于流式图模型的社交网络突发事件检测方法 Download PDFInfo
- Publication number
- CN104598629A CN104598629A CN201510061279.9A CN201510061279A CN104598629A CN 104598629 A CN104598629 A CN 104598629A CN 201510061279 A CN201510061279 A CN 201510061279A CN 104598629 A CN104598629 A CN 104598629A
- Authority
- CN
- China
- Prior art keywords
- node
- occurrence
- burst
- limit
- hot word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000011218 segmentation Effects 0.000 claims abstract description 14
- 230000000694 effects Effects 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 15
- 230000002123 temporal effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 244000241257 Cucumis melo Species 0.000 description 1
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 1
- 244000082204 Phyllostachys viridis Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于流式图模型的社交网络突发事件检测方法,包括:依次对每个数据文本进行分词处理得到由每个数据文本中的关键词作为节点,关键词间的共现关系作为边的关键词共现图;根据到达当前检测时刻时关键图共现图中每条边每个到来时刻的出现次数以及每条边的每个到来时刻对应的衰减权重,确定每条边的边频率;根据与各邻节点间边的边频率确定各节点的节点活动频率;确定各节点的活动频率变化程度并根据活动频率变化程度确定突发热词节点,得到突发热词共现图;对突发热词共现图进行预设图聚类算法处理,得到各突发事件。基于流式图的关键词共现图进行突发热词检测,进而检测突发事件,保证了突发事件检测结果的准确实时。
Description
技术领域
本发明属于大数据处理技术领域,尤其是涉及一种基于流式图模型的社交网络突发事件检测方法。
背景技术
社交网络在人们的生活中扮演着越来越重要的角色,比如微博,国内最大的两大微博平台新浪和腾讯的注册人数早已超过5亿。CNNIC第33次中国互联网络发展状况调查统计报告截至2013年12月,我国微博用户规模为2.81亿,网民中微博使用率为45.5%。
对于突发事件或者说热点事件来说,微博的影响规模和传播速度超越了普通博客和传统的新闻媒体。2008年5月12日,中国四川汶川发生大地震,Twitter在约14时35分33秒披露首条消息。包括临武瓜农事件、校车超载事故,以及2014年4月起在全国产生巨大影响的“幼童香港小便事件”也是通过微博平台在社会人群中迅速传播,进而引起广泛讨论,微博已经成为不可小觑的舆论平台。
微博能够及时反映舆论情况,及时地从微博获取实时信息,判断突发事件,找到相关微博具有重大的意义。目前从大量微博中检测突发事件的方式多采用基于聚类的方法和主题模型的方法等,但是,现有的基于聚类的方法和主题模型的方法均需要事先指定事件的数量,而且没有很好的方法去估计该值,只能通过经验去设计,从而使得微博中突发事件的检测结果不佳。
发明内容
针对上述存在的问题,本发明提供一种基于流式图模型的社交网络突发事件检测方法,用以实现准确及时地检测出微博中突发事件的目的。
本发明提供了一种基于流式图模型的社交网络突发事件检测方法,包括:
依次获取待处理数据,所述待处理数据中包括至少一个数据文本;
依次对所述至少一个数据文本中的每个数据文本进行分词处理,得到由每个数据文本中包含的关键词作为节点,每个数据文本中的所述关键词间的共现关系作为边的关键词共现图,其中,所述共现关系是指所述关键词同时出现在同一个数据文本中,存在共现关系的关键词间都存在连接边;
根据到达当前检测时刻时所述关键图共现图中每条边每个到来时刻的出现次数以及所述每条边的每个到来时刻对应的衰减权重,确定当前检测时刻所述每条边的边频率;
确定所述关键词共现图中的每个节点的邻节点集合,并根据分别与所述邻节点集合中的每个邻节点间边的边频率,确定当前检测时刻所述每个节点的节点活动频率;
根据每个节点在不同检测时刻对应的节点活动频率,确定每个节点的活动频率变化程度;
确定所述关键词共现图中节点的活动频率变化程度大于预设程度阈值的节点为突发热词节点,与所述突发热词节点存在共现关系的节点为所述突发热词节点的共现词节点,得到由各突发热词节点和各突发热词节点分别对应的共现词节点,以及各突发热词节点与各突发热词节点分别对应的共现词节点间的边组成的突发热词共现图;
对所述突发热词共现图进行预设图聚类算法处理,得到各个聚类结果,每个聚类结果中包含的关键词节点构成一个突发事件。
本发明提供的基于流式图模型的社交网络突发事件检测方法,在对待处理的多个数据文本进行分词处理后,得到每个数据文本的共现关键词,各共现关键词间都具有连接关系,形成完全子图,通过对各个数据文本的共现关键词进行融合,得到由每个数据文本中的关键词作为节点,每个数据文本中的关键词间的共现关系作为边的关键词共现图。对该关键词共现图中的每条边按照到来时间越近具有越高的权重的原则进行衰减权重的确定,由于最近到来的边对于最近的突发事件更敏感,从而能够保证更为及时准确检测出突发事件。并且,根据关键词共现图中的每个关键词节点的节点活动频率的变化程度来确定关键词共现图中的突发热词节点,得到由各突发热词节点与其对应的各共现词节点组成的热词共现图,去除了关键词共现图中对于突发事件检测冗余一些关键词节点,使得依据该热词共现图进行图聚类处理以得到每个聚类结果对应的突发事件的检测结果更为准确,并且,通过上述图处理过程得到热词共现图,该热词共现图中的节点集合和边集合对于突发事件检测结果具有直接影响,从而可以直接依据该热词共现图直接进行图聚类划分得到检测结果。
附图说明
图1为本发明基于流式图模型的社交网络突发事件检测方法实施例一的流程图;
图2为实施例一中关键词共现图的示意图;
图3为实施例一中突发热词共现图的示意图;
图4为本发明基于流式图模型的社交网络突发事件检测方法实施例二的流程图。
具体实施方式
图1为本发明基于流式图模型的社交网络突发事件检测方法实施例一的流程图,如图1所示,该方法包括:
步骤101、获取待处理数据,所述待处理数据中包括至少一个数据文本;
步骤102、分别对所述至少一个数据文本中的每个数据文本进行分词处理,得到由每个数据文本中包含的关键词作为节点,每个数据文本中的所述关键词间的共现关系作为边的关键词共现图,其中,所述共现关系是指所述关键词同时出现在同一个数据文本中,存在共现关系的关键词间都存在连接边;
本实施例中的所述待处理数据比如可以是微博、论坛等社交网络中的数据,尤其是指微博数据。值得说明的是,本实施例中主要是针对文本类型的数据信息进行处理,称之为数据文本。微博数据具有数据质量低、文本短、用语非正式、非事件噪音文本多等特点。为了能够准确检测出众多微博数据文本中所包含的突发事件,即在很短时间段内被广泛讨论、传播的热点事件,首先,需要从各个数据文本中确定共现关键词,其中,共现关键词是指同时出现在同一个数据文本中的关键词,即同一个数据文本中的关键词存在共现关系。
本实施例中,社会网络比如微博中的一个事件被表示成一组紧密相关的关键词集合。但是实际上,尽管描述一件事件的数据文本多种多样,但是其核心的关键词会有一致的倾向。对于突发事件来说,其核心关键词在使用量上会有突发性特征。本实施例中使用关键词与关键词的共现关系,建模关键词与关键词之间的关联关系。
具体来说,对待处理数据中包含的每个数据文本进行分词处理,比如采用现有的NLPIR汉语分词系统对每个数据文件进行分词处理,从而将每个数据文本按照词语为单位进行划分,得到每个数据文本中包含的各个词语。每个数据文本中包含的词语中不但包含一些具有实体含义的词,比如名称、动词,还具有一些不具有具体含义的词,比如代词、连词等。因此,本实施例中,需要从分词处理的结果中选择那些具有实体含义的比如名称、动词作为关键词。
具体地,在构建关键词共现图时,将数据文本中的关键词作为图中的节点,它们之间的共现关系作为边。每当一个数据文本到来时,从中提取一个无权重无向完全图,并且提取其中的边的序列,这些不断产生的边的序列可以被视为流式图数据,从而随着时间的变化,随着数据文本的依次处理,得到了由每个数据文本中的关键词作为节点,每个数据文本中的关键词间的共现关系作为边的无向时态图。图2为实施例一中关键词共现图的示意图,如图2所示,图2中左边的图为分词处理结果的示意图,分词处理结果中示意出了三个数据文本的分词处理结果,即数据文本1的关键词为第一行中的A、C、D,数据文本2的关键词为第二行中的A、B、D,数据文本3的关键词为第三行中的A、B、C。图2中右边的图为与左边的图对应的关键词共现图,比如对于数据文件1来说,关键词A、C、D同时出现在数据文本1中,在A、C、D构成一个三角形的连接关系,同理数据文本2和数据文本3。值得说明的是,比如数据文本1和数据文本2,其中A、D间的连接边均有出现,但是图2中右图仅示意了这两节点间的一条无权边,因此,图2仅是边结构的简单示意。
步骤103、根据到达当前检测时刻时所述关键图共现图中每条边每个到来时刻的出现次数以及所述每条边的每个到来时刻对应的衰减权重,确定当前检测时刻所述每条边的边频率。
本实施例中,定义关键词共现图为G(t)=(N(t),A(t)),它是一个无向时态图,即它的节点、边和边的权重会随着时间而变化。其中,N(t)是流式图数据中节点的集合,A(T)是边的序列。边序列当中会包含重复,因为可能会在不同的或者相同的时刻接收到重复出现的边数据。随着时间的变化,该图G(t)中的节点和边会发生更新,而且,两个具有边连接关系的节点对间的连接边很可能出现多次,即在不同的时刻多次出现或者在相同的时刻多次出现,而对于突发事件检测来说,两个节点对间的该边的到来时刻具有不同的影响,距离检测时刻越近的到来时刻具有更为敏感或者说重要的影响。
因此,为了检测突发事件,需要对最近到来的边赋以更大的权重,否则其对最近的突发状况将变的不敏感。为了描述这种时态上的特性,采用衰减因子λ来控制边的权重衰减的速度。本实施例中,采用指数衰减模型来确定图G(t)中每条边的衰减权重,这种平滑的衰减可以避免将一个突发特征分割,从而导致其检测失败。
首先,本实施例中引入如下的边的衰减权重的定义:
在当前检测时刻t,时刻ts到来的边的权重为其中,λ为衰减因子,衰减的半衰期为1/λ,0<λ<1。
其次,基于上述边的衰减权重的定义,本实施例中还引入如下的边的边频率的定义:
定义边(i,j)的边频率为在当前检测时刻t时边(i,j)的权重。
由于在图G(t)中,边序列A(t)中包含了边(i,j)的多个实例,即在不同或相同时刻该边(i,j)出现了多次,而且边的衰减权重的定义只是针对某个ts时刻时对应的边(i,j)的衰减权重,并未涉及到达当前检测时刻t时边(i,j)的所有到来时刻。因此,根据边频率的定义,对于图G(t)中的任一一条边(i,j)来说,需要根据边(i,j)的每次到来时刻对应的衰减权重以及每个到来时刻边(i,j)的出现次数来确定边(i,j)的边频率。
具体地,确定在当前检测时刻t,边(i,j)的边频率F(i,j,t)为:
其中,T(i,j,k)为边(i,j)到来的第k个到来时刻,N(i,j,k)为边(i,j)在第k个到来时刻中出现过的次数,边(i,j)为所述关键图共现图中的任一条边。
另外,在上述定义的基础上,在实际应用中,对于图G(t)来说,随着时间的变化,仅当有新的边到来的时候,图中的数据即边或节点才会更新。可以理解的是,对于图中的节点i和节点j,如果包含他们的边没有到来,则他们的统计数据不需要更新。因此,可以基于以下的推论来实现简单地统计节点i和节点j间的边(i,j)的边频率:
假设上一次边(i,j)到来的时间是t’,对于F(i,j,t)有如下的推论:如果边(i,j)在(t’,t)这段时间内没有到来,则有:
F(i,j,t)=F(i,j,t’)×2-λ(t-t,).
在更新的过程中,首先使用上述推论使得所有的统计数据都更新到现在的时间t,从一个随时间衰减的角度来说,随着新的边数据到来而产生的更新,可以简单的使用+1操作更新到F(`)值中。该操作的计算复杂度与边的数量成线性关系。对于每一个节点i,该更新操作可以被独立且分布式地处理,只要节点i可以接收到它自己的数据。该更新操作可以使用连续流式数据处理平台、离散流式数据处理平台和离线数据处理平台中的任一种处理平台进行处理,比如流行的处理平台Storm或者Spark或者Spark Streaming来实现。
通过以上处理,得到了一个基于关键词的共现关系的时态图,边频率衡量关键词之间的关联关系紧密程度,节点活动频率衡量关键词的活动程度,也即热度。一个关键词的上下文被很好的保存在其邻节点集合S(i,t)当中。对每个节点i,有三个统计信息需要维护:(i)包含节点i的边上一次出现的时间L(i);(ii)S(i,t)中的节点;(iii)节点i到其邻节点集合S(i,t)中边的边频率值的序列F(i,j,L(i))。该统计信息维护所占用的空间与图中节点度的和成正比。关键词共现图通常是稀疏的。|S(i,t)|通常是远远小于网络中节点数量的,因此该信息维护方法是紧密且高效的,特别是在流式处理的场景下。
步骤104、确定所述关键词共现图中的每个节点的邻节点集合,并根据分别与所述邻节点集合中的每个邻节点间边的边频率,确定当前检测时刻所述每个节点的节点活动频率。
本实施例中,基于边频率,还定义了节点的节点活动频率,即对于任意节点i来说,假设当前检测时间t时其邻节点集合为S(i,t),那么节点i的节点活动频率定义为与该节点i相连的所有边的边频率之和。因此,针对关键词共现图中的每个节点,首先从图中确定每个节点的邻节点集合,进而根据分别与其邻节点集合中的每个邻节点间边的边频率,确定当前检测时刻每个节点的节点活动频率。具体地,确定节点i在当前检测时刻t的节点活动频率α(i,t)为:
其中,S(i,t)为节点i的邻节点集合,S(i,t)中节点的序列号为
步骤105、根据每个节点在不同检测时刻对应的节点活动频率,确定每个节点的活动频率变化程度;
步骤106、确定所述关键词共现图中节点的活动频率变化程度大于预设程度阈值的节点为突发热词节点,与所述突发热词节点存在共现关系的节点为所述突发热词节点的共现词节点,得到由各突发热词节点和各突发热词节点分别对应的共现词节点,以及各突发热词节点与各突发热词节点分别对应的共现词节点间的边组成的突发热词共现图。
本实施例中,为了最终实现突发事件的检测,首先需要在关键词共现图G(t)中检测出突发热词。突发热词检测即是检测出节点活动频率具有突出变化的节点。节点活动频率突然增加的节点,其相关的边也会体现出边频率突发的特征。
本实施例中,可以根据每个节点在不同检测时刻对应的节点活动频率,确定每个节点的活动频率变化程度,从而,如果某节点的活动频率变化程度大于预设程度阈值,则该节点为突发热词节点。优选的,由于节点的活动频率变化在半衰期跨度上最为显著,因此本实施例中定义如下的节点的半衰期活动频率变化:
节点i的半衰期活动频率变化为:HA(i,t,λ)=α(i,t)-α(i,t-1/λ)。
值得说明的是,根据上式确定的节点i的半衰期活动频率变化是一个变化值序列,即半衰期活动频率变化序列HA(i,t,λ)由当前检测时刻t依次为不同的时间时对应的各半衰期活动频率变化值组成,即t依次取不同的时间点时对应的各变化值。
进而,根据节点i的半衰期活动频率变化序列HA(i,t,λ)确定节点i的活动频率变化程度ZValue为:
其中,μA(i,t,λ)为半衰期活动频率变化序列HA(i,t,λ)的均值,σA(i,t,λ)为半衰期活动频率变化序列HA(i,t,λ)的标准差。
从而,如果节点i的活动频率变化程度大于预设程度阈值比如为3,则该节点i为突发热词节点,与该突发热词节点i存在共现关系的节点为突发热词节点i的共现词节点。也就是说,在图G(t)中,针对图中的每个关键词节点,都进行上述的活动频率变化程度比较处理,得到整个图G(t)中存在的所有突发热词节点,每个突发热词节点在图G(t)中相关联的关键词节点即与其具有连接边的关键词节点为该突发热词节点的共现词节点。
从而,从关键词共现图G(t)中得到由各突发热词节点和各突发热词节点分别对应的共现词节点作为节点集合,由各突发热词节点与各突发热词节点分别对应的共现词节点间的边作为边集合的突发热词共现图Gk(t)。如图3所示,图3为实施例一中突发热词共现图的示意图,该图3中的举例是基于图2中的关键词共现图。图3中示出的是节点A为突发热词,节点B、C、D分别是突发热词节点A的共现词节点。
通过上述处理,去除了关键词共现图G(t)中对突发事件检测冗余的关键词节点,将对突发事件检测具有重要意义的突发热词以及与突发热词具有高度相关性的共现词检测出来,以便于进行后续的突发事件检测。
步骤107、对所述突发热词共现图进行预设图聚类算法处理,得到各个聚类结果,每个聚类结果中包含的关键词节点构成一个突发事件。
本实施例中,可以采用图聚类处理算法来对突发热词共现图Gk(t)进行聚类处理,以得到与每个聚类结果对应的突发事件,比如模块(modularity)聚类算法。
本实施例中,待处理的多个微博数据文本进行分词处理后,得到每个微博数据文本的共现关键词,各共现关键词间都具有连接关系,通过对各个数据文本的共现关键词进行融合,得到由每个数据文本中的关键词作为节点,每个数据文本中的关键词间的共现关系作为边的关键词共现图。该关键词共现图为一个无向时态图,是一个流式图。对该关键词共现图中的每条边按照到来时间越近具有越高的权重的原则进行衰减权重的确定,由于最近到来的边对于最近的突发事件更敏感,从而能够保证更为及时准确检测出突发事件。并且,根据关键词共现图中的每个关键词节点的节点活动频率的变化程度来确定关键词共现图中的突发热词节点,得到由各突发热词节点与其对应的各共现词节点组成的热词共现图,去除了关键词共现图中对于突发事件检测冗余一些关键词节点,使得依据该热词共现图进行图聚类处理以得到每个聚类结果对应的突发事件的检测结果更为准确。
图2为本发明健康状况分析方法实施例二的流程图,如图2所示,在图1所示实施例的基础上,在步骤107之前,还包括如下步骤:
步骤201、对所述突发热词共现图进行过滤去噪处理,得到去噪后的突发热词共现图。
其中,所述过滤去噪处理包括:
过滤掉所述突发热词共现图中边频率小于预设边频率阈值的边;
过滤掉所述突发热词共现图中邻节点数不大于预设数量阈值的节点,所述节点包括所述突发热词共现图中的突发热词节点和共现词节点。
为了得到关联关系更强的突发事件检测结果,在进行突发事件检测的步骤之前,还可以采用噪音过滤方式在每个检测周期对突发热词共现图Gk(t)进行去噪处理。具体来说,对于突发热词共现图Gk(t)中的每个突发热词节点,其维护有其突发程度信息即ZValue的值,当前检测时间t,共现词节点集合以及与每个共现词节点间的边的边频率值。因此,基于这些信息,一方面,过滤掉突发热词共现图Gk(t)中边频率小于预设边频率阈值的边。即针对每个突发热词节点,通过其与对应的共现词节点集合中的每个共现词节点间边的边频率的值与预设边频率阈值进行比较,去掉小于预设边频率阈值的边。另一方面,过滤掉突发热词共现图Gk(t)中邻节点数不大于预设数量阈值比如1的节点,所述节点包括所述突发热词共现图Gk(t)中的突发热词节点和共现词节点。被删除的突发热词节点不和第三个节点共同出现,可以认为它不具有语义上的紧密型,从而不能代表一个事件;被删除的共现词节点则代表了与其关联的突发热词节点在其他语境上下文中的使用方法。通常情况下,去噪会去掉Gk(t)中至少一半的节点。经过去噪处理,突发热词共现图Gk(t)变为一个有向带权图Ge(t)=(Ve(t),Ee(t)),节点集合Ve(t)包含了去噪处理后的所有节点,边集合Ee(t)中的边由突发热词节点指向其对应的共现词节点,每条边的权重为对应的边频率值。
从而,图1所示实施例中的步骤107中图聚类处理的对象为上述去噪后的突发热词共现图Ge(t)。
本实施例中,对突发热词共现图进行上述去噪处理,有效过滤了其中的冗余节点和冗余边,从而有利于提高突发事件检测结果的准确性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种基于流式图模型的社交网络突发事件检测方法,其特征在于,包括:
依次获取待处理数据,所述待处理数据中包括至少一个数据文本;
依次对所述至少一个数据文本中的每个数据文本进行分词处理,得到由每个数据文本中包含的关键词作为节点,每个数据文本中的所述关键词间的共现关系作为边的关键词共现图,其中,所述共现关系是指所述关键词同时出现在同一个数据文本中,存在共现关系的关键词间都存在连接边;
根据到达当前检测时刻时所述关键图共现图中每条边每个到来时刻的出现次数以及所述每条边的每个到来时刻对应的衰减权重,确定当前检测时刻所述每条边的边频率;
确定所述关键词共现图中的每个节点的邻节点集合,并根据分别与所述邻节点集合中的每个邻节点间边的边频率,确定当前检测时刻所述每个节点的节点活动频率;
根据每个节点在不同检测时刻对应的节点活动频率,确定每个节点的活动频率变化程度;
确定所述关键词共现图中节点的活动频率变化程度大于预设程度阈值的节点为突发热词节点,与所述突发热词节点存在共现关系的节点为所述突发热词节点的共现词节点,得到由各突发热词节点和各突发热词节点分别对应的共现词节点,以及各突发热词节点与各突发热词节点分别对应的共现词节点间的边组成的突发热词共现图;
对所述突发热词共现图进行预设图聚类算法处理,得到各个聚类结果,每个聚类结果中包含的关键词节点构成一个突发事件。
2.根据权利要求1所述的方法,其特征在于,所述根据到达当前检测时刻时所述关键图共现图中每条边每个到来时刻的出现次数以及所述每条边的每个到来时刻对应的衰减权重,确定当前检测时刻所述每条边的边频率之前,还包括:
根据如下定义确定在当前检测时刻t时,所述每条边的每个到来时刻对应的衰减权重:
在当前检测时刻t时,时间ts到来的边的衰减权重为:其中,λ为衰减因子,衰减的半衰期为1/λ,0<λ<1。
3.根据权利要求2所述的方法,其特征在于,所述根据到达当前检测时刻时所述关键图共现图中每条边每个到来时刻的出现次数以及所述每条边的每个到来时刻对应的衰减权重,确定当前检测时刻所述每条边的边频率,包括:
确定在当前检测时刻t,边(i,j)的边频率F(i,j,t)为:
其中,T(i,j,k)为边(i,j)到来的第k个到来时刻,N(i,j,k)为边(i,j)在第k个到来时刻中出现过的次数,边(i,j)为所述关键图共现图中的任一条边。
4.根据权利要求3所述的方法,其特征在于,所述确定所述关键词共现图中的每个节点的邻节点集合,并根据分别与所述邻节点集合中的每个邻节点间边的边频率,确定当前检测时刻所述每个节点的节点活动频率,包括:
确定节点i在当前检测时刻t的节点活动频率α(i,t)为:
其中,S(i,t)为节点i的邻节点集合,S(i,t)中节点的序列号为
5.根据权利要求4所述的方法,其特征在于,所述根据每个节点在不同检测时刻对应的节点活动频率,确定每个节点的活动频率变化程度,包括:
根据如下公式确定节点i的半衰期活动频率变化序列HA(i,t,λ):
HA(i,t,λ)=α(i,t)-α(i,t-1/λ);
其中,半衰期活动频率变化序列HA(i,t,λ)由当前检测时刻t依次为不同的时间时对应的各半衰期活动频率变化值组成;
根据节点i的半衰期活动频率变化序列HA(i,t,λ)确定节点i的活动频率变化程度ZValue为:
其中,μA(i,t,λ)为半衰期活动频率变化序列HA(i,t,λ)的均值,σA(i,t,λ)为半衰期活动频率变化序列HA(i,t,λ)的标准差。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述对所述突发热词共现图进行预设图聚类算法处理之前,还包括:
对所述突发热词共现图进行过滤去噪处理,得到去噪后的突发热词共现图,其中,所述过滤去噪处理包括:
过滤掉所述突发热词共现图中边频率小于预设边频率阈值的边;
过滤掉所述突发热词共现图中邻节点数不大于预设数量阈值的节点,所述节点包括所述突发热词共现图中的突发热词节点和共现词节点。
7.根据权利要求6所述的方法,其特征在于,所述去噪后的突发热词共现图为有向带权图,其中,每条边的方向由对应的突发热词节点指向对应的共现词节点,每条边的权重为对应的边频率值。
8.根据权利要求1至5中任一项所述的方法,其特征在于,采用连续流式数据处理平台、离散流式数据处理平台和离线数据处理平台中的任一种处理平台进行所述关键词共现图中的每个节点的节点活动频率计算处理;
其中,所述连续流式数据处理平台包括Storm处理平台;所述离散流式数据处理平台包括Spark Streaming处理平台;所述离线数据处理平台包括Spark处理平台。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510061279.9A CN104598629B (zh) | 2015-02-05 | 2015-02-05 | 基于流式图模型的社交网络突发事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510061279.9A CN104598629B (zh) | 2015-02-05 | 2015-02-05 | 基于流式图模型的社交网络突发事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104598629A true CN104598629A (zh) | 2015-05-06 |
CN104598629B CN104598629B (zh) | 2017-11-03 |
Family
ID=53124414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510061279.9A Active CN104598629B (zh) | 2015-02-05 | 2015-02-05 | 基于流式图模型的社交网络突发事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104598629B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740466A (zh) * | 2016-03-04 | 2016-07-06 | 百度在线网络技术(北京)有限公司 | 一种挖掘热点概念之间关联关系的方法和装置 |
CN106560824A (zh) * | 2015-09-30 | 2017-04-12 | 中兴通讯股份有限公司 | 事件检测方法、装置和系统 |
CN107133271A (zh) * | 2017-04-01 | 2017-09-05 | 上海半坡网络技术有限公司 | 语义脑图实时表达系统及其操作方法 |
CN108733791A (zh) * | 2018-05-11 | 2018-11-02 | 北京科技大学 | 网络事件检测方法 |
CN108875786A (zh) * | 2018-05-23 | 2018-11-23 | 北京化工大学 | 基于Storm的食品数据并行计算一致性问题的优化方法 |
CN109145114A (zh) * | 2018-08-29 | 2019-01-04 | 电子科技大学 | 基于Kleinberg在线状态机的社交网络事件检测方法 |
CN109753797A (zh) * | 2018-12-10 | 2019-05-14 | 中国科学院计算技术研究所 | 针对流式图的密集子图检测方法及系统 |
CN109903176A (zh) * | 2019-02-03 | 2019-06-18 | 内蒙古工业大学 | 一种基于流式云平台的实时舆情分析方法 |
CN110245135A (zh) * | 2019-05-05 | 2019-09-17 | 华中科技大学 | 一种基于numa架构的大规模流式图数据更新方法 |
CN111737555A (zh) * | 2020-06-18 | 2020-10-02 | 苏州朗动网络科技有限公司 | 热点关键词的选取方法、设备和存储介质 |
CN113643077A (zh) * | 2021-10-14 | 2021-11-12 | 北京百炼智能科技有限公司 | 一种标书标的物预测处理方法和系统 |
CN113688203A (zh) * | 2021-08-12 | 2021-11-23 | 北京航空航天大学 | 一种基于可迁移异构图的多语言事件检测方法 |
CN113763014A (zh) * | 2021-01-05 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 物品共现关系确定方法和装置及判定模型获得方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090327279A1 (en) * | 2008-06-25 | 2009-12-31 | International Business Machines Corporation | Apparatus and method for supporting document data search |
CN104182504A (zh) * | 2014-08-18 | 2014-12-03 | 合肥工业大学 | 一种新闻事件的动态跟踪和总结算法 |
-
2015
- 2015-02-05 CN CN201510061279.9A patent/CN104598629B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090327279A1 (en) * | 2008-06-25 | 2009-12-31 | International Business Machines Corporation | Apparatus and method for supporting document data search |
CN104182504A (zh) * | 2014-08-18 | 2014-12-03 | 合肥工业大学 | 一种新闻事件的动态跟踪和总结算法 |
Non-Patent Citations (1)
Title |
---|
WEIREN YU ETC.: "On Anomalous Hotspot Discovery in Graph Streams", 《2013 IEEE 13TH INTERNATIONAL CONFERENCE ON DATA MINING》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106560824A (zh) * | 2015-09-30 | 2017-04-12 | 中兴通讯股份有限公司 | 事件检测方法、装置和系统 |
CN105740466A (zh) * | 2016-03-04 | 2016-07-06 | 百度在线网络技术(北京)有限公司 | 一种挖掘热点概念之间关联关系的方法和装置 |
CN107133271A (zh) * | 2017-04-01 | 2017-09-05 | 上海半坡网络技术有限公司 | 语义脑图实时表达系统及其操作方法 |
WO2018177411A1 (zh) * | 2017-04-01 | 2018-10-04 | 上海半坡网络技术有限公司 | 语义脑图实时表达系统及其操作方法 |
CN107133271B (zh) * | 2017-04-01 | 2021-04-06 | 上海半坡网络技术有限公司 | 语义脑图实时表达系统及其操作方法 |
US10970489B2 (en) | 2017-04-01 | 2021-04-06 | Shanghai Banpo Network Technologies Ltd. | System for real-time expression of semantic mind map, and operation method therefor |
CN108733791B (zh) * | 2018-05-11 | 2020-11-20 | 北京科技大学 | 网络事件检测方法 |
CN108733791A (zh) * | 2018-05-11 | 2018-11-02 | 北京科技大学 | 网络事件检测方法 |
CN108875786B (zh) * | 2018-05-23 | 2021-04-09 | 北京化工大学 | 基于Storm的食品数据并行计算一致性问题的优化方法 |
CN108875786A (zh) * | 2018-05-23 | 2018-11-23 | 北京化工大学 | 基于Storm的食品数据并行计算一致性问题的优化方法 |
CN109145114A (zh) * | 2018-08-29 | 2019-01-04 | 电子科技大学 | 基于Kleinberg在线状态机的社交网络事件检测方法 |
CN109145114B (zh) * | 2018-08-29 | 2021-08-03 | 电子科技大学 | 基于Kleinberg在线状态机的社交网络事件检测方法 |
CN109753797B (zh) * | 2018-12-10 | 2020-11-03 | 中国科学院计算技术研究所 | 针对流式图的密集子图检测方法及系统 |
CN109753797A (zh) * | 2018-12-10 | 2019-05-14 | 中国科学院计算技术研究所 | 针对流式图的密集子图检测方法及系统 |
CN109903176A (zh) * | 2019-02-03 | 2019-06-18 | 内蒙古工业大学 | 一种基于流式云平台的实时舆情分析方法 |
CN110245135A (zh) * | 2019-05-05 | 2019-09-17 | 华中科技大学 | 一种基于numa架构的大规模流式图数据更新方法 |
CN110245135B (zh) * | 2019-05-05 | 2021-05-18 | 华中科技大学 | 一种基于numa架构的大规模流式图数据更新方法 |
CN111737555A (zh) * | 2020-06-18 | 2020-10-02 | 苏州朗动网络科技有限公司 | 热点关键词的选取方法、设备和存储介质 |
CN113763014A (zh) * | 2021-01-05 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 物品共现关系确定方法和装置及判定模型获得方法和装置 |
CN113688203A (zh) * | 2021-08-12 | 2021-11-23 | 北京航空航天大学 | 一种基于可迁移异构图的多语言事件检测方法 |
CN113688203B (zh) * | 2021-08-12 | 2023-07-28 | 北京航空航天大学 | 一种基于可迁移异构图的多语言事件检测方法 |
CN113643077A (zh) * | 2021-10-14 | 2021-11-12 | 北京百炼智能科技有限公司 | 一种标书标的物预测处理方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104598629B (zh) | 2017-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104598629A (zh) | 基于流式图模型的社交网络突发事件检测方法 | |
CN104615717A (zh) | 社交网络突发事件的多维度评估方法 | |
US9817893B2 (en) | Tracking changes in user-generated textual content on social media computing platforms | |
KR101732819B1 (ko) | 빅데이터 기반 재난 예측 및 감지 플랫폼 시스템과 그 방법 | |
Zou et al. | Application of finite mixture models for analysing freeway incident clearance time | |
CN104216954A (zh) | 突发事件话题状态的预测装置及预测方法 | |
Alsaedi et al. | Arabic event detection in social media | |
CN108399241B (zh) | 一种基于多类特征融合的新兴热点话题检测系统 | |
CN102289487A (zh) | 基于主题模型的网络突发热点事件检测方法 | |
CN104166726B (zh) | 一种面向微博文本流的突发关键词检测方法 | |
CN108549647A (zh) | 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法 | |
CN104615718A (zh) | 社交网络突发事件的层次分析方法 | |
CN113139052B (zh) | 基于图神经网络特征聚合的谣言检测方法及装置 | |
CN106294333A (zh) | 一种微博突发话题检测方法及装置 | |
Alsaedi et al. | A combined classification-clustering framework for identifying disruptive events | |
Sasaki et al. | Feasibility study on detection of transportation information exploiting Twitter as a sensor | |
Apostol et al. | ContCommRTD: A distributed content-based misinformation-aware community detection system for real-time disaster reporting | |
CN103853848A (zh) | 一种社交监测子网构建的方法及装置 | |
Zhou et al. | Classification of microblogs for support emergency responses: Case study Yushu earthquake in China | |
CN108153914B (zh) | 一种基于感知最大化的网络突发热点的感知方法 | |
CN115514627A (zh) | 一种故障根因定位方法、装置、电子设备及可读存储介质 | |
CN113343041B (zh) | 基于图模型表示学习的消息回复关系判断系统 | |
Song et al. | A model of consistent node types in signed directed social networks | |
Zhang et al. | A novel method for online bursty event detection on Twitter | |
CN113157993A (zh) | 一种基于时序图极化分析的网络水军行为预警模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |