CN105335476A - 一种热点事件分类方法及装置 - Google Patents

一种热点事件分类方法及装置 Download PDF

Info

Publication number
CN105335476A
CN105335476A CN201510645347.6A CN201510645347A CN105335476A CN 105335476 A CN105335476 A CN 105335476A CN 201510645347 A CN201510645347 A CN 201510645347A CN 105335476 A CN105335476 A CN 105335476A
Authority
CN
China
Prior art keywords
focus incident
cluster
setting
time
focus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510645347.6A
Other languages
English (en)
Other versions
CN105335476B (zh
Inventor
牛凯
黄家坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201510645347.6A priority Critical patent/CN105335476B/zh
Publication of CN105335476A publication Critical patent/CN105335476A/zh
Application granted granted Critical
Publication of CN105335476B publication Critical patent/CN105335476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明实施例提供了一种热点事件分类的方法及装置,该方法中采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量;根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件,根据每个中心点对应的热点事件对待分类的热点事件进行分类。由于本发明实施例中通过接收待分类的热点事件,确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离,将所述待分类的热点事件划分到距离的最小值对应的聚类中,实现了热点事件的分类。

Description

一种热点事件分类方法及装置
技术领域
本发明涉及数据挖掘的计算机应用技术领域,特别涉及一种热点事件分类方法及装置。
背景技术
互联网在最近十多年经历了一个飞速发展的时期,并成为超越报纸、广播和电视三大传统媒体的新媒体。互联网的开放性使其成为人们获取信息的重要渠道,然而互联网每天都会产生海量的信息数据,如何从这些海量数据中提取有用的关键信息已经成为近年来研究的热点。
网络由于其开放性、实时性和便捷性而成为新媒体的核心。然而,网络用户量庞大,每天会产生数以亿计的数据,其中充斥着广告、炒作等虚假信息,从这些数据中发现热点事件,并将热点事件分类,既能方便人们获取重要信息,同时也能帮助政府进行舆论监控和突发事件检测。
而现有技术中,缺少一种热点事件分类的方法。
发明内容
本发明实施例的目的是提供一种热点事件分类方法及装置,实现对热点事件的分类。
为达到上述目的,本发明实施例公开了一种热点事件分类方法,包括:
接收待分类的热点事件;
确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离;
将所述待分类的热点事件划分到该距离的最小值对应的聚类中,其中根据以下方法,确定每个聚类的中心点对应的热点事件:采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量;根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件。
可选的,所述确定该聚类的中心点对应的热点事件之后,所述方法还包括:
针对每个聚类的中心点对应的热点事件,根据如下公式对该中心点对应的热点事件在设定时间长度内的转发数量或评论数量进行调整:
Δ B ( n + 1 ) = U ( n ) · Σ t = n b n ( Δ B ( t ) + S ( t ) + G ( t ) ) · f ( n + 1 - t ) + ϵ
其中,ΔB(t)为设定时间长度内调整后的时间点t的转发量,U(n)为该热点事件在设定时间长度内的当前时间点n时,在网络中未传播到的用户的个数,ε为采集到的热点事件中包含的噪声所对应的广告事件和个人事件的数量,S(t)根据以下公式确定:
S ( t ) = 0 ( t ≠ n b ) S b ( t = n b )
其中,nb为该热点事件在设定时间长度内传播到预设的意见领袖的时间点;
G(t)根据以下公式确定:
G ( t ) = a · e - w ( t - t p )
其中,a为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值时的幅值,w为该热点事件在设定时间长度内从转发量或者评论数量出现第一峰值到第二峰值的时间长度,tp为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值的时间点;
f(τ)根据以下公式确定:
f(τ)=β*τ-1.5
其中β为热点事件传播过程中的传播系数,τ为传播过程中的每个时间点。
可选的,所述根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中之前,所述方法包括:
针对每个热点事件,判断该热点事件的平均时间转发量R和意见领袖占有率D是否都大于相应的平均时间转发量阈值tR和意见领袖占有率阈值tD
如果否,则删除该热点事件,如果是,则进行后续对该热点事件进行聚类的过程,其中根据如下公式确定平均时间转发量R和意见领袖占有率D:
R ‾ = R t T
D = V b V t
为平均时间转发量,D为意见领袖占有率,Rt为该热点事件的总转发量,T为设定的时间长度,Vb为该热点事件传播过程中转发该热点事件的意见领袖的个数,Vt为该热点事件传播过程中转发该热点事件的用户的个数。
可选的,所述确定该聚类的中心点对应的热点事件包括:
根据属于类别Ck的所有热点事件xi,与中心点对应的热点事件μk的距离d(xik)的和为最小,确定该聚类的中心点对应的热点事件其中xi为属于类别Ck的所有热点事件,μk为中心点对应的热点事件,为确定的该聚类的中心点对应的热点事件。
可选的,确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离包括:
根据以下公式确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离:
D ( x , C ) = Σ t = 1 T ( x ( t ) - C ( t ) ) 2
其中,x(t)为该待分类的热点事件x在该设定时间长度内每个时间点t的转发数量或评论数量,C(t)为聚类中心对应的热点事件C在该设定时间长度内每个时间点t的转发数量或评论数量,T为设定的时间长度。
为达到上述目的,本发明实施例还公开了一种热点事件分类装置,包括:
接收模块,用于接收待分类的热点事件;
确定模块,用于确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离;
聚类模块,用于将所述待分类的热点事件划分到该距离的最小值对应的聚类中;
所述装置还包括:
采集模块,用于采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量;
所述聚类模块,还用于根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件。
可选的,所述装置还包括:
调整模块,用于针对每个聚类的中心点对应的热点事件,根据如下公式对该中心点对应的热点事件在设定时间长度内的转发数量或评论数量进行调整:
Δ B ( n + 1 ) = U ( n ) · Σ t = n b n ( Δ B ( t ) + S ( t ) + G ( t ) ) · f ( n + 1 - t ) + ϵ
其中,ΔB(t)为设定时间长度内调整后的时间点t的转发量,U(n)为该热点事件在设定时间长度内的当前时间点n时,在网络中未传播到的用户的个数,ε为为采集到的热点事件中包含的噪声所对应的广告事件和个人事件的数量,S(t)根据以下公式确定:
S ( t ) = 0 ( t ≠ n b ) S b ( t = n b )
其中,nb为该热点事件在设定时间长度内传播到预设的意见领袖的时间点;
G(t)根据以下公式确定:
G ( t ) = a · e - w ( t - t p )
其中,a为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值时的幅值,w为该热点事件在设定时间长度内从转发量或者评论数量出现第一峰值到第二峰值的时间长度,tp为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值的时间点;
f(τ)根据以下公式确定:
f(τ)=β*τ-1.5
其中β为热点事件传播过程中的传播系数,τ为传播过程中的每个时间点。
可选的,所述装置还包括:
过滤模块,用于针对每个热点事件,判断该热点事件的平均时间转发量R和意见领袖占有率D是否大于相应的平均时间转发量阈值tR和意见领袖占有率阈值tD;如果否,则删除该热点事件,如果是,则将所述热点事件发送到所述聚类模块,其中根据如下公式确定平均时间转发量R和意见领袖占有率D:
R ‾ = R t T
D = V b V t
为平均时间转发量,D为意见领袖占有率,Rt为该热点事件的总转发量,T为设定的时间长度,Vb为该热点事件传播过程中转发该热点事件的意见领袖的个数,Vt为该热点事件传播过程中转发该热点事件的用户的个数。
可选的,所述聚类模块,具体用于根据属于类别Ck的所有热点事件xi,与中心点对应的热点事件μk的距离d(xik)的和为最小,确定该聚类的中心点对应的热点事件其中xi为属于类别Ck的所有热点事件,μk为中心点对应的热点事件,为确定的该聚类的中心点对应的热点事件。
可选的,所述确定模块,具体用于根据以下公式确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离:
D ( x , C ) = Σ t = 1 T ( x ( t ) - C ( t ) ) 2
其中,x(t)为该待分类的热点事件x在该设定时间长度内每个时间点t的转发数量或评论数量,C(t)为聚类中心对应的热点事件C在该设定时间长度内每个时间点t的转发数量或评论数量,T为设定的时间长度。
可见,本发明实施例中,提出了一种热点事件分类方法及装置,该方法中采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量;根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件,根据每个中心点对应的热点事件对待分类的热点事件进行分类。由于本发明实施例中通过接收待分类的热点事件,确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离,将所述待分类的热点事件划分到距离的最小值对应的聚类中,实现了热点事件的分类。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A为本发明实施例提供的一种热点事件分类方法的流程示意图;
图1B为本发明实施例提供的三类聚类中心点对应的热点事件在设定时间长度内每个时间点及转发数量的关系示意图;
图1C为本发明实施例提供的调整前及调整后的三类聚类中心点对应的热点事件在设定时间长度内的转发数量示意图;
图2为本发明实施例所提供的一种中心点对应的热点事件调整过程的流程示意图;
图3为本发明实施例提供的一种热点事件分类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面通过具体实施例,对本发明进行详细说明。
图1A为本发明实施例提供的一种热点事件分类方法的流程示意图,包括如下步骤:
S101:接收待分类的热点事件。
在本发明实施例中为了实现对热点事件的分类,该待分类的热点事件中包括该热点事件对应的设定时间长度内的转发数量或评论数量。该设定的时间可以为一个固定的时间,例如可以为30小时,该热点事件对应的设定时间长度内的转发数量或评论数量,可以是以该热点事件发表为起点,至其传播30小时对应的转发数量或评论数量等。
S102:确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离。
其中,确定每个聚类的中心点对应的热点事件包括:采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量;根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件。
每个聚类中心点对应有一个热点事件,采用K-SC算法或者K-Means算法可以确定两个热点事件之间的距离。
具体的,根据以下公式确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离:
D ( x , C ) = Σ t = 1 T ( x ( t ) - C ( t ) ) 2
其中,x(t)为该待分类的热点事件x在该设定时间长度内每个时间点t的转发数量或评论数量,C(t)为聚类中心对应的热点事件C在该设定时间长度内每个时间点t的转发数量或评论数量,T为设定的时间长度。具体的确定两个热点事件之间距离的方法属于现有技术,在本发明实施例中对该过程不进行赘述。
S103:将所述待分类的热点事件划分到该距离的最小值对应的聚类中。
通过本发明实施例提供的上述实现方案可以实现对热点事件的分类。
在网络中,用户之间会通过相互关注而连接,热点事件在相互连接的用户之间进行传播。与一个用户相连的所有边的数量就是这个用户的度。整个网络的度分布服从幂率分布,即少部分用户拥有较大的度,而大部分用户只有很小的度。即主流领域中的少数关键人物拥有大量的粉丝,处于核心地位,而大多数用户都是一般受众,影响力也较小,在一定程度上会受到核心人物的影响。虽然网络中每个个体的特征和属性不同,但是所有个体的集体行为会抵消不同个体之间的差异,从而造成整体的趋势,表现在热点事件的转发数量或评论数量的波形变化上。
因此在本发明实施例中为了实现对热点事件的分类,首先采集每个热点事件,获取每个热点事件对应的设定时间长度内的转发数量或评论数量,根据需要设置聚类的数量,并设置每个聚类的初始的中心点对应的热点事件,针对采集到的每个热点事件,确定该热点事件与每个聚类的初始的中心点对应的热点事件之间的距离,将该热点事件划分到距离最小值对应的聚类中,并根据最终聚类后每个聚类中包含的所有热点事件,确定该聚类的中心点对应的热点事件。由于本发明实施例中通过采集大量的热点事件,将采集到的热点事件作为样本,通过对热点事件的分析,从而确定热点事件对应的每个聚类。
具体的,所述采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量,可以包括:
使用爬虫或开放API采集热点事件在设定时间长度内的转发数量或评论数量。根据对热点事件的大量观察,转发数量或者评论数量在距发表时间设定时间长度以后基本趋于0,其中设定时间长度均为30小时的长度。
采集到的热点事件中可能还包括一些噪声,例如个人事件或者广告事件等,为了提高后续对热点事件分类的准确性,在本发明实施例中,所述根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中之前,可以包括:
针对每个热点事件,判断该热点事件的平均时间转发量和意见领袖占有率D是否都大于相应的平均时间转发量阈值tR和意见领袖占有率阈值tD
如果否,则删除该热点事件,如果是,则进行后续对该热点事件进行聚类的过程,其中根据如下公式确定平均时间转发量和意见领袖占有率D:
R ‾ = R t T
D = V b V t
为平均时间转发量,D为意见领袖占有率,Rt为该热点事件的总转发量,T为设定的时间长度,Vb为该热点事件传播过程中转发该热点事件的意见领袖的个数,Vt为该热点事件传播过程中转发该热点事件的用户的个数。
由于热点事件是很短时间内的大量传播,而且其中包括了相当一部分意见领袖的参与,因而热点事件可以用平均时间转发量和意见领袖占有率D来判断。其中意见领袖针对不同领域可以设置不同的意见领袖,也可以设置相同的意见领袖,该意见领袖可以为一些专家,或者经过认证的公众账号等。
具体的,所述根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,可以包括:
根据每个热点事件对应的设定时间长度内的转发数量或评论数量,采用K-SC算法对热点事件进行聚类。
由于热点事件的类型很多,导致热点事件在对应的设定时间长度内的转发数量或评论数量的变化也很多。然而有些不同的热点事件虽然有所差异,但是它们的趋势是一致的,也就是服从相同的传播规律,可以划分到一个聚类中。
具体的,采用K-SC算法对热点事件进行聚类,可以是针对每个热点事件,确定该热点事件与每个中心点对应的热点事件之间的距离,从而确定该热点事件所在的聚类。采用K-SC算法可以理解为,通过以下公式计算:
d ( m , n ) = m i n α , q || x - αy q || || x ||
α = x T y q || y q || 2
其中,d(m,n)为任意两个热点事件m和n的距离,x为热点事件m在该设定的时间长度内每个时间点的转发数量或评论数量,α是使热点事件m和n转发数量或评论数量在设定时间长度内在同一时间点峰值达到一致的缩放系数,yq是使热点事件m在设定时间长度内与热点事件n在同一时间点转发数量或评论数量峰值达到一致时,热点事件y偏移的q个时间点。
K-SC算法比较适合于对一定时间长度内的事件进行聚类,在进行聚类的过程中只需要考虑该时间长度内的趋势特征即可,而不考虑具体的时间点。K-SC算法在进行聚类计算时,无论是对热点事件在设定的时间长度内的转发数量或评论数量的峰值的幅值大小还是峰值点对应的时间都做了归一化,屏蔽了可能由于各种非趋势项的原因导致的热点事件在设定的时间长度内的转发数量或评论数量的差异,从而将在设定的时间长度内的转发数量或评论数量传播规律一致的热点事件聚到一个聚类中。
将每个热点事件聚类到对应的聚类中后,为了保证后续对待分类热点事件进行分类的准确性,在本发明实施例中还可以针对每个聚类中包含的热点事件更新该聚类的中心点对应的热点事件。
K-SC算法的聚类中心更新策略并不是简单的对每个热点事件取平均,而是每个热点事件与新的聚类中心点对应的热点事件的距离达到最小,即对属于类别Ck的所有热点事件xi,与中心点对应的热点事件μk的距离d(xik)的和为最小:
μ k * = arg m i n μ Σ x i ∈ C k d ( x i , μ k ) 2
其中,为新的聚类中心对应的热点事件。
然而,热点事件的数据量较大,而且每一个热点事件的时间维度也较高,K-SC算法计算需要接近O(n2)的时间复杂度,其中,O(n2)是衡量算法事件复杂度的参数,这里是平方级的,就是说有n个热点事件需要计算复杂度,那么需要计算n^2次,数据量大的情况下计算会很慢,而且聚类的过程需要不断地迭代,因而直接使用K-SC聚类算法性能会很差。为了实现海量热点事件在设定的时间长度内的转发数量或评论数量数据的高效聚类,本发明提供了基于MapReduce的K-SC并行聚类算法,该并行聚类算法可以直接运行在Hadoop平台,Hadoop平台是目前最流行、最具代表性的分布式处理框架,其中HDFS和MapReduce是它的两个核心基础,是专门为海量数据应用场景设计的文件系统和并行计算框架,采用分布式处理方法对热点事件实现分布式聚类。
K-SC并行聚类算法中,主服务器根据指定的聚类数量k的值,随机选取k个热点事件作为初始聚类中心点对应的热点事件,然后将聚类中心点对应的热点事件和对应数量的热点事件分配到各个服务器,其中,聚类中心点对应的热点事件分配到每个服务器,每个热点事件,可以称为热点事件的样本平均分配到每个服务器,即每个服务器的聚类中心点对应的热点事件相同,热点事件的样本平均分配。
每个服务器分别读取分配到本地的热点事件的样本,计算每个热点事件的样本到各个聚类中心对应的热点事件的距离,并将其划分到该距离最小的聚类中,然后在每个服务器中,针对每个聚类,对该聚类中的聚类中心点对应的热点事件进行更新,即计算出与当前类别所有热点事件的样本距离最小的热点事件,将其作为新的聚类中心对应的热点事件。此过程每个服务器并行更新每个热点事件对应的聚类中心对应的热点事件。
重复执行上述操作,直到聚类中心对应的热点事件不再变化或者热点事件的样本与聚类中心对应的热点事件的距离降低到设定的阈值以下。
这样,就将原本逐个计算热点事件的样本与聚类中心对应的热点事件的距离的串行计算过程,分配给不同的服务器并行执行,提高了计算效率。
热点事件聚类得到的聚类中心对应的热点事件代表了热点事件的类别,这个过程是初步的热点事件在传播过程中转发数量或评论数量随时间动态变化的规律发现过程。
因为社交网络上热点事件的传播过程也符合两级传播论:第一阶段:热点事件首先传播到意见领袖,热点事件也就从意见领袖覆盖到社交网络中与该意见领袖相连的普通节点;第二阶段:普通节点之间相互传播的过程,扩散式的传播到整个社交网络。
本发明实施例基于两级传播的基本理论,根据热点事件的时序特性和社交网络传播特性,构建两级时序传播模型,其中时序特性为该设定时间长度内转发数量或评论数量随时间变化的特性。时序特性表现为波形具有两个峰值,社交网络特性表现为长尾幂率分布。因此,在本发明实施例中可以在每个聚类中,对聚类中心点对应的热点事件进行调整,具体的所述方法还包括:
针对每个聚类的中心点对应的热点事件,根据如下公式对该中心点对应的热点事件在设定时间长度内的转发数量或评论数量进行调整:
Δ B ( n + 1 ) = U ( n ) · Σ t = n b n ( Δ B ( t ) + S ( t ) + G ( t ) ) · f ( n + 1 - t ) + ϵ
其中,ΔB(t)为设定时间长度内调整后的时间点t的转发量,U(n)为该热点事件在设定时间长度内的当前时间点n时,在网络中未传播到的用户的个数,ε为采集到的热点事件中包含的噪声所对应的广告事件和个人事件的数量,S(t)根据以下公式确定:
S ( t ) = 0 ( t ≠ n b ) S b ( t = n b )
其中,nb为该热点事件在设定时间长度内传播到预设的意见领袖的时间点;
G(t)根据以下公式确定:
G ( t ) = a · e - w ( t - t p )
其中,a为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值时的幅值,w为该热点事件在设定时间长度内从转发量或者评论数量出现第一峰值到第二峰值的时间长度,tp为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值的时间点;
f(τ)根据以下公式确定:
f(τ)=β*τ-1.5
其中β为热点事件传播过程中的传播系数,τ为传播过程中的每个时间点。传播系数的确定方法属于现有技术,在本发明实施例中对该确定过程不进行赘述。
图1B为本发明实施例提供的三类聚类中心点对应的热点事件在设定时间长度内每个时间点及转发数量的关系示意图。
本发明实施例根据每个热点事件对应的设定时间长度内的转发数量或评论数量,采用K-SC算法对热点事件进行聚类得到了三类聚类中心对应的热点事件在设定时间长度内每个时间点及转发数量的关系示意图。
其中,C1-C3代表三个聚类中心对应的热点事件,横坐标是时间,纵坐标是归一化后的转发数量。
图1C为本发明实施例提供的调整前及调整后的三类聚类中心点对应的热点事件在设定时间长度内的转发数量示意图。
针对图1B提供的三类聚类的中心点对应的热点事件,根据该中心点对应的热点事件在设定时间长度内的转发数量或评论数量对其进行调整,得到每个热点事件对应的曲线,从而得到图1C所示三图中的连续的曲线。
其中,C1-C3代表三个聚类中心对应的热点事件,横坐标是时间,纵坐标是归一化后的转发数量。
采用本发明实施例提供的调整方法,对中心点对应的热点事件进行调整后,对应的调整的误差非常的小,其中RMSE是调整的误差,它的值越小代表调整效果越好。例如对图1B中的三类热点事件进行调整后,对应的调整的误差分别为0.0136、0.0336和0.0133。
图2为本发明实施例所提供的一种中心点对应的热点事件调整过程的流程示意图,包括如下步骤:
S201:采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量。
S202:根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中。
S203:在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件。
S204:对每个聚类的中心点对应的热点事件在设定时间长度内的转发数量或评论数量进行调整。
针对每个聚类的中心点对应的热点事件,根据如下公式对该中心点对应的热点事件在设定时间长度内的转发数量或评论数量进行调整:
Δ B ( n + 1 ) = U ( n ) · Σ t = n b n ( Δ B ( t ) + S ( t ) + G ( t ) ) · f ( n + 1 - t ) + ϵ
其中,ΔB(t)为设定时间长度内调整后的时间点t的转发量,U(n)为该热点事件在设定时间长度内的当前时间点n时,在网络中未传播到的用户的个数,ε为采集到的热点事件中包含的噪声所对应的广告事件和个人事件的数量,S(t)根据以下公式确定:
S ( t ) = 0 ( t ≠ n b ) S b ( t = n b )
其中,nb为该热点事件在设定时间长度内传播到预设的意见领袖的时间点;
G(t)根据以下公式确定:
G ( t ) = a · e - w ( t - t p )
其中,a为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值时的幅值,w为该热点事件在设定时间长度内从转发量或者评论数量出现第一峰值到第二峰值的时间长度,tp为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值的时间点;
f(τ)根据以下公式确定:
f(τ)=β*τ-1.5
其中β为热点事件传播过程中的传播系数,τ为传播过程中的每个时间点。
现有技术忽略了热点事件在传播过程中转发数量或评论数量随时间动态变化的规律,只能处理静态数据,所以本发明实施例针对每个聚类的中心点对应的热点事件在设定时间长度内的转发数量或评论数量进行调整,抽象出热点事件的数学特性,定量地描述热点事件在传播过程中转发数量或评论数量随时间动态变化的规律。
本发明实施例中,提出了一种热点事件分类方法,该方法通过接收待分类的热点事件,确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离,将所述待分类的热点事件划分到距离的最小值对应的聚类中,并对每个聚类的中心点对应的热点事件在设定时间长度内的转发数量或评论数量进行调整,实现了热点事件的分类及定量地描述热点事件在传播过程中转发数量或评论数量随时间动态变化的规律。
图3为本发明实施例提供的一种热点事件分类装置的结构示意图,与图1A所示的流程相对应,所述装置包括接收模块301、确定模块302、聚类模块303、采集模块304、调整模块305和过滤模块306。
接收模块301,用于接收待分类的热点事件;
确定模块302,用于确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离;
聚类模块303,用于将所述待分类的热点事件划分到该距离的最小值对应的聚类中;
所述装置还包括:
采集模块304,用于采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量;
所述聚类模块303,还用于根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件。
所述装置还包括:
调整模块305,用于针对每个聚类的中心点对应的热点事件,根据如下公式对该中心点对应的热点事件在设定时间长度内的转发数量或评论数量进行调整:
Δ B ( n + 1 ) = U ( n ) · Σ t = n b n ( Δ B ( t ) + S ( t ) + G ( t ) ) · f ( n + 1 - t ) + ϵ
其中,ΔB(t)为设定时间长度内调整后的时间点t的转发量,U(n)为该热点事件在设定时间长度内的当前时间点n时,在网络中未传播到的用户的个数,ε为采集到的热点事件中包含的噪声所对应的广告事件和个人事件的数量,S(t)根据以下公式确定:
S ( t ) = 0 ( t ≠ n b ) S b ( t = n b )
其中,nb为该热点事件在设定时间长度内传播到预设的意见领袖的时间点;
G(t)根据以下公式确定:
G ( t ) = a · e - w ( t - t p )
其中,a为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值时的幅值,w为该热点事件在设定时间长度内从转发量或者评论数量出现第一峰值到第二峰值的时间长度,tp为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值的时间点;
f(τ)根据以下公式确定:
f(τ)=β*τ-1.5
其中β为热点事件传播过程中的传播系数,τ为传播过程中的每个时间点。
所述装置还包括:
过滤模块306,用于针对每个热点事件,判断该热点事件的平均时间转发量和意见领袖占有率D是否大于相应的平均时间转发量阈值tR和意见领袖占有率阈值tD;如果否,则删除该热点事件,如果是,则将所述热点事件发送到所述聚类模块,其中根据如下公式确定平均时间转发量R和意见领袖占有率D:
R ‾ = R t T
D = V b V t
为平均时间转发量,D为意见领袖占有率,Rt为该热点事件的总转发量,T为设定的时间长度,Vb为该热点事件传播过程中转发该热点事件的意见领袖的个数,Vt为该热点事件传播过程中转发该热点事件的用户的个数。
所述聚类模块303,具体用于根据属于类别Ck的所有热点事件xi,与中心点对应的热点事件μk的距离d(xik)的和为最小,确定该聚类的中心点对应的热点事件其中xi为属于类别Ck的所有热点事件,μk为中心点对应的热点事件,为确定的该聚类的中心点对应的热点事件。
所述确定模块302,具体用于根据以下公式确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离:
D ( x , C ) = Σ t = 1 T ( x ( t ) - C ( t ) ) 2
其中,x(t)为该待分类的热点事件x在该设定时间长度内每个时间点t的转发数量或评论数量,C(t)为聚类中心对应的热点事件C在该设定时间长度内每个时间点t的转发数量或评论数量,T为设定的时间长度。
本发明实施例中,提出了一种热点事件分类方法及装置,该方法中采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量;根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件,根据每个中心点对应的热点事件对待分类的热点事件进行分类。由于本发明实施例中通过接收待分类的热点事件,确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离,将所述待分类的热点事件划分到距离的最小值对应的聚类中,实现了热点事件的分类。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种热点事件分类方法,其特征在于,所述方法包括步骤:
接收待分类的热点事件;
确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离;
将所述待分类的热点事件划分到该距离的最小值对应的聚类中,其中根据以下方法,确定每个聚类的中心点对应的热点事件:采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量;根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件。
2.根据权利要求1所述的方法,其特征在于,所述确定该聚类的中心点对应的热点事件之后,所述方法还包括:
针对每个聚类的中心点对应的热点事件,根据如下公式对该中心点对应的热点事件在设定时间长度内的转发数量或评论数量进行调整:
Δ B ( n + 1 ) = U ( n ) · Σ t = n b n ( Δ B ( t ) + S ( t ) + G ( t ) ) · f ( n + 1 - t ) + ϵ
其中,ΔB(t)为设定时间长度内调整后的时间点t的转发量,U(n)为该热点事件在设定时间长度内的当前时间点n时,在网络中未传播到的用户的个数,ε为采集到的热点事件中包含的噪声所对应的广告事件和个人事件的数量,S(t)根据以下公式确定:
S ( t ) = 0 ( t ≠ n b ) S b ( t = n b )
其中,nb为该热点事件在设定时间长度内传播到预设的意见领袖的时间点;
G(t)根据以下公式确定:
G ( t ) = a · e - w ( t - t p )
其中,a为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值时的幅值,w为该热点事件在设定时间长度内从转发量或者评论数量出现第一峰值到第二峰值的时间长度,tp为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值的时间点;
f(τ)根据以下公式确定:
f(τ)=β*τ-1.5
其中β为热点事件传播过程中的传播系数,τ为传播过程中的每个时间点。
3.根据权利要求1所述的方法,其特征在于,所述根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中之前,所述方法包括:
针对每个热点事件,判断该热点事件的平均时间转发量和意见领袖占有率D是否都大于相应的平均时间转发量阈值tR和意见领袖占有率阈值tD
如果否,则删除该热点事件,如果是,则进行后续对该热点事件进行聚类的过程,其中根据如下公式确定平均时间转发量和意见领袖占有率D:
R ‾ = R t T
D = V b V t
为平均时间转发量,D为意见领袖占有率,Rt为该热点事件的总转发量,T为设定的时间长度,Vb为该热点事件传播过程中转发该热点事件的意见领袖的个数,Vt为该热点事件传播过程中转发该热点事件的用户的个数。
4.根据权利要求1所述的方法,其特征在于,所述确定该聚类的中心点对应的热点事件包括:
根据属于类别Ck的所有热点事件xi,与中心点对应的热点事件μk的距离d(xik)的和为最小,确定该聚类的中心点对应的热点事件其中xi为属于类别Ck的所有热点事件,μk为中心点对应的热点事件,为确定的该聚类的中心点对应的热点事件。
5.根据权利要求1所述的方法,其特征在于,确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离包括:
根据以下公式确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离:
D ( x , C ) = Σ t = 1 T ( x ( t ) - C ( t ) ) 2
其中,x(t)为该待分类的热点事件x在该设定时间长度内每个时间点t的转发数量或评论数量,C(t)为聚类中心对应的热点事件C在该设定时间长度内每个时间点t的转发数量或评论数量,T为设定的时间长度。
6.一种热点事件分类装置,其特征在于,所述装置包括:
接收模块,用于接收待分类的热点事件;
确定模块,用于确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离;
聚类模块,用于将所述待分类的热点事件划分到该距离的最小值对应的聚类中;
所述装置还包括:
采集模块,用于采集每个热点事件,并获取该热点事件对应的设定时间长度内的转发数量或评论数量;
所述聚类模块,还用于根据每个热点事件对应的设定时间长度内的转发数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
调整模块,用于针对每个聚类的中心点对应的热点事件,根据如下公式对该中心点对应的热点事件在设定时间长度内的转发数量或评论数量进行调整:
Δ B ( n + 1 ) = U ( n ) · Σ t = n b n ( Δ B ( t ) + S ( t ) + G ( t ) ) · f ( n + 1 - t ) + ϵ
其中,ΔB(t)为设定时间长度内调整后的时间点t的转发量,U(n)为该热点事件在设定时间长度内的当前时间点n时,在网络中未传播到的用户的个数,ε为为采集到的热点事件中包含的噪声所对应的广告事件和个人事件的数量,S(t)根据以下公式确定:
S ( t ) = 0 ( t ≠ n b ) S b ( t = n b )
其中,nb为该热点事件在设定时间长度内传播到预设的意见领袖的时间点;
G(t)根据以下公式确定:
G ( t ) = a · e - w ( t - t p )
其中,a为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值时的幅值,w为该热点事件在设定时间长度内从转发量或者评论数量出现第一峰值到第二峰值的时间长度,tp为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值的时间点;
f(τ)根据以下公式确定:
f(τ)=β*τ-1.5
其中β为热点事件传播过程中的传播系数,τ为传播过程中的每个时间点。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
过滤模块,用于针对每个热点事件,判断该热点事件的平均时间转发量R和意见领袖占有率D是否大于相应的平均时间转发量阈值tR和意见领袖占有率阈值tD;如果否,则删除该热点事件,如果是,则将所述热点事件发送到所述聚类模块,其中根据如下公式确定平均时间转发量R和意见领袖占有率D:
R ‾ = R t T
D = V b V t
为平均时间转发量,D为意见领袖占有率,Rt为该热点事件的总转发量,T为设定的时间长度,Vb为该热点事件传播过程中转发该热点事件的意见领袖的个数,Vt为该热点事件传播过程中转发该热点事件的用户的个数。
9.根据权利要求6所述的装置,其特征在于,所述聚类模块,具体用于根据属于类别Ck的所有热点事件xi,与中心点对应的热点事件μk的距离d(xik)的和为最小,确定该聚类的中心点对应的热点事件其中xi为属于类别Ck的所有热点事件,μk为中心点对应的热点事件,为确定的该聚类的中心点对应的热点事件。
10.根据权利要求6所述的装置,其特征在于,所述确定模块,具体用于根据以下公式确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离:
D ( x , C ) = Σ = 1 T ( x ( t ) - C ( t ) ) 2
其中,x(t)为该待分类的热点事件x在该设定时间长度内每个时间点t的转发数量或评论数量,C(t)为聚类中心对应的热点事件C在该设定时间长度内每个时间点t的转发数量或评论数量,T为设定的时间长度。
CN201510645347.6A 2015-10-08 2015-10-08 一种热点事件分类方法及装置 Active CN105335476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510645347.6A CN105335476B (zh) 2015-10-08 2015-10-08 一种热点事件分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510645347.6A CN105335476B (zh) 2015-10-08 2015-10-08 一种热点事件分类方法及装置

Publications (2)

Publication Number Publication Date
CN105335476A true CN105335476A (zh) 2016-02-17
CN105335476B CN105335476B (zh) 2019-06-04

Family

ID=55286003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510645347.6A Active CN105335476B (zh) 2015-10-08 2015-10-08 一种热点事件分类方法及装置

Country Status (1)

Country Link
CN (1) CN105335476B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202222A (zh) * 2016-06-28 2016-12-07 北京小米移动软件有限公司 热点事件的确定方法及装置
CN108307230A (zh) * 2018-02-07 2018-07-20 北京奇艺世纪科技有限公司 一种视频精彩片段的提取方法及装置
CN109145224A (zh) * 2018-08-20 2019-01-04 电子科技大学 社交网络事件时序关系分析方法
CN110263254A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 事件分级方法、装置、设备和介质
WO2019184217A1 (zh) * 2018-03-26 2019-10-03 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779190A (zh) * 2012-07-03 2012-11-14 北京大学 一种时序海量网络新闻的热点事件快速检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779190A (zh) * 2012-07-03 2012-11-14 北京大学 一种时序海量网络新闻的热点事件快速检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIAKUN HUANG 等: "Exploiting temporal patterns of hot events in Weibo", 《THE 11TH INTERNATIONAL CONFERENCE ON DATA MINING》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202222A (zh) * 2016-06-28 2016-12-07 北京小米移动软件有限公司 热点事件的确定方法及装置
CN108307230A (zh) * 2018-02-07 2018-07-20 北京奇艺世纪科技有限公司 一种视频精彩片段的提取方法及装置
CN108307230B (zh) * 2018-02-07 2021-01-22 北京奇艺世纪科技有限公司 一种视频精彩片段的提取方法及装置
WO2019184217A1 (zh) * 2018-03-26 2019-10-03 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质
CN109145224A (zh) * 2018-08-20 2019-01-04 电子科技大学 社交网络事件时序关系分析方法
CN109145224B (zh) * 2018-08-20 2021-11-23 电子科技大学 社交网络事件时序关系分析方法
CN110263254A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 事件分级方法、装置、设备和介质

Also Published As

Publication number Publication date
CN105335476B (zh) 2019-06-04

Similar Documents

Publication Publication Date Title
CN105335476A (zh) 一种热点事件分类方法及装置
CN103209342B (zh) 一种引入视频流行度和用户兴趣变化的协作过滤推荐方法
Zheng et al. Diagnosing New York city's noises with ubiquitous data
Roth et al. A long-time limit for world subway networks
US9424745B1 (en) Predicting traffic patterns
Zheng et al. A cloud-based knowledge discovery system for monitoring fine-grained air quality
CN105550275B (zh) 一种微博转发量预测方法
CN105930425A (zh) 个性化视频推荐方法及装置
CN103179198B (zh) 基于多关系网络的话题影响力个体挖掘方法
CN103678669A (zh) 一种社交网络中的社区影响力评估系统及方法
CN104424235A (zh) 实现用户信息聚类的方法和装置
Troia et al. Identification of tidal-traffic patterns in metro-area mobile networks via matrix factorization based model
CN103647671A (zh) 一种基于Gur Game的群智感知网络管理方法及其系统
CN103209422B (zh) 一种wlan网络精确选点的方法
CN106326297B (zh) 一种应用程序推荐方法及装置
CN105608604A (zh) 一种品牌广告效果优化的连续计算方法
US20140324539A1 (en) Method and system for mining topic core circle in social network
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
CN104408210A (zh) 基于意见领袖的视频推荐方法
CN104657457A (zh) 一种用户评价视频的数据处理方法、视频推荐方法及装置
CN105511901B (zh) 一种基于移动App运行列表的App冷启动推荐方法
CN104376476A (zh) 一种集成收视率、广告监测、广告业务的数据分析系统
CN111191817A (zh) 一种基于换乘客流量的公交线网拓扑划分方法
CN110413722A (zh) 地址选择方法、装置以及非瞬时性存储介质
CN112186749B (zh) 一种基于最优抽样的电压暂降系统指标评估方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant