CN102609436B - 一种社交网络热词和事件挖掘系统及方法 - Google Patents

一种社交网络热词和事件挖掘系统及方法 Download PDF

Info

Publication number
CN102609436B
CN102609436B CN201110434991.0A CN201110434991A CN102609436B CN 102609436 B CN102609436 B CN 102609436B CN 201110434991 A CN201110434991 A CN 201110434991A CN 102609436 B CN102609436 B CN 102609436B
Authority
CN
China
Prior art keywords
state
sequence
candidate word
described candidate
state parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110434991.0A
Other languages
English (en)
Other versions
CN102609436A (zh
Inventor
闫宏飞
树柏涵
赵鑫
李晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201110434991.0A priority Critical patent/CN102609436B/zh
Publication of CN102609436A publication Critical patent/CN102609436A/zh
Application granted granted Critical
Publication of CN102609436B publication Critical patent/CN102609436B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种社交网络热词和事件挖掘系统及方法,涉及社交网络领域。所述方法包括步骤:对候选词进行统计,得到相应的候选词序列;根据所述候选词序列,计算所述候选词在不同时间点的状态参数;提供备选状态序列,根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价;根据所述备选状态序列,计算所述候选词的状态转移代价;根据所述候选词序列、状态参数、状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列。所述系统和方法提高了热词挖掘的准确度。

Description

一种社交网络热词和事件挖掘系统及方法
技术领域
本发明涉及社交网络技术领域,特别涉及一种社交网络热词和事件挖掘系统及方法。
背景技术
根据词在社交网络上的使用情况,可以挖掘该词使用较为频繁的时间段,即该词为热词的时间段;在热词时间段对包含热词的社交网络文本进行事件挖掘,可以对事件进行摘要,同时挖掘出传播该事件的有影响力的用户,并且可能会对企业、政府的调研、决策提供有力的数据支持。
J.Kleinberg在“Bursty and hierarchical structure in streams”一文中提出了一种热词挖掘方法,该方法认为候选词在一个时间区间内可能处于两种状态:(1)0状态-普通状态,(2)1状态-热词状态,并为候选词计算了一个基础概率P0和一个热词概率P1,分别作为两种状态下的词的生成概率;将词的生成概率取对数后再取负,得到词的生成代价;该方法还定义状态之间的转移代价。该方法采用序列标注的方式对一个热词在若干连续时间区间进行状态标注,求得一个使总代价最小的标注序列。
该方法的缺点是:
(1)对一个词采用静态全局概率作为基础概率。全局静态概率没有考虑到某些词在社会上使用概率的变化,例如“囧”在2008年之前很少使用,而在2008年后则成为中文地区的网络社群间成为一种流行的表情符号。
(2)不能解决社交网络上周期性热词问题。比如“晚安”在晚间使用较多,容易挖掘出一些非事件性的周期性热词。
(3)该方法主要针对新闻数据,没有考虑到社交网络数据特有的信息,比如转发信息、用户关系信息,社交网络文本中包含的URL信息等。
(4)使用一个时间点上的总社交网络文本数,而总社交网络文本数在社交网络的不同时间点变化很大(比如晚上8-9点的总社交网络文本数必然多于凌晨)。因此,其不能解决总社交网络文本数波动较大的问题。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提供一种社交网络热词和事件挖掘系统及方法,以便提高热词挖掘的准确度。
(二)技术方案
为解决上述技术问题,本发明提供一种社交网络热词和事件挖掘系统,其包括:信息统计模块、状态参数模块、生成代价模块、转移代价模块和状态序列模块;
所述信息统计模块,用于对候选词进行统计,得到相应的候选词序列;
所述状态参数模块,用于根据所述候选词序列,计算所述候选词在不同时间点的状态参数;
所述生成代价模块,用于根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价;
所述转移代价模块,根据所述备选状态序列,计算所述候选词的状态转移代价;
所述状态序列模块,用于提供所述备选状态序列,并根据所述候选词序列、状态参数、状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列。
本发明还提供一种社交网络热词和事件挖掘方法,其包括步骤:
A:对候选词进行统计,得到相应的候选词序列;
B:根据所述候选词序列,计算所述候选词在不同时间点的状态参数;
C:提供备选状态序列,根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价;
D:根据所述备选状态序列,计算所述候选词的状态转移代价;
E:根据所述候选词序列、状态参数、状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列。
优选地,所述步骤A中,所述候选词序列包括:通过统计各个时间点包含所述候选词的社交网络文本数得到的词频序列,或者通过统计各个时间点包含所述候选词且是转发的社交网络文本数得到的转发序列,或者通过统计各个时间点包含所述候选词且是原创的社交网络文本数得到的原创序列,或者通过统计各个时间点发送包含所述候选词的社交网络文本的用户的数量得到的用户序列,或者通过统计各个时间点包含URL信息且包含所述候选词的社交网络文本数量得到的URL序列。
优选地,所述状态参数为泊松分布参数,并且包括:0状态参数和1状态参数。
优选地,所述0状态参数的计算公式如下:
Figure BDA0000123641380000031
其中,λ0,i表示每天24小时中第i个时间点的0状态参数,0≤i≤23;rt表示所述候选词序列中第t个时间点对应的数据,t为自然数;n表示所述候选词序列中时间点的总数。
优选地,所述1状态参数的计算公式如下:
λ1,i=βλ0,i
其中,λ1,i表示每天24小时中第i个时间点的1状态参数;β表示热度系数,并且β>1。
优选地,所述步骤C具体包括步骤:
C1:提供备选状态序列;
C2:根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成概率;
C3:根据所述状态生成概率得到所述候选词的状态生成代价。
优选地,所述步骤C2中的状态生成概率的计算公式如下:
P ( k , r t ) = λ k , t % 24 r t r t ! e - λ k , t % 24 ;
其中,P(k,rt)表示所述候选词对应k状态的状态生成概率,k等于1或者0。
优选地,所述步骤C3中的状态生成代价C-G(k,rt)的计算公式如下:
C-G(k,rt)=-ln(P(k,rt))。
优选地,所述状态转移代价的计算公式如下:
Figure BDA0000123641380000042
其中,(Si’,Si’+1...Si’+q-1)表示由1或者0构成的备选状态序列中的相邻的q个状态,q的取值是2、3或者4,i’为自然数;将所述q个状态分为m组,要求组内状态连续并且状态值相同,相邻组的状态值不同,aj表示第j个组中的状态的个数,1≤j≤m;γ表示转移代价系数。
(三)有益效果
本发明所述社交网络热词和事件挖掘系统及方法,采用泊松分布计算状态生成概率,避免了总的社交网络文本数dt波动大的问题;对不同的时间点分别计算状态参数,克服了周期性热词问题;采用多状态转移代价,是热词挖掘结果更平滑。综上,本发明的系统和方法提高了热词挖掘的准确度。
附图说明
图1是本发明的社交网络热词和事件挖掘系统的模块结构示意图;
图2是本发明的社交网络热词和事件挖掘方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明的社交网络热词和事件挖掘系统的模块结构示意图。如图1所示,所述系统包括:信息统计模块100、状态参数模块200、生成代价模块300、状态序列模块400和转移代价模块500。
所述信息统计模块100,用于对候选词进行统计,得到相应的候选词序列。所述状态参数模块200,用于根据所述候选词序列,计算所述候选词在不同时间点的状态参数。所述生成代价模块300,用于根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价。所述转移代价模块500,根据所述备选状态序列,计算所述候选词的状态转移代价。所述状态序列模块400,用于提供所述备选状态序列,并根据所述候选词序列、状态参数、状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列。
图2是本发明的社交网络热词和事件挖掘方法流程图。如图2所示,所述方法包括:
步骤A:所述信息统计模块100对候选词进行统计,得到相应的候选词序列<r0,r1,...rn-1>。所述候选词序列包括:通过统计各个时间点包含所述候选词的社交网络文本数得到的一个时间段上的词频序列,或者通过统计各个时间点包含所述候选词且是转发的社交网络文本数得到的一个时间段上的转发序列,或者通过统计各个时间点包含所述候选词且是原创的社交网络文本数得到的一个时间段上的原创序列,或者通过统计各个时间点发送包含所述候选词的社交网络文本的用户的数量得到的一个时间段上的用户序列,或者通过统计各个时间点包含URL(Universal Resource Locator,统一资源定位符)信息且包含所述候选词的社交网络文本数量得到的一个时间段上的URL序列。本实施例所述方法可以对上述一种或者多种候选词序列进行热词挖掘,得到一组或多组标注序列,多组序列间可以相互补充得到最优序列,其中时间点以小时为单位,比如2011年10月1日10点。
步骤B:所述状态参数模块200根据所述候选词序列,计算所述候选词在不同时间点的状态参数。考虑到t时间点上包含所述候选词的社交网络文本数rt远小于t时间点上总的社交网络文本数dt,并且dt在不同时间点波动较大,本发明方法舍弃dt,并采用泊松分布计算所述候选词在某个时间点t的生成概率。因此,所述状态参数为泊松分布参数;并且为了克服社交网络上小时级的周期性热词问题,所述方法对一天中24个时间点,分别通过计算均值的方法计算所述候选词的0状态参数和1状态参数。
所述0状态参数的计算公式如下:
Figure BDA0000123641380000061
其中,λ0,i表示每天24小时中第i个时间点的0状态参数,0≤i≤23;rt表示所述候选词序列中第t个时间点对应的数据,t为自然数;n表示所述候选词序列中时间点的总数。
所述1状态参数的计算公式如下:
λ1,i=βλ0,i
其中,λ1,i表示每天24小时中第i个时间点的1状态参数;β表示热度系数,并且β>1。β可以直观的理解为词的热度标准,即热词的出现频率应该为普通状态下的β倍。显然,β越大,对热词状态的标准越高,提取出的热词的精度就越高。并且,β的经验值为3。
步骤C:提供备选状态序列,根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价。
所述步骤C具体包括步骤:
C1:所述状态序列模块通过韦特比算法过程提供备选状态序列。由于传统韦特比算法只考虑相邻两个状态的转移,而本发明实施例则考虑相邻q个状态,因此要将传统韦特比算法的状态转移扩展的相邻q个状态。对于只考虑之前1个状态的传统韦特比算法,每个时间点可能的状态数实际为2^1;以此类推,本发明实施例需要考虑之前q-1个状态,每个时间点可能的状态数为2^(q-1),为这些状态编号0,1,...(2^(q-1))-1;这样,当一个时间点的状态取值为S(0<=S<2^(q-1))时,S只依赖于前一个时间点的两个状态,分别为(S&(2^(q-2)-1))<<1和((S&(2^(q-2)-1))<<1)+1。
C2:所述生成代价模块根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成概率。所述步骤C2中的状态生成概率的计算公式如下:
P ( k , r t ) = &lambda; k , t % 24 r t r t ! e - &lambda; k , t % 24 ;
其中,P(k,rt)表示所述候选词对应k状态的状态生成概率,k等于1或者0。
C3:所述生成代价模块根据所述状态生成概率得到所述候选词的状态生成代价。所述步骤C3中的状态生成代价C-G(k,rt)的计算公式如下:
C-G(k,rt)=-ln(P(k,rt))。
步骤D:根据所述备选状态序列,计算所述候选词的状态转移代价。所述状态转移代价的计算公式如下:
Figure BDA0000123641380000081
其中,(Si’,Si’+1...Si’+q-1)表示由1或者0构成的备选状态序列<S0,S1,...Sn-1>中的相邻的q个状态,q的一般的取值是2、3或者4,q的值越大,热词挖掘的结果越平滑,i’为自然数;将所述q个状态分为m组,要求组内状态连续并且状态值相同,相邻组的状态值不同,aj表示第j个组中的状态的个数,1≤j≤m;γ表示转移代价系数,用于调整状态转移代价的影响,显然γ越大,状态转移代价越大,热词挖掘的精度则越高,反之,热词挖掘的精度会越低。并且,γ的经验值为10。
步骤E:所述状态序列模块根据所述候选词序列<r0,r1...rn-1>、状态参数λk,i、状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列。所述总代价依赖于相邻q个状态,其目标函数如下:
Figure BDA0000123641380000082
本发明实施例所述社交网络热词和事件挖掘系统及方法,采用泊松分布计算状态生成概率,避免了总的社交网络文本数dt波动大的问题;对不同的时间点分别计算状态参数,克服了周期性热词问题;采用多状态转移代价,使热词挖掘结果更平滑。综上,本发明实施例所述系统和方法提高了热词挖掘的准确度。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (7)

1.一种社交网络热词和事件挖掘系统,其特征在于,包括:信息统计模块、状态参数模块、生成代价模块、转移代价模块和状态序列模块;
所述信息统计模块,用于对候选词进行统计,得到相应的候选词序列;
所述状态参数模块,用于根据所述候选词序列,计算所述候选词在不同时间点的状态参数;
所述生成代价模块,用于根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价;
所述转移代价模块,根据所述备选状态序列,计算所述候选词的状态转移代价;
所述状态序列模块,用于提供所述备选状态序列,并根据所述候选词序列、状态参数、状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列;
所述状态参数模块计算得到的状态参数为泊松分布参数,并且包括:0状态参数和1状态参数;
所述0状态参数的计算公式如下:
Figure FDA0000440901550000011
其中,λ0,i表示每天24小时中第i个时间点的0状态参数,0≤i≤23;rt表示所述候选词序列中第t个时间点对应的数据,t为自然数;n表示所述候选词序列中时间点的总数;
所述1状态参数的计算公式如下:
λ1,i=βλ0,i
其中,λ1,i表示每天24小时中第i个时间点的1状态参数;β表示热度系数,并且β>1。
2.一种社交网络热词和事件挖掘方法,其特征在于,包括步骤:
A:对候选词进行统计,得到相应的候选词序列;
B:根据所述候选词序列,计算所述候选词在不同时间点的状态参数;
C:提供备选状态序列,根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成代价;
D:根据所述备选状态序列,计算所述候选词的状态转移代价;
E:根据所述候选词序列、状态参数、状态生成代价和状态转移代价对所述备选状态序列进行筛选,得到总代价最小的状态序列;
所述步骤C中的状态参数为泊松分布参数,并且包括:0状态参数和1状态参数;
所述0状态参数的计算公式如下:
Figure FDA0000440901550000021
其中,λ0,i表示每天24小时中第i个时间点的0状态参数,0≤i≤23;rt表示所述候选词序列中第t个时间点对应的数据,t为自然数;n表示所述候选词序列中时间点的总数;
所述1状态参数的计算公式如下:
λ1,i=βλ0,i
其中,λ1,i表示每天24小时中第i个时间点的1状态参数;β表示热度系数,并且β>1。
3.如权利要求2所述的方法,其特征在于,所述步骤A中,所述候选词序列包括:通过统计各个时间点包含所述候选词的社交网络文本数得到的词频序列,或者通过统计各个时间点包含所述候选词且是转发的社交网络文本数得到的转发序列,或者通过统计各个时间点包含所述候选词且是原创的社交网络文本数得到的原创序列,或者通过统计各个时间点发送包含所述候选词的社交网络文本的用户的数量得到的用户序列,或者通过统计各个时间点包含URL信息且包含所述候选词的社交网络文本数量得到的URL序列。
4.如权利要求2所述的方法,其特征在于,所述步骤C具体包括步骤:
C1:提供备选状态序列;
C2:根据所述候选词序列、状态参数和备选状态序列,计算所述候选词的状态生成概率;
C3:根据所述状态生成概率得到所述候选词的状态生成代价。
5.如权利要求4所述的方法,其特征在于,所述步骤C2中的状态生成概率的计算公式如下:
P ( k , r t ) = &lambda; k , t % 24 r t r t ! e - &lambda; k , t % 24 ;
其中,P(k,rt)表示所述候选词对应k状态的状态生成概率,k等于1或者0。
6.如权利要求4所述的方法,其特征在于,所述步骤C3中的状态生成代价C-G(k,rt)的计算公式如下:
C-G(k,rt)=-ln(P(k,rt))。
7.如权利要求2所述的方法,其特征在于,所述状态转移代价的计算公式如下:
C - T ( S i , , S i , + 1 . . . S i , + q - 1 ) = ( - &Sigma; j = 1 m a j 2 ) &times; &gamma; ;
其中,(Si ,Si +1…Si +q-1)表示由1或者0构成的备选状态序列中的相邻的q个状态,q的取值是2、3或者4,i’为自然数;将所述q个状态分为m组,要求组内状态连续并且状态值相同,相邻组的状态值不同,aj表示第j个组中的状态的个数,1≤j≤m;γ表示转移代价系数。
CN201110434991.0A 2011-12-22 2011-12-22 一种社交网络热词和事件挖掘系统及方法 Expired - Fee Related CN102609436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110434991.0A CN102609436B (zh) 2011-12-22 2011-12-22 一种社交网络热词和事件挖掘系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110434991.0A CN102609436B (zh) 2011-12-22 2011-12-22 一种社交网络热词和事件挖掘系统及方法

Publications (2)

Publication Number Publication Date
CN102609436A CN102609436A (zh) 2012-07-25
CN102609436B true CN102609436B (zh) 2014-06-11

Family

ID=46526811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110434991.0A Expired - Fee Related CN102609436B (zh) 2011-12-22 2011-12-22 一种社交网络热词和事件挖掘系统及方法

Country Status (1)

Country Link
CN (1) CN102609436B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617280B (zh) * 2013-12-09 2017-01-25 苏州大学 一种中文事件信息挖掘方法和系统
CN106503256B (zh) * 2016-11-11 2019-05-07 中国科学院计算技术研究所 一种基于社交网络文档的热点信息挖掘方法
CN106874430B (zh) * 2017-01-23 2021-06-04 复旦大学 一种高效的文本区间热词查询方法
CN109145114B (zh) * 2018-08-29 2021-08-03 电子科技大学 基于Kleinberg在线状态机的社交网络事件检测方法
CN113076335B (zh) * 2021-04-02 2024-05-24 西安交通大学 一种网络模因检测方法、系统、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1447264A (zh) * 2003-04-18 2003-10-08 清华大学 基于语义构词约束的汉语二字词抽取方法
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1447264A (zh) * 2003-04-18 2003-10-08 清华大学 基于语义构词约束的汉语二字词抽取方法
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
.2002, *
Jon Kleinberg.Bursty and hierarchical structure in streams.&lt *
Jon Kleinberg.Bursty and hierarchical structure in streams.<KDD’02 Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining>.2002,
KDD’02 Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining&gt *

Also Published As

Publication number Publication date
CN102609436A (zh) 2012-07-25

Similar Documents

Publication Publication Date Title
CN102609436B (zh) 一种社交网络热词和事件挖掘系统及方法
CN107644089A (zh) 一种基于网络媒体的热门事件提取方法
CN103390051B (zh) 一种基于微博数据的话题发现与追踪方法
CN104412291B (zh) 不寻常使用量报告的方法和系统
Hawkins et al. The CUSUM and the EWMA head-to-head
Perelman et al. An adaptive heuristic cross-entropy algorithm for optimal design of water distribution systems
CN103793537A (zh) 一种基于多维时间序列分析的个性化音乐推荐系统及其实现方法
US20110225288A1 (en) Method and system for efficient storage and retrieval of analytics data
CN105988918A (zh) 预测gpu故障的方法和装置
CN105069122A (zh) 一种基于用户行为的个性化推荐方法及其推荐装置
CN108549647A (zh) 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
CN103179198A (zh) 基于多关系网络的话题影响力个体挖掘方法
CN103246985A (zh) 一种广告点击率预测方法及装置
CN102750320A (zh) 一种网络视频实时关注度的计算方法、装置和系统
CN102957949A (zh) 为用户推荐视频的装置及方法
CN103198217A (zh) 一种故障检测方法及系统
Guo et al. Effect of the time window on the heat-conduction information filtering model
US20190287391A1 (en) Traffic demand prediction system and traffic demand prediction apparatus
JP6470965B2 (ja) 広告選択装置、広告選択方法及びプログラム
CN103002329B (zh) 一种预测网络视频广告的到达频次表数据的装置及方法
Barati Discussion of “Parameter estimation of the nonlinear Muskingum model using parameter-setting-free harmony search” by Zong Woo Geem
Fan et al. A comprehensive multi-local-world model for complex networks
CN102567340A (zh) 一种过滤微博信息的方法及装置
CN108510110A (zh) 一种基于知识图谱的水位趋势分析方法
CN103336865B (zh) 一种动态通信网络构建方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140611

Termination date: 20161222

CF01 Termination of patent right due to non-payment of annual fee