CN102289487B - 基于主题模型的网络突发热点事件检测方法 - Google Patents

基于主题模型的网络突发热点事件检测方法 Download PDF

Info

Publication number
CN102289487B
CN102289487B CN 201110226821 CN201110226821A CN102289487B CN 102289487 B CN102289487 B CN 102289487B CN 201110226821 CN201110226821 CN 201110226821 CN 201110226821 A CN201110226821 A CN 201110226821A CN 102289487 B CN102289487 B CN 102289487B
Authority
CN
China
Prior art keywords
word
document
burst
date
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110226821
Other languages
English (en)
Other versions
CN102289487A (zh
Inventor
张寅�
邵健
刘霄
吴飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN 201110226821 priority Critical patent/CN102289487B/zh
Publication of CN102289487A publication Critical patent/CN102289487A/zh
Application granted granted Critical
Publication of CN102289487B publication Critical patent/CN102289487B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于主题模型的网络突发热点事件检测方法。包括如下步骤:1)首先对文档数据集进行分词处理,得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵;2)根据网络热点事件涌现过程中相关单词和文档的突发特性对数据集进行筛选;3)然后通过主题建模得到突发热点事件的特征单词和特征文本;4)计算出热点事件的关注度日期分布。和现有技术相比,本发明使用主题模型进行主题建模,可以更加准确的对主题事件进行描述,其次,本发明还引入了单词的突发特性计算方法,并据此对数据集进行筛选,从而过滤掉时间无关主题,得到真正的突发热点事件。

Description

基于主题模型的网络突发热点事件检测方法
技术领域
本发明涉及主题模型、事件检测领域,尤其涉及一种基于主题模型的网络热点事件检测方法。
背景技术
随着网络技术的快速发展和广泛应用,互联网逐渐成为人们获知信息的重要渠道,全球范围内每天都会有数以亿计的网络信息涌现,如何在海量网络信息中检测出突发热点事件已经成为了一个新兴的研究课题。
传统的主题模型,如PLSA(Probabilistic Latent Semantic Analysis)、LDA(Latent Dirichlet Allocation)等,都可以用来对一个文档集进行主题挖掘,它们通过迭代计算,近似的描述出文档集中的每个主题。但是这些主题模型都是基于BOW(Bag Of Words)模型,只考虑了单词和文档的从属关系,忽略了单词和文档的时间信息,所以通过它们建模更容易得到时间无关的静态主题(如体育、娱乐、科技等),但很难得到时间相关的突发事件主题(如日本地震、911袭击等)。
为了克服这一不足,Li等人提出了一种基于突发特征的突发热点事件检测方法,将网络新闻标题聚类成若干个候选主题,然后根据定义的特征规则对候选主题进行筛选,得到最终的突发事件主题。
这种方法虽然能够检测出一定的网络突发事件,但是依然存在一些缺陷:1)聚类并不是最佳的主题建模方法,相比而言,主题模型更适合用于主题挖掘;2)在生成候选主题时,该方法没有根据时序数据的突发特性对原始数据进行优化处理,导致候选主题中存在较多时间无关的静态主题。另一方面,我们所关心的突发事件主题也会由于静态主题的干扰而被弱化。
针对这些方法的不足,我们提出了一种基于主题模型的网络突发热点事件检测方法,并将其运用在了Twitter数据集上。该方法首先针对突发事件的时间特性,对单词和文档进行筛选,然后在数据集上进行主题建模,再对得到的主题进行热点事件筛选、消除重复处理,最终得到k个突发热点事件。同时我们还会分别使用特征单词和特征文档对突发热点事件进行形象化描述,并且计算出每个事件的关注度日期变化。
发明内容
本发明的目的是克服现有推荐技术的不足,提供一种基于主题模型的网络突发热点事件检测方法。
基于主题模型的网络突发热点事件检测方法包括如下步骤:
1)首先对文档数据集进行分词处理,得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵;
2)根据文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵计算单词和文档的突发特性,并据此对数据集进行筛选;
3)然后对筛选后的数据集进行主题建模得到突发热点事件的特征单词和特征文本;
4)根据热点事件的特征单词、单词日期分布矩阵计算热点事件的关注度日期分布。
所述的一种基于主题模型的网络突发热点事件检测方法,其特征在于所述的首先对文档数据集进行分词处理,得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵的步骤为:
1)从文档数据集中提取出单词列表W={(wi):i=1,2,...,l},并统计每个单词在每个文档中的出现次数,从而得到文档单词关系矩阵X={(xij):i=1,2,...,l;j=1,2,...,n},其中wi表示第i个单词,xij表示单词wi在文档dj中出现的次数;
2)根据文档单词关系矩阵X得到单词文档分布矩阵C1={(c1i):i=1,2,...,l},其中c1i表示出现过单词wi的文档数量;
3)根据文档单词关系矩阵X和文档日期分布得到单词日期分布矩阵C2={(c2ij):i=1,2,...,l;j=1,2,...,p},其中c2ij表示单词wi在日期j出现的次数,实际中,还在使用分布矩阵C2之前对其进行均值化处理,即c2ij=c2ij/sumj,sumj表示日期j当天出现的单词总量,这样消除文档数量日期分布不均匀对突发性检测的干扰。
所述的一种基于主题模型的网络突发热点事件检测方法,其特征在于根据文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵计算单词和文档的突发特性,并据此对数据集进行筛选的步骤为:
1)根据单词文档分布矩阵C1对单词进行筛选,首先定义文档分布筛选系数β1、β2,并且0≤β1<β2≤1,然后使用函数WordFilter1对单词进行筛选,其中n表示集合D中的文档数量,通过小的系数β1,过滤掉出现频率较低的生僻单词,而大的系数β2则过滤掉出现频率较高的事件无关单词;
WordFilter 1 ( w i ) = true n * β 1 ≤ c 1 i ≤ n * β 2 false otherwise
2)定义并计算每个单词的突发特征值;
BurstyValue ( w i ) = 1 p Σ j = 1 p ( c 2 ij - c 2 i ‾ ) 2 / c 2 i ‾
其中
Figure BDA0000082033690000033
表示单词wi日期分布的平均值,这里的突发指数其实就是单词日期分布的标准差和平均值相除的结果,标准差用来描述单词日期分布的突发性,除以平均值则抵消不同单词整体出现频率差异的影响,这样得到的最终结果才准确的反应出每个单词日期分布的突发性;
3)根据突发特征值对单词进行筛选,单词突发指数反映了单词和突发事件相关的可能性,在此基础上定义单词筛选函数:
WordFilter 2 ( w i ) = true BurstyValue ( w i ) ≥ φ false otherwise
这里φ为单词突发指数阈值,用于过滤突发性较低的单词,除了使用固定阈值,还采用固定突发单词数量以及固定突发单词比例方式来筛选突发单词;
4)根据突发单词列表对文档进行筛选,文档过滤函数DocFilter定义如下:
DocFilter ( d i ) = true Σ w j ∈ W x ij > 0 false otherwise
即保留突发单词数量大于0的文档作为突发文档,然后就得到突发文档、突发单词关系矩阵X′={(x′ij):i=1,2,...,l′;j=1,2,...,n′}。
所述的一种基于主题模型的网络突发热点事件检测方法,其特征在于然后对筛选后的数据集进行主题建模得到突发热点事件的特征单词和特征文本的步骤为:
1)首先采用PLSA主题模型在关系矩阵X上进行主题建模,PLSA的输出结果为3个概率矩阵PWZ、PDZ、PZ,当单词数量为l,主题数量为k′时,PWZ={(p(wi|tj)):i=1,2,...,l;j=1,2,...,k′},其中p(wi|tj)表示单词wi在主题tj中的后验概率,也理解为单词wi在主题tj中的权重,所以
Figure BDA0000082033690000036
其中PWZ表示主题、单词后验概率分布矩阵,PDZ表示主题、文档后验概率分布矩阵,PZ表示主题概率分布矩阵;
2)定义每个事件的特征单词数量上限为σ=1,2,3...;
3)筛选突发热点事件,PWZ中的每个主题未必都对应于一个特征明显的网络事件,根据单词的权重分布来对k′个主题进行筛选,先对PWZ的每一列按照单词权重进行降序排列,主题tj通过筛选需要满足条件:存在1≤σj≤σ,使得在排序后的PWZ中
Figure BDA0000082033690000041
这里σj就是主题tj的特征单词数量,后对热点事件消除重复即可得到最终的网络突发热点事件;
4)计算突发热点事件的特征单词、特征文档,第j个主题在排序后的PWZ矩阵中,选取第j列的前σj个单词作为事件特征单词,同时根据函数TopicDocValue计算每个事件在每个文档上的特征值,排序后选取最大的若干个文档作为事件特征文档,
TopicDocValue ( t i , d j ) = Σ w q ∈ tw i p ( w q | t i ) * x qj .
所述的一种基于主题模型的网络突发热点事件检测方法,其特征在于根据热点事件的特征单词、单词日期分布矩阵计算热点事件的关注度日期分布的步骤为:
1)计算事件的关注度日期分布,根据以下公式,计算每个事件每天的关注度即可得到热点事件关注度日期分布矩阵,
TopicDateValue ( t i , j ) = Σ w q ∈ tw i p ( w q | t i ) * c 2 qj ;
其中ti表示第i个热点事件,j表示日期,wq表示第q个特征单词,c2qj表示单词wq在日期j出现的次数。
和现有技术相比,本发明使用主题模型进行主题建模,可以更加准确的对主题事件进行描述,其次,本发明还引入了单词的突发特性计算方法,并据此对数据集进行筛选,从而过滤掉时间无关主题,得到真正的突发热点事件。
附图说明
图1是基于主题模型的网络突发热点事件检测方法流程图;
图2是三个主要网络突发热点事件的关注度日期分布。
具体实施方式
基于主题模型的网络突发热点事件检测方法包括如下步骤:
1)首先对文档数据集进行分词处理,得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵;
2)根据文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵计算单词和文档的突发特性,并据此对数据集进行筛选;
3)然后对筛选后的数据集进行主题建模得到突发热点事件的特征单词和特征文本;
4)根据热点事件的特征单词、单词日期分布矩阵计算热点事件的关注度日期分布。
所述的首先对文档数据集进行分词处理,得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵的步骤为:
1)从文档数据集中提取出单词列表W={(wi):i=1,2,...,l},并统计每个单词在每个文档中的出现次数,从而得到文档单词关系矩阵X={(xij):i=1,2,...,l;j=1,2,...,n},其中wi表示第i个单词,xij表示单词wi在文档dj中出现的次数;
2)根据文档单词关系矩阵X得到单词文档分布矩阵C1={(c1i):i=1,2,...,l},其中c1i,表示出现过单词wi的文档数量;
3)根据文档单词关系矩阵X和文档日期分布得到单词日期分布矩阵C2={(c2ij):i=1,2,...,l;j=1,2,...,p},其中c2ij表示单词wi在日期j出现的次数,实际中,还在使用分布矩阵C2之前对其进行均值化处理,即c2ij=c2ij/sumj,sumj表示日期j当天出现的单词总量,这样消除文档数量日期分布不均匀对突发性检测的干扰。
所述的根据文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵计算单词和文档的突发特性,并据此对数据集进行筛选的步骤为:
1)根据单词文档分布矩阵C1对单词进行筛选,首先定义文档分布筛选系数β1、β2,并且0≤β1<β2≤1,然后使用函数WordFilter1对单词进行筛选,其中n表示集合D中的文档数量,通过小的系数β1,过滤掉出现频率较低的生僻单词,而大的系数β2则过滤掉出现频率较高的事件无关单词;
WordFilter 1 ( w i ) = true n * β 1 ≤ c 1 i ≤ n * β 2 false otherwise
2)定义并计算每个单词的突发特征值;
BurstyValue ( w i ) = 1 p Σ j = 1 p ( c 2 ij - c 2 i ‾ ) 2 / c 2 i ‾
其中
Figure BDA0000082033690000053
表示单词wi日期分布的平均值,这里的突发指数其实就是单词日期分布的标准差和平均值相除的结果,标准差用来描述单词日期分布的突发性,除以平均值则抵消不同单词整体出现频率差异的影响,这样得到的最终结果才准确的反应出每个单词日期分布的突发性;
3)根据突发特征值对单词进行筛选,单词突发指数反映了单词和突发事件相关的可能性,在此基础上定义单词筛选函数:
WordFilter 2 ( w i ) = true BurstyValue ( w i ) ≥ φ false otherwise
这里φ为单词突发指数阈值,用于过滤突发性较低的单词,除了使用固定阈值,还采用固定突发单词数量以及固定突发单词比例方式来筛选突发单词;
4)根据突发单词列表对文档进行筛选,文档过滤函数DocFilter定义如下:
DocFilter ( d i ) = true Σ w j ∈ W x ij > 0 false otherwise
即保留突发单词数量大于0的文档作为突发文档,然后就得到突发文档、突发单词关系矩阵X′={(x′ij):i=1,2,...,l′;j=1,2,...,n′}。
所述的对筛选后的数据集进行主题建模得到突发热点事件的特征单词和特征文本的步骤为:
1)首先采用PLSA主题模型在关系矩阵X上进行主题建模,PLSA的输出结果为3个概率矩阵PWZ、PDZ、PZ,当单词数量为l,主题数量为k′时,PWZ={(p(wi|tj)):i=1,2,...,l;j=1,2,...,k′},其中p(wi|tj)表示单词wi在主题tj中的后验概率,也理解为单词wi在主题tj中的权重,所以
Figure BDA0000082033690000063
其中PWZ表示主题、单词后验概率分布矩阵,PDZ表示主题、文档后验概率分布矩阵,PZ表示主题概率分布矩阵;
2)定义每个事件的特征单词数量上限为σ=1,2,3...;
3)筛选突发热点事件,PWZ中的每个主题未必都对应于一个特征明显的网络事件,根据单词的权重分布来对k′个主题进行筛选,先对PWZ的每一列按照单词权重进行降序排列,主题tj通过筛选需要满足条件:存在1≤σj≤σ,使得在排序后的PWZ中
Figure BDA0000082033690000064
这里σj就是主题tj的特征单词数量,后对热点事件消除重复即可得到最终的网络突发热点事件;
4)计算突发热点事件的特征单词、特征文档,第j个主题在排序后的PWZ矩阵中,选取第j列的前σj个单词作为事件特征单词,同时根据函数TopicDocValue计算每个事件在每个文档上的特征值,排序后选取最大的若干个文档作为事件特征文档,
TopicDocValue ( t i , d j ) = Σ w q ∈ tw i p ( w q | t i ) * x qj .
所述的根据热点事件的特征单词、单词日期分布矩阵计算热点事件的关注度日期分布的步骤为:
1)计算事件的关注度日期分布,根据以下公式,计算每个事件每天的关注度即可得到热点事件关注度日期分布矩阵,
TopicDateValue ( t i , j ) = Σ w q ∈ tw i p ( w q | t i ) * c 2 qj ;
其中ti表示第i个热点事件,j表示日期,wq表示第q个特征单词,c2qj表示单词wq在日期j出现的次数。
实施例
实验数据采用推特(Twitter)微博数据集,数据集包括从2011年4月13日至2011年5月11日的共281734篇文档、22063个单词,实验参数选取如下表所示:
Figure BDA0000082033690000073
由于推特(Twitter)文档较短,并且文档数量非常大,所以我们设置的文档分布筛选系数比较低,如果是在长篇新闻报道数据集上进行实验,则应该选取更大的筛选系数。经过筛选后得到290个特征单词、11768篇特征文档。
然后采用基于概率的潜在语义分析模型(PLSA)进行主题建模,初始主题数量设置为50,经过事件筛选、消除重复处理后共得到15个网络突发热点事件,其中3个事件特征单词数量为2,其余均只有一个特征单词,这是因为推特(Twitter)文档较短,本文采用的数据集平均每个文档只有6.789个不同的单词,事件特征单词见下表:
Figure BDA0000082033690000074
再计算每个事件最具代表性的两个文档,见下表:
Figure BDA0000082033690000081
然后计算每个事件29天内的关注度日期分布,其中关注度最大值在150以上的特大热点事件共3个,分别是事件2(本拉丹被击毙)、事件7(母亲节),事件12(NBA卫冕冠军湖人面对小牛三连败),它们的关注度日期分布见图2。

Claims (3)

1.一种基于主题模型的网络突发热点事件检测方法,其特征在于包括如下步骤:
1)首先对文档数据集进行分词处理,得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵;
2)根据文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵计算单词和文档的突发特性,并据此对文档数据集进行筛选;
3)然后对筛选后的文档数据集进行主题建模得到突发热点事件的特征单词和特征文档;
4)根据突发热点事件的特征单词、单词日期分布矩阵计算突发热点事件的关注度日期分布;
所述的首先对文档数据集进行分词处理,得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵的步骤为:
1)从文档数据集中提取出单词列表W={(wi):i=1,2,…,l},并统计每个单词在每个文档中的出现次数,从而得到文档单词关系矩阵X={(xij):i=1,2,…,l;j=1,2,…,n},其中wi表示第i个单词,xij表示单词wi在文档dj中出现的次数;
2)根据文档单词关系矩阵X得到单词文档分布矩阵C1={(c1i):i=1,2,…,l},其中c1i表示出现过单词wi的文档数量;
3)根据文档单词关系矩阵X和文档日期分布得到单词日期分布矩阵C2={(c2ij):i=1,2,…,l;j=1,2,…,p},其中c2ij表示单词wi在日期j出现的次数除以日期j当天出现的单词总量;
所述的根据文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵计算单词和文档的突发特性,并据此对文档数据集进行筛选的步骤为:
1)根据单词文档分布矩阵C1对单词进行筛选,首先定义文档分布筛选系数β1、β2,并且0≤β1<β2≤1,然后使用函数WordFilter1对单词进行筛选,其中n表示集合D中的文档数量,通过小的系数β1,过滤掉出现频率较低的生僻单词,而大的系数β2则过滤掉出现频率较高的事件无关单词;
WordFilter 1 ( w i ) = true n * β 1 ≤ c 1 i ≤ n * β 2 false otherwise
2)定义并计算每个单词的突发指数;
BurstyValue ( w i ) = 1 p Σ j = 1 p ( c 2 ij - c 2 i ‾ ) 2 / c 2 i ‾
其中
Figure FDA00003056849400022
表示单词wi日期分布的平均值,这里的单词突发指数其实就是单词日期分布的标准差和平均值相除的结果,标准差用来描述单词日期分布的突发性,除以平均值则抵消不同单词整体出现频率差异的影响,这样得到的最终结果才准确的反应出每个单词日期分布的突发性;
3)根据突发特征值对单词进行筛选,单词突发指数反映了单词和突发事件相关的可能性,在此基础上定义单词筛选函数:
WordFilter 2 ( w i ) = true BurstyValue ( w i ) ≥ φ false otherwise
这里φ为单词突发指数阈值,用于过滤突发性较低的单词,除了使用固定阈值,还采用固定突发单词数量以及固定突发单词比例方式来筛选突发单词;
4)根据突发单词列表对文档进行筛选,文档过滤函数DocFilter定义如下:
DocFilter ( d i ) = true Σ w j ∈ W x ij > 0 false otherwise
即保留突发单词数量大于0的文档作为突发文档,然后就得到突发文档、突发单词关系矩阵X'={(x'ij):i=1,2,…,l';j=1,2,…,n'}。
2.根据权利要求1所述的一种基于主题模型的网络突发热点事件检测方法,其特征在于然后对筛选后的文档数据集进行主题建模得到突发热点事件的特征单词和特征文档的步骤为:
1)首先采用PLSA主题模型在文档单词关系矩阵X上进行主题建模,PLSA的输出结果为3个概率矩阵PWZ、PDZ、PZ,当单词数量为l,主题数量为k'时,PWZ={(p(wi|tj)):i=1,2,…,l;j=1,2,…,k'},其中p(wi|tj)表示单词wi在主题tj中的后验概率,所以
Figure FDA00003056849400025
其中PWZ表示主题、单词后验概率分布矩阵,PDZ表示主题、文档后验概率分布矩阵,PZ表示主题概率分布矩阵;
2)定义每个事件的特征单词数量上限为σ,其中σ为正整数;
3)筛选突发热点事件,PWZ中的每个主题未必都对应于一个特征明显的网络事件,根据单词的权重分布来对k'个主题进行筛选,先对PWZ的每一列按照单词权重进行降序排列,主题tj通过筛选需要满足条件:存在1≤σj≤σ,使得在排序后的PWZ中
Figure FDA00003056849400031
这里σj就是主题tj的特征单词数量,后对热点事件消除重复即可得到最终的网络突发热点事件;
4)计算突发热点事件的特征单词、特征文档,第j个主题在排序后的PWZ矩阵中,选取第j列的前σj个单词作为事件特征单词,同时根据函数TopicDocValue计算每个事件在每个文档上的特征值,排序后选取最大的若干个文档作为事件特征文档,
TopicDocValue ( t i , d j ) = Σ w q ∈ tw i p ( w q | t i ) * x qj .
3.根据权利要求1所述的一种基于主题模型的网络突发热点事件检测方法,其特征在于根据热点事件的特征单词、单词日期分布矩阵计算热点事件的关注度日期分布的步骤为:
1)计算事件的关注度日期分布,根据以下公式,计算每个事件每天的关注度即可得到热点事件关注度日期分布矩阵,
TopicDateValue ( t i , j ) = Σ w q ∈ tw i p ( w q | t i ) * c 2 qj ;
其中ti表示第i个热点事件,j表示日期,wq表示第q个特征单词,c2qj表示单词wq在日期j出现的次数除以日期j当天出现的单词总量。
CN 201110226821 2011-08-09 2011-08-09 基于主题模型的网络突发热点事件检测方法 Expired - Fee Related CN102289487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110226821 CN102289487B (zh) 2011-08-09 2011-08-09 基于主题模型的网络突发热点事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110226821 CN102289487B (zh) 2011-08-09 2011-08-09 基于主题模型的网络突发热点事件检测方法

Publications (2)

Publication Number Publication Date
CN102289487A CN102289487A (zh) 2011-12-21
CN102289487B true CN102289487B (zh) 2013-09-04

Family

ID=45335914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110226821 Expired - Fee Related CN102289487B (zh) 2011-08-09 2011-08-09 基于主题模型的网络突发热点事件检测方法

Country Status (1)

Country Link
CN (1) CN102289487B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729388A (zh) * 2012-10-16 2014-04-16 北京千橡网景科技发展有限公司 用于网络用户发表状态的实时热点检测方法
CN103631862B (zh) * 2012-11-02 2017-01-11 中国人民解放军国防科学技术大学 基于微博的事件特征演化挖掘方法及系统
CN103942226B (zh) * 2013-01-23 2018-07-10 腾讯科技(深圳)有限公司 获取热点内容的方法和装置
CN104281670B (zh) * 2014-09-28 2017-12-15 北京航空航天大学 一种社交网络事件的实时增量式检测方法和系统
CN105763585A (zh) * 2014-12-17 2016-07-13 中兴通讯股份有限公司 一种实现数据推送的方法和gslb
CN104573031B (zh) * 2015-01-14 2018-06-05 哈尔滨工业大学深圳研究生院 一种微博突发事件检测方法
CN104615685B (zh) * 2015-01-22 2018-01-26 中国科学院计算技术研究所 一种面向网络话题的热度评价方法
CN104881399B (zh) * 2015-05-15 2017-10-27 中国科学院自动化研究所 基于概率软逻辑psl的事件识别方法和系统
CN104991956B (zh) * 2015-07-21 2018-07-31 中国人民解放军信息工程大学 基于主题概率模型的微博传播群体划分与账户活跃度评估方法
CN105574105B (zh) * 2015-12-14 2019-05-28 北京锐安科技有限公司 一种文本分类模型的确定方法
CN106055699B (zh) * 2016-06-15 2018-07-06 腾讯科技(深圳)有限公司 一种特征聚类的方法及装置
CN107688596B (zh) * 2017-06-09 2020-02-21 平安科技(深圳)有限公司 突发话题检测方法及突发话题检测设备
CN110147482B (zh) * 2017-09-11 2021-06-22 上海优扬新媒信息技术有限公司 用于获取突发热点主题的方法和装置
CN108519993B (zh) * 2018-03-02 2022-03-29 华南理工大学 基于多数据流计算的社交网络热点事件检测方法
CN109033069B (zh) * 2018-06-16 2022-05-17 天津大学 一种基于社会媒体用户动态行为的微博主题挖掘方法
CN112257429B (zh) * 2020-10-16 2024-04-16 北京工商大学 基于bert-btm网络的微博突发事件检测方法
CN112328735A (zh) * 2020-11-11 2021-02-05 河北工程大学 热点话题确定方法、装置及终端设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9576251B2 (en) * 2009-11-13 2017-02-21 Hewlett Packard Enterprise Development Lp Method and system for processing web activity data
CN101980199A (zh) * 2010-10-28 2011-02-23 北京交通大学 基于态势评估的网络热点话题发现方法及系统

Also Published As

Publication number Publication date
CN102289487A (zh) 2011-12-21

Similar Documents

Publication Publication Date Title
CN102289487B (zh) 基于主题模型的网络突发热点事件检测方法
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
McMinn et al. Building a large-scale corpus for evaluating event detection on twitter
CN103390051B (zh) 一种基于微博数据的话题发现与追踪方法
CN101980199A (zh) 基于态势评估的网络热点话题发现方法及系统
CN104573054A (zh) 一种信息推送方法和设备
TWI501097B (zh) 文字串流訊息分析系統和方法
Ma et al. Natural disaster topic extraction in sina microblogging based on graph analysis
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN104991956A (zh) 基于主题概率模型的微博传播群体划分与账户活跃度评估方法
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN101394311A (zh) 一种基于时间序列的网络舆情预测方法
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN103577404A (zh) 一种面向微博的全新突发事件发现方法
CN104063521A (zh) 搜索业务实现方法和装置
CN103207860A (zh) 舆情事件的实体关系抽取方法和装置
CN103049443A (zh) 一种挖掘热点词的方法与装置
CN102779190A (zh) 一种时序海量网络新闻的热点事件快速检测方法
CN101894129B (zh) 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
CN105378730A (zh) 社交媒体分析与输出
WO2017075912A1 (zh) 一种新闻事件抽取方法及系统
CN103823890A (zh) 一种针对特定群体的微博热点话题检测方法及装置
CN107220902A (zh) 在线社会网络的级联规模预测方法
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN103246728A (zh) 一种基于文档词汇特征变化的突发事件检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130904

Termination date: 20180809