CN102982110A - 在物理空间上提取网络空间热点事件信息的方法 - Google Patents

在物理空间上提取网络空间热点事件信息的方法 Download PDF

Info

Publication number
CN102982110A
CN102982110A CN2012104430724A CN201210443072A CN102982110A CN 102982110 A CN102982110 A CN 102982110A CN 2012104430724 A CN2012104430724 A CN 2012104430724A CN 201210443072 A CN201210443072 A CN 201210443072A CN 102982110 A CN102982110 A CN 102982110A
Authority
CN
China
Prior art keywords
physical space
cyberspace
information
focus incident
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104430724A
Other languages
English (en)
Other versions
CN102982110B (zh
Inventor
徐常胜
鲍秉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201210443072.4A priority Critical patent/CN102982110B/zh
Publication of CN102982110A publication Critical patent/CN102982110A/zh
Application granted granted Critical
Publication of CN102982110B publication Critical patent/CN102982110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种在物理空间上提取网络空间热点事件信息的方法,包括如下步骤:S1、在网络空间中提取热点事件关键词集;S2、对所述来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类;S3、根据所述协同聚类的聚类结果提取物理空间中与热点事件相关的信息样本。本发明利用物理空间和网络空间的信息样本的关联性与互补性,解决了检索物理空间中与网络空间热点事件相关的信息样本,为网络热点事件的言论提供物理空间关联信息作为参考依据,不仅可以让用户快速、全面地了解热点事件的相关信息,同时也增强了用户对不良信息和谣言的辨别能力。

Description

在物理空间上提取网络空间热点事件信息的方法
技术领域
本发明属于数字信息处理技术领域,具体涉及与网络多媒体信息相关的数字信息处理,特别是基于多源异质媒体集的协同聚类的在物理空间上提取网络空间热点事件信息的方法。
背景技术
随着信息技术的发展和互联网的普遍应用,越来越多的人习惯于在网络上分享新闻、发表个人见解、讨论热门话题,甚至记录日常生活琐屑。网络空间数据是指在互联网上共享的各类社会感知数据,包括用户共享的文本、图像、视频、音频等多媒体数据。由于快速、便捷、普遍等特点,互联网络已经成为人们获取信息的一个重要途径。然而事物总有其两面性,用户在网络上的正当行为可以促使进步、健康、有益的正面信息在网络空间中传播,而不当行为可能散布反动、迷信、低级的具有误导性或危害性的言论。不当行为甚至可能将进一步误导舆论或者妨碍到公共安全。
相对于网络空间,物理空间中的数据主要指能够反映真实物理存在的信息数据,包括新闻、监控视频以及原始照片等。可见,来源于确定的物理空间的信息较为可信、真实,有助于用户辨别来自网络空间的信息的真实性和可靠性。因此研究如何在物理空间中提取网络空间的热点事件信息的方法是非常必要和迫切的。
但是在目前的研究中,网络空间数据的舆情性和物理空间数据的真实性,并没有得到很好的重视和利用。现有方法多数局限于只在单一空间上分析数据,例如对网络空间的热点信息的分析,以及对物理空间数据的异常检测。而针对物理空间和网络空间数据的交互和融合,还没有系统的研究工作。
此外,目前对于热点事件的言论及其相关信息的挖掘,现有方法主要是采用有效的数据集上进行聚类的方法,比如基于谱的分割方法(spectralgraph partition)、k均值聚类(K-means)等,但这些方法都局限于在单一媒体集上。
发明内容
(一)要解决的技术问题
本发明需要解决的技术问题主要为:如何利用多源异质数据集之间语义关联,发现网络空间热点事件在物理空间中最为相关的信息样本,以在物理空间上提取网络空间热点事件信息,从而帮助用户甄别网络空间中信息的真实性。
(二)技术方案
为了解决上述技术问题,本发明提出了一种在物理空间上提取网络空间热点事件信息的方法,包括如下步骤:S1、在网络空间中提取热点事件关键词集;S2、对所述来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类;S3、根据所述协同聚类的聚类结果提取物理空间中与热点事件相关的信息样本。
其中步骤S1可以包括:对热点事件的每个关键词进行分析,根据每个关键词在各个时间间隔上的突发程度,赋予其不同的突发指数,以此在每个时间间隔上返回一组突发程度较高的关键词集。
其中步骤S2包括:S21、计算物理空间中的多源异质信息样本的语义关联度;S22、根据所述热点事件关键词对物理空间中的多源异质数据集进行协同聚类。
返回到第S222步。
其中步骤S3包括:S31、返回物理空间各个数据集中与指定热点事件相关度最高的若干个聚类,其中相关度最高的若干个聚类可以由联合概率大于给定阈值来确定;S32、在各个数据集返回的聚类上,计算其中的每个样本与热点事件的相似度;S33、每个数据集返回相关度最大的指定个样本作为最终的结果。
(三)有益效果
本发明利用物理空间和网络空间的信息样本的关联性与互补性,提出了多源异质数据集的协同聚类方法,解决了检索物理空间中与网络空间热点事件相关的信息样本,为网络热点事件的言论提供物理空间关联信息作为参考依据,不仅可以让用户快速、全面地了解热点事件的相关信息,同时也增强了用户对不良信息和谣言的辨别能力。
本发明通过计算信息样本间的文本、图片、视频等多媒体信息的相关性,极大地提高了聚类和样本检索的准确性。
附图说明
图1示出了来自网络空间的热点事件关键词集与来自物理空间的照片集、视频集、新闻集之间的关系;
图2是本发明所提出的在物理空间上提取网络空间热点事件信息的方法的示意图;
图3是本发明采用的基于信息理论(Information Theoretic)的聚类方法求解一般化结构的协同聚类问题的示意图;
图4示出了本发明的一个实施例在各个时间间隔里提取的前15个热点关键词和突发指数;
图5示出了本发明的一个实施例挖掘出来的网络空间热点事件列表;
图6示出了本发明的一个实施例第一周中与各个热点事件相关的物理空间的信息样本。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
如前所述,在本发明中,网络空间数据是指在互联网上,共享的各类社会感知数据,包括用户共享的文本、图像、视频、音频等多媒体数据,物理空间中的数据主要指能够反映真实物理存在的信息数据,包括新闻、监控视频以及原始照片等。
为了有效地挖掘网络空间的热点事件,同时发现物理空间中与之相关的样本信息,本发明提出多源异质数据集的协同聚类的方法。这一方法与传统的聚类技术比较,具有普遍性,且更适合于当前比较热门的微博平台。
多源异质数据集的协同聚类方法考虑来自不同源数据集样本的跨源跨媒体相关性,利用物理空间与网络空间信息的关联性和互补性,对所有数据源数据进行同时聚类。在本发明中,所涉及到的多源异质数据集包括从网络空间检测到的热点事件关键词集,也包括来自物理空间的照片集、视频集和新闻集。
图1示出了来自网络空间的热点事件关键词集与来自物理空间的照片集、视频集、新闻集之间的关系,如图1所示,物理空间与网络空间的各个数据集之间具有两两的相连性与互补性。
图2是本发明所提出的在物理空间上提取网络空间热点事件信息的方法的示意图。图2示出了来自两个空间的多源异质数据集之间的语义关联。由图2可以看出,任意两个数据集都是相关的,这些关联关系就是本发明所提出的协同聚类方法的基础。
本发明的方法包含三个步骤:S1、在网络空间中提取热点事件关键词集;S2、对来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类;S3、根据聚类结果提取物理空间中与热点事件相关的信息样本。
S1、在网络空间中提取热点事件关键词集。
事件总是与一组关键词相关的,比如日本2011年3月11日的大地震,这一事件就与“地震”、“核泄露”和“福岛”等关键词相关。因此热点事件关键词提取是热点事件检测的关键步骤。不同于一般的事件检测方法,由于热点事件检测注重分析事件在时间维度上的变化特征,所以本发明对每个关键词进行分析,根据其在各个时间间隔上的突发程度,赋予其不同的突发指数,以此在每个时间间隔上返回一组突发程度较高的关键词集。所谓突发是指在短时间内某一事物发生的频率急剧增多。
本发明把每个关键词看成是一个生命体,当一个新的关键词出现时,他的生命就开始了,随后我们可以利用下面的步骤对其进行分析计算。
摄入新营养:在这个关键词存活的每个时间间隔里,它都将根据其当前时间间隔的热度,摄入新的营养,新的营养可以用“词频-比例文档频率”(Term frequency-Proportional document frequency)计算得出。设关键词w的摄入新营养为newNutri(w),计算公式如下:
newNutri ( w ) = | F ( w ) | exp n ( w ) N ,
其中 | F ( w ) | = F ( w ) / Σ k F ( w ) 2 , 且Fk(w)=∑s∈sf(w,s)。其中nk(w)表示关键词w出现的次数,N表示文档的个数,f(w,s)表示关键词w在第s个文档中出现的次数。
转换能量:新摄入的营养将很快地转换成可供生命延续的能量,转换函数定义如下
getEng ( newNutri ( w ) ) = newNutri ( w ) 1 + newNutri ( w ) newNutri ( w ) > 0 0 otherwise .
消耗能量:在每个时间间隔,关键词为维持生命也会消耗掉一部分能量,设关键词w的当前能量为eng(w),消耗函数定义如下
engDacay ( eng ( w ) ) = eng ( w ) - d ifeng ( w ) > d 0 otherwise ,
其中,d是衰退常量。
死亡:最后当能量完全消耗完时,这个关键词的生命就终止了。
在每个时间间隔上,通过下面的公式计算每个关键词的能量方差:
a keyword ( w ) = 1 | t | Σ ( oldEng ( w ) - oldEng ( w ) ‾ ) 2 , 其中akeyword(w)表示关键词w能量方差,|t|表示时间间隔的个数,oldEng(w)表示关键词w在当前时刻的能量,而热点关键词集则是由突发指数大于给定阈值的关键词所组成。
S2、对来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类。
物理空间与网络空间的信息之间具有非常强关联性与互补性,基于此,本发明创新地结合物理空间的信息,来提高网络空间热点事件挖掘的准确率。利用物理空间的各个数据集(比如,照片集、视频集和新闻集等)与热点关键词集之间的样本语义关联,对这些数据集进行协同聚类。我们将首先介绍来自不同数据集的样本间语义关联的计算方法,再给出多源异质数据集的协同聚类方法。
S21、计算物理空间中的多源异质信息样本的语义关联度。
一般情况下,物理空间的照片集、视频集和新闻集的信息样本都具有多种模态。其中,照片集具有文本和图像模态,其中文本模态包括用户对照片集的标注等;视频集具有文本和视频模态,其中文本模态不仅包括用户标注还包括从视频的音频信息中语音识别出的文本信息;而新闻集具有文本、图像和视频三种模态。因此,来自于多源异质信息样本间的语义关联需要融合了文本、图像以及视频等多种模态的相似度。设这三种相似度分别为S1,S2和S3,其计算公式可以采用目前常用的单模态媒体之间的相似度计算公式,比如
S 1 = e - [ t 1 t 2 ′ / ( 2 θ | | t 1 | | t 2 | | ) ] 2 ,
S 2 = e - [ | | m 1 - m 2 | | / ( 2 θ ) ] 2 ,
S 3 = &Sigma; v 1 &Element; V 1 1 { v 2 &Element; V 2 : d ( v 1 , v 2 ) < &Element; } + &Sigma; v 2 &Element; V 2 1 { v 1 &Element; V 1 : d ( v 2 , v 1 ) < &Element; } | V 1 | + | V 2 | ,
其中t1,t2分别为来自多源异质信息样本的文本特征,t′2为t2的转置,θ为可调参数,m1,m2分别为多源异质信息样本的图像特征,而V1,V2是多源异质信息样本的两个视频序列,v1,v2分别是这两个视频序列里的帧,∈是给定的阈值,|·|表示给定视频里所含帧的个数。
通过融合S1,S2和S3,我们可以得到多源异质信息样本间的相关度C,
C = &tau; 1 S 1 + &tau; 2 S 2 + &tau; 3 S 3 &tau; 1 + &tau; 2 + &tau; 3 ,
其中τ1,τ2,τ3是平衡系数。
步骤S22、根据热点事件关键词对物理空间中的多源异质数据集进行协同聚类。
物理空间与网络空间的信息虽然存在于多模态、异质多源的不同数据集中,但这些数据集的样本之间具有非常紧密的语义相关关系,因此对不同来源的数据集进行独立聚类的这一传统事件挖掘方法并不能得到非常好的效果。比如“福冈”和“地震”两个关键词之间并没有太强的语义关系,但是如果与图像、视频与新闻等其它来源的信息载体相结合,这两个关键词就因为“2011年3月11日日本大地震”而聚类到同一事件中。因此在本发明中,我们将考虑来自不同源数据集的样本间的相互语义关联,对多源数据集进行同时聚类。
由于涉及到多个数据集之间的协同聚类,因此需要采用高维聚类的方法。目前高维协同聚类(high-order co-clustering)主要研究星型结构的协同聚类,即在多源数据集中,有一个主数据集,与其它次样本集是相互相关的,而次样本集之间是相互独立的。而在我们的间题中,物理空间和网络空间中的各个样本集相互之间都含有潜在的语义相关关系,因此现有的星型结构并不适用,因此我们需要研究具有一般化结构的协同聚类方法,即任意两个数据集均相互关联。星型结构可以看做为一般化结构的一个特例,即次样本集之间的相关度为0。
在本发明中,我们采用基于信息理论(Information Theoretic)的聚类方法求解这种一般化结构的协同聚类问题。基于信息理论的聚类方法是将跨样本集的相关关系表示为分别位于多个数据集里的离散随机变量的联合概率矩阵,而聚类的目标则是,对于原有的多个数据集找到其对应的聚类,使得在聚类上的联合概率矩阵对于原始的联合概率矩阵的互信息(mutual information)损失最小。如图3所示,对数据集X和Y进行协同聚类,得到的
Figure BDA00002373405200072
需要满足聚类后的联合概率密度
Figure BDA00002373405200073
的互信息与聚类前的联合概率密度p(x,y)尽量接近。
在步骤S21中,我们已经得到分别来自两个数据源的任何样本x1,x2间的相关度C(x1,x2),则这两个数据源上的联合概率矩阵可以通过下式计算得出
p 12 ( x 1 , x 2 ) = C ( x 1 , x 2 ) &Sigma; x 1 &Sigma; x 2 C ( x 1 , x 2 )
设数据源个数为n个,x1,x2,…,xn为分别来自不同数据源的样本,p12,p13,…,pn-1,n是任意两个数据集的联合概率矩阵,我们的目标即是找到各个数据集上最优的聚类,使得聚类后的联合概率矩阵
Figure BDA00002373405200075
Figure BDA00002373405200076
...,
Figure BDA00002373405200077
互信息损失最小。
如果我们将这个目标分为各个子目标来完成,即分别寻找从p12从p13
Figure BDA00002373405200082
……,以及从pn-1,n到
Figure BDA00002373405200083
互信息损失最小的聚类,则有很大的概率所得到的数据集上的聚类并不相同。比如基于p12得到的第一个数据集的聚类与基于p13得到的结果并不相同。因此,我们并不寻找可以使各个子目标达到局部最优的结果,而是寻找使这些子目标的线性组合达到全局最优的结果。其具体的优化步骤如下所述:
S221、首先对每个数据集给定一个初始聚类,得到相应的聚类后的联合概率矩阵,并计算原始数据集的联合概率矩阵的互信息;
S222、对每个数据集{xi}:寻找这个数据集中任意样本的最优目标聚类,使得满足子目标的线性组合最优,根据{xi}的新的聚类结构,更新聚类后的联合概率矩阵;
S223、将所有数据集的聚类更新后,计算聚类后的联合概率矩阵的互信息;
S224、如果原始互信息与聚类后的互信息的差小于给定阈值,则结束,否则返回到第S222步。
由此我们可以得到网络空间中各个时间间隔上的热点事件关键词聚类。而各个聚类关键词的平均突发指数则衡量了这个热点事件的突发程度。通过对平均突发指数的排序,可以得到各个时间段的热点事件的排序。
步骤S3、根据聚类结果提取物理空间中与热点事件相关的信息样本。
基于步骤S2中得到的各个时间间隔上的热点事件,本发明可以自动地发现物理空间中与之相关的信息样本。通过浏览这些信息样本,网络用户不但可以较为全面地了解任何时间的热点事件,而且还能提高自身对网络空间中不真实信息的甑别能力。
在步骤S2中,我们不仅可以得到网络空间的热点关键词的聚类,还可以计算出两个空间中多种数据集聚类之间的联合概率。因此,在物理空间中发现与某个网络空间热点事件相关的信息样本可以分别三个步骤:
S31、返回物理空间各个数据集中与指定热点事件相关度最高的若干个聚类,其中相关度最高的若干个聚类可以由联合概率大于给定阈值来确定;
S32、在各个数据集返回的聚类上,计算其中的每个样本与热点事件的相似度;
S33、每个数据集返回相关度最大的指定个样本作为最终的结果。
实施例:
本发明适用于网络空间与物理空间中的所有数据源。为了评估本发明,我们选择2011年3月11日至2011年3月31日这一时间段来展示其实施效果,其中网络空间的数据集为推特数据,物理空间则选择了来着于纽约时报(New York Times)的新闻,和来自于图片分享网站Flickr的原始照片,而时间间隔选为一周时间(本发明适用于任意时间间隔)。
图4显示了各个时间间隔里提取的前15个热点关键词和突发指数。由结果可以看出,第一周前三个关键词都是与日本地震有关,而第四个关键词“Oscars”(奥斯卡)则是与奥斯卡在二月底三月初召开有关。在第三周中,第五个关键词“Taylor”(泰勒)和第十个“Elizabeth”(伊莉莎白),则是对应著名影星泰勒·伊莉莎白在3月23日逝世。
图5显示挖掘出来的网络空间热点事件列表。其中黑色字体表示不属于这个事件。相比于传统的单数据集聚类和多源数据集星型结构协同聚类,本发明提出的多源异质数据集协同聚类方法(基于一般化结构)更为准确。
图6显示了第一周中与各个热点事件相关的物理空间的信息样本。其中“Nate Dogg逝世”这一事件中,我们发现了粉丝自发展开的悼念活动的照片,这比新闻信息更为丰富。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种在物理空间上提取网络空间热点事件信息的方法,其特征在于,包括如下步骤:
S1、在网络空间中提取热点事件关键词集;
S2、对所述来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类;
S3、根据所述协同聚类的聚类结果提取物理空间中与热点事件相关的信息样本。
2.如权利要求1所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,所述步骤S1包括:对热点事件的每个关键词进行分析,根据每个关键词在各个时间间隔上的突发程度,赋予其不同的突发指数,以此在每个时间间隔上返回一组突发程度较高的关键词集,所谓突发是指在短时间内某一事物发生的频率急剧增多。
3.如权利要求2所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,在步骤S1中,在每个时间间隔上,通过下面的公式计算每个关键词的能量方差:
a keyword ( w ) = 1 | t | &Sigma; ( oldEng ( w ) - oldEng ( w ) &OverBar; ) 2 ,
并用这个数值作为此关键词在当前时段的突发指数,其中akeyword(w)表示关键词w能量方差,|t|表示时间间隔的个数,oldEng(w)表示关键词w在当前时刻的能量。
4.如权利要求1所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,所述步骤S2包括:
S21、计算物理空间中的多源异质信息样本的语义关联度;
S22、根据所述热点事件关键词对物理空间中的多源异质数据集进行协同聚类。
5.如权利要求4所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,所述多源异质信息样本包括文本、图像和视频信息。
6.如权利要求5所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,通过下式公式计算所述多源异质信息样本间的语义相关度C:
C = &tau; 1 S 1 + &tau; 2 S 2 + &tau; 3 S 3 &tau; 1 + &tau; 2 + &tau; 3 ,
其中τ1,τ2,τ3是平衡系数,S1,S2和S3分别为多源异质信息样本的文本、图像和视频的相似度。
7.如权利要求6所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,所述多源异质信息样本的文本、图像和视频的相似度的计算公式为:
S 1 = e - [ t 1 t 2 &prime; / ( 2 &theta; | | t 1 | | t 2 | | ) ] 2 ,
S 2 = e - [ | | m 1 - m 2 | | / ( 2 &theta; ) ] 2 ,
S 3 = &Sigma; v 1 &Element; V 1 1 { v 2 &Element; V 2 : d ( v 1 , v 2 ) < &Element; } + &Sigma; v 2 &Element; V 2 1 { v 1 &Element; V 1 : d ( v 2 , v 1 ) < &Element; } | V 1 | + | V 2 | ,
其中t1,t2分别为来自多源异质信息样本的文本特征,t′2为t2的转置,θ为可调参数。m1,m2分别为多源异质信息样本的图像特征,而V1,V2是多源异质信息样本的两个视频序列,v1,v2分别是这两个视频序列里的帧,∈是给定的阈值,|·|表示给定视频里所含帧的个数。
8.如权利要求4所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,所述步骤S22包括:
设数据源个数为n个,x1,x2,…,xn为分别来自不同数据源的样本,p12,p13,…,pn-1,n是任意两个数据集的联合概率矩阵,找到各个数据集上最优的聚类,使得聚类后的联合概率矩阵
Figure FDA00002373405100026
…,
Figure FDA00002373405100027
互信息损失最小,其中,两个数据源上的联合概率矩阵可以通过下式计算得出:
p 12 ( x 1 , x 2 ) = C ( x 1 , x 2 ) &Sigma; x 1 &Sigma; x 2 C ( x 1 , x 2 ) .
9.如权利要求8所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,所述步骤S22包括:
S221、首先对每个数据集给定一个初始聚类,得到相应的聚类后的联合概率矩阵,并计算原始数据集的联合概率矩阵的互信息;
S222、对每个数据集{xi}:寻找这个数据集中任意样本的最优目标聚类,使得满足子目标的线性组合最优,根据{xi}的新的聚类结构,更新聚类后的联合概率矩阵;
S223、将所有数据集的聚类更新后,计算聚类后的联合概率矩阵的互信息;
S224、如果原始互信息与聚类后的互信息的差小于给定阈值,则结束,否则返回到第S222步。
10.如权利要求8所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,所述步骤S3包括:
S31、返回物理空间各个数据集中与指定热点事件相关度最高的若干个聚类,其中相关度最高的若干个聚类可以由联合概率大于给定阈值来确定;
S32、在各个数据集返回的聚类上,计算其中的每个样本与热点事件的相似度;
S33、每个数据集返回相关度最大的指定个样本作为最终的结果。
CN201210443072.4A 2012-11-08 2012-11-08 在物理空间上提取网络空间热点事件信息的方法 Active CN102982110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210443072.4A CN102982110B (zh) 2012-11-08 2012-11-08 在物理空间上提取网络空间热点事件信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210443072.4A CN102982110B (zh) 2012-11-08 2012-11-08 在物理空间上提取网络空间热点事件信息的方法

Publications (2)

Publication Number Publication Date
CN102982110A true CN102982110A (zh) 2013-03-20
CN102982110B CN102982110B (zh) 2015-04-01

Family

ID=47856128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210443072.4A Active CN102982110B (zh) 2012-11-08 2012-11-08 在物理空间上提取网络空间热点事件信息的方法

Country Status (1)

Country Link
CN (1) CN102982110B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404890A (zh) * 2015-10-13 2016-03-16 广西师范学院 一种顾及轨迹时空语义的犯罪团伙判别方法
CN106156042A (zh) * 2015-03-26 2016-11-23 科大讯飞股份有限公司 热点信息展示方法及系统
CN106257449A (zh) * 2015-06-19 2016-12-28 阿里巴巴集团控股有限公司 一种信息确定方法和装置
CN106570140A (zh) * 2016-05-26 2017-04-19 中科鼎富(北京)科技发展有限公司 确定信息热点的方法及装置
CN110083654A (zh) * 2019-04-30 2019-08-02 中国船舶工业综合技术经济研究院 一种面向国防科技领域的多源数据融合方法及系统
CN112035669A (zh) * 2020-09-09 2020-12-04 中国科学技术大学 基于传播异质图建模的社交媒体多模态谣言检测方法
CN113420723A (zh) * 2021-07-21 2021-09-21 北京有竹居网络技术有限公司 获取视频热点的方法、装置、可读介质和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101605132A (zh) * 2009-07-13 2009-12-16 深圳市深信服电子科技有限公司 一种网络数据流识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101605132A (zh) * 2009-07-13 2009-12-16 深圳市深信服电子科技有限公司 一种网络数据流识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YANTAO ZHENG等: "Tour the World: building a web-scale landmark recognition engine", 《COMPUTER VISION AND PATTERN RECOGNITION, 2009. CVPR 2009. IEEE CONFERENCE ON 》 *
吴彪: "基于信息论的特征加权和主题驱动协同聚类算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
周亚东等: "流量内容词语相关度的网络热点话题提取", 《西安交通大学学报》 *
杨永红: "基于数据挖掘技术的网络舆情研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156042A (zh) * 2015-03-26 2016-11-23 科大讯飞股份有限公司 热点信息展示方法及系统
CN106156042B (zh) * 2015-03-26 2020-02-07 科大讯飞股份有限公司 热点信息展示方法及系统
CN106257449A (zh) * 2015-06-19 2016-12-28 阿里巴巴集团控股有限公司 一种信息确定方法和装置
CN106257449B (zh) * 2015-06-19 2019-11-12 阿里巴巴集团控股有限公司 一种信息确定方法和装置
CN105404890A (zh) * 2015-10-13 2016-03-16 广西师范学院 一种顾及轨迹时空语义的犯罪团伙判别方法
CN105404890B (zh) * 2015-10-13 2018-10-16 广西师范学院 一种顾及轨迹时空语义的犯罪团伙判别方法
CN106570140A (zh) * 2016-05-26 2017-04-19 中科鼎富(北京)科技发展有限公司 确定信息热点的方法及装置
CN106570140B (zh) * 2016-05-26 2018-03-02 中科鼎富(北京)科技发展有限公司 确定信息热点的方法及装置
CN110083654A (zh) * 2019-04-30 2019-08-02 中国船舶工业综合技术经济研究院 一种面向国防科技领域的多源数据融合方法及系统
CN112035669A (zh) * 2020-09-09 2020-12-04 中国科学技术大学 基于传播异质图建模的社交媒体多模态谣言检测方法
CN113420723A (zh) * 2021-07-21 2021-09-21 北京有竹居网络技术有限公司 获取视频热点的方法、装置、可读介质和电子设备

Also Published As

Publication number Publication date
CN102982110B (zh) 2015-04-01

Similar Documents

Publication Publication Date Title
CN102982110B (zh) 在物理空间上提取网络空间热点事件信息的方法
Wan et al. Aminer: Search and mining of academic social networks
Wang et al. Mining geographic knowledge using location aware topic model
Day et al. Reference metadata extraction using a hierarchical knowledge representation framework
Carvalho et al. MISNIS: An intelligent platform for twitter topic mining
Wan et al. Automatic labeling of topic models using text summaries
Xu et al. Detecting bursts in sentiment-aware topics from social media
Yao et al. Bursty event detection from collaborative tags
Gao et al. Semantic-enhanced topic evolution analysis: a combination of the dynamic topic model and word2vec
Mottaghinia et al. A review of approaches for topic detection in Twitter
Wang et al. A news-topic recommender system based on keywords extraction
Xu et al. Wikipedia‐based topic clustering for microblogs
Li et al. News contextualization with geographic and visual information
Huang et al. Improving biterm topic model with word embeddings
Lin et al. Exploiting temporal information in Web search
Ouyang et al. Sentistory: multi-grained sentiment analysis and event summarization with crowdsourced social media data
CN102073646A (zh) 一种面向博客群的主题倾向性处理方法及系统
Wang et al. Multi-modal mention topic model for mentionee recommendation
Skoric The implications of big data for developing and transitional economies: Extending the Triple Helix?
Jing et al. Integration of text and image analysis for flood event image recognition
Xu et al. Optimizing E-commerce Search: Toward a Generalizable and Rank-Consistent Pre-Ranking Model
Chen et al. THC-DAT: a document analysis tool based on topic hierarchy and context information
Xuan et al. Explicitly and implicitly exploiting the hierarchical structure for mining website interests on news events
Katsurai Bursty research topic detection from scholarly data using dynamic co-word networks: A preliminary investigation
Gupta et al. Eventminer: Mining events from annotated documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant