CN102982157A - 用于挖掘微博热点话题的装置及方法 - Google Patents

用于挖掘微博热点话题的装置及方法 Download PDF

Info

Publication number
CN102982157A
CN102982157A CN2012105086705A CN201210508670A CN102982157A CN 102982157 A CN102982157 A CN 102982157A CN 2012105086705 A CN2012105086705 A CN 2012105086705A CN 201210508670 A CN201210508670 A CN 201210508670A CN 102982157 A CN102982157 A CN 102982157A
Authority
CN
China
Prior art keywords
microblogging
keyword sets
classification
popular keyword
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105086705A
Other languages
English (en)
Inventor
刘晓丽
林英杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN2012105086705A priority Critical patent/CN102982157A/zh
Publication of CN102982157A publication Critical patent/CN102982157A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于挖掘微博热点话题的装置及方法。该方法包括:通过开放接口采集微博信息;对采集的所述微博内容进行分词,并抽取出热门关键词组;对涉及所述热门关键词组的微博数量进行统计,并根据所述微博数量、以及相应微博的微博参数进行加权计算,获取所述热门关键词组的热度值;对所述热门关键词组的热度值进行排序,获取微博热点话题排行;其中,获取微博热点话题排行之后,所述方法还包括:获取所述微博热点话题排行中每个微博热点话题所涉及的微博内容;根据用户请求或者主动向用户显示相应微博热点话题所涉及的微博内容。借助于本发明的技术方案,能够准确地判断出微博的热门话题,使挖掘结果更能反映互联网舆论的客观事实。

Description

用于挖掘微博热点话题的装置及方法
技术领域
本发明涉及互联网通信领域,特别是涉及一种用于挖掘微博热点话题的装置及方法。
背景技术
在现有技术中,随着互联网的发展,微博成为人们获取信息、交流信息的重要渠道,大量网民在微博中发表自己的意见和爆料各类新闻,每天有成千上万的话题从微博上产生,如何更快速的从微博海量信息中获取网民热点将对了解社会发展形势、掌握舆论动态起到指导性作用。
目前普遍采用的微博热点挖掘方法是通过对特定时间段内微博话题下的微博数量进行对比,通过数量排序得到最热微博话题,微博数量越多说明话题越活跃。但是,上述技术方案存在以下问题:由于上述技术方案仅对单一话题的微博数量进行统计,因此容易对水军暴力发布的话题误判为热点话题;并且,上述技术方案没有考虑为微博转发数和微博评论数对微博话题的因素,导致有些评论热烈的微博话题被忽略,此外,上述技术方案也没有考虑微博认证用户(即,加V用户)的因素,认证用户参与越多的事件越是热门话题,综上,现有技术中的上述技术方案并不能够全面准确的挖掘出微博热点话题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的用于挖掘微博热点话题的装置及方法。
本发明提供一种用于挖掘微博热点话题的装置,包括:采集模块,适于通过开放接口采集微博信息,其中,微博信息包括:微博内容、以及微博参数;抽取模块,适于对采集的微博内容进行分词,并抽取出热门关键词组;计算模块,适于对涉及热门关键词组的微博数量进行统计,并根据微博数量、以及相应微博的微博参数进行加权计算,获取热门关键词组的热度值;排序模块,适于对热门关键词组的热度值进行排序,获取微博热点话题排行;获取模块,适于获取微博热点话题排行中每个微博热点话题所涉及的微博内容;显示模块,适于根据用户请求或者主动向用户显示相应微博热点话题所涉及的微博内容。
可选地,采集模块进一步适于:通过一门户微博指定的开放接口采集该门户微博的微博信息。
可选地,上述装置还包括:分类模块,适于根据采集的微博内容采用自动聚类的方法对微博进行分类,获取不同的微博类别。
可选地,上述抽取模块进一步适于:对采集的各微博类别下的微博内容分别进行分词,并分别抽取出各微博类别下的热门关键词组。
可选地,上述抽取模块进一步适于:从采集的各微博类别下的微博内容中提取一个或多个中心词;对从同一微博内容中提取的中心词进行排序,并将排序后的中心词进行组合,获取中心词组;统计各微博类别下每个中心词组所涉及的微博数量,并根据微博数量从中心词组中抽取出各微博类别下的热门关键词组。
可选地,上述抽取模块进一步包括:过滤子模块,适于根据垃圾词组数据库从中心词组中过滤垃圾词组。
可选地,上述计算模块进一步适于:对同一微博类别下涉及热门关键词组的微博数量进行统计,并根据微博数量、以及相应微博的微博参数进行加权计算,获取各微博类别下热门关键词组的热度值。
可选地,上述微博参数进一步包括以下一种或几种组合:微博总转发数、微博总评论数、微博认证用户转发数、以及微博认证用户评论数。
可选地,上述计算模块进一步适于:根据以下公式分别获取各微博类别下热门关键词组的热度值:热门关键词组的热度值=涉及热门关键词组的微博数量*微博数量权重系数+微博总转发数*总转发数权重系数+微博总评论数*总评论数权重系数+微博认证用户转发数*认证用户转发数权重系数+微博认证用户评论数*认证用户评论数权重系数。
可选地,上述排序模块进一步适于:对各微博类别下热门关键词组的热度值进行降序排序,分别获取各微博类别下的微博热点话题排行、以及总的微博热点话题排行。
本发明还提供了一种用于挖掘微博热点话题的方法,包括:通过开放接口采集微博信息,其中,微博信息包括:微博内容、以及微博参数;对采集的微博内容进行分词,并抽取出热门关键词组;对涉及热门关键词组的微博数量进行统计,并根据微博数量、以及相应微博的微博参数进行加权计算,获取热门关键词组的热度值;对热门关键词组的热度值进行排序,获取微博热点话题排行;获取微博热点话题排行之后,上述方法还包括:获取微博热点话题排行中每个微博热点话题所涉及的微博内容;根据用户请求或者主动向用户显示相应微博热点话题所涉及的微博内容。
可选地,上述采集微博信息进一步包括:通过一门户微博指定的开放接口采集该门户微博的微博信息。
可选地,采集微博信息之后,上述方法还包括:根据采集的微博内容采用自动聚类的方法对微博进行分类,获取不同的微博类别。
可选地,上述对采集的微博内容进行分词,并抽取出热门关键词组进一步包括:对采集的各微博类别下的微博内容分别进行分词,并分别抽取出各微博类别下的热门关键词组。
可选地,上述对采集的各微博类别下的微博内容分别进行分词,并分别抽取出各微博类别下的热门关键词组进一步包括:从采集的各微博类别下的微博内容中提取一个或多个中心词;对从同一微博内容中提取的中心词进行排序,并将排序后的中心词进行组合,获取中心词组;统计各微博类别下每个中心词组所涉及的微博数量,并根据微博数量从中心词组中抽取出各微博类别下的热门关键词组。
可选地,将排序后的中心词进行组合,获取中心词组之后,上述方法还包括:根据垃圾词组数据库从中心词组中过滤垃圾词组。
可选地,上述对涉及热门关键词组的微博数量进行统计,并根据微博数量、以及相应微博的微博参数进行加权计算,获取热门关键词组的热度值进一步包括:对同一微博类别下涉及热门关键词组的微博数量进行统计,并根据微博数量、以及相应微博的微博参数进行加权计算,获取各微博类别下热门关键词组的热度值。
可选地,上述微博参数进一步包括以下一种或几种组合:微博总转发数、微博总评论数、微博认证用户转发数、以及微博认证用户评论数。
可选地,上述根据微博数量、以及相应微博的微博参数进行加权计算,获取各微博类别下热门关键词组的热度值进一步包括:根据以下公式分别获取各微博类别下热门关键词组的热度值:热门关键词组的热度值=涉及热门关键词组的微博数量*微博数量权重系数+微博总转发数*总转发数权重系数+微博总评论数*总评论数权重系数+微博认证用户转发数*认证用户转发数权重系数+微博认证用户评论数*认证用户评论数权重系数。
可选地,上述对热门关键词组的热度值进行排序,获取微博热点话题排行进一步包括:对各微博类别下热门关键词组的热度值进行降序排序,分别获取各微博类别下的微博热点话题排行、以及总的微博热点话题排行。
本发明有益效果如下:
通过根据采集的微博内容进行热词计算,并根据获取的微博参数对计算出的热词进行热度计算,从而能够准确地判断出微博的热门话题,使挖掘结果更能反映互联网舆论的客观事实。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明一个实施例的用于挖掘微博热点话题的装置的结构示意图;
图2是本发明一个实施例的抽取模块的处理流程的示意图;
图3是本发明一个实施例的微博参数和权重系数对应关系的示意图;
图4是本发明一个实施例的用于挖掘微博热点话题的方法的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了快速挖掘微博上近期发生的热点话题,解决从海量微博数据中挖掘出微博热点的难题,本发明提供了一种用于挖掘微博热点话题的装置及方法,本发明实施例利用文本自动分类技术、热词计算技术、以及热度计算技术进行微博热点话题的挖掘。其中,文本自动分类是指:利用机器学习的原理依靠小样本学习后的模型参数对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记;热词计算技术是指:自动对实时采集的网页文本进行分词、分组归并,计算高频热点关键词,并按照预定义的词库和预设规则进行过滤,输出实时互联网热点词汇。热度计算技术是指:自动对微博的转发数、评论数、加V参与人数等参数进行统计计算,并按照预定义规则,输出话题的热度值。
以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
根据本发明的实施例,提供了一种用于挖掘微博热点话题的装置,图1是本发明一个实施例的用于挖掘微博热点话题的装置的结构示意图,如图1所示,根据本发明实施例的用于挖掘微博热点话题的装置包括:采集模块10、抽取模块12、计算模块14、以及排序模块16,以下对本发明实施例的各个模块进行详细的说明。
采集模块10,适于通过开放接口采集微博信息,其中,微博信息包括:微博内容、以及微博参数;上述微博参数可以包括以下一种或几种组合:微博总转发数、微博总评论数、微博认证用户(即加V用户)转发数、以及微博认证用户评论数。在实际应用中,微博参数还可以包括:微博博主信息、微博发布时间信息等。
具体地,采集模块10可以通过一门户微博指定的开放接口采集该门户微博的微博信息。
在实际应用中,不同的微博分类有不同的热门话题,不同分类的话题热度也不同,例如,财经领域微博的热门话题热度比娱乐八卦类微博的热门话题热度要低很多。这就需要对微博话题进行分类,使用户能够按照不同的微博分类查看微博热点。
优选地,在本发明实施例中,为了够更有针对性的反映某一领域(例如,军事、政治、民生、社会、国际、娱乐等)的微博热点话题,根据本发明实施例的用于挖掘微博热点话题的装置还包括:分类模块,适于根据采集的微博内容采用自动聚类的方法对微博进行分类,获取不同的微博类别。以便其他模块在进行后续处理时,可以针对不同类型的微博分别进行热点话题的挖掘。
如上所述,本发明实施例采用自动聚类的方法来微博分类,其中,自动聚类是指:由计算机按照被考察对象的内部或外部特征,根据一定的要求(例如,类别的数量限制,同类对象的亲近程度等),将相近、相似或相同特征的对象聚合在一起的过程。对微博内容进行自动分类可以分成汽车类微博、娱乐类微博、财经类微博等。
抽取模块12,适于对采集的微博内容进行分词,并抽取出热门关键词组;
基于分类模块的分类处理,抽取模块12需要对采集的各微博类别下的微博内容分别进行分词,并分别抽取出各微博类别下的热门关键词组。
具体地,抽取模块12需要进行如下处理:首先从采集的各微博类别下的微博内容中提取一个或多个中心词,也就是说,一个微博可能有多个中心词;随后,对从同一微博内容中提取的中心词进行排序,例如,一个微博抽出的中心词是bca,排序后变成abc;在排序后,将中心词进行组合,获取中心词组;其中,进行中心词组合是指:根据
Figure BDA00002512682000071
将属于同一个微博内容的排序后的中心词进行组合,其中,n为属于同一个文本标题的中心词的总个数,r≤n且2≤r≤5,例如,组合公式为:可以只保留2-5个中心词组;最后,抽取模块12需要统计各微博类别下每个中心词组所涉及的微博数量,并根据微博数量从中心词组中抽取出各微博类别下的热门关键词组。例如,抽取模块12在汇总统计分析所有的中心词组时,可以按小时统计中心词组的出现数量,找出热门关键词组,这些热门关键词组背后就是微博的热门话题。抽取模块12在汇总统计分析所有的关键词组时,可以形成一个热门关键词组排行榜,统计每个热门关键词组背后的微博数量并按微博数量降序排列。
在本发明实施例中,抽取模块12还可以进一步包括:过滤子模块,适于根据垃圾词组数据库从中心词组中过滤垃圾词组。例如,去掉如中奖、咨询类的垃圾词组,其中,上述垃圾词组数据库由运维人员在管理后台维护。
以下结合附图,对上述抽取模块12的处理进行举例说明。
图2是本发明一个实施例的抽取模块的处理流程的示意图,如图2所示:
微博一:抽出中心词b、a、c,排序后a、b、c,形成词组ab、bc、ac、abc;
微博二:抽出中心词c、b、d,排序后b、c、d,形成词组bc、cd、bd、bcd;
微博三:抽出中心词b、c形成词组bc;
那么这三个微博形成的词组排行就是:bc(3)、ab(1)、ac(1)、cd(1)、bd(1)、abc(1)、bcd(1),从而确定热门关键词组为b+c。
计算模块14,适于对涉及热门关键词组的微博数量进行统计,并根据微博数量、以及相应微博的微博参数进行加权计算,获取热门关键词组的热度值;
具体地,计算模块14需要对同一微博类别下涉及热门关键词组的微博数量进行统计,并根据微博数量、以及相应微博的微博参数进行加权计算,获取各微博类别下热门关键词组的热度值。
也就是说,通过热词计算得到热门关键词组后,计算模块14需要计算这些热门关键词组背后的微博参数,综合微博的转发数、评论数、加V参与人数等微博参数进行统计计算,并按照预定义规则,输出话题的热度值。
具体地,在微博参数包括微博总转发数、微博总评论数、微博认证用户(即加V用户)转发数、以及微博认证用户评论数的情况下,计算模块14根据以下公式分别获取各微博类别下热门关键词组的热度值:
热门关键词组的热度值=涉及热门关键词组的微博数量*微博数量权重系数+微博总转发数*总转发数权重系数+微博总评论数*总评论数权重系数+微博认证用户转发数*认证用户转发数权重系数+微博认证用户评论数*认证用户评论数权重系数。
以下结合附图,对计算模块14计算热门关键词组的热度值的处理过程进行举例说明。
图3是本发明一个实施例的微博参数和权重系数对应关系的示意图,如图3所示,计算模块14的热门关键词组的热度值计算公式如下:
话题热度=涉及热门关键词组的微博数量+微博总转发数+微博总评论数×2+微博认证用户转发数×10+微博认证用户评论数×20。
例如:钓鱼岛反日游行事件,抽取到的中心词组是“钓鱼岛+反日游行”,背后共有10000篇微博,这些微博转数累计是300000,评论数累计是200000,其中加V转发数是2000,加V评论数是1000,则:
钓鱼岛话题热度=10000+300000+200000×2+2000×10+1000×20;
需要说明的是,不同分类的话题也是同样的计算方法,即,将所属分类的热门关键词组背后的微博参数进行统计。
排序模块16,适于对热门关键词组的热度值进行排序,获取微博热点话题排行。
具体地,排序模块16需要对各微博类别下热门关键词组的热度值进行降序排序,分别获取各微博类别下的微博热点话题排行、以及总的微博热点话题排行。
优选地,为了便于用户查看每个热门话题背后的微博内容、看到讨论该微博话题的各个微博、以及查看加V用户发布的微博,本发明实施例的用于挖掘微博热点话题的装置还可以包括:
获取模块,适于获取微博热点话题排行中每个微博热点话题所涉及的微博内容;
显示模块,适于根据用户请求或者主动向用户显示相应微博热点话题所涉及的微博内容。
综上所述,借助于本发明实施例的技术方案,通过根据采集的微博内容进行热词计算,并根据获取的微博参数对计算出的热词进行热度计算,从而能够准确地判断出微博的热门话题,使挖掘结果更能反映互联网舆论的客观事实,此外,通过自动分类技术对微博进行分类,能够更有针对性的反映某一领域(如军事、政治、民生、社会、国际、娱乐等)的微博热点话题。
根据本发明的实施例,提供了一种用于挖掘微博热点话题的方法,图4是本发明一个实施例的用于挖掘微博热点话题的方法的流程图,如图4所示,根据本发明实施例的用于挖掘微博热点话题的方法包括如下处理:
步骤401,通过开放接口采集微博信息,其中,所述微博信息包括:微博内容、以及微博参数;上述微博参数可以包括以下一种或几种组合:微博总转发数、微博总评论数、微博认证用户(即加V用户)转发数、以及微博认证用户评论数。在实际应用中,微博参数还可以包括:微博博主信息、微博发布时间信息等。
具体地,在步骤401中,可以通过一门户微博指定的开放接口采集该门户微博的微博信息。
在实际应用中,不同的微博分类有不同的热门话题,不同分类的话题热度也不同,例如,财经领域微博的热门话题热度比娱乐八卦类微博的热门话题热度要低很多。这就需要对微博话题进行分类,使用户能够按照不同的微博分类查看微博热点。
优选地,在本发明实施例中,为了够更有针对性的反映某一领域(例如,军事、政治、民生、社会、国际、娱乐等)的微博热点话题,采集微博信息之后,可以根据采集的所述微博内容采用自动聚类的方法对微博进行分类,获取不同的微博类别。以便在进行后续处理时,可以针对不同类型的微博分别进行热点话题的挖掘。
如上所述,本发明实施例采用自动聚类的方法来微博分类,其中,自动聚类是指:由计算机按照被考察对象的内部或外部特征,根据一定的要求(例如,类别的数量限制,同类对象的亲近程度等),将相近、相似或相同特征的对象聚合在一起的过程。对微博内容进行自动分类可以分成汽车类微博、娱乐类微博、财经类微博等。
步骤402,对采集的所述微博内容进行分词,并抽取出热门关键词组;
基于上述微博分类处理,在步骤402中,需要对采集的各微博类别下的微博内容分别进行分词,并分别抽取出各微博类别下的热门关键词组。
具体地,步骤402需要进行如下处理:首先从采集的各微博类别下的微博内容中提取一个或多个中心词,也就是说,一个微博可能有多个中心词;随后,对从同一微博内容中提取的中心词进行排序,例如,一个微博抽出的中心词是bca,排序后变成abc;在排序后,将中心词进行组合,获取中心词组;其中,进行中心词组合是指:根据
Figure BDA00002512682000111
将属于同一个微博内容的排序后的中心词进行组合,其中,n为属于同一个文本标题的中心词的总个数,r≤n且2≤r≤5,例如,组合公式为:
Figure BDA00002512682000112
可以只保留2-5个中心词组;最后,需要统计各微博类别下每个中心词组所涉及的微博数量,并根据微博数量从中心词组中抽取出各微博类别下的热门关键词组。例如,在汇总统计分析所有的中心词组时,可以按小时统计中心词组的出现数量,找出热门关键词组,这些热门关键词组背后就是微博的热门话题。步骤402中,在汇总统计分析所有的关键词组时,可以形成一个热门关键词组排行榜,统计每个热门关键词组背后的微博数量并按微博数量降序排列。
在本发明实施例中,将排序后的所述中心词进行组合,获取中心词组之后,还可以根据垃圾词组数据库从所述中心词组中过滤垃圾词组。例如,去掉如中奖、咨询类的垃圾词组,其中,上述垃圾词组数据库由运维人员在管理后台维护。
以下结合附图,对上述步骤402的处理进行举例说明。如图2所示:
微博一:抽出中心词b、a、c,排序后a、b、c,形成词组ab、bc、ac、abc;
微博二:抽出中心词c、b、d,排序后b、c、d,形成词组bc、cd、bd、bcd;
微博三:抽出中心词b、c形成词组bc;
那么这三个微博形成的词组排行就是:bc(3)、ab(1)、ac(1)、cd(1)、bd(1)、abc(1)、bcd(1),从而确定热门关键词组为b+c。
步骤403,对涉及所述热门关键词组的微博数量进行统计,并根据所述微博数量、以及相应微博的微博参数进行加权计算,获取所述热门关键词组的热度值;
具体地,在步骤403中,需要对同一微博类别下涉及热门关键词组的微博数量进行统计,并根据微博数量、以及相应微博的微博参数进行加权计算,获取各微博类别下热门关键词组的热度值。
也就是说,通过热词计算得到热门关键词组后,需要计算这些热门关键词组背后的微博参数,综合微博的转发数、评论数、加V参与人数等微博参数进行统计计算,并按照预定义规则,输出话题的热度值。
具体地,在微博参数包括微博总转发数、微博总评论数、微博认证用户(即加V用户)转发数、以及微博认证用户评论数的情况下,可以根据以下公式分别获取各微博类别下热门关键词组的热度值:
热门关键词组的热度值=涉及热门关键词组的微博数量*微博数量权重系数+微博总转发数*总转发数权重系数+微博总评论数*总评论数权重系数+微博认证用户转发数*认证用户转发数权重系数+微博认证用户评论数*认证用户评论数权重系数。
以下结合附图,对步骤403中计算热门关键词组的热度值的处理过程进行举例说明。
如图3所示,热门关键词组的热度值计算公式如下:
话题热度=涉及热门关键词组的微博数量+微博总转发数+微博总评论数×2+微博认证用户转发数×10+微博认证用户评论数×20。
例如:钓鱼岛反日游行事件,抽取到的中心词组是“钓鱼岛+反日游行”,背后共有10000篇微博,这些微博转数累计是300000,评论数累计是200000,其中加V转发数是2000,加V评论数是1000,则:
钓鱼岛话题热度=10000+300000+200000×2+2000×10+1000×20;
需要说明的是,不同分类的话题也是同样的计算方法,即,将所属分类的热门关键词组背后的微博参数进行统计。
步骤404,对所述热门关键词组的热度值进行排序,获取微博热点话题排行。
具体地,在步骤404中,需要对各微博类别下热门关键词组的热度值进行降序排序,分别获取各微博类别下的微博热点话题排行、以及总的微博热点话题排行。
优选地,为了便于用户查看每个热门话题背后的微博内容、看到讨论该微博话题的各个微博、以及查看加V用户发布的微博,在获取微博热点话题排行之后,根据本发明实施例的用于挖掘微博热点话题的方法还包括:
获取所述微博热点话题排行中每个微博热点话题所涉及的微博内容;
根据用户请求或者主动向用户显示相应微博热点话题所涉及的微博内容。
综上所述,借助于本发明实施例的技术方案,通过根据采集的微博内容进行热词计算,并根据获取的微博参数对计算出的热词进行热度计算,从而能够准确地判断出微博的热门话题,使挖掘结果更能反映互联网舆论的客观事实,此外,通过自动分类技术对微博进行分类,能够更有针对性的反映某一领域(如军事、政治、民生、社会、国际、娱乐等)的微博热点话题。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用于挖掘微博热点话题的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (20)

1.一种用于挖掘微博热点话题的装置,包括:
采集模块,适于通过开放接口采集微博信息,其中,所述微博信息包括:微博内容、以及微博参数;
抽取模块,适于对采集的所述微博内容进行分词,并抽取出热门关键词组;
计算模块,适于对涉及所述热门关键词组的微博数量进行统计,并根据所述微博数量、以及相应微博的微博参数进行加权计算,获取所述热门关键词组的热度值;
排序模块,适于对所述热门关键词组的热度值进行排序,获取微博热点话题排行;
获取模块,适于获取所述微博热点话题排行中每个微博热点话题所涉及的微博内容;
显示模块,适于根据用户请求或者主动向用户显示相应微博热点话题所涉及的微博内容。
2.如权利要求1所述的装置,其特征在于,所述采集模块进一步适于:通过一门户微博指定的开放接口采集该门户微博的微博信息。
3.如权利要求1所述的装置,其特征在于,所述装置还包括:
分类模块,适于根据采集的所述微博内容采用自动聚类的方法对微博进行分类,获取不同的微博类别。
4.如权利要求3所述的装置,其特征在于,所述抽取模块进一步适于:
对采集的各微博类别下的微博内容分别进行分词,并分别抽取出各微博类别下的热门关键词组。
5.如权利要求4所述的装置,其特征在于,所述抽取模块进一步适于:
从采集的各微博类别下的所述微博内容中提取一个或多个中心词;
对从同一微博内容中提取的所述中心词进行排序,并将排序后的所述中心词进行组合,获取中心词组;
统计各微博类别下每个中心词组所涉及的微博数量,并根据所述微博数量从所述中心词组中抽取出各微博类别下的热门关键词组。
6.如权利要求5所述的装置,其特征在于,所述抽取模块进一步包括:
过滤子模块,适于根据垃圾词组数据库从所述中心词组中过滤垃圾词组。
7.如权利要求4所述的装置,其特征在于,所述计算模块进一步适于:
对同一微博类别下涉及所述热门关键词组的微博数量进行统计,并根据所述微博数量、以及相应微博的微博参数进行加权计算,获取各微博类别下所述热门关键词组的热度值。
8.如权利要求7所述的装置,其特征在于,所述微博参数进一步包括以下一种或几种组合:微博总转发数、微博总评论数、微博认证用户转发数、以及微博认证用户评论数。
9.如权利要求8所述的装置,其特征在于,所述计算模块进一步适于:
根据以下公式分别获取各微博类别下所述热门关键词组的热度值:
热门关键词组的热度值=涉及所述热门关键词组的微博数量*微博数量权重系数+微博总转发数*总转发数权重系数+微博总评论数*总评论数权重系数+微博认证用户转发数*认证用户转发数权重系数+微博认证用户评论数*认证用户评论数权重系数。
10.如权利要求7所述的装置,其特征在于,所述排序模块进一步适于:
对各微博类别下所述热门关键词组的热度值进行降序排序,分别获取各微博类别下的微博热点话题排行、以及总的微博热点话题排行。
11.一种用于挖掘微博热点话题的方法,包括:
通过开放接口采集微博信息,其中,所述微博信息包括:微博内容、以及微博参数;
对采集的所述微博内容进行分词,并抽取出热门关键词组;
对涉及所述热门关键词组的微博数量进行统计,并根据所述微博数量、以及相应微博的微博参数进行加权计算,获取所述热门关键词组的热度值;
对所述热门关键词组的热度值进行排序,获取微博热点话题排行;
其中,获取微博热点话题排行之后,所述方法还包括:
获取所述微博热点话题排行中每个微博热点话题所涉及的微博内容;
根据用户请求或者主动向用户显示相应微博热点话题所涉及的微博内容。
12.如权利要求11所述的方法,其特征在于,所述采集微博信息进一步包括:通过一门户微博指定的开放接口采集该门户微博的微博信息。
13.如权利要求11所述的方法,其特征在于,所述采集微博信息之后,所述方法还包括:
根据采集的所述微博内容采用自动聚类的方法对微博进行分类,获取不同的微博类别。
14.如权利要求13所述的方法,其特征在于,对采集的所述微博内容进行分词,并抽取出热门关键词组进一步包括:
对采集的各微博类别下的微博内容分别进行分词,并分别抽取出各微博类别下的热门关键词组。
15.如权利要求14所述的方法,其特征在于,对采集的各微博类别下的微博内容分别进行分词,并分别抽取出各微博类别下的热门关键词组进一步包括:
从采集的各微博类别下的所述微博内容中提取一个或多个中心词;
对从同一微博内容中提取的所述中心词进行排序,并将排序后的所述中心词进行组合,获取中心词组;
统计各微博类别下每个中心词组所涉及的微博数量,并根据所述微博数量从所述中心词组中抽取出各微博类别下的热门关键词组。
16.如权利要求15所述的方法,其特征在于,将排序后的所述中心词进行组合,获取中心词组之后,所述方法还包括:
根据垃圾词组数据库从所述中心词组中过滤垃圾词组。
17.如权利要求14所述的方法,其特征在于,对涉及所述热门关键词组的微博数量进行统计,并根据所述微博数量、以及相应微博的微博参数进行加权计算,获取所述热门关键词组的热度值进一步包括:
对同一微博类别下涉及所述热门关键词组的微博数量进行统计,并根据所述微博数量、以及相应微博的微博参数进行加权计算,获取各微博类别下所述热门关键词组的热度值。
18.如权利要求17所述的方法,其特征在于,所述微博参数进一步包括以下一种或几种组合:微博总转发数、微博总评论数、微博认证用户转发数、以及微博认证用户评论数。
19.如权利要求18所述的方法,其特征在于,根据所述微博数量、以及相应微博的微博参数进行加权计算,获取各微博类别下所述热门关键词组的热度值进一步包括:
根据以下公式分别获取各微博类别下所述热门关键词组的热度值:
热门关键词组的热度值=涉及所述热门关键词组的微博数量*微博数量权重系数+微博总转发数*总转发数权重系数+微博总评论数*总评论数权重系数+微博认证用户转发数*认证用户转发数权重系数+微博认证用户评论数*认证用户评论数权重系数。
20.如权利要求17所述的方法,其特征在于,对所述热门关键词组的热度值进行排序,获取微博热点话题排行进一步包括:
对各微博类别下所述热门关键词组的热度值进行降序排序,分别获取各微博类别下的微博热点话题排行、以及总的微博热点话题排行。
CN2012105086705A 2012-12-03 2012-12-03 用于挖掘微博热点话题的装置及方法 Pending CN102982157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105086705A CN102982157A (zh) 2012-12-03 2012-12-03 用于挖掘微博热点话题的装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105086705A CN102982157A (zh) 2012-12-03 2012-12-03 用于挖掘微博热点话题的装置及方法

Publications (1)

Publication Number Publication Date
CN102982157A true CN102982157A (zh) 2013-03-20

Family

ID=47856174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105086705A Pending CN102982157A (zh) 2012-12-03 2012-12-03 用于挖掘微博热点话题的装置及方法

Country Status (1)

Country Link
CN (1) CN102982157A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530402A (zh) * 2013-10-23 2014-01-22 北京航空航天大学 一种基于改进的PageRank的微博关键用户识别方法
CN103544327A (zh) * 2013-11-14 2014-01-29 金蝶软件(中国)有限公司 一种微博话题的热度统计方法及相关装置
CN103580997A (zh) * 2013-11-19 2014-02-12 湖南蚁坊软件有限公司 一种垂直领域热门微博的提取方法及其装置
CN103593397A (zh) * 2013-10-12 2014-02-19 北京奇虎科技有限公司 一种采集微博内容的方法及设备
CN104102681A (zh) * 2013-04-15 2014-10-15 腾讯科技(深圳)有限公司 一种微博关键事件获取方法和装置
CN104504024A (zh) * 2014-12-11 2015-04-08 中国科学院计算技术研究所 基于微博内容的关键词挖掘方法及系统
CN104516962A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种微博舆情监控方法及监控系统
CN104615715A (zh) * 2015-02-05 2015-05-13 北京航空航天大学 基于地理位置的社交网络事件分析方法及系统
CN104615627A (zh) * 2014-09-23 2015-05-13 中国科学院计算技术研究所 一种基于微博平台的事件舆情信息提取方法及系统
CN104615593A (zh) * 2013-11-01 2015-05-13 北大方正集团有限公司 微博热点话题自动检测方法及装置
CN105159882A (zh) * 2015-09-16 2015-12-16 中国地质大学(北京) 一种确定微博热门话题的方法及装置
CN106446179A (zh) * 2016-09-28 2017-02-22 东软集团股份有限公司 热点话题的生成方法及装置
CN106874448A (zh) * 2017-02-10 2017-06-20 中国农业大学 一种从微博中挖掘地震主题词的方法和装置
CN106970924A (zh) * 2016-01-14 2017-07-21 北京国双科技有限公司 一种话题排序方法及装置
CN107330022A (zh) * 2017-06-21 2017-11-07 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
CN108182254A (zh) * 2017-12-29 2018-06-19 北京奇虎科技有限公司 一种推荐内容处理方法和装置
CN108268618A (zh) * 2018-01-08 2018-07-10 南京邮电大学 一种微博热度分析获取方法
CN110223092A (zh) * 2018-03-01 2019-09-10 北京京东尚科信息技术有限公司 选品方法、装置和计算机可读存储介质
CN110909232A (zh) * 2019-11-12 2020-03-24 北京百分点信息科技有限公司 一种话题热度的确定方法和装置
CN111026958A (zh) * 2019-11-29 2020-04-17 微梦创科网络科技(中国)有限公司 一种热门微博排序方法及装置
CN111368070A (zh) * 2018-12-06 2020-07-03 北京国双科技有限公司 热点事件的确定方法及装置
CN113051484A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 确定热点社交类信息的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蔡淑琴 等: ""基于中心化的微博热点发现方法"", 《管理学报》, 1 June 2012 (2012-06-01), pages 876 - 877 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102681B (zh) * 2013-04-15 2017-05-17 腾讯科技(深圳)有限公司 一种微博关键事件获取方法和装置
CN104102681A (zh) * 2013-04-15 2014-10-15 腾讯科技(深圳)有限公司 一种微博关键事件获取方法和装置
CN103593397A (zh) * 2013-10-12 2014-02-19 北京奇虎科技有限公司 一种采集微博内容的方法及设备
CN103593397B (zh) * 2013-10-12 2018-10-09 北京奇虎科技有限公司 一种采集微博内容的方法及设备
CN103530402A (zh) * 2013-10-23 2014-01-22 北京航空航天大学 一种基于改进的PageRank的微博关键用户识别方法
CN104615593B (zh) * 2013-11-01 2017-09-29 北大方正集团有限公司 微博热点话题自动检测方法及装置
CN104615593A (zh) * 2013-11-01 2015-05-13 北大方正集团有限公司 微博热点话题自动检测方法及装置
CN103544327A (zh) * 2013-11-14 2014-01-29 金蝶软件(中国)有限公司 一种微博话题的热度统计方法及相关装置
CN103580997A (zh) * 2013-11-19 2014-02-12 湖南蚁坊软件有限公司 一种垂直领域热门微博的提取方法及其装置
CN103580997B (zh) * 2013-11-19 2017-09-29 湖南蚁坊软件有限公司 一种垂直领域热门微博的提取方法及其装置
CN104615627A (zh) * 2014-09-23 2015-05-13 中国科学院计算技术研究所 一种基于微博平台的事件舆情信息提取方法及系统
CN104615627B (zh) * 2014-09-23 2018-03-30 中国科学院计算技术研究所 一种基于微博平台的事件舆情信息提取方法及系统
CN104504024A (zh) * 2014-12-11 2015-04-08 中国科学院计算技术研究所 基于微博内容的关键词挖掘方法及系统
CN104504024B (zh) * 2014-12-11 2018-09-07 中国科学院计算技术研究所 基于微博内容的关键词挖掘方法及系统
CN104516962A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种微博舆情监控方法及监控系统
CN104615715A (zh) * 2015-02-05 2015-05-13 北京航空航天大学 基于地理位置的社交网络事件分析方法及系统
CN105159882A (zh) * 2015-09-16 2015-12-16 中国地质大学(北京) 一种确定微博热门话题的方法及装置
CN106970924A (zh) * 2016-01-14 2017-07-21 北京国双科技有限公司 一种话题排序方法及装置
CN106446179A (zh) * 2016-09-28 2017-02-22 东软集团股份有限公司 热点话题的生成方法及装置
CN106446179B (zh) * 2016-09-28 2019-07-30 东软集团股份有限公司 热点话题的生成方法及装置
CN106874448B (zh) * 2017-02-10 2020-03-06 中国农业大学 一种从微博中挖掘地震主题词的方法和装置
CN106874448A (zh) * 2017-02-10 2017-06-20 中国农业大学 一种从微博中挖掘地震主题词的方法和装置
CN107330022A (zh) * 2017-06-21 2017-11-07 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
CN107330022B (zh) * 2017-06-21 2023-03-24 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
CN108182254A (zh) * 2017-12-29 2018-06-19 北京奇虎科技有限公司 一种推荐内容处理方法和装置
CN108268618A (zh) * 2018-01-08 2018-07-10 南京邮电大学 一种微博热度分析获取方法
CN110223092A (zh) * 2018-03-01 2019-09-10 北京京东尚科信息技术有限公司 选品方法、装置和计算机可读存储介质
CN111368070A (zh) * 2018-12-06 2020-07-03 北京国双科技有限公司 热点事件的确定方法及装置
CN110909232A (zh) * 2019-11-12 2020-03-24 北京百分点信息科技有限公司 一种话题热度的确定方法和装置
CN111026958A (zh) * 2019-11-29 2020-04-17 微梦创科网络科技(中国)有限公司 一种热门微博排序方法及装置
CN111026958B (zh) * 2019-11-29 2023-07-25 微梦创科网络科技(中国)有限公司 一种热门微博排序方法及装置
CN113051484A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 确定热点社交类信息的方法及装置
CN113051484B (zh) * 2019-12-27 2024-06-25 北京国双科技有限公司 确定热点社交类信息的方法及装置

Similar Documents

Publication Publication Date Title
CN102982157A (zh) 用于挖掘微博热点话题的装置及方法
CN102945290B (zh) 微博热点话题挖掘装置及方法
Bozarth et al. Toward a better performance evaluation framework for fake news classification
CN102831248B (zh) 网络热点挖掘方法及装置
US8935197B2 (en) Systems and methods for facilitating open source intelligence gathering
CN103793503B (zh) 一种基于web文本的观点挖掘与分类的方法
US10235421B2 (en) Systems and methods for facilitating the gathering of open source intelligence
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
WO2014210184A2 (en) Real-time and adaptive data mining
CN102831199A (zh) 建立兴趣模型的方法及装置
CN103617213B (zh) 识别新闻网页属性特征的方法和系统
CN103177076A (zh) 一种基于定点网站的舆情监测系统及方法
CN105378730A (zh) 社交媒体分析与输出
CN102915358B (zh) 导航网站实现方法和装置
CN104933475A (zh) 网络转发行为预测方法及装置
CN109766441A (zh) 文本分类方法、装置及系统
CN103955480B (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
CN108984514A (zh) 词语的获取方法及装置、存储介质、处理器
Wegrzyn-Wolska et al. Tweets mining for French presidential election
CN105159879A (zh) 一种网络个体或群体价值观自动判别方法
CN102915357A (zh) 一种实现网站导航的方法和装置
CN103810241A (zh) 一种低频点击的过滤方法和装置
CN106777395A (zh) 一种基于社区文本数据的话题发现系统
CN103593398A (zh) 一种更新微博用户库的方法及设备
KR102025813B1 (ko) 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130320