CN103617169A - 一种基于Hadoop的微博热点话题提取方法 - Google Patents

一种基于Hadoop的微博热点话题提取方法 Download PDF

Info

Publication number
CN103617169A
CN103617169A CN201310501234.XA CN201310501234A CN103617169A CN 103617169 A CN103617169 A CN 103617169A CN 201310501234 A CN201310501234 A CN 201310501234A CN 103617169 A CN103617169 A CN 103617169A
Authority
CN
China
Prior art keywords
topic
microblogging
hadoop
feature
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310501234.XA
Other languages
English (en)
Other versions
CN103617169B (zh
Inventor
徐�明
代光英
任一支
张海平
徐建
郑宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201310501234.XA priority Critical patent/CN103617169B/zh
Publication of CN103617169A publication Critical patent/CN103617169A/zh
Application granted granted Critical
Publication of CN103617169B publication Critical patent/CN103617169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于Hadoop的微博热点话题挖掘方法。本发明首先组建一个局域网,安装相应的软件搭建Hadoop的平台;其次采集微博信息;第三,对采集的微博内容进行分词处理、噪音信息过滤、出现频率变化较大的热门关键词抽取;第四根据提取出每个潜在热门话题的特征词组;第五循环遍历潜在的热门话题,合并相似度超过阈值的话题;最后对提取出来的热点话题,以特征词组中最热门关键词的爆发得分作为话题的热度,将热点话题按热度值从高到低次序显示。本发明利用Hadoop框架中MapReduce运算模型的特点,能够准确地判断出微博的热门话题,使挖掘结果更能反映互联网舆论的客观事实,有较强的可扩展性和容错性。

Description

一种基于Hadoop的微博热点话题提取方法
技术领域
本发明属于网络微博中的数据挖掘技术领域,特别是一种基于Hadoop的微博热点话题提取方法。
背景技术
互联网的迅猛发展给网络信息的发现和管理带来了新的机遇和挑战。据CCNIC发布的最新统计报告,截至2013年6月底,我国网民规模达到5.91亿,互联网普及率为44.1%。越来越多的人乐于刷微博、逛淘宝和玩人人。人们也习惯于写博客、记日志和看网页,网络信息的急剧上升影响着社会生活的方方面面。自2006年以来,微博的出现使得普通民众可以随时随地的关注和分享实时的信息。据CCNIC统计报告,目前我国微博用户的规模已经突破了3亿大关,微博已经成为中国网民使用的主流应用,也成为了中国网络舆论传播的中心。无论是普通用户,还是新闻媒体,其获取新闻、传播新闻、发表意见和制造舆论的途径都不同程度的转向了微博平台,移动互联网的快速发展也进一步巩固了微博在互联网中的舆论中心地位。因此,对微博数据流进行挖掘,及时掌握微博中的舆论热点变得越来越重要。传统的热点话题挖掘研究主要针对网页文档进行处理,随着近几年微博的快速发展,话题检测的研究也逐渐转移到了微博数据。
发明内容
为了克服现有技术中的缺陷和不足,本发明提供了一种基于Hadoop的微博热点话题提取方法。本方法基于Hadoop来提取微博中的热点话题,能有效克服单机在处理大数据时空间以及速度方面的不足。
本发明提出了一种基于Hadoop的微博热点话题提取方法。该方法包括以下步骤:首先,组建一个局域网,安装相应的软件搭建Hadoop的平台;其次,利用微博平台的开放API接口采集微博信息;第三,对采集的微博内容进行分词处理、噪音信息过滤、出现频率变化较大的热门关键词抽取,并利用Hadoop框架中MapReduce运算模型在分布式文件系统HDFS上对微博信息建立索引;第四,把每个热门关键词都看成一个潜在的热门话题,根据特征值计算的方法提取出每个潜在热门话题的特征词组;第五,循环遍历潜在的热门话题,合并相似度超过阈值的话题;最后,对提取出来的热点话题,以特征词组中最热门关键词的爆发得分作为话题的热度,并将热点话题按热度值从高到低次序显示。本发明的技术方案,利用Hadoop框架中MapReduce运算模型的特点,能够准确地判断出微博的热门话题,使挖掘结果更能反映互联网舆论的客观事实,有较强的可扩展性和容错性。
本发明的技术方案,利用Hadoop框架中MapReduce运算模型的特点,能够准确地判断出微博的热门话题,使挖掘结果更能反映互联网舆论的客观事实,有较强的可扩展性和容错性。
本发明包括如下步骤:
步骤一、组建Hadoop集群平台
组建局域网,对局域网中的每个计算机安装Hadoop软件,通过对Hadoop配置文件中属性参数dfs.namenode和dfs.datanode的设置,将其中一台计算机配置成Hadoop名字节点,而其它计算机配置成数据节点;并通过对Hadoop配置文件中属性参数mapred.jobtracker和mapred.tasktracker的设置,将其中一台计算机配置成Hadoop调度节点,而其它计算机配置成任务节点,组建开源的Hadoop平台;
步骤二、微博数据采集
利用微博平台的开放API接口采集微博信息;其中,所述微博信息包括:微博内容、发微博的时间、微博的作者和微博的来源信息(这里所述的微博来源是指微博平台来源,例如来自网页上的新浪微博,来自iphone客户端等);将采集当天的微博使用Hadoop分布式文件命令dfs-put将数据集上传至Hadoop平台的各个节点上;
步骤三、数据预处理
数据预处理就是对采集的微博内容进行分词处理,过滤掉一些噪音信息,并抽取出热门关键词组,然后对微博信息在HDFS上建立索引。这里所述噪音信息就是对微博热点话题提取无用的信息,而所述HDFS就是Hadoop平台上的分布式文件系统。
步骤四、话题特征词组提取
把每个热门关键词都看成一个潜在的热门话题,根据特征值计算的方法提取出每个潜在热门话题的特征词组;
步骤五、相似话题的合并
循环遍历潜在的热门话题,合并相似度超过阈值的话题;
步骤六、话题展示
以特征词组中最热门关键词的爆发得分作为话题的热度值,将热点话题按热度值从高到低次序排序输出并显示。
步骤一所述的在组建Hadoop集群平台方法的具体步骤如下:
(1) 为局域网中每一个节点安装ubuntu操作系统;
(2) 为局域网中每一个节点安装Hadoop插件;
(3) 为局域网中每一个节点安装JDK插件;
(4) 配置局域网中每个节点上的ubuntu系统的etc文件,使ubuntu系统关联该节点上的Hadoop文件和该节点上的jdk文件;
(5) 配置局域网中每个节点上Hadoop插件中的core-site.xml文件、hdfs-site.xml文件和mapred-site.xml文件;设置属性dfs.namenode和dfs.datanode,使局域网中存在一个名字节点和多个数据节点;同时设置属性mapred,jobtracker和mapred.tasktracker,使集群中存在一个任务调度节点和多个任务执行节点。
所述的步骤三预处理包括:
采用中国科学院计算技术研究所的ICTCLAS分词系统对采集的微博信息内容进行分词并标注出词性;过滤掉包含“#”(表示一个讨论的话题)、 “http://”(表示已有的新闻等其他消息)、“用户”(表示对话式的互动)的噪音信息,以及在特定时间段频繁出现的词,如“晚安”、“午饭”等;然后利用如下公式计算每一个名词和动词在一小时内的爆发程度:
这里的F(w,t n )表示词组wt n 时间段内在微博信息中出现的次数,而F(w,t n-1)表示词组w在前一天t n 时间段内在微博信息中出现的次数;这里的时间窗口通常设置为一个小时(如果时间窗口设置成较大时,选出的爆发词更加准确,但是由于粒度较大,有的话题会被漏掉)。
将爆发程度值从高到低次序的前200个词作为候选热门关键词;将采集得到的当天微博信息,利用Apache软件基金会支持和提供的用于全文检索和搜寻的开源程式库Lucene在Hadoop平台上的HDFS上建立索引,以便下一步的处理。
步骤四话题特征词组提取:
以每一个关键词为搜索条件在HDFS上已经建好的索引中搜索出相关微博信息,将搜索出的微博信息看作该关键词的相关文档;计算该相关文档的平均相似度,当平均相似度低于预设的阈值时(一般可设置为0.36)就认为该文档里信息不是噪音信息而是一个潜在的话题,然后利用基于特征提取方法从所述相关文档中提取该话题的特征词汇集,并计算每个特征词汇的权值。这里所述相关文档的平均相似度是指文档中所有两两相邻微博之间的相似度总和除以相关文档中的微博总数得到的值;这里所述的微博相似度是指两条微博中相同词语的个数除以微博中总的词语个数得到的值;这里所述话题特征词汇集提取及特征词汇权值计算是指以下步骤:
步骤A:对词频进行归一化计算。将关键词对应的相关文档作为一个语料库,词条n的归一化词频为tf n =N(n)/N。这里N(n)表示词条n在此语料库中出现的次数,N表示此语料库中所有词条出现次数的总和。
步骤B:逆向文档频率计算。预先准备人工挑选出的典型话题文档作为语料库(一般100篇左右即可),典型话题语料库中的每一篇文档对应一个人工挑选出的典型话题,同一文档都是由人工挑选的同一典型话题的微博组成的,每条微博占一行;语料库中词条n的逆向文档频率为idf n =log[|N|/(1+NL(n))];这里NL(n) 是指典型话题语料库中包含词条n的文档个数;|N|是典型话题语料库中文档个数。
步骤C:计算词汇权值,提取话题特征词汇集。词条TFIDF值=词频×逆向文档频率,即tfidf n =tf n *idf n ;这里所述的提取话题特征词汇集就是根据每个话题的词汇权值从大到小选取的话题特征词汇组成的集合,每个话题至少选取5个话题特征词汇。
步骤五相似话题的合并: 
循环计算两话题相似度,当相似度超过预设阈值(一般设为0.1即可)时合并此两个话题,直到任意两话题的相似度都小于预设阈值为止。这里所述的两个话题的相似度是指来那个话题对应的两个特征词汇特征词汇集中相同的词汇数除以两个话题的特征词汇总个数;这里所谓的两话题合并是指将第二个话题中的特征词汇补充到第一个话题的特征词汇集中,然后删掉第二个话题。
步骤六话题展示具体是:
以特征词组中最热门关键词的爆发得分作为话题的热度值,将热点话题按热度值从高到低次序排序输出并显示。
利用本发明的方法使微博热点话题的提取更快更准确,并且给用户一个直观的热点话题浏览。
附图说明
图1 基于Hadoop的微博热点话题提取方法的结构示意图;
图2 提取潜在热点话题的特征词汇集;
图3 热点话题挖掘的基本流程图;
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例,但不限于此。
图1是本发明一个实施例的基于Hadoop的微博热点话题挖掘方法的结构示意图,如图1所示。根据本发明实施例的基于Hadoop的微博热点话题挖掘方法包括:组建Hadoop集群平台、微博数据采集、数据预处理、话题特征词组提取、相似话题的合并和话题展示,以下对本发明实施例的各个步骤进行详细的说明。
步骤一、组建Hadoop集群平台
组建局域网,对局域网中的每个计算机安装Hadoop软件;通过对Hadoop配置文件中属性参数dfs.namenode和dfs.datanode的设置,将其中一台计算机配置成Hadoop名字节点,而其他计算机配置成数据节点;并通过对Hadoop配置文件中属性参数mapred.jobtracker和mapred.tasktracker的设置,将其中一台计算机配置成Hadoop调度节点,而其他计算机配置成任务节点,组建开源的Hadoop平台。
步骤二、微博数据采集
利用微博平台的开放API接口采集微博信息;其中,所述微博信息包括:微博内容、以及发微博的时间、微博的作者和微博的来源信息(这里所述的微博来源是指微博平台来源,例如来自网页上的新浪微博和iphone客户端等);将采集当天的微博使用Hadoop分布式文件命令dfs-put将数据集上传至Hadoop平台的各个节点上。
步骤三、数据预处理
数据预处理就是对采集的微博内容进行分词处理,过滤掉一些噪音信息,并抽取出热门关键词组,然后对微博信息在HDFS上建立索引。这里所述噪音信息就是对微博热点话题提取无用的信息,而所述HDFS就是Hadoop平台上的分布式文件系统。
步骤四、话题特征词组提取
把每个热门关键词都看成一个潜在的热门话题,根据特征值计算的方法提取出每个潜在热门话题的特征词组;
步骤五、相似话题的合并
循环遍历潜在的热门话题,合并相似度超过阈值的话题;
步骤六、话题展示
以特征词组中最热门关键词的爆发得分作为话题的热度值,将热点话题按热度值从高到低次序排序输出并显示。
如图2所示特征提取方法,其步骤包括:
步骤1,对词频进行归一化计算。将关键词对应的相关文档作为一个语料库,词条n的归一化词频为tf n =N(n)/N。这里N(n)表示词条n在此语料库中出现的次数,N表示此语料库中所有词条出现次数的总和。
步骤2,逆向文档频率计算。预先准备人工挑选出的典型话题文档作为语料库(一般100篇左右即可),典型话题语料库中的每一篇文档对应一个人工挑选出的典型话题,同一文档都是由人工挑选的同一典型话题的微博组成的,每条微博占一行;语料库中词条n的逆向文档频率为idf n =log[|N|/(1+NL(n))];这里NL(n) 是指典型话题语料库中包含词条n的文档个数;|N|是典型话题语料库中文档个数。
步骤3,计算词汇权值,提取话题特征词汇集。词条TFIDF值=词频×逆向文档频率,即tfidf n =tf n *idf n ;这里所述的提取话题特征词汇集就是根据每个话题的词汇权值从大到小选取的话题特征词汇组成的集合,每个话题至少选取5个话题特征词汇。
如图3所示热点话题提取过程,其步骤包括:
步骤1,利用微博平台的开放API接口采集微博信息;其中,所述微博信息包括:微博内容、以及发微博的时间、微博的作者和微博的来源信息(这里所述的微博来源是指微博平台来源,例如来自网页上的新浪微博,来自iphone客户端等);将采集当天的微博使用Hadoop分布式文件命令dfs-put将数据集上传至Hadoop平台的各个节点上。
步骤2,采用中国科学院计算技术研究所的ICTCLAS分词系统对采集的微博信息内容进行分词并标注出词性;过滤掉包含“#”(表示一个讨论的话题)、 “http://”(表示已有的新闻等其他消息)、“用户”(表示对话式的互动)的噪音信息,以及在特定时间段频繁出现的词,如“晚安”、“午饭”等;然后利用如下公式计算每一个名词和动词在一小时内的爆发程度: 
Figure 201310501234X100002DEST_PATH_IMAGE002
这里的F(w,t n )表示词组wt n 时间段内在微博信息中出现的次数,而F(w,t n-1)表示词组w在前一天t n 时间段内在微博信息中出现的次数;这里的时间窗口通常设置为一个小时(如果时间窗口设置成较大时,选出的爆发词更加准确,但是由于粒度较大,有的话题会被漏掉)。
将爆发程度值从高到低次序的前200个词作为候选热门关键词;将采集得到的当天微博信息,利用Apache软件基金会支持和提供的用于全文检索和搜寻的开源程式库Lucene在Hadoop平台上的HDFS上建立索引,以便下一步的处理;
步骤3,以每一个关键词为搜索条件在HDFS上已经建好的索引中搜索出相关微博信息,将搜索出的微博信息看作该关键词的相关文档;计算该相关文档的平均相似度,当平均相似度低于预设的阈值时(一般可设置为0.36)就认为该文档里信息不是噪音信息而是一个潜在的话题,然后利用基于特征提取方法从所述相关文档中提取该话题的特征词汇集,并计算每个特征词汇的权值。这里所述相关文档的平均相似度是指文档中所有两两相邻微博之间的相似度总和除以相关文档中的微博总数得到的值;这里所述的微博相似度是指两条微博中相同词语的个数除以微博中总的词语个数得到的值;
步骤4,循环计算两话题相似度,当相似度超过预设阈值(一般设为0.1即可)时合并此两个话题,直到任意两话题的相似度都小于预设阈值为止。这里所述的两个话题的相似度是指来那个话题对应的两个特征词汇特征词汇集中相同的词汇数除以两个话题的特征词汇总个数;这里所谓的两话题合并是指将第二个话题中的特征词汇补充到第一个话题的特征词汇集中,然后删掉第二个话题;
步骤5,以特征词组中最热门关键词的爆发得分作为话题的热度值,将热点话题按热度值从高到低次序排序输出并显示。

Claims (6)

1. 一种基于Hadoop的微博热点话题提取方法,其特征在于该方法包括如下步骤:
步骤一、组建Hadoop集群平台;
组建局域网,对局域网中的每个计算机安装Hadoop软件,通过对Hadoop配置文件中属性参数dfs.namenode和dfs.datanode的设置,将其中一台计算机配置成Hadoop名字节点,而其它计算机配置成数据节点;并通过对Hadoop配置文件中属性参数mapred.jobtracker和mapred.tasktracker的设置,将其中一台计算机配置成Hadoop调度节点,而其它计算机配置成任务节点,组建开源的Hadoop平台;
步骤二、微博数据采集;
利用微博平台的开放API接口采集微博信息;其中,所述微博信息包括:微博内容、发微博的时间、微博的作者和微博的来源信息,所述的微博来源是指微博平台来源;将采集当天的微博使用Hadoop分布式文件命令dfs-put将数据集上传至Hadoop平台的各个节点上;
步骤三、数据预处理;
数据预处理就是对采集的微博内容进行分词处理,过滤掉一些噪音信息,并抽取出热门关键词组,然后对微博信息在HDFS上建立索引;所述噪音信息就是对微博热点话题提取无用的信息,所述HDFS就是Hadoop平台上的分布式文件系统;
步骤四、话题特征词组提取;
把每个热门关键词都看成一个潜在的热门话题,根据特征值计算的方法提取出每个潜在热门话题的特征词组;
步骤五、相似话题的合并;
循环遍历潜在的热门话题,合并相似度超过阈值的话题;
步骤六、话题展示;
以特征词组中最热门关键词的爆发得分作为话题的热度值,将热点话题按热度值从高到低次序排序输出并显示。
2.根据权利要求1所述的方法,其特征在于:步骤一组建Hadoop集群平台方法的具体步骤如下:
(1) 为局域网中每一个节点安装ubuntu操作系统;
(2) 为局域网中每一个节点安装Hadoop插件;
(3) 为局域网中每一个节点安装JDK插件;
(4) 配置局域网中每个节点上的ubuntu系统的etc文件,使ubuntu系统关联该节点上的Hadoop文件和该节点上的jdk文件;
(5) 配置局域网中每个节点上Hadoop插件中的core-site.xml文件、hdfs-site.xml文件和mapred-site.xml文件;设置属性dfs.namenode和dfs.datanode,使局域网中存在一个名字节点和多个数据节点;同时设置属性mapred,jobtracker和mapred.tasktracker,使集群中存在一个任务调度节点和多个任务执行节点。
3.根据权利要求1所述的方法,其特征在于:步骤三预处理具体是:
采用中国科学院计算技术研究所的ICTCLAS分词系统对采集的微博信息内容进行分词并标注出词性;过滤掉包含“#”(表示一个讨论的话题)、 “http://”(表示已有的新闻等其他消息)、“用户”(表示对话式的互动)的噪音信息,以及在特定时间段频繁出现的词;然后利用如下公式计算每一个名词和动词在一小时内的爆发程度                                               
Figure 201310501234X100001DEST_PATH_IMAGE002
Figure 201310501234X100001DEST_PATH_IMAGE004
这里的F(w,t n )表示词组wt n 时间段内在微博信息中出现的次数,而F(w,t n-1)表示词组w在前一天t n 时间段内在微博信息中出现的次数;这里的时间窗口通常设置为一个小时;
将爆发程度值从高到低次序的前200个词作为候选热门关键词;将采集得到的当天微博信息,利用Apache软件基金会支持和提供的用于全文检索和搜寻的开源程式库Lucene在Hadoop平台上的HDFS上建立索引,以便下一步的处理。
4.根据权利要求1所述的方法,其特征在于:步骤四话题特征词组提取具体是:
以每一个关键词为搜索条件在HDFS上已经建好的索引中搜索出相关微博信息,将搜索出的微博信息看作该关键词的相关文档;计算该相关文档的平均相似度,当平均相似度低于预设的阈值时就认为该文档里信息不是噪音信息而是一个潜在的话题,然后利用基于特征提取方法从所述相关文档中提取该话题的特征词汇集,并计算每个特征词汇的权值;所述相关文档的平均相似度是指文档中所有两两相邻微博之间的相似度总和除以相关文档中的微博总数得到的值;所述的微博相似度是指两条微博中相同词语的个数除以微博中总的词语个数得到的值;这里所述话题特征词汇集提取及特征词汇权值计算是指以下步骤:
步骤A:对词频进行归一化计算;将关键词对应的相关文档作为一个语料库,词条n的归一化词频为tf n =N(n)/N;这里N(n)表示词条n在此语料库中出现的次数,N表示此语料库中所有词条出现次数的总和;
步骤B:逆向文档频率计算;预先准备人工挑选出的典型话题文档作为语料库,典型话题语料库中的每一篇文档对应一个人工挑选出的典型话题,同一文档都是由人工挑选的同一典型话题的微博组成的,每条微博占一行;语料库中词条n的逆向文档频率为idf n =log[|N|/(1+NL(n))];这里NL(n) 是指典型话题语料库中包含词条n的文档个数;|N|是典型话题语料库中文档个数;
步骤C:计算词汇权值,提取话题特征词汇集;词条TFIDF值=词频×逆向文档频率,即tfidf n =tf n *idf n ;所述的提取话题特征词汇集就是根据每个话题的词汇权值从大到小选取的话题特征词汇组成的集合,每个话题至少选取5个话题特征词汇。
5.根据权利要求1所述的方法,其特征在于:步骤五相似话题的合并具体是:
循环计算两话题相似度,当相似度超过预设阈值时合并此两个话题,直到任意两话题的相似度都小于预设阈值为止;所述的两个话题的相似度是指来那个话题对应的两个特征词汇集中相同的词汇数除以两个话题的特征词汇总个数;所述的两话题合并是指将第二个话题中的特征词汇补充到第一个话题的特征词汇集中,然后删掉第二个话题。
6.根据权利要求1所述的方法,其特征在于:步骤六话题展示具体是:
以特征词组中最热门关键词的爆发得分作为话题的热度值,将热点话题按热度值从高到低次序排序输出并显示。
CN201310501234.XA 2013-10-23 2013-10-23 一种基于Hadoop的微博热点话题提取方法 Active CN103617169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310501234.XA CN103617169B (zh) 2013-10-23 2013-10-23 一种基于Hadoop的微博热点话题提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310501234.XA CN103617169B (zh) 2013-10-23 2013-10-23 一种基于Hadoop的微博热点话题提取方法

Publications (2)

Publication Number Publication Date
CN103617169A true CN103617169A (zh) 2014-03-05
CN103617169B CN103617169B (zh) 2017-04-05

Family

ID=50167872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310501234.XA Active CN103617169B (zh) 2013-10-23 2013-10-23 一种基于Hadoop的微博热点话题提取方法

Country Status (1)

Country Link
CN (1) CN103617169B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823792A (zh) * 2014-03-07 2014-05-28 网易(杭州)网络有限公司 从文本文档中检测热点事件的方法和设备
CN104199947A (zh) * 2014-09-11 2014-12-10 浪潮集团有限公司 一种对重点人员言论监督与关联关系挖掘的方法
CN104462253A (zh) * 2014-11-20 2015-03-25 武汉数为科技有限公司 一种面向网络文本大数据的话题检测或跟踪方法
CN104598631A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 分布式数据处理平台
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN105740727A (zh) * 2016-02-02 2016-07-06 上海斐讯数据通信技术有限公司 隐私数据的分布式存储方法及系统
CN105930375A (zh) * 2016-04-13 2016-09-07 云南财经大学 一种基于xbrl文件的数据挖掘方法
CN106202070A (zh) * 2015-04-29 2016-12-07 中国电信股份有限公司 文件存储处理方法与系统
CN106970924A (zh) * 2016-01-14 2017-07-21 北京国双科技有限公司 一种话题排序方法及装置
CN107122478A (zh) * 2017-05-03 2017-09-01 成都云数未来信息科学有限公司 一种基于关键词提取热点话题的方法
CN107273346A (zh) * 2016-03-30 2017-10-20 邻客音公司 从文本中对热门见解的可扩展挖掘
CN107885793A (zh) * 2017-10-20 2018-04-06 江苏大学 一种微博热点话题分析预测方法及系统
CN108763583A (zh) * 2018-06-11 2018-11-06 山东汇贸电子口岸有限公司 一种基于关键字搜索的微博热门话题提取方法及系统
CN108804432A (zh) * 2017-04-26 2018-11-13 慧科讯业有限公司 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置
CN109118156A (zh) * 2017-06-26 2019-01-01 上海颐为网络科技有限公司 一种图书信息协同系统和方法
CN109271509A (zh) * 2018-08-23 2019-01-25 武汉斗鱼网络科技有限公司 直播间话题的生成方法、装置、计算机设备和存储介质
CN110134788A (zh) * 2019-05-16 2019-08-16 杭州师范大学 一种基于文本挖掘的微博发布优化方法及系统
CN110377823A (zh) * 2019-06-28 2019-10-25 厦门美域中央信息科技有限公司 一种Hadoop框架下的热点挖掘系统的构建
CN110750682A (zh) * 2018-07-06 2020-02-04 武汉斗鱼网络科技有限公司 一种标题热词自动计量方法、存储介质、电子设备及系统
CN111026958A (zh) * 2019-11-29 2020-04-17 微梦创科网络科技(中国)有限公司 一种热门微博排序方法及装置
CN111309999A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置
CN111859230A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种用于监控互联网信息的热点趋势的控制方法
CN112612895A (zh) * 2020-12-29 2021-04-06 中科院计算技术研究所大数据研究院 一种主体话题态度指数的计算方法
CN116522901A (zh) * 2023-06-29 2023-08-01 金锐同创(北京)科技股份有限公司 It社群的关注信息的分析方法、装置、设备和介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324665B (zh) * 2013-05-14 2017-05-03 亿赞普(北京)科技有限公司 一种基于微博的热点信息提取的方法和装置
CN103294818B (zh) * 2013-06-12 2016-05-18 北京航空航天大学 多信息融合的微博热点话题检测方法
CN103345524B (zh) * 2013-07-19 2017-03-22 中国地质大学(武汉) 微博热点话题检测方法及系统

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823792A (zh) * 2014-03-07 2014-05-28 网易(杭州)网络有限公司 从文本文档中检测热点事件的方法和设备
CN103823792B (zh) * 2014-03-07 2017-01-11 网易(杭州)网络有限公司 从文本文档中检测热点事件的方法和设备
CN104199947A (zh) * 2014-09-11 2014-12-10 浪潮集团有限公司 一种对重点人员言论监督与关联关系挖掘的方法
CN104462253A (zh) * 2014-11-20 2015-03-25 武汉数为科技有限公司 一种面向网络文本大数据的话题检测或跟踪方法
CN104462253B (zh) * 2014-11-20 2018-05-18 武汉数为科技有限公司 一种面向网络文本大数据的话题检测或跟踪方法
CN104598631A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 分布式数据处理平台
CN104598631B (zh) * 2015-02-05 2017-11-14 北京航空航天大学 分布式数据处理平台
CN106202070A (zh) * 2015-04-29 2016-12-07 中国电信股份有限公司 文件存储处理方法与系统
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN106970924A (zh) * 2016-01-14 2017-07-21 北京国双科技有限公司 一种话题排序方法及装置
CN106970924B (zh) * 2016-01-14 2020-10-20 北京国双科技有限公司 一种话题排序方法及装置
CN105740727A (zh) * 2016-02-02 2016-07-06 上海斐讯数据通信技术有限公司 隐私数据的分布式存储方法及系统
CN107273346B (zh) * 2016-03-30 2024-06-11 微软技术许可有限责任公司 从文本中对热门见解的可扩展挖掘
CN107273346A (zh) * 2016-03-30 2017-10-20 邻客音公司 从文本中对热门见解的可扩展挖掘
CN105930375A (zh) * 2016-04-13 2016-09-07 云南财经大学 一种基于xbrl文件的数据挖掘方法
CN108804432A (zh) * 2017-04-26 2018-11-13 慧科讯业有限公司 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置
CN107122478B (zh) * 2017-05-03 2020-05-08 成都云数未来信息科学有限公司 一种基于关键词提取热点话题的方法
CN107122478A (zh) * 2017-05-03 2017-09-01 成都云数未来信息科学有限公司 一种基于关键词提取热点话题的方法
CN109118156A (zh) * 2017-06-26 2019-01-01 上海颐为网络科技有限公司 一种图书信息协同系统和方法
CN107885793A (zh) * 2017-10-20 2018-04-06 江苏大学 一种微博热点话题分析预测方法及系统
CN108763583A (zh) * 2018-06-11 2018-11-06 山东汇贸电子口岸有限公司 一种基于关键字搜索的微博热门话题提取方法及系统
CN110750682A (zh) * 2018-07-06 2020-02-04 武汉斗鱼网络科技有限公司 一种标题热词自动计量方法、存储介质、电子设备及系统
CN109271509A (zh) * 2018-08-23 2019-01-25 武汉斗鱼网络科技有限公司 直播间话题的生成方法、装置、计算机设备和存储介质
CN111309999B (zh) * 2018-12-11 2023-05-16 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置
CN111309999A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置
CN111859230A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种用于监控互联网信息的热点趋势的控制方法
CN111859230B (zh) * 2019-04-30 2024-02-06 北京智慧星光信息技术有限公司 一种用于监控互联网信息的热点趋势的控制方法
CN110134788A (zh) * 2019-05-16 2019-08-16 杭州师范大学 一种基于文本挖掘的微博发布优化方法及系统
CN110377823A (zh) * 2019-06-28 2019-10-25 厦门美域中央信息科技有限公司 一种Hadoop框架下的热点挖掘系统的构建
CN111026958A (zh) * 2019-11-29 2020-04-17 微梦创科网络科技(中国)有限公司 一种热门微博排序方法及装置
CN111026958B (zh) * 2019-11-29 2023-07-25 微梦创科网络科技(中国)有限公司 一种热门微博排序方法及装置
CN112612895A (zh) * 2020-12-29 2021-04-06 中科院计算技术研究所大数据研究院 一种主体话题态度指数的计算方法
CN116522901A (zh) * 2023-06-29 2023-08-01 金锐同创(北京)科技股份有限公司 It社群的关注信息的分析方法、装置、设备和介质
CN116522901B (zh) * 2023-06-29 2023-09-15 金锐同创(北京)科技股份有限公司 It社群的关注信息的分析方法、装置、设备和介质

Also Published As

Publication number Publication date
CN103617169B (zh) 2017-04-05

Similar Documents

Publication Publication Date Title
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
De Zeeuw et al. Tracing normiefication: A cross-platform analysis of the QAnon conspiracy theory
Li et al. Filtering out the noise in short text topic modeling
CN104133820B (zh) 内容推荐方法及内容推荐装置
CN102426610B (zh) 微博搜索排名方法及微博搜索引擎
CN103116605A (zh) 一种基于监测子网的微博热点事件实时检测方法及系统
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN103745000A (zh) 一种中文微博客的热点话题检测方法
CN105068991A (zh) 一种基于大数据的舆情发现方法
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN104504024B (zh) 基于微博内容的关键词挖掘方法及系统
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN103177076A (zh) 一种基于定点网站的舆情监测系统及方法
Baralis et al. Analysis of twitter data using a multiple-level clustering strategy
CN104965823A (zh) 一种基于大数据的观点抽取方法
CN104281608A (zh) 基于微博的突发事件分析方法
CN110232126A (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN104035972A (zh) 一种基于微博的知识推荐方法与系统
Ouyang et al. Sentistory: multi-grained sentiment analysis and event summarization with crowdsourced social media data
CN105183765A (zh) 一种基于大数据的话题抽取方法
CN111859065A (zh) 一种基于大数据的舆情聆听系统
Kim et al. TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme
CN103198078A (zh) 一种互联网新闻事件报道趋势分析方法及系统
Chen et al. Towards topic trend prediction on a topic evolution model with social connection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant