CN108763583A - 一种基于关键字搜索的微博热门话题提取方法及系统 - Google Patents
一种基于关键字搜索的微博热门话题提取方法及系统 Download PDFInfo
- Publication number
- CN108763583A CN108763583A CN201810593368.1A CN201810593368A CN108763583A CN 108763583 A CN108763583 A CN 108763583A CN 201810593368 A CN201810593368 A CN 201810593368A CN 108763583 A CN108763583 A CN 108763583A
- Authority
- CN
- China
- Prior art keywords
- data
- microblog
- keyword search
- hot topic
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 11
- 239000000284 extract Substances 0.000 claims abstract description 6
- 241001269238 Data Species 0.000 claims abstract description 5
- 238000013508 migration Methods 0.000 claims description 32
- 230000005012 migration Effects 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000002688 persistence Effects 0.000 claims description 7
- 238000004088 simulation Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 4
- 244000097202 Rathbunia alamosensis Species 0.000 description 8
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 8
- 238000013500 data storage Methods 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 241000938605 Crocodylia Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关键字搜索的微博热门话题提取方法及系统,属于云计算技术领域。本发明的基于关键字搜索的微博热门话题提取方法,利用网络爬虫结合微博的高级搜索功能,获取指定时间内用户发布的含有关键字的所有微博数据,利用Hadoop平台实现微博数据的处理与分析,提取出热门话题。该发明的基于关键字搜索的微博热门话题提取方法能够快速、精确的得到热门话题,从而有助于掌握热点事件,具有很好的推广应用价值。
Description
技术领域
本发明涉及云计算技术领域,具体提供一种基于关键字搜索的微博热门话题提取方法及系统。
背景技术
随着社会的不断进步,社会经济、科技技术不断的发展,计算机的应用范围越来越广泛,导致互联网发展越来越迅速。随着互联网的发展,论坛、博客等社交网络平台不断涌现,社交网络平台的交互性和即时性产生了海量的数据信息。而如何获取这些数据信息并挖掘它们的潜在价值已经成为目前亟待解决的问题。在不断涌现的社交网路平台中,微博凭借其传播内容碎片化、传播主题草根化等特点迅速发展,其中用户群规模和社会影响力最大的当属新浪微博。相对来说新浪微博中的微博热门话题会带来更多的价值,更受关注,因此,获取新浪微博中的所有热门话题具有重要意义。但是现有技术中,还没有方便精确的获取微博热门话题的方法,有待进一步的开发。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能够快速、精确的获得热门话题,从而有助于掌握热点事件的基于关键字搜索的微博热门话题提取方法。
本发明进一步的技术任务是提供一种基于关键字搜索的微博热门话题提取系统。
为实现上述目的,本发明提供了如下技术方案:
一种基于关键字搜索的微博热门话题提取方法,所述方法利用网络爬虫结合微博的高级搜索功能,获取指定时间内用户发布的含有关键字的所有微博数据,利用Hadoop平台实现微博数据的处理与分析,提取出热门话题。
本发明中利用了Hadoop的两大核心设计:HDFS和MapReduce。
作为优选,所述方法具体包括以下步骤:
S1:数据采集
利用网络爬虫模拟登录和多账户轮换的分布式数据采集策略;
S2:数据存储与迁移
采用关系型数据库和HDFS分布式文件系统相结合来存储数据,采用数据迁移工具实现数据在关系型数据库和HDFS分布式文件系统间的迁移;
S3:数据处理与分析
利用MapReduce计算模型对获取的微博数据进行处理与分析。
为了保护用户数据和个人隐私,新浪微博限制了用户的访问权限,用户只有通过登录且通过验证后才可以浏览全部信息。此外,新浪微博还对用户的IP地址和每小时访问次数做了严格限制,再加上数据量过于庞大,采用单机或者集中式数据采集策略都是不可取的,本发明中采用网络爬虫模拟登录和多账户轮换的分布式数据采集策略提高爬取效率。
由于关系型数据库主要面向结构化的数据,而且不能满足大规模数据分析的需求,所以本发明中主要利用HDFS分布式文件系统来存储网页内容。但关系型数据库具有便捷的数据查询分析能力、快速的事务处理能力以及多用户并发访问能力,因此可以将处理后的结构化数据存储到关系型数据库中,以便进行快速的查询和检索操作,而不同数据库间的迁移工作可以通过数据迁移工具完成。
作为优选,步骤S1中所述网络爬虫包括权限验证模块、网页抓取模块、页面解析模块、URL调度模块和持久化模块,权限验证模块负责验证每个网络爬虫的账户权限;网页抓取模块不断从URL调度模块中获取URL,与Web服务器进行交互采集网页内容,将网页内容发送到页面解析模块;页面解析模块从网页内容中提取新的URL并发送到URL调度模块,同时将整个网页内容发送到持久化模块。
作为优选,所述持久化模块将网页内容进行压缩并写入HDFS。
作为优选,步骤S2中所述数据迁移工具为Sqoop。Sqoop是一个开源的数据迁移工具,专为大数据批量传输设计,可以将一个关系型数据库中的数据导入HDFS中,也可以将HDFS中的数据导入关系型数据库中。
作为优选,步骤S3中MapReduce计算模型将微博数据的处理过程抽象为Map函数和Reduce函数,Map函数将微博数据进行初步处理,Reduce函数将中间结果汇总得最终结果。
一种基于关键字搜索的微博热门话题提取系统,包括数据采集单元、数据存储与迁移单元和数据处理与分析单元,所述数据采集单元用于采集含有关键字的所有微博数据;数据存储与迁移单元用于将采集的微博数据进行存储并迁移;数据处理与分析单元用于将采集的微博数据进行处理与分析。
作为优选,所述数据采集单元利用网络爬虫模拟登录和多账户轮换的分布式数据采集策略。
作为优选,所述数据存储与迁移单元采用关系型数据库和HDFS分布式文件系统相结合来存储数据,采用数据迁移工具实现数据在关系型数据库和HDFS分布式文件系统间的迁移。
作为优选,所述数据处理与分析单元利用MapReduce计算模型对微博数据进行处理与分析。
与现有技术相比,本发明的基于关键字搜索的微博热门话题提取方法具有以下突出的有益效果:所述基于关键字搜索的微博热门话题提取方法能够快速处理分析得到相关的热门微博话题,从而掌握热点事件在社交网络平台中的最新动态和发酵情况,灵活性和可扩展性较高,具有良好的推广应用价值。
附图说明
图1是本发明所述基于关键字搜索的微博热门话题提取方法的网络爬虫软件框架图。
具体实施方式
下面将结合附图和实施例,对本发明的基于关键字搜索的微博热门话题提取方法及系统作进一步详细说明。
实施例
本发明的基于关键字搜索的微博热门话题提取方法,该方法利用网络爬虫结合微博的高级搜索功能,获取指定时间内用户发布的含有关键字的所有微博数据,利用Hadoop平台实现微博数据的处理与分析,提取出热门话题。其中Hadoop平台的两大核心为HDFS和MapReduce。具体包括以下步骤:
S1:数据采集
利用网络爬虫模拟登录和多账户轮换的分布式数据采集策略采集微博数据。
如图1所示,网络爬虫主要包括权限验证模块、网页抓取模块、页面解析模块、URL调度模块和持久化模块。权限验证模块负责验证每个网络爬虫的账户权限,也就是网络爬虫模拟用户的登录行为来访问服务器的过程。网页抓取模块不断地从URL调度模块中获取URL,然后与Web服务器进行交互以采集网页内容,最后将网页内容发送到页面解析模块。页面解析模块负责从网页内容中提取新的URL并发送到URL调度模块,同时将整个网页内容发送到持久化模块。最后,持久化模块负责对网页内容进行压缩并写入HDFS。
鉴于新浪微博的高级搜索功能,每次只能显示前50页的内容,因此可以根据时间段拼接URL以确保数据采集的覆盖范围。根据需要采集的关键字和采集时间(包括开始时间和结束时间),网络爬虫可以生成首批待采集URL,其格式为:http://s.weibo.com/weibo/地震&typeall=1&suball=1×cope=custom: 2018-05-12-1:2018-05-12-1&page=1(这条URL表示从2018年5月12日1点到2点期间用户发布的所有含有地震这一关键词的微博)。如果以1个小时为时间单位,采集时间跨度为3个月,则第一次约生成2160条URL,每条URL又可以解析出新的翻页URL。但由于新浪微博对用户访问频率的限制,目前网络爬虫的采集间隔至少需要设定为45秒,因此一个账号每条最多只能爬取约1900条URL。如果需要1天采集完3个月内含有关键字的微博,则至少需要60个爬虫,即采用多账户轮换的分布式数据采集方法。
S2:数据存储与迁移
采用关系型数据库和HDFS分布式文件系统相结合来存储数据,采用数据迁移工具Sqoop实现数据在关系型数据库和HDFS分布式文件系统间的迁移。
由于关系型数据库主要面向结构化的数据,而且不能满足大规模数据分析的需求,所以本发明中主要利用HDFS分布式文件系统来存储网页内容。但关系型数据库具有便捷的数据查询分析能力、快速的事务处理能力以及多用户并发访问能力,因此可以将处理后的结构化数据存储到关系型数据库中,以便进行快速的查询和检索操作,而不同数据库间的迁移工作可以通过数据迁移工具Sqoop完成数据的迁移。
S3:数据处理与分析
利用MapReduce计算模型对获取的微博数据进行处理与分析。MapReduce计算模型将微博数据的处理过程抽象为Map函数和Reduce函数,Map函数将微博数据进行初步处理,Reduce函数将中间结果汇总得最终结果。
新浪微博有固定的话题格式(#话题名称#),所以不需要对所有的微博内容进行分词、过滤等操作。XPath是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历。本发明中的MapReduce程序只需要抽取每个网页中xpath为//a[@class=’a_topic W_linkb’]的元素并进行汇总和排序,最后通过Sqoop工具将这些话题导出到关系型数据库中即可。
基于关键字搜索的微博热门话题提取系统,包括数据采集单元、数据存储与迁移单元和数据处理与分析单元。
数据采集单元用于采集含有关键字的所有微博数据,数据采集单元利用网络爬虫模拟登录和多账户轮换的分布式数据采集策略。
数据存储与迁移单元用于将采集的微博数据进行存储并迁移,数据存储与迁移单元采用关系型数据库和HDFS分布式文件系统相结合来存储数据,采用数据迁移工具实现数据在关系型数据库和HDFS分布式文件系统间的迁移。
数据处理与分析单元利用MapReduce计算模型将采集的微博数据进行处理与分析。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (10)
1.一种基于关键字搜索的微博热门话题提取方法,其特征在于:所述方法利用网络爬虫结合微博的高级搜索功能,获取指定时间内用户发布的含有关键字的所有微博数据,利用Hadoop平台实现微博数据的处理与分析,提取出热门话题。
2.根据权利要求1所述的基于关键字搜索的微博热门话题提取方法,其特征在于:所述方法具体包括以下步骤:
S1:数据采集
利用网络爬虫模拟登录和多账户轮换的分布式数据采集策略;
S2:数据存储与迁移
采用关系型数据库和HDFS分布式文件系统相结合来存储数据,采用数据迁移工具实现数据在关系型数据库和HDFS分布式文件系统间的迁移;
S3:数据处理与分析
利用MapReduce计算模型对获取的微博数据进行处理与分析。
3.根据权利要求2所述的基于关键字搜索的微博热门话题提取方法,其特征在于:步骤S1中所述网络爬虫包括权限验证模块、网页抓取模块、页面解析模块、URL调度模块和持久化模块,权限验证模块负责验证每个网络爬虫的账户权限;网页抓取模块不断从URL调度模块中获取URL,与Web服务器进行交互采集网页内容,将网页内容发送到页面解析模块;页面解析模块从网页内容中提取新的URL并发送到URL调度模块,同时将整个网页内容发送到持久化模块。
4.根据权利要求3所述的基于关键字搜索的微博热门话题提取方法,其特征在于:所述持久化模块将网页内容进行压缩并写入HDFS。
5.根据权利要求4所述的基于关键字搜索的微博热门话题提取方法,其特征在于:步骤S2中所述数据迁移工具为Sqoop。
6.根据权利要求5所述的基于关键字搜索的微博热门话题提取方法,其特征在于:步骤S3中MapReduce计算模型将微博数据的处理过程抽象为Map函数和Reduce函数,Map函数将微博数据进行初步处理,Reduce函数将中间结果汇总得最终结果。
7.一种基于关键字搜索的微博热门话题提取系统,其特征在于:包括数据采集单元、数据存储与迁移单元和数据处理与分析单元,所述数据采集单元用于采集含有关键字的所有微博数据;数据存储与迁移单元用于将采集的微博数据进行存储并迁移;数据处理与分析单元用于将采集的微博数据进行处理与分析。
8.根据权利要求7所述的基于关键字搜索的微博热门话题提取系统,其特征在于:所述数据采集单元利用网络爬虫模拟登录和多账户轮换的分布式数据采集策略。
9.根据权利要求7或8所述的基于关键字搜索的微博热门话题提取系统,其特征在于:所述数据存储与迁移单元采用关系型数据库和HDFS分布式文件系统相结合来存储数据,采用数据迁移工具实现数据在关系型数据库和HDFS分布式文件系统间的迁移。
10.根据权利要求9所述的基于关键字搜索的微博热门话题提取系统,其特征在于:所述数据处理与分析单元利用MapReduce计算模型对微博数据进行处理与分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810593368.1A CN108763583A (zh) | 2018-06-11 | 2018-06-11 | 一种基于关键字搜索的微博热门话题提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810593368.1A CN108763583A (zh) | 2018-06-11 | 2018-06-11 | 一种基于关键字搜索的微博热门话题提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108763583A true CN108763583A (zh) | 2018-11-06 |
Family
ID=64022328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810593368.1A Pending CN108763583A (zh) | 2018-06-11 | 2018-06-11 | 一种基于关键字搜索的微博热门话题提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763583A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401074A (zh) * | 2020-04-03 | 2020-07-10 | 山东爱城市网信息技术有限公司 | 一种基于Hadoop的短文本情感倾向性分析方法、系统及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617169A (zh) * | 2013-10-23 | 2014-03-05 | 杭州电子科技大学 | 一种基于Hadoop的微博热点话题提取方法 |
CN103838617A (zh) * | 2014-02-18 | 2014-06-04 | 河海大学 | 大数据环境下的数据挖掘平台的构建方法 |
CN104820670A (zh) * | 2015-03-13 | 2015-08-05 | 国家电网公司 | 一种电力信息大数据的采集和存储方法 |
CN105183765A (zh) * | 2015-07-30 | 2015-12-23 | 成都鼎智汇科技有限公司 | 一种基于大数据的话题抽取方法 |
CN105956932A (zh) * | 2016-04-29 | 2016-09-21 | 中国南方电网有限责任公司电网技术研究中心 | 配用电数据融合方法和系统 |
CN106708902A (zh) * | 2015-11-18 | 2017-05-24 | 青岛海日安电子有限公司 | 数据库数据迁移方法及系统 |
CN106779827A (zh) * | 2016-12-02 | 2017-05-31 | 上海晶樵网络信息技术有限公司 | 一种互联网用户行为采集及分析检测的大数据方法 |
-
2018
- 2018-06-11 CN CN201810593368.1A patent/CN108763583A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617169A (zh) * | 2013-10-23 | 2014-03-05 | 杭州电子科技大学 | 一种基于Hadoop的微博热点话题提取方法 |
CN103838617A (zh) * | 2014-02-18 | 2014-06-04 | 河海大学 | 大数据环境下的数据挖掘平台的构建方法 |
CN104820670A (zh) * | 2015-03-13 | 2015-08-05 | 国家电网公司 | 一种电力信息大数据的采集和存储方法 |
CN105183765A (zh) * | 2015-07-30 | 2015-12-23 | 成都鼎智汇科技有限公司 | 一种基于大数据的话题抽取方法 |
CN106708902A (zh) * | 2015-11-18 | 2017-05-24 | 青岛海日安电子有限公司 | 数据库数据迁移方法及系统 |
CN105956932A (zh) * | 2016-04-29 | 2016-09-21 | 中国南方电网有限责任公司电网技术研究中心 | 配用电数据融合方法和系统 |
CN106779827A (zh) * | 2016-12-02 | 2017-05-31 | 上海晶樵网络信息技术有限公司 | 一种互联网用户行为采集及分析检测的大数据方法 |
Non-Patent Citations (1)
Title |
---|
霍可栋: "基于云计算的微博舆情监控系统研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401074A (zh) * | 2020-04-03 | 2020-07-10 | 山东爱城市网信息技术有限公司 | 一种基于Hadoop的短文本情感倾向性分析方法、系统及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543086B (zh) | 一种面向多数据源的网络数据采集与展示方法 | |
CN100541495C (zh) | 一种个性化搜索引擎的搜索方法 | |
Elgazzar et al. | Clustering wsdl documents to bootstrap the discovery of web services | |
CN101370024B (zh) | 信息的分布式采集方法及系统 | |
US8402021B2 (en) | Providing posts to discussion threads in response to a search query | |
CN106096056A (zh) | 一种基于分布式的舆情数据实时采集方法和系统 | |
CN104838413A (zh) | 基于用户提交来调整内容递送 | |
CN103488681A (zh) | 斜线标签 | |
CN110597981A (zh) | 一种采用多策略自动生成摘要的网络新闻概要系统 | |
CN106484828A (zh) | 一种分布式互联网数据快速采集系统及采集方法 | |
CN111666490A (zh) | 基于kafka的信息推送方法、装置、设备及存储介质 | |
US8799274B2 (en) | Topic map for navigation control | |
CN102521232B (zh) | 一种互联网元数据的分布式采集处理系统及方法 | |
CN101655862A (zh) | 信息对象搜索的方法和装置 | |
CN104869009A (zh) | 网站数据统计的系统和方法 | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN102253939A (zh) | 一种基于云计算技术的搜索方法及系统 | |
CN104615627A (zh) | 一种基于微博平台的事件舆情信息提取方法及系统 | |
CN102567521B (zh) | 网页数据抓取过滤方法 | |
CN111258978A (zh) | 一种数据存储的方法 | |
CN110968571A (zh) | 面向金融信息服务的大数据分析与处理平台 | |
CN104765823A (zh) | 一种网站数据采集的方法及装置 | |
CN109947935A (zh) | 新闻事件的生成方法及装置 | |
CN102156749B (zh) | 一种地图网站的自动搜索判别方法、系统及其分布式服务器系统 | |
CN102508884A (zh) | 热点事件与实时评论的获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190709 Address after: 214029 No. 999 Gaolang East Road, Binhu District, Wuxi City, Jiangsu Province (Software Development Building) 707 Applicant after: Chaozhou Zhuoshu Big Data Industry Development Co.,Ltd. Address before: 250100 S06 Floor, No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province Applicant before: SHANDONG HUIMAO ELECTRONIC PORT Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181106 |
|
RJ01 | Rejection of invention patent application after publication |