CN108763583A

CN108763583A - 一种基于关键字搜索的微博热门话题提取方法及系统

Info

Publication number: CN108763583A
Application number: CN201810593368.1A
Authority: CN
Inventors: 李萍
Original assignee: Shandong Hui Trade Electronic Port Co Ltd
Current assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2018-11-06

Abstract

本发明公开了一种基于关键字搜索的微博热门话题提取方法及系统，属于云计算技术领域。本发明的基于关键字搜索的微博热门话题提取方法，利用网络爬虫结合微博的高级搜索功能，获取指定时间内用户发布的含有关键字的所有微博数据，利用Hadoop平台实现微博数据的处理与分析，提取出热门话题。该发明的基于关键字搜索的微博热门话题提取方法能够快速、精确的得到热门话题，从而有助于掌握热点事件，具有很好的推广应用价值。

Description

一种基于关键字搜索的微博热门话题提取方法及系统

技术领域

本发明涉及云计算技术领域，具体提供一种基于关键字搜索的微博热门话题提取方法及系统。

背景技术

随着社会的不断进步，社会经济、科技技术不断的发展，计算机的应用范围越来越广泛，导致互联网发展越来越迅速。随着互联网的发展，论坛、博客等社交网络平台不断涌现，社交网络平台的交互性和即时性产生了海量的数据信息。而如何获取这些数据信息并挖掘它们的潜在价值已经成为目前亟待解决的问题。在不断涌现的社交网路平台中，微博凭借其传播内容碎片化、传播主题草根化等特点迅速发展，其中用户群规模和社会影响力最大的当属新浪微博。相对来说新浪微博中的微博热门话题会带来更多的价值，更受关注，因此，获取新浪微博中的所有热门话题具有重要意义。但是现有技术中，还没有方便精确的获取微博热门话题的方法，有待进一步的开发。

发明内容

本发明的技术任务是针对上述存在的问题，提供一种能够快速、精确的获得热门话题，从而有助于掌握热点事件的基于关键字搜索的微博热门话题提取方法。

本发明进一步的技术任务是提供一种基于关键字搜索的微博热门话题提取系统。

为实现上述目的，本发明提供了如下技术方案：

一种基于关键字搜索的微博热门话题提取方法，所述方法利用网络爬虫结合微博的高级搜索功能，获取指定时间内用户发布的含有关键字的所有微博数据，利用Hadoop平台实现微博数据的处理与分析，提取出热门话题。

本发明中利用了Hadoop的两大核心设计：HDFS和MapReduce。

作为优选，所述方法具体包括以下步骤：

S1：数据采集

利用网络爬虫模拟登录和多账户轮换的分布式数据采集策略；

S2：数据存储与迁移

采用关系型数据库和HDFS分布式文件系统相结合来存储数据，采用数据迁移工具实现数据在关系型数据库和HDFS分布式文件系统间的迁移；

S3：数据处理与分析

利用MapReduce计算模型对获取的微博数据进行处理与分析。

为了保护用户数据和个人隐私，新浪微博限制了用户的访问权限，用户只有通过登录且通过验证后才可以浏览全部信息。此外，新浪微博还对用户的IP地址和每小时访问次数做了严格限制，再加上数据量过于庞大，采用单机或者集中式数据采集策略都是不可取的，本发明中采用网络爬虫模拟登录和多账户轮换的分布式数据采集策略提高爬取效率。

由于关系型数据库主要面向结构化的数据，而且不能满足大规模数据分析的需求，所以本发明中主要利用HDFS分布式文件系统来存储网页内容。但关系型数据库具有便捷的数据查询分析能力、快速的事务处理能力以及多用户并发访问能力，因此可以将处理后的结构化数据存储到关系型数据库中，以便进行快速的查询和检索操作，而不同数据库间的迁移工作可以通过数据迁移工具完成。

作为优选，步骤S1中所述网络爬虫包括权限验证模块、网页抓取模块、页面解析模块、URL调度模块和持久化模块，权限验证模块负责验证每个网络爬虫的账户权限；网页抓取模块不断从URL调度模块中获取URL，与Web服务器进行交互采集网页内容，将网页内容发送到页面解析模块；页面解析模块从网页内容中提取新的URL并发送到URL调度模块，同时将整个网页内容发送到持久化模块。

作为优选，所述持久化模块将网页内容进行压缩并写入HDFS。

作为优选，步骤S2中所述数据迁移工具为Sqoop。Sqoop是一个开源的数据迁移工具，专为大数据批量传输设计，可以将一个关系型数据库中的数据导入HDFS中，也可以将HDFS中的数据导入关系型数据库中。

作为优选，步骤S3中MapReduce计算模型将微博数据的处理过程抽象为Map函数和Reduce函数，Map函数将微博数据进行初步处理，Reduce函数将中间结果汇总得最终结果。

一种基于关键字搜索的微博热门话题提取系统，包括数据采集单元、数据存储与迁移单元和数据处理与分析单元，所述数据采集单元用于采集含有关键字的所有微博数据；数据存储与迁移单元用于将采集的微博数据进行存储并迁移；数据处理与分析单元用于将采集的微博数据进行处理与分析。

作为优选，所述数据采集单元利用网络爬虫模拟登录和多账户轮换的分布式数据采集策略。

作为优选，所述数据存储与迁移单元采用关系型数据库和HDFS分布式文件系统相结合来存储数据，采用数据迁移工具实现数据在关系型数据库和HDFS分布式文件系统间的迁移。

作为优选，所述数据处理与分析单元利用MapReduce计算模型对微博数据进行处理与分析。

与现有技术相比，本发明的基于关键字搜索的微博热门话题提取方法具有以下突出的有益效果：所述基于关键字搜索的微博热门话题提取方法能够快速处理分析得到相关的热门微博话题，从而掌握热点事件在社交网络平台中的最新动态和发酵情况，灵活性和可扩展性较高，具有良好的推广应用价值。

附图说明

图1是本发明所述基于关键字搜索的微博热门话题提取方法的网络爬虫软件框架图。

具体实施方式

下面将结合附图和实施例，对本发明的基于关键字搜索的微博热门话题提取方法及系统作进一步详细说明。

实施例

本发明的基于关键字搜索的微博热门话题提取方法，该方法利用网络爬虫结合微博的高级搜索功能，获取指定时间内用户发布的含有关键字的所有微博数据，利用Hadoop平台实现微博数据的处理与分析，提取出热门话题。其中Hadoop平台的两大核心为HDFS和MapReduce。具体包括以下步骤：

S1：数据采集

利用网络爬虫模拟登录和多账户轮换的分布式数据采集策略采集微博数据。

如图1所示，网络爬虫主要包括权限验证模块、网页抓取模块、页面解析模块、URL调度模块和持久化模块。权限验证模块负责验证每个网络爬虫的账户权限，也就是网络爬虫模拟用户的登录行为来访问服务器的过程。网页抓取模块不断地从URL调度模块中获取URL，然后与Web服务器进行交互以采集网页内容，最后将网页内容发送到页面解析模块。页面解析模块负责从网页内容中提取新的URL并发送到URL调度模块，同时将整个网页内容发送到持久化模块。最后，持久化模块负责对网页内容进行压缩并写入HDFS。

鉴于新浪微博的高级搜索功能，每次只能显示前50页的内容，因此可以根据时间段拼接URL以确保数据采集的覆盖范围。根据需要采集的关键字和采集时间（包括开始时间和结束时间），网络爬虫可以生成首批待采集URL，其格式为：http://s.weibo.com/weibo/地震&typeall=1&suball=1&timescope=custom: 2018-05-12-1:2018-05-12-1&page=1（这条URL表示从2018年5月12日1点到2点期间用户发布的所有含有地震这一关键词的微博）。如果以1个小时为时间单位，采集时间跨度为3个月，则第一次约生成2160条URL，每条URL又可以解析出新的翻页URL。但由于新浪微博对用户访问频率的限制，目前网络爬虫的采集间隔至少需要设定为45秒，因此一个账号每条最多只能爬取约1900条URL。如果需要1天采集完3个月内含有关键字的微博，则至少需要60个爬虫，即采用多账户轮换的分布式数据采集方法。

S2：数据存储与迁移

采用关系型数据库和HDFS分布式文件系统相结合来存储数据，采用数据迁移工具Sqoop实现数据在关系型数据库和HDFS分布式文件系统间的迁移。

由于关系型数据库主要面向结构化的数据，而且不能满足大规模数据分析的需求，所以本发明中主要利用HDFS分布式文件系统来存储网页内容。但关系型数据库具有便捷的数据查询分析能力、快速的事务处理能力以及多用户并发访问能力，因此可以将处理后的结构化数据存储到关系型数据库中，以便进行快速的查询和检索操作，而不同数据库间的迁移工作可以通过数据迁移工具Sqoop完成数据的迁移。

S3：数据处理与分析

利用MapReduce计算模型对获取的微博数据进行处理与分析。MapReduce计算模型将微博数据的处理过程抽象为Map函数和Reduce函数，Map函数将微博数据进行初步处理，Reduce函数将中间结果汇总得最终结果。

新浪微博有固定的话题格式（#话题名称#），所以不需要对所有的微博内容进行分词、过滤等操作。XPath是一门在XML文档中查找信息的语言，可以用来在XML文档中对元素和属性进行遍历。本发明中的MapReduce程序只需要抽取每个网页中xpath为//a[@class=’a_topic W_linkb’]的元素并进行汇总和排序，最后通过Sqoop工具将这些话题导出到关系型数据库中即可。

基于关键字搜索的微博热门话题提取系统，包括数据采集单元、数据存储与迁移单元和数据处理与分析单元。

数据采集单元用于采集含有关键字的所有微博数据，数据采集单元利用网络爬虫模拟登录和多账户轮换的分布式数据采集策略。

数据存储与迁移单元用于将采集的微博数据进行存储并迁移，数据存储与迁移单元采用关系型数据库和HDFS分布式文件系统相结合来存储数据，采用数据迁移工具实现数据在关系型数据库和HDFS分布式文件系统间的迁移。

数据处理与分析单元利用MapReduce计算模型将采集的微博数据进行处理与分析。

以上所述的实施例，只是本发明较优选的具体实施方式，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于关键字搜索的微博热门话题提取方法，其特征在于：所述方法利用网络爬虫结合微博的高级搜索功能，获取指定时间内用户发布的含有关键字的所有微博数据，利用Hadoop平台实现微博数据的处理与分析，提取出热门话题。

2.根据权利要求1所述的基于关键字搜索的微博热门话题提取方法，其特征在于：所述方法具体包括以下步骤：

S1：数据采集

S2：数据存储与迁移

S3：数据处理与分析

利用MapReduce计算模型对获取的微博数据进行处理与分析。

3.根据权利要求2所述的基于关键字搜索的微博热门话题提取方法，其特征在于：步骤S1中所述网络爬虫包括权限验证模块、网页抓取模块、页面解析模块、URL调度模块和持久化模块，权限验证模块负责验证每个网络爬虫的账户权限；网页抓取模块不断从URL调度模块中获取URL，与Web服务器进行交互采集网页内容，将网页内容发送到页面解析模块；页面解析模块从网页内容中提取新的URL并发送到URL调度模块，同时将整个网页内容发送到持久化模块。

4.根据权利要求3所述的基于关键字搜索的微博热门话题提取方法，其特征在于：所述持久化模块将网页内容进行压缩并写入HDFS。

5.根据权利要求4所述的基于关键字搜索的微博热门话题提取方法，其特征在于：步骤S2中所述数据迁移工具为Sqoop。

6.根据权利要求5所述的基于关键字搜索的微博热门话题提取方法，其特征在于：步骤S3中MapReduce计算模型将微博数据的处理过程抽象为Map函数和Reduce函数，Map函数将微博数据进行初步处理，Reduce函数将中间结果汇总得最终结果。

7.一种基于关键字搜索的微博热门话题提取系统，其特征在于：包括数据采集单元、数据存储与迁移单元和数据处理与分析单元，所述数据采集单元用于采集含有关键字的所有微博数据；数据存储与迁移单元用于将采集的微博数据进行存储并迁移；数据处理与分析单元用于将采集的微博数据进行处理与分析。

8.根据权利要求7所述的基于关键字搜索的微博热门话题提取系统，其特征在于：所述数据采集单元利用网络爬虫模拟登录和多账户轮换的分布式数据采集策略。

9.根据权利要求7或8所述的基于关键字搜索的微博热门话题提取系统，其特征在于：所述数据存储与迁移单元采用关系型数据库和HDFS分布式文件系统相结合来存储数据，采用数据迁移工具实现数据在关系型数据库和HDFS分布式文件系统间的迁移。

10.根据权利要求9所述的基于关键字搜索的微博热门话题提取系统，其特征在于：所述数据处理与分析单元利用MapReduce计算模型对微博数据进行处理与分析。