CN109543086B

CN109543086B - 一种面向多数据源的网络数据采集与展示方法

Info

Publication number: CN109543086B
Application number: CN201811413106.9A
Authority: CN
Inventors: 张仰森; 曾健荣; 陈若愚; 黄改娟; 王胜
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2022-11-22
Anticipated expiration: 2038-11-23
Also published as: CN109543086A

Abstract

本发明公开了一种面向多数据源的网络数据采集与展示方法，在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等六类媒体平台数据采集策略的基础上，采用Servlet后台调度技术，将面向多数据源的网络爬虫进行融合，解决了面向不同媒体平台的数据采集问题。在实现过程中，首先借助Web应用程序测试工具包Selenium实现模拟登录等人工操作，然后采用Xpath元素查询技术来解析网页源码，提取出数据信息存入数据库，最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明，爬虫在保证数据完整性的前提下实现了采集效率的最大化。

Description

一种面向多数据源的网络数据采集与展示方法

技术领域

本发明属于自然语言处理技术领域，涉及一种面向多数据源的网络数据采集与展示方法。

背景技术

目前网络数据采集主要是利用面向垂直领域的网络蜘蛛(或数据采集机器人)并结合页面分析等相关技术进行综合运用而完成。现阶段在国内从事“海量数据采集”的企业很多，大多是利用垂直爬虫技术实现，还有一些企业在此基础上综合运用了多种相关技术，例如：“火车采集器”采用的垂直爬虫+网络雷达+信息追踪与自动分拣+自动索引技术，将海量数据采集与后期处理进行了结合；深圳视界信息技术有限公司的“八爪鱼采集器”以完全自主研发的分布式云计算平台为核心，能在短时间内从网站或者网页获取大量的规范化数据，帮助客户实现数据自动化采集、编辑、规范化，削弱对人工搜索及收集数据的依赖。而在将跨媒体平台与多源数据采集相结合方面，国内外相关的研究都还不多。

网络爬虫按照系统结构和实现技术，可以分为以下几种类型：通用型网络爬虫、聚焦型网络爬虫、增量式网络爬虫、深层网络爬虫。通用型爬虫能采集所有能被解析的文档，主要通过URL过滤技术来实现这一过程，但其存在爬取结果千篇一律、不能为不同背景领域的人提供不同搜索结果的问题。增量式爬虫只爬取新增添的页面或更改的内容，以保持本地页面的及时更新，其缺点是需要在短时间内以不同频率多次爬取变化的页面，若遇到设有反爬机制的网站将会增加数据爬取的难度，影响爬取效率。聚焦型爬虫对页面进行过滤，比较页面内容与要搜索的主题，达到一定的要求比例才采取页面内容，其存在的问题是待爬取的网页内容中有多个主题，因为其他无关主题的存在掩盖了网页中相关度高的主题的相关性，从而导致整个页面的主题相关性计算不准确。深度爬虫是指在响应数据中进行数据筛选得到需要进行数据爬取的下一批URL地址，并将URL址添加到数据爬取队列中进行二次爬取，依此类推，一直到所有页面的数据全部爬取完成。深度爬虫的问题是当网页嵌套深度太高时容易导致爬取时间过长甚至“回不来”的现象。

发明内容

本发明的目的在于克服现有技术中存在的缺陷，充分研究了微博、贴吧、百度百科、人民日报、微信公众号等媒体平台的网站向后台请求数据时发送的链接，分析了各链接的特点，考虑到现有网络数据采集方法的优缺点，结合Java Web前后端技术，提出了一种面向多数据源的网络数据采集与展示方法。

其具体技术方案为：

一种面向多数据源的网络数据采集与展示方法，包括以下步骤：

步骤1、以多媒体平台网站为数据源，设计网络爬虫算法，分析每一类媒体平台URL字符串特点，根据其特点构造一个或一批有效的URL作为种子链接，加入到待爬取队列中。

步骤2、从待爬取队列中取出一个URL，向其发送GET或POST请求，获取对应网页的html源码或接收直接返回的JSON数据。对网页html源码，采用Jsoup作为解析工具，分析其页面结构特点，抽取相关节点，得到待爬取的数据信息；对JSON格式的数据，因为JSON格式本就是规则化的数据结构，所以直接对其解析并抽取相关数据即可。将抽取到的数据信息经过过滤、清洗操作之后存入数据库中。同时，抽取网页中符合要求的目标URL链接，加入到待爬取队列中以便随后请求访问。

步骤3、重复步骤2的过程，循环从互联网上采集数据保存到数据库中，直至待爬取队列为空。至此，实现了网络数据的采集方法。

步骤4、网络数据采集任务结束后，在前端页面中点击“查询”或“显示”等具有查询数据功能的按钮，触发页面中的JavaScript脚本，获取页面中的当前页数和每页要显示的数据量(数据条数)，并指定本次查询数据的请求要发送到的后台目标Servlet的路径，AJAX请求将携带这三个关键参数发送到后台。

步骤5、后台接收到AJAX请求后，解析得到页面的当前页数和每页要显示的数据量，根据这两个参数向数据库发送查询语句，控制返回的查询结果在数据库中的位置和记录条数。后台Servlet得到数据库的查询结果，并将其以JSON格式返回到前端页面中发送此AJAX请求的地方。

步骤6、前端页面中的AJAX请求成功获取到JSON数据后，调用回调函数来解析、运用数据，借助前端框架BootStrap中的DataTable插件将数据自动填写到页面中的表格里。至此，实现了网络数据的展示方法。

进一步，步骤5中，控制返回的查询结果在数据库中的位置具体为对应页面的当前页数，页数不同则位置也不同，所述记录条数为对应页面要显示的数据量。

与现有技术相比，本发明的有益效果为：

1、本发明提出了一种面向多源数据的网络数据采集方法。考虑到现有爬虫技术不便于采集多源数据的问题，选取了新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧6种媒体平台作为数据源代表，分析了每一类媒体平台网站各自请求数据的特点及其网页结构，根据特点和结构为每一类媒体平台编写了相应的数据爬取策略，通过Java Web采用Servlet后台调度技术，将面向多数据源的网络爬虫进行融合，解决了不同媒体平台的数据采集问题，在保证数据完整性的前提下实现了采集效率最大化。

2、本发明提出了一种面向多数据源的数据展示方法。采用Bootstrap框架来实现前端页面的显示效果，通过Ajax技术完成前后端的数据交互，并选择在服务器端完成数据分页功能，避免了客户端分页由于数据量大造成卡顿的问题，为其他的前端页面数据展示问题提供了一种可行的方案。

附图说明

图1网络爬虫的基本原理；

图2平台切换界面；

图3数据采集界面；

图4微信公众号数据展示界面。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案作进一步详细地说明。

1、网络爬虫算法设计

从本质上来说，爬虫是一种互联网信息采集工具。网络爬虫按照系统结构和实现技术，可以分为以下几种类型：通用型网络爬虫(General Purpose Web Crawler)、聚焦型网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。不同媒体平台的网站特点不同、网页结构复杂而形式多样，网络爬虫无法采用单一的某一种类型，所以本发明把通用型爬虫和深层网络爬虫两类技术相结合来实现数据采集方法。采用广度优先遍历算法，设计了如图1所示的网络爬虫。

算法具体实现上使用了两个Map<String，Boolean>数据结构，键值对分别是链接和是否被访问标志，这两个Map分别是存放种子链接的oldMap和存放新链接的newMap。算法描述如表1所示。

表1数据爬取算法

此外为了提高数据采集的效率，采用了多线程设计爬虫。Java语言自身提供对多线程的支持，根据多线程应用程序继承或者实现对象的不同有两种方式：一种是并发运行的对象直接继承Java线程类Thread；另一种是定义并发执行对象实现Runnable接口。本发明在程序的具体实现上采用了第一种方式，实现了爬虫线程类CrawlerThread。CrawlerThread类基于对多线程控制的ThreadController类。ThreadController在等待队列中存在等待的URL或者当爬取的URL层数还没有到达指定的层数时，创建一个新的线程，并且通过参数限定了爬取页面的层数和最大线程数。当没有需要爬取URL时，CrawlerController自行终止，通过消息系统通知ThreadController，由ThreadComroller进行队列的转换工作。

2、面向多数据源的网络数据采集方法

新浪微博因游客身份访问受限，只能靠模拟登录的方式才能正常抓取页面以外，其他五类媒体平台都能在不登录的情况下无限制访问，因此数据采集方法分为面向新浪微博平台和面向其他媒体平台两类。

2.1面向新浪微博平台的数据采集方法

新浪微博需要用户登录验证才能进行无限制访问，有两种新浪微博服务器可供选择，一种是weibo.cn服务器(手机版微博)，另一种是weibo.com服务器(电脑版微博)。手机版微博的页面相对电脑版的页面更加简洁，网页源码更少，登录账号密码都不加密，登录也不需要填写验证码，而且所需信息全面。电脑版模拟登录除了需要填写验证码以外，还对用户名和用户密码进行加密传输，而且JavaScript和广告图代码很多，会降低html源码分析效率，增加网络传输压力。因此，选择手机版服务器进行模拟登录和解析源码、提取正文内容。

虽然手机版微博相比于电脑版微博要更方便采集数据，但是新浪微博自身页面内容丰富，即便是手机版也使用了AJAX技术来动态加载数据，因此必须借助selenium工具包模拟用户的操作，从而加载数据到页面中。selenium框架底层使用JavaScript模拟真实用户对浏览器进行操作，执行它的测试脚本时，浏览器自动按照脚本代码做出点击，输入，确定，验证等操作，就像真实用户所做的一样。

借助selenium工具包来采集新浪微博数据的基本步骤为：模拟登录、爬取用户页面的网页源码、页面解析和提取各字段内容并保存到数据库中。其中模拟登录是前提，解析网页源、代码提取正文是关键。

2.1.1手机版微博的模拟登录

用Chrome浏览器的开发者模式分析手机版的登录方式步骤为：

(1)打开手机版微博登录URL：passport.weibo.cn/signin/login，服务器返回一个带有用户名输入框和密码输入框的页面；

(2)模拟输入用户名和密码，向微博服务器登录URL发送一个请求，该请求包含明文形式的用户名和密码；

(3)微博服务器对收到的登录请求进行验证，登录成功后向客户端返回一个重定向URL，并且cookie中包含gsid_CTandWM字段，浏览器解析该跳转URL进入登录成功页面并把所有cookie字段写入本地Cookies中。

基于以上分析，在程序中先加载浏览器驱动(以chrome浏览器为例)，实例化一个浏览器对象，以此浏览器对象模拟出对应的登录步骤：

(1)获取用户名输入框，输入登录用户名：

2.1.2爬取手机版微博网页

登录成功后注入cookie就能获取网页源码。

(1)浏览器中注入cookie

在请求微博网页方面，在启动HttpClient浏览器代理时，把通过html获取到的cookieSet注入进去。

(2)获取微博页面源代码

通过HttpClient获取微博html源代码的具体流程是：

把要访问的URL传给要执行的Get请求(因为单纯访问简短URL，用Get请求更合适)；

执行Get请求，服务器返回一个响应对象，通过该对象获取具体的html源码。

至此就得到了AJAX生成的动态页面信息，用CSS(Cascading Style Sheets，层叠样式表)选择器结合正则表达式就能够定位网页DOM(Document Object Model，文档对象模型)树中的节点，抽取相关信息，包括用户ID、微博数量、关注数量、粉丝数量、微博内容、点赞数量、转发数量、评论数量、微博发布时间等数据。

2.2面向其他媒体平台的数据采集方法

百度贴吧也有少部分数据是动态加载的。如果以抓取静态页面的方法抓取百度贴吧的数据，虽然部分数据能抓取到，例如帖子标题、发帖人信息等，但是包含帖子每层楼内容的html源码却无法加载，只有等到浏览器显示这个页面时，JavaScript脚本才会运行，从而显示那些缺失的信息。这时有两种思路可供选择：一种方法是像抓取新浪微博那样，分析AJAX请求，找到对应的加载数据的JavaScript脚本，分析其逻辑，构造一个http请求，通过代码模拟该请求来获取数据；另一种方法是采取其他页面解析方式，用Xpath替代CSS选择器来抽取页面节点，进而获取数据信息。第一种方法需要研究JavaScript代码逻辑，还要依赖selenium自动化测试工具包，过程相对来说更繁琐冗杂。本着奥卡姆剃刀原理的“就简原则”，在此情形下采用第二种方法，用Xpath从网页源码中定位指定的元素。事实证明这种方法确实简单有效，能顺利抓取到贴吧名称、帖子ID和标题、每层楼的主要回帖以及对应的用户信息(包括用户ID、名称、性别、账号等级、个人主页)等内容。

其余的人民日报、百度百科、微信公众号、东方财富股吧四类网站因为没有涉及到AJAX请求，所以完全可以当作静态页面来爬取，只须对每一类网站分析其网页链接和网页源码的规律，找到包含待爬取信息的节点，就能获得该数据信息。以人民日报为例，2018年2月3日这一天发布的内容链接http：//paper.people.com.cn/rmrb/html/2018-02/03/nbs.D110000renmrb_01.htm，只需要将“2018-02/03”替换为待抓取日期，就得到了该日期内容的网页链接，因此在前端页面中设置一个日历框来选择待抓取日期，后台就能根据这个日期拼接出一个完整有效的URL作为种子链接，开始抓取该日期的文章；而百度百科的URL链接形式为https：//baike.baidu.com/item/+词条的URL编码，因此只须输入要爬取的关键词，后台对获取的关键词进行URL编码，就能得到完整的URL作为种子链接。这样就能够灵活地确定爬虫的入口地址，而不需要生硬费力地手动输入一个完整链接。

综上所述，除了新浪微博因游客身份访问受限，只能靠模拟登录的方式才能正常抓取页面以外，其他五类媒体平台都能在不登录的情况下无限制访问，都能以CSS选择器或Xpath方式解析页面，抽取相关节点，提取想要的数据信息并保存到数据库中。

2.3多数据源之间的切换方法

本发明提出的面向多数据源的网络数据采集方法融合了多个网站平台，能采集这些多数据源的文本信息。本发明中的多数据源包括新浪微博、人民日报网站、百度贴吧、百度百科、“传送门”微信公众号网站、东方财富股吧共六种媒体平台的数据源，在采集不同数据源的信息时，首先要切换到待采集数据源上，多数据源切换方法的主要思想是：通过下拉菜单栏选择某一种媒体平台，进入到该平台的数据采集页面，实现“前端换源”；然后通过AJAX技术向后台发送附带参数的请求，根据参数内容确定究竟应该调用哪一种数据源对应的Servlet，进而调用相应的爬虫程序，从而实现真正的换源。

以百度贴吧为例，在其他数据源采集页面下要切换到百度贴吧，先从“数据采集”下拉菜单栏中选择百度百科，进入到数据采集页面，如图2、图3所示。

3、多源数据的展示方法

数据展示功能在前端页面上展示抓取到的数据信息，主要采用了AJAX技术和Bootstrap框架来实现。数据信息在前端页面中按每一种媒体平台分类，以表格的形式呈现出来，如图4所示：

在图4中并没有展示所有字段，这是由于数据表中的多字段是为了保证信息的完整性，以便于后续的数据分析和挖掘工作，但是用户可能对某些边缘字段的信息并不关注，而只对一些关键、核心的数据感兴趣，因此在前端页面中只对用户关心的那些数据进行选择性展示。例如百度贴吧的tiebapost表中，舍去titleid(标题id)、postid(帖子id)、isanonymous(发帖者是否匿名)三个边缘字段，只展示content(内容)、username(用户名)、date(发帖日期)、commentnum(评论数量)四个核心字段的信息。

这里表格和分页效果通过应用Bootstrap框架的table插件来实现。当选择每页显示m条记录或者点击第n页时都会向后台发送AJAX请求，该请求包含了每页显示的记录数pageS ize、当前页数pageNumber和请求要提交到的Servlet名称共三个参数，Servlet根据前两个参数从数据库中读取指定的数据并返回给前端页面，页面局部刷新表格部分，将数据显示出来。由于数据量多，这里的分页采用的是服务器端分页，即在后台程序中取得当前页面需要加载的那部分数据，否则采用客户端分页一次性将所有分页的数据加载到浏览器缓存中，容易卡顿，影响用户体验。

以上所述，仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。

Claims

1.一种面向多数据源的网络数据采集与展示方法，其特征在于，包括以下步骤：

步骤1、以多媒体平台网站为数据源，设计网络爬虫算法，分析每一类媒体平台URL字符串特点，根据其特点构造一个或一批有效的URL作为种子链接，加入到待爬取队列中；

步骤2、从待爬取队列中取出一个URL，向其发送GET或POST请求，获取对应网页的html源码或接收直接返回的JSON数据；对网页html源码，采用Jsoup作为解析工具，分析其页面结构特点，抽取相关节点，得到待爬取的数据信息；将抽取到的数据信息经过过滤、清洗操作之后存入数据库中；同时，抽取网页中符合要求的目标URL链接，加入到待爬取队列中以便随后请求访问；

步骤3、重复步骤2的过程，循环从互联网上采集数据保存到数据库中，直至待爬取队列为空；至此，实现了网络数据的采集方法；

步骤4、网络数据采集任务结束后，在前端页面中点击查询或显示具有查询数据功能的按钮，触发页面中的JavaScript脚本，获取页面中的当前页数和每页要显示的数据量，并指定本次查询数据的请求要发送到的后台目标Servlet的路径，AJAX请求将携带这三个关键参数发送到后台；

步骤5、后台接收到AJAX请求后，解析得到页面的当前页数和每页要显示的数据量，根据这两个参数向数据库发送查询语句，控制返回的查询结果在数据库中的位置和记录条数；后台Servlet得到数据库的查询结果，并将其以JSON格式返回到前端页面中发送此AJAX请求的地方；

步骤6、前端页面中的AJAX请求成功获取到JSON数据后，调用回调函数来解析、运用数据，借助前端框架BootStrap中的DataTable插件将数据自动填写到页面中的表格里；至此，实现了网络数据的展示方法。

2.根据权利要求1所述的面向多数据源的网络数据采集与展示方法，其特征在于，步骤5中，控制返回的查询结果在数据库中的位置具体为对应页面的当前页数，页数不同则位置也不同，所述记录条数为对应页面要显示的数据量。