CN110276041A

CN110276041A - 一种基于谷歌浏览器插件的网页数据获取方法及系统

Info

Publication number: CN110276041A
Application number: CN201910583979.2A
Authority: CN
Inventors: 姜敬超; 徐宏伟; 单震; 宋设; 杨照通
Original assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Current assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-09-24

Abstract

本发明公开了一种基于谷歌浏览器插件的网页数据获取方法及系统，属于互联网数据获取技术领域。本发明的基于谷歌浏览器插件的网页数据获取方法包括以下步骤：S1、编写谷歌浏览器插件；S2、在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行；S3、自动获取链接；S4、获取网页数据；S5、自动翻页；S6、自动拖滑块；S7、页面操作；S8、数据处理：从网页或文本中获取需要的数据，对网页或文本数据进行格式或处理。该发明的基于谷歌浏览器插件的网页数据获取方法能够降低被网站识别为爬虫的概率，具有很好的推广应用价值。

Description

一种基于谷歌浏览器插件的网页数据获取方法及系统

技术领域

本发明涉及互联网数据获取技术领域，具体提供一种基于谷歌浏览器插件的网页数据获取方法及系统。

背景技术

随着社会的不断发展，社会经济发展，同时社会各项技术水平有了很大的提高。互联网发展迅速，网络成为大量信息的载体，但是不同领域、不同背景的用户对于数据的需求是不一样的，我们如果想从海量数据中获取自己需要的数据就需要借助于网络爬虫，但是互联网数据的实际拥有者(网站管理人员)又会想办法甄别网络爬虫，保护自己的数据或者网站，一场数据爬取与反爬的大战就此拉开。

同时某些网站有严格的反爬策略，部分数据必须要用户登录才可见，持续访问还会出现滑块验证码等验证手段，普通的数据爬取方式已经很难获取到想要的数据，需要有针对性的定制化的数据获取方法。

浏览器插件，可以大大的扩展你的浏览器的功能。浏览器插件包括但不仅限于这些功能：捕捉特定网页的内容，捕捉HTTP报文，捕捉用户浏览动作，改变浏览器地址栏/起始页/书签/Tab等界面元素的行为，与别的站点通信，修改网页内容等。

谷歌浏览器开放了插件编辑功能使得开发者能够在谷歌浏览器中执行自定义的js代码，通过自定义的js代码可以在页面上获取想要的数据，执行需要的浏览器操作。

Chrome的插件开发起来最简单，总体上看没什么新的技术，开发语言就是javascript，只需要明白谷歌浏览器开放的插件api即可开发。

发明内容

本发明的技术任务是针对上述存在的问题，提供一种通过模拟用户正常访问网站的方式自动化的获取网站数据，实现自动翻页、自动拖滑块、设置时间间隔等功能，降低被网站识别为爬虫的概率的基于谷歌浏览器插件的网页数据获取方法。

本发明进一步的技术任务是提供一种基于谷歌浏览器插件的网页数据获取系统。

为实现上述目的，本发明提供了如下技术方案：

一种基于谷歌浏览器插件的网页数据获取方法，该方法包括以下步骤：

S1、编写谷歌浏览器插件；

S2、在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行；

S3、自动获取链接；

S4、获取网页数据：首先判断网页是否加载完成，加载完成后获取加载后的网页数据；

S5、自动翻页：在js中获取网页元素，模拟点击翻页按钮执行翻页操作；

S6、自动拖滑块：获取验证码滑块的位置，模拟鼠标事件拖动滑块；

S7、页面操作：在配置文件中写入参数，使用插件时页面配置从配置文件获取，打开页面根据需要选择详情页、列表页点击保存，刷新页面；

S8、数据处理：从网页或文本中获取需要的数据，对网页或文本数据进行格式或处理。

步骤S3通过执行get请求通过rest服务从redis中获取链接，实现自动获取链接。

步骤S4通过chrome.tabs.query({'active':true,'currentWindow':true},function(tab){}判断当前网页是否加载完成。网页加载完成之后通过执行“document.body.innerHTML？document.body.innerHTML:'textContent'”，获取加载之后的数据，然后执行post请求将页面和其他必要的参数通过rest服务发送至数据处理平台。

作为优选，步骤S1中编写谷歌浏览器插件符合谷歌插件模板，包含manifest.json、.project、html页面、js文件和images文件。

作为优选，步骤S2中，在manifest.json、.project中填写相应的配置文件保证插件正常运行。

作为优选，步骤S5中，利用xpatch标识特定的网页元素：下一页、当前页；在js中获取网页元素，模拟点击翻页按钮执行翻页操作，利用获取的当前网页页数控制翻页执行到的页数。

在js中通过“document.evaluate(request.xppage,document).iterateNext()”获取网页元素，然后执行“page_node.childNodes[0].click()”模拟点击翻页按钮执行翻页操作，利用获取的网页当前页页数可以控制翻页执行到第几页。

作为优选，步骤S6中，利用xpatch获取验证码滑块的位置，模拟鼠标事件拖动滑块，获取滑块和滑动条的长度、高度数据，计算需要拖动的距离，结合需要拖动的距离，生成需要拖动的次数，实现模拟手动拖动滑块的操作。

利用xpatch获取验证码滑块的位置，通过“document.createEvent('MouseEvents')”模拟鼠标事件拖动滑块。使用getBoundingClientRect()获取滑块和滑动条的长度、高度数据，以此计算需要拖动的距离。通过“Math.ceil(Math.random()*6+1)”生成随机数，结合需要拖动的距离利用“eval(eval(wholeX-startX)/countStep)”生成需要拖动的次数。利用“dispatchEvent(createEvent("mousedown",startX,startY))”实现模拟手动拖动滑块的操作，从而实现程序自动拖动滑块通过人机验证的操作。

作为优选，步骤S7中，在配置文件中写入参数包括数据处理的任务号、实例号、获取链接的服务地址和数据处理接收网页的服务地址。

如果需要翻页等功能需要加入翻页按钮位置(xpatch表示)，如果需要限制翻页的页数还需要加入当前页位置(xpatch)、停止页数，如果需要每次翻页之间有一定的时间间隔还需要加入时间间隔参数。

一种基于谷歌浏览器插件的网页数据获取系统，包括以下模块：

谷歌浏览器插件编写模块：用于编写谷歌浏览器插件；

配置填写模块：用于在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行；

链接自动获取模块；用于自动获取链接；

网页数据获取模块：用户获取网页数据，在获取网页数据的过程中首先判断网页是否加载完成，加载完成后获取加载后的网页数据；

自动翻页模块：用于在js中获取网页元素，模拟点击翻页按钮执行翻页操作；

自动拖滑块模块：用于获取验证码滑块的位置，模拟鼠标事件拖动滑块；

页面操作模块：用于在配置文件中写入参数，使用插件时页面配置从配置文件获取，打开页面根据需要选择详情页、列表页点击保存，刷新页面；

数据处理平台：用于从网页或文本中获取需要的数据，对网页或文本数据进行格式或处理。

作为优选，自动拖滑块模块利用xpatch获取验证码滑块的位置，模拟鼠标事件拖动滑块，获取滑块和滑动条的长度、高度数据，计算需要拖动的距离，结合需要拖动的距离，生成需要拖动的次数，实现模拟手动拖动滑块的操作。

作为优选，页面操作模块在配置文件中写入参数包括数据处理的任务号、实例号、获取链接的服务地址和数据处理接收网页的服务地址。

作为优选，数据处理平台为基于hadoop搭建的处理大量数据的平台，从网页或文本中获取需要的数据，对网页或文本数据进行格式或处理。

与现有技术相比，本发明的基于谷歌浏览器插件的网页数据获取方法具有以下突出的有益效果：

(一)所述基于谷歌浏览器插件的网页数据获取方法利用谷歌提供的插件开发方法编写自定义插件，达到获取浏览器当前页面数据的目的；

(二)通过类似用户正常访问网站的方式获取网站数据，降低被网站识别为爬虫的概率；

(三)可以自动翻页，自动采集数据，登录网站后基本不需要太多的人工参与即可完成数据获取；

(四)可以自行拖动滑块，通过滑块验证码的检测，具有良好的推广应用价值。

附图说明

图1是拖动滑块功能展示示意图

图2是本发明所述基于谷歌浏览器插件的网页数据获取方法中插件内部逻辑示意图；

图3是插件页面展示及参数设置示意图；

图4是列表页配置示意图；

图5是详情页配置示意图。

具体实施方式

下面将结合附图和实施例，对本发明的基于谷歌浏览器插件的网页数据获取方法及系统作进一步详细说明。

实施例

本发明的基于谷歌浏览器插件的网页数据获取方法，包括以下步骤：

S1、编写谷歌浏览器插件。

编写谷歌浏览器插件符合谷歌插件模板，包含manifest.json、.project、html页面、js文件和images文件。

S2、在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行。

在manifest.json、.project中填写相应的配置文件保证插件正常运行。

S3、自动获取链接。

通过执行get请求通过rest服务从redis中获取链接，实现自动获取链接。

S4、获取网页数据：首先判断网页是否加载完成，加载完成后获取加载后的网页数据。

通过chrome.tabs.query({'active':true,'currentWindow':true},function(tab){}判断当前网页是否加载完成。网页加载完成之后通过执行“document.body.innerHTML？document.body.innerHTML:'textContent'”，获取加载之后的数据，然后执行post请求将页面和其他必要的参数通过rest服务发送至数据处理平台。

S5、自动翻页：在js中获取网页元素，模拟点击翻页按钮执行翻页操作。

利用xpatch标识特定的网页元素：下一页、当前页；在js中获取网页元素，模拟点击翻页按钮执行翻页操作，利用获取的当前网页页数控制翻页执行到的页数。

S6、自动拖滑块：获取验证码滑块的位置，模拟鼠标事件拖动滑块。

利用xpatch获取验证码滑块的位置，通过“document.createEvent('MouseEvents')”模拟鼠标事件拖动滑块。使用getBoundingClientRect()获取滑块和滑动条的长度、高度数据，以此计算需要拖动的距离。通过“Math.ceil(Math.random()*6+1)”生成随机数，结合需要拖动的距离利用“eval(eval(wholeX-startX)/countStep)”生成需要拖动的次数。利用“dispatchEvent(createEvent("mousedown",startX,startY))”实现模拟手动拖动滑块的操作，从而实现程序自动拖动滑块通过人机验证的操作。如图1所示。

S7、页面操作：在配置文件中写入参数，使用插件时页面配置从配置文件获取，打开页面根据需要选择详情页、列表页点击保存，刷新页面。

如图2为插件内部逻辑示意图，首先获取链接，判断是否为列表页，若为列表页则保存列表页参数，否则为包括详情页参数，刷新页面。

在配置文件中写入参数包括数据处理的任务号、实例号、获取链接的服务地址和数据处理接收网页的服务地址。

如图3所示，插件首页配置，“任务”是数据处理平台的任务号、“实例”是数据处理平台的实例id、“Rest”是数据处理平台接收网页的rest服务地址，“列表页采集”具有页面翻页，设置采集翻页间隔时间，限制翻页页数，按照商品销量采集的功能；“详情页采集”只有将页面发送至数据处理平台的功能。

如图4所示，列表页配置，“Server”为从redis获取网页链接的rest服务地址，“Xword”判断页面是否正确的标记，“Xpage”为翻页按钮的Xpatch，“PageNum”为翻页限制，“XcurrentPage”为当前页面的Xpatch，“XsaleNum”

为页面销量的Xpatch，“XpageTime”为翻页间隔时间。

如图5所示，详情页配置，“Server”为从redis获取网页链接的rest服务地址，“Xword”判断页面是否正确的标记。

本发明的基于谷歌浏览器插件的网页数据获取系统，包括以下模块：

谷歌浏览器插件编写模块：用于编写谷歌浏览器插件。

链接自动获取模块；用于自动获取链接。

网页数据获取模块：用户获取网页数据，在获取网页数据的过程中首先判断网页是否加载完成，加载完成后获取加载后的网页数据。

自动翻页模块：用于在js中获取网页元素，模拟点击翻页按钮执行翻页操作。

自动拖滑块模块：用于获取验证码滑块的位置，模拟鼠标事件拖动滑块。

自动拖滑块模块利用xpatch获取验证码滑块的位置，模拟鼠标事件拖动滑块，获取滑块和滑动条的长度、高度数据，计算需要拖动的距离，结合需要拖动的距离，生成需要拖动的次数，实现模拟手动拖动滑块的操作。

页面操作模块：用于在配置文件中写入参数，使用插件时页面配置从配置文件获取，打开页面根据需要选择详情页、列表页点击保存，刷新页面。

页面操作模块在配置文件中写入参数包括数据处理的任务号、实例号、获取链接的服务地址和数据处理接收网页的服务地址。

数据处理平台：用于从网页或文本中获取需要的数据，对网页或文本数据进行格式或处理。数据处理平台为基于hadoop搭建的处理大量数据的平台，从网页或文本中获取需要的数据，对网页或文本数据进行格式或处理。

以上所述的实施例，只是本发明较优选的具体实施方式，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于谷歌浏览器插件的网页数据获取方法，其特征在于：该方法包括以下步骤：

S1、编写谷歌浏览器插件；

S3、自动获取链接；

2.根据权利要求1所述的基于谷歌浏览器插件的网页数据获取方法，其特征在于：步骤S1中编写谷歌浏览器插件符合谷歌插件模板，包含manifest.json、.project、html页面、js文件和images文件。

3.根据权利要求2所述的基于谷歌浏览器插件的网页数据获取方法，其特征在于：步骤S2中，在manifest.json、.project中填写相应的配置文件保证插件正常运行。

4.根据权利要求3所述的基于谷歌浏览器插件的网页数据获取方法，其特征在于：步骤S5中，利用xpatch标识特定的网页元素：下一页、当前页；在js中获取网页元素，模拟点击翻页按钮执行翻页操作，利用获取的当前网页页数控制翻页执行到的页数。

5.根据权利要求4所述的基于谷歌浏览器插件的网页数据获取方法，其特征在于：步骤S6中，利用xpatch获取验证码滑块的位置，模拟鼠标事件拖动滑块，获取滑块和滑动条的长度、高度数据，计算需要拖动的距离，结合需要拖动的距离，生成需要拖动的次数，实现模拟手动拖动滑块的操作。

6.根据权利要求5所述的基于谷歌浏览器插件的网页数据获取方法，其特征在于：步骤S7中，在配置文件中写入参数包括数据处理的任务号、实例号、获取链接的服务地址和数据处理接收网页的服务地址。

7.一种基于谷歌浏览器插件的网页数据获取系统，其特征在于：包括以下模块：

谷歌浏览器插件编写模块：用于编写谷歌浏览器插件；

链接自动获取模块；用于自动获取链接；

8.根据权利要求7所述的基于谷歌浏览器插件的网页数据获取系统，其特征在于：自动拖滑块模块利用xpatch获取验证码滑块的位置，模拟鼠标事件拖动滑块，获取滑块和滑动条的长度、高度数据，计算需要拖动的距离，结合需要拖动的距离，生成需要拖动的次数，实现模拟手动拖动滑块的操作。

9.根据权利要求8所述的基于谷歌浏览器插件的网页数据获取系统，其特征在于：页面操作模块在配置文件中写入参数包括数据处理的任务号、实例号、获取链接的服务地址和数据处理接收网页的服务地址。

10.根据权利要求9所述的基于谷歌浏览器插件的网页数据获取系统，其特征在于：数据处理平台为基于hadoop搭建的处理大量数据的平台，从网页或文本中获取需要的数据，对网页或文本数据进行格式或处理。