CN106484775A - 一种基于selenium的爬虫抓取方法及系统 - Google Patents

一种基于selenium的爬虫抓取方法及系统 Download PDF

Info

Publication number
CN106484775A
CN106484775A CN201610818690.0A CN201610818690A CN106484775A CN 106484775 A CN106484775 A CN 106484775A CN 201610818690 A CN201610818690 A CN 201610818690A CN 106484775 A CN106484775 A CN 106484775A
Authority
CN
China
Prior art keywords
selenium
page
browser
crawler capturing
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610818690.0A
Other languages
English (en)
Inventor
周灏
王雪飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kang Nannan
Original Assignee
Beijing Liangkebang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Liangkebang Information Technology Co Ltd filed Critical Beijing Liangkebang Information Technology Co Ltd
Priority to CN201610818690.0A priority Critical patent/CN106484775A/zh
Publication of CN106484775A publication Critical patent/CN106484775A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种基于selenium的爬虫抓取方法,其能够解决数据抓取中遇到难破解的网页/网站,并且抓取效率有所提高,开发者无需关注破解js如何加密,是否丢请求、丢参数,大大减少开发人员的工作时间和出错概率。该方法包括步骤:(1)执行初始url;(2)通过selenium驱动系统浏览器执行url地址;(3)当页面加载完毕后,获取页面进行页面数据解析。还提供了一种基于selenium的爬虫抓取系统。

Description

一种基于selenium的爬虫抓取方法及系统
技术领域
本发明属于网络爬虫的技术领域,具体地涉及一种基于selenium的爬虫抓取方法及系统。
背景技术
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
一般的爬虫都是直接使用http/https协议,下载指定url的html内容,并对内容进行爬虫抓取分析。例如在java中使用urlconnection,httpclient等。
但是现在很多页面是通过js以及ajax动态加载的,这就使得抓取数据变得异常艰难。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种基于selenium的爬虫抓取方法,其能够解决数据抓取中遇到难破解的网页/网站,并且抓取效率有所提高,开发者无需关注破解js如何加密,是否丢请求、丢参数,大大减少开发人员的工作时间和出错概率。
本发明的技术解决方案是:这种基于selenium的爬虫抓取方法,该方法包括以下步骤:
(1)执行初始url;
(2)通过selenium驱动系统浏览器执行url地址;
(3)当页面加载完毕后,获取页面进行页面数据解析。
本发明通过执行初始URL,因为selenium提供一组API可以与真实的浏览器内核交互,通过selenium驱动系统浏览器执行url地址,当页面加载完毕后,获取页面进行页面数据解析,因此能够解决数据抓取中遇到难破解的网页/网站,并且抓取效率有所提高,开发者无需关注破解js如何加密,是否丢请求、丢参数,大大减少开发人员的工作时间和出错概率。
还提供了一种基于selenium的爬虫抓取系统,该系统包括:
初始url执行模块,其配置来执行初始url;
url地址执行模块,其配置来通过selenium驱动系统浏览器执行url地址;
解析模块,其配置来当页面加载完毕后,获取页面进行页面数据解析。
附图说明
图1是根据本发明的基于selenium的爬虫抓取方法的流程图。
具体实施方式
如图1所示,这种基于selenium的爬虫抓取方法,该方法包括以下步骤:
(1)执行初始url;
(2)通过selenium驱动系统浏览器执行url地址;
(3)当页面加载完毕后,获取页面进行页面数据解析。
本发明通过执行初始URL,因为selenium提供一组API可以与真实的浏览器内核交互,通过selenium驱动系统浏览器执行url地址,当页面加载完毕后,获取页面进行页面数据解析,因此能够解决数据抓取中遇到难破解的网页/网站,并且抓取效率有所提高,开发者无需关注破解js如何加密,是否丢请求、丢参数,大大减少开发人员的工作时间和出错概率。
更进一步地,在所述步骤(3)中,还获取系统中返回的cookie信息。
另外,所述步骤(1)中:
为设置目标执行地址到selenium服务块,然后selenium通过内部webDriver wire协议调用浏览器原生api操作浏览器执行请求。
更进一步地,所述步骤(2)中:
通过selenium服务发送获取页面服务请求到wire协议,然后操作浏览器api获取浏览器加载的原始页面。
更进一步地,所述步骤(3)中:
通过wire协议返回到selenium服务中,当selenium服务拿到页面后交给解析模块进行页面解析。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本发明的方法相对应的,本发明还同时包括一种基于selenium的爬虫抓取系统,该系统通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的系统,其包括:
初始url执行模块,其配置来执行初始url;
url地址执行模块,其配置来通过selenium驱动系统浏览器执行url地址;
解析模块,其配置来当页面加载完毕后,获取页面进行页面数据解析。
更进一步地,在解析模块中,还获取系统中返回的cookie信息。
另外,在初始url执行模块中:
为设置目标执行地址到selenium服务块,然后selenium通过内部webDriver wire协议调用浏览器原生api操作浏览器执行请求。
更进一步地,在url地址执行模块中:
通过selenium服务发送获取页面服务请求到wire协议,然后操作浏览器api获取浏览器加载的原始页面。
更进一步地,在解析模块中:
通过wire协议返回到selenium服务中,当selenium服务拿到页面后交给解析模块进行页面解析。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (10)

1.一种基于selenium的爬虫抓取方法,其特征在于:该方法包括以下步骤:
(1)执行初始url;
(2)通过selenium驱动系统浏览器执行url地址;
(3)当页面加载完毕后,获取页面进行页面数据解析。
2.根据权利要求1所述的基于selenium的爬虫抓取方法,其特征在于:在所述步骤(3)中,还获取系统中返回的cookie信息。
3.根据权利要求1所述的基于selenium的爬虫抓取方法,其特征在于:所述步骤(1)中:
为设置目标执行地址到selenium服务块,然后selenium通过内部webDriver wire协议调用浏览器原生api操作浏览器执行请求。
4.根据权利要求3所述的基于selenium的爬虫抓取方法,其特征在于:所述步骤(2)中:
通过selenium服务发送获取页面服务请求到wire协议,然后操作浏览器api获取浏览器加载的原始页面。
5.根据权利要求4所述的基于selenium的爬虫抓取方法,其特征在于:所述步骤(3)中:
通过wire协议返回到selenium服务中,当selenium服务拿到页面后交给解析模块进行页面解析。
6.一种基于selenium的爬虫抓取系统,其特征在于:该系统包括:
初始url执行模块,其配置来执行初始url;
url地址执行模块,其配置来通过selenium驱动系统浏览器执行url地址;
解析模块,其配置来当页面加载完毕后,获取页面进行页面数据解析。
7.根据权利要求6所述的基于selenium的爬虫抓取系统,其特征在于:在解析模块中,还获取系统中返回的cookie信息。
8.根据权利要求6所述的基于selenium的爬虫抓取系统,其特征在于:在初始url执行模块中:
为设置目标执行地址到selenium服务块,然后selenium通过内部webDriver wire协议调用浏览器原生api操作浏览器执行请求。
9.根据权利要求8所述的基于selenium的爬虫抓取系统,其特征在于:在url地址执行模块中:
通过selenium服务发送获取页面服务请求到wire协议,然后操作浏览器api获取浏览器加载的原始页面。
10.根据权利要求9所述的基于selenium的爬虫抓取系统,其特征在于:在解析模块中:
通过wire协议返回到selenium服务中,当selenium服务拿到页面后交给解析模块进行页面解析。
CN201610818690.0A 2016-09-12 2016-09-12 一种基于selenium的爬虫抓取方法及系统 Pending CN106484775A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610818690.0A CN106484775A (zh) 2016-09-12 2016-09-12 一种基于selenium的爬虫抓取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610818690.0A CN106484775A (zh) 2016-09-12 2016-09-12 一种基于selenium的爬虫抓取方法及系统

Publications (1)

Publication Number Publication Date
CN106484775A true CN106484775A (zh) 2017-03-08

Family

ID=58273646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610818690.0A Pending CN106484775A (zh) 2016-09-12 2016-09-12 一种基于selenium的爬虫抓取方法及系统

Country Status (1)

Country Link
CN (1) CN106484775A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025296A (zh) * 2017-04-17 2017-08-08 山东辰华科技信息有限公司 基于科技服务信息智能抓取系统数据收集方法
CN107092697A (zh) * 2017-04-27 2017-08-25 努比亚技术有限公司 网页cookie的获取方法及装置
CN109446392A (zh) * 2018-09-03 2019-03-08 中新网络信息安全股份有限公司 一种基于无界面浏览器和可配置代理拦截的网页抓取系统及抓取方法
WO2021226954A1 (zh) * 2020-05-14 2021-11-18 深圳市欢太科技有限公司 信息爬取方法、装置、电子设备及存储介质
CN113742551A (zh) * 2021-09-07 2021-12-03 贵州电子商务云运营有限责任公司 一种基于scrapy和puppeteer的动态数据抓取方法
CN113836450A (zh) * 2021-11-30 2021-12-24 垒知科技集团四川有限公司 一种基于可视化操作获取xpath的数据接口生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426502A (zh) * 2015-11-26 2016-03-23 福州大学 基于社交网络的人物信息搜索与关系网绘制的方法
CN105893484A (zh) * 2016-03-29 2016-08-24 西安交通大学 一种基于文本特征和行为特征的微博Spammer识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426502A (zh) * 2015-11-26 2016-03-23 福州大学 基于社交网络的人物信息搜索与关系网绘制的方法
CN105893484A (zh) * 2016-03-29 2016-08-24 西安交通大学 一种基于文本特征和行为特征的微博Spammer识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘亚军: "社交网络用户帐户关联系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
杜彬: "基于Selenium的定向网络爬虫设计与实现", 《金融科技时代》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025296A (zh) * 2017-04-17 2017-08-08 山东辰华科技信息有限公司 基于科技服务信息智能抓取系统数据收集方法
CN107092697A (zh) * 2017-04-27 2017-08-25 努比亚技术有限公司 网页cookie的获取方法及装置
CN109446392A (zh) * 2018-09-03 2019-03-08 中新网络信息安全股份有限公司 一种基于无界面浏览器和可配置代理拦截的网页抓取系统及抓取方法
WO2021226954A1 (zh) * 2020-05-14 2021-11-18 深圳市欢太科技有限公司 信息爬取方法、装置、电子设备及存储介质
CN113742551A (zh) * 2021-09-07 2021-12-03 贵州电子商务云运营有限责任公司 一种基于scrapy和puppeteer的动态数据抓取方法
CN113836450A (zh) * 2021-11-30 2021-12-24 垒知科技集团四川有限公司 一种基于可视化操作获取xpath的数据接口生成方法

Similar Documents

Publication Publication Date Title
CN106484775A (zh) 一种基于selenium的爬虫抓取方法及系统
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN102870118B (zh) 用户行为的获取方法、设备及系统
CN103368978B (zh) 实现智能移动终端应用漏洞和通信安全检测的方法
CN104219316A (zh) 一种分布式系统中的调用请求处理方法及装置
CN104182506A (zh) 日志管理方法
CN106326017A (zh) 基于Annotation使用的调用链的实现系统
CN101562618A (zh) 一种检测网马的方法及装置
CN104301161A (zh) 业务质量指标的计算方法、计算装置以及通信系统
CN104378399A (zh) 一种数据推送方法、平台服务器、客户端以及系统
US10193989B2 (en) Visualization of user behavior
CN104967644A (zh) 消息推送方法、装置及系统
CN105556505A (zh) 遗产系统
CN107894945A (zh) 埋点添加方法、移动终端及计算机可读存储介质
CN103455600A (zh) 一种视频url抓取方法、装置及服务器设备
US10506392B1 (en) Stream-processing of telecommunication diameter event records
US10140377B2 (en) Data processing, data collection
CN109829121A (zh) 一种点击行为数据上报的方法和装置
CN104462242B (zh) 网页回流量统计方法及装置
CN104092660A (zh) 一种访问网络站点的方法
CN108280228A (zh) 一种网页的处理方法及相关设备
CN107370628A (zh) 基于埋点的日志处理方法及系统
CN104166545A (zh) 一种网页资源的嗅探方法以及装置
CN106209487A (zh) 用于检测网站中网页的安全漏洞的方法及装置
CN104967698A (zh) 一种爬取网络数据的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wang Xuefei

Inventor before: Zhou Hao

Inventor before: Wang Xuefei

CB03 Change of inventor or designer information
TA01 Transfer of patent application right

Effective date of registration: 20200415

Address after: No. 10, Gaosi village, Guolou administrative village, wulikou Township, Taikang County, Zhoukou City, Henan Province

Applicant after: Kang Nannan

Address before: 100080 Haidian District Danleng street Beijing City No. 1 Internet Financial Center 11 1102

Applicant before: BEIJING LIANGKEBANG INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20170308

RJ01 Rejection of invention patent application after publication