CN106156370A - 基于浏览器内置爬虫系统的爬虫实现方法 - Google Patents

基于浏览器内置爬虫系统的爬虫实现方法 Download PDF

Info

Publication number
CN106156370A
CN106156370A CN201610755586.1A CN201610755586A CN106156370A CN 106156370 A CN106156370 A CN 106156370A CN 201610755586 A CN201610755586 A CN 201610755586A CN 106156370 A CN106156370 A CN 106156370A
Authority
CN
China
Prior art keywords
browser
crawler system
reptile
logic
built
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610755586.1A
Other languages
English (en)
Other versions
CN106156370B (zh
Inventor
陆浩卿
牟杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Computer Technology Shanghai Co Ltd
Original Assignee
Ctrip Computer Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Computer Technology Shanghai Co Ltd filed Critical Ctrip Computer Technology Shanghai Co Ltd
Priority to CN201610755586.1A priority Critical patent/CN106156370B/zh
Publication of CN106156370A publication Critical patent/CN106156370A/zh
Application granted granted Critical
Publication of CN106156370B publication Critical patent/CN106156370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了基于浏览器内置爬虫系统的爬虫实现方法:浏览器发送请求命令至外部web服务器通过根据请求命令;外部web服务器发送经加密的响应信息至浏览器;浏览器内置的爬虫系统对加密的响应信息进行处理,使得浏览器获取响应数据,存入本地服务器,并进行显示。本发明通过在浏览器内设置爬虫系统,使得浏览器内核和web应用层关联起来,实现全方面控制web应用层逻辑。本发明能够通过爬虫系统任意修改web应用层逻辑,监控各种应用层以及非应用层的数据,也即具有强大的功能。同时,由于爬虫系统不直接工作在web应用层,而是工作在浏览器内核层,web应用层无法发现爬虫内核层的监控,因此本发明的爬虫系统具有良好的隐蔽性。

Description

基于浏览器内置爬虫系统的爬虫实现方法
技术领域
本发明涉及计算机网络领域,具体涉及一种基于浏览器内置爬虫系统的爬虫实现方法。
背景技术
目前有很多浏览器爬虫的技术方案;有基于浏览器本身的插件和扩展机制,集成到浏览器内部实现内容采集;也有基于一些第三方的无头浏览器,如PhantomJS、Selenium等来获取目标页面内容;以及通过调用现有的一些浏览器内核,直接访问目标页面来获取内容。这些方案或多或少都有一些受限因素,比如浏览器本身基于安全性的考虑,有安全沙箱机制,一些关键敏感的接口不会直接暴露出来。基于这些限制,往往使得一些浏览器爬虫的功能有限,没有办法获取所有的数据内容。并且这些方案的扩展需要在应用层面实现,而这些扩展就成为了这些工具的特征,会被同样基于浏览器应用层面的反爬技术识别出来。插件和扩展的方案本身也因为对浏览器的依赖,使其本身的部署受到诸多限制。
发明内容
本发明的目的在于为了解决现有技术中网络爬虫技术能力有限,无法绕过反爬虫技术制造的障碍等问题的出现;提供一种基于浏览器内置爬虫系统的爬虫实现方法。
为了达到上述目的,本发明通过以下技术方案实现:
一种基于浏览器内置爬虫系统的爬虫实现方法,所述爬虫实现方法包含:浏览器发送请求命令至外部web服务器;所述爬虫系统设置在所述浏览器的内核层的网络接口,所述爬虫实现方法还包含:
S1,根据所述请求命令,所述外部web服务器依次发送辅助信息、经加密的响应数据至所述浏览器;所述辅助信息包含显示逻辑脚本以及解密逻辑脚本;
S2,所述浏览器内置的爬虫系统对所述辅助信息进行处理,生成数据输出逻辑,所述浏览器解密所述加密的响应数据,并根据所述数据输出逻辑将解密后的响应数据存入本地服务器,同时将所述响应数据进行显示。
较佳地,所述步骤S2包含:
所述爬虫系统修改所述辅助信息中的所述解密逻辑脚本,形成修改后的解密逻辑脚本;所述修改后的解密逻辑脚本包含所述数据输出逻辑、所述解密逻辑脚本中的解密逻辑;
所述浏览器根据所述修改后的解密逻辑脚本中的所述解密逻辑对所述加密的响应数据进行解密,并根据所述数据输出逻辑将所述解密后的响应数据发送至本地服务器进行保存;
所述浏览器根据所述显示逻辑脚本将所述解密后的响应数据在所述浏览器的用户界面进行显示。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
本发明公开的基于浏览器内置爬虫系统的爬虫实现方法,首先,浏览器发送请求命令至外部web服务器通过根据请求命令;其次,外部web服务器发送经加密的响应信息至浏览器;最后,浏览器内置的爬虫系统对加密的响应信息进行处理,使得浏览器获取响应数据,存入本地服务器,并进行显示。本发明通过在浏览器内设置爬虫系统,使得浏览器内核和web应用层关联起来,能够破解外部网络服务发送的加密信息,获取用户需求的信息。本发明能够通过爬虫系统任意修改web应用层逻辑,监控各种应用层以及非应用层的数据,也即具有强大的功能。同时,由于爬虫系统不直接工作在web应用层,而是工作在浏览器内核层,应用层无法发现爬虫内核层的监控,因此,本发明中的爬虫系统具有良好的隐蔽性。
附图说明
图1为本发明基于浏览器内置爬虫系统的爬虫实现方法的整体流程示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
如图1所示,一种基于浏览器内置爬虫系统的爬虫实现方法,其中,爬虫系统设置在浏览器的内核层;爬虫实现方法包含:
S0,用户通过浏览器发送请求命令至外部web服务器。
S1,根据请求命令,外部web服务器依次发送辅助信息、经加密的响应数据至浏览器。
本发明中辅助信息包含显示逻辑脚本以及解密逻辑脚本。
本实施例中,外部web服务器对AJAX(标准通用标记语言的子集)报文内容进行加密,从而实现对浏览器要求获取的响应数据进行加密。
S2,浏览器内置的爬虫系统对加密的响应数据、辅助信息进行处理,生成数据输出逻辑,使得浏览器解密上述加密的响应数据,并根据数据输出逻辑将解密后的响应数据存入本地服务器,同时将响应数据进行显示。步骤S2包含:
爬虫系统修改辅助信息中的解密逻辑脚本,形成修改后的解密逻辑脚本。
本实施例中,爬虫系统在解密逻辑脚本中增加了将解密之后的数据输出的逻辑,形成修改后的解密逻辑脚本。
浏览器根据修改后的解密逻辑脚本(例如,用于解密的JavaScript脚本)中的解密逻辑对加密的响应数据进行解密,并根据修改后的解密逻辑脚本将解密后的响应数据发送至本地服务器进行保存。
本实施例中,当浏览器根据解密逻辑脚本解密获取实际的响应数据后,由于修改后的解密逻辑脚本内包含数据输出逻辑,则根据该数据输出逻辑将实际响应数据发送至本地服务器中。
浏览器根据显示逻辑脚本将解密后的响应数据在浏览器的用户界面进行显示。
浏览器在web应用层对解密后的http响应信息进行逻辑处理,并将解密后的http响应信息在浏览器的用户界面进行显示。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (2)

1.一种基于浏览器内置爬虫系统的爬虫实现方法,所述爬虫实现方法包含:浏览器发送请求命令至外部web服务器;其特征在于,所述爬虫系统设置在所述浏览器的内核层的网络接口,所述爬虫实现方法还包含:
S1,根据所述请求命令,所述外部web服务器依次发送辅助信息、经加密的响应数据至所述浏览器;所述辅助信息包含显示逻辑脚本以及解密逻辑脚本;
S2,所述浏览器内置的爬虫系统对所述辅助信息进行处理,生成数据输出逻辑;所述浏览器解密所述加密的响应数据,并根据所述数据输出逻辑将解密后的响应数据存入本地服务器,同时将所述响应数据进行显示。
2.如权利要求1所述的基于浏览器内置爬虫系统的爬虫实现方法,其特征在于,所述步骤S2包含:
所述爬虫系统修改所述辅助信息中的所述解密逻辑脚本,形成修改后的解密逻辑脚本;所述修改后的解密逻辑脚本包含所述数据输出逻辑、所述解密逻辑脚本中的解密逻辑;
所述浏览器根据所述修改后的解密逻辑脚本中的所述解密逻辑对所述加密的响应数据进行解密,并根据所述数据输出逻辑将所述解密后的响应数据发送至本地服务器进行保存;
所述浏览器根据所述显示逻辑脚本将所述解密后的响应数据在所述浏览器的用户界面进行显示。
CN201610755586.1A 2016-08-29 2016-08-29 基于浏览器内置爬虫系统的爬虫实现方法 Active CN106156370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610755586.1A CN106156370B (zh) 2016-08-29 2016-08-29 基于浏览器内置爬虫系统的爬虫实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610755586.1A CN106156370B (zh) 2016-08-29 2016-08-29 基于浏览器内置爬虫系统的爬虫实现方法

Publications (2)

Publication Number Publication Date
CN106156370A true CN106156370A (zh) 2016-11-23
CN106156370B CN106156370B (zh) 2019-06-18

Family

ID=57345117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610755586.1A Active CN106156370B (zh) 2016-08-29 2016-08-29 基于浏览器内置爬虫系统的爬虫实现方法

Country Status (1)

Country Link
CN (1) CN106156370B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063144A (zh) * 2018-08-07 2018-12-21 广州金猫信息技术服务有限公司 可视化网络爬虫方法及装置
CN109660532A (zh) * 2018-12-14 2019-04-19 华南农业大学 一种分布式网络数据采集方法及其采集系统
CN109948020A (zh) * 2019-01-14 2019-06-28 北京三快在线科技有限公司 数据获取方法、装置、系统及可读存储介质
CN112800309A (zh) * 2021-01-30 2021-05-14 上海应用技术大学 基于http代理的爬虫系统及其实现方法
CN114826959A (zh) * 2022-04-19 2022-07-29 浙江大学 一种针对音频数据反爬虫技术脆弱性分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统
CN101635622A (zh) * 2008-07-24 2010-01-27 阿里巴巴集团控股有限公司 一种网页加密和解密的方法、系统及设备
CN102571791A (zh) * 2011-12-31 2012-07-11 奇智软件(北京)有限公司 一种分析网页内容是否被篡改的方法及系统
CN102880607A (zh) * 2011-07-15 2013-01-16 舆情(香港)有限公司 网络动态内容抓取方法及网络动态内容爬虫系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统
CN101635622A (zh) * 2008-07-24 2010-01-27 阿里巴巴集团控股有限公司 一种网页加密和解密的方法、系统及设备
CN102880607A (zh) * 2011-07-15 2013-01-16 舆情(香港)有限公司 网络动态内容抓取方法及网络动态内容爬虫系统
CN102571791A (zh) * 2011-12-31 2012-07-11 奇智软件(北京)有限公司 一种分析网页内容是否被篡改的方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063144A (zh) * 2018-08-07 2018-12-21 广州金猫信息技术服务有限公司 可视化网络爬虫方法及装置
CN109660532A (zh) * 2018-12-14 2019-04-19 华南农业大学 一种分布式网络数据采集方法及其采集系统
CN109948020A (zh) * 2019-01-14 2019-06-28 北京三快在线科技有限公司 数据获取方法、装置、系统及可读存储介质
CN112800309A (zh) * 2021-01-30 2021-05-14 上海应用技术大学 基于http代理的爬虫系统及其实现方法
CN114826959A (zh) * 2022-04-19 2022-07-29 浙江大学 一种针对音频数据反爬虫技术脆弱性分析方法及系统
CN114826959B (zh) * 2022-04-19 2023-10-13 浙江大学 一种针对音频数据反爬虫技术脆弱性分析方法及系统

Also Published As

Publication number Publication date
CN106156370B (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN106156370A (zh) 基于浏览器内置爬虫系统的爬虫实现方法
US10592683B1 (en) Applying an authorization policy across multiple application programs with requests submitted through an HTTP-based API
US11853442B1 (en) Protecting a document with a security overlay on a web browser
Zimba et al. Crypto mining attacks in information systems: An emerging threat to cyber security
US11671509B2 (en) Anonymous eCommerce behavior tracking
CN105631355A (zh) 一种数据处理方法和装置
US20130254855A1 (en) Dynamic rendering of a document object model
CN105940409A (zh) 网络服务沙箱系统
CN105631359A (zh) 一种网页操作的控制方法和装置
JP2007004685A (ja) 通信情報監視装置
EP2642718B1 (en) Dynamic rendering of a document object model
US20170264591A1 (en) System And Method For Proxy-Based Privacy Protection
Patil et al. Enhanced privacy preservation using anonymization in IoT-enabled smart homes
CN106446020A (zh) 基于浏览器内置爬虫系统的指纹识别实现方法
Veeraiah et al. Detection of malicious cloud bandwidth consumption in cloud computing using machine learning techniques
US20240061927A1 (en) Processing transactions involving card reader devices containerized execution of code
US20200220893A1 (en) Exercising Security Control Point (SCP) capabilities on live systems based on internal validation processing
Kerschbaumer et al. Towards precise and efficient information flow control in web browsers
EP3479543B1 (en) Client-side security key generation
Jose et al. A model in healthcare cloud for securing the data using fog computing
Kim et al. Digital forensic approaches for metaverse ecosystems
Shi et al. DUCE: Distributed usage control enforcement for private data sharing in Internet of Things
Nisar et al. Security and privacy issues
Ramadan et al. SIoT: Secure IoT Framework for Smart Environments
Hsiao et al. A secure proxy-based cross-domain communication for web mashups

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant