CN105743901A - 服务器、反爬虫系统和反爬虫验证方法 - Google Patents

服务器、反爬虫系统和反爬虫验证方法 Download PDF

Info

Publication number
CN105743901A
CN105743901A CN201610127493.4A CN201610127493A CN105743901A CN 105743901 A CN105743901 A CN 105743901A CN 201610127493 A CN201610127493 A CN 201610127493A CN 105743901 A CN105743901 A CN 105743901A
Authority
CN
China
Prior art keywords
server
crawler
reptile
website
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610127493.4A
Other languages
English (en)
Other versions
CN105743901B (zh
Inventor
崔广宇
李巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Computer Technology Shanghai Co Ltd
Original Assignee
Ctrip Computer Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Computer Technology Shanghai Co Ltd filed Critical Ctrip Computer Technology Shanghai Co Ltd
Priority to CN201610127493.4A priority Critical patent/CN105743901B/zh
Publication of CN105743901A publication Critical patent/CN105743901A/zh
Application granted granted Critical
Publication of CN105743901B publication Critical patent/CN105743901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Abstract

本发明提供一种服务器、反爬虫系统和反爬虫验证方法,服务器与一站点通讯连接,该服务器中存储有发布的用于对抗针对该站点的爬虫行为的反爬虫策略。反爬虫验证方法包括:S1、该站点发送一到该服务器获取该反爬虫策略的信息至用户;S2、该服务器在接收到用户发来的控制指令后将该反爬虫策略传送至该用户;S3、该站点接收该用户发来的针对该反爬虫策略的解密结果,并将该解密结果发送给该服务器;S4、该服务器对该解密结果进行验证,并将验证结果发送至该站点,该验证结果为该解密结果正确的信息或该解密结果错误的信息。本发明能够大为减少测试流程、审批流程、发布流程以及发布后开关流程的处理时间,进而提高反爬虫策略的发布速度。

Description

服务器、反爬虫系统和反爬虫验证方法
技术领域
本发明涉及一种反爬虫技术,特别涉及一种存储有发布的反爬虫策略的服务器、包括该服务器的反爬虫系统和利用该反爬虫系统实现的反爬虫验证方法。
背景技术
目前,互联网上的爬虫量日益增加,反爬虫也越来越受到严峻的挑战。互联网上的爬虫千奇百怪,并且时刻在进化,需要频繁发布新的反爬虫策略来解决新的爬虫。
采用前端脚本的加解密机制,可以大大增加爬取站点的复杂度,但是也对服务器验证方式提出了更严峻的挑战。通常我们的前端服务器可能很多,发布起来需要考虑灰度问题,无法进行频繁发布。而反爬虫发布则需要根据爬虫的行为来决定,例如反爬虫策略是成功的,而爬虫编写者经过一定的时间破解了反爬虫的策略,这时候就需要立刻进行一次反爬虫发布。
而已有的反爬虫技术通常是升级整个站点,这会严重拖慢发布速度。具体地,现有技术中将反爬虫策略和其他一些程序一起打包发布至站点上,在此过程中需要执行测试流程、审批流程、发布流程以及发布之后开关流程等,由于反爬虫策略是和其他程序一起打包发布的,所以上述各个流程耗费的时间较长,影响了反爬虫策略的发布速度。
发明内容
本发明要解决的技术问题是为了克服现有技术中的反爬虫技术升级整个站点,严重影响反爬虫策略的发布速度的缺陷,提供一种服务器、反爬虫系统和反爬虫验证方法。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供一种服务器,其特点在于,其与一站点通讯连接,该服务器中存储有发布的用于对抗针对该站点的爬虫行为的反爬虫策略。
在本方案中,并不将反爬虫策略与其他程序一起打包发布至站点上,而是设置一个独立的服务器,将该反爬虫策略单独地发布存储至该服务器上,由于测试流程、审批流程、发布流程以及发布之后开关流程等只针对该反爬虫策略,所以能够大为减少上述各个流程的处理时间,进而提高反爬虫策略的发布速度。
较佳地,该服务器包括一传送模块、一接收模块和一验证模块;
该传送模块用于在接收到用户发来的控制指令后将该反爬虫策略传送至该用户;
该接收模块用于接收该站点发来的针对该反爬虫策略的解密结果;
该验证模块用于对该解密结果进行验证,并将验证结果发送至该站点,该验证结果为该解密结果正确的信息或该解密结果错误的信息。
较佳地,该反爬虫策略以js(脚本语言)脚本形式存储。
本发明还提供一种反爬虫系统,其特点在于,其包括上述的服务器和上述的站点。
本发明还提供一种反爬虫验证方法,其利用上述的反爬虫系统实现,其包括以下步骤:
S1、该站点发送一到该服务器获取该反爬虫策略的信息至用户;
S2、该服务器在接收到用户发来的控制指令后将该反爬虫策略传送至该用户;
S3、该站点接收该用户发来的针对该反爬虫策略的解密结果,并将该解密结果发送给该服务器;
S4、该服务器对该解密结果进行验证,并将验证结果发送至该站点,该验证结果为该解密结果正确的信息或该解密结果错误的信息。
在本方案中,验证过程并不由站点完成,而是由独立的服务器完成,有利于在反爬虫策略出现异常时,无需对站点作出更改,该站点仍然能够正常运行,工作人员只需将该服务器关闭即可。工作人员将该服务器关闭之后,该站点正常运行只是该站点没有反爬技术而已,用户能够从该站点爬取任何需要的信息。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
本发明并不将反爬虫策略与其他程序一起打包发布至站点上,而是设置一个独立的服务器,将该反爬虫策略单独地发布存储至该服务器上,由于测试流程、审批流程、发布流程以及发布之后开关流程等只针对该反爬虫策略,所以能够大为减少上述各个流程的处理时间,进而提高反爬虫策略的发布速度。
附图说明
图1为本发明较佳实施例的反爬虫系统的结构示意图。
图2为本发明较佳实施例的反爬虫验证方法的流程图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
本实施例并不将反爬虫策略与其他程序一起打包发布至站点上,而是设置一个独立的服务器,将该反爬虫策略单独地发布存储至该服务器上,具体地,本实施例提供一种反爬虫系统,其包括一站点和一与该站点通讯连接的服务器,该服务器中存储有发布的用于对抗针对该站点的爬虫行为的反爬虫策略,该反爬虫策略以js脚本形式存储,其中,该服务器包括一传送模块、一接收模块和一验证模块。
由于测试流程、审批流程、发布流程以及发布之后开关流程等只针对该反爬虫策略,所以能够大为减少上述各个流程的处理时间,进而提高反爬虫策略的发布速度。
如图1所示,该站点发送一到该服务器获取该反爬虫策略的信息至用户,该用户收到该信息后,发出一控制指令至该服务器,该服务器中的传送模块在接收到用户发来的控制指令后将该反爬虫策略传送至该用户,该用户收到该反爬虫策略对该反爬虫策略进行解密,并将解密结果发送给该站点,该站点接收到该解密结果,并将该解密结果发送给该服务器;该服务器中的接收模块接收该站点发来的针对该反爬虫策略的解密结果,该服务器中的验证模块对该解密结果进行验证,并将验证结果发送至该站点,该验证结果为该解密结果正确的信息或该解密结果错误的信息。
如图2所示,本实施例还提供一种反爬虫验证方法,其利用上述的反爬虫系统实现,其包括以下步骤:
步骤101、该站点发送一到该服务器获取该反爬虫策略的信息至用户.
在该站点之外独立设置一个服务器,命名为verify-server,该服务器同时绑定两个域名,一个是外网使用的,命名为wan-decode,另一个用于内网访问,命名为lan-verify。
而且在该服务器上创建两个url(统一资源定位符),一个是http://wan-decode/decode/,另一个是http://lan-verify/verify。
例如:http://wan-decode/decode/的伪代码实现如下:
而http://lan-verify/verify的伪代码实现示例如下:
步骤102、该服务器在接收到用户发来的控制指令后将该反爬虫策略传送至该用户。
外网已有的/decode代码,改为用jsonp访问http://wan-decode/decode/(如果没有申请新域名而是使用同域,也可以不使用jsonp,直接用ajax拉取),从而获得该反爬虫策略。
例如如下伪代码:
步骤103、该站点接收该用户发来的针对该反爬虫策略的解密结果,并将该解密结果发送给该服务器。
步骤104、该服务器对该解密结果进行验证,并将验证结果发送至该站点,该验证结果为该解密结果正确的信息或该解密结果错误的信息。
内网已有的func-verify函数,改为访问http://lan-verify/verify/来进行验证。
例如如下伪代码:
可见,以后需要发布新的反爬虫策略的时候,直接将新的反爬虫策略发布到verify-server上,这样就同时更改了http://wan-decode/decode/和http://lan-verify/verify中的反爬虫策略,从而实现了加解密的同时变更。而且,当需要回退的时候,直接回退verify-server即可。
在本实施例中,验证过程并不由站点完成,而是由独立的服务器完成,有利于在反爬虫策略出现异常时,无需对站点作出更改,该站点仍然能够正常运行,工作人员只需将该服务器关闭即可。工作人员将该服务器关闭之后,该站点正常运行只是该站点没有反爬技术而已,用户能够从该站点爬取任何需要的信息。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (5)

1.一种服务器,其特征在于,其与一站点通讯连接,该服务器中存储有发布的用于对抗针对该站点的爬虫行为的反爬虫策略。
2.如权利要求1所述的服务器,其特征在于,该服务器包括一传送模块、一接收模块和一验证模块;
该传送模块用于在接收到用户发来的控制指令后将该反爬虫策略传送至该用户;
该接收模块用于接收该站点发来的针对该反爬虫策略的解密结果;
该验证模块用于对该解密结果进行验证,并将验证结果发送至该站点,该验证结果为该解密结果正确的信息或该解密结果错误的信息。
3.如权利要求1所述的服务器,其特征在于,该反爬虫策略以js脚本形式存储。
4.一种反爬虫系统,其特征在于,其包括如权利要求1-3中任意一项所述的服务器和权利要求1中的站点。
5.一种反爬虫验证方法,其特征在于,其利用如权利要求4所述的反爬虫系统实现,其包括以下步骤:
S1、该站点发送一到该服务器获取该反爬虫策略的信息至用户;
S2、该服务器在接收到用户发来的控制指令后将该反爬虫策略传送至该用户;
S3、该站点接收该用户发来的针对该反爬虫策略的解密结果,并将该解密结果发送给该服务器;
S4、该服务器对该解密结果进行验证,并将验证结果发送至该站点,该验证结果为该解密结果正确的信息或该解密结果错误的信息。
CN201610127493.4A 2016-03-07 2016-03-07 服务器、反爬虫系统和反爬虫验证方法 Active CN105743901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610127493.4A CN105743901B (zh) 2016-03-07 2016-03-07 服务器、反爬虫系统和反爬虫验证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610127493.4A CN105743901B (zh) 2016-03-07 2016-03-07 服务器、反爬虫系统和反爬虫验证方法

Publications (2)

Publication Number Publication Date
CN105743901A true CN105743901A (zh) 2016-07-06
CN105743901B CN105743901B (zh) 2019-04-09

Family

ID=56249203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610127493.4A Active CN105743901B (zh) 2016-03-07 2016-03-07 服务器、反爬虫系统和反爬虫验证方法

Country Status (1)

Country Link
CN (1) CN105743901B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106027564A (zh) * 2016-07-08 2016-10-12 携程计算机技术(上海)有限公司 检测反爬虫策略安全性的方法及装置
CN106411868A (zh) * 2016-09-19 2017-02-15 成都知道创宇信息技术有限公司 一种自动识别web爬虫的方法
CN106997374A (zh) * 2017-01-05 2017-08-01 深圳大宇无限科技有限公司 深度链接获取方法和装置
CN107426148A (zh) * 2017-03-30 2017-12-01 成都优易数据有限公司 一种基于运行环境特征识别的反爬虫方法及系统
CN107454083A (zh) * 2017-08-08 2017-12-08 四川长虹电器股份有限公司 反爬虫的方法
CN108521428A (zh) * 2018-04-20 2018-09-11 武汉极意网络科技有限公司 一种基于jenkins的公网防爬虫的实现方法及系统
WO2020000747A1 (zh) * 2018-06-27 2020-01-02 平安科技(深圳)有限公司 一种反爬虫方法、终端及计算机可读存储介质
CN110012023B (zh) * 2019-04-15 2020-06-09 重庆天蓬网络有限公司 一种投毒式的防爬方法、系统、终端及介质
CN111523014A (zh) * 2020-04-24 2020-08-11 广州大学 一种基于对抗样本的开源数据处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100217979A1 (en) * 2005-12-19 2010-08-26 Karim Yaghmour System and Method for Providing Certified Proof of Delivery Receipts for Electronic Mail
CN104899323A (zh) * 2015-06-19 2015-09-09 成都国腾实业集团有限公司 一种用于idc有害信息监测平台的爬虫系统
CN104951539A (zh) * 2015-06-19 2015-09-30 成都艾尔普科技有限责任公司 互联网数据中心有害信息监测系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100217979A1 (en) * 2005-12-19 2010-08-26 Karim Yaghmour System and Method for Providing Certified Proof of Delivery Receipts for Electronic Mail
CN104899323A (zh) * 2015-06-19 2015-09-09 成都国腾实业集团有限公司 一种用于idc有害信息监测平台的爬虫系统
CN104951539A (zh) * 2015-06-19 2015-09-30 成都艾尔普科技有限责任公司 互联网数据中心有害信息监测系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106027564A (zh) * 2016-07-08 2016-10-12 携程计算机技术(上海)有限公司 检测反爬虫策略安全性的方法及装置
CN106027564B (zh) * 2016-07-08 2019-05-21 携程计算机技术(上海)有限公司 检测反爬虫策略安全性的方法及装置
CN106411868A (zh) * 2016-09-19 2017-02-15 成都知道创宇信息技术有限公司 一种自动识别web爬虫的方法
CN106997374A (zh) * 2017-01-05 2017-08-01 深圳大宇无限科技有限公司 深度链接获取方法和装置
CN107426148A (zh) * 2017-03-30 2017-12-01 成都优易数据有限公司 一种基于运行环境特征识别的反爬虫方法及系统
CN107454083A (zh) * 2017-08-08 2017-12-08 四川长虹电器股份有限公司 反爬虫的方法
CN108521428A (zh) * 2018-04-20 2018-09-11 武汉极意网络科技有限公司 一种基于jenkins的公网防爬虫的实现方法及系统
CN108521428B (zh) * 2018-04-20 2020-09-01 武汉极意网络科技有限公司 一种基于jenkins的公网防爬虫的实现方法及系统
WO2020000747A1 (zh) * 2018-06-27 2020-01-02 平安科技(深圳)有限公司 一种反爬虫方法、终端及计算机可读存储介质
CN110012023B (zh) * 2019-04-15 2020-06-09 重庆天蓬网络有限公司 一种投毒式的防爬方法、系统、终端及介质
CN111523014A (zh) * 2020-04-24 2020-08-11 广州大学 一种基于对抗样本的开源数据处理方法及系统

Also Published As

Publication number Publication date
CN105743901B (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN105743901A (zh) 服务器、反爬虫系统和反爬虫验证方法
Le Goues et al. Genprog: A generic method for automatic software repair
CN103023710B (zh) 一种安全测试系统和方法
CN104104649B (zh) 页面登录的方法、装置及系统
CN102546576A (zh) 一种网页挂马检测和防护方法、系统及相应代码提取方法
CN104317607B (zh) 一种企业In-house IOS APP自动升级系统与方法
US20170357804A1 (en) Method and apparatus for preventing injection-type attack in web-based operating system
US20180351936A1 (en) Http session validation module
CN107395614A (zh) 单点登录方法及系统
CN104461912B (zh) Rdma资源泄漏检测和报告
TW200625140A (en) RFID server internals design
US11514365B2 (en) Immutable watermarking for authenticating and verifying AI-generated output
CN103152365A (zh) 对数据进行验证的数据验证方法及服务器
US20120042037A1 (en) Source identification for multipart content validation
CN107277021A (zh) 一种新公开漏洞影响范围识别与修复管理系统及方法
CN102215232A (zh) 一种单点登录的方法
US20180205705A1 (en) Network request proxy system and method
US20220198025A1 (en) Web Attack Simulator
CN103971059B (zh) 一种Cookie本地存储与使用方法
US20110107092A1 (en) Performance based authentication method and apparatus for secure communication
CN110581841A (zh) 一种后端反爬虫方法
CN105653932B (zh) 软件升级验证的方法和装置
CN102761576B (zh) 彩铃Web系统防止恶意订购铃音的方法及服务器
CN104732144B (zh) 一种基于伪协议的远程代码注入漏洞检测方法
CN105491000B (zh) 使用网页校验码来防止任意上传文件的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant