CN102970296B - 基于内容分发网络的网站内容智能防抓取方法和系统 - Google Patents

基于内容分发网络的网站内容智能防抓取方法和系统 Download PDF

Info

Publication number
CN102970296B
CN102970296B CN201210480461.4A CN201210480461A CN102970296B CN 102970296 B CN102970296 B CN 102970296B CN 201210480461 A CN201210480461 A CN 201210480461A CN 102970296 B CN102970296 B CN 102970296B
Authority
CN
China
Prior art keywords
client
content
access frequency
return
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210480461.4A
Other languages
English (en)
Other versions
CN102970296A (zh
Inventor
洪珂
郭文强
张颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wangsu Science and Technology Co Ltd
Original Assignee
Wangsu Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wangsu Science and Technology Co Ltd filed Critical Wangsu Science and Technology Co Ltd
Priority to CN201210480461.4A priority Critical patent/CN102970296B/zh
Publication of CN102970296A publication Critical patent/CN102970296A/zh
Application granted granted Critical
Publication of CN102970296B publication Critical patent/CN102970296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了基于内容分发网络的网站内容智能防抓取方法和系统,能够减少由于误判导致的正常客户端无法访问网站,且能自动解除禁问状态。其技术方案为:内容分发网络系统接收客户端请求,监测客户端访问行为;判断客户端访问频率是否超过预设阈值,若未超过则直接返回所请求的内容;否则继续判断客户端本次请求时间是否大于上次超过访问频率的时间加上预设的防抓取状态时长;若大于则返回所请求的内容;否则返回客户端验证码页面;判断客户端是否提交了正确的验证码,若是则返回所请求的内容;否则判断客户提交的非法验证码次数是否超过设定值,若未超过则返回客户端验证码页面,否则认为客户端是抓取机器,对其禁止访问,返回403响应。

Description

基于内容分发网络的网站内容智能防抓取方法和系统
技术领域
本发明涉及互联网数据安全技术,尤其涉及基于内容分发网络(CDN网络)的网站安全技术,即网站内容智能防抓取的方法和系统。
背景技术
网站内容智能防抓取技术的基本思想是,当客户端对网站发起内容请求时,CDN系统的智能内容防抓取模块开始监控客户端的访问行为特征,当客户端访问行为异常时,CDN系统将根据智能防抓取模块给出的判定结果来判断客户端属于正常网友还是抓取机器,并响应相应的内容。
目前的网站内容防抓取的实现方案如图1所示。源站接收客户端请求(步骤S10)后,源站的防抓取模块监测客户端访问行为(步骤S11),会根据所配置的客户端访问频率来判断客户端为正常的网友还是恶意抓取机器(步骤S12)。当客户端访问频率超过阈值时,源站认为客户端是恶意抓取机器,拒绝其请求,返回403响应(步骤S13)。否则,源站认为客户端是正常的网友,返回其请求的内容(步骤S14)。
现有的网站内容防抓取实现方案存在三个弊端:
1.根据客户端的IP进行判断,粒度太粗,目前很多企业对外都只是一个IP或少数几个IP出口,容易产生误判,导致其他的客户端一直不能访问网站;
2.判断依据不够灵活,只能根据其访问频率来判断;
3.处理方式不够智能,在判断为机器后,不能自动解除禁问状态。
发明内容
本发明的目的在于解决上述问题,提供了一种基于内容分发网络的网站内容智能防抓取方法和系统,能够减少由于误判导致的正常客户端无法访问网站,且能自动解除禁问状态。
本发明的技术方案为:本发明揭示了一种基于内容分发网络的网站内容智能防抓取方法,包括:
内容分发网络系统接收客户端请求,监测客户端访问行为;
判断客户端访问频率是否超过预设阈值,若客户端访问频率未超过预设阈值则认为客户端是正常网站用户,直接返回客户端所请求的内容,流程结束;
若客户端访问频率超过预设阈值则继续判断客户端本次请求时间是否大于上次超过访问频率的时间加上预设的防抓取状态时长;
若客户端本次请求时间大于上次超过访问频率的时间加上预设的防抓取状态时长则认为客户端不在防抓取状态内,返回客户端所请求的内容,流程结束;
若客户端本次请求时间小于上次超过访问频率的时间加上预设的防抓取状态时长则认为客户端仍在防抓取状态内,返回客户端验证码页面;
判断客户端是否提交了正确的验证码,若提交了正确的验证码则返回客户端所请求的内容,流程结束;
若未提交正确的验证码则判断客户提交的非法验证码的次数是否超过设定值,若未超过则返回客户端验证码页面以供客户端再次输入验证码,若超过则认为客户端是抓取机器,对其禁止访问,返回表示服务器拒绝请求的403响应。
本发明另外揭示了一种基于内容分发网络的网站内容智能防抓取系统,包括:
客户端访问行为监测模块,内容分发网络系统接收客户端请求,监测客户端访问行为;
客户端访问频率判断模块,判断客户端访问频率是否超过预设阈值,若客户端访问频率未超过预设阈值则认为客户端是正常网站用户,直接返回客户端所请求的内容,若客户端访问频率超过预设阈值则继续启动后一模块;
客户端请求时间判断模块,判断客户端本次请求时间是否大于上次超过访问频率的时间加上预设的防抓取状态时长,若客户端本次请求时间大于上次超过访问频率的时间加上预设的防抓取状态时长则返回客户端所请求的内容,若客户端本次请求时间小于上次超过访问频率的时间加上预设的防抓取状态时长则启动后一模块;
客户端验证模块,提供一客户端验证码页面,判断客户端是否提交了正确的验证码,若提交了正确的验证码则返回客户端所请求的内容,若未提交正确的验证码则判断客户提交的非法验证码的次数是否超过设定值,若未超过则返回客户端验证码页面以供客户端再次输入验证码,若超过则认为客户端是抓取机器,对其禁止访问,返回表示服务器拒绝请求的403响应。
本发明对比现有技术有如下的有益效果:本发明的方案是当客户端向网站发起访问请求时,监控客户端的访问行为,当客户端的访问频率超过预设阈值,且本次请求的时间小于上次超过访问频率的时间加上预设的防抓取状态时长时,则认为该客户端有可能是抓取机器,因此对该客户端的每次访问都返回验证码页面,在验证码页面中,如果客户端提交的验证码是正确的,则认为该客户端是正常用户,如果客户端提交非法验证码的次数超过阈值,则认为该客户端是抓取机器,对客户端禁止访问,即让CDN系统返回403响应,而提交非法验证码的次数未超过阈值时,系统会重新返回验证码页面进一步判断是不是抓取机器。相较于现有技术,本发明的方案增加了判断依据,提高了判断精度,减少误判现象的发生,而且提高了处理方式的智能化,在判断出客户端是抓取机器之后能自动解除禁问状态。
附图说明
图1示出了传统的网站内容防抓取方法的流程图。
图2示出了本发明的基于内容分发网络的网站内容智能防抓取方法的较佳实施例的流程图。
图3示出了本发明的基于内容分发网络的网站内容智能防抓取系统的较佳实施例的原理图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图2示出了本发明的基于内容分发网络的网站内容智能防抓取方法的较佳实施例的流程。请参见图2,本实施例的网站内容智能防抓取方法的各个实施步骤详述如下。
步骤S20:内容分发网络接收客户端请求。
步骤S21:监测客户端访问行为。
步骤S22:判断客户端访问频率是否超过预设阈值,若超过则进入步骤S23,否则转入步骤S28。
步骤S23:判断客户端本次请求时间是否大于上次超过访问频率的时间加上预设的防抓取状态时长。若大于则转入步骤S28,否则转入步骤S24。
步骤S24:CDN系统返回客户端验证码页面,供用户输入验证码。
步骤S25:判断客户端是否提交正确的验证码,若提交了正确的验证码则转入步骤S28,否则转入步骤S26。
步骤S26:判断客户端提交的非法验证码的次数是否超过阈值,若超过则进入步骤S27,否则返回步骤S24重新判断是否是抓取机器。
步骤S27:CDN系统认为客户端是抓取机器,禁止该客户端的抓取,返回表示服务器拒绝请求的403响应。
步骤S28:CDN系统认为客户端是正常访问,响应所请求的正确响应内容。
图3示出了本发明的基于内容分发网络的网站内容智能防抓取系统的较佳实施例的原理。请参见图3,本实施例的网站内容智能防抓取系统包括:客户端访问行为监测模块10、客户端访问频率判断模块11、客户端请求时间判断模块12、客户端验证模块13。
客户端访问行为监测模块10中,内容分发网络系统接收客户端请求,监测客户端访问行为。
客户端访问频率判断模块11中,判断客户端访问频率是否超过预设阈值,若客户端访问频率未超过预设阈值则认为客户端是正常网站用户,直接返回客户端所请求的内容,若客户端访问频率超过预设阈值则继续启动客户端请求时间判断模块12。
客户端请求时间判断模块12中,判断客户端本次请求时间是否大于上次超过访问频率的时间加上预设的防抓取状态时长,若客户端本次请求时间大于上次超过访问频率的时间加上预设的防抓取状态时长则返回客户端所请求的内容,若客户端本次请求时间小于上次超过访问频率的时间加上预设的防抓取状态时长则启动客户端验证模块13。
客户端验证模块13中,提供一客户端验证码页面,判断客户端是否提交了正确的验证码,若提交了正确的验证码则返回客户端所请求的内容,若未提交正确的验证码则判断客户提交的非法验证码的次数是否超过设定值,若未超过则返回客户端验证码页面以供客户端再次输入验证码,若超过则认为客户端是抓取机器,对其禁止访问,返回表示服务器拒绝请求的403响应。
上述实施例是提供给本领域普通技术人员来实现和使用本发明的,本领域普通技术人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书所提到的创新性特征的最大范围。

Claims (2)

1.一种基于内容分发网络的网站内容智能防抓取方法,包括:
内容分发网络系统接收客户端请求,监测客户端访问行为;
判断客户端访问频率是否超过预设阈值,若客户端访问频率未超过预设阈值则认为客户端是正常网站用户,直接返回客户端所请求的内容,流程结束;
若客户端访问频率超过预设阈值则继续判断客户端本次请求时间是否大于上次超过访问频率的时间加上预设的防抓取状态时长;
若客户端本次请求时间大于上次超过访问频率的时间加上预设的防抓取状态时长则认为客户端不在防抓取状态内,返回客户端所请求的内容,流程结束;
若客户端本次请求时间小于上次超过访问频率的时间加上预设的防抓取状态时长则认为客户端仍在防抓取状态内,返回客户端验证码页面;
判断客户端是否提交了正确的验证码,若提交了正确的验证码则返回客户端所请求的内容,流程结束;
若未提交正确的验证码则判断客户提交的非法验证码的次数是否超过设定值,若未超过则返回客户端验证码页面以供客户端再次输入验证码,若超过则认为客户端是抓取机器,对其禁止访问,返回表示服务器拒绝请求的403响应。
2.一种基于内容分发网络的网站内容智能防抓取系统,包括:
客户端访问行为监测模块,内容分发网络系统接收客户端请求,监测客户端访问行为;
客户端访问频率判断模块,判断客户端访问频率是否超过预设阈值,若客户端访问频率未超过预设阈值则认为客户端是正常网站用户,直接返回客户端所请求的内容,若客户端访问频率超过预设阈值则继续启动后一模块;
客户端请求时间判断模块,判断客户端本次请求时间是否大于上次超过访问频率的时间加上预设的防抓取状态时长,若客户端本次请求时间大于上次超过访问频率的时间加上预设的防抓取状态时长则返回客户端所请求的内容,若客户端本次请求时间小于上次超过访问频率的时间加上预设的防抓取状态时长则启动后一模块;
客户端验证模块,提供一客户端验证码页面,判断客户端是否提交了正确的验证码,若提交了正确的验证码则返回客户端所请求的内容,若未提交正确的验证码则判断客户提交的非法验证码的次数是否超过设定值,若未超过则返回客户端验证码页面以供客户端再次输入验证码,若超过则认为客户端是抓取机器,对其禁止访问,返回表示服务器拒绝请求的403响应。
CN201210480461.4A 2012-11-22 2012-11-22 基于内容分发网络的网站内容智能防抓取方法和系统 Active CN102970296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210480461.4A CN102970296B (zh) 2012-11-22 2012-11-22 基于内容分发网络的网站内容智能防抓取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210480461.4A CN102970296B (zh) 2012-11-22 2012-11-22 基于内容分发网络的网站内容智能防抓取方法和系统

Publications (2)

Publication Number Publication Date
CN102970296A CN102970296A (zh) 2013-03-13
CN102970296B true CN102970296B (zh) 2015-07-15

Family

ID=47800182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210480461.4A Active CN102970296B (zh) 2012-11-22 2012-11-22 基于内容分发网络的网站内容智能防抓取方法和系统

Country Status (1)

Country Link
CN (1) CN102970296B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104917716B (zh) * 2014-03-10 2020-06-16 腾讯科技(深圳)有限公司 一种页面安全管理方法和装置
CN104794199B (zh) * 2015-04-21 2018-11-09 百度在线网络技术(北京)有限公司 抓取网页数据的方法及系统
CN105550348A (zh) * 2015-12-25 2016-05-04 时趣互动(北京)科技有限公司 基于用户在线行为数据的作弊用户判定方法及装置
CN106330864B (zh) * 2016-08-11 2019-11-29 北京小米支付技术有限公司 验证信息的处理方法、装置及系统
US20180046940A1 (en) * 2016-08-15 2018-02-15 Google Inc. Optimized machine learning system
CN107862033A (zh) * 2017-11-03 2018-03-30 福建中金在线信息科技有限公司 一种用户行为分析方法和系统
CN109787937A (zh) * 2017-11-14 2019-05-21 龙芯中科技术有限公司 访问次数的计数方法、装置及服务器
CN107888604A (zh) * 2017-11-27 2018-04-06 山东浪潮云服务信息科技有限公司 一种互联网数据获取方法及获取装置
CN108600203B (zh) * 2018-04-11 2021-05-14 四川长虹电器股份有限公司 基于Cookie的安全单点登录方法及其统一认证服务系统
CN108874948B (zh) * 2018-06-05 2021-04-02 中国农业银行股份有限公司 一种网站资源访问方法及装置
CN112765101A (zh) * 2019-11-01 2021-05-07 伊姆西Ip控股有限责任公司 用于管理文件系统的方法、电子设备和计算机程序产品
CN111385313B (zh) * 2020-05-28 2020-09-11 支付宝(杭州)信息技术有限公司 一种对象请求合法性验证的方法和系统
CN114897176B (zh) * 2022-03-11 2023-11-07 内蒙古塞上明珠科技成果推广服务有限公司 一种基于人工智能的互联网大数据处理系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624677A (zh) * 2011-01-27 2012-08-01 阿里巴巴集团控股有限公司 一种网络用户行为监控方法及服务器
CN102752288A (zh) * 2012-06-06 2012-10-24 华为技术有限公司 网络访问行为识别方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624677A (zh) * 2011-01-27 2012-08-01 阿里巴巴集团控股有限公司 一种网络用户行为监控方法及服务器
CN102752288A (zh) * 2012-06-06 2012-10-24 华为技术有限公司 网络访问行为识别方法和装置

Also Published As

Publication number Publication date
CN102970296A (zh) 2013-03-13

Similar Documents

Publication Publication Date Title
CN102970296B (zh) 基于内容分发网络的网站内容智能防抓取方法和系统
US11122067B2 (en) Methods for detecting and mitigating malicious network behavior and devices thereof
CN102624677B (zh) 一种网络用户行为监控方法及服务器
CN109302388B (zh) 访问权限过滤方法、系统、计算机设备和存储介质
CN102771102B (zh) 分发数字内容的网络及管理方法
DE112010003454B4 (de) Bedrohungserkennung in einem Datenverarbeitungssystem
CN104184832B (zh) 网络应用中的数据提交方法及装置
CN104079557A (zh) 一种cc攻击的防护方法及装置
US20140173730A1 (en) Security Method and Apparatus
CN103916244A (zh) 验证方法及装置
CN102143226B (zh) 一种超时控制的方法、装置及系统
CN104980402A (zh) 一种识别恶意操作的方法及装置
CN105847277A (zh) 用于第三方应用的服务账号共享管理方法及系统
US20150326596A1 (en) Cloud based method and apparatus for monitoring internet usage
WO2014153959A1 (zh) 用于防止跨站点请求伪造的方法、相关装置及系统
CN102693384A (zh) 一种浏览器安全自调适方法及装置
CN103701796A (zh) 一种基于hash技术的防盗链系统和方法
CN102891861A (zh) 一种基于客户端的钓鱼网站检测方法及其装置
US11075922B2 (en) Decentralized method of tracking user login status
CN104902033B (zh) 登陆地址记录方法及装置
CN113259429B (zh) 会话保持管控方法、装置、计算机设备及介质
CN106341370B (zh) 一种防御跨站请求伪造攻击的方法及装置
CN110489957A (zh) 访问请求的管理方法和计算机存储介质
CN109981533B (zh) 一种DDoS攻击检测方法、装置、电子设备及存储介质
CN106209854A (zh) 一种基于状态机实现访问控制的云平台服务方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: 200030 Shanghai city Xuhui District Xietu Road No. 2899 Building 5 floor A Kuangchi Cultural Square

Patentee after: ChinaNetCenter Co., Ltd.

Address before: 200030 Shanghai Xuhui District Xietu Road No. 2669 15 Floor

Patentee before: ChinaNetCenter Co., Ltd.