CN107707574A - 一种基于访问行为的反爬虫方法 - Google Patents

一种基于访问行为的反爬虫方法 Download PDF

Info

Publication number
CN107707574A
CN107707574A CN201711184838.0A CN201711184838A CN107707574A CN 107707574 A CN107707574 A CN 107707574A CN 201711184838 A CN201711184838 A CN 201711184838A CN 107707574 A CN107707574 A CN 107707574A
Authority
CN
China
Prior art keywords
access
request
client
access request
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711184838.0A
Other languages
English (en)
Inventor
付强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201711184838.0A priority Critical patent/CN107707574A/zh
Publication of CN107707574A publication Critical patent/CN107707574A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及信息安全领域,公开了一种基于访问行为的反爬虫方法,解决现有反爬虫方法难以区分恶意请求的问题。本发明包括:网站设计阶段,使用MVC的模式,将静态资源、动态资源分离部署;通过分析的方式,得到一个正常请求在特定时间内静态资源、动态资源的数目比例T;当网站收到客户端的访问请求时,分析该访问请求在所述特定时间内要访问的资源数目是否符合数目比例T,如果不符合,则认为该访问请求为恶意请求,封禁此客户端的请求一段时间;如果符合,则认为该访问请求为正常请求,按正常请求处理。本发明适用于网站开发。

Description

一种基于访问行为的反爬虫方法
技术领域
本发明涉及信息安全领域,特别涉及一种基于访问行为的反爬虫方法。
背景技术
在互联网发展的今天,每个网站都有一些公开数据供正常用户浏览,但是不希望被恶意爬虫获取,例如,电商数据中商品的价格,供正常用户浏览,而不希望被竞争对手轻易获取。
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
在反爬虫领域常使用如下做法:方法一,通过对请求者的ip地址进行统计,当访问频率或者访问次数达到一定阈值的时候,封禁此ip的请求。方法二,通过反向扫描,查看客户端的端口开放情况,以决定是否封禁客户端ip。
以上方式都存在着较大的缺陷。由于现行的ipv4地址数量有限,很多用户都使用同一个外网ip,这样很容易达到上述方式一中的频率或阈值,造成误伤。方式二通过反向扫描以确定客户端是否正常,但是实际中存在着打开非常用端口的客户端,因此方式二也容易造成误伤。
发明内容
本发明要解决的技术问题是:提供一种基于访问行为的反爬虫方法,解决现有反爬虫方法难以区分恶意请求的问题。
为解决上述问题,本发明采用的技术方案是:一种基于访问行为的反爬虫方法,包括以下步骤:
A.网站设计阶段,使用MVC的模式,将静态资源、动态资源分离部署;
B.通过分析的方式,得到一个正常请求在特定时间内静态资源、动态资源的数目比例T;
C.当网站收到客户端的访问请求时,分析该访问请求在所述特定时间内要访问的资源数目是否符合数目比例T,如果不符合,则认为该访问请求为恶意请求,封禁此客户端的请求一段时间;如果符合,则认为该访问请求为正常请求,按正常请求处理。
进一步的,步骤A中所述的分析方式包括:人工分析和/或者日志分析和/或者流量分析。
进一步的,所述特定时间通过流量或日志的均值得到。
进一步的,步骤C封禁客户端的方式包括:首先对发送恶意请求的客户端添加标识,并记录其ip地址;然后拒绝被记录了ip且添加了标识的客户端的访问请求。
本发明的有益效果是:本发明在收到访问请求的时候,通过将其与正常访问模型相比较的方式,以较小的代价,降低了爬虫的重用性,提高了网站数据的安全性。
附图说明
图1为实施例的流程图。
具体实施方式
在网站开发中,一般都遵循MVC的开发模式,前端负责数据的展示。展示的页面可以分为静态资源和动态资源。在部署的时候,静态资源和动态资源分离部署。一个正常的完整请求模型,既包含对静态资源的访问,又包含对动态资源的访问。动态资源才是爬虫感兴趣的内容,以下实施例正是基于此,将不符合的正常请求模型的断定为恶意请求(爬虫)。
因此,实施例提供一种基于访问行为的反爬虫方法,如图1所示,包括步骤:
A.网站设计阶段,使用MVC的模式,将静态资源、动态资源分离部署;
B.通过人工分析和/或者日志分析和/或者流量分析的方式,得到一个正常请求在特定时间内静态资源、动态资源的数目比例T;其中,这里的特定时间可以通过流量或日志的均值得到;
C.当网站收到客户端的访问请求时,分析该访问请求在所述特定时间内要访问的资源数目是否符合数目比例T,如果不符合数目比例T,则认为该访问请求为恶意请求,封禁此客户端的请求一段时间;如果符合数目比例T,则认为该访问请求为正常请求,按正常请求处理。
在封禁客户端的时候,为避免误伤使用同一个外网ip其他用户,实施例可以采用“ip+客户端标识”的方式进行封禁,即:首先对发送恶意请求的客户端添加标识,并记录其ip地址;然后拒绝被记录了ip且添加了标识的客户端的访问请求。
以上描述了本发明的基本原理和主要的特征,说明书的描述只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (4)

1.一种基于访问行为的反爬虫方法,其特征在于,包括以下步骤:
A.网站设计阶段,使用MVC的模式,将静态资源、动态资源分离部署;
B.通过分析的方式,得到一个正常请求在特定时间内静态资源、动态资源的数目比例T;
C.当网站收到客户端的访问请求时,分析该访问请求在所述特定时间内要访问的资源数目是否符合数目比例T,如果不符合,则认为该访问请求为恶意请求,封禁此客户端的请求一段时间;如果符合,则认为该访问请求为正常请求,按正常请求处理。
2.如权利要求1所述的一种基于访问行为的反爬虫方法,其特征在于,步骤A中所述的分析方式包括:人工分析和/或者日志分析和/或者流量分析。
3.如权利要求1所述的一种基于访问行为的反爬虫方法,其特征在于,所述特定时间通过流量或日志的均值得到。
4.如权利要求3所述的一种基于访问行为的反爬虫方法,其特征在于,步骤C封禁客户端的方式包括:首先对发送恶意请求的客户端添加标识,并记录其ip地址;然后拒绝被记录了ip且添加了标识的客户端的访问请求。
CN201711184838.0A 2017-11-23 2017-11-23 一种基于访问行为的反爬虫方法 Pending CN107707574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711184838.0A CN107707574A (zh) 2017-11-23 2017-11-23 一种基于访问行为的反爬虫方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711184838.0A CN107707574A (zh) 2017-11-23 2017-11-23 一种基于访问行为的反爬虫方法

Publications (1)

Publication Number Publication Date
CN107707574A true CN107707574A (zh) 2018-02-16

Family

ID=61185408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711184838.0A Pending CN107707574A (zh) 2017-11-23 2017-11-23 一种基于访问行为的反爬虫方法

Country Status (1)

Country Link
CN (1) CN107707574A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108521428A (zh) * 2018-04-20 2018-09-11 武汉极意网络科技有限公司 一种基于jenkins的公网防爬虫的实现方法及系统
CN108900558A (zh) * 2018-09-21 2018-11-27 郑州昂视信息科技有限公司 一种访问请求处理方法及系统
CN109246141A (zh) * 2018-10-26 2019-01-18 电子科技大学 一种基于sdn的反过度爬虫方法
CN109561086A (zh) * 2018-11-28 2019-04-02 四川长虹电器股份有限公司 一种利用人类行为学进行反爬虫的方法
CN109657119A (zh) * 2018-11-23 2019-04-19 成都知道创宇信息技术有限公司 一种基于访问日志ip分析的网络爬虫检测方法
CN110569029A (zh) * 2019-09-18 2019-12-13 四川长虹电器股份有限公司 一种基于前后端分离开发的反爬虫方法
CN112383544A (zh) * 2020-11-13 2021-02-19 西安热工研究院有限公司 适用于电力scada的基于业务行为画像的反爬虫方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7987173B2 (en) * 2009-08-25 2011-07-26 Vizibility Inc. Systems and methods of handling internet spiders
CN102724059A (zh) * 2012-03-31 2012-10-10 常熟市支塘镇新盛技术咨询服务有限公司 基于MapReduce的网站运行状态监控与异常检测
CN105262720A (zh) * 2015-09-07 2016-01-20 深信服网络科技(深圳)有限公司 web机器人流量识别方法及装置
CN105930727A (zh) * 2016-04-25 2016-09-07 无锡中科富农物联科技有限公司 基于Web的爬虫识别算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7987173B2 (en) * 2009-08-25 2011-07-26 Vizibility Inc. Systems and methods of handling internet spiders
CN102724059A (zh) * 2012-03-31 2012-10-10 常熟市支塘镇新盛技术咨询服务有限公司 基于MapReduce的网站运行状态监控与异常检测
CN105262720A (zh) * 2015-09-07 2016-01-20 深信服网络科技(深圳)有限公司 web机器人流量识别方法及装置
CN105930727A (zh) * 2016-04-25 2016-09-07 无锡中科富农物联科技有限公司 基于Web的爬虫识别算法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108521428A (zh) * 2018-04-20 2018-09-11 武汉极意网络科技有限公司 一种基于jenkins的公网防爬虫的实现方法及系统
CN108521428B (zh) * 2018-04-20 2020-09-01 武汉极意网络科技有限公司 一种基于jenkins的公网防爬虫的实现方法及系统
CN108900558A (zh) * 2018-09-21 2018-11-27 郑州昂视信息科技有限公司 一种访问请求处理方法及系统
CN108900558B (zh) * 2018-09-21 2021-03-23 郑州昂视信息科技有限公司 一种访问请求处理方法及系统
CN109246141A (zh) * 2018-10-26 2019-01-18 电子科技大学 一种基于sdn的反过度爬虫方法
CN109246141B (zh) * 2018-10-26 2021-03-12 电子科技大学 一种基于sdn的反过度爬虫方法
CN109657119A (zh) * 2018-11-23 2019-04-19 成都知道创宇信息技术有限公司 一种基于访问日志ip分析的网络爬虫检测方法
CN109561086A (zh) * 2018-11-28 2019-04-02 四川长虹电器股份有限公司 一种利用人类行为学进行反爬虫的方法
CN110569029A (zh) * 2019-09-18 2019-12-13 四川长虹电器股份有限公司 一种基于前后端分离开发的反爬虫方法
CN112383544A (zh) * 2020-11-13 2021-02-19 西安热工研究院有限公司 适用于电力scada的基于业务行为画像的反爬虫方法

Similar Documents

Publication Publication Date Title
CN107707574A (zh) 一种基于访问行为的反爬虫方法
KR100848319B1 (ko) 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치
US20210064746A1 (en) Analysis apparatus, analysis method, and analysis program
CN104486140A (zh) 一种检测网页被劫持的装置及其检测方法
CN107908959A (zh) 网站信息检测方法、装置、电子设备及存储介质
CN108304410A (zh) 一种异常访问页面的检测方法、装置及数据分析方法
CN108667770A (zh) 一种网站的漏洞测试方法、服务器及系统
CN105302815B (zh) 网页的统一资源定位符url的过滤方法和装置
WO2017063274A1 (zh) 一种恶意跳转及恶意嵌套类不良网站的自动判定方法
CN107332804B (zh) 网页漏洞的检测方法及装置
CN105516390B (zh) 域名管理的方法和装置
CN107360155A (zh) 一种基于威胁情报和沙箱技术的网络攻击自动溯源方法和系统
CN109831429A (zh) 一种Webshell检测方法及装置
CN103927356A (zh) 广告拦截方法及装置
CN107330326A (zh) 一种恶意木马检测处理方法及装置
CN113645253A (zh) 一种攻击信息获取方法、装置、设备及存储介质
CN107896173A (zh) 自动化测试方法、测试设备、自动化测试系统及存储介质
CN107766234A (zh) 一种基于移动设备的网页健康度的测评方法、装置及系统
CN111723083B (zh) 用户身份识别方法、装置、电子设备及存储介质
CN104836779B (zh) XSS漏洞检测方法、系统和Web服务器
CN106713242A (zh) 数据请求的处理方法及处理装置
CN105939328A (zh) 网络攻击特征库的更新方法及装置
CN107862016B (zh) 一种专题页面的配置方法
US10152465B2 (en) Security-focused web application crawling
CN107454083A (zh) 反爬虫的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180216

RJ01 Rejection of invention patent application after publication