CN109246141B - 一种基于sdn的反过度爬虫方法 - Google Patents

一种基于sdn的反过度爬虫方法 Download PDF

Info

Publication number
CN109246141B
CN109246141B CN201811256021.4A CN201811256021A CN109246141B CN 109246141 B CN109246141 B CN 109246141B CN 201811256021 A CN201811256021 A CN 201811256021A CN 109246141 B CN109246141 B CN 109246141B
Authority
CN
China
Prior art keywords
sdn
crawler
sensitive data
blacklist
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811256021.4A
Other languages
English (en)
Other versions
CN109246141A (zh
Inventor
杨挺
董冰
汪文勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201811256021.4A priority Critical patent/CN109246141B/zh
Publication of CN109246141A publication Critical patent/CN109246141A/zh
Application granted granted Critical
Publication of CN109246141B publication Critical patent/CN109246141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于SDN的反过度爬虫方法,属于信息安全领域,其特征在于,包括以下步骤:a、搭建反爬虫SDN环境;b、部署敏感数据区;通过编写API使SDN控制器会抓取每一个新加入的服务器公开的robots.txt文件,获取制定的爬虫访问规则,并对相同User_Agent规则进行整合,将整合好的的Disallow的页面目录定义为敏感数据区,并把这些信息部署在SDN控制器上;c、黑名单等级限制。本发明通过在数据中心部署特定的SDN网络,针对数据中心的敏感数据区域和具体服务需求,对爬虫进行态势感知,根据服务需求,对非法爬虫采用针对性的防御手段,从而能够有效保障数据中心敏感数据的安全性。

Description

一种基于SDN的反过度爬虫方法
技术领域
本发明涉及到信息安全技术领域,尤其涉及一种基于SDN的反过度爬虫方法。
背景技术
SDN最早起源于斯坦福大学的一个叫做clean slate的校园项目。它是一种创新型的网络体系架构,其核心思想是把转发平面和控制平面进行分离。通过集中式的控制器controller使用标准的接口来对各种不同的网络设备进行配置和管理,使得对网络的管理更加集中化、精细化。OpenFlow作为SDN的原型实现模式,充分体现了SDN的这种管控分离思想。因此通常人们把OpenFlow作为SDN的通信标准,就像TCP/IP协议作为互联网的通信标准一样。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
公开号为CN 106657057A,公开日为2017年05月10日的中国专利文献公开了一种反爬虫系统,其特征在于,包括:分析模块,其判断访问行为是否正常;获取模块,其获取经所述分析模块判断为不正常访问行为的访问日志;学习模块,其具有可更新的黑名单规则库,所述学习模块根据不正常访问行为的访问日志提取出新的黑名单规则,以更新所述黑名单规则库;过滤模块,其禁止所述黑名单规则库所囊括的访问行为。
公开号为CN 107707574A,公开日为2018年2月16日的中国专利文献公开了一种基于访问行为的反爬虫方法,其特征在于,包括以下步骤:A、网站设计阶段,使用MVC的模式,将静态资源、动态资源分离部署;B、通过分析的方式,得到一个正常请求在特定时间内静态资源、动态资源的数目比例T;C、当网站收到客户端的访问请求时,分析该访问请求在所述特定时间内要访问的资源数目是否符合数目比例T,如果不符合,则认为该访问请求为恶意请求,封禁此客户端的请求一段时间;如果符合,则认为该访问请求为正常请求,按正常请求处理。
以上述专利文献为代表的现有技术,均存在如下缺陷:
不能有效的针对数据中心的敏感数据区域和具体服务需求对爬虫进行态势感知,对非法爬虫没有针对性的防御手段,数据中心敏感数据的安全性得不到保障。
发明内容
本发明为了克服上述现有技术的缺陷,提供一种基于SDN的反过度爬虫方法,本发明通过在数据中心部署特定的SDN网络,针对数据中心的敏感数据区域和具体服务需求,对爬虫进行态势感知,根据服务需求,对非法爬虫采用针对性的防御手段,从而能够有效保障数据中心敏感数据的安全性。
本发明通过下述技术方案实现:
一种基于SDN的反过度爬虫方法,其特征在于,包括以下步骤:
a、搭建反爬虫SDN环境
在数据中心搭建反爬虫SDN环境;
b、在SDN控制器上部署敏感数据区
通过编写API使SDN控制器会抓取每一个新加入的服务器公开的robots.txt文件,获取制定的爬虫访问规则,并对其中关于相同User_Agent的规则进行整合,将整合好的的Disallow的页面目录定义为敏感数据区,并把这些信息部署在SDN控制器上;
c、黑名单等级限制
通过SDN监测器对所有请求访问网络的爬虫程序进行监测,若IP在黑名单内,则对此次访问操作出限制;若未请求访问任何敏感数据区,则定义为安全的爬虫;若有爬虫程序试图访问SDN控制器中规定的敏感数据区,SDN防御模块则对其进行标记并监控,且阻止其访问敏感数据区的操作;若多次请求访问SDN控制器中规定的敏感数据区,则对其解除监控,仅针对访问敏感数据区的操作进行阻止;若后续仍多次请求访问敏感数据区或采用不同IP分别请求访问SDN控制器中规定的敏感数据区,则作出不同等级限制。
还包括自动生成爬虫访问规则步骤,自动生成爬虫访问规则是指当有新加入网络的服务器需要生成一个robots.txt文件时,该服务器的管理员向SDN控制器发送请求,SDN控制器通过编写的API去遍历该服务器的目录,再根据现有的其他服务器的规则自动生成一个适合该服务器的规则。
所述步骤a中,反爬虫SDN环境包括SDN控制器、SDN监测器、SDN防御模块、黑名单模块和SDN交换机;SDN控制器,用于检测访问敏感区域网络爬虫;SDN监测器,用于监测访问敏感区域网络爬虫;SDN防御模块,用于针对访问敏感区域网络爬虫;黑名单模块,用于识别访问敏感区域网络爬虫安全性;黑名单模块内储存有需要被限制操作的IP序列的哈希特征值,SDN防御模块根据请求访问的IP的哈希特征决定是否对访问做出限制操作。
所述步骤c中,不同等级限制包括一级黑名单、二级黑名单和三级黑名单,一级黑名单是指收到危险请求次数达到一级阈值,则将其IP列入一级黑名单,若SDN防御模块仍收到危险请求,则反馈一个验证码,禁止爬虫程序访问,预警等级低;二级黑名单是指收到危险请求次数达到二级阈值,则将其IP列入二级黑名单,SDN防御模块反馈一个验证码,禁止爬虫程序访问,预警等级中;三级黑名单是指收到危险请求次数达到三级阈值,则将其IP列入三级黑名单,拒绝该IP的一切访问请求,禁止爬虫程序访问,预警等级高。
本发明所述API为应用程序接口;SDN为软件定义网络;robots.txt文件为爬虫协议文本文件;User_Agent为用户代理;Disallow为禁止搜索引擎抓取。
本发明的有益效果主要表现在以下方面:
1、本发明,通过“a、搭建反爬虫SDN环境;b、在SDN控制器上部署敏感数据区;c、黑名单等级限制”,能够将所有服务器的数据集中在数据中心,利用SDN对其进行统一管理,能够感知爬虫对敏感数据区数据进行爬取的行为,并且可以通过拦截特定IP报文段进行防御。数据中心会被各种爬虫程序来爬取数据,部分数据是公开可供爬取的,也有部分敏感数据区是不允许爬虫程序任意爬取的。通过利用SDN对其进行统一管理,能够对敏感数据区进行一个态势感知,在服务器端,有一个声明文件robots.txt会对各种类型的爬虫能访问的数据范围进行声明,配置SDN网络,SDN控制器通过各个服务器给出的robots.txt文件来确定数据中心中的常规页面和敏感页面位置。若检测到同一IP大量访问受保护的敏感数据区或者有多个IP交替访问不同的敏感数据区,则网络会对其进行一个态势感知,并反馈有疑似爬虫正在爬取受保护的敏感区数据,此时SDN防御模块会将这些IP地址根据严重程度列入黑名单的不同等级,并根据不同等级设置规则对这些IP发出的报文进行拦截和限制访问,保护敏感区数据。当有新的服务器A加入SDN网络但是不清楚自己该如何制定robots.txt文档去保护自己的敏感区域数据时,SDN控制器会通过编写的API去遍历该服务器A的目录,然后根据现有的其他服务器的规则自动生成一个适合该服务器的规则。作为一个完整的技术方案,较现有技术而言,通过在数据中心部署特定的SDN网络,能够针对数据中心的敏感数据区域和具体服务需求对爬虫进行态势感知,根据服务需求,对非法爬虫采用针对性的防御手段,从而能够有效保障数据中心敏感数据的安全性。
2、本发明,还包括自动生成爬虫访问规则步骤,自动生成爬虫访问规则是指当有新加入网络的服务器需要生成一个robots.txt文件时,该服务器的管理员向SDN控制器发送请求,SDN控制器通过编写的API去遍历该服务器的目录,再根据现有的其他服务器的规则自动生成一个适合该服务器的规则,增加了一个自动生成robots.txt规则的功能,便于让那些对robots.txt文件不熟悉的服务器管理员同样能够使用robots.txt文件,进而对敏感数据区进行保护。
3、本发明,步骤a中,反爬虫SDN环境包括SDN控制器、SDN监测器、SDN防御模块、黑名单模块和SDN交换机;SDN控制器,用于检测访问敏感区域网络爬虫;SDN监测器,用于监测访问敏感区域网络爬虫;SDN防御模块,用于针对访问敏感区域网络爬虫;黑名单模块,用于识别访问敏感区域网络爬虫安全性;黑名单模块内储存有需要被限制操作的IP序列的哈希特征值,SDN防御模块根据请求访问的IP的哈希特征决定是否对访问做出限制操作,采用这种特定的SDN环境,能够将所有服务器的数据集中在数据中心,利用SDN对其进行统一管理,并对非法爬虫进行监测和防御,避免了各个服务器各自为政的情况,提高了监测、防御和管理的规范性。
4、本发明,步骤c中,不同等级限制包括一级黑名单、二级黑名单和三级黑名单,一级黑名单是指收到危险请求次数达到一级阈值,则将其IP列入一级黑名单,若SDN防御模块仍收到危险请求,则反馈一个验证码,禁止爬虫程序访问,预警等级低;二级黑名单是指收到危险请求次数达到二级阈值,则将其IP列入二级黑名单,SDN防御模块反馈一个验证码,禁止爬虫程序访问,预警等级中;三级黑名单是指收到危险请求次数达到三级阈值,则将其IP列入三级黑名单,拒绝该IP的一切访问请求,禁止爬虫程序访问,预警等级高,现阶段robots.txt文件并没有得到足够的重视,网站敏感数据区还是经常会被非法访问,通过划分黑名单等级,进行黑名单的不同等级限制,能够缩短反爬响应时间,提高反爬速度和反爬准确度,加强对敏感数据区的保护。
附图说明
下面将结合说明书附图和具体实施方式对本发明作进一步的具体说明:
图1为本发明反过度爬虫的架构示意图;
图2为本发明反过度爬虫的流程示意图。
具体实施方式
实施例1
一种基于SDN的反过度爬虫方法,包括以下步骤:
a、搭建反爬虫SDN环境
在数据中心搭建反爬虫SDN环境;
b、在SDN控制器上部署敏感数据区
通过编写API使SDN控制器会抓取每一个新加入的服务器公开的robots.txt文件,获取制定的爬虫访问规则,并对其中关于相同User_Agent的规则进行整合,将整合好的的Disallow的页面目录定义为敏感数据区,并把这些信息部署在SDN控制器上;
c、黑名单等级限制
通过SDN监测器对所有请求访问网络的爬虫程序进行监测,若IP在黑名单内,则对此次访问操作出限制;若未请求访问任何敏感数据区,则定义为安全的爬虫;若有爬虫程序试图访问SDN控制器中规定的敏感数据区,SDN防御模块则对其进行标记并监控,且阻止其访问敏感数据区的操作;若多次请求访问SDN控制器中规定的敏感数据区,则对其解除监控,仅针对访问敏感数据区的操作进行阻止;若后续仍多次请求访问敏感数据区或采用不同IP分别请求访问SDN控制器中规定的敏感数据区,则作出不同等级限制。
通过“a、搭建反爬虫SDN环境;b、在SDN控制器上部署敏感数据区;c、黑名单等级限制”,能够将所有服务器的数据集中在数据中心,利用SDN对其进行统一管理,能够感知爬虫对敏感数据区数据进行爬取的行为,并且可以通过拦截特定IP报文段进行防御。数据中心会被各种爬虫程序来爬取数据,部分数据是公开可供爬取的,也有部分敏感数据区是不允许爬虫程序任意爬取的。通过利用SDN对其进行统一管理,能够对敏感数据区进行一个态势感知,在服务器端,有一个声明文件robots.txt会对各种类型的爬虫能访问的数据范围进行声明,配置SDN网络,SDN控制器通过各个服务器给出的robots.txt文件来确定数据中心中的常规页面和敏感页面位置。若检测到同一IP大量访问受保护的敏感数据区或者有多个IP交替访问不同的敏感数据区,则网络会对其进行一个态势感知,并反馈有疑似爬虫正在爬取受保护的敏感区数据,此时SDN防御模块会将这些IP地址根据严重程度列入黑名单的不同等级,并根据不同等级设置规则对这些IP发出的报文进行拦截和限制访问,保护敏感区数据。当有新的服务器A加入SDN网络但是不清楚自己该如何制定robots.txt文档去保护自己的敏感区域数据时,SDN控制器会通过编写的API去遍历该服务器A的目录,然后根据现有的其他服务器的规则自动生成一个适合该服务器的规则。作为一个完整的技术方案,较现有技术而言,通过在数据中心部署特定的SDN网络,能够针对数据中心的敏感数据区域和具体服务需求对爬虫进行态势感知,根据服务需求,对非法爬虫采用针对性的防御手段,从而能够有效保障数据中心敏感数据的安全性。
实施例2
一种基于SDN的反过度爬虫方法,包括以下步骤:
a、搭建反爬虫SDN环境
在数据中心搭建反爬虫SDN环境;
b、在SDN控制器上部署敏感数据区
通过编写API使SDN控制器会抓取每一个新加入的服务器公开的robots.txt文件,获取制定的爬虫访问规则,并对其中关于相同User_Agent的规则进行整合,将整合好的的Disallow的页面目录定义为敏感数据区,并把这些信息部署在SDN控制器上;
c、黑名单等级限制
通过SDN监测器对所有请求访问网络的爬虫程序进行监测,若IP在黑名单内,则对此次访问操作出限制;若未请求访问任何敏感数据区,则定义为安全的爬虫;若有爬虫程序试图访问SDN控制器中规定的敏感数据区,SDN防御模块则对其进行标记并监控,且阻止其访问敏感数据区的操作;若多次请求访问SDN控制器中规定的敏感数据区,则对其解除监控,仅针对访问敏感数据区的操作进行阻止;若后续仍多次请求访问敏感数据区或采用不同IP分别请求访问SDN控制器中规定的敏感数据区,则作出不同等级限制。
进一步,还包括自动生成爬虫访问规则步骤,自动生成爬虫访问规则是指当有新加入网络的服务器需要生成一个robots.txt文件时,该服务器的管理员向SDN控制器发送请求,SDN控制器通过编写的API去遍历该服务器的目录,再根据现有的其他服务器的规则自动生成一个适合该服务器的规则。
还包括自动生成爬虫访问规则步骤,自动生成爬虫访问规则是指当有新加入网络的服务器需要生成一个robots.txt文件时,该服务器的管理员向SDN控制器发送请求,SDN控制器通过编写的API去遍历该服务器的目录,再根据现有的其他服务器的规则自动生成一个适合该服务器的规则,增加了一个自动生成robots.txt规则的功能,便于让那些对robots.txt文件不熟悉的服务器管理员同样能够使用robots.txt文件,进而对敏感数据区进行保护。
实施例3
一种基于SDN的反过度爬虫方法,包括以下步骤:
a、搭建反爬虫SDN环境
在数据中心搭建反爬虫SDN环境;
b、在SDN控制器上部署敏感数据区
通过编写API使SDN控制器会抓取每一个新加入的服务器公开的robots.txt文件,获取制定的爬虫访问规则,并对其中关于相同User_Agent的规则进行整合,将整合好的的Disallow的页面目录定义为敏感数据区,并把这些信息部署在SDN控制器上;
c、黑名单等级限制
通过SDN监测器对所有请求访问网络的爬虫程序进行监测,若IP在黑名单内,则对此次访问操作出限制;若未请求访问任何敏感数据区,则定义为安全的爬虫;若有爬虫程序试图访问SDN控制器中规定的敏感数据区,SDN防御模块则对其进行标记并监控,且阻止其访问敏感数据区的操作;若多次请求访问SDN控制器中规定的敏感数据区,则对其解除监控,仅针对访问敏感数据区的操作进行阻止;若后续仍多次请求访问敏感数据区或采用不同IP分别请求访问SDN控制器中规定的敏感数据区,则作出不同等级限制。
还包括自动生成爬虫访问规则步骤,自动生成爬虫访问规则是指当有新加入网络的服务器需要生成一个robots.txt文件时,该服务器的管理员向SDN控制器发送请求,SDN控制器通过编写的API去遍历该服务器的目录,再根据现有的其他服务器的规则自动生成一个适合该服务器的规则。
所述步骤a中,反爬虫SDN环境包括SDN控制器、SDN监测器、SDN防御模块、黑名单模块和SDN交换机;SDN控制器,用于检测访问敏感区域网络爬虫;SDN监测器,用于监测访问敏感区域网络爬虫;SDN防御模块,用于针对访问敏感区域网络爬虫;黑名单模块,用于识别访问敏感区域网络爬虫安全性;黑名单模块内储存有需要被限制操作的IP序列的哈希特征值,SDN防御模块根据请求访问的IP的哈希特征决定是否对访问做出限制操作。
步骤a中,反爬虫SDN环境包括SDN控制器、SDN监测器、SDN防御模块、黑名单模块和SDN交换机;SDN控制器,用于检测访问敏感区域网络爬虫;SDN监测器,用于监测访问敏感区域网络爬虫;SDN防御模块,用于针对访问敏感区域网络爬虫;黑名单模块,用于识别访问敏感区域网络爬虫安全性;黑名单模块内储存有需要被限制操作的IP序列的哈希特征值,SDN防御模块根据请求访问的IP的哈希特征决定是否对访问做出限制操作,采用这种特定的SDN环境,能够将所有服务器的数据集中在数据中心,利用SDN对其进行统一管理,并对非法爬虫进行监测和防御,避免了各个服务器各自为政的情况,提高了监测、防御和管理的规范性。
实施例4
一种基于SDN的反过度爬虫方法,包括以下步骤:
a、搭建反爬虫SDN环境
在数据中心搭建反爬虫SDN环境;
b、在SDN控制器上部署敏感数据区
通过编写API使SDN控制器会抓取每一个新加入的服务器公开的robots.txt文件,获取制定的爬虫访问规则,并对其中关于相同User_Agent的规则进行整合,将整合好的的Disallow的页面目录定义为敏感数据区,并把这些信息部署在SDN控制器上;
c、黑名单等级限制
通过SDN监测器对所有请求访问网络的爬虫程序进行监测,若IP在黑名单内,则对此次访问操作出限制;若未请求访问任何敏感数据区,则定义为安全的爬虫;若有爬虫程序试图访问SDN控制器中规定的敏感数据区,SDN防御模块则对其进行标记并监控,且阻止其访问敏感数据区的操作;若多次请求访问SDN控制器中规定的敏感数据区,则对其解除监控,仅针对访问敏感数据区的操作进行阻止;若后续仍多次请求访问敏感数据区或采用不同IP分别请求访问SDN控制器中规定的敏感数据区,则作出不同等级限制。
还包括自动生成爬虫访问规则步骤,自动生成爬虫访问规则是指当有新加入网络的服务器需要生成一个robots.txt文件时,该服务器的管理员向SDN控制器发送请求,SDN控制器通过编写的API去遍历该服务器的目录,再根据现有的其他服务器的规则自动生成一个适合该服务器的规则。
所述步骤a中,反爬虫SDN环境包括SDN控制器、SDN监测器、SDN防御模块、黑名单模块和SDN交换机;SDN控制器,用于检测访问敏感区域网络爬虫;SDN监测器,用于监测访问敏感区域网络爬虫;SDN防御模块,用于针对访问敏感区域网络爬虫;黑名单模块,用于识别访问敏感区域网络爬虫安全性;黑名单模块内储存有需要被限制操作的IP序列的哈希特征值,SDN防御模块根据请求访问的IP的哈希特征决定是否对访问做出限制操作。
所述步骤c中,不同等级限制包括一级黑名单、二级黑名单和三级黑名单,一级黑名单是指收到危险请求次数达到一级阈值,则将其IP列入一级黑名单,若SDN防御模块仍收到危险请求,则反馈一个验证码,禁止爬虫程序访问,预警等级低;二级黑名单是指收到危险请求次数达到二级阈值,则将其IP列入二级黑名单,SDN防御模块反馈一个验证码,禁止爬虫程序访问,预警等级中;三级黑名单是指收到危险请求次数达到三级阈值,则将其IP列入三级黑名单,拒绝该IP的一切访问请求,禁止爬虫程序访问,预警等级高。
本发明所述API为应用程序接口;SDN为软件定义网络;robots.txt文件为爬虫协议文本文件;User_Agent为用户代理;Disallow为禁止搜索引擎抓取。
通过“a、搭建反爬虫SDN环境;b、在SDN控制器上部署敏感数据区;c、黑名单等级限制”,能够将所有服务器的数据集中在数据中心,利用SDN对其进行统一管理,能够感知爬虫对敏感数据区数据进行爬取的行为,并且可以通过拦截特定IP报文段进行防御。数据中心会被各种爬虫程序来爬取数据,部分数据是公开可供爬取的,也有部分敏感数据区是不允许爬虫程序任意爬取的。通过利用SDN对其进行统一管理,能够对敏感数据区进行一个态势感知,在服务器端,有一个声明文件robots.txt会对各种类型的爬虫能访问的数据范围进行声明,配置SDN网络,SDN控制器通过各个服务器给出的robots.txt文件来确定数据中心中的常规页面和敏感页面位置。若检测到同一IP大量访问受保护的敏感数据区或者有多个IP交替访问不同的敏感数据区,则网络会对其进行一个态势感知,并反馈有疑似爬虫正在爬取受保护的敏感区数据,此时SDN防御模块会将这些IP地址根据严重程度列入黑名单的不同等级,并根据不同等级设置规则对这些IP发出的报文进行拦截和限制访问,保护敏感区数据。当有新的服务器A加入SDN网络但是不清楚自己该如何制定robots.txt文档去保护自己的敏感区域数据时,SDN控制器会通过编写的API去遍历该服务器A的目录,然后根据现有的其他服务器的规则自动生成一个适合该服务器的规则。作为一个完整的技术方案,较现有技术而言,通过在数据中心部署特定的SDN网络,能够针对数据中心的敏感数据区域和具体服务需求对爬虫进行态势感知,根据服务需求,对非法爬虫采用针对性的防御手段,从而能够有效保障数据中心敏感数据的安全性。
步骤c中,不同等级限制包括一级黑名单、二级黑名单和三级黑名单,一级黑名单是指收到危险请求次数达到一级阈值,则将其IP列入一级黑名单,若SDN防御模块仍收到危险请求,则反馈一个验证码,禁止爬虫程序访问,预警等级低;二级黑名单是指收到危险请求次数达到二级阈值,则将其IP列入二级黑名单,SDN防御模块反馈一个验证码,禁止爬虫程序访问,预警等级中;三级黑名单是指收到危险请求次数达到三级阈值,则将其IP列入三级黑名单,拒绝该IP的一切访问请求,禁止爬虫程序访问,预警等级高,现阶段robots.txt文件并没有得到足够的重视,网站敏感数据区还是经常会被非法访问,通过划分黑名单等级,进行黑名单的不同等级限制,能够缩短反爬响应时间,提高反爬速度和反爬准确度,加强对敏感数据区的保护。

Claims (3)

1.一种基于SDN的反过度爬虫方法,其特征在于,包括以下步骤:
a、搭建反爬虫SDN环境
在数据中心搭建反爬虫SDN环境;
b、在SDN控制器上部署敏感数据区
通过编写API使SDN控制器会抓取每一个新加入的服务器公开的robots.txt文件,获取制定的爬虫访问规则,并对其中关于相同User_Agent的规则进行整合,将整合好的的Disallow的页面目录定义为敏感数据区,并把这些信息部署在SDN控制器上;
c、黑名单等级限制
通过SDN监测器对所有请求访问网络的爬虫程序进行监测,若IP在黑名单内,则对此次访问操作出限制;若未请求访问任何敏感数据区,则定义为安全的爬虫;若有爬虫程序试图访问SDN控制器中规定的敏感数据区,SDN防御模块则对其进行标记并监控,且阻止其访问敏感数据区的操作;若多次请求访问SDN控制器中规定的敏感数据区,则对其解除监控,仅针对访问敏感数据区的操作进行阻止;若后续仍多次请求访问敏感数据区或采用不同IP分别请求访问SDN控制器中规定的敏感数据区,则作出不同等级限制;
所述步骤a中,反爬虫SDN环境包括SDN控制器、SDN监测器、SDN防御模块、黑名单模块和SDN交换机;SDN控制器,用于检测访问敏感区域网络爬虫;SDN监测器,用于监测访问敏感区域网络爬虫;SDN防御模块,用于针对访问敏感区域网络爬虫;黑名单模块,用于识别访问敏感区域网络爬虫安全性;黑名单模块内储存有需要被限制操作的IP序列的哈希特征值,SDN防御模块根据请求访问的IP的哈希特征决定是否对访问做出限制操作。
2.根据权利要求1所述的一种基于SDN的反过度爬虫方法,其特征在于:还包括自动生成爬虫访问规则步骤,自动生成爬虫访问规则是指当有新加入网络的服务器需要生成一个robot s.txt文件时,该服务器的管理员向SDN控制器发送请求,SDN控制器通过编写的API去遍历该服务器的目录,再根据现有的其他服务器的规则自动生成一个适合该服务器的规则。
3.根据权利要求1所述的一种基于SDN的反过度爬虫方法,其特征在于:所述步骤c中,不同等级限制包括一级黑名单、二级黑名单和三级黑名单,一级黑名单是指收到危险请求次数达到一级阈值,则将其IP列入一级黑名单,若SDN防御模块仍收到危险请求,则反馈一个验证码,禁止爬虫程序访问,预警等级低;二级黑名单是指收到危险请求次数达到二级阈值,则将其IP列入二级黑名单,SDN防御模块反馈一个验证码,禁止爬虫程序访问,预警等级中;三级黑名单是指收到危险请求次数达到三级阈值,则将其IP列入三级黑名单,拒绝该IP的一切访问请求,禁止爬虫程序访问,预警等级高。
CN201811256021.4A 2018-10-26 2018-10-26 一种基于sdn的反过度爬虫方法 Active CN109246141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811256021.4A CN109246141B (zh) 2018-10-26 2018-10-26 一种基于sdn的反过度爬虫方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811256021.4A CN109246141B (zh) 2018-10-26 2018-10-26 一种基于sdn的反过度爬虫方法

Publications (2)

Publication Number Publication Date
CN109246141A CN109246141A (zh) 2019-01-18
CN109246141B true CN109246141B (zh) 2021-03-12

Family

ID=65082238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811256021.4A Active CN109246141B (zh) 2018-10-26 2018-10-26 一种基于sdn的反过度爬虫方法

Country Status (1)

Country Link
CN (1) CN109246141B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110855651B (zh) * 2019-11-05 2021-12-24 中盈优创资讯科技有限公司 一种基于流量驱动的访问控制策略的自动生成方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978337A (zh) * 2014-04-08 2015-10-14 张军 一种基于软件定义网络的分布式视频搜索引擎框架
CN105279272A (zh) * 2015-10-30 2016-01-27 南京未来网络产业创新有限公司 一种基于分布式网络爬虫的内容聚合方法
CN106657057A (zh) * 2016-12-20 2017-05-10 北京金堤科技有限公司 反爬虫系统及方法
CN107483563A (zh) * 2017-07-31 2017-12-15 九次方大数据信息集团有限公司 防爬虫的数据查询方法和装置以及客户端和服务器
CN107707574A (zh) * 2017-11-23 2018-02-16 四川长虹电器股份有限公司 一种基于访问行为的反爬虫方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150046425A1 (en) * 2013-08-06 2015-02-12 Hsiu-Ping Lin Methods and systems for searching software applications

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978337A (zh) * 2014-04-08 2015-10-14 张军 一种基于软件定义网络的分布式视频搜索引擎框架
CN105279272A (zh) * 2015-10-30 2016-01-27 南京未来网络产业创新有限公司 一种基于分布式网络爬虫的内容聚合方法
CN106657057A (zh) * 2016-12-20 2017-05-10 北京金堤科技有限公司 反爬虫系统及方法
CN107483563A (zh) * 2017-07-31 2017-12-15 九次方大数据信息集团有限公司 防爬虫的数据查询方法和装置以及客户端和服务器
CN107707574A (zh) * 2017-11-23 2018-02-16 四川长虹电器股份有限公司 一种基于访问行为的反爬虫方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"大数据反爬虫技术分析";张岩;《信息系统工程》;20170820;全文 *

Also Published As

Publication number Publication date
CN109246141A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
US11057427B2 (en) Method for identifying phishing websites and hindering associated activity
CN108259449B (zh) 一种防御apt攻击的方法和系统
US9781133B2 (en) Automatic stability determination and deployment of discrete parts of a profile representing normal behavior to provide fast protection of web applications
KR101010302B1 (ko) Irc 및 http 봇넷 보안 관제를 위한 관리 시스템 및 그 방법
CN103379099A (zh) 恶意攻击识别方法及系统
CN105915532A (zh) 一种失陷主机的识别方法及装置
CN107896219B (zh) 一种网站脆弱性的检测方法、系统及相关装置
EP3987728B1 (en) Dynamically controlling access to linked content in electronic communications
US9124617B2 (en) Social network protection system
CN101901232A (zh) 用于处理网页数据的方法和装置
CN105704120B (zh) 一种基于自学习形式的安全访问网络的方法
CN103701793A (zh) 服务器肉鸡的识别方法和装置
US20230179631A1 (en) System and method for detection of malicious interactions in a computer network
Fraunholz et al. Defending web servers with feints, distraction and obfuscation
CN104113525A (zh) 一种防御资源消耗型Web攻击方法及装置
Rodríguez et al. Cookie scout: An analytic model for prevention of cross-site scripting (xss) using a cookie classifier
CN108040036A (zh) 一种行业云Webshell安全防护方法
CN109246141B (zh) 一种基于sdn的反过度爬虫方法
US10897472B1 (en) IT computer network threat analysis, detection and containment
WO2007096659A1 (en) Phishing mitigation
US10757118B2 (en) Method of aiding the detection of infection of a terminal by malware
KR101754195B1 (ko) 복수의 로그 수집 서버를 기반으로 한 보안 강화 방법
CN111245788A (zh) 基于URL自学习的Web防护方法
CN111756707A (zh) 一种应用于全球广域网的后门安全防护装置和方法
US11632393B2 (en) Detecting and mitigating malware by evaluating HTTP errors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant