CN110708309A - 反爬虫系统及方法 - Google Patents

反爬虫系统及方法 Download PDF

Info

Publication number
CN110708309A
CN110708309A CN201910938012.1A CN201910938012A CN110708309A CN 110708309 A CN110708309 A CN 110708309A CN 201910938012 A CN201910938012 A CN 201910938012A CN 110708309 A CN110708309 A CN 110708309A
Authority
CN
China
Prior art keywords
load balancing
crawler
balancing node
server
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910938012.1A
Other languages
English (en)
Inventor
毛琴
谢强
陈晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Summit Network Technology Co Ltd
Original Assignee
Wuhan Summit Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Summit Network Technology Co Ltd filed Critical Wuhan Summit Network Technology Co Ltd
Priority to CN201910938012.1A priority Critical patent/CN110708309A/zh
Publication of CN110708309A publication Critical patent/CN110708309A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种反爬虫系统及方法。该系统包括:域名解析服务器,用于从接收到的流量请求中提取目标服务器对应的域名,根据预存的IP地址映射表,确定域名对应的目标服务器的IP地址和反爬虫服务器集群的虚拟IP地址,并通过IP地址将流量请求发送至目标服务器,通过虚拟IP地址将流量请求发送至反爬虫服务器集群;反爬虫服务器集群,用于根据预设的流量请求分析标准对流量请求进行分析,并将分析结果发送至目标服务器;目标服务器,用于在接收到反爬虫服务器集群发送的分析结果之后,根据分析结果对流量请求进行处理。通过该方式,有效阻止了基于爬虫技术非法爬取未授权平台数据的现象,大大降低了爬虫风险对未授权平台的业务影响。

Description

反爬虫系统及方法
技术领域
本发明涉及信息处理技术领域,尤其涉及一种反爬虫系统及方法。
背景技术
在当今大数据时代,数据已经成为企业的核心资产之一。随着各类企业对网络数据采集的需求不断增长,爬虫行业在快速增长,基于爬虫技术非法爬取未授权平台数据的现象越来越常见,大量的爬虫行为不仅会影响正常用户的访问,还会给企业带来极大的威胁。
因此,提供一种反爬虫系统及方法显得尤为重要。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种反爬虫系统及方法,旨在阻止基于爬虫技术非法爬取未授权平台数据的现象,从而降低了爬虫风险对未授权平台的业务影响。
为实现上述目的,本发明提供一种反爬虫系统,所述反爬虫系统包括:域名解析服务器、反爬虫服务器集群和目标服务器;
所述域名解析服务器,用于从接收到的流量请求中提取所述目标服务器对应的域名,根据预存的互联网协议IP地址映射表,确定所述域名对应的所述目标服务器的IP地址和所述反爬虫服务器集群的虚拟IP地址,并通过所述IP地址将所述流量请求发送至所述目标服务器,通过所述虚拟IP地址将所述流量请求发送至所述反爬虫服务器集群,所述IP地址映射关系表中包括所述域名、目标服务器对应的IP地址,以及所述虚拟IP地址之间的对应关系;
所述反爬虫服务器集群,用于根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器;
所述目标服务器,用于在接收到所述反爬虫服务器集群发送的所述分析结果之后,根据所述分析结果对所述流量请求进行处理。
优选地,所述反爬虫服务器集群为基于层次结构构建的负载均衡服务器集群,包括主负载均衡节点和若干个子负载均衡节点;
所述主负载均衡节点,用于接收所述域名解析服务器发送的所述流量请求,在接收到所述流量请求后,获取各个子负载均衡节点对应的负载状态,根据各个子负载均衡节点对应的负载状态,从所述若干个子负载均衡节点中选取一个子负载均衡节点作为目标子负载均衡节点,并将所述流量请求发送至所述目标子负载均衡节点;
所述目标子负载均衡节点,用于根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器。
优选地,所述反爬虫服务器集群还包括从负载均衡节点,所述主负载均衡节点和所述从负载均衡节点之间预先建立有通信通道;
所述从负载均衡节点,用于通过所述通信通道向所述主负载均衡节点发送检测报文,并在预设时间内未接收到来自所述主负载均衡节点作出的针对所述检测报文的应答报文时,接收所述域名解析服务器发送的所述流量请求,在接收到所述流量请求后,获取各个子负载均衡节点对应的负载状态,根据各个子负载均衡节点对应的负载状态,从所述若干个子负载均衡节点中选取一个子负载均衡节点作为目标子负载均衡节点,并将所述流量请求发送至所述目标子负载均衡节点。
优选地,所述域名解析服务器,还用于在确定所述域名对应的所述反爬虫服务器集群的虚拟IP地址后,根据预存的第一对应关系,通过所述主负载均衡节点的物理地址将所述流量请求发送至所述主负载均衡节点,所述第一对应关系为所述虚拟IP地址与所述主负载均衡节点的物理地址之间的对应关系;
或者,所述域名解析服务器,还用于在确定所述域名对应的所述反爬虫服务器集群的虚拟IP地址后,根据预存的第二对应关系,通过所述从负载均衡节点的物理地址将所述流量请求发送至所述从负载均衡节点,所述第二对应关系为所述虚拟IP地址与所述从负载均衡节点的物理地址之间的对应关系。
优选地,所述反爬虫服务器集群,还用于根据所述分析结果制定反爬虫策略,并将所述反爬虫策略发送至所述目标服务器;
相应地,所述目标服务器,还用于根据所述分析结果和所述反爬虫策略,对所述流量请求进行处理。
此外,为实现上述目的,本发明还提供一种反爬虫方法,所述反爬虫方法应用于反爬虫系统,所述反爬虫系统包括:域名解析服务器、反爬虫服务器集群和目标服务器;
所述反爬虫方法包括以下步骤:
所述域名解析服务器从接收到的流量请求中提取所述目标服务器对应的域名,根据预存的互联网协议IP地址映射表,确定所述域名对应的所述目标服务器的IP地址和所述反爬虫服务器集群的虚拟IP地址,并通过所述IP地址将所述流量请求发送至所述目标服务器,通过所述虚拟IP地址将所述流量请求发送至所述反爬虫服务器集群,所述IP地址映射关系表中包括所述域名、目标服务器对应的IP地址,以及所述虚拟IP地址之间的对应关系;
所述反爬虫服务器集群根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器;
所述目标服务器在接收到所述反爬虫服务器集群发送的所述分析结果之后,根据所述分析结果对所述流量请求进行处理。
优选地,所述反爬虫服务器集群为基于层次结构构建的负载均衡服务器集群,包括主负载均衡节点和若干个子负载均衡节点;
所述反爬虫服务器集群根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器的步骤,包括:
所述主负载均衡节点接收所述域名解析服务器发送的所述流量请求,在接收到所述流量请求后,获取各个子负载均衡节点对应的负载状态,根据各个子负载均衡节点对应的负载状态,从所述若干个子负载均衡节点中选取一个子负载均衡节点作为目标子负载均衡节点,并将所述流量请求发送至所述目标子负载均衡节点;
所述目标子负载均衡节点根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器。
优选地,所述反爬虫服务器集群还包括从负载均衡节点,所述主负载均衡节点和所述从负载均衡节点之间预先建立有通信通道;
所述反爬虫服务器集群根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器的步骤,包括:
所述从负载均衡节点通过所述通信通道向所述主负载均衡节点发送检测报文,并在预设时间内未接收到来自所述主负载均衡节点作出的针对所述检测报文的应答报文时,接收所述域名解析服务器发送的所述流量请求,在接收到所述流量请求后,获取各个子负载均衡节点对应的负载状态,根据各个子负载均衡节点对应的负载状态,从所述若干个子负载均衡节点中选取一个子负载均衡节点作为目标子负载均衡节点,并将所述流量请求发送至所述目标子负载均衡节点;
所述目标子负载均衡节点根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器。
优选地,所述域名解析服务器通过所述虚拟IP地址将所述流量请求发送至所述反爬虫服务器集群的步骤,包括:
所述域名解析服务器在确定所述域名对应的所述反爬虫服务器集群的虚拟IP地址后,根据预存的第一对应关系,通过所述主负载均衡节点的物理地址将所述流量请求发送至所述主负载均衡节点,所述第一对应关系为所述虚拟IP地址与所述主负载均衡节点的物理地址之间的对应关系;
或者,所述域名解析服务器在确定所述域名对应的所述反爬虫服务器集群的虚拟IP地址后,根据预存的第二对应关系,通过所述从负载均衡节点的物理地址将所述流量请求发送至所述从负载均衡节点,所述第二对应关系为所述虚拟IP地址与所述从负载均衡节点的物理地址之间的对应关系。
优选地,所述反爬虫服务器集群根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器的步骤之后,所述方法还包括:
所述反爬虫服务器集群根据所述分析结果制定反爬虫策略,并将所述反爬虫策略发送至所述目标服务器;
相应地,所述目标服务器在接收到所述反爬虫服务器集群发送的所述分析结果之后,根据所述分析结果对所述流量请求进行处理的步骤,包括:
所述目标服务器根据所述分析结果和所述反爬虫策略,对所述流量请求进行处理。
本发明提供的反爬虫系统及方法,通过额外引入反爬虫服务器集群,并将现有IP地址映射表中记载的目标服务器对应的域名与目标服务器对应的IP地址之间的关系,转换为目标服务器对应的域名、目标服务器对应的IP地址,以及反爬虫服务器集群对应的虚拟IP地址三者之间的关系,从而在域名解析服务器接收到对目标服务器的流量请求时,根据修改后的IP地址映射表确定的当前流量请求对应的目标服务器的IP地址,将该流量请求发送到目标服务器,根据确定的反爬虫服务器集群的虚拟IP地址,将该流量请求转发到反爬虫服务器集群进行处理,通过反爬虫服务器集群的分析,确定当前流量请求是否是恶意请求,并将分析所得的分析结果发送至目标服务器,由目标服务器根据反爬虫服务器集群提供的分析结果决定对流量请求作出何种处理,通过这种方式,既可以实现对流量请求的监控,又可以保障目标服务器的决定权,从而在不影响目标服务器业务的情况下,尽快的阻止了基于爬虫技术非法爬取未授权平台,即目标服务器数据的现象发生。
此外,本发明提供的反爬虫系统及方法,通过为反爬虫服务器集群预先分配一个统一的虚拟IP地址,使得IP地址映射表仅需记载目标服务器对应的域名、目标服务器对应的IP地址与固定且唯一的虚拟IP地址之间的对应关系即可,无需记载目标服务器对应的域名与反爬虫服务器集群中每一个服务器的IP地址之间的对应关系,在简化IP地址映射表的同时,也大大提升了对流量请求的处理速度。
此外,本发明提供的反爬虫系统及方法,通过为反爬虫服务器集群预先分配一个统一的虚拟IP地址,在不影响IP地址映射表的情况下,也大大方便了后期对反爬虫服务器集群中服务器的IP地址的更改。
附图说明
图1为本发明反爬虫系统第一实施例的结构框图;
图2为本发明反爬虫系统的一种实际结构示意图;
图3为本发明反爬虫系统的另一种实际结构示意图;
图4为本发明反爬虫系统第二实施例的结构示意图;
图5为本发明反爬虫方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,本发明第一种实施例提供一种反爬虫系统,所述反爬虫系统包括:域名解析服务器100、反爬虫服务器集群200和目标服务器300。
其中,所述域名解析服务器100,用于从接收到的流量请求中提取所述目标服务器对应的域名,根据预存的互联网协议IP地址映射表,确定所述域名对应的所述目标服务器的IP地址和所述反爬虫服务器集群的虚拟IP地址,并通过所述IP地址将所述流量请求发送至所述目标服务器,通过所述虚拟IP地址将所述流量请求发送至所述反爬虫服务器集群;所述反爬虫服务器集群200,用于根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器;所述目标服务器300,用于在接收到所述反爬虫服务器集群发送的所述分析结果之后,根据所述分析结果对所述流量请求进行处理。
需要说明的是,上述所说的IP地址映射表中主要包括的是所述目标服务器300对应的域名、IP地址(真实物理地址)和所述反爬虫服务器集群200对应的虚拟IP地址三者之间的对应关系。
关于该IP地址映射表的具体形式,本领域技术人员可以根据需要进行设置,本实施例对此不做限制。
此外,关于上述所说的虚拟IP地址,具体是指Virtual IP Address,即通常所说的虚拟IP,简称VIP。它是一个不与特定计算机/服务器或一个计算机/服务器中的网络接口卡(NIC)相连的IP地址。
相应地,与虚拟IP地址对应的即为反爬虫服务器集群中每一个服务器对应的真实物理地址,即通常所说的网络之间互联的协议(Internet Protocol,IP)地址。
此外,应当理解的是,在本实施例中,上述所说的流量请求分析标准,主要是针对恶意请求的分析标准,即在符合哪些条件时,可以将当前流量请求判定为恶意请求。
关于所述流量请求分析标准中规定的具体内容,在具体实现中,本领域的技术人员可以根据需要进行设置,此处不做限制。
此外,在本实施例中,所述目标服务器300在根据接收到的分析结果对所述流量请求进行处理时,大致分为如下两种情况:
(1)在分析结果表示当前流量请求是正常请求,即不是恶意请求时,进行的处理具体可以根据所述流量请求对应的实际业务请求,比如在流量请求对应的实际业务是用户需要访问某一产品的介绍信息,则作出的处理即为向触发所述流量请求的客户端发送所述产品的介绍信息;
(2)在分析结果表示当前流量请求是恶意请求时,进行的处理具体可以拒绝向触发所述流量请求的客户端发送所述流量请求对应流量数据。
进一步地,为了更好的帮助目标服务器300作出合适的处理,所述反爬虫服务器集群200还可以根据所述分析结果制定反爬虫策略,并将所述反爬虫策略发送至所述目标服务器300,以使所述目标服务器300根据所述分析结果和所述反爬虫策略,对所述流量请求进行处理。
关于上述所说的反爬虫策略,在实际应用中大致可以分为以下几种:
比如监控模式,即对首次判定是恶意请求的,先进行监控,而不做其它处置,让不放心系统准确率的客户看到异常数据的同时不担心误判影响用户体验;
还比如,假数据模式,即在判定当前流量请求是恶意请求时,给其返回虚假数据,从而误导进行数据爬取的非法用户;
还比如,验证码模式,即在判定当前流量请求是恶意请求时,给其返回验证码,要求其通过验证后方可进行正常访问。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在实际应用中,本领域技术人员可以根据需要进行设置,此处不做限制。
进一步地,在实际应用中,为了尽可能的提升对流量请求的处理效率,以及提升反爬虫服务器集群200的性能和可扩展性。本实施例中采用的反爬虫服务器集群200优选基于层次结构构建的负载均衡服务器集群。
具体的说,在基于层次结构构建的反爬虫服务器集群200中需要包括主负载均衡节点和若干个子负载均衡节点。
为了便于说明,以下结合图2进行说明:
在图2中,用户400即为触发流量请求的一方,实际应用中可以是用户可操作的任意用户终端,比如智能手机、平板电脑、个人计算机等,此处不再一一列举,对此也不做任何限制。
具体的,在域名解析服务器100接收到用户400触发的流量请求时,会先从所述流量请求中提取目标服务器300对应的域名,然后根据预存的IP地址映射表确定所述域名对应的反爬虫服务器集群200的虚拟IP地址,以及所述目标服务器200的IP地址,最终通过所述虚拟IP地址将所述流量请求发送至所述反爬虫服务器集群200,由反爬虫服务器集群200对所述流量请求进行分析,同时通过所述目标服务器300的IP地址将所述流量请求发送至所述目标服务器300,并由目标服务器300根据反爬虫服务器集群300发送的针对所述流量请求分析获得的分析结果,对所述流量请求作出相应处理。
从图2可以看出,在实际应用中,域名解析服务器100具体是通过确定的虚拟IP地址,将所述流量请求发送给反爬虫服务器集群200中的主负载均衡节点201,然后由主负载均衡节点201决定将所述流量请求分配给哪个子负载均衡节点进行处理。
为了便于理解,以下结合图2对主负载均衡节点和子负载均衡节点的工作分配进行具体说明:
其中,所述主负载均衡节点201,用于接收所述域名解析服务器100发送的所述流量请求,即用户400触发的流量请求,在接收到所述流量请求后,获取各个子负载均衡节点(图2中与其有通信连接的子负载均衡节点202和子负载均衡节点203)对应的负载状态,根据各个子负载均衡节点对应的负载状态,从所述若干个子负载均衡节点中选取一个子负载均衡节点作为目标子负载均衡节点,比如将子负载均衡节点202作为目标子负载均衡节点,并将所述流量请求发送至所述目标子负载均衡节点,即子负载均衡节点202;
所述目标子负载均衡节点,即图2中的子负载均衡节点202,用于根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器300。
应当理解的是,图2中为了便于说明,在反爬虫服务器集群200中仅示出了2个子负载均衡节点,这对本发明的技术方案并不构成任何限定,在实际应用中,本领域技术人员可以根据需要在反爬虫服务器集群200中设置多个子负载均衡节点,本实施例对此不做限制。
此外,关于上述所说的负载均衡节点,不论是主负载均衡节点,还是子负载均衡节点,在实际应用中实质就是一台服务器,或者一台可以进行数据处理的设备,本实施例对此不做限制。
此外,还应当理解的是,在实际应用中,上述所说的目标服务器300也可以是由多台服务器,或终端设备组成的服务器集群,即其结构可以和反爬虫服务器集群200的结构类似,本实施例对此不再赘述,也不做任何限制。
进一步地,为了尽可能提高反爬虫系统的容灾性,使得反爬虫系统能够稳定且可靠的处理流量请求,在实际应用中,还可以在反爬虫服务器集群200中增设一个或多个功能与主负载均衡节点类似的从负载均衡节点。
为了便于说明,以下结合图3对从负载均衡节点所需要执行的工作进行说明:
应当理解的是,为了保证主负载均衡节点201能够与从负载均衡节点201'(图3中仅示出一个从负载均衡节点,在实际应用中,本领域技术人员可以根据需要设置从负载均衡节点的数量)进行通信,需要预先建立两者之间的通信通道。
相应地,域名解析服务器100与主负载均衡节点、目标服务器300之间的通信通道,所述主负载均衡节点与各个子负载均衡节点之间的通信信道,各个子负载均衡节点与目标服务器300之间的通信信道也需要预先建立。
相应地,在所述通信通道建立完成,所述反爬虫系统启动后,所述从负载均衡节点201',用于通过与主负载均衡节点201之间的通信通道向所述主负载均衡节点201发送检测报文,并在预设时间内未接收到来自所述主负载均衡节点201作出的针对所述检测报文的应答报文时,接收所述域名解析服务器100发送的所述流量请求,即用户400触发的流量请求,并在接收到所述流量请求后,获取各个子负载均衡节点(图2中与其有通信连接的子负载均衡节点202和子负载均衡节点203)对应的负载状态,根据各个子负载均衡节点对应的负载状态,从所述若干个子负载均衡节点中选取一个子负载均衡节点作为目标子负载均衡节点,比如将子负载均衡节点202作为目标子负载均衡节点,并将所述流量请求发送至所述目标子负载均衡节点,即子负载均衡节点202。
通过这种方式,可以在主负载均衡节点201发生异常时,由从负载均衡节点201'快速接管主负载均衡节点201的工作,进而保证反爬虫系统的稳定性。
此外,值得一提的是,由于在实际应用中,对流量请求的转发均是通过真实物理地址,即物理IP实现的。因此,为了保证上述方案的实现,还需要预先构建用于记录所述虚拟IP地址与所述主负载均衡节点的物理地址之间的对应关系的第一对应关系,以及用于记录所述虚拟IP与所述从负载均衡节点的物理地址之间的对应关系的第二对应关系表。
相应地,在完成对第一对应关系和第二对应关系的构建,所述域名解析服务器100在根据接收到的流量请求中携带的目标服务器300的域名和预存的IP地址映射表确定该域名对应的反爬虫服务器集群200的虚拟IP地址之后,如果当前时刻反爬虫服务器集群中的主负载均衡节点处于正常状态,则所述域名解析服务器100会根据所述第一对应关系,获取到所述主负载均衡节点的物理地址,并通过所述主负载均衡节点的物理地址将所述流量请求发送至所述主负载均衡节点;如果当前时刻反爬虫服务器集群中的主负载均衡节点处于异常状态,则所述域名解析服务器100会根据所述第二对应关系,获取到所述从负载均衡节点的物理地址,并通过所述从负载均衡节点的物理地址将所述流量请求发送至所述从负载均衡节点。
此外,关于上述所说的负载状态,可以是根据子负载均衡节点当前可用的处理器资源、待处理事务所需处理器资源、待处理事务大小、子负载均衡节点自身性能等多个因素共同确定的,在实际应用中,本领域技术人员可以根据需要进行设置,此处不做限制。
通过上述描述不难发现,本实施例中提供的反爬虫系统,通过额外引入反爬虫服务器集群,并将现有IP地址映射表中记载的目标服务器对应的域名与目标服务器对应的IP地址之间的关系,转换为目标服务器对应的域名、目标服务器对应的IP地址,以及反爬虫服务器集群对应的虚拟IP地址三者之间的关系,从而在域名解析服务器接收到对目标服务器的流量请求时,根据修改后的IP地址映射表确定的当前流量请求对应的目标服务器的IP地址,将该流量请求发送到目标服务器,根据确定的反爬虫服务器集群的虚拟IP地址,将该流量请求转发到反爬虫服务器集群进行处理,通过反爬虫服务器集群的分析,确定当前流量请求是否是恶意请求,并将分析所得的分析结果发送至目标服务器,由目标服务器根据反爬虫服务器集群提供的分析结果决定对流量请求作出何种处理,通过这种方式,既可以实现对流量请求的监控,又可以保障目标服务器的决定权,从而在不影响目标服务器业务的情况下,尽快的阻止了基于爬虫技术非法爬取未授权平台,即目标服务器数据的现象发生。
此外,本实施例中提供的反爬虫系统,通过为反爬虫服务器集群预先分配一个统一的虚拟IP地址,使得IP地址映射表仅需记载目标服务器对应的域名、目标服务器对应的IP地址与固定且唯一的虚拟IP地址之间的对应关系即可,无需记载目标服务器对应的域名与反爬虫服务器集群中每一个服务器的IP地址之间的对应关系,在简化IP地址映射表的同时,也大大提升了对流量请求的处理速度。
此外,本实施例中提供的反爬虫系统,通过为反爬虫服务器集群预先分配一个统一的虚拟IP地址,在不影响IP地址映射表的情况下,也大大方便了后期对反爬虫服务器集群中服务器的IP地址的更改。
也就是说,对反爬虫服务器集群中任意服务器(负载均衡节点)IP地址的更换,用户是无感知的,从而可以不影响正常访问用户的使用。
基于上述反爬虫系统的第一实施例,提出本发明反爬虫系统的第二实施例。
如图4所示,在本实施例中,所述反爬虫系统还包括:大数据服务器500。
具体的说,在本实施例中,所述大数据服务器500,主要用于在所述目标子负载均衡节点,比如图4中的子负载均衡节点203,无法给出确切的分析结果,比如确定所述流量请求是否是恶意请求时,根据预存的恶意请求信息,对所述流量请求进行分析,并将分析结果发送至所述目标子负载均衡节点,以使所述目标子负载均衡节点将所述分析结果转发至所述目标服务器300。
应当理解的是,在实际应用中,为了保证大数据服务器500能够与反爬虫服务器集群200中的任意一个作为目标子负载均衡节点的子负载均衡节点进行通信,需要预先建立大数据服务器500与反爬虫服务器集群200中各个子负载均衡节点之间的通信连接。
此外,还应当理解的是,在实际应用中,所述大数据服务器500可以是现有可扩展性好、存储量大、不占用实际物理空间的云服务器,也可以是传统的物理服务器,本实施例对此不做任何限制。
相应地,反爬虫系统中的域名解析服务器100、反爬虫服务器集群200中的各个负载均衡节点,以及目标服务器300,也可以根据需要选用云服务器或者物理服务器,本实施例对此不做任何限制。
通过上述描述不难发现,本实施例中提供的反爬虫系统,通过引入存储有大量恶意请求信息的大数据服务器,并预先建立大数据服务器与反爬虫服务器集群中各个子负载均衡节点之间的通信连接,从而在任意一个子负载均衡节点作为目标子负载均衡节点无法确给出确切的分析结果时,能够由大数据服务器担负起对该流量请求的分析,最终将能够标识该流量请求是否是恶意请求的分析结果发送给目标子负载均衡节点,由目标子负载均衡节点将得到分析结果转发给目标服务器,从而能够更好的识别各种恶意请求,进一步阻止基于爬虫技术非法爬取未授权平台,即目标服务器数据的现象发生,尽可能的降低爬虫风险对未授权平台的业务影响。
此外,应当理解的是,为了尽可能提高处理效率,在实际应用中,有大数据服务器分析获得的分析结果,也可以不经目标子负载均衡节点转发,而是直接发送给目标服务器,本领域技术人员根据需要设置即可,本实施例对此不做限制。
基于上述反爬虫系统,提出本发明应用于该系统的反爬虫方法实施例。
参照图5,图5为本发明反爬虫方法第一实施例的流程示意图。
在第一实施例中,所述反爬虫方法包括以下步骤:
步骤S10,所述域名解析服务器从接收到的流量请求中提取所述目标服务器对应的域名,根据预存的互联网协议IP地址映射表,确定所述域名对应的所述目标服务器的IP地址和所述反爬虫服务器集群的虚拟IP地址,并通过所述IP地址将所述流量请求发送至所述目标服务器,通过所述虚拟IP地址将所述流量请求发送至所述反爬虫服务器集群。
需要说明的是,上述所说的IP地址映射表中主要包括的是所述目标服务器300对应的域名、IP地址(真实物理地址)和所述反爬虫服务器集群200对应的虚拟IP地址三者之间的对应关系。
关于该IP地址映射表的具体形式,本领域技术人员可以根据需要进行设置,本实施例对此不做限制。
此外,关于上述所说的虚拟IP地址,具体是指Virtual IP Address,即通常所说的虚拟IP,简称VIP。它是一个不与特定计算机/服务器或一个计算机/服务器中的网络接口卡(NIC)相连的IP地址。
相应地,与虚拟IP地址对应的即为反爬虫服务器集群中每一个服务器对应的真实物理地址,即通常所说的网络之间互联的协议(Internet Protocol,IP)地址。
步骤S20,所述反爬虫服务器集群根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器。
应当理解的是,在本实施例中,上述所说的流量请求分析标准,主要是针对恶意请求的分析标准,即在符合哪些条件时,可以将当前流量请求判定为恶意请求。
关于所述流量请求分析标准中规定的具体内容,在具体实现中,本领域的技术人员可以根据需要进行设置,此处不做限制。
进一步地,在实际应用中,为了尽可能的提升对流量请求的处理效率,以及提升反爬虫服务器集群200的性能和可扩展性。本实施例中采用的反爬虫服务器集群200优选基于层次结构构建的负载均衡服务器集群。
具体的说,在基于层次结构构建的反爬虫服务器集群200中需要包括主负载均衡节点和若干个子负载均衡节点。
为了便于说明,以下结合图2进行说明:
在图2中,用户400即为触发流量请求的一方,实际应用中可以是用户可操作的任意用户终端,比如智能手机、平板电脑、个人计算机等,此处不再一一列举,对此也不做任何限制。
具体的,在域名解析服务器100接收到用户400触发的流量请求时,会先从所述流量请求中提取目标服务器300对应的域名,然后根据预存的IP地址映射表确定所述域名对应的反爬虫服务器集群200的虚拟IP地址,以及所述目标服务器200的IP地址,最终通过所述虚拟IP地址将所述流量请求发送至所述反爬虫服务器集群200,由反爬虫服务器集群200对所述流量请求进行分析,同时通过所述目标服务器300的IP地址将所述流量请求发送至所述目标服务器300,并由目标服务器300根据反爬虫服务器集群300发送的针对所述流量请求分析获得的分析结果,对所述流量请求作出相应处理。
从图2可以看出,在实际应用中,域名解析服务器100具体是通过确定的虚拟IP地址,将所述流量请求发送给反爬虫服务器集群200中的主负载均衡节点201,然后由主负载均衡节点201决定将所述流量请求分配给哪个子负载均衡节点进行处理。
为了便于理解,以下结合图2对主负载均衡节点和子负载均衡节点的工作分配进行具体说明:
其中,所述主负载均衡节点201,用于接收所述域名解析服务器100发送的所述流量请求,即用户400触发的流量请求,在接收到所述流量请求后,获取各个子负载均衡节点(图2中与其有通信连接的子负载均衡节点202和子负载均衡节点203)对应的负载状态,根据各个子负载均衡节点对应的负载状态,从所述若干个子负载均衡节点中选取一个子负载均衡节点作为目标子负载均衡节点,比如将子负载均衡节点202作为目标子负载均衡节点,并将所述流量请求发送至所述目标子负载均衡节点,即子负载均衡节点202;
所述目标子负载均衡节点,即图2中的子负载均衡节点202,用于根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器300。
应当理解的是,图2中为了便于说明,在反爬虫服务器集群200中仅示出了2个子负载均衡节点,这对本发明的技术方案并不构成任何限定,在实际应用中,本领域技术人员可以根据需要在反爬虫服务器集群200中设置多个子负载均衡节点,本实施例对此不做限制。
此外,关于上述所说的负载均衡节点,不论是主负载均衡节点,还是子负载均衡节点,在实际应用中实质就是一台服务器,或者一台可以进行数据处理的设备,本实施例对此不做限制。
此外,还应当理解的是,在实际应用中,上述所说的目标服务器300也可以是由多台服务器,或终端设备组成的服务器集群,即其结构可以和反爬虫服务器集群200的结构类似,本实施例对此不再赘述,也不做任何限制。
进一步地,为了尽可能提高反爬虫系统的容灾性,使得反爬虫系统能够稳定且可靠的处理流量请求,在实际应用中,还可以在反爬虫服务器集群200中增设一个或多个功能与主负载均衡节点类似的从负载均衡节点。
为了便于说明,以下结合图3对从负载均衡节点所需要执行的工作进行说明:
应当理解的是,为了保证主负载均衡节点201能够与从负载均衡节点201'(图3中仅示出一个从负载均衡节点,在实际应用中,本领域技术人员可以根据需要设置从负载均衡节点的数量)进行通信,需要预先建立两者之间的通信通道。
相应地,域名解析服务器100与主负载均衡节点、目标服务器300之间的通信通道,所述主负载均衡节点与各个子负载均衡节点之间的通信信道,各个子负载均衡节点与目标服务器300之间的通信信道也需要预先建立。
相应地,在所述通信通道建立完成,所述反爬虫系统启动后,所述从负载均衡节点201',用于通过与主负载均衡节点201之间的通信通道向所述主负载均衡节点201发送检测报文,并在预设时间内未接收到来自所述主负载均衡节点201作出的针对所述检测报文的应答报文时,接收所述域名解析服务器100发送的所述流量请求,即用户400触发的流量请求,并在接收到所述流量请求后,获取各个子负载均衡节点(图2中与其有通信连接的子负载均衡节点202和子负载均衡节点203)对应的负载状态,根据各个子负载均衡节点对应的负载状态,从所述若干个子负载均衡节点中选取一个子负载均衡节点作为目标子负载均衡节点,比如将子负载均衡节点202作为目标子负载均衡节点,并将所述流量请求发送至所述目标子负载均衡节点,即子负载均衡节点202。
通过这种方式,可以在主负载均衡节点201发生异常时,由从负载均衡节点201'快速接管主负载均衡节点201的工作,进而保证反爬虫系统的稳定性。
此外,值得一提的是,由于在实际应用中,对流量请求的转发均是通过真实物理地址,即物理IP实现的。因此,为了保证上述方案的实现,还需要预先构建用于记录所述虚拟IP地址与所述主负载均衡节点的物理地址之间的对应关系的第一对应关系,以及用于记录所述虚拟IP与所述从负载均衡节点的物理地址之间的对应关系的第二对应关系表。
相应地,在完成对第一对应关系和第二对应关系的构建,所述域名解析服务器100在根据接收到的流量请求中携带的目标服务器300的域名和预存的IP地址映射表确定该域名对应的反爬虫服务器集群200的虚拟IP地址之后,如果当前时刻反爬虫服务器集群中的主负载均衡节点处于正常状态,则所述域名解析服务器100会根据所述第一对应关系,获取到所述主负载均衡节点的物理地址,并通过所述主负载均衡节点的物理地址将所述流量请求发送至所述主负载均衡节点;如果当前时刻反爬虫服务器集群中的主负载均衡节点处于异常状态,则所述域名解析服务器100会根据所述第二对应关系,获取到所述从负载均衡节点的物理地址,并通过所述从负载均衡节点的物理地址将所述流量请求发送至所述从负载均衡节点。
此外,关于上述所说的负载状态,可以是根据子负载均衡节点当前可用的处理器资源、待处理事务所需处理器资源、待处理事务大小、子负载均衡节点自身性能等多个因素共同确定的,在实际应用中,本领域技术人员可以根据需要进行设置,此处不做限制。
步骤S30,所述目标服务器在接收到所述反爬虫服务器集群发送的所述分析结果之后,根据所述分析结果对所述流量请求进行处理。
具体的说,在本实施例中,所述目标服务器300在根据接收到的分析结果对所述流量请求进行处理时,大致分为如下两种情况:
(1)在分析结果表示当前流量请求是正常请求,即不是恶意请求时,进行的处理具体可以根据所述流量请求对应的实际业务请求,比如在流量请求对应的实际业务是用户需要访问某一产品的介绍信息,则作出的处理即为向触发所述流量请求的客户端发送所述产品的介绍信息;
(2)在分析结果表示当前流量请求是恶意请求时,进行的处理具体可以拒绝向触发所述流量请求的客户端发送所述流量请求对应流量数据。
进一步地,为了更好的帮助目标服务器300作出合适的处理,所述反爬虫服务器集群200还可以根据所述分析结果制定反爬虫策略,并将所述反爬虫策略发送至所述目标服务器300,以使所述目标服务器300根据所述分析结果和所述反爬虫策略,对所述流量请求进行处理。
关于上述所说的反爬虫策略,在实际应用中大致可以分为以下几种:
比如监控模式,即对首次判定是恶意请求的,先进行监控,而不做其它处置,让不放心系统准确率的客户看到异常数据的同时不担心误判影响用户体验;
还比如,假数据模式,即在判定当前流量请求是恶意请求时,给其返回虚假数据,从而误导进行数据爬取的非法用户;
还比如,验证码模式,即在判定当前流量请求是恶意请求时,给其返回验证码,要求其通过验证后方可进行正常访问。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在实际应用中,本领域技术人员可以根据需要进行设置,此处不做限制。
通过上述描述不难发现,本实施例中提供的反爬虫方法,通过额外引入反爬虫服务器集群,并将现有IP地址映射表中记载的目标服务器对应的域名与目标服务器对应的IP地址之间的关系,转换为目标服务器对应的域名、目标服务器对应的IP地址,以及反爬虫服务器集群对应的虚拟IP地址三者之间的关系,从而在域名解析服务器接收到对目标服务器的流量请求时,根据修改后的IP地址映射表确定的当前流量请求对应的目标服务器的IP地址,将该流量请求发送到目标服务器,根据确定的反爬虫服务器集群的虚拟IP地址,将该流量请求转发到反爬虫服务器集群进行处理,通过反爬虫服务器集群的分析,确定当前流量请求是否是恶意请求,并将分析所得的分析结果发送至目标服务器,由目标服务器根据反爬虫服务器集群提供的分析结果决定对流量请求作出何种处理,通过这种方式,既可以实现对流量请求的监控,又可以保障目标服务器的决定权,从而在不影响目标服务器业务的情况下,尽快的阻止了基于爬虫技术非法爬取未授权平台,即目标服务器数据的现象发生。
此外,本实施例中提供的反爬虫方法,通过为反爬虫服务器集群预先分配一个统一的虚拟IP地址,使得IP地址映射表仅需记载目标服务器对应的域名、目标服务器对应的IP地址与固定且唯一的虚拟IP地址之间的对应关系即可,无需记载目标服务器对应的域名与反爬虫服务器集群中每一个服务器的IP地址之间的对应关系,在简化IP地址映射表的同时,也大大提升了对流量请求的处理速度。
此外,本实施例中提供的反爬虫方法,通过为反爬虫服务器集群预先分配一个统一的虚拟IP地址,在不影响IP地址映射表的情况下,也大大方便了后期对反爬虫服务器集群中服务器的IP地址的更改。
此外,应当理解的是,由于本实施例中提供的反爬虫方法是应用于本发明任意实施例提供的反爬虫系统的,因而未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的反爬虫系统,此处不再赘述。
基于上述反爬虫方法的第一实施例,提出本发明反爬虫方法的第二实施例。
具体的说,由于在实际应用中,存储在各个子负载均衡节点中的流量请求分析标准往往难以应对复杂多变的实际情况,因而为了能够更好的应对这些复杂情况,本实施例提供的反爬虫方法所应用于的反爬虫系统中还可以包括大数据服务器。
为了便于理解所述大数据服务器的使用,本实施例结合如4进行简要说明:
具体的说,在本实施例中,所述大数据服务器500,主要用于在所述目标子负载均衡节点,比如图4中的子负载均衡节点203,无法给出确切的分析结果,比如确定所述流量请求是否是恶意请求时,根据预存的恶意请求信息,对所述流量请求进行分析,并将分析结果发送至所述目标子负载均衡节点,以使所述目标子负载均衡节点将所述分析结果转发至所述目标服务器300。
应当理解的是,在实际应用中,为了保证大数据服务器500能够与反爬虫服务器集群200中的任意一个作为目标子负载均衡节点的子负载均衡节点进行通信,需要预先建立大数据服务器500与反爬虫服务器集群200中各个子负载均衡节点之间的通信连接。
此外,还应当理解的是,在实际应用中,所述大数据服务器500可以是现有可扩展性好、存储量大、不占用实际物理空间的云服务器,也可以是传统的物理服务器,本实施例对此不做任何限制。
相应地,反爬虫系统中的域名解析服务器100、反爬虫服务器集群200中的各个负载均衡节点,以及目标服务器300,也可以根据需要选用云服务器或者物理服务器,本实施例对此不做任何限制。
通过上述描述不难发现,本实施例中提供的反爬虫方法,通过引入存储有大量恶意请求信息的大数据服务器,并预先建立大数据服务器与反爬虫服务器集群中各个子负载均衡节点之间的通信连接,从而在任意一个子负载均衡节点作为目标子负载均衡节点无法确给出确切的分析结果时,能够由大数据服务器担负起对该流量请求的分析,最终将能够标识该流量请求是否是恶意请求的分析结果发送给目标子负载均衡节点,由目标子负载均衡节点将得到分析结果转发给目标服务器,从而能够更好的识别各种恶意请求,进一步阻止基于爬虫技术非法爬取未授权平台,即目标服务器数据的现象发生,尽可能的降低爬虫风险对未授权平台的业务影响。
此外,应当理解的是,为了尽可能提高处理效率,在实际应用中,有大数据服务器分析获得的分析结果,也可以不经目标子负载均衡节点转发,而是直接发送给目标服务器,本领域技术人员根据需要设置即可,本实施例对此不做限制。
同理,由于本实施例中提供的反爬虫方法是应用于本发明任意实施例提供的反爬虫系统的,因而未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的反爬虫系统,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种反爬虫系统,其特征在于,所述系统包括:域名解析服务器、反爬虫服务器集群和目标服务器;
所述域名解析服务器,用于从接收到的流量请求中提取所述目标服务器对应的域名,根据预存的互联网协议IP地址映射表,确定所述域名对应的所述目标服务器的IP地址和所述反爬虫服务器集群的虚拟IP地址,并通过所述IP地址将所述流量请求发送至所述目标服务器,通过所述虚拟IP地址将所述流量请求发送至所述反爬虫服务器集群,所述IP地址映射关系表中包括所述域名、目标服务器对应的IP地址,以及所述虚拟IP地址之间的对应关系;
所述反爬虫服务器集群,用于根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器;
所述目标服务器,用于在接收到所述反爬虫服务器集群发送的所述分析结果之后,根据所述分析结果对所述流量请求进行处理。
2.如权利要求1所述的系统,其特征在于,所述反爬虫服务器集群为基于层次结构构建的负载均衡服务器集群,包括主负载均衡节点和若干个子负载均衡节点;
所述主负载均衡节点,用于接收所述域名解析服务器发送的所述流量请求,在接收到所述流量请求后,获取各个子负载均衡节点对应的负载状态,根据各个子负载均衡节点对应的负载状态,从所述若干个子负载均衡节点中选取一个子负载均衡节点作为目标子负载均衡节点,并将所述流量请求发送至所述目标子负载均衡节点;
所述目标子负载均衡节点,用于根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器。
3.如权利要求2所述的系统,其特征在于,所述反爬虫服务器集群还包括从负载均衡节点,所述主负载均衡节点和所述从负载均衡节点之间预先建立有通信通道;
所述从负载均衡节点,用于通过所述通信通道向所述主负载均衡节点发送检测报文,并在预设时间内未接收到来自所述主负载均衡节点作出的针对所述检测报文的应答报文时,接收所述域名解析服务器发送的所述流量请求,在接收到所述流量请求后,获取各个子负载均衡节点对应的负载状态,根据各个子负载均衡节点对应的负载状态,从所述若干个子负载均衡节点中选取一个子负载均衡节点作为目标子负载均衡节点,并将所述流量请求发送至所述目标子负载均衡节点。
4.如权利要求2或3所述的系统,其特征在于,所述域名解析服务器,还用于在确定所述域名对应的所述反爬虫服务器集群的虚拟IP地址后,根据预存的第一对应关系,通过所述主负载均衡节点的物理地址将所述流量请求发送至所述主负载均衡节点,所述第一对应关系为所述虚拟IP地址与所述主负载均衡节点的物理地址之间的对应关系;
或者,所述域名解析服务器,还用于在确定所述域名对应的所述反爬虫服务器集群的虚拟IP地址后,根据预存的第二对应关系,通过所述从负载均衡节点的物理地址将所述流量请求发送至所述从负载均衡节点,所述第二对应关系为所述虚拟IP地址与所述从负载均衡节点的物理地址之间的对应关系。
5.如权利要求1所述的系统,其特征在于,所述反爬虫服务器集群,还用于根据所述分析结果制定反爬虫策略,并将所述反爬虫策略发送至所述目标服务器;
相应地,所述目标服务器,还用于根据所述分析结果和所述反爬虫策略,对所述流量请求进行处理。
6.一种反爬虫方法,其特征在于,应用于反爬虫系统,所述反爬虫系统包括:域名解析服务器、反爬虫服务器集群和目标服务器;
所述反爬虫方法包括以下步骤:
所述域名解析服务器从接收到的流量请求中提取所述目标服务器对应的域名,根据预存的互联网协议IP地址映射表,确定所述域名对应的所述目标服务器的IP地址和所述反爬虫服务器集群的虚拟IP地址,并通过所述IP地址将所述流量请求发送至所述目标服务器,通过所述虚拟IP地址将所述流量请求发送至所述反爬虫服务器集群,所述IP地址映射关系表中包括所述域名、目标服务器对应的IP地址,以及所述虚拟IP地址之间的对应关系;
所述反爬虫服务器集群根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器;
所述目标服务器在接收到所述反爬虫服务器集群发送的所述分析结果之后,根据所述分析结果对所述流量请求进行处理。
7.如权利要求6所述的方法,其特征在于,所述反爬虫服务器集群为基于层次结构构建的负载均衡服务器集群,包括主负载均衡节点和若干个子负载均衡节点;
所述反爬虫服务器集群根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器的步骤,包括:
所述主负载均衡节点接收所述域名解析服务器发送的所述流量请求,在接收到所述流量请求后,获取各个子负载均衡节点对应的负载状态,根据各个子负载均衡节点对应的负载状态,从所述若干个子负载均衡节点中选取一个子负载均衡节点作为目标子负载均衡节点,并将所述流量请求发送至所述目标子负载均衡节点;
所述目标子负载均衡节点根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器。
8.如权利要求7所述的方法,其特征在于,所述反爬虫服务器集群还包括从负载均衡节点,所述主负载均衡节点和所述从负载均衡节点之间预先建立有通信通道;
所述反爬虫服务器集群根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器的步骤,包括:
所述从负载均衡节点通过所述通信通道向所述主负载均衡节点发送检测报文,并在预设时间内未接收到来自所述主负载均衡节点作出的针对所述检测报文的应答报文时,接收所述域名解析服务器发送的所述流量请求,在接收到所述流量请求后,获取各个子负载均衡节点对应的负载状态,根据各个子负载均衡节点对应的负载状态,从所述若干个子负载均衡节点中选取一个子负载均衡节点作为目标子负载均衡节点,并将所述流量请求发送至所述目标子负载均衡节点;
所述目标子负载均衡节点根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器。
9.如权利要求7或8所述的方法,其特征在于,所述域名解析服务器通过所述虚拟IP地址将所述流量请求发送至所述反爬虫服务器集群的步骤,包括:
所述域名解析服务器在确定所述域名对应的所述反爬虫服务器集群的虚拟IP地址后,根据预存的第一对应关系,通过所述主负载均衡节点的物理地址将所述流量请求发送至所述主负载均衡节点,所述第一对应关系为所述虚拟IP地址与所述主负载均衡节点的物理地址之间的对应关系;
或者,所述域名解析服务器在确定所述域名对应的所述反爬虫服务器集群的虚拟IP地址后,根据预存的第二对应关系,通过所述从负载均衡节点的物理地址将所述流量请求发送至所述从负载均衡节点,所述第二对应关系为所述虚拟IP地址与所述从负载均衡节点的物理地址之间的对应关系。
10.如权利要求6所述的方法,其特征在于,所述反爬虫服务器集群根据预设的流量请求分析标准对所述流量请求进行分析,并将所述分析结果发送至所述目标服务器的步骤之后,所述方法还包括:
所述反爬虫服务器集群根据所述分析结果制定反爬虫策略,并将所述反爬虫策略发送至所述目标服务器;
相应地,所述目标服务器在接收到所述反爬虫服务器集群发送的所述分析结果之后,根据所述分析结果对所述流量请求进行处理的步骤,包括:
所述目标服务器根据所述分析结果和所述反爬虫策略,对所述流量请求进行处理。
CN201910938012.1A 2019-09-29 2019-09-29 反爬虫系统及方法 Pending CN110708309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910938012.1A CN110708309A (zh) 2019-09-29 2019-09-29 反爬虫系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910938012.1A CN110708309A (zh) 2019-09-29 2019-09-29 反爬虫系统及方法

Publications (1)

Publication Number Publication Date
CN110708309A true CN110708309A (zh) 2020-01-17

Family

ID=69197724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910938012.1A Pending CN110708309A (zh) 2019-09-29 2019-09-29 反爬虫系统及方法

Country Status (1)

Country Link
CN (1) CN110708309A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475289A (zh) * 2020-03-26 2020-07-31 北京世纪家天下科技发展有限公司 负载均衡方法及装置
CN111800472A (zh) * 2020-06-12 2020-10-20 易联众信息技术股份有限公司 一种区块链节点负载均衡方法、装置、介质及设备
CN114826959A (zh) * 2022-04-19 2022-07-29 浙江大学 一种针对音频数据反爬虫技术脆弱性分析方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150039762A1 (en) * 2012-04-23 2015-02-05 Tencent Technology (Shenzhen) Company Limited Method and system for accessing network service
CN107465651A (zh) * 2016-06-06 2017-12-12 腾讯科技(深圳)有限公司 网络攻击检测方法及装置
CN107483574A (zh) * 2012-10-17 2017-12-15 阿里巴巴集团控股有限公司 一种负载均衡下的数据交互系统、方法及装置
CN108038218A (zh) * 2017-12-22 2018-05-15 联想(北京)有限公司 一种分布式爬虫方法、电子设备及服务器
CN109150875A (zh) * 2018-08-20 2019-01-04 广东优世联合控股集团股份有限公司 反爬虫方法、装置、电子设备及计算机可读存储介质
US20190036870A1 (en) * 2017-02-19 2019-01-31 Wangsu Science & Technology Co., Ltd. Domain name resolution system, domain name resolution server, and domain name resolution method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150039762A1 (en) * 2012-04-23 2015-02-05 Tencent Technology (Shenzhen) Company Limited Method and system for accessing network service
CN107483574A (zh) * 2012-10-17 2017-12-15 阿里巴巴集团控股有限公司 一种负载均衡下的数据交互系统、方法及装置
CN107465651A (zh) * 2016-06-06 2017-12-12 腾讯科技(深圳)有限公司 网络攻击检测方法及装置
US20190036870A1 (en) * 2017-02-19 2019-01-31 Wangsu Science & Technology Co., Ltd. Domain name resolution system, domain name resolution server, and domain name resolution method
CN108038218A (zh) * 2017-12-22 2018-05-15 联想(北京)有限公司 一种分布式爬虫方法、电子设备及服务器
CN109150875A (zh) * 2018-08-20 2019-01-04 广东优世联合控股集团股份有限公司 反爬虫方法、装置、电子设备及计算机可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475289A (zh) * 2020-03-26 2020-07-31 北京世纪家天下科技发展有限公司 负载均衡方法及装置
CN111475289B (zh) * 2020-03-26 2024-04-12 北京世纪家天下科技发展有限公司 负载均衡方法及装置
CN111800472A (zh) * 2020-06-12 2020-10-20 易联众信息技术股份有限公司 一种区块链节点负载均衡方法、装置、介质及设备
CN114826959A (zh) * 2022-04-19 2022-07-29 浙江大学 一种针对音频数据反爬虫技术脆弱性分析方法及系统
CN114826959B (zh) * 2022-04-19 2023-10-13 浙江大学 一种针对音频数据反爬虫技术脆弱性分析方法及系统

Similar Documents

Publication Publication Date Title
US11652793B2 (en) Dynamic firewall configuration
US20220078202A1 (en) Rule-based network-threat detection
JP5624973B2 (ja) フィルタリング装置
EP2633667B1 (en) System and method for on the fly protocol conversion in obtaining policy enforcement information
CN100399750C (zh) 便于在网络上识别计算机的系统与方法
CN109688186B (zh) 数据交互方法、装置、设备及可读存储介质
US20050086340A1 (en) System and methods for robust discovery of servers and services in a heterogeneous environment
CN110213212A (zh) 一种设备的分类方法和装置
JP2022531878A (ja) Dnsメッセージを使用してコンピュータ・フォレンジック・データを選択的に収集するためのシステムおよび方法
US8914510B2 (en) Methods, systems, and computer program products for enhancing internet security for network subscribers
CN112769837B (zh) 基于WebSocket的通信传输方法、装置、设备、系统及存储介质
CN110430188B (zh) 一种快速url过滤方法及装置
CN110708309A (zh) 反爬虫系统及方法
CN114902612A (zh) 基于边缘网络的帐户保护服务
CN102833262A (zh) 基于whois信息的钓鱼网站收集、鉴定方法和系统
CN107786551B (zh) 访问内网服务器的方法及控制访问内网服务器的装置
CN112261172A (zh) 服务寻址访问方法、装置、系统、设备及介质
CN114679292B (zh) 基于网络空间测绘的蜜罐识别方法、装置、设备及介质
CN107147748A (zh) 文件上传方法和装置
US20130247208A1 (en) System, method, and computer program product for preventing data leakage utilizing a map of data
CN104092751A (zh) 一种业务访问方法和设备
JP2019103039A (ja) ファイアウォール装置
CN110891056A (zh) Https请求认证方法及装置、电子设备、存储介质
CN115913597A (zh) 确定失陷主机的方法及装置
CN113472831B (zh) 一种服务访问方法、装置、网关设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117