CN104506525B - 防止恶意抓取的方法和防护装置 - Google Patents

防止恶意抓取的方法和防护装置 Download PDF

Info

Publication number
CN104506525B
CN104506525B CN201410806643.5A CN201410806643A CN104506525B CN 104506525 B CN104506525 B CN 104506525B CN 201410806643 A CN201410806643 A CN 201410806643A CN 104506525 B CN104506525 B CN 104506525B
Authority
CN
China
Prior art keywords
address
white list
source
server
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410806643.5A
Other languages
English (en)
Other versions
CN104506525A (zh
Inventor
李纪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianxin Technology Group Co Ltd
Secworld Information Technology Beijing Co Ltd
Original Assignee
Beijing Qianxin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qianxin Technology Co Ltd filed Critical Beijing Qianxin Technology Co Ltd
Priority to CN201410806643.5A priority Critical patent/CN104506525B/zh
Publication of CN104506525A publication Critical patent/CN104506525A/zh
Application granted granted Critical
Publication of CN104506525B publication Critical patent/CN104506525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Abstract

本发明提供了一种防止恶意抓取的方法和防护装置,该方法包括:位于网站服务器侧的防护装置识别用于抓取所述网站服务器中资源的抓取请求;判断所述抓取请求的来源IP地址是否属于IP地址白名单中的IP地址;如果所述来源IP地址不属于IP地址白名单中的IP地址,则拦截所述抓取请求。本发明提供的技术方案对于伪装搜索引擎发起的恶意抓取请求能够进行有效的拦截。

Description

防止恶意抓取的方法和防护装置
技术领域
本发明涉及通信技术领域,尤其涉及一种防止恶意抓取的方法和防护装置。
背景技术
对网站资源的抓取是指按照预设的规则抓取网站服务器中的相应资源。一般的,针对网站服务器中资源的抓取请求主要包括由搜索引擎的爬虫蜘蛛发起的正常抓取请求以及由其他非搜索引擎发起的恶意抓取请求。恶意抓取请求一般涉及到两种情况,一种是由竞争对手或者黑客发起的抓取请求,通过高并发长时间不间断的抓取导致网站服务器超负荷运转最终使网站服务器瘫痪。这样的抓取行为会严重损害企业形象。另一种主要是盗取网站服务器中的原创资源用于转载,这种抓取行为会使网站服务器中的原创资源的作者的知识产权遭到侵害。
由于恶意抓取一般是伪装成合法的搜索引擎进行抓取,因此现有技术中对恶意抓取的拦截效果非常不理想。
发明内容
本发明的目的是提供一种有效的防止恶意抓取的方法和防护装置。
第一方面,提供了一种防止恶意抓取的防护装置,包括:
识别模块,用于识别用于抓取网站服务器中的资源的抓取请求;
判断模块,用于判断所述识别模块识别的所述抓取请求的来源互联网协议IP地址是否属于IP地址白名单中的IP地址;
拦截模块,用于在所述判断模块判断所述来源IP地址不属于IP地址白名单中的IP地址,拦截所述抓取请求。
进一步的,所述识别模块用于检测到访问所述网站服务器中资源的访问请求,获取检测到的访问请求中携带的用户代理UA信息和/或引用referer信息;根据所述UA信息/或referer信息,确定检测到的访问请求是否为用于抓取所述网站服务器中的资源的抓取请求。
进一步的,还包括:IP地址白名单获取模块,用于在所述判断模块判断所述来源IP地址是否属于IP地址白名单中的IP地址之前,获取包含搜索引擎域名的搜索引擎域名白名单,对搜索引擎域名白名单中的搜索引擎域名进行反向查询获取各个搜索引擎域名的IP地址,得到IP地址白名单。
进一步的,还包括:上报模块,用于在所述判断模块判断所述来源IP地址不属于IP地址白名单中的IP地址时,将所述来源IP地址发送给服务器,以使所述服务器确定所述来源IP地址是否属于搜索引擎的IP地址。
进一步的,所述IP地址白名单为由服务器生成并下发的白名单。
再一方面,提供了一种防止恶意抓取的方法,包括:
位于网站服务器侧的防护装置识别用于抓取所述网站服务器中资源的抓取请求;
判断所述抓取请求的来源互联网协议IP地址是否属于IP地址白名单中的IP地址;
如果所述来源IP地址不属于IP地址白名单中的IP地址,则拦截所述抓取请求。
进一步的,所述位于网站服务器侧的防护装置识别用于抓取所述网站服务器中的资源的抓取请求,包括:
所述防护装置检测用于访问所述网站服务器中资源的访问请求,获取检测到的访问请求中携带的用户代理UA信息和/或引用referer信息;根据所述UA信息和/或referer信息,判断检测到的访问请求是否为用于抓取所述网站服务器中的资源的抓取请求。
进一步的,所述判断所述抓取请求的来源IP地址是否属于IP地址白名单中的IP地址之前,所述方法还包括:
获取包括搜索引擎域名的搜索引擎域名白名单,对搜索引擎域名白名单中的搜索引擎域名进行反向查询获取各个搜索引擎域名的IP地址,生成IP地址白名单。
进一步的,所述方法还包括:如果所述来源IP地址不属于IP地址白名单中的IP地址,将所述来源IP地址发送至服务器,以使所述服务器确定所述来源IP地址是否属于搜索引擎的IP地址。
进一步的,所述IP地址白名单为由服务器生成并下发的白名单。
本发明中,位于网站服务器侧的防护装置识别用于抓取所述网站服务器中的资源的抓取请求;判断所述抓取请求的来源IP地址是否为IP地址白名单中的IP地址;如果所述来源IP地址不是IP地址白名单中的IP地址,拦截所述抓取请求。本发明提供的技术方案对于伪装搜索引擎发起的恶意抓取请求能够进行有效的拦截。
附图说明
图1为本发明的一个实施例提供的一种防止恶意抓取的方法的流程示意图;
图2为本发明的一个实施例提供的一种防止恶意抓取的方法的流程示意图;
图3为图2所示的方法中获取IP地址白名单的流程示意图;
图4为本发明的一个实施例提供的一种防护装置的结构示意图;
图5为本发明的一个实施例提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明的一个实施例提供的一种防止恶意抓取的方法的流程示意图,该方法可由位于网站服务器侧的防护装置执行,用于防止对网站服务器中相应资源的恶意抓取,该方法可以包括如下步骤:
步骤101,识别用于抓取所述网站服务器中资源的抓取请求;
步骤102,判断所述抓取请求的来源IP(Internet Protocol)地址是否属于IP地址白名单中的IP地址,若是,则转向步骤104;若否,则转向步骤103;
步骤103,拦截所述抓取请求。
步骤104,放行所述抓取请求。
本发明实施例中,位于网站服务器侧的防护装置识别用于抓取所述网站服务器中的资源的抓取请求;判断所述抓取请求的来源IP地址是否为IP地址白名单中的IP地址;如果所述来源IP地址不是IP地址白名单中的IP地址,则拦截所述抓取请求。本发明提供的技术方案对于伪装搜索引擎发起的恶意抓取请求能够进行有效的拦截。
在具体实施时,这里所指的用于抓取所述网站服务器中资源的抓取请求可以为用于抓取该网站服务器的特定资源的抓取请求。具体来说,这里的特定资源可以为在该网站服务器上首次发表的原创资源,比如一篇新的博文、或者一首原创音乐等。对于这一类的资源在网站服务器中进行存储时,可以在其标签信息(一般为其在网站服务器中的存储路径)中添加相应的标识,用以表示该资源为需要防止恶意抓取的资源。这样,请求抓取该资源的抓取请求所携带的标签信息中也会包含相应的标识,相应的防护装置根据该抓取请求中携带的标签信息能够确定该抓取请求所请求的资源为需要防止恶意抓取的资源,进而针对该抓取请求执行上述的各个步骤。在一些情况下,非原创的资源一般不需要防止抓取,本发明实施例提供的方法能够在有效防止恶意抓取的同时降低防护装置的资源消耗。
在步骤101中,防护装置识别用于抓取所述网站服务器中资源的抓取请求的方式有多种,比如可以对发往网站服务器的访问请求进行检测,获取检测到的访问请求中携带的UA信息和/或referer信息,根据检测到的UA信息和/或referer信息确定该访问请求是否由搜索引擎发起,如果是,则认为该访问请求为是用于抓取网站服务器中的资源的抓取请求。
User Agent中文名为用户,属于头域的构成项目组,User Agent也简称UA。它是一个特别字符串头,是一种向接见网站供给你所应用的浏览器类型及版本、操纵体系及版本、浏览器内核、等信息的标识。经由过程这个标识,用户所接见的网站可以显示不合的排版从而为用户供给更好的体验或者进行信息统计。如果一个访问请求是搜索引擎发起的抓取请求,那么其中携带的UA信息中会携带该搜索引擎的域名字段,比如来自一个特定网站www.example.com的图片抓取请求,其中的http header中携带的UA信息可能会包括如下字段:“examplespider-image+(+http://www.example.com/search/spider.htm)”,此时,可以根据该UA信息中的域名字段确定该访问请求为来自www.example.com的图片抓取请求,另外,一般来自搜索引擎的抓取请求中还包含“spider”“search”等字段,用于表示该抓取请求有搜索引擎的蜘蛛爬虫发起,根据这样的字段也可以判断该抓取请求是否为来自搜索引擎的抓取请求。
referer(引用)是由浏览器在发起请求时填充的一个http请求头信息,用来告诉Web服务器当前访问的资源是从哪个页面链接过来的。例如,如果一个访问请求是由搜索引擎www.example.com跳转而来,那么在其携带的Referer信息中也会相应的携带www.example.com的字段。通过对这些字段进行识别,能够确定该访问请求为来自搜索引擎的抓取请求。进一步的,防护装置在根据UA信息和/或referer信息识别访问请求是否为抓取请求之前,还可以包括首先获取各个搜索引擎的域名信息并存储的步骤,以便于后续识别一个抓取请求是否为搜索引擎发起的抓取请求。
另外,如果在接收到一个抓取请求后,没有从其中检测到referer信息,也可以直接认定该抓取请求不是搜索引擎发起的抓取请求。此时可以直接丢弃该抓取请求。
在具体实施时,在步骤102之前,可以通过多种方式获取IP地址的白名单,比如可以接收网管人员输入的IP地址白名单,或者接收上级服务器(比如云端服务器)下发的IP地址白名单。作为一种可选的方式,可以获取包括搜索引擎域名的搜索引擎域名白名单,对搜索引擎域名白名单中的搜索引擎域名进行反向查询获取各个搜索引擎域名的IP地址,生成IP地址白名单。这样,网管人员仅需在防护装置上输入相应的搜索引擎域名,防护装置即可获得IP地址的白名单,而无需网管人员直接输入搜索引擎的IP地址,降低了防护装置操作的难度。当然实际应用中,获取搜索引擎域名的白名单的方式也不仅限于用户的输入,对各个抓取请求进行识别,确定发起各个抓取请求的搜索引擎的域名并进行统计,也可以得到各个搜索引擎域名的白名单。
在具体实施时,可以在whois数据库中反向查询搜索引擎域名的IP地址,或者也可以通过域名解析方式确定搜索引擎域名的IP地址。具体采用何种方式确定搜索引擎域名的IP地址并不影响本发明的保护范围。
在具体实施时,在根据用户输入的搜索引擎域名的白名单生成IP地址的白名单之后,还可以将生成的IP地址白名单上报至上级服务器,使上级服务器根据多个客户端上报的IP地址白名单进行统计分析,生成一个包含更多IP地址的IP地址白名单,之后将生成的IP地址白名单下发,客户端接收到上级服务器发送的IP地址白名单后,更新自身生成的IP地址白名单。
当然,在实际应用中,IP地址白名单也可以由上级服务器直接下发,上级服务器中的IP地址白名单可以是由网管人员直接输入,也可以是由上级服务器根据网管人员输入的搜索引擎域名白名单生成的IP地址白名单。IP地址白名单如何获取并不是影响本发明的实施,相应的,本发明实施例所列举的获取IP地址白名单的方式也不应该理解为对本发明保护范围的限定。
在具体实施时,这里的IP地址白名单还可以为搜索引擎的域名与IP地址的对应关系表,在步骤102中,判断来源IP地址是否属于IP地址白名单中的IP地址还可以具体包括:确定发起该抓取请求的搜索引擎的域名,在搜素引擎域名与IP地址的对应关系表中查找该域名对应的IP地址,如果查找到的IP地址与该抓取请求的来源IP地址一致,则认为该来源IP地址为IP地址白名单中的地址,如果不一致,则判定该来源IP地址不是IP地址白名单中的地址。
在具体实施时,在判断来源IP地址不属于IP地址白名单中的IP地址时,还可以将该来源IP地址上报给上级服务器,使上级服务器进一步判断该来源IP地址是否是搜索引擎的IP地址,并将判断结果下发。如果判断结果为是,防护装置在接收到判断结果后,放行相应的抓取请求,如果判断结果为否,防护装置在接收到判断结果后,拦截该抓取请求。
本发明中所指的拦截,可以是指将接收到的访问请求丢弃,使该访问请求无法到达网站服务器。需要指出的是,如果该防护装置设置在网站服务器中,或者本身由网站服务器执行,这里的步骤103中的拦截应理解为拒绝将抓取请求所请求抓取的资源返回至源IP地址,另外在步骤103之后,位于网站服务器中的防护装置还可以向源IP地址返回一个拒绝响应的通知消息。
下面结合具体的应用场景对本发明提供的一种防止恶意抓取的方法的完整实施例进行详细说明,假设该方法应用于包含网站服务器、防护装置和上级服务器的系统中,在每一个网站服务器侧设置一个防护装置,用于防止网站服务器中的原创资源被恶意抓取,该上级服务器与各个防护装置通过网络相连。另外,假设网站服务器检测到有原创资源发表时,将原创资源存储到网站服务器中相应的路径下,在该路径的结尾处添加原创标识。该原创标识用于表示该博文的原创的博文。在具体实施时,可以在路径的结尾处添加一个分隔符比如“?”,在该分隔符后添加一个原创标识,比如“org”。
如图2所示,该方法可以包括:
步骤201,防护装置检测发送至所述网站服务器的访问请求。
步骤202,防护装置获取该访问请求中的UA信息,根据获取到的UA信息判断该访问请求是否为来自搜索引擎的抓取请求;若是转向步骤203,若否,转向步骤210。
步骤203,防护装置判断检测到的访问请求中所携带的路径的末段是否含有原创标识。这里的路径用于表示该访问请求所请求的资源的路径。若判断为是,转向步骤204,若判断为否,转向步骤210。
具体的,根据上述示例的原创标识,此时防护装置如果读取到分隔符“?”且在“?”之后读取到“org”字段,则认为该访问请求所请求的资源为原创资源。
步骤204,防护装置获取该访问请求的来源IP地址。之后转向步骤205。
该步骤获取来源IP的具体方式可以参考现有技术,在此不再详细说明。
步骤205,防护装置判断获取到的来源IP地址是否属于预先获取到的IP地址白名单中的IP地址,如果是,转向步骤210,如果否,转向步骤206。
步骤206,防护装置将来源IP地址上报至上级服务器,之后转向步骤207。
步骤207,上级服务器判断接收到的来源IP地址是否为搜索引擎的IP地址,并向防护装置发送判断结果消息。
在具体实施时,如果判断结果为是,可以在发送至防护装置的判断结果消息中携带第一标识,如果判断结果为否,在判断结果消息中携带第二标识。
步骤208,防护装置根据上级服务器发送的判断结果消息判断该来源IP地址是否为搜索引擎的IP地址,如果是,转向步骤210,如果否,转向步骤209。
对应于步骤207中的示例方式,当接收到的判断结果消息中携带的是第一标识时,则判定所述来源IP地址为搜索引擎的IP地址,如果携带的是第二标识,则判定所述来源IP地址不是搜索引擎的IP地址。
当然在实际应用中,也可以设置上级服务器仅在判断为是时,下发判断结果消息。这样,防护装置如果接收到判断结果消息,则认为上级服务器判断所上报的来源IP地址为搜索引擎的IP地址,如果预设的时间段内没有接收到判断结果消息,则认为上级服务器判断所上报的来源IP地址不是搜索引擎的IP地址。或者,也可以设置上级服务器仅在判断为否时,下发判断结果消息。相应的,防护装置如果接收到判断结果消息,则认为上级服务器判断所上报的来源IP地址不是搜索引擎的IP地址,如果预设的时间段内没有接收到判断结果消息,则认为上级服务器判断所上报的来源IP地址是搜索引擎的IP地址。
上级服务器具体采用何种方式将判断结果下发,本发明并不做限定。只要上级服务器能够将判断结果通知到防护装置,且防护装置能够识别出该判断结果,相应的技术方案都应该落入本发明的保护范围。
步骤209,所述防护装置拦截所述访问请求。
步骤210,防护装置将所述访问请求发送到网站服务器。
这样,如果所述访问请求为来自搜索引擎的抓取请求,且该抓取请求所请求抓取的资源为原创资源,且该抓取请求为伪造的抓取请求,那么该抓取请求的IP地址不会为IP地址白名单中的地址,这样的抓取请求最终会拦截。这样就能够有效的防止网站服务器中的内容被恶意抓取。
另外,根据上述图2的步骤,在步骤208中的判断结果为是时,也可以对上述生成的IP地址白名单进行更新。在步骤208中的判断结果为否时,可以将该IP地址加入到黑名单,这样在下次接收到该IP地址发起的抓取请求后,可以直接进行拦截,而无需再次执行上述的步骤206。
作为上述方法的一个分支,如图3所示,该方法中获取IP地址白名单的过程可以包括:
步骤301,防护装置接收网管人员输入的搜索引擎域名白名单。
步骤302,防护装置通过whois反向查询搜索引擎域名白名单中各个搜索引擎域名对应的IP地址,生成IP地址白名单。
步骤303,防护装置将生成的IP地址白名单上报至上级服务器。
步骤304,上级服务器对各个防护装置上报的IP地址白名单中的IP地址被上报的次数进行统计。
步骤305,上级服务器将上报次数超过预设上报次数的IP地址发送给防护装置。
步骤306,防护装置根据上级服务器发送的IP地址更新自身的IP地址白名单。
这里的所指的更新自身的IP地址白名单是指,如果该IP地址不存在于IP地址白名单中,则将该IP地址添加到IP地址白名单中,如果存在于IP地址白名单中,则无需添加。
在具体实施时,在步骤304-步骤305中,上级服务器可以按照预设的周期进行针对防护装置上报的IP地址白名单中的各个IP地址进行统计,确定各个IP地址在预设的时间内被携带在IP地址白名单中上报的次数;或者也可以在接收到其中一个防护装置上报的IP地址白名单后,针对该IP地址白名单中的每一个IP地址,判断这些IP地址白名单在预设的时间内被上报的次数。这里所指的预设的时间内可以是指预设的统计周期,或者在统计周期到来(或者在接收到IP地址白名单)之前的预设时间,或者也可以为某个特定的时间段。
利用图3所示的IP地址白名单的获取方法,网管人员仅需输入搜素引擎域名的白名单即可,降低了操作难度。另外,一个IP地址携带在IP地址白名单中上报至上级服务器的次数超过预设次数,说明有多个网管人员将具有该IP地址的搜索引擎的域名携带在搜索引擎白名单中输入到防护装置中,且多个防护装置通过对该搜索引擎的域名反向查询获得的IP地址相同,则该IP地址很可能就是搜索引擎的IP地址。上级服务器将该IP地址下发给防护装置,能够使一个防护装置获取其他多个防护装置认定的搜索引擎的IP地址,避免错误的拦截。
基于相同的构思,本发明一个实施例还提供了一种防护装置,该防护装置可以用于实现如图1、图2和图3所述的方法,如图4所示,该防护装置可以包括:
识别模块401,用于识别用于抓取网站服务器中的资源的抓取请求;
判断模块402,用于判断识别模块401识别的所述抓取请求的来源IP地址是否属于IP地址白名单中的IP地址;
拦截模块403,用于在判断模块402判断所述来源IP地址不属于IP地址白名单中的IP地址,拦截所述抓取请求。
本发明提供的防护装置,在使用时可以设置在需要防护的网站服务器中,也可以设置在该网站服务器的网络入口处,比如网站服务器的网关处。防护装置中的识别模块对于发送至该网站服务器的访问请求进行监控,识别出其中的用于抓取网站服务器中的资源的抓取请求。之后判断模块判断识别模块识别的抓取请求的IP地址是否为真实的搜索引擎的IP地址。如果不是,则拦截模块对抓取请求进行拦截。通过这种方式,能够拦截伪装搜索引擎发起的抓取请求,有效的防止网站服务器中的资源被恶意抓取。
在具体应用时,识别模块401用于检测到访问所述网站服务器中资源的访问请求,获取检测到的访问请求中携带的UA信息和/或referer信息;根据所述UA信息/或referer信息,确定检测到的访问请求是否为用于抓取所述网站服务器中的资源的抓取请求。
在具体应用时,该防护装置可以还包括:IP地址白名单获取模块404,用于在所述判断模块判断所述来源IP地址是否属于IP地址白名单中的IP地址之前,获取包含搜索引擎域名的搜索引擎域名白名单,对搜索引擎域名白名单中的搜索引擎域名进行反向查询获取各个搜索引擎域名的IP地址,得到IP地址白名单。
在具体应用时,防护装置可以还包括:上报模块405,用于在所述判断模块判断所述来源IP地址不属于IP地址白名单中的IP地址时,将所述来源IP地址发送给服务器,以使所述服务器确定所述来源IP地址是否属于搜索引擎的IP地址。
在具体应用时,当包含上述的IP地址白名单获取模块504时,上述的上报模块还可以用于,将根据域名服务器白名单生成的IP地址白名单上报给上级服务器,当防护装置接收到上级服务器发送的经服务器验证为搜索引擎的IP地址时,上述的IP地址白名单获取模块504还可以对自身根据域名服务器白名单生成的IP地址白名单进行更新,将经服务器验证为搜索引擎的IP地址添加到IP地址白名单中。另外,如果上报模块404上报的不属于其自身IP地址白名单中的IP地址经服务器验证也不是搜索引擎的IP地址,则防护装置中的相应模块(比如IP地址白名单获取模块404)在获得上级服务器发送的判断结果后,还可以将该IP地址加入到黑名单,这样在下次接收到该IP地址发起的抓取请求后,可以直接进行拦截,而无需将该IP地址上报。
在具体应用时,IP地址白名单为由服务器生成并下发的白名单。
基于相同的构思,本发明一个实施例还提供了一种服务器,该服务器可以作为上级服务器实现图1或2所述的方法,如图5所示,该服务器可以具体包括:
接收模块501,用于接收各个防护装置上报的IP地址白名单。
统计模块502,用于统计各个IP地址被携带在IP地址白名单中上报的次数;
下发模块503,用于将上报次数超过预设上报次数的IP地址发送给防护装置。
在本发明实施例中,一个IP地址携带在IP地址白名单中上报至上级服务器的次数超过预设次数,说明多个防护装置判定该IP地址为搜索引擎的IP地址。并且实际上,这样的IP地址很可能就是搜索引擎的IP地址。上级服务器将该IP地址下发给防护装置,能够使一个防护装置获取其他多个防护装置认定的搜索引擎的IP地址,避免错误的拦截。
另外,接收模块501还可以用于接收各个防护装置上报的疑似IP地址,该疑似IP地址为不属于相应的防护装置中的IP地址白名单的来自抓取请求的IP地址,此时,该服务器还可以包括判断模块504,用于对该IP地址进行判断,确定该IP地址实际是否为搜索引擎的IP地址,并将判断结果下发。这样防护装置能够根据接收到的判断结果做进一步的判断。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在于该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是互相排斥之处,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种浏览器终端的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种防止恶意抓取的防护装置,其特征在于,包括:
识别模块,用于识别用于抓取网站服务器中的资源的抓取请求;
判断模块,用于判断所述识别模块识别的所述抓取请求的来源互联网协议IP地址是否属于IP地址白名单中的IP地址;
拦截模块,用于在所述判断模块判断所述来源IP地址不属于IP地址白名单中的IP地址,拦截所述抓取请求;
还包括上报模块,用于将IP地址白名单上传至服务器;
IP地址白名单获取模块,用于接受服务器发送的IP地址白名单,更新自身生成的IP地址白名单;所述服务器发送的IP地址白名单是多个客户端上报的IP地址白名单生成的包含更多IP地址的IP地址白名单;
判断所述识别模块识别的所述抓取请求的来源互联网协议IP地址是否属于IP地址白名单中的IP地址,具体包括:确定发起该抓取请求的搜索引擎的域名,在搜素引擎域名与IP地址的对应关系表中查找该域名对应的IP地址,如果查找到的IP地址与该抓取请求的来源IP地址一致,则认为该来源IP地址为IP地址白名单中的地址,如果不一致,则判定该来源IP地址不是IP地址白名单中的地址。
2.如权利要求1所述的防护装置,其特征在于,所述识别模块用于检测到访问所述网站服务器中资源的访问请求,获取检测到的访问请求中携带的用户代理UA信息和/或引用referer信息;根据所述UA信息/或referer信息,确定检测到的访问请求是否为用于抓取所述网站服务器中的资源的抓取请求。
3.如权利要求1所述的防护装置,其特征在于,所述IP地址白名单获取模块,还包括用于在所述判断模块判断所述来源IP地址是否属于IP地址白名单中的IP地址之前,获取包含搜索引擎域名的搜索引擎域名白名单,对搜索引擎域名白名单中的搜索引擎域名进行反向查询获取各个搜索引擎域名的IP地址,得到IP地址白名单。
4.如权利要求1所述的防护装置,其特征在于,所述上报模块,还包括用于在所述判断模块判断所述来源IP地址不属于IP地址白名单中的IP地址时,将所述来源IP地址发送给服务器,以使所述服务器确定所述来源IP地址是否属于搜索引擎的IP地址。
5.如权利要求1所述的防护装置,其特征在于,所述IP地址白名单为由服务器生成并下发的白名单。
6.一种防止恶意抓取的方法,其特征在于,包括:
位于网站服务器侧的防护装置识别用于抓取所述网站服务器中资源的抓取请求;
判断所述抓取请求的来源互联网协议IP地址是否属于IP地址白名单中的IP地址;
如果所述来源IP地址不属于IP地址白名单中的IP地址,则拦截所述抓取请求;
还包括将IP地址白名单上传至服务器并接受服务器发送的IP地址白名单,更新自身生成的IP地址白名单;所述服务器发送的IP地址白名单是多个客户端上报的IP地址白名单生成的包含更多IP地址的IP地址白名单;
判断所述抓取请求的来源互联网协议IP地址是否属于IP地址白名单中的IP地址,具体包括:确定发起该抓取请求的搜索引擎的域名,在搜素引擎域名与IP地址的对应关系表中查找该域名对应的IP地址,如果查找到的IP地址与该抓取请求的来源IP地址一致,则认为该来源IP地址为IP地址白名单中的地址,如果不一致,则判定该来源IP地址不是IP地址白名单中的地址。
7.如权利要求6所述的方法,其特征在于,所述位于网站服务器侧的防护装置识别用于抓取所述网站服务器中的资源的抓取请求,包括:
所述防护装置检测用于访问所述网站服务器中资源的访问请求,获取检测到的访问请求中携带的UA信息和/或referer信息;根据所述用户代理UA信息和/或引用referer信息,判断检测到的访问请求是否为用于抓取所述网站服务器中的资源的抓取请求。
8.如权利要求6所述的方法,其特征在于,所述判断所述抓取请求的来源IP地址是否属于IP地址白名单中的IP地址之前,所述方法还包括:
获取包括搜索引擎域名的搜索引擎域名白名单,对搜索引擎域名白名单中的搜索引擎域名进行反向查询获取各个搜索引擎域名的IP地址,生成IP地址白名单。
9.如权利要求6所述的方法,其特征在于,所述方法还包括:如果所述来源IP地址不属于IP地址白名单中的IP地址,将所述来源IP地址发送至服务器,以使所述服务器确定所述来源IP地址是否属于搜索引擎的IP地址。
10.如权利要求6所述的方法,其特征在于,所述IP地址白名单为由服务器生成并下发的白名单。
CN201410806643.5A 2014-12-22 2014-12-22 防止恶意抓取的方法和防护装置 Active CN104506525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410806643.5A CN104506525B (zh) 2014-12-22 2014-12-22 防止恶意抓取的方法和防护装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410806643.5A CN104506525B (zh) 2014-12-22 2014-12-22 防止恶意抓取的方法和防护装置

Publications (2)

Publication Number Publication Date
CN104506525A CN104506525A (zh) 2015-04-08
CN104506525B true CN104506525B (zh) 2018-04-20

Family

ID=52948240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410806643.5A Active CN104506525B (zh) 2014-12-22 2014-12-22 防止恶意抓取的方法和防护装置

Country Status (1)

Country Link
CN (1) CN104506525B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104935603A (zh) * 2015-06-24 2015-09-23 郑州悉知信息技术有限公司 一种识别请求的方法及网站服务器
CN105426415A (zh) * 2015-10-30 2016-03-23 Tcl集团股份有限公司 网站访问请求的管理方法、装置及系统
CN105719162B (zh) * 2016-01-20 2020-02-07 北京京东尚科信息技术有限公司 监测推广链接有效性的方法及装置
CN107454051A (zh) * 2016-06-01 2017-12-08 中兴通讯股份有限公司 访问控制方法及家庭网关
CN107888659A (zh) * 2017-10-12 2018-04-06 北京京东尚科信息技术有限公司 用户请求的处理方法及系统
CN108173823A (zh) * 2017-12-21 2018-06-15 五八有限公司 页面防抓取方法及装置
CN108551452B (zh) * 2018-04-18 2021-01-08 平安科技(深圳)有限公司 网络爬虫方法、终端及存储介质
CN110677417A (zh) * 2019-09-29 2020-01-10 武汉极意网络科技有限公司 反爬虫系统及方法
CN110958239B (zh) * 2019-11-26 2021-08-06 腾讯科技(深圳)有限公司 访问请求的校验方法和装置、存储介质及电子装置
CN111147458B (zh) * 2019-12-12 2022-05-03 深圳市高德信通信股份有限公司 一种网络安全防御系统
CN111064827B (zh) * 2020-03-18 2020-07-07 同盾控股有限公司 基于域名泛解析的代理检测方法、装置、设备及介质
CN111953813A (zh) * 2020-08-24 2020-11-17 携程计算机技术(上海)有限公司 Ip地址的识别方法、系统、电子设备及存储介质
CN112422501B (zh) * 2020-09-28 2024-03-01 南方电网数字企业科技(广东)有限公司 正反向隧道防护方法、装置、设备及存储介质
CN114726616A (zh) * 2022-04-07 2022-07-08 京东科技信息技术有限公司 一种网站访问请求的处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810420B1 (en) * 1999-11-03 2004-10-26 3Com Corporation Allocation of IP address by proxy to device in a local area network
CN102868773A (zh) * 2012-08-22 2013-01-09 北京奇虎科技有限公司 检测dns黑洞劫持的方法、装置及系统
CN102916935A (zh) * 2011-08-04 2013-02-06 深圳华强电子交易网络有限公司 一种网站内容防抓取的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810420B1 (en) * 1999-11-03 2004-10-26 3Com Corporation Allocation of IP address by proxy to device in a local area network
CN102916935A (zh) * 2011-08-04 2013-02-06 深圳华强电子交易网络有限公司 一种网站内容防抓取的方法
CN102868773A (zh) * 2012-08-22 2013-01-09 北京奇虎科技有限公司 检测dns黑洞劫持的方法、装置及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
关于反爬虫和恶意攻击的一些策略和;cphmvp;《URL:http://www.bbsmax.com/A/Ae5R1weMJQ/》;20140904;全文 *
如何正确识别Baiduspider移动ua;百度站长平台;《URL:http://zhanzhang.baidu.com/college/courseinfo?id=15》;20141210;"如何正确识别Baiduspider移动ua"、"如何识别百度蜘蛛"、"Baiduspider IP是多少"部分 *
如何识别恶意网络蜘蛛的爬行;电脑学习;《URL: http://free.yes81.net/yes81/view-10837.html》;20110214;"识别恶意蜘蛛的方法"部分 *
防恶意抓取数据的脚本解析;永福;《URL:http://blog.sina.com.cn/s/blog_4ff12f66010161fm.html》;20121014;全文 *

Also Published As

Publication number Publication date
CN104506525A (zh) 2015-04-08

Similar Documents

Publication Publication Date Title
CN104506525B (zh) 防止恶意抓取的方法和防护装置
CN106657044B (zh) 一种用于提高网站系统安全防御的网页地址跳变方法
US8707429B2 (en) DNS resolution, policies, and views for large volume systems
US9258289B2 (en) Authentication of IP source addresses
CN104917779B (zh) 一种基于云的cc攻击的防护方法、装置及系统
CN104219200B (zh) 一种防范dns缓存攻击的装置和方法
CN104396220A (zh) 用于安全内容检索的方法和设备
US8646038B2 (en) Automated service for blocking malware hosts
TW201824047A (zh) 攻擊請求的確定方法、裝置及伺服器
US20130312081A1 (en) Malicious code blocking system
CA3021054A1 (en) Rule-based network-threat detection
US9948649B1 (en) Internet address filtering based on a local database
CN102137111A (zh) 一种防御cc攻击的方法、装置和内容分发网络服务器
CN109802919B (zh) 一种web网页访问拦截方法及装置
US9264440B1 (en) Parallel detection of updates to a domain name system record system using a common filter
WO2017067443A1 (zh) 一种安全域名系统及其故障处理方法
CN101901232A (zh) 用于处理网页数据的方法和装置
CN109660552A (zh) 一种将地址跳变和WAF技术相结合的Web防御方法
US10931688B2 (en) Malicious website discovery using web analytics identifiers
US20130054782A1 (en) Determination of unauthorized content sources
EP3332533B1 (en) Parallel detection of updates to a domain name system record system using a common filter
CN105939347A (zh) 防御域名攻击的方法及装置
CN104679798B (zh) 网页检测方法及装置
JP2011193343A (ja) 通信ネットワーク監視システム
CN105939320A (zh) 处理报文的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20161129

Address after: 100015 Chaoyang District Road, Jiuxianqiao, No. 10, building No. 3, floor 15, floor 17, 1701-26,

Applicant after: BEIJING QIANXIN TECHNOLOGY Co.,Ltd.

Address before: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park)

Applicant before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Applicant before: Qizhi software (Beijing) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Patentee after: Qianxin Technology Group Co.,Ltd.

Address before: 100015 15, 17 floor 1701-26, 3 building, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Patentee before: BEIJING QIANXIN TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201231

Address after: 100044 2nd floor, building 1, yard 26, Xizhimenwai South Road, Xicheng District, Beijing

Patentee after: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

Patentee after: Qianxin Technology Group Co.,Ltd.

Address before: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Patentee before: Qianxin Technology Group Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100044 2nd floor, building 1, yard 26, Xizhimenwai South Road, Xicheng District, Beijing

Patentee after: Qianxin Wangshen information technology (Beijing) Co.,Ltd.

Patentee after: Qianxin Technology Group Co.,Ltd.

Address before: 100044 2nd floor, building 1, yard 26, Xizhimenwai South Road, Xicheng District, Beijing

Patentee before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

Patentee before: Qianxin Technology Group Co.,Ltd.