CN103631830A - 网络爬虫检测方法和装置 - Google Patents

网络爬虫检测方法和装置 Download PDF

Info

Publication number
CN103631830A
CN103631830A CN 201210312492 CN201210312492A CN103631830A CN 103631830 A CN103631830 A CN 103631830A CN 201210312492 CN201210312492 CN 201210312492 CN 201210312492 A CN201210312492 A CN 201210312492A CN 103631830 A CN103631830 A CN 103631830A
Authority
CN
Grant status
Application
Patent type
Prior art keywords
information
url
behavior
client
web
Prior art date
Application number
CN 201210312492
Other languages
English (en)
Inventor
蒋武
李世光
曾祥禄
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/30861Retrieval from the Internet, e.g. browsers
    • G06F17/30864Retrieval from the Internet, e.g. browsers by querying, e.g. search engines or meta-search engines, crawling techniques, push systems

Abstract

本发明实施例提供一种网络爬虫检测方法和装置,该方法包括:获取客户端访问网页中所包含的各统一资源定位符URL路径信息;根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息;根据所述行为特征信息,确定所述客户端的访问行为是否是网络爬虫。本发明实施例通过确定客户端访问网页的行为特征信息,并判断该行为特征信息是否符合网络爬虫的行为特征信息,从而确定客户端的访问是否是网络爬虫,可以提高网络爬虫检测的准确率。

Description

网络爬虫检测方法和装置

技术领域

[0001 ] 本发明涉及网络技术,尤其涉及一种网络爬虫检测方法和装置。

背景技术

[0002] 网络爬虫是搜索引擎技术的基础组成部分。网络爬虫技术是从一个或若干初始网页的URL (Uniform Resource Locator,统一资源定位符)开始,获得初始网页上的URL,在抓取网页信息的过程中,根据网页的抓取策略,不断从当前页面上抽取新的URL放入队列,直到满足某种停止条件。然后将抓取到的网页信息存储在搜索引擎的服务器中,从而可以加快用户的搜索速度。

[0003] 现有技术中检测网络爬虫是通过设置阈值的方法来实现的,即统计同一时刻客户端的IP地址访问服务器端的IP地址时的会话连接数,若访问时的会话连接数超过了设置的阈值,则认为该IP地址对应的客户端正在通过网络爬虫抓取网页。

[0004] 在实现本发明实施例的过程中,发明人发现现有技术中,当客户端的IP地址正常访问服务器的IP地址时,访问时的会话连接数也可能会超过设置的阈值,此时现有技术会误认为是网络爬虫从而造成误检。

发明内容

[0005] 本发明实施例提供一种网络爬虫检测方法和装置,可以解决通过设置阈值的方法会将正常访问网络误检为网络爬虫的问题,从而用以提高网络爬虫检测的准确率。

[0006] 在一方面中,本发明实施例提供一种网络爬虫检测方法,包括:

[0007] 获取客户端访问网页中所包含的各统一资源定位符URL路径信息;

[0008] 根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息;

[0009] 根据所述行为特征信息,确定所述客户端的访问行为是否是网络爬虫。

[0010] 在上述一方面的第一种可能的实现方式中,所述根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息,包括:根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的行为特征信息为递归搜索行为特征信息;

[0011] 所述根据所述行为特征信息,确定所述客户端的访问行为是否是网络爬虫,包括:根据所述递归搜索行为特征信息,确定所述客户端的访问行为是网络爬虫。

[0012] 在上述一方面的第一种可能的实现方式中的第二种可能实现的方式中,所述根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的行为特征信息为递归搜索行为特征信息,包括:根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息或为进行逐级深度搜索的行为特征信息。

[0013] 在上述一方面或上述一方面的第一种可能的实现方式或上述一方面的第二种可能的实现方式中的第三种可能的实现方式中,所述根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息之前,还包括:采用网络爬虫技术抓取网页信息,建立所述URL多插树结构。

[0014] 在上述一方面或上述一方面的第一种可能的实现方式或上述一方面的第二种可能的实现方式中的第四种可能的实现方式中,所述获取客户端访问网页中各URL路径信息之前,还包括:确定所述客户端与网页服务器之间的连接数超过预设阈值。

[0015] 在另一方面中,本发明实施例还提供一种网络爬虫检测装置,包括:

[0016] 获取模块,用于获取客户端访问网页中所包含的各统一资源定位符URL路径信息;

[0017] 第一确定模块,用于根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息;

[0018] 第二确定模块,用于根据所述行为特征信息,确定所述客户端的访问行为是否是网络爬虫。

[0019] 在上述另一方面的第一种可能的实现方式中,所述第一确定模块包括第一确定单元,所述第二确定模块包括第二确定单元;所述第一确定单元,用于根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的行为特征信息为递归搜索行为特征信息;所述第二确定单元,用于根据所述递归搜索行为特征信息,确定所述客户端的访问行为是网络爬虫。

[0020] 在上述另一方面的第一种可能的实现方式中的第二种可能的实现方式中,所述第一确定单元,具体用于根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息或为进行逐级深度搜索的行为特征信息。

[0021] 在上述另一方面或上述另一方面的第一种可能的实现方式或上述另一方面的第二种可能的实现方式中的第三种可能的实现方式中,还包括:

[0022] 预处理模块,用于在确定所述客户端访问网页的行为特征信息之前采用网络爬虫技术抓取网页信息,建立所述URL多插树结构。

[0023] 在上述另一方面或上述另一方面的第一种可能的实现方式或上述另一方面的第二种可能的实现方式中的第四种可能的实现方式中,还包括:

[0024] 第三确定模块,用于在获取客户端访问网页中各URL路径信息之前,确定所述客户端与网页服务器之间的连接数超过预设阈值。

[0025] 本发明实施例提供的网络爬虫检测方法和装置,通过确定客户端访问网页服务器中网页的各URL路径信息,并根据该网页服务器中网页的URL多插树结构和URL路径信息,确定客户端访问网页的行为特征信息,并判断该行为特征信息是否符合网络爬虫的行为特征信息,从而确定客户端的访问是否是网络爬虫,可以提高网络爬虫检测的准确率,解决了设置阈值法会将正常访问行为误检为网络爬虫的问题。

附图说明

[0026] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

[0027] 图1为本发明网络爬虫检测方法实施例一的流程图;

[0028] 图2为图1中URL多插树结构的示意图;

[0029] 图3为本发明网络爬虫检测方法实施例二的流程图;

[0030] 图4为本发明网络爬虫检测装置实施例一的结构示意图;

[0031] 图5为本发明网络爬虫检测装置实施例二的结构示意图;

[0032] 图6为包含本发明网络爬虫检测装置的系统实施例的示意图。

具体实施方式

[0033] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

[0034] 图1为本发明网络爬虫检测方法实施例一的流程图,如图1所示,本实施例的方法可以包括:

[0035] 步骤101、获取客户端访问网页中所包含的各URL路径信息;

[0036] URL是用于完整描述因特网Internet上网页和其他资源的地址的一种标识方法,对应地,Internet上的每一个网页都具有一个唯一的URL。当客户端需要访问网页服务器中的网页时,就要先获取到该网页的URL。本实施例需要获取到访问该网页的URL路径信

肩、O

[0037] 步骤102、根据网页的URL多插树结构以及URL路径信息,确定客户端访问网页的行为特征信息;

[0038] 一个网页服务器的网站在建立时,各网页的URL之间的关联关系也相应地被建立了,即形成了 URL多插树结构。图2为图1中URL多插树结构的示意图,如图2所示,获取首页的URL可以访问首页信息,通过首页可以获取到该首页包含的所有下一级网页中的URLUURL2和URL3等并且可以访问各URL对应的网页信息,还可以通过各下一级的网页获取到该各网页中所包含的再下一级的网页中的URLl-1、URLl-2等并且可以访问各URL对应的网页信息,以及类推。根据URL多插树结构,客户端可以访问网页服务器的所有网页。若客户端访问了网页服务器中的URL1-1对应的网页和URL2-1对应的网页,则客户端访问网页的行为特征信息是 URL-URL1-URL1-1 和 URL — URL2 — URL2-1。

[0039] 需要说明的是,本实施例中的URL多插树结构并不限定为图2所示结构。

[0040] 步骤103、根据行为特征信息,确定客户端的访问行为是否是网络爬虫。

[0041] 将确定的客户端的行为特征信息与网络爬虫的行为特征信息进行比较;网络爬虫的行为特征信息是从任一网页的URL开始,获取该任一网页的网页信息,然后不断获取该任一网页中包含的URL并抓取该URL对应的网页信息,以此类推,直到发现没有未被获取的URL为止,即网络爬虫将网页服务器中网页的URL多插树结构中所有的URL都遍历了一次。若客户端的行为特征符合网络爬虫的行为特征,则确定该客户端的访问行为是网络爬虫;若客户端的行为特征不符合网络爬虫的行为特征,则确定该客户端的访问行为不是网络爬虫,而是正常访问行为。

[0042] 本实施例,通过获取客户端访问网页服务器中网页的各URL路径信息,并根据该网页服务器中网页的URL多插树结构和URL路径信息,确定客户端访问网页的行为特征信息,并判断该行为特征信息是否符合网络爬虫的行为特征信息,从而确定客户端的访问是否是网络爬虫,可以提高网络爬虫检测的准确率,解决了设置阈值法会将正常访问行为误检为网络爬虫的问题。

[0043] 图3为本发明网络爬虫检测方法实施例二的流程图,如图3所示,本实施例的网络爬虫检测方法在图1所示方法实施例一的基础上更加详细的介绍本发明的技术方案,本实施例的方法具体可以包括:

[0044] 步骤301、采用网络爬虫技术抓取网页信息,建立URL多插树结构。

[0045] 一个网页服务器中具有非常多的URL并且各URL之间的关系也是错综复杂的,为了清楚地获取并表示URL之间的关系,可以通过建立URL多插树结构,由于网络爬虫抓取网页的速度非常快而且每个网页只获取一次,可以准确抓取到每个网页,因此,可以采用网络爬虫软件通过网络爬虫技术快速抓取网页服务器中各网页信息,并将各网页中的URL建立成URL多插树结构,以便将所有网页的URL都关联起来。

[0046] 具体地,采用网络爬虫技术抓取所需保护的网页信息,建立所需保护的网页的URL多插树结构。先配置所需保护网页服务器的IP地址,则该网页服务器中的所有网页信息均是所需保护的网页信息,再设置该网页服务器中的首页URL,然后与该网页服务器的IP地址建立连接,网络爬虫软件主动抓取到首页URL后再抓取该网页服务器的所有网页的URL,相应地,建立了所需保护的网页的URL多插树结构。

[0047] 步骤302、确定客户端与网页服务器之间的连接数是否超过预设阈值,若超过,则执行步骤303,否则结束。

[0048] 客户端访问网页服务器的网页时,每获取一个URL并访问该网页时对应地客户端与网页服务器之间就会产生一个会话连接数,若客户端是通过网络爬虫抓取网页时,需要将网页服务器的所有网页都抓取到,因此,一般来说,进行网络爬虫的客户端与网页服务器之间的会话连接数要大于正常访问下的客户端与网页服务器之间的会话连接数。因此,可以通过预设阈值的方法对客户端访问网页服务器的行为进行一个预判断,首先设置一个阈值,本领域普通技术人员可以理解,预设的阈值大小可以根据网页服务器的情况来进行设置,因此,本发明在此不做限制。统计客户端与网页服务器之间的会话连接个数,若确定该会话连接个数超过预设的阈值时,则说明客户端可能通过网络爬虫在访问网页服务器的网页,为了准确地确定客户端的访问行为,可以通过上述各实施例提供的网络爬虫检测方法对客户端的行为进行进一步确定;若确定该连接个数没有超过预设的阈值时,则说明客户端在正常访问网页服务器,结束检测行为。

[0049] 通过预设阈值法对客户端与网页服务器之间的连接数进行一个预判断,确定客户端与网页服务器之间的连接数超过预设阈值后,再通过客户端的行为特征信息进一步确定客户端的访问行为是否是网络爬虫,从而可以进一步提高网络爬虫检测的准确率,解决了设置阈值法会将正常访问行为误检为网络爬虫的问题。

[0050] 步骤303、获取客户端访问网页中所包含的各URL路径信息;

[0051] 步骤304、根据网页的URL多插树结构以及URL路径信息,确定客户端的行为特征信息为递归搜索行为特征信息;

[0052] 需要说明的是,本实施例中的步骤301只要在步骤304之前执行即可,例如,该步骤301也可以在步骤303之前执行,本实施例不作限定。

[0053] 步骤305、根据递归搜索行为特征信息,确定客户端的访问行为是网络爬虫。

[0054] 本实施例需要根据网页的URL多插树结构以及URL路径信息,确定客户端的行为特征信息,并判断客户端的行为特征信息是否为递归搜索行为特征信息。递归搜索的行为特征信息具体可以包括逐级广度搜索的行为特征信息和逐级深度搜索的行为特征信息,而网络爬虫也会通过逐级广度搜索和逐级深度搜索去抓取网页。因此,只要判断客户的行为特征信息是否为递归搜索行为特征信息,即可确定客户端访问网页的行为;若确定客户端的行为特征信息是递归搜索行为特征信息,则客户端是通过网络爬虫访问网页;若确定客户端的行为特征信息不是递归搜索行为特征信息,则客户端是正常访问网页。

[0055] 本实施例,通过获取客户端访问网页服务器中网页的各URL路径信息,并根据该网页服务器中网页的URL多插树结构和URL路径信息,确定客户端访问网页的行为特征信息为递归搜索行为特征信息时,则可确定客户端的访问网页行为是网络爬虫,从而可以提高网络爬虫检测的准确率,解决了设置阈值法会将正常访问行为误检为网络爬虫的问题。

[0056] 在具体实现时,上述图3所示实施例可以采用如下两种具体的实施例实现。

[0057] 在本发明网络爬虫检测方法实施例三中,上述步骤304可以具体为:根据网页的URL多插树结构以及URL路径信息,确定客户端的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息;步骤305可以具体为:根据逐级广度搜索的行为特征信息,确定客户端的访问行为是网络爬虫。

[0058] 具体来说,逐级广度搜索的行为特征信息是指在访问网页的过程中,在获取完当前级的URL对应的网页后,才获取当前级网页中包含的下一级网页的URL,以此类推,直到将网页中所有的URL遍历一次并且没有发现未被获取的URL为止,结束访问网页行为。如图2所示,逐级广度搜索的行为特征信息可以是第一步获取首页URL并访问首页信息,第二步获取首页中下一级网页的URL1、URL2和URL3等并且访问各URL对应的各网页信息,第三步获取URLl-1和URL1-2等、URL2-1和URL2-1等以及URL3-1和URL3-2等并且访问各URL对应的各网页信息,第四步获取刚刚获取过的URL对应网页中下一级网页的URL并且访问各URL对应的各网页信息,以此类推,直到发现没有未被获取的URL时则停止访问网页的行为。若根据网页的URL多插树结构以及URL路径信息,判断客户端的行为特征信息为如上所述的行为特征信息,则确定客户端的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息。根据确定逐级广度搜索的行为特征信息,而且由于该行为特征信息符合网络爬虫抓取网页的行为特征信息,所以此时可以确定该客户端的访问行为是网络爬虫。

[0059] 本实施例,通过获取客户端访问网页服务器中网页的各URL路径信息,并根据该网页服务器中网页的URL多插树结构和URL路径信息,确定客户端访问网页的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息时,则确定客户端的访问行为是网络爬虫,从而可以提高网络爬虫检测的准确率,解决了设置阈值法会将正常访问行为误检为网络爬虫的问题。

[0060] 在本发明网络爬虫检测方法实施例四中,上述步骤304可以具体为:根据网页的URL多插树结构以及URL路径信息,确定客户端的递归搜索行为特征信息为进行逐级深度搜索的行为特征信息;上述步骤305可以具体为:根据逐级深度搜索的行为特征信息,确定客户端的访问行为是网络爬虫。

[0061] 具体来说,逐级深度搜索的行为特征信息是指在访问网页的过程中,在获取完当前级的URL对应的网页后,才获取当前网页包含的下一级中一个网页的URL,以此类推,直到这一条网页连接链路中没有发现未被获取的URL为止,再返回获取另一条网页连接链路中网页的URL,并且每个网页的URL只能获取一次,以此类推,直到将网页中所有的URL遍历一次并且没有发现未被获取的URL为止,结束访问网页行为。如图2所示,逐级深度搜索的行为特征信息可以是首先获取首页URL并访问首页信息;然后,第一步获取第一条网页连接链路中各网页的URL,即先获取URL1,再获取URL1-1,直到第一条网页连接链路中没有未被获取的URL为止;第二步获取第二条网页连接链路中未被获取的各网页的URL,即获取URL1-2,直到第二条网页连接链路中没有未被获取的URL为止;第三步获取第三条网页连接链路中未被获取的各网页的URL,即先获取URL2,再获取URL2-1,直到第三条网页连接链路中没有未被获取的URL为止;第四步获取第四条网页连接链路中未被获取的各网页的URL,即获取URL2-2,直到第四条网页连接链路中没有未被获取的URL为止;第五步获取第五条网页连接链路中未被获取的各网页的URL,即先获取顺序URL3,再获取URL3-1,直到第五条网页连接链路中没有未被获取的URL为止;第六步获取第六条网页连接链路中未被获取的各网页的URL,即获取顺序为URL3-2,直到第六条网页连接链路中没有未被获取的URL为止;以此类推,直到发现没有未被获取的URL时则停止访问网页的行为。若根据网页的URL多插树结构以及URL路径信息,判断客户端的行为特征信息为如上所述的行为特征信息,则确定客户端的递归搜索行为特征信息为进行逐级深度搜索的行为特征信息。根据确定客户端的递归搜索行为特征信息为进行逐级深度搜索的行为特征信息,而且由于该行为特征信息符合网络爬虫抓取网页的行为特征信息,所以此时可以确定该客户端的访问行为是网络爬虫。

[0062] 本实施例,通过获取客户端访问网页服务器中网页的各URL路径信息,并根据该网页服务器中网页的URL多插树结构和URL路径信息,确定客户端访问网页的递归搜索行为特征信息为进行逐级深度搜索的行为特征信息时,则确定客户端的访问行为是网络爬虫,从而可以提高网络爬虫检测的准确率,解决了设置阈值法会将正常访问行为误检为网络爬虫的问题。

[0063] 例如在NAT (Network Address Translation,网络地址转换)场景下,也就是,一个局域网中具有很多个用户,各个用户对应着一个私有地址,当各个用户通过路由器发送数据时,各个用户的私有地址会被转换成合法的IP地址,这有助于减缓可用IP地址空间的枯竭,该IP地址可以为少量的几个,甚至也可以是一个。如果该合法的IP地址为一个时,该局域网中的很多个用户在同时访问同一服务器时,采用现有技术的预设阈值方法,此时会将这个局域网中很多个用户的正常访问行为误认为是该IP地址对应的一个用户的行为是网络爬虫行为,从而引起错误的操作行为。采用上述本发明各实施例提供的网络爬虫检测方法,就有效避免了在NAT场景下将正常访问行为误检为网络爬虫行为。

[0064] 图4为本发明网络爬虫检测装置实施例一的结构示意图,如图4所示,本实施例的装置可以包括:获取模块11、第一确定模块12和第二确定模块13。其中,获取模块11,用于获取客户端访问网页中所包含的各统一资源定位符URL路径信息;第一确定模块12,用于根据网页的URL多插树结构以及URL路径信息,确定客户端访问网页的行为特征信息;第二确定模块13,用于根据行为特征信息,确定客户端的访问行为是否是网络爬虫。

[0065] 本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,详细可以参考上述实施例的记载,此处不再赘述。

[0066] 图5为本发明网络爬虫检测装置实施例二的结构示意图,如图5所示,本实施例的网络爬虫检测装置在图4所示装置结构的基础上,进一步地,第一确定模块12可以包括第一确定单元121,第二确定模块13可以包括第二确定单元131,第一确定单元121与第二确定单元131相连。其中,第一确定单元121,用于根据网页的URL多插树结构以及URL路径信息,确定客户端的行为特征信息为递归搜索行为特征信息;第二确定单元131,用于根据递归搜索行为特征信息,确定客户端的访问行为是网络爬虫。

[0067] 进一步地,本实施例还可以包括预处理模块14,该预处理模块14用于在确定客户端访问网页的行为特征信息之前采用网络爬虫技术抓取网页信息,建立URL多插树结构。具体地,该预处理模块14可以用于采用网络爬虫技术抓取所需保护的网页信息,建立所需保护的网页的URL多插树结构。

[0068] 进一步地,本实施例还可以包括第三确定模块15,该第三确定模块15用于在获取客户端访问网页中各URL路径信息之前,确定客户端与网页服务器之间的连接数超过预设阈值。

[0069] 需要说明的是,本实施例中的预处理模块14可以与第三确定模块15相连,预处理模块14也可以与获取模块11相连,本实施例不作限定。

[0070] 本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,详细可以参考上述实施例的记载,此处不再赘述。

[0071] 在具体实现时,上述图5所示实施例可以采用如下两种具体的实施例实现。

[0072] 在本发明网络爬虫检测装置实施例三中,上述第一确定单元121可以具体用于根据网页的URL多插树结构以及URL路径信息,确定客户端的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息;上述第二确定单元131可以具体用于根据逐级广度搜索的行为特征信息,确定客户端的访问行为是网络爬虫。

[0073] 本实施例的装置,可以用于执行本发明网络爬虫检测方法实施例三所示方法实施例的技术方案,其实现原理和技术效果类似,详细可以参考上述实施例的记载,此处不再赘述。

[0074] 在本发明网络爬虫检测装置实施例四中,上述第一确定单元121可以具体用于根据网页的URL多插树结构以及URL路径信息,确定客户端的递归搜索行为特征信息为进行逐级深度搜索的行为特征信息;上述第二确定单元131可以具体用于根据逐级深度搜索的行为特征信息,确定客户端的访问行为是网络爬虫。

[0075] 本实施例的装置,可以用于执行本发明网络爬虫检测方法实施例四所示方法实施例的技术方案,其实现原理和技术效果类似,详细可以参考上述实施例的记载,此处不再赘述。

[0076] 图6为包含本发明网络爬虫检测装置的系统实施例的示意图,如图6所示,其中,服务器3、防火墙2、网络爬虫检测装置1、网关4及客户机5可以为独立设置的网络实体设备,各设备之间的实线表示各设备之间的通信连接。而且,本实施例中的网络爬虫检测装置I可以采用本发明网络爬虫检测装置实施例一至四任一实施例所示的装置。客户机5可以经过网关4、网络爬虫检测装置1、防火墙2访问服务器3,当网络爬虫检测装置I检测到客户机5访问服务器3的这次行为为网络爬虫时,网络爬虫检测装置I将客户机5对应的IP地址发给防火墙2,防火墙2将该IP地址设置在黑名单中,以阻止该IP地址对应的客户机5访问服务器3,以保护服务器3中的资源信息。

[0077] 网络爬虫检测装置I可以是独立的设备,也可以设置在网关或者防火墙等设备中,根据具体需求而定。

[0078] 需要说明的是,有关服务器3、防火墙2、网关4及客户机5的结构,以及各设备之间的通信,本领域普通技术人员可以理解为与现有技术中的一致,此处不做赘述。

[0079] 本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:R0M、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

[0080] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种网络爬虫检测方法,其特征在于,包括: 获取客户端访问网页中所包含的各统一资源定位符URL路径信息; 根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息; 根据所述行为特征信息,确定所述客户端的访问行为是否是网络爬虫。
2.根据权利要求1所述的方法,其特征在于,所述根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息,包括: 根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的行为特征信息为递归搜索行为特征信息; 所述根据所述行为特征信息,确定所述客户端的访问行为是否是网络爬虫,包括: 根据所述递归搜索行为特征信息,确定所述客户端的访问行为是网络爬虫。
3.根据权利要求2所述的方法,其特征在于,所述根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的行为特征信息为递归搜索行为特征信息,包括: 根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息或为进行逐级深度搜索的行为特征信肩、O
4.根据权利要求f 3中任一项所述的方法,其特征在于,所述根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息之前,还包括: 采用网络爬虫技术抓取网页信息,建立所述URL多插树结构。
5.根据权利要求1~3中任一项所述的方法,其特征在于,所述获取客户端访问网页中各URL路径信息之前,还包括: 确定所述客户端与网页服务器之间的连接数超过预设阈值。
6.一种网络爬虫检测装置,其特征在于,包括: 获取模块,用于获取客户端访问网页中所包含的各统一资源定位符URL路径信息; 第一确定模块,用于根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端访问网页的行为特征信息; 第二确定模块,用于根据所述行为特征信息,确定所述客户端的访问行为是否是网络爬虫。
7.根据权利要求6所述的装置,其特征在于,所述第一确定模块包括第一确定单元,所述第二确定模块包括第二确定单元; 所述第一确定单元,用于根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的行为特征信息为递归搜索行为特征信息; 所述第二确定单元,用于根据所述递归搜索行为特征信息,确定所述客户端的访问行为是网络爬虫。
8.根据权利要求7所述的装置,其特征在于,所述第一确定单元,具体用于根据所述网页的URL多插树结构以及所述URL路径信息,确定所述客户端的递归搜索行为特征信息为进行逐级广度搜索的行为特征信息或为进行逐级深度搜索的行为特征信息。
9.根据权利要求51中任一项所述的装置,其特征在于,还包括: 预处理模块,用于在确定所述客户端访问网页的行为特征信息之前采用网络爬虫技术抓取网页信息,建立所述URL多插树结构。
10.根据权利要求51中任一项所述的装置,其特征在于,还包括: 第三确定模块,用于在获取客户端访问网页中各URL路径信息之前,确定所述客户端与网页 服务器之间的连接数超过预设阈值。
CN 201210312492 2012-08-29 2012-08-29 网络爬虫检测方法和装置 CN103631830A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210312492 CN103631830A (zh) 2012-08-29 2012-08-29 网络爬虫检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201210312492 CN103631830A (zh) 2012-08-29 2012-08-29 网络爬虫检测方法和装置

Publications (1)

Publication Number Publication Date
CN103631830A true true CN103631830A (zh) 2014-03-12

Family

ID=50212892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201210312492 CN103631830A (zh) 2012-08-29 2012-08-29 网络爬虫检测方法和装置

Country Status (1)

Country Link
CN (1) CN103631830A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置
CN106202467A (zh) * 2016-07-18 2016-12-07 浪潮集团有限公司 种面向对等网络的可定义搜索重点的网络爬虫方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置
CN106202467A (zh) * 2016-07-18 2016-12-07 浪潮集团有限公司 种面向对等网络的可定义搜索重点的网络爬虫方法

Similar Documents

Publication Publication Date Title
US20150373043A1 (en) Collaborative and Adaptive Threat Intelligence for Computer Security
US20120174225A1 (en) Systems and Methods for Malware Detection and Scanning
US8370407B1 (en) Systems providing a network resource address reputation service
US20020120853A1 (en) Scripted distributed denial-of-service (DDoS) attack discrimination using turing tests
US20090119777A1 (en) Method and system of determining vulnerability of web application
US20150373039A1 (en) Entity Group Behavior Profiling
Lam et al. Puppetnets: misusing web browsers as a distributed attack infrastructure
US20130007882A1 (en) Methods of detecting and removing bidirectional network traffic malware
US20080281983A1 (en) Client side protection against drive-by pharming via referrer checking
US8301787B2 (en) Selective use of anonymous proxies
US8464318B1 (en) System and method for protecting web clients and web-based applications
US20080235623A1 (en) Privacy enhanced browser
CN102419808A (zh) 一种下载链接安全性检测方法、装置及系统
CN102624920A (zh) 一种通过代理服务器进行访问的方法及装置
CN104113519A (zh) 网络攻击检测方法及其装置
CN102594825A (zh) 一种内网木马的检测方法和装置
JP2008204425A (ja) Urlの類似性分析による処理省略判定プログラム、装置
Marchal et al. Phishstorm: Detecting phishing with streaming analytics
CN103269389A (zh) 检查和修复恶意dns设置的方法和装置
US8893278B1 (en) Detecting malware communication on an infected computing device
John et al. Heat-seeking honeypots: design and experience
CN102457500A (zh) 一种网站扫描设备和方法
JP2011257901A (ja) 解析システム、解析装置、解析方法及び解析プログラム
CN103179132A (zh) 一种检测和防御cc攻击的方法及装置
CN102663000A (zh) 恶意网址数据库的建立方法、恶意网址的识别方法和装置

Legal Events

Date Code Title Description
C10 Entry into substantive examination
RJ01