CN106156055B - 搜索引擎爬虫的识别、处理方法及装置 - Google Patents

搜索引擎爬虫的识别、处理方法及装置 Download PDF

Info

Publication number
CN106156055B
CN106156055B CN201510142387.9A CN201510142387A CN106156055B CN 106156055 B CN106156055 B CN 106156055B CN 201510142387 A CN201510142387 A CN 201510142387A CN 106156055 B CN106156055 B CN 106156055B
Authority
CN
China
Prior art keywords
statistical
access
data
client
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510142387.9A
Other languages
English (en)
Other versions
CN106156055A (zh
Inventor
任宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510142387.9A priority Critical patent/CN106156055B/zh
Publication of CN106156055A publication Critical patent/CN106156055A/zh
Application granted granted Critical
Publication of CN106156055B publication Critical patent/CN106156055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种搜索引擎爬虫的识别、处理方法及装置。其中,该识别方法包括:获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,所述各个统计时间段组成所述统计周期;对所述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,所述指定统计参数用于反映所述统计数据的相同统计特征;在每个所述指定统计参数对应的统计值均大于预设阈值时,确定所述客户端对所述网站的访问行为为搜索引擎爬虫访问。本发明解决了相关技术中由于搜索引擎爬虫识别存在的漏报、误检测等导致的准确性和可靠性不高等技术问题。

Description

搜索引擎爬虫的识别、处理方法及装置
技术领域
本发明涉及爬虫识别领域,具体而言,涉及一种搜索引擎爬虫的识别、处理方法及装置。
背景技术
目前,云计算的发展趋势迅猛,日益被大众所熟知并接受,企业也逐渐将各类应用、网站、服务迁移到云服务商提供的云计算环境。同时,通过爬虫程序访问web页面,从网络上获取数据的现象越来越普遍。
爬虫既有来自传统的搜索引擎,也有来自其他渠道的爬虫,尽管云环境中的很多网站,希望允许搜索引擎的爬虫访问,以扩大知名度,引来更多的用户访问,但是由于存在来自其他渠道的爬虫,例如一些爬虫访问仅仅用于自身目的,对网站没有贡献,但却占用网站的大量网络带宽和服务资源,对网站造成压力,同时还有可能影响正常用户的访问,因而,需要对搜索引擎爬虫进行识别,以能够阻断非搜索引擎的访问,降低资源消耗。
而目前,针对搜索引擎爬虫的识别,主要存在两种方案:第一种方案是根据http请求中的用户代理(UserAgent)来识别,第二种方案是根据源ip地址来识别。对于现有技术中的这个两种识别方式都存在一定程度的缺陷,比如:对于第一种方案,由于http请求是由访问者构造的,UA(UserAgent)可以随意指定,恶意爬虫也可以将自己的访问设置成搜索引擎的UA,绕过检测,存在漏报的问题;对于第二种方案,尽管该方案可能不容易出现漏报的问题,但由于爬虫来源ip可能发生变化,然而一旦发生变化,如果后台不及时更新,就会出现误检情况。
针对现有技术中的搜索引擎爬虫识别方法存在漏报、误检的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种搜索引擎爬虫的识别、处理方法及装置,以至少解决相关技术中由于搜索引擎爬虫识别存在的漏报、误检测等导致的准确性和可靠性不高的技术问题。
根据本发明实施例的一个方面,提供了一种搜索引擎爬虫的识别方法,包括:获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,各个统计时间段组成统计周期;对统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,指定统计参数用于反映统计数据的相同统计特征;在每个指定统计参数对应的统计值均大于预设阈值时,确定客户端对网站的访问行为为搜索引擎爬虫访问。
根据本发明实施例的另一方面,还提供了一种搜索引擎爬虫的识别装置,包括:获取模块,用于获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,各个统计时间段组成统计周期;预处理模块,用于对统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,指定统计参数用于反映统计数据的相同统计特征;识别模块,用于在每个指定统计参数对应的统计值均大于预设阈值时,确定客户端的访问过程为搜索引擎爬虫访问。
根据本发明实施例的又一方面,还提供了一种搜索引擎爬虫的处理方法,包括:获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,所述各个统计时间段组成所述统计周期;对所述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,所述指定统计参数用于反映所述统计数据的相同统计特征;在每个所述指定统计参数对应的统计值均大于预设阈值时,确定所述客户端对所述网站的访问行为为搜索引擎爬虫访问;根据与所述网站对应的安全策略对所述搜索引擎爬虫访问进行放行或拦截。
根据本发明实施例的再一方面,还提供了一种搜索引擎爬虫的处理装置,包括:获取模块,用于获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,所述各个统计时间段组成所述统计周期;预处理模块,用于对所述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,所述指定统计参数用于反映所述统计数据的相同统计特征;
识别模块,用于在每个所述指定统计参数对应的统计值均大于预设阈值时,确定所述客户端的访问过程为搜索引擎爬虫访问;
处理模块,用于根据与所述网站对应的安全策略对所述搜索引擎爬虫访问进行放行或拦截。
在本发明实施例中,采用获取客户端在统计周期的各个统计时间段内对云服务商下网站进行访问的统计数据,并在统计数据中与指定参数对应的数据的统计值大于预设阈值时,确定当前对网站的行为为搜索引擎爬虫访问的方式,实现了对搜索引擎爬虫准确可靠地识别的技术效果,进而解决相关技术中由于搜索引擎爬虫识别存在的漏报、误检测等导致的准确性和可靠性不高等技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种搜索引擎爬虫的识别方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的一种可选的搜索引擎爬虫的识别方法的示意图;
图3是根据本发明实施例的一种搜索引擎爬虫的识别装置的结构框图;
图4是根据本发明实施例的一种可选的搜索引擎爬虫的识别装置的结构框图;
图5是根据本发明实施例的一种可选的搜索引擎爬虫的处理方法的示意图;
图6是根据本发明实施例的一种搜索引擎爬虫的处理装置的结构框图;
图7是根据本发明实施例的一种可选的搜索引擎爬虫的处理装置的结构框图;
图8是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
相关技术中,爬虫既可能来自传统的搜索引擎如:谷歌、百度等,也可能来自于其他渠道,对于来自传统搜索引擎的爬虫,主要用来更新搜索引擎的索引,使得更多的用户能够访问到页面;而来自于其他渠道的爬虫的访问,仅仅用于自身目的,对网站没有贡献,但却占用网站的大量网络带宽和服务资源,对网站造成压力,同时还有可能影响正常用户的访问。
对于云环境中的很多网站,希望允许搜索引擎的爬虫访问,以扩大知名度,引来更多的用户访问;同时,希望阻断非搜索引擎的访问,降低资源消耗。
目前,针对搜索引擎爬虫的识别,主要存在以下解决方案:
(1)根据http请求中的用户代理(UserAgent)来识别,来自搜索引擎的访问,UserAgent一般是固定的,特征比较明显,如:
Google:Mozilla/5.0(compatible;Googlebot/2.1;
+http://www.google.com/bot.html)
百度:Baiduspider+(+http://www.baidu.com/search/spider.htm)
雅虎:Mozilla/5.0(compatible;Yahoo!Slurp;
http://help.yahoo.com/help/us/ysearch/slurp)
(2)根据源ip地址来识别,由于搜索引擎等大型公司的ip段基本是固定的,因此,可以通过配置搜索引擎公司所属的ip地址,来识别搜索引擎访问。
但是上述解决方案主要存在以下问题:
对于上述第(1)种解决方案,即基于Http请求中UserAgent字段识别,存在漏报的问题,并且由于http请求是由访问者构造的,UA(UserAgent)可以随意指定,恶意爬虫也可以将自己的访问设置成搜索引擎的UA,绕过检测,并继续爬取数据。
对于第(2)种解决方案,即根据源ip来识别,该方案的优点是不容易绕过检测,但存在误报,因为搜索引擎公司经常在新的互联网数据中心(Internet Data Center,简称为IDC)部署爬虫程序,并且存在ip租用情况,这一段时间使用这个ip段,过些时间就不在使用,爬虫来源ip一旦发生变化,后台更新不及时,就会出现误检测情况。
而本发明实施例主要基于云服务提供商的场景,针对web访问中的爬虫问题,解决如何将来自搜索引擎的爬虫访问识别出来的问题。以在与普通爬虫进行区分后,有针对性地进行安全防护。比如:不影响用户网站被搜索引擎收录(这样可以增加外部用户真实访问量)的情况下,降低无效的恶意数据爬取行为,为客户节约成本,降低服务器及带宽消耗。
实施例1
根据本发明实施例,提供了一种搜索引擎爬虫的识别方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种搜索引擎爬虫的识别方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的搜索引擎爬虫的识别方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
在上述运行环境下,本申请提供了如图2所示的搜索引擎爬虫的识别方法。图2是根据本发明实施例的搜索引擎爬虫的识别方法的流程图。如图2所示,该方法包括以下处理步骤:
步骤S202,获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,上述各个统计时间段组成上述统计周期。
此处统计周期可以根据实际情况设定,例如可以设定为一个月、或一个季度等。统计时间段也可以根据实际情况灵活设定,例如设定为24小时、48小时等。
在一个可选实施方式中,可以对一个月中客户端每天所访问网站的数量进行统计。在一个可选实施方式中,该步骤的具体实现方式有多种,例如,可以从第三方设备中获取,也可以在本地获取。
在一个可选实施方式中,步骤S202中多个网站可以理解为该客户端在统计周期内所访问的全部网站或部分网站,其中,对于“全部”,可以实现数据采集的完整性,但是比较浪费资源;对于“部分”,则可以根据实际情况剔除某些不需要的网站统计数据,节省资源。
步骤S204,对上述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,上述指定统计参数用于反映上述统计数据的相同统计特征。
此处预处理的方式可以表现为多种实现方式,例如可以简单地表现为以下两种形式:(1)对上述数据进行汇总分类,(2)对与指定统计参数对应的数据进行不同的运算处理。
以下以访问频率和访问网站的数量为例进行说明。对于第(1)种实现方式,可以表现为以下形式:在一个统计周期内以统计时间段为基本单位,汇总每个统计时间段内客户端所访问网站的数量;和/或,在一个统计周期内以统计时间段为基本单位,汇总每个统计时间段内客户端所访问网站的数量和和/或访问频率。将每个统计时间段内访问网站的数量和/或频率作为上述统计值。
对于第(2)种实现方式,可以表现为先进行汇总分类,然后再对汇总分类后的统计数据进行多种不同的运算处理,将根据运算处理后得到的值作为统计值,以下会详细说明,此处不再赘述。
步骤S206,在每个上述指定统计参数对应的统计值均大于预设阈值时,确定客户端对上述网站的访问行为为搜索引擎爬虫访问。
此处对应于步骤S204中的第(1)种实现方式,步骤S206可以表现为将每个统计时间段内客户端访问网站的数量和/或频率与预设阈值进行比较,在各个统计时间段内客户端访问网站的数量和/或频率均大于预设阈值时,确定客户端对上述网站的访问行为为搜索引擎爬虫访问。此种实现方式,由于每个统计时间段均对应一个比较过程,因此,会过多地占用运行资源。
此处对应于步骤S204中的第(2)种实现方式,步骤S206可以表现为:先汇总上述统计数据中与每个指定统计参数对应的数据,然后对其进行统一运算后,根据运算后的值与预设阈值进行比较。例如可以采用不同的运算方式进行计算,得到与上述运算方式对应的运算结果;将各个上述运算结果按照预设权重进行求和运算,得到上述统计值。
通过上述各个处理步骤,由于可以根据统计周期内各个时间段对多个网站进行访问后得到的统计数据得到与指定统计参数对应的统计值,并根据该统计值识别出客户端对网站的访问是否为搜索引擎爬虫访问,因此,提供了一种全新的搜索引擎爬虫识别方法,从根本上避免了搜索引擎爬虫识别的误报和漏报问题,并且能够实现对搜索引擎爬虫访问行为的快速识别。
需要说明的是,上述客户端可以表现为应用程序(APP)软件,也可以表现为一设备终端。
上述各个步骤的执行主体可以为云服务提供商侧的核心交换设备,也可以为与核心网交换设备连接的其它设备,如:骨干网核心交换机。本实施例对此并不作限定。
其中,步骤S202中获取上述统计数据的方式有多种,例如可以基于当前时间点开始实时获取当前访问情况并统计,也可以根据历史记录数据获取,当然也可以采用上述两种方式相结合的方式来获取上述统计数据。例如可以先汇总实时采集的数据,然后结合历史数据,计算源IP地址对应的客户端每天所访问的网站数量、频率。
在一个可选实施例中,步骤S202可以在云服务提供商的机房入口处(例如核心交换设备)采集客户端在统计周期的各个统计时间段内对所有网站进行访问后统计得到的统计数据,例如可以通过在云服务提供商的入口层面截获来自客户端的所有流量数据,并提取http访问记录,然后使用大数据分析处理技术,动态快速识别出搜索引擎爬虫访问行为,以辅助安全系统拦截或放行这些访问。例如可以利用采集层面对流量数据进行协议解析,提取每个访问的源IP、host等内容,并进行汇总。
其中,上述指定统计参数可以包括以下参数中的一个或多个:在上述统计周期内上述客户端所访问网站的数量和访问频率,即可以采用对一个或多个指定统计参数对应的数据进行预处理后得到的统计值来识别搜索引擎爬虫识别。例如,可以对网站的访问频率和访问网站的数量进行统计,得到两个统计值,并依据该两个统计值来共同识别搜索引擎爬虫的访问行为。
例如:在统计周期内客户端所访问网站的数量为N,访问频率为F,对N分别取平均值、取最大值和取方差处理后得到N1、N2和N3;对F分别取平均值、取最大值和取方差处理后得到F1、F2和F3。对N1、N2和N3分别赋予不同的权重值并求和即统计值1=aN1+bN2+cN3,其中,a,b,c为权重值;对F1、F2和F3分别赋予不同的权重值并求和即统计值2=dF1+eF2+fF3,其中,d,e,f为权重值。在一种场景下,在统计值1和统计值2均大于其对应的预设阈值时,则确定当前的访问行为为搜索引擎爬虫行为;或者,在另一场景下,统计值1和统计值2中的其中一个大于其对应的预设阈值时,便可以确定当前的访问行为为搜索引擎爬虫行为。当然,对于a,b,c的取值可以为0,但是不能同时全部为0;对于d,e,f的取值同样可以为0,但是不能同时全部为0。
在本实施例中,为进一步加强识别结果的准确性和可靠性,步骤S204可以通过以下方式实现:对上述统计数据中与每个指定统计参数对应的数据采用不同的运算方式进行计算,得到与上述运算方式对应的运算结果;将各个上述运算结果按照预设权重进行求和运算,得到上述统计值。可选地,上述预设权重可以通过实验手段或经验值确定。需要说明的是,在一个优选实施例中,在进行求和运算过程中,对于得到的三种运算结果(即采用上述三种运算方式得到的运算结果)中的任意两种运算结果,为了节省运行资源,在识别精确度要求不太高的情况下,其预设权重的取值是可以为0的,即可以仅凭借三种运算结果中的其中一种或两种运算结果来识别搜索引擎爬虫,这样由于减少了运算过程,因此,可以有效节省运算资源。
结合上述预处理方式和上述运算方式,在一个可选实施例中,上述求和运算的过程可以表现为以下实现形式,但不限于此:
IP_SCORE=X1*AVG_NUM_HOSTS+X2*MAX_NUM_HOSTS+X3*STD_NUM_HOST,其中,AVG_NUM_HOSTS表示上述平均值,MAX_NUM_HOSTS表示上述最大值、STD_NUM_HOST表示上述方差值,IP_SCORE表示上述统计值,X1、X2、X3为常量,具体可以根据实际情况进行调整,其可以通过实验手段或者依据经验值确定。
可选地,上述运算方式包括如下任意一种方式:求平均值、求最大值、求方差、求三倍方差和求中位值。相应地,上述运算结果包括以下任意一种方式:与所述指定统计参数对应的数据在所述统计周期内的平均值、最大值、方差值、三倍方差值和中位值。需要说明的是,运算方式并不限于提到的上述几种具体运算方式,还可以是其它的运算方式。
为了识别出当前访问的来源以便于对某个客户端的访问行为进行统计,需要对不同客户端的访问行为进行区分,即需要在步骤S202之前进行访问的来源区分,在一个可选实施例中,可以通过以下方式实现,但不限于此:在上述统计周期内接收针对上述网站的当前访问请求;依据上述当前访问请求中的IP地址识别上述当前访问请求为来自上述客户端的访问请求。
在一种可选的应用场景下,上述搜索引擎的识别方法可以应用于由客户端和云服务提供商侧设备的网络架构中:该客户端具有一个IP地址(称为源IP),其向云服务商侧设备发送访问请求,云服务提供商在机房入口处(例如可以通过核心交换设备)采集来自客户端的访问数据,并进行汇总解析;云服务提供商侧设备实时分析层收集汇总数据,结合历史数据,计算源ip所对应客户端在一段时间内(如:一个月),每天访问的不同网站数量、频率,并统计平均值AVG_NUM_HOSTS、最大值MAX_NUM_HOSTS、方差STD_NUM_HOST,代入公式:
IP_SCORE=X1*AVG_NUM_HOSTS+X2*MAX_NUM_HOSTS+X3*STD_NUM_HOST,其中,X1、X2、X3是常量,根据实际情况可调整。
根据预设的阈值与IP_SCORE的比较结果,来判断该ip是否来自搜索引擎,若:IP_SCORE大于阈值,则识别为搜寻引擎IP地址。然后更新搜索引擎ip库,这样拦截系统便可以根据不同网站的策略,检查搜索引擎ip库,进行放行或拦截。
为了扩大对上述搜索引擎爬虫的识别方案的应用范围,在通过步骤S206确定上述客户端对上述网站的访问行为为搜索引擎爬虫访问之后,还可以将上述客户端的标识更新至本地的搜索引擎数据库中,并按照与上述网站对应的安全策略对针对上述搜索引擎数据库中网站的访问进行放行或拦截。这样,便实现了拦截系统对搜索引擎的访问的控制(拦截或放行)。
本实施例中客户端的标识可以表现为客户端的IP地址,或者客户端所在设备的MAC地址等,但不限于此。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述搜索引擎爬虫的识别方法的装置,如图3所示,该装置包括:
获取模块30,用于获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,上述各个统计时间段组成上述统计周期;
此处统计周期可以根据实际情况设定,例如可以设定为一个月、或一个季度等。统计时间段也可以根据实际情况灵活设定,例如设定为24小时、48小时等。
在一个可选实施方式中,可以对一个月中客户端每天所访问网站的数量进行统计。在一个可选实施方式中,该步骤的具体实现方式有多种,例如,可以从第三方设备中获取,也可以在本地获取。
在一个可选实施方式中,获取模块30在获取上述统计数据时所涉及的“多个网站”可以理解为该客户端在统计周期内所访问的全部网站或部分网站,其中,对于“全部”可以实现数据采集的完整性,但是比较浪费资源;对于“部分”,则可以根据实际情况剔除某些不需要的网站统计数据,节省资源。
预处理模块32,连接至获取模块30,用于对上述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,上述指定统计参数用于反映上述统计数据的相同统计特征;此处预处理的方式可以表现为多种实现方式,例如可以简单地表现为(1)对其进行汇总分类,也可以表现为(2)对与指定统计参数对应的数据进行不同的运算处理。
以下以访问频率和访问网站的数量为例进行说明。对于第(1)种实现方式,可以表现为以下形式:在一个统计周期内以统计时间段为基本单位,汇总每个统计时间段内客户端所访问网站的数量;和/或,在一个统计周期内以统计时间段为基本单位,汇总每个统计时间段内客户端所访问网站的数量和和/或访问频率。将每个统计时间段内访问网站的数量和/或频率作为上述统计值。
对于第(2)种实现方式,可以表现为先进行汇总分类,然后再对汇总分类后的统计数据进行多种不同的运算处理,将根据运算处理后得到的值作为统计值,以下会详细说明,此处不再赘述。
识别模块34,连接至预处理模块32,用于在每个上述指定统计参数对应的统计值均大于预设阈值时,确定上述客户端的访问过程为搜索引擎爬虫访问。
此处对应于预处理模块的第(1)种实现方式,可以表现为:将每个统计时间段内客户端访问网站的数量和/或频率与预设阈值进行比较,在各个统计时间段内客户端访问网站的数量和/或频率均大于预设阈值时,确定客户端对上述网站的访问行为为搜索引擎爬虫访问。此种实现方式,由于每个统计时间段均对应一个比较过程,因此,会过多地占用运行资源。
此处对应于预处理模块的第(2)种实现方式,可以表现为:先汇总上述统计数据中与每个指定统计参数对应的数据,然后对其进行统一运算后,根据运算后的值与预设阈值进行比较。例如可以采用不同的运算方式进行计算,得到与上述运算方式对应的运算结果;将各个上述运算结果按照预设权重进行求和运算,得到上述统计值。
通过上述各个模块实现的功能,由于可以根据统计周期内各个时间段对多个网站进行访问后得到的统计数据得到与指定统计参数对应的统计值,并根据该统计值识别出客户端对网站的访问是否为搜索引擎爬虫访问,因此从根本上避免了搜索引擎爬虫识别的误报和漏报问题,并且能够实现对搜索引擎爬虫访问行为的快速识别。
在本实施例中,上述指定统计参数可以根据实际情况自行设定,在一个优选实施方式中,上述指定统计参数可以包括以下参数中的一个或多个:在上述统计周期内上述客户端所访问网站的数量和访问频率,即上述预处理模块32可以采用对一个或多个上述指定统计参数对应的数据进行预处理后得到的统计值来识别搜索引擎爬虫识别。例如,可以对网站的访问频率和访问网站的数量进行统计,得到两个统计值,并依据该两个统计值共同来识别搜索引擎爬虫的访问行为。
可选地,如图4所示,预处理模块32可以包括以下处理单元:第一运算单元320,用于对上述统计数据中与每个上述指定统计参数对应的数据采用不同的运算方式进行计算,得到与上述运算方式对应的运算结果;第二运算单元322,连接至第一运算单元320,用于将各个上述运算结果按照预设权重进行求和运算,得到上述统计值。可选地,第二运算单元322在进行求和运算过程在所使用的上述预设权重,可以通过实验手段或经验值确定。需要说明的是,在一个优选实施例中,在第二运算单元进行求和运算过程中,对于上述第一运算单元得到的三种运算结果中的任意两种运算结果,其预设权重的取值是可以为0的,即可以仅凭借三种运算结果中的其中一种或两种运算结果来识别搜索引擎爬虫,这样可以有效节省运行资源。
例如:在统计周期内客户端所访问网站的数量为N,访问频率为F,对N分别取平均值、取最大值和取方差处理后得到N1、N2和N3;对F分别取平均值、取最大值和取方差处理后得到F1、F2和F3。对N1、N2和N3分别赋予不同的权重值并求和即统计值1=aN1+bN2+cN3,其中,a,b,c为权重值;对F1、F2和F3分别赋予不同的权重值并求和即统计值2=cF1+dF2+eF3,其中,d,e,f为权重值。在一种场景下,在统计值1和统计值2均大于其对应的预设阈值时,则确定当前的访问行为为搜索引擎爬虫行为;或者,在另一场景下,统计值1和统计值2中的其中一个大于其对应的预设阈值时,便可以确定当前的访问行为为搜索引擎爬虫行为。当然,对于a,b,c的取值可以为0,但是不能同时全部为0;对于d,e,f的取值同样可以为0,但是不能同时全部为0。
可选地,第一运算单元320,用于采用以下任意一种运算方式对上述指定统计参数对应的数据进行计算:求平均值、求最大值、求方差、求三倍方差和求中位值。相应地,上述运算结果包括以下任意一种方式:与所述指定统计参数对应的数据在所述统计周期内的平均值、最大值和方差值、三倍方差值和求中位值。
本实施例中所涉及的各个模块是可以通过相应地软件或硬件来实现的,对于后者,例如采用采用以下方式实现,但不限于此:获取模块30、预处理模块32和识别模块34均位于同一处理器中;或者,获取模块30、预处理模块32和识别模块34分别位于第一处理器、第二处理器和第三处理器中;或者,获取模块30和识别模块32位于同一处理器中,预处理模块32位于另一处理器中;或者,获取模块30和预处理模块32位于同一处理器中,而识别模块34位于另一处理器中。
本实施例提供的搜索引擎爬虫的识别装置的其它功能可以参见实施例1中的描述,即本实施例中提供的识别装置可以实现实施例1所述方法所体现的功能,例如本实施例提供的搜索引擎爬虫的识别装置可以实现以下功能:在所述统计周期内接收针对所述网站的当前访问请求;依据所述当前访问请求中的IP地址识别所述当前访问请求为来自所述客户端的访问请求。需要说明的是,上述功能可以通过相应的模块来实现,例如可以通过接收模块来接收上述访问请求,可以通过一个第二识别模块来识别当前访问请求为来自客户端的访问请求。上述模块可以表现为硬件或软件。在一种可选的应用场景下,上述搜索引擎的识别装置可以应用于由客户端和云服务提供商侧设备的网络架构中,该识别装置可以位于云服务提供商侧设备(例如核心交换设备)中:该客户端具有一个IP地址(称为源IP),其向云服务提供商侧设备发送访问请求,云服务提供商在机房入口处(例如可以通过核心交换设备)采集来自客户端的访问数据,并进行汇总解析;云服务提供商侧设备实时分析层收集汇总数据,结合历史数据,计算源ip所对应客户端在一段时间内(如:一个月),每天访问的不同网站数量、频率,并统计平均值AVG_NUM_HOSTS、最大值MAX_NUM_HOSTS、方差STD_NUM_HOST,代入公式:
IP_SCORE=X1*AVG_NUM_HOSTS+X2*MAX_NUM_HOSTS+X3*STD_NUM_HOST,其中,X1、X2、X3是常量,根据实际情况可调整。
根据预设的阈值与IP_SCORE的比较结果,来判断该ip是否来自搜索引擎,若:IP_SCORE大于阈值,则识别为搜寻引擎IP地址。然后更新搜索引擎ip库,这样拦截系统便可以根据不同网站的策略,检查搜索引擎ip库,进行放行或拦截。
本实施例提供的搜索引擎爬虫的识别装置,还可以执行以下功能:将所述客户端的标识更新至本地的搜索引擎数据库中;按照与所述网站对应的安全策略对针对所述搜索引擎数据库中网站的访问进行放行或拦截。需要说明的是,上述功能可以通过相应的模块来实现,例如可以通过更新模块来接收上述访问请求,可以通过一个安全检测模块来识别当前访问请求为来自客户端的访问请求。上述模块可以表现为硬件或软件。
实施例3
根据本发明实施例,还提供了一种搜索引擎爬虫的处理方法实施例,该处理方法同样可以在移动终端、计算机终端或者类似的运算装置中执行,例如可以在图1所述的计算机终端上运行。图5是根据本发明实施例的搜索引擎爬虫的处理方法的示意图。如图5所示,该方法包括以下处理步骤:
步骤S502,获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,所述各个统计时间段组成所述统计周期;
此处统计周期可以根据实际情况设定,例如可以设定为一个月、或一个季度等。统计时间段也可以根据实际情况灵活设定,例如设定为24小时、48小时等。
在一个可选实施方式中,可以对一个月中客户端每天所访问网站的数量进行统计。在一个可选实施方式中,该步骤的具体实现方式有多种,例如,可以从第三方设备中获取,也可以在本地获取。
在一个可选实施方式中,步骤S502中多个网站可以理解为该客户端在统计周期内所访问的全部网站或部分网站,其中,对于“全部”,可以实现数据采集的完整性,但是比较浪费资源;对于“部分”,则可以根据实际情况剔除某些不需要的网站统计数据,节省资源。
S504,对所述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,所述指定统计参数用于反映所述统计数据的相同统计特征;
此处预处理的方式可以表现为多种实现方式,例如可以简单地表现为(1)对其进行汇总分类,也可以表现为(2)对与指定统计参数对应的数据进行不同的运算处理。
以下以访问频率和访问网站的数量为例进行说明。对于第(1)种实现方式,可以表现为以下形式:在一个统计周期内以统计时间段为基本单位,汇总每个统计时间段内客户端所访问网站的数量;和/或,在一个统计周期内以统计时间段为基本单位,汇总每个统计时间段内客户端所访问网站的数量和和/或访问频率。将每个统计时间段内访问网站的数量和/或频率作为上述统计值。
对于第(2)种实现方式,可以表现为先进行汇总分类,然后再对汇总分类后的统计数据进行多种不同的运算处理,将根据运算处理后得到的值作为统计值,以下会详细说明,此处不再赘述。
S506,在每个所述指定统计参数对应的统计值均大于预设阈值时,确定所述客户端对所述网站的访问行为为搜索引擎爬虫访问;
此处对应于步骤S504中的第(1)种实现方式,步骤S506可以表现为将每个统计时间段内客户端访问网站的数量和/或频率与预设阈值进行比较,在各个统计时间段内客户端访问网站的数量和/或频率均大于预设阈值时,确定客户端对上述网站的访问行为为搜索引擎爬虫访问。此种实现方式,由于每个统计时间段均对应一个比较过程,因此,会过多地占用运行资源。
此处对应于步骤S504中的第(2)种实现方式,步骤S206可以表现为:先汇总上述统计数据中与每个指定统计参数对应的数据,然后对其进行统一运算后,根据运算后的值与预设阈值进行比较。例如可以采用不同的运算方式进行计算,得到与上述运算方式对应的运算结果;将各个上述运算结果按照预设权重进行求和运算,得到上述统计值。
S508,根据与所述网站对应的安全策略对所述搜索引擎爬虫访问进行放行或拦截。
通过上述各个处理步骤,由于可以根据统计周期内各个时间段对多个网站进行访问后得到的统计数据得到与指定统计参数对应的统计值,并根据该统计值识别出客户端对网站的访问是否为搜索引擎爬虫访问,并根据与该网站对应的安全策略对该搜索引擎爬虫访问进行放行或拦截,因此,提供了一种全新的搜索引擎爬虫处理方法,从根本上不仅避免了搜索引擎爬虫识别的误报和漏报问题,能够实现对搜索引擎爬虫访问行为的快速识别,并且在识别完成之后,能够进行相应的处理,阻断非搜索引擎的访问,降低了资源的消耗。
需要说明的是,上述客户端可以表现为应用程序(APP)软件,也可以表现为一设备终端。
上述各个步骤的执行主体可以为云服务提供商侧的核心交换设备,也可以为与核心网交换设备连接的其它设备,如:骨干网核心交换机。本实施例对此并不作限定。
其中,上述指定统计参数可以包括以下参数中的一个或多个:在上述统计周期内上述客户端所访问网站的数量和访问频率,即可以采用对一个或多个指定统计参数对应的数据进行预处理后得到的统计值来识别搜索引擎爬虫识别。例如,可以对网站的访问频率和访问网站的数量进行统计,得到两个统计值,并依据该两个统计值来共同识别搜索引擎爬虫的访问行为。
例如:在统计周期内客户端所访问网站的数量为N,访问频率为F,对N分别取平均值、取最大值和取方差处理后得到N1、N2和N3;对F分别取平均值、取最大值和取方差处理后得到F1、F2和F3。对N1、N2和N3分别赋予不同的权重值并求和即统计值1=aN1+bN2+cN3,其中,a,b,c为权重值;对F1、F2和F3分别赋予不同的权重值并求和即统计值2=dF1+eF2+fF3,其中,d,e,f为权重值。在一种场景下,在统计值1和统计值2均大于其对应的预设阈值时,则确定当前的访问行为为搜索引擎爬虫行为;或者,在另一场景下,统计值1和统计值2中的其中一个大于其对应的预设阈值时,便可以确定当前的访问行为为搜索引擎爬虫行为。当然,对于a,b,c的取值可以为0,但是不能同时全部为0;对于d,e,f的取值同样可以为0,但是不能同时全部为0。
在本实施例中,为进一步加强识别结果的准确性和可靠性,步骤S504可以通过以下方式实现:对上述统计数据中与每个指定统计参数对应的数据采用不同的运算方式进行计算,得到与上述运算方式对应的运算结果;将各个上述运算结果按照预设权重进行求和运算,得到上述统计值。可选地,上述预设权重可以通过实验手段或经验值确定。需要说明的是,在一个优选实施例中,在进行求和运算过程中,对于得到的三种运算结果(即采用上述三种运算方式得到的运算结果)中的任意两种运算结果,为了节省运行资源,在识别精确度要求不太高的情况下,其预设权重的取值是可以为0的,即可以仅凭借三种运算结果中的其中一种或两种运算结果来识别搜索引擎爬虫,这样由于减少了运算过程,因此,可以有效节省运算资源。
上述求和运算的具体实现过程可以参见实施例1中的描述,此处不再赘述。
实施例4
根据本发明实施例,还提供了一种用于实施上述搜索引擎爬虫的处理方法的装置,如图6所示,该装置包括:
获取模块60,用于获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,上述各个统计时间段组成上述统计周期;
在一个可选实施方式中,获取模块60在获取上述统计数据时所涉及的“多个网站”可以理解为该客户端在统计周期内所访问的全部网站或部分网站,其中,对于“全部”可以实现数据采集的完整性,但是比较浪费资源;对于“部分”,则可以根据实际情况剔除某些不需要的网站统计数据,节省资源。
预处理模块62,连接至获取模块60,用于对上述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,上述指定统计参数用于反映上述统计数据的相同统计特征;此处预处理的方式可以表现为多种实现方式,例如可以简单地表现为:(1)对上述数据进行汇总分类,(2)对与指定统计参数对应的数据进行不同的运算处理。
以下以访问频率和访问网站的数量为例进行说明。对于第(1)种实现方式,可以表现为以下形式:在一个统计周期内以统计时间段为基本单位,汇总每个统计时间段内客户端所访问网站的数量;和/或,在一个统计周期内以统计时间段为基本单位,汇总每个统计时间段内客户端所访问网站的数量和和/或访问频率。将每个统计时间段内访问网站的数量和/或频率作为上述统计值。
对于第(2)种实现方式,可以表现为先进行汇总分类,然后再对汇总分类后的统计数据进行多种不同的运算处理,将根据运算处理后得到的值作为统计值,以下会详细说明,此处不再赘述。
识别模块64,连接至预处理模块62,用于在每个上述指定统计参数对应的统计值均大于预设阈值时,确定上述客户端的访问过程为搜索引擎爬虫访问。
此处对应于预处理模块的第(1)种实现方式,可以表现为:将每个统计时间段内客户端访问网站的数量和/或频率与预设阈值进行比较,在各个统计时间段内客户端访问网站的数量和/或频率均大于预设阈值时,确定客户端对上述网站的访问行为为搜索引擎爬虫访问。此种实现方式,由于每个统计时间段均对应一个比较过程,因此,会过多地占用运行资源。
此处对应于预处理模块的第(2)种实现方式,可以表现为:先汇总上述统计数据中与每个指定统计参数对应的数据,然后对其进行统一运算后,根据运算后的值与预设阈值进行比较。例如可以采用不同的运算方式进行计算,得到与上述运算方式对应的运算结果;将各个上述运算结果按照预设权重进行求和运算,得到上述统计值。
处理模块66,用于根据与所述网站对应的安全策略对所述搜索引擎爬虫访问进行放行或拦截。
通过上述各个模块实现的功能,由于可以根据统计周期内各个时间段对多个网站进行访问后得到的统计数据得到与指定统计参数对应的统计值,并根据该统计值识别出客户端对网站的访问是否为搜索引擎爬虫访问,因此从根本上避免了搜索引擎爬虫识别的误报和漏报问题,能够实现对搜索引擎爬虫访问行为的快速识别,并且在识别完成之后,能够进行相应的处理,阻断非搜索引擎的访问,降低了资源的消耗。
在本实施例中,上述指定统计参数可以根据实际情况自行设定,在一个优选实施方式中,上述指定统计参数可以包括以下参数中的一个或多个:在上述统计周期内上述客户端所访问网站的数量和访问频率,即上述预处理模块62可以采用对一个或多个上述指定统计参数对应的数据进行预处理后得到的统计值来识别搜索引擎爬虫识别。例如,可以对网站的访问频率和访问网站的数量进行统计,得到两个统计值,并依据该两个统计值共同来识别搜索引擎爬虫的访问行为。
可选地,如图7所示,预处理模块62可以包括以下处理单元:第一运算单元620,用于对上述统计数据中与每个上述指定统计参数对应的数据采用不同的运算方式进行计算,得到与上述运算方式对应的运算结果;第二运算单元622,连接至第一运算单元620,用于将各个上述运算结果按照预设权重进行求和运算,得到上述统计值。可选地,第二运算单元622在进行求和运算过程在所使用的上述预设权重,可以通过实验手段或经验值确定。需要说明的是,在一个优选实施例中,在第二运算单元622进行求和运算过程中,对于上述第一运算单元得到的三种运算结果中的任意两种运算结果,其预设权重的取值是可以为0的,即可以仅凭借三种运算结果中的其中一种或两种运算结果来识别搜索引擎爬虫,这样可以有效节省运行资源。
可选地,第一运算单元620,用于采用以下任意一种运算方式对上述指定统计参数对应的数据进行计算:求平均值、求最大值、求方差、求三倍方差和求中位值。相应地,上述运算结果包括以下任意一种方式:与所述指定统计参数对应的数据在所述统计周期内的平均值、最大值和方差值、三倍方差值和求中位值。
本实施例中所涉及的各个模块是可以通过相应地软件或硬件来实现的,对于后者,获取模块60、预处理模块62、识别模块64和处理模块66可以处于同一处理器中,也可以处于不同的处理器中来实现。
本实施例提供的搜索引擎爬虫的处理装置的其它功能可以参见实施例3中的描述,即本实施例中提供的处理装置可以实现实施例3所述方法所体现的功能。
实施例5
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行搜索引擎爬虫的识别方法中以下步骤的程序代码:获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,上述各个统计时间段组成上述统计周期;对上述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,上述指定统计参数用于反映上述统计数据的相同统计特征;在每个上述指定统计参数对应的统计值均大于预设阈值时,确定客户端对上述网站的访问行为为搜索引擎爬虫访问。
可选地,图8是根据本发明实施例的一种计算机终端的结构框图。如图5所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器81、存储器83、以及传输装置85。
其中,存储器83可用于存储软件程序以及模块,如本发明实施例中的搜索引擎爬虫的识别方法和装置所对应的程序指令/模块,处理器81通过运行存储在存储器83内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的系统漏洞攻击的检测方法。存储器83可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器83可进一步包括相对于处理器81远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置85用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置85包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置85为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器83用于存储预设动作条件和预设权限用户的信息、以及应用程序。
处理器81可以通过传输装置调用存储器83存储的信息及应用程序,以执行下述步骤:对上述统计数据(即客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据)中与每个指定统计参数对应的数据采用不同的运算方式进行计算,得到与上述运算方式对应的运算结果;将各个上述运算结果按照预设权重进行求和运算,得到上述统计值。
可选的,上述处理器81还可以执行如下步骤的程序代码:在上述统计周期内接收针对上述网站的当前访问请求;依据上述当前访问请求中的IP地址识别上述当前访问请求为来自上述客户端的访问请求。
可选的,上述处理器81还可以执行如下步骤的程序代码:将上述客户端的标识更新至本地的搜索引擎数据库中,并按照与上述网站对应的安全策略对针对上述搜索引擎数据库中网站的访问进行放行或拦截。
采用本发明实施例,提供了一种搜索引擎爬虫的识别方案。通过该识别方案,由于可以根据统计周期内各个时间段对多个网站进行访问后得到的统计数据得到与指定统计参数对应的统计值,并根据该统计值识别出客户端对网站的访问是否为搜索引擎爬虫访问,因此,提供了一种全新的搜索引擎爬虫识别方法,从根本上避免了搜索引擎爬虫识别的误报和漏报问题,并且能够实现对搜索引擎爬虫访问行为的快速识别。
本领域普通技术人员可以理解,图8所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices,MID)等终端设备。图8其并不对上述电子装置的结构造成限定。例如,计算机终端5还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例6
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的搜索引擎爬虫的识别方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,上述各个统计时间段组成上述统计周期;对上述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,上述指定统计参数用于反映上述统计数据的相同统计特征;在每个上述指定统计参数对应的统计值均大于预设阈值时,确定客户端对上述网站的访问行为为搜索引擎爬虫访问。
可选地,存储介质还可以被设置为存储用于执行以下步骤的程序代码:对上述统计数据中与每个指定统计参数对应的数据采用不同的运算方式进行计算,得到与上述运算方式对应的运算结果;将各个上述运算结果按照预设权重进行求和运算,得到上述统计值。
可选地,存储介质还可以被设置为存储用于执行以下步骤的程序代码:在上述统计周期内接收针对上述网站的当前访问请求;依据上述当前访问请求中的IP地址识别上述当前访问请求为来自上述客户端的访问请求。
可选地,存储介质还可以被设置为存储用于执行以下步骤的程序代码:将上述客户端的标识更新至本地的搜索引擎数据库中,并按照与上述网站对应的安全策略对针对上述搜索引擎数据库中网站的访问进行放行或拦截。这样,便实现了拦截系统对搜索引擎的访问的控制(拦截或放行)。
此处需要说明的是,上述计算机终端群中的任意一个可以与网站服务器和扫描器建立通信关系,扫描器可以扫描计算机终端上php执行的web应用程序的值命令。
实施例7
本发明的实施例还提供了另外一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的搜索引擎爬虫的处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,上述各个统计时间段组成上述统计周期;对上述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,上述指定统计参数用于反映上述统计数据的相同统计特征;在每个上述指定统计参数对应的统计值均大于预设阈值时,确定客户端对上述网站的访问行为为搜索引擎爬虫访问;根据与所述网站对应的安全策略对所述搜索引擎爬虫访问进行放行或拦截。
可选地,存储介质还可以被设置为存储用于执行以下步骤的程序代码:对上述统计数据中与每个指定统计参数对应的数据采用不同的运算方式进行计算,得到与上述运算方式对应的运算结果;将各个上述运算结果按照预设权重进行求和运算,得到上述统计值。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种搜索引擎爬虫的识别方法,其特征在于,包括:
获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,所述各个统计时间段组成所述统计周期;
对所述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,所述指定统计参数用于反映所述统计数据的相同统计特征;
在每个所述指定统计参数对应的统计值均大于预设阈值时,确定所述客户端对所述网站的访问行为为搜索引擎爬虫访问;
其中,所述指定统计参数包括以下至少之一:
在所述统计周期内所述客户端所访问网站的数量和访问频率。
2.根据权利要求1所述的方法,其特征在于,对所述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,包括:
对所述统计数据中与每个所述指定统计参数对应的数据采用不同的运算方式进行计算,得到与所述运算方式对应的运算结果;
将各个所述运算结果按照预设权重进行求和运算,得到所述统计值。
3.根据权利要求2所述的方法,其特征在于,所述运算方式包括如下任意一种方式:求平均值、求最大值、求方差、求三倍方差和求中位值。
4.根据权利要求1至3中任一项所述的方法,其特征在于,在获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据之前,所述方法还包括:
在所述统计周期内接收针对所述网站的当前访问请求;依据所述当前访问请求中的IP地址识别所述当前访问请求为来自所述客户端的访问请求。
5.根据权利要求1至3中任一项所述的方法,其特征在于,确定所述客户端对所述网站的访问行为为搜索引擎爬虫访问之后,所述方法还包括:
将所述客户端的标识更新至本地的搜索引擎数据库中;
按照与所述网站对应的安全策略对针对所述搜索引擎数据库中网站的访问进行放行或拦截。
6.一种搜索引擎爬虫的处理方法,其特征在于,包括:
获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,所述各个统计时间段组成所述统计周期;
对所述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,所述指定统计参数用于反映所述统计数据的相同统计特征;
在每个所述指定统计参数对应的统计值均大于预设阈值时,确定所述客户端对所述网站的访问行为为搜索引擎爬虫访问;
根据与所述网站对应的安全策略对所述搜索引擎爬虫访问进行放行或拦截;
其中,所述指定统计参数包括以下至少之一:
在所述统计周期内所述客户端所访问网站的数量和访问频率。
7.根据权利要求6所述的方法,其特征在于,对所述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,包括:
对所述统计数据中与每个所述指定统计参数对应的数据采用不同的运算方式进行计算,得到与所述运算方式对应的运算结果;
将各个所述运算结果按照预设权重进行求和运算,得到所述统计值。
8.一种搜索引擎爬虫的识别装置,其特征在于,包括:
获取模块,用于获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,所述各个统计时间段组成所述统计周期;
预处理模块,用于对所述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,所述指定统计参数用于反映所述统计数据的相同统计特征;
识别模块,用于在每个所述指定统计参数对应的统计值均大于预设阈值时,确定所述客户端的访问过程为搜索引擎爬虫访问;
其中,所述预处理模块,用于对与以下至少之一所述指定统计参数对应的数据进行预处理:
在所述统计周期内所述客户端所访问网站的访问数量和访问频率。
9.根据权利要求8所述的装置,其特征在于,所述预处理模块包括:
第一运算单元,用于对所述统计数据中与每个所述指定统计参数对应的数据采用不同的运算方式进行计算,得到与所述运算方式对应的运算结果;
第二运算单元,用于将各个所述运算结果按照预设权重进行求和运算,得到所述统计值。
10.根据权利要求9所述的装置,其特征在于,所述第一运算单元,用于采用以下任意一种运算方式对所述指定统计参数对应的数据进行计算:求平均值、求最大值、求方差、求三倍方差和求中位值。
11.一种搜索引擎爬虫的处理装置,其特征在于,包括:
获取模块,用于获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,所述各个统计时间段组成所述统计周期;
预处理模块,用于对所述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,所述指定统计参数用于反映所述统计数据的相同统计特征;
识别模块,用于在每个所述指定统计参数对应的统计值均大于预设阈值时,确定所述客户端的访问过程为搜索引擎爬虫访问;
处理模块,用于根据与所述网站对应的安全策略对所述搜索引擎爬虫访问进行放行或拦截;
其中,所述预处理模块,用于对与以下至少之一所述指定统计参数对应的数据进行预处理:
在所述统计周期内所述客户端所访问网站的访问数量和访问频率。
12.根据权利要求11所述的装置,其特征在于,所述预处理模块包括:
第一运算单元,用于对所述统计数据中与每个所述指定统计参数对应的数据采用不同的运算方式进行计算,得到与所述运算方式对应的运算结果;
第二运算单元,用于将各个所述运算结果按照预设权重进行求和运算,得到所述统计值。
CN201510142387.9A 2015-03-27 2015-03-27 搜索引擎爬虫的识别、处理方法及装置 Active CN106156055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510142387.9A CN106156055B (zh) 2015-03-27 2015-03-27 搜索引擎爬虫的识别、处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510142387.9A CN106156055B (zh) 2015-03-27 2015-03-27 搜索引擎爬虫的识别、处理方法及装置

Publications (2)

Publication Number Publication Date
CN106156055A CN106156055A (zh) 2016-11-23
CN106156055B true CN106156055B (zh) 2019-10-15

Family

ID=57339879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510142387.9A Active CN106156055B (zh) 2015-03-27 2015-03-27 搜索引擎爬虫的识别、处理方法及装置

Country Status (1)

Country Link
CN (1) CN106156055B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106911697B (zh) * 2017-02-28 2018-06-01 北京百度网讯科技有限公司 访问权限设置方法、装置、服务器及存储介质
CN107196968B (zh) * 2017-07-12 2020-10-20 深圳市活力天汇科技股份有限公司 一种爬虫识别方法
CN107911397B (zh) * 2018-01-02 2020-10-30 北京奇艺世纪科技有限公司 一种威胁评估方法及装置
CN109145185B (zh) * 2018-02-02 2019-07-02 北京数安鑫云信息技术有限公司 识别网络爬虫以及提取网络爬虫特征的方法及装置
CN110912860B (zh) * 2018-09-18 2022-02-18 北京数安鑫云信息技术有限公司 一种检测伪周期性访问行为的方法及装置
CN110609937A (zh) * 2019-08-15 2019-12-24 平安科技(深圳)有限公司 一种爬虫识别方法及装置
CN110781366A (zh) * 2019-09-09 2020-02-11 深圳壹账通智能科技有限公司 网页数据处理方法、装置、计算机设备和存储介质
CN112733108A (zh) * 2019-10-14 2021-04-30 陈裕达 云端资料隐私管控系统的方法及其装置
CN112035340A (zh) * 2020-07-31 2020-12-04 长沙市到家悠享网络科技有限公司 页面检测方法、装置、设备和存储介质
CN115150206B (zh) * 2022-09-06 2022-11-04 广东广泰信息科技有限公司 一种信息安全用的入侵检测安全预警系统及其方法
CN117874319B (zh) * 2024-03-11 2024-05-17 江西顶易科技发展有限公司 基于搜索引擎的信息挖掘方法、装置及计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495861A (zh) * 2011-11-24 2012-06-13 中国科学院计算技术研究所 一种网络爬虫识别系统及方法
CN102790700A (zh) * 2011-05-19 2012-11-21 北京启明星辰信息技术股份有限公司 一种识别网页爬虫的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102790700A (zh) * 2011-05-19 2012-11-21 北京启明星辰信息技术股份有限公司 一种识别网页爬虫的方法和装置
CN102495861A (zh) * 2011-11-24 2012-06-13 中国科学院计算技术研究所 一种网络爬虫识别系统及方法

Also Published As

Publication number Publication date
CN106156055A (zh) 2016-11-23

Similar Documents

Publication Publication Date Title
CN106156055B (zh) 搜索引擎爬虫的识别、处理方法及装置
US11184241B2 (en) Topology-aware continuous evaluation of microservice-based applications
CN104391979B (zh) 网络恶意爬虫识别方法及装置
US9755919B2 (en) Traffic analysis for HTTP user agent based device category mapping
CN103023906B (zh) 针对远程过程调用协议进行状态跟踪的方法及系统
CN108768883A (zh) 一种网络流量识别方法及装置
CN109167812B (zh) 评估服务质量、确定调整策略的方法、服务器及存储介质
CN110213212A (zh) 一种设备的分类方法和装置
CN108924005B (zh) 网络检测方法、网络检测装置、介质和设备
CN104869155B (zh) 数据审计方法及装置
CN112954089B (zh) 一种解析数据的方法、装置、设备以及存储介质
CN109359250A (zh) 统一资源定位符处理方法、装置、服务器及可读存储介质
CN106789486B (zh) 共享接入的检测方法、装置、电子设备及计算机可读存储介质
CN111126928B (zh) 对发布内容审核的方法和装置
CN106067879B (zh) 信息的检测方法及装置
CN109981745A (zh) 一种日志文件处理方法及服务器
CN110300026A (zh) 一种网络连接故障处理方法及装置
CN113810381A (zh) 一种爬虫检测方法、web应用云防火墙、装置和存储介质
CN104363187A (zh) 一种物联网网关资源响应方法和装置
CN108270753A (zh) 注销用户账号的方法及装置
CN106453600A (zh) 网络访问请求的业务分配方法、装置及系统
CN112383513B (zh) 基于代理ip地址池的爬虫行为检测方法、装置及存储介质
CN113554056A (zh) 网络资产聚合方法、装置、电子装置和存储介质
CN113098852A (zh) 一种日志处理方法及装置
CN108040118A (zh) 访问量统计方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant