CN111711617A

CN111711617A - 网络爬虫的检测方法、装置、电子设备及存储介质

Info

Publication number: CN111711617A
Application number: CN202010479316.9A
Authority: CN
Inventors: 桑栎
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-25

Abstract

本发明公开了一种网络爬虫的检测方法、装置、电子设备及计算机可读存储介质。该方法包括：获取用户发送的对目标服务器的访问请求信息，确定所述访问请求信息对应的用户是否为可疑爬虫用户，当所述用户为可疑爬虫用户时，获取所述可疑爬虫用户访问所述目标服务器产生的流量数据，并计算所述流量数据的实际值，判断所述流量数据的实际值是否触发预设爬虫规则，将触发所述预设爬虫规则的所述可疑爬虫用户确定为爬虫用户，停止发送所述爬虫用户的所述访问请求信息到所述目标服务器，并响应确定为爬虫的所述用户的访问请求执行相应操作。

Description

网络爬虫的检测方法、装置、电子设备及存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种网络爬虫的检测方法、装置、电子设备及存储介质。

背景技术

爬虫(又称为网络机器人)，是一种按照一定的规则自动地抓取浏览器网页或手机APP(应用程序)页面信息的程序或者脚本。当爬虫爬取对外公布的数据，当有些敏感的数据(商品价格，企业注册资金等)在公网展示的时候，而又不想让爬虫爬取，只能想办法阻拦非法的访问请求。一般的手段是通过一系列的算法，例如批处理算法来定位爬虫的访问请求，并在确定为爬虫后阻断该访问请求，或者采取其他措施，例如不阻断只统计和展示爬虫信息。

然而，现有定位爬虫的算法是从网站或者手机APP的应用接口来获取访问请求的流量数据，并按预定周期进行统计和计算确定对应的访问数据，定位爬虫具有很长的延后性，在确定请求为爬虫发出时，爬虫已经从请求访问的浏览器网页或手机APP页面上爬取了大量数据，造成对这种非法请求无法及时处理和相应规避。

发明内容

本发明的目的在于提供一种网络爬虫的检测方法、装置、电子设备及计算机可读存储介质，以实时监控并确定触发预设爬虫规则的爬虫从而及时处理爬虫对应的访问请求。

根据本发明的第一方面，提供了一种网络爬虫的检测方法，包括：

获取用户发送的对目标服务器的访问请求信息，确定所述访问请求信息对应的用户是否为可疑爬虫用户；

当所述用户为可疑爬虫用户时，获取所述可疑爬虫用户访问所述目标服务器产生的流量数据，并计算所述流量数据的实际值；

判断所述流量数据的实际值是否触发预设爬虫规则；

将触发所述预设爬虫规则的所述可疑爬虫用户确定为爬虫用户；

停止发送所述爬虫用户的所述访问请求信息到所述目标服务器。

可选的，获取用户发送的对目标服务器的访问请求信息，包括：

对路由服务器的网卡端口进行镜像，得到镜像网卡端口；

通过所述镜像网卡端口，从所述路由服务器处获取所述访问请求信息。

可选的，确定所述访问请求信息对应的用户是否为可疑爬虫用户，包括：

根据所述访问请求信息包含的用户的互联网协议IP地址、端口号、标识用户身份的标记和/或用户代理，确定所述访问请求信息对应的用户是否为可疑爬虫用户。

可选的，所述流量数据包括：所述可疑爬虫用户发送的对所述目标服务器的访问请求信息的次数；

获取所述可疑爬虫用户访问所述目标服务器产生的流量数据，并计算所述流量数据的实际值，包括：

获取所述访问请求信息到达路由服务器的时间点之前预定时间段内，所述可疑爬虫用户发送到所述目标服务器的访问请求信息的次数；

根据所述次数，计算所述预定时间段内所述可疑爬虫用户访问所述目标服务器的访问频率；

将所述访问频率作为所述流量数据的实际值。

可选的，所述流量数据包括：所述可疑爬虫用户的IP地址和标识所述可疑爬虫用户身份的标记；

获取所述访问请求信息到达路由服务器的时间点之前预定时间段内，所述可疑爬虫用户的IP地址的数量和所述标记的数量；

计算所述IP地址的数量与所述标记的数量的比值；

将所述比值作为所述流量数据的实际值。

可选的，所述流量数据包括：所述访问请求信息访问所述目标服务器页面的路径；

获取所述访问请求信息到达所述路由服务器时，所述访问请求信息中包含的访问所述目标服务器页面的路径；

计算所述路径的页面跳转次数；

将所述页面跳转次数作为所述流量数据的实际值。

可选的，停止发送所述爬虫用户的所述访问请求信息到所述目标服务器之后，所述方法还包括：

从存储伪造数据的数据库获取伪造数据；

将所述伪造数据返回给所述爬虫用户；或者

拒绝所述访问请求信息；或者

将验证输入请求返回给所述爬虫用户，以使所述爬虫用户在转发所述访问请求信息到所述目标服务器之前输入验证信息。

可选的，所述方法还包括：

将获取的所述流量数据存储到数据库；和/或

将获取的所述流量数据进行统计和展示。

根据本发明的第二方面，提供了一种网络爬虫的检测装置，包括：

获取确定模块，用于获取用户发送的对目标服务器的访问请求信息，确定所述访问请求信息对应的用户是否为可疑爬虫用户；

获取计算模块，用于当所述获取确定模块确定所述用户为可疑爬虫用户时，获取所述可疑爬虫用户访问所述目标服务器产生的流量数据，并计算所述流量数据的实际值；

判断模块，用于判断所述流量数据的实际值是否触发预设爬虫规则；

确定模块，用于将触发所述预设爬虫规则的所述可疑爬虫用户确定为爬虫用户；

响应模块，用于停止发送所述爬虫用户的所述访问请求信息到所述目标服务器。

根据本发明的第三方面，提供了一种电子设备，此电子设备包括：

根据本发明第二方面所述的网络爬虫的检测装置；或者，

处理器和存储器，存储器用于存储可执行的指令，所述指令用于控制处理器执行根据本发明第一方面所述的网络爬虫的检测方法。

根据本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据本发明第一方面所述的网络爬虫的检测方法。

根据本发明实施例，通过获取用户发送的对目标服务器的访问请求信息，可以判断用户是否为可疑爬虫用户，当为可疑爬虫用户时，直接获取该可疑爬虫用户访问目标服务器产生的流量数据，并计算流量数据的实际值，实时判断该实际值是否触发预设爬虫规则，将触发了预设爬虫规则的可疑爬虫用户确定为爬虫用户，当确定为爬虫用户时，停止发送爬虫用户的访问请求信息到目标服务器，及时对该访问请求信息进行处理。本发明直接对用户的访问请求信息进行判断，当有可疑爬虫用户时，实时获取用户访问请求的流量数据，并进行实际值计算，可以快速且高效地定位爬虫用户，并对爬虫用户的访问请求及时进行数据修改或阻断等处理，可以提高网站或APP应用的数据安全性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1为可用于实现本发明实施例的电子设备的硬件配置结构方框图。

图2为本发明实施例的网络爬虫的检测方法步骤流程图。

图3为本发明实施例的访问请求对应服务器的通信架构图。

图4为本发明一个实施例的网络爬虫的检测方法的应用场景架构图。

图5为本发明实施例的APP应用的页面路径示意图。

图6图为本发明另一实施例的网络爬虫的检测方法的应用场景架构图。

图7为本发明实施例的网络爬虫的检测装置的结构方框图。

图8为本发明实施例的电子设备的结构方框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人物已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1是示出可以实现本发明的实施例的电子设备1000的硬件配置的结构方框图。

电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑、服务器设备等。

服务器设备可以是整体式服务器或是跨多计算机或计算机数据中心的分散式服务器。服务器可以是各种类型的，例如但不限于，内容分发网络的节点设备、分布式存储系统的存储服务器、云数据库服务器、云计算服务器、云管理服务器、网络服务器、新闻服务器、邮件服务器、消息服务器、广告服务器、文件服务器、应用服务器、交互服务器、存储服务器、数据库服务器或代理服务器等。在一些实施例中，每个服务器可以包括硬件，软件，或用于执行服务器所支持或实现的合适功能的内嵌逻辑组件或两个或多个此类组件的组合。例如，服务器例如刀片服务器、云端服务器等，或者可以是由多台服务器组成的服务器群组，可以包括上述类型的服务器中的一种或多种等等。

如图1所示，电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中，处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够利用光纤或电缆进行有线通信，或者进行无线通信，具体地可以包括WiFi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。

图1所示的电子设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中，电子设备1000的所述存储器1200用于存储指令，所述指令用于控制所述处理器1100进行操作以执行本发明实施例提供的网络爬虫的检测方法。本领域技术人员应当理解，尽管在图1中对电子设备1000示出了多个装置，但是，本发明可以仅涉及其中的部分装置，例如电子设备1000可以只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

在本发明一个实施例中，提供一种网络爬虫的检测方法。

请参考图2，该图为本发明实施例的网络爬虫的检测方法步骤流程图，网络爬虫的检测方法可以是由电子设备实施，该电子设备例如可以是如图1所示的电子设备1000。

如图2所示，本发明实施例的网络爬虫的检测方法包括以下步骤：

步骤102，获取用户发送的对目标服务器的访问请求信息，确定所述访问请求信息对应的用户是否为可疑爬虫用户。

在实际应用中，由于路由服务器为用户访问请求的中转服务器，用于转发访问请求到目标服务器，通常在用户欲访问目标服务器发送访问请求时，访问请求先经过路由服务器，然后由路由服务器将用户的访问请求转发到对应访问的目标服务器，例如网站(WEB)或者应用(APP)。

例如图3所示，图3为本发明实施例的访问请求对应服务器的通信架构图。

路由服务器的网卡接收到用户发送的访问请求，然后路由服务器将访问请求转发到对应请求的目标服务器，例如网页WEB-1所在的服务器。

因此，获取用户发送的对目标服务器的访问请求信息的设备可以是路由服务器，后续，可由路由服务器执行后续步骤，以此实现网络爬虫的检测。

在一个示例中，为了不影响路由服务器转发访问请求到目标服务器的正常运行，降低路由服务器的工作负载，在本发明实施例中，可以单独创建一台监控服务器，再对路由服务器的网卡端口进行镜像，得到镜像网卡端口，并将镜像网卡端口安装在监控服务器上，该监控服务器通过镜像网卡端口，从所述路由服务器处获取所述访问请求信息，如图4所示，图4为本发明网络爬虫的检测方法的应用场景架构图，其中监控服务器用于执行本发明的网络爬虫的检测方法。

在此需要说明的是，使用如图4所示的场景框架获取用户发送的对目标服务器的访问请求信息具体是，用户向路由服务器发送对目标服务器的访问请求信息，路由服务器将接收到的访问请求信息后，再将访问请求信息发送给监控服务器，该监控服务器再根据访问请求信息执行后续的步骤。

在一个示例中，有的用户使用爬虫是为了改善用户体验或者深度挖掘用户的实际需求从而爬取其他用户访问目标服务器的数据，这样的爬虫不会危害到其他用户的数据，如，百度使用爬虫获取其他用户的搜索数据，以此优化搜索引擎，而有的用户使用爬虫是为了窃取其他用户访问目标服务器的数据或者篡改其他用户访问目标服务器的数据，从而泄露其他用户的数据，如，恶意爬虫为了窃取其他用户访问目标服务器时所输入密码，从而使用爬虫爬取其他用户访问目标服务器的数据，因此，在本发明实施例中，放行对用户的数据无威胁的爬虫，并将该爬虫的所述访问请求信息发送给所述目标服务器，只对对用户的数据存在威胁的爬虫进行处理。

综上所述，在获取到用户发送的对目标服务器的访问请求信息后，可确定访问请求信息对应的用户是否为可疑爬虫用户。

在此需要说明的是，可疑爬虫用户指的是为了窃取其他用户访问目标服务器的数据或者篡改其他用户访问目标服务器的数据，对其他用户的数据存在威胁的用户。

在步骤102中，确定所述访问请求信息对应的用户是否为可疑爬虫用户，是根据访问请求信息包含的用户的互联网协议(Internet Protocol，IP)地址、端口号、标识用户身份的标记(例如小型文本文件cookie)和/或用户代理(user agent，UA)，确定所述访问请求信息对应的用户是否为可疑爬虫用户。

步骤104，当所述用户为可疑爬虫用户时，获取所述可疑爬虫用户访问所述目标服务器产生的流量数据，并计算所述流量数据的实际值。

在一个示例中，流量数据包括所述可疑爬虫用户发送的对所述目标服务器的访问请求信息的次数，例如预定时间内访问了同一个目标服务器，例如WEB或APP，或者同一个WEB中的特定的页面有多少次。

在步骤104中，获取该可疑爬虫用户访问同一个目标服务器对应产生的流量数据，即获取该可疑爬虫用户的当前访问请求信息到达路由服务器的时间点之前预定时间段(时间窗口)内，该可疑爬虫用户发送到该目标服务器的访问请求信息的次数，例如预定时间段内访问的次数为10秒20次，或者1分钟100次，或者1天1000次等。

根据获取的访问次数，计算所述预定时间段内所述可疑爬虫用户访问所述目标服务器的访问频率，例如每秒次数、每分次数或每天次数等，并将所述访问频率作为该用户访问该目标服务器的流量数据的实际值。

在一个示例中，流量数据包括所述可疑爬虫用户的IP地址和标识所述可疑爬虫用户身份的标记(cookie)。

在步骤104中，获取该疑爬虫用户访问目标服务器对应产生的流量数据，即获取该疑爬虫用户的当前访问请求信息到达路由服务器的时间点之前预定时间段内，该疑爬虫用户的IP地址的数量和标记(cookie)的数量。计算IP地址的数量与(cookie)数量的比值，即对应关系。例如，该疑爬虫用户在预定时间窗口内获取一个cookie对应多个IP，或者一个IP使用多个cookie访问同一个目标服务器的地址，则对应的IP的数量与cookie数量的比值不等于1，即不是唯一对应关系。然后，将所述比值作为流量数据的实际值。

在一个示例中，流量数据包括该可疑爬虫用户访问请求访问目标服务器页面的路径，例如WEB网页或者APP应用页面。

在步骤104中，获取该可疑爬虫用户访问目标服务器对应产生的流量数据，即获取所述访问请求信息到达路由服务器时，所述访问请求信息中包含的访问所述目标服务器页面的路径。

参考图5，图5为本发明实施例的页面路径示意图，在该实施例中，目标服务器为APP应用，访问APP应用需要计算PATH，某个用户访问APP应用的某个页面，例如产品评论页面C时，通常先经过首页A，从首页的找到对应产品跳转到产品页面B，然后从产品页面B的评论处跳转到产品评论页面C。这里，首页A可以称作产品页面B的父亲页，产品页面B可以称作产品评论页面C的父亲页。如果用户请求访问评论页面C，需要从A跳转到B再从B跳到C，如果访问APP应用的页面不经过父亲页跳转，直接进入某个页面则访问的路径是不对的。

WEB也可以跳转到某一访问请求的页面，或者直接访问该页面。但在WEB计算访问路径时，不存在跳转路径也是正常的。这里，跳转路径的计算可以不针对WEB页面的路径。或者说，即使计算WEB页面的跳转次数为0，路径也可能是对的。

根据获取的路径，计算所述路径的页面跳转次数，例如访问图5所示APP应用的页面B，计算的跳转次数为1次，访问页面C，则计算的跳转次数为2次或3次。然后，将页面跳转次数作为所述流量数据的实际值。即，根据访问请求信息对应的访问页面，统计访问当前页面对应的配置路径，确定跳转到该页面的父页面有几个。从而确定跳转页面的数量。

在上述步骤104中，获取该可疑爬虫用户访问目标服务器对应产生的流量数据可以从路由服务器处获取，路由服务器中存储每次用户的访问请求到达路由服务器所产生的流量数据。

在一个示例中，用户的访问请求和对应的流量数据可以通过旁路网卡镜像，从镜像的网卡端口进行采集和获取，获取的流量数据可以保存在监控由服务器中的数据库中。

步骤106，判断所述流量数据的实际值是否触发预设爬虫规则。

在经过步骤104计算得到对应可疑爬虫用户访问目标服务器对应产生的流量数据的实际值后，判断所述流量数据的实际值是否触发预设爬虫规则，以判断该可疑爬虫用户对应流量数据的实际值的安全性，即该可疑爬虫用户是否安全。

在步骤104中，预设爬虫规则可以为，将所述流量数据的实际值与对应的预定的阈值进行比对，如果所述流量数据的实际值超过预定的阈值，则可疑爬虫用户为爬虫用户，如果所述流量数据的实际值未超过预定的阈值，则可疑爬虫用户不是爬虫用户。

步骤108，将触发所述预设爬虫规则的所述可疑爬虫用户确定为爬虫用户。

预定的阈值可以包括至少一个，例如在获取的流量数据为访问请求的次数时，可以根据多个规则设置多个预定的阈值，例如配置预定的阈值为单位时间内访问的次数(10秒1次，10秒20次，1分钟100次，1天1000次以上)等，如果计算的流量数据的实际值超出上述预定的阈值其中之一，则即表示该用户触发了预设爬虫规则，就将该可疑爬虫用户标记为爬虫用户。

或者，虽然该可疑爬虫用户对应的实际值不会超出高频次访问请求对应的预定的阈值，但是会触发低频次访问请求对应的预定的阈值，例如1天访问不超过1000次以上，但是例如每10秒发送一次访问请求，从单位时间内看是很小的，但访问是均匀的，也确定该可疑用户为爬虫用户。

预设爬虫规则可以分为动态规则和静态规则，这种情况下，触发预设爬虫规则的可疑用户被确定为爬虫用户，并将该爬虫用户(IP)加入黑名单。该黑名单还可以根据动态规则，例如设定时间动态调整。例如，预定时间内该用户为黑名单的爬虫用户，超出该预定时间则从黑名单中除去，视为正常用户。后续该用户是否为爬虫，则再根据步骤102至步骤108进行确定。

在一个示例中，黑名单的爬虫用户是根据静态规则设定的，即表示永久性的黑名单，以后不会从黑名单中去掉。

静态规则和动态规则都可以由被访问的WEB/APP预先配置，并通过不同的协议传输到监控服务器或者路由服务器，其中两种规则的通讯传输机制不同，其中静态规则使用的TCP协议(Transmission Control Protocol，传输控制协议)，通过套接字(socket)由WEB/APP的服务器传输到监控服务器或者路由服务器，动态规则使用HTTP协议(HyperTextTransfer Protocol,超文本传输协议)，通过POST(POST是向指定的资源提交要被处理的数据)由WEB/APP的服务器传输到监控服务器或者路由服务器。

步骤110，停止发送所述爬虫用户的所述访问请求信息到所述目标服务器。

在步骤110中，若步骤108确定该可疑爬虫用户为爬虫用户，即表示该爬虫用户的访问请求触发了预先配置的预设爬虫规则，此时停止路由服务器转发该爬虫用户的访问请求到目标服务器，并响应该爬虫用户的访问请求执行以下几种情况的操作。

如图4所示，用户发送访问请求到路由服务器，然后路由服务器的网卡端口会存在对应的访问请求及该用户的流量数据，监控服务器可以直接从路由服务器获取当前用户的访问请求和路由服务器存储的用户的流量数据，也可以从监控服务器镜像的网卡端口获取当前用户的访问请求和监控服务器中存储的用户的流量数据。

监控服务器根据访问请求信息，确定所述访问请求信息对应的用户是否为可疑爬虫用户，当所述用户为可疑爬虫用户时，获取的流量数据计算得到对应的流量数据的实际值，并据此判断所述流量数据的实际值是否触发预设爬虫规则，将触发所述预设爬虫规则的所述可疑爬虫用户确定为爬虫用户。在确定用户不是爬虫用户的情况下，用户即可正常访问，路由服务器将该用户的访问请求转发至目标服务器，例如图4所示网站，并将网站获取的数据内容返回给用户。在确定用户时爬虫用户的情况下，即用户为爬虫访问，监控服务器则响应该用户的访问请求执行以下几种情况的操作：

(1)修改访问请求的内容

首先，监控服务器从存储伪造数据的数据库获取伪造数据，这里数据库可以是监控服务器上的数据库，也可以第三方可以访问的数据库。然后，监控服务器向该用户发送获取的伪造数据。

此外，修改请求内容也可以根据预设的规则，制定不同的级别以及触发次数。并依据级别和触发规则的次数来确定修改访问请求的内容。例如：对于10秒访问20次的规则，连续触发3次则把该用户的IP设为危险IP，需要对该用户的请求内容进行修改。

还可以设置对该用户的处罚时间，确定该爬虫用户的IP为危险IP并加入黑名单，处罚时间为2小时，即2小时内对该用户的访问请求都提供修改的内容。处罚时间2小时后自动解除，除非再次触发预设规则，否则该用户的IP恢复为正常IP。即，爬虫用户的黑名单可以根据配置动态调整。

修改的目的是让确定为爬虫的用户通过访问请求爬取到的数据(伪造数据)无法被识别，造成爬虫用户获取的数据无法进行有效的使用。例如确定为爬虫的用户请求访问WEB或APP应用上的一些商品价格，或者是企业注册资金等敏感数据，可以在确定用户为爬虫时，响应爬虫用户的访问请求返回为随机区间的伪造数据，使得爬虫用户每次访问的伪造数据对应的价格浮动在合理范围内而又不是准确的数值。因此爬虫用户获取的数据基本无法使用，或者是使用难度加大。

(2)阻断

即，拒绝所述爬虫用户的访问请求信息。

可以在监控服务器处拒绝该爬虫用户的访问请求信息，或者通知路由服务器该用户为爬虫的结果，由路由服务器对该爬虫用户的访问请求信息进行拒绝。

具体地，可以向该爬虫用户返回错误页面，例如表示目标服务器无法对该访问请求正常提供信息，或是目标服务器无法回应该访问请求的404页面，并持续一段时间让该爬虫用户无法发送访问请求。或者，可以针对该爬虫用户的访问请求没有任何响应和反馈。

(3)输入验证

这种情况下，是向确定为爬虫的用户发送验证输入请求，以使所述爬虫用户在路由服务器转发其访问请求信息到目标服务器之前输入验证信息，例如数字或图片的验证码。

验证信息的目的是让爬虫用户输入验证码，通常，爬虫不能够识别验证码，因此可以由此过滤掉大部分的爬虫用户。即使现在存在能够识别验证码的爬虫用户，而添加验证信息则增加了爬虫的门槛，加大了数据爬取的难度。

在一个示例中，本发明实施例的网络爬虫的检测方法还包括：

将获取的用户对应的流量数据存储到数据库；和/或，将获取的所述流量数据进行统计和展示。

通过存储流量数据可以在接收到当前访问请求时，获取对该访问请求对应的用户之前存储的流量数据，并用于流量数据的阈值计算及爬虫用户的确定。

统计预定周期的流量数据并进行展示，可以让特定监控方获取爬虫用户的访问情况。

如图6所示，该图为本发明另一实施例的网络爬虫的检测方法的应用场景架构图。与图4不同的是，在确定用户为爬虫时，监控服务器可以将确定结果反馈给路由服务器，然后由路由服务器反馈爬虫用户的爬虫访问，执行相应的响应操作。即，路由服务器从存储伪造数据的数据库获取伪造数据以修改访问请求的内容并向该爬虫用户发送假数据；或者拒绝所述爬虫用户的访问请求；或者向爬虫用户发送验证输入请求。

根据本发明实施例，通过获取用户发送的对目标服务器的访问请求信息和访问目标服务器对应产生的流量数据，计算所述流量数据的实际值，并判断该实际值是否触发预设爬虫规则，从而确定对应用户是否为爬虫用户，当对应用户为爬虫用户时，停止发送所述爬虫用户的所述访问请求信息到所述目标服务器。并响应确定为爬虫的用户的访问请求，执行请求数据修改、拒绝请求或请求爬虫用户输入验证等操作。

本发明直接在网络的出口端(路由服务器端)实时进行用户访问请求的流量数据获取和实际值计算，可以快速且高效地定位爬虫用户，并对爬虫用户的访问请求及时进行数据修改或阻断等处理，可以提高网站或APP应用的数据安全性，且网站或APP应用的目标服务器不需要做任何修改即可确定爬虫用户。

此外，通过镜像路由服务器的网卡，从旁路的镜像网卡获取用户流量数据，与直接从路由服务器的网卡获取数据相比，镜像网卡减少了获取用户流量数据时对路由服务器的资源消耗，可以不影响非爬虫用户的正常使用。

在本发明另一个实施例中，还提供了一种网络爬虫的检测装置2000，如图7所示，网络爬虫的检测装置2000包括：

获取确定模块2100，用于获取用户发送的对目标服务器的访问请求信息，确定所述访问请求信息对应的用户是否为可疑爬虫用户；

获取计算模块2200，用于当所述获取确定模块2100确定所述用户为可疑爬虫用户时，获取所述可疑爬虫用户访问所述目标服务器产生的流量数据，并计算所述流量数据的实际值；

判断模块2300，用于判断所述流量数据的实际值是否触发预设爬虫规则；

确定模块2400，用于将触发所述预设爬虫规则的所述可疑爬虫用户确定为爬虫用户。

响应模块2500，用于停止发送所述爬虫用户的所述访问请求信息到所述目标服务器。

在一个示例中，判断模块2300和确定模块2400可以根据目标服务器端的WEB/APP20预先配置的动态规则，将确定为爬虫的用户加入动态黑名单，并将动态黑名单传输给响应模块2500，以使响应模块2500根据黑名单，响应用户的访问请求执行对应的操作。

在一个示例中，响应模块2500可以接收目标服务器端的WEB/APP 20预先配置的静态规则，并根据静态规则将触发规则的用户加入永久性黑名单，并响应用户的访问请求执行对应的操作。

在一个示例中，所述获取确定模块2100具体用于，对路由服务器的网卡端口进行镜像，得到镜像网卡端口；通过所述镜像网卡端口，从所述路由服务器处获取所述访问请求信息。

在一个示例中，所述获取确定模块2100具体用于，根据所述访问请求信息包含的用户的互联网协议IP地址、端口号、标识用户身份的标记和/或用户代理，确定所述访问请求信息对应的用户是否为可疑爬虫用户。

在一个示例中，所述流量数据包括：所述可疑爬虫用户发送的对所述目标服务器的访问请求信息的次数；

所述获取计算模块2200具体用于，获取所述访问请求信息到达路由服务器的时间点之前预定时间段内，所述可疑爬虫用户发送到所述目标服务器的访问请求信息的次数；根据所述次数，计算所述预定时间段内所述可疑爬虫用户访问所述目标服务器的访问频率；将所述访问频率作为所述流量数据的实际值。

在一个示例中，所述流量数据包括：所述可疑爬虫用户的IP地址和标识所述可疑爬虫用户身份的标记；

所述获取计算模块2200具体用于，获取所述访问请求信息到达路由服务器的时间点之前预定时间段内，所述可疑爬虫用户的IP地址的数量和所述标记的数量；计算所述IP地址的数量与所述标记的数量的比值；将所述比值作为所述流量数据的实际值。

在一个示例中，所述流量数据包括：所述访问请求信息访问所述目标服务器页面的路径；

所述获取计算模块2200具体用于，获取所述访问请求信息到达所述路由服务器时，所述访问请求信息中包含的访问所述目标服务器页面的路径；计算所述路径的页面跳转次数；将所述页面跳转次数作为所述流量数据的实际值。

在一个示例中，所述响应模块2500还用于，从存储伪造数据的数据库获取伪造数据；将所述伪造数据返回给所述爬虫用户；或者拒绝所述访问请求信息；或者将验证输入请求返回给所述爬虫用户，以使所述爬虫用户在转发所述访问请求信息到所述目标服务器之前输入验证信息。

在一个示例中，所述装置2000还包括：

存储模块2600，用于将获取的所述流量数据存储到数据库；和/或

展示模块2700，用于将获取的所述流量数据进行统计和展示。

根据本发明的再一个实施例，还提供了一种电子设备，该电子设备3000可以是图1所示的电子设备1000。图8为本发明实施例的电子设备的结构方框图。

一方面，该电子设备3000可以包括前述的网络爬虫的检测装置，用于实施本发明任意实施例的网络爬虫的检测方法。

另一方面，如图8所示，电子设备3000可以包括存储器3200和处理器3400，存储器3200用于存储可执行的指令；该指令用于控制处理器3400执行前述的网络爬虫的检测方法。

在本实施例中，电子设备3000可以是手机、平板电脑、掌上电脑、台式机、笔记本电脑、工作站、游戏机、服务器等任意具有存储器3200以及处理器3400的电子产品。

最后，根据本发明的又一个实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序在被处理器执行时实现根据本发明任意实施例提供的网络爬虫的检测方法。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人物来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人物来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人物能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种网络爬虫的检测方法，其特征在于，包括：

判断所述流量数据的实际值是否触发预设爬虫规则；

2.根据权利要求1所述的方法，其特征在于，获取用户发送的对目标服务器的访问请求信息，包括：

对路由服务器的网卡端口进行镜像，得到镜像网卡端口；

3.根据权利要求1所述的方法，其特征在于，确定所述访问请求信息对应的用户是否为可疑爬虫用户，包括：

4.根据权利要求1所述的方法，其特征在于，所述流量数据包括：所述可疑爬虫用户发送的对所述目标服务器的访问请求信息的次数；

将所述访问频率作为所述流量数据的实际值。

5.根据权利要求1所述的方法，其特征在于，所述流量数据包括：所述可疑爬虫用户的IP地址和标识所述可疑爬虫用户身份的标记；

计算所述IP地址的数量与所述标记的数量的比值；

将所述比值作为所述流量数据的实际值。

6.根据权利要求1所述的方法，其特征在于，所述流量数据包括：所述访问请求信息访问所述目标服务器页面的路径；

计算所述路径的页面跳转次数；

将所述页面跳转次数作为所述流量数据的实际值。

7.根据权利要求1所述的方法，其特征在于，停止发送所述爬虫用户的所述访问请求信息到所述目标服务器之后，所述方法还包括：

从存储伪造数据的数据库获取伪造数据；

将所述伪造数据返回给所述爬虫用户；或者

拒绝所述访问请求信息；或者

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将获取的所述流量数据存储到数据库；和/或

将获取的所述流量数据进行统计和展示。

9.一种网络爬虫的检测装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

根据权利要求9所述的网络爬虫的检测装置；或者，

处理器和存储器，所述存储器用于存储可执行的指令，所述指令用于控制所述处理器执行根据权利要求1至8中任一权利要求所述的网络爬虫的检测方法。

11.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至8中任一权利要求所述的网络爬虫的检测方法。