CN110519280A

CN110519280A - 一种爬虫识别方法、装置、计算机设备及存储介质

Info

Publication number: CN110519280A
Application number: CN201910816727.XA
Authority: CN
Inventors: 欧二强; 邓鑫鑫; 沈仁奎
Original assignee: Beijing Mind Creation Information Technology Co Ltd
Current assignee: Beijing Mind Creation Information Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-11-29
Anticipated expiration: 2039-08-30
Also published as: CN110519280B

Abstract

本发明实施例公开了一种爬虫识别方法、装置、计算机设备及存储介质，其中，方法包括：获取疑似爬虫对象的网络标识信息；在接收到所述疑似爬虫对象的访问请求时，向所述疑似爬虫对象发送验证消息；其中，所述验证消息用于所述疑似爬虫对象的客户端调用用户交互插件；获取所述用户交互插件的多次的交互反馈结果，并根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果。本发明实施例的技术方案能够提高爬虫对象的识别率。

Description

一种爬虫识别方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及计算机网络技术领域，尤其涉及一种爬虫识别方法、装置、计算机设备及存储介质。

背景技术

网络爬虫是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。据统计，爬虫流量早已超过了人类真实访问请求流量。

目前，现有技术中主要的识别爬虫的方法有：1、通过WAF(Web ApplicationFirewall，Web应用防护系统)、防火墙和网关等组件，根据IP(Internet Protocol，网络之间互连的协议)或设备ID(Identity document，身份标识号)请求频率超过正常用户访问的次数的阈值进行识别。2、根据header(标头)和JWT(Json web token)等请求的参数是否含有预设的隐藏值和参数加密进行识别。3、根据访问页面时访问接口的分布和页面的路径情况进行识别。正常用户访问的页面路径与爬虫的路径有着比较明显的差距。4、通过聚合多种IP和设备黑名单，并智能学习各种爬虫特征等方式的机器学习识别爬虫。

发明人在实现本发明的过程中，发现现有技术存在如下缺陷：

根据IP和设备ID识别爬虫的误判断率较高，而且爬虫可以通过IP池和构造设备ID以避免被识别；技术较高的爬虫还会反编译应用代码以查看请求方式，并使用爬虫实现加解密请求，从而爬取内容；当前的识别爬虫的方式大多基于web(World Wide Web，万维网)请求，但是移动化APP(Application，应用程序)衍生出的各种应用模拟器爬虫，可以模拟正常用户的访问类似路径。现有的爬虫的识别方法只能提高爬虫的技术门槛，并不能精准得识别爬虫行为。

发明内容

本发明实施例提供一种爬虫识别方法、装置、计算机设备及存储介质，以提高爬虫对象的识别率。

第一方面，本发明实施例提供了一种爬虫识别方法，包括：

获取疑似爬虫对象的网络标识信息；

在接收到所述疑似爬虫对象的访问请求时，向所述疑似爬虫对象发送验证消息；其中，所述验证消息用于所述疑似爬虫对象的客户端调用用户交互插件；

获取所述用户交互插件的多次的交互反馈结果，并根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果。

第二方面，本发明实施例还提供了一种爬虫识别装置，包括：

网络标识信息获取模块，用于获取疑似爬虫对象的网络标识信息；

验证消息发送模块，用于在接收到所述疑似爬虫对象的访问请求时，向所述疑似爬虫对象发送验证消息；其中，所述验证消息用于所述疑似爬虫对象的客户端调用用户交互插件；

爬虫识别结果更新模块，用于获取所述用户交互插件的多次的交互反馈结果，并根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所提供的爬虫识别方法。

第四方面，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所提供的爬虫识别方法。

本发明实施例通过获取疑似爬虫对象的网络标识信息，在接收到疑似爬虫对象的访问请求时，向疑似爬虫对象发送用于客户端调用用户交互插件的验证消息，并获取用户交互插件的多次的交互反馈结果，以根据多次的交互反馈结果更新疑似爬虫对象的爬虫识别结果，解决现有爬虫识别方法存在的识别率较低的问题，从而提高爬虫对象的识别率。

附图说明

图1是本发明实施例一提供的一种爬虫识别方法的流程图；

图2a是本发明实施例二提供的一种爬虫识别方法的流程图；

图2b是本发明实施例二提供的一种手势验证标识效果示意图；

图3a是本发明实施例三提供的一种爬虫识别方法的流程图；

图3b是本发明实施例三提供的一种爬虫对象反制方法的流程示意图；

图4是本发明实施例四提供的一种爬虫识别装置的示意图；

图5为本发明实施例五提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1是本发明实施例一提供的一种爬虫识别方法的流程图，本实施例可适用于准确识别爬虫对象的情况，该方法可以由爬虫识别装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在计算机设备中，与用于完成爬虫识别功能的客户端配合使用。相应的，如图1所示，该方法包括如下操作：

S110、获取疑似爬虫对象的网络标识信息。

其中，疑似爬虫对象可以是通过现有爬虫识别方法所识别出的，具有爬虫嫌疑的网络程序或脚本等。网络标识信息可以是疑似爬虫对象在网络中的标志信息，如疑似爬虫对象的IP、设备ID或用户ID等。

在本发明实施例中，首先可以通过现有的一系列爬虫识别方法对爬虫对象进行识别，并获取疑似爬虫对象的网络标识信息。如将根据IP和设备ID识别出的对象作为疑似爬虫对象，并获取疑似爬虫对象的网络标识信息。任何可以识别爬虫对象的方法均可以作为本发明实施例中获取疑似爬虫对象的网络标识信息的爬虫识别方法，本发明实施例对此并不进行限制。

S120、在接收到所述疑似爬虫对象的访问请求时，向所述疑似爬虫对象发送验证消息；其中，所述验证消息用于所述疑似爬虫对象的客户端调用用户交互插件。

其中，验证消息可以是用于对疑似爬虫对象的身份进行验证的消息。用户交互插件可以用于用户通过客户端与服务器进行交互。如，用户通过客户端输入验证码或执行服务器规定的验证操作，以实现与服务器之间的交互。

具体的，在识别出疑似爬虫对象并获取到疑似爬虫对象的网络标识信息后，为了准确识别该疑似爬虫对象是否为爬虫对象，当服务器再次接收到疑似爬虫对象的访问请求时，向疑似爬虫对象发送可以调用用户交互插件的验证消息。相应的，疑似爬虫对象的客户端相关平台APP接收到验证消息后，可以回调用户交互插件。

在本发明的一个可选实施例中，所述在接收到所述疑似爬虫对象的访问请求时，向所述疑似爬虫对象发送验证消息，可以包括：如果确定所述疑似爬虫对象的访问请求满足预设交互条件，则向所述疑似爬虫对象发送验证消息；其中，所述预设交互条件包括：所述访问请求的关联信息达到交互基准。

其中，预设交互条件可以是判定对疑似爬虫对象利用用户交互插件进一步识别的条件。访问请求的关联信息可以是访问请求所涉及到的关联网络信息，例如，访问请求的数量、频率，或访问请求占用的网络带宽等。交互基准可以是判定可以对疑似爬虫对象进行识别的条件。例如，访问请求的数量达到设定阈值，其中，设定阈值可以是根据实际需求所设定的数值，如100等。本发明实施例并不对访问请求的关联信息以及交互基准的具体内容进行限定。

可选的，只有在确定疑似爬虫对象对服务器的访问请求满足预设交互条件时，才会向疑似爬虫对象发送验证消息。示例性的，在获取到某一疑似爬虫对象的网络标识信息后，如果服务器累计该疑似爬虫对象的访问请求的数量达到了设定阈值，则触发对该疑似爬虫对象利用用户交互插件进一步识别的操作，向疑似爬虫对象发送可以调用用户交互插件的验证消息。

S130、获取所述用户交互插件的多次的交互反馈结果，并根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果。

其中，交互反馈结果可以是疑似爬虫对象针对用户交互插件所反馈的执行结果。

相应的，疑似爬虫对象的客户端相关平台APP接收到服务器发送的验证消息后，可以回调用户交互插件。此时，真实用户和爬虫对象对用户交互插件所执行的操作不同，进而导致其向服务器反馈的交互反馈结果也不同。示例性的，如果疑似爬虫对象是真实用户，则可以针对用户交互插件执行匹配的交互操作，并针对服务器发送的验证消息反馈响应消息；如果疑似爬虫对象确实为爬虫对象，则其针对用户交互插件不会执行匹配的交互操作，同时，用户交互插件不会阻塞爬虫对象的后续爬虫行为。因此，爬虫对象可以忽略用户交互插件继续爬取网络数据，并不会针对服务器发送的验证消息反馈响应消息。所以，服务器可以根据疑似爬虫对象针对用户交互插件的多次的交互反馈结果来更新疑似爬虫对象的爬虫识别结果，以根据最终的爬虫识别结果确定疑似爬虫对象是否确实为爬虫对象。

示例性的，如果疑似爬虫对象可以针对客户端调用的用户交互插件执行匹配的交互操作，并针对服务器发送的验证消息反馈响应消息，则将本次爬虫识别结果更新为：该疑似爬虫对象暂时确定为真实用户。如果服务器再次接收到该疑似爬虫对象的访问请求，重复向疑似爬虫对象发送验证消息，并获取用户交互插件的交互反馈结果。如果疑似爬虫对象可以针对客户端调用的用户交互插件执行匹配的交互操作，并针对服务器发送的验证消息反馈响应消息，则将本次爬虫识别结果更新为：该疑似爬虫对象确定为真实用户，由此实现服务器与客户端的多轮交互确认。

由此可见，本发明实施例可以实现通过机器与用户的结合实现多轮交互确认，来进一步识别疑似爬虫对象是否为爬虫对象，利用真实用户与爬虫对象对响应用户交互插件的本质区别确定疑似爬虫对象的真实身份，能够有效提升爬虫识别的准确率，从而提高爬虫对象的识别率。

本发明实施例通过获取疑似爬虫对象的网络标识信息，在接收到疑似爬虫对象的访问请求时，向疑似爬虫对象发送用于客户端调用用户交互插件的验证消息，并获取用户交互插件的多次的交互反馈结果，以根据交互反馈结果更新疑似爬虫对象的爬虫识别结果，解决现有爬虫识别方法存在的识别率较低的问题，从而提高爬虫对象的识别率。

实施例二

图2a是本发明实施例二提供的一种爬虫识别方法的流程图，本实施例以上述实施例为基础进行具体化，在本实施例中，给出了对疑似爬虫对象的网络标识信息的具体处理方式，以及根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果的具体实现方式。相应的，如图2a所示，本实施例的方法可以包括：

S210、获取疑似爬虫对象的网络标识信息。

其中，所述网络标识信息可以包括但不限于IP、设备ID和用户ID。

在本发明实施例中，可选的，可以将IP、设备ID和用户ID同时作为网络标识信息。

S220、将所述网络标识信息加入预设关注列表中，并通过可疑程度值对所述网络标识信息进行标识；其中，所述可疑程度值用于标识所述疑似爬虫对象的爬虫识别结果。

其中，预设关注列表可以是预先设定的存储列表，用于存储疑似爬虫对象的网络标识信息。可疑程度值可以用于标识疑似爬虫对象的爬虫识别结果。例如，可疑程度值采用百分数值标记，疑似爬虫对象为爬虫对象的概率越高，则可疑程度值对应的百分数值越大。

在本发明实施例中，可选的，为了实现对疑似爬虫对象的多次识别，可以将网络标识信息加入预设关注列表中，并通过可疑程度值对预设关注列表中的网络标识信息进行标识。可以理解的是，预设关注列表可以包括多个疑似爬虫对象的网络标识信息。

S230、在接收到所述疑似爬虫对象的访问请求时，向所述疑似爬虫对象发送验证消息。

在本发明的一个可选实施例中，所述向所述疑似爬虫对象发送验证消息，可以包括：通过预设加密算法生成验证标识字符串，并将所述验证标识字符串添加至头部信息构成所述验证消息；将所述验证消息反馈给所述疑似爬虫对象的客户端。

其中，预设加密算法可以是可逆加密算法，如ASE(Advanced EncryptionStandard，高级加密标准)或RSA(Rivest-Shamir-Adleman，一种因特网加密和认证体系)算法等。任何可逆加密算法均可以作为预设加密算法，本发明实施例并不对预设加密算法的具体内容进行限定。验证标识字符串可以是通过预设加密算法所生成的一种用于进行验证的字符串。

具体的，在本发明实施例中，可以采用预设加密算法生成验证标识字符串，如X-Dedao-Security:encrypt(id,timestamp,rand)。然后将验证标识字符串填加至服务器向客户端返回的头部信息header中构成对应的验证消息。然后将该验证消息反馈给疑似爬虫对象的客户端。

S240、获取所述用户交互插件的多次的交互反馈结果，并根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果。

在本发明的一个可选实施例中，所述获取所述用户交互插件的多次的交互反馈结果，可以包括：如果所述疑似爬虫对象完成所述用户交互插件的响应操作，则接收所述疑似爬虫对象反馈的响应消息作为交互反馈结果。

相应的，如果疑似爬虫对象为真实用户，则该疑似爬虫对象的客户端调用用户交互插件后，可以针对用户交互插件完成匹配的响应操作。此时，服务器可以接收该疑似爬虫对象通过客户端反馈的响应消息作为交互反馈结果。

在本发明的一个可选实施例中，所述响应消息包括所述验证标识字符串；在所述接收所述疑似爬虫对象反馈的响应消息之后，还可以包括：对所述响应消息进行验证，以确认所述响应消息的有效性。

具体的，疑似爬虫对象通过客户端反馈的响应消息中也可以包括验证标识字符串。相应的，服务器接收到疑似爬虫对象反馈的响应消息之后，可以对响应消息进行解码验证，以确认响应消息的有效性。

相应的，S240具体可以包括下述操作：

S241、判断是否在预设时间内接收到所述疑似爬虫对象执行所述用户交互插件反馈的响应消息，若是，则执行S242，否则，执行S246。

S242、按照第一更新规则更新所述可疑程度值。

其中，预设时间可以是根据实际需求所设定的时间数值，如2分钟等，本发明实施例并不对预设时间的具体数值进行限定。第一更新规则可以是针对用户交互插件反馈响应消息的疑似爬虫对象所制定的爬虫识别结果的更新规则。

具体的，服务器如果在预设时间内接收到疑似爬虫对象执行用户交互插件反馈的响应消息，则可以按照第一更新规则更新疑似爬虫对象的网络标识的可疑程度值。例如，降低可疑程度值。

S243、判断所述可疑程度值是否满足交互中止条件，若是，则执行S244，否则，返回执行S241。

S244、根据程度值影响因素持续更新所述可疑程度值。

其中，交互中止条件可以是判定服务器和疑似爬虫对象之间中止交互的条件。例如，疑似爬虫对象的可疑程度值达到预先设定的一个阈值：60％。程度值影响因素可以是网络中影响可疑程度值的因素，例如，访问请求的数量或频率等。

可选的，当服务器确定疑似爬虫对象的可疑程度值满足交互中止条件时，可以暂时认为该疑似爬虫对象不是爬虫对象。但为了实现对疑似爬虫对象的准确识别，可以根据程度值影响因素持续更新可疑程度值。

S245、当确定所述可疑程度值满足第一识别终止条件时，终止更新所述可疑程度值，并将所述疑似爬虫对象的网络标识信息从所述预设关注列表中删除。

其中，第一识别终止条件可以是判定疑似爬虫对象为真实用户而非爬虫对象，可以终止识别爬虫对象的条件。例如，可疑程度值达到预先设定的另外一个阈值50％时，可以终止识别，并确认疑似爬虫对象为真实用户。

相应的，对于暂时认为不是爬虫对象的疑似爬虫对象，在根据程度值影响因素持续更新可疑程度值的情况下，一旦确定可疑程度值满足第一识别终止条件，则可以终止更新可疑程度值。也即，终止更新疑似爬虫对象的爬虫识别结果，确定疑似爬虫对象为真实用户而非爬虫对象，并将疑似爬虫对象的网络标识信息从所述预设关注列表中删除，终止该疑似爬虫对象的识别过程。如果可疑程度值在程度值影响因素的影响下，又触发了识别开始条件，如可疑程度值达到30％，则可以重新开始识别过程。即在接收到疑似爬虫对象的访问请求时，向疑似爬虫对象发送验证消息。

S246、按照第二更新规则更新所述可疑程度值。

其中，第二更新规则可以是针对用户交互插件未反馈响应消息的疑似爬虫对象所制定的爬虫识别结果的更新规则。例如，提高可疑程度值。

具体的，如果确定在预设时间内未接收到疑似爬虫对象执行用户交互插件反馈的响应消息，则可以按照第二更新规则更新疑似爬虫对象的网络标识的可疑程度值。

S247、判断所述可疑程度值是否满足第二识别终止条件，若是，则执行S248，否则，返回执行S230。

其中，第二识别终止条件可以是判定疑似爬虫对象确实为爬虫对象，可以终止识别爬虫对象的条件。

S248、终止更新所述可疑程度值，确认所述疑似爬虫对象为爬虫对象。

相应的，如果确定疑似爬虫对象的可疑程度值满足第二识别终止条件，则可以终止更新可疑程度值，也即终止更新疑似爬虫对象的爬虫识别结果，确认疑似爬虫对象为爬虫对象。否则，当疑似爬虫对象的可疑程度值不满足第二识别终止条件时，可以暂时认为该疑似爬虫对象为爬虫对象，但为了实现对疑似爬虫对象的准确识别，可以返回执行在接收到疑似爬虫对象的访问请求时，向疑似爬虫对象发送验证消息的操作，继续对该疑似爬虫对象进行识别，直至确定该疑似爬虫对象确实为爬虫对象。

在本发明的一个可选实施例中，所述可疑程度值包括可疑权重值和有效时间；其中，所述可疑权重值用于标识所述疑似爬虫对象是否为爬虫对象，所述有效时间用于标识所述可疑权重值的生效时间；所述第一更新规则包括：降低所述可疑权重值并重设所述有效时间；所述第二更新规则包括：提高所述可疑权重值并重设所述有效时间；所述交互中止条件包括：所述可疑权重值达到第一预设阈值；所述第一识别终止条件包括：所述可疑权重值达到第二预设阈值；所述第二识别终止条件包括：所述可疑权重值达到第三预设阈值。

其中，可疑权重值可以用于标识疑似爬虫对象是否为爬虫对象，示例性的，通过百分数值的方式标识疑似爬虫对象为爬虫对象的概率。例如，当可疑权重值高于60％时，表示疑似爬虫对象为爬虫对象；当可疑权重值低于30％时，表示疑似爬虫对象不是爬虫对象；当可疑权重值高于30％并小于60％时，表示疑似爬虫对象暂定不是为爬虫对象。或者，直接通过设定格式的数值，如正整数，标识疑似爬虫对象是否为爬虫对象。例如，当可疑权重值高于100时，表示疑似爬虫对象为爬虫对象；当可疑权重值低于30时，表示疑似爬虫对象不是爬虫对象；当可疑权重值高于30并小于100时，表示疑似爬虫对象暂定不是为爬虫对象。有效时间可以用于标识可疑权重值的生效时间。示例性的，假设有效时间为12小时，并于2019年8月14日0:00开始计时，当前疑似爬虫对象对应的可疑权重值为80。如果在2019年8月14日8:00时刻，当前疑似爬虫对象对应的可疑权重值为50或100，则于2019年8月14日8:00开始重设有效时间。也即，有效时间于2019年8月14日8:00开始计时。。第一预设阈值、第二预设阈值和第三预设阈值可以是根据实际需求所设定的数值，如80％、50％和90％等，本发明实施例并不对第一预设阈值、第二预设阈值和第三预设阈值的具体数值进行限定。同时，还可以根据实际需求设定其他的预设阈值，如第四预设阈值等，用于对疑似爬虫对象的识别过程标识更多的识别阶段。

具体的，服务器如果确定接收到疑似爬虫对象执行用户交互插件反馈的响应消息，则降低疑似爬虫对象的可疑权重值并重设有效时间。如果可疑权重值不满足交互中止条件，即可疑权重值未达到第一预设阈值，则返回执行获取用户交互插件的交互反馈结果的操作，重新进入识别阶段更新疑似爬虫对象的可疑权重值。当可疑程度值满足交互中止条件时，即可疑权重值达到第一预设阈值，根据程度值影响因素持续更新所述可疑程度值。当确定可疑程度值满足第一识别终止条件时，即可疑权重值达到第二预设阈值，终止更新所述可疑程度值，并将疑似爬虫对象的网络标识信息从预设关注列表中删除。当确定可疑程度值重新触发识别开始条件，并在接收到疑似爬虫对象的访问请求时，继续向疑似爬虫对象发送验证消息重新进入识别过程。服务器如果未接受到疑似爬虫对象执行用户交互插件反馈的响应消息，则提高疑似爬虫对象的可疑权重值并重设有效时间，并在接收到疑似爬虫对象的访问请求时，可以不定期向疑似爬虫对象发送验证消息以继续进入识别过程。一旦确定可疑权重值达到第三预设阈值，则终止更新可疑程度值，确认疑似爬虫对象为爬虫对象。

在本发明的一个可选实施例中，所述根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果，还可以包括：如果确定所述可疑权重值在所述有效时间内未发生变化，则降低所述可疑权重值。

相应的，如果可疑权重值在有效时间内没有发生变化，表明疑似爬虫对象为爬虫对象的概率较低，则可以降低可疑权重值。假设有效时间为24小时，并于2019年8月14日0:00开始计时，当前疑似爬虫对象对应的可疑权重值为50。如果在2019年8月14日0:00至2019年8月15日0:00时间内，当前疑似爬虫对象对应的可疑权重值一直保持50不变，则将当前疑似爬虫对象对应的可疑权重值降低为30，并于2019年8月15日0:00重新开始监测当前疑似爬虫对象的可疑权重值。

在本发明的一个可选实施例中，所述用户交互插件用于向所述疑似爬虫对象的客户端通过设定规则显示验证标识。

其中，设定规则可以是预先设定的验证标识的显示规则，如在显示页面中直接显示，或以蒙层形式显示。验证标识可以是用于对疑似爬虫对象的身份进行验证的标识，如手势图、验证码或数学计算公式等。本发明实施例并不对验证标识的具体形式进行限定。

可选的，在本发明实施例中，用户交互插件可以在疑似爬虫对象的客户端通过设定规则显示验证标识。

在本发明的一个可选实施例中，所述验证标识包括手势验证标识图；所述设定规则包括：通过蒙层形式在界面中同步或异步显示所述验证标识。

图2b是本发明实施例二提供的一种手势验证标识效果示意图。在一个具体的例子中，如图2b所示，验证标识可以采用手势验证标识图。相应的，手势验证标识图可以在客户端界面中同步或异步显示。其中，同步显示表示客户端接收到验证消息后立即显示，异步显示表示客户端接收到验证消息后延迟一段时间显示。可选的，还可以设置手势验证标识图在预设时间段内，如1分钟，进行显示，一旦显示时间到期，则手势验证标识图也不再显示，以防止爬虫对象模仿人工操作对手势验证标识图进行验证操作。

在一个具体的例子中，根据现有的多种识别爬虫的手段，把识别的疑似爬虫对象的IP、设备ID和用户ID放入关注ID列表，并标识可疑权重值和有效时间，以用于进行下一步精确识别。当服务端确认关注ID列表中某一疑似爬虫对象的访问请求达到一定数量时，就会在返回客户端的header中加入一个可逆加密算法生成验证标识字符串，如X-Dedao-Security:encrypt(id,timestamp,rand)。相应的，平台(web、android、IOS、ipad或文石电纸书等)App通过网络库解析header，一旦识别到有X-Dedao-Security就会异步回调平台内组件弹出如图2b所示的手势验证标识图。手势验证标识图会在客户端的显示页面以蒙层形式展示，这种显示方式会阻挡住用户的显示界面，但是不会影响爬虫对象爬取当前数据内容。如果疑似爬虫对象是真实的用户，只需要及时滑动手势验证标识图完成验证即可，并返回验证标识字符串X-Dedao-Security信息给服务端，服务端解码并验证有效性。用户在预设的时间间隔内完成了验证，服务端就会重置该疑似爬虫对象的生命周期，如降低可疑权重值和重设有效时间，重新进入识别阶段。周而复始，如果可疑权重值小于第一预设阈值就会在一段时间内不再下发包含验证标识字符串的header。此时，服务器可以继续根据程度值影响因素持续更新可疑程度值。例如，当该疑似爬虫对象在12小时内的访问请求与正常用户的访问请求数量差别不大时，可以继续降低可疑权重值并重设有效时间。一旦可疑权重值低于第二预设阈值则认为疑似爬虫对象为真实用户，可将该疑似爬虫对象的网络标识信息移出关注ID列表。如果疑似爬虫对象为爬虫对象，则该疑似爬虫对象无法在预设的时间间隔内对手势验证标识图正确验证。此时服务器就会提升该疑似爬虫对象的可疑权重值并重设有效时间，并针对该疑似爬虫对象后续的访问请求不定期下发手势验证要求。随着该疑似爬虫对象的可疑权重值的提升，手势验证要求下发的频率也会提升，一旦可疑权重值达到第三预设阈值即可确定该疑似爬虫对象确实为爬虫对象。

由此可见，本发明实施例提供的爬虫识别方法实现了结合机器与用户通过多轮交互确认进行爬虫对象的标识。多次识别确认能够避免误识别，并提升识别的准确率，同时避免用户复杂的操作，降低对用户的干扰。还可以在需要应用端后续的请求时，使用带上令牌token或验证码等信息，避免增大爬虫破解的可能性。另外，由于只有平台APP才会集成回调定制版本的手势验证标识图，即使爬虫识别规则泄露，且爬虫对象集成内置的弹窗组件，也是需要较高的破解成本。另外，即使爬虫对象使用了模拟器，在无人工接入的情况下，也很难准确地尽孝手势确认，因此能够有效提高爬虫对象破解的难度，且整个过程都可以自动化实现。

本发明实施例通过将疑似爬虫对象的网络标识信息加入预设关注列表中，并通过可疑程度值对网络标识信息进行标识，以根据获取的用户交互插件的多次的交互反馈结果更新可疑程度值，实现对疑似爬虫对象的爬虫识别结果的更新过程，能够有效提高爬虫对象的识别率。

需要说明的是，以上各实施例中各技术特征之间的任意排列组合也属于本发明的保护范围。

实施例三

图3a是本发明实施例三提供的一种爬虫识别方法的流程图，本实施例以上述实施例为基础进行具体化，在本实施例中，给出了根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果之后的具体操作。相应的，如图3a所示，本实施例的方法可以包括：

S310、获取疑似爬虫对象的网络标识信息。

S320、将所述网络标识信息加入预设关注列表中，并通过可疑程度值对所述网络标识信息进行标识。

S330、在接收到所述疑似爬虫对象的访问请求时，向所述疑似爬虫对象发送验证消息。

S340、获取所述用户交互插件的多次的交互反馈结果，并根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果。

S350、如果根据所述爬虫识别结果确定所述疑似爬虫对象为爬虫对象，则根据所述爬虫对象的访问请求构建预设模拟数据。

其中，预设模拟数据可以是根据爬虫对象请求的接口的数据结构所生成的模拟数据。

在本发明实施例中，如果根据爬虫识别结果确定疑似爬虫对象为爬虫对象，则可以根据爬虫对象的访问请求构建预设模拟数据。

图3b是本发明实施例三提供的一种爬虫对象反制方法的流程示意图。示例性的，如图3b所示，发爬虫服务端具备mock(模拟)服务和管理端，可以根据爬虫对象的访问请求的接口的数据结构生成mock的数据。比如产品的价格是数值类型，mock服务会随机生成一个数值作为产品价格。比如连接地址是字符串类型，mock服务也会随机组成一个无意义的内容或者其他错误地址作为连接地址。

S360、向所述爬虫对象发送所述预设模拟数据。

相应的，服务器可以将生成的预设模拟数据发送给爬虫对象。随着爬虫对象爬取数据的增多，预设模拟数据形成的错误的脏数据也会越多，与之前爬取的数据混合在一起，攻击者就需要花费更多的人力成本进行筛选，从而提升爬取成本，达到反制爬虫对象的效果。

S370、如果确定所述爬虫对象的爬取行为满足封禁处理条件，则对所述爬虫对象进行封禁处理。

其中，封禁处理条件可以是用于对爬虫对象进行封禁的触发条件。例如，爬虫对象的爬取行为占据了主要的网络带宽。

相应的，在本发明实施例中，为了遏制爬虫对象的疯狂爬取行为，防止攻击者恶意攻击服务器，可以对满足封禁处理条件的爬虫对象进行封禁处理。如，对恶意占据网络带宽的爬虫对象的IP、设备ID和用户ID进行封禁处理。

需要说明的是，图3a仅是一种实现方式的示意图，S350-S360和S370之间并没有先后顺序关系，可以先实施S350-S360，再实施S370，也可以先实施S370，再实施S350-S360，还可以两者并行实施或择一实施。

本发明实施例通过对爬虫对象发送构建的预设模拟数据，并在确定爬虫对象的爬取行为满足封禁处理条件时，则对爬虫对象进行封禁处理，能够实现对爬虫对象的有效反制。

实施例四

图4是本发明实施例四提供的一种爬虫识别装置的示意图，如图4所示，所述装置包括：网络标识信息获取模块410、验证消息发送模块420以及爬虫识别结果更新模块430，其中：

网络标识信息获取模块410，用于获取疑似爬虫对象的网络标识信息；

验证消息发送模块420，用于在接收到所述疑似爬虫对象的访问请求时，向所述疑似爬虫对象发送验证消息；其中，所述验证消息用于所述疑似爬虫对象的客户端调用用户交互插件；

爬虫识别结果更新模块430，用于获取所述用户交互插件的多次的交互反馈结果，并根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果。

可选的，所述网络标识信息包括IP、设备ID和用户ID；所述装置还包括：网络标识信息标识模块，用于将所述网络标识信息加入预设关注列表中，并通过可疑程度值对所述网络标识信息进行标识；其中，所述可疑程度值用于标识所述疑似爬虫对象的爬虫识别结果。

可选的，爬虫识别结果更新模块430，具体用于：如果确定在预设时间内接收到所述疑似爬虫对象执行所述用户交互插件反馈的响应消息，则按照第一更新规则更新所述可疑程度值；返回执行获取所述用户交互插件的多次的交互反馈结果的操作，直至所述可疑程度值满足交互中止条件。

可选的，爬虫识别结果更新模块430，具体用于：如果确定所述可疑程度值满足所述交互中止条件，则根据程度值影响因素持续更新所述可疑程度值；当确定所述可疑程度值满足第一识别终止条件时，终止更新所述可疑程度值，并将所述疑似爬虫对象的网络标识信息从所述预设关注列表中删除。

可选的，爬虫识别结果更新模块430，具体用于：如果确定在所述预设时间内未接收到所述疑似爬虫对象执行所述用户交互插件反馈的响应消息，则按照第二更新规则更新所述可疑程度值；返回执行在接收到所述疑似爬虫对象的访问请求时，向所述疑似爬虫对象发送验证消息的操作，直至确定所述可疑程度值满足第二识别终止条件。

可选的，所述可疑程度值包括可疑权重值和有效时间；其中，所述可疑权重值用于标识所述疑似爬虫对象是否为爬虫对象，所述有效时间用于标识所述可疑权重值的生效时间；所述第一更新规则包括：降低所述可疑权重值并重设所述有效时间；所述第二更新规则包括：提高所述可疑权重值并重设所述有效时间；所述交互中止条件包括：所述可疑权重值达到第一预设阈值；所述第一识别终止条件包括：所述可疑权重值达到第二预设阈值；所述第二识别终止条件包括：所述可疑权重值达到第三预设阈值。

可选的，爬虫识别结果更新模块430，还用于：如果确定所述可疑权重值在所述有效时间内未发生变化，则降低所述可疑权重值。

可选的，验证消息发送模块420，具体用于：如果确定所述疑似爬虫对象的访问请求满足预设交互条件，则向所述疑似爬虫对象发送验证消息；其中，所述预设交互条件包括：所述访问请求的关联信息达到交互基准。

可选的，验证消息发送模块420，具体用于：通过预设加密算法生成验证标识字符串，并将所述验证标识字符串添加至头部信息构成所述验证消息；将所述验证消息反馈给所述疑似爬虫对象的客户端。

可选的，爬虫识别结果更新模块430，具体用于：如果所述疑似爬虫对象完成所述用户交互插件的响应操作，则接收所述疑似爬虫对象反馈的响应消息作为交互反馈结果。

可选的，所述响应消息包括所述验证标识字符串；爬虫识别结果更新模块430，还用于：对所述响应消息进行验证，以确认所述响应消息的有效性。

可选的，所述用户交互插件用于向所述疑似爬虫对象的客户端通过设定规则显示验证标识。

可选的，所述验证标识包括手势验证标识图；所述设定规则包括：通过蒙层形式在界面中同步或异步显示所述验证标识。

可选的，所述装置还包括：预设模拟数据构建模块，用于如果根据所述爬虫识别结果确定所述疑似爬虫对象为爬虫对象，则根据所述爬虫对象的访问请求构建预设模拟数据；预设模拟数据发送模块，用于向所述爬虫对象发送所述预设模拟数据。

可选的，所述装置还包括：爬虫对象封禁处理模块，用于如果确定所述爬虫对象的爬取行为满足封禁处理条件，则对所述爬虫对象进行封禁处理。

上述爬虫识别装置可执行本发明任意实施例所提供的爬虫识别方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的爬虫识别方法。

由于上述所介绍的爬虫识别装置为可以执行本发明实施例中的爬虫识别方法的装置，故而基于本发明实施例中所介绍的爬虫识别方法，本领域所属技术人员能够了解本实施例的爬虫识别装置的具体实施方式以及其各种变化形式，所以在此对于该爬虫识别装置如何实现本发明实施例中的爬虫识别方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中爬虫识别方法所采用的装置，都属于本申请所欲保护的范围。

实施例五

图5为本发明实施例五提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的计算机设备512的框图。图5显示的计算机设备512仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。计算机设备512典型的是承担服务器功能的计算机设备。

如图5所示，计算机设备512以通用计算设备的形式表现。计算机设备512的组件可以包括但不限于：一个或者多个处理器516，存储装置528，连接不同系统组件(包括存储装置528和处理器516)的总线518。

总线518表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

计算机设备512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备512访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置528可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)530和/或高速缓存存储器532。计算机设备512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统534可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory，CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储装置528可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块526的程序536，可以存储在例如存储装置528中，这样的程序模块526包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块526通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备512也可以与一个或多个外部设备514(例如键盘、指向设备、摄像头、显示器524等)通信，还可与一个或者多个使得用户能与该计算机设备512交互的设备通信，和/或与使得该计算机设备512能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口522进行。并且，计算机设备512还可以通过网络适配器520与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器520通过总线518与计算机设备512的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备512使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arraysof Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器516通过运行存储在存储装置528中的程序，从而执行各种功能应用以及数据处理，例如实现本发明上述实施例所提供的爬虫识别方法。

也即，所述处理单元执行所述程序时实现：获取疑似爬虫对象的网络标识信息；在接收到所述疑似爬虫对象的访问请求时，向所述疑似爬虫对象发送验证消息；其中，所述验证消息用于所述疑似爬虫对象的客户端调用用户交互插件；获取所述用户交互插件的多次的交互反馈结果，并根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果。

实施例六

本发明实施例六还提供一种存储计算机程序的计算机存储介质，所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的爬虫识别方法：获取疑似爬虫对象的网络标识信息；在接收到所述疑似爬虫对象的访问请求时，向所述疑似爬虫对象发送验证消息；其中，所述验证消息用于所述疑似爬虫对象的客户端调用用户交互插件；获取所述用户交互插件的多次的交互反馈结果，并根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器((Erasable Programmable ReadOnly Memory，EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种爬虫识别方法，其特征在于，包括：

获取疑似爬虫对象的网络标识信息；

2.根据权利要1所述的方法，其特征在于，所述网络标识信息包括IP、设备ID和用户ID；

在获取疑似爬虫对象的网络标识信息之后，还包括：

将所述网络标识信息加入预设关注列表中，并通过可疑程度值对所述网络标识信息进行标识；其中，所述可疑程度值用于标识所述疑似爬虫对象的爬虫识别结果。

3.根据权利要求2所述的方法，其特征在于，所述根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果，包括：

如果确定在预设时间内接收到所述疑似爬虫对象执行所述用户交互插件反馈的响应消息，则按照第一更新规则更新所述可疑程度值；

返回执行获取所述用户交互插件的多次的交互反馈结果的操作，直至所述可疑程度值满足交互中止条件。

4.根据权利要求3所述的方法，其特征在于：所述根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果，包括：

如果确定所述可疑程度值满足所述交互中止条件，则根据程度值影响因素持续更新所述可疑程度值；

当确定所述可疑程度值满足第一识别终止条件时，终止更新所述可疑程度值，并将所述疑似爬虫对象的网络标识信息从所述预设关注列表中删除。

5.根据权利要求4所述的方法，其特征在于，所述根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果，包括：

如果确定在所述预设时间内未接收到所述疑似爬虫对象执行所述用户交互插件反馈的响应消息，则按照第二更新规则更新所述可疑程度值；

返回执行在接收到所述疑似爬虫对象的访问请求时，向所述疑似爬虫对象发送验证消息的操作，直至确定所述可疑程度值满足第二识别终止条件。

6.根据权利要求5所述的方法，其特征在于：

所述可疑程度值包括可疑权重值和有效时间；其中，所述可疑权重值用于标识所述疑似爬虫对象是否为爬虫对象，所述有效时间用于标识所述可疑权重值的生效时间；

所述第一更新规则包括：降低所述可疑权重值并重设所述有效时间；

所述第二更新规则包括：提高所述可疑权重值并重设所述有效时间；

所述交互中止条件包括：所述可疑权重值达到第一预设阈值；

所述第一识别终止条件包括：所述可疑权重值达到第二预设阈值；

所述第二识别终止条件包括：所述可疑权重值达到第三预设阈值。

7.根据权利要求6所述的方法，其特征在于，所述根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果，还包括：

如果确定所述可疑权重值在所述有效时间内未发生变化，则降低所述可疑权重值。

8.根据权利要1所述的方法，其特征在于，所述在接收到所述疑似爬虫对象的访问请求时，向所述疑似爬虫对象发送验证消息，包括：

如果确定所述疑似爬虫对象的访问请求满足预设交互条件，则向所述疑似爬虫对象发送验证消息；

其中，所述预设交互条件包括：所述访问请求的关联信息达到交互基准。

9.根据权利要8所述的方法，其特征在于，所述向所述疑似爬虫对象发送验证消息，包括：

通过预设加密算法生成验证标识字符串，并将所述验证标识字符串添加至头部信息构成所述验证消息；

将所述验证消息反馈给所述疑似爬虫对象的客户端。

10.根据权利要9所述的方法，其特征在于，所述获取所述用户交互插件的多次的交互反馈结果，包括：

如果所述疑似爬虫对象完成所述用户交互插件的响应操作，则接收所述疑似爬虫对象反馈的响应消息作为交互反馈结果。

11.根据权利要求10所述的方法，其特征在于，所述响应消息包括所述验证标识字符串；

在所述接收所述疑似爬虫对象反馈的响应消息之后，还包括：

对所述响应消息进行验证，以确认所述响应消息的有效性。

12.根据权利要求1-11任一所述的方法，其特征在于，所述用户交互插件用于向所述疑似爬虫对象的客户端通过设定规则显示验证标识。

13.根据权利要求12所述的方法，其特征在于，所述验证标识包括手势验证标识图；

所述设定规则包括：通过蒙层形式在界面中同步或异步显示所述验证标识。

14.根据权利要求1所述的方法，其特征在于，在根据所述交互反馈结果更新所述疑似爬虫对象的爬虫识别结果之后，还包括：

如果根据所述爬虫识别结果确定所述疑似爬虫对象为爬虫对象，则根据所述爬虫对象的访问请求构建预设模拟数据；

向所述爬虫对象发送所述预设模拟数据。

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

如果确定所述爬虫对象的爬取行为满足封禁处理条件，则对所述爬虫对象进行封禁处理。

16.一种爬虫识别装置，其特征在于，包括：

17.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-15中任一所述的爬虫识别方法。

18.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-15中任一所述的爬虫识别方法。