CN108429785A

CN108429785A - 一种爬虫识别加密串的生成方法、爬虫识别方法及装置

Info

Publication number: CN108429785A
Application number: CN201810044136.0A
Authority: CN
Inventors: 王新林
Original assignee: Guangdong Intellect Cloud Picture Polytron Technologies Inc
Current assignee: Guangdong Intellect Cloud Picture Polytron Technologies Inc
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2018-08-21

Abstract

本发明公开了一种爬虫识别加密串的生成方法，应用于服务器，包括以下步骤：接收步骤：当访问请求为第一次时，接收服务器端返回的加密串并将加密串存储用户端的缓存中；发送步骤：当访问请求为非第一次时，读取用户端的缓存中的加密串并发送给服务器端。本发明还提供了一种网页爬虫识别方法和计算机可读存储介质。本发明能够解决现有技术中对于爬虫识别的误判问题。

Description

一种爬虫识别加密串的生成方法、爬虫识别方法及装置

技术领域

本发明涉及防爬虫系统，尤其涉及一种爬虫识别加密串的生成方法、爬虫识别方法及存储介质。

背景技术

目前，在Web系统(包括所有的网站和API接口)中，在服务资源有限的情况下，当存在大量的网络爬虫是会消耗到大量的服务器资源，则会影响正常用户的访问。而现有的防爬虫系统基本都是通过Web请求中的用户代理(user-agent，其指浏览器或搜索引擎等)判断是否是爬虫，当认为是爬虫时，将爬虫的访问请求丢弃。但是这种方式存在以下缺点：1)用户代理可以设置为模拟的，因此仅仅通过用户代理对爬虫进行识别判断时，容易存在误判的情况，比如将正常用户也判断为爬虫或者将机器爬虫认为是正常用户等；2)对搜索引擎的机器爬虫采用丢弃的方式会造成搜索引擎无法收录网站内容，影响网站的推广。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种爬虫识别加密串的生成方法，其能够解决现有技术中对于爬虫的误判问题。

本发明的目的之二在于提供一种计算机可读存储介质，其能够解决现有技术中对于爬虫的误判问题。

本发明的目的之三在于提供一种爬虫识别方法，其能够解决现有技术中对于爬虫的误判问题。

本发明的目的之四在于提供一种计算机可读存储介质，其能够解决现有技术中对于爬虫的误判问题。

本发明的目的之一采用如下技术方案实现：

一种爬虫识别加密串的生成方法，应用于用户端，包括以下步骤：

接收步骤：当访问请求为第一次时，接收服务器端返回的加密串并将加密串存储用户端的缓存中；

发送步骤：当访问请求为非第一次时，读取用户端的缓存中的加密串并发送给服务器端。

进一步地，所述接收步骤还包括：接收服务器端返回的js代码，并获取用户端的当前时间，然后通过js代码将用户端的当前时间与加密串进行二次加密并将其存储于用户端的缓存中。

本发明的目的之二采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明目的之一所采用的爬虫识别加密串的生成方法的步骤。

本发明的目的之三采用如下技术方案实现：

一种爬虫识别方法，应用于服务器端，包括以下步骤：

发送加密串步骤：当访问请求为第一次时，生成加密串并将加密串返回给用户端；

解密步骤：当访问请求非第一次时，接收用户端发送的加密串；

第一判断步骤：根据加密串是否为服务器生成判断访问请求是否正常用户的访问请求。

进一步地，还包括：第二判断步骤：当访问请求不是正常用户的访问请求时，根据用户代理判断访问请求是否为机器爬虫的访问请求、或根据相同IP单位时间内用户发送的访问请求是否超过预设阈值判断访问请求为机器爬虫的访问请求。

进一步地，还包括第三判断步骤：当该访问请求既不是机器爬虫的访问请求，也不是正常用户的访问请求时，则该访问请求为疑似爬虫的访问请求。

进一步地，当访问请求为正常用户的访问请求时，将访问请求发送给用户服务器；当访问请求为机器爬虫的访问请求时，将访问请求发送给爬虫服务器；当访问请求为疑似爬虫的访问请求时，将访问请求发送给疑似爬虫服务器。

进一步地，发送加密串步骤还包括：生成js代码并返回给用户端，进而通过js代码获取用户端的当前时间，并通过js代码将用户端的当前时间与加密串进行二次加密并存储用户端的缓存中。

进一步地，所述第一判断步骤还包括：判断加密串是否过期，若是，则生成加密串并将加密串返回给客户端进行判断。

本发明的目的之四采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明目的之三所采用的爬虫识别方法的步骤。

相比现有技术，本发明的有益效果在于：

本发明通过用户第一次访问时在用户端的缓存中存储由服务器生成的加密串，然后在用户下次访问时通过对用户端内所存储的加密串进行解密，并根据加密串的解密结果以及结合现有机器爬的判断来识别得出访问请求的类型，进而根据不同的访问类型分别调用不同的服务器供其访问，解决了现有技术中仅仅通过用户代理来识别爬虫的缺陷问题，以及对机器爬虫的丢弃处理导致搜索引擎不能够收录网站内容的问题。

附图说明

图1为本发明提供的爬虫识别中用户端与服务器端的数据通信流程；

图2为本发明提供的爬虫识别方法的流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

本发明通过对识别爬虫(爬虫为一种自动获取网页内容的程序，是搜索引擎的重要组成部分)的方法进行优化，不仅仅单纯地通过用户代理来判断，而是将用户代理(useregent)、用户端的缓存(cookie)等结合来实现对访问请求的爬虫判断，并对判断结果进行分类，然后根据不同的访问类型进行对应的访问资源分配处理，从而确保正常用户的访问。

如图1所示，本发明中的爬虫识别包括判断和处理两个部分。

首先判断访问请求的类型。本方案中将访问请求的类型划分为以下三种：正常用户的访问请求、爬虫的访问请求和疑似爬虫的访问请求，对应地用户可分为正常用户、爬虫以及疑似爬虫。其中爬虫一般指的是常说的机器爬虫。

当判断得出访问请求的类型后，然后根据不同的访问请求的类型调用对应的服务器资源供其访问，既保证了正常用户的访问，又可以为机器爬虫的访问请求提供对应的服务器进行资源访问，而不是像现有技术中采用丢弃的方式，造成搜索引擎无法收录网站的内容。

在判断访问请求的类型时，本发明是通过由服务器生成的加密串以及现有爬虫识别的技术相结合来对访问请求的类型进行判断的。

其中，加密串是当服务器端接收到用户端发送的第一访问请求时生成的，服务器端还将加密串返回给用户端，进而存储用户端的缓存中。当用户端缓存中不存在对应的加密串时，则可认为该访问请求为第一次访问请求。

另外，在服务器端返回加密串的同时，还会向用户端返回一段JS代码。该JS代码用于将服务器端返回的加密串与用户端的当前时间进行二次加密并存储用户端的缓存中。这里的当前时间指的是接收加密串时，通过js获取用户端的当前时间，然后在二次加密时将当前时间作为参数加入到加密串中。这样，就可以用于判断加密串是否过期。比如在解密时，通过解密获取二次加密时的用户端的当前时间，然后将二次加密时用户端的当前时间与解密时的当前时间进行对比，进而可根据对比结果来判断加密串是否过期。当加密串过期时，则认为该访问请求为新的用户进行访问，则通过服务器重新生成对应的加密串并返回给用户端进行存储即可。

当访问请求不是第一次时，通过读取用户端的缓存中的加密串并将其发送给服务器端，然后服务器端根据该加密串来判断访问请求是否为正常用户的访问请求。

也即是，一种爬虫识别加密串的生成方法，其应用于用户端，包括以下步骤：

A：当访问请求为第一次时，接收服务器端返回的加密串并将加密串存储用户端的缓存中。另外，在判断访问请求是否为第一次时，是根据用户端的缓存中是否存在加密串来判断的，若没有加密串，则会接收服务器端返回的加密串，并对加密串进行存储。

B：当访问请求为非第一次时，读取用户端的缓存中的加密串并发送给服务器端。

进一步地，步骤A还包括：接收服务器端返回的js代码，并获取用户端的当前时间，然后通过js代码将用户端的当前时间与加密串进行二次加密并将其存储于用户端的缓存中。

同样的，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如文中所述的爬虫识别加密串的生成方法的步骤。

而对于爬虫的识别时，用户端发送到服务器端的访问请求时，首先会读取用户端的缓存中的加密串，然后将加密串随同访问请求发送给服务器端，这样服务器端就能够对接收到该加密串进行解密，然后判断解密的结果是否为服务器生成，若是，则认为该访问请求为正常用户的访问请求。

另外，由于服务器端返回到用户端时，还需要对服务器端返回的加密串通过js代码对加密串采用二次加密，二次加密时加入了用户端的当前时间。因此，在解密时，首先获取该解密时服务器端的当前时间，然后根据解密时的当前时间以及二次加密时加入的用户端的当前时间来判断加密串是否过期。当加密串过期时，则认为该访问请求为新的用户的访问请求，则按照访问请求为第一次时，生成对应的加密串并返回给用户端进行处理、存储等操作。。在判断加密串是否过期时，可通过将解密时的当前时间减去加密串中的时间是否超过指定时长来判断加密串是否过期。这里加密串中的时间为二次加密时加入的用户端的当前时间。

当访问请求不是正常用户的访问请求时，需要对该访问请求进一步进行判断：通过用户代理来判断该访问请求是否为机器爬虫的访问请求，或根据相同IP单位时间内访问次数是否超过预设值来判断访问请求是否为机器爬虫的访问请求。其中用户代理判断访问请求是否为机器爬虫的访问请求时，根据判断请求中是否会带有user-agent值，如果这个值的字符串里含有Baiduspider、Googlebot等指定的串，表示是爬虫。

服务器端每次接收到用户的访问请求时，利用memcache存储用户的访问次数，当相同的IP单位时间内访问次数超过一定阈值时，认为该访问请求为机器爬虫。比如一个访问请求在5秒内的访问次数为100次，则认为该访问请求为机器爬虫。

若访问请求既不是正常用户的访问请求，又不是机器爬虫的访问请求时，将访问请求划分为疑似爬虫的访问请求。

另外，本申请中的机器爬虫一般指的是Google、百度等几大搜索引擎的机器爬虫。对于机器爬虫的判断是现有技术，不是本发明中的发明点。根据上述判断方法可以得出访问请求的类型，然后根据访问请求的类型不同来调用对应的服务器供对应的访问请求进行资源访问。也即是，将正常用户的访问请求发送给用户服务器，将机器爬虫的访问请求发送给爬虫服务器，将疑似爬虫的访问请求发送给疑似爬虫服务器。

比如通过nginx+LUA(其中LUA语言可实现判断三种不同类型的访问，nginx可控制访问不同的服务器)控制分别调用不同的服务器上的资源供其访问，既保证了正常用户的访问，也能够保证机器爬虫的访问，进而解决了现有技术中对于机器爬虫或疑似爬虫的访问请求采用直接丢弃的方式导致搜索引擎无法收录网站内容的问题，便于网站的推广。

另外，对于服务器生成加密串生成是通过服务器端的随机生成一个原始串，然后根据密钥生成一令牌，再通过使用该token对原始串进行可逆的方式加密进而生成加密串。

如图2所述，一种爬虫识别方法，其应用于服务器端，包括以下步骤：

S1：访问请求为第一次时，生成加密串并将加密串返回给用户端。

当服务器端收到访问请求并且访问请求为第一次时，生成加密串并将加密串返回给用户端；同时还会返回一段js代码。该js代码将用户端的当前时间与加密串进行二次加密串，并将二次加密后的数据结果存储于用户端的缓存中。

当用户端再次向服务器端发送访问请求时，首先读取该用户端的缓存中的数据并随访问请求发送到服务器端。

S2：当访问请求非第一次时，接收用户端发送的加密串并对其进行解密。

S3：根据加密串是否为服务器生成来判断访问请求是否正常用户的访问请求，若是，则将访问请求发送给用户服务器；若否，则执行S4。

由于加密串是由服务器生成的，因此解密后的加密串与服务器生成的加密串相同时，则认为访问请求为正常用户的访问请求。

进一步地，在判断访问请求是否为正常用户的访问请求时，还要根据加密串是否过期来判断。由于用户在第一次访问时存储加密串时，将用户端的当前时间与加密串进行了二次加密，因此可通过对二次加密串进行解密时的时间与加密时的当前时间来判断加密串是否过期。

S4：根据用户代理判断访问请求是否为机器爬虫的访问请求、或根据相同IP单位时间内用户发送的访问请求是否超过预设阈值来判断访问请求为机器爬虫的访问请求，若是，则将访问请求发送给爬虫服务器；若否，则执行S5。

S5：该访问请求为疑似爬虫的访问请求，将访问请求发送给疑似爬虫服务区。

本发明还提供了一种电子设备，其包括存储器、处理器以及存储在存储器上并可在处理上运行的计算机程序，所述处理器执行所述程序时实现如文中所述的爬虫识别方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如文中所述的爬虫识别方法的步骤。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种爬虫识别加密串的生成方法，应用于用户端，其特征在于包括以下步骤：

2.如权利要求1所述爬虫识别加密串的生成方法，其特征在于：所述接收步骤还包括：接收服务器端返回的js代码，并获取用户端的当前时间，然后通过js代码将用户端的当前时间与加密串进行二次加密并将其存储于用户端的缓存中。

3.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-2中任一项所述的爬虫识别加密串的生成方法的步骤。

4.一种爬虫识别方法，应用于服务器端，其特征在于包括以下步骤：

5.如权利要求4所述的方法，其特征在于：还包括：第二判断步骤：当访问请求不是正常用户的访问请求时，根据用户代理判断访问请求是否为机器爬虫的访问请求、或根据相同IP单位时间内用户发送的访问请求是否超过预设阈值判断访问请求为机器爬虫的访问请求。

6.如权利要求5所述的方法，其特征在于：还包括第三判断步骤：当该访问请求既不是机器爬虫的访问请求，也不是正常用户的访问请求时，则该访问请求为疑似爬虫的访问请求。

7.如权利要求6所述的方法，其特征在于：当访问请求为正常用户的访问请求时，将访问请求发送给用户服务器；当访问请求为机器爬虫的访问请求时，将访问请求发送给爬虫服务器；当访问请求为疑似爬虫的访问请求时，将访问请求发送给疑似爬虫服务器。

8.如权利要求4所述的方法，其特征在于：发送加密串步骤还包括：生成js代码并返回给用户端，进而通过js代码获取用户端的当前时间，并通过js代码将用户端的当前时间与加密串进行二次加密并存储用户端的缓存中。

9.如权利要求8所述的方法，其特征在于：所述第一判断步骤还包括：判断加密串是否过期，若是，则生成加密串并将加密串返回给客户端。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求4-9中任一项所述的爬虫识别方法的步骤。