CN107483563A

CN107483563A - 防爬虫的数据查询方法和装置以及客户端和服务器

Info

Publication number: CN107483563A
Application number: CN201710638553.3A
Authority: CN
Inventors: 李震
Original assignee: Nine Fangda Data Information Group Co Ltd
Current assignee: Nine Fangda Data Information Group Co Ltd
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2017-12-15

Abstract

本发明提供了一种防爬虫的数据查询方法和装置以及客户端和服务器，涉及互联网通信技术领域。其中，防爬虫的数据查询方法，用于客户端，包括：与服务器通信，获取服务器的服务器时间；每次访问服务器接口时均发出加密串和时间戳，同时标注客户端的操作系统和设备唯一标识以供服务器进行校验；其中，加密串是使用MD5加密的密钥和格式化时间戳以及应用关键字；对网页控件设置客户端独有的键值以供HTML5端校验网页控件；向HTML5端提供加密串和时间戳，以供HTML5端携带加密串和时间戳向服务器请求业务进而实现数据查询。既能够让非登陆用户自由查询数据，又防止被非正常用户爬走大量数据，减少运维层压力，减少接口层垃圾数据。

Description

防爬虫的数据查询方法和装置以及客户端和服务器

技术领域

本发明涉及互联网通信技术领域，具体而言，涉及防爬虫的数据查询方法和装置以及客户端和服务器。

背景技术

很多公司或者企业数据收集都是使用爬虫方式收集，即分析网站或者app中公开的接口，模拟接口参数，来访问接口，爬取数据。那么拥有数据源的公司会设置运维访问量，或者封账号的方式来防止抓取自己数据。目前，普通的防爬方案，只能解决必须登陆的用户，发现有用固定账号频繁调用接口的时候，会手动处理。另外，根据时效性处理不是很好，很多手机是可以改自己手机时间的，很多时候可能会造成非必要的防爬误伤正常用户。从运维角度只能封掉比如一分钟访问超过20次或者50次这样的大的ip。但是随着ip名单越来越长，那么每次遍历ip文件去查逻辑的频率也会有制约。限制数据中心调用接口总次数方式去把住数据源总出口方式，只是一刀切，当运维层未拦截及时，把当天总量用完时，误伤掉正常的用户。

单纯运维层面的拦截：即运维服务器设置两个文件，一个是黑名单，一个是白名单。根据每分钟每个ip访问量来加入到ip黑名单。同时在每分钟检查一次名单，读取名单，在每个进来的ip访问，进行筛选。白名单就是永远放开的ip列表。爬虫可以模拟ip；爬虫一般会租很多ip；有时4G的ip很容易被误伤。爬虫压低速度后，会避开运维检测。

接口层使用用户账号查封：即记录每个账号总访问量出口量，根据用户id，来判断此用户id 是否有效。如果一个用户id访问接口量特别大，则封掉此用户id，使此id失效。用户需要被强制登陆；公司内有些应用需求是不用登陆即可访问网络请求；另外压低到一定速度后，还是会被爬走比较多；当用户数量大时，维护成本高，数据库中垃圾数据存储过多。

数据源使用总接口访问量来做：即数据源出口是接口json或者xml方式，不是直接应用层访问数据库方式。数据源对每个应用都会有一个自己的账号，对这个账号会每天定一个接口访问总量。当这个账号访问任何数据源出口的接口，都会计数，当计数达到总量时，则数据源不再出数据。由于访问总量一定，如果某一天突然真实活跃用户量高时，或者某一天做活动突然访问量增大，则会误伤正常用户使用。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。提出了一种防爬虫的数据查询方法和装置以及客户端和服务器，既能够让APP的非登陆用户使用，又不被非正常用户（网络爬虫）爬走大量数据，同时减少运维层压力，减少接口层垃圾数据产生。

为实现上述目的，本发明的第一方面提出了一种防爬虫的数据查询方法，用于客户端，包括：与服务器通信，获取服务器的服务器时间；每次访问服务器接口时均发出加密串和时间戳，同时标注客户端的操作系统和设备唯一标识以供服务器进行校验；其中，加密串是使用MD5加密的密钥和格式化时间戳以及应用关键字；对网页控件设置客户端独有的键值以供HTML5端校验网页控件；向HTML5端提供加密串和时间戳，以供HTML5端携带加密串和时间戳向服务器请求业务进而实现数据查询。

优选的是，还包括：每次访问服务器接口时，都会从服务器返回信息中读取服务器时间进行设备时间纠偏，以保证客户端时间最大限度跟服务器时间保持一致。

在上述任一方案中优选的是，密钥存放在客户端中或者使用服务器传递。

根据本发明的上述技术方案，优选地，客户端的操作系统包括Android和IOS。

本发明的第二方面提出了一种防爬虫的数据查询方法，用于服务器，包括：接收客户端请求，获取客户端的操作系统信息和设备唯一标识；获取客户端发出的加密串和时间戳；判断时间戳是否在有效期内，若时间戳不在有效期内，则返回接口已失效的信息；若时间戳在有效期内，则计算出加密串与客户端传来的加密串做校验；若加密串一致则根据客户端的操作系统信息和设备唯一标识提供数据接口以供客户端进行数据查询，反之则返回接口已失效的信息。

优选的是，还包括：若在单位时间内某个ip的访问量超过阈值，则将ip来加入到黑名单，拒绝黑名单ip访问服务器中的数据；或者设置一个白名单，对白名单中的ip不做限制；对黑名单设置定期清理的逻辑，防止爬虫模拟ip爬取数据。

在上述任一方案中优选的是，当2分钟内有大量访问堆积在队列中时，自动屏蔽队列中的访问请求，减少服务器端接口压力。

在上述任一方案中优选的是，还包括：数据源使用总接口访问量来做，数据源对每个应用定下接口访问总量，当应用对数据源出口的接口访问次数达到总量时，数据源不再出数据。

本发明的第三方面提出了一种防爬虫的数据查询装置，用于客户端，包括：时间单元，与服务器通信，获取服务器的服务器时间；访问单元，每次访问服务器接口时均发出加密串和时间戳，同时标注客户端的操作系统和设备唯一标识以供服务器进行校验；其中，加密串是使用MD5加密的密钥和格式化时间戳以及应用关键字；键值单元，对网页控件设置客户端独有的键值以供HTML5端校验网页控件；业务单元，向HTML5端提供加密串和时间戳，以供HTML5端携带加密串和时间戳向服务器请求业务进而实现数据查询。

优选的是，还包括：校准单元，每次访问服务器接口时，都会从服务器返回信息中读取服务器时间进行设备时间纠偏，以保证客户端时间最大限度跟服务器时间保持一致。

在上述任一方案中优选的是，，密钥存放在客户端中或者使用服务器传递。

在上述任一方案中优选的是，客户端的操作系统包括Android和IOS。

本发明的第四方面提出了一种防爬虫的数据查询装置，用于服务器，包括：接收单元，接收客户端请求，获取客户端的操作系统信息和设备唯一标识；获取客户端发出的加密串和时间戳；判断单元，判断时间戳是否在有效期内，若时间戳不在有效期内，则返回接口已失效的信息；校验单元，若时间戳在有效期内，则计算出加密串与客户端传来的加密串做校验；数据单元，若加密串一致则根据客户端的操作系统信息和设备唯一标识提供数据接口以供客户端进行数据查询，反之则返回接口已失效的信息。

优选的是，还包括：运维拦截单元，若在单位时间内某个ip的访问量超过阈值，则将ip来加入到黑名单，拒绝黑名单ip访问服务器中的数据；或者设置一个白名单，对白名单中的ip不做限制；对黑名单设置定期清理的逻辑，防止爬虫模拟ip爬取数据。

在上述任一方案中优选的是，还包括：总量控制单元，数据源使用总接口访问量来做，数据源对每个应用定下接口访问总量，当应用对数据源出口的接口访问次数达到总量时，数据源不再出数据。

本发明的第五方面提出了一种客户端，包括如上述技术方案公开的用于客户端的防爬虫的数据查询装置。

本发明的第六方面提出了一种服务器，包括如上述技术方案公开的用于服务器的防爬虫的数据查询装置。

本发明取得的有益效果是：客户端和服务器每个接口进行“时效判断”+“运维黑名单筛选”+“数据源总接口数控制”，联合操作，共同增加爬虫算法难度。既能够让正常的APP的非登陆用户使用，又不被非正常用户爬走大量数据，同时减少了运维层压力，减少接口层垃圾数据产生。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为按照本发明的用于客户端的防爬虫的数据查询方法的一优选实施例的示意流程图；

图2为按照本发明的用于服务器的防爬虫的数据查询方法的一优选实施例的示意流程图；

图3为按照本发明的用于客户端的防爬虫的数据查询装置的一优选实施例的示意框图；

图4为按照本发明的用于服务器的防爬虫的数据查询装置的一优选实施例的示意框图；

图5为按照本发明的客户端的示意框图；

图6为按照本发明的服务器的示意框图；

图7为按照本发明的防爬虫的数据查询方法的业务流程图；

图8为按照本发明的防爬虫的数据查询方法的防爬虫逻辑示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1为按照本发明的用于客户端的防爬虫的数据查询方法的一优选实施例的示意流程图。

如图1所示，本发明的提出的一种防爬虫的数据查询方法，用于客户端，包括：步骤102，与服务器通信，获取服务器的服务器时间；步骤104，每次访问服务器接口时均发出加密串和时间戳，同时标注客户端的操作系统和设备唯一标识以供服务器进行校验；其中，加密串是使用MD5加密的密钥和格式化时间戳以及应用关键字；步骤106，对网页控件设置客户端独有的键值以供HTML5端校验网页控件；步骤108，向HTML5端提供加密串和时间戳，以供HTML5端携带加密串和时间戳向服务器请求业务进而实现数据查询。

在该实施例中，技术关键点在于既要防止数据被爬走，又不能强制用户登录，根据具体用户区分，但是又不能随意加入因为技术方案引起的多余的需求。扩散出去的或者是被抓包工具抓到的HTML5页面，单独拿出来是脱离了客户端无法使用的。

根据本发明的上述实施例，优选地，还包括：每次访问服务器接口时，都会从服务器返回信息中读取服务器时间进行设备时间纠偏，以保证客户端时间最大限度跟服务器时间保持一致。

根据本发明的上述实施例，优选地，密钥存放在客户端中或者使用服务器传递。

根据本发明的上述实施例，优选地，客户端的操作系统包括Android和IOS。

图2为按照本发明的用于服务器的防爬虫的数据查询方法的一优选实施例的示意流程图。

如图2所示，本发明提出的一种防爬虫的数据查询方法，用于服务器，包括：步骤202，接收客户端请求，获取客户端的操作系统信息和设备唯一标识；获取客户端发出的加密串和时间戳；步骤204，判断时间戳是否在有效期内，若时间戳不在有效期内，则返回接口已失效的信息；步骤206，若时间戳在有效期内，则计算出加密串与客户端传来的加密串做校验；步骤208，若加密串一致则根据客户端的操作系统信息和设备唯一标识提供数据接口以供客户端进行数据查询，反之则返回接口已失效的信息。

根据本发明的上述实施例，优选地，还包括：若在单位时间内某个ip的访问量超过阈值，则将ip来加入到黑名单，拒绝黑名单ip访问服务器中的数据；或者设置一个白名单，对白名单中的ip不做限制；对黑名单设置定期清理的逻辑，防止爬虫模拟ip爬取数据。

根据本发明的上述实施例，优选地，当2分钟内有大量访问堆积在队列中时，自动屏蔽队列中的访问请求，减少服务器端接口压力。

根据本发明的上述实施例，优选地，还包括：数据源使用总接口访问量来做，数据源对每个应用定下接口访问总量，当应用对数据源出口的接口访问次数达到总量时，数据源不再出数据。

图3为按照本发明的用于客户端的防爬虫的数据查询装置的一优选实施例的示意框图。

如图3所示，本发明提供一种防爬虫的数据查询装置300，用于客户端，包括：时间单元302，与服务器通信，获取服务器的服务器时间；访问单元304，每次访问服务器接口时均发出加密串和时间戳，同时标注客户端的操作系统和设备唯一标识以供服务器进行校验；其中，加密串是使用MD5加密的密钥和格式化时间戳以及应用关键字；键值单元306，对网页控件设置客户端独有的键值以供HTML5端校验网页控件；业务单元308，向HTML5端提供加密串和时间戳，以供HTML5端携带加密串和时间戳向服务器请求业务进而实现数据查询。

根据本发明的上述实施例，优选地，还包括：校准单元310，每次访问服务器接口时，都会从服务器返回信息中读取服务器时间进行设备时间纠偏，以保证客户端时间最大限度跟服务器时间保持一致。

图4为按照本发明的用于服务器的防爬虫的数据查询装置的一优选实施例的示意框图。

如图4所示，本发明提供的防爬虫的数据查询装置400，用于服务器，包括：接收单元402，接收客户端请求，获取客户端的操作系统信息和设备唯一标识；获取客户端发出的加密串和时间戳；判断单元404，判断时间戳是否在有效期内，若时间戳不在有效期内，则返回接口已失效的信息；校验单元406，若时间戳在有效期内，则计算出加密串与客户端传来的加密串做校验；数据单元408，若加密串一致则根据客户端的操作系统信息和设备唯一标识提供数据接口以供客户端进行数据查询，反之则返回接口已失效的信息。

根据本发明的上述实施例，优选地，还包括：运维拦截单元410，若在单位时间内某个ip的访问量超过阈值，则将ip来加入到黑名单，拒绝黑名单ip访问服务器中的数据；或者设置一个白名单，对白名单中的ip不做限制；对黑名单设置定期清理的逻辑，防止爬虫模拟ip爬取数据。

根据本发明的上述实施例，优选地，还包括：总量控制单元412，数据源使用总接口访问量来做，数据源对每个应用定下接口访问总量，当应用对数据源出口的接口访问次数达到总量时，数据源不再出数据。

图5为按照本发明的客户端的示意框图。

如图5所示，本发明提供的客户端500，包括如上述实施例公开的用于客户端的防爬虫的数据查询装置300。

图6为按照本发明的服务器的示意框图。

如图6所示，本发明提供的服务器600，包括如上述实施例公开的用于服务器的防爬虫的数据查询装置400。

图7为按照本发明的防爬虫的数据查询方法的业务流程图；图8为按照本发明的防爬虫的数据查询方法的防爬虫逻辑示意图。

如图7和图8所示，本发明的防爬虫的数据查询方法采用“时效判断”+“运维黑名单筛选”+“数据源总接口数控制”，联合操作，其中

服务器业务层802的接口时效判断方法分为这几个部分：Android端、iOS端、Html5端、服务器端。

Android端：

客户端每次访问接口时，都会传加密串和处理过的时间戳；其中加密串是使用MD5（秘钥+格式化（时间戳）+关键字）；其中秘钥是放在代码中，java 代码是使用混淆加密的；也可使用服务器端传递。目前使用的是第一种秘钥存放在客户端；格式化（时间戳）是用类似YYYY年MM月DD日HH：mm：ss等格式化时间戳，变成字符串；可以变动让服务器端传递规则；关键字是每个应用都会有自己固定的；

同时接口头中标注是Android访问的，并且标注设备id。

每次访问接口，都会从response的head中读取到服务器端时间，对自己设备时间进行纠偏以保证客户端时间最大限度跟服务器时间保持一致。

iOS端：

客户端每次访问接口时，都会传加密串和处理过的时间戳；其中加密串是使用MD5（秘钥+格式化（时间戳）+关键字）；其中秘钥是放在代码中，ObjectC 代码是使用混淆加密的；可使用服务器端传递。目前使用的是第一种秘钥存放在客户端；格式化（时间戳）是用类似YYYY年MM月DD日HH：mm：ss等格式化时间戳，变成字符串。可以变动让服务器端传递规则；关键字是每个应用都会有自己固定的。

同时request head中标注是iPhone访问的，并且标注设备唯一标识。

Html5端：

判断是否是客户端访问的页面，useragent可判断出来。客户端对webview设置自己独有的key value。

当判断是使用客户端访问的webview时，先调用客户端提供的方法，取出加密参数和时间戳。

请求接口时，携带加密参数和时间戳，同时在request head中加入网页访问类型。

服务器端：

拿到客户端request时，先判断request head 是从哪个端访问的。

当客户端访问时，先判断时间戳的是否在2分钟有效期内。如果非有效期内，则直接response 接口已失效。

当时间戳在时效内，则服务器端自己计算出加密串，与客户端传来的加密串做校验。如果加密串一致则走正常接口逻辑，若不一致，则返回接口已失效。

运维层804的工作：运维服务器设置两个文件，一个是黑名单，一个是白名单。根据每分钟每个ip访问量来加入到ip黑名单。同时在每分钟检查一次名单，读取名单，在每个进来的ip访问，进行筛选。白名单就是永远放开的ip列表。当2分钟内，有大量访问堆积在队列中时，运维层804会自动屏蔽掉，减少服务器端接口压力。

数据中心层806的工作：数据源出口是接口json或者xml方式，不是直接应用层访问数据库方式。数据源对每个应用都会有一个自己的账号，对这个账号会每天定一个接口访问总量。当这个账号访问任何数据源出口的接口，都会计数，当计数达到总量时，则数据源不在出数据。数据源最终都会有总量的一个控制，作为当算法被攻破时，最后一层保障。

根据本发明的上述实施例可知在本发明的技术方案中：客户端和服务器每个接口进行“时效判断”+“运维黑名单筛选”+“数据源总接口数控制”，联合操作，共同增加爬虫算法难度。第一道防线是运维层，无差别拦截，黑名单会有定期清理的逻辑，防止爬虫模拟ip方式，有用户被误伤。第二道防线是接口层，不需要强制用户登录，不需要记录垃圾统计数据，就单纯判断时效，不需要服务器端生成token方式，客户端不需要判断token失效以引发的更多的需求处理。第三道防线数据源层，也是保底用的，在前两层防线都被攻破的时候，保底数据不被盗取。总体上，既能够让正常的APP的非登陆用户使用，又不被非正常用户爬走大量数据，同时减少了运维层压力，减少接口层垃圾数据产生。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种防爬虫的数据查询方法，用于客户端，其特征在于，包括：

与服务器通信，获取所述服务器的服务器时间；

每次访问服务器接口时均发出加密串和时间戳，同时标注客户端的操作系统和设备唯一标识以供所述服务器进行校验；其中，所述加密串是使用MD5加密的密钥和格式化时间戳以及应用关键字；

对网页控件设置客户端独有的键值以供HTML5端校验所述网页控件；

向所述HTML5端提供所述加密串和所述时间戳，以供所述HTML5端携带所述加密串和所述时间戳向所述服务器请求业务进而实现数据查询。

2.根据权利要求1所述的防爬虫的数据查询方法，其特征在于，还包括：每次访问服务器接口时，都会从服务器返回信息中读取服务器时间进行设备时间纠偏，以保证客户端时间最大限度跟服务器时间保持一致。

3.根据权利要求1所述的防爬虫的数据查询方法，其特征在于，所述密钥存放在客户端中或者使用服务器传递。

4.根据权利要求1至3中任一项所述的防爬虫的数据查询方法，其特征在于，所述客户端的操作系统包括Android和IOS。

5.一种防爬虫的数据查询方法，用于服务器，其特征在于，包括：

接收客户端请求，获取所述客户端的操作系统信息和设备唯一标识；

获取所述客户端发出的加密串和时间戳；

判断所述时间戳是否在有效期内，若所述时间戳不在有效期内，则返回接口已失效的信息；

若所述时间戳在有效期内，则计算出加密串与客户端传来的加密串做校验；

若加密串一致则根据所述客户端的操作系统信息和设备唯一标识提供数据接口以供所述客户端进行数据查询，反之则返回接口已失效的信息。

6.根据权利要求5所述的防爬虫的数据查询方法，其特征在于，还包括：若在单位时间内某个ip的访问量超过阈值，则将所述ip来加入到黑名单，拒绝黑名单ip访问所述服务器中的数据，或者设置一个白名单，对所述白名单中的ip不做限制；对黑名单设置定期清理的逻辑，防止爬虫模拟ip爬取数据。

7.一种防爬虫的数据查询装置，用于客户端，其特征在于，包括：

时间单元，与服务器通信，获取所述服务器的服务器时间；

访问单元，每次访问服务器接口时均发出加密串和时间戳，同时标注客户端的操作系统和设备唯一标识以供所述服务器进行校验；其中，所述加密串是使用MD5加密的密钥和格式化时间戳以及应用关键字；

键值单元，对网页控件设置客户端独有的键值以供HTML5端校验所述网页控件；

业务单元，向所述HTML5端提供所述加密串和所述时间戳，以供所述HTML5端携带所述加密串和所述时间戳向所述服务器请求业务进而实现数据查询。

8.一种防爬虫的数据查询装置，用于服务器，其特征在于，包括：

接收单元，接收客户端请求，获取所述客户端的操作系统信息和设备唯一标识；获取所述客户端发出的加密串和时间戳；

判断单元，判断所述时间戳是否在有效期内，若所述时间戳不在有效期内，则返回接口已失效的信息；

校验单元，若所述时间戳在有效期内，则计算出加密串与客户端传来的加密串做校验；

数据单元，若加密串一致则根据所述客户端的操作系统信息和设备唯一标识提供数据接口以供所述客户端进行数据查询，反之则返回接口已失效的信息。

9.一种客户端，其特征在于，包括：如权利要求7中所述的防爬虫的数据查询装置。

10.一种服务器，其特征在于，包括：如权利要求8中所述的防爬虫的数据查询装置。