CN111625700A

CN111625700A - 防抓取的方法、装置、设备及计算机存储介质

Info

Publication number: CN111625700A
Application number: CN202010448441.3A
Authority: CN
Inventors: 黄鹏杰; 吕克让
Original assignee: Beijing Century Jiatianxia Technology Development Co ltd
Current assignee: Beijing Century Jiatianxia Technology Development Co ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-09-04
Anticipated expiration: 2040-05-25
Also published as: CN111625700B

Abstract

本申请提供了一种防抓取的方法、装置、设备及计算机存储介质，对用户的行为数据进行分类统计，得到第一数据；将地址信息访问业务线配置的规则的访问数量，大于第一阈值的每一个目标地址信息所属的用户的访问数据确定为第一疑似爬虫数据；若目标地址信息访问业务线配置的规则的访问数量与目标地址信息的访问数量的比值大于第二阈值，则第一疑似爬虫数据为爬虫数据；比值小于或等于第二阈值，将第一疑似爬虫数据作为第二疑似爬虫数据，将用户行为数据的数值赋值为第一数据中的用户行为数据的数值后；若大于第三阈值且第二疑似爬虫数据不在白名单中，则第二疑似爬虫数据为爬虫数据。以达到精准识别爬虫的目的。

Description

防抓取的方法、装置、设备及计算机存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种防抓取的方法、装置、设备及计算机存储介质。

背景技术

随着互联法网的普及，越来越多的公司的业务都运行在网络上，可以通过各个公司提供的手机应用或者通过浏览器来访问这些商业公司提供的内容或者业务。

这些数据往往具有商业价值，所以除了搜索引擎之外还会有各种身份不明，目的不明的爬虫来通过编程或者某些技术手段来获取网站内容，爬取业务数据等。所以，商业公司不仅面临着商业数据被恶意批量抓取的风险，还面临着自身业务因为爬虫的高频抓取影响到业务正常服务的问题。

目前，各个商业公司通常采用开发属于自己公司的网站内容防抓取系统，来减少爬虫的恶意抓取，但是现有的网站内容防抓取系统，通常是基于访问日志进行分析统计数据，由于一般的商业公司网络流量会很大，所以传统的基于访问日志进行分析统计数据时，通常会有一定的滞后性，数据统计出来后已经距离爬虫抓取的时间的间隔太久，数据已经失效或者爬虫已经获取到相关数据。而且由于数据量大的原因，会在统计数据时舍弃一部分数据，导致部分数据不会出现在结果中，从而导致对爬虫识别不准确。

发明内容

有鉴于此，本申请提供一种防抓取的方法、装置、设备及计算机存储介质，用于准确识别爬虫。

本申请第一方面提供了一种防抓取的方法，包括：

获取待识别数据；其中，所述待识别数据包括访问记录和用户的行为数据；

对所述用户的行为数据进行分类，并对每一类别下用户的行为数据的次数进行统计，得到每一类别的统计结果：其中，所有类别的统计结果的集合作为第一数据；

统计用户访问数据中的每一个地址信息的访问数量、以及每一个所述地址信息访问业务线配置的规则的访问数量；其中，所述用户访问数据为记录于所述访问记录中的每一个用户的访问数据；

判断所述每一个地址信息访问业务线配置的规则的访问数量，是否大于第一阈值；其中，所述第一阈值为业务线配置的规则被访问的阈值；

针对判断出所述地址信息访问业务线配置的规则的访问数量，大于第一阈值的每一个目标地址信息，确定所述目标地址信息所属的用户的访问数据为第一疑似爬虫数据，并判断所述目标地址信息访问业务线配置的规则的访问数量，与所述目标地址信息的访问数量的比值是否大于第二阈值；其中，所述目标地址信息访问业务线配置的规则的访问数量大于所述第一阈值；

若判断出，所述目标地址信息访问业务线配置的规则的访问数量与所述目标地址信息的访问数量的比值大于第二阈值，则确定所述第一疑似爬虫数据为爬虫数据；

若判断出，所述目标地址信息访问业务线配置的规则的访问数量与所述目标地址信息的访问数量的比值小于或等于第二阈值，则将所述第一疑似爬虫数据作为第二疑似爬虫数据，并将所述第二疑似爬虫数据中的用户行为数据的数值，赋值为所述第一数据中的用户行为数据的数值；

在所述被赋值后的用户行为数据的数值大于第三阈值的情况下，判断所述第二疑似爬虫数据是否在用户短期白名单中；

若判断出所述第二疑似爬虫数据不在用户短期白名单中，则确定所述第二疑似爬虫数据为爬虫数据。

可选的，所述对所述用户的行为数据进行分类，并对所述每一类别下用户的行为数据的次数进行统计，得到每一类别的统计结果之前，还包括：

根据预先收集的搜索引擎特征对所述访问记录进行解析，得到所述用户访问数据和搜索引擎数据。

可选的，所述根据预先收集的搜索引擎特征对访问数据数据进行解析，得到用户访问数据和搜索引擎数据之后，还包括：

根据预设的搜索引擎和地址信息的关系对应表，确认所述搜索引擎数据为已确认数据或未确认数据；

若所述搜索引擎数据为已确认数据，则按照所述搜索引擎数据所属的服务器统计访问次数；

若所述搜索引擎数据为未确认数据，则每隔预设时间，按照所述搜索引擎数据所属的服务器所提供的校验方式，对所述搜索引擎数据进行校验；

若校验通过，则将所述搜索引擎数据变更为已确认数据，并将所述搜索引擎数据加入所述搜索引擎和地址数据的关系对应表中；

若校验未通过，则确认所述搜索引擎数据指代的搜索引擎为疑似伪造搜索引擎，并在所述疑似伪造搜索引擎的地址信息的请求量大于预设的阈值，发出告警信息；其中，所述告警信息用于提示工作人员进行人工确认。

可选的，所述对所述用户的行为数据进行分类，对所述每一类别下用户的行为数据的次数进行统计，得到每一类别的统计结果之前，还包括：

判断所述待识别数据是否在黑名单中；

若判断出所述待识别数据在黑名单中，则利用验证码对所述待识别数据进行校验。

可选的，所述利用验证码对所述待识别数据进行校验，包括：

获取用户输入的验证码；

判断所述用户输入的验证码是否正确；

其中：若判断出所述用户输入的验证码正确，则将所述待识别数据存储至短期白名单中；若判断出所述用户输入的验证码不正确，则禁止访问。

本申请第二方面提供了一种防抓取的装置，包括：

获取单元，用于获取待识别数据；其中，所述待识别数据包括访问记录和用户的行为数据；

分类单元，用于对所述用户的行为数据进行分类，并对每一类别下用户的行为数据的次数进行统计，得到每一类别的统计结果：其中，所有类别的统计结果的集合作为第一数据；

统计单元，用于统计用户访问数据中的每一个地址信息的访问数量、以及每一个所述地址信息访问业务线配置的规则的访问数量；其中，所述用户访问数据为记录于所述访问记录中的每一个用户的访问数据；

第一判断单元，用于判断所述每一个地址信息访问业务线配置的规则的访问数量，是否大于第一阈值；其中，所述第一阈值为业务线配置的规则被访问的阈值；

第二判断单元，用于针对所述第一判断单元判断出，所述地址信息访问业务线配置的规则的访问数量，大于第一阈值的每一个目标地址信息，确定所述目标地址信息所属的用户的访问数据为第一疑似爬虫数据，并判断所述目标地址信息访问业务线配置的规则的访问数量，与所述目标地址信息的访问数量的比值是否大于第二阈值；其中，所述目标地址信息访问业务线配置的规则的访问数量大于所述第一阈值；

第一确定单元，用于若所述第二单元判断出，所述目标地址信息访问业务线配置的规则的访问数量与所述目标地址信息的访问数量的比值大于第二阈值，则确定所述第一疑似爬虫数据为爬虫数据；

赋值单元，用于若所述第二判断单元判断出，所述目标地址信息访问业务线配置的规则的访问数量与所述目标地址信息的访问数量的比值小于或等于第二阈值，则将所述第一疑似爬虫数据作为第二疑似爬虫数据，并将所述第二疑似爬虫数据中的用户行为数据的数值，赋值为所述第一数据中的用户行为数据的数值；

第三判断单元，用于在所述被赋值后的用户行为数据的数值大于第三阈值的情况下，判断所述第二疑似爬虫数据是否在用户短期白名单中；

第二确定单元，用于若所述第三判断单元判断出，所述第二疑似爬虫数据不在用户短期白名单中，则确定所述第二疑似爬虫数据为爬虫数据。

可选的，所述防抓取的装置，还包括：

解析单元，用于根据预先收集的搜索引擎特征对所述访问记录进行解析，得到所述用户访问数据和搜索引擎数据。

可选的，所述防抓取的装置，还包括：

第三确认单元，用于根据预设的搜索引擎和地址信息的关系对应表，确认所述搜索引擎数据为已确认数据或未确认数据；

访问次数统计单元，用于若所述搜索引擎数据为已确认数据，则按照所述搜索引擎数据所属的服务器统计访问次数；

第一校验单元，用于若所述搜索引擎数据为未确认数据，则每隔预设时间，按照所述搜索引擎数据所属的服务器所提供的校验方式，对所述搜索引擎数据进行校验；

变更单元，用于若所述第一校验单元的校验通过，则将所述搜索引擎数据变更为已确认数据，并将所述搜索引擎数据加入所述搜索引擎和地址数据的关系对应表中；

告警单元，用于若所述第一校验单元的校验未通过，则确认所述搜索引擎数据指代的搜索引擎为疑似伪造搜索引擎，并在所述疑似伪造搜索引擎的地址信息的请求量大于预设的阈值，发出告警信息；其中，所述告警信息用于提示工作人员进行人工确认。

可选的，所述防抓取的装置，还包括：

第四判断单元，用于判断所述待识别数据是否在黑名单中；

第二校验单元，用于若所述第四判断单元判断出，所述待识别数据在黑名单中，则利用验证码对所述待识别数据进行校验。

可选的，所述第二校验单元，包括：

验证码获取单元，用于获取用户输入的验证码；

验证码判断单元，用于判断所述用户输入的验证码是否正确；

其中：若所述验证码判断单元判断出，所述用户输入的验证码正确，则将所述待识别数据存储至短期白名单中；若所述验证码判断单元判断出，所述用户输入的验证码不正确，则禁止访问。

本申请第三方面提供了一种防抓取的设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如本申请第一方面中任意一项所述的方法。

本申请第四方面提供了一种计算机存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如本申请第一方面中任意一项所述的方法。

由以上方案可知，本申请提供的一种防抓取的方法、装置、设备及计算机存储介质，通过获取包含访问记录和用户的行为数据的待识别数据，然后，对所述用户的行为数据进行分类，并对每一类别下用户的行为数据的次数进行统计，得到每一类别的统计结果：其中，所有类别的统计结果的集合作为第一数据；以及统计用户访问数据中的每一个地址信息的访问数量、以及每一个所述地址信息访问业务线配置的规则的访问数量；其中，所述用户访问数据为记录于所述访问记录中的每一个用户的访问数据；从而达到实时获取待分析数据，以及统计全部数据，并不会由于数据量过大，从而舍弃部分数据的目的。之后，判断所述每一个地址信息访问业务线配置的规则的访问数量，是否大于第一阈值；其中，所述第一阈值为业务线配置的规则被访问的阈值；针对判断出所述地址信息访问业务线配置的规则的访问数量，大于第一阈值的每一个目标地址信息，确定所述目标地址信息所属的用户的访问数据为第一疑似爬虫数据，并判断所述目标地址信息访问业务线配置的规则的访问数量，与所述目标地址信息的访问数量的比值是否大于第二阈值；其中，所述目标地址信息访问业务线配置的规则的访问数量大于所述第一阈值；若判断出，所述目标地址信息访问业务线配置的规则的访问数量与所述目标地址信息的访问数量的比值大于第二阈值，则确定所述第一疑似爬虫数据为爬虫数据；若判断出，所述目标地址信息访问业务线配置的规则的访问数量与所述目标地址信息的访问数量的比值小于或等于第二阈值，则将所述第一疑似爬虫数据作为第二疑似爬虫数据，并将所述第二疑似爬虫数据中的用户行为数据的数值，赋值为所述第一数据中的用户行为数据的数值；在所述被赋值后的用户行为数据的数值大于第三阈值的情况下，判断所述第二疑似爬虫数据是否在用户短期白名单中；最终，若判断出所述第二疑似爬虫数据不在用户短期白名单中，则确定所述第二疑似爬虫数据为爬虫数据。以达到精准识别爬虫的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种防抓取的方法的具体流程图；

图2为本申请另一实施例提供的一种防抓取的方法的具体流程图；

图3为本申请另一实施例提供的一种防抓取的方法的具体流程图；

图4为本申请另一实施例提供的一种防抓取的方法的具体流程图；

图5为本申请另一实施例提供的一种防抓取的装置的示意图；

图6为本申请另一实施例提供的一种防抓取的装置的示意图；

图7为本申请另一实施例提供的一种防抓取的装置的示意图；

图8为本申请另一实施例提供的一种第二校验单元的示意图；

图9为本申请另一实施例提供的一种防抓取的设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意，本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系，而术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请实施例提供了一种防抓取的方法，如图1所示，包括：

S101、获取待识别数据。

其中，待识别数据包括访问记录和用户的行为数据。

具体的，可以是但不限于通过预设的访问日志采集模块将访问记录和通过预先埋点采集到的用户的行为数据上传至实时消息系统，如kafka(Kafka是一种高吞吐量的分布式发布订阅消息系统)中，以此来实现获取待识别数据。

S102、对用户的行为数据进行分类，并对每一类别下用户的行为数据的次数进行统计，得到每一类别的统计结果。

其中，所有类别的统计结果的集合作为第一数据。

需要说明的是，在得到每一类别的统计结果以后，还可以将其存储至远程字典服务(Remote Dictionary Server，Redis)中，当然也可以存储至其他类型的存储系统中，存储的方法十分多样化，此处不做限定。

具体的，按照用户的行为数据中的每一个行为的字段，对用户的行为数据进行分类，得到多个类别的用户行为数据，并对每一类别的用户的行为数据的次数进行统计，得到每一个类别的统计结果，最后，将所有类别的统计结果的集合作为第一数据。

可选的，在本申请的另一实施例中，在步骤S102之前，还可以包括：

根据预先收集的搜索引擎特征对访问记录进行解析，得到用户访问数据和搜索引擎数据。

需要说明的是，每一个搜索引擎的用户代理(User-Agent，UA)都是不同的，且都携带有各自的关键字，因此，可以通过UA来将搜索引擎的数据和正常用户访问数据区分开。

具体的，根据预先收集得到UA对访问记录进行解析，将访问记录分离成两种：用户访问数据和搜索引擎数据。

可选的，在本申请的另一实施例中，步骤根据预先收集的搜索引擎特征对访问记录进行解析，得到用户访问数据和搜索引擎数据之后，还可以包括：

S201、根据预设的搜索引擎和地址信息的关系对应表，判断搜索引擎数据是否为已确认数据。

其中，预设的搜索引擎和地址信息的关系对应表中，可以包含用户预先设置的搜索引擎和地址信息的对应关系，例如与本公司合作的A公司、B公司等，A公司，和B公司在与本公司合作时需提供自身公司的搜索引擎对应的地址信息；同样，预设的搜索引擎和地址信息的关系对应表中，也可以包含知名的搜索引擎与地址信息的对应关系，例如百度、360等，知名的搜索引擎对应的地址信息可以通过从搜索引擎所属的公司的官方站点获取。

需要说明的是，已确认数据可以是上述用户预先设置的搜索引擎和地址信息的对应关系，可以理解为与用户所述公司有合作关系的公司所提供的搜索引擎与地址信息的对应关系；已确认数据还可以是上述知名的搜索引擎与地址信息的对应关系。

还需要说明的是，若根据预设的搜索引擎和地址信息的关系对应表，判断出搜索引擎数据不是已确认数据，即未确认数据，那么该数据就有可能是：伪造知名搜索引擎特征的非官方数据、知名搜索引擎公司新添加的服务器，但是尚未及时更新到官方站点、用户所属的公司未更新搜索引擎所属公司最新公布的地址信息至数据库中。

具体的，通过判断搜索引擎数据是否在预设的搜索引擎和地址信息的关系对应表中，来判断搜索引擎数据是否为已确认数据，若判断出搜索引擎数据为已确认数据，则执行步骤S202；若判断出搜索引擎数据为未确认数据，则执行步骤S203。

S202、按照搜索引擎数据所属的服务器统计访问次数。

需要说明的是，搜索引擎数据所属的公司通常会有多个服务器，因此，需要按照搜索引擎数据所属的服务器来统计访问次数，而不是按照搜索引擎数据所属的公司统计访问次数。

S203、每隔预设时间，按照搜索引擎数据所属的服务器所提供的校验方式，对搜索引擎数据进行校验。

需要说明的是，知名的搜索引擎一般会有专门的页面或者站点用于说明其搜索引擎的UA以及其具体的地址信息或者校验方式。因此，可以根据各种搜索引擎公布的UA和地址信息或其他校验方式来校验是否存在冒充等行为。

还需要说明的是，预设时间可以为1分钟、30分钟、1小时等，可以根据实际的应用场景或需求，由技术人员或专家等进行变更，此处不限定。

具体的，若通过了对搜索引擎数据的校验，则执行步骤S204；若没有通过对搜索引擎数据的校验，则执行步骤S205。

S204、将搜索引擎数据变更为已确认数据，并将搜索引擎数据加入搜索引擎和地址数据的关系对应表中。

具体的，将搜索引擎数据变更为已确认数据，并将搜索引擎数据加入搜索引擎和地址数据的关系对应表中之后，还可以选择将此搜索引擎数据存储至黑白名单模块中的长期白名单中。

S205、确认搜索引擎数据指代的搜索引擎为疑似伪造搜索引擎。

S206、判断疑似伪造搜索引擎的地址信息的请求量是否大于预设的阈值。

需要说明的是，正常情况下，在一定的时间内，搜索引擎的地址信息的请求量不会特别多，如1分钟内访问1次、3次等，因此，可以通过设置阈值的方法，来判断疑似搜索引擎是否存在危险。

具体的，若判断出疑似伪造搜索引擎的地址信息的请求量大于预设的阈值，则说明疑似搜索引擎存在危险，则执行步骤S207。其中，判断疑似搜索引擎是否存在危险的方式，还可以是判断疑似搜索引擎的地址信息中是否出现多种搜索引擎的特征，若疑似搜索引擎的地址信息中出现多种搜索引擎的特征，则说明疑似搜索引擎存在危险，则执行步骤S207。

S207、发出告警信息。

其中，告警信息用于提示工作人员进行人工确认。

需要说明的是，由工作人员对疑似搜索引擎进行确认后，由工作人员选择将安全的疑似搜索引擎存储至长期白名单或短期白名单中，将存在危险的疑似搜索引擎存储至黑名单中。

可选的，在本申请的另一实施例中，在步骤S102之前，如图3所示，还可以包括：

S301、判断待识别数据是否在黑名单中。

具体的，若判断出待识别数据在黑名单中，则执行步骤S302；若判断出待识别数据不在黑名单中，则允许待识别数据所属的用户继续进行访问。

S302、利用验证码对待识别数据进行校验。

其中，验证码可以是但不限于图形验证码。

具体的，利用验证码对待识别数据进行校验，来判断待识别数据是否为爬虫数据。

可选的，在本申请的另一实施例中，步骤S302的一种实施方式，如图4所示，包括：

S401、获取用户输入的验证码。

其中，验证码可以是但不限于图形验证码。

具体的，将生成的图形验证码展示给用户后，获取用户输入图形验证码上的数据。

S402、判断用户输入的验证码是否正确。

具体的，若判断出用户输入的验证码正确，则执行步骤S403；若判断出用户输入的验证码不正确，则执行步骤S404。

S403、将待识别数据存储至短期白名单中。

需要说明的是，在短期白名单中的数据会在一定的周期后失效，如1周、一个月等，此处不做限定。

S404、禁止访问。

具体的，可以是但不限于，禁止用户继续进行访问，并使用户返回至原来的页面。

S103、统计用户访问数据中的每一个地址信息的访问数量、以及每一个地址信息访问业务线配置的规则的访问数量。

其中，用户访问数据为记录于访问记录中的每一个用户的访问数据。

需要说明的是，在统计用户访问数据中的每一个地址信息的访问数量、以及每一个地址信息访问业务线配置的规则的访问数量之前，还可以提前将长期白名单中的数据过滤掉，进而减少后续工作量，从而提高判断待识别数据是否为爬虫数据的效率。

具体的，按照预设的周期统计用户访问数据中的每一个地址信息的访问数量、以及每一个地址信息访问业务线配置的规则的访问数量，此处不做限定。

S104、判断每一个地址信息访问业务线配置的规则的访问数量，是否大于第一阈值。

其中，第一阈值为业务线配置的规则被访问的阈值。

需要说明的是，由于在一定的时间内，正常用户的访问次数不会达到访问总量的阈值，因此可以通过，判断每一个地址信息访问业务线配置的规则的访问数量，是否大于第一阈值，来判断用户的访问数据是否正常。

具体的，若判断出地址信息访问业务线配置的规则的访问数量，大于第一阈值，将每一个大于第一阈值的地址信息访问业务线配置的规则的访问数量，分别作为目标地址信息后，执行步骤S105；若判断出地址信息访问业务线配置的规则的访问数量，小于或等于第一阈值，则说明当前的用户的访问数据正常。

S105、确定目标地址信息所属的用户的访问数据为第一疑似爬虫数据。

具体的，分别确定每一个目标地址信息所属的用户的访问数据为第一疑似爬虫数据。

S106、判断目标地址信息访问业务线配置的规则的访问数量，与目标地址信息的访问数量的比值是否大于第二阈值。

其中，目标地址信息访问业务线配置的规则的访问数量大于第一阈值。

需要说明的是，在正常用户的访问情况下，访问某种类型的统一资源定位符(Uniform Resource Locator，URL)，也可以理解为网络地址，通常占访问总量的比值较低，因此，可以通过判断目标地址信息访问业务线配置的规则的访问数量，与目标地址信息的访问数量的比值是否大于第二阈值，来判断第一疑似爬虫数据是否为爬虫数据。

具体的，若判断出目标地址信息访问业务线配置的规则的访问数量与目标地址信息的访问数量的比值大于第二阈值，则执行步骤S107。若判断出，目标地址信息访问业务线配置的规则的访问数量与目标地址信息的访问数量的比值小于或等于第二阈值，则执行步骤S108。

S107、确定第一疑似爬虫数据为爬虫数据。

需要说明的是，在确定第一疑似爬虫数据为爬虫数据后，还可以将第一疑似爬虫数据加入黑名单中，以免后续第一疑似爬虫数据再次访问时，依旧对其进行判断是否为爬虫数据。

S108、将第一疑似爬虫数据作为第二疑似爬虫数据，并将第二疑似爬虫数据中的用户行为数据的数值，赋值为第一数据中的用户行为数据的数值。

具体的，可以将第二疑似爬虫数据与第一数据进行关联对比。将第二疑似爬虫数据中有，且第一数据中不存在的数据对应的用户行为字段的值赋值为0，将第二疑似爬虫数据中有，且第一数据中也存在的数据对应的用户行为字段的值赋值为，第二疑似爬虫数据中对应的用户行为字段的数值。

S109、判断被赋值后的用户行为数据的数值是否大于第三阈值。

其中，第三阈值为正常用户访问一个业务线的前端站点所产生的行为数据的的数量。

具体的，若判断出被赋值后的用户行为数据的数值大于第三阈值，则执行步骤S110，若判断出被赋值后的用户行为数据的数值小于或等于第三阈值，则说明第二疑似爬虫数据，为正常用户访问的数据，可以将其存储至白名单中。

S110、判断第二疑似爬虫数据是否在用户短期白名单中。

具体的，若判断出第二疑似爬虫数据不在用户短期白名单中，则执行步骤S111。

S111、确定第二疑似爬虫数据为爬虫数据。

具体的，在确定第二疑似爬虫数据为爬虫数据后，可以将其存储至黑名单中，以免后续第二疑似爬虫数据再次访问时，依旧对其进行判断是否为爬虫数据。

由以上方案可知，本申请提供的一种防抓取的方法中，通过获取包含访问记录和用户的行为数据的待识别数据，然后，对用户的行为数据进行分类，并对每一类别下用户的行为数据的次数进行统计，得到每一类别的统计结果：其中，所有类别的统计结果的集合作为第一数据；以及统计用户访问数据中的每一个地址信息的访问数量、以及每一个地址信息访问业务线配置的规则的访问数量；其中，用户访问数据为记录于访问记录中的每一个用户的访问数据；从而达到实时获取待分析数据，以及统计全部数据，并不会由于数据量过大，从而舍弃部分数据的目的。之后，判断每一个地址信息访问业务线配置的规则的访问数量，是否大于第一阈值；其中，第一阈值为业务线配置的规则被访问的阈值；针对判断出地址信息访问业务线配置的规则的访问数量，大于第一阈值的每一个目标地址信息，确定目标地址信息所属的用户的访问数据为第一疑似爬虫数据，并判断目标地址信息访问业务线配置的规则的访问数量，与目标地址信息的访问数量的比值是否大于第二阈值；其中，目标地址信息访问业务线配置的规则的访问数量大于第一阈值；若判断出，目标地址信息访问业务线配置的规则的访问数量与目标地址信息的访问数量的比值大于第二阈值，则确定第一疑似爬虫数据为爬虫数据；若判断出，目标地址信息访问业务线配置的规则的访问数量与目标地址信息的访问数量的比值小于或等于第二阈值，则将第一疑似爬虫数据作为第二疑似爬虫数据，并将第二疑似爬虫数据中的用户行为数据的数值，赋值为第一数据中的用户行为数据的数值；在被赋值后的用户行为数据的数值大于第三阈值的情况下，判断第二疑似爬虫数据是否在用户短期白名单中；最终，若判断出第二疑似爬虫数据不在用户短期白名单中，则确定第二疑似爬虫数据为爬虫数据。以达到精准识别爬虫的目的。

本申请的另一实施例提供了一种防抓取的装置，如图5所示，包括：

获取单元501，用于获取待识别数据。

其中，待识别数据包括访问记录和用户的行为数据。

分类单元502，用于对用户的行为数据进行分类，并对每一类别下用户的行为数据的次数进行统计，得到每一类别的统计结果。

其中，所有类别的统计结果的集合作为第一数据。

统计单元503，用于统计用户访问数据中的每一个地址信息的访问数量、以及每一个地址信息访问业务线配置的规则的访问数量。

第一判断单元504，用于判断每一个地址信息访问业务线配置的规则的访问数量，是否大于第一阈值。

其中，第一阈值为业务线配置的规则被访问的阈值。

第二判断单元505，用于针对第一判断单元504判断出，地址信息访问业务线配置的规则的访问数量，大于第一阈值的每一个目标地址信息，确定目标地址信息所属的用户的访问数据为第一疑似爬虫数据，并判断目标地址信息访问业务线配置的规则的访问数量，与目标地址信息的访问数量的比值是否大于第二阈值。

第一确定单元506，用于若第二判断单元505判断出，目标地址信息访问业务线配置的规则的访问数量与目标地址信息的访问数量的比值大于第二阈值，则确定第一疑似爬虫数据为爬虫数据。

赋值单元507，用于若第二判断单元505判断出，目标地址信息访问业务线配置的规则的访问数量与目标地址信息的访问数量的比值小于或等于第二阈值，则将第一疑似爬虫数据作为第二疑似爬虫数据，并将第二疑似爬虫数据中的用户行为数据的数值，赋值为第一数据中的用户行为数据的数值。

第三判断单元508，用于在被赋值后的用户行为数据的数值大于第三阈值的情况下，判断第二疑似爬虫数据是否在用户短期白名单中。

第二确定单元509，用于若第三判断单元508判断出，第二疑似爬虫数据不在用户短期白名单中，则确定第二疑似爬虫数据为爬虫数据。

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，如图1所示，此处不再赘述。

可选的，在本申请的另一实施例中，防抓取的装置，还包括：

解析单元，用于根据预先收集的搜索引擎特征对访问记录进行解析，得到用户访问数据和搜索引擎数据。

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，此处不再赘述。

可选的，在本申请的另一实施例中，防抓取的装置，如图6所示，还包括：

第三确认单元601，用于根据预设的搜索引擎和地址信息的关系对应表，确认搜索引擎数据为已确认数据或未确认数据。

访问次数统计单元602，用于若搜索引擎数据为已确认数据，则按照搜索引擎数据所属的服务器统计访问次数。

第一校验单元603，用于若搜索引擎数据为未确认数据，则每隔预设时间，按照搜索引擎数据所属的服务器所提供的校验方式，对搜索引擎数据进行校验。

变更单元604，用于若第一校验单元603的校验通过，则将搜索引擎数据变更为已确认数据，并将搜索引擎数据加入搜索引擎和地址数据的关系对应表中。

告警单元605，用于若第一校验单元603的校验未通过，则确认搜索引擎数据指代的搜索引擎为疑似伪造搜索引擎，并在疑似伪造搜索引擎的地址信息的请求量大于预设的阈值，发出告警信息。

其中，告警信息用于提示工作人员进行人工确认。

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，如图2所示，此处不再赘述。

可选的，在本申请的另一实施例中，防抓取的装置，如图7所示，还包括：

第四判断单元701，用于判断待识别数据是否在黑名单中。

第二校验单元702，用于若第四判断单元701判断出，待识别数据在黑名单中，则利用验证码对待识别数据进行校验。

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，如图3所示，此处不再赘述。

可选的，在本申请的另一实施例中，第二校验单元702的一种实施方式，如图8所示，还包括：

验证码获取单元801，用于获取用户输入的验证码。

验证码判断单元802，用于判断用户输入的验证码是否正确。

存储单元803，用于若验证码判断单元802判断出，用户输入的验证码正确，则将待识别数据存储至短期白名单中。

执行单元804，用于若验证码判断单元802判断出，用户输入的验证码不正确，则禁止访问。

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，如图4所示，此处不再赘述。

由以上方案可知，本申请提供的一种防抓取的装置中，通过获取单元501获取包含访问记录和用户的行为数据的待识别数据，然后，利用分类单元502对用户的行为数据进行分类，并对每一类别下用户的行为数据的次数进行统计，得到每一类别的统计结果：其中，所有类别的统计结果的集合作为第一数据；再利用统计单元503统计用户访问数据中的每一个地址信息的访问数量、以及每一个地址信息访问业务线配置的规则的访问数量；其中，用户访问数据为记录于访问记录中的每一个用户的访问数据；从而达到实时获取待分析数据，以及统计全部数据，并不会由于数据量过大，从而舍弃部分数据的目的。之后，通过第一判断单元504判断每一个地址信息访问业务线配置的规则的访问数量，是否大于第一阈值；其中，第一阈值为业务线配置的规则被访问的阈值；针对判断出地址信息访问业务线配置的规则的访问数量，大于第一阈值的每一个目标地址信息，确定目标地址信息所属的用户的访问数据为第一疑似爬虫数据，并利用第二判断单元505判断目标地址信息访问业务线配置的规则的访问数量，与目标地址信息的访问数量的比值是否大于第二阈值；其中，目标地址信息访问业务线配置的规则的访问数量大于第一阈值；若第二判断单元505判断出，目标地址信息访问业务线配置的规则的访问数量与目标地址信息的访问数量的比值大于第二阈值，则第一确定单元506确定第一疑似爬虫数据为爬虫数据；若第二判断单元505判断出，目标地址信息访问业务线配置的规则的访问数量与目标地址信息的访问数量的比值小于或等于第二阈值，则将第一疑似爬虫数据作为第二疑似爬虫数据，并将第二疑似爬虫数据中的用户行为数据的数值，通过赋值单元507赋值为第一数据中的用户行为数据的数值；在被赋值后的用户行为数据的数值大于第三阈值的情况下，利用第三判断单元508判断第二疑似爬虫数据是否在用户短期白名单中；最终，若第三判断单元508判断出第二疑似爬虫数据不在用户短期白名单中，则第二确定单元509确定第二疑似爬虫数据为爬虫数据。以达到精准识别爬虫的目的。

本申请另一实施例提供一种计算机存储介质，其上存储有计算机程序，其中，计算机程序被处理器执行时实现如上述实施例中任意一项方法。

本申请另一实施例提供一种防抓取的设备，如图9所示，包括：

一个或多个处理器901。

存储装置902，其上存储有一个或多个程序。

当一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器实现如上述实施例中任意一项所述的方法。

在本申请公开的上述实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，直播设备，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种防抓取的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述用户的行为数据进行分类，并对所述每一类别下用户的行为数据的次数进行统计，得到每一类别的统计结果之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预先收集的搜索引擎特征对访问数据数据进行解析，得到用户访问数据和搜索引擎数据之后，还包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述用户的行为数据进行分类，对所述每一类别下用户的行为数据的次数进行统计，得到每一类别的统计结果之前，还包括：

判断所述待识别数据是否在黑名单中；

5.根据权利要求4所述的方法，其特征在于，所述利用验证码对所述待识别数据进行校验，包括：

获取用户输入的验证码；

判断所述用户输入的验证码是否正确；

6.一种防抓取的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

9.一种防抓取的设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任意一项所述的方法。

10.一种计算机存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的方法。