CN108959524A

CN108959524A - 一种识别数据爬虫的方法、系统及信息数据处理终端

Info

Publication number: CN108959524A
Application number: CN201810690104.8A
Authority: CN
Inventors: 苑聪虎; 程国艮
Original assignee: Chinese Translation Language Through Polytron Technologies Inc
Current assignee: Chinese Translation Language Through Polytron Technologies Inc
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2018-12-07

Abstract

本发明公开了一种利用访问间隔识别爬虫的系统及方法、信息数据处理终端，服务器端记录用户访问的时间间隔，把时间间隔做数据归一化，使用归一化的数据求出访问者平均的访问时间，根据平均访问时间用时间间隔和平均访问时间求出其时间间隔的方差；取方差和的倒数；用sigmoid函数求出此用户是爬虫的概率。本发明可以用少量用户访问记录来检测出是否为爬虫。这样可以减少服务器被爬虫爬取的压力。

Description

一种识别数据爬虫的方法、系统及信息数据处理终端

技术领域

本发明属于信息检索；及其数据库结构技术领域，尤其涉及一种识别数据爬虫的方法、系统及信息数据处理终端。

背景技术

目前，业内常用的现有技术是这样的：随着网络的开放，网络资源的获取变得十分的简单。但是在资源开放的过程中常常有很多网络爬虫不顾服务端的压力异常频繁的访问资源地址，导致正常的用户访问变慢或者服务器宕机。给用户带来很差体验同时也影响网站正常运营。针对冒充搜索引擎来进行爬取的问题，可以用反向DNS技术解决。对于其他的爬虫爬取，目前技术是利用请求头文件中的字段进行检查，来分析是否是爬虫。还有就是根据访问者IP来进行访问者频率的限制。请求头的字段是可以伪造的，这样就可以轻松的应对服务端对请求头文件的检查。还有根据IP和Cookie进行访问者访问次数的限制，这个方法可以屏蔽爬虫，但是服务器屏蔽爬虫的时候已经产生了无数次访问，同样给服务器造成了很大的压力。

CN102790700A公开了一种识别网页爬虫的方法和装置，它是通过判定用户访问时间间隔是否大于预设阈值来确定是否为网页爬虫；CN101902438A公开了一种自动识别网页爬虫的方法和装置，它通过判定相邻网页请求的时间间隔是否大于预设阈值来确定是否为网页爬虫。上述文献虽然都利用了时间间隔的判定方法，但是判定准确性不尽如人意。

综上所述，现有技术存在的问题是：

(1)请求头的字段可以伪造，可以轻松的应对服务端对请求头文件的检查,从而让服务器对其访问放行，不能正确识别是否为爬虫，进而占用服务器资源。

(2)根据IP或者Cookie进行访问者访问次数的限制，一般值的设置也是基于用户体验，也就会给一些，但是对于过多爬虫IP这累计起来也是很大的量，给服务器带来压力，使正常用户访问体验变差。

解决上述技术问题的难度和意义：解决以上问题的难点是在用户进行少量次数访问，便能识别出此用户是否为爬虫；从而对该用户进行限制策略，保护服务资源避免资源浪费，让更多真实的用户使用更多的资源。

发明内容

针对现有技术存在的问题，本发明提供了一种识别数据爬虫的方法、系统及信息数据处理终端。

本发明是这样实现的，一种识别数据爬虫的方法，所述的方法包括以下步骤：

步骤一，服务器端记录用户访问的时间间隔，把时间间隔做数据归一化如下(1)中公式，使用归一化的数据求出访问者平均的访问时间，根据平均访问时间用时间间隔和平均访问时间求出其时间间隔的方差具体如下(2)，和(3)中分子部分；

步骤二，取方差和的倒数具体见(3)；

步骤三，用sigmoid函数求出此用户是爬虫的概率具体见(4)。

进一步，所述利用访问间隔识别爬虫的方法具体包括：每个IP经过N次访问进行是否为爬虫检测，检测结果为R；

(1)数据映射到(0,1)区间T_i＝T_i+1-T_i,

(2)平均访问时间为

(3)检测值为

(4)检测该行为为爬虫的概率为

本发明的另一目的在于提供一种实现所述识别数据爬虫的方法的系统，所述的系统包括：

间隔方差获取模块，用于根据平均访问时间用时间间隔和平均访问时间求出其时间间隔的方差；

倒数计算模块，用于取方差和的倒数；

概率计算模块，用于sigmoid函数求出此用户是爬虫的概率。

本发明的另一目的在于提供一种应用所述识别数据爬虫的方法的信息数据处理终端。

综上所述，本发明的优点及积极效果为：本发明对用户访问时间间隔做数据映射，根据时间间隔的平方差计算此用户为爬虫的值；用sigmoid函数计算出为爬虫的概率。本发明和现有的根据IP或者Cookie记录用户访问次数的方式可以用少量用户访问记录来检测出是否为爬虫。用IP或者Cookie这样的方式为用户设置访问次数一般也要几百上千次，但是用本发明就能在用户几十次访问的情况下就能判断是否为爬虫；可以减少服务器被爬虫爬取的压力。

附图说明

图1是本发明实施例提供的利用访问间隔识别爬虫的系统结构示意图；

图2是本发明实施例提供的利用访问间隔识别爬虫的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明可以用少量用户访问记录来检测出是否为爬虫。这样可以减少服务器被爬虫爬取的压力。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的利用访问间隔识别爬虫的系统包括：

间隔方差获取模块1，用于根据平均访问时间用时间间隔和平均访问时间求出其时间间隔的方差；

倒数计算模块2，用于取方差和的倒数；

概率计算模块3，用于sigmoid函数求出此用户是爬虫的概率。

如图2所示，本发明实施例提供的利用访问间隔识别爬虫的方法包括以下步骤：

S201：服务器端记录用户访问的时间间隔，把时间间隔做数据归一化，处理成方便使用的数据，使用归一化的数据求出访问者平均的访问时间，根据平均访问时间用时间间隔和平均访问时间求出其时间间隔的方差；

S202：取方差和的倒数；

S203：用sigmoid函数求出此用户是爬虫的概率。得出的概率越大说明此用户是爬虫的概率越大。

本发明实施例提供的利用访问间隔识别爬虫的方法具体包括以下步骤：

服务器端记录访问IP的访问次数和访问时间(服务器本地毫秒级别)，分别记录为N和T。

预设每个IP经过N次访问进行是否为爬虫检测，检测结果为R。

1.首先把数据映射到(0,1)区间T_i＝T_i+1-T_i,

2.平均访问时间为

3.检测值为

4.检测该行为为爬虫的概率为

首先1中把访问时间间隔映射到(0,1)区间，这样3中的计算的各个时间的方差会小很多。2中求出N次访问的平均时间T_Mean。3中利用访问N次的时间间隔方差和的倒数，加是一个很小的数防止分母为零。然后使用sigmoid函数映射检测值为概率。第三块1中，首先把时间间隔映用数据归一化的方法射到(0,1)，2中求出平均的归一化后的访问时间。3中求访问间隔的方差的倒数，这样的方式可以表示数据分布的越均匀检测的值越大。4中使用sigmoid函数把检测值映射为概率。4中P越大，说明用户是爬虫的概率越大。

网络中用户持续访问网站，网站后台记录所有访问时间并把访问间隔记录为T_i,检查用户访问次数，当访问次数到达要检测的值时对访问间隔进行检查。检查结果P大于检测是否为爬虫的临界值时将此IP或者Cookie记录为爬虫。接下来此IP或者Cookie发送的所有请求都将被拒绝。结果P不大于检测临界值，用户将正常访问。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种识别数据爬虫的方法，其特征在于，所述方法包括以下步骤：

步骤一，服务器端记录用户访问的时间间隔，把时间间隔做数据归一化，使用归一化的数据求出访问者平均的访问时间，根据平均访问时间用时间间隔和平均访问时间求出其时间间隔的方差；

步骤二，取方差和的倒数；

步骤三，用sigmoid函数求出此用户是爬虫的概率。

2.如权利要求1所述的一种识别数据爬虫的方法，其特征在于，所述的方法具体包括：每个IP经过N次访问进行是否为爬虫检测，检测结果为R；