CN108959524A - 一种识别数据爬虫的方法、系统及信息数据处理终端 - Google Patents
一种识别数据爬虫的方法、系统及信息数据处理终端 Download PDFInfo
- Publication number
- CN108959524A CN108959524A CN201810690104.8A CN201810690104A CN108959524A CN 108959524 A CN108959524 A CN 108959524A CN 201810690104 A CN201810690104 A CN 201810690104A CN 108959524 A CN108959524 A CN 108959524A
- Authority
- CN
- China
- Prior art keywords
- crawler
- access
- time
- user
- time interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 title claims abstract description 7
- 238000010606 normalization Methods 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 235000014510 cooky Nutrition 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 241000239290 Araneae Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种利用访问间隔识别爬虫的系统及方法、信息数据处理终端,服务器端记录用户访问的时间间隔,把时间间隔做数据归一化,使用归一化的数据求出访问者平均的访问时间,根据平均访问时间用时间间隔和平均访问时间求出其时间间隔的方差;取方差和的倒数;用sigmoid函数求出此用户是爬虫的概率。本发明可以用少量用户访问记录来检测出是否为爬虫。这样可以减少服务器被爬虫爬取的压力。
Description
技术领域
本发明属于信息检索;及其数据库结构技术领域,尤其涉及一种识别数据爬虫的方法、系统及信息数据处理终端。
背景技术
目前,业内常用的现有技术是这样的:随着网络的开放,网络资源的获取变得十分的简单。但是在资源开放的过程中常常有很多网络爬虫不顾服务端的压力异常频繁的访问资源地址,导致正常的用户访问变慢或者服务器宕机。给用户带来很差体验同时也影响网站正常运营。针对冒充搜索引擎来进行爬取的问题,可以用反向DNS技术解决。对于其他的爬虫爬取,目前技术是利用请求头文件中的字段进行检查,来分析是否是爬虫。还有就是根据访问者IP来进行访问者频率的限制。请求头的字段是可以伪造的,这样就可以轻松的应对服务端对请求头文件的检查。还有根据IP和Cookie进行访问者访问次数的限制,这个方法可以屏蔽爬虫,但是服务器屏蔽爬虫的时候已经产生了无数次访问,同样给服务器造成了很大的压力。
CN102790700A公开了一种识别网页爬虫的方法和装置,它是通过判定用户访问时间间隔是否大于预设阈值来确定是否为网页爬虫;CN101902438A公开了一种自动识别网页爬虫的方法和装置,它通过判定相邻网页请求的时间间隔是否大于预设阈值来确定是否为网页爬虫。上述文献虽然都利用了时间间隔的判定方法,但是判定准确性不尽如人意。
综上所述,现有技术存在的问题是:
(1)请求头的字段可以伪造,可以轻松的应对服务端对请求头文件的检查,从而让服务器对其访问放行,不能正确识别是否为爬虫,进而占用服务器资源。
(2)根据IP或者Cookie进行访问者访问次数的限制,一般值的设置也是基于用户体验,也就会给一些,但是对于过多爬虫IP这累计起来也是很大的量,给服务器带来压力,使正常用户访问体验变差。
解决上述技术问题的难度和意义:解决以上问题的难点是在用户进行少量次数访问,便能识别出此用户是否为爬虫;从而对该用户进行限制策略,保护服务资源避免资源浪费,让更多真实的用户使用更多的资源。
发明内容
针对现有技术存在的问题,本发明提供了一种识别数据爬虫的方法、系统及信息数据处理终端。
本发明是这样实现的,一种识别数据爬虫的方法,所述的方法包括以下步骤:
步骤一,服务器端记录用户访问的时间间隔,把时间间隔做数据归一化如下(1)中公式,使用归一化的数据求出访问者平均的访问时间,根据平均访问时间用时间间隔和平均访问时间求出其时间间隔的方差具体如下(2),和(3)中分子部分;
步骤二,取方差和的倒数具体见(3);
步骤三,用sigmoid函数求出此用户是爬虫的概率具体见(4)。
进一步,所述利用访问间隔识别爬虫的方法具体包括:每个IP经过N次访问进行是否为爬虫检测,检测结果为R;
(1)数据映射到(0,1)区间Ti=Ti+1-Ti,
(2)平均访问时间为
(3)检测值为
(4)检测该行为为爬虫的概率为
本发明的另一目的在于提供一种实现所述识别数据爬虫的方法的系统,所述的系统包括:
间隔方差获取模块,用于根据平均访问时间用时间间隔和平均访问时间求出其时间间隔的方差;
倒数计算模块,用于取方差和的倒数;
概率计算模块,用于sigmoid函数求出此用户是爬虫的概率。
本发明的另一目的在于提供一种应用所述识别数据爬虫的方法的信息数据处理终端。
综上所述,本发明的优点及积极效果为:本发明对用户访问时间间隔做数据映射,根据时间间隔的平方差计算此用户为爬虫的值;用sigmoid函数计算出为爬虫的概率。本发明和现有的根据IP或者Cookie记录用户访问次数的方式可以用少量用户访问记录来检测出是否为爬虫。用IP或者Cookie这样的方式为用户设置访问次数一般也要几百上千次,但是用本发明就能在用户几十次访问的情况下就能判断是否为爬虫;可以减少服务器被爬虫爬取的压力。
附图说明
图1是本发明实施例提供的利用访问间隔识别爬虫的系统结构示意图;
图2是本发明实施例提供的利用访问间隔识别爬虫的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明可以用少量用户访问记录来检测出是否为爬虫。这样可以减少服务器被爬虫爬取的压力。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的利用访问间隔识别爬虫的系统包括:
间隔方差获取模块1,用于根据平均访问时间用时间间隔和平均访问时间求出其时间间隔的方差;
倒数计算模块2,用于取方差和的倒数;
概率计算模块3,用于sigmoid函数求出此用户是爬虫的概率。
如图2所示,本发明实施例提供的利用访问间隔识别爬虫的方法包括以下步骤:
S201:服务器端记录用户访问的时间间隔,把时间间隔做数据归一化,处理成方便使用的数据,使用归一化的数据求出访问者平均的访问时间,根据平均访问时间用时间间隔和平均访问时间求出其时间间隔的方差;
S202:取方差和的倒数;
S203:用sigmoid函数求出此用户是爬虫的概率。得出的概率越大说明此用户是爬虫的概率越大。
本发明实施例提供的利用访问间隔识别爬虫的方法具体包括以下步骤:
服务器端记录访问IP的访问次数和访问时间(服务器本地毫秒级别),分别记录为N和T。
预设每个IP经过N次访问进行是否为爬虫检测,检测结果为R。
1.首先把数据映射到(0,1)区间Ti=Ti+1-Ti,
2.平均访问时间为
3.检测值为
4.检测该行为为爬虫的概率为
首先1中把访问时间间隔映射到(0,1)区间,这样3中的计算的各个时间的方差会小很多。2中求出N次访问的平均时间TMean。3中利用访问N次的时间间隔方差和的倒数,加 是一个很小的数防止分母为零。然后使用sigmoid函数映射检测值为概率。第三块1中,首先把时间间隔映用数据归一化的方法射到(0,1),2中求出平均的归一化后的访问时间。3中求访问间隔的方差的倒数,这样的方式可以表示数据分布的越均匀检测的值越大。4中使用sigmoid函数把检测值映射为概率。4中P越大,说明用户是爬虫的概率越大。
网络中用户持续访问网站,网站后台记录所有访问时间并把访问间隔记录为Ti,检查用户访问次数,当访问次数到达要检测的值时对访问间隔进行检查。检查结果P大于检测是否为爬虫的临界值时将此IP或者Cookie记录为爬虫。接下来此IP或者Cookie发送的所有请求都将被拒绝。结果P不大于检测临界值,用户将正常访问。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种识别数据爬虫的方法,其特征在于,所述方法包括以下步骤:
步骤一,服务器端记录用户访问的时间间隔,把时间间隔做数据归一化,使用归一化的数据求出访问者平均的访问时间,根据平均访问时间用时间间隔和平均访问时间求出其时间间隔的方差;
步骤二,取方差和的倒数;
步骤三,用sigmoid函数求出此用户是爬虫的概率。
2.如权利要求1所述的一种识别数据爬虫的方法,其特征在于,所述的方法具体包括:每个IP经过N次访问进行是否为爬虫检测,检测结果为R;
(1)数据映射到(0,1)区间Ti=Ti+1-Ti,
(2)平均访问时间为
(3)检测值为
(4)检测该行为为爬虫的概率为
3.一种实现权利要求1所述识别数据爬虫的方法的系统,其特征在于,所述利用访问间隔识别爬虫的系统包括:
间隔方差获取模块,用于根据平均访问时间用时间间隔和平均访问时间求出其时间间隔的方差;
倒数计算模块,用于取方差和的倒数;
概率计算模块,用于sigmoid函数求出此用户是爬虫的概率。
4.一种应用权利要求1~2任意一项所述识别数据爬虫的方法的信息数据处理终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810690104.8A CN108959524A (zh) | 2018-06-28 | 2018-06-28 | 一种识别数据爬虫的方法、系统及信息数据处理终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810690104.8A CN108959524A (zh) | 2018-06-28 | 2018-06-28 | 一种识别数据爬虫的方法、系统及信息数据处理终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108959524A true CN108959524A (zh) | 2018-12-07 |
Family
ID=64487726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810690104.8A Pending CN108959524A (zh) | 2018-06-28 | 2018-06-28 | 一种识别数据爬虫的方法、系统及信息数据处理终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959524A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245280A (zh) * | 2019-05-06 | 2019-09-17 | 北京三快在线科技有限公司 | 识别网络爬虫的方法、装置、存储介质和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101902438A (zh) * | 2009-05-25 | 2010-12-01 | 北京启明星辰信息技术股份有限公司 | 一种自动识别网页爬虫的方法和装置 |
CN103310012A (zh) * | 2013-07-02 | 2013-09-18 | 北京航空航天大学 | 一种分布式网络爬虫系统 |
CN103678492A (zh) * | 2013-11-13 | 2014-03-26 | 复旦大学 | 基于网络爬虫行为识别与缓冲更新策略的Web点击计数方法 |
CN103888391A (zh) * | 2014-03-07 | 2014-06-25 | 南京邮电大学 | 基于双Sigmoid混沌神经网络的信号盲检测方法 |
CN107835113A (zh) * | 2017-07-05 | 2018-03-23 | 中山大学 | 一种基于网络映射的社交网络中异常用户检测方法 |
CN107909427A (zh) * | 2017-10-25 | 2018-04-13 | 浙江大学 | 一种提升推荐模型时序数据挖掘能力的循环神经网络方法 |
-
2018
- 2018-06-28 CN CN201810690104.8A patent/CN108959524A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101902438A (zh) * | 2009-05-25 | 2010-12-01 | 北京启明星辰信息技术股份有限公司 | 一种自动识别网页爬虫的方法和装置 |
CN103310012A (zh) * | 2013-07-02 | 2013-09-18 | 北京航空航天大学 | 一种分布式网络爬虫系统 |
CN103678492A (zh) * | 2013-11-13 | 2014-03-26 | 复旦大学 | 基于网络爬虫行为识别与缓冲更新策略的Web点击计数方法 |
CN103888391A (zh) * | 2014-03-07 | 2014-06-25 | 南京邮电大学 | 基于双Sigmoid混沌神经网络的信号盲检测方法 |
CN107835113A (zh) * | 2017-07-05 | 2018-03-23 | 中山大学 | 一种基于网络映射的社交网络中异常用户检测方法 |
CN107909427A (zh) * | 2017-10-25 | 2018-04-13 | 浙江大学 | 一种提升推荐模型时序数据挖掘能力的循环神经网络方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245280A (zh) * | 2019-05-06 | 2019-09-17 | 北京三快在线科技有限公司 | 识别网络爬虫的方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200226186A1 (en) | System and method for analyzing user device information | |
CN105930727B (zh) | 基于Web的爬虫识别方法 | |
US10075463B2 (en) | Bot detection system based on deep learning | |
CN109241461B (zh) | 一种用户画像构建方法及装置 | |
US7860870B2 (en) | Detection of abnormal user click activity in a search results page | |
US11256683B2 (en) | Method and apparatus for integrating multi-data source user information | |
CN108667766B (zh) | 文件探测方法及文件探测装置 | |
US8140444B2 (en) | Method of measuring a large population of web pages for compliance to content standards that require human judgement to evaluate | |
CN111556070A (zh) | 网页异常访问检测方法及装置 | |
CN111934954A (zh) | 宽带的检测方法、装置、电子设备及存储介质 | |
CN114244564A (zh) | 攻击防御方法、装置、设备及可读存储介质 | |
US20140180765A1 (en) | Web-based survey verification | |
CN113157542B (zh) | 基于应用日志的趋同行为用户识别方法及系统 | |
CN108959524A (zh) | 一种识别数据爬虫的方法、系统及信息数据处理终端 | |
CN113901441A (zh) | 一种用户异常请求检测方法、装置、设备及存储介质 | |
CN116701772B (zh) | 数据推荐方法和装置、计算机可读存储介质、电子设备 | |
EP3789890A1 (en) | Fully qualified domain name (fqdn) determination | |
CN110516170A (zh) | 一种检查异常web访问的方法及装置 | |
CN111885011B (zh) | 一种业务数据网络安全分析挖掘的方法及系统 | |
CN111984848A (zh) | 一种基于分布式的网络自适应分类爬虫方法 | |
CN111787002A (zh) | 一种业务数据网络安全分析的方法及系统 | |
CN116318974A (zh) | 站点风险识别方法、装置、计算机可读介质及电子设备 | |
CN109636568A (zh) | 电话号码的风险检测方法、装置、设备及存储介质 | |
KR101148002B1 (ko) | 웹 로봇 탐지 시스템 및 방법 | |
KR102003450B1 (ko) | 웹 서버 사용자의 모니터링 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181207 |
|
RJ01 | Rejection of invention patent application after publication |