CN106528779A

CN106528779A - 一种基于可变url的爬虫识别方法

Info

Publication number: CN106528779A
Application number: CN201610977093.2A
Authority: CN
Inventors: 陈剑; 张宇杰
Original assignee: Beijing Future Information Technology Co Ltd
Current assignee: Beijing Future Information Technology Co Ltd
Priority date: 2016-11-03
Filing date: 2016-11-03
Publication date: 2017-03-22

Abstract

本发明公开了一种基于可变URL的爬虫识别方法。本方法为：1)在设定网页上设置一可变URL链接；其中，该URL链接对应两个访问资源：用于检测的URL资源、有效的URL资源；2)当该可变URL链接被触发时，检测该可变URL链接的触发条件：如果是鼠标触发，则将该可变URL链接的链接切换到该可变URL链接对应的有效的URL资源，否则链接到默认链接，即检测的URL资源；3)当检测到用于检测的URL资源被访问时，将访问该用于检测的URL资源的访问来源IP标记为爬虫。本发明能够精确定位到特定的来源，进行截断操作，而不影响正常用户访问。

Description

一种基于可变URL的爬虫识别方法

技术领域

本发明涉及一种基于可变URL的爬虫识别方法，属于网络技术领域。

背景技术

通常爬虫识别是基于相同IP的请求频率来进行鉴定的，每个IP代表一个对应请求来源，需要设定一个请求频率的阈值，请求频率超过这个值就认为这个来源是爬虫。但是这种技术现在很难继续延用。主要问题是IP资源越来越稀缺，容易出现大量用户使用相同IP的情况，如果依然采用请求来源IP作为依据就会出现误判，将一些正常用户IP识别为爬虫IP。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于可变URL的爬虫识别方法。

本发明的技术方案为：

一种基于可变URL的爬虫识别方法，其步骤为：

1)在设定网页上设置一可变URL链接；其中，该URL链接对应两个访问资源：用于检测的URL资源、有效的URL资源；

2)当该可变URL链接被触发时，检测该可变URL链接的触发条件：如果是鼠标触发，则将该可变URL链接的链接切换到该可变URL链接对应的有效的URL资源，否则链接到默认链接，即检测的URL资源；

3)当检测到用于检测的URL资源被访问时，将访问该用于检测的URL资源的访问来源IP标记为爬虫。

进一步的，所述可变URL链接设置于所述设定网页的入口处。

进一步的，所述可变URL链接设置于所述设定网页的首页。

进一步的，当该可变URL链接被触发时，检测是否有鼠标位于该可变URL链接上，如果有，则判定触发条件为鼠标触发；否则判断触发条件为爬虫触发。

进一步的，通过JavaScript代码将访问该用于检测的URL资源的访问来源IP标记为爬虫。

进一步的，当检测到访问来源IP标记为爬虫时，切断该访问来源IP的访问。

当爬虫自动爬取网页的时候会使用爬取url的方式来扩大爬取范围，制作一个可变的检测链接，这个连接默认存在，当用户鼠标放到此链接上，通常的网络浏览器比如(IE,Chrome)就会触发对应的鼠标事件，通过JavaScript代码来处理相应事件，并变更”检测的url资源”到”有效的url资源”上，”有效的url资源”不影响用户正常访问，如果是爬虫则会爬取并访问”检测url资源”，这样就能区分用户行为和爬虫行为，并通过JavaScript代码给予相应的标识，以便后续截断操作。

与现有技术相比，本发明的积极效果为：

1.避免了传统检测技术复用IP问题引起的大面积误报，而且能够精确定位到特定的来源，进行截断操作，而不影响正常用户访问。

2.由于这个检测发生在客户端浏览器上，所以相对于传统服务端检测技术有更好的性能表现。

附图说明

图1为本发明的方法流程图。

图2为本发明网页结构示意图。

具体实施方式

下面结合附图，对优选实施例作详细说明。应该强调的是下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

本发明的流程如图1所示，在网页的入口处(比如首页)上始终存在一个链接，用户的鼠标不停留在它上面的时候，它的链接对应”检测的url资源”。网页监控鼠标行为，当用户鼠标停留在它上面时，它的url变更为”有效的url资源”，不影响正常用户的访问。如果访问了检测url资源说明它是爬虫行为，以此区分爬虫和正常用户。

如图2所示，网页始终存在一个检测url，只有当用户鼠标停留在链接上，此url才会变更为正确的url。如果没有鼠标停留的行为，访问了检测url，则说明这是爬虫行为，以此区分用户和爬虫。

代码：

首页部分代码:

#默认情况下首页页面显示的是”检测的url资源”(首页会有其他正常信息，此处为检测关键内容)

#脚本执行需要依赖网络浏览器，提供事件响应支持，爬虫一般不具备此功能，故爬虫会访问”检测的url资源”

$(′.spec_link′).on(′mouseover′,function(){

#当浏览器触发鼠标事件，则变更”检测的url资源”到”有效的url资源”，保证用户的正常访问到”有效的url资源”。

$(this).attr(′href′,′/valid’)；

})；

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于可变URL的爬虫识别方法，其步骤为：

2.如权利要求1所述的方法，其特征在于，所述可变URL链接设置于所述设定网页的入口处。

3.如权利要求1所述的方法，其特征在于，所述可变URL链接设置于所述设定网页的首页。

4.如权利要求1或2或3所述的方法，其特征在于，当该可变URL链接被触发时，检测是否有鼠标位于该可变URL链接上，如果有，则判定触发条件为鼠标触发；否则判断触发条件为爬虫触发。

5.如权利要求1或2所述的方法，其特征在于，通过JavaScript代码将访问该用于检测的URL资源的访问来源IP标记为爬虫。

6.如权利要求5所述的方法，其特征在于，当检测到访问来源IP标记为爬虫时，切断该访问来源IP的访问。