CN106528779A - 一种基于可变url的爬虫识别方法 - Google Patents
一种基于可变url的爬虫识别方法 Download PDFInfo
- Publication number
- CN106528779A CN106528779A CN201610977093.2A CN201610977093A CN106528779A CN 106528779 A CN106528779 A CN 106528779A CN 201610977093 A CN201610977093 A CN 201610977093A CN 106528779 A CN106528779 A CN 106528779A
- Authority
- CN
- China
- Prior art keywords
- url
- variable
- link
- resources
- reptile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于可变URL的爬虫识别方法。本方法为:1)在设定网页上设置一可变URL链接;其中,该URL链接对应两个访问资源:用于检测的URL资源、有效的URL资源;2)当该可变URL链接被触发时,检测该可变URL链接的触发条件:如果是鼠标触发,则将该可变URL链接的链接切换到该可变URL链接对应的有效的URL资源,否则链接到默认链接,即检测的URL资源;3)当检测到用于检测的URL资源被访问时,将访问该用于检测的URL资源的访问来源IP标记为爬虫。本发明能够精确定位到特定的来源,进行截断操作,而不影响正常用户访问。
Description
技术领域
本发明涉及一种基于可变URL的爬虫识别方法,属于网络技术领域。
背景技术
通常爬虫识别是基于相同IP的请求频率来进行鉴定的,每个IP代表一个对应请求来源,需要设定一个请求频率的阈值,请求频率超过这个值就认为这个来源是爬虫。但是这种技术现在很难继续延用。主要问题是IP资源越来越稀缺,容易出现大量用户使用相同IP的情况,如果依然采用请求来源IP作为依据就会出现误判,将一些正常用户IP识别为爬虫IP。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于可变URL的爬虫识别方法。
本发明的技术方案为:
一种基于可变URL的爬虫识别方法,其步骤为:
1)在设定网页上设置一可变URL链接;其中,该URL链接对应两个访问资源:用于检测的URL资源、有效的URL资源;
2)当该可变URL链接被触发时,检测该可变URL链接的触发条件:如果是鼠标触发,则将该可变URL链接的链接切换到该可变URL链接对应的有效的URL资源,否则链接到默认链接,即检测的URL资源;
3)当检测到用于检测的URL资源被访问时,将访问该用于检测的URL资源的访问来源IP标记为爬虫。
进一步的,所述可变URL链接设置于所述设定网页的入口处。
进一步的,所述可变URL链接设置于所述设定网页的首页。
进一步的,当该可变URL链接被触发时,检测是否有鼠标位于该可变URL链接上,如果有,则判定触发条件为鼠标触发;否则判断触发条件为爬虫触发。
进一步的,通过JavaScript代码将访问该用于检测的URL资源的访问来源IP标记为爬虫。
进一步的,当检测到访问来源IP标记为爬虫时,切断该访问来源IP的访问。
当爬虫自动爬取网页的时候会使用爬取url的方式来扩大爬取范围,制作一个可变的检测链接,这个连接默认存在,当用户鼠标放到此链接上,通常的网络浏览器比如(IE,Chrome)就会触发对应的鼠标事件,通过JavaScript代码来处理相应事件,并变更”检测的url资源”到”有效的url资源”上,”有效的url资源”不影响用户正常访问,如果是爬虫则会爬取并访问”检测url资源”,这样就能区分用户行为和爬虫行为,并通过JavaScript代码给予相应的标识,以便后续截断操作。
与现有技术相比,本发明的积极效果为:
1.避免了传统检测技术复用IP问题引起的大面积误报,而且能够精确定位到特定的来源,进行截断操作,而不影响正常用户访问。
2.由于这个检测发生在客户端浏览器上,所以相对于传统服务端检测技术有更好的性能表现。
附图说明
图1为本发明的方法流程图。
图2为本发明网页结构示意图。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
本发明的流程如图1所示,在网页的入口处(比如首页)上始终存在一个链接,用户的鼠标不停留在它上面的时候,它的链接对应”检测的url资源”。网页监控鼠标行为,当用户鼠标停留在它上面时,它的url变更为”有效的url资源”,不影响正常用户的访问。如果访问了检测url资源说明它是爬虫行为,以此区分爬虫和正常用户。
如图2所示,网页始终存在一个检测url,只有当用户鼠标停留在链接上,此url才会变更为正确的url。如果没有鼠标停留的行为,访问了检测url,则说明这是爬虫行为,以此区分用户和爬虫。
代码:
首页部分代码:
#默认情况下首页页面显示的是”检测的url资源”(首页会有其他正常信息,此处为检测关键内容)
<a class="spec_link"href="/detect">link</a>
#脚本执行需要依赖网络浏览器,提供事件响应支持,爬虫一般不具备此功能,故爬虫会访问”检测的url资源”
$(′.spec_link′).on(′mouseover′,function(){
#当浏览器触发鼠标事件,则变更”检测的url资源”到”有效的url资源”,保证用户的正常访问到”有效的url资源”。
$(this).attr(′href′,′/valid’);
});
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (6)
1.一种基于可变URL的爬虫识别方法,其步骤为:
1)在设定网页上设置一可变URL链接;其中,该URL链接对应两个访问资源:用于检测的URL资源、有效的URL资源;
2)当该可变URL链接被触发时,检测该可变URL链接的触发条件:如果是鼠标触发,则将该可变URL链接的链接切换到该可变URL链接对应的有效的URL资源,否则链接到默认链接,即检测的URL资源;
3)当检测到用于检测的URL资源被访问时,将访问该用于检测的URL资源的访问来源IP标记为爬虫。
2.如权利要求1所述的方法,其特征在于,所述可变URL链接设置于所述设定网页的入口处。
3.如权利要求1所述的方法,其特征在于,所述可变URL链接设置于所述设定网页的首页。
4.如权利要求1或2或3所述的方法,其特征在于,当该可变URL链接被触发时,检测是否有鼠标位于该可变URL链接上,如果有,则判定触发条件为鼠标触发;否则判断触发条件为爬虫触发。
5.如权利要求1或2所述的方法,其特征在于,通过JavaScript代码将访问该用于检测的URL资源的访问来源IP标记为爬虫。
6.如权利要求5所述的方法,其特征在于,当检测到访问来源IP标记为爬虫时,切断该访问来源IP的访问。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610977093.2A CN106528779A (zh) | 2016-11-03 | 2016-11-03 | 一种基于可变url的爬虫识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610977093.2A CN106528779A (zh) | 2016-11-03 | 2016-11-03 | 一种基于可变url的爬虫识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106528779A true CN106528779A (zh) | 2017-03-22 |
Family
ID=58350331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610977093.2A Pending CN106528779A (zh) | 2016-11-03 | 2016-11-03 | 一种基于可变url的爬虫识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106528779A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107147640A (zh) * | 2017-05-09 | 2017-09-08 | 网宿科技股份有限公司 | 识别网络爬虫的方法及系统 |
CN107943949A (zh) * | 2017-11-24 | 2018-04-20 | 厦门集微科技有限公司 | 一种确定网络爬虫的方法及服务器 |
CN109150790A (zh) * | 2017-06-15 | 2019-01-04 | 北京京东尚科信息技术有限公司 | Web页面爬虫识别方法和装置 |
CN109214181A (zh) * | 2017-07-01 | 2019-01-15 | 武汉斗鱼网络科技有限公司 | 识别网络爬虫的方法、存储介质、电子设备及系统 |
CN109492146A (zh) * | 2018-11-09 | 2019-03-19 | 杭州安恒信息技术股份有限公司 | 一种防web爬虫的方法和装置 |
CN109600272A (zh) * | 2017-09-30 | 2019-04-09 | 北京国双科技有限公司 | 爬虫检测的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101187925A (zh) * | 2006-11-17 | 2008-05-28 | 北京酷讯科技有限公司 | 自动优化爬虫的抓取方法 |
CN102495861A (zh) * | 2011-11-24 | 2012-06-13 | 中国科学院计算技术研究所 | 一种网络爬虫识别系统及方法 |
CN102663060A (zh) * | 2012-03-30 | 2012-09-12 | 奇智软件(北京)有限公司 | 一种识别被篡改网页的方法及装置 |
CN103229181A (zh) * | 2010-10-13 | 2013-07-31 | 阿卡麦科技公司 | 通过对url进行模糊处理来保护网站和网站用户 |
CN103268361A (zh) * | 2013-06-07 | 2013-08-28 | 百度在线网络技术(北京)有限公司 | 网页中隐藏url的提取方法、装置和系统 |
CN103279516A (zh) * | 2013-05-27 | 2013-09-04 | 百度在线网络技术(北京)有限公司 | 网络爬虫识别方法 |
CN105426415A (zh) * | 2015-10-30 | 2016-03-23 | Tcl集团股份有限公司 | 网站访问请求的管理方法、装置及系统 |
-
2016
- 2016-11-03 CN CN201610977093.2A patent/CN106528779A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101187925A (zh) * | 2006-11-17 | 2008-05-28 | 北京酷讯科技有限公司 | 自动优化爬虫的抓取方法 |
CN103229181A (zh) * | 2010-10-13 | 2013-07-31 | 阿卡麦科技公司 | 通过对url进行模糊处理来保护网站和网站用户 |
CN102495861A (zh) * | 2011-11-24 | 2012-06-13 | 中国科学院计算技术研究所 | 一种网络爬虫识别系统及方法 |
CN102663060A (zh) * | 2012-03-30 | 2012-09-12 | 奇智软件(北京)有限公司 | 一种识别被篡改网页的方法及装置 |
CN103279516A (zh) * | 2013-05-27 | 2013-09-04 | 百度在线网络技术(北京)有限公司 | 网络爬虫识别方法 |
CN103268361A (zh) * | 2013-06-07 | 2013-08-28 | 百度在线网络技术(北京)有限公司 | 网页中隐藏url的提取方法、装置和系统 |
CN105426415A (zh) * | 2015-10-30 | 2016-03-23 | Tcl集团股份有限公司 | 网站访问请求的管理方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
WUJIE2008: "nginx伪静态、裸域名跳转、禁止某个文件或目录被访问、禁止爬虫拔取资源配置", 《HTTPS://WUJIE2008.ITEYE.COM/BLOG/1686026》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107147640A (zh) * | 2017-05-09 | 2017-09-08 | 网宿科技股份有限公司 | 识别网络爬虫的方法及系统 |
CN107147640B (zh) * | 2017-05-09 | 2019-12-31 | 网宿科技股份有限公司 | 识别网络爬虫的方法及系统 |
CN109150790A (zh) * | 2017-06-15 | 2019-01-04 | 北京京东尚科信息技术有限公司 | Web页面爬虫识别方法和装置 |
CN109214181A (zh) * | 2017-07-01 | 2019-01-15 | 武汉斗鱼网络科技有限公司 | 识别网络爬虫的方法、存储介质、电子设备及系统 |
CN109600272A (zh) * | 2017-09-30 | 2019-04-09 | 北京国双科技有限公司 | 爬虫检测的方法及装置 |
CN109600272B (zh) * | 2017-09-30 | 2022-03-18 | 北京国双科技有限公司 | 爬虫检测的方法及装置 |
CN107943949A (zh) * | 2017-11-24 | 2018-04-20 | 厦门集微科技有限公司 | 一种确定网络爬虫的方法及服务器 |
CN107943949B (zh) * | 2017-11-24 | 2020-06-26 | 厦门集微科技有限公司 | 一种确定网络爬虫的方法及服务器 |
CN109492146A (zh) * | 2018-11-09 | 2019-03-19 | 杭州安恒信息技术股份有限公司 | 一种防web爬虫的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106528779A (zh) | 一种基于可变url的爬虫识别方法 | |
AU2019240583B2 (en) | Detection and repair of broken single sign-on integration | |
CN102542201B (zh) | 一种网页中恶意代码的检测方法及系统 | |
CN105184159B (zh) | 网页篡改的识别方法和装置 | |
KR101514984B1 (ko) | 홈페이지 악성코드 유포 탐지 시스템 및 방법 | |
US7441195B2 (en) | Associating website clicks with links on a web page | |
CN102622435B (zh) | 一种检测黑链的方法和装置 | |
CN102724187B (zh) | 一种针对网址的安全检测方法及装置 | |
AU2004217115B2 (en) | Associating website clicks with links on a web page | |
CN101964025A (zh) | Xss检测方法和设备 | |
CA2738290C (en) | Exclusion of irrelevant data from a dom equivalence | |
CN105760379B (zh) | 一种基于域内页面关联关系检测webshell页面的方法及装置 | |
CN102664925B (zh) | 一种展现搜索结果的方法及装置 | |
CN104899219B (zh) | 伪静态url的筛除方法、系统及网页爬取方法、系统 | |
US20200336498A1 (en) | Method and apparatus for detecting hidden link in website | |
US20120290909A1 (en) | Methods and apparatus of accessing related content on a web-page | |
CN103778365A (zh) | 一种检测网页隐藏内容的方法,及设备 | |
CN107786537A (zh) | 一种基于互联网交叉搜索的孤页植入攻击检测方法 | |
WO2020211130A1 (zh) | 一种网站暗链检测方法和装置 | |
CN107733699A (zh) | 互联网资产安全管理方法、系统、设备及可读存储介质 | |
CN104468459A (zh) | 一种漏洞检测方法及装置 | |
CN106411868A (zh) | 一种自动识别web爬虫的方法 | |
CN101895517A (zh) | 一种脚本语义提取方法和提取装置 | |
CN109145179A (zh) | 一种爬虫行为检测方法及装置 | |
CN110719344B (zh) | 域名获取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170322 |