CN110581859A - 一种基于页面埋点的防爬虫方法 - Google Patents

一种基于页面埋点的防爬虫方法 Download PDF

Info

Publication number
CN110581859A
CN110581859A CN201910882561.1A CN201910882561A CN110581859A CN 110581859 A CN110581859 A CN 110581859A CN 201910882561 A CN201910882561 A CN 201910882561A CN 110581859 A CN110581859 A CN 110581859A
Authority
CN
China
Prior art keywords
crawler
request
page
suspected
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910882561.1A
Other languages
English (en)
Other versions
CN110581859B (zh
Inventor
陈志�
范渊
吴永越
郑学新
刘韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu DBAPPSecurity Co Ltd
Original Assignee
Chengdu DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu DBAPPSecurity Co Ltd filed Critical Chengdu DBAPPSecurity Co Ltd
Priority to CN201910882561.1A priority Critical patent/CN110581859B/zh
Publication of CN110581859A publication Critical patent/CN110581859A/zh
Application granted granted Critical
Publication of CN110581859B publication Critical patent/CN110581859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于页面埋点的防爬虫方法,包括以下步骤:判断请求ip是否在爬虫ip黑名单中;若不在,对页面的埋点元素的信息合法性进行一次校验;一次校验不通过,则为疑似爬虫ip加入疑似爬虫ip队列;对疑似爬虫ip进行二次校验;二次校验没有通过,则将该疑似爬虫ip为爬虫ip;对两次校验通过的请求ip制定一个单位时间的流量控制,通过判断请求ip在单位时间内对资源的请求数是否到达流量控制阈值判断是否为疑似爬虫ip;若达到流量控制阈值,加入疑似爬虫ip队列并执行步骤S3的操作。本发明对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率。

Description

一种基于页面埋点的防爬虫方法
技术领域
本发明涉及计算机技术领域,具体的说,是一种基于页面埋点的防爬虫方法。
背景技术
目前,爬虫技术已经遍布网络,并且越是涉及个人切身利益的地方,越是布满了爬虫。对于网络应用服务提供商来说,大量的流量来访问这个网站,会对这个网站的服务器造成巨大的压力,服务器压力一大干活就得受影响,那正常访问的用户就会受牵连。所以恶意流量以大量IP访问网站侵占带宽资源,不仅影响网站的正常运作,更可能造成用户的流失!
除了访问网站,爬虫在现在更主要的目的是“爬取”网站的数据,比如针对竞品的数据爬取,直接的影响就是造成网站的数据泄露。进而可能出现“复制网站”,从而影响网站排名,让真正想访问的用户去了假网站,从而用户流失。
总的来说,恶意爬虫不仅影响网站的正常运作,更危害网站安全!最可怕的是,相较于偶然性的黑产攻击,恶意爬虫是持续性的!这就意味着,如果要抗击恶意爬虫,需要消耗大量的时力!
现有的反爬虫方案中,有一种通过对客户端请求header中的UA进行识别来区分是否是爬虫的方案。Header中没有UA的,认为很大可能是爬虫,对header中带有UA的,如果是常用的浏览器UA(IE,Chrome等),则认为不是爬虫。该处理方式看起来没什么问题,但是太容易被欺骗了,爬虫只需在请求时在请求header中加上流行的UA值即可伪装通过该校验。
还有一种方式对一段时间内,某一ip的请求次数进行统计,请求数目达到一定的量,则认为这不是一个正常的人类用户的请求,大概率为爬虫请求,并对该ip做临时封禁处理。但某些爬虫使用者在应对此种反爬措施时,利用ip代理池,或者降低请求频率的方式,也可以很好地绕过这个反爬规则。
现有的反爬方案中,有一种对ip行为总结的方式,通过分析某ip在一段时间内的请求日志,通过构建业务模型,分析该ip的行为是一个人类用户的行为,还是一个爬虫的行为。该方式有个缺点就是,及时性不太够。对一个ip的访问日志分析,往往需要积累一定时间周期的日志,才具有分析的价值,所以动辄几天甚至长达一周。当通过日志分析得出某ip为爬虫ip时,可能该爬虫已经换ip继续工作。
术语介绍:
爬虫:爬虫是一种自主遍历Web的程序,目是从各种基于Web的系统和服务中发现和检索内容和知识。网络爬虫原本仅用于搜索引擎,但是随着互联网技术的发展,特别是大数据的到来,很多人都学习爬虫,企业也需要采集数据挖掘有价值的资料,但是这些爬虫采集的数据并不一定都是公开的,而是从网络上“偷”数据,这可能会引起比较严重的问题,比如采集用户信息泄露,也有可能引发法律风险,同时大量的请求也会加重对服务器的负载,影响服务器的性能,加重网站维护者的工作量。
发明内容
本发明的目的在于提供一种基于页面埋点的防爬虫方法,对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率。
本发明通过下述技术方案实现:
一种基于页面埋点的防爬虫方法,具体包括以下步骤:
步骤S1:判断请求ip是否在爬虫ip黑名单中;
步骤S2:若不在,则通过浏览器的窗口信息、埋点元素所在的坐标信息以及当前页面的url对于埋点元素的信息合法性进行一次校验;一次校验不通过,则为疑似爬虫ip加入疑似爬虫ip队列;
步骤S3:对疑似爬虫ip进行二次校验;二次校验没有通过,则将该疑似爬虫ip为爬虫ip;
步骤S4:对两次校验通过的请求ip制定一个单位时间的流量控制,通过判断请求ip在单位时间内对资源的请求数是否到达流量控制阈值判断是否为疑似爬虫ip;
若达到流量控制阈值,加入疑似爬虫ip队列并执行步骤S3的操作;
若没有达到流量控制阈值,服务器将对请求数据处理。
进一步地,为了更好的实现本发明,所述步骤S1具体是指:服务端接收到一个请求时,取得请求ip,然后在服务器的爬虫ip黑名单中查找请求ip;若在,直接拒绝访问。
进一步地,为了更好的实现本发明,具体包括以下步骤:
步骤S21:客户端得到从服务器返回的页面信息;当页面被浏览器渲染或者有用户点击事件时,客户端上报埋点元素信息到服务器;所述页面信息包括页面埋点元素;
步骤S22:客户端向服务器发起HTTP请求,上报当前浏览器窗口宽度ww、高度信息wh、埋点元素所在坐标信息当前页面的url;
步骤S23:服务器接收到客户端上报的埋点元素信息请求,通过对比存储在redis中的url与页面埋点元素信息占页面宽高百分比的方式校验上报的埋点元素信息是否是合法的;
若校验合法,服务器颁发token给客户端,将token放到客户端请求的header中;
若校验不合法,将该请求ip放入疑似爬虫ip队列中。
进一步地,为了更好的实现本发明,所述步骤S23中的校验方式具体是指:
从客户端获取到的埋点元素的宽度百分比:cwp=pw/ww * 100%;
从客户端获取到的埋点元素的高度百分比:chp=ph/ww * 100%;
其中pw为埋点元素所在的横坐标;ph为埋点元素所在的纵坐标;
若cwp=wp且chp=hp,则校验合法,否则校验不合法。
进一步地,为了更好的实现本发明,步骤S3具体是指:处于疑似爬虫ip队列中的客户端将再次向服务器发起请求,服务器对客户端展示验证码校验;
若客户端通过验证码校验,则将该ip从疑似爬虫ip队列中解除,并给该客户端请求的header中添加token值;
若客户端没有通过验证码校验,则疑似爬虫ip将加入到爬虫ip黑名单中。
进一步地,为了更好的实现本发明,所述步骤S4具体是指:对于步骤S23中校验合法的请求ip和步骤S3中通过验证码校验的请求ip做一个单位时间的流量控制,并判断该请求ip在单位时间内对资源的请求数是否达到流量控制阈值;
若达到;该请求ip加入疑似爬虫ip队列并执行步骤S3的操作;
若未达到;服务器将对请求数据处理。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率;
(2)本发明通过在页面埋点,并从客户端上报埋点信息到服务端获取访问凭据的方式,来阻碍爬虫恶意爬取;
(3)本发明通过token来鉴别是否是一个真实的用户,准确性较高。
附图说明
图1为本发明的工作流程图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
本发明通过下述技术方案实现,如图1所示,一种基于页面埋点的防爬虫方法,具体包括以下步骤:
步骤S1:判断请求ip是否在爬虫ip黑名单中;
步骤S2:若不在,则通过浏览器的窗口信息、埋点元素所在的坐标信息以及当前页面的url对于埋点元素的信息合法性进行一次校验;一次校验不通过,则为疑似爬虫ip加入疑似爬虫ip队列;
步骤S3:对疑似爬虫ip进行二次校验;二次校验没有通过,则将该疑似爬虫ip为爬虫ip;
步骤S4:对两次校验通过的请求ip制定一个单位时间的流量控制,通过判断请求ip在单位时间内对资源的请求数是否到达流量控制阈值判断是否为疑似爬虫ip;
若达到流量控制阈值,加入疑似爬虫ip队列并执行步骤S3的操作;
若没有达到流量控制阈值,服务器将对请求数据处理。
需要说明的是,通过上述改进,对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,并且即便网络爬虫破解了上述识别方法,也会极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率。
本发明中爬虫伪装的成本会比较高,除非爬虫是在一个真实的浏览器环境中打开的,这样势必也会影响到爬虫的效率。如果爬虫是这样的一种访问方式,那么对网络应用提供商来说,这种爬虫应用对系统的负载也不算大了。
实施例2:
本实施例在上述实施例的基础上做进一步优化,如图1所示,进一步地,为了更好的实现本发明,具体包括以下步骤:
步骤S21:客户端得到从服务器返回的页面信息;当页面被浏览器渲染或者有用户点击事件时,客户端上报埋点元素信息到服务器;所述页面信息包括页面埋点元素;
步骤S22:客户端向服务器发起HTTP请求,上报当前浏览器窗口宽度ww、高度信息wh、埋点元素所在坐标信息当前页面的url;
步骤S23:服务器接收到客户端上报的埋点元素信息请求,通过对比存储在redis中的url与页面埋点元素信息占页面宽高百分比的方式校验上报的埋点元素信息是否是合法的;
若校验合法,服务器颁发token给客户端,将token放到客户端请求的header中;
若校验不合法,将该请求ip放入疑似爬虫ip队列中。
进一步地,为了更好的实现本发明,所述步骤S23中的校验方式具体是指:
从客户端获取到的埋点元素的宽度百分比:cwp=pw/ww * 100%;
从客户端获取到的埋点元素的高度百分比:chp=ph/ww * 100%;
其中pw为埋点元素所在的横坐标;ph为埋点元素所在的纵坐标;
若cwp=wp且chp=hp,则校验合法,否则校验不合法。
对于埋点元素上报的触发事件来说,HTML DOM 允许 JavaScript 对 HTML 事件作出反应,本发明中提到的页面加载事件以及用户点击事件,都是用户在浏览HTML网页时非常常见的事件,且HTML DOM对此有非常好的支持。
上报埋点元素的坐标信息和当前网页的url,就是一个普通的HTTP请求,采用POST方式即可。
本发明中存储url与埋点元素信息的映射,以及存储页面临时token都可以借助redis来做存储。Redis是一款性能高效,支持数据类型丰富,使用范围极广的key-value数据库。借助redis的存储特性及支持的数据结构,可以快速的判断用户上传的埋点信息是否正确。并且可以高效的识别用户访问页面的token是否是伪造或者已过期。
需要说明的是,通过上述改进,本发明在判断请求ip是否是爬虫ip时,是相当及时的。如果获取token失败,就认为是疑似爬虫ip,然后通过流行的验证码方案,来判断是否是一个真实的用户,如果验证码也验证失败,则确认该ip为爬虫ip,进行临时封禁。
本发明中当用户访问有埋点的页面,如果用户没有触发埋点信息上报事件获取token,或者埋点信息校验不通过获取token失败,则认为该ip为疑似爬虫。具体的,哪些页面需要有埋点,是网络服务提供商来决定的。
本实施例的其他部分与上述实施例相同,故不再赘述。
实施例3:
本实施例在上述实施例的基础上做进一步优化,如图1所示,进一步地,为了更好的实现本发明,步骤S3具体是指:处于疑似爬虫ip队列中的客户端将再次向服务器发起请求,服务器对客户端展示验证码校验;
若客户端通过验证码校验,则将该ip从疑似爬虫ip队列中解除,并给该客户端请求的header中添加token值;
若客户端没有通过验证码校验,则疑似爬虫ip将加入到爬虫ip黑名单中。
需要说明的是,通过上述改进,
本实施例的其他部分与上述实施例相同,故不再赘述。
实施例4:
本实施例在上述实施例的基础上做进一步优化,如图1所示,进一步地,为了更好的实现本发明,所述步骤S4具体是指:对于步骤S23中校验合法的请求ip和步骤S3中通过验证码校验的请求ip做一个单位时间的流量控制,并判断该请求ip在单位时间内对资源的请求数是否达到流量控制阈值;
若达到;该请求ip加入疑似爬虫ip队列并执行步骤S3的操作;
若未达到;服务器将对请求数据处理。
需要说明的是,通过上述改进,这里的流量控制阈值不是一个具体的值,是网络服务提供商根据自己服务器的cpu的内存、带宽以及平时的uv、pv等综合考虑的一个适合的值。
对于对一个请求ip做一个单位时间的流量控制的具体方法为:假设流量控制的条件是10s内单个ip请求次数不能超过100次用一个计数器来做,一个请求ip一个计数器counter,这个计数器的初始态value=100;过期时间是ttl=10s,也就是说从计数器创建时计时,10s中之后,这个计数器会自动销毁。当一个请求ip请求服务器,服务器先查看是否有与之匹配的计数器,如果没有,服务器为这个请求ip创建一个上述的初始态的计数器。从计数器被创建开始的10s钟之内,该请求ip每请求一次服务器,这个请求ip的计数器的值value就减1:value=value-1;当value的值小于0时,则认为请求ip达到了限流的阈值,将这个请求ip列入疑似爬虫请求ip队列。
本实施例的其他部分与上述实施例相同,故不再赘述。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (6)

1.一种基于页面埋点的防爬虫方法,其特征在于:具体包括以下步骤:
步骤S1:判断请求ip是否在爬虫ip黑名单中;
步骤S2:若不在,则通过浏览器的窗口信息、埋点元素所在的坐标信息以及当前页面的url对于埋点元素的信息合法性进行一次校验;一次校验不通过,则为疑似爬虫ip加入疑似爬虫ip队列;
步骤S3:对疑似爬虫ip进行二次校验;二次校验没有通过,则将该疑似爬虫ip为爬虫ip;
步骤S4:对两次校验通过的请求ip制定一个单位时间的流量控制,通过判断请求ip在单位时间内对资源的请求数是否到达流量控制阈值判断是否为疑似爬虫ip;
若达到流量控制阈值,加入疑似爬虫ip队列并执行步骤S3的操作;
若没有达到流量控制阈值,服务器将对请求数据处理。
2.根据权利要求1所述的一种基于页面埋点的防爬虫方法,其特征在于:所述步骤S1具体是指:服务端接收到一个请求时,取得请求ip,然后在服务器的爬虫ip黑名单中查找请求ip;若在,直接拒绝访问。
3.根据权利要求1所述的一种基于页面埋点的防爬虫方法,其特征在于:具体包括以下步骤:
步骤S21:客户端得到从服务器返回的页面信息;当页面被浏览器渲染或者有用户点击事件时,客户端上报埋点元素信息到服务器;所述页面信息包括页面埋点元素;
步骤S22:客户端向服务器发起HTTP请求,上报当前浏览器窗口宽度ww、高度信息wh、埋点元素所在坐标信息当前页面的url;
步骤S23:服务器接收到客户端上报的埋点元素信息请求,通过对比存储在redis中的url与页面埋点元素信息占页面宽高百分比的方式校验上报的埋点元素信息是否是合法的;
若校验合法,服务器颁发token给客户端,将token放到客户端请求的header中;
若校验不合法,将该请求ip放入疑似爬虫ip队列中。
4.根据权利要求3所述的一种基于页面埋点的防爬虫方法,其特征在于:所述步骤S23中的校验方式具体是指:
从客户端获取到的埋点元素的宽度百分比:cwp=pw/ww * 100%;
从客户端获取到的埋点元素的高度百分比:chp=ph/ww * 100%;
其中pw为埋点元素所在的横坐标;ph为埋点元素所在的纵坐标;
若cwp=wp且chp=hp,则校验合法,否则校验不合法。
5.根据权利要求1所述的一种基于页面埋点的防爬虫方法,其特征在于:步骤S3具体是指:处于疑似爬虫ip队列中的客户端将再次向服务器发起请求,服务器对客户端展示验证码校验;
若客户端通过验证码校验,则将该ip从疑似爬虫ip队列中解除,并给该客户端请求的header中添加token值;
若客户端没有通过验证码校验,则疑似爬虫ip将加入到爬虫ip黑名单中。
6.根据权利要求1所述的一种基于页面埋点的防爬虫方法,其特征在于:所述步骤S4具体是指:对于步骤S23中校验合法的请求ip和步骤S3中通过验证码校验的请求ip做一个单位时间的流量控制,并判断该请求ip在单位时间内对资源的请求数是否达到流量控制阈值;
若达到;该请求ip加入疑似爬虫ip队列并执行步骤S3的操作;
若未达到;服务器将对请求数据处理。
CN201910882561.1A 2019-09-18 2019-09-18 一种基于页面埋点的防爬虫方法 Active CN110581859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910882561.1A CN110581859B (zh) 2019-09-18 2019-09-18 一种基于页面埋点的防爬虫方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910882561.1A CN110581859B (zh) 2019-09-18 2019-09-18 一种基于页面埋点的防爬虫方法

Publications (2)

Publication Number Publication Date
CN110581859A true CN110581859A (zh) 2019-12-17
CN110581859B CN110581859B (zh) 2021-11-26

Family

ID=68811947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910882561.1A Active CN110581859B (zh) 2019-09-18 2019-09-18 一种基于页面埋点的防爬虫方法

Country Status (1)

Country Link
CN (1) CN110581859B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238830A (zh) * 2022-09-21 2022-10-25 广东柯内特环境科技有限公司 设备的运行阈值设置方法及监控方法、监控系统
CN115688147A (zh) * 2022-12-29 2023-02-03 亿海蓝(北京)数据技术股份公司 地理信息系统数据保护方法、系统、设备、介质和芯片

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140325596A1 (en) * 2013-04-29 2014-10-30 Arbor Networks, Inc. Authentication of ip source addresses
CN104902008A (zh) * 2015-04-26 2015-09-09 成都创行信息科技有限公司 一种针对爬虫的数据处理方法
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置
CN108173823A (zh) * 2017-12-21 2018-06-15 五八有限公司 页面防抓取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140325596A1 (en) * 2013-04-29 2014-10-30 Arbor Networks, Inc. Authentication of ip source addresses
CN104902008A (zh) * 2015-04-26 2015-09-09 成都创行信息科技有限公司 一种针对爬虫的数据处理方法
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置
CN108173823A (zh) * 2017-12-21 2018-06-15 五八有限公司 页面防抓取方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238830A (zh) * 2022-09-21 2022-10-25 广东柯内特环境科技有限公司 设备的运行阈值设置方法及监控方法、监控系统
CN115688147A (zh) * 2022-12-29 2023-02-03 亿海蓝(北京)数据技术股份公司 地理信息系统数据保护方法、系统、设备、介质和芯片
CN115688147B (zh) * 2022-12-29 2023-02-28 亿海蓝(北京)数据技术股份公司 地理信息系统数据保护方法、系统、设备、介质和芯片

Also Published As

Publication number Publication date
CN110581859B (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
US8543662B2 (en) Method and apparatus for redirection of server external hyper-link references
Kirda et al. Noxes: a client-side solution for mitigating cross-site scripting attacks
CN102594934B (zh) 一种识别被劫持网址的方法及装置
US20050076230A1 (en) Fraud tracking cookie
US20140337991A1 (en) Methods and apparatus for blocking usage tracking
US20140380477A1 (en) Methods and devices for identifying tampered webpage and inentifying hijacked web address
US20110191664A1 (en) Systems for and methods for detecting url web tracking and consumer opt-out cookies
US20110208850A1 (en) Systems for and methods of web privacy protection
CN103902888A (zh) 网站信任度自动评级的方法、服务端及系统
CN106302512B (zh) 一种用于控制访问的方法、设备与系统
CN101540734A (zh) 一种跨域名Cookie访问方法、系统及设备
CN111552854A (zh) 一种网页数据抓取方法、装置、存储介质和设备
CN110581859B (zh) 一种基于页面埋点的防爬虫方法
CN113518077A (zh) 一种恶意网络爬虫检测方法、装置、设备及存储介质
Durieux et al. Fully automated HTML and Javascript rewriting for constructing a self‐healing web proxy
Valeur et al. An anomaly-driven reverse proxy for web applications
CN103581321A (zh) 一种refer链的创建方法、装置及安全检测方法和客户端
CN112287349A (zh) 安全漏洞检测方法及服务端
CN115037526B (zh) 反爬虫方法、装置、设备以及计算机存储介质
Zhang et al. Research on Anti-crawler and Anti-Anti-crawler Technology
Wang et al. Software security analysis and assessment model for the web-based applications
Chufeng et al. Systematical vulnerability detection in browser validation mechanism
Zhenyu et al. MBDS: model-based detection system for cross site scripting
CN117439792A (zh) 一种基于dns服务器的恶意网址判断方法、系统及存储介质
CN113067796A (zh) 一种隐藏页面检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant