CN110933065A - 网页防爬虫方法、装置、计算机设备及存储介质 - Google Patents
网页防爬虫方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110933065A CN110933065A CN201911172195.7A CN201911172195A CN110933065A CN 110933065 A CN110933065 A CN 110933065A CN 201911172195 A CN201911172195 A CN 201911172195A CN 110933065 A CN110933065 A CN 110933065A
- Authority
- CN
- China
- Prior art keywords
- user terminal
- access request
- access
- page
- request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/083—Network architectures or network communication protocols for network security for authentication of entities using passwords
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/145—Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/06—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
- H04L9/0618—Block ciphers, i.e. encrypting groups of characters of a plain text message using fixed encryption transformation
- H04L9/0625—Block ciphers, i.e. encrypting groups of characters of a plain text message using fixed encryption transformation with splitting of the data block into left and right halves, e.g. Feistel based algorithms, DES, FEAL, IDEA or KASUMI
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/06—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
- H04L9/065—Encryption by serially and continuously modifying data stream elements, e.g. stream cipher systems, RC4, SEAL or A5/3
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/321—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving a third party or a trusted authority
- H04L9/3213—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving a third party or a trusted authority using tickets or tokens, e.g. Kerberos
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及网页防爬虫方法、装置、计算机设备及存储介质,该方法包括获取来自用户终端的访问请求;判断访问请求是否携带访问令牌;若访问请求不携带访问令牌,则将访问请求对应的替身页面反馈至用户终端;获取来自用户终端发起的验证请求;判断验证请求是否可验证成功;若验证请求可验证成功,则发送一个加密后的访问令牌至用户终端;返回获取来自用户终端的访问请求。本发明实现自动识别网页爬虫,并拦截来自网页爬虫的请求,且不影响用户上网体验,无需借助IP,优化防爬虫效果。
Description
技术领域
本发明涉及计算机,更具体地说是指网页防爬虫方法、装置、计算机设备及存储介质。
背景技术
网页爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。有些网站通过爬虫去采集其它的网站页面信息作为己用,大量的爬取行为会对网页服务器有比较性能有影响,因此需要进行网页防爬虫操作。
目前最有效且广为使用的防爬虫方法通常是采用各种交互式的验证码、限制IP(网络之间互连的协议,Internet Protocol)请求频率等。交互式的验证码,需要用户频繁的输入验证码,非常影响用户体验。而采用限制IP访问频率的方式,在NAT(网络地址转换,Network Address Translation)网络环境下可能出现误报,而且通过使用代理IP,可以绕过IP频繁访问限制,防爬虫效果不是很好。
因此,有必要设计一种新的方法,实现自动识别网页爬虫,并拦截来自网页爬虫的请求,且不影响用户上网体验,优化防爬虫效果。
发明内容
本发明的目的在于克服现有技术的缺陷,提供网页防爬虫方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:网页防爬虫方法,包括:
获取来自用户终端的访问请求;
判断所述访问请求是否携带访问令牌;
若所述访问请求不携带访问令牌,则将所述访问请求对应的替身页面反馈至用户终端;
获取来自用户终端发起的验证请求;
判断所述验证请求是否可验证成功;
若验证请求可验证成功,则发送一个加密后的访问令牌至用户终端;
返回所述获取来自用户终端的访问请求。
其进一步技术方案为:所述判断所述访问请求是否携带访问令牌之后,还包括:
若所述访问请求携带访问令牌,则判断所述访问令牌是否合格;
若所述访问令牌合格,则将所述访问请求发送至后台服务器,以使得后台服务器反馈访问请求对应的数据;
将后台服务器反馈的数据发送至用户终端。
其进一步技术方案为:所述将所述访问请求对应的替身页面反馈至用户终端,包括:
对所述访问请求对应的页面进行混淆;
对混淆后的页面进行加密,以形成替身页面;
反馈所述替身页面至用户终端。
其进一步技术方案为:所述验证请求包括用户终端执行替身页面后所得到的结果。
其进一步技术方案为:所述判断所述若所述访问请求不携带访问令牌,则将所述访问请求对应的替身页面反馈至用户终端之后,还包括:
若否,则返回所述将所述访问请求对应的替身页面反馈至用户终端。
本发明还提供了网页防爬虫装置,包括:
访问请求获取单元,用于获取来自用户终端的访问请求;
第一判断单元,用于判断所述访问请求是否携带访问令牌;
替身页面反馈单元,用于若所述访问请求不携带访问令牌,则将所述访问请求对应的替身页面反馈至用户终端;
验证请求获取单元,用于获取来自用户终端发起的验证请求;
第二判断单元,用于判断所述验证请求是否可验证成功;
令牌发送单元,用于若验证请求可验证成功,则发送一个加密后的访问令牌至用户终端;并返回所述获取来自用户终端的访问请求。
其进一步技术方案为:还包括:
令牌判断单元,用于若所述访问请求携带访问令牌,则判断所述访问令牌是否合格;
请求发送单元,用于若是,将所述访问请求发送至后台服务器,以使得后台服务器反馈访问请求对应的数据;
数据发送单元,用于将后台服务器反馈的数据发送至用户终端。
其进一步技术方案为:所述替身页面反馈单元包括:
混淆页面子单元,用于对所述访问请求对应的页面进行混淆;
加密子单元,用于对混淆后的页面进行加密,以形成替身页面;
页面发送子单元,用于反馈所述替身页面至用户终端。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过用户终端发起访问请求,对访问请求进行访问令牌的验证,当访问请求内没有携带访问令牌时,则通过加密JavaScrapt以反馈替身页面至用户终端,以使得用户终端发起验证请求,并反馈一个加密后的访问令牌至用户终端,在用户终端后续发起的访问请求后,通过访问令牌的验证,对访问令牌不合格的访问请求进行反馈替身页面,而非真实的页面数据,拦截来自网络爬虫的请求,实现自动识别网页爬虫,并拦截来自网页爬虫的请求,且不影响用户上网体验,无需借助IP,优化防爬虫效果。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的网页防爬虫方法的应用场景示意图;
图2为本发明实施例提供的网页防爬虫方法的流程示意图;
图3为本发明实施例提供的网页防爬虫方法的子流程示意图;
图4为本发明实施例提供的网页防爬虫装置的示意性框图;
图5为本发明实施例提供的网页防爬虫装置的替身页面反馈单元的示意性框图;
图6为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的网页防爬虫方法的应用场景示意图。图2为本发明实施例提供的网页防爬虫方法的示意性流程图。该网页防爬虫方法应用于带有防爬虫引擎的服务器中。带有防爬虫引擎的服务器与用户终端以及后台服务器进行数据交互,对用户终端发起的访问请求进行访问令牌的确认和校验,以进行防爬虫识别,并对于爬虫现象反馈替身页面,避免爬虫的用户终端调取到对应的数据。
图2是本发明实施例提供的网页防爬虫方法的流程示意图。如图2所示,该方法包括以下步骤S110至S190。
S110、获取来自用户终端的访问请求。
在本实施例中,访问请求包括用户终端需要访问的页面信息,也可能包括代表用户终端身份的访问令牌,其中,用户终端需要访问的页面信息是一定要携带的,而代表用户终端身份的访问令牌则不一定存在访问请求中,在用户终端第一次发起对页面的访问请求时,该访问请求不携带访问令牌。
S120、判断所述访问请求是否携带访问令牌。
S130、若访问请求携带访问令牌,则判断所述访问令牌是否合格。
在本实施例中,首先判断访问请求中是否携带访问令牌,若有,则判断访问请求内的访问令牌是否合格的访问令牌,也就是判断访问请求内的访问令牌是否带有防爬虫引擎的服务器反馈给用户终端的加密后的访问令牌,只有访问请求内的访问令牌与带有防爬虫引擎的服务器反馈给用户终端的加密后的访问令牌解密后的结果一致,才表明访问请求携带访问令牌且携带的访问令牌符合要求;否则,则访问请求不携带访问令牌,或访问请求携带访问令牌但携带的访问令牌不符合要求。
若访问令牌不合格,则进入所述步骤S160。
S140、若访问令牌合格,将所述访问请求发送至后台服务器,以使得后台服务器反馈访问请求对应的数据。
在本实施例中,若访问请求携带访问令牌且携带的访问令牌符合要求,则带有防爬虫的服务器将访问请求发送至后台服务器,后台服务器对该访问请求进行分析处理,以得到响应该访问请求的数据,并将该数据通过带有防爬虫的服务器反馈至用户终端。
S150、将后台服务器反馈的数据发送至用户终端;
只有访问请求携带访问令牌且携带的访问令牌符合要求,该访问请求才会得到真正的后台服务器所反馈的数据,以在用户终端显示真正的页面内容。
S160、若访问请求不携带访问令牌,则将所述访问请求对应的替身页面反馈至用户终端。
在本实施例中,上述的替身页面是指访问请求对应的页面以及包含注入的混淆后的JavaScript所形成的页面。
在一实施例中,请参阅图3,上述的步骤S160可包括步骤S161~S163。
S161、对所述访问请求对应的页面进行混淆。
在本实施例中,具体是对当前访问请求所形成的页面加入JavaScript进行混淆。
S162、对混淆后的页面进行加密,以形成替身页面。
上述加入的JavaScript执行一些计算逻辑和加密,以形成替身页面。
S163、反馈所述替身页面至用户终端。
将替身页面反馈至用户终端后,并将用户终端会将替身页面放入储存在用户终端本地上的数据内,以便于再次发起验证请求。
当用户终端请求页面时,恶意伪造者或者访问令牌失效都会返回替身页面,防止被直接请求到数据。
S170、获取来自用户终端发起的验证请求。
在本实施例中,所述验证请求包括用户终端执行替身页面后所得到的结果。
如果用户终端为真实浏览器并且允许替身页面内的JavaScript执行计算逻辑和加密,则会将执行JavaScript,并再次发起进行防爬虫的验证请求,该验证请求携带JavaScript计算的结果。JavaScript注入便利性强。
S180、判断所述验证请求是否可验证成功。
该带防爬虫引擎的服务器收到验证请求,验证所述验证请求中携带的JavaScript计算结果,如果验证通过,则生成一个具有时效性的访问令牌,即一个加密后的访问令牌,将其响应给用户终端,并返回来自用户终端的响应码,让用户终端的浏览器重新跳转到访问请求。如果验证失败,则进入步骤S150,返回替身页面,带有防爬虫引擎的服务器向用户终端发放一个加密的访问令牌,以后的所有请求都需要携带该访问令牌标识已认证为非bot身份。
S190、若验证请求可验证成功,则发送一个加密后的访问令牌至用户终端,并返回步骤S110。
若验证请求不能验证成功,则返回所述步骤S160。
在用户终端第一次发出访问请求时,防爬虫引擎返回注入的JavaScript,JavaScript执行一些计算逻辑和加密,并将其放入储存在用户终端本地上的数据,再次发起请求验证,验证成功后,带有防爬虫引擎的服务器向用户终端发放一个加密的访问令牌,以后的所有请求都需要携带该访问令牌标识已认证为非bot身份,只要每次的访问请求内都携带有访问令牌,且该访问令牌是带有防爬虫引擎的服务器向用户终端发放一个加密的访问令牌进行解密后的结果,才能请求到后台服务器反馈对应的数据,以显示在用户终端的界面上。
上述所提及的加密均采用对称加密算法进行加密,具体地是DES(数据加密标准,Data Encryption Standard)、TripleDES、RC2、RC4、RC5和Blowfish中的一种对称加密算法。
上述的防爬虫过程可适用于批量注册网站、登陆网站、访问网站,没有任何交互式的用户操作,用户体验好,设置一个带防爬虫引擎的服务器专门进行防爬虫处理,不会对真实后台服务器产生负担,减轻了后台服务器压力。
上述的网页防爬虫方法,通过用户终端发起访问请求,对访问请求进行访问令牌的验证,当访问请求内没有携带访问令牌时,则通过加密JavaScrapt以反馈替身页面至用户终端,以使得用户终端发起验证请求,并反馈一个加密后的访问令牌至用户终端,在用户终端后续发起的访问请求后,通过访问令牌的验证,对访问令牌不合格的访问请求进行反馈替身页面,而非真实的页面数据,拦截来自网络爬虫的请求,实现自动识别网页爬虫,并拦截来自网页爬虫的请求,且不影响用户上网体验,无需借助IP,优化防爬虫效果。
图4是本发明实施例提供的一种网页防爬虫装置300的示意性框图。如图4所示,对应于以上网页防爬虫方法,本发明还提供一种网页防爬虫装置300。该网页防爬虫装置300包括用于执行上述网页防爬虫方法的单元,该装置可以被配置于服务器中。
具体地,请参阅图4,该网页防爬虫装置300包括:
访问请求获取单元301,用于获取来自用户终端的访问请求;
第一判断单元302,用于判断所述访问请求是否携带访问令牌;
替身页面反馈单元303,用于若所述访问请求不携带访问令牌,则将所述访问请求对应的替身页面反馈至用户终端;
验证请求获取单元304,用于获取来自用户终端发起的验证请求;
第二判断单元305,用于判断所述验证请求是否可验证成功;
令牌发送单元306,用于若验证请求可验证成功,则发送一个加密后的访问令牌至用户终端;并返回所述获取来自用户终端的访问请求。
在一实施例,上述的网页防爬虫装置300还包括:
令牌判断单元307,用于若所述访问请求携带访问令牌,则判断所述访问令牌是否合格;
请求发送单元308,用于若所述访问令牌合格,则将所述访问请求发送至后台服务器,以使得后台服务器反馈访问请求对应的数据;
数据发送单元309,用于将后台服务器反馈的数据发送至用户终端。
在一实施例中,如图5所示,所述替身页面反馈单元303包括:
混淆页面子单元3031,用于对所述访问请求对应的页面进行混淆;
加密子单元3032,用于对混淆后的页面进行加密,以形成替身页面;
页面发送子单元3033,用于反馈所述替身页面至用户终端。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述网页防爬虫装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述网页防爬虫装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是服务器。
参阅图6,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种网页防爬虫方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种网页防爬虫方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取来自用户终端的访问请求;
判断所述访问请求是否携带访问令牌;
若所述访问请求不携带访问令牌,则将所述访问请求对应的替身页面反馈至用户终端;
获取来自用户终端发起的验证请求;
判断所述验证请求是否可验证成功;
若验证请求可验证成功,则发送一个加密后的访问令牌至用户终端;
返回所述获取来自用户终端的访问请求。
其中,所述验证请求包括用户终端执行替身页面后所得到的结果。
在一实施例中,处理器502在实现所述判断所述访问请求是否携带访问令牌步骤之后,还实现如下步骤:
若所述访问请求携带访问令牌,则判断所述访问令牌是否合格;
若所述访问令牌合格,则将所述访问请求发送至后台服务器,以使得后台服务器反馈访问请求对应的数据;
将后台服务器反馈的数据发送至用户终端。
在一实施例中,处理器502在实现所述将所述访问请求对应的替身页面反馈至用户终端步骤时,具体实现如下步骤:
对所述访问请求对应的页面进行混淆;
对混淆后的页面进行加密,以形成替身页面;
反馈所述替身页面至用户终端。
在一实施例中,处理器502在实现所述判断所述若所述访问请求不携带访问令牌,则将所述访问请求对应的替身页面反馈至用户终端步骤之后,还实现如下步骤:
若否,则返回所述将所述访问请求对应的替身页面反馈至用户终端。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取来自用户终端的访问请求;
判断所述访问请求是否携带访问令牌;
若所述访问请求不携带访问令牌,则将所述访问请求对应的替身页面反馈至用户终端;
获取来自用户终端发起的验证请求;
判断所述验证请求是否可验证成功;
若验证请求可验证成功,则发送一个加密后的访问令牌至用户终端;
返回所述获取来自用户终端的访问请求。
其中,所述验证请求包括用户终端执行替身页面后所得到的结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述判断所述访问请求是否携带访问令牌步骤之后,还实现如下步骤:
若所述访问请求携带访问令牌,则判断所述访问令牌是否合格;
若所述访问令牌合格,则将所述访问请求发送至后台服务器,以使得后台服务器反馈访问请求对应的数据;
将后台服务器反馈的数据发送至用户终端。
在一实施例中,所述处理器在执行所述计算机程序而实现所述将所述访问请求对应的替身页面反馈至用户终端步骤时,具体实现如下步骤:
对所述访问请求对应的页面进行混淆;
对混淆后的页面进行加密,以形成替身页面;
反馈所述替身页面至用户终端。
在一实施例中,所述处理器在执行所述计算机程序而实现所述判断所述若所述访问请求不携带访问令牌,则将所述访问请求对应的替身页面反馈至用户终端步骤之后,还实现如下步骤:
若否,则返回所述将所述访问请求对应的替身页面反馈至用户终端。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.网页防爬虫方法,其特征在于,包括:
获取来自用户终端的访问请求;
判断所述访问请求是否携带访问令牌;
若所述访问请求不携带访问令牌,则将所述访问请求对应的替身页面反馈至用户终端;
获取来自用户终端发起的验证请求;
判断所述验证请求是否可验证成功;
若验证请求可验证成功,则发送一个加密后的访问令牌至用户终端;
返回所述获取来自用户终端的访问请求。
2.根据权利要求1所述的网页防爬虫方法,其特征在于,所述判断所述访问请求是否携带访问令牌之后,还包括:
若所述访问请求携带访问令牌,则判断所述访问令牌是否合格;
若所述访问令牌合格,则将所述访问请求发送至后台服务器,以使得后台服务器反馈访问请求对应的数据;
将后台服务器反馈的数据发送至用户终端。
3.根据权利要求1所述的网页防爬虫方法,其特征在于,所述将所述访问请求对应的替身页面反馈至用户终端,包括:
对所述访问请求对应的页面进行混淆;
对混淆后的页面进行加密,以形成替身页面;
反馈所述替身页面至用户终端。
4.根据权利要求1所述的网页防爬虫方法,其特征在于,所述验证请求包括用户终端执行替身页面后所得到的结果。
5.根据权利要求1所述的网页防爬虫方法,其特征在于,所述判断所述验证请求是否可验证成功之后,还包括:
若否,则返回所述将所述访问请求对应的替身页面反馈至用户终端。
6.网页防爬虫装置,其特征在于,包括:
访问请求获取单元,用于获取来自用户终端的访问请求;
第一判断单元,用于判断所述访问请求是否携带访问令牌;
替身页面反馈单元,用于若所述访问请求不携带访问令牌,则将所述访问请求对应的替身页面反馈至用户终端;
验证请求获取单元,用于获取来自用户终端发起的验证请求;
第二判断单元,用于判断所述验证请求是否可验证成功;
令牌发送单元,用于若验证请求可验证成功,则发送一个加密后的访问令牌至用户终端;并返回所述获取来自用户终端的访问请求。
7.根据权利要求6所述的网页防爬虫装置,其特征在于,还包括:
令牌判断单元,用于若所述访问请求携带访问令牌,则判断所述访问令牌是否合格;
请求发送单元,用于若所述访问令牌合格,则将所述访问请求发送至后台服务器,以使得后台服务器反馈访问请求对应的数据;
数据发送单元,用于将后台服务器反馈的数据发送至用户终端。
8.根据权利要求7所述的网页防爬虫装置,其特征在于,所述替身页面反馈单元包括:
混淆页面子单元,用于对所述访问请求对应的页面进行混淆;
加密子单元,用于对混淆后的页面进行加密,以形成替身页面;
页面发送子单元,用于反馈所述替身页面至用户终端。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911172195.7A CN110933065A (zh) | 2019-11-26 | 2019-11-26 | 网页防爬虫方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911172195.7A CN110933065A (zh) | 2019-11-26 | 2019-11-26 | 网页防爬虫方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110933065A true CN110933065A (zh) | 2020-03-27 |
Family
ID=69851861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911172195.7A Pending CN110933065A (zh) | 2019-11-26 | 2019-11-26 | 网页防爬虫方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110933065A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488546A (zh) * | 2020-04-13 | 2020-08-04 | 北京小米移动软件有限公司 | 一种页面生成方法、装置及存储介质 |
CN111597424A (zh) * | 2020-07-21 | 2020-08-28 | 平安国际智慧城市科技股份有限公司 | 爬虫识别方法、装置、计算机设备和存储介质 |
CN113626675A (zh) * | 2021-08-10 | 2021-11-09 | 北京天融信网络安全技术有限公司 | 一种数据处理方法、系统及计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150195268A1 (en) * | 2014-01-07 | 2015-07-09 | Alibaba Group Holding Limited | Method and system for determining whether a terminal logging into a website is a mobile terminal |
CN108769041A (zh) * | 2018-06-06 | 2018-11-06 | 深圳壹账通智能科技有限公司 | 登录方法、系统、计算机设备和存储介质 |
CN109492146A (zh) * | 2018-11-09 | 2019-03-19 | 杭州安恒信息技术股份有限公司 | 一种防web爬虫的方法和装置 |
-
2019
- 2019-11-26 CN CN201911172195.7A patent/CN110933065A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150195268A1 (en) * | 2014-01-07 | 2015-07-09 | Alibaba Group Holding Limited | Method and system for determining whether a terminal logging into a website is a mobile terminal |
CN108769041A (zh) * | 2018-06-06 | 2018-11-06 | 深圳壹账通智能科技有限公司 | 登录方法、系统、计算机设备和存储介质 |
CN109492146A (zh) * | 2018-11-09 | 2019-03-19 | 杭州安恒信息技术股份有限公司 | 一种防web爬虫的方法和装置 |
Non-Patent Citations (1)
Title |
---|
吾乃攻城猫喵大人: "基于JS-Injection的反爬虫分析、绕过和加固建议", 《网址:HTTPS://BBS.HUAWEICLOUD.COM/BLOGS/116496》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488546A (zh) * | 2020-04-13 | 2020-08-04 | 北京小米移动软件有限公司 | 一种页面生成方法、装置及存储介质 |
CN111488546B (zh) * | 2020-04-13 | 2023-09-26 | 北京小米移动软件有限公司 | 一种页面生成方法、装置及存储介质 |
CN111597424A (zh) * | 2020-07-21 | 2020-08-28 | 平安国际智慧城市科技股份有限公司 | 爬虫识别方法、装置、计算机设备和存储介质 |
CN113626675A (zh) * | 2021-08-10 | 2021-11-09 | 北京天融信网络安全技术有限公司 | 一种数据处理方法、系统及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10164993B2 (en) | Distributed split browser content inspection and analysis | |
EP3219068B1 (en) | Method of identifying and counteracting internet attacks | |
Zeller et al. | Cross-site request forgeries: Exploitation and prevention | |
KR101669694B1 (ko) | 네트워크 자원들에 대한 건강 기반 액세스 | |
US10230725B2 (en) | Edge protection for internal identity providers | |
CN107077410B (zh) | 分析客户端应用行为以检测异常并且阻止访问 | |
US10904227B2 (en) | Web form protection | |
US11233802B1 (en) | Cookie and behavior-based authentication | |
CN110933065A (zh) | 网页防爬虫方法、装置、计算机设备及存储介质 | |
US20150007283A1 (en) | Delegating authentication for a web service | |
AU2016318602B2 (en) | Secured user credential management | |
US11770385B2 (en) | Systems and methods for malicious client detection through property analysis | |
WO2015070341A1 (en) | System and method for credentialed access to a remote server | |
US10476733B2 (en) | Single sign-on system and single sign-on method | |
CN106998335B (zh) | 一种漏洞检测方法、网关设备、浏览器及系统 | |
CN112887284B (zh) | 一种访问认证方法、装置、电子设备和可读介质 | |
US20180302437A1 (en) | Methods of identifying and counteracting internet attacks | |
US20210006592A1 (en) | Phishing Detection based on Interaction with End User | |
RU2638779C1 (ru) | Способ и сервер для вьполнения авторизации приложения на электронном устройстве | |
CN113472735B (zh) | 一种大数据服务单点登录方法、装置及存储介质 | |
CN110677423A (zh) | 基于客户代理端的数据采集方法、装置、及计算机设备 | |
US10313349B2 (en) | Service request modification | |
Sengupta et al. | An Analysis of Security Features on Web Browsers | |
CN115189924A (zh) | 一种OAuth2.0开放式重定向漏洞的检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200327 |