CN108429785A - 一种爬虫识别加密串的生成方法、爬虫识别方法及装置 - Google Patents

一种爬虫识别加密串的生成方法、爬虫识别方法及装置 Download PDF

Info

Publication number
CN108429785A
CN108429785A CN201810044136.0A CN201810044136A CN108429785A CN 108429785 A CN108429785 A CN 108429785A CN 201810044136 A CN201810044136 A CN 201810044136A CN 108429785 A CN108429785 A CN 108429785A
Authority
CN
China
Prior art keywords
access request
reptile
encryption string
user terminal
encryption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810044136.0A
Other languages
English (en)
Inventor
王新林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Intellect Cloud Picture Polytron Technologies Inc
Original Assignee
Guangdong Intellect Cloud Picture Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Intellect Cloud Picture Polytron Technologies Inc filed Critical Guangdong Intellect Cloud Picture Polytron Technologies Inc
Priority to CN201810044136.0A priority Critical patent/CN108429785A/zh
Publication of CN108429785A publication Critical patent/CN108429785A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0478Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload applying multiple layers of encryption, e.g. nested tunnels or encrypting the content with a first key and then with at least a second key
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/34Network arrangements or protocols for supporting network services or applications involving the movement of software or configuration parameters 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • H04L67/5683Storage of data provided by user terminals, i.e. reverse caching

Abstract

本发明公开了一种爬虫识别加密串的生成方法,应用于服务器,包括以下步骤:接收步骤:当访问请求为第一次时,接收服务器端返回的加密串并将加密串存储用户端的缓存中;发送步骤:当访问请求为非第一次时,读取用户端的缓存中的加密串并发送给服务器端。本发明还提供了一种网页爬虫识别方法和计算机可读存储介质。本发明能够解决现有技术中对于爬虫识别的误判问题。

Description

一种爬虫识别加密串的生成方法、爬虫识别方法及装置
技术领域
本发明涉及防爬虫系统,尤其涉及一种爬虫识别加密串的生成方法、爬虫识别方法及存储介质。
背景技术
目前,在Web系统(包括所有的网站和API接口)中,在服务资源有限的情况下,当存在大量的网络爬虫是会消耗到大量的服务器资源,则会影响正常用户的访问。而现有的防爬虫系统基本都是通过Web请求中的用户代理(user-agent,其指浏览器或搜索引擎等)判断是否是爬虫,当认为是爬虫时,将爬虫的访问请求丢弃。但是这种方式存在以下缺点:1)用户代理可以设置为模拟的,因此仅仅通过用户代理对爬虫进行识别判断时,容易存在误判的情况,比如将正常用户也判断为爬虫或者将机器爬虫认为是正常用户等;2)对搜索引擎的机器爬虫采用丢弃的方式会造成搜索引擎无法收录网站内容,影响网站的推广。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种爬虫识别加密串的生成方法,其能够解决现有技术中对于爬虫的误判问题。
本发明的目的之二在于提供一种计算机可读存储介质,其能够解决现有技术中对于爬虫的误判问题。
本发明的目的之三在于提供一种爬虫识别方法,其能够解决现有技术中对于爬虫的误判问题。
本发明的目的之四在于提供一种计算机可读存储介质,其能够解决现有技术中对于爬虫的误判问题。
本发明的目的之一采用如下技术方案实现:
一种爬虫识别加密串的生成方法,应用于用户端,包括以下步骤:
接收步骤:当访问请求为第一次时,接收服务器端返回的加密串并将加密串存储用户端的缓存中;
发送步骤:当访问请求为非第一次时,读取用户端的缓存中的加密串并发送给服务器端。
进一步地,所述接收步骤还包括:接收服务器端返回的js代码,并获取用户端的当前时间,然后通过js代码将用户端的当前时间与加密串进行二次加密并将其存储于用户端的缓存中。
本发明的目的之二采用如下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明目的之一所采用的爬虫识别加密串的生成方法的步骤。
本发明的目的之三采用如下技术方案实现:
一种爬虫识别方法,应用于服务器端,包括以下步骤:
发送加密串步骤:当访问请求为第一次时,生成加密串并将加密串返回给用户端;
解密步骤:当访问请求非第一次时,接收用户端发送的加密串;
第一判断步骤:根据加密串是否为服务器生成判断访问请求是否正常用户的访问请求。
进一步地,还包括:第二判断步骤:当访问请求不是正常用户的访问请求时,根据用户代理判断访问请求是否为机器爬虫的访问请求、或根据相同IP单位时间内用户发送的访问请求是否超过预设阈值判断访问请求为机器爬虫的访问请求。
进一步地,还包括第三判断步骤:当该访问请求既不是机器爬虫的访问请求,也不是正常用户的访问请求时,则该访问请求为疑似爬虫的访问请求。
进一步地,当访问请求为正常用户的访问请求时,将访问请求发送给用户服务器;当访问请求为机器爬虫的访问请求时,将访问请求发送给爬虫服务器;当访问请求为疑似爬虫的访问请求时,将访问请求发送给疑似爬虫服务器。
进一步地,发送加密串步骤还包括:生成js代码并返回给用户端,进而通过js代码获取用户端的当前时间,并通过js代码将用户端的当前时间与加密串进行二次加密并存储用户端的缓存中。
进一步地,所述第一判断步骤还包括:判断加密串是否过期,若是,则生成加密串并将加密串返回给客户端进行判断。
本发明的目的之四采用如下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明目的之三所采用的爬虫识别方法的步骤。
相比现有技术,本发明的有益效果在于:
本发明通过用户第一次访问时在用户端的缓存中存储由服务器生成的加密串,然后在用户下次访问时通过对用户端内所存储的加密串进行解密,并根据加密串的解密结果以及结合现有机器爬的判断来识别得出访问请求的类型,进而根据不同的访问类型分别调用不同的服务器供其访问,解决了现有技术中仅仅通过用户代理来识别爬虫的缺陷问题,以及对机器爬虫的丢弃处理导致搜索引擎不能够收录网站内容的问题。
附图说明
图1为本发明提供的爬虫识别中用户端与服务器端的数据通信流程;
图2为本发明提供的爬虫识别方法的流程图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
本发明通过对识别爬虫(爬虫为一种自动获取网页内容的程序,是搜索引擎的重要组成部分)的方法进行优化,不仅仅单纯地通过用户代理来判断,而是将用户代理(useregent)、用户端的缓存(cookie)等结合来实现对访问请求的爬虫判断,并对判断结果进行分类,然后根据不同的访问类型进行对应的访问资源分配处理,从而确保正常用户的访问。
如图1所示,本发明中的爬虫识别包括判断和处理两个部分。
首先判断访问请求的类型。本方案中将访问请求的类型划分为以下三种:正常用户的访问请求、爬虫的访问请求和疑似爬虫的访问请求,对应地用户可分为正常用户、爬虫以及疑似爬虫。其中爬虫一般指的是常说的机器爬虫。
当判断得出访问请求的类型后,然后根据不同的访问请求的类型调用对应的服务器资源供其访问,既保证了正常用户的访问,又可以为机器爬虫的访问请求提供对应的服务器进行资源访问,而不是像现有技术中采用丢弃的方式,造成搜索引擎无法收录网站的内容。
在判断访问请求的类型时,本发明是通过由服务器生成的加密串以及现有爬虫识别的技术相结合来对访问请求的类型进行判断的。
其中,加密串是当服务器端接收到用户端发送的第一访问请求时生成的,服务器端还将加密串返回给用户端,进而存储用户端的缓存中。当用户端缓存中不存在对应的加密串时,则可认为该访问请求为第一次访问请求。
另外,在服务器端返回加密串的同时,还会向用户端返回一段JS代码。该JS代码用于将服务器端返回的加密串与用户端的当前时间进行二次加密并存储用户端的缓存中。这里的当前时间指的是接收加密串时,通过js获取用户端的当前时间,然后在二次加密时将当前时间作为参数加入到加密串中。这样,就可以用于判断加密串是否过期。比如在解密时,通过解密获取二次加密时的用户端的当前时间,然后将二次加密时用户端的当前时间与解密时的当前时间进行对比,进而可根据对比结果来判断加密串是否过期。当加密串过期时,则认为该访问请求为新的用户进行访问,则通过服务器重新生成对应的加密串并返回给用户端进行存储即可。
当访问请求不是第一次时,通过读取用户端的缓存中的加密串并将其发送给服务器端,然后服务器端根据该加密串来判断访问请求是否为正常用户的访问请求。
也即是,一种爬虫识别加密串的生成方法,其应用于用户端,包括以下步骤:
A:当访问请求为第一次时,接收服务器端返回的加密串并将加密串存储用户端的缓存中。另外,在判断访问请求是否为第一次时,是根据用户端的缓存中是否存在加密串来判断的,若没有加密串,则会接收服务器端返回的加密串,并对加密串进行存储。
B:当访问请求为非第一次时,读取用户端的缓存中的加密串并发送给服务器端。
进一步地,步骤A还包括:接收服务器端返回的js代码,并获取用户端的当前时间,然后通过js代码将用户端的当前时间与加密串进行二次加密并将其存储于用户端的缓存中。
同样的,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如文中所述的爬虫识别加密串的生成方法的步骤。
而对于爬虫的识别时,用户端发送到服务器端的访问请求时,首先会读取用户端的缓存中的加密串,然后将加密串随同访问请求发送给服务器端,这样服务器端就能够对接收到该加密串进行解密,然后判断解密的结果是否为服务器生成,若是,则认为该访问请求为正常用户的访问请求。
另外,由于服务器端返回到用户端时,还需要对服务器端返回的加密串通过js代码对加密串采用二次加密,二次加密时加入了用户端的当前时间。因此,在解密时,首先获取该解密时服务器端的当前时间,然后根据解密时的当前时间以及二次加密时加入的用户端的当前时间来判断加密串是否过期。当加密串过期时,则认为该访问请求为新的用户的访问请求,则按照访问请求为第一次时,生成对应的加密串并返回给用户端进行处理、存储等操作。。在判断加密串是否过期时,可通过将解密时的当前时间减去加密串中的时间是否超过指定时长来判断加密串是否过期。这里加密串中的时间为二次加密时加入的用户端的当前时间。
当访问请求不是正常用户的访问请求时,需要对该访问请求进一步进行判断:通过用户代理来判断该访问请求是否为机器爬虫的访问请求,或根据相同IP单位时间内访问次数是否超过预设值来判断访问请求是否为机器爬虫的访问请求。其中用户代理判断访问请求是否为机器爬虫的访问请求时,根据判断请求中是否会带有user-agent值,如果这个值的字符串里含有Baiduspider、Googlebot等指定的串,表示是爬虫。
服务器端每次接收到用户的访问请求时,利用memcache存储用户的访问次数,当相同的IP单位时间内访问次数超过一定阈值时,认为该访问请求为机器爬虫。比如一个访问请求在5秒内的访问次数为100次,则认为该访问请求为机器爬虫。
若访问请求既不是正常用户的访问请求,又不是机器爬虫的访问请求时,将访问请求划分为疑似爬虫的访问请求。
另外,本申请中的机器爬虫一般指的是Google、百度等几大搜索引擎的机器爬虫。对于机器爬虫的判断是现有技术,不是本发明中的发明点。根据上述判断方法可以得出访问请求的类型,然后根据访问请求的类型不同来调用对应的服务器供对应的访问请求进行资源访问。也即是,将正常用户的访问请求发送给用户服务器,将机器爬虫的访问请求发送给爬虫服务器,将疑似爬虫的访问请求发送给疑似爬虫服务器。
比如通过nginx+LUA(其中LUA语言可实现判断三种不同类型的访问,nginx可控制访问不同的服务器)控制分别调用不同的服务器上的资源供其访问,既保证了正常用户的访问,也能够保证机器爬虫的访问,进而解决了现有技术中对于机器爬虫或疑似爬虫的访问请求采用直接丢弃的方式导致搜索引擎无法收录网站内容的问题,便于网站的推广。
另外,对于服务器生成加密串生成是通过服务器端的随机生成一个原始串,然后根据密钥生成一令牌,再通过使用该token对原始串进行可逆的方式加密进而生成加密串。
如图2所述,一种爬虫识别方法,其应用于服务器端,包括以下步骤:
S1:访问请求为第一次时,生成加密串并将加密串返回给用户端。
当服务器端收到访问请求并且访问请求为第一次时,生成加密串并将加密串返回给用户端;同时还会返回一段js代码。该js代码将用户端的当前时间与加密串进行二次加密串,并将二次加密后的数据结果存储于用户端的缓存中。
当用户端再次向服务器端发送访问请求时,首先读取该用户端的缓存中的数据并随访问请求发送到服务器端。
S2:当访问请求非第一次时,接收用户端发送的加密串并对其进行解密。
S3:根据加密串是否为服务器生成来判断访问请求是否正常用户的访问请求,若是,则将访问请求发送给用户服务器;若否,则执行S4。
由于加密串是由服务器生成的,因此解密后的加密串与服务器生成的加密串相同时,则认为访问请求为正常用户的访问请求。
进一步地,在判断访问请求是否为正常用户的访问请求时,还要根据加密串是否过期来判断。由于用户在第一次访问时存储加密串时,将用户端的当前时间与加密串进行了二次加密,因此可通过对二次加密串进行解密时的时间与加密时的当前时间来判断加密串是否过期。
S4:根据用户代理判断访问请求是否为机器爬虫的访问请求、或根据相同IP单位时间内用户发送的访问请求是否超过预设阈值来判断访问请求为机器爬虫的访问请求,若是,则将访问请求发送给爬虫服务器;若否,则执行S5。
S5:该访问请求为疑似爬虫的访问请求,将访问请求发送给疑似爬虫服务区。
本发明还提供了一种电子设备,其包括存储器、处理器以及存储在存储器上并可在处理上运行的计算机程序,所述处理器执行所述程序时实现如文中所述的爬虫识别方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如文中所述的爬虫识别方法的步骤。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (10)

1.一种爬虫识别加密串的生成方法,应用于用户端,其特征在于包括以下步骤:
接收步骤:当访问请求为第一次时,接收服务器端返回的加密串并将加密串存储用户端的缓存中;
发送步骤:当访问请求为非第一次时,读取用户端的缓存中的加密串并发送给服务器端。
2.如权利要求1所述爬虫识别加密串的生成方法,其特征在于:所述接收步骤还包括:接收服务器端返回的js代码,并获取用户端的当前时间,然后通过js代码将用户端的当前时间与加密串进行二次加密并将其存储于用户端的缓存中。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-2中任一项所述的爬虫识别加密串的生成方法的步骤。
4.一种爬虫识别方法,应用于服务器端,其特征在于包括以下步骤:
发送加密串步骤:当访问请求为第一次时,生成加密串并将加密串返回给用户端;
解密步骤:当访问请求非第一次时,接收用户端发送的加密串;
第一判断步骤:根据加密串是否为服务器生成判断访问请求是否正常用户的访问请求。
5.如权利要求4所述的方法,其特征在于:还包括:第二判断步骤:当访问请求不是正常用户的访问请求时,根据用户代理判断访问请求是否为机器爬虫的访问请求、或根据相同IP单位时间内用户发送的访问请求是否超过预设阈值判断访问请求为机器爬虫的访问请求。
6.如权利要求5所述的方法,其特征在于:还包括第三判断步骤:当该访问请求既不是机器爬虫的访问请求,也不是正常用户的访问请求时,则该访问请求为疑似爬虫的访问请求。
7.如权利要求6所述的方法,其特征在于:当访问请求为正常用户的访问请求时,将访问请求发送给用户服务器;当访问请求为机器爬虫的访问请求时,将访问请求发送给爬虫服务器;当访问请求为疑似爬虫的访问请求时,将访问请求发送给疑似爬虫服务器。
8.如权利要求4所述的方法,其特征在于:发送加密串步骤还包括:生成js代码并返回给用户端,进而通过js代码获取用户端的当前时间,并通过js代码将用户端的当前时间与加密串进行二次加密并存储用户端的缓存中。
9.如权利要求8所述的方法,其特征在于:所述第一判断步骤还包括:判断加密串是否过期,若是,则生成加密串并将加密串返回给客户端。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求4-9中任一项所述的爬虫识别方法的步骤。
CN201810044136.0A 2018-01-17 2018-01-17 一种爬虫识别加密串的生成方法、爬虫识别方法及装置 Pending CN108429785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810044136.0A CN108429785A (zh) 2018-01-17 2018-01-17 一种爬虫识别加密串的生成方法、爬虫识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810044136.0A CN108429785A (zh) 2018-01-17 2018-01-17 一种爬虫识别加密串的生成方法、爬虫识别方法及装置

Publications (1)

Publication Number Publication Date
CN108429785A true CN108429785A (zh) 2018-08-21

Family

ID=63155983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810044136.0A Pending CN108429785A (zh) 2018-01-17 2018-01-17 一种爬虫识别加密串的生成方法、爬虫识别方法及装置

Country Status (1)

Country Link
CN (1) CN108429785A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110474890A (zh) * 2019-07-29 2019-11-19 深圳数位传媒科技有限公司 一种基于智能流量导向切换的数据反爬取方法及装置
CN110519280A (zh) * 2019-08-30 2019-11-29 北京思维造物信息科技股份有限公司 一种爬虫识别方法、装置、计算机设备及存储介质
WO2020056857A1 (zh) * 2018-09-19 2020-03-26 网宿科技股份有限公司 一种异常访问行为的识别方法及服务器
CN111049794A (zh) * 2019-10-14 2020-04-21 中国平安财产保险股份有限公司 一种页面反爬的方法、装置、存储介质和网关设备
CN114640538A (zh) * 2022-04-01 2022-06-17 北京明略昭辉科技有限公司 一种爬虫程序的检测方法、装置、可读介质及电子设备
CN115102712A (zh) * 2022-05-17 2022-09-23 刘勇 一种增强的终端标识的方法、装置、电子设备及储存介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103475637A (zh) * 2013-04-24 2013-12-25 携程计算机技术(上海)有限公司 基于ip访问行为的网络访问控制方法及系统
CN103888490A (zh) * 2012-12-20 2014-06-25 上海天泰网络技术有限公司 一种全自动的web客户端人机识别的方法
US20140325596A1 (en) * 2013-04-29 2014-10-30 Arbor Networks, Inc. Authentication of ip source addresses
CN105577701A (zh) * 2016-03-09 2016-05-11 携程计算机技术(上海)有限公司 网络爬虫的识别方法及系统
CN105871850A (zh) * 2016-04-05 2016-08-17 携程计算机技术(上海)有限公司 爬虫检测方法和系统
CN107092660A (zh) * 2017-03-28 2017-08-25 成都优易数据有限公司 一种网站服务器爬虫识别方法和装置
CN107483563A (zh) * 2017-07-31 2017-12-15 九次方大数据信息集团有限公司 防爬虫的数据查询方法和装置以及客户端和服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103888490A (zh) * 2012-12-20 2014-06-25 上海天泰网络技术有限公司 一种全自动的web客户端人机识别的方法
CN103475637A (zh) * 2013-04-24 2013-12-25 携程计算机技术(上海)有限公司 基于ip访问行为的网络访问控制方法及系统
US20140325596A1 (en) * 2013-04-29 2014-10-30 Arbor Networks, Inc. Authentication of ip source addresses
CN105577701A (zh) * 2016-03-09 2016-05-11 携程计算机技术(上海)有限公司 网络爬虫的识别方法及系统
CN105871850A (zh) * 2016-04-05 2016-08-17 携程计算机技术(上海)有限公司 爬虫检测方法和系统
CN107092660A (zh) * 2017-03-28 2017-08-25 成都优易数据有限公司 一种网站服务器爬虫识别方法和装置
CN107483563A (zh) * 2017-07-31 2017-12-15 九次方大数据信息集团有限公司 防爬虫的数据查询方法和装置以及客户端和服务器

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020056857A1 (zh) * 2018-09-19 2020-03-26 网宿科技股份有限公司 一种异常访问行为的识别方法及服务器
CN110474890A (zh) * 2019-07-29 2019-11-19 深圳数位传媒科技有限公司 一种基于智能流量导向切换的数据反爬取方法及装置
CN110474890B (zh) * 2019-07-29 2022-05-10 深圳数位大数据科技有限公司 一种基于智能流量导向切换的数据反爬取方法及装置
CN110519280A (zh) * 2019-08-30 2019-11-29 北京思维造物信息科技股份有限公司 一种爬虫识别方法、装置、计算机设备及存储介质
CN110519280B (zh) * 2019-08-30 2022-01-04 北京思维造物信息科技股份有限公司 一种爬虫识别方法、装置、计算机设备及存储介质
CN111049794A (zh) * 2019-10-14 2020-04-21 中国平安财产保险股份有限公司 一种页面反爬的方法、装置、存储介质和网关设备
CN114640538A (zh) * 2022-04-01 2022-06-17 北京明略昭辉科技有限公司 一种爬虫程序的检测方法、装置、可读介质及电子设备
CN115102712A (zh) * 2022-05-17 2022-09-23 刘勇 一种增强的终端标识的方法、装置、电子设备及储存介质
CN115102712B (zh) * 2022-05-17 2024-04-16 刘勇 一种增强的终端标识的方法、装置、电子设备及储存介质

Similar Documents

Publication Publication Date Title
CN108429785A (zh) 一种爬虫识别加密串的生成方法、爬虫识别方法及装置
CN103607385B (zh) 基于浏览器进行安全检测的方法和装置
CN107341160B (zh) 一种拦截爬虫的方法及装置
CN112260990B (zh) 一种安全访问内网应用的方法和装置
US9147067B2 (en) Security method and apparatus
CN109194671B (zh) 一种异常访问行为的识别方法及服务器
TW201824047A (zh) 攻擊請求的確定方法、裝置及伺服器
KR20050030542A (ko) 클라이언트 기반 웹 크롤링 시스템 및 방법
US9021085B1 (en) Method and system for web filtering
CN113452780B (zh) 针对客户端的访问请求处理方法、装置、设备及介质
CN102664872B (zh) 用于检测和防止对计算机网络中服务器攻击的方法
CN109376133A (zh) 文件访问方法及文件访问系统
CN102752300A (zh) 动态防盗链系统和动态防盗链方法
US11816249B2 (en) System and method for dynamic management of private data
CN106649301A (zh) 数据查询的方法、装置及系统
CN109660552A (zh) 一种将地址跳变和WAF技术相结合的Web防御方法
CN112364274A (zh) Web站点访问加速方法及装置
CN116324766A (zh) 通过浏览简档优化抓取请求
CN106446640B (zh) 用户识别的方法及服务器
CN106411819A (zh) 一种识别代理互联网协议地址的方法及装置
US11075922B2 (en) Decentralized method of tracking user login status
CN108055299A (zh) Portal页面推送方法、网络接入服务器及Portal认证系统
CN113839940A (zh) 基于url模式树的防御方法、装置、电子设备和可读存储介质
CN112637171A (zh) 数据流量处理方法、装置、设备、系统和存储介质
CN112637316B (zh) 一种通信方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180821

RJ01 Rejection of invention patent application after publication