CN111049794A - 一种页面反爬的方法、装置、存储介质和网关设备 - Google Patents

一种页面反爬的方法、装置、存储介质和网关设备 Download PDF

Info

Publication number
CN111049794A
CN111049794A CN201910973440.8A CN201910973440A CN111049794A CN 111049794 A CN111049794 A CN 111049794A CN 201910973440 A CN201910973440 A CN 201910973440A CN 111049794 A CN111049794 A CN 111049794A
Authority
CN
China
Prior art keywords
request
request time
hash value
http request
http
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910973440.8A
Other languages
English (en)
Inventor
唐炳武
吕佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN201910973440.8A priority Critical patent/CN111049794A/zh
Publication of CN111049794A publication Critical patent/CN111049794A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0435Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply symmetric encryption, i.e. same key used for encryption and decryption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/06Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
    • H04L9/0643Hash functions, e.g. MD5, SHA, HMAC or f9 MAC

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Power Engineering (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供了一种页面反爬的方法、装置、存储介质和网关设备。本发明实施例中,通过对称密钥对http请求的特定字段中的加密信息进行解密,若解密成功,则生成请求时间字段和第一请求时间哈希值,对所述请求时间字段哈希计算,生成第二请求时间哈希值,通过判断所述第一请求时间哈希值和所述第二请求时间哈希值是否相同,若判断出哈希值不相同,则丢弃所述http请求,从而能够精准识别爬虫,保证了保护网页的安全,提高反爬效率。

Description

一种页面反爬的方法、装置、存储介质和网关设备
【技术领域】
本发明涉及通信技术领域,尤其涉及一种页面反爬的方法、装置、存储介质和网关设备。
【背景技术】
目前网络中存在不计其数的网络爬虫,网络爬虫是一种用来自动浏览万维网的网络机器人,它可以将所访问的页面保存下来。不法分子利用爬虫获取大量的网站内容进行倒卖,这对网民的隐私数据的安全造成了极大的威胁。
互联网页面爬与反爬是信息安全领域长期的战斗,马蜂窝事件再次说明爬同业数据现象相当普遍。而在现有的反爬技术中,通常采用访问控制、权限控制、流程控制、智能监测和阻断、前端字符渲染等多种方式进行反爬工作,但仍然存在识别爬虫不精准,反爬效率低的问题。
【发明内容】
有鉴于此,本发明实施例提供了一种页面反爬方法、装置、存储介质和网关设备,用以解决现有技术中的识别爬虫不精准,反爬效率低的问题。
一方面,本发明实施例提供了一种页面反爬的方法,所述方法包括:
接收客户端发送的http请求;
通过对称密钥对http请求的特定字段中的加密信息进行解密,若解密成功,则生成请求时间字段和第一请求时间哈希值;
对所述请求时间字段哈希计算,生成第二请求时间哈希值;
判断所述第一请求时间哈希值和所述第二请求时间哈希值是否相同,若判断出所述第一请求时间哈希值和所述第二请求时间哈希值不相同,则丢弃所述http请求。
可选地,若判断出所述第一请求时间哈希值和所述第二请求时间哈希值相同,则将所述http请求转发给服务器。
可选地,所述方法还包括:若解密失败,则丢弃所述http请求。
可选地,所述通过对称密钥对http请求的特定字段中的加密信息进行解密之前还包括:
查询所述http请求中是否包括特定字段;
若查询出所述http请求中包括特定字段,则继续执行所述通过对称密钥对http请求的特定字段中的加密信息进行解密的步骤;
若查询出所述http请求中不包括特定字段,则丢弃所述http请求。可选地,所述请求时间字段包括请求时间字段标识和请求时间;所述若判断出所述第一请求时间哈希值和所述第二请求时间哈希值相同之后,还包括:
获取当前系统时间;
判断所述当前系统时间和所述请求时间的差值是否大于第一阈值;
若判断出所述当前系统时间和所述请求时间的差值大于第一阈值,则丢弃所述http请求。
可选地,所述方法还包括:若判断出所述当前系统时间和所述请求时间的差值小于或者等于第一阈值,则继续执行所述将所述http请求转发给服务器的步骤。
可选地,所述丢弃所述http请求之后,还包括:
生成丢弃的http请求的非法请求日志;
从所述非法请求日志中识别出丢弃的http请求对应的用户信息;
根据所述用户信息对携带所述用户信息的http请求进行拦截。
另一方面,本发明实施例提供了一种页面反爬装置,所述装置包括:
接收模块,用于接收客户端发送的http请求;
解密模块,用于通过对称密钥对http请求的特定字段中的加密信息进行解密。
第一生成模块,用于若解密模块解密成功,则生成请求时间字段和第一请求时间哈希值;
计算模块,用于对所述请求时间字段哈希计算,生成第二请求时间哈希值;
判断模块,用于判断所述第一请求时间哈希值和所述第二请求时间哈希值是否相同。
丢弃模块,用于若判断模块判断出所述第一请求时间哈希值和所述第二请求时间哈希值不相同,则丢弃所述http请求。
另一方面,本发明实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述页面反爬方法。
另一方面,本发明实施例提供了一种网关设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行时上述页面反爬方法的步骤。
本发明实施例提供的技术方案中,通过对称密钥对http请求的特定字段中的加密信息进行解密,若解密成功,则生成请求时间字段和第一请求时间哈希值,对所述请求时间字段哈希计算,生成第二请求时间哈希值,通过判断所述第一请求时间哈希值和所述第二请求时间哈希值是否相同,若判断出哈希值不相同,则丢弃所述http请求,从而能够精准识别爬虫,保证了保护网页的安全,提高反爬效率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一实施例提供的一种页面反爬方法的流程图;
图2为本发明又一实施例提供的一种页面反爬方法的流程图;
图3为本发明一实施例提供的一种页面反爬装置的结构示意图;
图4为本发明实施例提供的一种网关设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,甲和/或乙,可以表示:单独存在甲,同时存在甲和乙,单独存在乙这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的一种页面反爬方法的流程图,如图1所示,该方法包括:
步骤101、接收客户端发送的http请求。
步骤102、通过对称密钥对http请求的特定字段中的加密信息进行解密,若解密成功,生成请求时间字段和第一请求时间哈希值。
步骤103、对请求时间字段哈希计算,生成第二请求时间哈希值。
步骤104、判断第一请求时间哈希值和第二请求时间哈希值是否相同,若判断出第一请求时间哈希值和第二请求时间哈希值不相同,则丢弃http请求。
本发明实施例提供的技术方案中,通过对称密钥对http请求的特定字段中的加密信息进行解密,若解密成功,则生成请求时间字段和第一请求时间哈希值,对请求时间字段哈希计算,生成第二请求时间哈希值,通过判断第一请求时间哈希值和第二请求时间哈希值是否相同,若判断出哈希值不相同,则丢弃http请求,从而能够精准识别爬虫,保证了保护网页的安全,提高反爬效率。
图2为本发明又一实施例提供的一种页面反爬方法的流程图,如图2所示,该方法包括:
步骤201、接收客户端发送的http请求。
本实施例的页面反爬方法可应用于网关设备,各步骤可由网关设备执行。例如:网关设备可以为Nginx网关。
步骤202、查询http请求中是否包括特定字段,若是,执行步骤203;若否,执行步骤210。
本发明实施例中,特定字段为http请求中的扩展字段,该特定字段可以为SING字段。特定字段包括加密信息。本发明实施例中,当客户端需要发送http请求时,记录发送http请求的请求时间,对请求时间进行哈希计算生成第一请求时间哈希值,通过对称密钥对请求时间字段和第一请求时间进行加密得出加密信息,将加密信息添加至http请求的特定字段中,并将http请求发送至网关设备。其中,请求时间字段包括请求时间字段标识和请求时间,请求时间字段标识可以为Time字段,第一请求时间哈希值为数字签名字符串。由于爬虫程序是非法请求,而非法请求中不包括加密信息,因此非法请求中不存在正确的特定字段。因此利用对特定字段解密是否成功来识别客户端请求为正常合法请求或者是爬虫非法请求。具体地,若查询出http请求中包括有特定字段,则继续执行步骤203,进一步判断该http请求是否为非法请求;若查询出http请求中不包括有特定字段,则表明该http请求为非法请求。本发明实施例通过采用上述技术方案,能够迅速执行程序找到爬虫,并且隐蔽性好,难于破解,提高了反爬效率。
步骤203、通过对称密钥对http请求的特定字段中的加密信息进行解密,若解密成功,执行步骤204;若解密失败,执行步骤210。
本发明实施例中,网关设备在接收到http请求之后,首先通过对称密钥对特定字段中的加密信息进行解密,若解密成功,则可得出请求时间字段和第一请求时间哈希值,继续执行步骤204,进一步判断该http请求是否为非法请求;若解密失败,表明该http请求为非法请求。
本发明实施例中,网关设备和客户端采用对称加密方式,提高了计算速度,减少了资源消耗,保护了数据传输的机密性。对称密钥通过代码混淆的方式集成在网关设备的程序代码中和客户端的程序代码中。
步骤204、生成请求时间字段和第一请求时间哈希值。
步骤205、对请求时间字段哈希计算,生成第二请求时间哈希值。
步骤206、判断第一请求时间哈希值和第二请求时间哈希值是否相同,若是,执行步骤207;若否,执行步骤210。
本发明实施例中,网关设备若判断出第一请求时间哈希值和第二请求时间哈希值相同,则继续执行步骤207,进一步判断该http请求是否为非法请求;若判断出第一请求时间哈希值和第二请求时间哈希值不相同,表明该http请求为非法请求。
步骤207、获取当前系统时间。
步骤208、判断当前系统时间和请求时间的差值是否大于第一阈值,若是,执行步骤210,若否,执行步骤209。
本发明实施例中,网关设备若判断出当前系统时间和请求时间的差值大于第一阈值时,表明该http请求为重放攻击;若判断出当前系统时间和请求时间的差值小于或者等于第一阈值时,表明该http请求为合法请求。其中,考虑到网络延时的影响,第一阈值可以为60秒,在实际应用中,可根据需要对第一阈值进行调整。
本发明实施例中,http请求中包括特定字段,因此每次客户端发起请求都会获取客户端的最新的时间。而非法请求中没有特定字段,请求时间不会改变,因此非法请求中的请求时间与当前系统时间会存在差值。因此通过网关设备判断当前系统时间和请求时间的差值是否大于第一阈值,则可以判断出该http是非法请求还是合法请求。
步骤209、将http请求转发给服务器,流程结束。
步骤210、丢弃http请求。
本发明实施例中,例如,丢弃http请求具体包括:网关设备不再转发http请求以使http请求无法到达服务器。
步骤211、生成丢弃的http请求的非法请求日志。
具体地,根据丢弃的http请求的相关记录信息,生成丢弃的http请求的非法请求日志,其中,相关记录信息包括:用户信息、请求时间、请求方法、请求内容长度、请求内容的来源信息。则非法请求日志包括:用户信息、请求时间、请求方法、请求内容长度、请求内容的来源信息。
步骤212、从非法请求日志中识别出丢弃的http请求对应的用户信息。
本发明实施例中,该用户信息包括账号、手机号、IP地址中之一或其任意组合。作为一种优选方案,该用户信息可包括账号、手机号、IP地址。
步骤213、根据该用户信息对携带该用户信息的http请求进行拦截。
本发明实施例中,例如,从非法请求日志中识别出丢弃的http请求对应的用户信息,该用户信息中包括用户的IP地址。当网关再次接收到携带该IP地址的http请求时,将该http请求视为非法请求,并对该http请求进行拦截。具体地,将非法的http请求立即阻拦,即网关设备不再转发非法的http请求,使非法的http请求无法到达服务器,从而减少对服务端的影响和损失。本发明实施例通过识别爬虫,设置拦截非法请求的方式,从而保护网页的安全。
本实施例中,在完成上述各步骤之后,可重复执行步骤201,以实现继续对客户端发送的http请求进行监控。
本发明实施例提供的一种页面反爬的方法的技术方案中,接收客户端发送的http请求,通过对称密钥对http请求的特定字段中的加密信息进行解密,若解密成功,则生成请求时间字段和第一请求时间哈希值,对所述请求时间字段哈希计算,生成第二请求时间哈希值,判断所述第一请求时间哈希值和所述第二请求时间哈希值是否相同,若判断出所述第一请求时间哈希值和所述第二请求时间哈希值不相同,则丢弃所述http请求,从而能够精准识别爬虫,提高反爬效率。
图3为本发明一实施例提供的一种页面反爬装置的结构示意图,如图3所示,装置应用于网关设备。该装置包括:接收模块11、解密模块12、第一生成模块13、计算模块14、第一判断模块15以及丢弃模块16。
接收模块11用于接收客户端发送的http请求。解密模块12用于通过对称密钥对http请求的特定字段中的加密信息进行解密。第一生成模块13用于若解密模块12解密成功,则生成请求时间字段和第一请求时间哈希值。计算模块14用于对请求时间字段哈希计算,生成第二请求时间哈希值。第一判断模块15用于判断第一请求时间哈希值和第二请求时间哈希值是否相同。丢弃模块16用于若第一判断模块15判断出第一请求时间哈希值和第二请求时间哈希值不相同,则丢弃http请求。
本发明实施例中,该装置还包括:转发模块17。
转发模块17用于若第一判断模块15判断出第一请求时间哈希值和第二请求时间哈希值相同,则将http请求转发给服务器。
本发明实施例中,丢弃模块16还用于解密模块12若解密失败,则丢弃http请求。
本发明实施例中,该装置还包括:查询模块18和第二判断模块19。
查询模块18用于查询http请求中是否包括特定字段。
第二判断模块19用于若查询模块18查询出http请求中包括特定字段,则触发解密模块12继续执行通过对称密钥对http请求的特定字段中的加密信息进行解密的步骤。
丢弃模块16还用于若查询模块18查询出http请求中不包括特定字段,则丢弃http请求。
本发明实施例中,请求时间字段包括请求时间字段标识和请求时间;该装置还包括:获取模块20和第三判断模块21。
获取模块20用于获取当前系统时间。
第三判断模块21用于判断当前系统时间和请求时间的差值是否大于第一阈值。
丢弃模块16还用于若第三判断模块21判断出当前系统时间和请求时间的差值大于第一阈值,则丢弃http请求。
转发模块17还用于若第三判断模块21判断出当前系统时间和请求时间的差值小于或者等于第一阈值,则将http请求转发给服务器。
本发明实施例中,该装置还包括:第二生成模块22、识别模块23以及拦截模块24。
第二生成模块22用于生成丢弃的http请求的非法请求日志。
识别模块23用于从非法请求日志中识别出丢弃的http请求对应的用户信息。
拦截模块24用于根据用户信息对携带该用户信息的http请求进行拦截。
本实施例提供的页面反爬装置可用于实现上述图1或图2中的页面反爬方法,具体描述可参见上述页面反爬方法的实施例,此处不再重复描述。
本发明实施例提供的页面反爬装置的技术方案中,接收客户端发送的http请求,通过对称密钥对http请求的特定字段中的加密信息进行解密,若解密成功,则生成请求时间字段和第一请求时间哈希值,对请求时间字段哈希计算,生成第二请求时间哈希值,判断第一请求时间哈希值和第二请求时间哈希值是否相同,若判断出第一请求时间哈希值和第二请求时间哈希值不相同,则丢弃http请求,从而能够精准识别爬虫,提高反爬效率。
本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述页面反爬方法的实施例的各步骤,具体描述可按照上述页面反爬方法的实施例。
本发明实施例提供了一种网关设备,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现上述页面反爬方法的实施例的各步骤,具体描述可按照上述页面反爬方法的实施例。
图4为本发明实施例提供的一种网关设备的示意图。如图4所示,该实施例的网关设备30包括:处理器31、存储器32以及存储在存储32中并可在处理器31上运行的计算机程序33,该计算机程序33被处理器31执行时实现实施例中的应用于页面反爬方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器31执行时实现实施例中应用于页面反爬装置中各模型/单元的功能,为避免重复,此处不一一赘述。
网关设备30包括,但不仅限于,处理器31、存储器32。本领域技术人员可以理解,图4仅仅是网关设备30的示例,并不构成对网关设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如网关设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器31可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器32可以是网关设备30的内部存储单元,例如网关设备30的硬盘或内存。存储器32也可以是网关设备30的外部存储设备,例如网关设备30上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器32还可以既包括网关设备30的内部存储单元也包括外部存储设备。存储器32用于存储计算机程序以及网关设备所需的其他程序和数据。存储器32还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种页面反爬的方法,其特征在于,所述方法包括:
接收客户端发送的http请求;
通过对称密钥对http请求的特定字段中的加密信息进行解密,若解密成功,则生成请求时间字段和第一请求时间哈希值;
对所述请求时间字段哈希计算,生成第二请求时间哈希值;
判断所述第一请求时间哈希值和所述第二请求时间哈希值是否相同,若判断出所述第一请求时间哈希值和所述第二请求时间哈希值不相同,则丢弃所述http请求。
2.根据权利要求1所述的页面反爬方法,其特征在于,还包括:若判断出所述第一请求时间哈希值和所述第二请求时间哈希值相同,则将所述http请求转发给服务器。
3.根据权利要求1所述的页面反爬方法,其特征在于,还包括:若解密失败,则丢弃所述http请求。
4.根据权利要求1所述的页面反爬方法,其特征在于,所述通过对称密钥对http请求的特定字段中的加密信息进行解密之前还包括:
查询所述http请求中是否包括特定字段;
若查询出所述http请求中包括特定字段,则继续执行所述通过对称密钥对http请求的特定字段中的加密信息进行解密的步骤;
若查询出所述http请求中不包括特定字段,则丢弃所述http请求。
5.根据权利要求1所述的页面反爬方法,其特征在于,所述请求时间字段包括请求时间字段标识和请求时间;所述若判断出所述第一请求时间哈希值和所述第二请求时间哈希值相同之后,还包括:
获取当前系统时间;
判断所述当前系统时间和所述请求时间的差值是否大于第一阈值;
若判断出所述当前系统时间和所述请求时间的差值大于第一阈值,则丢弃所述http请求。
6.根据权利要求5所述的页面反爬方法,其特征在于,还包括:若判断出所述当前系统时间和所述请求时间的差值小于或者等于第一阈值,则继续执行所述将所述http请求转发给服务器的步骤。
7.根据权利要求1至6任意一项所述的页面反爬方法,其特征在于,所述丢弃所述http请求之后,还包括:
生成丢弃的http请求的非法请求日志;
从所述非法请求日志中识别出丢弃的http请求对应的用户信息;
根据所述用户信息对携带所述用户信息的http请求进行拦截。
8.一种页面反爬装置,其特征在于,
所述装置包括:
接收模块,用于接收客户端发送的http请求;
解密模块,用于通过对称密钥对http请求的特定字段中的加密信息进行解密。
第一生成模块,用于若解密模块解密成功,则生成请求时间字段和第一请求时间哈希值;
计算模块,用于对所述请求时间字段哈希计算,生成第二请求时间哈希值;
判断模块,用于判断所述第一请求时间哈希值和所述第二请求时间哈希值是否相同。
丢弃模块,用于若判断模块判断出所述第一请求时间哈希值和所述第二请求时间哈希值不相同,则丢弃所述http请求。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的页面反爬方法。
10.一种网关设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于,所述程序指令被处理器加载并执行时实现权利要求1至7任意一项所述的页面反爬方法的步骤。
CN201910973440.8A 2019-10-14 2019-10-14 一种页面反爬的方法、装置、存储介质和网关设备 Pending CN111049794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910973440.8A CN111049794A (zh) 2019-10-14 2019-10-14 一种页面反爬的方法、装置、存储介质和网关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910973440.8A CN111049794A (zh) 2019-10-14 2019-10-14 一种页面反爬的方法、装置、存储介质和网关设备

Publications (1)

Publication Number Publication Date
CN111049794A true CN111049794A (zh) 2020-04-21

Family

ID=70232249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910973440.8A Pending CN111049794A (zh) 2019-10-14 2019-10-14 一种页面反爬的方法、装置、存储介质和网关设备

Country Status (1)

Country Link
CN (1) CN111049794A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114338431A (zh) * 2021-12-29 2022-04-12 锐捷网络股份有限公司 一种身份注册的方法、装置及系统
CN115225341A (zh) * 2022-06-28 2022-10-21 西安四叶草信息技术有限公司 一种网站访问方法及装置
CN115225341B (zh) * 2022-06-28 2024-05-31 西安四叶草信息技术有限公司 一种网站访问方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107483563A (zh) * 2017-07-31 2017-12-15 九次方大数据信息集团有限公司 防爬虫的数据查询方法和装置以及客户端和服务器
CN108429785A (zh) * 2018-01-17 2018-08-21 广东智媒云图科技股份有限公司 一种爬虫识别加密串的生成方法、爬虫识别方法及装置
CN109885749A (zh) * 2019-02-28 2019-06-14 安徽腾策网络科技有限公司 一种网页信息数据防抓取系统
CN111241541A (zh) * 2019-12-04 2020-06-05 珠海横琴电享科技有限公司 一种根据请求数据防爬虫系统和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107483563A (zh) * 2017-07-31 2017-12-15 九次方大数据信息集团有限公司 防爬虫的数据查询方法和装置以及客户端和服务器
CN108429785A (zh) * 2018-01-17 2018-08-21 广东智媒云图科技股份有限公司 一种爬虫识别加密串的生成方法、爬虫识别方法及装置
CN109885749A (zh) * 2019-02-28 2019-06-14 安徽腾策网络科技有限公司 一种网页信息数据防抓取系统
CN111241541A (zh) * 2019-12-04 2020-06-05 珠海横琴电享科技有限公司 一种根据请求数据防爬虫系统和方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114338431A (zh) * 2021-12-29 2022-04-12 锐捷网络股份有限公司 一种身份注册的方法、装置及系统
CN115225341A (zh) * 2022-06-28 2022-10-21 西安四叶草信息技术有限公司 一种网站访问方法及装置
CN115225341B (zh) * 2022-06-28 2024-05-31 西安四叶草信息技术有限公司 一种网站访问方法及装置

Similar Documents

Publication Publication Date Title
US11089011B2 (en) Algorithm hardening in background context and external from the browser to prevent malicious intervention with the browser
US9990507B2 (en) Adapting decoy data present in a network
US20240056479A1 (en) Bot detection in an edge network using Transport Layer Security (TLS) fingerprint
US10270792B1 (en) Methods for detecting malicious smart bots to improve network security and devices thereof
US20150363598A1 (en) Detection of malicious scripting language code in a network environment
EP3270318B1 (en) Dynamic security module terminal device and method for operating same
CN105429953B (zh) 一种用于访问网站的方法、装置和系统
US20140189349A1 (en) Decrypting Files for Data Leakage Protection in an Enterprise Network
WO2020107446A1 (zh) 攻击者信息的获取方法、装置、设备和存储介质
CN106982188B (zh) 恶意传播源的检测方法及装置
CN107733633B (zh) 一种基于算力的防爬虫方法
WO2019134276A1 (zh) 一种保护网页代码的方法、存储介质、电子设备和系统
CN114244522A (zh) 信息保护方法、装置、电子设备及计算机可读存储介质
KR20210112359A (ko) 브라우저 쿠키 보안
CN111241541A (zh) 一种根据请求数据防爬虫系统和方法
CN107770183B (zh) 一种数据传输方法与装置
CN111049794A (zh) 一种页面反爬的方法、装置、存储介质和网关设备
KR101917996B1 (ko) 악성 스크립트 탐지 방법 및 장치
CN110855656B (zh) 可实现应用服务器防护的插件流量代理方法、装置及系统
CN112437046A (zh) 防止重放攻击的通信方法、系统、电子设备及存储介质
CN114938313B (zh) 一种基于动态令牌的人机识别方法及装置
CN109587134B (zh) 接口总线的安全认证的方法、装置、设备和介质
CN114640524B (zh) 用于处理交易重放攻击的方法、装置、设备及介质
CN105893862A (zh) 一种浏览器缓存数据的保护方法及装置
CN109218009B (zh) 一种提高设备id安全性的方法、客户端和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200421

RJ01 Rejection of invention patent application after publication