CN107483563A - 防爬虫的数据查询方法和装置以及客户端和服务器 - Google Patents

防爬虫的数据查询方法和装置以及客户端和服务器 Download PDF

Info

Publication number
CN107483563A
CN107483563A CN201710638553.3A CN201710638553A CN107483563A CN 107483563 A CN107483563 A CN 107483563A CN 201710638553 A CN201710638553 A CN 201710638553A CN 107483563 A CN107483563 A CN 107483563A
Authority
CN
China
Prior art keywords
client
server
timestamp
reptile
data query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710638553.3A
Other languages
English (en)
Inventor
李震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nine Fangda Data Information Group Co Ltd
Original Assignee
Nine Fangda Data Information Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nine Fangda Data Information Group Co Ltd filed Critical Nine Fangda Data Information Group Co Ltd
Priority to CN201710638553.3A priority Critical patent/CN107483563A/zh
Publication of CN107483563A publication Critical patent/CN107483563A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]

Abstract

本发明提供了一种防爬虫的数据查询方法和装置以及客户端和服务器,涉及互联网通信技术领域。其中,防爬虫的数据查询方法,用于客户端,包括:与服务器通信,获取服务器的服务器时间;每次访问服务器接口时均发出加密串和时间戳,同时标注客户端的操作系统和设备唯一标识以供服务器进行校验;其中,加密串是使用MD5加密的密钥和格式化时间戳以及应用关键字;对网页控件设置客户端独有的键值以供HTML5端校验网页控件;向HTML5端提供加密串和时间戳,以供HTML5端携带加密串和时间戳向服务器请求业务进而实现数据查询。既能够让非登陆用户自由查询数据,又防止被非正常用户爬走大量数据,减少运维层压力,减少接口层垃圾数据。

Description

防爬虫的数据查询方法和装置以及客户端和服务器
技术领域
本发明涉及互联网通信技术领域,具体而言,涉及防爬虫的数据查询方法和装置以及客户端和服务器。
背景技术
很多公司或者企业数据收集都是使用爬虫方式收集,即分析网站或者app中公开的接口,模拟接口参数,来访问接口,爬取数据。那么拥有数据源的公司会设置运维访问量,或者封账号的方式来防止抓取自己数据。目前,普通的防爬方案,只能解决必须登陆的用户,发现有用固定账号频繁调用接口的时候,会手动处理。另外,根据时效性处理不是很好,很多手机是可以改自己手机时间的,很多时候可能会造成非必要的防爬误伤正常用户。从运维角度只能封掉比如一分钟访问超过20次或者50次这样的大的ip。但是随着ip名单越来越长,那么每次遍历ip文件去查逻辑的频率也会有制约。限制数据中心调用接口总次数方式去把住数据源总出口方式,只是一刀切,当运维层未拦截及时,把当天总量用完时,误伤掉正常的用户。
单纯运维层面的拦截:即运维服务器设置两个文件,一个是黑名单,一个是白名单。根据每分钟每个ip访问量来加入到ip黑名单。同时在每分钟检查一次名单,读取名单,在每个进来的ip访问,进行筛选。白名单就是永远放开的ip列表。爬虫可以模拟ip;爬虫一般会租很多ip;有时4G的ip很容易被误伤。爬虫压低速度后,会避开运维检测。
接口层使用用户账号查封:即记录每个账号总访问量出口量,根据用户id,来判断此用户id 是否有效。如果一个用户id访问接口量特别大,则封掉此用户id,使此id失效。用户需要被强制登陆;公司内有些应用需求是不用登陆即可访问网络请求;另外压低到一定速度后,还是会被爬走比较多;当用户数量大时,维护成本高,数据库中垃圾数据存储过多。
数据源使用总接口访问量来做:即数据源出口是接口json或者xml方式,不是直接应用层访问数据库方式。数据源对每个应用都会有一个自己的账号,对这个账号会每天定一个接口访问总量。当这个账号访问任何数据源出口的接口,都会计数,当计数达到总量时,则数据源不再出数据。由于访问总量一定,如果某一天突然真实活跃用户量高时,或者某一天做活动突然访问量增大,则会误伤正常用户使用。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。提出了一种防爬虫的数据查询方法和装置以及客户端和服务器,既能够让APP的非登陆用户使用,又不被非正常用户(网络爬虫)爬走大量数据,同时减少运维层压力,减少接口层垃圾数据产生。
为实现上述目的,本发明的第一方面提出了一种防爬虫的数据查询方法,用于客户端,包括:与服务器通信,获取服务器的服务器时间;每次访问服务器接口时均发出加密串和时间戳,同时标注客户端的操作系统和设备唯一标识以供服务器进行校验;其中,加密串是使用MD5加密的密钥和格式化时间戳以及应用关键字;对网页控件设置客户端独有的键值以供HTML5端校验网页控件;向HTML5端提供加密串和时间戳,以供HTML5端携带加密串和时间戳向服务器请求业务进而实现数据查询。
优选的是,还包括:每次访问服务器接口时,都会从服务器返回信息中读取服务器时间进行设备时间纠偏,以保证客户端时间最大限度跟服务器时间保持一致。
在上述任一方案中优选的是,密钥存放在客户端中或者使用服务器传递。
根据本发明的上述技术方案,优选地,客户端的操作系统包括Android和IOS。
本发明的第二方面提出了一种防爬虫的数据查询方法,用于服务器,包括:接收客户端请求,获取客户端的操作系统信息和设备唯一标识;获取客户端发出的加密串和时间戳;判断时间戳是否在有效期内,若时间戳不在有效期内,则返回接口已失效的信息;若时间戳在有效期内,则计算出加密串与客户端传来的加密串做校验;若加密串一致则根据客户端的操作系统信息和设备唯一标识提供数据接口以供客户端进行数据查询,反之则返回接口已失效的信息。
优选的是,还包括:若在单位时间内某个ip的访问量超过阈值,则将ip来加入到黑名单,拒绝黑名单ip访问服务器中的数据;或者设置一个白名单,对白名单中的ip不做限制;对黑名单设置定期清理的逻辑,防止爬虫模拟ip爬取数据。
在上述任一方案中优选的是,当2分钟内有大量访问堆积在队列中时,自动屏蔽队列中的访问请求,减少服务器端接口压力。
在上述任一方案中优选的是,还包括:数据源使用总接口访问量来做,数据源对每个应用定下接口访问总量,当应用对数据源出口的接口访问次数达到总量时,数据源不再出数据。
本发明的第三方面提出了一种防爬虫的数据查询装置,用于客户端,包括:时间单元,与服务器通信,获取服务器的服务器时间;访问单元,每次访问服务器接口时均发出加密串和时间戳,同时标注客户端的操作系统和设备唯一标识以供服务器进行校验;其中,加密串是使用MD5加密的密钥和格式化时间戳以及应用关键字;键值单元,对网页控件设置客户端独有的键值以供HTML5端校验网页控件;业务单元,向HTML5端提供加密串和时间戳,以供HTML5端携带加密串和时间戳向服务器请求业务进而实现数据查询。
优选的是,还包括:校准单元,每次访问服务器接口时,都会从服务器返回信息中读取服务器时间进行设备时间纠偏,以保证客户端时间最大限度跟服务器时间保持一致。
在上述任一方案中优选的是,,密钥存放在客户端中或者使用服务器传递。
在上述任一方案中优选的是,客户端的操作系统包括Android和IOS。
本发明的第四方面提出了一种防爬虫的数据查询装置,用于服务器,包括:接收单元,接收客户端请求,获取客户端的操作系统信息和设备唯一标识;获取客户端发出的加密串和时间戳;判断单元,判断时间戳是否在有效期内,若时间戳不在有效期内,则返回接口已失效的信息;校验单元,若时间戳在有效期内,则计算出加密串与客户端传来的加密串做校验;数据单元,若加密串一致则根据客户端的操作系统信息和设备唯一标识提供数据接口以供客户端进行数据查询,反之则返回接口已失效的信息。
优选的是,还包括:运维拦截单元,若在单位时间内某个ip的访问量超过阈值,则将ip来加入到黑名单,拒绝黑名单ip访问服务器中的数据;或者设置一个白名单,对白名单中的ip不做限制;对黑名单设置定期清理的逻辑,防止爬虫模拟ip爬取数据。
在上述任一方案中优选的是,当2分钟内有大量访问堆积在队列中时,自动屏蔽队列中的访问请求,减少服务器端接口压力。
在上述任一方案中优选的是,还包括:总量控制单元,数据源使用总接口访问量来做,数据源对每个应用定下接口访问总量,当应用对数据源出口的接口访问次数达到总量时,数据源不再出数据。
本发明的第五方面提出了一种客户端,包括如上述技术方案公开的用于客户端的防爬虫的数据查询装置。
本发明的第六方面提出了一种服务器,包括如上述技术方案公开的用于服务器的防爬虫的数据查询装置。
本发明取得的有益效果是:客户端和服务器每个接口进行“时效判断”+“运维黑名单筛选”+“数据源总接口数控制”,联合操作,共同增加爬虫算法难度。既能够让正常的APP的非登陆用户使用,又不被非正常用户爬走大量数据,同时减少了运维层压力,减少接口层垃圾数据产生。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为按照本发明的用于客户端的防爬虫的数据查询方法的一优选实施例的示意流程图;
图2为按照本发明的用于服务器的防爬虫的数据查询方法的一优选实施例的示意流程图;
图3为按照本发明的用于客户端的防爬虫的数据查询装置的一优选实施例的示意框图;
图4为按照本发明的用于服务器的防爬虫的数据查询装置的一优选实施例的示意框图;
图5为按照本发明的客户端的示意框图;
图6为按照本发明的服务器的示意框图;
图7为按照本发明的防爬虫的数据查询方法的业务流程图;
图8为按照本发明的防爬虫的数据查询方法的防爬虫逻辑示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1为按照本发明的用于客户端的防爬虫的数据查询方法的一优选实施例的示意流程图。
如图1所示,本发明的提出的一种防爬虫的数据查询方法,用于客户端,包括:步骤102,与服务器通信,获取服务器的服务器时间;步骤104,每次访问服务器接口时均发出加密串和时间戳,同时标注客户端的操作系统和设备唯一标识以供服务器进行校验;其中,加密串是使用MD5加密的密钥和格式化时间戳以及应用关键字;步骤106,对网页控件设置客户端独有的键值以供HTML5端校验网页控件;步骤108,向HTML5端提供加密串和时间戳,以供HTML5端携带加密串和时间戳向服务器请求业务进而实现数据查询。
在该实施例中,技术关键点在于既要防止数据被爬走,又不能强制用户登录,根据具体用户区分,但是又不能随意加入因为技术方案引起的多余的需求。扩散出去的或者是被抓包工具抓到的HTML5页面,单独拿出来是脱离了客户端无法使用的。
根据本发明的上述实施例,优选地,还包括:每次访问服务器接口时,都会从服务器返回信息中读取服务器时间进行设备时间纠偏,以保证客户端时间最大限度跟服务器时间保持一致。
根据本发明的上述实施例,优选地,密钥存放在客户端中或者使用服务器传递。
根据本发明的上述实施例,优选地,客户端的操作系统包括Android和IOS。
图2为按照本发明的用于服务器的防爬虫的数据查询方法的一优选实施例的示意流程图。
如图2所示,本发明提出的一种防爬虫的数据查询方法,用于服务器,包括:步骤202,接收客户端请求,获取客户端的操作系统信息和设备唯一标识;获取客户端发出的加密串和时间戳;步骤204,判断时间戳是否在有效期内,若时间戳不在有效期内,则返回接口已失效的信息;步骤206,若时间戳在有效期内,则计算出加密串与客户端传来的加密串做校验;步骤208,若加密串一致则根据客户端的操作系统信息和设备唯一标识提供数据接口以供客户端进行数据查询,反之则返回接口已失效的信息。
根据本发明的上述实施例,优选地,还包括:若在单位时间内某个ip的访问量超过阈值,则将ip来加入到黑名单,拒绝黑名单ip访问服务器中的数据;或者设置一个白名单,对白名单中的ip不做限制;对黑名单设置定期清理的逻辑,防止爬虫模拟ip爬取数据。
根据本发明的上述实施例,优选地,当2分钟内有大量访问堆积在队列中时,自动屏蔽队列中的访问请求,减少服务器端接口压力。
根据本发明的上述实施例,优选地,还包括:数据源使用总接口访问量来做,数据源对每个应用定下接口访问总量,当应用对数据源出口的接口访问次数达到总量时,数据源不再出数据。
图3为按照本发明的用于客户端的防爬虫的数据查询装置的一优选实施例的示意框图。
如图3所示,本发明提供一种防爬虫的数据查询装置300,用于客户端,包括:时间单元302,与服务器通信,获取服务器的服务器时间;访问单元304,每次访问服务器接口时均发出加密串和时间戳,同时标注客户端的操作系统和设备唯一标识以供服务器进行校验;其中,加密串是使用MD5加密的密钥和格式化时间戳以及应用关键字;键值单元306,对网页控件设置客户端独有的键值以供HTML5端校验网页控件;业务单元308,向HTML5端提供加密串和时间戳,以供HTML5端携带加密串和时间戳向服务器请求业务进而实现数据查询。
根据本发明的上述实施例,优选地,还包括:校准单元310,每次访问服务器接口时,都会从服务器返回信息中读取服务器时间进行设备时间纠偏,以保证客户端时间最大限度跟服务器时间保持一致。
根据本发明的上述实施例,优选地,密钥存放在客户端中或者使用服务器传递。
根据本发明的上述实施例,优选地,客户端的操作系统包括Android和IOS。
图4为按照本发明的用于服务器的防爬虫的数据查询装置的一优选实施例的示意框图。
如图4所示,本发明提供的防爬虫的数据查询装置400,用于服务器,包括:接收单元402,接收客户端请求,获取客户端的操作系统信息和设备唯一标识;获取客户端发出的加密串和时间戳;判断单元404,判断时间戳是否在有效期内,若时间戳不在有效期内,则返回接口已失效的信息;校验单元406,若时间戳在有效期内,则计算出加密串与客户端传来的加密串做校验;数据单元408,若加密串一致则根据客户端的操作系统信息和设备唯一标识提供数据接口以供客户端进行数据查询,反之则返回接口已失效的信息。
根据本发明的上述实施例,优选地,还包括:运维拦截单元410,若在单位时间内某个ip的访问量超过阈值,则将ip来加入到黑名单,拒绝黑名单ip访问服务器中的数据;或者设置一个白名单,对白名单中的ip不做限制;对黑名单设置定期清理的逻辑,防止爬虫模拟ip爬取数据。
根据本发明的上述实施例,优选地,当2分钟内有大量访问堆积在队列中时,自动屏蔽队列中的访问请求,减少服务器端接口压力。
根据本发明的上述实施例,优选地,还包括:总量控制单元412,数据源使用总接口访问量来做,数据源对每个应用定下接口访问总量,当应用对数据源出口的接口访问次数达到总量时,数据源不再出数据。
图5为按照本发明的客户端的示意框图。
如图5所示,本发明提供的客户端500,包括如上述实施例公开的用于客户端的防爬虫的数据查询装置300。
图6为按照本发明的服务器的示意框图。
如图6所示,本发明提供的服务器600,包括如上述实施例公开的用于服务器的防爬虫的数据查询装置400。
图7为按照本发明的防爬虫的数据查询方法的业务流程图;图8为按照本发明的防爬虫的数据查询方法的防爬虫逻辑示意图。
如图7和图8所示,本发明的防爬虫的数据查询方法采用“时效判断”+“运维黑名单筛选”+“数据源总接口数控制”,联合操作,其中
服务器业务层802的接口时效判断方法分为这几个部分:Android端、iOS端、Html5端、服务器端。
Android端:
客户端每次访问接口时,都会传加密串和处理过的时间戳;其中加密串是使用MD5(秘钥+格式化(时间戳)+关键字);其中秘钥是放在代码中,java 代码是使用混淆加密的;也可使用服务器端传递。目前使用的是第一种秘钥存放在客户端;格式化(时间戳)是用类似YYYY年MM月DD日HH:mm:ss等格式化时间戳,变成字符串;可以变动让服务器端传递规则;关键字是每个应用都会有自己固定的;
同时接口头中标注 是Android访问的,并且标注设备id。
每次访问接口,都会从response的head中读取到服务器端时间,对自己设备时间进行纠偏以保证客户端时间最大限度跟服务器时间保持一致。
iOS端:
客户端每次访问接口时,都会传加密串和处理过的时间戳;其中加密串是使用MD5(秘钥+格式化(时间戳)+关键字);其中秘钥是放在代码中,ObjectC 代码是使用混淆加密的;可使用服务器端传递。目前使用的是第一种秘钥存放在客户端;格式化(时间戳)是用类似YYYY年MM月DD日HH:mm:ss等格式化时间戳,变成字符串。可以变动让服务器端传递规则;关键字是每个应用都会有自己固定的。
同时request head中标注 是iPhone访问的,并且标注设备唯一标识。
每次访问接口,都会从response的head中读取到服务器端时间,对自己设备时间进行纠偏以保证客户端时间最大限度跟服务器时间保持一致。
Html5端:
判断是否是客户端访问的页面,useragent可判断出来。客户端对webview设置自己独有的key value。
当判断是使用客户端访问的webview时,先调用客户端提供的方法,取出加密参数和时间戳。
请求接口时,携带加密参数和时间戳,同时在request head中加入网页访问类型。
服务器端:
拿到客户端request时,先判断request head 是从哪个端访问的。
当客户端访问时,先判断时间戳的是否在2分钟有效期内。如果非有效期内,则直接response 接口已失效。
当时间戳在时效内,则服务器端自己计算出加密串,与客户端传来的加密串做校验。如果加密串一致则走正常接口逻辑,若不一致,则返回接口已失效。
运维层804的工作:运维服务器设置两个文件,一个是黑名单,一个是白名单。根据每分钟每个ip访问量来加入到ip黑名单。同时在每分钟检查一次名单,读取名单,在每个进来的ip访问,进行筛选。白名单就是永远放开的ip列表。当2分钟内,有大量访问堆积在队列中时,运维层804会自动屏蔽掉,减少服务器端接口压力。
数据中心层806的工作:数据源出口是接口json或者xml方式,不是直接应用层访问数据库方式。数据源对每个应用都会有一个自己的账号,对这个账号会每天定一个接口访问总量。当这个账号访问任何数据源出口的接口,都会计数,当计数达到总量时,则数据源不在出数据。数据源最终都会有总量的一个控制,作为当算法被攻破时,最后一层保障。
根据本发明的上述实施例可知在本发明的技术方案中:客户端和服务器每个接口进行“时效判断”+“运维黑名单筛选”+“数据源总接口数控制”,联合操作,共同增加爬虫算法难度。第一道防线是运维层,无差别拦截,黑名单会有定期清理的逻辑,防止爬虫模拟ip方式,有用户被误伤。第二道防线是接口层,不需要强制用户登录,不需要记录垃圾统计数据,就单纯判断时效,不需要服务器端生成token方式,客户端不需要判断token失效以引发的更多的需求处理。第三道防线数据源层,也是保底用的,在前两层防线都被攻破的时候,保底数据不被盗取。总体上,既能够让正常的APP的非登陆用户使用,又不被非正常用户爬走大量数据,同时减少了运维层压力,减少接口层垃圾数据产生。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种防爬虫的数据查询方法,用于客户端,其特征在于,包括:
与服务器通信,获取所述服务器的服务器时间;
每次访问服务器接口时均发出加密串和时间戳,同时标注客户端的操作系统和设备唯一标识以供所述服务器进行校验;其中,所述加密串是使用MD5加密的密钥和格式化时间戳以及应用关键字;
对网页控件设置客户端独有的键值以供HTML5端校验所述网页控件;
向所述HTML5端提供所述加密串和所述时间戳,以供所述HTML5端携带所述加密串和所述时间戳向所述服务器请求业务进而实现数据查询。
2.根据权利要求1所述的防爬虫的数据查询方法,其特征在于,还包括:每次访问服务器接口时,都会从服务器返回信息中读取服务器时间进行设备时间纠偏,以保证客户端时间最大限度跟服务器时间保持一致。
3.根据权利要求1所述的防爬虫的数据查询方法,其特征在于,所述密钥存放在客户端中或者使用服务器传递。
4.根据权利要求1至3中任一项所述的防爬虫的数据查询方法,其特征在于,所述客户端的操作系统包括Android和IOS。
5.一种防爬虫的数据查询方法,用于服务器,其特征在于,包括:
接收客户端请求,获取所述客户端的操作系统信息和设备唯一标识;
获取所述客户端发出的加密串和时间戳;
判断所述时间戳是否在有效期内,若所述时间戳不在有效期内,则返回接口已失效的信息;
若所述时间戳在有效期内,则计算出加密串与客户端传来的加密串做校验;
若加密串一致则根据所述客户端的操作系统信息和设备唯一标识提供数据接口以供所述客户端进行数据查询,反之则返回接口已失效的信息。
6.根据权利要求5所述的防爬虫的数据查询方法,其特征在于,还包括:若在单位时间内某个ip的访问量超过阈值,则将所述ip来加入到黑名单,拒绝黑名单ip访问所述服务器中的数据,或者设置一个白名单,对所述白名单中的ip不做限制;对黑名单设置定期清理的逻辑,防止爬虫模拟ip爬取数据。
7.一种防爬虫的数据查询装置,用于客户端,其特征在于,包括:
时间单元,与服务器通信,获取所述服务器的服务器时间;
访问单元,每次访问服务器接口时均发出加密串和时间戳,同时标注客户端的操作系统和设备唯一标识以供所述服务器进行校验;其中,所述加密串是使用MD5加密的密钥和格式化时间戳以及应用关键字;
键值单元,对网页控件设置客户端独有的键值以供HTML5端校验所述网页控件;
业务单元,向所述HTML5端提供所述加密串和所述时间戳,以供所述HTML5端携带所述加密串和所述时间戳向所述服务器请求业务进而实现数据查询。
8.一种防爬虫的数据查询装置,用于服务器,其特征在于,包括:
接收单元,接收客户端请求,获取所述客户端的操作系统信息和设备唯一标识;获取所述客户端发出的加密串和时间戳;
判断单元,判断所述时间戳是否在有效期内,若所述时间戳不在有效期内,则返回接口已失效的信息;
校验单元,若所述时间戳在有效期内,则计算出加密串与客户端传来的加密串做校验;
数据单元,若加密串一致则根据所述客户端的操作系统信息和设备唯一标识提供数据接口以供所述客户端进行数据查询,反之则返回接口已失效的信息。
9.一种客户端,其特征在于,包括:如权利要求7中所述的防爬虫的数据查询装置。
10.一种服务器,其特征在于,包括:如权利要求8中所述的防爬虫的数据查询装置。
CN201710638553.3A 2017-07-31 2017-07-31 防爬虫的数据查询方法和装置以及客户端和服务器 Pending CN107483563A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710638553.3A CN107483563A (zh) 2017-07-31 2017-07-31 防爬虫的数据查询方法和装置以及客户端和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710638553.3A CN107483563A (zh) 2017-07-31 2017-07-31 防爬虫的数据查询方法和装置以及客户端和服务器

Publications (1)

Publication Number Publication Date
CN107483563A true CN107483563A (zh) 2017-12-15

Family

ID=60598583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710638553.3A Pending CN107483563A (zh) 2017-07-31 2017-07-31 防爬虫的数据查询方法和装置以及客户端和服务器

Country Status (1)

Country Link
CN (1) CN107483563A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108429785A (zh) * 2018-01-17 2018-08-21 广东智媒云图科技股份有限公司 一种爬虫识别加密串的生成方法、爬虫识别方法及装置
CN108521428A (zh) * 2018-04-20 2018-09-11 武汉极意网络科技有限公司 一种基于jenkins的公网防爬虫的实现方法及系统
CN108717515A (zh) * 2018-05-03 2018-10-30 北京百度网讯科技有限公司 数据查询方法、装置、服务器和存储介质
CN109246141A (zh) * 2018-10-26 2019-01-18 电子科技大学 一种基于sdn的反过度爬虫方法
CN111049794A (zh) * 2019-10-14 2020-04-21 中国平安财产保险股份有限公司 一种页面反爬的方法、装置、存储介质和网关设备
CN111193725A (zh) * 2019-12-20 2020-05-22 北京淇瑀信息科技有限公司 一种基于配置的联合登录方法、装置和计算机设备
CN111212033A (zh) * 2019-12-16 2020-05-29 北京淇瑀信息科技有限公司 基于组合式网络爬虫防御技术的页面显示方法、装置和电子设备
CN111355744A (zh) * 2018-02-28 2020-06-30 贵州白山云科技股份有限公司 一种防盗链的服务器的使用方法及作业方法
CN111385310A (zh) * 2020-03-25 2020-07-07 深圳本地宝新媒体技术有限公司 一种网站后台保护的方法
CN112165475A (zh) * 2020-09-22 2021-01-01 成都知道创宇信息技术有限公司 反爬虫方法、装置、网站服务器和可读存储介质
CN112653695A (zh) * 2020-12-21 2021-04-13 浪潮卓数大数据产业发展有限公司 一种实现反爬虫的方法及系统
CN113609366A (zh) * 2021-08-04 2021-11-05 深圳市元征科技股份有限公司 数据获取方法、装置、终端设备及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624740A (zh) * 2012-03-30 2012-08-01 奇智软件(北京)有限公司 一种数据交互方法及客户端、服务器
CN102916935A (zh) * 2011-08-04 2013-02-06 深圳华强电子交易网络有限公司 一种网站内容防抓取的方法
CN103229181A (zh) * 2010-10-13 2013-07-31 阿卡麦科技公司 通过对url进行模糊处理来保护网站和网站用户
CN103914520A (zh) * 2014-03-18 2014-07-09 小米科技有限责任公司 数据查询方法、终端设备和服务器
CN104468604A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 局域网中基于对等网络通信模式的数据访问方法及装置
CN104601433A (zh) * 2013-10-30 2015-05-06 腾讯科技(深圳)有限公司 应用信息窗口展示方法、客户端、服务器及系统
CN105577684A (zh) * 2016-01-25 2016-05-11 北京京东尚科信息技术有限公司 防爬虫抓取的方法、服务端、客户端和系统
US20160295277A1 (en) * 2015-04-02 2016-10-06 Yume, Inc. Run-time sdk integration for connected video players
CN106911684A (zh) * 2017-02-17 2017-06-30 武汉斗鱼网络科技有限公司 一种鉴权方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103229181A (zh) * 2010-10-13 2013-07-31 阿卡麦科技公司 通过对url进行模糊处理来保护网站和网站用户
CN102916935A (zh) * 2011-08-04 2013-02-06 深圳华强电子交易网络有限公司 一种网站内容防抓取的方法
CN102624740A (zh) * 2012-03-30 2012-08-01 奇智软件(北京)有限公司 一种数据交互方法及客户端、服务器
CN104601433A (zh) * 2013-10-30 2015-05-06 腾讯科技(深圳)有限公司 应用信息窗口展示方法、客户端、服务器及系统
CN103914520A (zh) * 2014-03-18 2014-07-09 小米科技有限责任公司 数据查询方法、终端设备和服务器
CN104468604A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 局域网中基于对等网络通信模式的数据访问方法及装置
US20160295277A1 (en) * 2015-04-02 2016-10-06 Yume, Inc. Run-time sdk integration for connected video players
CN105577684A (zh) * 2016-01-25 2016-05-11 北京京东尚科信息技术有限公司 防爬虫抓取的方法、服务端、客户端和系统
CN106911684A (zh) * 2017-02-17 2017-06-30 武汉斗鱼网络科技有限公司 一种鉴权方法及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108429785A (zh) * 2018-01-17 2018-08-21 广东智媒云图科技股份有限公司 一种爬虫识别加密串的生成方法、爬虫识别方法及装置
CN111355744B (zh) * 2018-02-28 2022-06-03 贵州白山云科技股份有限公司 一种防盗链的服务器的使用方法及作业方法
CN111355744A (zh) * 2018-02-28 2020-06-30 贵州白山云科技股份有限公司 一种防盗链的服务器的使用方法及作业方法
CN108521428B (zh) * 2018-04-20 2020-09-01 武汉极意网络科技有限公司 一种基于jenkins的公网防爬虫的实现方法及系统
CN108521428A (zh) * 2018-04-20 2018-09-11 武汉极意网络科技有限公司 一种基于jenkins的公网防爬虫的实现方法及系统
CN108717515A (zh) * 2018-05-03 2018-10-30 北京百度网讯科技有限公司 数据查询方法、装置、服务器和存储介质
CN108717515B (zh) * 2018-05-03 2020-11-10 北京百度网讯科技有限公司 数据查询方法、装置、服务器和存储介质
CN109246141A (zh) * 2018-10-26 2019-01-18 电子科技大学 一种基于sdn的反过度爬虫方法
CN109246141B (zh) * 2018-10-26 2021-03-12 电子科技大学 一种基于sdn的反过度爬虫方法
CN111049794A (zh) * 2019-10-14 2020-04-21 中国平安财产保险股份有限公司 一种页面反爬的方法、装置、存储介质和网关设备
CN111212033A (zh) * 2019-12-16 2020-05-29 北京淇瑀信息科技有限公司 基于组合式网络爬虫防御技术的页面显示方法、装置和电子设备
CN111193725A (zh) * 2019-12-20 2020-05-22 北京淇瑀信息科技有限公司 一种基于配置的联合登录方法、装置和计算机设备
CN111385310A (zh) * 2020-03-25 2020-07-07 深圳本地宝新媒体技术有限公司 一种网站后台保护的方法
CN112165475A (zh) * 2020-09-22 2021-01-01 成都知道创宇信息技术有限公司 反爬虫方法、装置、网站服务器和可读存储介质
CN112653695A (zh) * 2020-12-21 2021-04-13 浪潮卓数大数据产业发展有限公司 一种实现反爬虫的方法及系统
CN113609366A (zh) * 2021-08-04 2021-11-05 深圳市元征科技股份有限公司 数据获取方法、装置、终端设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN107483563A (zh) 防爬虫的数据查询方法和装置以及客户端和服务器
Chu et al. Security and privacy analyses of internet of things children’s toys
US8943575B2 (en) Method and system for policy simulation
CN104809404B (zh) 一种信息安全攻防平台的数据层系统
CN104811428B (zh) 利用社交关系数据验证客户端身份的方法、装置及系统
CN109951500A (zh) 网络攻击检测方法及装置
CN105357195A (zh) web访问的越权漏洞检测方法及装置
CN100362805C (zh) 网络色情图像和不良信息检测多功能管理系统
CN110417918A (zh) 一种档案信息的分布式存储方法、装置及电子设备和介质
CN108259432A (zh) 一种api调用的管理方法、设备及系统
CN110365698A (zh) 风险评估方法与装置
CN109241733A (zh) 基于Web访问日志的爬虫行为识别方法及装置
CN106878108A (zh) 网络流量回放测试方法及装置
CN106296528A (zh) 一种证据收集与处理的方法及系统
CN109729044A (zh) 一种通用的互联网数据采集反反爬系统及方法
CN110138731A (zh) 一种基于大数据的网络防攻击方法
CN104486320A (zh) 基于蜜网技术的内网敏感信息泄露取证系统及方法
CN114117264A (zh) 基于区块链的非法网站识别方法、装置、设备及存储介质
CN104639387B (zh) 一种用户网络行为跟踪方法及设备
US20180309782A1 (en) Method and Apparatus for Determining a Threat Using Distributed Trust Across a Network
CN103188208B (zh) 网页访问的权限控制方法、系统和呼叫中心
CN108184146A (zh) 一种计算直播平台人气的方法及相关设备
CN106411819A (zh) 一种识别代理互联网协议地址的方法及装置
CN109600395A (zh) 一种终端网络接入控制系统的装置及实现方法
CN101408955A (zh) 一种基于策略的责任认定方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171215