CN110727934A - 一种反爬虫方法及装置 - Google Patents
一种反爬虫方法及装置 Download PDFInfo
- Publication number
- CN110727934A CN110727934A CN201911009420.5A CN201911009420A CN110727934A CN 110727934 A CN110727934 A CN 110727934A CN 201911009420 A CN201911009420 A CN 201911009420A CN 110727934 A CN110727934 A CN 110727934A
- Authority
- CN
- China
- Prior art keywords
- visitor
- request
- website
- crawler
- real person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Collating Specific Patterns (AREA)
Abstract
本申请提供一种反爬虫方法及装置,其中,反爬虫方法包括:接收访问网站的请求,根据请求获取访问者的人体特征信息;根据获取到的人体特征信息判断访问者是否为真实的人;若访问者不为真实的人,则拒绝访问网站的请求。因此,当访问者请求访问网站时,可以通过硬件设备获取该访问者实时的人体特征信息,并根据人体特征信息判断该访问者是否为真实的人。由于爬虫无法模拟出真人的人体特征信息,因此本申请实施例中的反爬虫方法提高了爬虫的技术门槛,有效的阻止了网站爬虫,从而提高了反爬虫的效果。
Description
技术领域
本申请涉及信息安全领域,具体而言,涉及一种反爬虫方法及装置。
背景技术
在当今互联网技术中,50%以上的流量都来自于机器,而机器流量中最主要的就是爬虫。但是,恶意的爬虫会“盗取”网站信息归为己有,既损害了网站所有者的利益,同时会给服务器增加很大的压力,因此,反爬虫成为互联网安全对抗中重要的一部分。
当今市面上的反爬虫技术,例如使用验证码、图形拖动验证、浏览器计算JavaScript代码等方式,这些技术方案均依赖于机器产生的结果,所以存在很多可以绕过的方法,从而使得反爬虫的效果较差。
发明内容
本申请实施例的目的在于提供一种反爬虫方法及装置,用以解决反爬虫的效果较差的技术问题。
为了实现上述目的,本申请实施例所提供的技术方案如下所示:
第一方面,本申请实施例提供一种反爬虫方法,包括:接收访问网站的请求,根据所述请求获取访问者的人体特征信息;根据获取到的人体特征信息判断所述访问者是否为真实的人;若所述访问者不为真实的人,则拒绝所述访问网站的请求。因此,当访问者请求访问网站时,可以通过硬件设备获取该访问者实时的人体特征信息,并根据人体特征信息判断该访问者是否为真实的人。由于爬虫工具无法模拟出真人的人体特征信息,因此本申请实施例中的反爬虫方法提高了爬虫的技术门槛,有效的阻止爬虫对网站的访问,从而提高了反爬虫的效果。
在本申请的可选实施例中,所述人体特征信息包括:人脸信息;所述根据所述请求获取访问者的人体特征信息,包括:根据所述请求获取图像采集装置采集的所述访问者的所述人脸信息。因此,由于人脸信息的独特性,可以通过对访问者的人脸信息进行判断来确定该访问者是否为真实的人,达到通过人脸信息区分真人和机器流量的目标,从而提高反爬虫的效果。
在本申请的可选实施例中,所述根据所述请求获取图像采集装置采集的所述访问者的所述人脸信息,包括:向所述图像采集装置发送人脸信息采集请求;接收所述图像采集装置根据所述人脸信息采集请求采集的所述人脸信息。因此,当服务器接收到访问网站的请求时,可以直接向图像采集装置发送人脸信息采集请求,图像采集装置采集访问者的人脸信息后,服务器可以根据人脸信息区分真人和机器流量的目标,从而提高反爬虫的效果。
在本申请的可选实施例中,所述根据所述请求获取图像采集装置采集的所述访问者的所述人脸信息,包括:向所述访问者用以访问所述网站的终端设备发送指示信息,指示所述终端设备调用所述图像采集装置采集所述人脸信息;接收所述人脸信息。因此,当服务器接收到访问网站的请求时,可以向终端设备发送指示信息,以使终端设备调用图像采集装置采集访问者的人脸信息,然后服务器可以根据人脸信息区分真人和机器流量的目标,从而提高反爬虫的效果。
在本申请的可选实施例中,在所述根据所述请求获取访问者的人体特征信息之后,所述反爬虫方法还包括:若获取访问者的人体特征信息失败,则拒绝所述访问网站的请求。
在本申请的可选实施例中,在所述根据获取到的人体特征信息判断所述访问者是否为真实的人之后,所述反爬虫方法还包括:若所述访问者为真实的人,设置预设时间内有效的Cookie值,当同一访问者在所述Cookie值未过期时访问所述网站时,不再判断所述访问者是否为真实的人。因此,当确定访问者为真实的人后,服务器可以设置预设时间内有效的Cookie值,从而使得同一访问者在有效期内访问该网站无需再次验证,从而提高了用户的使用体验。
在本申请的可选实施例中,在所述根据获取到的人体特征信息判断所述访问者是否为真实的人之后,所述反爬虫方法还包括:若所述访问者为真实的人,设置所述访问者的IP对应的Cookie值,当访问者利用同一IP访问所述网站时,不再判断所述访问者是否为真实的人。因此,当确定访问者为真实的人后,服务器可以设置访问者的IP对应的Cookie值,从而使得访问者使用同一IP访问该网站无需再次验证,从而提高了用户的使用体验。
第二方面,本申请实施例提供一种反爬虫装置,包括:获取模块,用于接收访问网站的请求,根据所述请求获取访问者的人体特征信息;判断模块,用于根据获取到的人体特征信息判断所述访问者是否为真实的人;第一拒绝模块,用于若所述访问者不为真实的人,则拒绝所述访问网站的请求。因此,当访问者请求访问网站时,可以通过硬件设备获取该访问者实时的人体特征信息,并利用判断模块根据人体特征信息判断该访问者是否为真实的人。由于爬虫无法模拟出真人的人体特征信息,因此本申请实施例中的反爬虫方法提高了爬虫的技术门槛,有效的阻止爬虫对网站的访问,从而提高了反爬虫的效果。
在本申请的可选实施例中,所述人体特征信息包括:人脸信息;所述获取模块还用于:根据所述请求获取图像采集装置采集的所述访问者的所述人脸信息。因此,由于人脸信息的独特性,可以通过对访问者的人脸信息进行判断来确定该访问者是否为真实的人,达到通过人脸信息区分真人和机器流量的目标,从而提高反爬虫的效果。
在本申请的可选实施例中,所述获取模块还用于:向所述图像采集装置发送人脸信息采集请求;接收所述图像采集装置根据所述人脸信息采集请求采集的所述人脸信息。因此,当服务器接收到访问网站的请求时,可以直接向图像采集装置发送人脸信息采集请求,图像采集装置采集访问者的人脸信息后,服务器可以根据人脸信息区分真人和机器流量的目标,从而提高反爬虫的效果。
在本申请的可选实施例中,所述获取模块还用于:向所述访问者用以访问所述网站的终端设备发送指示信息,指示所述终端设备调用所述图像采集装置采集所述人脸信息;接收所述人脸信息。因此,当服务器接收到访问网站的请求时,可以向终端设备发送指示信息,以使终端设备调用图像采集装置采集访问者的人脸信息,然后服务器可以根据人脸信息区分真人和机器流量的目标,从而提高反爬虫的效果。
在本申请的可选实施例中,所述反爬虫装置还包括:第二拒绝模块,用于若获取访问者的人体特征信息失败,则拒绝所述访问网站的请求。
在本申请的可选实施例中,所述反爬虫装置还包括:第一设置模块,用于若所述访问者为真实的人,设置预设时间内有效的Cookie值,当同一访问者在所述Cookie值未过期时访问所述网站时,不再判断所述访问者是否为真实的人。因此,当确定访问者为真实的人后,服务器可以利用第一设置模块设置预设时间内有效的Cookie值,从而使得同一访问者在有效期内访问该网站无需再次验证,从而提高了用户的使用体验。
在本申请的可选实施例中,所述反爬虫装置还包括:第二设置模块,用于若所述访问者为真实的人,设置所述访问者的IP对应的Cookie值,当访问者利用同一IP访问所述网站时,不再判断所述访问者是否为真实的人。因此,当确定访问者为真实的人后,服务器可以利用第二设置模块设置访问者的IP对应的Cookie值,从而使得访问者使用同一IP访问该网站无需再次验证,从而提高了用户的使用体验。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线;所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如第一方面中的反爬虫方法。
第四方面,本申请实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面中的反爬虫方法。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举本申请实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种反爬虫方法的流程图;
图2为本申请实施例提供的一种步骤S102具体实施方式的流程图;
图3为本申请实施例提供的另一种步骤S102具体实施方式的流程图;
图4为本申请实施例提供的一种反爬虫装置的结构框图;
图5为本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
据统计,在当今互联网中,50%以上的流量都来自于机器,多数网站甚至90%以上的流量都是由机器产生,而机器流量中最主要的就是爬虫。爬虫的主要工作是搬运目标网站上公开的信息,其有利有弊:良性的爬虫可以为网站带来更高的曝光度,比如搜索引擎爬虫主要是为了收录网站的内容,便于其他网民检索;而恶意的爬虫会“盗取”网站信息归为己有,造成网站所有者的损失,同时还会给服务器增加很大的压力。因此,反爬虫成为互联网安全对抗中主要的战场。
目前主流的反爬虫技术手段有:
对高频率访问或首次访问使用验证码。该方法使用验证码,由浏览器将验证码图片在终端设备上展现出来,接着由访问者将看到的验证码输入至输入框,然后将输入的验证码发送给网站服务器进行验证。目前已经有很多技术可以识别出生成的验证码,虽然复杂的验证码可能会降低一定的识别率,但用户也难以通过肉眼识别出来,因此一般不会将验证码设置的过于复杂,无法有效的阻止网站爬虫。
动态执行JavaScript。访问页面时,将一段计算数值的代码隐藏在页面中,浏览器的JavaScript引擎执行计算以后,将计算值传递到服务器进行验证,使用该方法初衷是考虑到多数爬虫不具备执行JavaScript代码的功能,因此无法通过验证,但目前爬虫发展至今,成熟的爬虫工具已经具备动态执行JavaScript代码的功能了。
限制访问频率。通常是服务端对互联网协议地址(Internet Protocol,IP)的访问频率进行限制,比如某个IP一分钟内请求网站的次数超过预设次数,便认为是机器访问(正常的人不会访问那么快)。但是,目前的爬虫都可以轻松具备使用代理功能,使得爬虫工作过程中频繁地更换新的IP,致使每个IP请求次数都没有达到高频的状态,从而绕过限制。
对代理IP进行封锁。通常是通过第三方数据公司购买代理IP数据来拦截代理IP对网站的访问。但是这些数据实时性差,并且无法覆盖所有的代理IP,爬虫只需切换到没有被限制的IP即可。
因此,当今市面上的反爬虫技术,例如使用验证码、图形拖动验证、浏览器计算JavaScript代码等方式,这些技术方案最大的缺陷是过于依赖机器产生的结果,所以存在很多可以绕过的方法,使得反爬虫的效果不佳。
基于上述问题,发明人经过研究,提供了一种反爬虫方法,在该反爬虫方法中,当访问者请求访问网站时,可以通过硬件设备获取该访问者实时的人体特征信息,并根据人体特征信息判断该访问者是否为真实的人。由于爬虫无法模拟出真人的人体特征信息,而访问者要访问网站,必然要操作设备,必然会呆在设备前,所以其图像可以被采集,因此本申请实施例中的反爬虫方法提高了爬虫的技术门槛,有效的阻止爬虫对网站的访问,从而提高了反爬虫的效果。下面详细介绍上述反爬虫方法:
请参照图1,图1为本申请实施例提供的一种反爬虫方法的流程图,该反爬虫方法可以包括如下步骤:
步骤S101:接收访问网站的请求,根据请求获取访问者的人体特征信息。
步骤S102:根据获取到的人体特征信息判断访问者是否为真实的人。
步骤S103:若访问者不为真实的人,则拒绝访问网站的请求。
示例性的,当服务器接收到访问者访问网站的请求之后,可以根据上述访问网站的请求获取该访问者的人体特征信息,然后根据该访问者的人体特征信息判断该访问者是否为真实的人。如果判断结果为该访问者是真实的人,则该访问者可以进入网站进行正常的访问;如果判断结果为该访问者不是真实的人,则拒绝该访问者访问网站的请求,从而阻止了网站爬虫。
访问者可以通过终端设备向服务器发起访问网站的请求,例如:手机、电脑等。举例来说,访问者可以在手机上点击他人通过短信发送给访问者的网址链接,以向服务器发起访问该网站的请求。
服务器接收到请求后,可以尝试获取该访问者的人体特征信息。作为一种可能的情况,若服务器获取访问者的人体特征信息失败,则可以直接拒绝该访问者访问网站的请求,也可以尝试再次重复获取访问者的人体特征信息,依旧失败则认为该访问者不是真实的人,还可以向访问者输出获取失败信息等,本申请实施例对此不作具体的限定,本领域技术人员可以根据实际情况进行核实的选择。
作为另一种可能的情况,若服务器获取访问者的人体特征信息成功,则服务器可以根据获取到的人体特征信息进行进一步的判断。其中,针对不同的人体特征信息,服务器根据人体特征信息判断访问者是否为真实的人的方式也可以不同。
举例来说,人体特征信息可以为访问者的人脸信息,此时,步骤S102可以包括如下步骤:
根据请求获取图像采集装置采集的访问者的人脸信息。
服务器接收到访问者访问网站的请求后,图像采集装置可以采集访问者的人脸图像并获得人脸信息,然后将人脸信息发送给服务器进行判断。其中,采集访问者人脸图像的图像采集装置可以为与服务器进行通信连接的独立的装置或者集成在终端设备上的装置,本申请实施例对此不作具体的限定。此外,服务器获取图像采集装置采集的访问者的人脸信息的方式也有多种,此处以两个例子为例进行说明。
第一种,请参照图2,图2为本申请实施例提供的一种步骤S102具体实施方式的流程图,步骤S102可以包括如下步骤:
步骤S201:向图像采集装置发送人脸信息采集请求。
步骤S202:接收图像采集装置根据人脸信息采集请求采集的人脸信息。
在该种方式中,当服务器接收到访问网站的请求时,可以直接向图像采集装置发送人脸信息采集请求,图像采集装置采集访问者的人脸信息后,将采集到的人脸信息发送给服务器,以使服务器可以根据人脸信息区分真人和机器流量的目标,从而提高反爬虫的效果。
第二种,请参照图3,图3为本申请实施例提供的另一种步骤S102具体实施方式的流程图,步骤S102可以包括如下步骤:
步骤S301:向访问者用以访问网站的终端设备发送指示信息,指示终端设备调用图像采集装置采集人脸信息。
步骤S302:接收人脸信息。
在该种方式中,当服务器接收到访问网站的请求时,可以向访问者用以访问网站的终端设备发送一个指示信息,用以指示终端设备调用图像采集装置采集人脸信息。作为一种实施方式,服务器可以给访问者返回一个不可见的网页,在这个网页中有一些代码,终端设备的浏览器执行这些代码以调用终端设备的图像采集装置进行图像采集。
作为一种实施方式,服务器根据获取到的人脸信息判断访问者是否为真实的人可以包括如下步骤:从人脸信息中提取出访问者的脸部特征,包括眼睛、鼻子、嘴巴等,然后对脸部特征进行图像识别,判断脸部特征是否属于真实的人。
需要说明的是,人体特征信息除了上述的人脸信息之外,还可以有多种,例如:访问者的指纹信息、访问者的虹膜信息等,针对不同的人体特征信息,本领域技术人员可以选择不同的获取方式。可以理解的,多种人体特征信息也可以结合起来进行判断,例如:同时获取访问者的指纹信息以及人脸信息,只有在该访问者的指纹信息以及人脸信息均判断为真实的人的情况下,才允许该访问者访问该网站。
进一步的,在步骤S102之后,该反爬虫方法还可以包括如下步骤:
若访问者为真实的人,设置预设时间内有效的Cookie值,当同一访问者在Cookie值未过期时访问网站时,不再判断访问者是否为真实的人。
示例性的,当服务器判断访问者为真实的人,可以设置表征访问网站的有效时间的Cookie值,将该Cookie值暂存在终端设备上,当该访问者在有效时间内再次访问该网站时,服务器可以获取存储在终端设备上的Cookie值,并判断该Cookie值是否超过有效时间,如果没有超过,则访问者可以直接访问网站而无需再次验证。
在本申请实施例中,当确定访问者为真实的人后,服务器可以设置预设时间内有效的Cookie值,从而使得同一访问者在有效期内访问该网站无需再次验证,从而提高了用户的使用体验,同时避免了网站反复检测人脸,浪费计算资源。
进一步的,在步骤S102之后,该反爬虫方法还可以包括如下步骤:
若访问者为真实的人,设置访问者的IP对应的Cookie值,当访问者利用同一IP访问网站时,不再判断访问者是否为真实的人。
示例性的,当服务器判断访问者为真实的人,可以设置访问者的IP对应的Cookie值,将该Cookie值暂存在终端设备上,当该访问者在有效时间内再次访问该网站时,服务器可以获取存储在终端设备上的Cookie值,并将Cookie值对应的IP与当前IP是否一致,若一致,则访问者可以直接访问网站而无需再次验证。
在本申请实施例中,当确定访问者为真实的人后,服务器可以设置访问者的IP对应的Cookie值,从而使得访问者使用同一IP访问该网站无需再次验证,从而提高了用户的使用体验。
请参照图4,图4为本申请实施例提供的一种反爬虫装置的结构框图,该反爬虫装置400包括:获取模块401,用于接收访问网站的请求,根据所述请求获取访问者的人体特征信息;判断模块402,用于根据获取到的人体特征信息判断所述访问者是否为真实的人;第一拒绝模块403,用于若所述访问者不为真实的人,则拒绝所述访问网站的请求。
在本申请实施例中,当访问者请求访问网站时,可以通过硬件设备获取该访问者实时的人体特征信息,并利用判断模块402根据人体特征信息判断该访问者是否为真实的人。由于爬虫无法模拟出真人的人体特征信息,因此本申请实施例中的反爬虫方法提高了爬虫的技术门槛,有效的阻止爬虫对网站的访问,从而提高了反爬虫的效果。
进一步的,所述人体特征信息包括:人脸信息;所述获取模块401还用于:根据所述请求获取图像采集装置采集的所述访问者的所述人脸信息。
在本申请实施例中,由于人脸信息的独特性,可以通过对访问者的人脸信息进行判断来确定该访问者是否为真实的人,达到通过人脸信息区分真人和机器流量的目标,从而提高反爬虫的效果。
进一步的,所述获取模块401还用于:向所述图像采集装置发送人脸信息采集请求;接收所述图像采集装置根据所述人脸信息采集请求采集的所述人脸信息。
在本申请实施例中,当服务器接收到访问网站的请求时,可以直接向图像采集装置发送人脸信息采集请求,图像采集装置采集访问者的人脸信息后,服务器可以根据人脸信息区分真人和机器流量的目标,从而提高反爬虫的效果。
进一步的,所述获取模块401还用于:向所述访问者用以访问所述网站的终端设备发送指示信息,指示所述终端设备调用所述图像采集装置采集所述人脸信息;接收所述人脸信息。
在本申请实施例中,当服务器接收到访问网站的请求时,可以向终端设备发送指示信息,以使终端设备调用图像采集装置采集访问者的人脸信息,然后服务器可以根据人脸信息区分真人和机器流量的目标,从而提高反爬虫的效果。
进一步的,所述反爬虫装置400还包括:第二拒绝模块,用于若获取访问者的人体特征信息失败,则拒绝所述访问网站的请求。
进一步的,所述反爬虫装置400还包括:第一设置模块,用于若所述访问者为真实的人,设置预设时间内有效的Cookie值,当同一访问者在所述Cookie值未过期时访问所述网站时,不再判断所述访问者是否为真实的人。
在本申请实施例中,当确定访问者为真实的人后,服务器可以利用第一设置模块设置预设时间内有效的Cookie值,从而使得同一访问者在有效期内访问该网站无需再次验证,从而提高了用户的使用体验。
进一步的,所述反爬虫装置400还包括:第二设置模块,用于若所述访问者为真实的人,设置所述访问者的IP对应的Cookie值,当访问者利用同一IP访问所述网站时,不再判断所述访问者是否为真实的人。
在本申请实施例中,当确定访问者为真实的人后,服务器可以利用第二设置模块设置访问者的IP对应的Cookie值,从而使得访问者使用同一IP访问该网站无需再次验证,从而提高了用户的使用体验。
请参照图5,图5为本申请实施例提供的一种电子设备的结构框图,该电子设备包括:至少一个处理器501,至少一个通信接口502,至少一个存储器503和至少一个通信总线504。其中,通信总线504用于实现这些组件直接的连接通信,通信接口502用于与其他节点设备进行信令或数据的通信,存储器503存储有处理器501可执行的机器可读指令。当电子设备运行时,处理器501与存储器503之间通过通信总线504通信,机器可读指令被处理器501执行时执行上述反爬虫方法。
处理器501可以是一种集成电路芯片,具有信号处理能力。上述处理器501可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器503可以包括但不限于随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
可以理解,图5所示的结构仅为示意,电子设备还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。于本申请实施例中,电子设备可以是,但不限于台式机、笔记本电脑等实体设备,还可以是虚拟机等虚拟设备。另外,电子设备也不一定是单台设备,还可以是多台设备的组合,例如服务器集群,等等。于本申请实施例中,反爬虫方法中的服务器可以采用图5示出的电子设备实现。
本申请实施例还提供一种计算机程序产品,包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述实施例中反爬虫方法,例如包括:接收访问网站的请求,根据所述请求获取访问者的人体特征信息;根据获取到的人体特征信息判断所述访问者是否为真实的人;若所述访问者不为真实的人,则拒绝所述访问网站的请求。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种反爬虫方法,其特征在于,包括:
接收访问网站的请求,根据所述请求获取访问者的人体特征信息;
根据获取到的人体特征信息判断所述访问者是否为真实的人;
若所述访问者不为真实的人,则拒绝所述访问网站的请求。
2.根据权利要求1所述的反爬虫方法,其特征在于,所述人体特征信息包括:人脸信息;
所述根据所述请求获取访问者的人体特征信息,包括:
根据所述请求获取图像采集装置采集的所述访问者的所述人脸信息。
3.根据权利要求2所述的反爬虫方法,其特征在于,所述根据所述请求获取图像采集装置采集的所述访问者的所述人脸信息,包括:
向所述图像采集装置发送人脸信息采集请求;
接收所述图像采集装置根据所述人脸信息采集请求采集的所述人脸信息。
4.根据权利要求2所述的反爬虫方法,其特征在于,所述根据所述请求获取图像采集装置采集的所述访问者的所述人脸信息,包括:
向所述访问者用以访问所述网站的终端设备发送指示信息,指示所述终端设备调用所述图像采集装置采集所述人脸信息;
接收所述人脸信息。
5.根据权利要求1所述的反爬虫方法,其特征在于,在所述根据所述请求获取访问者的人体特征信息之后,所述反爬虫方法还包括:
若获取访问者的人体特征信息失败,则拒绝所述访问网站的请求。
6.根据权利要求1-5任一项所述的反爬虫方法,其特征在于,在所述根据获取到的人体特征信息判断所述访问者是否为真实的人之后,所述反爬虫方法还包括:
若所述访问者为真实的人,设置预设时间内有效的Cookie值,当同一访问者在所述Cookie值未过期时访问所述网站时,不再判断所述访问者是否为真实的人。
7.根据权利要求1-5任一项所述的反爬虫方法,其特征在于,在所述根据获取到的人体特征信息判断所述访问者是否为真实的人之后,所述反爬虫方法还包括:
若所述访问者为真实的人,设置所述访问者的IP对应的Cookie值,当访问者利用同一IP访问所述网站时,不再判断所述访问者是否为真实的人。
8.一种反爬虫装置,其特征在于,包括:
获取模块,用于接收访问网站的请求,根据所述请求获取访问者的人体特征信息;
判断模块,用于根据获取到的人体特征信息判断所述访问者是否为真实的人;
第一拒绝模块,用于若所述访问者不为真实的人,则拒绝所述访问网站的请求。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线;
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-7任一项所述的反爬虫方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1-7任一项所述的反爬虫方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911009420.5A CN110727934A (zh) | 2019-10-22 | 2019-10-22 | 一种反爬虫方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911009420.5A CN110727934A (zh) | 2019-10-22 | 2019-10-22 | 一种反爬虫方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110727934A true CN110727934A (zh) | 2020-01-24 |
Family
ID=69221742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911009420.5A Pending CN110727934A (zh) | 2019-10-22 | 2019-10-22 | 一种反爬虫方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110727934A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523014A (zh) * | 2020-04-24 | 2020-08-11 | 广州大学 | 一种基于对抗样本的开源数据处理方法及系统 |
CN112084479A (zh) * | 2020-09-15 | 2020-12-15 | 成都知道创宇信息技术有限公司 | 网站攻击拦截方法、装置、服务器及存储介质 |
CN112953958A (zh) * | 2021-03-09 | 2021-06-11 | 拉扎斯网络科技(上海)有限公司 | 一种爬虫检测方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105337990A (zh) * | 2015-11-20 | 2016-02-17 | 北京奇虎科技有限公司 | 用户身份的校验方法及装置 |
US20180310171A1 (en) * | 2017-04-20 | 2018-10-25 | Facebook, Inc. | Interactive challenge for accessing a resource |
WO2019067348A1 (en) * | 2017-09-26 | 2019-04-04 | Visa International Service Association | DEDUPLICATION PROTECTING CONFIDENTIALITY |
CN109801638A (zh) * | 2019-01-24 | 2019-05-24 | 平安科技(深圳)有限公司 | 语音验证方法、装置、计算机设备及存储介质 |
CN110162955A (zh) * | 2019-05-16 | 2019-08-23 | 同盾控股有限公司 | 人机识别方法、装置、介质及电子设备 |
-
2019
- 2019-10-22 CN CN201911009420.5A patent/CN110727934A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105337990A (zh) * | 2015-11-20 | 2016-02-17 | 北京奇虎科技有限公司 | 用户身份的校验方法及装置 |
US20180310171A1 (en) * | 2017-04-20 | 2018-10-25 | Facebook, Inc. | Interactive challenge for accessing a resource |
WO2019067348A1 (en) * | 2017-09-26 | 2019-04-04 | Visa International Service Association | DEDUPLICATION PROTECTING CONFIDENTIALITY |
CN109801638A (zh) * | 2019-01-24 | 2019-05-24 | 平安科技(深圳)有限公司 | 语音验证方法、装置、计算机设备及存储介质 |
CN110162955A (zh) * | 2019-05-16 | 2019-08-23 | 同盾控股有限公司 | 人机识别方法、装置、介质及电子设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523014A (zh) * | 2020-04-24 | 2020-08-11 | 广州大学 | 一种基于对抗样本的开源数据处理方法及系统 |
CN112084479A (zh) * | 2020-09-15 | 2020-12-15 | 成都知道创宇信息技术有限公司 | 网站攻击拦截方法、装置、服务器及存储介质 |
CN112953958A (zh) * | 2021-03-09 | 2021-06-11 | 拉扎斯网络科技(上海)有限公司 | 一种爬虫检测方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108389121B (zh) | 贷款数据处理方法、装置、计算机设备和存储介质 | |
US8813239B2 (en) | Online fraud detection dynamic scoring aggregation systems and methods | |
US8806627B1 (en) | Content randomization for thwarting malicious software attacks | |
JP4778899B2 (ja) | リスクベース認証のためのシステムおよび方法 | |
CN111556059A (zh) | 异常检测方法、异常检测装置及终端设备 | |
CN110727934A (zh) | 一种反爬虫方法及装置 | |
CN110417778B (zh) | 访问请求的处理方法和装置 | |
CN106685899B (zh) | 用于识别恶意访问的方法和设备 | |
CN108416665B (zh) | 数据交互方法、装置、计算机设备和存储介质 | |
CN109547426B (zh) | 业务响应方法及服务器 | |
CN107819743B (zh) | 资源访问控制方法及终端设备 | |
CN111711617A (zh) | 网络爬虫的检测方法、装置、电子设备及存储介质 | |
TWI701932B (zh) | 一種身份認證方法、伺服器及用戶端設備 | |
CN112165475B (zh) | 反爬虫方法、装置、网站服务器和可读存储介质 | |
CN112966094A (zh) | 一种交易数据的处理方法、装置以及系统 | |
CN114422139A (zh) | Api网关请求安全验证方法、装置、电子设备及计算机可读介质 | |
CN111552942A (zh) | 身份认证方法、系统、装置及计算机存储介质 | |
CN111314496B (zh) | 注册请求拦截方法、装置、计算机设备和存储介质 | |
US20230069845A1 (en) | Using a threat intelligence framework to populate a recursive dns server cache | |
CN114862212A (zh) | 互联网资产的管理方法及其装置、电子设备及存储介质 | |
CN114095936A (zh) | 短信验证码请求方法、攻击防御方法、装置、介质及设备 | |
CN113242257A (zh) | 越权漏洞的检测方法、装置、设备及存储介质 | |
CN113836509B (zh) | 信息采集方法、装置、电子设备和存储介质 | |
CN114513350B (zh) | 身份校验方法、系统和存储介质 | |
CN114221807B (zh) | 访问请求处理方法、装置、监控设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200124 |
|
WD01 | Invention patent application deemed withdrawn after publication |