CN106294368A - 网络爬虫识别方法和装置 - Google Patents

网络爬虫识别方法和装置 Download PDF

Info

Publication number
CN106294368A
CN106294368A CN201510250481.6A CN201510250481A CN106294368A CN 106294368 A CN106294368 A CN 106294368A CN 201510250481 A CN201510250481 A CN 201510250481A CN 106294368 A CN106294368 A CN 106294368A
Authority
CN
China
Prior art keywords
client
url
webpage
link information
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510250481.6A
Other languages
English (en)
Other versions
CN106294368B (zh
Inventor
周高明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510250481.6A priority Critical patent/CN106294368B/zh
Priority to CN201910957170.1A priority patent/CN110851680B/zh
Publication of CN106294368A publication Critical patent/CN106294368A/zh
Application granted granted Critical
Publication of CN106294368B publication Critical patent/CN106294368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请提出一种网络爬虫识别方法和装置,该网络爬虫识别方法包括:接收客户端在网页渲染完毕后发送的所述网页的图片和所述网页的URL;根据所述URL获取样本图片;根据相似度与预设阈值的比较,识别所述客户端是否为网络爬虫,所述相似度为所述网页的图片与所述样本图片的相似度。本申请对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,并且即便网络爬虫破解了上述识别方法,也会极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率。

Description

网络爬虫识别方法和装置
技术领域
本申请涉及互联网技术领域,尤其涉及一种网络爬虫识别方法和装置。
背景技术
现在对网页进行访问的既有正常用户通过浏览器等客户端进行的网页浏览,又有网络爬虫。其中,网络爬虫是一种自动抓取网页的计算机程序。
由于网络爬虫不需要进行页面的渲染,只需要获取文件内容以及文件中的统一资源定位符(Uniform Resource Locator;以下简称:URL),因此网络爬虫能以非常高的频率来访问网页服务器,从而会对网页的正常用户的访问造成影响,甚至有些网页是不希望被爬虫抓取的,因此需要识别当前访问网页的是爬虫还是正常用户,以阻止爬虫的访问或者降低爬虫的访问频率。
但是现有的对网络爬虫进行识别的技术存在可靠性和准确性较低,以及影响正常用户浏览网页的流畅性的问题。
发明内容
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种网络爬虫的识别方法。该方法对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,并且即便网络爬虫破解了上述识别方法,也会极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率。
本申请的第二个目的在于提出一种网络爬虫的识别装置。
为了实现上述目的,本申请第一方面实施例的网络爬虫识别方法,包括:接收客户端在网页渲染完毕后发送的所述网页的图片和所述网页的URL;根据所述URL获取样本图片;根据相似度与预设阈值的比较,识别所述客户端是否为网络爬虫,所述相似度为所述网页的图片与所述样本图片的相似度。
本申请实施例的网络爬虫识别方法,接收客户端在网页渲染完毕后发送的上述网页的图片和上述网页的URL之后,服务器根据上述URL获取样本图片,然后根据上述网页的图片与上述样本图片的相似度与预设阈值的比较,识别上述客户端是否为网络爬虫,该方法对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,并且即便网络爬虫破解了上述识别方法,也会极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率。
为了实现上述目的,本申请第二方面实施例的网络爬虫识别方法,包括:在网页渲染完毕后,客户端获取当前渲染的网页的图片和所述网页的URL;所述客户端将所述网页的图片和所述网页的URL发送给服务器,以便所述服务器根据所述URL获取样本图片,并根据相似度与预设阈值的比较,识别所述客户端是否为网络爬虫,所述相似度为所述网页的图片与所述样本图片的相似度。
本申请实施例的网络爬虫识别方法,在网页渲染完毕后,客户端获取当前渲染的网页的图片和上述网页的URL,并将上述网页的图片和上述网页的URL发送给服务器,以便上述服务器根据上述URL获取样本图片,并根据上述网页的图片与上述样本图片的相似度与预设阈值的比较,识别上述客户端是否为网络爬虫。该方法对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,并且即便网络爬虫破解了上述识别方法,也会极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率。
为了实现上述目的,本申请第三方面实施例的网络爬虫识别方法,包括:接收客户端的连接信息,所述客户端的连接信息包括所述客户端的IP地址和所述客户端的连接时间;如果所述客户端的连接信息在待验证客户端库中,并且所述客户端的连接信息在所述待验证客户端库中存在的时间超过预设时长,则识别所述客户端为网络爬虫。
本申请实施例的网络爬虫识别方法,接收客户端的连接信息之后,如果上述客户端的连接信息在待验证客户端库中,并且上述客户端的连接信息在待验证客户端库中存在的时间超过预设时长,则识别上述客户端为网络爬虫。该方法对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,用户体验较好。
为了实现上述目的,本申请第四方面实施例的网络爬虫识别装置,包括:接收模块,用于接收客户端在网页渲染完毕后发送的所述网页的图片和所述网页的URL;获取模块,用于根据所述URL获取样本图片;识别模块,用于根据相似度与预设阈值的比较,识别所述客户端是否为网络爬虫,所述相似度为所述接收模块接收的网页的图片与所述获取模块获取的样本图片的相似度。
本申请实施例的网络爬虫识别装置,接收模块接收客户端在网页渲染完毕后发送的上述网页的图片和上述网页的URL之后,获取模块根据上述URL获取样本图片,然后识别模块根据上述网页的图片与上述样本图片的相似度与预设阈值的比较,识别上述客户端是否为网络爬虫,该装置对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,并且即便网络爬虫破解了上述识别方法,也会极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率。
为了实现上述目的,本申请第五方面实施例的网络爬虫识别装置,包括:获取模块,用于在网页渲染完毕后,获取当前渲染的网页的图片和所述网页的URL;发送模块,用于将所述获取模块获取的所述网页的图片和所述网页的URL发送给服务器,以便所述服务器根据所述URL获取样本图片,并根据相似度与预设阈值的比较,识别所述客户端是否为网络爬虫,所述相似度为所述网页的图片与所述样本图片的相似度。
本申请实施例的网络爬虫识别装置,在网页渲染完毕后,获取模块获取当前渲染的网页的图片和上述网页的URL,发送模块将上述网页的图片和上述网页的URL发送给服务器,以便上述服务器根据上述URL获取样本图片,并根据上述网页的图片与上述样本图片的相似度与预设阈值的比较,识别上述客户端是否为网络爬虫。该装置对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,并且即便网络爬虫破解了上述识别方法,也会极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率。
为了实现上述目的,本申请第六方面实施例的网络爬虫识别装置,包括:接收模块,用于接收客户端的连接信息,所述客户端的连接信息包括所述客户端的IP地址和所述客户端的连接时间;识别模块,用于当所述接收模块接收的所述客户端的连接信息在待验证客户端库中,并且所述客户端的连接信息在所述待验证客户端库中存在的时间超过预设时长时,识别所述客户端为网络爬虫。
本申请实施例的网络爬虫识别装置,接收模块接收客户端的连接信息之后,如果上述客户端的连接信息在待验证客户端库中,并且上述客户端的连接信息在待验证客户端库中存在的时间超过预设时长,则识别模块识别上述客户端为网络爬虫。该装置对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,用户体验较好。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请网络爬虫识别方法一个实施例的流程图;
图2为本申请网络爬虫识别方法另一个实施例的流程图;
图3为本申请网络爬虫识别方法再一个实施例的流程图;
图4为本申请网络爬虫识别方法再一个实施例的流程图;
图5为本申请网络爬虫识别方法再一个实施例的流程图;
图6为本申请网络爬虫识别装置一个实施例的结构示意图;
图7为本申请网络爬虫识别装置另一个实施例的结构示意图;
图8为本申请网络爬虫识别装置再一个实施例的结构示意图;
图9为本申请网络爬虫识别装置再一个实施例的结构示意图;
图10为本申请网络爬虫识别装置再一个实施例的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本申请网络爬虫识别方法一个实施例的流程图,如图1所示,该网络爬虫识别方法可以包括:
步骤101,接收客户端在网页渲染完毕后发送的上述网页的图片和上述网页的URL。
步骤102,根据上述URL获取样本图片。
具体地,根据上述URL获取样本图片可以为:服务器根据上述网页的图片的尺寸和上述URL在样本图片库中查找匹配上述URL和上述尺寸的图片;如果查找到,则输出匹配上述URL和上述尺寸的图片;如果在上述样本图片库中未查找到匹配上述URL和上述尺寸的图片,则在上述样本图片库中查找匹配上述URL的图片,并在查找到的匹配上述URL的图片中查找与上述尺寸最接近的图片,并输出查找到的与上述尺寸最接近的图片。
进一步地,如果在上述样本图片库中未查找到匹配上述URL的图片,或者上述样本图片库中已有的URL的页面有修改,则服务器生成上述URL所支持的至少一种渲染尺寸的图片,并将生成的图片存入上述样本图片库作为上述URL的样本图片。
步骤103,根据相似度与预设阈值的比较,识别上述客户端是否为网络爬虫,上述相似度为上述网页的图片与上述样本图片的相似度。
具体地,如果上述网页的图片与上述样本图片的相似度大于预设阈值,则识别上述客户端不是网络爬虫。
其中,上述预设阈值可以在具体实现时动态设置,本实施例对上述预设阈值的大小不作限定。
进一步地,步骤102之前,服务器还可以先判断上述客户端的连接信息和上述URL是否在待验证客户端库中;如果是,则服务器执行步骤102根据上述URL获取样本图片的步骤。其中,上述客户端的连接信息可以包括上述客户端的因特网协议(Internet Protocol;以下简称:IP)地址、上述客户端的连接时间、用户代理(user agent)和上述客户端的用户标识等可以标记该客户端的信息。
进一步地,步骤103,识别上述客户端不是网络爬虫之前,如果上述网页的图片与上述样本图片的相似度大于预设阈值,则服务器从上述待验证客户端库中删除上述网页的URL,然后判断待验证客户端库中是否还有上述客户端对应的其他需要验证的URL;如果否,则服务器执行步骤103识别上述客户端不是网络爬虫的步骤。
进一步地,步骤101之前,服务器还可以处理客户端正常的页面访问请求,具体地包括:服务器接收客户端的连接信息和上述客户端当前访问的URL,其中,上述客户端的连接信息可以包括上述客户端的IP地址、上述客户端的连接时间、user agent和上述客户端的用户标识等可以标记该客户端的信息;然后服务器判断上述客户端的连接信息是否在待验证客户端库中;如果否,则服务器将上述客户端的连接信息和上述客户端当前访问的URL存入待验证客户端库。
进一步地,判断上述客户端的连接信息是否在待验证客户端库中之后,如果上述客户端的连接信息在上述待验证客户端库中,则服务器判断上述客户端的连接信息在上述待验证客户端库中存在的时间是否超过预设时长;如果是,则服务器识别上述客户端为网络爬虫,并将上述客户端的连接信息存入网络爬虫库;如果上述客户端的连接信息在上述待验证客户端库中存在的时间未超过预设时长,则服务器将上述客户端的连接信息和上述客户端当前访问的URL存入上述待验证客户端库。
其中,上述预设时长可以在具体实现时根据业务形态动态设置,本实施例对上述预设时长的长短不作限定,举例来说,上述预设时长可以为10秒。
进一步地,判断上述客户端的连接信息是否在待验证客户端库中之前,服务器还可以先判断上述客户端的连接信息是否在网络爬虫库中;如果是,则识别上述客户端为网络爬虫;如果上述客户端的连接信息不在上述网络爬虫库中,则服务器执行判断上述客户端的连接信息是否在待验证客户端库中的步骤。
上述网络爬虫识别方法中,接收客户端在网页渲染完毕后发送的上述网页的图片和上述网页的URL之后,服务器根据上述URL获取样本图片,然后根据上述网页的图片与上述样本图片的相似度与预设阈值的比较,识别上述客户端是否为网络爬虫,该方法对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,并且即便网络爬虫破解了上述识别方法,也会极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率。
图2为本申请网络爬虫识别方法另一个实施例的流程图,如图2所示,该网络爬虫识别方法可以包括:
步骤201,服务器接收客户端在网页渲染完毕后发送的上述网页的图片和上述网页的URL。
步骤202,判断上述客户端的连接信息和上述URL是否在待验证客户端库中。如果否,则说明客户端的这次上报不需要处理,本次流程结束;如果上述客户端的连接信息和上述URL在待验证客户端库中,则执行步骤203。
其中,上述客户端的连接信息可以包括上述客户端的IP地址、上述客户端的连接时间、用户代理(user agent)和上述客户端的用户标识等可以标记该客户端的信息。
步骤203,服务器根据上述网页的图片的尺寸和上述URL获取样本图片。
具体地,服务器根据上述网页的图片的尺寸和上述URL获取样本图片可以为:服务器根据上述网页的图片的尺寸和上述URL在样本图片库中查找匹配上述URL和上述尺寸的图片;如果查找到,则输出匹配上述URL和上述尺寸的图片。
如果在上述样本图片库中未查找到匹配上述URL和上述尺寸的图片,则服务器在上述样本图片库中查找匹配上述URL的图片,如果仍未查找到匹配上述URL的图片,则说明这个URL不需要进行样本图片比对;如果查找到匹配上述URL的图片,但是在匹配上述URL的图片中没有匹配上述尺寸的图片,则在查找到的匹配上述URL的图片中查找与上述尺寸最接近的图片,并输出查找到的与上述尺寸最接近的图片。
进一步地,如果在上述样本图片库中未查找到匹配上述URL的图片(也就是说,有新增的URL),或者上述样本图片库中已有的URL的页面有修改,则服务器生成上述URL所支持的至少一种渲染尺寸的图片,并将生成的图片存入上述样本图片库作为上述URL的样本图片,并提供图片检索接口,以供查找样本图片时使用。
步骤204,判断上述网页的图片与上述样本图片的相似度是否大于预设阈值。如果是,则执行步骤205;如果上述网页的图片与上述样本图片的相似度小于或等于预设阈值,则结束本次流程。
其中,上述预设阈值可以在具体实现时动态设置,本实施例对上述预设阈值的大小不作限定。
步骤205,服务器从上述待验证客户端库中删除上述网页的URL。
步骤206,判断待验证客户端库中是否还有上述客户端对应的其他需要验证的URL;如果是,则结束本次流程;如果待验证客户端库中已没有上述客户端对应的其他需要验证的URL,则执行步骤207。
步骤207,服务器识别上述客户端不是网络爬虫。本次流程结束。
进一步地,在步骤201之前,服务器还会接收并处理客户端正常的网页访问请求,服务器处理客户端正常的网页访问请求的流程可以如图3所示。图3为本申请网络爬虫识别方法再一个实施例的流程图,可以包括:
步骤301,服务器接收客户端的连接信息和上述客户端当前访问的URL。其中,上述客户端的连接信息可以包括上述客户端的IP地址、上述客户端的连接时间、user agent和上述客户端的用户标识等可以标记该客户端的信息。
步骤302,判断上述客户端的连接信息是否在网络爬虫库中。如果是,则执行步骤303;如果上述客户端的连接信息不在上述网络爬虫库中,则执行步骤304。
步骤303,服务器识别上述客户端为网络爬虫,本次流程结束。
也就是说,本实施例中可以通过上述客户端的连接信息出现在网络爬虫库来快速识别上述客户端为网络爬虫。
步骤304,判断上述客户端的连接信息是否在待验证客户端库中;如果否,则执行步骤305;如果上述客户端的连接信息在上述待验证客户端库中,则执行步骤306。
步骤305,服务器将上述客户端的连接信息和上述客户端当前访问的URL存入待验证客户端库,本次流程结束。
步骤306,判断上述客户端的连接信息在上述待验证客户端库中存在的时间是否超过预设时长。如果是,则执行步骤307;如果上述客户端的连接信息在上述待验证客户端库中存在的时间未超过预设时长,则执行步骤305。
其中,上述预设时长可以在具体实现时根据业务形态动态设置,本实施例对上述预设时长的长短不作限定,举例来说,上述预设时长可以为10秒。
步骤307,服务器识别上述客户端为网络爬虫,并将上述客户端的连接信息存入网络爬虫库。本次流程结束。
上述网络爬虫识别方法,通过要求客户端上报其渲染出来的网页图片,服务器端使用样本图片校验客户端上报的图片,如果客户端上报的图片与样本图片的相似度达到了预设阈值,则认为该客户端是正常的网页访问。本申请提供的网络爬虫识别方法确保了客户端必须进行网页的渲染,因此,即便网络爬虫破解了上述识别方法,也需要进行网页渲染,而网页渲染会相对于只做网页解析耗时多了,因此,网络爬虫也就没法以高频率爬去网页。
综上所述,本申请提供的网络爬虫识别方法具有以下优点:
1、不担心网络爬虫伪造user agent,因为本申请不依赖user agent信息,所以本申请提供的网络爬虫识别方法对网络爬虫识别的可靠性较高;
2、不会对正常用户的浏览体验造成影响。因为正常用户浏览网页时,客户端也需要进行网页渲染,本申请提供的网络爬虫识别方法是在客户端正常的网页渲染完成之后,截取了网页的图片上报给服务器而已,因此不影响正常用户浏览网页的流畅性。
3、不怕被网络爬虫破解,即便网络爬虫破解了本申请提供的网络爬虫识别方法,网络爬虫也必须进行网页渲染,并上报渲染的网页的图片,这就会极大的消耗网络爬虫自身的资源,从而可以降低网络爬虫访问网页的频率。
图4为本申请网络爬虫识别方法再一个实施例的流程图,如图4所示,该网络爬虫识别方法可以包括:
步骤401,在网页渲染完毕后,客户端获取当前渲染的网页的图片和上述网页的URL。
步骤402,客户端将上述网页的图片和上述网页的URL发送给服务器,以便上述服务器根据上述URL获取样本图片,并根据相似度与预设阈值的比较,识别上述客户端是否为网络爬虫,上述相似度为上述网页的图片与上述样本图片的相似度。
其中,上述预设阈值可以在具体实现时动态设置,本实施例对上述预设阈值的大小不作限定。
上述网络爬虫识别方法中,在网页渲染完毕后,客户端获取当前渲染的网页的图片和上述网页的URL,并将上述网页的图片和上述网页的URL发送给服务器,以便上述服务器根据上述URL获取样本图片,并根据上述网页的图片与上述样本图片的相似度与预设阈值的比较,识别上述客户端是否为网络爬虫。该方法对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,并且即便网络爬虫破解了上述识别方法,也会极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率。
图5为本申请网络爬虫识别方法再一个实施例的流程图,如图5所示,该网络爬虫识别方法可以包括:
步骤501,接收客户端的连接信息。
其中,上述客户端的连接信息包括客户端的IP地址和上述客户端的连接时间;进一步地,上述客户端的连接信息还可以包括用户代理(user agent)和上述客户端的用户标识等可以标记该客户端的信息。
步骤502,如果上述客户端的连接信息在待验证客户端库中,并且上述客户端的连接信息在上述待验证客户端库中存在的时间超过预设时长,则识别上述客户端为网络爬虫。
其中,上述预设时长可以在具体实现时根据业务形态动态设置,本实施例对上述预设时长的长短不作限定,举例来说,上述预设时长可以为10秒。
进一步地,识别上述客户端为网络爬虫之后,服务器还可以将上述客户端的连接信息存入网络爬虫库。
进一步地,接收客户端的连接信息之后,如果上述客户端的连接信息不在待验证客户端库中,则服务器可以将上述客户端的连接信息和上述客户端当前访问的URL存入上述待验证客户端库。
进一步地,本实施例中,步骤501之后,步骤502之前,服务器还可以判断上述客户端的连接信息是否在网络爬虫库中;如果是,则服务器识别上述客户端为网络爬虫;如果所述客户端的连接信息不在网络爬虫库中,则服务器执行步骤502。
上述网络爬虫识别方法,接收客户端的连接信息之后,如果上述客户端的连接信息在待验证客户端库中,并且上述客户端的连接信息在待验证客户端库中存在的时间超过预设时长,则服务器识别上述客户端为网络爬虫。该方法对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,用户体验较好。
图6为本申请网络爬虫识别装置一个实施例的结构示意图,本实施例中的网络识别装置可以作为服务器,或者服务器的一部分实现本申请图1所示实施例的流程,如图6所示,该网络爬虫识别装置可以包括:接收模块61、获取模块62和识别模块63;
其中,接收模块61,用于接收客户端在网页渲染完毕后发送的上述网页的图片和上述网页的URL;
获取模块62,用于根据上述URL获取样本图片;
识别模块63,用于根据相似度与预设阈值的比较,识别上述客户端是否为网络爬虫,其中,上述相似度为接收模块61接收的网页的图片与获取模块62获取的样本图片的相似度。具体地,识别模块63,用于当上述网页的图片与获取模块62获取的样本图片的相似度大于预设阈值时,识别上述客户端不是网络爬虫。其中,上述预设阈值可以在具体实现时动态设置,本实施例对上述预设阈值的大小不作限定。
上述网络爬虫识别装置中,接收模块61接收客户端在网页渲染完毕后发送的上述网页的图片和上述网页的URL之后,获取模块62根据上述URL获取样本图片,识别模块63根据上述网页的图片与上述样本图片的相似度与预设阈值的比较,识别上述客户端是否为网络爬虫,该装置对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,并且即便网络爬虫破解了上述识别方法,也会极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率。
图7为本申请网络爬虫识别装置另一个实施例的结构示意图,本实施例中的网络识别装置可以作为服务器,或者服务器的一部分实现本申请图1~图3所示实施例的流程,与图6所示的网络爬虫识别装置相比,不同之处在于,图7所示的网络爬虫识别装置,还可以包括:判断模块64;
判断模块64,用于在获取模块62获取样本图片之前,判断上述客户端的连接信息和上述URL是否在待验证客户端库中;则,获取模块62,具体用于当判断模块64确定上述客户端的连接信息和上述URL在待验证客户端库中时,执行根据上述URL获取样本图片的步骤。其中,上述客户端的连接信息可以包括上述客户端的IP地址、上述客户端的连接时间、用户代理(user agent)和上述客户端的用户标识等可以标记该客户端的信息。
进一步地,上述网络爬虫识别装置还可以包括:删除模块65;
删除模块65,用于在识别模块63识别上述客户端不是网络爬虫之前,当上述网页的图片与上述样本图片的相似度大于预设阈值时,从上述待验证客户端库中删除上述网页的URL;
判断模块64,还用于判断上述待验证客户端库中是否还有该客户端对应的其他需要验证的URL;
这时,识别模块63,具体用于当判断模块64确定上述待验证客户端库中已没有该客户端对应的其他需要验证的URL时,执行识别上述客户端不是网络爬虫的步骤。
进一步地,上述网络爬虫识别装置还可以包括:保存模块66;
接收模块61,还用于在接收上述网页的图片和上述网页的URL之前,接收客户端的连接信息和上述客户端当前访问的URL,其中,上述客户端的连接信息可以包括上述客户端的IP地址、上述客户端的连接时间、user agent和上述客户端的用户标识等可以标记该客户端的信息;
判断模块64,还用于判断上述客户端的连接信息是否在待验证客户端库中;
保存模块66,用于当判断模块64确定上述客户端的连接信息不在待验证客户端库中时,将上述客户端的连接信息和上述客户端当前访问的URL存入待验证客户端库。
进一步地,判断模块64,还用于在判断上述客户端的连接信息是否在待验证客户端库中之后,如果上述客户端的连接信息在待验证客户端库中,则判断上述客户端的连接信息在待验证客户端库中存在的时间是否超过预设时长;
识别模块63,还用于当判断模块64确定上述客户端的连接信息在待验证客户端库中存在的时间超过预设时长时,识别上述客户端为网络爬虫;
保存模块66,还用于在识别模块63识别上述客户端为网络爬虫之后,将上述客户端的连接信息存入网络爬虫库;以及在上述客户端的连接信息在上述待验证客户端库中存在的时间未超过预设时长时,将上述客户端的连接信息和上述客户端当前访问的URL存入待验证客户端库。
其中,上述预设时长可以在具体实现时根据业务形态动态设置,本实施例对上述预设时长的长短不作限定,举例来说,上述预设时长可以为10秒。
进一步地,判断模块64,还用于在判断上述客户端的连接信息是否在待验证客户端库中之前,判断上述客户端的连接信息是否在网络爬虫库中;
识别模块63,还用于在判断模块64确定上述客户端的连接信息在网络爬虫库中时,识别上述客户端为网络爬虫;
判断模块64,具体用于在确定上述客户端的连接信息不在网络爬虫库中之后,执行判断上述客户端的连接信息是否在待验证客户端库中的步骤。
本实施例中,获取模块62可以包括:查找子模块621和输出子模块622;
其中,查找子模块621,用于根据上述网页的图片的尺寸和上述URL在样本图片库中查找匹配上述URL和上述尺寸的图片;
输出子模块622,用于在查找子模块621查找到匹配上述URL和上述尺寸的图片之后,输出匹配上述URL和上述尺寸的图片;
查找子模块621,还用于在上述样本图片库中未查找到匹配上述URL和上述尺寸的图片时,在上述样本图片库中查找匹配上述URL的图片,并在查找到的匹配上述URL的图片中查找与上述尺寸最接近的图片;
输出子模块622,还用于输出查找子模块621查找到的与上述尺寸最接近的图片。
进一步地,上述网络爬虫识别装置还可以包括:生成模块67;
生成模块67,用于当在样本图片库中未查找到匹配上述URL的图片,或者样本图片库中已有的URL的页面有修改时,生成上述URL所支持的至少一种渲染尺寸的图片;
保存模块66,还用于将生成模块67生成的图片存入上述样本图片库作为上述URL的样本图片。
上述网络爬虫识别装置对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,并且即便网络爬虫破解了上述识别方法,也会极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率。
图8为本申请网络爬虫识别装置再一个实施例的结构示意图,本实施例中的网络爬虫识别装置可以作为客户端,或者客户端的一部分实现本申请图4所示实施例的流程,如图8所示,该网络爬虫识别装置可以包括:获取模块81和发送模块82;
获取模块81,用于在网页渲染完毕后,获取当前渲染的网页的图片和上述网页的URL;
发送模块82,用于将获取模块81获取的上述网页的图片和上述网页的URL发送给服务器,以便服务器根据上述URL获取样本图片,并根据相似度与预设阈值的比较,识别上述客户端是否为网络爬虫,上述相似度为上述网页的图片与上述样本图片的相似度。
其中,上述预设阈值可以在具体实现时动态设置,本实施例对上述预设阈值的大小不作限定。
上述网络爬虫识别装置中,在网页渲染完毕后,获取模块81获取当前渲染的网页的图片和上述网页的URL,发送模块82将上述网页的图片和上述网页的URL发送给服务器,以便上述服务器根据上述URL获取样本图片,并根据上述网页的图片与上述样本图片的相似度与预设阈值的比较,识别上述客户端不是网络爬虫。该装置对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,并且即便网络爬虫破解了上述识别方法,也会极大的消耗网络爬虫自身的资源,降低网络爬虫访问网页的频率。
图9为本申请网络爬虫识别装置再一个实施例的结构示意图,本实施例中的网络爬虫识别装置可以作为服务器,或服务器的一部分实现本发明图5所示实施例的流程。如图9所示,该网络爬虫识别装置可以包括:接收模块91和识别模块92;
其中,接收模块91,用于接收客户端的连接信息。其中,上述客户端的连接信息包括客户端的IP地址和上述客户端的连接时间;进一步地,上述客户端的连接信息还可以包括用户代理(user agent)和上述客户端的用户标识等可以标记该客户端的信息。
识别模块92,用于当接收模块91接收的上述客户端的连接信息在待验证客户端库中,并且上述客户端的连接信息在上述待验证客户端库中存在的时间超过预设时长时,识别上述客户端为网络爬虫。
其中,上述预设时长可以在具体实现时根据业务形态动态设置,本实施例对上述预设时长的长短不作限定,举例来说,上述预设时长可以为10秒。
上述网络爬虫识别装置中,接收模块91接收客户端的连接信息之后,如果上述客户端的连接信息在待验证客户端库中,并且上述客户端的连接信息在待验证客户端库中存在的时间超过预设时长,则识别模块92识别上述客户端为网络爬虫。该装置对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,用户体验较好。
图10为本申请网络爬虫识别装置再一个实施例的结构示意图,与图9所示的网络爬虫识别装置相比,不同之处在于,图10所示的网络爬虫识别装置还可以包括:保存模块93和判断模块94;
保存模块93,用于在识别模块92识别上述客户端为网络爬虫之后,将上述客户端的连接信息存入网络爬虫库。
保存模块93,还用于当接收模块91接收的上述客户端的连接信息不在待验证客户端库中时,将上述客户端的连接信息和上述客户端当前访问的URL存入待验证客户端库。
判断模块94,用于判断接收模块91接收的上述客户端的连接信息是否在网络爬虫库中;
识别模块92,还用于当判断模块94确定上述客户端的连接信息在网络爬虫库中时,识别上述客户端为网络爬虫。
上述网络爬虫识别装置对网络爬虫识别的可靠性较高,不影响正常用户浏览网页的流畅性,用户体验较好。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (23)

1.一种网络爬虫识别方法,其特征在于,包括:
接收客户端在网页渲染完毕后发送的所述网页的图片和所述网页的URL;
根据所述URL获取样本图片;
根据相似度与预设阈值的比较,识别所述客户端是否为网络爬虫,所述相似度为所述网页的图片与所述样本图片的相似度。
2.根据权利要求1所述的方法,其特征在于,所述根据相似度与预设阈值的比较,识别所述客户端是否为网络爬虫包括:
如果所述网页的图片与所述样本图片的相似度大于预设阈值,则识别所述客户端不是网络爬虫。
3.根据权利要求2所述的方法,其特征在于,所述根据所述URL获取样本图片之前,还包括:
判断所述客户端的连接信息和所述URL是否在待验证客户端库中;
如果是,则执行所述根据所述URL获取样本图片的步骤。
4.根据权利要求3所述的方法,其特征在于,所述识别所述客户端不是网络爬虫之前,还包括:
如果所述网页的图片与所述样本图片的相似度大于预设阈值,则从所述待验证客户端库中删除所述网页的URL;
判断所述待验证客户端库中是否还有所述客户端对应的其他需要验证的URL;
如果否,则执行识别所述客户端不是网络爬虫的步骤。
5.根据权利要求3-4任意一项所述的方法,其特征在于,所述接收客户端在网页渲染完毕后发送的所述网页的图片和所述网页的URL之前,还包括:
接收客户端的连接信息和所述客户端当前访问的URL,所述客户端的连接信息包括所述客户端的IP地址和所述客户端的连接时间;
判断所述客户端的连接信息是否在待验证客户端库中;
如果否,则将所述客户端的连接信息和所述客户端当前访问的URL存入所述待验证客户端库。
6.根据权利要求5所述的方法,其特征在于,所述判断所述客户端的连接信息是否在待验证客户端库中之后,还包括:
如果所述客户端的连接信息在所述待验证客户端库中,则判断所述客户端的连接信息在所述待验证客户端库中存在的时间是否超过预设时长;
如果是,则识别所述客户端为网络爬虫,并将所述客户端的连接信息存入网络爬虫库;
如果所述客户端的连接信息在所述待验证客户端库中存在的时间未超过预设时长,则将所述客户端的连接信息和所述客户端当前访问的URL存入所述待验证客户端库。
7.根据权利要求1-4任意一项所述的方法,其特征在于,所述根据所述URL获取样本图片包括:
根据所述网页的图片的尺寸和所述URL在样本图片库中查找匹配所述URL和所述尺寸的图片;
如果查找到,则输出匹配所述URL和所述尺寸的图片;
如果在所述样本图片库中未查找到匹配所述URL和所述尺寸的图片,则在所述样本图片库中查找匹配所述URL的图片,并在查找到的匹配所述URL的图片中查找与所述尺寸最接近的图片,并输出查找到的与所述尺寸最接近的图片。
8.一种网络爬虫识别方法,其特征在于,包括:
在网页渲染完毕后,客户端获取当前渲染的网页的图片和所述网页的URL;
所述客户端将所述网页的图片和所述网页的URL发送给服务器,以便所述服务器根据所述URL获取样本图片,并根据相似度与预设阈值的比较,识别所述客户端是否为网络爬虫,所述相似度为所述网页的图片与所述样本图片的相似度。
9.一种网络爬虫识别方法,其特征在于,包括:
接收客户端的连接信息,所述客户端的连接信息包括所述客户端的IP地址和所述客户端的连接时间;
如果所述客户端的连接信息在待验证客户端库中,并且所述客户端的连接信息在所述待验证客户端库中存在的时间超过预设时长,则识别所述客户端为网络爬虫。
10.根据权利要求9所述的方法,其特征在于,所述识别所述客户端为网络爬虫之后,还包括:
将所述客户端的连接信息存入网络爬虫库。
11.根据权利要求9所述的方法,其特征在于,所述接收客户端的连接信息之后,还包括:
如果所述客户端的连接信息不在待验证客户端库中,将所述客户端的连接信息和所述客户端当前访问的URL存入所述待验证客户端库。
12.根据权利要求9所述的方法,其特征在于,所述接收客户端的连接信息之后,还包括:
判断所述客户端的连接信息是否在网络爬虫库中;
如果是,则识别所述客户端为网络爬虫;
如果所述客户端的连接信息不在所述网络爬虫库中,则执行所述识别所述客户端为网络爬虫的步骤。
13.一种网络爬虫识别装置,其特征在于,包括:
接收模块,用于接收客户端在网页渲染完毕后发送的所述网页的图片和所述网页的URL;
获取模块,用于根据所述URL获取样本图片;
识别模块,用于根据相似度与预设阈值的比较,识别所述客户端是否为网络爬虫,所述相似度为所述接收模块接收的网页的图片与所述获取模块获取的样本图片的相似度。
14.根据权利要求13所述的装置,其特征在于,
所述识别模块,具体用于当所述网页的图片与所述获取模块获取的样本图片的相似度大于预设阈值时,识别所述客户端不是网络爬虫。
15.根据权利要求14所述的装置,其特征在于,还包括:判断模块;
所述判断模块,用于在所述获取模块获取样本图片之前,判断所述客户端的连接信息和所述URL是否在待验证客户端库中;
所述获取模块,具体用于当所述判断模块确定所述客户端的连接信息和所述URL在待验证客户端库中时,执行所述根据所述URL获取样本图片的步骤。
16.根据权利要求15所述的装置,其特征在于,还包括:删除模块;
所述删除模块,用于在所述识别模块识别所述客户端不是网络爬虫之前,当所述网页的图片与所述样本图片的相似度大于预设阈值时,从所述待验证客户端库中删除所述网页的URL;
所述判断模块,还用于判断所述待验证客户端库中是否还有所述客户端对应的其他需要验证的URL;
所述识别模块,具体用于当所述判断模块确定所述待验证客户端库中已没有所述客户端对应的其他需要验证的URL时,执行识别所述客户端不是网络爬虫的步骤。
17.根据权利要求15-16任意一项所述的装置,其特征在于,还包括:保存模块;
所述接收模块,还用于在接收所述网页的图片和所述网页的URL之前,接收客户端的连接信息和所述客户端当前访问的URL,所述客户端的连接信息包括所述客户端的IP地址和所述客户端的连接时间;
所述判断模块,还用于判断所述客户端的连接信息是否在待验证客户端库中;
所述保存模块,用于当所述判断模块确定所述客户端的连接信息不在待验证客户端库中时,将所述客户端的连接信息和所述客户端当前访问的URL存入所述待验证客户端库。
18.根据权利要求17所述的装置,其特征在于,
所述判断模块,还用于在判断所述客户端的连接信息是否在待验证客户端库中之后,如果所述客户端的连接信息在所述待验证客户端库中,则判断所述客户端的连接信息在所述待验证客户端库中存在的时间是否超过预设时长;
所述识别模块,还用于当所述判断模块确定所述客户端的连接信息在所述待验证客户端库中存在的时间超过预设时长时,识别所述客户端为网络爬虫;
所述保存模块,还用于在所述识别模块识别所述客户端为网络爬虫之后,将所述客户端的连接信息存入网络爬虫库;以及在所述客户端的连接信息在所述待验证客户端库中存在的时间未超过预设时长时,将所述客户端的连接信息和所述客户端当前访问的URL存入所述待验证客户端库。
19.根据权利要求13-16任意一项所述的装置,其特征在于,所述获取模块包括:查找子模块和输出子模块;
所述查找子模块,用于根据所述网页的图片的尺寸和所述URL在样本图片库中查找匹配所述URL和所述尺寸的图片;
所述输出子模块,用于在所述查找子模块查找到匹配所述URL和所述尺寸的图片之后,输出匹配所述URL和所述尺寸的图片;
所述查找子模块,还用于在所述样本图片库中未查找到匹配所述URL和所述尺寸的图片时,在所述样本图片库中查找匹配所述URL的图片,并在查找到的匹配所述URL的图片中查找与所述尺寸最接近的图片;
所述输出子模块,还用于输出所述查找子模块查找到的与所述尺寸最接近的图片。
20.一种网络爬虫识别装置,其特征在于,包括:
获取模块,用于在网页渲染完毕后,获取当前渲染的网页的图片和所述网页的URL;
发送模块,用于将所述获取模块获取的所述网页的图片和所述网页的URL发送给服务器,以便所述服务器根据所述URL获取样本图片,并根据相似度与预设阈值的比较,识别所述客户端是否为网络爬虫,所述相似度为所述网页的图片与所述样本图片的相似度。
21.一种网络爬虫识别装置,其特征在于,包括:
接收模块,用于接收客户端的连接信息,所述客户端的连接信息包括所述客户端的IP地址和所述客户端的连接时间;
识别模块,用于当所述接收模块接收的所述客户端的连接信息在待验证客户端库中,并且所述客户端的连接信息在所述待验证客户端库中存在的时间超过预设时长时,识别所述客户端为网络爬虫。
22.根据权利要求21所述的装置,其特征在于,还包括:
保存模块,用于在所述识别模块识别所述客户端为网络爬虫之后,将所述客户端的连接信息存入网络爬虫库。
23.根据权利要求22所述的装置,其特征在于,
所述保存模块,还用于当所述接收模块接收的所述客户端的连接信息不在待验证客户端库中时,将所述客户端的连接信息和所述客户端当前访问的URL存入所述待验证客户端库。
CN201510250481.6A 2015-05-15 2015-05-15 网络爬虫识别方法和装置 Active CN106294368B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510250481.6A CN106294368B (zh) 2015-05-15 2015-05-15 网络爬虫识别方法和装置
CN201910957170.1A CN110851680B (zh) 2015-05-15 2015-05-15 网络爬虫识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510250481.6A CN106294368B (zh) 2015-05-15 2015-05-15 网络爬虫识别方法和装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910957170.1A Division CN110851680B (zh) 2015-05-15 2015-05-15 网络爬虫识别方法和装置

Publications (2)

Publication Number Publication Date
CN106294368A true CN106294368A (zh) 2017-01-04
CN106294368B CN106294368B (zh) 2019-11-05

Family

ID=57632270

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910957170.1A Active CN110851680B (zh) 2015-05-15 2015-05-15 网络爬虫识别方法和装置
CN201510250481.6A Active CN106294368B (zh) 2015-05-15 2015-05-15 网络爬虫识别方法和装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910957170.1A Active CN110851680B (zh) 2015-05-15 2015-05-15 网络爬虫识别方法和装置

Country Status (1)

Country Link
CN (2) CN110851680B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092660A (zh) * 2017-03-28 2017-08-25 成都优易数据有限公司 一种网站服务器爬虫识别方法和装置
CN109582844A (zh) * 2018-11-07 2019-04-05 北京三快在线科技有限公司 一种识别爬虫的方法、装置及系统
CN110503504A (zh) * 2019-03-14 2019-11-26 杭州海康威视数字技术股份有限公司 网络产品的信息识别方法、装置及设备
CN110519280A (zh) * 2019-08-30 2019-11-29 北京思维造物信息科技股份有限公司 一种爬虫识别方法、装置、计算机设备及存储介质
CN110647672A (zh) * 2019-08-29 2020-01-03 北京三快在线科技有限公司 异常用户检测方法、装置、电子设备及可读存储介质
CN111428179A (zh) * 2020-03-19 2020-07-17 北大方正集团有限公司 图片监测方法、装置及电子设备
CN111680206A (zh) * 2020-08-13 2020-09-18 云盾智慧安全科技有限公司 网络爬虫的识别方法及装置、计算机可读存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101902438A (zh) * 2009-05-25 2010-12-01 北京启明星辰信息技术股份有限公司 一种自动识别网页爬虫的方法和装置
CN102054028A (zh) * 2010-12-10 2011-05-11 黄斌 具备页面渲染功能的网络爬虫系统及其实现方法
CN102495861A (zh) * 2011-11-24 2012-06-13 中国科学院计算技术研究所 一种网络爬虫识别系统及方法
CN102737019A (zh) * 2011-03-31 2012-10-17 阿里巴巴集团控股有限公司 机器行为确定方法、网页浏览器及网页服务器
CN102790700A (zh) * 2011-05-19 2012-11-21 北京启明星辰信息技术股份有限公司 一种识别网页爬虫的方法和装置
CN102833212A (zh) * 2011-06-14 2012-12-19 阿里巴巴集团控股有限公司 网页访问者身份识别方法及系统
CN103279548A (zh) * 2013-06-06 2013-09-04 浙江大学 一种对网站进行无障碍检测的方法
CN103279516A (zh) * 2013-05-27 2013-09-04 百度在线网络技术(北京)有限公司 网络爬虫识别方法
CN103365967A (zh) * 2013-06-21 2013-10-23 百度在线网络技术(北京)有限公司 一种基于爬虫的自动化差异检测方法及装置
CN103544193A (zh) * 2012-07-17 2014-01-29 北京千橡网景科技发展有限公司 用于识别网络机器人的方法和设备
CN103634366A (zh) * 2012-08-27 2014-03-12 北京千橡网景科技发展有限公司 用于识别网络机器人的方法和设备
CN103631830A (zh) * 2012-08-29 2014-03-12 华为技术有限公司 网络爬虫检测方法和装置
CN104601601A (zh) * 2015-02-25 2015-05-06 小米科技有限责任公司 网络爬虫的检测方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8463790B1 (en) * 2010-03-23 2013-06-11 Firstrain, Inc. Event naming
CN102663000B (zh) * 2012-03-15 2016-08-03 北京百度网讯科技有限公司 恶意网址数据库的建立方法、恶意网址的识别方法和装置
CN103810425B (zh) * 2012-11-13 2015-09-30 腾讯科技(深圳)有限公司 恶意网址的检测方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101902438A (zh) * 2009-05-25 2010-12-01 北京启明星辰信息技术股份有限公司 一种自动识别网页爬虫的方法和装置
CN102054028A (zh) * 2010-12-10 2011-05-11 黄斌 具备页面渲染功能的网络爬虫系统及其实现方法
CN102737019A (zh) * 2011-03-31 2012-10-17 阿里巴巴集团控股有限公司 机器行为确定方法、网页浏览器及网页服务器
CN102790700A (zh) * 2011-05-19 2012-11-21 北京启明星辰信息技术股份有限公司 一种识别网页爬虫的方法和装置
CN102833212A (zh) * 2011-06-14 2012-12-19 阿里巴巴集团控股有限公司 网页访问者身份识别方法及系统
CN102495861A (zh) * 2011-11-24 2012-06-13 中国科学院计算技术研究所 一种网络爬虫识别系统及方法
CN103544193A (zh) * 2012-07-17 2014-01-29 北京千橡网景科技发展有限公司 用于识别网络机器人的方法和设备
CN103634366A (zh) * 2012-08-27 2014-03-12 北京千橡网景科技发展有限公司 用于识别网络机器人的方法和设备
CN103631830A (zh) * 2012-08-29 2014-03-12 华为技术有限公司 网络爬虫检测方法和装置
CN103279516A (zh) * 2013-05-27 2013-09-04 百度在线网络技术(北京)有限公司 网络爬虫识别方法
CN103279548A (zh) * 2013-06-06 2013-09-04 浙江大学 一种对网站进行无障碍检测的方法
CN103365967A (zh) * 2013-06-21 2013-10-23 百度在线网络技术(北京)有限公司 一种基于爬虫的自动化差异检测方法及装置
CN104601601A (zh) * 2015-02-25 2015-05-06 小米科技有限责任公司 网络爬虫的检测方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092660A (zh) * 2017-03-28 2017-08-25 成都优易数据有限公司 一种网站服务器爬虫识别方法和装置
CN109582844A (zh) * 2018-11-07 2019-04-05 北京三快在线科技有限公司 一种识别爬虫的方法、装置及系统
CN110503504A (zh) * 2019-03-14 2019-11-26 杭州海康威视数字技术股份有限公司 网络产品的信息识别方法、装置及设备
CN110503504B (zh) * 2019-03-14 2022-02-15 杭州海康威视数字技术股份有限公司 网络产品的信息识别方法、装置及设备
CN110647672A (zh) * 2019-08-29 2020-01-03 北京三快在线科技有限公司 异常用户检测方法、装置、电子设备及可读存储介质
CN110519280A (zh) * 2019-08-30 2019-11-29 北京思维造物信息科技股份有限公司 一种爬虫识别方法、装置、计算机设备及存储介质
CN110519280B (zh) * 2019-08-30 2022-01-04 北京思维造物信息科技股份有限公司 一种爬虫识别方法、装置、计算机设备及存储介质
CN111428179A (zh) * 2020-03-19 2020-07-17 北大方正集团有限公司 图片监测方法、装置及电子设备
CN111428179B (zh) * 2020-03-19 2023-09-19 新方正控股发展有限责任公司 图片监测方法、装置及电子设备
CN111680206A (zh) * 2020-08-13 2020-09-18 云盾智慧安全科技有限公司 网络爬虫的识别方法及装置、计算机可读存储介质
CN111680206B (zh) * 2020-08-13 2021-09-10 云盾智慧安全科技有限公司 网络爬虫的识别方法及装置、计算机可读存储介质

Also Published As

Publication number Publication date
CN106294368B (zh) 2019-11-05
CN110851680A (zh) 2020-02-28
CN110851680B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN106294368A (zh) 网络爬虫识别方法和装置
US12003562B2 (en) System and method for streaming content from multiple servers
AU2018201459B2 (en) System and method for improving access to search results
US10515142B2 (en) Method and apparatus for extracting webpage information
WO2016173200A1 (zh) 用于检测恶意网址的方法和系统
US20170318321A1 (en) Distributing media content via media channels based on associated content being provided over other media channels
US7987243B2 (en) Method for media discovery
CN109451333B (zh) 一种弹幕显示方法、装置、终端及系统
US20050138143A1 (en) Pre-fetching linked content
CN109729044B (zh) 一种通用的互联网数据采集反反爬系统及方法
CN107872534B (zh) 信息推送方法、装置、服务器及可读存储介质
CN104144357B (zh) 视频播放方法和系统
US11423096B2 (en) Method and apparatus for outputting information
CN108334516B (zh) 信息推送方法和装置
CN104346464A (zh) 网页元素信息的处理方法、装置和浏览器客户端
CN104768066A (zh) 数据下载方法、装置和终端
CN105069011A (zh) 用于管理网页收藏夹的方法、装置及系统
CN108197336A (zh) 一种视频查找的方法及装置
Youn et al. Forensic analysis for AI speaker with display Echo Show 2nd generation as a case study
US20210326599A1 (en) System and method for automatically detecting and marking logical scenes in media content
CN104023046B (zh) 移动终端识别方法和装置
CN110008462B (zh) 一种命令序列检测方法及命令序列处理方法
CN113038153A (zh) 金融直播违规检测方法、装置、设备及可读存储介质
CN103823833A (zh) 网页中多媒体数据的收藏方法和浏览器装置
CN104468769A (zh) 进行网络数据内容获取的方法、装置、客户端和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant