CN109474640A - 恶意爬虫检测方法、装置、电子设备及存储介质 - Google Patents

恶意爬虫检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109474640A
CN109474640A CN201811652954.5A CN201811652954A CN109474640A CN 109474640 A CN109474640 A CN 109474640A CN 201811652954 A CN201811652954 A CN 201811652954A CN 109474640 A CN109474640 A CN 109474640A
Authority
CN
China
Prior art keywords
network address
access
crawler
malice
access frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811652954.5A
Other languages
English (en)
Other versions
CN109474640B (zh
Inventor
卢思成
王飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qianxin Technology Co Ltd
Original Assignee
Beijing Qianxin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qianxin Technology Co Ltd filed Critical Beijing Qianxin Technology Co Ltd
Priority to CN201811652954.5A priority Critical patent/CN109474640B/zh
Publication of CN109474640A publication Critical patent/CN109474640A/zh
Application granted granted Critical
Publication of CN109474640B publication Critical patent/CN109474640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种恶意爬虫检测方法,应用于计算机技术领域,包括:获取待检测的网络地址的访问信息,访问信息包括网络地址访问目标网站的访问频率,获取访问信息内的访问频率,并判断访问频率是否大于第一预设阈值,当访问频率大于第一预设阈值,则判断网络地址是否为伪装用户代理商,若网络地址不是伪装用户代理商,则在访问信息内查找是否有referer字段,当没有referer字段或referer字段为空时,判断访问频率是否大于第二预设阈值,若是,则确定网络地址通过恶意爬虫访问目标网站。本发明还公开了一种恶意爬虫检测装置、电子设备及存储介质,可提升检测恶意爬虫的时效性。

Description

恶意爬虫检测方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种恶意爬虫检测方法、装置、电子设备及存储介质。
背景技术
目前对于恶意爬虫的检测主要使用以下四种方法:
(1)日志句法分析方法。通过对比访问用户和爬虫名单库中爬虫的用户代理域关键词、IP地址等信息来检测爬虫,使用日志句法分析技术来检测访问在线科学杂志Glycobiology的爬虫,这类技术只能发现已被记录的爬虫。
(2)基于网络流量的分析技术。通过寻找人类用户与爬虫的不同流量特征来检测爬虫。利用人类用户与爬虫的查询数量和时间间隔模式的不同来检测爬虫。
(3)机器学习方法。使用机器学习模型来判断访问是否来自爬虫。常使用的模型有神经网络、贝叶斯分类器、决策树、SVM、马尔可夫链模型等。
(4)图灵测试系统通过让访问者回答一些问题来分析其是否为爬虫。
目前,以上四种方法虽然可以起到一定的对于恶意爬虫的检测,但是都是被恶意爬虫执行了一段时间之后,才检测到进而进行相应的处理,缺少时效性。
发明内容
本发明的主要目的在于提供一种恶意爬虫检测方法、装置、电子设备及存储介质,可提升检测恶意爬虫的时效性。
为实现上述目的,本发明实施例第一方面提供一种恶意爬虫检测方法,包括:
获取待检测的网络地址的访问信息,所述访问信息包括所述网络地址访问目标网站的访问频率;
获取所述访问信息内的所述访问频率,并判断所述访问频率是否大于第一预设阈值;
当所述访问频率大于所述第一预设阈值,则判断所述网络地址是否为伪装用户代理商;
若所述网络地址不是伪装用户代理商,则在所述访问信息内查找是否有referer字段,当没有所述referer字段或所述referer字段为空时,判断所述访问频率是否大于第二预设阈值,若是,则确定所述网络地址通过恶意爬虫访问所述目标网站。
本发明实施例第二方面提供一种恶意爬虫检测装置,包括:
第一获取模块,用于获取待检测的网络地址的访问信息,所述访问信息包括所述网络地址访问目标网站的访问频率;
第二获取模块,用于获取所述访问信息内的所述访问频率,并判断所述访问频率是否大于第一预设阈值;
第一判断模块,用于当所述访问频率大于所述第一预设阈值,则判断所述网络地址是否为伪装用户代理商;
确定模块,用于若所述网络地址不是伪装用户代理商,则在所述访问信息内查找是否有referer字段,当没有所述referer字段或所述referer字段为空时,判断所述访问频率是否大于第二预设阈值,若是,则确定所述网络地址通过恶意爬虫访问所述目标网站。
本发明实施例第三方面提供了一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本发明实施例第一方面提供的恶意爬虫检测方法。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的恶意爬虫检测方法。
从上述本发明实施例可知,本发明提供的恶意爬虫检测方法、装置、电子设备及存储介质,获取待检测的网络地址的访问信息,访问信息包括网络地址访问目标网站的访问频率,获取访问信息内的访问频率,并判断访问频率是否大于第一预设阈值,当访问频率大于第一预设阈值,则判断网络地址是否为伪装用户代理商,若网络地址不是伪装用户代理商,则在访问信息内查找是否有referer字段,当没有referer字段或referer字段为空时,判断访问频率是否大于第二预设阈值,若是,则确定网络地址通过恶意爬虫访问目标网站,可提升检测恶意爬虫的时效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例提供的恶意爬虫检测方法的流程示意图;
图2为本发明又一实施例提供的恶意爬虫检测装置的结构示意图;
图3示出了一种电子设备的硬件结构图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明第一实施例提供的恶意爬虫检测方法的流程示意图,该方法可应用于电子设备中,电子设备包括:手机、平板电脑(Portable Android Device,PAD),笔记本电脑以及个人数字助理(Personal Digital Assistant,PDA)等,该方法主要包括以下步骤:
S101、判断待检测的网络地址是否为外部网络地址;
若该网络地址为外部网络地址,则执行步骤S102。
S102、获取待检测的网络地址的访问信息;
待检测的网络地址是指网络上所有对大数据平台服务器访问的IP地址,访问信息可以是访问产生的日志文件。
访问信息包括网络地址访问目标网站的访问频率。
S103、获取访问信息内的访问频率;
示例性的,可5分钟统计一次访问频率。将五分钟内,待检测的网络地址每秒访问目标网站的次数记录下来。
S104、判断访问频率是否大于第一预设阈值;
当访问频率大于第一预设阈值,则执行步骤S105。
示例性的,第一预设阈值为0.1.若访问频率大于0.1,则执行步骤S105。
S105、判断网络地址是否为伪装用户代理商;
若网络地址不是伪装用户代理商,则执行步骤S106:在访问信息内查找是否有referer字段。当没有referer字段或referer字段为空时,则执行步骤S107:判断访问频率是否大于第二预设阈值,若是,则执行步骤S108:确定网络地址通过恶意爬虫访问目标网站。
示例性的,第二预设阈值为10,若访问频率大于10,则确定网络地址通过恶意爬虫访问目标网站
其中,Referer是指标示当前网址是从哪个网址跳转过来的一个字段,没有这个字段或者这个字段值为空串是不合理的。
伪装用户代理商是指通过代码库访问目标网站,而不是通过常见的浏览器访问目标网站。
若网络地址是伪装用户代理商,则执行步骤S109:判断访问频率是否大于第三预设阈值。若大于第三预设阈值,则执行步骤S108:确定网络地址通过恶意爬虫访问目标网站。若不大于第三预设阈值,则执行步骤S1010:当网络地址不是通过认证爬虫访问目标网站时,判断目标网站是否允许通过爬虫访问,若不允许,则执行步骤S1011:判断访问频率是否大于第四预设阈值,若大于,则执行步骤S108:确定网络地址通过恶意爬虫访问目标网站。
示例性的,第三预设阈值为5,第四预设阈值为1。若访问频率大于5,则确定网络地址通过恶意爬虫访问目标网站。若访问频率不大于5,则当网络地址不是通过认证爬虫访问目标网站时,判断目标网站是否允许通过爬虫访问,若不允许,则判断访问频率是否大于1,若大于1,则确定网络地址通过恶意爬虫访问目标网站。
认证爬虫是指搜索引擎爬虫,即通过常见搜索引擎爬虫的伪装用户代理商来判断该网络地址是否通过认证爬虫访问目标网站。
更多的,由于很多网站的访问存在周期性特点,例如,上午9点开始上班时间,访问量会急剧增加,而凌晨1点到6点,访问量处于低谷,另外,周末的访问量也比周一到周五要低一些。所以对访问频率不能一概而论,为了降低误报,对恶意爬虫检测算法添加对历史访问数据过滤功能。在定义为恶意爬虫前,先基于历史数据,判断访问量是否具有特定时间特性。所以当确定网络地址通过恶意爬虫访问目标网站之前:
获取网络地址通过恶意爬虫访问目标网站时的时间点,判断该时间点的每秒查询率是否在预设范围内,若不在预设范围内,则确定网络地址通过恶意爬虫访问目标网站。
具体的,查询分布式缓存redis,获取该时间点在以往的汇总数据,确定预设范围。数据包括:avg(平均值)、std(方差)等,因此,预设范围[avg-3*std,avg+3*std]。若该时间点的每秒查询率在此范围内,则视为正常。若不在预设范围内,则确定网络地址通过恶意爬虫访问目标网站。
每秒查询率是指对一个特定的查询服务器在规定时间内所处理流量的多少。
更多的,将恶意爬虫的IP等信息记录在大数据平台。以便在其他服务器上可以快速准确的判断恶意爬虫,进而对恶意爬虫进行处理。
在本发明实施例中,获取待检测的网络地址的访问信息,访问信息包括网络地址访问目标网站的访问频率,获取访问信息内的访问频率,并判断访问频率是否大于第一预设阈值,当访问频率大于第一预设阈值,则判断网络地址是否为伪装用户代理商,若网络地址不是伪装用户代理商,则在访问信息内查找是否有referer字段,当没有referer字段或referer字段为空时,判断访问频率是否大于第二预设阈值,若是,则确定网络地址通过恶意爬虫访问目标网站,可提升检测恶意爬虫的时效性。
请参阅图2,图2是本发明又一实施例提供的恶意爬虫检测装置的结构示意图,该装置可内置于电子设备中,该装置主要包括:
第一获取模块201、第二获取模块202、第一判断模块203和确定模块204。
第一获取模块201,用于获取待检测的网络地址的访问信息,访问信息包括网络地址访问目标网站的访问频率;
待检测的网络地址是指网络上所有对大数据平台服务器访问的IP地址,访问信息可以是访问产生的日志文件。
第二获取模块202,用于获取访问信息内的访问频率,并判断访问频率是否大于第一预设阈值;
第一判断模块203,用于当访问频率大于第一预设阈值,则判断网络地址是否为伪装用户代理商;
确定模块204,用于若网络地址不是伪装用户代理商,则在访问信息内查找是否有referer字段,当没有referer字段或referer字段为空时,判断访问频率是否大于第二预设阈值,若是,则确定网络地址通过恶意爬虫访问目标网站。
其中,Referer是指标示当前网址是从哪个网址跳转过来的一个字段,没有这个字段或者这个字段值为空串是不合理的。
伪装用户代理商是指通过代码库访问目标网站,而不是通过常见的浏览器访问目标网站。
进一步地,装置还包括:
第一判断子模块,用于若网络地址是伪装用户代理商,则判断访问频率是否大于第三预设阈值;
确定子模块,用于若大于第三预设阈值,则确定网络地址通过恶意爬虫访问所述目标网站;
确定子模块,用于若不大于第三预设阈值,则当网络地址不是通过认证爬虫访问目标网站时,判断目标网站是否允许通过爬虫访问,若不允许,则判断访问频率是否大于第四预设阈值,若大于,则确定网络地址通过恶意爬虫访问目标网站。
认证爬虫是指搜索引擎爬虫,即通过常见搜索引擎爬虫的伪装用户代理商来判断该网络地址是否通过认证爬虫访问目标网站。
第二判断模块,用于判断待检测的网络地址是否为外部网络地址;
第一获取模块,还用于若网络地址为外部网络地址,则执行获取待检测的网络地址的访问信息的步骤。
时间点获取模块,用于获取网络地址通过恶意爬虫访问目标网站时的时间点;
确定子模块,用于判断时间点的每秒查询率是否在预设范围内,若不在预设范围内,则确定网络地址通过恶意爬虫访问目标网站。
更多的,由于很多网站的访问存在周期性特点,例如,上午9点开始上班时间,访问量会急剧增加,而凌晨1点到6点,访问量处于低谷,另外,周末的访问量也比周一到周五要低一些。所以对访问频率不能一概而论,为了降低误报,对恶意爬虫检测算法添加对历史访问数据过滤功能。在定义为恶意爬虫前,先基于历史数据,判断访问量是否具有特定时间特性。所以当确定网络地址通过恶意爬虫访问目标网站之前:
获取网络地址通过恶意爬虫访问目标网站时的时间点,判断该时间点的每秒查询率是否在预设范围内,若不在预设范围内,则确定网络地址通过恶意爬虫访问目标网站。
具体的,查询分布式缓存redis,获取该时间点在以往的汇总数据,确定预设范围。数据包括:avg(平均值)、std(方差)等,因此,预设范围[avg-3*std,avg+3*std]。若该时间点的每秒查询率在此范围内,则视为正常。若不在预设范围内,则确定网络地址通过恶意爬虫访问目标网站。
每秒查询率是指对一个特定的查询服务器在规定时间内所处理流量的多少。
更多的,将恶意爬虫的IP等信息记录在大数据平台。以便在其他服务器上可以快速准确的判断恶意爬虫,进而对恶意爬虫进行处理。
在本发明实施例中,获取待检测的网络地址的访问信息,访问信息包括网络地址访问目标网站的访问频率,获取访问信息内的访问频率,并判断访问频率是否大于第一预设阈值,当访问频率大于第一预设阈值,则判断网络地址是否为伪装用户代理商,若网络地址不是伪装用户代理商,则在访问信息内查找是否有referer字段,当没有referer字段或referer字段为空时,判断访问频率是否大于第二预设阈值,若是,则确定网络地址通过恶意爬虫访问目标网站,可提升检测恶意爬虫的时效性。
请参见图3,图3示出了一种电子设备的硬件结构图。
本实施例中所描述的电子设备,包括:
存储器31、处理器32及存储在存储器31上并可在处理器上运行的计算机程序,处理器执行该程序时实现前述图1所示实施例中描述的恶意爬虫检测方法。
进一步地,该电子设备还包括:
至少一个输入设备33;至少一个输出设备34。
上述存储器31、处理器32输入设备33和输出设备34通过总线35连接。
其中,输入设备33具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备34具体可为显示屏。
存储器31可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器31用于存储一组可执行程序代码,处理器32与存储器31耦合。
进一步地,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的终端中,该计算机可读存储介质可以是前述图3所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1所示实施例中描述的恶意爬虫检测。进一步地,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的多个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信链接可以是通过一些接口,模块的间接耦合或通信链接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的恶意爬虫检测方法、装置、电子设备及存储介质的描述,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种恶意爬虫检测方法,其特征在于,包括:
获取待检测的网络地址的访问信息,所述访问信息包括所述网络地址访问目标网站的访问频率;
获取所述访问信息内的所述访问频率,并判断所述访问频率是否大于第一预设阈值;
当所述访问频率大于所述第一预设阈值,则判断所述网络地址是否为伪装用户代理商;
若所述网络地址不是伪装用户代理商,则在所述访问信息内查找是否有referer字段,当没有所述referer字段或所述referer字段为空时,判断所述访问频率是否大于第二预设阈值,若是,则确定所述网络地址通过恶意爬虫访问所述目标网站。
2.根据权利要求1所述的恶意爬虫检测方法,其特征在于,所述判断所述网络地址是否为伪装用户代理商之后,还包括:
若所述网络地址是伪装用户代理商,则判断所述访问频率是否大于第三预设阈值;
若大于所述第三预设阈值,则确定所述网络地址通过恶意爬虫访问所述目标网站;
若不大于所述第三预设阈值,则当所述网络地址不是通过认证爬虫访问所述目标网站时,判断所述目标网站是否允许通过爬虫访问,若不允许,则判断所述访问频率是否大于第四预设阈值,若大于,则确定所述网络地址通过恶意爬虫访问所述目标网站。
3.根据权利要求2所述的恶意爬虫检测方法,其特征在于,所述获取待检测的网络地址的访问信息之前包括:
判断待检测的所述网络地址是否为外部网络地址;
若所述网络地址为外部网络地址,则执行获取待检测的网络地址的访问信息的步骤。
4.根据权利要求1所述的恶意爬虫检测方法,其特征在于,所述确定所述网络地址通过恶意爬虫访问所述目标网站之前,包括:
获取所述网络地址通过恶意爬虫访问所述目标网站时的时间点;
判断所述时间点的每秒查询率是否在预设范围内,若不在预设范围内,则确定所述网络地址通过恶意爬虫访问所述目标网站。
5.一种恶意爬虫检测装置,其特征在于,包括:
第一获取模块,用于获取待检测的网络地址的访问信息,所述访问信息包括所述网络地址访问目标网站的访问频率;
第二获取模块,用于获取所述访问信息内的所述访问频率,并判断所述访问频率是否大于第一预设阈值;
第一判断模块,用于当所述访问频率大于所述第一预设阈值,则判断所述网络地址是否为伪装用户代理商;
确定模块,用于若所述网络地址不是伪装用户代理商,则在所述访问信息内查找是否有referer字段,当没有所述referer字段或所述referer字段为空时,判断所述访问频率是否大于第二预设阈值,若是,则确定所述网络地址通过恶意爬虫访问所述目标网站。
6.根据权利要求5所述的恶意爬虫检测装置,其特征在于,所述装置还包括:
第一判断子模块,用于若所述网络地址是伪装用户代理商,则判断所述访问频率是否大于第三预设阈值;
确定子模块,用于若大于所述第三预设阈值,则确定所述网络地址通过恶意爬虫访问所述目标网站;
确定子模块,用于若不大于所述第三预设阈值,则当所述网络地址不是通过认证爬虫访问所述目标网站时,判断所述目标网站是否允许通过爬虫访问,若不允许,则判断所述访问频率是否大于第四预设阈值,若大于,则确定所述网络地址通过恶意爬虫访问所述目标网站。
7.根据权利要求6所述的恶意爬虫检测装置,其特征在于,所述装置还包括:
第二判断模块,用于判断待检测的所述网络地址是否为外部网络地址;
第一获取模块,还用于若所述网络地址为外部网络地址,则执行获取待检测的网络地址的访问信息的步骤。
8.根据权利要求5至7任意一项所述的恶意爬虫检测装置,其特征在于,所述装置还包括,包括:
时间点获取模块,用于获取所述网络地址通过恶意爬虫访问所述目标网站时的时间点;
确定子模块,用于判断所述时间点的每秒查询率是否在预设范围内,若不在预设范围内,则确定所述网络地址通过恶意爬虫访问所述目标网站。
9.一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至4中的任一项所述的恶意爬虫检测方法中的各个步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至4中的任一项所述的恶意爬虫检测方法中的各个步骤。
CN201811652954.5A 2018-12-29 2018-12-29 恶意爬虫检测方法、装置、电子设备及存储介质 Active CN109474640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811652954.5A CN109474640B (zh) 2018-12-29 2018-12-29 恶意爬虫检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811652954.5A CN109474640B (zh) 2018-12-29 2018-12-29 恶意爬虫检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109474640A true CN109474640A (zh) 2019-03-15
CN109474640B CN109474640B (zh) 2021-01-05

Family

ID=65678384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811652954.5A Active CN109474640B (zh) 2018-12-29 2018-12-29 恶意爬虫检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109474640B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125692A (zh) * 2019-12-05 2020-05-08 任子行网络技术股份有限公司 反爬虫方法及装置
CN111355728A (zh) * 2020-02-27 2020-06-30 紫光云技术有限公司 一种恶意爬虫防护方法
CN112104600A (zh) * 2020-07-30 2020-12-18 山东鲁能软件技术有限公司 一种基于爬虫蜜罐陷阱的web反渗透方法,系统,设备及计算机可读存储介质
CN112989157A (zh) * 2019-12-13 2021-06-18 网宿科技股份有限公司 一种检测爬虫请求的方法和装置
CN113507455A (zh) * 2021-06-25 2021-10-15 湖州瑞云信息科技有限公司 基于大数据的网络安全检测方法及系统
CN113810381A (zh) * 2021-08-23 2021-12-17 杭州安恒信息技术股份有限公司 一种爬虫检测方法、web应用云防火墙、装置和存储介质
CN114338205A (zh) * 2021-12-31 2022-04-12 广州方硅信息技术有限公司 目标ip地址的获取方法、装置、电子设备及存储介质
CN114401104A (zh) * 2021-11-30 2022-04-26 中国建设银行股份有限公司 网络爬虫处置方法、装置、服务器及存储介质
CN114726616A (zh) * 2022-04-07 2022-07-08 京东科技信息技术有限公司 一种网站访问请求的处理方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060286A1 (en) * 2003-09-15 2005-03-17 Microsoft Corporation Free text search within a relational database
US20100070503A1 (en) * 2008-09-17 2010-03-18 Microsoft Corporation Identifying product issues using forum data
CN103561076A (zh) * 2013-10-28 2014-02-05 中国科学院信息工程研究所 一种基于云的网页挂马实时防护方法及系统
CN103905434A (zh) * 2014-03-13 2014-07-02 亿赞普(北京)科技有限公司 一种网络数据处理方法和装置
CN104391979A (zh) * 2014-12-05 2015-03-04 北京国双科技有限公司 网络恶意爬虫识别方法及装置
US9064002B1 (en) * 2010-10-21 2015-06-23 Google Inc. Social identity clustering
CN104980421A (zh) * 2014-10-15 2015-10-14 腾讯科技(深圳)有限公司 一种批量请求处理方法及系统
CN105491054A (zh) * 2015-12-22 2016-04-13 网易(杭州)网络有限公司 恶意访问的判断方法、拦截方法与装置
CN108268272A (zh) * 2017-02-17 2018-07-10 平安科技(深圳)有限公司 基于wsus的补丁更新方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060286A1 (en) * 2003-09-15 2005-03-17 Microsoft Corporation Free text search within a relational database
US20100070503A1 (en) * 2008-09-17 2010-03-18 Microsoft Corporation Identifying product issues using forum data
US9064002B1 (en) * 2010-10-21 2015-06-23 Google Inc. Social identity clustering
CN103561076A (zh) * 2013-10-28 2014-02-05 中国科学院信息工程研究所 一种基于云的网页挂马实时防护方法及系统
CN103905434A (zh) * 2014-03-13 2014-07-02 亿赞普(北京)科技有限公司 一种网络数据处理方法和装置
CN104980421A (zh) * 2014-10-15 2015-10-14 腾讯科技(深圳)有限公司 一种批量请求处理方法及系统
CN104391979A (zh) * 2014-12-05 2015-03-04 北京国双科技有限公司 网络恶意爬虫识别方法及装置
CN105491054A (zh) * 2015-12-22 2016-04-13 网易(杭州)网络有限公司 恶意访问的判断方法、拦截方法与装置
CN108268272A (zh) * 2017-02-17 2018-07-10 平安科技(深圳)有限公司 基于wsus的补丁更新方法和装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125692A (zh) * 2019-12-05 2020-05-08 任子行网络技术股份有限公司 反爬虫方法及装置
CN111125692B (zh) * 2019-12-05 2022-07-12 任子行网络技术股份有限公司 反爬虫方法及装置
CN112989157A (zh) * 2019-12-13 2021-06-18 网宿科技股份有限公司 一种检测爬虫请求的方法和装置
CN111355728A (zh) * 2020-02-27 2020-06-30 紫光云技术有限公司 一种恶意爬虫防护方法
CN112104600A (zh) * 2020-07-30 2020-12-18 山东鲁能软件技术有限公司 一种基于爬虫蜜罐陷阱的web反渗透方法,系统,设备及计算机可读存储介质
CN112104600B (zh) * 2020-07-30 2022-11-04 山东鲁能软件技术有限公司 一种基于爬虫蜜罐陷阱的web反渗透方法,系统,设备及计算机可读存储介质
CN113507455A (zh) * 2021-06-25 2021-10-15 湖州瑞云信息科技有限公司 基于大数据的网络安全检测方法及系统
CN113507455B (zh) * 2021-06-25 2022-06-24 湖州瑞云信息科技有限公司 基于大数据的网络安全检测方法及系统
CN113810381B (zh) * 2021-08-23 2023-02-24 杭州安恒信息技术股份有限公司 一种爬虫检测方法、web应用云防火墙、装置和存储介质
CN113810381A (zh) * 2021-08-23 2021-12-17 杭州安恒信息技术股份有限公司 一种爬虫检测方法、web应用云防火墙、装置和存储介质
CN114401104A (zh) * 2021-11-30 2022-04-26 中国建设银行股份有限公司 网络爬虫处置方法、装置、服务器及存储介质
CN114401104B (zh) * 2021-11-30 2024-04-30 中国建设银行股份有限公司 网络爬虫处置方法、装置、服务器及存储介质
CN114338205A (zh) * 2021-12-31 2022-04-12 广州方硅信息技术有限公司 目标ip地址的获取方法、装置、电子设备及存储介质
CN114338205B (zh) * 2021-12-31 2024-03-01 广州方硅信息技术有限公司 目标ip地址的获取方法、装置、电子设备及存储介质
CN114726616A (zh) * 2022-04-07 2022-07-08 京东科技信息技术有限公司 一种网站访问请求的处理方法及装置

Also Published As

Publication number Publication date
CN109474640B (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN109474640A (zh) 恶意爬虫检测方法、装置、电子设备及存储介质
CN106897334A (zh) 一种问题推送方法和设备
Senkul et al. Improving pattern quality in web usage mining by using semantic information
CN104063450B (zh) 热点信息分析方法及设备
CN106411965B (zh) 确定提供仿冒服务的网络服务器的方法、设备及计算设备
CN103530365B (zh) 获取资源的下载链接的方法及系统
EP2674884A1 (en) Method, system and computer-readable recording medium for adding a new image and information on the new image to an image database
CN105337786B (zh) 一种服务器性能检测方法、装置及设备
CN105471819A (zh) 账号异常检测方法及装置
CN108804516A (zh) 相似用户查找装置、方法及计算机可读存储介质
CN109450879A (zh) 用户访问行为监控方法、电子装置和计算机可读存储介质
CN108763274A (zh) 访问请求的识别方法、装置、电子设备及存储介质
CN107992738A (zh) 一种账号登录异常检测方法、装置及电子设备
CN107480268A (zh) 数据查询方法及装置
CN109300041A (zh) 理财策略推荐方法、电子装置及可读存储介质
CN112039885B (zh) 一种网站风险评估方法及装置
CN109670101A (zh) 爬虫调度方法、装置、电子设备及存储介质
CN109450969A (zh) 从第三方数据源服务器中获取数据的方法、装置和服务器
CN112989158A (zh) 一种识别网页爬虫行为的方法、装置及存储介质
CN110324352A (zh) 识别批量注册账号群的方法及装置
CN109886300A (zh) 一种用户聚类方法、装置及设备
CN109710832A (zh) 一种用于搜索寄宿程序的方法与设备
CN112000873B (zh) 基于会话的推荐系统、方法、设备及存储介质
CN103678312B (zh) 一种推荐网址的方法与客户端
CN111125747B (zh) 一种商务网站用户的商品浏览隐私保护方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100088 Building 3 332, 102, 28 Xinjiekouwai Street, Xicheng District, Beijing

Applicant after: Qianxin Technology Group Co., Ltd.

Address before: 100088 Building 3 332, 102, 28 Xinjiekouwai Street, Xicheng District, Beijing

Applicant before: BEIJING QI'ANXIN SCIENCE & TECHNOLOGY CO., LTD.

GR01 Patent grant
GR01 Patent grant