CN109474640B - 恶意爬虫检测方法、装置、电子设备及存储介质 - Google Patents

恶意爬虫检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109474640B
CN109474640B CN201811652954.5A CN201811652954A CN109474640B CN 109474640 B CN109474640 B CN 109474640B CN 201811652954 A CN201811652954 A CN 201811652954A CN 109474640 B CN109474640 B CN 109474640B
Authority
CN
China
Prior art keywords
network address
crawler
access
target website
preset threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811652954.5A
Other languages
English (en)
Other versions
CN109474640A (zh
Inventor
卢思成
王飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianxin Technology Group Co Ltd
Original Assignee
Qianxin Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianxin Technology Group Co Ltd filed Critical Qianxin Technology Group Co Ltd
Priority to CN201811652954.5A priority Critical patent/CN109474640B/zh
Publication of CN109474640A publication Critical patent/CN109474640A/zh
Application granted granted Critical
Publication of CN109474640B publication Critical patent/CN109474640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Abstract

本发明公开了一种恶意爬虫检测方法,应用于计算机技术领域,包括:获取待检测的网络地址的访问信息,访问信息包括网络地址访问目标网站的访问频率,获取访问信息内的访问频率,并判断访问频率是否大于第一预设阈值,当访问频率大于第一预设阈值,则判断网络地址是否为伪装用户代理商,若网络地址不是伪装用户代理商,则在访问信息内查找是否有referer字段,当没有referer字段或referer字段为空时,判断访问频率是否大于第二预设阈值,若是,则确定网络地址通过恶意爬虫访问目标网站。本发明还公开了一种恶意爬虫检测装置、电子设备及存储介质,可提升检测恶意爬虫的时效性。

Description

恶意爬虫检测方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种恶意爬虫检测方法、装置、电子设备及存储介质。
背景技术
目前对于恶意爬虫的检测主要使用以下四种方法:
(1)日志句法分析方法。通过对比访问用户和爬虫名单库中爬虫的用户代理域关键词、IP地址等信息来检测爬虫,使用日志句法分析技术来检测访问在线科学杂志Glycobiology的爬虫,这类技术只能发现已被记录的爬虫。
(2)基于网络流量的分析技术。通过寻找人类用户与爬虫的不同流量特征来检测爬虫。利用人类用户与爬虫的查询数量和时间间隔模式的不同来检测爬虫。
(3)机器学习方法。使用机器学习模型来判断访问是否来自爬虫。常使用的模型有神经网络、贝叶斯分类器、决策树、SVM、马尔可夫链模型等。
(4)图灵测试系统通过让访问者回答一些问题来分析其是否为爬虫。
目前,以上四种方法虽然可以起到一定的对于恶意爬虫的检测,但是都是被恶意爬虫执行了一段时间之后,才检测到进而进行相应的处理,缺少时效性。
发明内容
本发明的主要目的在于提供一种恶意爬虫检测方法、装置、电子设备及存储介质,可提升检测恶意爬虫的时效性。
为实现上述目的,本发明实施例第一方面提供一种恶意爬虫检测方法,包括:
获取待检测的网络地址的访问信息,所述访问信息包括所述网络地址访问目标网站的访问频率;
获取所述访问信息内的所述访问频率,并判断所述访问频率是否大于第一预设阈值;
当所述访问频率大于所述第一预设阈值,则判断所述网络地址是否为伪装用户代理商;
若所述网络地址不是伪装用户代理商,则在所述访问信息内查找是否有referer字段,当没有所述referer字段或所述referer字段为空时,判断所述访问频率是否大于第二预设阈值,若是,则确定所述网络地址通过恶意爬虫访问所述目标网站。
本发明实施例第二方面提供一种恶意爬虫检测装置,包括:
第一获取模块,用于获取待检测的网络地址的访问信息,所述访问信息包括所述网络地址访问目标网站的访问频率;
第二获取模块,用于获取所述访问信息内的所述访问频率,并判断所述访问频率是否大于第一预设阈值;
第一判断模块,用于当所述访问频率大于所述第一预设阈值,则判断所述网络地址是否为伪装用户代理商;
确定模块,用于若所述网络地址不是伪装用户代理商,则在所述访问信息内查找是否有referer字段,当没有所述referer字段或所述referer字段为空时,判断所述访问频率是否大于第二预设阈值,若是,则确定所述网络地址通过恶意爬虫访问所述目标网站。
本发明实施例第三方面提供了一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本发明实施例第一方面提供的恶意爬虫检测方法。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的恶意爬虫检测方法。
从上述本发明实施例可知,本发明提供的恶意爬虫检测方法、装置、电子设备及存储介质,获取待检测的网络地址的访问信息,访问信息包括网络地址访问目标网站的访问频率,获取访问信息内的访问频率,并判断访问频率是否大于第一预设阈值,当访问频率大于第一预设阈值,则判断网络地址是否为伪装用户代理商,若网络地址不是伪装用户代理商,则在访问信息内查找是否有referer字段,当没有referer字段或referer字段为空时,判断访问频率是否大于第二预设阈值,若是,则确定网络地址通过恶意爬虫访问目标网站,可提升检测恶意爬虫的时效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例提供的恶意爬虫检测方法的流程示意图;
图2为本发明又一实施例提供的恶意爬虫检测装置的结构示意图;
图3示出了一种电子设备的硬件结构图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明第一实施例提供的恶意爬虫检测方法的流程示意图,该方法可应用于电子设备中,电子设备包括:手机、平板电脑(Portable Android Device,PAD),笔记本电脑以及个人数字助理(Personal Digital Assistant,PDA)等,该方法主要包括以下步骤:
S101、判断待检测的网络地址是否为外部网络地址;
若该网络地址为外部网络地址,则执行步骤S102。
S102、获取待检测的网络地址的访问信息;
待检测的网络地址是指网络上所有对大数据平台服务器访问的IP地址,访问信息可以是访问产生的日志文件。
访问信息包括网络地址访问目标网站的访问频率。
S103、获取访问信息内的访问频率;
示例性的,可5分钟统计一次访问频率。将五分钟内,待检测的网络地址每秒访问目标网站的次数记录下来。
S104、判断访问频率是否大于第一预设阈值;
当访问频率大于第一预设阈值,则执行步骤S105。
示例性的,第一预设阈值为0.1.若访问频率大于0.1,则执行步骤S105。
S105、判断网络地址是否为伪装用户代理商;
若网络地址不是伪装用户代理商,则执行步骤S106:在访问信息内查找是否有referer字段。当没有referer字段或referer字段为空时,则执行步骤S107:判断访问频率是否大于第二预设阈值,若是,则执行步骤S108:确定网络地址通过恶意爬虫访问目标网站。
示例性的,第二预设阈值为10,若访问频率大于10,则确定网络地址通过恶意爬虫访问目标网站
其中,Referer是指标示当前网址是从哪个网址跳转过来的一个字段,没有这个字段或者这个字段值为空串是不合理的。
伪装用户代理商是指通过代码库访问目标网站,而不是通过常见的浏览器访问目标网站。
若网络地址是伪装用户代理商,则执行步骤S109:判断访问频率是否大于第三预设阈值。若大于第三预设阈值,则执行步骤S108:确定网络地址通过恶意爬虫访问目标网站。若不大于第三预设阈值,则执行步骤S1010:当网络地址不是通过认证爬虫访问目标网站时,判断目标网站是否允许通过爬虫访问,若不允许,则执行步骤S1011:判断访问频率是否大于第四预设阈值,若大于,则执行步骤S108:确定网络地址通过恶意爬虫访问目标网站。
示例性的,第三预设阈值为5,第四预设阈值为1。若访问频率大于5,则确定网络地址通过恶意爬虫访问目标网站。若访问频率不大于5,则当网络地址不是通过认证爬虫访问目标网站时,判断目标网站是否允许通过爬虫访问,若不允许,则判断访问频率是否大于1,若大于1,则确定网络地址通过恶意爬虫访问目标网站。
认证爬虫是指搜索引擎爬虫,即通过常见搜索引擎爬虫的伪装用户代理商来判断该网络地址是否通过认证爬虫访问目标网站。
更多的,由于很多网站的访问存在周期性特点,例如,上午9点开始上班时间,访问量会急剧增加,而凌晨1点到6点,访问量处于低谷,另外,周末的访问量也比周一到周五要低一些。所以对访问频率不能一概而论,为了降低误报,对恶意爬虫检测算法添加对历史访问数据过滤功能。在定义为恶意爬虫前,先基于历史数据,判断访问量是否具有特定时间特性。所以当确定网络地址通过恶意爬虫访问目标网站之前:
获取网络地址通过恶意爬虫访问目标网站时的时间点,判断该时间点的每秒查询率是否在预设范围内,若不在预设范围内,则确定网络地址通过恶意爬虫访问目标网站。
具体的,查询分布式缓存redis,获取该时间点在以往的汇总数据,确定预设范围。数据包括:avg(平均值)、std(方差)等,因此,预设范围[avg-3*std,avg+3*std]。若该时间点的每秒查询率在此范围内,则视为正常。若不在预设范围内,则确定网络地址通过恶意爬虫访问目标网站。
每秒查询率是指对一个特定的查询服务器在规定时间内所处理流量的多少。
更多的,将恶意爬虫的IP等信息记录在大数据平台。以便在其他服务器上可以快速准确的判断恶意爬虫,进而对恶意爬虫进行处理。
在本发明实施例中,获取待检测的网络地址的访问信息,访问信息包括网络地址访问目标网站的访问频率,获取访问信息内的访问频率,并判断访问频率是否大于第一预设阈值,当访问频率大于第一预设阈值,则判断网络地址是否为伪装用户代理商,若网络地址不是伪装用户代理商,则在访问信息内查找是否有referer字段,当没有referer字段或referer字段为空时,判断访问频率是否大于第二预设阈值,若是,则确定网络地址通过恶意爬虫访问目标网站,可提升检测恶意爬虫的时效性。
请参阅图2,图2是本发明又一实施例提供的恶意爬虫检测装置的结构示意图,该装置可内置于电子设备中,该装置主要包括:
第一获取模块201、第二获取模块202、第一判断模块203和确定模块204。
第一获取模块201,用于获取待检测的网络地址的访问信息,访问信息包括网络地址访问目标网站的访问频率;
待检测的网络地址是指网络上所有对大数据平台服务器访问的IP地址,访问信息可以是访问产生的日志文件。
第二获取模块202,用于获取访问信息内的访问频率,并判断访问频率是否大于第一预设阈值;
第一判断模块203,用于当访问频率大于第一预设阈值,则判断网络地址是否为伪装用户代理商;
确定模块204,用于若网络地址不是伪装用户代理商,则在访问信息内查找是否有referer字段,当没有referer字段或referer字段为空时,判断访问频率是否大于第二预设阈值,若是,则确定网络地址通过恶意爬虫访问目标网站。
其中,Referer是指标示当前网址是从哪个网址跳转过来的一个字段,没有这个字段或者这个字段值为空串是不合理的。
伪装用户代理商是指通过代码库访问目标网站,而不是通过常见的浏览器访问目标网站。
进一步地,装置还包括:
第一判断子模块,用于若网络地址是伪装用户代理商,则判断访问频率是否大于第三预设阈值;
确定子模块,用于若大于第三预设阈值,则确定网络地址通过恶意爬虫访问所述目标网站;
确定子模块,用于若不大于第三预设阈值,则当网络地址不是通过认证爬虫访问目标网站时,判断目标网站是否允许通过爬虫访问,若不允许,则判断访问频率是否大于第四预设阈值,若大于,则确定网络地址通过恶意爬虫访问目标网站。
认证爬虫是指搜索引擎爬虫,即通过常见搜索引擎爬虫的伪装用户代理商来判断该网络地址是否通过认证爬虫访问目标网站。
第二判断模块,用于判断待检测的网络地址是否为外部网络地址;
第一获取模块,还用于若网络地址为外部网络地址,则执行获取待检测的网络地址的访问信息的步骤。
时间点获取模块,用于获取网络地址通过恶意爬虫访问目标网站时的时间点;
确定子模块,用于判断时间点的每秒查询率是否在预设范围内,若不在预设范围内,则确定网络地址通过恶意爬虫访问目标网站。
更多的,由于很多网站的访问存在周期性特点,例如,上午9点开始上班时间,访问量会急剧增加,而凌晨1点到6点,访问量处于低谷,另外,周末的访问量也比周一到周五要低一些。所以对访问频率不能一概而论,为了降低误报,对恶意爬虫检测算法添加对历史访问数据过滤功能。在定义为恶意爬虫前,先基于历史数据,判断访问量是否具有特定时间特性。所以当确定网络地址通过恶意爬虫访问目标网站之前:
获取网络地址通过恶意爬虫访问目标网站时的时间点,判断该时间点的每秒查询率是否在预设范围内,若不在预设范围内,则确定网络地址通过恶意爬虫访问目标网站。
具体的,查询分布式缓存redis,获取该时间点在以往的汇总数据,确定预设范围。数据包括:avg(平均值)、std(方差)等,因此,预设范围[avg-3*std,avg+3*std]。若该时间点的每秒查询率在此范围内,则视为正常。若不在预设范围内,则确定网络地址通过恶意爬虫访问目标网站。
每秒查询率是指对一个特定的查询服务器在规定时间内所处理流量的多少。
更多的,将恶意爬虫的IP等信息记录在大数据平台。以便在其他服务器上可以快速准确的判断恶意爬虫,进而对恶意爬虫进行处理。
在本发明实施例中,获取待检测的网络地址的访问信息,访问信息包括网络地址访问目标网站的访问频率,获取访问信息内的访问频率,并判断访问频率是否大于第一预设阈值,当访问频率大于第一预设阈值,则判断网络地址是否为伪装用户代理商,若网络地址不是伪装用户代理商,则在访问信息内查找是否有referer字段,当没有referer字段或referer字段为空时,判断访问频率是否大于第二预设阈值,若是,则确定网络地址通过恶意爬虫访问目标网站,可提升检测恶意爬虫的时效性。
请参见图3,图3示出了一种电子设备的硬件结构图。
本实施例中所描述的电子设备,包括:
存储器31、处理器32及存储在存储器31上并可在处理器上运行的计算机程序,处理器执行该程序时实现前述图1所示实施例中描述的恶意爬虫检测方法。
进一步地,该电子设备还包括:
至少一个输入设备33;至少一个输出设备34。
上述存储器31、处理器32输入设备33和输出设备34通过总线35连接。
其中,输入设备33具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备34具体可为显示屏。
存储器31可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器31用于存储一组可执行程序代码,处理器32与存储器31耦合。
进一步地,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的终端中,该计算机可读存储介质可以是前述图3所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1所示实施例中描述的恶意爬虫检测。进一步地,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的多个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信链接可以是通过一些接口,模块的间接耦合或通信链接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的恶意爬虫检测方法、装置、电子设备及存储介质的描述,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种恶意爬虫检测方法,其特征在于,包括:
获取待检测的网络地址的访问信息,所述访问信息包括所述网络地址访问目标网站的访问频率;
获取所述访问信息内的所述访问频率,并判断所述访问频率是否大于第一预设阈值;
当所述访问频率大于所述第一预设阈值,则判断所述网络地址是否为伪装用户代理商;
若所述网络地址不是伪装用户代理商,则在所述访问信息内查找是否有referer字段,当没有所述referer字段或所述referer字段为空时,判断所述访问频率是否大于第二预设阈值,若是,则确定所述网络地址通过恶意爬虫访问所述目标网站;
其中,所述伪装用户代理商是指通过代码库访问所述目标网站的代理商。
2.根据权利要求1所述的恶意爬虫检测方法,其特征在于,所述判断所述网络地址是否为伪装用户代理商之后,还包括:
若所述网络地址是伪装用户代理商,则判断所述访问频率是否大于第三预设阈值;
若大于所述第三预设阈值,则确定所述网络地址通过恶意爬虫访问所述目标网站;
若不大于所述第三预设阈值,则当所述网络地址不是通过认证爬虫访问所述目标网站时,判断所述目标网站是否允许通过爬虫访问,若不允许,则判断所述访问频率是否大于第四预设阈值,若大于,则确定所述网络地址通过恶意爬虫访问所述目标网站;
其中,所述认证爬虫为搜索引擎爬虫。
3.根据权利要求2所述的恶意爬虫检测方法,其特征在于,所述获取待检测的网络地址的访问信息之前包括:
判断待检测的所述网络地址是否为外部网络地址;
若所述网络地址为外部网络地址,则执行获取待检测的网络地址的访问信息的步骤。
4.根据权利要求1所述的恶意爬虫检测方法,其特征在于,所述确定所述网络地址通过恶意爬虫访问所述目标网站之前,包括:
获取所述网络地址通过恶意爬虫访问所述目标网站时的时间点;
判断所述时间点的每秒查询率是否在预设范围内,若不在预设范围内,则确定所述网络地址通过恶意爬虫访问所述目标网站。
5.一种恶意爬虫检测装置,其特征在于,包括:
第一获取模块,用于获取待检测的网络地址的访问信息,所述访问信息包括所述网络地址访问目标网站的访问频率;
第二获取模块,用于获取所述访问信息内的所述访问频率,并判断所述访问频率是否大于第一预设阈值;
第一判断模块,用于当所述访问频率大于所述第一预设阈值,则判断所述网络地址是否为伪装用户代理商;
确定模块,用于若所述网络地址不是伪装用户代理商,则在所述访问信息内查找是否有referer字段,当没有所述referer字段或所述referer字段为空时,判断所述访问频率是否大于第二预设阈值,若是,则确定所述网络地址通过恶意爬虫访问所述目标网站;
其中,所述伪装用户代理商是指通过代码库访问所述目标网站的代理商。
6.根据权利要求5所述的恶意爬虫检测装置,其特征在于,所述装置还包括:
第一判断子模块,用于若所述网络地址是伪装用户代理商,则判断所述访问频率是否大于第三预设阈值;
确定子模块,用于若大于所述第三预设阈值,则确定所述网络地址通过恶意爬虫访问所述目标网站;
确定子模块,用于若不大于所述第三预设阈值,则当所述网络地址不是通过认证爬虫访问所述目标网站时,判断所述目标网站是否允许通过爬虫访问,若不允许,则判断所述访问频率是否大于第四预设阈值,若大于,则确定所述网络地址通过恶意爬虫访问所述目标网站;
其中,所述认证爬虫为搜索引擎爬虫。
7.根据权利要求6所述的恶意爬虫检测装置,其特征在于,所述装置还包括:
第二判断模块,用于判断待检测的所述网络地址是否为外部网络地址;
第一获取模块,还用于若所述网络地址为外部网络地址,则执行获取待检测的网络地址的访问信息的步骤。
8.根据权利要求5至7任意一项所述的恶意爬虫检测装置,其特征在于,所述装置还包括,包括:
时间点获取模块,用于获取所述网络地址通过恶意爬虫访问所述目标网站时的时间点;
确定子模块,用于判断所述时间点的每秒查询率是否在预设范围内,若不在预设范围内,则确定所述网络地址通过恶意爬虫访问所述目标网站。
9.一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至4中的任一项所述的恶意爬虫检测方法中的各个步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至4中的任一项所述的恶意爬虫检测方法中的各个步骤。
CN201811652954.5A 2018-12-29 2018-12-29 恶意爬虫检测方法、装置、电子设备及存储介质 Active CN109474640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811652954.5A CN109474640B (zh) 2018-12-29 2018-12-29 恶意爬虫检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811652954.5A CN109474640B (zh) 2018-12-29 2018-12-29 恶意爬虫检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109474640A CN109474640A (zh) 2019-03-15
CN109474640B true CN109474640B (zh) 2021-01-05

Family

ID=65678384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811652954.5A Active CN109474640B (zh) 2018-12-29 2018-12-29 恶意爬虫检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109474640B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125692B (zh) * 2019-12-05 2022-07-12 任子行网络技术股份有限公司 反爬虫方法及装置
CN112989157A (zh) * 2019-12-13 2021-06-18 网宿科技股份有限公司 一种检测爬虫请求的方法和装置
CN111355728B (zh) * 2020-02-27 2023-01-03 紫光云技术有限公司 一种恶意爬虫防护方法
CN112104600B (zh) * 2020-07-30 2022-11-04 山东鲁能软件技术有限公司 一种基于爬虫蜜罐陷阱的web反渗透方法,系统,设备及计算机可读存储介质
CN113507455B (zh) * 2021-06-25 2022-06-24 湖州瑞云信息科技有限公司 基于大数据的网络安全检测方法及系统
CN113810381B (zh) * 2021-08-23 2023-02-24 杭州安恒信息技术股份有限公司 一种爬虫检测方法、web应用云防火墙、装置和存储介质
CN114401104B (zh) * 2021-11-30 2024-04-30 中国建设银行股份有限公司 网络爬虫处置方法、装置、服务器及存储介质
CN114338205B (zh) * 2021-12-31 2024-03-01 广州方硅信息技术有限公司 目标ip地址的获取方法、装置、电子设备及存储介质
CN114726616A (zh) * 2022-04-07 2022-07-08 京东科技信息技术有限公司 一种网站访问请求的处理方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060286A1 (en) * 2003-09-15 2005-03-17 Microsoft Corporation Free text search within a relational database
US8296278B2 (en) * 2008-09-17 2012-10-23 Microsoft Corporation Identifying product issues using forum data
US8626835B1 (en) * 2010-10-21 2014-01-07 Google Inc. Social identity clustering
CN103561076B (zh) * 2013-10-28 2017-05-17 中国科学院信息工程研究所 一种基于云的网页挂马实时防护方法及系统
CN103905434A (zh) * 2014-03-13 2014-07-02 亿赞普(北京)科技有限公司 一种网络数据处理方法和装置
CN104980421B (zh) * 2014-10-15 2020-06-16 腾讯科技(深圳)有限公司 一种批量请求处理方法及系统
CN104391979B (zh) * 2014-12-05 2017-12-19 北京国双科技有限公司 网络恶意爬虫识别方法及装置
CN105491054B (zh) * 2015-12-22 2018-12-11 网易(杭州)网络有限公司 恶意访问的判断方法、拦截方法与装置
CN108268272B (zh) * 2017-02-17 2021-08-31 平安科技(深圳)有限公司 基于wsus的补丁更新方法和装置

Also Published As

Publication number Publication date
CN109474640A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN109474640B (zh) 恶意爬虫检测方法、装置、电子设备及存储介质
CN111159706A (zh) 数据库安全检测方法、装置、设备及存储介质
CN108304410B (zh) 一种异常访问页面的检测方法、装置及数据分析方法
CN109768992B (zh) 网页恶意扫描处理方法及装置、终端设备、可读存储介质
CN103888490A (zh) 一种全自动的web客户端人机识别的方法
KR101676366B1 (ko) 사이버 공격 대응을 위한 악성코드 침해 경로 및 행위 추적을 수행하는 침해 공격 추적 시스템 및 방법
CN112491602B (zh) 行为数据的监控方法、装置、计算机设备及介质
CN103401835A (zh) 一种展现微博页面的安全检测结果的方法及装置
CN107992738B (zh) 一种账号登录异常检测方法、装置及电子设备
KR102090982B1 (ko) 악의 웹 사이트 식별 방법, 장치 및 컴퓨터 기억매체
CN104935601B (zh) 基于云的网站日志安全分析方法、装置及系统
CN104901975A (zh) 网站日志安全分析方法、装置及网关
CN111008348A (zh) 反爬虫方法、终端、服务器及计算机可读存储介质
CN113518077A (zh) 一种恶意网络爬虫检测方法、装置、设备及存储介质
CN109450969B (zh) 从第三方数据源服务器中获取数据的方法、装置和服务器
US20200336498A1 (en) Method and apparatus for detecting hidden link in website
CN108667766A (zh) 文件探测方法及文件探测装置
EP3745292A1 (en) Hidden link detection method and apparatus for website
CN108154024B (zh) 一种数据检索方法、装置及电子设备
CN104954188A (zh) 基于云的网站日志安全分析方法、装置和系统
CN113961930A (zh) Sql注入漏洞检测方法、装置及电子设备
RU2659482C1 (ru) Способ защиты веб-приложений при помощи интеллектуального сетевого экрана с использованием автоматического построения моделей приложений
CN110929185A (zh) 网站目录检测方法、装置、计算机设备及计算机存储介质
CN114389875B (zh) 一种人机行为检测方法、系统、设备及介质
WO2016173327A1 (zh) 用于检测网站攻击的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100088 Building 3 332, 102, 28 Xinjiekouwai Street, Xicheng District, Beijing

Applicant after: Qianxin Technology Group Co., Ltd.

Address before: 100088 Building 3 332, 102, 28 Xinjiekouwai Street, Xicheng District, Beijing

Applicant before: BEIJING QI'ANXIN SCIENCE & TECHNOLOGY CO., LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant