CN112003819B - 识别爬虫的方法、装置、设备和计算机存储介质 - Google Patents

识别爬虫的方法、装置、设备和计算机存储介质 Download PDF

Info

Publication number
CN112003819B
CN112003819B CN202010647106.6A CN202010647106A CN112003819B CN 112003819 B CN112003819 B CN 112003819B CN 202010647106 A CN202010647106 A CN 202010647106A CN 112003819 B CN112003819 B CN 112003819B
Authority
CN
China
Prior art keywords
sequence
frequent
access
path
access path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010647106.6A
Other languages
English (en)
Other versions
CN112003819A (zh
Inventor
余燕
李华君
姜帆
刘国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
River Security Inc
Original Assignee
River Security Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by River Security Inc filed Critical River Security Inc
Priority to CN202010647106.6A priority Critical patent/CN112003819B/zh
Publication of CN112003819A publication Critical patent/CN112003819A/zh
Application granted granted Critical
Publication of CN112003819B publication Critical patent/CN112003819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种识别爬虫的方法、装置、设备和计算机存储介质。其中方法包括:获取用户在预设时段内的访问路径序列;将所述访问路径序列划分为一个以上的子序列;利用序列模式挖掘算法,将划分后得到的各子序列作为序列数据集进行频繁序列模式挖掘,得到频繁序列;判断得到的频繁序列是否符合爬虫特征,如果是,则确定所述用户为爬虫。本申请能够对模拟用户操作但循环访问某些路径序列的爬虫进行有效识别,从而提高了爬虫的识别准确率。

Description

识别爬虫的方法、装置、设备和计算机存储介质
【技术领域】
本申请涉及计算机安全技术领域,特别涉及一种识别爬虫的方法、装置、设备和计算机存储介质。
【背景技术】
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就被认为是现有技术。
爬虫是使用任何技术手段批量获取网站信息的一种方式。一方面,大量的爬虫会严重占用服务器性能和带宽,影响正常用户访问,严重时会造成DDoS(Distributed denialof service attack,分布式拒绝服务攻击)。另一方面,网站的重要资料、信息财产等是不能够随便泄露的,如果被轻易窃取,则会造成严重的损失。因此出现了相应的反爬虫机制。例如采用黑名单的方式、验证码的方式。
但随着在线业务安全的攻防对抗演变,自动化爬虫逐渐发展为模拟正常用户操作以期绕过反爬虫机制,例如访问频率较低、具备键盘鼠标进行数据输入。这就造成了现有识别爬虫的方式对于这类爬虫的识别准确率很低,甚至无法识别。
【发明内容】
有鉴于此,本申请提供了一种识别爬虫的方法、装置、设备和计算机存储介质,以便提高爬虫的识别准确率。
具体技术方案如下:
第一方面,本申请提供了一种识别爬虫的方法,该方法包括:
获取用户在预设时段内的访问路径序列;
将所述访问路径序列划分为一个以上的子序列;
利用序列模式挖掘算法,将划分后得到的各子序列作为序列数据集进行频繁序列模式挖掘,得到频繁序列;
判断得到的频繁序列是否符合爬虫特征,如果是,则确定所述用户为爬虫。
根据本申请一优选实施方式,在将所述访问路径序列划分为一个以上的子序列之前,还包括:对所述访问路径序列进行预处理;
所述预处理包括以下至少一种:
删除所述访问路径序列中非主动请求的访问路径;
合并所述访问路径序列中相邻且相同的访问路径。
根据本申请一优选实施方式,合并所述访问路径序列中相邻且相同的访问路径包括:
仅保留所述相邻且相同的访问路径中的首个访问路径,记录该路径在访问路径序列中的索引以及合并的所述相邻且相同的访问路径的数量。
根据本申请一优选实施方式,将所述访问路径划分为一个以上的子序列包括以下方式中的至少一种:
方式一、按照各访问路径的时间顺序依次轮询访问路径序列,在入口路径处进行划分,划分为以入口路径开始的各子序列;
方式二、按照各访问路径的时间顺序依次轮询访问路径序列,在重复路径序列处进行划分,划分为以重复路径序列开始的各子序列,所述重复路径序列为满足预设长度要求且在所述轮询过程中出现过的路径序列。
根据本申请一优选实施方式,所述序列模式挖掘算法包括:Prefixspan算法;
在所述Prefixspan算法中,将紧邻该前缀之后的路径作为投影。
根据本申请一优选实施方式,该方法还包括:
若合并的所述相邻且相同的访问路径的数量大于或等于预设数量阈值,则确定所述相邻且相同的访问路径是一种频繁序列。
根据本申请一优选实施方式,所述判断得到的频繁序列是否符合爬虫特征包括:
若所述频繁序列中仅涉及信息类页面的访问路径且所述频繁序列的被访问次数超过预设访问次数阈值,或者,若所述频繁序列中仅涉及信息类页面的访问路径且所述频繁序列的占比超过预设占比阈值,则确定符合爬虫特征。
根据本申请一优选实施方式,该方法还包括:
若未挖掘到频繁序列,则所述用户并非爬虫;
若判断出得到的频繁序列不符合爬虫特征,则确定所述用户并非爬虫。
根据本申请一优选实施方式,在所述频繁序列模式挖掘过程中,若挖掘到比前缀更长的频繁序列,则删除该前缀所代表的频繁序列。
根据本申请一优选实施方式,在所述频繁序列模式挖掘过程中,对于轮询到的频繁项,如果该频繁项是已挖掘到的一个频繁序列的子集,则从该频繁序列中截取以该频繁项开始到该频繁序列最后一个路径的部分作为前缀,开始新一轮的挖掘。
根据本申请一优选实施方式,在所述频繁序列模式挖掘过程中,若挖掘得到的一个频繁序列是另一个频繁序列的子集,则删除作为子集的频繁序列。
根据本申请一优选实施方式,该方法还包括:
统计所述访问路径序列中各访问路径出现的次数;
对所有访问路径出现的次数进行聚类;
分别将各类别中次数的最小值作为频繁度,分别依据各频繁度进行所述频繁序列模式挖掘。
第二方面,本申请提供了一种识别爬虫的装置,该装置包括:
路径获取单元,用于获取用户在预设时段内的访问路径序列;
序列划分单元,用于将所述访问路径序列划分为一个以上的子序列;
模式挖掘单元,用于利用序列模式挖掘算法,将划分后得到的各子序列作为序列数据集进行频繁序列模式挖掘,得到频繁序列;
爬虫识别单元,用于判断得到的频繁序列是否符合爬虫特征,如果是,则确定所述用户为爬虫。
根据本申请一优选实施方式,该装置还包括:
预处理单元,用于对所述访问路径序列进行预处理,将预处理后的访问路径序列提供给所述序列划分单元;
所述预处理包括以下至少一种:
删除所述访问路径序列中非主动请求的访问路径;
合并所述访问路径序列中相邻且相同的访问路径。
根据本申请一优选实施方式,所述预处理单元在合并所述访问路径序列中相邻且相同的访问路径时,具体执行:
仅保留所述相邻且相同的访问路径中的首个访问路径,记录该路径在访问路径序列中的索引以及合并的所述相邻且相同的访问路径的数量。
根据本申请一优选实施方式,所述序列划分单元,具体用于执行以下划分方式中的至少一种:
方式一、按照各访问路径的时间顺序依次轮询访问路径序列,在入口路径处进行划分,划分为以入口路径开始的各子序列;
方式二、按照各访问路径的时间顺序依次轮询访问路径序列,在重复路径序列处进行划分,划分为以重复路径序列开始的各子序列,所述重复路径序列为满足预设长度要求且在所述轮询过程中出现过的路径序列。
根据本申请一优选实施方式,所述序列模式挖掘算法包括:Prefixspan算法;
所述模式挖掘单元在所述Prefixspan算法中,将紧邻该前缀之后的路径作为投影。
根据本申请一优选实施方式,所述模式挖掘单元,还用于若合并的所述相邻且相同的访问路径的数量大于或等于预设数量阈值,则确定所述相邻且相同的访问路径是一种频繁序列。
根据本申请一优选实施方式,所述爬虫识别单元,具体用于:
若所述频繁序列中仅涉及信息类页面的访问路径且所述频繁序列的被访问次数超过预设访问次数阈值,或者,若所述频繁序列中仅涉及信息类页面的访问路径且所述频繁序列的占比超过预设占比阈值,则确定符合爬虫特征。
根据本申请一优选实施方式,所述爬虫识别单元,还用于若所述模式挖掘单元若未挖掘到频繁序列,或者若判断出得到的频繁序列不符合爬虫特征,则确定所述用户并非爬虫。
根据本申请一优选实施方式,所述模式挖掘单元,还用于执行以下处理中的至少一种:
在所述频繁序列模式挖掘过程中,若挖掘到比前缀更长的频繁序列,则删除该前缀所代表的频繁序列;
在所述频繁序列模式挖掘过程中,对于轮询到的频繁项,如果该频繁项是已挖掘到的一个频繁序列的子集,则从该频繁序列中截取以该频繁项开始到该频繁序列最后一个路径的部分作为前缀,开始新一轮的挖掘;
在所述频繁序列模式挖掘过程中,若挖掘得到的一个频繁序列是另一个频繁序列的子集,则删除作为子集的频繁序列。
根据本申请一优选实施方式,所述模式挖掘单元,还用于:统计所述访问路径序列中各访问路径出现的次数;对所有访问路径出现的次数进行聚类;分别将各类别中次数的最小值作为频繁度,分别依据各频繁度进行所述频繁序列模式挖掘。
第三方面,本申请还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上任一所述的方法。
第四方面,本申请还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上任一所述的方法。
由以上技术方案可以看出,本申请通过对用户的访问路径序列进行序列模式挖掘,通过得到的频繁序列识别用户是否为爬虫。这种方式能够对模拟用户操作但循环访问某些路径序列的爬虫进行有效识别,从而提高了爬虫的识别准确率。
【附图说明】
图1示出了可以应用本发明实施例的异常行为检测方法或装置的示例性系统架构;
图2为本申请实施例提供的识别爬虫的方法流程图;
图3为本申请实施例提供的识别爬虫的装置结构图;
图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器的框图。
【具体实施方式】
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本申请进行详细描述。
实施例一、
图1示出了可以应用本发明实施例的识别爬虫的方法或装置的示例性系统架构。
如图1所示,该系统架构可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103交互。终端设备101上可以安装有各种应用,例如语音交互应用、网页浏览器应用、通信类应用等。
终端设备101可以是任意的终端设备,包括但不限于智能手机、智能平板、笔记本电脑、PC、智能可穿戴式设备等等。终端设备101中可以通过浏览器、移动应用(指的是移动设备中安装的应用)、桌面客户端(指的是PC或笔记本电脑中安装的客户端)进行web页面的浏览和操作。服务器103可以作为网站系统提供页面供终端设备101访问,服务器103可以记录诸如终端设备101的访问日志。本申请实施例中,识别爬虫的装置104可以在服务器端实现,其可以设置于服务器103中,实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。也可以设置于其他服务器来实现,识别爬虫的装置104可以从服务器103获取各用户的访问日志从而执行本申请实施例中的识别爬虫的方法。其中,上述服务器103可以是单一服务器,也可以是多个服务器构成的服务器群组。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。下面结合实施例对本申请提供的方法进行详细描述。
实施例二、
图2为本申请实施例提供的一种方法流程图,本方法流程的执行主体可以为识别爬虫的装置,该装置可以为位于服务器端的应用,或者还可以为位于服务器端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者,也可以位于具有较强计算能力的终端设备,本发明实施例对此不进行特别限定。如图2中所示,该方法可以包括以下步骤:
在201中,获取用户在预设时段内的访问路径序列。
用户访问网站后,服务器可以对用户的访问日志进行记录,该访问日志中可以包含用户的访问路径、访问时间等信息。在本步骤中,可以获取用户在预设时段的访问路径,并按照时间顺序进行排列后,构成访问路径序列。
更进一步地,在本步骤之后还可以进一步执行:对访问路径序列进行预处理。其中预处理可以包括以下至少一种:
第一种预处理:删除访问路径序列中非主动请求的访问路径。其中非主动请求的访问路径可以是诸如资源文件、浏览器等自动发起的定时请求。该预处理的执行是为了后续分析用户真实的访问轨迹,减少干扰。
第二种预处理:合并访问路径序列中相邻且相同的访问路径。在用户的访问路径序列中存在用户先访问路径a,紧接着又访问路径a的情况,那么这两条路径a就为相邻相同路径,对这样的路径进行合并。
其中,在合并时,仅保留相邻且相同的访问路径中的首个访问路径,记录该路径在访问路径序列中的索引以及合并的相邻且相同的访问路径的数量。其中,索引指示合并的路径在访问路径序列中的位置。
举个例子,假设用户A的访问路径序列为:abcbdeabbcbbeabbccbbddeefgfgfg,进行合并后,得到如下表1所示记录:
表1
记录id 索引 合并的路径 合并的路径数量
0 7 b 2
1 10 b 2
2 14 b 2
3 16 c 2
4 18 b 2
5 20 d 2
6 22 e 2
合并后得到的访问路径序列为:abcbdeabcbeabcbdefgfgfg
在202中,将访问路径序列划分为一个以上的子序列。
为了方便挖掘,将访问路径序列(如果执行上述预处理,则为预处理后的访问序列)划分为一个以上的子序列。划分方式可以包括但不限于以下方式中的至少一种:
方式一、按照各访问路径的时间顺序依次轮询访问路径序列,在入口路径处进行划分,划分为以入口路径开始的各子序列。在本申请实施例中,入口路径指的是网站首页对应的访问路径。即轮询访问路径序列,如果遇到入口路径,则从入口路径之前处开始划分,将入口路径及其后面的路径序列一起划分到下一个子序列中。
接续上例,对合并后得到的访问路径序列“abcbdeabcbeabcbdefgfgfg”进行划分,若入口路径为a,则可以划分为以下三个子序列:
abcbde
abcbe
abcbdefgfgfg
方式二、按照各访问路径的时间顺序依次轮询访问路径序列,在重复路径序列处进行划分,划分为以重复路径序列开始的各子序列。其中可以定义重复路径序列为满足预设长度要求且在轮询过程中已出现过的路径序列。即轮询访问路径序列,如果遇到长度为len的路径序列,该路径序列在之前的轮询中已经出现过,则从重复路径序列之前处开始划分,将该重复路径序列及其后面的路径序列一起划分到下一个子序列中。其中,
Figure BDA0002573474540000091
len为正数,n为访问路径序列的长度。len的取值可以根据经验值和实际需求进行设置和调整。
在203中,利用序列模式挖掘算法,将划分后得到的各子序列作为序列数据集进行频繁序列模式挖掘。
本申请中进行的频繁序列模式挖掘是要挖掘频繁出现在各序列数据集中的连续路径序列,称为频繁序列。其中所谓“频繁出现”在算法中由频繁度体现,例如如果一个连续路径序列出现在各序列数据集中的次数大于或等于预设的频繁度,则认为该连续路径序列为频繁序列。
本申请中可以采用Prefixspan算法,并可以对Prefixspan算法进行改进,从而提高挖掘的性能。Prefixspan算法的全称是Prefix-ProjectedPatternGrowth,即前缀投影的模式挖掘。其核心思路是,采用分治的思想,不断产生序列数据集的投影数据库,然后在各个投影上进行序列模式挖掘。从长度为1的前缀开始进行挖掘,搜索投影数据库得到长度为1的前缀对应的频繁序列。然后递归挖掘长度为2的前缀所对应的频繁序列,……,以此类推,一直递归到不能挖掘到更长的前缀挖掘为止。由于Prefixspan算法是现有的一种序列模式挖掘算法,在此对其详细算法不做详述,仅对涉及本申请中的处理和改进进行描述。
在本申请实施例中,重新对Prefixspan算法中的投影进行定义。由于需要挖掘的是连续的频繁序列,而直接利用Prefixspan算法可能会挖掘出一些非连续的频繁序列。因此,在本申请中将紧邻前缀之后的一个路径定义为投影。每个序列的投影组成的列表就构成了投影数据库。
鉴于挖掘过程中,在访问路径序列较长(可能达到成千上万条路径)时所具有的较大计算量,本申请还可以采用以下改进中的至少一种来进行性能优化:
1)在频繁序列模式挖掘过程中,若挖掘到比前缀更长的频繁序列,则删除该前缀所代表的频繁序列。
因为频繁模式挖掘是基于前缀的挖掘过程,在挖掘到比前缀更长的频繁序列后,则该前缀所代表的频繁序列就是冗余的,为了减少运行过程中对内存的占用,可以删除该前缀所代表的频繁序列,从而提升性能。
2)在所述频繁序列模式挖掘过程中,需要轮询序列数据集中的频繁项,对于轮询到的频繁项,如果该频繁项是已挖掘到的一个频繁序列的子集,则从该频繁序列中截取以该频繁项开始到该频繁序列最后一个路径的部分作为前缀,开始新一轮的挖掘,从而减少冗余计算。
3)由于访问路径序列有多种不同的划分方式,在挖掘得到的频繁序列可能存在少量冗余。如果一个路径序列是频繁序列模式,那么该序列的所有子集都是频繁序列模式,那么这些子集都是冗余的。因此,本申请实施例在频繁序列模式挖掘过程中,若挖掘得到的一个频繁序列是另一个频繁序列的子集,则删除作为子集的频繁序列。这种方式能够删除冗余的频繁序列,提升性能。
在本申请实施例中,关于频繁度可以由管理人员进行人工设置,例如采用经验值、实验值等。在此提供一种优选的频繁度设置方式,首先统计步骤201获取到的访问路径序列中各访问路径出现的次数;然后对所有访问路径出现的次数进行聚类,例如进行DBSCAN(Density-Based Spatial Clustering of Applications with Noise,是一种基于密度的聚类方法)聚类;分别将各类别中次数的最小值作为频繁度,分别依据各频繁度进行所述频繁序列模式挖掘。
通过本申请挖掘出的频繁序列后,记录该频繁序列在访问路径序列中的出现次数。
另外,在预处理过程中合并的访问路径可能是频繁序列的子集,可以通过索引从被合并的访问路径中查找频繁序列的嵌套子集,并进行关联。
但在上述预处理过程中合并的访问路径,也可能不是任何一种频繁序列的子集,但对于这些访问路径也可能是一种频繁序列。因此,在上述预处理过程中进行合并的访问路径,如果其数量大于或等于预设数量阈值,则确定该访问路径是一种频繁序列。
仍继续上例,划分得到的三个子序列:
abcbde
abcbe
abcbdefgfgfg
假设频繁度为3,从这三个子序列中可以挖掘得到以下频繁序列:
abcb
fg
e
其中,由于在预处理过程中合并的访问路径b是频繁序列abcb的子集,因此可以按照索引将访问路径b与频繁序列abcb进行关联。
在204中,判断是否挖掘得到频繁序列,如果是,执行205;否则,执行207。
在205中,判断频繁序列是否符合爬虫特征,如果是,执行206;否则,执行207。
若所述频繁序列中仅涉及信息类页面的访问路径且所述频繁序列的被访问次数超过预设访问次数阈值,例如超过100次,或者,若所述频繁序列中仅涉及信息类页面的访问路径且所述频繁序列的占比超过预设占比阈值,例如超过90%,则确定符合爬虫特征。
在206中,确定该用户为爬虫。
在207中,确定该用户并非爬虫。
如果识别出用户为爬虫,则可以进一步进行告警。告警的方式可以采用但不限于:系统界面展示、发送消息给管理人员、声音告警等。
更进一步地,若在上述序列模式挖掘过程中挖掘得到频繁序列,则说明频繁访问模式存在,可以在系统界面上展示挖掘得到的频繁序列及其关联的信息,以供管理人员查看和分析。
一旦识别出爬虫后,可以对被识别为爬虫的用户的特征进行标记并进行相关保护策略的配置。例如,当该用户在此访问服务器时,可以对其访问进行禁止,从而防止服务器被同一爬虫在此爬取。
以上是对本申请所提供的方法进行的详细描述,下面结合实施例对本申请所提供的装置进行详细描述。
实施例三、
图3为本申请实施例提供的识别爬虫的装置结构示意图,如图3中所示,该装置可以包括:路径获取单元01、序列划分单元02、模式挖掘单元03和爬虫识别单元04,还可以进一步包括:预处理单元05。其中各组成单元的主要功能如下:
路径获取单元01,用于获取用户在预设时段内的访问路径序列。
预处理单元05,用于对访问路径序列进行预处理,将预处理后的访问路径序列提供给序列划分单元02。
其中,上述预处理包括以下至少一种:
删除访问路径序列中非主动请求的访问路径;
合并访问路径序列中相邻且相同的访问路径。
具体地,预处理单元05在合并访问路径序列中相邻且相同的访问路径时,可以仅保留相邻且相同的访问路径中的首个访问路径,记录该路径在访问路径序列中的索引以及合并的相邻且相同的访问路径的数量。
序列划分单元02,用于将访问路径序列划分为一个以上的子序列。
具体地,序列划分单元02可以执行以下划分方式中的至少一种:
方式一、按照各访问路径的时间顺序依次轮询访问路径序列,在入口路径处进行划分,划分为以入口路径开始的各子序列。在本申请实施例中,入口路径指的是网站首页对应的访问路径。即轮询访问路径序列,如果遇到入口路径,则从入口路径之前处开始划分,将入口路径及其后面的路径序列一起划分到下一个子序列中。
方式二、按照各访问路径的时间顺序依次轮询访问路径序列,在重复路径序列处进行划分,划分为以重复路径序列开始的各子序列。其中可以定义重复路径序列为满足预设长度要求且在轮询过程中已出现过的路径序列。即轮询访问路径序列,如果遇到长度为len的路径序列,该路径序列在之前的轮询中已经出现过,则从重复路径序列之前处开始划分,将该重复路径序列及其后面的路径序列一起划分到下一个子序列中。其中,
Figure BDA0002573474540000131
len为正数,n为访问路径序列的长度。len的取值可以根据经验值和实际需求进行设置和调整。
模式挖掘单元03,用于利用序列模式挖掘算法,将划分后得到的各子序列作为序列数据集进行频繁序列模式挖掘,得到频繁序列。
其中,序列模式挖掘算法可以包括:Prefixspan算法。模式挖掘单元03在Prefixspan算法中,将紧邻该前缀之后的路径作为投影。
模式挖掘单元03,还用于执行以下处理中的至少一种以进行性能改进:
在频繁序列模式挖掘过程中,若挖掘到比前缀更长的频繁序列,则删除该前缀所代表的频繁序列。
在频繁序列模式挖掘过程中,对于轮询到的频繁项,如果该频繁项是已挖掘到的一个频繁序列的子集,则从该频繁序列中截取以该频繁项开始到该频繁序列最后一个路径的部分作为前缀,开始新一轮的挖掘。
在频繁序列模式挖掘过程中,若挖掘得到的一个频繁序列是另一个频繁序列的子集,则删除作为子集的频繁序列。
在本申请实施例中,关于频繁度可以由管理人员进行人工设置,例如采用经验值、实验值等。在此提供一种优选的频繁度设置方式,模式挖掘单元03还可以统计访问路径序列中各访问路径出现的次数;对所有访问路径出现的次数进行聚类;分别将各类别中次数的最小值作为频繁度,分别依据各频繁度进行频繁序列模式挖掘。
另外,模式挖掘单元03,还可以用于若合并的相邻且相同的访问路径的数量大于或等于预设数量阈值,则确定相邻且相同的访问路径是一种频繁序列。
爬虫识别单元04,用于判断得到的频繁序列是否符合爬虫特征,如果是,则确定用户为爬虫。
具体地,若频繁序列中仅涉及信息类页面的访问路径且频繁序列的被访问次数超过预设访问次数阈值,或者,若频繁序列中仅涉及信息类页面的访问路径且频繁序列的占比超过预设占比阈值,则爬虫识别单元04确定符合爬虫特征。
若模式挖掘单元03若未挖掘到频繁序列,或者若判断出得到的频繁序列不符合爬虫特征,则爬虫识别单元04确定用户并非爬虫。
图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器的框图。图4显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图4中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元016通过运行存储在系统存储器028中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的方法流程。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如,被上述一个或多个处理器执行本发明实施例所提供的方法流程。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (22)

1.一种识别爬虫的方法,其特征在于,该方法包括:
获取用户在预设时段内的访问路径序列;
将所述访问路径序列划分为一个以上的子序列;
利用序列模式挖掘算法,将划分后得到的各子序列作为序列数据集进行频繁序列模式挖掘,得到频繁序列;其中,所述频繁序列是指频繁出现在各序列数据集中的连续路径序列;
判断得到的频繁序列是否符合爬虫特征,如果是,则确定所述用户为爬虫;其中,所述判断得到的频繁序列是否符合爬虫特征包括:
若所述频繁序列中仅涉及信息类页面的访问路径且所述频繁序列的被访问次数超过预设访问次数阈值,或者,若所述频繁序列中仅涉及信息类页面的访问路径且所述频繁序列的占比超过预设占比阈值,则确定符合爬虫特征。
2.根据权利要求1所述的方法,其特征在于,在将所述访问路径序列划分为一个以上的子序列之前,还包括:对所述访问路径序列进行预处理;
所述预处理包括以下至少一种:
删除所述访问路径序列中非主动请求的访问路径;
合并所述访问路径序列中相邻且相同的访问路径。
3.根据权利要求2所述的方法,其特征在于,合并所述访问路径序列中相邻且相同的访问路径包括:
仅保留所述相邻且相同的访问路径中的首个访问路径,记录该路径在访问路径序列中的索引以及合并的所述相邻且相同的访问路径的数量。
4.根据权利要求1所述的方法,其特征在于,将所述访问路径划分为一个以上的子序列包括以下方式中的至少一种:
方式一、按照各访问路径的时间顺序依次轮询访问路径序列,在入口路径处进行划分,划分为以入口路径开始的各子序列;
方式二、按照各访问路径的时间顺序依次轮询访问路径序列,在重复路径序列处进行划分,划分为以重复路径序列开始的各子序列,所述重复路径序列为满足预设长度要求且在所述轮询过程中出现过的路径序列。
5.根据权利要求1所述的方法,其特征在于,所述序列模式挖掘算法包括:Prefixspan算法;
在所述Prefixspan算法中,将紧邻所述Prefixspan算法中前缀之后的路径作为投影。
6.根据权利要求3所述的方法,其特征在于,该方法还包括:
若合并的所述相邻且相同的访问路径的数量大于或等于预设数量阈值,则确定所述相邻且相同的访问路径是一种频繁序列。
7.根据权利要求1所述的方法,其特征在于,该方法还包括:
若未挖掘到频繁序列,则所述用户并非爬虫;
若判断出得到的频繁序列不符合爬虫特征,则确定所述用户并非爬虫。
8.根据权利要求5所述的方法,其特征在于,在所述频繁序列模式挖掘过程中,若挖掘到比前缀更长的频繁序列,则删除该前缀所代表的频繁序列。
9.根据权利要求5所述的方法,其特征在于,在所述频繁序列模式挖掘过程中,对于轮询到的频繁项,如果该频繁项是已挖掘到的一个频繁序列的子集,则从该频繁序列中截取以该频繁项开始到该频繁序列最后一个路径的部分作为前缀,开始新一轮的挖掘。
10.根据权利要求5所述的方法,其特征在于,在所述频繁序列模式挖掘过程中,若挖掘得到的一个频繁序列是另一个频繁序列的子集,则删除作为子集的频繁序列。
11.根据权利要求5所述的方法,其特征在于,该方法还包括:
统计所述访问路径序列中各访问路径出现的次数;
对所有访问路径出现的次数进行聚类;
分别将各类别中次数的最小值作为频繁度,分别依据各频繁度进行所述频繁序列模式挖掘。
12.一种识别爬虫的装置,其特征在于,该装置包括:
路径获取单元,用于获取用户在预设时段内的访问路径序列;
序列划分单元,用于将所述访问路径序列划分为一个以上的子序列;
模式挖掘单元,用于利用序列模式挖掘算法,将划分后得到的各子序列作为序列数据集进行频繁序列模式挖掘,得到频繁序列;其中,所述频繁序列是指频繁出现在各序列数据集中的连续路径序列;
爬虫识别单元,用于判断得到的频繁序列是否符合爬虫特征,如果是,则确定所述用户为爬虫;其中,所述爬虫识别单元,具体用于:
若所述频繁序列中仅涉及信息类页面的访问路径且所述频繁序列的被访问次数超过预设访问次数阈值,或者,若所述频繁序列中仅涉及信息类页面的访问路径且所述频繁序列的占比超过预设占比阈值,则确定符合爬虫特征。
13.根据权利要求12所述的装置,其特征在于,该装置还包括:
预处理单元,用于对所述访问路径序列进行预处理,将预处理后的访问路径序列提供给所述序列划分单元;
所述预处理包括以下至少一种:
删除所述访问路径序列中非主动请求的访问路径;
合并所述访问路径序列中相邻且相同的访问路径。
14.根据权利要求13所述的装置,其特征在于,所述预处理单元在合并所述访问路径序列中相邻且相同的访问路径时,具体执行:
仅保留所述相邻且相同的访问路径中的首个访问路径,记录该路径在访问路径序列中的索引以及合并的所述相邻且相同的访问路径的数量。
15.根据权利要求12所述的装置,其特征在于,所述序列划分单元,具体用于执行以下划分方式中的至少一种:
方式一、按照各访问路径的时间顺序依次轮询访问路径序列,在入口路径处进行划分,划分为以入口路径开始的各子序列;
方式二、按照各访问路径的时间顺序依次轮询访问路径序列,在重复路径序列处进行划分,划分为以重复路径序列开始的各子序列,所述重复路径序列为满足预设长度要求且在所述轮询过程中出现过的路径序列。
16.根据权利要求12所述的装置,其特征在于,所述序列模式挖掘算法包括:Prefixspan算法;
所述模式挖掘单元在所述Prefixspan算法中,将紧邻所述Prefixspan算法中前缀之后的路径作为投影。
17.根据权利要求14所述的装置,其特征在于,所述模式挖掘单元,还用于若合并的所述相邻且相同的访问路径的数量大于或等于预设数量阈值,则确定所述相邻且相同的访问路径是一种频繁序列。
18.根据权利要求12所述的装置,其特征在于,所述爬虫识别单元,还用于若所述模式挖掘单元若未挖掘到频繁序列,或者若判断出得到的频繁序列不符合爬虫特征,则确定所述用户并非爬虫。
19.根据权利要求16所述的装置,其特征在于,所述模式挖掘单元,还用于执行以下处理中的至少一种:
在所述频繁序列模式挖掘过程中,若挖掘到比前缀更长的频繁序列,则删除该前缀所代表的频繁序列;
在所述频繁序列模式挖掘过程中,对于轮询到的频繁项,如果该频繁项是已挖掘到的一个频繁序列的子集,则从该频繁序列中截取以该频繁项开始到该频繁序列最后一个路径的部分作为前缀,开始新一轮的挖掘;
在所述频繁序列模式挖掘过程中,若挖掘得到的一个频繁序列是另一个频繁序列的子集,则删除作为子集的频繁序列。
20.根据权利要求16所述的装置,其特征在于,所述模式挖掘单元,还用于:统计所述访问路径序列中各访问路径出现的次数;对所有访问路径出现的次数进行聚类;分别将各类别中次数的最小值作为频繁度,分别依据各频繁度进行所述频繁序列模式挖掘。
21.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。
22.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-11中任一所述的方法。
CN202010647106.6A 2020-07-07 2020-07-07 识别爬虫的方法、装置、设备和计算机存储介质 Active CN112003819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010647106.6A CN112003819B (zh) 2020-07-07 2020-07-07 识别爬虫的方法、装置、设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010647106.6A CN112003819B (zh) 2020-07-07 2020-07-07 识别爬虫的方法、装置、设备和计算机存储介质

Publications (2)

Publication Number Publication Date
CN112003819A CN112003819A (zh) 2020-11-27
CN112003819B true CN112003819B (zh) 2022-07-01

Family

ID=73467319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010647106.6A Active CN112003819B (zh) 2020-07-07 2020-07-07 识别爬虫的方法、装置、设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN112003819B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221213A (zh) * 2021-04-20 2022-10-21 北京字节跳动网络技术有限公司 一种请求识别方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017190641A1 (zh) * 2016-05-03 2017-11-09 北京京东尚科信息技术有限公司 拦截爬虫的方法、装置、服务器终端以及计算机可读介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350745B (zh) * 2008-08-15 2011-08-03 北京启明星辰信息技术股份有限公司 一种入侵检测方法及装置
CN105721427B (zh) * 2016-01-14 2018-10-30 湖南大学 一种从Web日志中挖掘攻击频繁序列模式的方法
US10929471B2 (en) * 2017-09-08 2021-02-23 International Business Machines Corporation Sequential pattern mining
CN108173876B (zh) * 2018-01-30 2020-11-06 福建师范大学 基于最大频繁模式的动态规则库构建方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017190641A1 (zh) * 2016-05-03 2017-11-09 北京京东尚科信息技术有限公司 拦截爬虫的方法、装置、服务器终端以及计算机可读介质

Also Published As

Publication number Publication date
CN112003819A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN112162965B (zh) 一种日志数据处理的方法、装置、计算机设备及存储介质
CN112491602B (zh) 行为数据的监控方法、装置、计算机设备及介质
CN110674247A (zh) 弹幕信息的拦截方法、装置、存储介质及设备
CN110008740B (zh) 一种文档访问权限的处理方法、装置、介质和电子设备
CN111586695B (zh) 短信识别方法及相关设备
CN109495549B (zh) 一种应用拉活的方法、设备和计算机存储介质
CN112287339B (zh) Apt入侵检测方法、装置以及计算机设备
CN112003819B (zh) 识别爬虫的方法、装置、设备和计算机存储介质
CN113627179B (zh) 一种基于大数据的威胁情报预警文本分析方法及系统
CN112363814A (zh) 任务调度方法、装置、计算机设备及存储介质
CN110365642B (zh) 监控信息操作的方法、装置、计算机设备及存储介质
CN113821630A (zh) 一种数据聚类的方法和装置
CN116739605A (zh) 交易数据检测方法、装置、设备及存储介质
CN113239687B (zh) 一种数据处理方法和装置
CN105354506A (zh) 隐藏文件的方法和装置
CN115795100A (zh) 用户事件处理方法、装置、电子设备及可读存储介质
CN112417310B (zh) 建立智能服务索引以及推荐智能服务的方法
CN113609352B (zh) 字符串检索方法、装置、计算机设备及存储介质
CN113220842B (zh) 海事行政处罚裁量模板的处理方法、装置和设备
CN113079165B (zh) 一种访问处理方法和装置
CN110427391B (zh) 确定重复数据的方法、设备和计算机程序产品
CN114650252B (zh) 基于企业服务总线的路由方法、装置及计算机设备
CN113627938B (zh) 一种区块链的数据删除方法、装置、设备及存储介质
CN112287101B (zh) 信息处理方法、装置和计算机设备
CN109933985B (zh) 一种绕过挂钩的方法、装置、设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant