CN114726610B - 一种网络数据自动获取器攻击的检测方法和装置 - Google Patents

一种网络数据自动获取器攻击的检测方法和装置 Download PDF

Info

Publication number
CN114726610B
CN114726610B CN202210345805.4A CN202210345805A CN114726610B CN 114726610 B CN114726610 B CN 114726610B CN 202210345805 A CN202210345805 A CN 202210345805A CN 114726610 B CN114726610 B CN 114726610B
Authority
CN
China
Prior art keywords
flow
sample set
feature
flow sample
attenuation factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210345805.4A
Other languages
English (en)
Other versions
CN114726610A (zh
Inventor
李祥祥
高欢芝
夏威
李康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lazas Network Technology Shanghai Co Ltd
Original Assignee
Lazas Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lazas Network Technology Shanghai Co Ltd filed Critical Lazas Network Technology Shanghai Co Ltd
Priority to CN202210345805.4A priority Critical patent/CN114726610B/zh
Publication of CN114726610A publication Critical patent/CN114726610A/zh
Application granted granted Critical
Publication of CN114726610B publication Critical patent/CN114726610B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本说明书一个或多个实施例提供一种网络数据自动获取器攻击的检测方法和装置,其方法应用于服务器,服务器维护有报警阈值以及至少两个特征维度下的特征距离对应的截断阈值,包括:获取服务器在第一时间段内接收到的第一流量样本集以及在第二时间段内接收到的第二流量样本集;计算第一流量样本集和第二流量样本集分别在至少两个特征维度下的至少两个特征距离;在至少两个特征距离中任一特征距离超过任一特征距离对应的截断阈值的情况下,将任一特征距离的数值重新确定为任一特征距离对应的截断阈值;基于重新确定的至少两个特征距离确定流量异常指数,在流量异常指数超过报警阈值的情况下确定第一时间段或第二时间段内存在网络数据自动获取器攻击。

Description

一种网络数据自动获取器攻击的检测方法和装置
技术领域
本说明书一个或多个实施例涉及互联网技术领域,尤其涉及一种网络数据自动获取器攻击的检测方法和装置。
背景技术
网络数据自动获取器又称网络爬虫,是一种按照一定的规则自动地抓取互联网信息的程序或者脚本。然而,网络爬虫的泛滥会构成爬虫攻击,导致服务器承受大量的访问请求,损耗服务器的资源,给正常用户的访问带来了阻碍,因此如何检测爬虫攻击是一个亟待解决的技术问题。
一方面,传统的爬虫攻击的检测关注访问流量在报文层面或会话层面的特征,例如检测IP地址的访问频率、检测请求头格式、检测cookie(储存在用户本地终端上的数据)等方式,然而这些都是通过先总结爬虫流量的静态特征,然后判断接收到的特定流量是否符合这些静态特征的规则检测方式,虽然可以在规则角度上识别是否遭遇了爬虫攻击,但由于缺乏整体性视角且爬虫流量的静态特征难以穷尽,因此很容易导致漏检。另一方面,虽然也可以通过检测流量波动的方式检测是否可能遭遇了爬虫攻击,但传统的检测流量波动的方式无法区分流量波动是由爬虫攻击导致还是正常访问导致,因此简单地把流量波动的现象归结为爬虫攻击,将很容易导致误检。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种网络数据自动获取器攻击的检测方法和装置。
为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
根据本说明书一个或多个实施例的第一方面,提出了一种网络数据自动获取器攻击的检测方法,应用于服务器,所述服务器维护有报警阈值以及至少两个特征维度下的特征距离对应的截断阈值,所述方法包括:
获取所述服务器在第一时间段内接收到的第一流量样本集以及在第二时间段内接收到的第二流量样本集;
计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离;
在所述至少两个特征距离中任一特征距离超过所述任一特征距离对应的截断阈值的情况下,将所述任一特征距离的数值重新确定为所述任一特征距离对应的截断阈值;
基于重新确定的至少两个特征距离确定流量异常指数,在所述流量异常指数超过所述报警阈值的情况下,确定第一时间段或第二时间段内存在网络数据自动获取器攻击。
可选的,所述服务器维护的任一特征维度下的特征距离对应的截断阈值正相关于:所述服务器接收到的历史流量样本在所述任一特征维度下的单维流量异常指数与历史网络数据自动获取器攻击之间的关联性。
可选的,所述计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离,包括:
基于所述至少两个特征维度中任一特征维度对应的分类策略,对第一流量样本集包含的流量样本进行分类,获取第一流量样本集包含的流量样本在各类别中所占的比例并以此生成第一流量样本集在所述任一特征维度下的样本比例分布;
基于所述任一特征维度对应的分类策略,对第二流量样本集包含的流量样本进行分类,获取第二流量样本集包含的流量样本在各类别中所占的比例并以此生成第二流量样本集在所述任一特征维度下的样本比例分布;
将第一流量样本集在所述任一特征维度下的样本比例分布与第二流量样本集在所述任一特征维度下的样本比例分布之间的群体稳定性指标,确定为第一流量样本集和第二流量样本集在所述任一特征维度下的特征距离。
可选的,所述任一特征维度对应的分类策略包括:
按照所述任一特征维度包含的预设类别对待分类流量样本集包含的流量样本进行分类,将分类得到的各类别按照包含样本数由高至低的顺序进行排序,将排名落后于预设名次的所有类别合并为同一类别。
可选的,所述基于重新确定的所述至少两个特征距离确定流量异常指数,包括:
将所述重新确定的至少两个特征距离的加权和确定为所述流量异常指数;或者,
将所述重新确定的至少两个特征距离的加权和,与所述至少两个特征维度下的特征距离对应的截断阈值的加权和的商确定为所述流量异常指数。
可选的,所述基于重新确定的至少两个特征距离确定流量异常指数,包括:
基于重新确定的至少两个特征距离确定初始流量异常指数;
生成衰减因子,并按照所述衰减因子对所述初始流量异常指数进行调整以生成所述流量异常指数,所述衰减因子正相关于第一流量样本集的样本数和/或第二流量样本集的样本数。
可选的,所述生成衰减因子,包括:
分别基于第一流量样本集的样本数和第二流量样本集的样本数确定第一衰减因子和第二衰减因子,其中,第一衰减因子正相关于第一流量样本集的样本数,第二衰减因子正相关于第二流量样本集的样本数;
基于第一衰减因子与第二衰减因子生成所述衰减因子。
可选的,所述分别基于第一流量样本集的样本数和第二流量样本集的样本数确定第一衰减因子和第二衰减因子,包括:
将第一流量样本集的样本数输入衰减因子生成函数后,将第一趋势关注度因子与所述衰减因子生成函数的输出值中较大的一项确定为第一衰减因子;
将第二流量样本集的样本数输入所述衰减因子生成函数后,将第二趋势关注度因子与所述衰减因子生成函数的输出值中较大的一项确定为第二衰减因子;
所述基于第一衰减因子与第二衰减因子生成所述衰减因子,包括:
将第一衰减因子与第二衰减因子的乘积确定为所述衰减因子。
可选的,第一趋势关注度因子与第二趋势关注度因子中的任一趋势关注度因子为零或趋近于零,第一趋势关注度因子与第二趋势关注度因子中的另一趋势关注度因子大于零,且所述另一趋势关注度因子与所述任一趋势关注度因子的比值超过预设数值。
可选的,所述确定第一时间段或第二时间段内存在网络数据自动获取器攻击,包括:
在第一流量样本集和第二流量样本集中的任一流量样本集的样本数比另一流量样本集的样本数多预设数量的情况下,确定所述服务器在接收到所述任一流量样本集的时间段内存在网络数据自动获取器攻击。
可选的,还包括:
在计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离之前,删除第一流量样本集和第二流量样本集包含的已识别的网络数据自动获取器流量样本。
可选的,第一时间段与第二时间段为相同的时间段,第一流量样本集包含的流量样本为匿名态和登录态中的任一态,第二流量样本集包含的流量样本为匿名态和登录态中的另一态;或者,
第一时间段与第二时间段为相邻的时间段,第一流量样本集与第二流量样本集包含的流量样本均为匿名态或登录态。
可选的,所述至少两个特征维度包括以下至少两项:访问方操作系统、访问方操作系统版本、访问方浏览器、访问方浏览器版本、访问方客户端版本、访问方GPS位置、访问方IP图谱位置、流量访问时长、cookie名称。
根据本说明书一个或多个实施例的第二方面,提出了一种网络数据自动获取器攻击的检测装置,应用于服务器,所述服务器维护有报警阈值以及至少两个特征维度下的特征距离对应的截断阈值,所述装置包括:
流量样本集获取单元,用于获取所述服务器在第一时间段内接收到的第一流量样本集以及在第二时间段内接收到的第二流量样本集;
特征距离计算单元,用于计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离;
特征距离确定单元,用于在所述至少两个特征距离中任一特征距离超过所述任一特征距离对应的截断阈值的情况下,将所述任一特征距离的数值重新确定为所述任一特征距离对应的截断阈值;
网络数据自动获取器攻击确定单元,用于基于重新确定的至少两个特征距离确定流量异常指数,在所述流量异常指数超过所述报警阈值的情况下,确定第一时间段或第二时间段内存在网络数据自动获取器攻击。
可选的,所述服务器维护的任一特征维度下的特征距离对应的截断阈值正相关于:所述服务器接收到的历史流量样本在所述任一特征维度下的单维流量异常指数与历史网络数据自动获取器攻击之间的关联性。
可选的,所述特征距离计算单元具体用于:
基于所述至少两个特征维度中任一特征维度对应的分类策略,对第一流量样本集包含的流量样本进行分类,获取第一流量样本集包含的流量样本在各类别中所占的比例并以此生成第一流量样本集在所述任一特征维度下的样本比例分布;
基于所述任一特征维度对应的分类策略,对第二流量样本集包含的流量样本进行分类,获取第二流量样本集包含的流量样本在各类别中所占的比例并以此生成第二流量样本集在所述任一特征维度下的样本比例分布;
将第一流量样本集在所述任一特征维度下的样本比例分布与第二流量样本集在所述任一特征维度下的样本比例分布之间的群体稳定性指标,确定为第一流量样本集和第二流量样本集在所述任一特征维度下的特征距离。
可选的,所述任一特征维度对应的分类策略包括:
按照所述任一特征维度包含的预设类别对待分类流量样本集包含的流量样本进行分类,将分类得到的各类别按照包含样本数由高至低的顺序进行排序,将排名落后于预设名次的所有类别合并为同一类别。
可选的,所述网络数据自动获取器攻击确定单元具体用于:
将所述重新确定的至少两个特征距离的加权和确定为所述流量异常指数;或者,
将所述重新确定的至少两个特征距离的加权和,与所述至少两个特征维度下的特征距离对应的截断阈值的加权和的商确定为所述流量异常指数。
可选的,所述网络数据自动获取器攻击确定单元具体用于:
基于重新确定的至少两个特征距离确定初始流量异常指数;
生成衰减因子,并按照所述衰减因子对所述初始流量异常指数进行调整以生成所述流量异常指数,所述衰减因子正相关于第一流量样本集的样本数和/或第二流量样本集的样本数。
可选的,所述网络数据自动获取器攻击确定单元进一步用于:
分别基于第一流量样本集的样本数和第二流量样本集的样本数确定第一衰减因子和第二衰减因子,其中,第一衰减因子正相关于第一流量样本集的样本数,第二衰减因子正相关于第二流量样本集的样本数;
基于第一衰减因子与第二衰减因子生成所述衰减因子。
可选的,所述网络数据自动获取器攻击确定单元进一步用于:
将第一流量样本集的样本数输入衰减因子生成函数后,将第一趋势关注度因子与所述衰减因子生成函数的输出值中较大的一项确定为第一衰减因子;
将第二流量样本集的样本数输入所述衰减因子生成函数后,将第二趋势关注度因子与所述衰减因子生成函数的输出值中较大的一项确定为第二衰减因子;
所述基于第一衰减因子与第二衰减因子生成所述衰减因子,包括:
将第一衰减因子与第二衰减因子的乘积确定为所述衰减因子。
可选的,第一趋势关注度因子与第二趋势关注度因子中的任一趋势关注度因子为零或趋近于零,第一趋势关注度因子与第二趋势关注度因子中的另一趋势关注度因子大于零,且所述另一趋势关注度因子与所述任一趋势关注度因子的比值超过预设数值。
可选的,所述网络数据自动获取器攻击确定单元具体用于:
在第一流量样本集和第二流量样本集中的任一流量样本集的样本数比另一流量样本集的样本数多预设数量的情况下,确定所述服务器在接收到所述任一流量样本集的时间段内存在网络数据自动获取器攻击。
可选的,还包括:
流量样本删除单元,用于在计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离之前,删除第一流量样本集和第二流量样本集包含的已识别的网络数据自动获取器流量样本。
可选的,第一时间段与第二时间段为相同的时间段,第一流量样本集包含的流量样本为匿名态和登录态中的任一态,第二流量样本集包含的流量样本为匿名态和登录态中的另一态;或者,
第一时间段与第二时间段为相邻的时间段,第一流量样本集与第二流量样本集包含的流量样本均为匿名态或登录态。
可选的,所述至少两个特征维度包括以下至少两项:访问方操作系统、访问方操作系统版本、访问方浏览器、访问方浏览器版本、访问方客户端版本、访问方GPS位置、访问方IP图谱位置、流量访问时长、cookie名称。
根据本说明书一个或多个实施例的第三方面,提出了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如上述任一实施例中所述的网络数据自动获取器攻击的检测方法。
根据本说明书一个或多个实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述实施例中任一所述网络数据自动获取器攻击的检测方法的步骤。
由以上技术方案可见,通过计算第一时间段内接收到的第一流量样本集与在第二时间段内接收到的第二流量样本集在至少两个特征维度下的至少两个特征距离,得以采集到服务器在各特征维度下整体上的稳定性的波动情况,从而根据作为网络数据自动获取器攻击的动态特征的至少两个特征距离识别网络数据自动获取器攻击,提高网络数据自动获取器攻击的识别准确度;同时,由于在确定流量异常指数时考虑到了至少两个特征维度的特征距离,因此能够尽可能避免因考虑的特征维度过少导致的漏检,降低了网络数据自动获取器攻击的漏检率;另外,通过对每个特征维度下的特征距离设置了截断阈值,从而控制每个特征维度的特征距离对流量异常指数的贡献上限,并且使得贡献上限高的特征距离其调节的灵敏度也更高,从而提高了最终确定得到的流量异常指数表征网络数据自动获取器活动强度的效度。
附图说明
图1是一示例性实施例提供的一种网络数据自动获取器攻击的检测方法的流程图。
图2是一示例性实施例提供的一种流量样本集的样本比例分布的示意图。
图3是一示例性实施例提供的一种设备的结构示意图。
图4是一示例性实施例提供的一种网络数据自动获取器攻击的检测装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
请参见图1,图1是一示例性实施例提供的一种网络数据自动获取器攻击的检测方法,应用于服务器,所述服务器维护有报警阈值以及至少两个特征维度下的特征距离对应的截断阈值,所述方法包括:
S102:获取所述服务器在第一时间段内接收到的第一流量样本集以及在第二时间段内接收到的第二流量样本集。
在本说明书实施例中,服务器会记录其历史上所接收到的访问流量及其访问时刻,从而能够整理得到历史上的访问流量随时间的变化情况。例如服务器可以按照天为统计单位,记录过去每天接收到的访问流量。本说明书实施例所涉及的访问流量可以理解为服务器接口接收到的来自外部的访问请求,每个访问请求往往都携带有访问来源的相关信息,例如IP地址、GPS位置信息、访问方操作系统等,这些信息将作为后续生成样本特征的基础。
本说明书实施例所涉及的第一时间段或第二时间段均属于相对于现在已经过去的历史时间段,第一时间段与第二时间段之间并不要求有明确的先后顺序,也不需要保持时间上的连续性(第一时间段与第二时间段拼接起来能够组成一个完整的时间段),二者的时长也可以相等或不等。例如,第一时间段可以是过去的24小时内,而第二时间段可以是过去的24小时以前的所有时间,显然通常情况第一时间段的时长要远小于第二时间段;或者,第一时间段可以是去年的1月,而第二时间段可以是今年的1月。当然,第一时间段与第二时间段也可以完全相同,但此时第一流量样本集与第二流量样本集的获取方式会有差异。
在本说明书实施例中,第一流量样本集可以包含服务器在第一时间段内接收到的所有访问流量,也可以是从第一时间段内接收到的所有访问流量中进行随机抽样得到的部分流量样本,同理,第二流量样本集也可以包含服务器在第二时间段内接收到的所有访问流量或者对第二时间段内接收到的所有访问流量进行随机抽样得到的流量样本。当第一流量样本集或第二流量样本集中包含的流量样本是通过抽样得到的情况下,可以减小后续利用第一流量样本集和第二流量样本集计算特征距离的计算规模,通过在合理范围内牺牲置信度为条件来节省计算资源,同时随机抽样的抽样方式也能够最大限度地确保信息不失真,即抽样得到的第一流量样本集或第二流量样本集能够尽可能地分别不失信地代表第一时间段内接收到的所有访问流量或第二时间段内接收到的所有访问流量。
在采集到的第一流量样本集和第二流量样本集后,需要通过计算特征距离的方式来衡量第一流量样本集和第二流量样本集在各特征维度下的差异性大小,从而判断服务器接收到的不同时间段或不同访问态的访问流量的整体稳定性,并以此作为基础来识别服务器是否遭受了爬虫攻击。本说明书实施例所涉及的访问态是指访问方在访问服务器接口(通过访问站点或通过app接口)时所处的登录状态,如果访问方是服务器平台的注册用户并且在访问服务器时已经处于登录状态,则其访问流量对应的访问态为登录态,而如果访问方未注册或者在访问服务器时尚未登录,那么其访问流量对应的访问态为匿名态,用于表示访问者的身份并非注册用户。
在一实施例中,第一时间段与第二时间段可以为相同的时间段,此时第一流量样本集包含的流量样本为匿名态和登录态中的任一态,第二流量样本集包含的流量样本为匿名态和登录态中的另一态。在本说明书实施例中,虽然是在同一时间段内采集第一流量样本集和第二流量样本集,但是其采样方式并不相同,因此最终采样得到的不同流量样本集中包含的流量样本也不相同,例如本说明书实施例就是分别采样处于相同时间段内不同访问态的访问流量以得到第一流量样本集和第二流量样本集,因此最终在计算得到的第一流量样本集和第二流量的特征距离所表征的就是在同一时间段下不同访问态流量之间的整体差异性。
而在另一实施例中,第一时间段与第二时间段为相邻的时间段,第一流量样本集与第二流量样本集包含的流量样本均为匿名态或登录态。在本说明书实施例中,第一时间段与第二时间段属于互不重合但彼此相邻(即拼接在一起可以合并为一个完整的时间段),例如第一时间段为昨天,而第二时间段为今天。此时,在采样获取第一流量样本集与第二流量样本集时就会选相同访问态的流量样本,而采样时间段的差异也会导致最终采样得到的不同流量样本集中包含的流量样本并不相同,并且最终计算得到的第一流量样本集和第二流量的特征距离所表征的就是在连续不同时间段下相同访问态流量之间的整体差异性。
基于上述设置的采样方式的不同,其最终获取的第一流量样本集和第二流量样本集中包含的流量样本将具有不同的属性,且后续计算出的特征距离也会具有不同的内涵,从而最终影响后续识别出的爬虫攻击的类型。
S104:计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离。
在本说明书实施例中,所述至少两个特征维度包括以下至少两项:访问方操作系统、访问方操作系统版本、访问方浏览器、访问方浏览器版本、访问方客户端版本、访问方GPS位置、访问方IP图谱位置、流量访问时长、cookie名称。
可选的,所述计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离,包括:
基于所述至少两个特征维度中任一特征维度对应的分类策略,对第一流量样本集包含的流量样本进行分类,获取第一流量样本集包含的流量样本在各类别中所占的比例并以此生成第一流量样本集在所述任一特征维度下的样本比例分布;
基于所述任一特征维度对应的分类策略,对第二流量样本集包含的流量样本进行分类,获取第二流量样本集包含的流量样本在各类别中所占的比例并以此生成第二流量样本集在所述任一特征维度下的样本比例分布;
将第一流量样本集在所述任一特征维度下的样本比例分布与第二流量样本集在所述任一特征维度下的样本比例分布之间的群体稳定性指标,确定为第一流量样本集和第二流量样本集在所述任一特征维度下的特征距离。
在本说明书实施例中,任一特征维度对应的分类策略即按照该任一特征维度所包含的预设类别进行分类,例如对于访问方操作系统这一特征维度,其所包含的预设类别就可以包括Windows、Android、iOS和Linux等,即各类不同的操作系统类型的实例。那么在基于访问方操作系统特征维度对应的分类策略对第一流量样本集或第二流量样本集进行分类时,实则就是将第一流量样本集或第二流量样本集中包含的流量样本按照访问方操作系统类型的不同分别统计其数量和比例,从而得到第一流量样本集或第二流量样本集在访问方操作系统特征维度下的样本比例分布,而样本比例分布作为一种分布性特征蕴含了原始数据集的整体性信息,因此可以通过计算第一流量样本集与第二流量样本集在同一特征维度下特征距离的方式来判断第一流量样本集与第二流量样本集的整体差异性。
图2是一示例性实施例提供的一种流量样本集的样本比例分布的示意图。假设被对比态样本比例分布为第一流量样本集在访问方操作系统特征维度下的样本比例分布,对比态样本比例分布为第二流量样本集在访问方操作系统特征维度下的样本比例分布,而图中的A、B、C、D分别代表Windows、Android、iOS和Linux这四种操作系统类型,显然对比态样本比例分布相较于被对比态样本比例分布有一定的差异,其主要体现在第二流量样本中访问方操作系统为Windows的访问流量的比例比第一流量样本相对更多,而第二流量样本中访问方操作系统为Linux的访问流量的比例比第一流量样本相对更少。
为了描述不同样本比例分布之间的差异性,需要通过不同样本比例分布之间的特征距离来标定对比态样本比例分布与被对比态样本比例分布的差异程度。而本说明书实施例中,具体是通过第一流量样本集在所述任一特征维度下的样本比例分布与第二流量样本集在所述任一特征维度下的样本比例分布之间的群体稳定性指标作为特征距离来衡量第一流量样本集与第二流量样本集在所述任一特征维度下的差异性。具体而言,第一流量样本集在所述任一特征维度下的样本比例分布与第二流量样本集在所述任一特征维度下的样本比例分布之间的群体稳定性指标,通过以下方式计算得出:计算第一流量样本集与第二流量样本集在相同特征维度下每一相同类别上所占的比例之间差异值,并将得到的所有差异值求和。
仍以图2为例,假设在对第一流量样本集与第二流量样本集分别按照访问方操作系统特征维度对应的分类策略进行分类(Windows、Android、iOS和Linux共4个类别)后,得到了作为第一流量样本集组分的4个第一流量样本子集以及作为第二流量样本集组分的另外4个第二流量样本子集,分别对应于第一流量样本集和第二流量样本集中访问方操作系统为Windows、Android、iOS和Linux的流量样本的集合。首先,需要计算出第一流量样本集与第二流量样本集包含的流量样本在各类别中所占的比例(即各第一流量样本子集于第一流量样本集所占比例以及各第二流量样本子集于第二流量样本集所占比例),可以通过如下公式进行计算:
其中,pc用于表示“c”类别(Windows、Android、iOS或Linux)的流量样本在相应样本比例分布中所占比例,nc用于表示该“c”类别对应流量样本子集的样本数,C用于表示在当前分类策略下所包含的预设类别的数量,当前C=4,δ指一个为正的极小常数,其设置初衷在于防止出现计算错误(防止pc为0的情况),例如δ可以取1e-200。
然后,需要计算第一流量样本集在所述任一特征维度下的样本比例分布与第二流量样本集在所述任一特征维度下的样本比例分布之间的群体稳定性指标,可以通过如下公式进行计算:
其中,D为第一流量样本与第二流量样本在在访问方操作系统特征维度下的特征距离,PSI(Population Stability Index,群体稳定性指标)为第一流量样本集在访问方操作系统特征维度下的样本比例分布与第二流量样本集在访问方操作系统特征维度下的样本比例分布之间的群体稳定性指标,pi用于表示“i”类别(Windows、Android、iOS或Linux)的流量样本在对比态样本比例分布中所占比例,pi’用于表示“i”类别的流量样本在被对比态样本比例分布中所占比例,C用于表示在当前分类策略下所包含的预设类别的数量,当前C=4。容易发现,PSI满足对称性,即如果将对比态样本比例分布与被对比态样本比例分布交换位置其得到的数值不变。
以上介绍的是计算一流量样本集和第二流量样本集在任一特征维度下的特征距离的具体实施方法,而在本申请中,需要至少计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离,每个特征距离仅对应于一个特征维度,每个特征维度也仅对应于一个特征距离。
可选的,所述任一特征维度对应的分类策略包括:按照所述任一特征维度包含的预设类别对待分类流量样本集包含的流量样本进行分类,将分类得到的各类别按照包含样本数由高至低的顺序进行排序,将排名落后于预设名次的所有类别合并为同一类别。在本说明书实施例中,由于某些特征维度包含的类别数量过多,会对后续样本比例分布以及特征距离的计算带来更大的计算压力,因此为了节省计算资源同时尽可能地确保不失真,可以在对分类的得到的多个流量样本子集按照样本数多少进行排序,并将排名靠前的若干个流量样本子集对应的类别予以保留,而将排名靠后的多个流量样本子集对应的类别予以整合为一个新的类别,以实现对所述任一特征维度包含的类别进行化简,从而将类别的总数量限制在一个可接受的范围。同时,对数量排名靠前的具有较大影响力样本类别予以保留可以最大限度地保证简化后的样本比例分布仍然具有对其流量样本集整体分布性特征的代表性,不会产生较大失真。另外,通过将排名靠后的多个类别整合为一个类别,可以使得聚集性特征维度(分类后不同类别的样本数有显著差别)下确定的PSI的数值相对更大,而分散性特征维度(分类后不同类别的样本数没有显著差别)下确定的PSI的数值相对更小,这是因为在聚集性特征维度下得到的简化后的样本比例分布中整合得到的新类别的占比较小,但在分散性特征维度下得到的简化后的样本比例分布中整合得到的新类别的占比较大,从而使得后续计算PSI时,新类别对应的差异值在不同性质的特征维度下对PSI的贡献值有较大差别。
S106:在所述至少两个特征距离中任一特征距离超过所述任一特征距离对应的截断阈值的情况下,将所述任一特征距离的数值重新确定为所述任一特征距离对应的截断阈值。
在本说明书实施例中,服务器维护有至少两个特征维度下的特征距离对应的截断阈值,例如服务器可以针对所述至少两个特征维度下的特征距离维护一个统一的截断阈值,或者,服务器可以针对不同的特征维度下的特征距离维护对应的不同的截断阈值。
举例而言,假设服务器确定得到两个特征距离,分别是访问方IP图谱位置特征维度下的特征距离Dx与访问方操作系统特征维度下的特征距离Dy,那么服务器就会按照特征距离所在特征维度查找特征距离对应的截断阈值,例如服务器查找得到特征距离Dx的截断阈值为Tx,特征距离Dy的截断阈值为Ty,那么可以按照以下公式重新确定各特征距离:
D′k=min(Tk,Dk)
其中,Dk用于表示“k”特征维度(访问方IP图谱位置或访问方操作系统)下的特征距离,Dk’用于表示重新确定后的“k”特征维度下的特征距离,Tk用于表示“k”特征维度下的特征距离的截断阈值。不难发现,在任一特征距离超过所述任一特征距离对应的截断阈值的情况下,所述任一特征距离的数值将被重新确定为所述任一特征距离对应的截断阈值,而在所述任一特征距离的数值不超过所述任一特征距离对应的截断阈值的情况下,不对所述任一特征距离的数值进行重新确定,或者说,将所述任一特征距离的数值进行重新确定为所述任一特征距离的数值。
由于流量异常指数的确定依赖于至少两个特征距离,而截断阈值显然可以限制特征距离的取值上限,从而使得每个特征距离对流量异常指数的影响力存在一个上限(贡献上限)。另外,对于一些截断阈值较低的特征距离,其很容易达到对应的贡献上限,因此其线性变化区间(特征距离的数值不受截断阈值限制的区间)相较于截断阈值较高的特征距离的线性变化区间更小,也就在调节时具有更低的灵敏度。通过对截断阈值的设置,使得至少两个特征距离在参与确定流量异常指数时,贡献上限高的特征距离将同时具有调节的高灵敏度,从而提高了最终确定得到的流量异常指数表征爬虫活动强度的精度和效度。
S108:基于重新确定的至少两个特征距离确定流量异常指数,在所述流量异常指数超过所述报警阈值的情况下,确定第一时间段或第二时间段内存在网络数据自动获取器攻击。
在本说明书实施例中,流量异常指数可以通过所述至少两个特征距离计算得到,具体而言,所述基于重新确定的所述至少两个特征距离确定流量异常指数,包括:将所述重新确定的至少两个特征距离的加权和确定为所述流量异常指数;或者,将所述重新确定的至少两个特征距离的加权和,与所述至少两个特征维度下的特征距离对应的截断阈值的加权和的商确定为所述流量异常指数。其中,所述服务器维护有所述至少两个特征维度对应的权重,以用于计算所述至少两个特征距离的加权和,以及所述至少两个特征维度下的特征距离对应的截断阈值的加权和。
举例而言,假设服务器重新确定得到两个特征距离,分别是访问方IP图谱位置特征维度下的特征距离Dx’与访问方操作系统特征维度下的特征距离Dy’,那么流量异常指数的计算公式可以表示为:
其中,Score用于表示流量异常指数,Dk’用于表示“k”特征维度(访问方IP图谱位置或访问方操作系统)下重新确定的特征距离,Tk用于表示“k”特征维度下的特征距离的截断阈值,ak用于表示“k”特征维度对应的权重,K用于表示在参与确定流量异常指数的特征维度的数量,当前K=2。
在本说明书实施例中,ak的设置可以进行统一化设置或根据特征维度的不同进行差异化设置。例如,当对ak进行差异化设置时,可以使任一特征维度下的特征距离对应的权重正相关于:所述服务器接收到的历史流量样本在所述任一特征维度下的单维流量异常指数与历史爬虫攻击之间的关联性;或者,也可以将任一特征维度对应的权重设置为任一特征维度下的特征距离的截断阈值的倒数,即ak按照如下公式进行设置:
在按照上述公式对ak进行设置的情况下,可以确保每个特征距离对流量异常指数的贡献上限相同,从而将截断阈值的作用由原先的同时作用于贡献上限与调节灵敏度,改进为仅作用于调节灵敏度。这使得不同特征维度的特征距离的调节灵敏度可以作为一个独立维度进行单独设置,有助于细化流量异常指数的影响因子,提高流量异常指数反映爬虫活动强度的精度。
在本说明书实施例中,所述服务器维护有报警阈值,而服务器是通过判断最终确定得到的流量异常指数是否超过报警阈值,来判断服务是否遭受爬虫攻击。由于流量异常指数客观上表征的是流量的分布性特征的变动情况,某种意义上反映的就是爬虫活动强度的大小,这意味着受到爬虫攻击的风险与流量异常指数正相关。因此,也可以对报警阈值进行层次化设置,即按照高低顺序设置多个报警阈值,当流量异常指数超过不同层次的报警阈值时,意味着爬虫攻击的危害程度达到了不同的层次,则触发不同紧迫程度的报警程序,从而实现爬虫攻击报警的层次化,帮助维护人员能够重点关注到危害程度较大的爬虫攻击,而不被危害程度较小的爬虫攻击所转移注意。
在本说明书实施例中,所述确定第一时间段或第二时间段内存在网络数据自动获取器攻击,包括:在第一流量样本集和第二流量样本集中的任一流量样本集的样本数比另一流量样本集的样本数多预设数量的情况下,确定所述服务器在接收到所述任一流量样本集的时间段内存在爬虫攻击。由于爬虫攻击体现为访问流量的徒增,因此可以通过判断第一流量样本集和第二流量样本集的样本数之间的差异是否达到预设阈值,来判断服务器接收到样本数较多的流量样本集的时间段内存在爬虫攻击。例如,第一流量样本集的样本数比第二流量样本集的样本数多10000,和/或第一流量样本集的样本数是第二流量样本集的样本数的1.5倍以上时,可以判断第一时间段内服务器遭受了爬虫攻击。需要指出的是,在通过上述方法判断出第一时间段和第二时间段中任一时间段存在爬虫攻击的情况下,并不意味着第一时间段和第二时间段中另一时间段不存在爬虫攻击,其仍然可能被后续的爬虫攻击检测中检测出存在爬虫攻击。
由以上技术方案可见,通过计算第一时间段内接收到的第一流量样本集与在第二时间段内接收到的第二流量样本集在至少两个特征维度下的至少两个特征距离,得以采集到服务器在各特征维度下整体上的稳定性的波动情况,从而根据作为爬虫攻击的动态特征的至少两个特征距离识别爬虫攻击,提高爬虫攻击的识别准确度;同时,由于在确定流量异常指数时考虑到了至少两个特征维度的特征距离,因此能够尽可能避免因考虑的特征维度过少导致的漏检,降低了爬虫攻击的漏检率;另外,通过对每个特征维度下的特征距离设置了截断阈值,从而控制每个特征维度的特征距离对流量异常指数的贡献上限,并且使得贡献上限高的特征距离其调节的灵敏度也更高,从而提高了最终确定得到的流量异常指数表征爬虫活动强度的效度。
如前所述,针对第一流量样本集与第二流量样本集的采样方式的不同,将影响后续识别出的爬虫攻击的类型。在一实施例中,第一时间段与第二时间段为相邻的时间段,第一流量样本集与第二流量样本集包含的流量样本均为匿名态或登录态。在本说明书实施例中,默认在没有爬虫攻击的干扰下,服务器在相邻的不同时间段内接收到的相同访问态的流量样本集在各特征维度下的分布性特征(如样本比例分布)相似。因此,如果在不同时间段内,相同访问态流量的分布性特征出现了较大差别(即前述计算出的特征距离较大),则可以表明第一时间段或第二时间段内服务器遭受了对应访问态的爬虫攻击。由于本说明书实施例采集的是不同的相邻时间段内流量样本集,因此这种情况计算出的特征距离反映的是同种访问态流量在时间轴上的分布性特征的变动情况,即这种情况下仅能够识别出在较短时间段内持续的短期爬虫攻击(包括匿名态短期爬虫攻击或登录态短期爬虫攻击),而无法识别出长时间持续的长期爬虫攻击。
在另一实施例中,第一时间段与第二时间段可以为相同的时间段,第一流量样本集包含的流量样本为匿名态和登录态中的任一态,第二流量样本集包含的流量样本为匿名态和登录态中的另一态。在本说明书实施例中,默认在没有爬虫攻击的干扰下,服务器接收到的同一时间段内匿名态与登录态的流量在各特征维度下的分布性特征相似,并且爬虫攻击往往以匿名态流量的形式出现。因此,如果在同一时间段内,匿名态流量相较于登录态流量的分布性特征出现较大差别,则可以表明在该同一时间段内服务器遭受了匿名态的爬虫攻击。因此,通过本说明书实施例所设置的采样方法,可以识别出匿名态的长期爬虫攻击。
在再一实施例中,会根据包含上述多种采样方式中的至少两种采样方式,分别计算出至少两个流量异常指标,然后取所述至少两个流量异常指标中较大的一个作为显著流量异常指标,并在所述显著流量异常指数超过所述报警阈值的情况下,确定第一时间段或第二时间段内存在爬虫攻击,用于代替前述爬虫攻击的检测方案中直接使用流量异常指标与报警阈值的比较来识别爬虫攻击,以实现同时检测多种不同类型的爬虫攻击的效果,并且在本实施例中,只要出现一种类型的爬虫攻击就会触发报警机制,从而进一步减小爬虫攻击的漏检率。
可选的,所述服务器维护的任一特征维度下的特征距离对应的截断阈值正相关于:所述服务器接收到的历史流量样本在所述任一特征维度下的单维流量异常指数与历史网络数据自动获取器攻击之间的关联性。在本说明书实施例中,可以通过历史经验给不同的特征维度下的特征距离设置不同的截断阈值,以使对爬虫攻击具有较高识别能力的特征维度下的特征距离的截断阈值更大,即对确定流量异常指数具有更高的贡献上限,从而进一步提高流量异常指数表征爬虫活动强度的精度和效度。具体而言,前文所述的流量异常指数可以视为在至少两个特征维度下的流量异常指数,而根据历史流量样本在任一特征维度下生成的单维流量异常指数的方法与本申请所涉及的确定至少两个特征距离下的流量异常指数的方式基本相同,区别仅在于单维流量异常指数确定的特征距离只有一个,因此最终确定的单维流量异常指数也是基于一个特征距离所得到,同时,其特征距离是通过将到现在为止的时间轴拆分为若干个连续的时长相同的历史时间段,然后根据服务器分别在每个历史时间段与其前向相邻的前历史时间段(邻居历史时间段在历史时间段之前)接收到的历史流量样本集与前历史流量样本集在所述任一特征维度下的特征距离(或者计算每个历史时间段内不同访问态的历史流量样本集之间在所述任一特征维度下的特征距离),确定得到每个历史时间段对应的单维流量异常指数,另一方面,由于每个历史时间段内的爬虫活动强度也是确定的,因此通过计算出每个历史时间段对应的单维流量异常指数与该历史时间段内爬虫活动强度的关联性,来最终确定出所述服务器接收到的历史流量样本在所述任一特征维度下的单维流量异常指数与历史爬虫攻击之间的关联性。服务器可以按照上述方式来确定得到多个特征维度下单维流量异常指数与历史爬虫攻击之间的关联性,显然,关联性较大的单维流量异常指数对应的特征维度下的特征距离在对爬虫攻击进行识别时具有更好的识别能力,将其对应的截断阈值提高有助于提高爬虫攻击的识别精度。
可选的,还包括:在计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离之前,删除第一流量样本集和第二流量样本集包含的已识别的网络数据自动获取器流量样本。在本说明书实施例中,服务器会记录历史上已经识别出的爬虫流量以及对应的判别规则,而这部分爬虫流量可能依然混入在第一流量样本集或第二流量样本集中,因此,可以通过从第一流量样本集和第二流量样本集中按照判别规则识别出爬虫流量样本(即通过规则检测方式检测)并删除后再进行后续的计算样本比例分布和特征距离的方式,以避免重复识别出已经能够识别到的爬虫攻击,从而在所述流量异常指数超过所述报警阈值的情况下,可以确定第一时间段或第二时间段内存在新的之前尚未发现的爬虫攻击。
可选的,所述基于重新确定的至少两个特征距离确定流量异常指数,包括:
基于重新确定的至少两个特征距离确定初始流量异常指数;
生成衰减因子,并按照所述衰减因子对所述初始流量异常指数进行调整以生成所述流量异常指数,所述衰减因子正相关于第一流量样本集的样本数和/或第二流量样本集的样本数。
在本说明书实施例中,首先需要通过重新确定的至少两个特征距离确定初始流量异常指数,其方式与前述方案中介绍的确定流量异常指数的方式类似,但在本说明书实施例中则需要将前述方案中确定的流量异常指数视为初始流量异常指数,而将调整后的初始流量异常指数确定为流量异常指数(即对所述初始流量异常指数进行调整以生成的流量异常指数)。
当然,除了可以采用前述提到的计算流量异常指数的方式来确定初始流量异常指数,也可以采用其他方式得到初始流量异常指数,但需要确保初始流量异常指数正相关于每个参与确定初始流量异常指数的特征距离,本说明书对其他确定初始流量异常指数的具体方式不做限定。
在本说明书实施例中,如果采集得到的第一流量样本集和/或第二流量样本集的样本数过少,则会使得基于第一流量样本集或第二流量样本集确定得到的对应的样本比例分布天然具备不稳定性,缺乏可信度,此时计算出的第一流量样本集与第二流量样本集之间的特征距离并不能准确反映第一流量样本集与第二流量样本集之间的确存在较大的分布性特征差异。有鉴于此,在本说明书实施例中,会根据第一流量样本集的样本数和/或第二流量样本集的样本数生成衰减因子,然后使用衰减因子对初始流量异常指数进行调整,从而调低置信度较低的初始流量异常指数的数值,即偏向于认为在不能准确确定爬虫攻击情况下认为不存在爬虫攻击,从而一定程度上降低了误检率。
本说明书实施例并不对生成衰减因子的具体方式进行限定,但仍需要限制所述衰减因子正相关于第一流量样本集的样本数和/或第二流量样本集的样本数,从而确保至少一个流量样本集的样本数越多则衰减因子越大。同时,本说明书实施例也不对按照所述衰减因子对所述初始流量异常指数进行调整以生成所述流量异常指数的具体方式进行限定,但需要确保调整后生成的流量异常指数正相关于初始流量异常指数以及衰减因子,且调整后生成的流量异常指数不超过初始流量异常指数,使得衰减因子越大对初始流量异常指数的衰减调整作用越小,例如,可以将初始流量异常指数与衰减因子的乘积确定为流量异常指数,同时限定衰减因子的取值范围在0到1之间。
可选的,所述生成衰减因子,包括:分别基于第一流量样本集的样本数和第二流量样本集的样本数确定第一衰减因子和第二衰减因子,其中,第一衰减因子正相关于第一流量样本集的样本数,第二衰减因子正相关于第二流量样本集的样本数;基于第一衰减因子与第二衰减因子生成所述衰减因子。
在本说明书实施例中,生成衰减因子需要同时参考第一流量样本集与第二流量样本集的样本数,同时第一流量样本集与第二流量样本集的样本数对应的调整要素被分别以第一衰减因子与第二衰减因子进行定义,从而使得第一衰减因子与第二衰减因子之间彼此独立,二者共同确定出衰减因子。第一衰减因子与第二衰减因子可以通过但不限于如下计算公式得到:
其中,rj用于表示第“j”衰减因子(第一衰减因子或第二衰减因子),Nj用于表示第“j”流量样本集(第一流量样本集或第二流量样本集)的样本数,f()为一个自变量为样本数的衰减因子生成函数,sigmoid()是一个定义域为(-∞,+∞)、值域为(-1,1)的单调递增的连续函数,βj是第“j”流量样本集对应的稳定数,其值越大则要求第“j”样本集的样本数达到更高量级才能使rj显著。
本说明书实施例并不对基于第一衰减因子与第二衰减因子生成所述衰减因子的具体方式进行限制,但需要限定衰减因子分别正相关于第一衰减因子与第二衰减因子。例如,可以将第一衰减因子与第二衰减因子的乘积作为衰减因子,或者也可以将第一衰减因子与第二衰减因子的加权和确定为衰减因子。
可选的,所述分别基于第一流量样本集的样本数和第二流量样本集的样本数确定第一衰减因子和第二衰减因子,包括:
将第一流量样本集的样本数输入衰减因子生成函数后,将第一趋势关注度因子与所述衰减因子生成函数的输出值中较大的一项确定为第一衰减因子;
将第二流量样本集的样本数输入所述衰减因子生成函数后,将第二趋势关注度因子与所述衰减因子生成函数的输出值中较大的一项确定为第二衰减因子;
所述基于第一衰减因子与第二衰减因子生成所述衰减因子,包括:
将第一衰减因子与第二衰减因子的乘积确定为所述衰减因子。
R=max[f(N1),γ1]*max[f(N2),γ2]
其中,R用于表示衰减因子,f()为一个自变量为样本数的衰减因子生成函数(在自变量非负的情况下,因变量在0到1之间),N1和N2分别用于表示第一流量样本集的样本数和第二流量样本集的样本数,γ1和γ2分别用于表示第一趋势关注度因子与第二趋势关注度因子,γ1和γ2均在0到1之间,从而最终确保R在0到1之间,这样一来在将初始流量异常指数与衰减因子的乘积确定为流量异常指数时,就可以确保流量异常指数不超过初始流量异常指数。
在本说明书实施例中,不难发现,γ1和γ2能够分别控制第一衰减因子与第二衰减因子的最小值,而由于调整后生成的流量异常指数正相关于第一衰减因子、第二衰减因子与初始流量异常指数,因此通过设置第一趋势关注度因子与第二趋势关注度因子,可以有效抑制基于样本数对流量异常指数的衰减作用,从而无论样本数有多小都会一定程度上给予一个最小关注度,避免调整后生成的流量异常指数衰减至0附近。
可选的,第一趋势关注度因子与第二趋势关注度因子中的任一趋势关注度因子为零或趋近于零,第一趋势关注度因子与第二趋势关注度因子中的另一趋势关注度因子大于零,且所述另一趋势关注度因子与所述任一趋势关注度因子的比值超过预设数值。例如,可以设置γ1=0.5,γ2=0,从而使得在第一流量样本集的样本数较少时,仍能获得至少0.5的关注度,如果配合第一时间段是第二时间段前向相邻的情形,可以做到对在时间轴上流量“由低至高”的趋势进行至少0.5关注度的关注,而如果配合第一时间段与第二时间段为相同时间段但第一流量样本集与第二流量样本集分别采集不同访问态的流量样本的情形,可以做到针对匿名态流量或登录态流量的分布性特征至少0.5关注度的关注。类似的,可以通过对第一趋势关注度因子与第二趋势关注度因子进行具有显著差异的设置,来实现对流量在时间轴上的不同趋势或相同时间段内不同访问态的流量的无条件关注,同时这个关注的关注度也可以自由调节。
图3是一示例性实施例提供的一种设备的示意结构图。请参考图3,在硬件层面,该设备包括处理器302、内部总线304、网络接口306、内存308以及非易失性存储器310,当然还可能包括其他功能所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现,比如由处理器302从非易失性存储器310中读取对应的计算机程序到内存308中然后运行。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图4,网络数据自动获取器攻击的检测装置可以应用于如图3所示的设备中,以实现本说明书的技术方案。其中,该网络数据自动获取器攻击的检测装置应用于服务器,所述服务器维护有报警阈值以及至少两个特征维度下的特征距离对应的截断阈值,所述装置包括:
流量样本集获取单元401,用于获取所述服务器在第一时间段内接收到的第一流量样本集以及在第二时间段内接收到的第二流量样本集。
特征距离计算单元402,用于计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离。
特征距离确定单元403,用于在所述至少两个特征距离中任一特征距离超过所述任一特征距离对应的截断阈值的情况下,将所述任一特征距离的数值重新确定为所述任一特征距离对应的截断阈值。
网络数据自动获取器攻击确定单元404,用于基于重新确定的至少两个特征距离确定流量异常指数,在所述流量异常指数超过所述报警阈值的情况下,确定第一时间段或第二时间段内存在网络数据自动获取器攻击。
可选的,所述服务器维护的任一特征维度下的特征距离对应的截断阈值正相关于:所述服务器接收到的历史流量样本在所述任一特征维度下的单维流量异常指数与历史网络数据自动获取器攻击之间的关联性。
可选的,所述特征距离计算单元402具体用于:
基于所述至少两个特征维度中任一特征维度对应的分类策略,对第一流量样本集包含的流量样本进行分类,获取第一流量样本集包含的流量样本在各类别中所占的比例并以此生成第一流量样本集在所述任一特征维度下的样本比例分布;
基于所述任一特征维度对应的分类策略,对第二流量样本集包含的流量样本进行分类,获取第二流量样本集包含的流量样本在各类别中所占的比例并以此生成第二流量样本集在所述任一特征维度下的样本比例分布;
将第一流量样本集在所述任一特征维度下的样本比例分布与第二流量样本集在所述任一特征维度下的样本比例分布之间的群体稳定性指标,确定为第一流量样本集和第二流量样本集在所述任一特征维度下的特征距离。
可选的,所述任一特征维度对应的分类策略包括:
按照所述任一特征维度包含的预设类别对待分类流量样本集包含的流量样本进行分类,将分类得到的各类别按照包含样本数由高至低的顺序进行排序,将排名落后于预设名次的所有类别合并为同一类别。
可选的,所述网络数据自动获取器攻击确定单元404具体用于:
将所述重新确定的至少两个特征距离的加权和确定为所述流量异常指数;或者,
将所述重新确定的至少两个特征距离的加权和,与所述至少两个特征维度下的特征距离对应的截断阈值的加权和的商确定为所述流量异常指数。
可选的,所述网络数据自动获取器攻击确定单元404具体用于:
基于重新确定的至少两个特征距离确定初始流量异常指数;
生成衰减因子,并按照所述衰减因子对所述初始流量异常指数进行调整以生成所述流量异常指数,所述衰减因子正相关于第一流量样本集的样本数和/或第二流量样本集的样本数。
可选的,所述网络数据自动获取器攻击确定单元404进一步用于:
分别基于第一流量样本集的样本数和第二流量样本集的样本数确定第一衰减因子和第二衰减因子,其中,第一衰减因子正相关于第一流量样本集的样本数,第二衰减因子正相关于第二流量样本集的样本数;
基于第一衰减因子与第二衰减因子生成所述衰减因子。
可选的,所述网络数据自动获取器攻击确定单元404进一步用于:
将第一流量样本集的样本数输入衰减因子生成函数后,将第一趋势关注度因子与所述衰减因子生成函数的输出值中较大的一项确定为第一衰减因子;
将第二流量样本集的样本数输入所述衰减因子生成函数后,将第二趋势关注度因子与所述衰减因子生成函数的输出值中较大的一项确定为第二衰减因子;
所述基于第一衰减因子与第二衰减因子生成所述衰减因子,包括:
将第一衰减因子与第二衰减因子的乘积确定为所述衰减因子。
可选的,第一趋势关注度因子与第二趋势关注度因子中的任一趋势关注度因子为零或趋近于零,第一趋势关注度因子与第二趋势关注度因子中的另一趋势关注度因子大于零,且所述另一趋势关注度因子与所述任一趋势关注度因子的比值超过预设数值。
可选的,所述网络数据自动获取器攻击确定单元404具体用于:
在第一流量样本集和第二流量样本集中的任一流量样本集的样本数比另一流量样本集的样本数多预设数量的情况下,确定所述服务器在接收到所述任一流量样本集的时间段内存在网络数据自动获取器攻击。
可选的,还包括:
流量样本删除单元405,用于在计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离之前,删除第一流量样本集和第二流量样本集包含的已识别的网络数据自动获取器流量样本。
可选的,第一时间段与第二时间段为相同的时间段,第一流量样本集包含的流量样本为匿名态和登录态中的任一态,第二流量样本集包含的流量样本为匿名态和登录态中的另一态;或者,
第一时间段与第二时间段为相邻的时间段,第一流量样本集与第二流量样本集包含的流量样本均为匿名态或登录态。
可选的,所述至少两个特征维度包括以下至少两项:访问方操作系统、访问方操作系统版本、访问方浏览器、访问方浏览器版本、访问方客户端版本、访问方GPS位置、访问方IP图谱位置、流量访问时长、cookie名称。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (15)

1.一种网络数据自动获取器攻击的检测方法,应用于服务器,所述服务器维护有报警阈值以及至少两个特征维度下的特征距离对应的截断阈值,所述方法包括:
获取所述服务器在第一时间段内接收到的第一流量样本集以及在第二时间段内接收到的第二流量样本集;
计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离;
在所述至少两个特征距离中任一特征距离超过所述任一特征距离对应的截断阈值的情况下,将所述任一特征距离的数值重新确定为所述任一特征距离对应的截断阈值;
基于重新确定的至少两个特征距离确定流量异常指数,在所述流量异常指数超过所述报警阈值的情况下,确定第一时间段或第二时间段内存在网络数据自动获取器攻击;
所述计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离,包括:
基于所述至少两个特征维度中任一特征维度对应的分类策略,对第一流量样本集包含的流量样本进行分类,获取第一流量样本集包含的流量样本在各类别中所占的比例并以此生成第一流量样本集在所述任一特征维度下的样本比例分布;
基于所述任一特征维度对应的分类策略,对第二流量样本集包含的流量样本进行分类,获取第二流量样本集包含的流量样本在各类别中所占的比例并以此生成第二流量样本集在所述任一特征维度下的样本比例分布;
将第一流量样本集在所述任一特征维度下的样本比例分布与第二流量样本集在所述任一特征维度下的样本比例分布之间的群体稳定性指标,确定为第一流量样本集和第二流量样本集在所述任一特征维度下的特征距离;其中,所述群体稳定性指标通过以下方式获得:计算所述第一流量样本集与所述第二流量样本集在相同特征维度下每一相同类别上所占的比例之间差异值,并将得到的所有差异值求和。
2.根据权利要求1所述的方法,所述服务器维护的任一特征维度下的特征距离对应的截断阈值正相关于:所述服务器接收到的历史流量样本在所述任一特征维度下的单维流量异常指数与历史网络数据自动获取器攻击之间的关联性。
3.根据权利要求1所述的方法,所述任一特征维度对应的分类策略包括:
按照所述任一特征维度包含的预设类别对待分类流量样本集包含的流量样本进行分类,将分类得到的各类别按照包含样本数由高至低的顺序进行排序,将排名落后于预设名次的所有类别合并为同一类别。
4.根据权利要求1所述的方法,所述基于重新确定的所述至少两个特征距离确定流量异常指数,包括:
将所述重新确定的至少两个特征距离的加权和确定为所述流量异常指数;或者,
将所述重新确定的至少两个特征距离的加权和,与所述至少两个特征维度下的特征距离对应的截断阈值的加权和的商确定为所述流量异常指数。
5.根据权利要求1所述的方法,所述基于重新确定的至少两个特征距离确定流量异常指数,包括:
基于重新确定的至少两个特征距离确定初始流量异常指数;
生成衰减因子,并按照所述衰减因子对所述初始流量异常指数进行调整以生成所述流量异常指数,所述衰减因子正相关于第一流量样本集的样本数和/或第二流量样本集的样本数。
6.根据权利要求5所述的方法,所述生成衰减因子,包括:
分别基于第一流量样本集的样本数和第二流量样本集的样本数确定第一衰减因子和第二衰减因子,其中,第一衰减因子正相关于第一流量样本集的样本数,第二衰减因子正相关于第二流量样本集的样本数;
基于第一衰减因子与第二衰减因子生成所述衰减因子。
7.根据权利要求6所述的方法,所述分别基于第一流量样本集的样本数和第二流量样本集的样本数确定第一衰减因子和第二衰减因子,包括:
将第一流量样本集的样本数输入衰减因子生成函数后,将第一趋势关注度因子与所述衰减因子生成函数的输出值中较大的一项确定为第一衰减因子;
将第二流量样本集的样本数输入所述衰减因子生成函数后,将第二趋势关注度因子与所述衰减因子生成函数的输出值中较大的一项确定为第二衰减因子;
所述基于第一衰减因子与第二衰减因子生成所述衰减因子,包括:
将第一衰减因子与第二衰减因子的乘积确定为所述衰减因子。
8.根据权利要求7所述的方法,第一趋势关注度因子与第二趋势关注度因子中的任一趋势关注度因子为零或趋近于零,第一趋势关注度因子与第二趋势关注度因子中的另一趋势关注度因子大于零,且所述另一趋势关注度因子与所述任一趋势关注度因子的比值超过预设数值。
9.根据权利要求1所述的方法,所述确定第一时间段或第二时间段内存在网络数据自动获取器攻击,包括:
在第一流量样本集和第二流量样本集中的任一流量样本集的样本数比另一流量样本集的样本数多预设数量的情况下,确定所述服务器在接收到所述任一流量样本集的时间段内存在网络数据自动获取器攻击。
10.根据权利要求1所述的方法,还包括:
在计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离之前,删除第一流量样本集和第二流量样本集包含的已识别的网络数据自动获取器流量样本。
11.根据权利要求1所述的方法,第一时间段与第二时间段为相同的时间段,第一流量样本集包含的流量样本为匿名态和登录态中的任一态,第二流量样本集包含的流量样本为匿名态和登录态中的另一态;或者,
第一时间段与第二时间段为相邻的时间段,第一流量样本集与第二流量样本集包含的流量样本均为匿名态或登录态。
12.根据权利要求1所述的方法,所述至少两个特征维度包括以下至少两项:访问方操作系统、访问方操作系统版本、访问方浏览器、访问方浏览器版本、访问方客户端版本、访问方GPS位置、访问方IP图谱位置、流量访问时长、cookie名称。
13.一种网络数据自动获取器攻击的检测装置,应用于服务器,所述服务器维护有报警阈值以及至少两个特征维度下的特征距离对应的截断阈值,所述装置包括:
流量样本集获取单元,用于获取所述服务器在第一时间段内接收到的第一流量样本集以及在第二时间段内接收到的第二流量样本集;
特征距离计算单元,用于计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离;
特征距离确定单元,用于在所述至少两个特征距离中任一特征距离超过所述任一特征距离对应的截断阈值的情况下,将所述任一特征距离的数值重新确定为所述任一特征距离对应的截断阈值;
网络数据自动获取器攻击确定单元,用于基于重新确定的至少两个特征距离确定流量异常指数,在所述流量异常指数超过所述报警阈值的情况下,确定第一时间段或第二时间段内存在网络数据自动获取器攻击;
所述计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离,包括:
基于所述至少两个特征维度中任一特征维度对应的分类策略,对第一流量样本集包含的流量样本进行分类,获取第一流量样本集包含的流量样本在各类别中所占的比例并以此生成第一流量样本集在所述任一特征维度下的样本比例分布;
基于所述任一特征维度对应的分类策略,对第二流量样本集包含的流量样本进行分类,获取第二流量样本集包含的流量样本在各类别中所占的比例并以此生成第二流量样本集在所述任一特征维度下的样本比例分布;
将第一流量样本集在所述任一特征维度下的样本比例分布与第二流量样本集在所述任一特征维度下的样本比例分布之间的群体稳定性指标,确定为第一流量样本集和第二流量样本集在所述任一特征维度下的特征距离;其中,所述群体稳定性指标通过以下方式获得:计算所述第一流量样本集与所述第二流量样本集在相同特征维度下每一相同类别上所占的比例之间差异值,并将得到的所有差异值求和。
14.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-12中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-12中任一项所述方法的步骤。
CN202210345805.4A 2022-03-31 2022-03-31 一种网络数据自动获取器攻击的检测方法和装置 Active CN114726610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210345805.4A CN114726610B (zh) 2022-03-31 2022-03-31 一种网络数据自动获取器攻击的检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210345805.4A CN114726610B (zh) 2022-03-31 2022-03-31 一种网络数据自动获取器攻击的检测方法和装置

Publications (2)

Publication Number Publication Date
CN114726610A CN114726610A (zh) 2022-07-08
CN114726610B true CN114726610B (zh) 2024-01-19

Family

ID=82241315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210345805.4A Active CN114726610B (zh) 2022-03-31 2022-03-31 一种网络数据自动获取器攻击的检测方法和装置

Country Status (1)

Country Link
CN (1) CN114726610B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617868A (zh) * 2018-12-06 2019-04-12 腾讯科技(深圳)有限公司 一种ddos攻击的检测方法、装置及检测服务器
CN110175278A (zh) * 2019-05-24 2019-08-27 新华三信息安全技术有限公司 网络爬虫的检测方法及装置
CN110414223A (zh) * 2019-07-08 2019-11-05 新华三信息安全技术有限公司 一种攻击检测方法及装置
CN110719299A (zh) * 2019-11-18 2020-01-21 中国移动通信集团内蒙古有限公司 防御网络攻击的蜜罐构建方法、装置、设备及介质
CN111126426A (zh) * 2019-10-11 2020-05-08 平安普惠企业管理有限公司 特征选择方法、装置、计算机设备和存储介质
CN111224980A (zh) * 2019-12-31 2020-06-02 奇安信科技集团股份有限公司 拒绝服务攻击的检测方法、装置、电子设备和介质
CN112241742A (zh) * 2020-10-15 2021-01-19 中国科学技术大学 一种跨域异常流量检测方法、系统、电子设备和存储介质
CN112434208A (zh) * 2020-12-03 2021-03-02 百果园技术(新加坡)有限公司 一种孤立森林的训练及其网络爬虫的识别方法与相关装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080235163A1 (en) * 2007-03-22 2008-09-25 Srinivasan Balasubramanian System and method for online duplicate detection and elimination in a web crawler

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617868A (zh) * 2018-12-06 2019-04-12 腾讯科技(深圳)有限公司 一种ddos攻击的检测方法、装置及检测服务器
CN110175278A (zh) * 2019-05-24 2019-08-27 新华三信息安全技术有限公司 网络爬虫的检测方法及装置
CN110414223A (zh) * 2019-07-08 2019-11-05 新华三信息安全技术有限公司 一种攻击检测方法及装置
CN111126426A (zh) * 2019-10-11 2020-05-08 平安普惠企业管理有限公司 特征选择方法、装置、计算机设备和存储介质
CN110719299A (zh) * 2019-11-18 2020-01-21 中国移动通信集团内蒙古有限公司 防御网络攻击的蜜罐构建方法、装置、设备及介质
CN111224980A (zh) * 2019-12-31 2020-06-02 奇安信科技集团股份有限公司 拒绝服务攻击的检测方法、装置、电子设备和介质
CN112241742A (zh) * 2020-10-15 2021-01-19 中国科学技术大学 一种跨域异常流量检测方法、系统、电子设备和存储介质
CN112434208A (zh) * 2020-12-03 2021-03-02 百果园技术(新加坡)有限公司 一种孤立森林的训练及其网络爬虫的识别方法与相关装置

Also Published As

Publication number Publication date
CN114726610A (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
US11062026B2 (en) Counter-fraud operation management
CN111353850B (zh) 一种风险识别策略的更新、风险商户的识别方法和装置
CN111224923B (zh) 一种仿冒网站的检测方法、装置及系统
CN112819611A (zh) 欺诈识别方法、装置、电子设备和计算机可读存储介质
CN113535454A (zh) 一种日志数据异常检测的方法及设备
CN110852443B (zh) 特征稳定性检测方法、设备及计算机可读介质
CN115273191A (zh) 一种人脸聚档方法、人脸识别方法、装置、设备及介质
CN115080827A (zh) 一种敏感数据处理方法及装置
CN114218577A (zh) 一种api的风险确定方法、装置、设备及介质
CN114359211A (zh) 能见度值检测方法、装置、设备及存储介质
CN114726610B (zh) 一种网络数据自动获取器攻击的检测方法和装置
CN110163470B (zh) 事件评估方法及装置
CN111625700A (zh) 防抓取的方法、装置、设备及计算机存储介质
CN111949696A (zh) 一种全要素关联分析方法及装置
CN109063015B (zh) 热点内容的提取方法、装置及设备
CN108021464B (zh) 一种应用程序响应数据的兜底处理的方法以及装置
CN109598525B (zh) 数据处理方法和装置
CN116069591A (zh) 一种接口性能监控方法、装置、设备以及存储介质
CN114707047A (zh) 一种网络数据自动获取器攻击检测的方法和装置
CN115361241A (zh) 网络安全风险量化方法、装置、计算机设备及存储介质
CN111581389B (zh) 区域化数据分析方法、装置及云服务器
CN115994377A (zh) 隐私数据的访问方法和装置
CN110264333B (zh) 一种风险规则确定方法和装置
CN109769042B (zh) 一种定位方法及装置
CN116627789B (zh) 模型检测方法及装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant