CN111565171A - 异常数据的检测方法、装置、电子设备及存储介质 - Google Patents

异常数据的检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111565171A
CN111565171A CN202010247760.8A CN202010247760A CN111565171A CN 111565171 A CN111565171 A CN 111565171A CN 202010247760 A CN202010247760 A CN 202010247760A CN 111565171 A CN111565171 A CN 111565171A
Authority
CN
China
Prior art keywords
data
dimension
detected
forest model
isolated forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010247760.8A
Other languages
English (en)
Other versions
CN111565171B (zh
Inventor
曹战徐
刁士涵
武金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202010247760.8A priority Critical patent/CN111565171B/zh
Publication of CN111565171A publication Critical patent/CN111565171A/zh
Application granted granted Critical
Publication of CN111565171B publication Critical patent/CN111565171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开的实施例提供了一种异常数据的检测方法、装置、电子设备及计算机可读存储介质。所述方法包括:基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据;通过所述孤立森林模型根据各所述待检测数据对应的数据类型,确定每个所述待检测数据所属的类型维度;针对每个所述类型维度下的待检测数据进行异常分析处理,确定每个所述类型维度下的异常检测数据。本公开的实施例通过预先训练的更细维度的孤立森林模型收集并检测异常数据流量,能够识别类似于正常流量的低速攻击流量,提高了检测的稳定性和准确度,并节省了异常流量检测所需的时间。

Description

异常数据的检测方法、装置、电子设备及存储介质
技术领域
本公开的实施例涉及数据处理技术领域,尤其涉及一种异常数据的检测方法、电子设备及计算机可读存储介质。
背景技术
低速的异常攻击流量(即低频、攻击速度慢的异常流量)通常具有攻击速度慢,且与正常流量高度相似等特性,使得低速攻击流量的识别是评判防御效果的重点和难点之一。
目前的异常流量检测方法,通常采用的是兜底累计策略,该策略是通过累计ip(Internet Protocol,互联网协议)、uuid(Universally Unique Identifier,通用唯一识别码)、userid(用户标识)等维度的访问接口信息和频次,依靠较长时间范围内的累计数据找出疑似为低频的攻击流量。
简单的攻击流量的ip/uuid/userid在短时间内访问量很大,但是低速攻击流量很难累计出来。上述方法存在较高的误伤,且时间跨度较长,导致攻防性较弱,无法有效拦截这些低速的攻击流量。
发明内容
本公开的实施例提供一种异常数据的检测方法、装置、电子设备及计算机可读存储介质,用以识别类似于正常流量的低速攻击流量,且提高检测的稳定性和准确度。
根据本公开的实施例的第一方面,提供了一种异常数据的检测方法,包括:
基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据;
通过所述孤立森林模型根据各所述待检测数据对应的数据类型,确定每个所述待检测数据所属的类型维度;
针对每个所述类型维度下的待检测数据进行异常分析处理,确定每个所述类型维度下的异常检测数据。
可选地,在所述基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据之前,还包括:
获取白名单数据库中的属于预置维度下的历史访问数据;
根据所述历史访问数据对初始孤立森林模型进行训练,得到所述孤立森林模型。
可选地,所述根据历史访问数据对初始孤立森林模型进行训练,得到所述孤立森林模型,包括:
根据所述历史访问数据对应的历史数据类型,将所述历史访问数据划分为至少一个类型维度;
基于所述至少一个类型维度对所述初始孤立森林模型进行改进,生成所述孤立森林模型。
可选地,所述基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据,包括:
基于所述孤立森林模型收集预置平台的日志数据;
对所述日志数据进行异常检测处理,确定所述日志数据中的待检测数据。
可选地,所述针对每个所述类型维度下的待检测数据进行异常分析处理,确定每个所述类型维度下的异常检测数据,包括:
针对每个所述类型维度,获取任意两个待检测数据之间的数据距离;
根据所述数据距离和距离阈值,将所述待检测数据进行分组,得到至少一个数据群组;
根据所述至少一个数据群组和预置校验规则,对所述至少一个数据群组中的待检测数据进行异常检测处理,确定所述异常检测数据。
可选地,所述预置维度包括:互联网协议地址维度、用户代理维度和通用唯一识别码维度中的至少一种;所述类型维度包括:目标接口信息维度、终端版本信息维度、用户标识信息维度和参数合法性校验信息维度中的至少一种。
根据本公开的实施例的第二方面,提供了一种异常数据的检测装置,包括:
待检测数据获取模块,用于基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据;
类型维度确定模块,用于通过所述孤立森林模型根据各所述待检测数据对应的数据类型,确定每个所述待检测数据所属的类型维度;
异常检测数据确定模块,用于针对每个所述类型维度下的待检测数据进行异常分析处理,确定每个所述类型维度下的异常检测数据。
可选地,还包括:
历史访问数据获取模块,用于获取白名单数据库中的属于预置维度下的历史访问数据;
孤立森林模型获取模块,用于根据所述历史访问数据对初始孤立森林模型进行训练,得到所述孤立森林模型。
可选地,所述孤立森林模型获取模块包括:
类型维度划分单元,用于根据所述历史访问数据对应的历史数据类型,将所述历史访问数据划分为至少一个类型维度;
孤立模型生成单元,用于基于所述至少一个类型维度对所述初始孤立森林模型进行改进,生成所述孤立森林模型。
可选地,所述待检测数据获取模块包括:
日志数据收集单元,用于基于所述孤立森林模型收集预置平台的日志数据;
待检测数据确定单元,用于对所述日志数据进行异常检测处理,确定所述日志数据中的待检测数据。
可选地,所述异常检测数据确定模块包括:
数据距离获取单元,用于针对每个所述类型维度,获取任意两个待检测数据之间的数据距离;
数据群组获取单元,用于根据所述数据距离和距离阈值,将所述待检测数据进行分组,得到至少一个数据群组;
异常数据确定单元,用于根据所述至少一个数据群组和预置校验规则,对所述至少一个数据群组中的待检测数据进行异常检测处理,确定所述异常检测数据。
可选地,所述预置维度包括:互联网协议地址维度、用户代理维度和通用唯一识别码维度中的至少一种;所述类型维度包括:目标接口信息维度、终端版本信息维度、用户标识信息维度和参数合法性校验信息维度中的至少一种。
根据本公开的实施例的第三方面,提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的异常数据的检测方法。
根据本公开的实施例的第四方面,提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的异常数据的检测方法。
本公开的实施例提供了一种异常数据的检测方案,通过基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据,通过孤立森林模型根据各待检测数据对应的数据类型,确定每个待检测数据所属的类型维度;针对每个类型维度下的待检测数据进行异常分析处理,确定每个类型维度下的异常检测数据。本公开的实施例通过预先训练的更细维度的孤立森林模型收集并检测异常数据流量,能够识别类似于正常流量的低速攻击流量,提高了检测的稳定性和准确度,并且,节省了异常流量检测所需的时间。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开的实施例提供的一种异常数据的检测方法的步骤流程图;
图2示出了本公开的实施例提供的一种异常数据的检测方法的步骤流程图;
图2a示出了现有技术中的一种原始孤立森林使用的二叉树的示意图;
图2b示出了本公开的实施例提供的一种改进后的多叉树的示意图;
图3示出了本公开的实施例提供的一种异常数据的检测装置的结构示意图;
图4示出了本公开的实施例提供的一种异常数据的检测装置的结构示意图。
具体实施方式
下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的实施例一部分实施例,而不是全部的实施例。基于本公开的实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开的实施例保护的范围。
实施例一
参照图1,示出了本公开实施例提供的一种异常数据的检测方法的步骤流程图,如图1所示,该异常数据的检测方法具体可以包括如下步骤:
步骤101:基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据。
在本公开的实施例中,孤立森林模型是指预先训练得到的,用于将用户访问数据划分为多个维度的模型,当然,在本实施例中,孤立森林模型中可以包括至少一个父维度,每个父维度下还可以包括至少一个子维度,每个子维度下还可以包括至少一个子维度等等,具体地,可以根据实际情况而定,本申请实施例对此不加以限制。
预置维度是指需要进行异常访问数据检测的维度,在本实施例中,预置维度可以包括互联网协议地址维度、用户代理维度和通用唯一识别码维度等维度中的至少一种。
其中,互联网协议地址(Internet Protocol,IP)维度是指对访问数据对应的IP地址进行异常检测的维度。
用户代理(useragent)维度是指对访问数据对应的用户代理进行异常检测的维度。
通用唯一识别码(Universally Unique Identifier,UUID)维度是指对访问数据的用户唯一识别码进行异常检测的维度,如用户ID等。
在本实施例中,预置维度可以为一种维度,也可以为多种维度,具体地,可以根据检测需求而定,本实施例对此不加以限制。
在需要对用户访问数据进行检测时,可以调用预先训练的孤立森林模型,获取预置维度下的多个待检测数据,具体地:
在预置维度为互联网协议地址维度时,可以采用孤立森林模型对通过IP地址访问的用户数据进行初步检测,以将初步检测到的异常的用户数据作为IP地址维度下的待检测数据。
在预置维度为用户代理维度时,可以采用孤立森林模型对通过用户代理(如某平台的代理服务器等)访问的用户数据进行初步检测,以将初步检测到的异常的用户数据作为用户代理维度下的待检测数据。
在预置维度为通用唯一识别码维度时,可以采用孤立森林模型对通过UUID访问的用户数据进行初步检测,以将初步监测到的异常的用户数据作为UUID维度下的待检测数据。
当然,不仅限于此,在预置维度同时包含上述两种或两种维度以上的维度时,则采用孤立森林模型分别获取相应维度下的待检测数据,而在包含其它维度时,可以采用孤立森林模型获取其它维度下的待检测数据,具体地,可以根据实际情况而定,本公开实施例对此不加以限制。
在基于预先训练的孤立森林模型获取预置维度下的多个待检测数据之后,执行步骤102。
步骤102:通过所述孤立森林模型根据各所述待检测数据对应的数据类型,确定每个所述待检测数据所属的类型维度。
类型维度是指根据待检测数据对应的访问方式、终端版本、合法性校验方式等划分的维度。在本实施例中,类型维度可以包括:目标接口信息维度、终端版本信息维度、用户标识信息维度和参数合法性校验信息维度等维度中的至少一种维度。
目标接口信息维度是指访问目标接口的分布信息的维度,例如,对于一个接口而言,哪些待检测数据是通过这个接口进行的访问等。
终端版本信息维度是指用户访问时使用终端的版本,例如,用户访问时使用的终端版本为10版的,或者为12版的等,可以根据用户使用终端版本的不同,对待检测数据进行划分。
用户标识信息(userid)维度也即累计信息维度,是指单个用户标识访问的次数的维度,例如,在某个时间段内,用户标识1访问的次数为800次等。
参数合法性校验信息维度是指待检测数据采用的何种参数进行的合法性校验的维度。
当然,不仅限于此,在具体实现中,类型维度还可以包括其它维度,具体地,可以根据业务需求而定,本实施例对此不加以限制。
在预先训练的孤立森林模型中预先通过多种类型维度进行多叉树的划分,而在获取到预置维度下的多个待检测数据之后,可以通过孤立森林模型根据各待检测数据对应的数据类型,确定每个待检测数据所属的类型维度,例如,在待检测数据的数据类型为用户使用指定终端版本时,可以将该待检测数据划分至终端版本信息维度等。
可以理解地,上述示例仅是为了更好地理解本公开的实施例的技术方案而列举的示例,不作为对本公开的实施例的唯一限制。
在确定每个待检测数据所属的类型维度之后,执行步骤103。
步骤103:针对每个所述类型维度下的待检测数据进行异常分析处理,确定每个所述类型维度下的异常检测数据。
在确定每个待检测数据所属的类型维度之后,则可以针对每个类型维度下的待检测数据进行异常分析处理,确定每个类型维度下的异常检测数据,即本步骤为提纯方案,即将初步检测的异常的待检测数据进行提纯,去除非异常的待检测数据。
而对于每个类型维度下的待检测数据的异常分析处理过程可以在下述实施例二中进行详细描述,本公开的实施例在此不再加以赘述。
本公开的实施例通过预先训练的更细维度的孤立森林模型收集并检测异常数据流量,能够识别类似于正常流量的低速攻击流量,提高了检测的稳定性和准确度。
本公开的实施例提供的异常数据的检测方法,通过基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据,通过孤立森林模型根据各待检测数据对应的数据类型,确定每个待检测数据所属的类型维度;针对每个类型维度下的待检测数据进行异常分析处理,确定每个类型维度下的异常检测数据。本公开的实施例通过预先训练的更细维度的孤立森林模型收集并检测异常数据流量,能够识别类似于正常流量的低速攻击流量,提高了检测的稳定性和准确度,并且,节省了异常流量检测所需的时间。
实施例二
参照图2,示出了本公开实施例提供的一种异常数据的检测方法的步骤流程图,如图2所示,该异常数据的检测方法具体可以包括如下步骤:
步骤201:获取白名单数据库中的属于预置维度下的历史访问数据。
在本公开的实施例中,白名单数据库是指预先收集的正常访问数据所形成的数据库,具体地,可以预先创建一个空的白名单数据库,在后期用户的访问过程中,可以对正常的用户访问数据进行收集,并保存于空的白名单数据库中,从而可以得到大量的正常访问数据。白名单数据库中的访问数据均是通过了合法性校验的访问数据。
预置维度是指需要进行异常访问数据检测的维度,在本实施例中,预置维度可以包括互联网协议地址维度、用户代理维度和通用唯一识别码维度等维度中的至少一种。
其中,互联网协议地址(Internet Protocol,IP)维度是指对访问数据对应的IP地址进行异常检测的维度。
用户代理(useragent)维度是指对访问数据对应的用户代理进行异常检测的维度。
通用唯一识别码(Universally Unique Identifier,UUID)维度是指对访问数据的用户唯一识别码进行异常检测的维度,如用户ID等。
在本实施例中,预置维度可以为一种维度,也可以为多种维度,具体地,可以根据检测需求而定,本实施例对此不加以限制。
在需要对孤立森林模型进行训练时,可以从白名单数据库中获取属于预置维度下的历史访问数据,进而,执行步骤202。
步骤202:根据所述历史访问数据对初始孤立森林模型进行训练,得到所述孤立森林模型。
初始孤立森林模型是指未进行训练的,随机选取的二叉树的孤立森林模型,例如,如图2a所示的随机选取的孤立森林模型为一个二叉树森林模型。
在从白名单数据库中获取属于预置维度下的历史访问数据之后,可以根据历史访问数据对初始孤立森林模型进行训练,以得到改进后的孤立森林模型(如图2b所示),对于具体地训练过程可以结合下述具体实现方式的描述。
在本公开的一种具体实现方式中,上述步骤202可以包括:
子步骤S1:根据所述历史访问数据对应的历史数据类型,将所述历史访问数据划分为至少一个类型维度。
在本公开的实施例中,类型维度是指根据历史访问数据对应的访问方式、终端版本、合法性校验方式等划分的维度。在本实施例中,类型维度可以包括:目标接口信息维度、终端版本信息维度、用户标识信息维度和参数合法性校验信息维度等维度中的至少一种维度。
目标接口信息维度是指访问目标接口的分布信息的维度,例如,对于一个接口而言,哪些访问数据是通过这个接口进行的访问等。
终端版本信息维度是指用户访问时使用终端的版本,例如,用户访问时使用的终端版本为10版的,或者为12版的等,可以根据用户使用终端版本的不同,对访问数据进行划分。
用户标识信息(userid)维度也即累计信息维度,是指单个用户标识访问的次数的维度,例如,在某个时间段内,用户标识1访问的次数为800次等。
参数合法性校验信息维度是指访问数据采用的何种参数进行的合法性校验的维度。
当然,不仅限于此,在具体实现中,类型维度还可以包括其它维度,具体地,可以根据业务需求而定,本实施例对此不加以限制。
在获取历史访问数据之后,可以根据历史访问数据对应的历史数据类型,将历史访问数据划分为至少一个类型维度。
在将历史访问数据划分为至少一个类型维度之后,执行子步骤S2。
子步骤S2:基于所述至少一个类型维度对所述初始孤立森林模型进行改进,生成所述孤立森林模型。
在将历史访问数据划分为至少一个类型维度之后,可以基于至少一个类型维度对初始孤立森林模型进行改进,以生成改进的孤立森林模型,具体地改进点如下:
1、生成子树时,将随机二叉树改进成多叉树,比如2的n次方叉树,其中n为随机选择的属性个数,默认情况下:1<=n<=3;
2、将默认采样大小从256提升到512,因为采用了多叉树,分支时所带信息变多,此时需要更多的数据来参与训练,树的深度限制为log(N/n),其中N为采样的数据集大小。
构建子树的伪代码如下所示,以选取的属性n=2为例:
Figure BDA0002434388650000101
Figure BDA0002434388650000111
在对初始孤立森林模型进行改进得到改进后的孤立森林模型之后,执行步骤203。
步骤203:基于所述孤立森林模型收集预置平台的日志数据。
在对初始孤立森林模型进行改进得到改进后的孤立森林模型之后,可以利用训练好的森林模型对线上日志进行收集,以收集得到预置平台的日志数据,进而,执行步骤204。
步骤204:对所述日志数据进行异常检测处理,确定所述日志数据中的待检测数据。
待检测数据是指进行初步检测之后,得到的初步检测为异常的日志数据。
在收集到预置平台的日志数据之后,可以对日志数据进行初步的异常检测处理,以确定日志数据中的待检测数据,即将初步检测为异常的日志数据作为待检测数据,具体地,可以采用参数合法性校验的方式对日志数据进行异常检测处理,以确定日志数据中初步检测为异常的待检测数据。
在确定日志数据中的待检测数据之后,执行步骤205。
步骤205:通过所述孤立森林模型根据各所述待检测数据对应的数据类型,确定每个所述待检测数据所属的类型维度。
在预先训练的孤立森林模型中预先通过多种类型维度进行多叉树的划分,而在获取到预置维度下的多个待检测数据之后,可以通过孤立森林模型根据各待检测数据对应的数据类型,确定每个待检测数据所属的类型维度,例如,在待检测数据的数据类型为用户使用指定终端版本时,可以将该待检测数据划分至终端版本信息维度等。
可以理解地,上述示例仅是为了更好地理解本公开的实施例的技术方案而列举的示例,不作为对本公开的实施例的唯一限制。
在通过孤立森林模型根据各待检测数据对应的数据类型,确定每个待检测数据所属的类型维度之后,执行步骤206。
步骤206:针对每个所述类型维度,获取任意两个待检测数据之间的数据距离。
数据距离是指任意两个待检测数据之间的距离,在本公开的实施例中,数据距离可以为余弦距离,也可以为欧式距离,具体地,可以根据业务需求而定,本公开的实施例对此不加以限制。
在确定每个待检测数据所属的类型维度之后,可以针对每个类型维度,获取任意两个待检测数据之间的数据距离,具体地,可以结合每个类型维度下的待检测数据,构建基于预置维度的用户访问直方图,然后计算两个点(即待检测数据)之间的数据距离,例如,以访问接口为例,计算公式如下:
Figure BDA0002434388650000121
上述公式(1)中,xi为用户x访问第i个接口的次数,X为用户x访问所有接口的次数和,yi为用户y访问第i个接口的次数,Y为用户y访问所有接口的次数和,k为预先设置的阈值,对于该阈值的具体数值可以根据业务需求预先设定。
在针对每个类型维度,获取任意两个待检测数据之间的数据距离之后,执行步骤207。
步骤207:根据所述数据距离和距离阈值,将所述待检测数据进行分组,得到至少一个数据群组。
在针对每个类型维度,获取任意两个待检测数据之间的数据距离之后,可以根据数据距离和预先由业务人员设置的距离阈值,将待检测数据进行分组,得到至少一个数据群组。
在根据数据距离和距离阈值将待检测数据进行分组,得到至少一个数据群组之后,执行步骤208。
步骤208:根据所述至少一个数据群组和预置校验规则,对所述至少一个数据群组中的待检测数据进行异常检测处理,确定所述异常检测数据。
预置校验规则是指预先由业务人员设置的数据校验规则,在本公开实施例中,可以针对群组大小(即访问量)预先设置相应的校验规则,在得到至少一个数据群组之后,可以获取至少一个数据群组对应的预置校验规则,并根据预置校验规则对至少一个数据群组中的待检测数据进行异常检测处理,以确定异常检测数据,具体地,确定检验规则后,对上一步中的各个子群组进行判断,选出异常的群组,根据最终异常群组的ip/ua/uuid,进而找出该时刻的低速异常攻击流量数据。
本公开的实施例通过预先训练的更细维度的孤立森林模型收集并检测异常数据流量,能够识别类似于正常流量的低速攻击流量,提高了检测的稳定性和准确度。
本公开的实施例提供的异常数据的检测方法,通过基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据,通过孤立森林模型根据各待检测数据对应的数据类型,确定每个待检测数据所属的类型维度;针对每个类型维度下的待检测数据进行异常分析处理,确定每个类型维度下的异常检测数据。本公开的实施例通过预先训练的更细维度的孤立森林模型收集并检测异常数据流量,能够识别类似于正常流量的低速攻击流量,提高了检测的稳定性和准确度,并且,节省了异常流量检测所需的时间。
实施例三
参照图3,示出了本公开实施例提供的一种异常数据的检测装置的结构示意图,如图3所示,该异常数据的检测装置具体可以包括如下模块:
待检测数据获取模块310,用于基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据;
类型维度确定模块320,用于通过所述孤立森林模型根据各所述待检测数据对应的数据类型,确定每个所述待检测数据所属的类型维度;
异常检测数据确定模块330,用于针对每个所述类型维度下的待检测数据进行异常分析处理,确定每个所述类型维度下的异常检测数据。
可选地,所述预置维度包括:互联网协议地址维度、用户代理维度和通用唯一识别码维度中的至少一种;所述类型维度包括:目标接口信息维度、终端版本信息维度、用户标识信息维度和参数合法性校验信息维度中的至少一种。
本公开的实施例提供的异常数据的检测装置,通过基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据,通过孤立森林模型根据各待检测数据对应的数据类型,确定每个待检测数据所属的类型维度;针对每个类型维度下的待检测数据进行异常分析处理,确定每个类型维度下的异常检测数据。本公开的实施例通过预先训练的更细维度的孤立森林模型收集并检测异常数据流量,能够识别类似于正常流量的低速攻击流量,提高了检测的稳定性和准确度,并且,节省了异常流量检测所需的时间。
实施例四
参照图4,示出了本公开实施例提供的一种异常数据的检测装置的结构示意图,如图4所示,该异常数据的检测装置具体可以包括如下模块:
历史访问数据获取模块410,用于获取白名单数据库中的属于预置维度下的历史访问数据;
孤立森林模型获取模块420,用于根据所述历史访问数据对初始孤立森林模型进行训练,得到所述孤立森林模型;
待检测数据获取模块430,用于基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据;
类型维度确定模块440,用于通过所述孤立森林模型根据各所述待检测数据对应的数据类型,确定每个所述待检测数据所属的类型维度;
异常检测数据确定模块450,用于针对每个所述类型维度下的待检测数据进行异常分析处理,确定每个所述类型维度下的异常检测数据。
可选地,所述孤立森林模型获取模块420包括:
类型维度划分单元,用于根据所述历史访问数据对应的历史数据类型,将所述历史访问数据划分为至少一个类型维度;
孤立模型生成单元,用于基于所述至少一个类型维度对所述初始孤立森林模型进行改进,生成所述孤立森林模型。
可选地,所述待检测数据获取模块430包括:
日志数据收集单元431,用于基于所述孤立森林模型收集预置平台的日志数据;
待检测数据确定单元432,用于对所述日志数据进行异常检测处理,确定所述日志数据中的待检测数据。
可选地,所述异常检测数据确定模块450包括:
数据距离获取单元451,用于针对每个所述类型维度,获取任意两个待检测数据之间的数据距离;
数据群组获取单元452,用于根据所述数据距离和距离阈值,将所述待检测数据进行分组,得到至少一个数据群组;
异常数据确定单元453,用于根据所述至少一个数据群组和预置校验规则,对所述至少一个数据群组中的待检测数据进行异常检测处理,确定所述异常检测数据。
本公开的实施例提供的异常数据的检测装置,通过基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据,通过孤立森林模型根据各待检测数据对应的数据类型,确定每个待检测数据所属的类型维度;针对每个类型维度下的待检测数据进行异常分析处理,确定每个类型维度下的异常检测数据。本公开的实施例通过预先训练的更细维度的孤立森林模型收集并检测异常数据流量,能够识别类似于正常流量的低速攻击流量,提高了检测的稳定性和准确度,并且,节省了异常流量检测所需的时间。
本公开的实施例还提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现前述实施例的异常数据的检测方法。
本公开的实施例还提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述实施例的异常数据的检测方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开的实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的实施例的内容,并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的实施例的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
本公开的实施例的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的动态图片的生成设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本公开的实施例的较佳实施例而已,并不用以限制本公开的实施例,凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本公开的实施例的保护范围之内。
以上所述,仅为本公开的实施例的具体实施方式,但本公开的实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的实施例的保护范围之内。因此,本公开的实施例的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种异常数据的检测方法,其特征在于,包括:
基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据;
通过所述孤立森林模型根据各所述待检测数据对应的数据类型,确定每个所述待检测数据所属的类型维度;
针对每个所述类型维度下的待检测数据进行异常分析处理,确定每个所述类型维度下的异常检测数据。
2.根据权利要求1所述的方法,其特征在于,在所述基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据之前,还包括:
获取白名单数据库中的属于预置维度下的历史访问数据;
根据所述历史访问数据对初始孤立森林模型进行训练,得到所述孤立森林模型。
3.根据权利要求2所述的方法,其特征在于,所述根据历史访问数据对初始孤立森林模型进行训练,得到所述孤立森林模型,包括:
根据所述历史访问数据对应的历史数据类型,将所述历史访问数据划分为至少一个类型维度;
基于所述至少一个类型维度对所述初始孤立森林模型进行改进,生成所述孤立森林模型。
4.根据权利要求1所述的方法,其特征在于,所述基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据,包括:
基于所述孤立森林模型收集预置平台的日志数据;
对所述日志数据进行异常检测处理,确定所述日志数据中的待检测数据。
5.根据权利要求1所述的方法,其特征在于,所述针对每个所述类型维度下的待检测数据进行异常分析处理,确定每个所述类型维度下的异常检测数据,包括:
针对每个所述类型维度,获取任意两个待检测数据之间的数据距离;
根据所述数据距离和距离阈值,将所述待检测数据进行分组,得到至少一个数据群组;
根据所述至少一个数据群组和预置校验规则,对所述至少一个数据群组中的待检测数据进行异常检测处理,确定所述异常检测数据。
6.根据权利要求1所述的方法,其特征在于,所述预置维度包括:互联网协议地址维度、用户代理维度和通用唯一识别码维度中的至少一种;所述类型维度包括:目标接口信息维度、终端版本信息维度、用户标识信息维度和参数合法性校验信息维度中的至少一种。
7.一种异常数据的检测装置,其特征在于,包括:
待检测数据获取模块,用于基于预先训练的孤立森林模型,获取预置维度下的多个待检测数据;
类型维度确定模块,用于通过所述孤立森林模型根据各所述待检测数据对应的数据类型,确定每个所述待检测数据所属的类型维度;
异常检测数据确定模块,用于针对每个所述类型维度下的待检测数据进行异常分析处理,确定每个所述类型维度下的异常检测数据。
8.根据权利要求7所述的装置,其特征在于,还包括:
历史访问数据获取模块,用于获取白名单数据库中的属于预置维度下的历史访问数据;
孤立森林模型获取模块,用于根据所述历史访问数据对初始孤立森林模型进行训练,得到所述孤立森林模型。
9.根据权利要求8所述的装置,其特征在于,所述孤立森林模型获取模块包括:
类型维度划分单元,用于根据所述历史访问数据对应的历史数据类型,将所述历史访问数据划分为至少一个类型维度;
孤立模型生成单元,用于基于所述至少一个类型维度对所述初始孤立森林模型进行改进,生成所述孤立森林模型。
10.根据权利要求7所述的装置,其特征在于,所述待检测数据获取模块包括:
日志数据收集单元,用于基于所述孤立森林模型收集预置平台的日志数据;
待检测数据确定单元,用于对所述日志数据进行异常检测处理,确定所述日志数据中的待检测数据。
11.根据权利要求7所述的装置,其特征在于,所述异常检测数据确定模块包括:
数据距离获取单元,用于针对每个所述类型维度,获取任意两个待检测数据之间的数据距离;
数据群组获取单元,用于根据所述数据距离和距离阈值,将所述待检测数据进行分组,得到至少一个数据群组;
异常数据确定单元,用于根据所述至少一个数据群组和预置校验规则,对所述至少一个数据群组中的待检测数据进行异常检测处理,确定所述异常检测数据。
12.根据权利要求7所述的装置,其特征在于,所述预置维度包括:互联网协议地址维度、用户代理维度和通用唯一识别码维度中的至少一种;所述类型维度包括:目标接口信息维度、终端版本信息维度、用户标识信息维度和参数合法性校验信息维度中的至少一种。
13.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至6任一项所述的异常数据的检测方法。
14.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至6中任一项所述的异常数据的检测方法。
CN202010247760.8A 2020-03-31 2020-03-31 异常数据的检测方法、装置、电子设备及存储介质 Active CN111565171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010247760.8A CN111565171B (zh) 2020-03-31 2020-03-31 异常数据的检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010247760.8A CN111565171B (zh) 2020-03-31 2020-03-31 异常数据的检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111565171A true CN111565171A (zh) 2020-08-21
CN111565171B CN111565171B (zh) 2022-09-20

Family

ID=72071530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010247760.8A Active CN111565171B (zh) 2020-03-31 2020-03-31 异常数据的检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111565171B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256732A (zh) * 2020-09-25 2021-01-22 北京五八信息技术有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112671791A (zh) * 2020-12-30 2021-04-16 网神信息技术(北京)股份有限公司 检测实体异常的方法、装置、计算机设备和可读存储介质
CN112733897A (zh) * 2020-12-30 2021-04-30 胜斗士(上海)科技技术发展有限公司 确定多维样本数据的异常原因的方法和设备
CN113537642A (zh) * 2021-08-20 2021-10-22 日月光半导体制造股份有限公司 产品品质预测方法、装置、电子设备及存储介质
CN113760634A (zh) * 2020-09-04 2021-12-07 北京沃东天骏信息技术有限公司 一种数据处理方法和装置
CN114666136A (zh) * 2022-03-23 2022-06-24 阿里云计算有限公司 一种网络攻击行为的检测方法和装置
CN115964216A (zh) * 2023-01-30 2023-04-14 北京慧图科技(集团)股份有限公司 一种基于孤立森林的物联网设备数据异常检测方法
CN117030964A (zh) * 2023-10-07 2023-11-10 哈尔滨凯纳科技股份有限公司 一种用于水质分析仪的控制系统及方法
CN117235647A (zh) * 2023-11-03 2023-12-15 中色紫金地质勘查(北京)有限责任公司 基于边缘计算的矿产资源勘查业务hse数据管理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108616545A (zh) * 2018-06-26 2018-10-02 中国科学院信息工程研究所 一种网络内部威胁的检测方法、系统及电子设备
CN109561052A (zh) * 2017-09-26 2019-04-02 北京国双科技有限公司 网站异常流量的检测方法及装置
CN109714187A (zh) * 2018-08-17 2019-05-03 平安普惠企业管理有限公司 基于机器学习的日志分析方法、装置、设备及存储介质
CN109873832A (zh) * 2019-03-15 2019-06-11 北京三快在线科技有限公司 流量识别方法、装置、电子设备和存储介质
CN109948669A (zh) * 2019-03-04 2019-06-28 腾讯科技(深圳)有限公司 一种异常数据检测方法及装置
WO2019129977A1 (fr) * 2017-12-28 2019-07-04 Worldline Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise
US20190213446A1 (en) * 2016-06-30 2019-07-11 Intel Corporation Device-based anomaly detection using random forest models

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190213446A1 (en) * 2016-06-30 2019-07-11 Intel Corporation Device-based anomaly detection using random forest models
CN109561052A (zh) * 2017-09-26 2019-04-02 北京国双科技有限公司 网站异常流量的检测方法及装置
WO2019129977A1 (fr) * 2017-12-28 2019-07-04 Worldline Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise
CN108616545A (zh) * 2018-06-26 2018-10-02 中国科学院信息工程研究所 一种网络内部威胁的检测方法、系统及电子设备
CN109714187A (zh) * 2018-08-17 2019-05-03 平安普惠企业管理有限公司 基于机器学习的日志分析方法、装置、设备及存储介质
CN109948669A (zh) * 2019-03-04 2019-06-28 腾讯科技(深圳)有限公司 一种异常数据检测方法及装置
CN109873832A (zh) * 2019-03-15 2019-06-11 北京三快在线科技有限公司 流量识别方法、装置、电子设备和存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113760634A (zh) * 2020-09-04 2021-12-07 北京沃东天骏信息技术有限公司 一种数据处理方法和装置
CN112256732B (zh) * 2020-09-25 2023-10-24 北京五八信息技术有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112256732A (zh) * 2020-09-25 2021-01-22 北京五八信息技术有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112671791B (zh) * 2020-12-30 2022-07-29 奇安信网神信息技术(北京)股份有限公司 检测实体异常的方法、装置、计算机设备和可读存储介质
CN112733897A (zh) * 2020-12-30 2021-04-30 胜斗士(上海)科技技术发展有限公司 确定多维样本数据的异常原因的方法和设备
CN112671791A (zh) * 2020-12-30 2021-04-16 网神信息技术(北京)股份有限公司 检测实体异常的方法、装置、计算机设备和可读存储介质
CN113537642A (zh) * 2021-08-20 2021-10-22 日月光半导体制造股份有限公司 产品品质预测方法、装置、电子设备及存储介质
CN114666136A (zh) * 2022-03-23 2022-06-24 阿里云计算有限公司 一种网络攻击行为的检测方法和装置
CN115964216A (zh) * 2023-01-30 2023-04-14 北京慧图科技(集团)股份有限公司 一种基于孤立森林的物联网设备数据异常检测方法
CN115964216B (zh) * 2023-01-30 2023-07-18 北京慧图科技(集团)股份有限公司 一种基于孤立森林的物联网设备数据异常检测方法
CN117030964A (zh) * 2023-10-07 2023-11-10 哈尔滨凯纳科技股份有限公司 一种用于水质分析仪的控制系统及方法
CN117235647A (zh) * 2023-11-03 2023-12-15 中色紫金地质勘查(北京)有限责任公司 基于边缘计算的矿产资源勘查业务hse数据管理方法
CN117235647B (zh) * 2023-11-03 2024-03-08 中色紫金地质勘查(北京)有限责任公司 基于边缘计算的矿产资源勘查业务hse数据管理方法

Also Published As

Publication number Publication date
CN111565171B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN111565171B (zh) 异常数据的检测方法、装置、电子设备及存储介质
CN105915555B (zh) 网络异常行为的检测方法及系统
CN110099059A (zh) 一种域名识别方法、装置及存储介质
CN111949803B (zh) 一种基于知识图谱的网络异常用户检测方法、装置和设备
CN110602029A (zh) 一种用于识别网络攻击的方法和系统
CN113381962B (zh) 一种数据处理方法、装置和存储介质
CN108600172B (zh) 撞库攻击检测方法、装置、设备及计算机可读存储介质
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN109104421A (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN111338692A (zh) 基于漏洞代码的漏洞分类方法、装置及电子设备
CN113779481A (zh) 诈骗网站的识别方法、装置、设备及存储介质
CN110598959A (zh) 一种资产风险评估方法、装置、电子设备及存储介质
CN113688905A (zh) 一种有害域名核验方法及装置
CN111885034B (zh) 物联网攻击事件追踪方法、装置和计算机设备
CN109064067B (zh) 基于互联网的金融风险运营主体判定方法及装置
CN111880942A (zh) 一种网络威胁处理方法及装置
CN108171053B (zh) 一种规则发现的方法以及系统
CN110263618A (zh) 一种核身模型的迭代方法和装置
CN112087414A (zh) 挖矿木马的检测方法及装置
CN107784054B (zh) 一种页面发布方法和装置
CN115643044A (zh) 数据处理方法、装置、服务器及存储介质
CN106446687B (zh) 恶意样本的检测方法及装置
CN113962218A (zh) 一种违规应用识别方法、装置、设备及可读存储介质
CN107239704A (zh) 恶意网页发现方法及装置
CN113542200B (zh) 风险控制方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant