CN113239999A - 数据异常检测方法、装置和电子设备 - Google Patents

数据异常检测方法、装置和电子设备 Download PDF

Info

Publication number
CN113239999A
CN113239999A CN202110496465.0A CN202110496465A CN113239999A CN 113239999 A CN113239999 A CN 113239999A CN 202110496465 A CN202110496465 A CN 202110496465A CN 113239999 A CN113239999 A CN 113239999A
Authority
CN
China
Prior art keywords
data
sample
hyperplane
detected
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110496465.0A
Other languages
English (en)
Inventor
杨滨源
杨立军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202110496465.0A priority Critical patent/CN113239999A/zh
Publication of CN113239999A publication Critical patent/CN113239999A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Abstract

本申请实施例提供了一种数据异常检测方法、装置和电子设备,在对待检测数据进行异常检测时,通过对待检测数据进行降维处理,以提取待检测数据对应的多个目标深层隐式特征,降低了待检测数据中无关维度特征的影响;并获取基于样本数据对应的多个样本深层隐式特征训练的目标隔离树,该多个样本深层隐式特征与多个目标深层隐式特征相同;再根据待检测数据与基于多个样本深层隐式特征训练得到的目标隔离树之间的路径长度,对待检测数据进行异常检测,与基于单个维度特征进行异常检测相比,可以有效地将待检测数据中的异常点与正常点分开,从而提高了检测性能。

Description

数据异常检测方法、装置和电子设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据异常检测方法、装置和电子设备。
背景技术
随着数据的多样化,通常获取到的数据为高维数据。为了高效地对海量的高维数据进行异常检测,现有技术中,通常采用iForest算法,计算高维数据与孤立森林中的隔离树之间的路径长度,并根据计算结果对高维数据进行异常检测。
但是,采用现有的iForest算法,在对高维数据进行异常检测时,由于高维数据可能存在大量噪声维度或无关维度,这样会影响隔离树的构建,使得后续在基于高维数据与构建的隔离树之间的路径长度,对高维数据进行异常检测时,无法有效地将高维数据中的异常点与正常点分开,从而导致检测性能较差。
发明内容
本申请实施例提供了一种数据异常检测方法、装置和电子设备,在对数据进行异常检测时,提高了检测性能。
本申请实施例提供了一种数据异常检测方法,该数据异常检测方法可以包括:
获取待检测数据。
对所述待检测数据进行降维处理,以提取所述待检测数据对应的多个目标深层隐式特征。
获取目标隔离树;其中,所述目标隔离树是基于样本数据对应的多个样本深层隐式特征训练的,且所述多个样本深层隐式特征与所述多个目标深层隐式特征相同。
根据所述待检测数据与所述目标隔离树之间的路径长度,对所述待检测数据进行异常检测。
在一种可能的实现方式中,所述目标隔离树的数量为多个,所述根据所述待检测数据与所述目标隔离树之间的路径长度,对所述待检测数据进行异常检测,包括:
根据所述待检测数据与多个目标隔离树中各目标隔离树之间的路径长度,确定平均路径长度。
根据所述平均路径长度对所述待检测数据进行异常检测。
在一种可能的实现方式中,所述获取目标隔离树,包括:
对获取的样本数据进行降维处理,以提取所述样本数据对应的多个样本深层隐式特征。
基于所述多个样本深层隐式特征对所述样本数据进行分割,确定目标分割超平面。
基于所述目标分割超平面对所述样本数据进行分割,得到所述目标隔离树。
在一种可能的实现方式中,所述基于所述多个样本深层隐式特征对所述样本数据进行分割,确定目标分割超平面,包括:
从所述多个样本深层隐式特征中,分别选择多组样本特征集;其中,各组样本特征集中包括预设数量个样本深层隐式特征。
针对所述各组样本特征集,根据所述样本特征集包括的样本深层隐式特征,确定所述样本特征集对应的分割超平面,并基于所述分割超平面对所述样本数据进行分割,得到第一样本子数据集和第二样本子数据集。
根据多组第一样本子数据集和第二样本子数据集,确定所述目标分割超平面。
在一种可能的实现方式中,所述根据所述样本特征集包括的样本深层隐式特征,确定所述样本特征集对应的分割超平面,包括:
分别确定所述样本特征集包括的样本深层隐式特征中,各样本深层隐式特征对应的系数。
针对所述各样本深层隐式特征,确定所述样本深层隐式特征对应的系数与所述样本深层隐式特征的取值之间的乘积,并计算所述乘积与所述样本深层隐式特征的取值对应的标准差之间的第一比值。
根据各样本深层隐式特征对应的第一比值,确定所述样本特征集对应的分割超平面。
在一种可能的实现方式中,所述根据各样本深层隐式特征对应的第一比值,确定所述样本特征集对应的分割超平面,包括:
确定所述各样本深层隐式特征对应的第一比值之和。
根据所述和与预设分割值之间的第一差值,确定所述样本特征集对应的分割超平面。
在一种可能的实现方式中,所述根据多组第一样本子数据集和第二样本子数据集,确定所述目标分割超平面,包括:
针对各组第一样本子数据集和第二样本子数据集,确定所述第一样本子数据集和所述第二样本子数据集,分别在对应的分割超平面上的第一样本超平面数据集和第二样本超平面数据集,并根据所述第一样本超平面数据集和所述第二样本超平面数据集,确定所述分割超平面对应的离散度变化值。
根据多个分割超平面对应的离散度变化值,在所述多个分割超平面中确定所述目标分割超平面。
在一种可能的实现方式中,所述根据所述第一样本超平面数据集和所述第二样本超平面数据集,确定所述分割超平面对应的离散度变化值,包括:
确定第一样本超平面数据集对应的第一标准差和所述第二样本超平面数据集对应的第二标准差之间的平均值。
确定所述样本数据在所述分割超平面上的样本超平面数据集对应的标准差。
根据所述标准差和所述平均值,确定所述分割超平面对应的离散度变化值。
在一种可能的实现方式中,所述根据所述标准差和所述平均值,确定所述分割超平面对应的离散度变化值,包括:
确定所述标准差与所述平均值之间的第二差值。
将所述第二差值与所述标准差的第二比值,确定为所述分割超平面对应的离散度变化值。
在一种可能的实现方式中,所述根据多个分割超平面对应的离散度变化值,在所述多个分割超平面中确定所述目标分割超平面,包括:
根据多个分割超平面对应的离散度变化值,在所述多个分割超平面中确定离散度变化值最大的分割超平面。
将所述离散度变化值最大的分割超平面,确定为所述目标分割超平面。
在一种可能的实现方式中,所述对所述待检测数据进行降维处理,以提取所述待检测数据对应的多个目标深层隐式特征,包括:
通过降噪自动编码算法对所述待检测数据进行降维处理,得到所述待检测数据对应的编码结果;其中,所述待检测数据对应的编码结果为所述多个目标深层隐式特征。
第二方面,本申请实施例还提供了一种数据异常检测装置,该数据异常检测装置可以包括:
获取单元,用于获取待检测数据。
处理单元,用于对所述待检测数据进行降维处理,以提取所述待检测数据对应的多个目标深层隐式特征。
所述获取单元,还用于获取目标隔离树;其中,所述目标隔离树是基于样本数据对应的多个样本深层隐式特征训练的,且所述多个样本深层隐式特征与所述多个目标深层隐式特征相同。
所述处理单元,还用于根据所述待检测数据与所述目标隔离树之间的路径长度,对所述待检测数据进行异常检测。
在一种可能的实现方式中,所述目标隔离树的数量为多个;所述处理单元,具体用于根据所述待检测数据与多个目标隔离树中各目标隔离树之间的路径长度,确定平均路径长度;并根据所述平均路径长度对所述待检测数据进行异常检测。
在一种可能的实现方式中,所述获取单元,具体用于对获取的样本数据进行降维处理,以提取所述样本数据对应的多个样本深层隐式特征;并基于所述多个样本深层隐式特征对所述样本数据进行分割,确定目标分割超平面;再基于所述目标分割超平面对所述样本数据进行分割,得到所述目标隔离树。
在一种可能的实现方式中,所述获取单元,具体用于从所述多个样本深层隐式特征中,分别选择多组样本特征集;其中,各组样本特征集中包括预设数量个样本深层隐式特征;针对所述各组样本特征集,根据所述样本特征集包括的样本深层隐式特征,确定所述样本特征集对应的分割超平面,并基于所述分割超平面对所述样本数据进行分割,得到第一样本子数据集和第二样本子数据集;根据多组第一样本子数据集和第二样本子数据集,确定所述目标分割超平面。
在一种可能的实现方式中,所述获取单元,具体用于分别确定所述样本特征集包括的样本深层隐式特征中,各样本深层隐式特征对应的系数;针对所述各样本深层隐式特征,确定所述样本深层隐式特征对应的系数与所述样本深层隐式特征的取值之间的乘积,并计算所述乘积与所述样本深层隐式特征的取值对应的标准差之间的第一比值;根据各样本深层隐式特征对应的第一比值,确定所述样本特征集对应的分割超平面。
在一种可能的实现方式中,所述获取单元,具体用于确定所述各样本深层隐式特征对应的第一比值之和;根据所述和与预设分割值之间的第一差值,确定所述样本特征集对应的分割超平面。
在一种可能的实现方式中,所述获取单元,具体用于针对各组第一样本子数据集和第二样本子数据集,确定所述第一样本子数据集和所述第二样本子数据集,分别在对应的分割超平面上的第一样本超平面数据集和第二样本超平面数据集,并根据所述第一样本超平面数据集和所述第二样本超平面数据集,确定所述分割超平面对应的离散度变化值;根据多个分割超平面对应的离散度变化值,在所述多个分割超平面中确定所述目标分割超平面。
在一种可能的实现方式中,所述获取单元,具体用于确定第一样本超平面数据集对应的第一标准差和所述第二样本超平面数据集对应的第二标准差之间的平均值;并确定所述样本数据在所述分割超平面上的样本超平面数据集对应的标准差;再根据所述标准差和所述平均值,确定所述分割超平面对应的离散度变化值。
在一种可能的实现方式中,所述获取单元,具体用于确定所述标准差与所述平均值之间的第二差值;将所述第二差值与所述标准差的第二比值,确定为所述分割超平面对应的离散度变化值。
在一种可能的实现方式中,所述获取单元,具体用于根据多个分割超平面对应的离散度变化值,在所述多个分割超平面中确定离散度变化值最大的分割超平面;将所述离散度变化值最大的分割超平面,确定为所述目标分割超平面。
在一种可能的实现方式中,所述处理单元,具体用于通过降噪自动编码算法对所述待检测数据进行降维处理,得到所述待检测数据对应的编码结果;其中,所述待检测数据对应的编码结果为所述多个目标深层隐式特征。
第三方面,本申请实施例还提供了一种电子设备,该电子设备可以包括处理器和存储器;其中,
所述存储器,用于存储计算机程序。
所述处理器,用于读取所述存储器存储的计算机程序,并根据所述存储器中的计算机程序执行上述第一方面任一种可能的实现方式中所述的数据异常检测方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述第一方面任一种可能的实现方式中所述的数据异常检测方法。
第五方面,本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述第一方面任一种可能的实现方式中所述的数据异常检测方法。
本申请实施例提供的数据异常检测方法、装置和电子设备,在对待检测数据进行异常检测时,通过对待检测数据进行降维处理,以提取待检测数据对应的多个目标深层隐式特征,降低了待检测数据中无关维度特征的影响;并获取基于样本数据对应的多个样本深层隐式特征训练的目标隔离树,该多个样本深层隐式特征与多个目标深层隐式特征相同;再根据待检测数据与基于多个样本深层隐式特征训练得到的目标隔离树之间的路径长度,对待检测数据进行异常检测,与基于单个维度特征进行异常检测相比,可以有效地将待检测数据中的异常点与正常点分开,从而提高了检测性能。
附图说明
图1为本申请实施例提供的一种数据异常检测方法的流程示意图;
图2为本申请实施例提供的一种降噪自动编码算法的过程示意图;
图3为本申请实施例提供的一种降噪自动编码器的结构示意图;
图4为本申请实施例提供的一种获取目标隔离树的流程示意图;
图5为本申请实施例提供的一种数据异常检测装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本申请的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。在本申请的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例提供的技术方案可以应用于高维数据的异常检测场景中。为了高效地对海量的高维数据进行异常检测,现有技术中,通常采用iForest算法,计算高维数据与孤立森林中的隔离树之间的路径长度,并根据计算结果对高维数据进行异常检测。但是,采用现有的iForest算法,在对高维数据进行异常检测时,由于高维数据可能存在大量噪声维度或无关维度,这样会影响隔离树的构建,使得后续在基于高维数据与构建的隔离树之间的路径长度,对高维数据进行异常检测时,无法有效地将高维数据中的异常点与正常点分开,从而导致检测性能较差。
为了提高检测性能,可以考虑对高维数据中存在的高维特征进行降维处理,以提取深度隐式特征,降低无关维度特征的影响;并且,考虑到单个维度的特征不能有效地将高维数据中的异常点与正常点分开,可以结合多个维度的特征进行异常检测,从而实现对高维数的异常检测。
基于上述技术构思,本申请实施例提供了一种数据异常检测方法,在对待检测数据进行异常检测时,可以先获取待检测数据;对待检测数据进行降维处理,以提取待检测数据对应的多个目标深层隐式特征;并获取目标隔离树;其中,目标隔离树是基于样本数据对应的多个样本深层隐式特征训练的,且多个样本深层隐式特征与多个目标深层隐式特征相同;再根据待检测数据与目标隔离树之间的路径长度,对待检测数据进行异常检测。
其中,待检测数据为高维数据,高维数据可以理解为维度数大于一定阈值的数据。目标深层隐式特征为基于多个维度的特征,综合得到的一种深层隐式特征。
需要说明的是,多个样本深层隐式特征与多个目标深层隐式特征相同,举例说明,假设多个样本深层隐式特征中包括A、B、C以及D四个深层隐式特征,则多个目标深层隐式特征中也包括A、B、C以及D四个深层隐式特征。
可以看出,本申请实施例中,在对待检测数据进行异常检测时,通过对待检测数据进行降维处理,以提取待检测数据对应的多个目标深层隐式特征,降低了待检测数据中无关维度特征的影响;并获取基于样本数据对应的多个样本深层隐式特征训练的目标隔离树,该多个样本深层隐式特征与多个目标深层隐式特征相同;再根据待检测数据与基于多个样本深层隐式特征训练得到的目标隔离树之间的路径长度,对待检测数据进行异常检测,与基于单个维度特征进行异常检测相比,可以有效地将待检测数据中的异常点与正常点分开,从而提高了检测性能。
下面,将通过具体的实施例对本申请提供的数据异常检测方法进行详细地说明。可以理解的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本申请实施例提供的一种数据异常检测方法的流程示意图,该数据异常检测方法可以由软件和/或硬件装置执行,例如,该硬件装置可以为数据异常检测装置,该数据异常检测装置可以为电子设备。示例的,请参见图1所示,该数据异常检测方法可以包括:
S101、获取待检测数据。
其中,待检测数据为高维数据。
示例的,在获取待检测数据时,可以从本地获取该待检测数据,也可以从其它设备获取待检测数据,具体可以根据实际需要进行设置,在此,本申请实施例只是以这两种方式为例进行说明。
在获取到待检测数据后,为了降低待检测数据中无关维度特征的影响,可以先对待检测数据进行降维处理,以提取待检测数据对应的多个目标深层隐式特征,即执行下述S102:
S102、对待检测数据进行降维处理,以提取待检测数据对应的多个目标深层隐式特征。
示例的,可参见图2所示,图2为本申请实施例提供的一种降噪自动编码算法的过程示意图,在对待检测数据进行降维处理,以提取待检测数据对应的目标深层隐式特征时,可以通过降噪自动编码算法对待检测数据进行降维处理,得到待检测数据对应的编码结果;其中,待检测数据对应的编码结果即为待检测数据对应的目标深层隐式特征,从而获取到多个目标深层隐式特征。
可以理解的是,在本申请实施例中,在提取待检测数据对应的目标深层隐式特征时,除了可以使用降噪自动编码算法之外,还可以使用Kurtosis算法,或者主成分分析(Principal Component Analysis,PCA)等,具体可以根据实际需要进行设置,在此,本申请实施例只是以通过降噪自动编码算法,对待检测数据进行降维处理,以提取待检测数据对应的目标深层隐式特征为例进行说明,但并不代表本申请实施例仅局限于此。
以降噪自动编码算法为例,在通过降噪自动编码算法对待检测数据进行降维处理时,可以通过降噪自动编码器对待检测数据进行降维处理。为了防止过拟合的发生,通常会在输入数据中加入噪声,在本申请实施例中,可以采用遮掩数据的方式进行去噪。具体做法是将输入数据以一定的比例置为0,可参见图3所示,图3为本申请实施例提供的一种降噪自动编码器的结构示意图,降噪自动编码器通过一个随机映射函数
Figure BDA0003054526710000091
对输入数据进行破坏,生成
Figure BDA0003054526710000092
qD通常以一定概率将输入数据中的值设为0,并用
Figure BDA0003054526710000093
生成的重构y与原始输入x的差作为重构误差,迭代更新权值矩阵和偏移向量,以不断对降噪自动编码器进行训练,这样以一定概率将输入数据中的值设为0,可以掩盖部分维度数据,并基于其他维度数据训练降噪自动编码器,可以在有效地提高降噪自动编码器的泛化能力和鲁棒性。可将降噪自动编码器中编码过程的权值矩阵记为W1,解码过程的权值矩阵记为W2,其中,W2是W1的转置,编码过程可参见下述公式(1)所示:
Figure BDA0003054526710000101
上述公式(1)中,b1为偏移向量,编码过程通过偏移向量和权值矩阵得到隐式特征向量h。
降噪自动编码器中的解码过程会把深层隐式特征向量通过权值矩阵和偏移向量还原成输出向量,尽可能逼近输入向量,解码过程可参见下述公式(2)所示:
y=g(W2h+b2) (2)
上述公式(2)中,b2为解码过程的偏移向量,g和f表示激活函数。
在训练降噪自动编码器时,可以通过最小化损失函数来调整权值矩阵和偏移向量,对应的,降噪自动编码器损失函数的公式可参见下述公式(3)所示:
Figure BDA0003054526710000102
上述公式(3)中,
Figure BDA0003054526710000103
为正则项,目的是为了防止过拟合,第一项为误差项,表示输入向量和输出向量之间的误差。
通过梯度下降法更新参数,并利用反向传播算法计算函数的偏导数,在训练降噪自动编码器过程中,先通过正态分布随机采样得到一组接近于0的随机值来初始化权值矩阵W和偏移向量b,并在迭代过程中用梯度下降法更新参数,可参见下述公式(4)和公式(5)所示:
Figure BDA0003054526710000104
Figure BDA0003054526710000105
这样通过反复最小化损失函数来学习拟合权值矩阵W和偏移向量b,并通过权值矩阵W和偏移向量b计算得出h,可参见公式(1),从而获取到降噪自动编码器,再基于获取到的降噪自动编码器对待检测数据进行降维处理,以提取待检测数据对应的多个目标深层隐式特征。
在对待检测数据进行异常检测时,除了提取待检测数据对应的多个目标深层隐式特征之外,还需要获取基于样本数据对应的多个样本深层隐式特征训练的目标隔离树,即执行下述S103;这样才能根据待检测数据与目标隔离树之间的路径长度,对待检测数据进行异常检测。
S103、获取目标隔离树;其中,目标隔离树是基于样本数据对应的多个样本深层隐式特征训练的,且多个样本深层隐式特征与多个目标深层隐式特征相同。
可以理解的是,在本申请实施例中,获取目标隔离树可以理解为在执行本申请技术方案之前,已预先训练好目标隔离树,此处只是获取已预先训练好的目标隔离树;也可以为在执行本申请技术方案之前,并未预先训练目标隔离树,此处通过训练获取目标隔离树,具体可以根据实际需要进行设置。为了提高待检测数据的异常检测效率,通常情况下,会预先训练好目标隔离树,并将训练好的目标隔离树存储至本地或者云端,此处只是从本地或者云端获取已预先训练好的目标隔离树。
在获取到目标隔离树后,就可以根据待检测数据与目标隔离树之间的路径长度,对待检测数据进行异常检测,即执行下述S104:
S104、根据待检测数据与目标隔离树之间的路径长度,对待检测数据进行异常检测。
通常情况下,在基于样本数据对应的多个样本深层隐式特征训练目标隔离树时,会从样本数据中选择多个样本子数据,每一个样本子数据都会对应有各自的目标隔离树,因此,目标隔离树的数量为多个。假设样本数据有10000个,可以从10000个样本数据中选择100个样本子数据,每一个样本子数据的可以包括256个样本数据,基于每一个样本子数据包括的256个样本数据,都会训练得到该样本子数据对应的目标隔离树,这样可以得到100个样本子数据对应的100个目标隔离树。
以目标隔离树的数量为多个为例,示例的,本申请实施例中,在根据待检测数据与目标隔离树之间的路径长度,对待检测数据进行异常检测时,可以先计算待检测数据与多个目标隔离树中各目标隔离树之间的路径长度,得到多个路径长度,并根据得到的多个路径长度,确定平均路径长度;再根据平均路径长度对待检测数据进行异常检测。
示例的,记待检测数据x={x1,x2,…,xn},待检测数据中每个数据均有d维目标深层隐式特征,即每个数据均对应有{x1,x2,…,xd}。则根据待检测数据与目标隔离树之间的路径长度,对待检测数据进行异常检测的主要过程可描述为:
目标隔离树构成的森林iForest(x,t,ψ)
输入:x->输入数据,t->目标隔离树的棵数,ψ->子采样大小
输出:t棵目标隔离树iTree
初始化iForest,设定目标隔离树高度L
for i to t do
x′←sample(x,ψ)
Forest←Forest∪iTree(x′,e,L,q,τ)
end for
return iForest
具体过程可以为:先分别计算待检测数据x与各目标隔离树中各目标隔离树之间的路径长度h(x)。具体地,沿着一棵目标隔离树iTree,从根节点开始到达某叶子节点。假设待检测数据x中,落在叶子节点的数据记为T.size,则待检测数据x与这颗目标隔离树之间的路径长度h(x),可以表示为h(x)=e+C(T.size)。
其中,e表示待检测数据为x从目标隔离树iTree的根节点到叶节点过程中经过的边的数目,C(T.size)是一个修正值,表示在一棵用T.size条样本数据构建的二叉树的平均路径长度。
在基于上述公式h(x)=e+C(T.size)分别计算得到待检测数据x与各目标隔离树中各目标隔离树之间的路径长度h(x)之后,基于得到的多个路径长度,确定平均路径长度,该平均路径长度可记为E(h(x)),即待检测数据x在多个目标隔离树的路径长度的均值。在计算得到待检测数据x在多个目标隔离树的路径长度的均值后,可以基于待检测数据x在多个目标隔离树的路径长度的均值确定该待检测数据x的异常得分:
Figure BDA0003054526710000121
其中,score(x)表示待检测数据x的异常得分,ψ表示单棵目标隔离树的训练样本数据的样本数,C(ψ)表示用ψ条数据构建的二叉树的平均路径长度,用来做归一化处理;
Figure BDA0003054526710000122
H(ψ-1)可用ln(ψ-1)+0.5772156649估算,常数是欧拉常数。
在确定出待检测数据x的异常得分后,就可以进一步根据异常得分确定待检测数据中是否存在异常数据,从而实现对待检测数据的异常检测。例如,当异常得分大于或等于预设值时,则可以确定待检测数据x中存在异常数据;相反的,当异常得到小于预设值时,则可以确定待检测数据x中不存在异常数据,从而实现对待检测数据的异常检测。其中,预设值可以根据实际需要进行设置。
可以看出,本申请实施例中,在对待检测数据进行异常检测时,通过对待检测数据进行降维处理,以提取待检测数据对应的多个目标深层隐式特征,降低了待检测数据中无关维度特征的影响;并获取基于样本数据对应的多个样本深层隐式特征训练的目标隔离树,该多个样本深层隐式特征与多个目标深层隐式特征相同;再根据待检测数据与基于多个样本深层隐式特征训练得到的目标隔离树之间的路径长度,对待检测数据进行异常检测,与基于单个维度特征进行异常检测相比,可以有效地将待检测数据中的异常点与正常点分开,从而提高了检测性能。
基于上述图1所示的实施例,在训练获取目标隔离树时,通常会从样本数据中选择多个样本子数据,每一个样本子数据都会对应有各自的目标隔离树,因此,目标隔离树的数量为多个。在训练获取目标隔离树时,由于每一个目标隔离树的训练获取方法类似,为了避免赘述,可以以训练获取某一个目标隔离树为例,对如何获取目标隔离树进行描述。示例的,在训练获取目标隔离树时,可以先提取样本数据对应的多个样本深层隐式特征,并基于多个样本深层隐式特征对样本数据进行分割,确定目标分割超平面,即最佳分割超平面,再基于最佳分割超平面对样本数据进行分割,从而得到目标隔离树。
假设训练一棵目标隔离树,从样本数据X中,随机抽取样本子数据大小为ψ的X′,
Figure BDA0003054526710000131
对训练样本子集X′,以分割超平面分裂出的两个子数据集分散性最小为目标,提出目标分割超平面分割规则,确定目标分割超平面f。
训练目标隔离树的算法可如下所示:
iTree(X′,e,L,q,τ)
输入:X′->输入数据,e->当前生成树的高度,L->生成树的最大高度,q->分割超平面使用特征数量,τ->每个结点中随机分割超平面数量;
输出:iTree
if(|X′|≤2ore≥L)then
return exNode{Size←|X′|}
else
f←针对q个样本深层隐式特征,在τ个随机分割超平面中,依据目标分割超平面规则,确定目标分割超平面f:
Xl←{x∈X′|f(x)<0}
Xr←{x∈X′|f(x)≥0}
return inNode{Left←iTree(Xl,e+1,L,q,τ)
Right←iTree(Xr,e+1,L,q,τ)
SplitPlane←f}
end if
下面,将通过具体的实施例,对如何训练获取目标隔离树进行详细地说明。示例的,请参见图4所示,图4为本申请实施例提供的一种获取目标隔离树的流程示意图,该获取目标隔离树的方法可以包括:
S401、对获取的样本数据进行降维处理,以提取样本数据对应的多个样本深层隐式特征。
示例的,在对获取的样本数据进行降维处理时,可以通过降噪自动编码算法对获取的样本数据进行降维处理,以提取样本数据对应的多个样本深层隐式特征;其中,样本数据对应的编码结果即为样本深层隐式特征,从而获取到多个样本深层隐式特征,其具体实现方式对上述S102中,对待检测数据进行降维处理,以提取待检测数据对应的多个目标深层隐式特征的实现方式类似,可参见上述S102中,对待检测数据进行降维处理,以提取待检测数据对应的多个目标深层隐式特征的相关描述,在此,本申请实施例不再进行赘述。
可以理解的是,在本申请实施例中,在提取样本数据对应的多个样本深层隐式特征时,除了可以使用降噪自动编码算法之外,还可以使用Kurtosis算法,或者主成分分析(Principal Component Analysis,PCA)等,具体可以根据实际需要进行设置,在此,本申请实施例只是以通过降噪自动编码算法,对获取的样本数据进行降维处理,以提取样本数据对应的多个样本深层隐式特征为例进行说明,但并不代表本申请实施例仅局限于此。
通过对获取的样本数据进行降维处理,在提取样本数据对应的多个样本深层隐式特征后,就可以基于多个样本深层隐式特征对样本数据进行分割,确定目标分割超平面,即执行下述S402:
S402、基于多个样本深层隐式特征对样本数据进行分割,确定目标分割超平面。
示例的,在基于多个样本深层隐式特征对样本数据进行分割,确定目标分割超平面时,可以先从多个样本深层隐式特征中,分别选择多组样本特征集;其中,各组样本特征集中包括预设数量个样本深层隐式特征;针对各组样本特征集,根据样本特征集包括的样本深层隐式特征,确定样本特征集对应的分割超平面,并基于分割超平面对样本数据进行分割,得到第一样本子数据集和第二样本子数据集;根据多组第一样本子数据集和第二样本子数据集,确定目标分割超平面。
假设多个样本深层隐式特征的数量为d个,即提取到样本数据对应的样本深层隐式特征包括d个样本深层隐式特征,从d个样本深层隐式特征中,分别选择多组样本特征集,该多组样本特征集中任一样本特征集可记为Q,且每一个样本特征集Q中包括q个样本深层隐式特征。针对每一组样本特征集,均可以根据该组样本特征集包括的样本深层隐式特征,确定该组样本特征集对应的分割超平面,从而得到多组样本特征集中各组样本特征集对应的分割超平面。可以理解的是,在本申请实施例中,鉴于获取各组样本特征集对应的分割超平面的方法类似,下面,在本申请实施例中,为了避免赘述,将以获取任一组样本特征集对应的分割超平面为例进行说明。
示例的,在根据样本特征集包括的样本深层隐式特征,确定样本特征集对应的分割超平面时,可以先分别确定样本特征集包括的样本深层隐式特征中,各样本深层隐式特征对应的系数;针对各样本深层隐式特征,确定样本深层隐式特征对应的系数与样本深层隐式特征的取值之间的乘积,并计算乘积与样本深层隐式特征的取值对应的标准差之间的第一比值;再确定各样本深层隐式特征对应的第一比值之和;根据和与预设分割值之间的第一差值,确定样本特征集对应的分割超平面。
其中,每一个样本深层隐式特征对应的系数可记为w,由于考虑到单个维度的特征不能有效地将高维数据中的异常点与正常点分开,可以结合多个维度的特征进行异常检测,因此,在根据样本特征集包括的样本深层隐式特征,确定样本特征集对应的分割超平面,引入了与原始特征非轴平行的随机分割超平面f,可参见下述公式(6):
Figure BDA0003054526710000161
上述公式(6)中,f表示样本特征集对应的分割超平面,i表示样本特征集Q中包括第i个样本深层隐式特征,Q表示样本特征集,wi第i个样本深层隐式特征对应的系数,从[-1,1]中随机取值;X′i为X′中第i个样本深层隐式特征的值,σ1为样本深层隐式特征的取值对应的标准差;p为分割点。
在通过上述(6)分别确定出多组样本特征集中各组样本特征集对应的分割超平面后,可以分别基于各组样本特征集对应的分割超平面,对样本子数据X′进行分割,可表示为:Xl←{x∈X′|f(x)<0},和Xr←{x∈X′|f(x)≥0},这样就可以将该样本子数据X′分割为第一样本子数据集和第二样本子数据集,这样针对任一个样本子数据,均对应有多组第一样本子数据集和第二样本子数据集,每一组第一样本子数据集和第二样本子数据集均可记为集合Xl和Xr,Xl∪Xr=X′。在得到样本子数据对应的多组第一样本子数据集和第二样本子数据集后,就可以根据多组第一样本子数据集和第二样本子数据集,确定目标分割超平面,即最优分割超平面。
示例的,在根据多组第一样本子数据集和第二样本子数据集,确定目标分割超平面时,针对各组第一样本子数据集和第二样本子数据集,确定其第一样本子数据集和第二样本子数据集,分别在对应的分割超平面上的第一样本超平面数据集和第二样本超平面数据集,并根据该第一样本超平面数据集和第二样本超平面数据集,确定分割超平面对应的离散度变化值,从而得到多个分割超平面对应的离散度变化值;再根据多个分割超平面对应的离散度变化值,在多个分割超平面中确定目标分割超平面。
可以理解的是,在本申请实施例中,针对各组第一样本子数据集和第二样本子数据集,在确定各分割超平面对应的离散度变化值时,其确定方法类似,为了避免赘述,在以确定任一个分割超平面对应的离散度变化值为例进行说明。示例的,在根据第一样本超平面数据集和第二样本超平面数据集,确定分割超平面对应的离散度变化值时,可以先确定第一样本超平面数据集对应的第一标准差和第二样本超平面数据集对应的第二标准差之间的平均值;并确定样本数据在分割超平面上的样本超平面数据集对应的标准差;再确定标准差与平均值之间的第二差值;将第二差值与标准差的第二比值,确定为分割超平面对应的离散度变化值。
假设某一组第一样本子数据集和第二样本子数据集记为Xl和Xr,Xl∪Xr=X′,其中,Xl中的样本子数据可记为xl,Xr中的样本子数据可记为xr,第一样本子数据集Xl在对应的分割超平面上的第一样本超平面数据集记为Yl,第一样本子数据集Xr在对应的分割超平面上的第一样本超平面数据集记为Yr,则可以通过下述公式(7)确定分割超平面对应的离散度变化值。
Figure BDA0003054526710000171
在上述公式(7)中,DFdecrease(Y)表示分割超平面对应的离散度变化值,σ2(Y)表示样本子数据X′在分割超平面上的样本超平面数据集对应的标准差,avg(σ2(Yl),σ2(Yr))表示第一样本超平面数据集对应的第一标准差和第二样本超平面数据集对应的第二标准差之间的平均值,
Figure BDA0003054526710000172
Figure BDA0003054526710000173
Yl表示第一样本子数据集Xl在对应的分割超平面上的第一样本超平面数据集,Yr表示第一样本子数据集Xr在对应的分割超平面上的第一样本超平面数据集,Y表示样本子数据X′在分割超平面f上计算得到的结果,分割点p将Y分为Yl和Yr,其中yl<p≤yr,yl∈Yl,yr∈Yr
通过上述公式(7)可以得到多个分割超平面对应的离散度变化值。在训练目标隔离树时,目标隔离树iTree的每次分裂过程,都会随机创建多个分割超平面,遍历每一个分割超平面时,对分割点p所有取值空间进行遍历,分割超平面对Y分裂生成多种Yl和Yr组合,进而得到多个分割超平面对应的离散度变化值。示例的,在根据多个分割超平面对应的离散度变化值DFdecrease(Y),在多个分割超平面中确定目标分割超平面时,由于DFdecrease(Y)最大所对应的分割点p,为当前分割超平面的最佳分割点,因此,对多个分割超平面遍历结束时,对应有多个最佳分割点集合及多个DFdecrease(Y)最大值集合,DFdecrease(Y)集合中最大值对应的随机分割超平面为最佳分割超平面,即可以在每一次分裂得到的多个分割超平面中确定各次分裂对应的离散度变化值最大的分割超平面;并将离散度变化值最大的分割超平面,确定为目标分割超平面。
在确定出目标分割超平面后,就可以基于目标分割超平面对样本数据进行分割,得到目标隔离树,即执行下述S403:
S403、基于目标分割超平面对样本数据进行分割,得到目标隔离树。
可以看出,本申请实施例中,在训练得到目标隔离树时,先对获取的样本数据进行降维处理,以提取样本数据对应的多个样本深层隐式特征;并基于多个样本深层隐式特征对样本数据进行分割,确定目标分割超平面;再基于目标分割超平面对样本数据进行分割,得到目标隔离树。这样通过多个样本深层隐式特征训练目标隔离树,使得后续根据待检测数据与基于多个样本深层隐式特征训练得到的目标隔离树之间的路径长度,对待检测数据进行异常检测,与基于单个维度特征进行异常检测相比,可以有效地将待检测数据中的异常点与正常点分开,从而提高了检测性能。
在基于上述图1或图4所示的实施例提供的数据异常检测方法,对待检测数据进行异常检测之后,还可以进一步使用人工甲状腺数据集,对本申请实施例提供的实施例提供的数据异常检测方法的检测结果进行验证。假设在提取待检测数据的多个目标深层隐式特征时,对待检测数据输入维度加噪10%,即随机将待检测数据中的2个维度的值设为0,设定目标深层隐式特征的数量为10个,编码层和解码层均为2层,构建降噪自动编码器。设定目标隔离树的棵数t为100,子采样大小ψ为256,512和1024三组。生成目标隔离树的最大高度L设为8,分割超平面使用特征数量q设为3,随机分割超平面数量设为10。采用本申请实施例提供的数据异常检测方法和现有的iForest方法分别得到的ROC曲线下方的面积大小(AreaUnder Curve,AUC)结果可参见下述表1所示:
表1
Figure BDA0003054526710000181
结合表1可以看出,基于本申请实施例提供的数据异常检测方法,使用目标深层隐式特征创建多棵目标隔离树,并结合多个深层隐式特征建立目标分割超平面,能更好地隔离出待检测数据中的,与现有技术提供的iForest算法相比,具有较高的异常检测性能。
图5为本申请实施例提供的一种数据异常检测装置50的结构示意图,示例的,请参见图5所示,该数据异常检测装置50可以包括:
获取单元501,用于获取待检测数据。
处理单元502,用于对待检测数据进行降维处理,以提取待检测数据对应的多个目标深层隐式特征。
获取单元501,还用于获取目标隔离树;其中,目标隔离树是基于样本数据对应的多个样本深层隐式特征训练的,且多个样本深层隐式特征与多个目标深层隐式特征相同。
处理单元502,还用于根据待检测数据与目标隔离树之间的路径长度,对待检测数据进行异常检测。
可选的,目标隔离树的数量为多个;处理单元502,具体用于根据待检测数据与多个目标隔离树中各目标隔离树之间的路径长度,确定平均路径长度;并根据平均路径长度对待检测数据进行异常检测。
可选的,获取单元501,具体用于对获取的样本数据进行降维处理,以提取样本数据对应的多个样本深层隐式特征;并基于多个样本深层隐式特征对样本数据进行分割,确定目标分割超平面;再基于目标分割超平面对样本数据进行分割,得到目标隔离树。
可选的,获取单元501,具体用于从多个样本深层隐式特征中,分别选择多组样本特征集;其中,各组样本特征集中包括预设数量个样本深层隐式特征;针对各组样本特征集,根据样本特征集包括的样本深层隐式特征,确定样本特征集对应的分割超平面,并基于分割超平面对样本数据进行分割,得到第一样本子数据集和第二样本子数据集;根据多组第一样本子数据集和第二样本子数据集,确定目标分割超平面。
可选的,获取单元501,具体用于分别确定样本特征集包括的样本深层隐式特征中,各样本深层隐式特征对应的系数;针对各样本深层隐式特征,确定样本深层隐式特征对应的系数与样本深层隐式特征的取值之间的乘积,并计算乘积与样本深层隐式特征的取值对应的标准差之间的第一比值;根据各样本深层隐式特征对应的第一比值,确定样本特征集对应的分割超平面。
可选的,获取单元501,具体用于确定各样本深层隐式特征对应的第一比值之和;根据和与预设分割值之间的第一差值,确定样本特征集对应的分割超平面。
可选的,获取单元501,具体用于针对各组第一样本子数据集和第二样本子数据集,确定第一样本子数据集和第二样本子数据集,分别在对应的分割超平面上的第一样本超平面数据集和第二样本超平面数据集,并根据第一样本超平面数据集和第二样本超平面数据集,确定分割超平面对应的离散度变化值;根据多个分割超平面对应的离散度变化值,在多个分割超平面中确定目标分割超平面。
可选的,获取单元501,具体用于确定第一样本超平面数据集对应的第一标准差和第二样本超平面数据集对应的第二标准差之间的平均值;并确定样本数据在分割超平面上的样本超平面数据集对应的标准差;再根据标准差和平均值,确定分割超平面对应的离散度变化值。
可选的,获取单元501,具体用于确定标准差与平均值之间的第二差值;将第二差值与标准差的第二比值,确定为分割超平面对应的离散度变化值。
可选的,获取单元501,具体用于根据多个分割超平面对应的离散度变化值,在多个分割超平面中确定离散度变化值最大的分割超平面;将离散度变化值最大的分割超平面,确定为目标分割超平面。
可选的,处理单元502,具体用于通过降噪自动编码算法对待检测数据进行降维处理,得到待检测数据对应的编码结果;其中,待检测数据对应的编码结果为多个目标深层隐式特征。
本申请实施例提供的数据异常检测装置50,可以执行上述任一实施例中数据异常检测方法的技术方案,其实现原理以及有益效果与数据异常检测方法的实现原理及有益效果类似,可参见数据异常检测方法的实现原理及有益效果,此处不再进行赘述。
图6为本申请实施例提供的一种电子设备60的结构示意图,示例的,请参见图6所示,该电子设备60可以包括处理器601和存储器602;其中,
所述存储器602,用于存储计算机程序。
所述处理器601,用于读取所述存储器602存储的计算机程序,并根据所述存储器602中的计算机程序执行上述任一实施例中的数据异常检测方法的技术方案。
可选地,存储器602既可以是独立的,也可以跟处理器601集成在一起。当存储器602是独立于处理器601之外的器件时,电子设备60还可以包括:总线,用于连接存储器602和处理器601。
可选地,本实施例还包括:通信接口,该通信接口可以通过总线与处理器601连接。处理器601可以控制通信接口来实现上述电子设备60的获取和发送的功能。
本申请实施例所示的电子设备60,可以执行上述任一实施例中数据异常检测方法的技术方案,其实现原理以及有益效果与数据异常检测方法的实现原理及有益效果类似,可参见数据异常检测方法的实现原理及有益效果,此处不再进行赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述任一实施例中数据异常检测方法的技术方案,其实现原理以及有益效果与数据异常检测方法的实现原理及有益效果类似,可参见数据异常检测方法的实现原理及有益效果,此处不再进行赘述。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述任一实施例中数据异常检测方法的技术方案,其实现原理以及有益效果与数据异常检测方法的实现原理及有益效果类似,可参见数据异常检测方法的实现原理及有益效果,此处不再进行赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所展示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元展示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例方法的部分步骤。
应理解的是,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital SignalProcessor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (15)

1.一种数据异常检测方法,其特征在于,包括:
获取待检测数据;
对所述待检测数据进行降维处理,以提取所述待检测数据对应的多个目标深层隐式特征;
获取目标隔离树;其中,所述目标隔离树是基于样本数据对应的多个样本深层隐式特征训练的,且所述多个样本深层隐式特征与所述多个目标深层隐式特征相同;
根据所述待检测数据与所述目标隔离树之间的路径长度,对所述待检测数据进行异常检测。
2.根据权利要求1所述的方法,其特征在于,所述目标隔离树的数量为多个,所述根据所述待检测数据与所述目标隔离树之间的路径长度,对所述待检测数据进行异常检测,包括:
根据所述待检测数据与多个目标隔离树中各目标隔离树之间的路径长度,确定平均路径长度;
根据所述平均路径长度对所述待检测数据进行异常检测。
3.根据权利要求1或2所述的方法,其特征在于,所述获取目标隔离树,包括:
对获取的样本数据进行降维处理,以提取所述样本数据对应的多个样本深层隐式特征;
基于所述多个样本深层隐式特征对所述样本数据进行分割,确定目标分割超平面;
基于所述目标分割超平面对所述样本数据进行分割,得到所述目标隔离树。
4.根据权利要求3所述的方法,其特征在于,所述基于所述多个样本深层隐式特征对所述样本数据进行分割,确定目标分割超平面,包括:
从所述多个样本深层隐式特征中,分别选择多组样本特征集;其中,各组样本特征集中包括预设数量个样本深层隐式特征;
针对所述各组样本特征集,根据所述样本特征集包括的样本深层隐式特征,确定所述样本特征集对应的分割超平面,并基于所述分割超平面对所述样本数据进行分割,得到第一样本子数据集和第二样本子数据集;
根据多组第一样本子数据集和第二样本子数据集,确定所述目标分割超平面。
5.根据权利要求4所述的方法,其特征在于,所述根据所述样本特征集包括的样本深层隐式特征,确定所述样本特征集对应的分割超平面,包括:
分别确定所述样本特征集包括的样本深层隐式特征中,各样本深层隐式特征对应的系数;
针对所述各样本深层隐式特征,确定所述样本深层隐式特征对应的系数与所述样本深层隐式特征的取值之间的乘积,并计算所述乘积与所述样本深层隐式特征的取值对应的标准差之间的第一比值;
根据各样本深层隐式特征对应的第一比值,确定所述样本特征集对应的分割超平面。
6.根据权利要求5所述的方法,其特征在于,所述根据各样本深层隐式特征对应的第一比值,确定所述样本特征集对应的分割超平面,包括:
确定所述各样本深层隐式特征对应的第一比值之和;
根据所述和与预设分割值之间的第一差值,确定所述样本特征集对应的分割超平面。
7.根据权利要求4所述的方法,其特征在于,所述根据多组第一样本子数据集和第二样本子数据集,确定所述目标分割超平面,包括:
针对各组第一样本子数据集和第二样本子数据集,确定所述第一样本子数据集和所述第二样本子数据集,分别在对应的分割超平面上的第一样本超平面数据集和第二样本超平面数据集,并根据所述第一样本超平面数据集和所述第二样本超平面数据集,确定所述分割超平面对应的离散度变化值;
根据多个分割超平面对应的离散度变化值,在所述多个分割超平面中确定所述目标分割超平面。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一样本超平面数据集和所述第二样本超平面数据集,确定所述分割超平面对应的离散度变化值,包括:
确定第一样本超平面数据集对应的第一标准差和所述第二样本超平面数据集对应的第二标准差之间的平均值;
确定所述样本数据在所述分割超平面上的样本超平面数据集对应的标准差;
根据所述标准差和所述平均值,确定所述分割超平面对应的离散度变化值。
9.根据权利要求8所述的方法,其特征在于,所述根据所述标准差和所述平均值,确定所述分割超平面对应的离散度变化值,包括:
确定所述标准差与所述平均值之间的第二差值;
将所述第二差值与所述标准差的第二比值,确定为所述分割超平面对应的离散度变化值。
10.根据权利要求7所述的方法,其特征在于,所述根据多个分割超平面对应的离散度变化值,在所述多个分割超平面中确定所述目标分割超平面,包括:
根据多个分割超平面对应的离散度变化值,在所述多个分割超平面中确定离散度变化值最大的分割超平面;
将所述离散度变化值最大的分割超平面,确定为所述目标分割超平面。
11.根据权利要求1或2所述的方法,其特征在于,所述对所述待检测数据进行降维处理,以提取所述待检测数据对应的多个目标深层隐式特征,包括:
通过降噪自动编码算法对所述待检测数据进行降维处理,得到所述待检测数据对应的编码结果;其中,所述待检测数据对应的编码结果为所述多个目标深层隐式特征。
12.一种数据异常检测装置,其特征在于,包括:
获取单元,用于获取待检测数据;
处理单元,用于对所述待检测数据进行降维处理,以提取所述待检测数据对应的多个目标深层隐式特征;
所述获取单元,还用于获取目标隔离树;其中,所述目标隔离树是基于样本数据对应的多个样本深层隐式特征训练的,且所述多个样本深层隐式特征与所述多个目标深层隐式特征相同;
所述处理单元,还用于根据所述待检测数据与所述目标隔离树之间的路径长度,对所述待检测数据进行异常检测。
13.一种电子设备,其特征在于,包括处理器和存储器;其中,
所述存储器,用于存储计算机程序;
所述处理器,用于读取所述存储器存储的计算机程序,并根据所述存储器中的计算机程序执行上述权利要求1-11任一项所述的数据异常检测方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述权利要求1-11任一项所述的数据异常检测方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时,实现上述权利要求1-11任一项所述的数据异常检测方法。
CN202110496465.0A 2021-05-07 2021-05-07 数据异常检测方法、装置和电子设备 Pending CN113239999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110496465.0A CN113239999A (zh) 2021-05-07 2021-05-07 数据异常检测方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110496465.0A CN113239999A (zh) 2021-05-07 2021-05-07 数据异常检测方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN113239999A true CN113239999A (zh) 2021-08-10

Family

ID=77132615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110496465.0A Pending CN113239999A (zh) 2021-05-07 2021-05-07 数据异常检测方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113239999A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117538491A (zh) * 2024-01-09 2024-02-09 武汉怡特环保科技有限公司 一种站房空气质量智能监测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117538491A (zh) * 2024-01-09 2024-02-09 武汉怡特环保科技有限公司 一种站房空气质量智能监测方法及系统
CN117538491B (zh) * 2024-01-09 2024-04-05 武汉怡特环保科技有限公司 一种站房空气质量智能监测方法及系统

Similar Documents

Publication Publication Date Title
US8515956B2 (en) Method and system for clustering datasets
Taimori et al. A novel forensic image analysis tool for discovering double JPEG compression clues
CN109918498B (zh) 一种问题入库方法和装置
CN112468487B (zh) 实现模型训练的方法、装置、实现节点检测的方法及装置
CN109271957B (zh) 人脸性别识别方法以及装置
CN113807073B (zh) 文本内容异常检测方法、装置以及存储介质
CN116579618B (zh) 基于风险管理的数据处理方法、装置、设备及存储介质
CN114936168B (zh) 一种真实用户智能感知系统中的测试用例自动生成方法
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN109286622B (zh) 一种基于学习规则集的网络入侵检测方法
CN114445640A (zh) 基于描述子一致性约束的异源遥感图像块匹配方法及系统
CN105989173B (zh) 数据处理方法及装置
CN115392937A (zh) 一种用户欺诈风险识别方法、装置、电子设备及存储介质
CN115600194A (zh) 一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备
WO2023159760A1 (zh) 卷积神经网络模型剪枝方法和装置、电子设备、存储介质
CN113239999A (zh) 数据异常检测方法、装置和电子设备
CN109800815B (zh) 基于随机森林模型的训练方法、小麦识别方法和训练系统
CN111368128A (zh) 目标图片的识别方法、装置和计算机可读存储介质
CN114726634B (zh) 一种基于知识图谱的黑客攻击场景构建方法和设备
CN111797732B (zh) 一种对采样不敏感的视频动作识别对抗攻击方法
Blonder et al. Package ‘hypervolume’
CN111291370B (zh) 网络数据入侵检测方法、系统、终端及存储介质
CN111310176B (zh) 一种基于特征选择的入侵检测方法和装置
CN113836300A (zh) 日志分析方法、系统、设备及存储介质
CN112149566A (zh) 一种图像处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination