CN111666316A - 一种隔离分布核构建方法、异常数据检测方法及装置 - Google Patents

一种隔离分布核构建方法、异常数据检测方法及装置 Download PDF

Info

Publication number
CN111666316A
CN111666316A CN202010565100.4A CN202010565100A CN111666316A CN 111666316 A CN111666316 A CN 111666316A CN 202010565100 A CN202010565100 A CN 202010565100A CN 111666316 A CN111666316 A CN 111666316A
Authority
CN
China
Prior art keywords
isolated
data
kernel
points
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010565100.4A
Other languages
English (en)
Other versions
CN111666316B (zh
Inventor
陈开明
徐碧村
鷲尾隆
周志华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010565100.4A priority Critical patent/CN111666316B/zh
Publication of CN111666316A publication Critical patent/CN111666316A/zh
Priority to PCT/CN2021/100478 priority patent/WO2021254413A1/zh
Application granted granted Critical
Publication of CN111666316B publication Critical patent/CN111666316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种隔离分布核构建方法、异常数据检测方法及装置,属于机器学习和数据挖掘技术领域。采用的新的隔离分布核,给定一个数据集,将输入空间划分为隔离分区:每个分区将一个点与训练集中的其余点隔离。在执行点异常检测时,隔离分布核被用于测量点与给定数据集之间的相似性,似度最低的点被视为点异常,为了检测群数据集中的群异常,在两个层级使用隔离分布核,在第一级,将输入空间中数据集中的每个群都映射到希尔伯特空间一个点,在第二级,使用IDK测量希尔伯特空间映射后的点和点集之间的相似性,希尔伯特空间点异常为对应输入空间中群异常,隔离分布核实现有限维度的特征映射,从而加快运行效率,并且利用数据分布提高相似性精度。

Description

一种隔离分布核构建方法、异常数据检测方法及装置
技术领域
本发明涉及机器学习和数据挖掘技术领域,更具体地说,涉及一种隔离分布核构建方法、异常数据检测方法及装置。
背景技术
在现有的异常数据检测的应用中,由于使用了具有无限维度特征映射的数据独立内核,OCSVM的运行速度比基于树的异常检测器iForest慢几个数量级,并且检测精度也较弱。在集群的背景下,最新的可伸缩内核k-means必须使用超级计算机的特殊硬件来处理数百万个数据点的数据集,然而这是一种缓解方法,没有从根本上解决时间复杂度高的问题。
加速基于内核的算法的一种重要方法是内核函数的逼近,其目的是产生用户可控制的有限数量的代理特征,以逼近具有无穷维特征映射的所选非线性内核函数。成功的方法有如下两种:(1)
Figure BDA0002547369900000011
嵌入方法,该方法使用给定数据集中的样本点构造低秩r矩阵,并得出代理特征数据的矢量表示;(2)基于傅立叶变换推导随机特征,与给定数据集无关。两种方法均使用代理特征生成所选非线性内核的近似特征映射,这些特征旨在用作线性学习算法的输入,这一类算法可以高效运行以处理大规模数据集,但是由于使用近似特征映射,因此牺牲了计算精度。
简而言之,现有的内核函数的逼近方法有两个关键问题。首先,近似特征映射可以达到的最佳精度低于所选数据独立内核的精度,而且数据独立的内核已被证明比与数据相关的内核效果更差。其次,当前的内核函数近似方法不适用于没有函数形式的数据相关内核。
目前来说,基于内核的异常检测算法最先进的两种算法是OCSVM(One-ClassSupport Vector Machines)和OCSMM(One-Class Support MeasureMachines),OCSVM是用于点异常检测的一类支持向量机,OCSMM是用于群异常检测的一类支持向量机。尽管基于核的算法很有潜力,但是计算一个给定的n个数据点的数据集中的所有点对,其时间复杂度为O(n2),所需的时间成本较高,导致该类算法的发展受到了阻碍。基于上述原因,OCSVM和OCSMM都无法处理大规模的数据集。
发明内容
1.要解决的技术问题
针对现有技术中存在的相似性度量与数据分布无关造成精度过低并且运行速度缓慢的问题,本发明提供了一种隔离分布核构建方法、异常数据检测方法及装置,它可以实现有限维度的特征映射,从而加快运行效率,并且利用数据分布提高相似性精度。
2.技术方案
本发明的目的通过以下技术方案实现。
一种隔离分布核构建方法,从给定数据集中产生隔离分布核,包括如下步骤:
使用隔离空间划分机制从给定数据集D中产生t个空间划分W∈Vψ(D),
Figure BDA0002547369900000021
Figure BDA0002547369900000022
每一个划分Wi(partitioning)都有固定数量ψ个隔离分区
Figure BDA0002547369900000023
我们使用一种现有的,称为iNNE(Isolation by Nearest Neighbor Ensemble)的空间划分机制,不过它作为隔离内核特征映射Φ(·|D)是新提出的,图2展示了隔离分区为超球的例子,Vψ(D)用于产生隔离内核的特征映射Φ(·|D);
从给定数据集D中产生隔离内核的特征映射Φ(·|D);
定义隔离内核:
Figure BDA0002547369900000024
其中,κI点内核衡量数据集中两个数据点x,y的相似度。
给定S是分布PS中的一个样例数据;
隔离内核具体定义方式为:给定一个空间划分Wi,令Φi(x|D)为一个ψ维二进制列向量来表征所有超球θj∈Wi,j∈1,…,ψ,其中x落入ψ超球之一或都不落入,向量的j分量为:Φij(x|D)=1(x∈θjj∈Wi),给定t个分区,Φ(x|D)是隔离内核的特征映射,是Φ1(x|D),…Φi(x|D),…,Φt(x|D)的串联。其中,1(·)为指示函数:1(B)=1如果B=true;除此以外1(B)=0。
定义隔离内核的特征映射:对于输入空间中数据点x,κI的特征映射Φ:x→{0,1}t×ψ,是一个表征所有划分Wi∈Vψ(D),i=1,…,t的向量,在每个分区Wi中,x落入ψ超球之一或都不落入。
于是隔离分布核的特征映射
Figure BDA0002547369900000025
可衍生为:
Figure BDA0002547369900000026
定义隔离分布核:
Figure BDA0002547369900000027
T是分布PT中的一个样例数据。
将其用于点异常检测时,隔离分布核用来测量给定数据集的每一个点x∈D和数据集D的相似性,如下所示:
Figure BDA0002547369900000028
将其用于群异常检测时,如上所述,针对给定的数据集
Figure BDA0002547369900000031
进行了两个级别的隔离分布核映射,其中Ti是一组点集,于是,Ti和D之间相似性的计算如下:
Figure BDA0002547369900000032
其中,
Figure BDA0002547369900000033
DH是所有点的集合z∈DH,
Figure BDA0002547369900000034
是产生DH的分布。
一种异常数据检测方法,包括如下步骤:
映射输入空间中数据点x∈D到希尔伯特空间;
采用上述所述的一种隔离内核构建方法生成隔离分布核;
衡量该数据点与整个数据集相似度;
根据相似度排序找出异常点。
更进一步的,所述的相似性检测即计算
Figure BDA0002547369900000035
如果x~PD,那么
Figure BDA0002547369900000036
大或趋于1,x为PD的一部分概率越大;
如果
Figure BDA00025473699000000330
那么
Figure BDA0002547369900000037
小或趋于0,为PD的一部分概率越小;
其中δ(x)是x的狄拉克度量函数。
Figure BDA0002547369900000038
用于排列D数据集中的不同点,取前m个点,视作异常。
一种异常数据检测方法,包括如下步骤:
对输入空间中数据群
Figure BDA0002547369900000039
中每个群
Figure BDA00025473699000000310
映射到一级希尔伯特空间中的点
Figure BDA00025473699000000311
一级希尔伯特空间的整个数据集表示为
Figure BDA00025473699000000312
映射一级希尔伯特空间的点z到二级希尔伯特空间的点
Figure BDA00025473699000000313
映射一级希尔伯特空间的数据集
Figure BDA00025473699000000314
到二级希尔伯特空间的点
Figure BDA00025473699000000315
衡量二级希尔伯特空间的
Figure BDA00025473699000000316
Figure BDA00025473699000000317
的相似度
Figure BDA00025473699000000318
更进一步的,在第一和第二级的希尔伯特空间分别使用两层的隔离分布核映射
Figure BDA00025473699000000319
Figure BDA00025473699000000320
一级隔离分布核将输入空间中的每个群
Figure BDA00025473699000000321
映射到希尔伯特空间中的一个点
Figure BDA00025473699000000322
一级希尔伯特空间的整个数据集表示为
Figure BDA00025473699000000323
二级映射方式为,一级希尔伯特空间中数据点z∈DH到二级希尔伯特空间点
Figure BDA00025473699000000324
的转换,其中,
Figure BDA00025473699000000325
是二级隔离分布核的特征映射,它也将一级希尔伯特空间中的数据集DH映射到希尔伯特空间中的点
Figure BDA00025473699000000326
二级隔离分布核使用
Figure BDA00025473699000000327
度量一级希尔伯特空间中δ(z)相比数据集的分布
Figure BDA00025473699000000328
的相似性。
Figure BDA00025473699000000329
用于排列DH数据集中的不同点,取前m个点,视作异常,这些点对应于输入空间中的群T∈D。
一种隔离分布核构建装置,包括,
空间划分模块,使用隔离空间划分机制从给定数据集D中产生不同划分
Figure BDA0002547369900000041
确定点内核模块,根据空间划分Vψ(D)产生隔离内核的特征映射Φ(·|D);
确定分布核模块,根据隔离内核的特征映射定义隔离分布核的特征映射
Figure BDA0002547369900000042
一种异常数据检测装置,包括,
映射模块,映射输入空间数据点到希尔伯特空间;
生成模块,生成隔离分布核,采用上述隔离内核构建方法进行构建;
异常检测模块,衡量输入空间中的数据点与整个数据集相似度,根据相似度排序找出异常点。
一种异常数据检测装置,包括,
映射模块,映射输入空间数据集中每个群到一级希尔伯特空间生成相应的点;以及二级映射一级希尔伯特空间中的点及数据集到二级希尔伯特空间;
生成模块,生成隔离分布核,采用上述隔离内核构建方法进行构建;
异常检测模块,衡量一级希尔伯特空间的数据点与整个数据集相似度,对应二级希尔伯特空间中的两点,根据相似度排序找出输入空间中对应的异常群。
更进一步的,异常检测模块,相似性检测根据参数计算,计算一级希尔伯特空间的数据点与整个数据集的相似度,根据相似度排序获得对应输入空间中异常数据群。
一种隔离分布核构建设备,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
使用隔离空间划分机制从给定数据集D中产生t个空间划分
Figure BDA0002547369900000043
根据空间划分产生隔离内核的特征映射Φ(·|D);
定义隔离内核;
根据隔离内核,定义隔离分布核及隔离分布核的特征映射
Figure BDA0002547369900000044
一种异常数据检测设备,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
映射数据点x∈D到希尔伯特空间;
采用上述隔离内核构建方法生成隔离分布核;
衡量该数据点与整个数据集相似度;
根据相似度排序找出异常点。
一种异常数据检测设备,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
采用上述隔离内核构建方法生成一级隔离分布核映射;
对输入空间中数据群
Figure BDA0002547369900000051
中每个群映射到一级希尔伯特空间中的点;
使用映射后的点,采用上述隔离内核构建方法生成对应的二级隔离分布核映射;
映射一级希尔伯特空间中的点及数据集到二级希尔伯特空间中的点;
衡量一级希尔伯特空间的数据点与整个数据集,即与对应二级希尔伯特空间中的两点相似度;
根据相似度排序找出输入空间中对应的异常群。
3.有益效果
相比于现有技术,本发明的优点在于:
本方案采用的新的隔离分布核,采用的内核可以实现有限维度的特征映射,从而加快运行效率,并且利用数据分布提高相似性精度。核函数可以直接用于数据点的排序,与OCSVM不同,不需要额外的学习,对比与现有技术的OCSVM需要计算所有点对的相似性这需要花费O(n2),具有时间复杂度O(n),因为它避免了计算D中所有点对的需要,时间复杂度大大降低,本方案的IDK可检测出OCSVM可能漏掉的异常,如内部点异常,且本方案的IDK可以利用两个层级来使用,针对于群异常进行检测,OCSVM和OCSMM需要一个支持向量机学习框架,OCSMM还需要使用分布核,直接利用核相似度对点异常和群异常进行检测是IDK和IDK2的独特之处,也使得这两种算法简单,不需要显式学习。
附图说明
图1为本发明的基于数据分布的异常检测方法的整体流程示意图;
图2为隔离内核的特征映射Φ,一个空间划分(t=1)有三个超球,作为三个隔离分区,输入空间中的每个点都将转换为希尔伯特空间中的一个点的示意图;
图3为隔离分布核的特征映射
Figure BDA0002547369900000052
从输入空间中多组数据集T~PT至希尔伯特空间中的点的转换;
图4为点异常检测时我们的方法与其他三个最先进的方法比较示意图;
图5为群异常检测时我们的方法与其他五个最先进的方法比较示意图。
具体实施方式
下面结合说明书附图和具体的实施例,对本发明作详细描述。
本方案的异常检测方法使用分布核不仅可以解决面向分布的问题,例如群异常检测问题,还可以解决现有的面向点的问题,这有许多未开发的机会。在解决数据集的数据异常问题时,现有的解决方式大多选择面向点的算法,该类算法的特征是采用点对点的距离或内核函数,很少选择面向分布的算法来解决数据异常问题,之所以出现这种情况,是由于只有点对点距离函数或内核函数可供使用,而缺乏实用的面向分布的核函数。只要可以解决上述两个问题,实用的分布核就有可能更有效地解决许多问题。
本发明的一个实施例提供了一种测量两个分布之间相似性的新型分布核的构建方法,用于直接从数据集中导出适应给定数据集数据分布的度量,而无需学习。另外,该分布核利用隔离内核。后者具有独特的,定义明确的数据相关属性:稀疏区域中的两个点比密集区域中相等点间距离的两个点更相似。利用该核函数,可以有效识别出数据中的异常点。
如图1所示,该方法用于检测数据集中的点异常和群异常。创新点是提出了一种新的分布核,称为隔离分布核(IDK),它测量两个分布间的相似性,并直接从数据集中导出。
给定一个数据集,该方法使用一种称为隔离空间划分机制,将输入空间划分为隔离分区:每个隔离分区将一个点与训练集中的其余点隔离。这些隔离分区用于派生IDK的特征映射。
在执行点异常检测时,IDK(通过其特征映射)被用于测量点与给定数据集之间的相似性。相似度最低的点被视为点异常。
为了检测群(由点组成)数据集中的群异常,在两个层级使用IDK。在第一级,将数据集中的每个群都映射到希尔伯特空间。在第二级,使用IDK测量映射后的点和给定数据集之间的相似性(两者都在希尔伯特空间中)。群异常为二级点异常。
一般的核平均嵌入,定义了分布核
Figure BDA0002547369900000061
它衡量两个分布PS和PT之间的相似度,如下所示:
Figure BDA0002547369900000062
其中κ,即点内核,用于衡量数据集内数据点x,y的相似性,例如高斯核;S是分布PS中的一个样例数据,T是分布PT中的一个样例数据。
下面将高斯核的分布核表示为GDK,如果S和T有m个数据点,则
Figure BDA0002547369900000063
的时间复杂度为O(m2)。
给定一个数据独立的点核κ有着无穷维度的特征映射,可以使用Nystrom算法来近似出有限维度的特征映射
Figure BDA0002547369900000064
Figure BDA0002547369900000065
在这种近似下,方程(1)可以重写为:
Figure BDA0002547369900000066
其中
Figure BDA0002547369900000067
Figure BDA0002547369900000068
映射输入空间x到希尔伯特空间。
如果S和T有着m个数据点,方程(2)可以用O(m)来计算,因为S和T可以用O(m)来计算;且
Figure BDA0002547369900000069
可以用O(m)来计算内积。使用Nystrom算法的缺点是它产生的是一个近似值。对于使用这种分布核的算法,通常会产生不太理想的绩效结果。所述高斯核的分布核表示为GDK的结果不会太优秀。
我们创建了一个新的分布核,称为隔离分布核IDK。隔离分布核IDK的构建具体包括如下步骤:
使用隔离空间划分机制从给定数据集D中产生t个空间划分W∈Vψ(D),
Figure BDA0002547369900000071
Figure BDA0002547369900000072
每一个划分Wi(partitioning)都有固定数量ψ个隔离分区
Figure BDA0002547369900000073
我们使用一种现有的,称为iNNE(Isolation by Nearest Neighbor Ensemble)的空间划分机制,不过它作为隔离内核特征映射Φ(·|D)是新提出的,图2展示了隔离分区为超球的例子,Vψ(D)用于产生隔离内核的特征映射Φ(·|D);
从给定数据集D中产生隔离内核的特征映射Φ(·|D);
定义隔离内核:和高斯核不同,隔离内核κI有一个精确的有限维度的特征映射:
Figure BDA0002547369900000074
其中,κI点内核衡量数据集中两个数据点x,y的相似度。
隔离内核具体定义方式为:给定一个空间划分Wi,令Φi(x|D)为一个ψ维二进制列向量来表征所有超球θj∈Wi,j∈1,…,ψ,其中x落入ψ超球之一或都不落入,向量的j分量为:Φij(x|D)=1(x∈θjj∈Wi),给定t个分区,Φ(x|D)是隔离内核的特征映射,是Φ1(x|D),…Φi(x|D),…,Φt(x|D)的串联。其中,1(·)为指示函数:1(B)=1如果B=true;除此以外1(B)=0。
定义隔离内核的特征映射:对于输入空间中数据点x,κI的特征映射Φ:x→{0,1}t×ψ,是一个表征所有划分Wi∈Vψ(D),i=1,…,t的向量,在每个分区Wi中,x落入ψ超球之一或都不落入,即
Figure BDA0002547369900000075
实际上,κI(x,y|D)从t个划分Wi得出定义:
Figure BDA0002547369900000076
在公式(1)中,使用κI代替κ得出隔离核分布核定义:
Figure BDA0002547369900000081
则隔离分布核IDK可以表示为:
Figure BDA0002547369900000082
其中
Figure BDA0002547369900000083
Φ(x|D)映射输入空间x到希尔伯特空间。
这种采用隔离核的分布核称为IDK,区别于一般的分布核GDK,方程(3)可以用O(m)计算并产生精确的相似性度量,而不牺牲使用该分布核的算法的特定任务性能。
采用上述构建的隔离分布核IDK可以对点异常和群异常进行检测,具体如下,
点异常检测,使用所创建的分布核函数对每个数据点进行异常检测,衡量该数据点与整个数据分布的相似性。即计算
Figure BDA0002547369900000084
步骤如下,映射输入空间中数据点x∈D到希尔伯特空间;
采用上述所述的一种隔离内核构建方法生成隔离分布核;
衡量该数据点与整个数据集相似度;
根据相似度排序找出异常点。
利用分布核
Figure BDA0002547369900000085
对由概率分布PD生成的数据集D进行点异常检测的直观理解如下:
如果x~PD,那么
Figure BDA0002547369900000086
大或趋于1,这可以解释为x很可能是PD的一部分。
如果
Figure BDA00025473699000000811
那么
Figure BDA0002547369900000087
小或趋于0,这可以解释为x不太可能是PD的一部分。
其中δ(x)是x的狄拉克度量函数。
因此,
Figure BDA0002547369900000088
可用于排列D数据集中的不同点,然后取前m个点,视作异常。
如图4所示,在14个数据集中,我们将所提出的方法与其他三个最先进的方法比较,得出我们的方法准确率最好。
与现有的基于核的算法(如OCSVM)相比,使用分布核进行点异常检测有三个优点:
(i)相似性
Figure BDA0002547369900000089
可以直接用于数据点的排序,与OCSVM不同,不需要额外的学习;
(ii)
Figure BDA00025473699000000810
具有时间复杂度O(n),因为它避免了计算D中所有点对的需要。由于OCSVM需要计算所有点对的相似性,即κ(x,y),这需要花费O(n2)。
(iii)由于OCSVM使用了与数据独立的核函数,依赖于数据的IDK可检测出OCSVM可能漏掉的异常,如内部点异常(local anomalies)。
到目前为止,点异常一直被看作是一个基于点的问题,现有的点异常检测器都是基于点的算法。而我们提出异常检测是前所未有的基于分布的方法。对应的时间复杂度大大降低,效率更高,且可以应用于大规模的数据集。
在进行群异常时候,群异常检测,群异常检测:OCSMM扩展了OCSVM(处理点异常)的思想,在同一个学习过程中用分布核代替点核来检测群异常。
我们提出一种检测群异常的替代方法,将输入空间中群异常的检测问题设定为希尔伯特空间中的点异常检测问题;然后利用上述基于IDK的点异常检测器检测希尔伯特空间中的点异常,相当于检测输入空间中相应的群异常。
如图3,说明了从输入空间中多组T~PT的数据集D到希尔伯特空间中DH的点
Figure BDA0002547369900000091
的转换,其中,
Figure BDA0002547369900000092
是IDK(方程(3))的特征映射,它将输入空间中的每个群T(由分布PT生成)映射到希尔伯特空间中的点
Figure BDA0002547369900000093
由于T和S是由不同的分布生成的,它们将被映射到希尔伯特空间的不同区域。然后将基于IDK的点异常检测器应用于DH中,检测希尔伯特空间中的点异常。
具体的步骤如下,
对输入空间中数据群
Figure BDA0002547369900000094
中每个群
Figure BDA0002547369900000095
映射到一级希尔伯特空间中的点
Figure BDA0002547369900000096
一级希尔伯特空间的整个数据集表示为
Figure BDA0002547369900000097
映射一级希尔伯特空间的点z到二级希尔伯特空间的点
Figure BDA0002547369900000098
映射一级希尔伯特空间的数据集
Figure BDA0002547369900000099
到二级希尔伯特空间的点
Figure BDA00025473699000000910
衡量二级希尔伯特空间的
Figure BDA00025473699000000911
Figure BDA00025473699000000912
的相似度
Figure BDA00025473699000000913
更进一步的,在第一和第二级的希尔伯特空间分别使用两层的隔离分布核映射
Figure BDA00025473699000000914
Figure BDA00025473699000000915
一级隔离分布核将输入空间中的每个群
Figure BDA00025473699000000916
映射到希尔伯特空间中的一个点
Figure BDA00025473699000000917
一级希尔伯特空间的整个数据集表示为
Figure BDA00025473699000000918
二级映射方式为,一级希尔伯特空间中数据点z∈DH到二级希尔伯特空间点
Figure BDA00025473699000000919
的转换,其中,
Figure BDA00025473699000000920
是二级隔离分布核的特征映射,它也将一级希尔伯特空间中的数据集DH映射到希尔伯特空间中的点
Figure BDA00025473699000000921
二级隔离分布核使用
Figure BDA00025473699000000922
度量一级希尔伯特空间中δ(z)相比数据集的分布
Figure BDA00025473699000000923
的相似性。
Figure BDA00025473699000000924
用于排列DH数据集中的不同点,取前m个点,视作异常,这些点对应于输入空间中的群T∈D。
群异常检测器使用的是IDK2,因为它在两个层级使用IDK:
一级IDK将输入空间中的每个群映射到一级希尔伯特空间中的一个点
Figure BDA00025473699000000925
一级希尔伯特空间中的整个数据集表示为DH
二级IDK使用
Figure BDA0002547369900000101
度量一级希尔伯特空间中δ(z)相比数据集的分布
Figure BDA0002547369900000102
的相似性。换一种说法,一级希尔伯特空间中每个点z∈DH与DH相似性量级最小的点即为点异常。它们等价于输入空间中的群异常。
如图5所示,在11个数据集中,我们将所提出的方法,相较于其他五个最先进的方法,准确率最高。
上述IDK相对于OCSVM的三个优点,也适用于IDK2相对于OCSMM的群异常检测。值得注意的是,直接利用核相似度对点异常和群异常进行检测是IDK和IDK2的独特之处,也使得这两种算法简单,不需要显式学习。相比之下,OCSVM和OCSMM需要一个支持向量机学习框架(此外,OCSMM还需要使用分布核)。
采用本方案的方法可以在现有技术的系统中给出更好的技术度,US20160182552A1中采用的异常检测模块基于混合分布。US9514387B2中采用了统计检验(即ANOVA分析和Turkey HSD检验法)。US20200118135A1与CN107992741A中采用的是隔离林。我们所发明的内核方法IDK可以轻易替换上述每一个模块,并预计以更高检测精度在这些系统中执行任务。
在公开号US20160182552A1的美国专利技术中,对应的方式为,实现根据端点通信中的异常行为来识别网络上潜在威胁的方法,系统和计算机可读介质。各方面来看,网络上的流量数据是在一段时间内累积的。将数据按一个或多个键分组,并计算这些键的多组度量值。将混合分布拟合到每组度量值上,并根据混合分布确定外围度量值。通过一组或多组度量值中具有离群度量值的键值,得到一系列异常数据。
在公开号US20200118135A1的美国专利技术中,实现对机器学习系统中的输入变量执行数据质量检查的系统和方法。一个典型方法为根据长期变量(LTV)的值和该长期变量在确定的区间内的历史值,计算与该长期变量(LTV)相关的第一个矩;并根据LTV的值和LTV在定义区间内的历史值,计算与LTV相关的第二矩。基于矩对,进行隔离林分析。当LTV的检查值与LTV的值不同时,以及/或当隔离林分析表明计算的矩对是异常时,LTV中会生成一个标志。
在公开号US9514387B2的美国专利技术中,实现一种用于监视和分析广泛分布式服务的系统,该系统由基础设施即服务(IaaS)租户操作,但部署在一组虚拟资源上,由IaaS独立供应商控制。虚拟资源集可被整合为集群,其中资源的行为理应彼此相似。那么行为与同一集群内对等资源不同的虚拟资源,比如说:异常值,就可能指向了问题所在。监视系统可从虚拟资源中收集性能指标数据,并在集群中将每个虚拟资源的性能与其他虚拟资源的性能进行一一比较来检测异常值。这种比较可能涉及相关性分析,ANOVA分析或回归分析。
在公开号CN107992741A的中国专利技术中,实现一种模型训练方法、检测URL的方法及装置。在本说明书实施例中,获取若干URL,确定每个URL中的参数,并得到每个参数对应的特征向量,然后根据各参数分别对应的特征向量,构建隔离森林模型。
上述每个系统都包含一个异常检测模块,该模块是检测各系统中异常的关键。在完成相同异常检测模块的任务时,使用本发明(代替已有异常检测模块)有望在这些系统中产生更好的检测精度,正如我们已给出的实验结果所示。
具体的针对于装置的描述,本实施例参考对应的软件和方法内容就可以进行相应的硬件实现;构建相应的装置和设备;
如针对于隔离分布核的构建设计的装置,一种隔离分布核构建装置,包括,
空间划分模块,使用隔离空间划分机制从给定数据集D中产生不同划分
Figure BDA0002547369900000111
确定点内核模块,根据空间划分Vψ(D)产生隔离内核的特征映射Φ(·|D);
确定分布核模块,根据隔离内核的特征映射定义隔离分布核的特征映射
Figure BDA0002547369900000112
针对于点异常检测设置的装置,一种异常数据检测装置,包括,
映射模块,映射输入空间数据点到希尔伯特空间;
生成模块,生成隔离分布核,采用上述隔离内核构建方法进行构建;
异常检测模块,衡量输入空间中的数据点与整个数据集相似度,根据相似度排序找出异常点。
针对于群异常检测设置的装置,一种异常数据检测装置,包括,
映射模块,映射输入空间数据集中每个群到一级希尔伯特空间生成相应的点;以及二级映射一级希尔伯特空间中的点及数据集到二级希尔伯特空间;
生成模块,生成隔离分布核,采用上述隔离内核构建方法进行构建;
异常检测模块,衡量一级希尔伯特空间的数据点与整个数据集相似度,对应二级希尔伯特空间中的两点,根据相似度排序找出输入空间中对应的异常群。
更进一步的,异常检测模块,相似性检测根据参数计算,计算一级希尔伯特空间的数据点与整个数据集的相似度,根据相似度排序获得对应输入空间中异常数据群。
针对于隔离分布核的构建设计的设备,可以是一种硬件设备,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
使用隔离空间划分机制从给定数据集D中产生t个空间划分
Figure BDA0002547369900000113
根据空间划分产生隔离内核的特征映射Φ(·|D);
定义隔离内核;
根据隔离内核,定义隔离分布核及隔离分布核的特征映射
Figure BDA0002547369900000121
针对于点异常数据检测设计的设备,可以是一种硬件设备,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
映射数据点x∈D到希尔伯特空间;
采用上述隔离内核构建方法生成隔离分布核;
衡量该数据点与整个数据集相似度;
根据相似度排序找出异常点。
针对于群异常数据检测设计的设备,可以是一种硬件设备,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
采用上述隔离内核构建方法生成一级隔离分布核映射;
对输入空间中数据群
Figure BDA0002547369900000122
中每个群映射到一级希尔伯特空间中的点;
使用映射后的点,采用上述隔离内核构建方法生成对应的二级隔离分布核映射;
映射一级希尔伯特空间中的点及数据集到二级希尔伯特空间中的点;
衡量一级希尔伯特空间的数据点与整个数据集,即与对应二级希尔伯特空间中的两点相似度;
根据相似度排序找出输入空间中对应的异常群。
具体的如何实现设备的实现,在现有技术上可以实现,再次不多做具体的阐述,下文从原理上解释对应的实现的可能性。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。
设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field ProgrammableGateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ATMEL AT89S52、microchip pic16c57存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字符多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

Claims (13)

1.一种隔离分布核构建方法,包括如下步骤:
使用隔离空间划分机制从给定数据集D中产生t个空间划分W∈Vψ(D);
根据空间划分Vψ(D)产生隔离内核的特征映射Φ(·|D);
定义隔离内核;
根据隔离内核,定义隔离分布核及隔离分布核的特征映射。
2.根据权利要求1所述的一种隔离分布核构建方法,具体包括如下步骤:
使用隔离空间划分机制从给定数据集D中产生t个空间划分Wi∈Vψ(D),
Figure FDA0002547369890000011
Figure FDA0002547369890000012
每一个划分Wi都有固定数量ψ个隔离分区θj
Figure FDA0002547369890000013
Vψ(D)用于产生隔离内核的特征映射Φ(·|D);
根据空间划分产生隔离内核的特征映射Φ(·|D);
定义隔离内核:
Figure FDA0002547369890000014
其中,κI点内核衡量数据集中两个数据点x,y的相似度;
给定S是分布PS中的一个样例数据,隔离分布核的特征映射
Figure FDA0002547369890000015
定义隔离分布核:
Figure FDA0002547369890000016
T是分布PT中的一个样例数据。
3.一种异常数据检测方法,包括如下步骤:
映射输入空间中数据点x∈D到希尔伯特空间;
采用权利要求1或2所述的方法生成隔离分布核;
衡量该数据点与整个数据集相似度;
根据相似度排序找出异常点。
4.根据权利要求3所述的一种异常数据检测方法,其特征在于:
所述的相似性检测即计算
Figure FDA0002547369890000017
如果x~PD,那么
Figure FDA0002547369890000018
大或趋于1,越接近于1,x是PD的一部分概率越大;
如果
Figure FDA0002547369890000019
那么
Figure FDA00025473698900000110
小或趋于0,越接近于0,x是PD的一部分概率越小;
其中δ(x)是x的狄拉克度量函数;
Figure FDA00025473698900000111
用于排列D数据集中的不同点,取前m个点,视作异常。
5.一种异常数据检测方法,包括如下步骤:
对输入空间中数据群
Figure FDA0002547369890000021
中每个群T~PT映射到一级希尔伯特空间中的点
Figure FDA0002547369890000022
一级希尔伯特空间的整个数据集表示为DH
映射一级希尔伯特空间的点z到二级希尔伯特空间的点
Figure FDA0002547369890000023
映射一级希尔伯特空间的数据集
Figure FDA0002547369890000024
到二级希尔伯特空间的点
Figure FDA0002547369890000025
衡量二级希尔伯特空间的
Figure FDA0002547369890000026
Figure FDA0002547369890000027
的相似度
Figure FDA0002547369890000028
根据相似度排序找出尔伯特空间的异常点,为对应输入空间中异常群。
6.根据权利要求5所述的一种异常数据检测方法,其特征在于:
在第一和第二级的希尔伯特空间分别使用两层的隔离分布核映射
Figure FDA0002547369890000029
Figure FDA00025473698900000210
一级隔离分布核将输入空间中的每个群T~PT映射到希尔伯特空间中的一个点
Figure FDA00025473698900000211
一级希尔伯特空间的整个数据集表示为DH
二级映射方式为,一级希尔伯特空间中数据点z∈DH到二级希尔伯特空间点
Figure FDA00025473698900000212
的转换,其中,
Figure FDA00025473698900000213
是二级隔离分布核的特征映射,它也将一级希尔伯特空间中的数据集DH映射到希尔伯特空间中的点
Figure FDA00025473698900000214
二级隔离分布核使用
Figure FDA00025473698900000215
度量一级希尔伯特空间中δ(z)相比数据集的分布
Figure FDA00025473698900000216
的相似性。
7.一种隔离分布核构建装置,其特征在于,包括,
空间划分模块,使用隔离空间划分机制从给定数据集D中产生不同划分
Figure FDA00025473698900000217
确定点内核模块,根据空间划分Vψ(D)产生隔离内核的特征映射Φ(·|D);
确定分布核模块,根据点内核定义隔离分布核
Figure FDA00025473698900000218
8.一种异常数据检测装置,其特征在于,包括,
映射模块,映射数据点到希尔伯特空间;
生成模块,生成隔离分布核,采用权利要求1或2所述的方法进行构建;
异常检测模块,衡量输入空间中的数据点与整个数据集相似度,根据相似度排序找出异常点。
9.一种异常数据检测装置,其特征在于,包括,
映射模块,映射数据集中每个群到希尔伯特空间生成相应的点;以及二级映射一级希尔伯特空间中的点及数据集到二级希尔伯特空间;
生成模块,生成隔离分布核,采用权利要求1或2所述的方法进行构建;
异常检测模块,衡量一级希尔伯特空间的数据点与整个数据集相似度,对应二级希尔伯特空间中的两点,根据相似度排序找出输入空间中对应的异常群。
10.根据权利要求9所述的一种异常数据检测装置,其特征在于,
异常检测模块,相似性检测根据参数计算,计算一级希尔伯特空间的数据点与整个数据集的相似度,根据相似度排序获得对应输入空间中异常数据群。
11.一种隔离分布核构建设备,其特征在于,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
使用隔离空间划分机制从给定数据集D中产生t个空间划分
Figure FDA0002547369890000031
根据空间划分产生隔离内核的特征映射Φ(·|D);
定义隔离内核;
根据隔离内核,定义隔离分布核及隔离分布核的特征映射。
12.一种异常数据检测设备,其特征在于,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
映射数据点x∈D到希尔伯特空间;
采用权利要求1或2所述的方法生成隔离分布核;
衡量该数据点与整个数据集相似度;
根据相似度排序找出异常点。
13.一种异常数据检测设备,其特征在于,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
采用权利要求1或2所述的方法生成一级隔离分布核映射;
对输入空间中数据群
Figure FDA0002547369890000032
中每个群映射到一级希尔伯特空间中的点;
使用映射后的点,采用权利要求1或2所述的方法生成对应的二级隔离分布核映射;
映射一级希尔伯特空间中的点及数据集到二级希尔伯特空间中的点;
衡量一级希尔伯特空间的数据点与整个数据集,即与对应二级希尔伯特空间中的两点相似度;
根据相似度排序找出输入空间中对应的异常群。
CN202010565100.4A 2020-06-19 2020-06-19 一种隔离分布核构建方法、异常数据检测方法及装置 Active CN111666316B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010565100.4A CN111666316B (zh) 2020-06-19 2020-06-19 一种隔离分布核构建方法、异常数据检测方法及装置
PCT/CN2021/100478 WO2021254413A1 (zh) 2020-06-19 2021-06-17 一种隔离分布核构建方法、异常数据检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010565100.4A CN111666316B (zh) 2020-06-19 2020-06-19 一种隔离分布核构建方法、异常数据检测方法及装置

Publications (2)

Publication Number Publication Date
CN111666316A true CN111666316A (zh) 2020-09-15
CN111666316B CN111666316B (zh) 2023-09-15

Family

ID=72388424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010565100.4A Active CN111666316B (zh) 2020-06-19 2020-06-19 一种隔离分布核构建方法、异常数据检测方法及装置

Country Status (2)

Country Link
CN (1) CN111666316B (zh)
WO (1) WO2021254413A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021254413A1 (zh) * 2020-06-19 2021-12-23 南京大学 一种隔离分布核构建方法、异常数据检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477477A (zh) * 2009-01-12 2009-07-08 华为技术有限公司 内核空间隔离方法、空间管理实体及系统
CN107292350A (zh) * 2017-08-04 2017-10-24 电子科技大学 大规模数据的异常检测方法
CN109063886A (zh) * 2018-06-12 2018-12-21 阿里巴巴集团控股有限公司 一种异常检测方法、装置以及设备
CN110956248A (zh) * 2018-09-27 2020-04-03 南京航空航天大学 一种基于隔离森林的海量数据异常值检测算法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017185296A1 (zh) * 2016-04-28 2017-11-02 深圳大学 一种基于多支撑点索引的离群检测方法及其系统
CN106022368B (zh) * 2016-05-17 2019-04-05 中国矿业大学 一种基于增量核主成分分析的增量轨迹异常检测的方法
CN111666316B (zh) * 2020-06-19 2023-09-15 南京大学 一种隔离分布核构建方法、异常数据检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477477A (zh) * 2009-01-12 2009-07-08 华为技术有限公司 内核空间隔离方法、空间管理实体及系统
CN107292350A (zh) * 2017-08-04 2017-10-24 电子科技大学 大规模数据的异常检测方法
CN109063886A (zh) * 2018-06-12 2018-12-21 阿里巴巴集团控股有限公司 一种异常检测方法、装置以及设备
CN110956248A (zh) * 2018-09-27 2020-04-03 南京航空航天大学 一种基于隔离森林的海量数据异常值检测算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
关绍云等: "基于高斯核函数的局部离群点检测算法", 《哈尔滨商业大学学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021254413A1 (zh) * 2020-06-19 2021-12-23 南京大学 一种隔离分布核构建方法、异常数据检测方法及装置

Also Published As

Publication number Publication date
CN111666316B (zh) 2023-09-15
WO2021254413A1 (zh) 2021-12-23

Similar Documents

Publication Publication Date Title
LeDell et al. Computationally efficient confidence intervals for cross-validated area under the ROC curve estimates
Bolón-Canedo et al. Feature selection for high-dimensional data
US10216558B1 (en) Predicting drive failures
Kuhn Building predictive models in R using the caret package
Demidova et al. Intellectual approaches to improvement of the classification decisions quality on the base of the SVM classifier
Zhang et al. A weighted kernel possibilistic c‐means algorithm based on cloud computing for clustering big data
US11775610B2 (en) Flexible imputation of missing data
Afzalan et al. An automated spectral clustering for multi-scale data
US9990592B2 (en) Kernel parameter selection in support vector data description for outlier identification
US20200065664A1 (en) System and method of measuring the robustness of a deep neural network
Yu et al. A novel symbolic aggregate approximation for time series
JP2016152048A (ja) 統計的学習によるブラックボックス・ソフトウェア試験
US20210150335A1 (en) Predictive model performance evaluation
Wei et al. Real-time process monitoring using kernel distances
CN113837635A (zh) 风险检测处理方法、装置及设备
Tang et al. Anomaly detection of industrial state quantity time-series data based on correlation and long short-term memory
US20220327394A1 (en) Learning support apparatus, learning support methods, and computer-readable recording medium
Amagata et al. Fast, exact, and parallel-friendly outlier detection algorithms with proximity graph in metric spaces
CN111666316A (zh) 一种隔离分布核构建方法、异常数据检测方法及装置
Badr et al. From linear programming approach to metaheuristic approach: scaling techniques
US20200142910A1 (en) Data clustering apparatus and method based on range query using cf tree
Shim et al. Fast and accurate interpretation of workload classification model
US11328225B1 (en) Automatic spatial regression system
Gladence et al. A novel technique for multi-class ordinal regression-APDC
Uddin et al. A study of deterioration in classification models in real-time big data environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant