CN111666316A - 一种隔离分布核构建方法、异常数据检测方法及装置 - Google Patents
一种隔离分布核构建方法、异常数据检测方法及装置 Download PDFInfo
- Publication number
- CN111666316A CN111666316A CN202010565100.4A CN202010565100A CN111666316A CN 111666316 A CN111666316 A CN 111666316A CN 202010565100 A CN202010565100 A CN 202010565100A CN 111666316 A CN111666316 A CN 111666316A
- Authority
- CN
- China
- Prior art keywords
- isolated
- data
- kernel
- points
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 98
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 238000002955 isolation Methods 0.000 title claims abstract description 55
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 38
- 238000010276 construction Methods 0.000 title claims abstract description 22
- 238000013507 mapping Methods 0.000 claims abstract description 69
- 238000005192 partition Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims description 60
- 230000006870 function Effects 0.000 claims description 27
- 238000000638 solvent extraction Methods 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000012549 training Methods 0.000 abstract description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 15
- 238000003860 storage Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000012706 support-vector machine Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000000540 analysis of variance Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 125000002437 D-histidyl group Chemical group N[C@@H](C(=O)*)CC=1N=CNC1 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012212 insulator Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种隔离分布核构建方法、异常数据检测方法及装置,属于机器学习和数据挖掘技术领域。采用的新的隔离分布核,给定一个数据集,将输入空间划分为隔离分区:每个分区将一个点与训练集中的其余点隔离。在执行点异常检测时,隔离分布核被用于测量点与给定数据集之间的相似性,似度最低的点被视为点异常,为了检测群数据集中的群异常,在两个层级使用隔离分布核,在第一级,将输入空间中数据集中的每个群都映射到希尔伯特空间一个点,在第二级,使用IDK测量希尔伯特空间映射后的点和点集之间的相似性,希尔伯特空间点异常为对应输入空间中群异常,隔离分布核实现有限维度的特征映射,从而加快运行效率,并且利用数据分布提高相似性精度。
Description
技术领域
本发明涉及机器学习和数据挖掘技术领域,更具体地说,涉及一种隔离分布核构建方法、异常数据检测方法及装置。
背景技术
在现有的异常数据检测的应用中,由于使用了具有无限维度特征映射的数据独立内核,OCSVM的运行速度比基于树的异常检测器iForest慢几个数量级,并且检测精度也较弱。在集群的背景下,最新的可伸缩内核k-means必须使用超级计算机的特殊硬件来处理数百万个数据点的数据集,然而这是一种缓解方法,没有从根本上解决时间复杂度高的问题。
加速基于内核的算法的一种重要方法是内核函数的逼近,其目的是产生用户可控制的有限数量的代理特征,以逼近具有无穷维特征映射的所选非线性内核函数。成功的方法有如下两种:(1)嵌入方法,该方法使用给定数据集中的样本点构造低秩r矩阵,并得出代理特征数据的矢量表示;(2)基于傅立叶变换推导随机特征,与给定数据集无关。两种方法均使用代理特征生成所选非线性内核的近似特征映射,这些特征旨在用作线性学习算法的输入,这一类算法可以高效运行以处理大规模数据集,但是由于使用近似特征映射,因此牺牲了计算精度。
简而言之,现有的内核函数的逼近方法有两个关键问题。首先,近似特征映射可以达到的最佳精度低于所选数据独立内核的精度,而且数据独立的内核已被证明比与数据相关的内核效果更差。其次,当前的内核函数近似方法不适用于没有函数形式的数据相关内核。
目前来说,基于内核的异常检测算法最先进的两种算法是OCSVM(One-ClassSupport Vector Machines)和OCSMM(One-Class Support MeasureMachines),OCSVM是用于点异常检测的一类支持向量机,OCSMM是用于群异常检测的一类支持向量机。尽管基于核的算法很有潜力,但是计算一个给定的n个数据点的数据集中的所有点对,其时间复杂度为O(n2),所需的时间成本较高,导致该类算法的发展受到了阻碍。基于上述原因,OCSVM和OCSMM都无法处理大规模的数据集。
发明内容
1.要解决的技术问题
针对现有技术中存在的相似性度量与数据分布无关造成精度过低并且运行速度缓慢的问题,本发明提供了一种隔离分布核构建方法、异常数据检测方法及装置,它可以实现有限维度的特征映射,从而加快运行效率,并且利用数据分布提高相似性精度。
2.技术方案
本发明的目的通过以下技术方案实现。
一种隔离分布核构建方法,从给定数据集中产生隔离分布核,包括如下步骤:
使用隔离空间划分机制从给定数据集D中产生t个空间划分W∈Vψ(D), 每一个划分Wi(partitioning)都有固定数量ψ个隔离分区我们使用一种现有的,称为iNNE(Isolation by Nearest Neighbor Ensemble)的空间划分机制,不过它作为隔离内核特征映射Φ(·|D)是新提出的,图2展示了隔离分区为超球的例子,Vψ(D)用于产生隔离内核的特征映射Φ(·|D);
从给定数据集D中产生隔离内核的特征映射Φ(·|D);
定义隔离内核:
其中,κI点内核衡量数据集中两个数据点x,y的相似度。
给定S是分布PS中的一个样例数据;
隔离内核具体定义方式为:给定一个空间划分Wi,令Φi(x|D)为一个ψ维二进制列向量来表征所有超球θj∈Wi,j∈1,…,ψ,其中x落入ψ超球之一或都不落入,向量的j分量为:Φij(x|D)=1(x∈θj|θj∈Wi),给定t个分区,Φ(x|D)是隔离内核的特征映射,是Φ1(x|D),…Φi(x|D),…,Φt(x|D)的串联。其中,1(·)为指示函数:1(B)=1如果B=true;除此以外1(B)=0。
定义隔离内核的特征映射:对于输入空间中数据点x,κI的特征映射Φ:x→{0,1}t×ψ,是一个表征所有划分Wi∈Vψ(D),i=1,…,t的向量,在每个分区Wi中,x落入ψ超球之一或都不落入。
定义隔离分布核:
T是分布PT中的一个样例数据。
将其用于点异常检测时,隔离分布核用来测量给定数据集的每一个点x∈D和数据集D的相似性,如下所示:
一种异常数据检测方法,包括如下步骤:
映射输入空间中数据点x∈D到希尔伯特空间;
采用上述所述的一种隔离内核构建方法生成隔离分布核;
衡量该数据点与整个数据集相似度;
根据相似度排序找出异常点。
其中δ(x)是x的狄拉克度量函数。
一种异常数据检测方法,包括如下步骤:
一种隔离分布核构建装置,包括,
确定点内核模块,根据空间划分Vψ(D)产生隔离内核的特征映射Φ(·|D);
确定分布核模块,根据隔离内核的特征映射定义隔离分布核的特征映射
一种异常数据检测装置,包括,
映射模块,映射输入空间数据点到希尔伯特空间;
生成模块,生成隔离分布核,采用上述隔离内核构建方法进行构建;
异常检测模块,衡量输入空间中的数据点与整个数据集相似度,根据相似度排序找出异常点。
一种异常数据检测装置,包括,
映射模块,映射输入空间数据集中每个群到一级希尔伯特空间生成相应的点;以及二级映射一级希尔伯特空间中的点及数据集到二级希尔伯特空间;
生成模块,生成隔离分布核,采用上述隔离内核构建方法进行构建;
异常检测模块,衡量一级希尔伯特空间的数据点与整个数据集相似度,对应二级希尔伯特空间中的两点,根据相似度排序找出输入空间中对应的异常群。
更进一步的,异常检测模块,相似性检测根据参数计算,计算一级希尔伯特空间的数据点与整个数据集的相似度,根据相似度排序获得对应输入空间中异常数据群。
一种隔离分布核构建设备,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
根据空间划分产生隔离内核的特征映射Φ(·|D);
定义隔离内核;
一种异常数据检测设备,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
映射数据点x∈D到希尔伯特空间;
采用上述隔离内核构建方法生成隔离分布核;
衡量该数据点与整个数据集相似度;
根据相似度排序找出异常点。
一种异常数据检测设备,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
采用上述隔离内核构建方法生成一级隔离分布核映射;
使用映射后的点,采用上述隔离内核构建方法生成对应的二级隔离分布核映射;
映射一级希尔伯特空间中的点及数据集到二级希尔伯特空间中的点;
衡量一级希尔伯特空间的数据点与整个数据集,即与对应二级希尔伯特空间中的两点相似度;
根据相似度排序找出输入空间中对应的异常群。
3.有益效果
相比于现有技术,本发明的优点在于:
本方案采用的新的隔离分布核,采用的内核可以实现有限维度的特征映射,从而加快运行效率,并且利用数据分布提高相似性精度。核函数可以直接用于数据点的排序,与OCSVM不同,不需要额外的学习,对比与现有技术的OCSVM需要计算所有点对的相似性这需要花费O(n2),具有时间复杂度O(n),因为它避免了计算D中所有点对的需要,时间复杂度大大降低,本方案的IDK可检测出OCSVM可能漏掉的异常,如内部点异常,且本方案的IDK可以利用两个层级来使用,针对于群异常进行检测,OCSVM和OCSMM需要一个支持向量机学习框架,OCSMM还需要使用分布核,直接利用核相似度对点异常和群异常进行检测是IDK和IDK2的独特之处,也使得这两种算法简单,不需要显式学习。
附图说明
图1为本发明的基于数据分布的异常检测方法的整体流程示意图;
图2为隔离内核的特征映射Φ,一个空间划分(t=1)有三个超球,作为三个隔离分区,输入空间中的每个点都将转换为希尔伯特空间中的一个点的示意图;
图4为点异常检测时我们的方法与其他三个最先进的方法比较示意图;
图5为群异常检测时我们的方法与其他五个最先进的方法比较示意图。
具体实施方式
下面结合说明书附图和具体的实施例,对本发明作详细描述。
本方案的异常检测方法使用分布核不仅可以解决面向分布的问题,例如群异常检测问题,还可以解决现有的面向点的问题,这有许多未开发的机会。在解决数据集的数据异常问题时,现有的解决方式大多选择面向点的算法,该类算法的特征是采用点对点的距离或内核函数,很少选择面向分布的算法来解决数据异常问题,之所以出现这种情况,是由于只有点对点距离函数或内核函数可供使用,而缺乏实用的面向分布的核函数。只要可以解决上述两个问题,实用的分布核就有可能更有效地解决许多问题。
本发明的一个实施例提供了一种测量两个分布之间相似性的新型分布核的构建方法,用于直接从数据集中导出适应给定数据集数据分布的度量,而无需学习。另外,该分布核利用隔离内核。后者具有独特的,定义明确的数据相关属性:稀疏区域中的两个点比密集区域中相等点间距离的两个点更相似。利用该核函数,可以有效识别出数据中的异常点。
如图1所示,该方法用于检测数据集中的点异常和群异常。创新点是提出了一种新的分布核,称为隔离分布核(IDK),它测量两个分布间的相似性,并直接从数据集中导出。
给定一个数据集,该方法使用一种称为隔离空间划分机制,将输入空间划分为隔离分区:每个隔离分区将一个点与训练集中的其余点隔离。这些隔离分区用于派生IDK的特征映射。
在执行点异常检测时,IDK(通过其特征映射)被用于测量点与给定数据集之间的相似性。相似度最低的点被视为点异常。
为了检测群(由点组成)数据集中的群异常,在两个层级使用IDK。在第一级,将数据集中的每个群都映射到希尔伯特空间。在第二级,使用IDK测量映射后的点和给定数据集之间的相似性(两者都在希尔伯特空间中)。群异常为二级点异常。
其中κ,即点内核,用于衡量数据集内数据点x,y的相似性,例如高斯核;S是分布PS中的一个样例数据,T是分布PT中的一个样例数据。
如果S和T有着m个数据点,方程(2)可以用O(m)来计算,因为S和T可以用O(m)来计算;且可以用O(m)来计算内积。使用Nystrom算法的缺点是它产生的是一个近似值。对于使用这种分布核的算法,通常会产生不太理想的绩效结果。所述高斯核的分布核表示为GDK的结果不会太优秀。
我们创建了一个新的分布核,称为隔离分布核IDK。隔离分布核IDK的构建具体包括如下步骤:
使用隔离空间划分机制从给定数据集D中产生t个空间划分W∈Vψ(D), 每一个划分Wi(partitioning)都有固定数量ψ个隔离分区我们使用一种现有的,称为iNNE(Isolation by Nearest Neighbor Ensemble)的空间划分机制,不过它作为隔离内核特征映射Φ(·|D)是新提出的,图2展示了隔离分区为超球的例子,Vψ(D)用于产生隔离内核的特征映射Φ(·|D);
从给定数据集D中产生隔离内核的特征映射Φ(·|D);
定义隔离内核:和高斯核不同,隔离内核κI有一个精确的有限维度的特征映射:
其中,κI点内核衡量数据集中两个数据点x,y的相似度。
隔离内核具体定义方式为:给定一个空间划分Wi,令Φi(x|D)为一个ψ维二进制列向量来表征所有超球θj∈Wi,j∈1,…,ψ,其中x落入ψ超球之一或都不落入,向量的j分量为:Φij(x|D)=1(x∈θj|θj∈Wi),给定t个分区,Φ(x|D)是隔离内核的特征映射,是Φ1(x|D),…Φi(x|D),…,Φt(x|D)的串联。其中,1(·)为指示函数:1(B)=1如果B=true;除此以外1(B)=0。
定义隔离内核的特征映射:对于输入空间中数据点x,κI的特征映射Φ:x→{0,1}t×ψ,是一个表征所有划分Wi∈Vψ(D),i=1,…,t的向量,在每个分区Wi中,x落入ψ超球之一或都不落入,即
实际上,κI(x,y|D)从t个划分Wi得出定义:
在公式(1)中,使用κI代替κ得出隔离核分布核定义:
则隔离分布核IDK可以表示为:
这种采用隔离核的分布核称为IDK,区别于一般的分布核GDK,方程(3)可以用O(m)计算并产生精确的相似性度量,而不牺牲使用该分布核的算法的特定任务性能。
采用上述构建的隔离分布核IDK可以对点异常和群异常进行检测,具体如下,
步骤如下,映射输入空间中数据点x∈D到希尔伯特空间;
采用上述所述的一种隔离内核构建方法生成隔离分布核;
衡量该数据点与整个数据集相似度;
根据相似度排序找出异常点。
其中δ(x)是x的狄拉克度量函数。
如图4所示,在14个数据集中,我们将所提出的方法与其他三个最先进的方法比较,得出我们的方法准确率最好。
与现有的基于核的算法(如OCSVM)相比,使用分布核进行点异常检测有三个优点:
(iii)由于OCSVM使用了与数据独立的核函数,依赖于数据的IDK可检测出OCSVM可能漏掉的异常,如内部点异常(local anomalies)。
到目前为止,点异常一直被看作是一个基于点的问题,现有的点异常检测器都是基于点的算法。而我们提出异常检测是前所未有的基于分布的方法。对应的时间复杂度大大降低,效率更高,且可以应用于大规模的数据集。
在进行群异常时候,群异常检测,群异常检测:OCSMM扩展了OCSVM(处理点异常)的思想,在同一个学习过程中用分布核代替点核来检测群异常。
我们提出一种检测群异常的替代方法,将输入空间中群异常的检测问题设定为希尔伯特空间中的点异常检测问题;然后利用上述基于IDK的点异常检测器检测希尔伯特空间中的点异常,相当于检测输入空间中相应的群异常。
如图3,说明了从输入空间中多组T~PT的数据集D到希尔伯特空间中DH的点的转换,其中,是IDK(方程(3))的特征映射,它将输入空间中的每个群T(由分布PT生成)映射到希尔伯特空间中的点由于T和S是由不同的分布生成的,它们将被映射到希尔伯特空间的不同区域。然后将基于IDK的点异常检测器应用于DH中,检测希尔伯特空间中的点异常。
具体的步骤如下,
群异常检测器使用的是IDK2,因为它在两个层级使用IDK:
如图5所示,在11个数据集中,我们将所提出的方法,相较于其他五个最先进的方法,准确率最高。
上述IDK相对于OCSVM的三个优点,也适用于IDK2相对于OCSMM的群异常检测。值得注意的是,直接利用核相似度对点异常和群异常进行检测是IDK和IDK2的独特之处,也使得这两种算法简单,不需要显式学习。相比之下,OCSVM和OCSMM需要一个支持向量机学习框架(此外,OCSMM还需要使用分布核)。
采用本方案的方法可以在现有技术的系统中给出更好的技术度,US20160182552A1中采用的异常检测模块基于混合分布。US9514387B2中采用了统计检验(即ANOVA分析和Turkey HSD检验法)。US20200118135A1与CN107992741A中采用的是隔离林。我们所发明的内核方法IDK可以轻易替换上述每一个模块,并预计以更高检测精度在这些系统中执行任务。
在公开号US20160182552A1的美国专利技术中,对应的方式为,实现根据端点通信中的异常行为来识别网络上潜在威胁的方法,系统和计算机可读介质。各方面来看,网络上的流量数据是在一段时间内累积的。将数据按一个或多个键分组,并计算这些键的多组度量值。将混合分布拟合到每组度量值上,并根据混合分布确定外围度量值。通过一组或多组度量值中具有离群度量值的键值,得到一系列异常数据。
在公开号US20200118135A1的美国专利技术中,实现对机器学习系统中的输入变量执行数据质量检查的系统和方法。一个典型方法为根据长期变量(LTV)的值和该长期变量在确定的区间内的历史值,计算与该长期变量(LTV)相关的第一个矩;并根据LTV的值和LTV在定义区间内的历史值,计算与LTV相关的第二矩。基于矩对,进行隔离林分析。当LTV的检查值与LTV的值不同时,以及/或当隔离林分析表明计算的矩对是异常时,LTV中会生成一个标志。
在公开号US9514387B2的美国专利技术中,实现一种用于监视和分析广泛分布式服务的系统,该系统由基础设施即服务(IaaS)租户操作,但部署在一组虚拟资源上,由IaaS独立供应商控制。虚拟资源集可被整合为集群,其中资源的行为理应彼此相似。那么行为与同一集群内对等资源不同的虚拟资源,比如说:异常值,就可能指向了问题所在。监视系统可从虚拟资源中收集性能指标数据,并在集群中将每个虚拟资源的性能与其他虚拟资源的性能进行一一比较来检测异常值。这种比较可能涉及相关性分析,ANOVA分析或回归分析。
在公开号CN107992741A的中国专利技术中,实现一种模型训练方法、检测URL的方法及装置。在本说明书实施例中,获取若干URL,确定每个URL中的参数,并得到每个参数对应的特征向量,然后根据各参数分别对应的特征向量,构建隔离森林模型。
上述每个系统都包含一个异常检测模块,该模块是检测各系统中异常的关键。在完成相同异常检测模块的任务时,使用本发明(代替已有异常检测模块)有望在这些系统中产生更好的检测精度,正如我们已给出的实验结果所示。
具体的针对于装置的描述,本实施例参考对应的软件和方法内容就可以进行相应的硬件实现;构建相应的装置和设备;
如针对于隔离分布核的构建设计的装置,一种隔离分布核构建装置,包括,
确定点内核模块,根据空间划分Vψ(D)产生隔离内核的特征映射Φ(·|D);
确定分布核模块,根据隔离内核的特征映射定义隔离分布核的特征映射
针对于点异常检测设置的装置,一种异常数据检测装置,包括,
映射模块,映射输入空间数据点到希尔伯特空间;
生成模块,生成隔离分布核,采用上述隔离内核构建方法进行构建;
异常检测模块,衡量输入空间中的数据点与整个数据集相似度,根据相似度排序找出异常点。
针对于群异常检测设置的装置,一种异常数据检测装置,包括,
映射模块,映射输入空间数据集中每个群到一级希尔伯特空间生成相应的点;以及二级映射一级希尔伯特空间中的点及数据集到二级希尔伯特空间;
生成模块,生成隔离分布核,采用上述隔离内核构建方法进行构建;
异常检测模块,衡量一级希尔伯特空间的数据点与整个数据集相似度,对应二级希尔伯特空间中的两点,根据相似度排序找出输入空间中对应的异常群。
更进一步的,异常检测模块,相似性检测根据参数计算,计算一级希尔伯特空间的数据点与整个数据集的相似度,根据相似度排序获得对应输入空间中异常数据群。
针对于隔离分布核的构建设计的设备,可以是一种硬件设备,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
根据空间划分产生隔离内核的特征映射Φ(·|D);
定义隔离内核;
针对于点异常数据检测设计的设备,可以是一种硬件设备,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
映射数据点x∈D到希尔伯特空间;
采用上述隔离内核构建方法生成隔离分布核;
衡量该数据点与整个数据集相似度;
根据相似度排序找出异常点。
针对于群异常数据检测设计的设备,可以是一种硬件设备,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
采用上述隔离内核构建方法生成一级隔离分布核映射;
使用映射后的点,采用上述隔离内核构建方法生成对应的二级隔离分布核映射;
映射一级希尔伯特空间中的点及数据集到二级希尔伯特空间中的点;
衡量一级希尔伯特空间的数据点与整个数据集,即与对应二级希尔伯特空间中的两点相似度;
根据相似度排序找出输入空间中对应的异常群。
具体的如何实现设备的实现,在现有技术上可以实现,再次不多做具体的阐述,下文从原理上解释对应的实现的可能性。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。
设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field ProgrammableGateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ATMEL AT89S52、microchip pic16c57存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字符多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
Claims (13)
1.一种隔离分布核构建方法,包括如下步骤:
使用隔离空间划分机制从给定数据集D中产生t个空间划分W∈Vψ(D);
根据空间划分Vψ(D)产生隔离内核的特征映射Φ(·|D);
定义隔离内核;
根据隔离内核,定义隔离分布核及隔离分布核的特征映射。
3.一种异常数据检测方法,包括如下步骤:
映射输入空间中数据点x∈D到希尔伯特空间;
采用权利要求1或2所述的方法生成隔离分布核;
衡量该数据点与整个数据集相似度;
根据相似度排序找出异常点。
8.一种异常数据检测装置,其特征在于,包括,
映射模块,映射数据点到希尔伯特空间;
生成模块,生成隔离分布核,采用权利要求1或2所述的方法进行构建;
异常检测模块,衡量输入空间中的数据点与整个数据集相似度,根据相似度排序找出异常点。
9.一种异常数据检测装置,其特征在于,包括,
映射模块,映射数据集中每个群到希尔伯特空间生成相应的点;以及二级映射一级希尔伯特空间中的点及数据集到二级希尔伯特空间;
生成模块,生成隔离分布核,采用权利要求1或2所述的方法进行构建;
异常检测模块,衡量一级希尔伯特空间的数据点与整个数据集相似度,对应二级希尔伯特空间中的两点,根据相似度排序找出输入空间中对应的异常群。
10.根据权利要求9所述的一种异常数据检测装置,其特征在于,
异常检测模块,相似性检测根据参数计算,计算一级希尔伯特空间的数据点与整个数据集的相似度,根据相似度排序获得对应输入空间中异常数据群。
12.一种异常数据检测设备,其特征在于,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
映射数据点x∈D到希尔伯特空间;
采用权利要求1或2所述的方法生成隔离分布核;
衡量该数据点与整个数据集相似度;
根据相似度排序找出异常点。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010565100.4A CN111666316B (zh) | 2020-06-19 | 2020-06-19 | 一种隔离分布核构建方法、异常数据检测方法及装置 |
PCT/CN2021/100478 WO2021254413A1 (zh) | 2020-06-19 | 2021-06-17 | 一种隔离分布核构建方法、异常数据检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010565100.4A CN111666316B (zh) | 2020-06-19 | 2020-06-19 | 一种隔离分布核构建方法、异常数据检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666316A true CN111666316A (zh) | 2020-09-15 |
CN111666316B CN111666316B (zh) | 2023-09-15 |
Family
ID=72388424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010565100.4A Active CN111666316B (zh) | 2020-06-19 | 2020-06-19 | 一种隔离分布核构建方法、异常数据检测方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111666316B (zh) |
WO (1) | WO2021254413A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021254413A1 (zh) * | 2020-06-19 | 2021-12-23 | 南京大学 | 一种隔离分布核构建方法、异常数据检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477477A (zh) * | 2009-01-12 | 2009-07-08 | 华为技术有限公司 | 内核空间隔离方法、空间管理实体及系统 |
CN107292350A (zh) * | 2017-08-04 | 2017-10-24 | 电子科技大学 | 大规模数据的异常检测方法 |
CN109063886A (zh) * | 2018-06-12 | 2018-12-21 | 阿里巴巴集团控股有限公司 | 一种异常检测方法、装置以及设备 |
CN110956248A (zh) * | 2018-09-27 | 2020-04-03 | 南京航空航天大学 | 一种基于隔离森林的海量数据异常值检测算法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017185296A1 (zh) * | 2016-04-28 | 2017-11-02 | 深圳大学 | 一种基于多支撑点索引的离群检测方法及其系统 |
CN106022368B (zh) * | 2016-05-17 | 2019-04-05 | 中国矿业大学 | 一种基于增量核主成分分析的增量轨迹异常检测的方法 |
CN111666316B (zh) * | 2020-06-19 | 2023-09-15 | 南京大学 | 一种隔离分布核构建方法、异常数据检测方法及装置 |
-
2020
- 2020-06-19 CN CN202010565100.4A patent/CN111666316B/zh active Active
-
2021
- 2021-06-17 WO PCT/CN2021/100478 patent/WO2021254413A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477477A (zh) * | 2009-01-12 | 2009-07-08 | 华为技术有限公司 | 内核空间隔离方法、空间管理实体及系统 |
CN107292350A (zh) * | 2017-08-04 | 2017-10-24 | 电子科技大学 | 大规模数据的异常检测方法 |
CN109063886A (zh) * | 2018-06-12 | 2018-12-21 | 阿里巴巴集团控股有限公司 | 一种异常检测方法、装置以及设备 |
CN110956248A (zh) * | 2018-09-27 | 2020-04-03 | 南京航空航天大学 | 一种基于隔离森林的海量数据异常值检测算法 |
Non-Patent Citations (1)
Title |
---|
关绍云等: "基于高斯核函数的局部离群点检测算法", 《哈尔滨商业大学学报(自然科学版)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021254413A1 (zh) * | 2020-06-19 | 2021-12-23 | 南京大学 | 一种隔离分布核构建方法、异常数据检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111666316B (zh) | 2023-09-15 |
WO2021254413A1 (zh) | 2021-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
LeDell et al. | Computationally efficient confidence intervals for cross-validated area under the ROC curve estimates | |
Bolón-Canedo et al. | Feature selection for high-dimensional data | |
US10216558B1 (en) | Predicting drive failures | |
Kuhn | Building predictive models in R using the caret package | |
Demidova et al. | Intellectual approaches to improvement of the classification decisions quality on the base of the SVM classifier | |
Zhang et al. | A weighted kernel possibilistic c‐means algorithm based on cloud computing for clustering big data | |
US11775610B2 (en) | Flexible imputation of missing data | |
Afzalan et al. | An automated spectral clustering for multi-scale data | |
US9990592B2 (en) | Kernel parameter selection in support vector data description for outlier identification | |
US20200065664A1 (en) | System and method of measuring the robustness of a deep neural network | |
Yu et al. | A novel symbolic aggregate approximation for time series | |
JP2016152048A (ja) | 統計的学習によるブラックボックス・ソフトウェア試験 | |
US20210150335A1 (en) | Predictive model performance evaluation | |
Wei et al. | Real-time process monitoring using kernel distances | |
CN113837635A (zh) | 风险检测处理方法、装置及设备 | |
Tang et al. | Anomaly detection of industrial state quantity time-series data based on correlation and long short-term memory | |
US20220327394A1 (en) | Learning support apparatus, learning support methods, and computer-readable recording medium | |
Amagata et al. | Fast, exact, and parallel-friendly outlier detection algorithms with proximity graph in metric spaces | |
CN111666316A (zh) | 一种隔离分布核构建方法、异常数据检测方法及装置 | |
Badr et al. | From linear programming approach to metaheuristic approach: scaling techniques | |
US20200142910A1 (en) | Data clustering apparatus and method based on range query using cf tree | |
Shim et al. | Fast and accurate interpretation of workload classification model | |
US11328225B1 (en) | Automatic spatial regression system | |
Gladence et al. | A novel technique for multi-class ordinal regression-APDC | |
Uddin et al. | A study of deterioration in classification models in real-time big data environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |