CN112906751A - 一种非监督学习识别异常值的方法 - Google Patents
一种非监督学习识别异常值的方法 Download PDFInfo
- Publication number
- CN112906751A CN112906751A CN202110103375.0A CN202110103375A CN112906751A CN 112906751 A CN112906751 A CN 112906751A CN 202110103375 A CN202110103375 A CN 202110103375A CN 112906751 A CN112906751 A CN 112906751A
- Authority
- CN
- China
- Prior art keywords
- final
- data
- abnormal value
- ind
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Complex Calculations (AREA)
Abstract
本发明属于非监督学习技术领域,具体涉及一种非监督学习识别异常值的方法,包括下列步骤:设定参数;在所述设定参数中的第t次迭代中计算输出异常得分向量ASt;经过T次迭代后,把异常值得分从高到低排序整合为SASt;SASt按照函数F合并为ASFINAL;进行仿真实验。本发明结合了各种离群点检测算法,通过对原始特征数据集的特征子集进行采样,提高了分类器的多样性。本发明与现有的LOF方法相比,采用迭代采集子集的方法,不同子集有不同异常值数量,不同变量数量,显示出了更好的精度。可以用于高维的含多个无关变量的数据的异常值检测。本发明用于非监督学习异常值的识别。
Description
技术领域
本发明属于非监督学习技术领域,具体涉及一种非监督学习识别异常值的方法。
背景技术
通常而言,当样本量较小和样本变量较多的时候,高维数据集上的异常值可能影响数据的均值和方差,甚至影响模型的预测结果。目前机器学习领域的异常值检测方法主要包括监督学习和非监督学习两类。在数据量较小的时候可以使用监督学习,然而缺点是其要在标签数据基础上使用。另外一种方法是非监督学习,这种方法在高维数据异常值检测领域较为常用,通常是计算高维空间的数据点间的距离,然而高维空间中数据点很分散,数据间的距离差别较小,所有的数据都有可能被判定为异常值,比如常用的马氏距离就被证明在高维空间中对于距离的测量不够稳定。
因此,学者们提出了一些在亚高维空间中检测异常值的方法,然而,随着选择的变量数不同,亚空间也不同,最终检测到的异常值也不同,造成了结果的差异性。
为更好解决这个问题,有学者提出了局部异常值检测方法,这种方法基于数据族的密度计算高维空间的密度,比较之前提及的检测方法,此方法确实在检测高维数据方面有更好的表现,然而还是存在异常值检测误差较大,当数据包含较多无关变量时,结果不稳定的情况。为了解决这个问题,本文提出了改进的LOF方法,此方法能够合理科学的检测出异常值,也能在数据包含多个无关变量的时候,降低检测误差。
发明内容
针对上述的技术问题,本发明提供了一种精度高、误差小、稳定性强的非监督学习识别异常值的方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种非监督学习识别异常值的方法,包括下列步骤:
S100、设定参数;
S200、在所述设定参数中的第t次迭代中计算输出异常得分向量ASt;
S300、经过T次迭代后,把异常值得分从高到低排序整合为向量SASt;
S400、向量SASt按照函数F合并为向量ASFINAL;
S500、进行仿真实验。
所述S100中设定参数的方法为:设定的参数总共包括T次迭代过程,t=1,2,3…T轮迭代,数据集X的变量数为d,m为数据集样本量大小,也是每个向量中的数据个数,S是数据集。
所述S200中,在其中的第t次迭代,随机不放回的选择变量数大小为Nt,数值在d/2至 d间,构造一个子集Ft,在子集Ft中使用异常值检测方法LOF,其中LOF为Local outlierfactor 离群点检测算法。
所述S400中,迭代的异常值得分整合得到向量ASFINAL的函数F包括如下两种方式:
方式一:创造序列Indt,结合数据集Indt信息,组合成数据向量IndFINAL和异常值得分 ASFINAL,在将异常值得分排序后,将有最高异常值得分的数据AS1,1,AS2,1.....ASt,1插入到IndFINAL中,再将异常值得分第二高的数据AS1,2,AS2,2.....ASt,2放到IndFINAL后,如果得到的数据已经在 IndFINAL出现过,则不再将数据附在IndFINAL后,最终得到与成为异常值的概率对应的数据集 IndFINAL,和包括异常值概率的ASFINAL,最终得到IndFINAL中按照异常值得分从大到小排列的各个数据;
方式二:输出排序后的向量SASt对应的Indt,运用加权平均算出综合异常值得分为向量 ASFINAL,将向量ASFINAL的内部得分排序,得分最高的被认为是异常值。
所述S400中向量ASFINAL=F(SASt),t=1...T。
本发明与现有技术相比,具有的有益效果是:
本发明提出一种改进的异常值检测方法,改进局部异常因子检测方法,考虑到了主数据集的密度还有该异常值点距离数据集的距离,并且该方法结合了各种离群点检测算法,通过对原始特征数据集的特征子集进行采样,提高了分类器的多样性。本发明与现有的LOF方法相比,采用迭代采集子集的方法,不同子集有不同异常值数量,不同变量数量,显示出了更好的精度。可以用于高维的含多个无关变量的数据的异常值检测。
附图说明
图1为本发明的改进局部异常值检测流程图;
图2是本发明提供的改进局部异常值检测的函数F流程;
图3为本发明实施例中方法一的流程图;
图4为本发明实施例中方法二的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种非监督学习识别异常值的方法,如图1所示,包括下列步骤:
S100、设定参数;
S200、在所述设定参数中的第t次迭代中计算输出异常得分向量ASt;
S300、经过T次迭代后,把异常值得分从高到低排序整合为向量SASt;
S400、向量SASt按照公式F合并为向量ASFINAL;
S500、进行仿真实验。
进一步,步骤S100中,设定的参数总共包括T次迭代过程,t=1,2,3…T轮迭代,数据集 X的变量数为d,m为数据集样本量大小,也是每个向量中的数据个数,S是数据集。
进一步,步骤S200中,在其中的第t次迭代,随机不放回的选择变量数大小为Nt,数值在d/2至d间,构造一个子集Ft,在子集Ft中使用异常值检测方法LOF,其中LOF为Localoutlier factor离群点检测算法,以此来得到每次迭代的异常值得分向量。
进一步,步骤S300中,如图2中第一次迭代中,原数据NC1的第一个数异常值得分最高为AS1,1,第二次迭代是第四位AS2,4,我们会将T次迭代中原数据NC1的所有异常值得分加总,进入ASFINAL中进行排序经过T次迭代后,把每次迭代的异常值得分单独从高到低排序整合为 SASt。迭代的异常值得分整合得到ASFINAL的函数F具体包括如下两种方法:
方法一:再创造序列Indt。Indt(1)为SASt中有最高得分SASt(1)的原数据,比如Indt(1)=k 代表第t次异常值检验的得分向量ASt对应的原数据xk有最高的异常值得分ASt(k),如图3 所示,AS1,2就代表第一次迭代中第二个最可能的异常值。
结合数据集Indt信息,组合成数据向量IndFINAL和异常值得分ASFINAL。在将异常值得分排序后,我们将有最高异常值得分的数据(AS1,1,AS2,1.....ASt,1)插入到IndFINAL中,再将异常值得分第二高的数据(AS1,2,AS2,2.....ASt,2)放到IndFINAL后,如果得到的数据已经在IndFINAL出现过,则不再将数据附在IndFINAL后。最终得到与成为异常值的概率对应的数据集IndFINAL,和包括异常值概率的ASFINAL。具体的程序执行如下:创造两个空向量IndFINAL和ASFINAL,执行以下循环语句:对于i=1至m,对于t=1至T,如果Indt(i)在IndFINAL中没有出现过,则加入 IndFINAL后,插入Indt(i)到向量IndFINAL后,插入ASt(i)到ASFINAL后,输出IndFINAL和ASFINAL。
最终得到IndFINAL中按照异常值得分从大到小排列的各个数据。
方法二:输出排序后的SASt对应的Indt。
如图4所示,第一次迭代异常值得分排名第一的数据,在Indt中记录下为原数据NC1,第二次迭代数据NC1异常值得分是第四位AS2,4;
运用加权平均算出综合异常值得分ASFINAL。对于ASt,t=1,...,T,m是ASt向量长度,把每一个数的异常值得分加总,得到总的ASFINAL,使用的语句为:对于i=1至m,
得到ASFINAL将ASFINAL的内部得分排序;得分最高的被认为是异常值。
进一步,步骤S400中,将SASt按照公式F合并为ASFINAL,公式F为: ASFINAL=F(SASt),t=1...T。
进一步,步骤S500中,仿真实验验证为:
1.仿真条件
实验是在合成数据和真实数据集之上进行的。本发明是在中央处理器为Intel(R)Core(TM) i3-2130 3.40GHZ、内存16G、WINDOWS 7操作系统上,运用R软件进行的仿真
2.仿真内容
(1)合成数据上检测增加无关干扰变量,测试改进LOF方法。
假设数据集有正态分布,因此,在第一阶段的训练过程中,为了设定特定的误报率,先在训练集(没有异常值)正态分布数据集上应用本文的异常值检测,在第二步的测试过程中,我们在测试集(有所有的异常值)上使用异常值检测。
我们的合成数据集中有5100个数据点,其中5000个是正态分布,100个是异常值。数据有5个自变量,二维下的正态分布应该如图中蓝色点所示,我们增添了5个红色的,远离正常值的异常值点。
AUC用于测试异常值检测的有效性,最理想的值为1,越接近,说明异常值检测的精度越高。
数据集 | 数据集大小 | 变量个数 | 异常值个数 | 异常值比例 |
LED | 10000 | 7 | 1000 | 10% |
Letter | 6238 | 617 | 240 | 3.85% |
segment | 2310 | 19 | 330 | 14.29% |
可以看出,干扰变量会使异常值检测的精度下降,使用改进的LOF方法对于这种负面的影响会有降低,尤其是改进的LOF方法二效果更好。
(2)真实数据测试改进LOF方法的检验精度:
我们的几组数据的设置如下:
数据集 | 数据集大小 | 变量个数 | 异常值个数 | 异常值比例 |
LED | 10000 | 7 | 1000 | 10% |
Letter | 6238 | 617 | 240 | 3.85% |
segment | 2310 | 19 | 330 | 14.29% |
用于实际的数据当中最终比较下来的检测精度为:
单独的LOF方法 | 改进LOF方法一 | 改进LOF方法二 | |
LED | 0.816 | 0.818 | 0.820 |
Letter | 0.820 | 0.825 | 0.845 |
segment | 0.825 | 0.834 | 0.839 |
可以看出,使用改进的LOF方法一、二均使得异常值检测精度上升,尤其针对高维数据,改进的LOF提高精度很高,在高维数据Letter中的AUC从0.82提升到0.825和0.845。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。
Claims (5)
1.一种非监督学习识别异常值的方法,其特征在于:包括下列步骤:
S100、设定参数;
S200、在所述设定参数中的第t次迭代中计算输出异常得分向量ASt;
S300、经过T次迭代后,把异常值得分从高到低排序整合为向量SASt;
S400、向量SASt按照函数F合并为向量ASFINAL;
S500、进行仿真实验。
2.根据权利要求1所述的一种非监督学习识别异常值的方法,其特征在于:所述S100中设定参数的方法为:设定的参数总共包括T次迭代过程,t=1,2,3…T轮迭代,数据集X的变量数为d,m为数据集样本量大小,也是每个向量中的数据个数,S是数据集。
3.根据权利要求1所述的一种非监督学习识别异常值的方法,其特征在于:所述S200中,在其中的第t次迭代,随机不放回的选择变量数大小为Nt,数值在d/2至d间,构造一个子集Ft,在子集Ft中使用异常值检测方法LOF,其中LOF为Local outlier factor离群点检测算法。
4.根据权利要求1所述的一种非监督学习识别异常值的方法,其特征在于:所述S400中,迭代的异常值得分整合得到向量ASFINAL的函数F包括如下两种方式:
方式一:创造序列Indt,结合数据集Indt信息,组合成数据向量IndFINAL和异常值得分ASFINAL,在将异常值得分排序后,将有最高异常值得分的数据AS1,1,AS2,1.....ASt,1插入到IndFINAL中,再将异常值得分第二高的数据AS1,2,AS2,2.....ASt,2放到IndFINAL后,如果得到的数据已经在IndFINAL出现过,则不再将数据附在IndFINAL后,最终得到与成为异常值的概率对应的数据集IndFINAL,和包括异常值概率的ASFINAL,最终得到IndFINAL中按照异常值得分从大到小排列的各个数据;
方式二:输出排序后的向量SASt对应的Indt,运用加权平均算出综合异常值得分为向量ASFINAL,将向量ASFINAL的内部得分排序,得分最高的被认为是异常值。
5.根据权利要求1所述的一种非监督学习识别异常值的方法,其特征在于:所述S400中向量ASFINAL=F(SASt),t=1...T。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110103375.0A CN112906751A (zh) | 2021-01-26 | 2021-01-26 | 一种非监督学习识别异常值的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110103375.0A CN112906751A (zh) | 2021-01-26 | 2021-01-26 | 一种非监督学习识别异常值的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112906751A true CN112906751A (zh) | 2021-06-04 |
Family
ID=76120160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110103375.0A Pending CN112906751A (zh) | 2021-01-26 | 2021-01-26 | 一种非监督学习识别异常值的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906751A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722651A (zh) * | 2021-07-13 | 2021-11-30 | 山西三友和智慧信息技术股份有限公司 | 一种基于nir高维数据下多数据修正平滑的比较方法 |
-
2021
- 2021-01-26 CN CN202110103375.0A patent/CN112906751A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722651A (zh) * | 2021-07-13 | 2021-11-30 | 山西三友和智慧信息技术股份有限公司 | 一种基于nir高维数据下多数据修正平滑的比较方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Online fault diagnosis in industrial processes using multimodel exponential discriminant analysis algorithm | |
KR102005628B1 (ko) | 학습 데이터 전처리 방법 및 시스템 | |
Kuhn | Building predictive models in R using the caret package | |
Idé et al. | Proximity-based anomaly detection using sparse structure learning | |
CN109886284B (zh) | 基于层次化聚类的欺诈检测方法及系统 | |
CN111401785A (zh) | 一种基于模糊关联规则的电力系统设备故障预警方法 | |
CN111338950A (zh) | 一种基于谱聚类的软件缺陷特征选择方法 | |
CN111833966A (zh) | 一种基于自适应lasso的特征选择方法及系统 | |
CN115051864B (zh) | 基于pca-mf-wnn的网络安全态势要素提取方法及系统 | |
CN111027636A (zh) | 基于多标签学习的无监督特征选择方法及系统 | |
CN115130600A (zh) | 基于堆叠习惯化自编码器的高维动态数据流异常检测方法 | |
CN115358291A (zh) | 一种变压器故障诊断方法、介质及系统 | |
Surono et al. | Developing an optimized recurrent neural network model for air quality prediction using K-means clustering and PCA dimension reduction | |
CN112906751A (zh) | 一种非监督学习识别异常值的方法 | |
Jiang et al. | Dynamic Bhattacharyya bound-based approach for fault classification in industrial processes | |
CN111639688B (zh) | 一种基于线性核svm的物联网智能模型的局部解释方法 | |
CN112967755A (zh) | 一种面向单细胞rna测序数据的细胞类型识别方法 | |
CN112287036A (zh) | 一种基于谱聚类的离群点检测方法 | |
CN115344693A (zh) | 一种基于传统算法和神经网络算法融合的聚类方法 | |
Mahaweerawat et al. | Adaptive self-organizing map clustering for software fault prediction | |
Li | Logistic and SVM credit score models based on lasso variable selection | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
Cui et al. | esearch on Credit Card Fraud Classification Based on GA-SVM | |
CN113610121B (zh) | 一种跨域任务深度学习识别方法 | |
CN115204310A (zh) | 一种自适应权重学习的判别性最小二乘非均衡分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210604 |
|
RJ01 | Rejection of invention patent application after publication |