CN105512206A - 一种基于聚类的离群点检测方法 - Google Patents

一种基于聚类的离群点检测方法 Download PDF

Info

Publication number
CN105512206A
CN105512206A CN201510848176.7A CN201510848176A CN105512206A CN 105512206 A CN105512206 A CN 105512206A CN 201510848176 A CN201510848176 A CN 201510848176A CN 105512206 A CN105512206 A CN 105512206A
Authority
CN
China
Prior art keywords
bunch
data object
data
class bunch
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510848176.7A
Other languages
English (en)
Inventor
刘文婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201510848176.7A priority Critical patent/CN105512206A/zh
Publication of CN105512206A publication Critical patent/CN105512206A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

发明公开了一种基于聚类的离群点检测方法,包括步骤为,获取数据集并采用改进的k_means聚类算法计算出k个类簇,对k个类簇进行划分为大类簇集BC和小类簇集SC,基于大小类簇的方法计算数据对象的离群因子后汇总形成离群因子序列,基于离群因子序列确定离群数据。有益效果:可有效地从大量数据集中发现隐藏在其中的离群数据,确定每个数据对象的离群度,检测准确高效,可广泛应用于金融和经济分析、电子通信、现代物流等领域。

Description

一种基于聚类的离群点检测方法
技术领域
本发明涉及一种离群点检测方法,特别是涉及一种基于聚类的离群点检测方法,属于离群数据挖掘技术领域。
背景技术
离群数据挖掘技术是目前数据挖掘领域的研究热点之一,聚类方法在数据挖掘领域具有较好的研究基础。
目前,已有的离群数据挖掘主要基于距离或最近邻概念进行的离群挖掘。随着互联网和移动互联网的广泛普及,大量的数据在金融和经济分析、电子通信、现代物流等不同领域广泛应用,数据本身的复杂性,难以准确判断数据是否异常,导致难以给出确切的离群数据。
发明内容
本发明的主要目的在于,克服现有技术中的不足,提供一种基于聚类的离群点检测方法,可有效地从大量数据集中发现隐藏在其中的离群数据,确定每个数据对象的离群度,检测准确高效,可广泛应用于金融和经济分析、电子通信、现代物流等领域。
为了达到上述目的,本发明所采用的技术方案是:
一种基于聚类的离群点检测方法,包括以下步骤:
1)获取数据集并采用改进的k_means聚类算法计算出k个类簇;
2)对k个类簇进行划分,划分生成大类簇集BC和小类簇集SC;
依据每个类簇|Ci|(i=1,2…k)包含的数据对象个数对k个类簇进行排序,将包含的数据对象个数大于设定阈值的类簇划分入大类簇集BC,包含的数据对象个数小于设定阈值的类簇划分入小类簇集SC;
3)基于大小类簇的方法分别计算大类簇集内大类簇和小类簇集内小类簇中数据对象的离群因子,汇总形成离群因子序列;
4)基于离群因子序列确定离群数据。
本发明进一步设置为,所述步骤1)获取数据集并采用改进的k_means聚类算法计算出k个类簇,具体包括以下步骤:
1-1)获取数据集D;
数据集用D={x1,x2,…,xi,…,xn},i=1,2…n表示,其中,n为数据集D大小,xi为数据集中的数据对象;
1-2)采用最大最小聚类方法,初始化m个聚类中心;
1-2-a)根据式(1)计算数据集D中任意数据对象xi到样本中心的距离di,形成距离样本;
d i = Σ j = 1 , i ≠ j n | | x i - x ‾ | | - - - ( 1 )
其中,xi数据对象,i=1,2…n,为样本中心、即为数据集中所有数据对象样本的均值,样本中心的计算公式为
从距离样本中选取与样本中心相距的距离为下限值的第一样本xa,作为第一个初始聚类中心o1
1-2-b)当初始化m=2时,从数据集中除第一样本xa、选出与第一样本xa相距的距离为上限值的第二样本xb作为第二个初始聚类中心o2
1-2-c)当初始化m=3时,从数据集中除第一样本xa和第二样本xb、计算任意数据对象xi到第一样本xa和第二样本xb的距离分别为dia和dib,取di为dia和dib中的下限值、即di=min(dia,dib);
遍历数据集中除第一样本xa和第二样本xb外其余数据对象,形成除第一样本xa和第二样本xb外的数据对象距离集di(i≤n,i≠a,i≠b);
从di(i≤n,i≠a,i≠b)中选取上限值、即获得对应的数据对象xc作为第三个聚类中心o3
1-2-d)当初始化m≤k时,针对已经获得的k-1个初始聚类中心,计算未被作为聚类中心的数据对象xj到每一聚类中心的距离djp(p=1,2…,k-1),取dj为djp中的下限值、即dj=min(dj1,dj2,…,dj(k-1)),其中,j=1,2…n;
遍历数据集中未被作为聚类中心的数据对象,形成除k-1个初始聚类中心外的数据对象距离集,并从中选取距离上限值对应的数据对象xq作为第m个聚类中心om
1-3)采用改进的k_means聚类算法,计算出k个类簇;
1-3-1)选择聚类数搜索范围[kmin,kmax],其中,kmin=2,n为数据集D大小;
1-3-2)Fork=kmintokmax,即循环执行如下操作,
1-3-2a)按照步骤1-2)的方法初始化k个初始聚类中心ok
1-3-2b)采用k_means聚类算法,对数据集中每个数据对象xp,找出与数据对象xp相距的距离为下限值的聚类中心oi,并将数据对象xp分配到聚类中心oi所标明的类簇Ci中;
1-3-2c)计算聚类结果指标值SILHOUETTE;
1-3-3)当指标值为上限值时,其所对应的指标值k值即为所需选定的聚类数,所对用的聚类则为所需选定的聚类;
其中,指标值为上限值、即 S I L H O U E T T E = b ( t ) - a ( t ) m a x { a ( t ) , b ( t ) } ,
a(t)表示类簇Cj的数据对象t与类簇Cj中所有数据对象的平均距离,令d(t,Ci)表示类簇Cj的数据对象t与另一类簇Ci中所有数据对象的平均距离,则b(t)=min{d(t,Ci)},i=1,2,…,k且k≠j。
本发明进一步设置为,所述步骤2)对k个类簇进行划分,划分生成大类簇集BC和小类簇集SC,具体包括以下步骤:
2-1)对k个类簇进行排序;
假设数据集被划分为类簇集合,根据每个类簇包含的数据对象个数对k个类簇进行排序组成类簇序列C={C1,C2,…,Ck},令|Ci|(i∈[1,k])表示类簇Ci包含的数据对象个数,k表示类簇的个数,且|C1|≥|C2|≥…≥|Ck|;
2-2)将k个类簇划分为大类簇集BC和小类簇集SC;
基于步骤2-1)的类簇序列,假定|C1|+|C2|+…+|Cb|≥γ*|C|,|C|表示类簇包含的数据对象个数,则大类簇集BC={Ci|i≤b},小类簇集 S C = { C j | j > b } ;
其中,γ,为用户给定值,γ表示大类簇集占总数据集的比例,表示大类簇集规模与小类簇集规模的比值,b为大类簇集与小类簇集的边界。
本发明进一步设置为,所述步骤3)基于大小类簇的方法分别计算大类簇集内大类簇和小类簇集内小类簇中数据对象的离群因子,汇总形成离群因子序列,步骤为:
判断数据集中的每个数据对象o属于大类簇和小类簇中的哪一个,如果数据对象o属于小类簇Ci、即o∈Ci,则获取与数据对象o相距距离为下限值的大类簇Cj,计算数据对象o到大类簇Cj中心的距离;如果数据对象o属于大类簇Ck、即o∈Ck,则获取与数据对象o相距距离为下限值的大类簇Ck,计算数据对象o到大类簇Ck中心的距离;
根据式(2)计算每个数据对象o的离群因子BCOF(o),离群因子为基于类簇规模的平均距离,并将离群因子汇总形成离群因子序列L;
B C O F ( o ) = | | o - C j | | | C j | o ∈ C j , C j ∈ S C , C j ∈ B C | | o - C j | | Σ C j ∈ B C | C j | / | B C | o ∈ C j , C j ∈ B C - - - ( 2 )
其中,||o-Cj||表示数据对象o到大类簇Cj中心的距离,|Ci|表示小类簇Ci包含的数据对象个数,|Cj|表示大类簇Cj包含的数据对象个数,|BC|表示大类簇集BC中包含的大类簇个数。
本发明进一步设置为,所述步骤4)基于离群因子序列确定离群数据,是从离群因子序列中,将大于设定阈值α的离群因子确定为离群数据,将小于等于设定阈值α的离群因子确定为正常数据、即非离群数据。
与现有技术相比,本发明具有的有益效果是:
本发明提供的一种基于聚类的离群点检测方法,依次通过步骤,获取数据集并采用改进的k_means聚类算法计算出k个类簇,对k个类簇进行划分为大类簇集BC和小类簇集SC,基于大小类簇的方法计算数据对象的离群因子后汇总形成离群因子序列,基于离群因子序列确定离群数据;可有效地从大量数据集中发现隐藏在其中的离群数据,确定每个数据对象的离群度,检测准确高效,可广泛应用于金融和经济分析、电子通信、现代物流等领域。
上述内容仅是本发明技术方案的概述,为了更清楚的了解本发明的技术手段,下面结合附图对本发明作进一步的描述。
附图说明
图1为本发明一种基于聚类的离群点检测方法的流程图。
具体实施方式
下面结合说明书附图,对本发明作进一步的说明。
如图1所示,本发明提供一种基于聚类的离群点检测方法,包括以下步骤:
1)获取数据集并采用改进的k_means聚类算法计算出k个类簇;
1-1)获取数据集D;
数据集用D={x1,x2,…,xi,…,xn},i=1,2…n表示,其中,n为数据集D大小,xi为数据集中的数据对象;
1-2)采用最大最小聚类方法,初始化m个聚类中心;
1-2-a)根据式(1)计算数据集D中任意数据对象xi到样本中心的距离di,形成距离样本;
d i = Σ j = 1 , i ≠ j n | | x i - x ‾ | | - - - ( 1 )
其中,xi数据对象,i=1,2…n,为样本中心、即为数据集中所有数据对象样本的均值,样本中心的计算公式为
从距离样本中选取与样本中心相距的距离为下限值的第一样本xa,作为第一个初始聚类中心o1
1-2-b)当初始化m=2时,从数据集中除第一样本xa、选出与第一样本xa相距的距离为上限值的第二样本xb作为第二个初始聚类中心o2
1-2-c)当初始化m=3时,从数据集中除第一样本xa和第二样本xb、计算任意数据对象xi到第一样本xa和第二样本xb的距离分别为dia和dib,取di为dia和dib中的下限值、即di=min(dia,dib);
遍历数据集中除第一样本xa和第二样本xb外其余数据对象,形成除第一样本xa和第二样本xb外的数据对象距离集di(i≤n,i≠a,i≠b);
从di(i≤n,i≠a,i≠b)中选取上限值、获得对应的数据对象xc作为第三个聚类中心o3
1-2-d)当初始化m≤k时,针对已经获得的k-1个初始聚类中心,计算未被作为聚类中心的数据对象xj到每一聚类中心的距离djp(p=1,2…,k-1),取dj为djp中的下限值、即dj=min(dj1,dj2,…,dj(k-1)),其中,j=1,2…n;
遍历数据集中未被作为聚类中心的数据对象,形成除k-1个初始聚类中心外的数据对象距离集,并从中选取距离上限值对应的数据对象xq作为第m个聚类中心om
1-3)采用改进的k_means聚类算法,计算出k个类簇;
1-3-1)选择聚类数搜索范围[kmin,kmax],其中,kmin=2,n为数据集D大小;
1-3-2)Fork=kmintokmax,即循环执行如下操作,
1-3-2a)按照步骤1-2)的方法初始化k个初始聚类中心ok
1-3-2b)采用k_means聚类算法,对数据集中每个数据对象xp,找出与数据对象xp相距的距离为下限值的聚类中心oi,并将数据对象xp分配到聚类中心oi所标明的类簇Ci中;
1-3-2c)计算聚类结果指标值SILHOUETTE;
1-3-3)当指标值为上限值时,其所对应的指标值k值即为所需选定的聚类数,所对用的聚类则为所需选定的聚类;
其中,指标值为上限值、即 S I L H O U E T T E = b ( t ) - a ( t ) m a x { a ( t ) , b ( t ) } ,
a(t)表示类簇Cj的数据对象t与类簇Cj中所有数据对象的平均距离,令d(t,Ci)表示类簇Cj的数据对象t与另一类簇Ci中所有数据对象的平均距离,则b(t)=min{d(t,Ci)},i=1,2,…,k且k≠j。
2)对k个类簇进行划分,划分生成大类簇集BC和小类簇集SC;
依据每个类簇|Ci|(i=1,2…k)包含的数据对象个数对k个类簇进行排序,将包含的数据对象个数大于设定阈值的类簇划分入大类簇集BC,包含的数据对象个数小于设定阈值的类簇划分入小类簇集SC;具体包括以下步骤:
2-1)对k个类簇进行排序;
假设数据集被划分为类簇集合,根据每个类簇包含的数据对象个数对k个类簇进行排序组成类簇序列C={C1,C2,…,Ck},令|Ci|(i∈[1,k])表示类簇Ci包含的数据对象个数,k表示类簇的个数,且|C1|≥|C2|≥…≥|Ck|;
2-2)将k个类簇划分为大类簇集BC和小类簇集SC;
基于步骤2-1)的类簇序列,假定|C1|+|C2|+…+|Cb|≥γ*|C|,|C|表示类簇包含的数据对象个数,则大类簇集BC={Ci|i≤b},小类簇集 S C = { C j | j > b } ;
其中,γ,为用户给定值,γ表示大类簇集占总数据集的比例,表示大类簇集规模与小类簇集规模的比值,b为大类簇集与小类簇集的边界。
3)基于大小类簇的方法分别计算大类簇集内大类簇和小类簇集内小类簇中数据对象的离群因子,汇总形成离群因子序列;
首先,判断数据集中的每个数据对象o属于大类簇和小类簇中的哪一个,如果数据对象o属于小类簇Ci、即o∈Ci,则获取与数据对象o相距距离为下限值的大类簇Cj,计算数据对象o到大类簇Cj中心的距离;如果数据对象o属于大类簇Ck、即o∈Ck,则获取与数据对象o相距距离为下限值的大类簇Ck,计算数据对象o到大类簇Ck中心的距离;
接着,根据式(2)计算每个数据对象o的离群因子BCOF(o),离群因子为基于类簇规模的平均距离,并将离群因子汇总形成离群因子序列L;
B C O F ( o ) = | | o - C j | | | C j | o ∈ C j , C j ∈ S C , C j ∈ B C | | o - C j | | Σ C j ∈ B C | C j | / | B C | o ∈ C j , C j ∈ B C - - - ( 2 )
其中,||o-Cj||表示数据对象o到大类簇Cj中心的距离,|Ci|表示小类簇Ci包含的数据对象个数,|Cj|表示大类簇Cj包含的数据对象个数,|BC|表示大类簇集BC中包含的大类簇个数。
4)基于离群因子序列确定离群数据;
从离群因子序列L中,将大于设定阈值α的离群因子确定为离群数据,将小于等于设定阈值α的离群因子确定为正常数据、即非离群数据。
本发明采用改进的k_means聚类算法,采用最大最小距离算法设定初始聚类中心,随着聚类数的增加,原来的初始聚类中心不变,基于最大最小距离原则逐步增加初始聚类中心,使不同聚类数的初始聚类中心之间有继承关系;其最大最小距离算法基本思想是尽可能取离得远的数据对象作为聚类中心,运用聚类算法产生不同聚类数目的聚类结果,选择合适的有效性指标对聚类结果进行评估,根据评估结果确定最佳聚类数和最佳类簇。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种基于聚类的离群点检测方法,其特征在于,包括以下步骤:
1)获取数据集并采用改进的k_means聚类算法计算出k个类簇;
2)对k个类簇进行划分,划分生成大类簇集BC和小类簇集SC;
依据每个类簇|Ci|(i=1,2…k)包含的数据对象个数对k个类簇进行排序,将包含的数据对象个数大于设定阈值的类簇划分入大类簇集BC,包含的数据对象个数小于设定阈值的类簇划分入小类簇集SC;
3)基于大小类簇的方法分别计算大类簇集内大类簇和小类簇集内小类簇中数据对象的离群因子,汇总形成离群因子序列;
4)基于离群因子序列确定离群数据。
2.根据权利要求1所述的一种基于聚类的离群点检测方法,其特征在于,所述步骤1)获取数据集并采用改进的k_means聚类算法计算出k个类簇,具体包括以下步骤:
1-1)获取数据集D;
数据集用D={x1,x2,…,xi,…,xn},i=1,2…n表示,其中,n为数据集D大小,xi为数据集中的数据对象;
1-2)采用最大最小聚类方法,初始化m个聚类中心;
1-2-a)根据式(1)计算数据集D中任意数据对象xi到样本中心的距离di,形成距离样本;
d i = Σ j = 1 , i ≠ j n | | x i - x ‾ | | - - - ( 1 )
其中,xi数据对象,i=1,2…n,为样本中心、即为数据集中所有数据对象样本的均值,样本中心的计算公式为
从距离样本中选取与样本中心相距的距离为下限值的第一样本xa,作为第一个初始聚类中心o1
1-2-b)当初始化m=2时,从数据集中除第一样本xa、选出与第一样本xa相距的距离为上限值的第二样本xb作为第二个初始聚类中心o2
1-2-c)当初始化m=3时,从数据集中除第一样本xa和第二样本xb、计算任意数据对象xi到第一样本xa和第二样本xb的距离分别为dia和dib,取di为dia和dib中的下限值、即di=min(dia,dib);
遍历数据集中除第一样本xa和第二样本xb外其余数据对象,形成除第一样本xa和第二样本xb外的数据对象距离集di(i≤n,i≠a,i≠b);
从di(i≤n,i≠a,i≠b)中选取上限值、即获得对应的数据对象xc作为第三个聚类中心o3
1-2-d)当初始化m≤k时,针对已经获得的k-1个初始聚类中心,计算未被作为聚类中心的数据对象xj到每一聚类中心的距离djp(p=1,2…,k-1),取dj为djp中的下限值、即dj=min(dj1,dj2,…,dj(k-1)),其中,j=1,2…n;
遍历数据集中未被作为聚类中心的数据对象,形成除k-1个初始聚类中心外的数据对象距离集,并从中选取距离上限值对应的数据对象xq作为第m个聚类中心om
1-3)采用改进的k_means聚类算法,计算出k个类簇;
1-3-1)选择聚类数搜索范围[kmin,kmax],其中,kmin=2,n为数据集D大小;
1-3-2)Fork=kmintokmax,即循环执行如下操作,
1-3-2a)按照步骤1-2)的方法初始化k个初始聚类中心ok
1-3-2b)采用k_means聚类算法,对数据集中每个数据对象xp,找出与数据对象xp相距的距离为下限值的聚类中心oi,并将数据对象xp分配到聚类中心oi所标明的类簇Ci中;
1-3-2c)计算聚类结果指标值SILHOUETTE;
1-3-3)当指标值为上限值时,其所对应的指标值k值即为所需选定的聚类数,所对用的聚类则为所需选定的聚类;
其中,指标值为上限值、即
a(t)表示类簇Cj的数据对象t与类簇Cj中所有数据对象的平均距离,令d(t,Ci)表示类簇Cj的数据对象t与另一类簇Ci中所有数据对象的平均距离,则b(t)=min{d(t,Ci)},i=1,2,…,k且k≠j。
3.根据权利要求1所述的一种基于聚类的离群点检测方法,其特征在于,所述步骤2)对k个类簇进行划分,划分生成大类簇集BC和小类簇集SC,具体包括以下步骤:
2-1)对k个类簇进行排序;
假设数据集被划分为类簇集合,根据每个类簇包含的数据对象个数对k个类簇进行排序组成类簇序列C={C1,C2,…,Ck},令|Ci|(i∈[1,k])表示类簇Ci包含的数据对象个数,k表示类簇的个数,且|C1|≥|C2|≥…≥|Ck|;
2-2)将k个类簇划分为大类簇集BC和小类簇集SC;
基于步骤2-1)的类簇序列,假定|C1|+|C2|+…+|Cb|≥γ*|C|,|C|表示类簇包含的数据对象个数,则大类簇集BC={Ci|i≤b},小类簇集SC={Cj|j>b};
其中,为用户给定值,γ表示大类簇集占总数据集的比例,表示大类簇集规模与小类簇集规模的比值,b为大类簇集与小类簇集的边界。
4.根据权利要求1所述的一种基于聚类的离群点检测方法,其特征在于,所述步骤3)基于大小类簇的方法分别计算大类簇集内大类簇和小类簇集内小类簇中数据对象的离群因子,汇总形成离群因子序列,步骤为:
判断数据集中的每个数据对象o属于大类簇和小类簇中的哪一个,如果数据对象o属于小类簇Ci、即o∈Ci,则获取与数据对象o相距距离为下限值的大类簇Cj,计算数据对象o到大类簇Cj中心的距离;如果数据对象o属于大类簇Ck、即o∈Ck,则获取与数据对象o相距距离为下限值的大类簇Ck,计算数据对象o到大类簇Ck中心的距离;
根据式(2)计算每个数据对象o的离群因子BCOF(o),离群因子为基于类簇规模的平均距离,并将离群因子汇总形成离群因子序列L;
B C O F ( o ) = | | o - C j | | | C i | o ∈ C i , C i ∈ S C , C j ∈ B C | | o - C j | | Σ C j ∈ B C | C j | / | B C | o ∈ C j , C j ∈ B C - - - ( 2 )
其中,||o-Cj||表示数据对象o到大类簇Cj中心的距离,|Ci|表示小类簇Ci包含的数据对象个数,|Cj|表示大类簇Cj包含的数据对象个数,|BC|表示大类簇集BC中包含的大类簇个数。
5.根据权利要求1所述的一种基于聚类的离群点检测方法,其特征在于:所述步骤4)基于离群因子序列确定离群数据,是从离群因子序列中,将大于设定阈值α的离群因子确定为离群数据,将小于等于设定阈值α的离群因子确定为正常数据、即非离群数据。
CN201510848176.7A 2015-11-27 2015-11-27 一种基于聚类的离群点检测方法 Pending CN105512206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510848176.7A CN105512206A (zh) 2015-11-27 2015-11-27 一种基于聚类的离群点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510848176.7A CN105512206A (zh) 2015-11-27 2015-11-27 一种基于聚类的离群点检测方法

Publications (1)

Publication Number Publication Date
CN105512206A true CN105512206A (zh) 2016-04-20

Family

ID=55720188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510848176.7A Pending CN105512206A (zh) 2015-11-27 2015-11-27 一种基于聚类的离群点检测方法

Country Status (1)

Country Link
CN (1) CN105512206A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156795A (zh) * 2016-07-05 2016-11-23 中国银联股份有限公司 一种可疑洗钱账户的确定方法及装置
CN106377270A (zh) * 2016-09-18 2017-02-08 南京航空航天大学 一种基于计步传感器的飞行员异常检测方法
CN106682079A (zh) * 2016-11-21 2017-05-17 云南电网有限责任公司电力科学研究院 一种基于聚类分析的用户用电行为检测方法
CN106991436A (zh) * 2017-03-09 2017-07-28 东软集团股份有限公司 噪声点检测方法及装置
CN108241925A (zh) * 2016-12-23 2018-07-03 重庆邮电大学 一种基于离群点检测的离散制造机械产品质量溯源方法
CN108337226A (zh) * 2017-12-19 2018-07-27 中国科学院声学研究所 嵌入式智能终端异常数据的检测方法和嵌入式智能终端
CN108508294A (zh) * 2018-03-29 2018-09-07 深圳众厉电力科技有限公司 一种高铁电能质量监测系统
CN109298225A (zh) * 2018-09-29 2019-02-01 国网四川省电力公司电力科学研究院 一种电压量测数据异常状态自动识别模型及方法
CN112836747A (zh) * 2021-02-02 2021-05-25 首都师范大学 眼动数据的离群处理方法及装置、计算机设备、存储介质
CN116166960A (zh) * 2023-02-07 2023-05-26 河南大学 用于神经网络训练的大数据特征清洗方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156795A (zh) * 2016-07-05 2016-11-23 中国银联股份有限公司 一种可疑洗钱账户的确定方法及装置
CN106377270A (zh) * 2016-09-18 2017-02-08 南京航空航天大学 一种基于计步传感器的飞行员异常检测方法
CN106682079B (zh) * 2016-11-21 2020-06-05 云南电网有限责任公司电力科学研究院 一种基于聚类分析的用户用电行为检测方法
CN106682079A (zh) * 2016-11-21 2017-05-17 云南电网有限责任公司电力科学研究院 一种基于聚类分析的用户用电行为检测方法
CN108241925A (zh) * 2016-12-23 2018-07-03 重庆邮电大学 一种基于离群点检测的离散制造机械产品质量溯源方法
CN106991436A (zh) * 2017-03-09 2017-07-28 东软集团股份有限公司 噪声点检测方法及装置
CN108337226A (zh) * 2017-12-19 2018-07-27 中国科学院声学研究所 嵌入式智能终端异常数据的检测方法和嵌入式智能终端
CN108508294A (zh) * 2018-03-29 2018-09-07 深圳众厉电力科技有限公司 一种高铁电能质量监测系统
CN109298225A (zh) * 2018-09-29 2019-02-01 国网四川省电力公司电力科学研究院 一种电压量测数据异常状态自动识别模型及方法
CN109298225B (zh) * 2018-09-29 2020-10-09 国网四川省电力公司电力科学研究院 一种电压量测数据异常状态自动识别模型系统及方法
CN112836747A (zh) * 2021-02-02 2021-05-25 首都师范大学 眼动数据的离群处理方法及装置、计算机设备、存储介质
CN116166960A (zh) * 2023-02-07 2023-05-26 河南大学 用于神经网络训练的大数据特征清洗方法及系统
CN116166960B (zh) * 2023-02-07 2023-09-29 山东经鼎智能科技有限公司 用于神经网络训练的大数据特征清洗方法及系统

Similar Documents

Publication Publication Date Title
CN105512206A (zh) 一种基于聚类的离群点检测方法
CN103020423B (zh) 基于copula函数获取风电场出力相关特性的方法
CN109102028A (zh) 基于改进的快速密度峰值聚类和lof离群点检测算法
CN104699755B (zh) 一种基于数据挖掘的智能化多目标综合识别方法
CN103106344B (zh) 一种建立电力系统聚类负荷模型的方法
CN103592587A (zh) 基于数据挖掘的局部放电诊断方法
CN104933156A (zh) 一种基于共享近邻聚类的协同过滤方法
CN101694720B (zh) 基于空间关联条件概率融合的多时相sar图像变化检测方法
CN106786524A (zh) 基于类噪声信号及改进差分进化的负荷模型参数辨识方法
CN105631465A (zh) 一种基于密度峰值的高效层次聚类方法
CN104966102A (zh) 基于卫星图像的台风检测方法
CN107247962A (zh) 一种基于滑动窗口的实时电器识别方法和系统
Yang et al. Morphological classification of G-band bright points based on deep learning
CN104715160A (zh) 基于kmdb的软测量建模数据异常点检测方法
CN109658380A (zh) 基于前期林地矢量数据的林地变化检测方法
CN105468669A (zh) 一种融合用户关系的自适应微博话题追踪方法
WO2016086634A1 (zh) 一种拒绝率可控的Metropolis-Hastings图抽样算法
CN102982345A (zh) 基于连续小波变换的时序遥感影像半自动分类方法
CN106484671A (zh) 一种时效性查询内容的识别方法
CN106980872A (zh) 基于投票委员会的k最近邻分类方法
CN107507885B (zh) 基于多通道传感器数据的太阳能电池生产过程监测方法
CN105187383A (zh) 一种基于通信网络的行为异常检测方法
CN111382888A (zh) 风力发电机组的风速仪风速的修正方法及装置
CN115508615A (zh) 一种基于感应电动机的负荷暂态特征提取方法
CN108921207A (zh) 一种超参数确定方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160420

RJ01 Rejection of invention patent application after publication