CN110083665A - 基于改进的局部异常因子检测的数据分类方法 - Google Patents

基于改进的局部异常因子检测的数据分类方法 Download PDF

Info

Publication number
CN110083665A
CN110083665A CN201910368828.5A CN201910368828A CN110083665A CN 110083665 A CN110083665 A CN 110083665A CN 201910368828 A CN201910368828 A CN 201910368828A CN 110083665 A CN110083665 A CN 110083665A
Authority
CN
China
Prior art keywords
data
factor
point
peels
cluster centre
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910368828.5A
Other languages
English (en)
Inventor
游子毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Education University
Original Assignee
Guizhou Education University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Education University filed Critical Guizhou Education University
Priority to CN201910368828.5A priority Critical patent/CN110083665A/zh
Publication of CN110083665A publication Critical patent/CN110083665A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本发明公开了基于改进的局部异常因子检测的数据分类方法,包括:离群因子检测;相似性度量;初始聚类中心点的选取,通过自适应调整k距离参数的局部离群因子检测LOF算法筛选出离群因子较小的数据作为初始聚类中心的候选集;聚类中心的迭代优化。在优化聚类中心迭代阶段,利用离差标准化对数据间的离群因子进行标准化,使得新离群因子new_ri的取值范围为大于等于1。本发明提高对聚类中心定位以及簇划分的精确度。

Description

基于改进的局部异常因子检测的数据分类方法
技术领域
本发明属于数据处理技术领域,具体来说涉及基于改进的局部异常因子检测的数据分类方法。
背景技术
目前,利用聚类分析实现数据的分类已成为数据挖掘领域中必不可少的技术,在商业、保险行业、生物学、电子商务等领域具有广泛的应用前景。
聚类算法种类繁多,包括基于距离划分的K-means算法、基于隶属度划分的FCM模糊聚类等。其中K-means算法具有思路简单、易于实现且聚类速度快的优点,但其聚类中心易受离群点和异常点的影响而导致聚类陷入局部最优。因此,该算法在数据分类上的应用及优化一直备受关注。在已见报道中,唐东凯等[12]针对初始聚类中心的优化提出了改进方案。该方案利用各数据的离群因子缩小初始聚类中心的候选集,缓减了离群点对选取初始聚类中心的干扰。Mahdi Hashemzadeh等使用集群加权的方法减轻FCM的初始化灵敏度,并提出自动局部特征加权方法适当地加权每个簇的特征,以提高聚类的准确率。Teng Li等通过潜变量(MKKLV)算法开发并提出了一种多核k-means聚类,可以针对每个样本自适应地调整基础核。Ravi Sankar等提出了利用信息熵的相似系数分析k-modes算法的时间复杂度,以在保持k-modes算法的可扩展性同时提高了聚类精度。R.J等将遗传算法与模糊k-modes算法相结合,优化了初始聚类中心点的选取。但是,以上针对K-means算法的改进均没有考虑到簇内数据的相关性,这往往导致聚类结果准确率稳定性差从而达不到预期要求。
发明内容
本发明的目的在于克服上述缺点而提供的一种提高对聚类中心定位以及簇划分的精确度的基于改进的局部异常因子检测的数据分类方法。
本发明目的及解决其主要技术问题是采用以下技术方案来实现的:
本发明的基于改进的局部异常因子检测的数据分类方法,包括以下步骤:
(1)离群因子检测
根据原始K-means算法在选取聚类中心点时的缺陷,提出了依据数据集中每个数据点的离群因子来排除离群点的方法,得出离群因子的计算公式(I)如下:
表示为点p的领域点Nk(p)的局部可达密度与点p的局部可达密度之比的平均值;
如果LOF值趋向1,说明p与其领域点的密度相近,p与该领域属于同一簇的可能性大;LOF越小于1,说明p的密度高于其领域点密度,即p为密集点;相反,LOF越大于1,则p越可能是异常点;
(2)相似性度量
对数据集的每一个属性如公式(II)进行初步的预处理:
Xij=xij/max(xij) (II)
其中,max(xij)表示数据第j列的最大值;
分别根据公式(III)和(IV)计算出数据中每个属性的熵值与权值:
根据公式(V)计算出来的权值计算数据点之间加权欧式距离:
(3)初始聚类中心点的选取
挑选出距离聚类中心点较近的部分数据作为初始聚类中心的候选集,具体步骤如下:
Step1:由公式(I)计算出数据中每个数据点的离群因子,并按离群因子值从小到大进行排列形成数据集记为DL
Step2:在DL上选取前a*N(0<a≤1,N为数据集的大小)个数据对象作为初始聚类中心的候选集F(a的大小可自适应调整);
Step3:计算数据集F中所有数据的中心点c0,利用相似性度量,找到距离c0最远的数据点c1,把c1记作第一个初始聚类中心点,再次找到距离c1最远的点c2,将c2记作第二个初始聚类中心点,建立集合C={c1,c2};
Step4:计算剩余数据对象xj分别到集合C={c1,c2}的加权距离,记作disc1,disc2,…,disci,找到点ci+1=max{min(discj1,discj2,…,discji),i+1≤k,xj∈F},将ci+1记为第i+1个初始聚类中心点,即C={c1,c2,…,ci+1};Step5:重复Step 4,直到找到k个初始聚类中心点;
(4)聚类中心的迭代优化
采用离群因子对数据间距离进行加权,具体实现过程如下:
Step1:将当前轮k个聚类中心点加入到候选集F中形成新集合F’,计算出F’中每一个对象的离群因子ri(i∈F’),并找出ri的最大值与最小值。
Step2:利用离差标准化对数据间的离群因子进行标准化,使得新离群因子new_ri的取值范围为大于等于1,具体计算见公式(Ⅵ)。
在公式(Ⅵ)中,Max_r表示离群因子最大值,Min_r表示离群因子最小值。
Step3:计算F’中每一个对象xj到聚类中心ci的加权距离disw(xj,ci),然后与离群因子new_ri相乘,见公式(Ⅶ)。
Dji=disw(xj,ci)×new_ri (Ⅶ)
Step4:计算每个对象xj到聚类中心集C={c1,c2,…,ck}中各点的最小真实距离Min_Dji,并将对象xj归为ci的类中。
Step5:计算同一簇中所有对象的均值作为新的聚类中心,更新聚类中心集C'={c'1,c'2,…,c'k}。
Step6:重复Step1-Step 5直到聚类中心不再发生变化。
上述的基于改进的局部异常因子检测的数据分类方法,其中步骤(3)中Step1的公式(I)计算出数据中每个数据点的离群因子的方法为:
通过自适应调整k距离参数的局部离群因子检测(LOF)算法筛选出离群因子较小的数据作为初始聚类中心的候选集。LOF算法的k距离参数由如下公式自适应调整。
k_dist=β×num(dataset) (Ⅷ)
其中,num(dataset)表示集合dataset的数据对象个数,β值可根据实际经验实际地设置为0.03。
上述的基于改进的局部异常因子检测的数据分类方法,其中步骤(4)中Step2的在优化聚类中心迭代阶段离群因子优化方法为:
在优化聚类中心迭代阶段,利用离差标准化对数据间的离群因子进行标准化,使得新离群因子new_ri的取值范围为大于等于1,具体计算见公式(Ⅵ)
在公式(Ⅵ)中,Max_r表示离群因子最大值,Min_r表示离群因子最小值。
本发明同现有技术相比,具有明显的优点和有益效果,由以上技术方案可知,本发明为避免离群点对初始聚类中心准确性产生影响,通过自适应调整k距离参数的局部离群因子检测(LOF)算法筛选出离群因子较小的数据作为初始聚类中心的候选集。在优化聚类中心迭代阶段,利用离群因子加权距离方法提高对聚类中心定位以及簇划分的精确度。实践证明了该优化算法对于数据分类应用场景的有效性。
附图说明
图1为实验中k参数的取值
具体实施方式
本发明的基于改进的局部异常因子检测的数据分类方法,包括以下步骤:
(1)离群因子检测
根据原始K-means算法在选取聚类中心点时的缺陷,提出了依据数据集中每个数据点的离群因子来排除离群点的方法,得出离群因子的计算公式(I)如下:
表示为点p的领域点Nk(p)的局部可达密度与点p的局部可达密度之比的平均值;
如果LOF值趋向1,说明p与其领域点的密度相近,p与该领域属于同一簇的可能性大;LOF越小于1,说明p的密度高于其领域点密度,即p为密集点;相反,LOF越大于1,则p越可能是异常点;
(2)相似性度量
对数据集的每一个属性如公式(II)进行初步的预处理。
Xij=xij/max(xij) (II)
其中,max(xij)表示数据第j列的最大值。
分别根据公式(III)和(IV)计算出数据中每个属性的熵值与权值。
根据公式(V)计算出来的权值计算数据点之间加权欧式距离。
(3)初始聚类中心点的选取
挑选出距离聚类中心点较近的部分数据作为初始聚类中心的候选集,具体步骤如下:
Step1:由公式(I)计算出数据中每个数据点的离群因子,并按离群因子值从小到大进行排列形成数据集记为DL;公式(I)计算出数据中每个数据点的离群因子的方法为:
通过自适应调整k距离参数的局部离群因子检测(LOF)算法筛选出离群因子较小的数据作为初始聚类中心的候选集。LOF算法的k距离参数由如下公式自适应调整。
k_dist=β×num(dataset) (Ⅷ)
其中,num(dataset)表示集合dataset的数据对象个数,β值可根据实际经验实际地设置为0.03。
Step2:在DL上选取前a*N(0<a≤1,N为数据集的大小)个数据对象作为初始聚类中心的候选集F(a的大小可自适应调整);
Step3:计算数据集F中所有数据的中心点c0,利用相似性度量,找到距离c0最远的数据点c1,把c1记作第一个初始聚类中心点,再次找到距离c1最远的点c2,将c2记作第二个初始聚类中心点,建立集合C={c1,c2};
Step4:计算剩余数据对象xj分别到集合C={c1,c2}的加权距离,记作disc1,disc2,…,disci,找到点ci+1=max{min(discj1,discj2,…,discji),i+1≤k,xj∈F},将ci+1记为第i+1个初始聚类中心点,即C={c1,c2,…,ci+1};Step5:重复Step 4,直到找到k个初始聚类中心点;
(4)聚类中心的迭代优化
采用离群因子对数据间距离进行加权,具体实现过程如下:
Step1:将当前轮k个聚类中心点加入到候选集F中形成新集合F’,计算出F’中每一个对象的离群因子ri(i∈F’),并找出ri的最大值与最小值。
Step2:利用离差标准化对数据间的离群因子进行标准化,使得新离群因子new_ri的取值范围为大于等于1,具体计算见公式(Ⅵ)。
在公式(Ⅵ)中,Max_r表示离群因子最大值,Min_r表示离群因子最小值。在优化聚类中心迭代阶段离群因子优化方法为:
在优化聚类中心迭代阶段,利用离差标准化对数据间的离群因子进行标准化,使得新离群因子new_ri的取值范围为大于等于1,具体计算见公式(Ⅵ)
在公式(Ⅵ)中,Max_r表示离群因子最大值,Min_r表示离群因子最小值。
Step3:计算F’中每一个对象xj到聚类中心ci的加权距离disw(xj,ci),然后与离群因子new_ri相乘,见公式(Ⅶ)。
Dji=disw(xj,ci)×new_ri (Ⅶ)
Step4:计算每个对象xj到聚类中心集C={c1,c2,…,ck}中各点的最小真实距离Min_Dji,并将对象xj归为ci的类中。
Step5:计算同一簇中所有对象的均值作为新的聚类中心,更新聚类中心集C'={c'1,c'2,...,c'k}。
Step6:重复Step1-Step 5直到聚类中心不再发生变化。
实验例:证明本发明方法的实用性,具体步骤如下:
选取UCI数据库中的Iris、Wine、Seeds、Wifi Localization、CMC、Abalone六个公共数据集,分别对K-means++、FCM、OFMMK-means以及优化的算法进行了测试结果显示。所用数据集的具体描述如表1所示。
表1为实验所数据集
在LOF算法中,参数k_dist表示检测的邻域点数量。该值越大,所选取的样本点越多,聚类的准确性越容易受到LOF值的影响。本文利用以上六个数据集对参数k_dist的取值做了以下实验,如图1所示。
将K-means++算法、FCM算法、OFMMK-means算法以及所提出的优化算法在样本数据集Iris、Wine、Seeds、Wifi Localization、CMC及Abalone上运行十次,分别将运行结果的平均准确率与时间进行比较,其结果如表2和表3所示。
由表2可看出,优化算法在各个数据集中聚类的准确率都高于K-means++算法、FCM算法及OFMMK-means算法。如表3所示,由于优化算法要计算每个数据点的信息熵与离群因子,所以运行时间相比K-means++算法和OFMMK-means算法略长一些,但是明显低于FCM算法。综上,优化算法在提高准确率的同时,耗时相对减少,可见该算法在数据分类应用场景上的有效性。
表2为样本数据在不同算法上的平均准确率
表3为样本数据在不同算法上的平均准确率
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,任何未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (2)

1.基于改进的局部异常因子检测的数据分类方法,包括以下步骤:
(1)离群因子检测
根据原始K-means算法在选取聚类中心点时的缺陷,提出了依据数据集中每个数据点的离群因子来排除离群点的方法,得出离群因子的计算公式(I)如下:
(I)
表示为点p的领域点Nk(p)的局部可达密度与点p的局部可达密度之比的平均值;
如果LOF值趋向1,说明p与其领域点的密度相近,p与该领域属于同一簇的可能性大;LOF越小于1,说明p的密度高于其领域点密度,即p为密集点;相反,LOF越大于1,则p越可能是异常点;
(2)相似性度量
对数据集的每一个属性如公式(II)进行初步的预处理:
(II)
其中,max(xij)表示数据第j列的最大值;
分别根据公式(III)和(IV)计算出数据中每个属性的熵值与权值:
(III)
(IV)
根据公式(V)计算出来的权值计算数据点之间加权欧式距离:
(V)
(3)初始聚类中心点的选取
挑选出距离聚类中心点较近的部分数据作为初始聚类中心的候选集,具体步骤如下:
Step1:由公式(I)计算出数据中每个数据点的离群因子,并按离群因子值从小到大进行排列形成数据集记为DL
Step2:在DL上选取前a*N(0<a≤1,N为数据集的大小)个数据对象作为初始聚类中心的候选集F(a的大小可自适应调整);
Step3:计算数据集F中所有数据的中心点c0,利用相似性度量,找到距离c0最远的数据点c1,把c1记作第一个初始聚类中心点,再次找到距离c1最远的点c2,将c2记作第二个初始聚类中心点,建立集合C={c1,c2};
Step4:计算剩余数据对象xj分别到集合C={c1,c2}的加权距离,记作disc1,disc2,…,disci,找到点ci+1=max{min(discj1,discj2,…,discji),i+1≤k,xj∈F},将ci+1记为第i+1个初始聚类中心点,即C={c1,c2,…,ci+1};Step5:重复Step 4,直到找到k个初始聚类中心点;
(4)聚类中心的迭代优化
采用离群因子对数据间距离进行加权,具体实现过程如下:
Step1:将当前轮k个聚类中心点加入到候选集F中形成新集合F’,计算出F’中每一个对象的离群因子ri(i∈F’),并找出ri的最大值与最小值;
Step2:利用离差标准化对数据间的离群因子进行标准化,使得新离群因子new_ri的取值范围为大于等于1,具体计算见公式(Ⅵ);
(Ⅵ)
在公式(Ⅵ)中,Max_r表示离群因子最大值,Min_r表示离群因子最小值;
Step3: 计算F’中每一个对象xj到聚类中心ci的加权距离disw(xj,ci),然后与离群因子new_ri相乘,见公式(Ⅶ);
(Ⅶ)
Step4:计算每个对象xj到聚类中心集C={c1,c2,…,ck}中各点的最小真实距离Min_Dji,并将对象xj归为ci的类中;
Step5: 计算同一簇中所有对象的均值作为新的聚类中心,更新聚类中心集
Step6: 重复Step1-Step 5直到聚类中心不再发生变化;
其特征在于:步骤(3)中 Step1的公式(I)计算出数据中每个数据点的离群因子的方法为:
通过自适应调整k距离参数的局部离群因子检测LOF算法筛选出离群因子较小的数据作为初始聚类中心的候选集,LOF算法的k距离参数由如下公式自适应调整;
(Ⅷ)
其中, num(dataset)表示集合dataset的数据对象个数,β值可根据实际经验实际地设置为0.03。
2.如权利要求1所述的基于改进的局部异常因子检测的数据分类方法,其中步骤(4)中Step2的在优化聚类中心迭代阶段离群因子优化方法为:
在优化聚类中心迭代阶段,利用离差标准化对数据间的离群因子进行标准化,使得新离群因子new_ri的取值范围为大于等于1,具体计算见公式(Ⅵ)
(Ⅵ)
在公式(Ⅵ)中,Max_r表示离群因子最大值,Min_r表示离群因子最小值。
CN201910368828.5A 2019-05-05 2019-05-05 基于改进的局部异常因子检测的数据分类方法 Pending CN110083665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910368828.5A CN110083665A (zh) 2019-05-05 2019-05-05 基于改进的局部异常因子检测的数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910368828.5A CN110083665A (zh) 2019-05-05 2019-05-05 基于改进的局部异常因子检测的数据分类方法

Publications (1)

Publication Number Publication Date
CN110083665A true CN110083665A (zh) 2019-08-02

Family

ID=67418552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910368828.5A Pending CN110083665A (zh) 2019-05-05 2019-05-05 基于改进的局部异常因子检测的数据分类方法

Country Status (1)

Country Link
CN (1) CN110083665A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889441A (zh) * 2019-11-19 2020-03-17 海南电网有限责任公司海南输变电检修分公司 一种基于距离和点密度的变电设备数据异常识别方法
CN111125470A (zh) * 2019-12-25 2020-05-08 成都康赛信息技术有限公司 一种提升异常数据挖掘筛选的方法
CN111160382A (zh) * 2019-09-29 2020-05-15 山西大学 一种处理现实生活中分类型数据的有效方法
CN111198979A (zh) * 2019-12-31 2020-05-26 中国电力科学研究院有限公司 一种用于对输变电可靠性评估大数据进行清洗的方法及系统
CN112130154A (zh) * 2020-08-21 2020-12-25 哈尔滨工程大学 一种融合网格LOF的自适应K-means离群去约束优化方法
CN112230056A (zh) * 2020-09-07 2021-01-15 国网河南省电力公司电力科学研究院 基于OFMMK-Means聚类和复合分位数回归多谐波源贡献计算方法
CN112492633A (zh) * 2020-11-25 2021-03-12 中国电子科技集团公司第五十四研究所 一种基于改进局部异常因子的无线节点故障诊断方法
CN112598041A (zh) * 2020-12-17 2021-04-02 武汉大学 一种基于k-means算法的配电网云平台数据校验方法
CN114046873A (zh) * 2021-11-17 2022-02-15 国家电网有限公司 一种基于lof-fcm模糊聚类算法的电抗器振动监测系统
CN114362973A (zh) * 2020-09-27 2022-04-15 中国科学院软件研究所 结合K-means和FCM聚类的流量检测方法及电子装置
CN116432088A (zh) * 2023-05-04 2023-07-14 常宝新材料(苏州)有限公司 一种复合光学薄膜层厚智能监测方法及系统
CN117474539A (zh) * 2023-12-25 2024-01-30 青岛天高智慧科技有限公司 一种校园一卡通数据智能管理方法
CN117649059B (zh) * 2024-01-30 2024-05-17 河北省农林科学院农业信息与经济研究所 一种用于数字化育种流程的成果评价优化方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160382A (zh) * 2019-09-29 2020-05-15 山西大学 一种处理现实生活中分类型数据的有效方法
CN110889441A (zh) * 2019-11-19 2020-03-17 海南电网有限责任公司海南输变电检修分公司 一种基于距离和点密度的变电设备数据异常识别方法
CN111125470A (zh) * 2019-12-25 2020-05-08 成都康赛信息技术有限公司 一种提升异常数据挖掘筛选的方法
CN111198979A (zh) * 2019-12-31 2020-05-26 中国电力科学研究院有限公司 一种用于对输变电可靠性评估大数据进行清洗的方法及系统
CN112130154A (zh) * 2020-08-21 2020-12-25 哈尔滨工程大学 一种融合网格LOF的自适应K-means离群去约束优化方法
CN112230056B (zh) * 2020-09-07 2022-04-26 国网河南省电力公司电力科学研究院 一种基于OFMMK-Means聚类和复合分位数回归多谐波源贡献计算方法
CN112230056A (zh) * 2020-09-07 2021-01-15 国网河南省电力公司电力科学研究院 基于OFMMK-Means聚类和复合分位数回归多谐波源贡献计算方法
CN114362973B (zh) * 2020-09-27 2023-02-28 中国科学院软件研究所 结合K-means和FCM聚类的流量检测方法及电子装置
CN114362973A (zh) * 2020-09-27 2022-04-15 中国科学院软件研究所 结合K-means和FCM聚类的流量检测方法及电子装置
CN112492633B (zh) * 2020-11-25 2022-04-22 中国电子科技集团公司第五十四研究所 一种基于改进局部异常因子的无线节点故障诊断方法
CN112492633A (zh) * 2020-11-25 2021-03-12 中国电子科技集团公司第五十四研究所 一种基于改进局部异常因子的无线节点故障诊断方法
CN112598041A (zh) * 2020-12-17 2021-04-02 武汉大学 一种基于k-means算法的配电网云平台数据校验方法
CN112598041B (zh) * 2020-12-17 2023-05-30 武汉大学 一种基于k-means算法的配电网云平台数据校验方法
CN114046873A (zh) * 2021-11-17 2022-02-15 国家电网有限公司 一种基于lof-fcm模糊聚类算法的电抗器振动监测系统
CN116432088A (zh) * 2023-05-04 2023-07-14 常宝新材料(苏州)有限公司 一种复合光学薄膜层厚智能监测方法及系统
CN116432088B (zh) * 2023-05-04 2023-11-07 常宝新材料(苏州)有限公司 一种复合光学薄膜层厚智能监测方法及系统
CN117474539A (zh) * 2023-12-25 2024-01-30 青岛天高智慧科技有限公司 一种校园一卡通数据智能管理方法
CN117474539B (zh) * 2023-12-25 2024-03-29 青岛天高智慧科技有限公司 一种校园一卡通数据智能管理方法
CN117649059B (zh) * 2024-01-30 2024-05-17 河北省农林科学院农业信息与经济研究所 一种用于数字化育种流程的成果评价优化方法

Similar Documents

Publication Publication Date Title
CN110083665A (zh) 基于改进的局部异常因子检测的数据分类方法
CN109389608B (zh) 以平面为聚类中心具有抗噪性的模糊聚类图像分割方法
Singh et al. Evolving limitations in K-means algorithm in data mining and their removal
CN105930856A (zh) 基于改进dbscan-smote算法的分类方法
CN106960214A (zh) 基于图像的物体识别方法
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN109543723A (zh) 一种鲁棒的图像聚类方法
CN110751121A (zh) 基于聚类与sofm的无监督雷达信号分选方法
Cengil et al. A hybrid approach for efficient multi‐classification of white blood cells based on transfer learning techniques and traditional machine learning methods
CN111275132A (zh) 一种基于sa-pfcm++算法的目标分群方法
CN109150830A (zh) 一种基于支持向量机和概率神经网络的层次入侵检测方法
CN108664653A (zh) 一种基于K-means的医疗消费客户自动分类方法
CN110852888A (zh) 一种基于粒子滤波的证券投资组合优化方法
CN111126467A (zh) 一种基于多目标正余弦算法的遥感影像空谱聚类方法
CN110532867A (zh) 一种基于黄金分割法的人脸图像聚类方法
CN110032973A (zh) 一种基于人工智能的无监督寄生虫分类方法及系统
CN114862337A (zh) 基于改进k均值算法的异常项目筛选方法
Cui et al. Weighted particle swarm clustering algorithm for self-organizing maps
CN112488773A (zh) 智能电视用户分类方法、计算机设备及存储介质
Mishra et al. Efficient intelligent framework for selection of initial cluster centers
CN108345864B (zh) 基于加权聚类的随机集合型雷达辐射源信号参数高频模式挖掘方法
Li et al. Accelerated Fuzzy C-Means Clustering Based on New Affinity Filtering and Membership Scaling
CN112818152A (zh) 一种深度聚类模型的数据增强方法和装置
CN105912887B (zh) 一种改进型基因表达式编程-模糊c均值作物数据分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination