CN110503134A - 一种基于流行距离核的迁移谱聚处理方法 - Google Patents

一种基于流行距离核的迁移谱聚处理方法 Download PDF

Info

Publication number
CN110503134A
CN110503134A CN201910691192.8A CN201910691192A CN110503134A CN 110503134 A CN110503134 A CN 110503134A CN 201910691192 A CN201910691192 A CN 201910691192A CN 110503134 A CN110503134 A CN 110503134A
Authority
CN
China
Prior art keywords
source domain
data
matrix
calculates
shared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910691192.8A
Other languages
English (en)
Inventor
齐晓轩
董海
卞永钊
周兆元
刘英英
都丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang University
Original Assignee
Shenyang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang University filed Critical Shenyang University
Priority to CN201910691192.8A priority Critical patent/CN110503134A/zh
Publication of CN110503134A publication Critical patent/CN110503134A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于流行距离核的迁移谱聚处理方法,涉及一种相似性度量聚类处理方法,该方法针对目标域数据匮乏或或者是结构复杂等问题,提出一种学习方法可以有效利用源域知识提高目标域的聚类性能,传统相似性度量方法是基于欧式距离,缺点是无法反映聚类数据的复杂空间结构。因此本发明公开了一种基于流形距离核的迁移谱聚类的数据处理方法。该方法既充分考虑样本聚类的全局一致性和复杂的空间分布特征,又包含了数据分布的局部结构,且利用迁移学习方法可充分挖掘源域与目标域的潜在联系,利用源域的知识辅助目标域聚类,从而在整体上提高了数据集的聚类性能。

Description

一种基于流行距离核的迁移谱聚处理方法
技术领域
本发明涉及涉及一种相似性度量聚类处理方法,特别是涉及一种基于流行距离核的迁移谱聚处理方法。
背景技术
聚类方法是一种运用广泛的探索性数据分析技术,人们对数据产生的第一直觉往往是通过对数据进行有意义的分组。但是在面对领域中可用数据的匮乏或者采集数据中存在大量的复杂结构等问题时,传统的聚类算法很难达到良好的效果,所以近年来,迁移学习引起了广泛的关注和研究。迁移学习是运用已存在的知识对不同但相关领域问题进行求解的一种新的机器学习方法,通俗的理解为:一个人要是学会了自行车,学习自行车的经验就会帮助他更容易学会开摩托车;一个人要是熟悉五子棋,也可以将学习五子棋的知识迁移到学习围棋中,帮助学习五子棋。所以迁移学习方法可以在一定程度上有效利用在某个领域上学习到的知识或模式(源域的数据和知识)指导当前不同但相关领域中数据的聚类任务,从而提高聚类性能。所以如何利用迁移学习提高聚类性能,很多研究人员提出了一些解决方法:发表的文献主要包括《科学与探索》的域间F-范数正则化迁移谱聚类方法,《控制与决策》的知识qia难以极大熵聚类算法等。
申请号为CN201210384176.2的专利,一种具备迁移学习能力的模糊聚类图像分割方法。这种迁移学习方法主要通过来自源域的高级知识迁移,数据迁移,源域聚类中心和基于历史隶属度的知识迁移等。
上述迁移聚类方法虽然利用已知的源域知识能够帮助提高目标域的聚类效果,但是没有考虑数据聚类复杂的空间分布特性,皆是以欧式距离作为相似性度量方法,对于一些特殊分布的数据集,却达不到理想效果。于是在欧式距离的基础上,流行距离被提出,这种距离测度提高了对一些特殊数据集的聚类效果。
发明内容
本发明的目的在于提供一种基于流行距离核的迁移谱聚处理方法,本发明在域间F-范数正则化迁移谱聚类方法的基础上,使用流形距作为相似性度量方法,对其迁移谱聚类算法中的源域与目标域数据的相似性矩阵W进行改进,提出了一种基于流行距离核的迁移谱聚类的数据处理方法。该方法可以充分考虑数据聚类的复杂的空间分布特性,且有已知历史数据辅助,比原始谱聚类方法聚类效果更加准确、可靠。
本发明的目的是通过以下技术方案实现的:
一种基于流行距离核的迁移谱聚处理方法,所述方法包括如下处理步骤:
步骤1 从源域中选取目标域的可参照样本:
步骤1.1对输入目标域数据集和源域数据集,使用第K近邻机制,从源域挑选出目标域任一个样本的一可参照样本,选取方法采用网格搜索法,形成新的可参照样本集;
步骤2 计算源域数据的加权局部密度自适应的流行距离核的相似度矩阵
步骤2.1通过迪杰特斯拉算法对源域任意两点数据之进行最短路径选择,并计算最短路径和
步骤2.2计算源域数据集参数,其中
步骤2.3计算,该项可以对相似度矩阵准确性进行调整;SNN为共享近邻的个数,当两个点的共享最近邻的点的个数多,则值大,当共享近邻点的个数少时,的值小;当共享近邻数为0时,,即对相似性不做调整;
步骤2.4计算源域的相似度矩阵相似度矩阵
步骤3. 源域数据的新的特征矩阵:
步骤3.1计算源域数据的拉普拉斯矩阵,其中对角元素为:
构造对角矩阵:,构造拉普拉斯矩阵:,拉普拉斯矩阵标准化:
步骤3.2 对进行特征分解取前k个最小特征值对应的特征向量,并标准化得源域数据的新的特征矩阵
步骤4 计算目标域数据的加权局部密度自适应的流行距离核的相似度矩阵
步骤4.1通过迪杰特斯拉算法对源域任意两点数据之进行最短路径选择,并计算最短路径和
步骤4.2计算源域数据集参数,其中
步骤4.3计算,该项可以对相似度矩阵准确性进行调整;SNN为共享近邻的个数,当两个点的共享最近邻的点的个数多,则值大,当共享近邻点的个数少时,的值小;当共享近邻数为0时,,即对相似性不做调整;
步骤4.4计算目标域的相似度矩阵相似度矩阵:
步骤5计算目标域的拉普拉斯矩阵,其中对角元素为:
构造对角矩阵:,构造拉普拉斯矩阵:,拉普拉斯矩阵标准化:
步骤6计算拉普拉斯,对拉普拉斯矩阵进行特征分解,取前k个最小特征值组成新的特征矩阵
步骤9将的每一行看成是空间内的一点,使用模糊c均值算法(FCM)或其它聚类算法将其聚为c类。
本发明的优点与效果是:
本发明将流行距离核与迁移学习引入到谱聚类算法中,发挥谱聚类算法具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点,并在此基础上提出一种基于流行距离核的迁移谱聚类算法,既充分考虑样本聚类的全局一致性和复杂的空间分布特征,又包含了数据分布的局部结构,且将源域的已知信息迁移至目标域进行聚类指导,从而能更好的提高数据集的聚类性能。
本发明在域间F-范数正则化迁移谱聚类算法的基础上,利用流形距离作为相似性度量方法,发明了一种基于流形距离的迁移谱聚类的数据处理方法,它能充分挖掘数据集中的内在结构信息,较好地反映数据集局部和全局一致性,且在迁移学习基础上,利用源域知识指导目标域聚类,进一步的提高了传统谱聚类的聚类性能,相比原始谱聚类算法聚类效果有较大的提高。
附图说明
图1示出基于流行距离核的迁移谱聚类的数据处理方法流程图;
图2示出 实施列1源域数据原始聚类情况;
图3示出 实施列1目标域数据集在源域数据集指导下的聚类情况;
图4示出 实施列2源域数据原始聚类情况;
图5示出 实施列2目标域数据集在源域数据集指导下的聚类情况。
具体实施方式
下面结合附图所示实施例对本发明进行详细说明。
基于流行距离核的迁移谱聚类算法的数据处理方法,包括如下步骤:
步骤1 从源域中选取目标域的可参照样本:
步骤1.1对输入目标域数据集和源域数据集,使用第K近邻机制,从源域挑选出目标域任一个样本的一可参照样本,选取方法采用网格搜索法,形成新的可参照样本集。
步骤2 计算源域数据的加权局部密度自适应的流行距离核的相似度矩阵
步骤2.1通过迪杰特斯拉算法对源域任意两点数据之进行最短路径选择,并计算最短路径和
步骤2.2计算源域数据集参数,其中
步骤2.3计算,该项可以对相似度矩阵准确性进行调整。SNN为共享近邻的个数,当两个点的共享最近邻的点的个数多,则值大,当共享近邻点的个数少时,的值小。当共享近邻数为0时,,即对相似性不做调整。
步骤2.4计算源域的相似度矩阵相似度矩阵
步骤3. 源域数据的新的特征矩阵:
步骤3.1计算源域数据的拉普拉斯矩阵,其中对角元素为:
构造对角矩阵:,构造拉普拉斯矩阵:,拉普拉斯矩阵标准化:;
步骤3.2 对进行特征分解取前k个最小特征值对应的特征向量,并标准化得源域数据的新的特征矩阵
步骤4 计算目标域数据的加权局部密度自适应的流行距离核的相似度矩阵
步骤4.1通过迪杰特斯拉算法对源域任意两点数据之进行最短路径选择,并计算最短路径和
步骤4.2计算源域数据集参数,其中
步骤4.3计算,该项可以对相似度矩阵准确性进行调整。SNN为共享近邻的个数,当两个点的共享最近邻的点的个数多,则值大,当共享近邻点的个数少时,的值小。当共享近邻数为0时,,即对相似性不做调整。
步骤4.4计算目标域的相似度矩阵相似度矩阵:
步骤5计算目标域的拉普拉斯矩阵,其中对角元素为:
构造对角矩阵:,构造拉普拉斯矩阵:,拉普拉斯矩阵标准化:;
步骤6计算拉普拉斯,对拉普拉斯矩阵进行特征分解,取前k个最小特征值组成新的特征矩阵
步骤9将的每一行看成是空间内的一点,使用模糊c均值算法(FCM)或其它聚类算法将其聚为c类。
实施例1:
源域数据集采用高斯概率分布函数随机生成4类共400(4*100,一种颜色为一类)个数据样本的源域数据集M1,其中4类满足如下分布规律:第一类均值r1=[3,4],方差s1=[10 0;0 10];第二类均值为r2=[10,15],方差为s2=[25 0;0 7];第三类r3=[9,30],方差为s3=[300;0 20];第四类r4=[20 5],方差s4=[13 0;0 3]。
目标域数据集采用高斯概率分布函数随机生成4类80(4*20)个数据样本的目标域数据集M2,其中4类满足如下分布规律:第一类均值r11=[3.5 4],方差s11=[10 0;0 10];第二类均值为r22=[11 13],方差为s22=[25 0;0 7];第三类r33=[9.5,29],方差为s33=[300;0 10];第四类r4=[22 4.5],方差s4=[13 0;0 3]。
图2的效果图即源域数据分布情况,图3的效果图即本发明方法目标域的聚类效果数据分布情况,表1为与现有数据处理方法的对比,这些现有方法有:谱聚类(SC),基于流行距离核的谱聚类算法(SC-SDM),基于F—范数正则化迁移谱聚类方法(TSC-IDFR),模糊c均值聚类(FCM),TI-KT-CM,TII-KT-CM。采用归一化互信息(normalized mutualinformation,NMI)和兰德指数(rand index,RI)两种评价指标对实验数据进行评价。NMI和RI的取值范围均为[0,1],值越接近于1说明其聚类效果越佳。但本发明不应该局限于该实施例和附图所公开的内容。所以,凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
实施列2:
双月形数据集L1和L2。其中L1不含噪声,共121个数据点且分为上下两类,L2为受噪声干扰,共120个数据点且上下分类界限有重叠,边缘分布较复杂。
图4的效果图即源域数据分布情况,图5的效果图即本发明方法目标域的聚类效果数据分布情况,表1为与现有数据处理方法的对比,这些现有方法有:谱聚类(SC),基于流行距离核的谱聚类算法(SC-SDM),基于F—范数正则化迁移谱聚类方法(TSC-IDFR),模糊c均值聚类(FCM),TI-KT-CM,TII-KT-CM。采用归一化互信息(normalized mutualinformation,NMI)和兰德指数(rand index,RI)两种评价指标对实验数据进行评价。NMI和RI的取值范围均为[0,1],值越接近于1说明其聚类效果越佳。
表1示出 实施列1与实施列2与已有数据处理方法进行对比效果。
表1
本发明不应该局限于该实施例和附图所公开的内容。所以,凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。但本发明不应该局限于该实施例和附图所公开的内容。所以,凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (1)

1.一种基于流行距离核的迁移谱聚处理方法,其特征在于,所述方法包括如下处理步骤:
步骤1 从源域中选取目标域的可参照样本:
步骤1.1对输入目标域数据集和源域数据集,使用第K近邻机制,从源域挑选出目标域任一个样本的一可参照样本,选取方法采用网格搜索法,形成新的可参照样本集;
步骤2 计算源域数据的加权局部密度自适应的流行距离核的相似度矩阵
步骤2.1通过迪杰特斯拉算法对源域任意两点数据之进行最短路径选择,并计算最短路径和
步骤2.2计算源域数据集参数,其中
步骤2.3计算,该项可以对相似度矩阵准确性进行调整;SNN为共享近邻的个数,当两个点的共享最近邻的点的个数多,则值大,当共享近邻点的个数少时,的值小;当共享近邻数为0时,,即对相似性不做调整;
步骤2.4计算源域的相似度矩阵相似度矩阵
步骤3. 源域数据的新的特征矩阵:
步骤3.1计算源域数据的拉普拉斯矩阵,其中对角元素为:
构造对角矩阵:,构造拉普拉斯矩阵:,拉普拉斯矩阵标准化:
步骤3.2 对进行特征分解取前k个最小特征值对应的特征向量,并标准化得源域数据的新的特征矩阵
步骤4 计算目标域数据的加权局部密度自适应的流行距离核的相似度矩阵
步骤4.1通过迪杰特斯拉算法对源域任意两点数据之进行最短路径选择,并计算最短路径和
步骤4.2计算源域数据集参数,其中
步骤4.3计算,该项可以对相似度矩阵准确性进行调整;SNN为共享近邻的个数,当两个点的共享最近邻的点的个数多,则值大,当共享近邻点的个数少时,的值小;当共享近邻数为0时,,即对相似性不做调整;
步骤4.4计算目标域的相似度矩阵相似度矩阵:
步骤5计算目标域的拉普拉斯矩阵,其中对角元素为:
构造对角矩阵:,构造拉普拉斯矩阵:,拉普拉斯矩阵标准化:
步骤6计算拉普拉斯,对拉普拉斯矩阵进行特征分解,取前k个最小特征值组成新的特征矩阵
步骤9将的每一行看成是空间内的一点,使用模糊c均值算法(FCM)或其它聚类算法将其聚为c类。
CN201910691192.8A 2019-07-29 2019-07-29 一种基于流行距离核的迁移谱聚处理方法 Withdrawn CN110503134A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910691192.8A CN110503134A (zh) 2019-07-29 2019-07-29 一种基于流行距离核的迁移谱聚处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910691192.8A CN110503134A (zh) 2019-07-29 2019-07-29 一种基于流行距离核的迁移谱聚处理方法

Publications (1)

Publication Number Publication Date
CN110503134A true CN110503134A (zh) 2019-11-26

Family

ID=68587647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910691192.8A Withdrawn CN110503134A (zh) 2019-07-29 2019-07-29 一种基于流行距离核的迁移谱聚处理方法

Country Status (1)

Country Link
CN (1) CN110503134A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114444374A (zh) * 2021-11-29 2022-05-06 河南工业大学 一种基于相似性度量的多源到多目标域自适应的方法
WO2022095356A1 (zh) * 2020-11-05 2022-05-12 平安科技(深圳)有限公司 用于图像分类的迁移学习方法、相关装置及存储介质
CN118761689A (zh) * 2024-09-09 2024-10-11 四川智浩工程技术有限公司 基于模糊c均值聚类的施工现场质量管理评估系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022095356A1 (zh) * 2020-11-05 2022-05-12 平安科技(深圳)有限公司 用于图像分类的迁移学习方法、相关装置及存储介质
CN114444374A (zh) * 2021-11-29 2022-05-06 河南工业大学 一种基于相似性度量的多源到多目标域自适应的方法
CN118761689A (zh) * 2024-09-09 2024-10-11 四川智浩工程技术有限公司 基于模糊c均值聚类的施工现场质量管理评估系统

Similar Documents

Publication Publication Date Title
CN109670528B (zh) 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法
CN104881671B (zh) 一种基于2D‑Gabor的高分遥感影像局部特征提取方法
CN110503134A (zh) 一种基于流行距离核的迁移谱聚处理方法
CN112580590A (zh) 一种基于多语义特征融合网络的指静脉识别方法
Chen et al. Sparse spatial transformers for few-shot learning
CN114492768B (zh) 一种基于小样本学习的孪生胶囊网络入侵检测方法
CN107133496B (zh) 基于流形学习与闭环深度卷积双网络模型的基因特征提取方法
Zhang et al. Fast covariance matching with fuzzy genetic algorithm
Schwartz et al. Repmet: Representative-based metric learning for classification and one-shot object detection
Jiang et al. Delving into sample loss curve to embrace noisy and imbalanced data
CN109543723A (zh) 一种鲁棒的图像聚类方法
Wang et al. An improving majority weighted minority oversampling technique for imbalanced classification problem
CN109800317A (zh) 一种基于图像场景图谱对齐的图像查询回答方法
CN112509017A (zh) 一种基于可学习差分算法的遥感影像变化检测方法
CN115830335A (zh) 一种基于自适应阈值算法的orb图像特征提取方法
Cho et al. Genetic evolution processing of data structures for image classification
Jia et al. Exploring hard samples in multi-view for few-shot remote sensing scene classification
CN107423771A (zh) 一种两时相遥感图像变化检测方法
CN110569761A (zh) 一种基于对抗学习的手绘草图检索遥感图像的方法
CN104361135A (zh) 一种图像检索方法
Su et al. A CNN-LSVM model for imbalanced images identification of wheat leaf
Zhang et al. Multicontext 3D residual CNN for false positive reduction of pulmonary nodule detection
CN111126467B (zh) 一种基于多目标正余弦算法的遥感影像空谱聚类方法
CN115273645B (zh) 一种室内面要素自动聚类的地图制图方法
Wang et al. Unsupervised Hyperspectral Band Selection via Structure-Conserved and Neighborhood-Grouped Evolutionary Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20191126