CN110503134A

CN110503134A - 一种基于流行距离核的迁移谱聚处理方法

Info

Publication number: CN110503134A
Application number: CN201910691192.8A
Authority: CN
Inventors: 齐晓轩; 董海; 卞永钊; 周兆元; 刘英英; 都丽
Original assignee: Shenyang University
Current assignee: Shenyang University
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2019-11-26

Abstract

一种基于流行距离核的迁移谱聚处理方法，涉及一种相似性度量聚类处理方法，该方法针对目标域数据匮乏或或者是结构复杂等问题，提出一种学习方法可以有效利用源域知识提高目标域的聚类性能，传统相似性度量方法是基于欧式距离，缺点是无法反映聚类数据的复杂空间结构。因此本发明公开了一种基于流形距离核的迁移谱聚类的数据处理方法。该方法既充分考虑样本聚类的全局一致性和复杂的空间分布特征，又包含了数据分布的局部结构，且利用迁移学习方法可充分挖掘源域与目标域的潜在联系，利用源域的知识辅助目标域聚类，从而在整体上提高了数据集的聚类性能。

Description

一种基于流行距离核的迁移谱聚处理方法

技术领域

本发明涉及涉及一种相似性度量聚类处理方法，特别是涉及一种基于流行距离核的迁移谱聚处理方法。

背景技术

聚类方法是一种运用广泛的探索性数据分析技术，人们对数据产生的第一直觉往往是通过对数据进行有意义的分组。但是在面对领域中可用数据的匮乏或者采集数据中存在大量的复杂结构等问题时，传统的聚类算法很难达到良好的效果，所以近年来，迁移学习引起了广泛的关注和研究。迁移学习是运用已存在的知识对不同但相关领域问题进行求解的一种新的机器学习方法，通俗的理解为：一个人要是学会了自行车，学习自行车的经验就会帮助他更容易学会开摩托车；一个人要是熟悉五子棋，也可以将学习五子棋的知识迁移到学习围棋中，帮助学习五子棋。所以迁移学习方法可以在一定程度上有效利用在某个领域上学习到的知识或模式（源域的数据和知识）指导当前不同但相关领域中数据的聚类任务，从而提高聚类性能。所以如何利用迁移学习提高聚类性能，很多研究人员提出了一些解决方法：发表的文献主要包括《科学与探索》的域间F-范数正则化迁移谱聚类方法，《控制与决策》的知识qia难以极大熵聚类算法等。

申请号为CN201210384176.2的专利，一种具备迁移学习能力的模糊聚类图像分割方法。这种迁移学习方法主要通过来自源域的高级知识迁移，数据迁移，源域聚类中心和基于历史隶属度的知识迁移等。

上述迁移聚类方法虽然利用已知的源域知识能够帮助提高目标域的聚类效果，但是没有考虑数据聚类复杂的空间分布特性，皆是以欧式距离作为相似性度量方法，对于一些特殊分布的数据集，却达不到理想效果。于是在欧式距离的基础上，流行距离被提出，这种距离测度提高了对一些特殊数据集的聚类效果。

发明内容

本发明的目的在于提供一种基于流行距离核的迁移谱聚处理方法，本发明在域间F-范数正则化迁移谱聚类方法的基础上，使用流形距作为相似性度量方法，对其迁移谱聚类算法中的源域与目标域数据的相似性矩阵W进行改进，提出了一种基于流行距离核的迁移谱聚类的数据处理方法。该方法可以充分考虑数据聚类的复杂的空间分布特性，且有已知历史数据辅助，比原始谱聚类方法聚类效果更加准确、可靠。

本发明的目的是通过以下技术方案实现的：

一种基于流行距离核的迁移谱聚处理方法，所述方法包括如下处理步骤：

步骤1 从源域中选取目标域的可参照样本：

步骤1.1对输入目标域数据集和源域数据集，使用第K近邻机制，从源域挑选出目标域任一个样本的一可参照样本，选取方法采用网格搜索法，形成新的可参照样本集；

步骤2 计算源域数据的加权局部密度自适应的流行距离核的相似度矩阵：

步骤2.1通过迪杰特斯拉算法对源域任意两点数据和之进行最短路径选择，并计算最短路径和；

步骤2.2计算源域数据集参数，其中，；

步骤2.3计算，该项可以对相似度矩阵准确性进行调整；SNN为共享近邻的个数，当两个点的共享最近邻的点的个数多，则值大，当共享近邻点的个数少时，的值小；当共享近邻数为0时，，即对相似性不做调整；

步骤2.4计算源域的相似度矩阵相似度矩阵；

步骤3. 源域数据的新的特征矩阵:

步骤3.1计算源域数据的拉普拉斯矩阵，其中对角元素为：，

构造对角矩阵：,构造拉普拉斯矩阵：,拉普拉斯矩阵标准化：；

步骤3.2 对进行特征分解取前k个最小特征值对应的特征向量，并标准化得源域数据的新的特征矩阵；

步骤4 计算目标域数据的加权局部密度自适应的流行距离核的相似度矩阵：

步骤4.1通过迪杰特斯拉算法对源域任意两点数据和之进行最短路径选择，并计算最短路径和；

步骤4.2计算源域数据集参数，其中，；

步骤4.3计算，该项可以对相似度矩阵准确性进行调整；SNN为共享近邻的个数，当两个点的共享最近邻的点的个数多，则值大，当共享近邻点的个数少时，的值小；当共享近邻数为0时，，即对相似性不做调整；

步骤4.4计算目标域的相似度矩阵相似度矩阵：

；

步骤5计算目标域的拉普拉斯矩阵，其中对角元素为：，

步骤6计算拉普拉斯，对拉普拉斯矩阵进行特征分解，取前k个最小特征值组成新的特征矩阵；

步骤9将的每一行看成是空间内的一点，使用模糊c均值算法（FCM）或其它聚类算法将其聚为c类。

本发明的优点与效果是：

本发明将流行距离核与迁移学习引入到谱聚类算法中，发挥谱聚类算法具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点，并在此基础上提出一种基于流行距离核的迁移谱聚类算法，既充分考虑样本聚类的全局一致性和复杂的空间分布特征，又包含了数据分布的局部结构，且将源域的已知信息迁移至目标域进行聚类指导，从而能更好的提高数据集的聚类性能。

本发明在域间F-范数正则化迁移谱聚类算法的基础上，利用流形距离作为相似性度量方法，发明了一种基于流形距离的迁移谱聚类的数据处理方法，它能充分挖掘数据集中的内在结构信息，较好地反映数据集局部和全局一致性，且在迁移学习基础上，利用源域知识指导目标域聚类，进一步的提高了传统谱聚类的聚类性能，相比原始谱聚类算法聚类效果有较大的提高。

附图说明

图1示出基于流行距离核的迁移谱聚类的数据处理方法流程图；

图2示出实施列1源域数据原始聚类情况；

图3示出实施列1目标域数据集在源域数据集指导下的聚类情况；

图4示出实施列2源域数据原始聚类情况；

图5示出实施列2目标域数据集在源域数据集指导下的聚类情况。

具体实施方式

下面结合附图所示实施例对本发明进行详细说明。

基于流行距离核的迁移谱聚类算法的数据处理方法，包括如下步骤：

步骤1 从源域中选取目标域的可参照样本：

步骤1.1对输入目标域数据集和源域数据集，使用第K近邻机制，从源域挑选出目标域任一个样本的一可参照样本，选取方法采用网格搜索法，形成新的可参照样本集。

步骤2.1通过迪杰特斯拉算法对源域任意两点数据和之进行最短路径选择，并计算最短路径和。

步骤2.2计算源域数据集参数，其中，。

步骤2.3计算，该项可以对相似度矩阵准确性进行调整。SNN为共享近邻的个数，当两个点的共享最近邻的点的个数多，则值大，当共享近邻点的个数少时，的值小。当共享近邻数为0时，，即对相似性不做调整。

步骤2.4计算源域的相似度矩阵相似度矩阵。

步骤3. 源域数据的新的特征矩阵:

步骤3.1计算源域数据的拉普拉斯矩阵，其中对角元素为：，

构造对角矩阵：,构造拉普拉斯矩阵：,拉普拉斯矩阵标准化：;

步骤4.1通过迪杰特斯拉算法对源域任意两点数据和之进行最短路径选择，并计算最短路径和。

步骤4.2计算源域数据集参数，其中，。

步骤4.3计算，该项可以对相似度矩阵准确性进行调整。SNN为共享近邻的个数，当两个点的共享最近邻的点的个数多，则值大，当共享近邻点的个数少时，的值小。当共享近邻数为0时，，即对相似性不做调整。

步骤4.4计算目标域的相似度矩阵相似度矩阵：

。

步骤5计算目标域的拉普拉斯矩阵，其中对角元素为：，

步骤6计算拉普拉斯，对拉普拉斯矩阵进行特征分解，取前k个最小特征值组成新的特征矩阵。

实施例1：

源域数据集采用高斯概率分布函数随机生成4类共400（4*100，一种颜色为一类）个数据样本的源域数据集M1，其中4类满足如下分布规律：第一类均值r1=[3,4],方差s1=[10 0;0 10];第二类均值为r2=[10,15]，方差为s2=[25 0;0 7]；第三类r3=[9,30],方差为s3=[300;0 20];第四类r4=[20 5],方差s4=[13 0;0 3]。

目标域数据集采用高斯概率分布函数随机生成4类80（4*20）个数据样本的目标域数据集M2，其中4类满足如下分布规律：第一类均值r11=[3.5 4],方差s11=[10 0;0 10];第二类均值为r22=[11 13]，方差为s22=[25 0;0 7]；第三类r33=[9.5,29],方差为s33=[300;0 10];第四类r4=[22 4.5],方差s4=[13 0;0 3]。

图2的效果图即源域数据分布情况，图3的效果图即本发明方法目标域的聚类效果数据分布情况，表1为与现有数据处理方法的对比，这些现有方法有：谱聚类（SC），基于流行距离核的谱聚类算法(SC-SDM)，基于F—范数正则化迁移谱聚类方法(TSC-IDFR)，模糊c均值聚类(FCM)，TI-KT-CM,TII-KT-CM。采用归一化互信息（normalized mutualinformation,NMI)和兰德指数（rand index，RI）两种评价指标对实验数据进行评价。NMI和RI的取值范围均为[0,1],值越接近于1说明其聚类效果越佳。但本发明不应该局限于该实施例和附图所公开的内容。所以,凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

实施列2：

双月形数据集L1和L2。其中L1不含噪声，共121个数据点且分为上下两类，L2为受噪声干扰，共120个数据点且上下分类界限有重叠，边缘分布较复杂。

图4的效果图即源域数据分布情况，图5的效果图即本发明方法目标域的聚类效果数据分布情况，表1为与现有数据处理方法的对比，这些现有方法有：谱聚类（SC），基于流行距离核的谱聚类算法(SC-SDM)，基于F—范数正则化迁移谱聚类方法(TSC-IDFR)，模糊c均值聚类(FCM)，TI-KT-CM,TII-KT-CM。采用归一化互信息（normalized mutualinformation,NMI)和兰德指数（rand index，RI）两种评价指标对实验数据进行评价。NMI和RI的取值范围均为[0,1],值越接近于1说明其聚类效果越佳。

表1示出实施列1与实施列2与已有数据处理方法进行对比效果。

表1

本发明不应该局限于该实施例和附图所公开的内容。所以,凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。但本发明不应该局限于该实施例和附图所公开的内容。所以,凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims

1.一种基于流行距离核的迁移谱聚处理方法，其特征在于，所述方法包括如下处理步骤：

步骤1 从源域中选取目标域的可参照样本：

步骤2.2计算源域数据集参数，其中，；

步骤2.4计算源域的相似度矩阵相似度矩阵；

步骤3. 源域数据的新的特征矩阵:

步骤3.1计算源域数据的拉普拉斯矩阵，其中对角元素为：，

构造对角矩阵：,构造拉普拉斯矩阵：,拉普拉斯矩阵标准化：

；

步骤4.2计算源域数据集参数，其中，；

步骤4.4计算目标域的相似度矩阵相似度矩阵：

；

步骤5计算目标域的拉普拉斯矩阵，其中对角元素为：，

；