CN109726738A

CN109726738A - 基于迁移学习与属性熵加权模糊聚类的数据分类方法

Info

Publication number: CN109726738A
Application number: CN201811460657.0A
Authority: CN
Inventors: 周劲; 党博湛; 董吉文; 韩士元; 王栋; 王琳; 吴鹏; 陈月辉
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-05-07

Abstract

一种基于迁移学习与属性熵加权模糊聚类的数据分类方法，通过将需要进行分类的数据作为目标区域。选取与目标区域数据类型相似且数据量充足的数据域作为源域。对源域进行EWFCM聚类，获取源域的类中心与类别维度权重。使用源域中的类中心与权重，采用基于迁移学习的EWFCM聚类算法对目标域中的数据进行聚类计算，有效提高目标域

Description

基于迁移学习与属性熵加权模糊聚类的数据分类方法

技术领域

本发明涉及机器学习及数据挖掘技术领域，具体涉及一种基于迁移学习与属性熵加权模糊聚类的数据分类方法。

背景技术

作为数据挖掘的一个重要技术，聚类算法被广泛的应用于科学研究中。作为无监督算法的一种，它是根据数据之间的相似性，将性质相似的数据归类在一类并以此来有效地处理数据。模糊聚类算法作为最基本也是最常用的聚类算法之一，是使用软聚类的方法的对数据进行聚类，但是普通模糊聚类算法无法很好地处理高维数据。作为普通的模糊聚类算法的改进算法，熵加权模糊聚类(EWFCM)算法对数据维度加权,并根据数据的实际情况自动调整不同种类数据的维度权重，使数据种类更易区分，同时也减少了计算复杂度。在处理高维数据时，EWFCM算法比普通模糊聚类算法更加高效。

然而，EWFCM算法高效的基础条件之一就是充足的数据，如果要进行聚类的数据的数据量不足，EWFCM算法聚类效果会非常差。

发明内容

本发明为了克服以上技术的不足，提供了一种有效提高目标域中数据分类准确率的基于迁移学习与属性熵加权模糊聚类的数据分类方法。

本发明克服其技术问题所采用的技术方案是：

一种基于迁移学习与属性熵加权模糊聚类的数据分类方法，包括如下步骤：

a)计算机读入需要进行分类的数据，将读入的数据组成的集合标记为目标区域T，计算机分析目标区域T中数据的个数N及数据的维度D；

b)计算机读入一个数据类型与目标区域T相同的数据集合，将数据集合标记为源域S，源域S中的数据的维度与目标区域T的数据的维度D相同；

c)使用EWFCM算法对源域S中的数据进行聚类计算，用户输入EWFCM算法中的类中心数量C^s，用户输入EWFCM算法中的模糊系数α，1.1≤α≤3.0，用户输入EWFCM算法中的参数γ，0.001≤γ≤0.1，将EWFCM算法中的停止阀值ξ设置为0.000001；

d)计算机记录EWFCM算法中对源域S中数据的聚类，通过公式计算得到源域S的类中心，其中表示源域S中第i个类的类中心，i＝1,2,....,C^S，表示源域S中第i个类的类中心的第k维，k＝1,2,....,D；

e)计算机记录EWFCM算法中对源域S数据聚类得到的权重，计为表示源域S中第i个类第k个维度上的权重，i＝1,2,....,C^S，k＝1,2,....,D

f)计算机使用源域S中的类中心和源域S的权重，采用基于迁移学习的EWFCM聚类算法对目标区域T中的数据聚类计算；

g)根据基于迁移学习的EWFCM聚类算法得到的隶属度矩阵得到目标区域中的数据分类结果。

步骤f)中的基于迁移学习的EWFCM聚类方法包含以下步骤：

f-1)对基于迁移学习的EWFCM算法中的参数进行初始化操作，将基于迁移学习的EWFCM算法中的类中心数量C^T设置为C^T＝C^S，用户输入基于迁移学习的EWFCM算法中的模糊系数α，1.1≤α≤3.0，用户输入基于迁移学习的EWFCM算法中的参数γ，0.001≤γ≤0.1，用户输入基于迁移学习的EWFCM算法中的学习率λ₁,0.1≤λ₁≤5,用户输入基于迁移学习的EWFCM算法中的学习率λ₂,0.1≤λ₂≤5,将基于迁移学习的EWFCM算法中的停止阀值ξ设置为0.000001,设置基于迁移学习的EWFCM算法中的迭代计数器t＝0,基于迁移学习的EWFCM算法的目标函数的初始值J^(o)设为J^(o)＝-9999；

f-2)从目标区域T中随机选择一个数据作为第i类的类中心v_i的初始值，i＝1,2,....,C^T，实现对基于迁移学习的EWFCM算法中每一类的类中心进行初始化，将1/D作为第i个类第k维的权重w_ik的初始值，i＝1,2,....,C^T，k＝1,2,....,D，实现对基于迁移学习的EWFCM算法中每一类每一维的权重进行初始化；

f-3)通过公式t+1使EWFCM算法中的迭代计数器t加1操作；

f-4)通过公式

计算目标区域T中第j个数据x_j的属于第i类的隶属度u_ij，其中j＝1,2,....,N，i＝1,2,....,C^T,x_jk是目标区域T中第j个数据x_j的第k维，w_lk是目标区域T中第l类第k维的权重，其中l＝1,2,....,C^T，k＝1,2,....,D，源域S中第l类第k维的权重，其中l＝1,2,....,C^T，k＝1,2,....,D，v_ik是目标区域T中第i类的类中心的第k维，其中i＝1,2,....,C^T，k＝1,2,....,D，v_lk是目标区域T中第l类的类中心的第k维，其中l＝1,2,....,C^T，k＝1,2,....,D，源域S中第l类的类中心的第k维，其中l＝1,2,....,C^T，k＝1,2,....,D；

f-5)通过公式

更新目标区域T中第i类类中心的第第k维v_ik的值，其中i＝1,2,....,C^T，k＝1,2,....,D；

f-6)通过公式

更新目标区域T中第i类第k维的权重w_ik的值，其中i＝1,2,....,C^T，k＝1,2,....,D。x_jh是目标区域T中第j个数据x_j的第h维，h＝1,2,....,D；v_ih是目标区域T中第i类的类中心的第h维，其中i＝1,2,....,C^T，h＝1,2,....,D；

f-7)通过公式

计算第t次迭代得到的目标函数J^(t)；

f-8)计算基于迁移学习的EWFCM算法第t次迭代得到的目标函数J^(t)与第t-1次迭代的目标函数J^(t-1)之间的差值，如||J^(t)-J^(t-1)||≥ξ，执行f-3),如||J^(t)-J^(t-1)||＜ξ，执行g)。

本发明的有益效果是：通过将需要进行分类的数据作为目标区域T。选取与目标区域T数据类型相似且数据量充足的数据域作为源域S。对源域S进行EWFCM聚类，获取源域S的类中心与类别维度权重。使用源域S中的类中心与权重，采用基于迁移学习的EWFCM聚类算法对目标域T中的数据进行聚类计算，有效提高目标域T中数据分类的准确率。

具体实施方式

下面对本发明做进一步说明。

通过将需要进行分类的数据作为目标区域T。选取与目标区域T数据类型相似且数据量充足的数据域作为源域S。对源域S进行EWFCM聚类，获取源域S的类中心与类别维度权重。使用源域S中的类中心与权重，采用基于迁移学习的EWFCM聚类算法对目标域T中的数据进行聚类计算，有效提高目标域T中数据分类的准确率。

实施例1：

步骤f)中的基于迁移学习的EWFCM聚类方法包含以下步骤：

f-3)通过公式t+1使EWFCM算法中的迭代计数器t加1操作；

f-4)通过公式

f-5)通过公式

f-6)通过公式

f-7)通过公式

计算第t次迭代得到的目标函数J^(t)；

Claims

1.一种基于迁移学习与属性熵加权模糊聚类的数据分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于迁移学习与属性熵加权模糊聚类的数据分类方法，其特征在于：步骤f)中的基于迁移学习的EWFCM聚类方法包含以下步骤：

f-3)通过公式t+1使EWFCM算法中的迭代计数器t加1操作；

f-4)通过公式

f-5)通过公式

f-6)通过公式

更新目标区域T 中第i类第k维的权重w_ik的值，其中i＝1,2,....,C^T，k＝1,2,....,D。x_jh是目标区域T中第j个数据x_j的第h维，h＝1,2,....,D；v_ih是目标区域T中第i类的类中心的第h维，其中i＝1,2,....,C^T，h＝1,2,....,D；

f-7)通过公式

计算第t次迭代得到的目标函数J^(t)；