CN109726738A - 基于迁移学习与属性熵加权模糊聚类的数据分类方法 - Google Patents
基于迁移学习与属性熵加权模糊聚类的数据分类方法 Download PDFInfo
- Publication number
- CN109726738A CN109726738A CN201811460657.0A CN201811460657A CN109726738A CN 109726738 A CN109726738 A CN 109726738A CN 201811460657 A CN201811460657 A CN 201811460657A CN 109726738 A CN109726738 A CN 109726738A
- Authority
- CN
- China
- Prior art keywords
- ewfcm
- data
- class
- transfer learning
- target area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于迁移学习与属性熵加权模糊聚类的数据分类方法,通过将需要进行分类的数据作为目标区域。选取与目标区域数据类型相似且数据量充足的数据域作为源域。对源域进行EWFCM聚类,获取源域的类中心与类别维度权重。使用源域中的类中心与权重,采用基于迁移学习的EWFCM聚类算法对目标域中的数据进行聚类计算,有效提高目标域
Description
技术领域
本发明涉及机器学习及数据挖掘技术领域,具体涉及一种基于迁移学习与属性熵加权模糊聚类的数据分类方法。
背景技术
作为数据挖掘的一个重要技术,聚类算法被广泛的应用于科学研究中。作为无监督算法的一种,它是根据数据之间的相似性,将性质相似的数据归类在一类并以此来有效地处理数据。模糊聚类算法作为最基本也是最常用的聚类算法之一,是使用软聚类的方法的对数据进行聚类,但是普通模糊聚类算法无法很好地处理高维数据。作为普通的模糊聚类算法的改进算法,熵加权模糊聚类(EWFCM)算法对数据维度加权,并根据数据的实际情况自动调整不同种类数据的维度权重,使数据种类更易区分,同时也减少了计算复杂度。在处理高维数据时,EWFCM算法比普通模糊聚类算法更加高效。
然而,EWFCM算法高效的基础条件之一就是充足的数据,如果要进行聚类的数据的数据量不足,EWFCM算法聚类效果会非常差。
发明内容
本发明为了克服以上技术的不足,提供了一种有效提高目标域中数据分类准确率的基于迁移学习与属性熵加权模糊聚类的数据分类方法。
本发明克服其技术问题所采用的技术方案是:
一种基于迁移学习与属性熵加权模糊聚类的数据分类方法,包括如下步骤:
a)计算机读入需要进行分类的数据,将读入的数据组成的集合标记为目标区域T,计算机分析目标区域T中数据的个数N及数据的维度D;
b)计算机读入一个数据类型与目标区域T相同的数据集合,将数据集合标记为源域S,源域S中的数据的维度与目标区域T的数据的维度D相同;
c)使用EWFCM算法对源域S中的数据进行聚类计算,用户输入EWFCM算法中的类中心数量Cs,用户输入EWFCM算法中的模糊系数α,1.1≤α≤3.0,用户输入EWFCM算法中的参数γ,0.001≤γ≤0.1,将EWFCM算法中的停止阀值ξ设置为0.000001;
d)计算机记录EWFCM算法中对源域S中数据的聚类,通过公式计算得到源域S的类中心,其中表示源域S中第i个类的类中心,i=1,2,....,CS,表示源域S中第i个类的类中心的第k维,k=1,2,....,D;
e)计算机记录EWFCM算法中对源域S数据聚类得到的权重,计为表示源域S中第i个类第k个维度上的权重,i=1,2,....,CS,k=1,2,....,D
f)计算机使用源域S中的类中心和源域S的权重,采用基于迁移学习的EWFCM聚类算法对目标区域T中的数据聚类计算;
g)根据基于迁移学习的EWFCM聚类算法得到的隶属度矩阵得到目标区域中的数据分类结果。
步骤f)中的基于迁移学习的EWFCM聚类方法包含以下步骤:
f-1)对基于迁移学习的EWFCM算法中的参数进行初始化操作,将基于迁移学习的EWFCM算法中的类中心数量CT设置为CT=CS,用户输入基于迁移学习的EWFCM算法中的模糊系数α,1.1≤α≤3.0,用户输入基于迁移学习的EWFCM算法中的参数γ,0.001≤γ≤0.1,用户输入基于迁移学习的EWFCM算法中的学习率λ1,0.1≤λ1≤5,用户输入基于迁移学习的EWFCM算法中的学习率λ2,0.1≤λ2≤5,将基于迁移学习的EWFCM算法中的停止阀值ξ设置为0.000001,设置基于迁移学习的EWFCM算法中的迭代计数器t=0,基于迁移学习的EWFCM算法的目标函数的初始值J(o)设为J(o)=-9999;
f-2)从目标区域T中随机选择一个数据作为第i类的类中心vi的初始值,i=1,2,....,CT,实现对基于迁移学习的EWFCM算法中每一类的类中心进行初始化,将1/D作为第i个类第k维的权重wik的初始值,i=1,2,....,CT,k=1,2,....,D,实现对基于迁移学习的EWFCM算法中每一类每一维的权重进行初始化;
f-3)通过公式t+1使EWFCM算法中的迭代计数器t加1操作;
f-4)通过公式
计算目标区域T中第j个数据xj的属于第i类的隶属度uij,其中j=1,2,....,N,i=1,2,....,CT,xjk是目标区域T中第j个数据xj的第k维,wlk是目标区域T中第l类第k维的权重,其中l=1,2,....,CT,k=1,2,....,D,源域S中第l类第k维的权重,其中l=1,2,....,CT,k=1,2,....,D,vik是目标区域T中第i类的类中心的第k维,其中i=1,2,....,CT,k=1,2,....,D,vlk是目标区域T中第l类的类中心的第k维,其中l=1,2,....,CT,k=1,2,....,D,源域S中第l类的类中心的第k维,其中l=1,2,....,CT,k=1,2,....,D;
f-5)通过公式
更新目标区域T中第i类类中心的第第k维vik的值,其中i=1,2,....,CT,k=1,2,....,D;
f-6)通过公式
更新目标区域T中第i类第k维的权重wik的值,其中i=1,2,....,CT,k=1,2,....,D。xjh是目标区域T中第j个数据xj的第h维,h=1,2,....,D;vih是目标区域T中第i类的类中心的第h维,其中i=1,2,....,CT,h=1,2,....,D;
f-7)通过公式
计算第t次迭代得到的目标函数J(t);
f-8)计算基于迁移学习的EWFCM算法第t次迭代得到的目标函数J(t)与第t-1次迭代的目标函数J(t-1)之间的差值,如||J(t)-J(t-1)||≥ξ,执行f-3),如||J(t)-J(t-1)||<ξ,执行g)。
本发明的有益效果是:通过将需要进行分类的数据作为目标区域T。选取与目标区域T数据类型相似且数据量充足的数据域作为源域S。对源域S进行EWFCM聚类,获取源域S的类中心与类别维度权重。使用源域S中的类中心与权重,采用基于迁移学习的EWFCM聚类算法对目标域T中的数据进行聚类计算,有效提高目标域T中数据分类的准确率。
具体实施方式
下面对本发明做进一步说明。
一种基于迁移学习与属性熵加权模糊聚类的数据分类方法,包括如下步骤:
a)计算机读入需要进行分类的数据,将读入的数据组成的集合标记为目标区域T,计算机分析目标区域T中数据的个数N及数据的维度D;
b)计算机读入一个数据类型与目标区域T相同的数据集合,将数据集合标记为源域S,源域S中的数据的维度与目标区域T的数据的维度D相同;
c)使用EWFCM算法对源域S中的数据进行聚类计算,用户输入EWFCM算法中的类中心数量Cs,用户输入EWFCM算法中的模糊系数α,1.1≤α≤3.0,用户输入EWFCM算法中的参数γ,0.001≤γ≤0.1,将EWFCM算法中的停止阀值ξ设置为0.000001;
d)计算机记录EWFCM算法中对源域S中数据的聚类,通过公式计算得到源域S的类中心,其中表示源域S中第i个类的类中心,i=1,2,....,CS,表示源域S中第i个类的类中心的第k维,k=1,2,....,D;
e)计算机记录EWFCM算法中对源域S数据聚类得到的权重,计为表示源域S中第i个类第k个维度上的权重,i=1,2,....,CS,k=1,2,....,D
f)计算机使用源域S中的类中心和源域S的权重,采用基于迁移学习的EWFCM聚类算法对目标区域T中的数据聚类计算;
g)根据基于迁移学习的EWFCM聚类算法得到的隶属度矩阵得到目标区域中的数据分类结果。
通过将需要进行分类的数据作为目标区域T。选取与目标区域T数据类型相似且数据量充足的数据域作为源域S。对源域S进行EWFCM聚类,获取源域S的类中心与类别维度权重。使用源域S中的类中心与权重,采用基于迁移学习的EWFCM聚类算法对目标域T中的数据进行聚类计算,有效提高目标域T中数据分类的准确率。
实施例1:
步骤f)中的基于迁移学习的EWFCM聚类方法包含以下步骤:
f-1)对基于迁移学习的EWFCM算法中的参数进行初始化操作,将基于迁移学习的EWFCM算法中的类中心数量CT设置为CT=CS,用户输入基于迁移学习的EWFCM算法中的模糊系数α,1.1≤α≤3.0,用户输入基于迁移学习的EWFCM算法中的参数γ,0.001≤γ≤0.1,用户输入基于迁移学习的EWFCM算法中的学习率λ1,0.1≤λ1≤5,用户输入基于迁移学习的EWFCM算法中的学习率λ2,0.1≤λ2≤5,将基于迁移学习的EWFCM算法中的停止阀值ξ设置为0.000001,设置基于迁移学习的EWFCM算法中的迭代计数器t=0,基于迁移学习的EWFCM算法的目标函数的初始值J(o)设为J(o)=-9999;
f-2)从目标区域T中随机选择一个数据作为第i类的类中心vi的初始值,i=1,2,....,CT,实现对基于迁移学习的EWFCM算法中每一类的类中心进行初始化,将1/D作为第i个类第k维的权重wik的初始值,i=1,2,....,CT,k=1,2,....,D,实现对基于迁移学习的EWFCM算法中每一类每一维的权重进行初始化;
f-3)通过公式t+1使EWFCM算法中的迭代计数器t加1操作;
f-4)通过公式
计算目标区域T中第j个数据xj的属于第i类的隶属度uij,其中j=1,2,....,N,i=1,2,....,CT,xjk是目标区域T中第j个数据xj的第k维,wlk是目标区域T中第l类第k维的权重,其中l=1,2,....,CT,k=1,2,....,D,源域S中第l类第k维的权重,其中l=1,2,....,CT,k=1,2,....,D,vik是目标区域T中第i类的类中心的第k维,其中i=1,2,....,CT,k=1,2,....,D,vlk是目标区域T中第l类的类中心的第k维,其中l=1,2,....,CT,k=1,2,....,D,源域S中第l类的类中心的第k维,其中l=1,2,....,CT,k=1,2,....,D;
f-5)通过公式
更新目标区域T中第i类类中心的第第k维vik的值,其中i=1,2,....,CT,k=1,2,....,D;
f-6)通过公式
更新目标区域T中第i类第k维的权重wik的值,其中i=1,2,....,CT,k=1,2,....,D。xjh是目标区域T中第j个数据xj的第h维,h=1,2,....,D;vih是目标区域T中第i类的类中心的第h维,其中i=1,2,....,CT,h=1,2,....,D;
f-7)通过公式
计算第t次迭代得到的目标函数J(t);
f-8)计算基于迁移学习的EWFCM算法第t次迭代得到的目标函数J(t)与第t-1次迭代的目标函数J(t-1)之间的差值,如||J(t)-J(t-1)||≥ξ,执行f-3),如||J(t)-J(t-1)||<ξ,执行g)。
Claims (2)
1.一种基于迁移学习与属性熵加权模糊聚类的数据分类方法,其特征在于,包括如下步骤:
a)计算机读入需要进行分类的数据,将读入的数据组成的集合标记为目标区域T,计算机分析目标区域T中数据的个数N及数据的维度D;
b)计算机读入一个数据类型与目标区域T相同的数据集合,将数据集合标记为源域S,源域S中的数据的维度与目标区域T的数据的维度D相同;
c)使用EWFCM算法对源域S中的数据进行聚类计算,用户输入EWFCM算法中的类中心数量Cs,用户输入EWFCM算法中的模糊系数α,1.1≤α≤3.0,用户输入EWFCM算法中的参数γ,0.001≤γ≤0.1,将EWFCM算法中的停止阀值ξ设置为0.000001;
d)计算机记录EWFCM算法中对源域S中数据的聚类,通过公式计算得到源域S的类中心,其中表示源域S中第i个类的类中心,i=1,2,....,CS,表示源域S中第i个类的类中心的第k维,k=1,2,....,D;
e)计算机记录EWFCM算法中对源域S数据聚类得到的权重,计为表示源域S中第i个类第k个维度上的权重,i=1,2,....,CS,k=1,2,....,D
f)计算机使用源域S中的类中心和源域S的权重,采用基于迁移学习的EWFCM聚类算法对目标区域T中的数据聚类计算;
g)根据基于迁移学习的EWFCM聚类算法得到的隶属度矩阵得到目标区域中的数据分类结果。
2.根据权利要求1所述的基于迁移学习与属性熵加权模糊聚类的数据分类方法,其特征在于:步骤f)中的基于迁移学习的EWFCM聚类方法包含以下步骤:
f-1)对基于迁移学习的EWFCM算法中的参数进行初始化操作,将基于迁移学习的EWFCM算法中的类中心数量CT设置为CT=CS,用户输入基于迁移学习的EWFCM算法中的模糊系数α,1.1≤α≤3.0,用户输入基于迁移学习的EWFCM算法中的参数γ,0.001≤γ≤0.1,用户输入基于迁移学习的EWFCM算法中的学习率λ1,0.1≤λ1≤5,用户输入基于迁移学习的EWFCM算法中的学习率λ2,0.1≤λ2≤5,将基于迁移学习的EWFCM算法中的停止阀值ξ设置为0.000001,设置基于迁移学习的EWFCM算法中的迭代计数器t=0,基于迁移学习的EWFCM算法的目标函数的初始值J(o)设为J(o)=-9999;
f-2)从目标区域T中随机选择一个数据作为第i类的类中心vi的初始值,i=1,2,....,CT,实现对基于迁移学习的EWFCM算法中每一类的类中心进行初始化,将1/D作为第i个类第k维的权重wik的初始值,i=1,2,....,CT,k=1,2,....,D,实现对基于迁移学习的EWFCM算法中每一类每一维的权重进行初始化;
f-3)通过公式t+1使EWFCM算法中的迭代计数器t加1操作;
f-4)通过公式
计算目标区域T中第j个数据xj的属于第i类的隶属度uij,其中j=1,2,....,N,i=1,2,....,CT,xjk是目标区域T中第j个数据xj的第k维,wlk是目标区域T中第l类第k维的权重,其中l=1,2,....,CT,k=1,2,....,D,源域S中第l类第k维的权重,其中l=1,2,....,CT,k=1,2,....,D,vik是目标区域T中第i类的类中心的第k维,其中i=1,2,....,CT,k=1,2,....,D,vlk是目标区域T中第l类的类中心的第k维,其中l=1,2,....,CT,k=1,2,....,D,源域S中第l类的类中心的第k维,其中l=1,2,....,CT,k=1,2,....,D;
f-5)通过公式
更新目标区域T中第i类类中心的第第k维vik的值,其中i=1,2,....,CT,k=1,2,....,D;
f-6)通过公式
更新目标区域T 中第i类第k维的权重wik的值,其中i=1,2,....,CT,k=1,2,....,D。xjh是目标区域T中第j个数据xj的第h维,h=1,2,....,D;vih是目标区域T中第i类的类中心的第h维,其中i=1,2,....,CT,h=1,2,....,D;
f-7)通过公式
计算第t次迭代得到的目标函数J(t);
f-8)计算基于迁移学习的EWFCM算法第t次迭代得到的目标函数J(t)与第t-1次迭代的目标函数J(t-1)之间的差值,如||J(t)-J(t-1)||≥ξ,执行f-3),如||J(t)-J(t-1)||<ξ,执行g)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811460657.0A CN109726738A (zh) | 2018-11-30 | 2018-11-30 | 基于迁移学习与属性熵加权模糊聚类的数据分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811460657.0A CN109726738A (zh) | 2018-11-30 | 2018-11-30 | 基于迁移学习与属性熵加权模糊聚类的数据分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109726738A true CN109726738A (zh) | 2019-05-07 |
Family
ID=66295572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811460657.0A Pending CN109726738A (zh) | 2018-11-30 | 2018-11-30 | 基于迁移学习与属性熵加权模糊聚类的数据分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109726738A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688926A (zh) * | 2021-08-31 | 2021-11-23 | 济南大学 | 一种网站行为分类方法、系统、存储介质及设备 |
CN113723540A (zh) * | 2021-09-02 | 2021-11-30 | 济南大学 | 一种基于多视图的无人驾驶场景聚类方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761311A (zh) * | 2014-01-23 | 2014-04-30 | 中国矿业大学 | 基于多源领域实例迁移的情感分类方法 |
US20160078359A1 (en) * | 2014-09-12 | 2016-03-17 | Xerox Corporation | System for domain adaptation with a domain-specific class means classifier |
CN105787513A (zh) * | 2016-03-01 | 2016-07-20 | 南京邮电大学 | 多示例多标记框架下基于域适应迁移学习设计方法和系统 |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN108564066A (zh) * | 2018-04-28 | 2018-09-21 | 国信优易数据有限公司 | 一种人物识别模型训练方法以及人物识别方法 |
-
2018
- 2018-11-30 CN CN201811460657.0A patent/CN109726738A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761311A (zh) * | 2014-01-23 | 2014-04-30 | 中国矿业大学 | 基于多源领域实例迁移的情感分类方法 |
US20160078359A1 (en) * | 2014-09-12 | 2016-03-17 | Xerox Corporation | System for domain adaptation with a domain-specific class means classifier |
CN105787513A (zh) * | 2016-03-01 | 2016-07-20 | 南京邮电大学 | 多示例多标记框架下基于域适应迁移学习设计方法和系统 |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN108564066A (zh) * | 2018-04-28 | 2018-09-21 | 国信优易数据有限公司 | 一种人物识别模型训练方法以及人物识别方法 |
Non-Patent Citations (2)
Title |
---|
曲昭伟等: "基于迁移学习的分层注意力网络情感分析算法", 《计算机应用》 * |
陈爱国等: "基于极大熵的知识迁移模糊聚类算法", 《智能系统学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688926A (zh) * | 2021-08-31 | 2021-11-23 | 济南大学 | 一种网站行为分类方法、系统、存储介质及设备 |
CN113688926B (zh) * | 2021-08-31 | 2024-03-08 | 济南大学 | 一种网站行为分类方法、系统、存储介质及设备 |
CN113723540A (zh) * | 2021-09-02 | 2021-11-30 | 济南大学 | 一种基于多视图的无人驾驶场景聚类方法及系统 |
CN113723540B (zh) * | 2021-09-02 | 2024-04-19 | 济南大学 | 一种基于多视图的无人驾驶场景聚类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104050242B (zh) | 基于最大信息系数的特征选择、分类方法及其装置 | |
CN105354595A (zh) | 一种鲁棒视觉图像分类方法及系统 | |
CN105469096A (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN108647736A (zh) | 一种基于感知损失和匹配注意力机制的图像分类方法 | |
CN108763237A (zh) | 一种基于注意力机制的知识图谱嵌入方法 | |
CN104616029B (zh) | 数据分类方法及装置 | |
CN101833667A (zh) | 一种基于分组稀疏表示的模式识别分类方法 | |
CN106991127A (zh) | 一种基于拓扑特征扩展的知识主题短文本层次分类方法 | |
Meng et al. | An effective network attack detection method based on kernel PCA and LSTM-RNN | |
CN109726738A (zh) | 基于迁移学习与属性熵加权模糊聚类的数据分类方法 | |
CN109472302A (zh) | 一种基于AdaBoost的支持向量机集成学习方法 | |
CN113011997A (zh) | 电网用户用电异常行为检测方法 | |
CN110334777A (zh) | 一种加权多视角无监督属性选择方法 | |
Xiao et al. | Addressing overfitting problem in deep learning-based solutions for next generation data-driven networks | |
CN110365603A (zh) | 一种基于5g网络能力开放的自适应网络流量分类方法 | |
CN108491719A (zh) | 一种改进朴素贝叶斯算法的安卓恶意程序检测方法 | |
CN104573726B (zh) | 基于四等分及各成分重构误差最优组合的人脸图像识别方法 | |
CN106095811B (zh) | 一种基于最优编码的监督离散哈希的图像检索方法 | |
Chen et al. | Finding pareto-front membership functions in fuzzy data mining | |
CN108763289A (zh) | 一种海量异构传感器格式数据的解析方法 | |
Li et al. | Wheat cultivar classifications based on tabu search and fuzzy c-means clustering algorithm | |
CN107943916A (zh) | 一种基于在线分类的网页异常检测方法 | |
CN109508735A (zh) | 一种基于神经动力学的软间隔支持向量机分类方法 | |
Fan et al. | A modified partition coefficient | |
Liu et al. | An Improved Data Discretization Algorithm based on Rough Sets Theory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190507 |