CN111191698A - 基于非负矩阵分解和模糊c均值的聚类方法 - Google Patents
基于非负矩阵分解和模糊c均值的聚类方法 Download PDFInfo
- Publication number
- CN111191698A CN111191698A CN201911332634.6A CN201911332634A CN111191698A CN 111191698 A CN111191698 A CN 111191698A CN 201911332634 A CN201911332634 A CN 201911332634A CN 111191698 A CN111191698 A CN 111191698A
- Authority
- CN
- China
- Prior art keywords
- matrix
- clustering
- fuzzy
- sample
- updating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000005192 partition Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 9
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于非负矩阵分解和模糊C均值的聚类方法,用于实现对拥有大量的高维特征的数据样本的聚类,包含利用非负矩阵分解方法对高维特征进行降维处理的技术手段和利用模糊C均值实现模糊聚类的算法内容。考虑到运行NMF算法可以节省更多的时间和存储空间,但也有可能破坏数据样本之间的本质结构,影响聚类效果。为了减少负面影响,提出了一种新的聚类算法FCM‑NMF,实现在NMF压缩样本数据的过程中的模糊聚类,利用交替迭代法并给出多个更新规则,再根据隶属度划分矩阵判断数据样本所属的簇团。该方案设计复杂度低,操作简单,易于实现。相较于传统的聚类算法的方案,具有更优性能。
Description
技术领域
本发明涉及数据挖掘和模式识别技术领域和数据分析与人工智能领域,具体是一种基于非负矩阵分解(Non-negative Matrix Factorization,NMF)和模糊C均值(FCM)的聚类方法。
背景技术
随着物联网、电子商务等技术的广泛应用,可以收集的数据越来越多,越来越复杂,数据特征的维度也越来越高。如何快速检索有用相关的信息,越来越成为我们关注的热点问题。聚类是机器学习和数据挖掘中的基础课题之一,它的目的是将数据样本划分为不同的簇,使同一簇的数据样本具有较高的相似性。到目前为止,很多研究提出了一些有效的聚类方法,例如K-means,FCM,层次聚类,谱聚类(SC)。
人们获得的数据普遍具有如下两个特点:(1)数据量庞大,检索困难;(2)数据维数巨大,处理困难。虽然高维数据也许含有更多的信息,但将其直接用于分类、聚类或概率密度估计等任务,必将付出巨大的时间和空间代价。因此降维特征提取过程已经成为许多数据挖掘问题的一种预处理手段。数据降维的本质是寻找一个低维表示来反映原始数据的内在特征,并使后续任务在这个低维表示上的工作量更低,同时泛化性能和识别率更高。通过利用非负矩阵分解独特的优势,不仅可以进行降维,而且物理意义明确。但也有可能破坏数据样本之间的本质结构,影响聚类效果。为了减少负面影响,希望在NMF压缩样本数据的过程中进行模糊聚类。对于大量高维数据,通过NMF提取样本的本质特征,保留作FCM模糊分析聚类。将NMF分解对原始数据样本的影响加入到FCM的目标函数中。
发明内容
本发明的目的在于提供一种基于非负矩阵分解和模糊C均值的聚类方法,用于实现对拥有大量的高维特征的数据样本的聚类。
为了实现上述目的,采用以下技术方案:一种基于非负矩阵分解和模糊C均值的聚类方法,包括以下步骤:
S1:对图像特征集进行预处理,提取出原始非负特征数据样本集n是数据样本个数,m是数据样本维数。并设置聚类簇团个数c<<min(m,n),模糊系数f因不同数据集而不同,是一个大于1而小于2.5的参量,平衡系数λ的数量级在10-1至102之间调整;
S2:随机初始化基矩阵和系数表示矩阵使得X≈WHT。基矩阵W是降维后的低秩空间的表现形式。系数矩阵H是原始数据X经降维后的低维表达方式。再根据以下约束设置隶属度矩阵U∈Rc×n,它的元素μij表示第j个样本xj分属于第i个聚类中心vi的程度。然后确定该隶属度伪划分对应的聚类中心矩阵V∈Rc×c,它是由所有聚类簇团中心组成的矩阵形式,每个聚类中心由公式(2)得到,xj表示n个样本中第j个样本,vi表示k个簇中第i个聚类中心,Ci代表第i个簇样本集合,ni代表第i个簇中样本个数。
1≤j≤n (1)
S3:利用梯度下降法和交替迭代法则,通过固定其余变量,对某一变量进行更新。
①固定W,H,V,对U进行更新。U的更新准则为:
其中dij表示hj与聚类中心vi的距离||hj-vi||
②固定W,H,U,对V进行更新。V的更新准则为:
③固定V,H,U,对W进行更新。W的更新规则为:
其中⊙是Hadamard积运算符,代表矩阵对应元素相乘。
④固定W,V,U,对H进行更新。H的更新规则为:
S4:对所提方法的目标函数的阈值进行限定,当目标函数的值变化小于阈值,上述交替迭代停止。在交替迭代过程中,设阈值为1×10-6,所构造的目标函数如下所示:
S5:根据隶属度划分矩阵U对样本的归属进行确定,得到样本的类标签信息,聚类结束。隶属度矩阵U是对所有样本进行软聚类的模糊隶属度的呈现方式,μij越大,则反映样本j属于簇i的概率越大,可根据其获取样本的标签向量Y∈R1×n。
与现有单视角聚类方法相比,本发明具有如下优点及显著效果:
本发明可以通过调整平衡系数去发现图像特征集的内在本质结构特征。对于大量高维数据,通过NMF提取样本的本质特征,保留作FCM模糊分析聚类,克服了硬聚类的不利影响。从另一个角度来看,该算法克服了传统聚类算法在聚类过程中因初始条件非唯一性导致的聚类结果不稳定的影响。
附图说明
图1是本发明的基于非负矩阵分解和模糊C均值的聚类方法在图像集应用流程示意图。
图2是本发明方法实施例应用中的标准数据集中部分样本。(a)GHIM-10k图像集中样本图像,(b)Corel-10k图像集中样本图像
图3是本发明方法实施例应用中采用本发明所提方法和传统聚类算法性能对比示意图。(a)GHIM-10k图像集提取灰度共生矩阵进行聚类,(b)Corel-10k图像集提取颜色直方图信息聚类。
具体实施方式
下面结合说明书附图1-3和实施例对本发明的具体实施方式作进一步说明。
图1是本发明的基于非负矩阵分解和模糊C均值的聚类方法在图像集应用流程示意图。图2是本发明方法实施例应用中的标准数据集中部分样本。(a)GHIM-10k图像集中样本图像,(b)Corel-10k图像集中样本图像。图3是本发明方法实施例应用中采用本发明所提方法和传统聚类算法性能对比示意图。(a)GHIM-10k图像集提取灰度共生矩阵进行聚类,(b)Corel-10k图像集提取颜色直方图信息聚类。其中图中传统方法为:①在初始矩阵X上运行K均值聚类②在初始矩阵X运行模糊C均值聚类③在初始矩阵X上运行MEC聚类④在经过NMF的系数矩阵H上运行K均值聚类⑤在经过NMF的系数矩阵H上运行模糊C均值聚类。
为了验证本发明的有效性,在两个标准图像集进行实验。一个是GHIM-10k图像集,另一个是Corel-10k图像集。每个图像集有10,000个图像,都来自不同的种类。从每个数据集中随机选取5个类别的500幅图像作为验证集。图2显示了验证集中部分样本。
对于每个验证集,我们提取每幅图像的灰色共生矩阵和颜色直方图分别作为初始样本矩阵X。与本算法对比的5类聚类算法分别是:①在初始矩阵X上运行K均值聚类②在初始矩阵X运行模糊C均值聚类③在初始矩阵X上运行MEC聚类④在经过NMF的系数矩阵H上运行K均值聚类⑤在经过NMF的系数矩阵H上运行模糊C均值聚类。所有这些算法都是在MATLABR2014a中实现的,所有实验都是在windows10下的8Gb内存的Inter Core 2.81GHz处理器上进行的。将这些算法的最大迭代次数设置为10000次,并在接下来的所有实验中保持不变。
在较小的矩阵上运行NMF算法可以节省更多的时间和存储空间。但也有可能破坏数据样本之间的本质结构,影响聚类效果。为了减少负面影响,考虑在NMF压缩样本数据的过程中进行模糊聚类。对于大量高维数据,通过NMF提取样本的本质特征,保留作FCM模糊分析聚类。将NMF分解对原始数据样本的影响加入到FCM的目标函数中。最小化以下代价函数:
公式中代表计算矩阵的弗罗贝尼乌斯范数的平方,即计算矩阵所有元素的平方和。分解前后可理解为:原始矩阵X的列向量是对左矩阵W中所有列向量的加权和,而权重系数就是右矩阵HT对应列向量的元素,故称W为基矩阵,HT为系数矩阵。一般情况下c<<min(m,n),当它等于聚类中心个数时,W将作为聚类中心对待,有一定的物理意义。||hj-vi||表示样本hj与聚类中心vi的欧几里得距离dij;U∈Rc×n表示隶属度矩阵,它的元素μij表示hj分属于聚类vi的程度;V∈Rc*c是所有聚类中心组成得聚类中心矩阵。
在公式中,模糊系数f是一个大于1小于2.5的实数,因数据集不同而异,它是一个控制算法的柔性的参数,如果f过大,则聚类效果会很不理想,而如果f过小则算法会接近HCM聚类算法。λ≥0是平衡系数,其值数量级在10-1至102之间。第一项表示模糊C均值对聚类的影响程度,第二项表示利用NMF算法处理原始数据的过程对聚类的影响程度。
很明显,以上公式(8)的目标函数是非凸的,解出它的全局最优是不实际的。因此,利用交替迭代法则去探索非凸函数的局部最优解是一个不错的选择。通过梯度下降法和拉格朗日法的步骤来解决优化问题,求解出各变量的更新迭代公式。
第一步:固定W,H,V,通过U最优化J。U的更新规则可参照模糊C均值交替迭代公式,其更新准则为:
第二步:固定W,H,U,通过V最优化J。V的更新规则可参照模糊C均值交替迭代公式,其更新准则为:
第三步:固定V,H,U,通过W最优化J。W的更新规则可参照非负矩阵分解交替迭代公式,其更新准则为:
公式(11)中⊙是Hadamard积运算符,代表矩阵对应元素相乘。
第四步:固定W,V,U,通过H最优化J。将目标函数J展开:
目标函数J对hj偏导数:
H最终的更新公式为:
最终,根据隶属度矩阵U,最终获得样本类别向量Y。
综上所述,本发明一种基于非负矩阵分解和模糊C均值的聚类方法,用于实现对拥有大量的高维特征的数据样本的聚类;包含利用非负矩阵分解方法对高维特征进行降维处理的技术手段和利用模糊C均值实现模糊聚类的算法内容。本发明将NMF与模糊C均值算法相结合,提出了新的目标函数,由交替迭代产生的新的低维表示矩阵可以用来描述样本之间的本质关系。与传统聚类方法相比,提高了聚类效果。
Claims (6)
1.一种基于非负矩阵分解和模糊C均值的聚类方法,其特征在于,包括以下步骤:
S1:对图像特征集进行预处理,提取出原始非负特征数据样本集X,并设置聚类簇团个数c,模糊系数f,平衡系数λ;
S2:初始化基矩阵W和系数表示矩阵H,根据条件约束设置模糊伪划分U,并确定对应的聚类中心矩阵V;
S3:利用梯度下降法和交替迭代法则,通过固定其余变量,对某一变量进行更新;
S4:对所提方法的目标函数的阈值进行限定,当目标函数的值变化小于阈值,上述交替迭代停止;
S5:根据隶属度划分矩阵U对样本的归属进行确定,得到样本的类标签信息,聚类结束。
6.根据权利要求1所述的基于非负矩阵分解和模糊C均值的聚类方法,其特征在于:所述S5中,根据隶属度划分矩阵U对样本的归属进行确定,得到样本的类标签信息,聚类结束;隶属度矩阵U是对所有样本进行软聚类的模糊隶属度的呈现方式,μij越大,则反映样本j属于簇i的概率越大,根据其获取样本的标签向量Y∈R1×n。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911332634.6A CN111191698B (zh) | 2019-12-22 | 2019-12-22 | 基于非负矩阵分解和模糊c均值的聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911332634.6A CN111191698B (zh) | 2019-12-22 | 2019-12-22 | 基于非负矩阵分解和模糊c均值的聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191698A true CN111191698A (zh) | 2020-05-22 |
CN111191698B CN111191698B (zh) | 2023-11-24 |
Family
ID=70709256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911332634.6A Active CN111191698B (zh) | 2019-12-22 | 2019-12-22 | 基于非负矩阵分解和模糊c均值的聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191698B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709478A (zh) * | 2020-06-17 | 2020-09-25 | 广东工业大学 | 一种基于锚图的模糊聚类方法及装置 |
CN112039843A (zh) * | 2020-07-24 | 2020-12-04 | 中国人民解放军陆军工程大学 | 基于矩阵补全的用户多域权限联合估计方法 |
CN112149569A (zh) * | 2020-09-24 | 2020-12-29 | 福州大学 | 变压器基于模糊c均值聚类算法的声纹故障诊断方法 |
CN114863151A (zh) * | 2022-03-20 | 2022-08-05 | 西北工业大学 | 一种基于模糊理论的图像降维聚类方法 |
CN115131854A (zh) * | 2022-06-13 | 2022-09-30 | 西北工业大学 | 一种基于模糊聚类的全局子空间人脸图像聚类方法 |
CN117576493A (zh) * | 2024-01-16 | 2024-02-20 | 武汉明炀大数据科技有限公司 | 一种大样本数据的云存储压缩方法及系统 |
-
2019
- 2019-12-22 CN CN201911332634.6A patent/CN111191698B/zh active Active
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709478A (zh) * | 2020-06-17 | 2020-09-25 | 广东工业大学 | 一种基于锚图的模糊聚类方法及装置 |
CN111709478B (zh) * | 2020-06-17 | 2022-06-24 | 广东工业大学 | 一种基于锚图的模糊聚类方法及装置 |
CN112039843A (zh) * | 2020-07-24 | 2020-12-04 | 中国人民解放军陆军工程大学 | 基于矩阵补全的用户多域权限联合估计方法 |
CN112039843B (zh) * | 2020-07-24 | 2024-02-02 | 中国人民解放军陆军工程大学 | 基于矩阵补全的用户多域权限联合估计方法 |
CN112149569A (zh) * | 2020-09-24 | 2020-12-29 | 福州大学 | 变压器基于模糊c均值聚类算法的声纹故障诊断方法 |
CN112149569B (zh) * | 2020-09-24 | 2022-06-14 | 福州大学 | 变压器基于模糊c均值聚类算法的声纹故障诊断方法 |
CN114863151A (zh) * | 2022-03-20 | 2022-08-05 | 西北工业大学 | 一种基于模糊理论的图像降维聚类方法 |
CN114863151B (zh) * | 2022-03-20 | 2024-02-27 | 西北工业大学 | 一种基于模糊理论的图像降维聚类方法 |
CN115131854A (zh) * | 2022-06-13 | 2022-09-30 | 西北工业大学 | 一种基于模糊聚类的全局子空间人脸图像聚类方法 |
CN115131854B (zh) * | 2022-06-13 | 2024-02-23 | 西北工业大学 | 一种基于模糊聚类的全局子空间人脸图像聚类方法 |
CN117576493A (zh) * | 2024-01-16 | 2024-02-20 | 武汉明炀大数据科技有限公司 | 一种大样本数据的云存储压缩方法及系统 |
CN117576493B (zh) * | 2024-01-16 | 2024-04-02 | 武汉明炀大数据科技有限公司 | 一种大样本数据的云存储压缩方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111191698B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191698A (zh) | 基于非负矩阵分解和模糊c均值的聚类方法 | |
CN110689086B (zh) | 基于生成式对抗网络的半监督高分遥感图像场景分类方法 | |
Banerjee et al. | Frequency-sensitive competitive learning for scalable balanced clustering on high-dimensional hyperspheres | |
CN112836672A (zh) | 一种基于自适应近邻图嵌入的无监督数据降维方法 | |
CN106503672B (zh) | 一种老年人异常行为的识别方法 | |
CN110097060B (zh) | 一种面向树干图像的开集识别方法 | |
CN112765352A (zh) | 基于具有自注意力机制的图卷积神经网络文本分类方法 | |
CN111046900A (zh) | 基于局部流形正则化的半监督生成对抗网络图像分类方法 | |
Zhai et al. | BeautyNet: Joint multiscale CNN and transfer learning method for unconstrained facial beauty prediction | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN107292225B (zh) | 一种人脸识别方法 | |
Nystrup et al. | Learning hidden Markov models with persistent states by penalizing jumps | |
CN103065158A (zh) | 基于相对梯度的isa模型的行为识别方法 | |
CN111241289B (zh) | 一种基于图理论和som网络的文本聚类方法 | |
Yi et al. | An improved initialization center algorithm for K-means clustering | |
CN113239859B (zh) | 一种焦点引导的人脸子空间模糊聚类方法及系统 | |
CN112115881B (zh) | 基于鲁棒鉴别特征学习的图像特征提取方法 | |
CN111191699A (zh) | 基于非负矩阵分解和划分自适应融合的多视角聚类方法 | |
CN113222072A (zh) | 基于K-means聚类和GAN的肺部X光图像分类方法 | |
CN114299362A (zh) | 一种基于k-means聚类的小样本图像分类方法 | |
CN116188900A (zh) | 一种基于全局和局部特征增广的小样本图像分类方法 | |
CN108388918B (zh) | 具有结构保持特性的数据特征选择方法 | |
CN111178897B (zh) | 在不平衡数据上快速特征学习的代价敏感的动态聚类方法 | |
CN107563287B (zh) | 人脸识别方法和装置 | |
CN112364902B (zh) | 一种基于自适应相似性的特征选择学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |