CN111191698A

CN111191698A - 基于非负矩阵分解和模糊c均值的聚类方法

Info

Publication number: CN111191698A
Application number: CN201911332634.6A
Authority: CN
Inventors: 陶性留; 俞璐; 王晓莹; 姚艳艳
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2019-12-22
Filing date: 2019-12-22
Publication date: 2020-05-22
Anticipated expiration: 2039-12-22
Also published as: CN111191698B

Abstract

本发明公开了一种基于非负矩阵分解和模糊C均值的聚类方法，用于实现对拥有大量的高维特征的数据样本的聚类，包含利用非负矩阵分解方法对高维特征进行降维处理的技术手段和利用模糊C均值实现模糊聚类的算法内容。考虑到运行NMF算法可以节省更多的时间和存储空间，但也有可能破坏数据样本之间的本质结构，影响聚类效果。为了减少负面影响，提出了一种新的聚类算法FCM‑NMF，实现在NMF压缩样本数据的过程中的模糊聚类，利用交替迭代法并给出多个更新规则，再根据隶属度划分矩阵判断数据样本所属的簇团。该方案设计复杂度低，操作简单，易于实现。相较于传统的聚类算法的方案，具有更优性能。

Description

基于非负矩阵分解和模糊C均值的聚类方法

技术领域

本发明涉及数据挖掘和模式识别技术领域和数据分析与人工智能领域，具体是一种基于非负矩阵分解(Non-negative Matrix Factorization，NMF)和模糊C均值(FCM)的聚类方法。

背景技术

随着物联网、电子商务等技术的广泛应用，可以收集的数据越来越多，越来越复杂，数据特征的维度也越来越高。如何快速检索有用相关的信息，越来越成为我们关注的热点问题。聚类是机器学习和数据挖掘中的基础课题之一，它的目的是将数据样本划分为不同的簇，使同一簇的数据样本具有较高的相似性。到目前为止，很多研究提出了一些有效的聚类方法，例如K-means，FCM，层次聚类，谱聚类(SC)。

人们获得的数据普遍具有如下两个特点：(1)数据量庞大，检索困难；(2)数据维数巨大，处理困难。虽然高维数据也许含有更多的信息，但将其直接用于分类、聚类或概率密度估计等任务，必将付出巨大的时间和空间代价。因此降维特征提取过程已经成为许多数据挖掘问题的一种预处理手段。数据降维的本质是寻找一个低维表示来反映原始数据的内在特征，并使后续任务在这个低维表示上的工作量更低，同时泛化性能和识别率更高。通过利用非负矩阵分解独特的优势，不仅可以进行降维，而且物理意义明确。但也有可能破坏数据样本之间的本质结构，影响聚类效果。为了减少负面影响，希望在NMF压缩样本数据的过程中进行模糊聚类。对于大量高维数据，通过NMF提取样本的本质特征，保留作FCM模糊分析聚类。将NMF分解对原始数据样本的影响加入到FCM的目标函数中。

发明内容

本发明的目的在于提供一种基于非负矩阵分解和模糊C均值的聚类方法，用于实现对拥有大量的高维特征的数据样本的聚类。

为了实现上述目的，采用以下技术方案：一种基于非负矩阵分解和模糊C均值的聚类方法，包括以下步骤：

S1：对图像特征集进行预处理，提取出原始非负特征数据样本集

n是数据样本个数，m是数据样本维数。并设置聚类簇团个数c＜＜min(m,n)，模糊系数f因不同数据集而不同，是一个大于1而小于2.5的参量，平衡系数λ的数量级在10^-1至10²之间调整；

S2：随机初始化基矩阵

和系数表示矩阵

使得X≈WH^T。基矩阵W是降维后的低秩空间的表现形式。系数矩阵H是原始数据X经降维后的低维表达方式。再根据以下约束设置隶属度矩阵U∈R^c×n，它的元素μ_ij表示第j个样本x_j分属于第i个聚类中心v_i的程度。然后确定该隶属度伪划分对应的聚类中心矩阵V∈R^c×c，它是由所有聚类簇团中心组成的矩阵形式，每个聚类中心由公式(2)得到，x_j表示n个样本中第j个样本，v_i表示k个簇中第i个聚类中心，C_i代表第i个簇样本集合，n_i代表第i个簇中样本个数。

1≤j≤n (1)

S3：利用梯度下降法和交替迭代法则，通过固定其余变量，对某一变量进行更新。

①固定W，H，V，对U进行更新。U的更新准则为:

其中d_ij表示h_j与聚类中心v_i的距离||h_j-v_i||

②固定W,H，U，对V进行更新。V的更新准则为:

③固定V，H，U，对W进行更新。W的更新规则为:

其中⊙是Hadamard积运算符，代表矩阵对应元素相乘。

④固定W，V，U，对H进行更新。H的更新规则为：

其中

1代表具有c行的全1向量，U^f是指U矩阵的对应每个元素的f次幂。

S4：对所提方法的目标函数的阈值进行限定，当目标函数的值变化小于阈值，上述交替迭代停止。在交替迭代过程中，设阈值为1×10^-6，所构造的目标函数如下所示：

S5：根据隶属度划分矩阵U对样本的归属进行确定，得到样本的类标签信息，聚类结束。隶属度矩阵U是对所有样本进行软聚类的模糊隶属度的呈现方式，μ_ij越大，则反映样本j属于簇i的概率越大，可根据其获取样本的标签向量Y∈R^1×n。

与现有单视角聚类方法相比，本发明具有如下优点及显著效果：

本发明可以通过调整平衡系数去发现图像特征集的内在本质结构特征。对于大量高维数据，通过NMF提取样本的本质特征，保留作FCM模糊分析聚类，克服了硬聚类的不利影响。从另一个角度来看，该算法克服了传统聚类算法在聚类过程中因初始条件非唯一性导致的聚类结果不稳定的影响。

附图说明

图1是本发明的基于非负矩阵分解和模糊C均值的聚类方法在图像集应用流程示意图。

图2是本发明方法实施例应用中的标准数据集中部分样本。(a)GHIM-10k图像集中样本图像，(b)Corel-10k图像集中样本图像

图3是本发明方法实施例应用中采用本发明所提方法和传统聚类算法性能对比示意图。(a)GHIM-10k图像集提取灰度共生矩阵进行聚类，(b)Corel-10k图像集提取颜色直方图信息聚类。

具体实施方式

下面结合说明书附图1-3和实施例对本发明的具体实施方式作进一步说明。

图1是本发明的基于非负矩阵分解和模糊C均值的聚类方法在图像集应用流程示意图。图2是本发明方法实施例应用中的标准数据集中部分样本。(a)GHIM-10k图像集中样本图像，(b)Corel-10k图像集中样本图像。图3是本发明方法实施例应用中采用本发明所提方法和传统聚类算法性能对比示意图。(a)GHIM-10k图像集提取灰度共生矩阵进行聚类，(b)Corel-10k图像集提取颜色直方图信息聚类。其中图中传统方法为：①在初始矩阵X上运行K均值聚类②在初始矩阵X运行模糊C均值聚类③在初始矩阵X上运行MEC聚类④在经过NMF的系数矩阵H上运行K均值聚类⑤在经过NMF的系数矩阵H上运行模糊C均值聚类。

为了验证本发明的有效性，在两个标准图像集进行实验。一个是GHIM-10k图像集,另一个是Corel-10k图像集。每个图像集有10,000个图像，都来自不同的种类。从每个数据集中随机选取5个类别的500幅图像作为验证集。图2显示了验证集中部分样本。

对于每个验证集，我们提取每幅图像的灰色共生矩阵和颜色直方图分别作为初始样本矩阵X。与本算法对比的5类聚类算法分别是：①在初始矩阵X上运行K均值聚类②在初始矩阵X运行模糊C均值聚类③在初始矩阵X上运行MEC聚类④在经过NMF的系数矩阵H上运行K均值聚类⑤在经过NMF的系数矩阵H上运行模糊C均值聚类。所有这些算法都是在MATLABR2014a中实现的，所有实验都是在windows10下的8Gb内存的Inter Core 2.81GHz处理器上进行的。将这些算法的最大迭代次数设置为10000次，并在接下来的所有实验中保持不变。

在较小的矩阵上运行NMF算法可以节省更多的时间和存储空间。但也有可能破坏数据样本之间的本质结构，影响聚类效果。为了减少负面影响，考虑在NMF压缩样本数据的过程中进行模糊聚类。对于大量高维数据，通过NMF提取样本的本质特征，保留作FCM模糊分析聚类。将NMF分解对原始数据样本的影响加入到FCM的目标函数中。最小化以下代价函数：

公式中

代表计算矩阵的弗罗贝尼乌斯范数的平方，即计算矩阵所有元素的平方和。分解前后可理解为：原始矩阵X的列向量是对左矩阵W中所有列向量的加权和，而权重系数就是右矩阵H^T对应列向量的元素，故称W为基矩阵，H^T为系数矩阵。一般情况下c＜＜min(m,n)，当它等于聚类中心个数时，W将作为聚类中心对待，有一定的物理意义。||h_j-v_i||表示样本h_j与聚类中心v_i的欧几里得距离d_ij；U∈R^c×n表示隶属度矩阵，它的元素μ_ij表示h_j分属于聚类v_i的程度；V∈R^c*c是所有聚类中心组成得聚类中心矩阵。

在公式中，模糊系数f是一个大于1小于2.5的实数,因数据集不同而异，它是一个控制算法的柔性的参数，如果f过大，则聚类效果会很不理想，而如果f过小则算法会接近HCM聚类算法。λ≥0是平衡系数，其值数量级在10^-1至10²之间。第一项表示模糊C均值对聚类的影响程度，第二项表示利用NMF算法处理原始数据的过程对聚类的影响程度。

很明显，以上公式(8)的目标函数是非凸的，解出它的全局最优是不实际的。因此，利用交替迭代法则去探索非凸函数的局部最优解是一个不错的选择。通过梯度下降法和拉格朗日法的步骤来解决优化问题，求解出各变量的更新迭代公式。

第一步：固定W，H，V，通过U最优化J。U的更新规则可参照模糊C均值交替迭代公式，其更新准则为:

第二步：固定W,H，U，通过V最优化J。V的更新规则可参照模糊C均值交替迭代公式，其更新准则为:

第三步：固定V，H，U，通过W最优化J。W的更新规则可参照非负矩阵分解交替迭代公式，其更新准则为:

公式(11)中⊙是Hadamard积运算符，代表矩阵对应元素相乘。

第四步：固定W，V，U，通过H最优化J。将目标函数J展开:

目标函数J对h_j偏导数：

公式中，

1代表具有c行的全1向量，U^f是指U矩阵的对应每个元素的f次幂。利用梯度下降法得到以下附加的更新规则:

A_δ是控制梯度下降步长的参数。我们让

然后，我们能得到

H最终的更新公式为：

最终，根据隶属度矩阵U，最终获得样本类别向量Y。

综上所述，本发明一种基于非负矩阵分解和模糊C均值的聚类方法，用于实现对拥有大量的高维特征的数据样本的聚类；包含利用非负矩阵分解方法对高维特征进行降维处理的技术手段和利用模糊C均值实现模糊聚类的算法内容。本发明将NMF与模糊C均值算法相结合，提出了新的目标函数，由交替迭代产生的新的低维表示矩阵可以用来描述样本之间的本质关系。与传统聚类方法相比，提高了聚类效果。

Claims

1.一种基于非负矩阵分解和模糊C均值的聚类方法，其特征在于，包括以下步骤：

S1：对图像特征集进行预处理，提取出原始非负特征数据样本集X，并设置聚类簇团个数c，模糊系数f，平衡系数λ；

S2：初始化基矩阵W和系数表示矩阵H，根据条件约束设置模糊伪划分U，并确定对应的聚类中心矩阵V；

S3：利用梯度下降法和交替迭代法则，通过固定其余变量，对某一变量进行更新；

S4：对所提方法的目标函数的阈值进行限定，当目标函数的值变化小于阈值，上述交替迭代停止；

S5：根据隶属度划分矩阵U对样本的归属进行确定，得到样本的类标签信息，聚类结束。

2.根据权利要求1所述的基于非负矩阵分解和模糊C均值的聚类方法，其特征在于：所述S1中，对图像特征集进行预处理，提取出原始非负特征数据样本集

n是数据样本个数，m是数据样本维数；并设置聚类簇团个数c＜＜min(m,n)，模糊系数f是一个大于1而小于2.5的参量，平衡系数λ的数量级在10^-1至10²之间调整。

3.根据权利要求1所述的基于非负矩阵分解和模糊C均值的聚类方法，其特征在于：所述S2中，随机初始化基矩阵

和系数表示矩阵

使得X≈WH^T；基矩阵W是降维后的低秩空间的表现形式；系数矩阵H是原始数据X经降维后的低维表达方式；再根据以下约束设置隶属度矩阵U∈R^c×n，它的元素μ_ij表示第j个样本x_j分属于第i个聚类中心v_i的程度；然后确定该隶属度伪划分对应的聚类中心矩阵V∈R^c×c，它是由所有聚类簇团中心组成的矩阵形式，每个聚类中心由公式(2)得到，x_j表示n个样本中第j个样本，v_i表示k个簇中第i个聚类中心，C_i代表第i个簇样本集合，n_i代表第i个簇中样本个数

4.根据权利要求1所述的基于非负矩阵分解和模糊C均值的聚类方法，其特征在于：所述S3中，利用梯度下降法和交替迭代法则，通过固定其余变量，对某一变量进行更新；

①固定W，H，V，对U进行更新，U的更新准则为:

其中d_ij表示h_j与聚类中心v_i的距离||h_j-v_i||；

②固定W,H，U，对V进行更新，V的更新准则为:

③固定V，H，U，对W进行更新，W的更新规则为:

其中⊙是Hadamard积运算符，代表矩阵对应元素相乘；

④固定W，V，U，对H进行更新，H的更新规则为：

其中

5.根据权利要求1所述的基于非负矩阵分解和模糊C均值的聚类方法，其特征在于：所述S4中，对所提方法的目标函数的阈值进行限定，当目标函数的值变化小于阈值，上述交替迭代停止；在交替迭代过程中，设阈值为1×10^-6，所构造的目标函数如下所示：

6.根据权利要求1所述的基于非负矩阵分解和模糊C均值的聚类方法，其特征在于：所述S5中，根据隶属度划分矩阵U对样本的归属进行确定，得到样本的类标签信息，聚类结束；隶属度矩阵U是对所有样本进行软聚类的模糊隶属度的呈现方式，μ_ij越大，则反映样本j属于簇i的概率越大，根据其获取样本的标签向量Y∈R^1×n。