CN108009586B

CN108009586B - 封顶概念分解方法及图像聚类方法

Info

Publication number: CN108009586B
Application number: CN201711257431.6A
Authority: CN
Inventors: 舒振球; 朱琪; 范洪辉; 张�杰
Original assignee: Jiangsu University of Technology
Current assignee: Jiangsu University of Technology
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2021-09-24
Anticipated expiration: 2037-12-04
Also published as: CN108009586A

Abstract

本发明提供了一种封顶概念分解方法及图像聚类方法，其中，该封顶概念分解方法中包括：S10获取待分解的非负矩阵X＝[x₁,x₂,...,x_N]∈R^d*n，其中，d为特征值的维度数，n为非负矩阵中数据点的个数；S20根据所述非负矩阵构建目标函数J(F,G)：

s.t.F≥0,G≥0,G^TG＝I其中，θ＞0；S30根据所述目标函数J(F,G)，使用迭代加权的方法，输出权矩阵W和特征矩阵G，完成对非负矩阵X的概念分解。出权矩阵W和特征矩阵G，完成对非负矩阵X的概念分解。解决了现有的封顶概念分解方法中存在的噪声和离群值问题，同时对于某些存在极端异常值的数据的现实问题。

Description

封顶概念分解方法及图像聚类方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种封顶概念分解方法及图像聚类方法。

背景技术

在模式识别、计算机视觉、图像聚类等应用中，数据表示是一个根本问题，且经常与高维度数据关联。但是在高维度数据处理的过程中，往往需要使用低秩表示来从原始数据表达式中得到信息和特征。在这种情况下，矩阵分解被广泛运用线性数据表示中，其是将矩阵拆解为数个矩阵的乘积，如，给出一个原始数据矩阵X，通过矩阵分解寻找到两个或更多的矩阵，使他们的乘积近似于原始数据矩阵。

随着矩阵分解的广泛使用，概念分解作为一种有效的矩阵分解方法同样得到了广泛的关注。概念分解(Concept Factorization，CF)是非负矩阵分解(Non-negative MatrixFactorization，NMF)的一种变形，在分解过程中，每一个群是数据点的一个线性组合，每一个数据点是群中心的线性组合。相比于非负矩阵分解来说，概念分解的适用范围更广，但是概念分解有一个很大的缺陷，就是不能调解数据中的离群值和噪声，一点点的噪声入口都会影响分解结果，尤其是遇到极端异常值时，表现更糟糕。

发明内容

针对上述问题，本发明提供了一种封顶概念分解方法及图像聚类方法，有效解决现有技术中概念分解不能调解数据中的离群值和噪声，从而影响图像聚类的正确率。

本发明提供的技术方案如下：

一种封顶概念分解方法中包括：

S10获取待分解的非负矩阵X＝[x₁,x₂,...,x_n]∈R^d*n，其中，d为特征值的维度数，n为非负矩阵中数据点的个数；

S20根据所述非负矩阵构建目标函数J(F,G)：

s.t.F≥0,G≥0,G^TG＝I

其中W表示权矩阵，F＝x_jW，x_j表示数据集中的第j个数据点，g_j表示第j个样本的表示系数，θ＞0表示用于处理极端异常值的阈值，I表示单位矩阵；

S30根据所述目标函数J(F,G)，使用迭代加权的方法，输出权矩阵W和特征矩阵G，完成对非负矩阵X的概念分解；

在步骤S3中包括：

S31根据导数相同原理，将目标函数J(F,G)进行变形得到变形的目标函数Y(F,G)：

其中

x_j表示第j个数据点，F＝x_jW，d_j表示对角矩阵D中的第j个对角元素，x_j表示数据集中的第j个数据点，g_j表示第j个样本的表示系数，W表示权矩阵，θ表示用于处理极端异常值的阈值；

S32根据所述变形的目标函数Y(F,G)，使用迭代乘性方法，输出权矩阵W和特征矩阵G，完成对非负矩阵X的概念分解；

在步骤S32中具体包括：

S321运用矩阵的迹将变形的目标函数Y(F,G)进行变换得到新的目标函数Z(F,G)：

s.t.F≥0,G≥0,G^TG＝I

其中，X为数据集矩阵，F＝x_jW，x_j表示第j个数据点的向量，W表示权矩阵，G^T表示系数矩阵G的转置，D为对角矩阵，其第j个对角元素D_jj，I为单位矩阵；

S322当对角矩阵D固定时，新的目标函数Z(F,G)为：

s.t.F≥0,G≥0,G^TG＝I

S323根据步骤S322中的目标函数Z(F,G)得到权矩阵W和特征矩阵G：

其中W_ik表示权矩阵元素，G_jk表示系数矩阵的元素，D为对角矩阵，X表示非负矩阵；

S324当矩阵F和特征矩阵G不变时，对角矩阵D的迭代范数为：

其中W表示权矩阵，D_jj表示对角矩阵D的第j个对角元素，x_j表示数据集中第j个样本，g_j表示样本x_j的表示系数,θ为阈值；

S325根据步骤S323和步骤S324中得到的权矩阵W、特征矩阵G及对角矩阵D进行循环迭代预设次数，输出权矩阵W和特征矩阵G，完成对非负矩阵X的概念分解。

本发明还提供了一种图像聚类方法，包括：

从图像库中提m个图像，并构造q个最邻近图；

采用上述封顶概念分解方法得到特征矩阵G；

利用k-means算法对特征矩阵G进行分析，完成图像聚类。

本发明中的方法是对原有的概念分解方法一种改进，用来解决了现有的概念分解方法中存在的噪声和离群值问题。具体来说，本发明的方法对重建值与原有样本数据进行误差分析，如差值超过一定的阀值θ，模型则认为该样本是极端噪声样本，否则为正常样本。其中，本阀值的选择是一种无参数的方式进行，没有增加模型的参数，故具有较强的实用性。相较于现有的概念分解方法，本发明方法对于某些存在极端异常值的数据的现实问题，更加有效。

另外，本发明中的概念分解方法适用范围更加广泛，绝大多数的现实问题及应用都可以很好地解决，尤其是高维数据聚类。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对上述特性、技术特征、优点及其实现方式予以进一步说明。

图1为本发明中封顶概念分解方法流程示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

我们知道，现有的概念分解方法是在非负矩阵分解方法的基础上提出来的，其中，

在非负矩阵分解方法中，给出一个非负矩阵X＝[x₁,x₂....x_n]∈R^N*K，X的每一列是一个样本向量，非负矩阵分解方法的目的就是寻找两个非负矩阵F＝[f_ik]∈R^M*K和G＝[g_jk]∈R^N*K，其乘积接近于非负矩阵X，其目标函数O为：

O＝||X-FG^T||²

其中，||.||代表矩阵的罗贝尼乌斯范。

在现有的概念分解方法中，每一个基本向量f_k都是样本向量x_j的非负线性组合，即，

其中，ω_jk≥0，让W＝[ω_jk]∈R^N*K，概念分解的本质是寻找如下近似值：

X≈XWG^T

通过求最小值，得到目标函数O'：

O＝||X-XWG^T||²

最小化上述目标函数O，得到权矩阵W和特征矩阵G的迭代函数：

其中，K＝X^TX，这些乘性迭代范数只包含X的内积，所以很容易地被核化。

但是，在很多应用中，数据通常会被很大的正噪音局部影响。因为残差平方，很少的离群值都会带有极大的错误从而极易影响目标函数。虽然，当噪声的位置知道的时候，一些现存的概念分解的变形的方法可以将这些被污染的数据当作遗漏值。但是，在绝大多数的现实应用中，位置是不知道的。因此，本发明提出了一种全新的鲁棒性封顶范数概念分解方法，其运用稀疏的误差矩阵用于重建，来捕捉数据中的噪声。

如图1所示为本发明提供的封顶概念分解方法流程示意图，从图中可以看出，在该封顶概念分解方法中包括：

S20根据非负矩阵构建目标函数J(F,G)：

s.t.F≥0,G≥0,G^TG＝I

其中，θ＞0，用于挑选极端异常值的阈值；F∈R^d*k，表示k个基本因子，k为类的个数；G∈R^n*k，其是类别标志，表示最终的分群结果。为了提高其有效性，在该封顶概念分解方法中，对目标函数J(F,G)中的特征矩阵G进行正交性约束，以保证方法的单值性，提高分群的准确度。

S30根据目标函数J(F,G)，使用迭代加权的方法，输出权矩阵W和特征矩阵G，完成对非负矩阵X的概念分解。

基于以上方法，为了优化算法，根据导数相同的方法原理，对于目标函数J(F,G)进行变形，得到变形的目标函数Y(F,G)：

其中，

以此，在后续中根据变形的目标函数Y(F,G)，使用迭代加权的方法，输出权矩阵W和特征矩阵G，完成对非负矩阵X的概念分解。

在根据变形的目标函数Y(F,G)迭代得到权矩阵W和特征矩阵G的过程中，将变形的目标函数Y(F,G)进行转换得到新的目标函数Z(F,G)：

s.t.F≥0,G≥0,G^TG＝I

其中，D为对角矩阵，其中，第j个对角元素D_jj为d_j。

得到新的目标函数Z(F,G)后，通过迭代加权最优化策略进行求解即可。具体，当对角矩阵D固定时，新的目标函数Z(F,G)可以被扩展为：

s.t.F≥0,G≥0,G^TG＝I

以此权矩阵W和特征矩阵G的迭代规则为：

当基础矩阵F和特征矩阵G不变时，对角矩阵D的迭代范数为：

最后，根据上述步骤权矩阵W、特征矩阵G及对角矩阵D之后，随即开始进行迭代循环，当达到预设的循环次数t之后，输出权矩阵W和特征矩阵G，完成对非负矩阵X的鲁棒性封顶范数下的概念分解。

本发明还提供了一种图像聚类方法，在该图像聚类方法中包括：从图像库中提m个图像，并构造q个最邻近图；采用上述封顶概念分解方法得到特征矩阵G；利用k-means算法对特征矩阵G进行分析，完成图像聚类。具体，该图像聚类方法除了可以应用于正常的图片聚类之外，可以应用于人脸图像聚类等。

应当说明的是，上述实施例均可根据需要自由组合。以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通相关人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。