CN111027624B

CN111027624B - 一种基于非线性增强子空间聚类的图像识别方法

Info

Publication number: CN111027624B
Application number: CN201911259835.8A
Authority: CN
Inventors: 陈少敏; 王丽娟; 尹明; 郝志峰; 蔡瑞初; 温雯; 陈炳丰
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2022-10-21
Anticipated expiration: 2039-12-10
Also published as: CN111027624A

Abstract

本发明公开了一种基于非线性增强子空间聚类的图像识别方法，首先获取图像数据集；利用局部线性嵌入算法求解图像数据集的局部线性表达矩阵，以提取图像数据集的非线性流形结构；构建基于块对角约束及非线性流形结构的非线性增强子空间聚类目标函数；对非线性增强子空间聚类目标函数进行初始化并求解出最优解；基于最优解构建拉普拉斯矩阵，并通过NCut或K‑means得到最终图像数据集的聚类结果，完成图像识别。本发明通过预先学习图像的非线性流形结构，即局部线性结构拟合非线性流形从而在提高图像识别效果；同时强制构造块对角作为约束条件，通过迭代求解出的邻接矩阵的块对角结构更加契合子空间聚类的目标效果。

Description

一种基于非线性增强子空间聚类的图像识别方法

技术领域

本发明涉及模式识别计算技术领域，尤其涉及一种基于非线性增强子空间聚类的图像识别方法。

背景技术

人脸识别是人类非常重要的感知能力。随着计算机技术的发展，人脸识别成为一个越来越热门的话题。支付宝推广的“刷脸支付”、社会治安管理、地铁“刷脸过闸”等等无一不是人脸识别落地实际生活应用的体现。由于人脸图像会受到光照、姿态等外部因素和表情、年龄等内部因素的影响,另外,有些人的人脸很相似。这些因素会增加人脸图像的类内差异性和类间相似性,给识别带来很大的困难。研究证明不同光照下的人脸图像可以用一个低维子空间近似表示，而含有不同人的一组人脸图像可以看作是多维线性子空间的并集，从而人脸识别问题可以转化为子空间聚类问题。通过子空间聚类技术，将分属于同一个体的图像数据化分为一类，从而完成人脸识别任务。

然而现有的大多数子空间分割方法(如SSC和LRR)都采用替代结构前置(如稀疏和低秩)来构造关联矩阵，但由于没有连接的条件，因此不能很好地利用关联矩阵子空间间样本。同时LRR在数据量不充分的情况下，由于学习不充分导致图像识别聚类效果不佳。此外，由于图像普遍为高维数据，具有很强的非线性流形结构，线性的子空间聚类方法无法很好地利用这些流形结构信息。

发明内容

本发明为解决现有图像识别方法由于在子空间聚类中局部信息缺失而影响图像识别精度的问题，提供了一种基于非线性增强子空间聚类的图像识别方法。

为实现以上发明目的，而采用的技术手段是：

一种基于非线性增强子空间聚类的图像识别方法，包括以下步骤：

S1.获取图像数据集；

S2.利用局部线性嵌入算法求解所述图像数据集的局部线性表达矩阵，以提取所述图像数据集的非线性流形结构；

S3.构建基于块对角约束及非线性流形结构的非线性增强子空间聚类目标函数；

S4.对所述非线性增强子空间聚类目标函数进行初始化并求解出最优解；

S5.基于所述最优解构建拉普拉斯矩阵，并通过NCut或K-means得到最终图像数据集的聚类结果，完成图像识别。

优选的，所述步骤S1还包括以下步骤：对所述图像数据集中的图像进行裁剪为统一的大小；若图像数据集中包含彩色图像，则对彩色图像进行降维处理。

优选的，所述步骤S2的具体步骤包括：基于KNN算法，按欧式距离作为度量，计算距离所述图像数据集X中数据点x_i最近的k个最近邻，计算数据点x_i与k个最近邻之间的重构权值w_ij，通过使重构误差

最小求得最优解W*，则所述图像数据集的局部线性表达矩阵L_M＝tr(X(I-W*)^T(I-W*))。

优选的，所述步骤S3中的非线性增强子空间聚类目标函数具体为：

s.t.diag(B)＝0 B＝B^T，B≥0

其中图像数据集X∈R^(D*n)，D表示维数，n图像数据集中总的数据点数；k表示图像数据集中共有的图像类别数，B为一个n*n的系数矩阵；由于X与系数矩阵B和Z具有相同流形，则得到min_ztr(ZL_MZ^T)并作为非线性流形学习算子；

对上式进行松弛化得到：

其中λ、γ、β为目标函数的参数，Z为系数矩阵，k为图像数据集的目标聚类个数；||B||_k＝min_G<L_B，G>；其中tr(G)＝k，则进一步得到最终的非线性增强子空间聚类目标函数：

其中1为单位阵，Diag(*)为一个对角阵。

优选的，所述步骤S4具体为：随机初始化所述非线性增强子空间聚类目标函数的系数矩阵Z和B，约束系数矩阵Z和B的对角线上的值为0，并进行以下计算：

系数矩阵Z的计算方法为：

令Z的导数为0，得到：

(X^TX+λI)Z+βZL_M＝X^TX+λB；

矩阵G的计算方法为：

G＝UU^T，

是由Diag(B1)-B最小的k个特征值，tr(G)＝k；

系数矩阵B的计算方法为：

迭代更新Z、G和B，直至达到最大迭代次数或Z和B的差值在预设阈值内时，此时系数矩阵Z和B即为非线性增强子空间聚类目标函数的最优解。

优选的，所述步骤S5具体为：构建矩阵Z和B的拉普拉斯矩阵，通过NCut或Kmeans聚类算法对所述拉普拉斯矩阵进行划分从而完成图像数据集中图像的聚类，得到图像识别结果。

与现有技术相比，本发明技术方案的有益效果是：

本发明方法通过预先学习图像的非线性流形结构，局部线性结构拟合非线性流形从而在提高图像识别效果；同时强制构造块对角作为约束条件，通过迭代求解出的邻接矩阵的块对角结构更加契合子空间聚类的目标效果。本发明方法通过结合局部线性结构拟合非线性流形以及块对角约束的方法，使其可以从图片数据中获取更多内在结构数据信息，从而提升图像识别效果。

附图说明

图1为本发明的流程图。

图2为实施例2的实验结果对比图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

一种基于非线性增强子空间聚类的图像识别方法，如图1所示，包括以下步骤：

S1.获取图像数据集；对所述图像数据集中的图像进行裁剪为统一的大小；若图像数据集中包含彩色图像，则对彩色图像进行降维处理；

获取得到的图像数据集表示为X∈R^(D*n)，D表示维数，n为图像数据集中总的数据点数；

S2.利用局部线性嵌入算法求解所述图像数据集的局部线性表达矩阵，以提取所述图像数据集的非线性流形结构：

基于KNN算法，按欧式距离作为度量，计算距离所述图像数据集X中数据点x_i最近的k个最近邻，如果第j个数据点是第i个数据点的近邻，则矩阵的第i行j列代表了第i个数据点到第j个数据点的距离。如果第j个数据点不是第i个数据点的近邻，则该值为0，每一列有且仅有k个数值非0，且

计算数据点x_i与k个最近邻之间的重构权值w_ij，通过使重构误差

最小求得最优解W*；

则所述图像数据集的局部线性表达矩阵L_M＝tr(X(I-W*)^T(I-W*))。

S3.构建基于块对角约束及非线性流形结构的非线性增强子空间聚类目标函数：

s.t.diag(B)＝0 B＝B^T，B≥0

其中图像数据集X∈R^(D*n)，D表示维数，n为图像数据集中总的数据点数，k表示图像数据集中共有的图像类别数，B为一个n*n的系数矩阵；由于X与系数矩阵B和Z具有相同流形，则得到min_ztr(ZL_MZ^T)并作为非线性流形学习算子；

直接使用B进行求解会限制目标函数的表达能力，因此本发明进一步对其进行松弛化，得到：

其中λ、γ、β为目标函数的参数，Z为系数矩阵，k为图像数据集的目标聚类个数；||B||_k＝min_G<L_B,G>；其中tr(G)＝k，则进一步得到最终的非线性增强子空间聚类目标函数：

其中1为单位阵，Diag(*)为一个对角阵。

S4.对所述非线性增强子空间聚类目标函数进行初始化并求解出最优解：

随机初始化所述非线性增强子空间聚类目标函数的系数矩阵Z和B，约束系数矩阵Z和B的对角线上的值为0，并进行以下计算：

系数矩阵Z的计算方法为：

令Z的导数为0，得到：

(X^TX+λI)Z+βZL_M＝X^TX+λB；

矩阵G的计算方法为：

G＝UU^T，

是由Diag(B1)-B最小的k个特征值，tr(G)＝k；

系数矩阵B的计算方法为：

S5.构建矩阵Z和B的拉普拉斯矩阵，通过NCut或Kmeans聚类算法对所述拉普拉斯矩阵进行划分从而完成图像数据集中图像的聚类，得到图像识别结果。

实施例2

本实施例2基于实施例1所提供的基于非线性增强子空间聚类的图像识别方法进行仿真实验，在本实验中具体应用于人脸图像识别。实验采用5个数据集，包括3个人脸数据集：ORL,Yale Face,CMU-PIE数据集；2个物体识别数据集：COIL20,CIFAR-10数据集。其中ORL包含40个不同的主题，每个对象都有10个在不同情况下拍摄的图像、不同的面部表情、面部细节和照明条件。Yale Face数据集包含15个人的165幅图像。每个主题在不同的面部表情和照明条件下有11个不同的图像。CMU-PIE是一种流行的人脸数据集，广泛用于多种学习任务。它包括68个对象，总计41，368个人脸图像。将实施例1的方法分别应用于COIL20和CIFAR-10上的对象图像聚类。CIFAR-10数据集包含十个类：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。每个类正好包含6，000个图像。哥伦比亚对象图像库(COIL20)是由20个对象的灰度图像组成的数据集。这些物体被放置在黑色背景的电动转盘上。转盘旋转360度，以改变物体相对于固定摄像机的姿势。物体的图像以5度的姿势间隔拍摄。这相当于每个对象包含72个图像。

本实验中对比了以下模型：块对角表示子空间聚类(BDR)未加入非线性学习、低秩表示(LRR)、隐式块对角线低秩表示(IBDLR)、自适应低秩核方法子空间聚类(LRKSC)和拉普拉斯正则低秩表示(NSLLRR)。除了块对角表示子空间聚类(BDR)，上述模型都有一个共同特点，都是对于图像识别有一定的强化，通过加入流形学习或者核方法学习，更好的学习图像的非线性的流形结构，使得在图像识别上有更好的效果。以CMU-PIE为例，通常说，我们聚类类数越多，问题就变得更加有挑战性。如图2可以看到，本发明方法(图中的ours指本发明方法)在大多数情况下都可以有不俗的表现。非线性的流形结构在文本、图像等等的高维数据十分常见。处理高维数据是非常棘手的事情。本发明方法通过局部线性结构拟合非线性的流形结构，更好地将局部信息利用起来，其中对于块对角约束使得构造出来用于最后谱聚类任务的邻接矩阵更加契合子空间聚类的目标效果。通过结合局部线性结构拟合非线性流形以及块对角约束的方法，使得模型可以学习到更多图像本身的信息，改善了其在图像识别的效果。

需要说明的是，以上实施例中所使用的各个组成部件均可采用市面上的商用产品，本发明旨在保护它们的连接关系及其实现原理，因此并未对每个产品本身的型号等进行限定。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。