CN101986295B

CN101986295B - 基于流形稀疏编码的图像聚类的方法

Info

Publication number: CN101986295B
Application number: CN 201010522037
Authority: CN
Inventors: 王灿; 卜佳俊; 陈纯; 郑淼; 吴昊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2010-10-28
Filing date: 2010-10-28
Publication date: 2013-01-02
Anticipated expiration: 2030-10-28
Also published as: CN101986295A

Abstract

基于流形稀疏编码的图像聚类的方法，包括获取待聚类的所有图像，将所有图像组成数据矩阵

，获取每张图像中的SIFT特征；构造一个数据字典B，利用数据矩阵X，学习数据字典B和图像的流形稀疏编码S；使用K-means聚类方法，采用欧式距离计算各个图像之间的距离，预设图像之间的距离阈值，将图像之间距离小于预设的距离阈值的图像聚为一类，使得图像最终按类别进行显示。本发明具有能提高图像聚类性能的优点。

Description

基于流形稀疏编码的图像聚类的方法

技术领域

本发明涉及机器学习中的图像稀疏编码技术领域，特别是涉及一种基于流形稀疏编码的图像聚类方法。

技术背景

图像聚类一直是机器学习领域内的经典问题，所谓图像聚类就是在给出的图像集合中，根据图像的内容，在无先验知识的条件下，将图像分成有意义的簇。对于图像聚类，最常用的特征属性是颜色、纹理和形状等，此外比较常用的特征是采用图像的尺度不变特征变换（SIFT）特征。然而很多时候这类特征都是维度较高同时又是比较稠密的表达，这往往会影响图像的聚类性能。

发明内容

为克服现有技术的采用SIFT特征进行图像聚类，由于特征的维度高且对图像进行稠密表达，造成聚在同一类的图像之间的相似度低，聚类性能不理想的缺点，本发明提供了一种能提高聚类性能的基于流形稀疏编码的图像聚类的方法。

基于流形稀疏编码的图像聚类的方法，包括以下步骤：

1）、获取待聚类的所有图像，将所有图像组成数据矩阵，

，其中，

Figure 2010105220372100002DEST_PATH_IMAGE003

是第i张图像的原始特征；获取每张图像中的SIFT特征，

；其中

Figure 2010105220372100002DEST_PATH_IMAGE005

为组成图像

的第n个SIFT特征；

2）、构造一个数据字典B，

，其中

为向量维度与原始数据维度相同的基向量，利用数据矩阵X，学习数据字典B和图像的流形稀疏编码S，

；其中，

为采用流形稀疏编码表示的第i张图像特征；

3）、使用K-means聚类方法，采用欧式距离计算各个图像之间的距离，预设图像之间的距离阈值，将图像之间距离小于预设的距离阈值的图像聚为一类，使得图像最终按类别进行显示。

进一步，步骤1）中，提取图像的SIFT特征的方法包括以下步骤：

（1.1）获取一张目标图像，进行尺度空间极值检测，即利用不同尺度的高斯差分方程同目标图像进行卷积，求取尺度空间极值；

（1.2）精确定位特征点的位置，即通过拟合三维二次函数以精确确定各特征点的位置和尺度（达到亚像素精度），同时去除低对比度的关键点和不稳定的边缘相应点、以增强匹配稳定性、提高抗噪声能力；

（1.3）确定特征点的主方向，即利用关键点领域像素的梯度方向分布特征为每个关键点指定方向参数，使算子具备旋转不变性；

（1.4）生成特征描述符,包括以下步骤：

（1.4.1）将坐标轴旋转为特征点的方向，以保证旋转不变性；

（1.4.2）以特征点为中心取16×16像素大小的窗口，但是特征点所在的行和列不取；

（1.4.3）在每个4×4的图像小块上计算8个方向的梯度方向直方图，绘制每个梯度方向的累加值，形成一个种子点，每个特征点由4×4共16个种子点组成，每个种子点有8个方向向量信息，可产生4×4×8共128个数据，形成128维的SIFT特征向量，该SIFT特征向量为特征描述符。

进一步，步骤2）中，利用数据矩阵X，通过求解目标函数

，来学习数据字典B和图像的流形稀疏编码S，其方法包括以下步骤：

（2.1）初始化数据字典B，对数据字典B随机赋值，算法将从i=1开始通过步骤（2.2）及(2.3)逐个求解图像的流形稀疏编码以及更新后的数据字典B，直到i=m，迭代终止；

（2.2）将数据字典B作为已知信息，基于猜测图像的流形稀疏编码

的符号，将原始目标函数中的项中的绝对值运算去除，从而使得原始含有绝对值的不可导的问题转换为一个简单的二次规划问题进行解决；

（2.3）将步骤（2.2）得出的图像的流形稀疏编码S作为已知信息，通过使用拉格朗日对偶法求解数据字典B，然后再次执行步骤（2.2）来求解下一个流形稀疏编码。

稀疏编码是一种获取图像稀疏表达的方法，最早应用于模拟哺乳动物视觉系统主视皮层V1区简单细胞感受的人工神经网络的编码方式，后来被广泛应用图像处理领域，例如图像去噪，图像分类等问题。稀疏编码所获得的稀疏表达会使得图像特征简单化，更有利用图像聚类。

流形学习是机器学习近些年的一个热门研究课题。假设数据是均匀采样于一个高维欧氏空间中的低维流形，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射，以实现数据的降维。它是从观测到的现象中去寻找事物的本质，找到产生数据的内在规律。

本发明将稀疏编码技术应用于图像聚类领域，同时在传统的稀疏编码方法上综合考虑了数据的流形结构特征，使得学习出来的稀疏编码符合数据内在的结构特征，利用这种既稀疏又体现数据内在结构的数据表达会使得图像聚类效果更好。

本发明具有能提高图像聚类性能的优点。

附图说明

图1是本发明的流程图。

图2是步骤1的流程图。

具体实施方式

参照附图，进一步说明本发明：

基于流形稀疏编码的图像聚类的方法，包括以下步骤：

1）、获取待聚类的所有图像，将所有图像组成数据矩阵

，，其中，是第i张图像的原始特征；获取每张图像中的SIFT特征，

；其中

为组成图像

的第n个SIFT特征；

2）、构造一个数据字典B，

，其中

为向量维度与原始数据维度相同的基向量，利用数据矩阵X，学习数据字典B和图像的流形稀疏编码S，；其中，

为采用流形稀疏编码表示的第i张图像特征；

（1.4）生成特征描述符,包括以下步骤：

进一步，步骤2）中，利用数据矩阵X，通过求解目标函数，来学习数据字典B和图像的流形稀疏编码S，其方法包括以下步骤：

（2.1）初始化数据字典B，对数据字典B随机赋值，算法将从i=1开始通过步骤（2.2）及(2.3)逐个求解图像的流形稀疏编码

以及更新后的数据字典B，直到i=m，迭代终止；

的符号，将原始目标函数中的项

中的绝对值运算去除，从而使得原始含有绝对值的不可导的问题转换为一个简单的二次规划问题进行解决；

获取图像的流形稀疏编码S时，利用数据矩阵X，通过求解目标函数（1），学习数据字典B= [b₁,...,b_k]以及新的图像数据表达S=[s₁,...,s_m]，其中S是图像的稀疏表达。其中学习数据字典B和学习稀疏图像数据表达S是一个迭代学习的过程，每次迭代过程包括固定B，学习S；然后固定S，更新B。在学习稀疏图像表达的过程中考虑了数据本身的流形结构，即：在原始数据空间相似的两张图像x_i和x_j，学习出来的稀疏表达s_i和s_j也相似，通过目标函数（1）中的Tr(SLS^T)来保证数据本身流形结构得以保持。固定B学习S，我们采用的方法是基于猜测图像新的表达S的符号，来使得将原来含有绝对值的不可导的问题转换为一个简单的二次规划问题进行解决。而固定S学习B，则是一个最小二乘问题，通过使用拉格朗日对偶法进行求解即可。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于流形稀疏编码的图像聚类的方法，包括以下步骤：

1)、获取待聚类的所有图像，将所有图像组成数据矩阵X，X＝[x₁，x₂，Λ，x_i，Λx_m]，其中，x_i是第i张图像的原始特征；获取每张图像中的SIFT特征，x_i＝[SIFT_i1，SIFT_i2，Λ，SIFT_in]；其中SIFT_in为组成图像x_i的第n个SIFT特征；提取图像的SIFT特征的方法包括以下步骤：

(1.1)获取一张目标图像，进行尺度空间极值检测，即利用不同尺度的高斯差分方程同目标图像进行卷积，求取尺度空间极值；

(1.2)精确定位特征点的位置，即通过拟合三维二次函数以精确确定各特征点的位置和尺度(达到亚像素精度)，同时去除低对比度的关键点和不稳定的边缘相应点、以增强匹配稳定性、提高抗噪声能力；

(1.3)确定特征点的主方向，即利用关键点领域像素的梯度方向分布特征为每个关键点指定方向参数，使算子具备旋转不变性；

(1.4)生成特征描述符，包括以下步骤：

(1.4.1)将坐标轴旋转为特征点的方向，以保证旋转不变性；

(1.4.2)以特征点为中心取16×16像素大小的窗口，但是特征点所在的行和列不取；

(1.4.3)在每个4×4的图像小块上计算8个方向的梯度方向直方图，绘制每个梯度方向的累加值，形成一个种子点，每个特征点由4×4共16个种子点组成，每个种子点有8个方向向量信息，可产生4×4×8共128个数据，形成128维的SIFT特征向量，该SIFT特征向量为特征描述符；

2)、构造一个数据字典B，B＝[b₁，b₂，Λ，b_n]，其中b_i为向量维度与原始数据维度相同的基向量，利用数据矩阵X，学习数据字典B和图像的流形稀疏编码S，S＝[s₁，s₂，Λ，s_i，Λ，s_m]；其中，s_i为采用流形稀疏编码表示的第i张图像特征；利用数据矩阵X，通过求解目标函数

\min | | X - BS | | + αTr ({SLS}^{T}) + β Σ_{i = 1}^{m} {| s_{i} |}_{1},

来学习数据字典B和图像的流形稀疏编码S，其方法包括以下步骤：

(2.1)初始化数据字典B，对数据字典B随机赋值，算法将从i＝1开始通过步骤(2.2)及(2.3)逐个求解图像的流形稀疏编码s_i以及更新后的数据字典B，直到i＝m，迭代终止；

(2.2)将数据字典B作为已知信息，基于猜测图像的流形稀疏编码s_i的符号，将原始目标函数中的项|s_i|中的绝对值运算去除，从而使得原始含有绝对值的不可导的问题转换为一个简单的二次规划问题进行解决；

(2.3)将步骤(2.2)得出的图像的流形稀疏编码S作为已知信息，通过使用拉格朗日对偶法求解数据字典B，然后再次执行步骤(2.2)来求解下一个流形稀疏编码；

3)、使用K-means聚类方法，采用欧式距离计算各个图像之间的距离，预设图像之间的距离阈值，将图像之间距离小于预设的距离阈值的图像聚为一类，使得图像最终按类别进行显示。