CN101986295A - 基于流形稀疏编码的图像聚类的方法 - Google Patents

基于流形稀疏编码的图像聚类的方法 Download PDF

Info

Publication number
CN101986295A
CN101986295A CN 201010522037 CN201010522037A CN101986295A CN 101986295 A CN101986295 A CN 101986295A CN 201010522037 CN201010522037 CN 201010522037 CN 201010522037 A CN201010522037 A CN 201010522037A CN 101986295 A CN101986295 A CN 101986295A
Authority
CN
China
Prior art keywords
image
images
sparse coding
manifold
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010522037
Other languages
English (en)
Other versions
CN101986295B (zh
Inventor
王灿
卜佳俊
陈纯
郑淼
吴昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN 201010522037 priority Critical patent/CN101986295B/zh
Publication of CN101986295A publication Critical patent/CN101986295A/zh
Application granted granted Critical
Publication of CN101986295B publication Critical patent/CN101986295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

基于流形稀疏编码的图像聚类的方法,包括获取待聚类的所有图像,将所有图像组成数据矩阵,获取每张图像中的SIFT特征;构造一个数据字典B,利用数据矩阵X,学习数据字典B和图像的流形稀疏编码S;使用K-means聚类方法,采用欧式距离计算各个图像之间的距离,预设图像之间的距离阈值,将图像之间距离小于预设的距离阈值的图像聚为一类,使得图像最终按类别进行显示。本发明具有能提高图像聚类性能的优点。

Description

基于流形稀疏编码的图像聚类的方法 
技术领域
本发明涉及机器学习中的图像稀疏编码技术领域,特别是涉及一种基于流形稀疏编码的图像聚类方法。
技术背景
图像聚类一直是机器学习领域内的经典问题,所谓图像聚类就是在给出的图像集合中,根据图像的内容,在无先验知识的条件下,将图像分成有意义的簇。对于图像聚类,最常用的特征属性是颜色、纹理和形状等,此外比较常用的特征是采用图像的尺度不变特征变换(SIFT)特征。然而很多时候这类特征都是维度较高同时又是比较稠密的表达,这往往会影响图像的聚类性能。
发明内容
为克服现有技术的采用SIFT特征进行图像聚类,由于特征的维度高且对图像进行稠密表达,造成聚在同一类的图像之间的相似度低,聚类性能不理想的缺点,本发明提供了一种能提高聚类性能的基于流形稀疏编码的图像聚类的方法。
基于流形稀疏编码的图像聚类的方法,包括以下步骤:
1)、获取待聚类的所有图像,将所有图像组成数据矩阵                                                
Figure 2010105220372100002DEST_PATH_IMAGE001
Figure 362570DEST_PATH_IMAGE002
,其中,
Figure 2010105220372100002DEST_PATH_IMAGE003
是第i张图像的原始特征;获取每张图像中的SIFT特征,
Figure 231300DEST_PATH_IMAGE004
;其中
Figure 2010105220372100002DEST_PATH_IMAGE005
为组成图像
Figure 382969DEST_PATH_IMAGE003
的第n个SIFT特征;
2)、构造一个数据字典B,
Figure 182297DEST_PATH_IMAGE006
,其中
Figure 2010105220372100002DEST_PATH_IMAGE007
为向量维度与原始数据维度相同的基向量,利用数据矩阵X,学习数据字典B和图像的流形稀疏编码S,
Figure 581049DEST_PATH_IMAGE008
;其中,
Figure 2010105220372100002DEST_PATH_IMAGE009
为采用流形稀疏编码表示的第i张图像特征;
3)、使用K-means聚类方法,采用欧式距离计算各个图像之间的距离,预设图像之间的距离阈值,将图像之间距离小于预设的距离阈值的图像聚为一类,使得图像最终按类别进行显示。
进一步,步骤1)中,提取图像的SIFT特征的方法包括以下步骤:
(1.1)获取一张目标图像,进行尺度空间极值检测,即利用不同尺度的高斯差分方程同目标图像进行卷积,求取尺度空间极值;
(1.2)精确定位特征点的位置,即通过拟合三维二次函数以精确确定各特征点的位置和尺度(达到亚像素精度),同时去除低对比度的关键点和不稳定的边缘相应点、以增强匹配稳定性、提高抗噪声能力;
(1.3)确定特征点的主方向,即利用关键点领域像素的梯度方向分布特征为每个关键点指定方向参数,使算子具备旋转不变性;
(1.4)生成特征描述符,包括以下步骤:
(1.4.1)将坐标轴旋转为特征点的方向,以保证旋转不变性;
(1.4.2)以特征点为中心取16×16像素大小的窗口,但是特征点所在的行和列不取;
(1.4.3)在每个4×4的图像小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,形成一个种子点,每个特征点由4×4共16个种子点组成,每个种子点有8个方向向量信息,可产生4×4×8共128个数据,形成128维的SIFT特征向量,该SIFT特征向量为特征描述符。
进一步,步骤2)中,利用数据矩阵X,通过求解目标函数 
Figure 384795DEST_PATH_IMAGE010
,来学习数据字典B和图像的流形稀疏编码S,其方法包括以下步骤:
(2.1)初始化数据字典B,对数据字典B随机赋值,算法将从i=1开始通过步骤(2.2)及(2.3)逐个求解图像的流形稀疏编码
Figure 2010105220372100002DEST_PATH_IMAGE011
以及更新后的数据字典B,直到i=m,迭代终止;
(2.2)将数据字典B作为已知信息,基于猜测图像的流形稀疏编码
Figure 688737DEST_PATH_IMAGE011
的符号,将原始目标函数中的项
Figure 26177DEST_PATH_IMAGE012
中的绝对值运算去除,从而使得原始含有绝对值的不可导的问题转换为一个简单的二次规划问题进行解决;
(2.3)将步骤(2.2)得出的图像的流形稀疏编码S作为已知信息,通过使用拉格朗日对偶法求解数据字典B,然后再次执行步骤(2.2)来求解下一个流形稀疏编码。
稀疏编码是一种获取图像稀疏表达的方法,最早应用于模拟哺乳动物视觉系统主视皮层V1区简单细胞感受的人工神经网络的编码方式,后来被广泛应用图像处理领域,例如图像去噪,图像分类等问题。稀疏编码所获得的稀疏表达会使得图像特征简单化,更有利用图像聚类。
流形学习是机器学习近些年的一个热门研究课题。假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现数据的降维。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。
本发明将稀疏编码技术应用于图像聚类领域,同时在传统的稀疏编码方法上综合考虑了数据的流形结构特征,使得学习出来的稀疏编码符合数据内在的结构特征,利用这种既稀疏又体现数据内在结构的数据表达会使得图像聚类效果更好。
本发明具有能提高图像聚类性能的优点。
附图说明
图1是本发明的流程图。
图2是步骤1的流程图。
具体实施方式
参照附图,进一步说明本发明:
基于流形稀疏编码的图像聚类的方法,包括以下步骤:
1)、获取待聚类的所有图像,将所有图像组成数据矩阵
Figure 981233DEST_PATH_IMAGE001
Figure 378716DEST_PATH_IMAGE002
,其中,
Figure 920687DEST_PATH_IMAGE003
是第i张图像的原始特征;获取每张图像中的SIFT特征,
Figure 61818DEST_PATH_IMAGE004
;其中
Figure 871380DEST_PATH_IMAGE005
为组成图像
Figure 705344DEST_PATH_IMAGE003
的第n个SIFT特征;
2)、构造一个数据字典B,
Figure 718299DEST_PATH_IMAGE006
,其中
Figure 600805DEST_PATH_IMAGE007
为向量维度与原始数据维度相同的基向量,利用数据矩阵X,学习数据字典B和图像的流形稀疏编码S,
Figure 15606DEST_PATH_IMAGE008
;其中,
Figure 269738DEST_PATH_IMAGE009
为采用流形稀疏编码表示的第i张图像特征;
3)、使用K-means聚类方法,采用欧式距离计算各个图像之间的距离,预设图像之间的距离阈值,将图像之间距离小于预设的距离阈值的图像聚为一类,使得图像最终按类别进行显示。
进一步,步骤1)中,提取图像的SIFT特征的方法包括以下步骤:
(1.1)获取一张目标图像,进行尺度空间极值检测,即利用不同尺度的高斯差分方程同目标图像进行卷积,求取尺度空间极值;
(1.2)精确定位特征点的位置,即通过拟合三维二次函数以精确确定各特征点的位置和尺度(达到亚像素精度),同时去除低对比度的关键点和不稳定的边缘相应点、以增强匹配稳定性、提高抗噪声能力;
(1.3)确定特征点的主方向,即利用关键点领域像素的梯度方向分布特征为每个关键点指定方向参数,使算子具备旋转不变性;
(1.4)生成特征描述符,包括以下步骤:
(1.4.1)将坐标轴旋转为特征点的方向,以保证旋转不变性;
(1.4.2)以特征点为中心取16×16像素大小的窗口,但是特征点所在的行和列不取;
(1.4.3)在每个4×4的图像小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,形成一个种子点,每个特征点由4×4共16个种子点组成,每个种子点有8个方向向量信息,可产生4×4×8共128个数据,形成128维的SIFT特征向量,该SIFT特征向量为特征描述符。
进一步,步骤2)中,利用数据矩阵X,通过求解目标函数,来学习数据字典B和图像的流形稀疏编码S,其方法包括以下步骤:
(2.1)初始化数据字典B,对数据字典B随机赋值,算法将从i=1开始通过步骤(2.2)及(2.3)逐个求解图像的流形稀疏编码
Figure 3656DEST_PATH_IMAGE011
以及更新后的数据字典B,直到i=m,迭代终止;
(2.2)将数据字典B作为已知信息,基于猜测图像的流形稀疏编码的符号,将原始目标函数中的项
Figure 963577DEST_PATH_IMAGE012
中的绝对值运算去除,从而使得原始含有绝对值的不可导的问题转换为一个简单的二次规划问题进行解决;
(2.3)将步骤(2.2)得出的图像的流形稀疏编码S作为已知信息,通过使用拉格朗日对偶法求解数据字典B,然后再次执行步骤(2.2)来求解下一个流形稀疏编码。
稀疏编码是一种获取图像稀疏表达的方法,最早应用于模拟哺乳动物视觉系统主视皮层V1区简单细胞感受的人工神经网络的编码方式,后来被广泛应用图像处理领域,例如图像去噪,图像分类等问题。稀疏编码所获得的稀疏表达会使得图像特征简单化,更有利用图像聚类。
流形学习是机器学习近些年的一个热门研究课题。假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现数据的降维。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。
获取图像的流形稀疏编码S时,利用数据矩阵X,通过求解目标函数(1),学习数据字典B= [b1,...,bk]以及新的图像数据表达S=[s1,...,sm],其中S是图像的稀疏表达。其中学习数据字典B和学习稀疏图像数据表达S是一个迭代学习的过程,每次迭代过程包括固定B,学习S;然后固定S,更新B。在学习稀疏图像表达的过程中考虑了数据本身的流形结构,即:在原始数据空间相似的两张图像xi和xj,学习出来的稀疏表达si和sj也相似,通过目标函数(1)中的Tr(SLST)来保证数据本身流形结构得以保持。固定B学习S,我们采用的方法是基于猜测图像新的表达S的符号,来使得将原来含有绝对值的不可导的问题转换为一个简单的二次规划问题进行解决。而固定S学习B,则是一个最小二乘问题,通过使用拉格朗日对偶法进行求解即可。
本发明将稀疏编码技术应用于图像聚类领域,同时在传统的稀疏编码方法上综合考虑了数据的流形结构特征,使得学习出来的稀疏编码符合数据内在的结构特征,利用这种既稀疏又体现数据内在结构的数据表达会使得图像聚类效果更好。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (3)

1.基于流形稀疏编码的图像聚类的方法,包括以下步骤:
1)、获取待聚类的所有图像,将所有图像组成数据矩阵                                                
Figure 2010105220372100001DEST_PATH_IMAGE001
Figure 930538DEST_PATH_IMAGE002
,其中,
Figure 2010105220372100001DEST_PATH_IMAGE003
是第i张图像的原始特征;获取每张图像中的SIFT特征,
Figure 723045DEST_PATH_IMAGE004
;其中
Figure 2010105220372100001DEST_PATH_IMAGE005
为组成图像
Figure 876684DEST_PATH_IMAGE003
的第n个SIFT特征;
2)、构造一个数据字典B,
Figure 84942DEST_PATH_IMAGE006
,其中
Figure 2010105220372100001DEST_PATH_IMAGE007
为向量维度与原始数据维度相同的基向量,利用数据矩阵X,学习数据字典B和图像的流形稀疏编码S,;其中,为采用流形稀疏编码表示的第i张图像特征;
3)、使用K-means聚类方法,采用欧式距离计算各个图像之间的距离,预设图像之间的距离阈值,将图像之间距离小于预设的距离阈值的图像聚为一类,使得图像最终按类别进行显示。
2.如权利要求1所述的基于流形稀疏编码的图像聚类的方法,其特征在于:步骤1)中,提取图像的SIFT特征的方法包括以下步骤:
(1.1)获取一张目标图像,进行尺度空间极值检测,即利用不同尺度的高斯差分方程同目标图像进行卷积,求取尺度空间极值;
(1.2)精确定位特征点的位置,即通过拟合三维二次函数以精确确定各特征点的位置和尺度(达到亚像素精度),同时去除低对比度的关键点和不稳定的边缘相应点、以增强匹配稳定性、提高抗噪声能力;
(1.3)确定特征点的主方向,即利用关键点领域像素的梯度方向分布特征为每个关键点指定方向参数,使算子具备旋转不变性;
(1.4)生成特征描述符,包括以下步骤:
(1.4.1)将坐标轴旋转为特征点的方向,以保证旋转不变性;
(1.4.2)以特征点为中心取16×16像素大小的窗口,但是特征点所在的行和列不取;
(1.4.3)在每个4×4的图像小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,形成一个种子点,每个特征点由4×4共16个种子点组成,每个种子点有8个方向向量信息,可产生4×4×8共128个数据,形成128维的SIFT特征向量,该SIFT特征向量为特征描述符。
3.如权利要求2所述的基于流形稀疏编码的图像聚类的方法,其特征在于:步骤2)中,利用数据矩阵X,通过求解目标函数 ,来学习数据字典B和图像的流形稀疏编码S,其方法包括以下步骤:
(2.1)初始化数据字典B,对数据字典B随机赋值,算法将从i=1开始通过步骤(2.2)及(2.3)逐个求解图像的流形稀疏编码以及更新后的数据字典B,直到i=m,迭代终止;
(2.2)将数据字典B作为已知信息,基于猜测图像的流形稀疏编码
Figure 611979DEST_PATH_IMAGE011
的符号,将原始目标函数中的项中的绝对值运算去除,从而使得原始含有绝对值的不可导的问题转换为一个简单的二次规划问题进行解决;
(2.3)将步骤(2.2)得出的图像的流形稀疏编码S作为已知信息,通过使用拉格朗日对偶法求解数据字典B,然后再次执行步骤(2.2)来求解下一个流形稀疏编码。
CN 201010522037 2010-10-28 2010-10-28 基于流形稀疏编码的图像聚类的方法 Active CN101986295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010522037 CN101986295B (zh) 2010-10-28 2010-10-28 基于流形稀疏编码的图像聚类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010522037 CN101986295B (zh) 2010-10-28 2010-10-28 基于流形稀疏编码的图像聚类的方法

Publications (2)

Publication Number Publication Date
CN101986295A true CN101986295A (zh) 2011-03-16
CN101986295B CN101986295B (zh) 2013-01-02

Family

ID=43710642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010522037 Active CN101986295B (zh) 2010-10-28 2010-10-28 基于流形稀疏编码的图像聚类的方法

Country Status (1)

Country Link
CN (1) CN101986295B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722717A (zh) * 2012-05-22 2012-10-10 天津大学 一种细胞分裂识别方法
CN102930300A (zh) * 2012-11-21 2013-02-13 北京航空航天大学 一种飞机目标识别方法及系统
CN103345471A (zh) * 2013-06-03 2013-10-09 浙江大学 一种基于多流行关联矩阵分解的无障碍文本展现方法
CN104053012A (zh) * 2014-05-28 2014-09-17 北京大学深圳研究生院 一种基于字典库的视频编解码方法及装置
CN104160409A (zh) * 2012-01-02 2014-11-19 意大利电信股份公司 用于图像分析的方法和系统
CN104298997A (zh) * 2014-09-28 2015-01-21 小米科技有限责任公司 数据分类方法及装置
CN111615706A (zh) * 2017-11-17 2020-09-01 脸谱公司 基于子流形稀疏卷积神经网络分析空间稀疏数据
CN112446227A (zh) * 2019-08-12 2021-03-05 阿里巴巴集团控股有限公司 物体检测方法、装置及设备
WO2022047614A1 (en) * 2020-09-01 2022-03-10 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method of generating target image data, electrical device and non-transitory computer readable medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003203090A (ja) * 2002-01-07 2003-07-18 Ricoh Co Ltd 画像空間表示方法
CN101149759A (zh) * 2007-11-09 2008-03-26 山西大学 一种基于邻域模型的K-means初始聚类中心选择方法
CN101266621A (zh) * 2008-04-24 2008-09-17 北京学门科技有限公司 一种高维稀疏数据聚类系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003203090A (ja) * 2002-01-07 2003-07-18 Ricoh Co Ltd 画像空間表示方法
CN101149759A (zh) * 2007-11-09 2008-03-26 山西大学 一种基于邻域模型的K-means初始聚类中心选择方法
CN101266621A (zh) * 2008-04-24 2008-09-17 北京学门科技有限公司 一种高维稀疏数据聚类系统及方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104160409B (zh) * 2012-01-02 2017-12-19 意大利电信股份公司 用于图像分析的方法和系统
CN104160409A (zh) * 2012-01-02 2014-11-19 意大利电信股份公司 用于图像分析的方法和系统
CN102722717B (zh) * 2012-05-22 2014-04-02 天津大学 一种细胞分裂识别方法
CN102722717A (zh) * 2012-05-22 2012-10-10 天津大学 一种细胞分裂识别方法
CN102930300A (zh) * 2012-11-21 2013-02-13 北京航空航天大学 一种飞机目标识别方法及系统
CN102930300B (zh) * 2012-11-21 2015-07-15 北京航空航天大学 一种飞机目标识别方法及系统
CN103345471B (zh) * 2013-06-03 2016-08-10 浙江大学 一种基于多流形关联矩阵分解的无障碍文本展现方法
CN103345471A (zh) * 2013-06-03 2013-10-09 浙江大学 一种基于多流行关联矩阵分解的无障碍文本展现方法
CN104053012B (zh) * 2014-05-28 2017-08-29 北京大学深圳研究生院 一种基于字典库的视频编解码方法及装置
CN104053012A (zh) * 2014-05-28 2014-09-17 北京大学深圳研究生院 一种基于字典库的视频编解码方法及装置
CN104298997A (zh) * 2014-09-28 2015-01-21 小米科技有限责任公司 数据分类方法及装置
CN104298997B (zh) * 2014-09-28 2017-10-03 小米科技有限责任公司 数据分类方法及装置
CN111615706A (zh) * 2017-11-17 2020-09-01 脸谱公司 基于子流形稀疏卷积神经网络分析空间稀疏数据
CN112446227A (zh) * 2019-08-12 2021-03-05 阿里巴巴集团控股有限公司 物体检测方法、装置及设备
WO2022047614A1 (en) * 2020-09-01 2022-03-10 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method of generating target image data, electrical device and non-transitory computer readable medium

Also Published As

Publication number Publication date
CN101986295B (zh) 2013-01-02

Similar Documents

Publication Publication Date Title
CN101986295B (zh) 基于流形稀疏编码的图像聚类的方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
Gosselin et al. Revisiting the fisher vector for fine-grained classification
Liao et al. A robust insulator detection algorithm based on local features and spatial orders for aerial images
WO2019018063A1 (en) FINAL GRAIN IMAGE RECOGNITION
CN101807258B (zh) 基于核标度切维数约简的合成孔径雷达图像目标识别方法
CN108509925B (zh) 一种基于视觉词袋模型的行人重识别方法
CN112328715B (zh) 视觉定位方法及相关模型的训练方法及相关装置、设备
CN109934272B (zh) 一种基于全卷积网络的图像匹配方法
CN110516533B (zh) 一种基于深度度量的行人再辨识方法
CN112836671B (zh) 一种基于最大化比率和线性判别分析的数据降维方法
CN108960258A (zh) 一种基于自学习深度特征的模板匹配方法
CN106203448B (zh) 一种基于非线性尺度空间的场景分类方法
Zhang et al. 3D object retrieval with multi-feature collaboration and bipartite graph matching
CN105654122B (zh) 基于核函数匹配的空间金字塔物体识别方法
CN102122353A (zh) 利用增量字典学习与稀疏表示进行图像分割的方法
CN110766708A (zh) 基于轮廓相似度的图像比较方法
CN112905828B (zh) 一种结合显著特征的图像检索器、数据库及检索方法
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN105930497A (zh) 基于图像边缘和线条特征的三维模型检索方法
Liu et al. Flower classification using fusion descriptor and SVM
Xu et al. Multi‐pyramid image spatial structure based on coarse‐to‐fine pyramid and scale space
CN113283371A (zh) 一种基于brisk特征的局部放电特征提取及分类方法
CN113011506A (zh) 一种基于深度重分形频谱网络的纹理图像分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant