CN101986295A - 基于流形稀疏编码的图像聚类的方法 - Google Patents
基于流形稀疏编码的图像聚类的方法 Download PDFInfo
- Publication number
- CN101986295A CN101986295A CN 201010522037 CN201010522037A CN101986295A CN 101986295 A CN101986295 A CN 101986295A CN 201010522037 CN201010522037 CN 201010522037 CN 201010522037 A CN201010522037 A CN 201010522037A CN 101986295 A CN101986295 A CN 101986295A
- Authority
- CN
- China
- Prior art keywords
- image
- images
- sparse coding
- manifold
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000011159 matrix material Substances 0.000 claims abstract description 12
- 238000003064 k means clustering Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 12
- 230000009977 dual effect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000012887 quadratic function Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 210000000857 visual cortex Anatomy 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
基于流形稀疏编码的图像聚类的方法,包括获取待聚类的所有图像,将所有图像组成数据矩阵,获取每张图像中的SIFT特征;构造一个数据字典B,利用数据矩阵X,学习数据字典B和图像的流形稀疏编码S;使用K-means聚类方法,采用欧式距离计算各个图像之间的距离,预设图像之间的距离阈值,将图像之间距离小于预设的距离阈值的图像聚为一类,使得图像最终按类别进行显示。本发明具有能提高图像聚类性能的优点。
Description
技术领域
本发明涉及机器学习中的图像稀疏编码技术领域,特别是涉及一种基于流形稀疏编码的图像聚类方法。
技术背景
图像聚类一直是机器学习领域内的经典问题,所谓图像聚类就是在给出的图像集合中,根据图像的内容,在无先验知识的条件下,将图像分成有意义的簇。对于图像聚类,最常用的特征属性是颜色、纹理和形状等,此外比较常用的特征是采用图像的尺度不变特征变换(SIFT)特征。然而很多时候这类特征都是维度较高同时又是比较稠密的表达,这往往会影响图像的聚类性能。
发明内容
为克服现有技术的采用SIFT特征进行图像聚类,由于特征的维度高且对图像进行稠密表达,造成聚在同一类的图像之间的相似度低,聚类性能不理想的缺点,本发明提供了一种能提高聚类性能的基于流形稀疏编码的图像聚类的方法。
基于流形稀疏编码的图像聚类的方法,包括以下步骤:
3)、使用K-means聚类方法,采用欧式距离计算各个图像之间的距离,预设图像之间的距离阈值,将图像之间距离小于预设的距离阈值的图像聚为一类,使得图像最终按类别进行显示。
进一步,步骤1)中,提取图像的SIFT特征的方法包括以下步骤:
(1.1)获取一张目标图像,进行尺度空间极值检测,即利用不同尺度的高斯差分方程同目标图像进行卷积,求取尺度空间极值;
(1.2)精确定位特征点的位置,即通过拟合三维二次函数以精确确定各特征点的位置和尺度(达到亚像素精度),同时去除低对比度的关键点和不稳定的边缘相应点、以增强匹配稳定性、提高抗噪声能力;
(1.3)确定特征点的主方向,即利用关键点领域像素的梯度方向分布特征为每个关键点指定方向参数,使算子具备旋转不变性;
(1.4)生成特征描述符,包括以下步骤:
(1.4.1)将坐标轴旋转为特征点的方向,以保证旋转不变性;
(1.4.2)以特征点为中心取16×16像素大小的窗口,但是特征点所在的行和列不取;
(1.4.3)在每个4×4的图像小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,形成一个种子点,每个特征点由4×4共16个种子点组成,每个种子点有8个方向向量信息,可产生4×4×8共128个数据,形成128维的SIFT特征向量,该SIFT特征向量为特征描述符。
(2.3)将步骤(2.2)得出的图像的流形稀疏编码S作为已知信息,通过使用拉格朗日对偶法求解数据字典B,然后再次执行步骤(2.2)来求解下一个流形稀疏编码。
稀疏编码是一种获取图像稀疏表达的方法,最早应用于模拟哺乳动物视觉系统主视皮层V1区简单细胞感受的人工神经网络的编码方式,后来被广泛应用图像处理领域,例如图像去噪,图像分类等问题。稀疏编码所获得的稀疏表达会使得图像特征简单化,更有利用图像聚类。
流形学习是机器学习近些年的一个热门研究课题。假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现数据的降维。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。
本发明将稀疏编码技术应用于图像聚类领域,同时在传统的稀疏编码方法上综合考虑了数据的流形结构特征,使得学习出来的稀疏编码符合数据内在的结构特征,利用这种既稀疏又体现数据内在结构的数据表达会使得图像聚类效果更好。
本发明具有能提高图像聚类性能的优点。
附图说明
图1是本发明的流程图。
图2是步骤1的流程图。
具体实施方式
参照附图,进一步说明本发明:
基于流形稀疏编码的图像聚类的方法,包括以下步骤:
3)、使用K-means聚类方法,采用欧式距离计算各个图像之间的距离,预设图像之间的距离阈值,将图像之间距离小于预设的距离阈值的图像聚为一类,使得图像最终按类别进行显示。
进一步,步骤1)中,提取图像的SIFT特征的方法包括以下步骤:
(1.1)获取一张目标图像,进行尺度空间极值检测,即利用不同尺度的高斯差分方程同目标图像进行卷积,求取尺度空间极值;
(1.2)精确定位特征点的位置,即通过拟合三维二次函数以精确确定各特征点的位置和尺度(达到亚像素精度),同时去除低对比度的关键点和不稳定的边缘相应点、以增强匹配稳定性、提高抗噪声能力;
(1.3)确定特征点的主方向,即利用关键点领域像素的梯度方向分布特征为每个关键点指定方向参数,使算子具备旋转不变性;
(1.4)生成特征描述符,包括以下步骤:
(1.4.1)将坐标轴旋转为特征点的方向,以保证旋转不变性;
(1.4.2)以特征点为中心取16×16像素大小的窗口,但是特征点所在的行和列不取;
(1.4.3)在每个4×4的图像小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,形成一个种子点,每个特征点由4×4共16个种子点组成,每个种子点有8个方向向量信息,可产生4×4×8共128个数据,形成128维的SIFT特征向量,该SIFT特征向量为特征描述符。
进一步,步骤2)中,利用数据矩阵X,通过求解目标函数,来学习数据字典B和图像的流形稀疏编码S,其方法包括以下步骤:
(2.3)将步骤(2.2)得出的图像的流形稀疏编码S作为已知信息,通过使用拉格朗日对偶法求解数据字典B,然后再次执行步骤(2.2)来求解下一个流形稀疏编码。
稀疏编码是一种获取图像稀疏表达的方法,最早应用于模拟哺乳动物视觉系统主视皮层V1区简单细胞感受的人工神经网络的编码方式,后来被广泛应用图像处理领域,例如图像去噪,图像分类等问题。稀疏编码所获得的稀疏表达会使得图像特征简单化,更有利用图像聚类。
流形学习是机器学习近些年的一个热门研究课题。假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现数据的降维。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。
获取图像的流形稀疏编码S时,利用数据矩阵X,通过求解目标函数(1),学习数据字典B= [b1,...,bk]以及新的图像数据表达S=[s1,...,sm],其中S是图像的稀疏表达。其中学习数据字典B和学习稀疏图像数据表达S是一个迭代学习的过程,每次迭代过程包括固定B,学习S;然后固定S,更新B。在学习稀疏图像表达的过程中考虑了数据本身的流形结构,即:在原始数据空间相似的两张图像xi和xj,学习出来的稀疏表达si和sj也相似,通过目标函数(1)中的Tr(SLST)来保证数据本身流形结构得以保持。固定B学习S,我们采用的方法是基于猜测图像新的表达S的符号,来使得将原来含有绝对值的不可导的问题转换为一个简单的二次规划问题进行解决。而固定S学习B,则是一个最小二乘问题,通过使用拉格朗日对偶法进行求解即可。
本发明将稀疏编码技术应用于图像聚类领域,同时在传统的稀疏编码方法上综合考虑了数据的流形结构特征,使得学习出来的稀疏编码符合数据内在的结构特征,利用这种既稀疏又体现数据内在结构的数据表达会使得图像聚类效果更好。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (3)
2.如权利要求1所述的基于流形稀疏编码的图像聚类的方法,其特征在于:步骤1)中,提取图像的SIFT特征的方法包括以下步骤:
(1.1)获取一张目标图像,进行尺度空间极值检测,即利用不同尺度的高斯差分方程同目标图像进行卷积,求取尺度空间极值;
(1.2)精确定位特征点的位置,即通过拟合三维二次函数以精确确定各特征点的位置和尺度(达到亚像素精度),同时去除低对比度的关键点和不稳定的边缘相应点、以增强匹配稳定性、提高抗噪声能力;
(1.3)确定特征点的主方向,即利用关键点领域像素的梯度方向分布特征为每个关键点指定方向参数,使算子具备旋转不变性;
(1.4)生成特征描述符,包括以下步骤:
(1.4.1)将坐标轴旋转为特征点的方向,以保证旋转不变性;
(1.4.2)以特征点为中心取16×16像素大小的窗口,但是特征点所在的行和列不取;
(1.4.3)在每个4×4的图像小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,形成一个种子点,每个特征点由4×4共16个种子点组成,每个种子点有8个方向向量信息,可产生4×4×8共128个数据,形成128维的SIFT特征向量,该SIFT特征向量为特征描述符。
3.如权利要求2所述的基于流形稀疏编码的图像聚类的方法,其特征在于:步骤2)中,利用数据矩阵X,通过求解目标函数 ,来学习数据字典B和图像的流形稀疏编码S,其方法包括以下步骤:
(2.1)初始化数据字典B,对数据字典B随机赋值,算法将从i=1开始通过步骤(2.2)及(2.3)逐个求解图像的流形稀疏编码以及更新后的数据字典B,直到i=m,迭代终止;
(2.3)将步骤(2.2)得出的图像的流形稀疏编码S作为已知信息,通过使用拉格朗日对偶法求解数据字典B,然后再次执行步骤(2.2)来求解下一个流形稀疏编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010522037 CN101986295B (zh) | 2010-10-28 | 2010-10-28 | 基于流形稀疏编码的图像聚类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010522037 CN101986295B (zh) | 2010-10-28 | 2010-10-28 | 基于流形稀疏编码的图像聚类的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101986295A true CN101986295A (zh) | 2011-03-16 |
CN101986295B CN101986295B (zh) | 2013-01-02 |
Family
ID=43710642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010522037 Active CN101986295B (zh) | 2010-10-28 | 2010-10-28 | 基于流形稀疏编码的图像聚类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101986295B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722717A (zh) * | 2012-05-22 | 2012-10-10 | 天津大学 | 一种细胞分裂识别方法 |
CN102930300A (zh) * | 2012-11-21 | 2013-02-13 | 北京航空航天大学 | 一种飞机目标识别方法及系统 |
CN103345471A (zh) * | 2013-06-03 | 2013-10-09 | 浙江大学 | 一种基于多流行关联矩阵分解的无障碍文本展现方法 |
CN104053012A (zh) * | 2014-05-28 | 2014-09-17 | 北京大学深圳研究生院 | 一种基于字典库的视频编解码方法及装置 |
CN104160409A (zh) * | 2012-01-02 | 2014-11-19 | 意大利电信股份公司 | 用于图像分析的方法和系统 |
CN104298997A (zh) * | 2014-09-28 | 2015-01-21 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN111615706A (zh) * | 2017-11-17 | 2020-09-01 | 脸谱公司 | 基于子流形稀疏卷积神经网络分析空间稀疏数据 |
CN112446227A (zh) * | 2019-08-12 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 物体检测方法、装置及设备 |
WO2022047614A1 (en) * | 2020-09-01 | 2022-03-10 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method of generating target image data, electrical device and non-transitory computer readable medium |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003203090A (ja) * | 2002-01-07 | 2003-07-18 | Ricoh Co Ltd | 画像空間表示方法 |
CN101149759A (zh) * | 2007-11-09 | 2008-03-26 | 山西大学 | 一种基于邻域模型的K-means初始聚类中心选择方法 |
CN101266621A (zh) * | 2008-04-24 | 2008-09-17 | 北京学门科技有限公司 | 一种高维稀疏数据聚类系统及方法 |
-
2010
- 2010-10-28 CN CN 201010522037 patent/CN101986295B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003203090A (ja) * | 2002-01-07 | 2003-07-18 | Ricoh Co Ltd | 画像空間表示方法 |
CN101149759A (zh) * | 2007-11-09 | 2008-03-26 | 山西大学 | 一种基于邻域模型的K-means初始聚类中心选择方法 |
CN101266621A (zh) * | 2008-04-24 | 2008-09-17 | 北京学门科技有限公司 | 一种高维稀疏数据聚类系统及方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104160409B (zh) * | 2012-01-02 | 2017-12-19 | 意大利电信股份公司 | 用于图像分析的方法和系统 |
CN104160409A (zh) * | 2012-01-02 | 2014-11-19 | 意大利电信股份公司 | 用于图像分析的方法和系统 |
CN102722717B (zh) * | 2012-05-22 | 2014-04-02 | 天津大学 | 一种细胞分裂识别方法 |
CN102722717A (zh) * | 2012-05-22 | 2012-10-10 | 天津大学 | 一种细胞分裂识别方法 |
CN102930300A (zh) * | 2012-11-21 | 2013-02-13 | 北京航空航天大学 | 一种飞机目标识别方法及系统 |
CN102930300B (zh) * | 2012-11-21 | 2015-07-15 | 北京航空航天大学 | 一种飞机目标识别方法及系统 |
CN103345471B (zh) * | 2013-06-03 | 2016-08-10 | 浙江大学 | 一种基于多流形关联矩阵分解的无障碍文本展现方法 |
CN103345471A (zh) * | 2013-06-03 | 2013-10-09 | 浙江大学 | 一种基于多流行关联矩阵分解的无障碍文本展现方法 |
CN104053012B (zh) * | 2014-05-28 | 2017-08-29 | 北京大学深圳研究生院 | 一种基于字典库的视频编解码方法及装置 |
CN104053012A (zh) * | 2014-05-28 | 2014-09-17 | 北京大学深圳研究生院 | 一种基于字典库的视频编解码方法及装置 |
CN104298997A (zh) * | 2014-09-28 | 2015-01-21 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN104298997B (zh) * | 2014-09-28 | 2017-10-03 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN111615706A (zh) * | 2017-11-17 | 2020-09-01 | 脸谱公司 | 基于子流形稀疏卷积神经网络分析空间稀疏数据 |
CN112446227A (zh) * | 2019-08-12 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 物体检测方法、装置及设备 |
WO2022047614A1 (en) * | 2020-09-01 | 2022-03-10 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method of generating target image data, electrical device and non-transitory computer readable medium |
Also Published As
Publication number | Publication date |
---|---|
CN101986295B (zh) | 2013-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101986295B (zh) | 基于流形稀疏编码的图像聚类的方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN106682598B (zh) | 一种基于级联回归的多姿态的人脸特征点检测方法 | |
Gosselin et al. | Revisiting the fisher vector for fine-grained classification | |
Liao et al. | A robust insulator detection algorithm based on local features and spatial orders for aerial images | |
WO2019018063A1 (en) | FINAL GRAIN IMAGE RECOGNITION | |
CN101807258B (zh) | 基于核标度切维数约简的合成孔径雷达图像目标识别方法 | |
CN108509925B (zh) | 一种基于视觉词袋模型的行人重识别方法 | |
CN112328715B (zh) | 视觉定位方法及相关模型的训练方法及相关装置、设备 | |
CN109934272B (zh) | 一种基于全卷积网络的图像匹配方法 | |
CN110516533B (zh) | 一种基于深度度量的行人再辨识方法 | |
CN112836671B (zh) | 一种基于最大化比率和线性判别分析的数据降维方法 | |
CN108960258A (zh) | 一种基于自学习深度特征的模板匹配方法 | |
CN106203448B (zh) | 一种基于非线性尺度空间的场景分类方法 | |
Zhang et al. | 3D object retrieval with multi-feature collaboration and bipartite graph matching | |
CN105654122B (zh) | 基于核函数匹配的空间金字塔物体识别方法 | |
CN102122353A (zh) | 利用增量字典学习与稀疏表示进行图像分割的方法 | |
CN110766708A (zh) | 基于轮廓相似度的图像比较方法 | |
CN112905828B (zh) | 一种结合显著特征的图像检索器、数据库及检索方法 | |
CN111652273A (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN105930497A (zh) | 基于图像边缘和线条特征的三维模型检索方法 | |
Liu et al. | Flower classification using fusion descriptor and SVM | |
Xu et al. | Multi‐pyramid image spatial structure based on coarse‐to‐fine pyramid and scale space | |
CN113283371A (zh) | 一种基于brisk特征的局部放电特征提取及分类方法 | |
CN113011506A (zh) | 一种基于深度重分形频谱网络的纹理图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |