CN103116762A - 一种基于自调制字典学习的图像分类方法 - Google Patents
一种基于自调制字典学习的图像分类方法 Download PDFInfo
- Publication number
- CN103116762A CN103116762A CN201310091623XA CN201310091623A CN103116762A CN 103116762 A CN103116762 A CN 103116762A CN 201310091623X A CN201310091623X A CN 201310091623XA CN 201310091623 A CN201310091623 A CN 201310091623A CN 103116762 A CN103116762 A CN 103116762A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- image
- local feature
- training
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000013016 learning Effects 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 92
- 230000006870 function Effects 0.000 claims description 49
- 239000013598 vector Substances 0.000 claims description 49
- 239000000284 extract Substances 0.000 claims description 29
- 238000005070 sampling Methods 0.000 claims description 27
- 238000006116 polymerization reaction Methods 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000006386 neutralization reaction Methods 0.000 claims 1
- 230000007246 mechanism Effects 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 3
- 230000002776 aggregation Effects 0.000 abstract 1
- 238000004220 aggregation Methods 0.000 abstract 1
- 238000013145 classification model Methods 0.000 abstract 1
- 238000005457 optimization Methods 0.000 description 23
- 238000004422 calculation algorithm Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282320 Panthera leo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于自调制字典学习的图像分类方法,包含如下步骤:训练阶段:步骤1,局部特征抽取;对于训练图像集中的每一幅训练图像进行局部特征描述子抽取生成训练图像集的局部特征集合;步骤2,自调制字典学习;步骤3,训练图像表示:包含特征稀疏编码和图像空间聚合两个子步骤。步骤4,分类模型学习;步骤5,局部特征抽取;步骤6,待分类图像表示;步骤7,模型预测。本发明为字典学习引入了合理的顺序机制,设计了一套自调制机制的字典学习方法,并结合图像分类进行分析验证,最终提高图像分类的准确度。
Description
技术领域
本发明属于图像分类领域,特别是一种面向多类别、高精度图像分类方法。
背景技术
在当前的信息化社会中,以图像为代表的数字媒体资源已达到海量规模,成为当前信息处理和信息资源建设的主体。传统的技术手段已经无法适应这种需求,这对图像的组织、分析、检索和管理等技术都提出了全新的挑战。图像分类作为对图像的机器理解的基础技术,近些年来一直是模式识别、计算机视觉、信息检索、人工智能、机器学习和数据挖掘等多个重要研究领域中持续的前沿性研究热点。图像分类是指根据图像的内容将其归为特定的语义类别的方法,其能自动提取图像的语义信息并有效管理。图像语义分类技术可直接应用到海量图像检索、图像语义标注、图像信息过滤等图像语义理解相关的其他技术领域,并带动上述领域相关技术的发展。尽管国内外许多研究者投身于图像分类技术的研究,目前的图像分类还面临多种挑战。比如:怎样自动获得丰富的高层语义信息;如何鲁棒地处理光照、位置、遮挡以及噪声数据的情形;如何高效处理大规模图像数据等等。近些年,基于字典学习的图像分类框架获得众多研究者的关注,大量实验分析表明了其优越性。此框架的关键在于设计高效算法学习更有效的字典,并充分利用字典中的信息用于分类。因此,此发明旨在改进已有字典学习模型,引入学习顺序机制控制字典学习,使学习过程从简单到复杂逐渐演化,最终形成更适用于分类任务的字典,以提升基于字典学习的图像分类方法的分类精度。
发明内容
发明目的:本发明为了解决现有技术中的问题,提出了一种基于自调制字典学习的图像分类方法,从而提升了已有基于字典学习的图像分类方法的分类精度。
发明内容:本发明公开了基于自调制字典学习的图像分类方法,包含如下步骤:
训练阶段:步骤1,局部特征抽取:对于训练图像集中的每一幅训练图像进行局部特征描述子抽取生成训练图像集的局部特征集合;训练图像是带有类标的图像,类标用于标记图像所属类别;采用稠密抽样的策略,通过16像素×16像素网格划分采样,在每个采样点抽取128维灰度SIFT描述子,最后将抽取的局部特征集合的一个子集作为字典学习的训练集;
步骤2,自调制字典学习:在局部特征集合中随机抽取部分局部特征作为训练集,训练集分为简单样例集E和复杂样例集H;反复迭代:当前简单样例集确定、稀疏编码、字典更新、以及阈值更新四个步骤完成字典学习,生成字典D。
整个学习过程维护两个训练样例集合:简单样例集E和复杂样例集H;通过迭代以下步骤完成字典学习:确定当前简单样例集,即从复杂样例集H中挑选此次迭代被判定为简单的样例,加入到上一次迭代的简单样例集,形成当前简单样例集;稀疏编码,固定上一次迭代的字典,并利用其对训练集中的所有局部特征完成稀疏编码;字典更新,仅利用此次迭代的简单样例集中的局部特征编码系数对字典进行更新阈值更新,采用逐渐放松简单样例筛选标准的自适应阈值函数,利用当前训练集上的打分函数值分布,合理更新阈值。不断进行以上四步的迭代优化,直接字典最终收敛,或是达到预先规定的迭代次数,最终获得训练好的字典。
步骤3,训练图像表示:包含特征稀疏编码和图像空间聚合两个子步骤。
特征稀疏编码,对训练图像中抽取的局部特征进行编码,采用下式根据字典D,对局部特征xi求解稀疏编码系数αi:
其中D表示字典,αi表示局部特征xi对应于字典D的编码系数,λ是正则化参数,其取值为(0,+∞),采用快速特征符搜索法求解;图像空间聚合,对于训练图像的所有局部特征的编码结果进行空间聚合操作,以形成整张图像的特征向量,采用分层分块的金字塔空间划分,对于每一块进行最大值聚合操作。总共将图像空间分为三层:level0、level1、level2。level0不分块,表示整张图像的信息,level1按图像平面空间横轴与纵轴方向均分为4块,level2把level1的每块再按图像平面空间横轴与纵轴方向均分为4小块,构成16小块,共有21块;最后将所有分块的特征向量串接成整个图像的特征向量,假设获得的码书含K个视觉单词,K取正整数,则图像的特征向量维度为21×K。若用α∈RK表示特征编码结果,ym表示空间上属于第m块的特征,m取值为0到20的整数,则最大值聚合的操作定义为:for j=1,...K.,其中hm,j表示第m块空间聚合操作的结果向量在第j个维度的分量值。
步骤4,分类模型学习:将步骤3中形成的训练图像特征向量及其对应分类类标作为SVM(Support Vector Machine,支持向量机)分类器的输入,采用线性核SVM分类模型,完成分类模型的参数学习,得到SVM分类模型;
分类阶段包括:
步骤5,局部特征抽取:对于待分类图像进行局部特征描述子抽取,采用稠密抽样的策略,通过网格划分采样,进行SIFT描述子抽取;
步骤6,待分类图像表示:包含特征稀疏编码和图像空间聚合两个子步骤,首先对待分类图像的局部特征进行稀疏编码:采用下式根据字典D,对局部特征xi求解稀疏编码系数αi:
其中D表示字典,αi表示局部特征xi对应于字典D的编码系数,λ是正则化参数,其取值为(0,+∞),采用快速特征符搜索法求解;然后进行待分类图像的所有局部特征的编码结果空间聚合:采用分层分块的金字塔空间划分,对于每一块进行最大值聚合操作。总共将图像空间分为三层:level0、level1、level2。level0不分块,表示整张图像的信息,level1按图像平面空间横轴与纵轴方向均分为4块,level2把level1的每块再按图像平面空间横轴与纵轴方向均分为4小块,构成16小块,共有21块;最后将所有分块的特征向量串接成整个图像的特征向量,假设获得的码书含K个视觉单词,K取正整数,则图像的特征向量维度为21×K。若用α∈RK表示特征编码结果,ym表示空间上属于第m块的特征,m取值为0到20的整数,则最大值聚合的操作定义为:for j=1,...K.,其中hm,j表示第m块空间聚合操作的结果向量在第j个维度的分量值。
步骤7,模型预测,将步骤6中形成的待分类图像特征向量输入步骤4中学习得到的SVM分类模型,以此预测待分类图像的类别。
步骤2自调制字典学习具体包括如下步骤:
从局部特征集合中随机取n个训练图像作为训练集X,X=[x1,...,xn]∈Rm×n,其中xi∈Rm表示一个局部特征,m表示局部特征的维数,则字典学习采用以下公式:
其中D=[d1,...,dk]∈Rm×k表示字典,s.t.表示优化函数的约束,dj∈Rm是字典的第j个基项,k表示字典的字典项个数;αi表示局部特征xi对应于字典D的编码系数,A表示训练集X中所有局部特征对应的编码系数,λ是正则化参数,其取值为(0,+∞);在以上优化问题中,正则化项保证了编码系数αi的稀疏性。
本发明设计的自调制学习强调学习顺序对字典学习问题的重要性,本发明的方法能自动控制从简单到复杂的学习顺序;贯穿整个字典学习过程。
本发明维护两个互不交叉的训练数据集合:简单样例集E和复杂样例集H,E和H的并集为整个训练集X。初始化简单样例集E为空集,复杂样例集H为整个训练集X;随着学习过程的进行,从当前复杂样例集H中选取简单样例加入简单样例集E,所以E逐渐扩展为整个训练集,H则逐渐减少至空集。需要一个初始字典用于首轮简单样例的选取,本发明采用K-means算法构建初始字典Dinitial。
反复迭代步骤21~步骤24,直至字典收敛或达到指定的迭代次数:ζ:
步骤21,确定当前简单样例集:从上一步复杂样例集H中选取本次迭代的简单样例加入简单样例集E。为了判断样例的难易程度,需要一种打分函数以及合适的阈值σ,由于字典学习问题的优化形式,利用上一步字典D,对于样例x,本发明采用如下打分函数用于判断样例的难易程度:
其中D表示字典,αi表示局部特征xi对应于字典D的编码系数,λ是正则化参数,其取值为(0,+∞),阈值σ取值范围为(0,+∞),利用阈值σ分辨简单和复杂样例,即对于xi∈H,如果l(xi,D)<σ,判定xi是简单样例,将xi加入E,否则判定xi是复杂样例,保留xi在H中;在完成此步的字典更新后会利用本轮训练集的打分函数值更新阈值σ,用于下一轮简单样例的选取。为了保证第一步学习到的字典不会有太大偏差,导致后续字典更新算法的收敛速度过慢,σ的初始值应保证略多于半数的训练样例被选取为简单样例。利用k-means得到的初始字典Dinitial,然后计算训练样例的打分函数值,便可得到合适的初始值。
步骤22,稀疏编码:采用下式根据字典D对局部特征xi求解稀疏编码系数αi:
其中D表示字典,αi表示局部特征xi对应于字典D的编码系数,λ是正则化参数,其取值为(0,+∞);已有多种有效方法解决此优化问题,我们采用快速特征符搜索法求解,此方法能有效解决如上l1范式优化问题。已有多种有效方法解决此优化问题,我们采用快速特征符搜索法求解。值得注意的是需要对整个训练集的所有局部特征求解稀疏编码系数。
步骤23,字典更新:我们固定此次迭代中简单样例集E中所有样例的稀疏编码系数AE,然后利用牛顿法解决下面带二次约束的最小均方问题:
其中,Dnew表示待更新的字典,s.t.表示优化函数的约束,dj∈Rm是字典的第j个基项,XE表示所有简单样例,AE表示所有简单样例对应的编码系数,是矩阵的F-范数,即
步骤24,阈值更新:为了保证随着迭代的次数增加,越来越多的样例被认为是简单样例,最终将简单样例集扩展为整个数据集,需要逐步放松简单样例的选取标准。本发明采用如下自适应的阈值函数:
σ=π+log(π2+c)t (c≥1),
其中,π表示所有样例的打分函数中值,t表示当前迭代次数,c为常数,取值范围为[1,+∞)。显然σ是迭代次数t的单调递增函数,并且与本轮所有训练样例的打分函数值中值相关,具有自适应性。
如果字典收敛或者达到预先定义的迭代次数ζ,则停止学习;否则进入下一轮迭代。字典收敛的判断标准为:所有训练样例都被认为是简单样例且优化问题的目标函数值变化小于规定的正实数ε。
本发明是为提升已有基于字典学习的图像分类方法的分类精度。本发明具有以下特征:1)首次为字典学习优化算法引入顺序机制,并设计了一套从简单到复杂的自调制字典学习算法;2)将自调制字典学习无缝地整合到图像分类框架,有利于图像分类精度的提升。
有益效果:本发明能够一定程度上提升图像分类精度,因此具有较高的使用价值。
附图说明
图1为本发明流程图。
图2为本发明中自调制字典学习步骤子流程图。
图3为本发明中训练图像表示及待分类图像表示中空间聚合子步骤的空间划分图。
具体实施方式:
如图1所示,本发明公开了基于自调制字典学习的图像分类方法,包含如下步骤:
步骤1,局部特征抽取:对于训练图像抽取局部特征描述子,采用稠密抽样的策略,通过16像素×16像素网格划分采样,在每个采样点抽取128维灰度SIFT描述子,最后将抽取的局部特征集合的一个子集作为字典学习的训练集。
步骤2,自调制字典学习:整个学习过程维护两个训练样例集合:简单样例集E和复杂样例集H;通过迭代以下步骤完成字典学习:确定当前简单样例集,即从复杂样例集H中挑选此次迭代被判定为简单的样例,加入到上一次迭代的简单样例集,形成当前简单样例集;稀疏编码,固定上一次迭代的字典,并利用其对训练集中的所有局部特征完成稀疏编码;字典更新,仅利用此次迭代的简单样例集中的局部特征编码系数对字典进行更新;阈值更新,采用逐渐放松简单样例筛选标准的自适应阈值函数,利用当前训练集上的打分函数值分布,合理更新阈值。不断进行以上四步的迭代优化,直接字典最终收敛,或是达到预先规定的迭代次数,最终获得训练好的字典。
步骤3,训练图像表示:包括特征稀疏编码和图像汇合操作两个子步骤:首先对训练图像中抽取的局部特征进行编码;然后对训练图像的所有局部特征的编码结果进行空间聚合操作,以形成整张图像的特征向量,采用分层分块的金字塔空间划分,对于每一块进行最大值聚合操作,最后将所有分块的特征向量串接成整个图像的特征向量。
步骤4,分类模型学习,将步骤3中形成的训练图像特征向量及其对应分类类标作为SVM分类器的输入,采用线性核SVM分类模型,完成分类模型的参数学习。
测试阶段:步骤5,局部特征抽取:对于待分类图像进行局部特征描述子抽取,采用稠密抽样的策略,通过16像素×16像素网格划分采样,在每个采样点抽取128维灰度SIFT描述子;
步骤6,待分类图像表示:包含特征稀疏编码和图像空间聚合两个子步骤,首先对待分类图像的局部特征进行稀疏编码;然后进行待分类图像的局部特征的编码结果空间聚合操作,以形成整张图像的特征向量,采用分层分块的金字塔空间划分,对于每一块进行最大值聚合操作,最后将所有分块的特征向量串接成整个图像的特征向量;
步骤7,模型预测,将步骤6中形成的待分类图像特征向量输入步骤4中学习得到的SVM分类模型,以此预测待分类图像的类别。
步骤1和步骤5中利用16像素×16像素网格划分采样,在每个采样点计算8个方向上的像素梯度信息,最终形成128维的SIFT描述子。SIFT描述子是指D.Lowe提出的尺度不变特征变换局部特征描述算子,具有对旋转、尺度缩放、亮度变化保持不变性及快速、准确匹配等特点。
步骤2自调制字典学习流程如图2所示,步骤8是抽取本轮简单样例集合E,从当前复杂样例集H中选取本次迭代的简单样例加入简单样例集E,对于样例x,采取如下形式的打分函数:
其中D表示字典,αi表示局部特征xi对应于字典D的编码系数,λ是正则化参数,其取值为(0,+∞),阈值σ取值范围为(0,+∞),。如果打分函数值小于某个阈值σ,则认为样例x是简单样例,否则为复杂样例。步骤9是利用固定的字典D对所有训练样例进行稀疏编码,当固定字典D,求带有稀疏性约束的编码系数,可以抽象为如下l1范式正则化项优化问题:
其中D表示字典,αi表示局部特征xi对应于字典D的编码系数,λ是正则化参数,其取值为(0,+∞);此问题属于凸优化问题,可采用快速特征符搜索法求解,参考文献HonglakLee,Alexis Battle,RajatRaina,and Andrew Y.Ng.Efficient sparse coding algorithms[C]//In Advances inNeural Information Processing Systems19,2007,801-808.步骤10是利用本轮获得的简单样例的稀疏编码系数,更新字典。具体地,对字典的更新,可转化为求解如下二次约束最小均方问题:
其中,Dnew表示待更新的字典,s.t.表示优化函数的约束,dj∈Rm是字典的第j个基项,XE表示所有简单样例,AE表示所有简单样例对应的编码系数,是矩阵的F-范数,即步骤11是更新阈值,用以选取下一轮简单样例,为了保证随着迭代的次数增加,越来越多的样例被认为是简单样例,最终将简单样例集扩展为整个数据集,需要逐步放松简单样例的选取标准。采用如下自适应的阈值函数:
σ=π+log(π2+c)t (c≥1)
其中,π表示所有样例的打分函数中值,t表示当前迭代次数,c为常数,取值范围为[1,+∞)。
步骤3与步骤6训练及待分类图像表示包含相同的两个子步骤:特征稀疏编码和图像空间聚合,特征稀疏编码指利用学到的最终字典Dfinal,对训练及测试的所有图像中抽取的局部特征进行编码,要求编码系数具有稀疏性。具体地,采用下式根据最终字典Dfinal,对局部特征xi求解稀疏编码系数αi:
其中Dfinal表示最终字典,αi表示局部特征xi对应于字典D的编码系数,λ是正则化参数,其取值为(0,+∞),采用快速特征符搜索法求解;图像空间聚合旨在捕捉图像空间信息,用以获取更具辨识性的图像整体特征描述,以提高最后分类准确度,采用分层分块的金字塔空间划分,对于每一块进行最大值聚合操作。总共将图像空间分为三层:level0、level1、level2,每层的划分见附图3,共有21块;最后将所有分块的特征向量串接成整个图像的特征向量,假设获得的码书含K个视觉单词,K取正整数,则图像的特征向量维度为21×K。若用α∈RK表示特征编码结果,ym表示空间上属于第m块的特征,m取值为0到20的整数,则最大值聚合的操作定义为:for j=1,...K.,其中hm,j表示第m块空间聚合操作的结果向量在第j个维度的分量值。
步骤4中假设SVM模型的训练图像集I,通过前面的步骤每张训练图像会形成高维且稀疏的特征向量,由于稀疏性的特点,利用线性核SVM分类器就能有效地处理这种特征向量,线性核是指SVM模型中使用线性的核函数,非线性核是指SVM模型中使用非线性核函数,相比于非线性核SVM分类器,线性核SVM分类器计算复杂度更低,这在高维特征情况下优势明显。具体应用时,参数优化可以采用交叉验证的方式,选取合适的参数值。
步骤7中利用线性核SVM分类模型,可以快速预测待分类图像类别。
实施例:
本实施例分为训练阶段和分类阶段,下面分别介绍各实施例部分的主要流程:
训练阶段流程:
1.局部特征抽取:对一组训练图像集I进行局部特征抽取,局部特征描述子能有效的表示图像的局部信息,为形成后续的整体图像描述提供了基础。对于目标识别等任务,SIFT特征具有较好的效果,所以本实施例采用SIFT特征作为图像的局部特征。另外,抽取图像局部特征时,还需要确定取样策略,即稠密取样还是稀疏取样(感兴趣点取样)。这两种取样方式是通过一种图像内取样点的数目来划分的,如果只从一副图像的一些感兴趣点取样,取样点数目比较少,则称之为稀疏取样;如果通过某种策略从图像中广泛抽取取样点,则称之为稠密抽样。从前人的工作来看,稠密取样能获取足够的统计信息,这对图像分类任务来说至关重要,所以采用稠密取样的策略。参见文献E.Nowak,F.Jurie,and B.Triggs.Sampling strategies for bag-of-features image classification[C]//In9thEuropean Conference on Computer Vision,2006,490-503.具体地,我们通过16像素×16像素网格划分采样,进行128维灰度SIFT特征抽取。SIFT特征是指D.Lowe提出的尺度不变特征变换局部特征描述算子,具有对旋转、尺度缩放、亮度变化保持不变性及快速、准确匹配等特点。实际计算过程中,为了增强匹配的稳定性,Lowe建议对每个关键点使用2×2邻域内共16个种子点来描述,即最终形成128维SIFT特征向量。然后将这一组训练图像集I中抽取的所有局部特征存储好,为字典学习提供训练样本。
2.自调制字典学习:
本实施例在局部特征集合中随机取20000个局部特征作为字典学习的训练集。本实施例认为已有字典学习算法都忽视了学习顺序对字典学习算法的影响,合理利用学习顺序将有助于获得更具表示能力的字典。本实施例提出了从简单到复杂的自调制字典学习算法,能自适应地选择简单样例用于字典学习,并迭代更新,最终获得所需的字典。此学习方法是一种非监督学习算法,因此不需要图像的类标信息。此步骤的目的在于尽可能学习尽可能完整表示局部特征空间信息的字典,为后续高层语义的抽取提供基础。
假如给定训练集记为:X=[x1,...,xn]∈Rm×n,其中xi∈Rm表示一个训练样本,m表示局部特征的维度,对于本实施例来说,m=128,n=20000。则字典学习抽象为求解以下联合优化问题:
其中D=[d1,...,dk]∈Rm×k表示字典,s.t.表示优化函数的约束,dj∈Rm是字典的第j个基项,αi表示局部特征xi对应于字典D的编码系数,A表示训练集中所有局部特征对应的编码系数,λ是正则化参数,其取值为(0,+∞),本实施例中设为0.15;在以上优化问题中,正则化项保证了编码系数αi的稀疏性,当λ取值过大时,编码系数αi过于稀疏,当λ取值过小时,编码系数αi不具备稀疏性。
当同时考虑D和A做优化时,此问题不是凸优化问题。所谓凸优化问题是指目标函数及可行解集合满足数学上的一些约束,此类优化问题存在高效算法求解。已有字典学习算法采取交替优化D和A的策略,将原来的优化问题转化为两个凸优化问题:稀疏编码和字典更新。本实施例引入了从简单到复杂的学习顺序,为了获得第一轮简单样例,需要预先获得一个初始字典Dinitial,初始字典Dinitial不需要太精确,后续的字典更新操作会逐步学习更好的字典。考虑到计算复杂性和不用太精确的初始字典,我们采用K-means算法在训练集X上迭代5次构建初始字典。K-means算法的具体做法如下:
首先需要确定类别数目K,本实施例取K=1024。随着K的取值增大,分类效果逐步提升,当K超过1024时,分类效果没有明显变化;算法从训练集X中随机选K个样本作为初始聚类中心点。然后迭代以下两步直至收敛或到达指定迭代次数:1)计算每个训练样本到聚类中心的距离,并将训练样本划分到最近聚类中心的类别;2)重新计算每个类别的聚类中心。
获得初始字典后,算法需要确定三个输入参数:正则化参数λ用于控制稀疏编码问题中的正则化项比重;阈值函数参数c用于控制阈值函数的更新幅度;预定义的迭代次数ζ控制算法最大迭代次数。本实施例中采用如下参数设置:正则化参数λ=0.15,阈值函数参数c=1,预定义的迭代次数ζ=20000。然后通过迭代如下步骤学习字典:
步骤21,确定当前简单样例集:从上一步复杂样例集H中选取本次迭代的简单样例加入简单样例集E。为了判断样例的难易程度,需要一种打分函数以及合适的阈值σ,考虑到字典学习问题的优化形式,利用上一步字典D,对于样例x,我们采用如下打分函数:
其中D表示字典,αi表示局部特征xi对应于字典D的编码系数,λ是正则化参数,其取值为(0,+∞),阈值σ取值范围为(0,+∞),利用阈值σ从复杂样例集H中选取简单样例加入简单样例集E,即对于xi∈H,如果l(xi,D)<σ,判定xi是简单样例,将xi加入E,否则判定xi是复杂样例,保留xi在H中;在完成此步的字典更新后利用本轮训练集的打分函数值更新阈值σ,用于下一轮简单样例的选取。为了保证第一步学习到的字典不会有太大偏差,导致后续字典更新算法的收敛速度过慢,σ的初始值应该使略多于半数的训练样例被选取为简单样例。所以可以借助k-means得到的初始字典Dinitial,计算σ的初始值:
σinitial=π(l(X,D))+δ
其中,l(X,D)=[l(x1,D),...,l(xn,D)],l(x,D)是步骤2中定义的打分函数,δ为大于零的常数。
步骤22,稀疏编码:
采用下式根据字典D对局部特征xi求解稀疏编码系数αi:
步骤222:计算偏导其中表示αi第j个分量的值,从当前αi的非零分量中选择偏导项最大的分量项,记为q。如果则令符号向量ν第q个分量ν(q)=-1,并把q加入到当前的激活集合S;如果则令符号向量ν第q个分量ν(q)=1,并把q加入到当前的激活集合S。
其中表示的转置,然后通过离散线搜索方式检查从到线段上所有对应符号向量有变化的点上的目标函数(xi)的值以及更新为这些点中具有最低目标函数值的点。从激活集合S中移除的零分量项,更新符号向量其中sign(·)为取符号函数。
此方法能有效解决如上l1范式优化问题。值得注意的是需要对整个训练集的所有局部特征求解稀疏编码系数。
步骤23,字典更新:我们固定此次迭代中简单样例集E中所有样例的稀疏编码系数AE,然后利用牛顿法解决下面带二次约束的最小均方问题:
其中,Dnew表示待更新的字典,s.t.表示优化函数的约束,dj∈Rm是字典的第j个基项,m是局部特征的维度,k是字典的大小,XE表示所有简单样例,AE表示所有简单样例对应的编码系数,是矩阵的F-范数,即具体求解如下:
首先计算拉格朗日项:
步骤24,阈值更新:为了保证随着迭代的次数增加,越来越多的样例被认为是简单样例,最终将简单样例集扩展为整个数据集,需要逐步放松简单样例的选取标准。我们采用如下自适应的阈值函数:
σ=π+log(π2+c)t (c≥1)
其中,π表示所有样例的打分函数中值,t表示当前迭代次数,c为常数,取c=1。显然σ是迭代次数t的单调递增函数,并且与本轮所有训练样例的打分函数值中值相关,具有自适应性。另外,参数c可以方便地调节阈值更新的幅度,从而控制简单样例的选取,当c取值过大时,将一次选取过多简单样例,导致自调制学习和普通字典学习差异不大,当c取值过小时,每次迭代更新不明显,迭代次数增加。
如果字典收敛或者达到预先定义的迭代次数ζ,则停止学习;否则进入下一轮迭代。ζ取20000,当ζ取值过大时,则算法计算效率降低且分类精度不会提高,当ζ取值过小时,则算法还没收敛就停止,学习过程不充分。字典收敛的判断标准是所有训练样例都被认为是简单样例且优化问题的目标函数值变化小于规定的正实数ε,若令Δf表示网络整体变化,则当Δf小于一定阈值ε时,便认为字典收敛。其中n表示训练集中训练样本的个数,l(xi,Dt)表示第t次迭代时特征xi的打分函数值,l(xi,Dt+1)表示第t+1次迭代时特征xi的打分函数值。
3.训练图像表示:
首先利用学到的最终字典Dfinal,对训练图像集I中每副图像Ir抽取的局部特征进行编码,要求编码系数具有稀疏性。采用下式根据最终字典Dfinal对局部特征xi求解稀疏编码系数αi:
其中Dfinal表示最终字典,αi表示局部特征xi对应于字典D的编码系数,λ是正则化参数,其取值为(0,+∞),采用快速特征符搜索法求解。然后进行图像空间聚合操作,有效的利用图像空间信息,能增强图像整体描述的辨识力,进而提高分类效果。图像空间聚合旨在捕捉图像空间信息,用以获取更具辨识性的图像整体特征描述:本实施例采用分层分块的重叠金字塔空间划分,如图3所示,总共将图像空间分为三层:level0、level1、level2;level0不分块,表示整张图像的信息,level1共分为4块,level2分为更精细的16个块,三层共21块。对于其中的每一块,需要进行特征信息统计。由于采用稀疏编码,选用最大值聚合操作更能捕捉稀疏信息,形成合适的图像区域描述。最后将所有分块的特征向量串接成整个图像的特征描述,假设确定字典大小为K,则图像的特征向量维度为21×K。本实施例中默认设置K=1024。若用α∈RK表示特征编码结果,ym表示空间上属于第m块的特征,m取值为0到20的整数,则最大值聚合的操作定义为:for j=1,...K.,其中hm,j表示第m块空间聚合操作的结果向量在第j个维度的分量值。所以训练图像Ir形成了一个特定的直方图特征向量,这是高维稀疏的特征向量
4.分类模型学习:由于稀疏性的特点,利用线性核SVM分类器就能有效地处理这种特征向量,另外,相比于非线性核SVM分类器,线性核SVM分类器计算复杂度更低,这在高维特征情况下优势明显。具体应用时,参数优化可以采用交叉验证的方式,选取合适的参数值。这里的参数就是指SVM库中标准模型的参数。
5.局部特征抽取:对待分类图像Io抽取局部特征,和训练图像局部特征抽取方式相同,通过16像素×16像素网格划分采样,每个关键点使用2×2邻域内共16个种子点来描述,最终形成128维灰度SIFT特征向量,从Io可以得到多个局部特征向量。
6.待分类图像表示:和训练图像表示方法相同,包含特征稀疏编码和图像空间聚合两个子步骤。首先利用学到的最终字典Dfinal,对待分类图像中抽取的局部特征进行编码,采用下式根据最终字典Dfinal对局部特征xi求解稀疏编码系数αi:
其中Dfinal表示最终字典,αi表示局部特征xi对应于字典D的编码系数,λ是正则化参数,其取值为(0,+∞),采用快速特征符搜索法求解。然后进行图像空间聚合操作,采用分层分块的重叠金字塔空间划分,总共将图像空间分为三层:level0、level1、level2;level0不分块,表示整张图像的信息,level1共分为4块,level2分为更精细的16个块,三层共21块。对于其中的每一块,选用最大值聚合操作,形成合适的图像区域描述。最后将所有分块的特征向量串接成整个图像的特征描述,假设确定字典大小为K,则图像的特征向量维度为21×K。本实施例中取K=1024。所以训练图像Ir形成了一个特定的直方图特征向量
7.模型预测:将作为训练阶段中的线性核SVM分类模型的输入,通过计算预测待分类图像类别。
本发明提供了一种自调制字典学习的图像分类方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (6)
1.一种基于自调制字典学习的图像分类方法,其特征在于,包括训练阶段和分类阶段:
训练阶段包括:
步骤1,局部特征抽取:对于训练图像集中的每一幅训练图像进行局部特征描述子抽取生成训练图像集的局部特征集合;训练图像是带有类标的图像,类标用于标记图像所属类别;
步骤2,自调制字典学习:在局部特征集合中随机抽取部分局部特征作为训练集,训练集分为简单样例集E和复杂样例集H;反复迭代:当前简单样例集确定、稀疏编码、字典更新、以及阈值更新四个步骤完成字典学习,生成字典D;
步骤3,训练图像表示:包含特征稀疏编码和图像空间聚合步骤;
步骤4,分类模型学习:将步骤3中得到的训练图像特征向量及其对应分类类标作为线性核SVM分类器的输入完成分类模型的参数学习,得到SVM分类模型;
分类阶段包括:
步骤5,局部特征抽取:对于待分类图像进行局部特征描述子抽取生成待分类图像的局部特征集合;
步骤6,待分类图像表示:首先对待分类图像的局部特征进行稀疏编码:采用下式根据字典D,对局部特征xi求解稀疏编码系数αi:
其中D表示字典,αi表示局部特征xi对应于字典D的编码系数,λ是正则化参数,其取值为(0,+∞);
然后进行待分类图像的局部特征的编码结果空间聚合:采用分层分块的金字塔空间划分,对于每一块进行最大值聚合操作,最后将所有分块的特征向量串接成整个图像的特征向量;
步骤7,模型预测,将步骤6中形成的待分类图像特征向量输入步骤4中学习得到的SVM分类模型,从而完成图像的分类。
2.根据权利要求1所述的一种基于自调制字典学习的图像分类方法,其特征在于,步骤2自调制字典学习具体包括如下步骤:
从局部特征集合中随机取n个训练图像作为训练集X,X=[x1,...,xn]∈Rm×n,其中xi∈Rm表示一个局部特征,m表示局部特征的维数,则字典学习采用以下公式:
其中D=[d1,...,dk]∈Rm×k表示字典,s.t.表示优化函数的约束,dj∈Rm是字典的第j个基项,k表示字典的字典项个数;αi表示局部特征xi对应于字典D的编码系数,A表示训练集X中所有局部特征对应的编码系数,λ是正则化参数,其取值为(0,+∞);
初始化简单样例集E为空集,复杂样例集H为整个训练集X;
反复迭代步骤21~步骤24,直至字典收敛或达到指定的迭代次数:
步骤21,当前简单样例集确定:设置打分函数l(x,D)以及阈值σ;
其中D表示字典,αi表示局部特征xi对应于字典D的编码系数,λ是正则化参数,其取值为(0,+∞),阈值σ取值范围为(0,+∞),根据阈值σ从复杂样例集H中选取简单样例加入简单样例集E,即对于xi∈H,如果l(xi,D)<σ,判定xi是简单样例,将xi加入E,否则判定xi是复杂样例,保留xi在H中;
步骤22,稀疏编码:采用下式根据字典D对局部特征xi求解稀疏编码系数αi:
其中D表示字典,αi表示局部特征xi对应于字典D的编码系数,λ是正则化参数,其取值为(0,+∞);
步骤23,字典更新:固定此次迭代中简单样例集E中所有样例的稀疏编码系数AE,然后求解带二次约束的最小均方问题:
步骤24,阈值更新:采用如下自适应的阈值函数进行阈值更新:
σ=π+log(π2+c)t,c≥1
其中,π表示所有样例的打分函数中值,t表示当前迭代次数,c为常数,取值范围为[1,+∞)。
3.根据权利要求2所述的一种基于自调制字典学习的图像分类方法,其特征在于,步骤3训练图像表示包括:首先对训练图像的局部特征进行稀疏编码:采用下式根据字典D,对局部特征xi求解稀疏编码系数αi:
其中αi表示局部特征xi对应于字典D的编码系数,λ是正则化参数,其取值为(0,+∞);
然后进行训练图像的局部特征的编码结果空间聚合:采用分层分块的金字塔空间划分,对于每一块进行最大值聚合操作,最后将所有分块的特征向量串接成整个图像的特征向量。
4.根据权利要求1所述的一种基于自调制字典学习的图像分类方法,其特征在于,步骤1和步骤5中,进行局部特征描述子抽取采用稠密抽样的策略,通过网格划分采样,进行SIFT描述子抽取。
5.根据权利要求1所述的一种基于自调制字典学习的图像分类方法,其特征在于,步骤3中和步骤6中,采用快速特征符搜索法对局部特征xi求解稀疏编码系数αi。
6.根据权利要求2所述的一种基于自调制字典学习的图像分类方法,其特征在于,步骤23中,利用牛顿法解决带二次约束的最小均方问题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310091623.XA CN103116762B (zh) | 2013-03-20 | 2013-03-20 | 一种基于自调制字典学习的图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310091623.XA CN103116762B (zh) | 2013-03-20 | 2013-03-20 | 一种基于自调制字典学习的图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103116762A true CN103116762A (zh) | 2013-05-22 |
CN103116762B CN103116762B (zh) | 2015-10-14 |
Family
ID=48415134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310091623.XA Expired - Fee Related CN103116762B (zh) | 2013-03-20 | 2013-03-20 | 一种基于自调制字典学习的图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103116762B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258210A (zh) * | 2013-05-27 | 2013-08-21 | 中山大学 | 一种基于字典学习的高清图像分类方法 |
CN103279932A (zh) * | 2013-06-05 | 2013-09-04 | 北京工业大学 | 一种二维合成稀疏模型和基于该模型的字典训练方法 |
CN103440332A (zh) * | 2013-09-05 | 2013-12-11 | 南京大学 | 一种基于关系矩阵正则化增强表示的图像检索方法 |
CN104036012A (zh) * | 2014-06-24 | 2014-09-10 | 中国科学院计算技术研究所 | 字典学习、视觉词袋特征提取方法及检索系统 |
CN104102705A (zh) * | 2014-07-09 | 2014-10-15 | 南京大学 | 一种基于大间隔分布学习的数字媒体对象分类方法 |
CN104134068A (zh) * | 2014-08-12 | 2014-11-05 | 江苏理工学院 | 基于稀疏编码的监控车辆特征表示及分类方法 |
CN105260741A (zh) * | 2015-09-29 | 2016-01-20 | 刘伟锋 | 一种基于高阶图结构p-Laplacian稀疏编码的数字图像标记方法 |
CN105320964A (zh) * | 2015-10-26 | 2016-02-10 | 中国矿业大学(北京) | 基于稀疏表示的煤岩识别方法 |
CN105447517A (zh) * | 2015-11-20 | 2016-03-30 | 中国矿业大学(北京) | 基于稀疏编码的空域金字塔匹配识别煤岩的方法 |
CN106203504A (zh) * | 2016-07-08 | 2016-12-07 | 南京大学 | 一种基于最优间隔分布脊回归的网络情感分类方法 |
CN106203291A (zh) * | 2016-07-01 | 2016-12-07 | 昆明理工大学 | 一种基于形态成分分析与自适应字典学习的场景图像文字检测的方法 |
CN106251375A (zh) * | 2016-08-03 | 2016-12-21 | 广东技术师范学院 | 一种通用隐写分析的深度学习堆栈式自动编码方法 |
CN106446965A (zh) * | 2016-10-21 | 2017-02-22 | 西北工业大学 | 一种航天器可见光图像分类方法 |
CN107408197A (zh) * | 2015-03-11 | 2017-11-28 | 西门子公司 | 基于解卷积网络的细胞图像和视频的分类的系统和方法 |
CN107533649A (zh) * | 2015-03-27 | 2018-01-02 | 西门子公司 | 使用图像分类的自动脑肿瘤诊断方法和系统 |
CN107667381A (zh) * | 2015-06-04 | 2018-02-06 | 西门子保健有限责任公司 | 使用非线性和非负稀疏表示的医学模式分类 |
CN108596034A (zh) * | 2018-03-23 | 2018-09-28 | 广州大学 | 一种基于目标中心编码外观模型的行人重识别方法 |
CN109509180A (zh) * | 2018-10-24 | 2019-03-22 | 东华大学 | 基于机器视觉的金属纽扣瑕疵检测方法 |
CN109948700A (zh) * | 2019-03-19 | 2019-06-28 | 北京字节跳动网络技术有限公司 | 用于生成特征图的方法和装置 |
CN109948735A (zh) * | 2019-04-02 | 2019-06-28 | 广东工业大学 | 一种多标签分类方法、系统、装置及存储介质 |
CN109978064A (zh) * | 2019-03-29 | 2019-07-05 | 苏州大学 | 基于图像集的李群字典学习分类方法 |
CN110940638A (zh) * | 2019-11-20 | 2020-03-31 | 北京科技大学 | 一种高光谱图像亚像元级水体边界探测方法及探测系统 |
CN111368917A (zh) * | 2020-03-04 | 2020-07-03 | 西安邮电大学 | 一种用于刑侦图像分类的多示例集成学习方法 |
US11157811B2 (en) | 2019-10-28 | 2021-10-26 | International Business Machines Corporation | Stub image generation for neural network training |
CN115082727A (zh) * | 2022-05-25 | 2022-09-20 | 江苏大学 | 基于多层局部感知深度字典学习的场景分类方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950363A (zh) * | 2010-08-19 | 2011-01-19 | 武汉大学 | 一种基于条件随机场模型的sar图像监督分类方法 |
CN102436645A (zh) * | 2011-11-04 | 2012-05-02 | 西安电子科技大学 | 基于mod字典学习采样的谱聚类图像分割方法 |
CN102509110A (zh) * | 2011-10-24 | 2012-06-20 | 中国科学院自动化研究所 | 基于成对约束的在线词典再加权对图像进行分类的方法 |
-
2013
- 2013-03-20 CN CN201310091623.XA patent/CN103116762B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950363A (zh) * | 2010-08-19 | 2011-01-19 | 武汉大学 | 一种基于条件随机场模型的sar图像监督分类方法 |
CN102509110A (zh) * | 2011-10-24 | 2012-06-20 | 中国科学院自动化研究所 | 基于成对约束的在线词典再加权对图像进行分类的方法 |
CN102436645A (zh) * | 2011-11-04 | 2012-05-02 | 西安电子科技大学 | 基于mod字典学习采样的谱聚类图像分割方法 |
Non-Patent Citations (1)
Title |
---|
JINJUN WANG, ET AL.: "Locality-constrained Linear Coding for Image Classification", 《COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2010 IEEE CONFERENCE ON》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258210A (zh) * | 2013-05-27 | 2013-08-21 | 中山大学 | 一种基于字典学习的高清图像分类方法 |
CN103258210B (zh) * | 2013-05-27 | 2016-09-14 | 中山大学 | 一种基于字典学习的高清图像分类方法 |
CN103279932A (zh) * | 2013-06-05 | 2013-09-04 | 北京工业大学 | 一种二维合成稀疏模型和基于该模型的字典训练方法 |
CN103279932B (zh) * | 2013-06-05 | 2016-12-28 | 北京工业大学 | 一种二维合成稀疏模型和基于该模型的字典训练方法 |
CN103440332B (zh) * | 2013-09-05 | 2016-08-17 | 南京大学 | 一种基于关系矩阵正则化增强表示的图像检索方法 |
CN103440332A (zh) * | 2013-09-05 | 2013-12-11 | 南京大学 | 一种基于关系矩阵正则化增强表示的图像检索方法 |
CN104036012A (zh) * | 2014-06-24 | 2014-09-10 | 中国科学院计算技术研究所 | 字典学习、视觉词袋特征提取方法及检索系统 |
CN104036012B (zh) * | 2014-06-24 | 2017-06-30 | 中国科学院计算技术研究所 | 字典学习、视觉词袋特征提取方法及检索系统 |
CN104102705A (zh) * | 2014-07-09 | 2014-10-15 | 南京大学 | 一种基于大间隔分布学习的数字媒体对象分类方法 |
CN104134068B (zh) * | 2014-08-12 | 2017-11-14 | 江苏理工学院 | 基于稀疏编码的监控车辆特征表示及分类方法 |
CN104134068A (zh) * | 2014-08-12 | 2014-11-05 | 江苏理工学院 | 基于稀疏编码的监控车辆特征表示及分类方法 |
CN107408197A (zh) * | 2015-03-11 | 2017-11-28 | 西门子公司 | 基于解卷积网络的细胞图像和视频的分类的系统和方法 |
CN107533649A (zh) * | 2015-03-27 | 2018-01-02 | 西门子公司 | 使用图像分类的自动脑肿瘤诊断方法和系统 |
CN107667381B (zh) * | 2015-06-04 | 2022-02-11 | 西门子保健有限责任公司 | 使用非线性和非负稀疏表示的医学模式分类 |
CN107667381A (zh) * | 2015-06-04 | 2018-02-06 | 西门子保健有限责任公司 | 使用非线性和非负稀疏表示的医学模式分类 |
CN105260741A (zh) * | 2015-09-29 | 2016-01-20 | 刘伟锋 | 一种基于高阶图结构p-Laplacian稀疏编码的数字图像标记方法 |
CN105260741B (zh) * | 2015-09-29 | 2017-03-08 | 中国石油大学(华东) | 一种基于高阶图结构p‑Laplacian稀疏编码的数字图像标记方法 |
CN105320964B (zh) * | 2015-10-26 | 2019-06-04 | 中国矿业大学(北京) | 基于稀疏表示的煤岩识别方法 |
CN105320964A (zh) * | 2015-10-26 | 2016-02-10 | 中国矿业大学(北京) | 基于稀疏表示的煤岩识别方法 |
CN105447517A (zh) * | 2015-11-20 | 2016-03-30 | 中国矿业大学(北京) | 基于稀疏编码的空域金字塔匹配识别煤岩的方法 |
CN106203291B (zh) * | 2016-07-01 | 2019-07-05 | 昆明理工大学 | 一种基于形态成分分析与自适应字典学习的场景图像文字检测的方法 |
CN106203291A (zh) * | 2016-07-01 | 2016-12-07 | 昆明理工大学 | 一种基于形态成分分析与自适应字典学习的场景图像文字检测的方法 |
CN106203504A (zh) * | 2016-07-08 | 2016-12-07 | 南京大学 | 一种基于最优间隔分布脊回归的网络情感分类方法 |
CN106203504B (zh) * | 2016-07-08 | 2019-08-06 | 南京大学 | 一种基于最优间隔分布脊回归的网络情感分类方法 |
CN106251375A (zh) * | 2016-08-03 | 2016-12-21 | 广东技术师范学院 | 一种通用隐写分析的深度学习堆栈式自动编码方法 |
CN106251375B (zh) * | 2016-08-03 | 2020-04-07 | 广东技术师范学院 | 一种通用隐写分析的深度学习堆栈式自动编码方法 |
CN106446965A (zh) * | 2016-10-21 | 2017-02-22 | 西北工业大学 | 一种航天器可见光图像分类方法 |
CN108596034A (zh) * | 2018-03-23 | 2018-09-28 | 广州大学 | 一种基于目标中心编码外观模型的行人重识别方法 |
CN109509180A (zh) * | 2018-10-24 | 2019-03-22 | 东华大学 | 基于机器视觉的金属纽扣瑕疵检测方法 |
CN109509180B (zh) * | 2018-10-24 | 2021-12-10 | 东华大学 | 基于机器视觉的金属纽扣瑕疵检测方法 |
CN109948700A (zh) * | 2019-03-19 | 2019-06-28 | 北京字节跳动网络技术有限公司 | 用于生成特征图的方法和装置 |
CN109978064A (zh) * | 2019-03-29 | 2019-07-05 | 苏州大学 | 基于图像集的李群字典学习分类方法 |
CN109948735A (zh) * | 2019-04-02 | 2019-06-28 | 广东工业大学 | 一种多标签分类方法、系统、装置及存储介质 |
CN109948735B (zh) * | 2019-04-02 | 2021-11-26 | 广东工业大学 | 一种多标签分类方法、系统、装置及存储介质 |
US11157811B2 (en) | 2019-10-28 | 2021-10-26 | International Business Machines Corporation | Stub image generation for neural network training |
CN110940638A (zh) * | 2019-11-20 | 2020-03-31 | 北京科技大学 | 一种高光谱图像亚像元级水体边界探测方法及探测系统 |
CN111368917A (zh) * | 2020-03-04 | 2020-07-03 | 西安邮电大学 | 一种用于刑侦图像分类的多示例集成学习方法 |
CN115082727A (zh) * | 2022-05-25 | 2022-09-20 | 江苏大学 | 基于多层局部感知深度字典学习的场景分类方法及系统 |
CN115082727B (zh) * | 2022-05-25 | 2023-05-05 | 江苏大学 | 基于多层局部感知深度字典学习的场景分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103116762B (zh) | 2015-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103116762A (zh) | 一种基于自调制字典学习的图像分类方法 | |
Johnson et al. | Survey on deep learning with class imbalance | |
Zhang et al. | A return-cost-based binary firefly algorithm for feature selection | |
CN103116766B (zh) | 一种基于增量神经网络和子图编码的图像分类方法 | |
Donahue et al. | Decaf: A deep convolutional activation feature for generic visual recognition | |
Su et al. | Improving image classification using semantic attributes | |
CN109685110B (zh) | 图像分类网络的训练方法、图像分类方法及装置、服务器 | |
CN103310466B (zh) | 一种单目标跟踪方法及其实现装置 | |
US8374442B2 (en) | Linear spatial pyramid matching using sparse coding | |
CN103942564B (zh) | 基于非监督特征学习的高分辨率遥感影像场景分类方法 | |
US8781218B2 (en) | Receptive field learning for pooled image features | |
US20200364407A1 (en) | Method and server for text classification using multi-task learning | |
CN109241995B (zh) | 一种基于改进型ArcFace损失函数的图像识别方法 | |
Mensink et al. | Learning structured prediction models for interactive image labeling | |
CN102314614A (zh) | 一种基于类共享多核学习的图像语义分类方法 | |
CN109961093A (zh) | 一种基于众智集成学习的图像分类方法 | |
CN105320967A (zh) | 基于标签相关性的多标签AdaBoost集成方法 | |
Zhou et al. | Enhance the recognition ability to occlusions and small objects with Robust Faster R-CNN | |
Schinas et al. | CERTH@ MediaEval 2012 Social Event Detection Task. | |
CN104751175A (zh) | 基于增量支持向量机的sar图像多类标场景分类方法 | |
CN110929119A (zh) | 数据标注方法、装置、设备及计算机存储介质 | |
Chen et al. | Convolutional neural network and convex optimization | |
CN102609715B (zh) | 一种结合多个兴趣点检测子的物体类识别方法 | |
CN105389588A (zh) | 基于多语义码本图像特征表示方法 | |
Chen et al. | A review of object detection: Datasets, performance evaluation, architecture, applications and current trends |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20151014 |
|
CF01 | Termination of patent right due to non-payment of annual fee |