CN106570509B - 一种用于提取数字图像特征的字典学习及编码方法 - Google Patents
一种用于提取数字图像特征的字典学习及编码方法 Download PDFInfo
- Publication number
- CN106570509B CN106570509B CN201610973925.3A CN201610973925A CN106570509B CN 106570509 B CN106570509 B CN 106570509B CN 201610973925 A CN201610973925 A CN 201610973925A CN 106570509 B CN106570509 B CN 106570509B
- Authority
- CN
- China
- Prior art keywords
- layer
- result
- coding
- dictionary
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/008—Vector quantisation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种用于提取数字图像特征的字典学习及编码方法,包括以下步骤:将输入图像分割成固定大小的图像块矢量,利用第一层字典,通过局部性约束稀疏编码获得每个图像块矢量的稀疏表示;将图像块矢量的表示结果做池化,得到第一层编码结果矩阵;将第一层编码结果矩阵继续分割成矢量,利用第二层字典,通过局部性约束稀疏编码获得每个矢量的稀疏表示结果,作为第二层表示结果;将第二层表示结果做池化,将池化后的结果作为最终的图像特征。本方法能够通过稀疏编码实现图像的特征提取,在失真情况下亦能保证其结果的鲁棒性及区分性。可应用于图像内容识别等方面。
Description
技术领域
本发明涉及信号与信息处理技术领域,尤其涉及一种用于提取数字图像特征的字典学习及编码方法。
背景技术
特征学习算法一直以来是决定机器学习算法优劣的一个重要因素,良好的特征表达,可以作为区分不同目标类别的依据,对最终的算法准确性起到了非常关键的作用。因此,高效的、无监督的特征学习算法就显得尤为重要,稀疏编码就可以作为其中一种。稀疏编码的主要思想就是将一个信号表示为一组基的线性组合,而且只需要少量的基就可以将信号表示出来。那么稀疏编码中的重点就是要找到一组“超完备”的基向量来高效的表示样本数据,也就是所说的字典。而“超完备”的要求就是要求基向量的个数要比输入向量的维数大,因而可以更有效地找出隐含在数据内部的结构与模式。现阶段的字典学习可以分为有监督学习和无监督学习两种方式。对于无监督的字典学习方法,文献[1]中所述最优方向法算法字典的更新过程采用了整体更新的方式。文献[2]中K-奇异值分解算法,它采用每次更新一个字典原子的方式。对于有监督的字典学习,文献[3]提出标签一致的K-奇异值分解算法,在使用监督训练样本的同时,生成带标签的字典原子。在编码方式方面,文献[4]中的匹配追踪算法在迭代过程中一直使用能更快减少残差的原子。在此基础上,文献[5]提出在迭代的每一步对已选择的原子进行正交化处理。
发明人在实现本发明的过程中,发现现有的技术中至少存在以下缺点和不足:
传统的特征提取方式如尺度不变特征变换,方向梯度直方图等仅对图像的一个方面进行特征提取,其对特征的表达可能是不全面的。此外,大部分现有特征提取技术除了需要人工参与标注类别信息,具有较大工作量外,鲁棒性不强。如当图像存在失真时,其特征提取结果与原图像相比可能发生较大偏差。
发明内容
本发明提供了一种用于提取数字图像特征的字典学习及编码方法,本方法将数字图像利用学习到的字典进行编码,编码过程加入池化操作(pooling)及多层结构,实现对图像内在特征的提取,该特征可应用于图像内容识别等方面,具有良好的鲁棒性和区分性,详见下文描述:
一种用于提取数字图像特征的字典学习及编码方法,所述字典学习及编码方法包括以下步骤:
将输入图像分割成固定大小的图像块矢量,利用第一层字典,通过局部性约束稀疏编码获得每个图像块矢量的稀疏表示;
将图像块矢量的表示结果做池化,得到第一层编码结果矩阵;
将第一层编码结果矩阵继续分割成矢量,利用第二层字典,通过局部性约束稀疏编码获得每个矢量的稀疏表示结果,作为第二层表示结果;
将第二层表示结果做池化,将池化后的结果作为最终的图像特征。
其中,所述第一层字典由训练图像选取固定大小的图像块矢量学习得到。
其中,所述将图像块矢量的表示结果做池化,得到第一层编码结果矩阵的步骤具体为:
对输入的图像中的所有矢量的编码结果做尺寸为P×P的平均值池化,P表示水平和垂直方向上相邻矢量的个数。将池化后的结果作为第一层编码结果矩阵。
进一步地,所述第二层字典由第一层编码结果矩阵学习得到。
进一步地,所述将第二层表示结果做池化,得到每幅图像的稀疏表示结果的步骤具体为:
对所有第二层编码结果的矩阵做尺寸为Q×Q的平均值池化,Q表示水平和垂直方向上相邻矢量的个数,将池化后的结果作为最终的图像特征。
本发明提供的技术方案的有益效果是:本发明通过稀疏编码实现图像的特征提取;首先,字典学习算法的设计能够保证其对编码结果鲁棒性及区分性的作用,即提取出图像内在特征,能够抵御图像处理操作(如压缩、滤波和加噪声等)所引入的失真;其次,编码模型中的多层结构及池化操作进一步实现了降维及鲁棒特征提取。
附图说明
图1为一种用于提取数字图像特征的字典学习及编码方法的流程图;
图2为对图像进行编码的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
为了实现对图像鲁棒性及判别性特征的提取,本发明实施例提出了一种用于提取数字图像特征的字典学习及编码方法,参见图1和图2,详见下文描述:
101:将输入图像矩阵分割成固定大小的图像块矢量,利用第一层字典(由训练图像选取固定大小的图像块矢量学习得到),通过局部性约束稀疏编码获得每个图像块矢量的稀疏表示;
其中,该步骤具体为:
1)对输入大小为V×S的图像矩阵,分割成一系列大小为v×s的图像块,并转换为一系列维数为M=v×s的矢量yi,i=1,2,…,(V×S)/(v×s)。V,S,v,和s的具体取值根据实际应用中的需要进行设定,本发明实施例对此不做限制。
2)对于输入的图像矩阵中的每一个矢量yi,根据稀疏编码第一层字典D=[d1,…,dK]∈RM×K依次对yi进行稀疏编码,其中d1,…,dK为字典中的K个原子,每个原子的维数与图像块矢量的维数相同,
本发明实例并不限制具体的第一层字典原子个数。通过求解如下问题实现对每个矢量yi∈RM的稀疏编码:
式中,xi∈RK为yi的稀疏描述,ri=dist(yi,D)∈RK,
dist(yi,D)=[dist(yi,d1),...,dist(yi,dj),...,dist(yi,dK)]T,其中dist(yi,dj)表示yi和任意字典原子dj的欧式距离,λ是惩罚因子,⊙表示对应元素相乘,表示2-范数的平方,s.t.表示约束条件。本发明实施例并不限制公式(1)的求解方法。
上述第一层字典的生成由训练图像中随机选取的固定大小(v×s)的图像块学习得到,通过求解如下问题得到第一层字典D:
s.t.且
式中,Y∈RM×N为所有训练图像块转换成的M维矢量yi组成的训练样本矩阵,X=[x1,...,xN]∈RK×N为所有训练矢量的稀疏表示xi组成的编码矩阵,||·||0表示0-范数,||·||2表示2-范数表示F-范数的平方,常数常数K0为稀疏度上限,λ1,λ2,λ3分别为各项惩罚因子。
其中,公式(2)的求解过程采用梯度下降方法。
102:将图像块矢量的稀疏描述结果做池化操作,得到第一层编码结果矩阵;
其中,该步骤具体为:
对输入的图像中的所有图像块矢量的编码结果做尺寸为P×P的平均值池化,P表示水平和垂直方向上相邻矢量的个数,将池化后的结果作为第一层编码结果矩阵。本发明实施例对P的大小不做限制。
103:对第一层编码结果矩阵继续分割成矢量,利用第二层字典(由第一层编码结果矩阵学习得到),通过局部性约束稀疏编码获得每个矢量的稀疏表示结果;
其中,该步骤具体为:
1)将第一层编码结果矩阵按原始图像块分割成一系列维数为K的第一层编码结果矢量xli∈RK,i=1,2,…,(V×S)/(v×s×P×P)。
2)对于每一个矢量x1i,i=1,2,…,(V×S)/(v×s×P×P),根据稀疏编码第二层字典依次对x1i进行稀疏编码。其中为字典中的K2个原子。
具体实现时,本发明实施例并不限制具体的第二层字典原子个数。类似地,通过求解问题1)实现对每个矢量x1i的稀疏描述
其中,第二层字典D2的生成方法与第一层相同,是由随机选取的维度为K的第一层编码结果训练样本通过求解问题(2)学习到的,求解方法与上述相同。
104:将第二层表示结果做池化,得到每幅图像的稀疏表示结果。
其中,该步骤具体为:
对第二层编码结果的矩阵做尺寸为Q×Q的平均值池化,Q表示水平和垂直方向上相邻矢量的个数,将池化后的结果作为最终的图像特征。本发明实施例对Q的大小不做限制。
综上所述,本发明实施例将数字图像利用学习到的字典进行编码,编码过程加入池化操作及多层结构,实现对图像的内在特征提取,该特征可应用于图像内容识别等方面,具有良好的鲁棒性和区分性。
实施例2
下面以单幅图像为例,对本发明实施例1提供的用于提取数字图像特征的字典学习及编码方法进行详细介绍,详见下文描述:
201:预处理;
将输入图像归一化至标准尺寸512×512,并采用均值滤波。将处理后的图像划分为1024个尺寸为16×16的图像块,每个图像块矢量表示为yi,i=1,2,…,1024,并分别归一化为零均值,由此构成256×1024的图像块矩阵。
具体实现时,本发明实施例对图像块的个数、以及尺寸,不做限制,可以根据实际应用中的需要进行设定。
202:依次对图像块矢量进行稀疏编码;
对于每一个矢量yi(i=1,2,…,1024),由预先生成包含K=16个原子的稀疏编码第一层字典D=[d1,…,d16]进行编码。通过求解实施例1中公式(1)中的问题实现对每个矢量yi的稀疏编码。
本发明实施例通过文献[6]中所述的近似LLC快速编码方法求解公式(1),对每个公式(1)的求解方法包含如下具体步骤:
1)对矢量yi,计算其与每个字典原子dj的距离dist(yi,dj),并构成矢量ri=[dist(yi,d1),...,dist(yi,dj),...,dist(yi,dK)]T∈RK。
2)选取ri中元素值由大到小的前K0=3个,构成r0i为ri选取的局部矢量,并选出其对应的字典原子,构成局部字典D0。
3)按如下公式得到矢量yi的编码:xi=(Xi+λdiag(r0i))-1·1,xi=xi/1Txi,其中Xi=(D0-1yi T)(D0-1yi T)T。
本发明实施例中第一层字典D,按照步骤1)所述的方法从8000幅训练图像中抽取8000个图像块矢量,以此作为第一层字典学习的训练矢量,生成16个维数为16×16的原子,通过求解如下问题获得:
s.t.且
式中,Y∈R256×8000为所有8000个训练图像块转换成的256维矢量组成的训练样本矩阵,X∈R16×8000为所有训练图像块矢量的稀疏表示xi组成的编码矩阵,常数K0=3为稀疏度上限。
(3)式的求解过程采用梯度下降方法,对于初始字典及初始编码矩阵,本发明实施例中采用文献[2]所述的方法生成。
令(3)式随机依次对编码矩阵中每一个编码矢量xi求梯度dx i,令dx i=0,求解获得新的编码矢量xi。
根据新的编码矩阵X,随机依次对字典D中每一个原子dj求梯度通过梯度下降法直至每个原子更新完成。交替更新编码矩阵X和字典D,直到代价函数收敛得到字典D。
其中,本发明实例对更新次数不做限制,具体取值根据实际应用中的需要进行设定。最终通过上述操作步骤将每个原子归一化。
203:对第一层编码结果进行池化操作;
对输入的图像中的所有图像块矢量的编码结果矩阵做尺寸为2×2的平均值池化,将池化后的结果作为第一层编码结果矩阵X1∈R16×256。
204:依次对第一层编码结果矢量进行稀疏编码;
对于每一个第一层编码结果矢量x1i∈R16,(i=1,2,…,256)归一化为零均值,由预先生成包含8个原子的稀疏编码第二层字典D2=[d1,…,d8]进行编码。类似地,通过求解步骤202实现对每个第一层编码结果矢量x1i的稀疏描述。
类似地,本发明实施例中第二层字典D2与第一层字典的生成方法相同。按照步骤202所述的方法利用8000幅训练图像抽取8000个第一层编码结果矢量,以此作为第二层字典学习的训练矢量,生成8个维数为16(4×4)的原子。
205:对第二层编码结果的矩阵进行池化操作。
对第二层编码结果矩阵做尺寸为2×2的平均值池化,将池化后的结果X2∈R512作为最终的图像特征。
综上所述,本发明实施例将数字图像利用学习到的字典进行编码,编码过程加入池化操作及多层结构,实现对图像的内在特征提取,该特征可应用于图像内容识别等方面,具有良好的鲁棒性和区分性。
实施例3
下面结合具体的实验数据对实施例1和2中的方案,进行可行性验证,详见下文描述:
为了测试由上述实施例的性能,选取24000幅图片进行图像内容识别测试。其中300幅为原始图像,其余为每个原始图像经过图像处理操作之后的版本,测试中所采用的图像处理操作种类包括:JPEG有损压缩、高斯低通滤波、均值滤波、添加高斯噪声、添加散斑噪声、直方图均衡化、旋转以及伽马矫正。
根据上述方法,利用学习到的两层字典,对每幅图像进行特征提取,并根据编码结果生成哈希序列。在图像识别测试中,逐一选取每幅原始图像作为查询图像,并判定参考图像是否为该查询图像的失真版本。
根据所有图像的判断结果计算F1指标,其值为0.998,验证了本方法的可行性,满足了实际应用中的需要。
参考文献
[1]K.Engan,S.O.Aase,J.H.Multi-frame compression:theory anddesign[J].Signal Processing,2000,80(10):2121-2140.
[2]M.Aharon,M.Elad,A.K.Bruckstein.K-SVD:An Algorithm for DesigningOvercomplete Dictionaries for Sparse Representation,IEEE Trans.SignalProcessing,2006,54(11):4311-4322.
[3]Z.Jiang,Z.Lin,L.S.Davis.Learning a discriminative dictionary forsparse coding via label consistent K-SVD[C].IEEE Conference on ComputerVision and Pattern Recognition.IEEE Computer Society,2011:1697-1704.
[4]S.G.Mallat,Z.Zhang.Matching pursuits with time-frequencydictionaries[J].IEEE Transactions on Signal Processing,1994,41(12):3397-3415.
[5]Y.C.Pati,R.Rezaiifar,P.S.Krishnaprasad.Orthogonal matchingpursuit:recursive function approximation with applications to waveletdecomposition[C].IEEE Conference on Signals,1995:1--3.
[6]J.Wang,J.Yang,K.Yu,et al.Locality-constrained Linear Coding forimage classification[C].IEEE Computer Society Conference on Computer Vision&Pattern Recognition,2010:3360-3367.
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种用于提取数字图像特征的字典学习及编码方法,其特征在于,所述字典学习及编码方法包括以下步骤:
将输入图像分割成固定大小的图像块矢量,由训练图像选取固定大小的图像块矢量学习得到第一层字典,利用第一层字典,通过局部性约束稀疏编码获得每个图像块矢量的稀疏表示;
对输入图像中的所有图像块矢量的编码结果做尺寸为P×P的平均值池化,P表示水平和垂直方向上相邻矢量的个数,将池化后的结果作为第一层编码结果矩阵;
将第一层编码结果矩阵继续分割成矢量,利用第一层编码结果矩阵学习得到的第二层字典,通过局部性约束稀疏编码获得每个矢量的稀疏表示结果,作为第二层表示结果;
对第二层编码结果的矩阵按做尺寸为Q×Q的平均值池化,Q表示水平和垂直方向上相邻矢量的个数,将池化后的结果作为最终的图像特征;
其中,利用第一层字典,通过局部性约束稀疏编码获得每个图像块矢量的稀疏表示具体为:
根据稀疏编码第一层字典D=[d1,…,dK]∈RM×K依次对矢量yi进行稀疏编码,d1,…,dK为字典中的K个原子,第一层字典的生成由训练图像中随机选取的固定大小的图像块学习得到;M为维数;
其中,通过局部性约束稀疏编码获得每个矢量的稀疏表示结果,作为第二层表示结果具体为:
1)将第一层编码结果矩阵按原始图像块分割成一系列维数为K的第一层编码结果矢量xli∈RK;
2)对于每一个矢量x1i,根据稀疏编码第二层字典依次对x1i进行稀疏编码,第二层字典的生成与第一层字典的生成相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610973925.3A CN106570509B (zh) | 2016-11-04 | 2016-11-04 | 一种用于提取数字图像特征的字典学习及编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610973925.3A CN106570509B (zh) | 2016-11-04 | 2016-11-04 | 一种用于提取数字图像特征的字典学习及编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106570509A CN106570509A (zh) | 2017-04-19 |
CN106570509B true CN106570509B (zh) | 2019-09-27 |
Family
ID=58540071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610973925.3A Expired - Fee Related CN106570509B (zh) | 2016-11-04 | 2016-11-04 | 一种用于提取数字图像特征的字典学习及编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106570509B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008961B (zh) * | 2019-04-01 | 2023-05-12 | 深圳华付技术股份有限公司 | 文字实时识别方法、装置、计算机设备及存储介质 |
CN111709442B (zh) * | 2020-05-07 | 2024-08-23 | 北京工业大学 | 一种面向图像分类任务的多层字典学习方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408478A (zh) * | 2014-11-14 | 2015-03-11 | 西安电子科技大学 | 一种基于分层稀疏判别特征学习的高光谱图像分类方法 |
US9152881B2 (en) * | 2012-09-13 | 2015-10-06 | Los Alamos National Security, Llc | Image fusion using sparse overcomplete feature dictionaries |
CN105404859A (zh) * | 2015-11-03 | 2016-03-16 | 电子科技大学 | 一种基于池化车辆图片原始特征的车型识别方法 |
CN105574540A (zh) * | 2015-12-10 | 2016-05-11 | 中国科学院合肥物质科学研究院 | 一种基于非监督学习技术的害虫图像特征学习与自动分类方法 |
-
2016
- 2016-11-04 CN CN201610973925.3A patent/CN106570509B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9152881B2 (en) * | 2012-09-13 | 2015-10-06 | Los Alamos National Security, Llc | Image fusion using sparse overcomplete feature dictionaries |
CN104408478A (zh) * | 2014-11-14 | 2015-03-11 | 西安电子科技大学 | 一种基于分层稀疏判别特征学习的高光谱图像分类方法 |
CN105404859A (zh) * | 2015-11-03 | 2016-03-16 | 电子科技大学 | 一种基于池化车辆图片原始特征的车型识别方法 |
CN105574540A (zh) * | 2015-12-10 | 2016-05-11 | 中国科学院合肥物质科学研究院 | 一种基于非监督学习技术的害虫图像特征学习与自动分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106570509A (zh) | 2017-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shekhar et al. | Analysis sparse coding models for image-based classification | |
US9349072B2 (en) | Local feature based image compression | |
Yang et al. | Multi-focus image fusion via clustering PCA based joint dictionary learning | |
Ghosal et al. | Image steganography based on Kirsch edge detection | |
CN106778571B (zh) | 一种基于深度神经网络的数字视频特征提取方法 | |
Yao et al. | Detecting copy-move forgery using non-negative matrix factorization | |
CN106503112B (zh) | 视频检索方法和装置 | |
CN106570509B (zh) | 一种用于提取数字图像特征的字典学习及编码方法 | |
CN104392207A (zh) | 一种用于数字图像内容识别的特征编码方法 | |
CN103279914A (zh) | 一种基于蛙跳优化的图像压缩感知隐写方法及装置 | |
Deshpande et al. | Neural network based block-level detection of same quality factor double JPEG compression | |
Sabahi et al. | Content-based image retrieval using perceptual image hashing and hopfield neural network | |
CN108021927A (zh) | 一种基于慢变视觉特征的视频指纹提取方法 | |
Aghamaleki et al. | Detecting double compressed MPEG videos with the same quantization matrix and synchronized group of pictures structure | |
Ahmed et al. | Fractal image compression using block indexing technique: A review | |
Raut et al. | Recognition of American sign language using LBG vector quantization | |
Li et al. | Robust content fingerprinting algorithm based on invariant and hierarchical generative model | |
CN105279489B (zh) | 一种基于稀疏编码的视频指纹提取方法 | |
Kunapuli et al. | Enhanced Medical Image De-noising Using Auto Encoders and MLP | |
CN107563391B (zh) | 一种基于专家模型的数字图像特征提取方法 | |
Jayanthi et al. | Efficient fuzzy color and texture feature extraction technique for content based image retrieval system | |
CN108109141B (zh) | 基于超像素多特征匹配的同源局部复制检测方法 | |
CN106778808B (zh) | 一种基于组稀疏编码的图像特征学习方法 | |
Thiagarajan et al. | Local sparse coding for image classification and retrieval | |
Yeh et al. | Content-based image retrieval through compressed indices based on vector quantized images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190927 Termination date: 20211104 |