CN106570509B

CN106570509B - 一种用于提取数字图像特征的字典学习及编码方法

Info

Publication number: CN106570509B
Application number: CN201610973925.3A
Authority: CN
Inventors: 郭琳琳; 李岳楠
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-11-04
Filing date: 2016-11-04
Publication date: 2019-09-27
Anticipated expiration: 2036-11-04
Also published as: CN106570509A

Abstract

本发明公开了一种用于提取数字图像特征的字典学习及编码方法，包括以下步骤：将输入图像分割成固定大小的图像块矢量，利用第一层字典，通过局部性约束稀疏编码获得每个图像块矢量的稀疏表示；将图像块矢量的表示结果做池化，得到第一层编码结果矩阵；将第一层编码结果矩阵继续分割成矢量，利用第二层字典，通过局部性约束稀疏编码获得每个矢量的稀疏表示结果，作为第二层表示结果；将第二层表示结果做池化，将池化后的结果作为最终的图像特征。本方法能够通过稀疏编码实现图像的特征提取，在失真情况下亦能保证其结果的鲁棒性及区分性。可应用于图像内容识别等方面。

Description

一种用于提取数字图像特征的字典学习及编码方法

技术领域

本发明涉及信号与信息处理技术领域，尤其涉及一种用于提取数字图像特征的字典学习及编码方法。

背景技术

特征学习算法一直以来是决定机器学习算法优劣的一个重要因素，良好的特征表达，可以作为区分不同目标类别的依据，对最终的算法准确性起到了非常关键的作用。因此，高效的、无监督的特征学习算法就显得尤为重要，稀疏编码就可以作为其中一种。稀疏编码的主要思想就是将一个信号表示为一组基的线性组合，而且只需要少量的基就可以将信号表示出来。那么稀疏编码中的重点就是要找到一组“超完备”的基向量来高效的表示样本数据，也就是所说的字典。而“超完备”的要求就是要求基向量的个数要比输入向量的维数大，因而可以更有效地找出隐含在数据内部的结构与模式。现阶段的字典学习可以分为有监督学习和无监督学习两种方式。对于无监督的字典学习方法，文献[1]中所述最优方向法算法字典的更新过程采用了整体更新的方式。文献[2]中K-奇异值分解算法，它采用每次更新一个字典原子的方式。对于有监督的字典学习，文献[3]提出标签一致的K-奇异值分解算法，在使用监督训练样本的同时，生成带标签的字典原子。在编码方式方面，文献[4]中的匹配追踪算法在迭代过程中一直使用能更快减少残差的原子。在此基础上，文献[5]提出在迭代的每一步对已选择的原子进行正交化处理。

发明人在实现本发明的过程中，发现现有的技术中至少存在以下缺点和不足：

传统的特征提取方式如尺度不变特征变换，方向梯度直方图等仅对图像的一个方面进行特征提取，其对特征的表达可能是不全面的。此外，大部分现有特征提取技术除了需要人工参与标注类别信息，具有较大工作量外，鲁棒性不强。如当图像存在失真时，其特征提取结果与原图像相比可能发生较大偏差。

发明内容

本发明提供了一种用于提取数字图像特征的字典学习及编码方法，本方法将数字图像利用学习到的字典进行编码，编码过程加入池化操作(pooling)及多层结构，实现对图像内在特征的提取，该特征可应用于图像内容识别等方面，具有良好的鲁棒性和区分性，详见下文描述：

一种用于提取数字图像特征的字典学习及编码方法，所述字典学习及编码方法包括以下步骤：

将输入图像分割成固定大小的图像块矢量，利用第一层字典，通过局部性约束稀疏编码获得每个图像块矢量的稀疏表示；

将图像块矢量的表示结果做池化，得到第一层编码结果矩阵；

将第一层编码结果矩阵继续分割成矢量，利用第二层字典，通过局部性约束稀疏编码获得每个矢量的稀疏表示结果，作为第二层表示结果；

将第二层表示结果做池化，将池化后的结果作为最终的图像特征。

其中，所述第一层字典由训练图像选取固定大小的图像块矢量学习得到。

其中，所述将图像块矢量的表示结果做池化，得到第一层编码结果矩阵的步骤具体为：

对输入的图像中的所有矢量的编码结果做尺寸为P×P的平均值池化，P表示水平和垂直方向上相邻矢量的个数。将池化后的结果作为第一层编码结果矩阵。

进一步地，所述第二层字典由第一层编码结果矩阵学习得到。

进一步地，所述将第二层表示结果做池化，得到每幅图像的稀疏表示结果的步骤具体为：

对所有第二层编码结果的矩阵做尺寸为Q×Q的平均值池化，Q表示水平和垂直方向上相邻矢量的个数，将池化后的结果作为最终的图像特征。

本发明提供的技术方案的有益效果是：本发明通过稀疏编码实现图像的特征提取；首先，字典学习算法的设计能够保证其对编码结果鲁棒性及区分性的作用，即提取出图像内在特征，能够抵御图像处理操作(如压缩、滤波和加噪声等)所引入的失真；其次，编码模型中的多层结构及池化操作进一步实现了降维及鲁棒特征提取。

附图说明

图1为一种用于提取数字图像特征的字典学习及编码方法的流程图；

图2为对图像进行编码的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

为了实现对图像鲁棒性及判别性特征的提取，本发明实施例提出了一种用于提取数字图像特征的字典学习及编码方法，参见图1和图2，详见下文描述：

101：将输入图像矩阵分割成固定大小的图像块矢量，利用第一层字典(由训练图像选取固定大小的图像块矢量学习得到)，通过局部性约束稀疏编码获得每个图像块矢量的稀疏表示；

其中，该步骤具体为：

1)对输入大小为V×S的图像矩阵，分割成一系列大小为v×s的图像块，并转换为一系列维数为M＝v×s的矢量y_i，i＝1,2,…,(V×S)/(v×s)。V,S,v,和s的具体取值根据实际应用中的需要进行设定，本发明实施例对此不做限制。

2)对于输入的图像矩阵中的每一个矢量y_i，根据稀疏编码第一层字典D＝[d₁,…,d_K]∈R^M×K依次对y_i进行稀疏编码，其中d₁,…,d_K为字典中的K个原子，每个原子的维数与图像块矢量的维数相同，

本发明实例并不限制具体的第一层字典原子个数。通过求解如下问题实现对每个矢量y_i∈R^M的稀疏编码：

式中，x_i∈R^K为y_i的稀疏描述，r_i＝dist(y_i,D)∈R^K，

dist(y_i,D)＝[dist(y_i,d₁),...,dist(y_i,d_j),...,dist(y_i,d_K)]^T，其中dist(y_i,d_j)表示y_i和任意字典原子d_j的欧式距离，λ是惩罚因子，⊙表示对应元素相乘，表示2-范数的平方，s.t.表示约束条件。本发明实施例并不限制公式(1)的求解方法。

上述第一层字典的生成由训练图像中随机选取的固定大小(v×s)的图像块学习得到，通过求解如下问题得到第一层字典D：

s.t.且

式中，Y∈R^M×N为所有训练图像块转换成的M维矢量y_i组成的训练样本矩阵，X＝[x₁,...,x_N]∈R^K×N为所有训练矢量的稀疏表示x_i组成的编码矩阵，||·||₀表示0-范数，||·||₂表示2-范数表示F-范数的平方，常数常数K₀为稀疏度上限，λ₁，λ₂，λ₃分别为各项惩罚因子。

其中，公式(2)的求解过程采用梯度下降方法。

102：将图像块矢量的稀疏描述结果做池化操作，得到第一层编码结果矩阵；

其中，该步骤具体为：

对输入的图像中的所有图像块矢量的编码结果做尺寸为P×P的平均值池化，P表示水平和垂直方向上相邻矢量的个数，将池化后的结果作为第一层编码结果矩阵。本发明实施例对P的大小不做限制。

103：对第一层编码结果矩阵继续分割成矢量，利用第二层字典(由第一层编码结果矩阵学习得到)，通过局部性约束稀疏编码获得每个矢量的稀疏表示结果；

其中，该步骤具体为：

1)将第一层编码结果矩阵按原始图像块分割成一系列维数为K的第一层编码结果矢量x_li∈R^K，i＝1,2,…,(V×S)/(v×s×P×P)。

2)对于每一个矢量x_1i，i＝1,2,…,(V×S)/(v×s×P×P)，根据稀疏编码第二层字典依次对x_1i进行稀疏编码。其中为字典中的K₂个原子。

具体实现时，本发明实施例并不限制具体的第二层字典原子个数。类似地，通过求解问题1)实现对每个矢量x_1i的稀疏描述

其中，第二层字典D₂的生成方法与第一层相同，是由随机选取的维度为K的第一层编码结果训练样本通过求解问题(2)学习到的，求解方法与上述相同。

104：将第二层表示结果做池化，得到每幅图像的稀疏表示结果。

其中，该步骤具体为：

对第二层编码结果的矩阵做尺寸为Q×Q的平均值池化，Q表示水平和垂直方向上相邻矢量的个数，将池化后的结果作为最终的图像特征。本发明实施例对Q的大小不做限制。

综上所述，本发明实施例将数字图像利用学习到的字典进行编码，编码过程加入池化操作及多层结构，实现对图像的内在特征提取，该特征可应用于图像内容识别等方面，具有良好的鲁棒性和区分性。

实施例2

下面以单幅图像为例，对本发明实施例1提供的用于提取数字图像特征的字典学习及编码方法进行详细介绍，详见下文描述：

201：预处理；

将输入图像归一化至标准尺寸512×512，并采用均值滤波。将处理后的图像划分为1024个尺寸为16×16的图像块，每个图像块矢量表示为y_i,i＝1,2,…,1024，并分别归一化为零均值，由此构成256×1024的图像块矩阵。

具体实现时，本发明实施例对图像块的个数、以及尺寸，不做限制，可以根据实际应用中的需要进行设定。

202：依次对图像块矢量进行稀疏编码；

对于每一个矢量y_i(i＝1,2,…,1024)，由预先生成包含K＝16个原子的稀疏编码第一层字典D＝[d₁,…,d₁₆]进行编码。通过求解实施例1中公式(1)中的问题实现对每个矢量y_i的稀疏编码。

本发明实施例通过文献[6]中所述的近似LLC快速编码方法求解公式(1)，对每个公式(1)的求解方法包含如下具体步骤：

1)对矢量y_i，计算其与每个字典原子d_j的距离dist(y_i,d_j)，并构成矢量r_i＝[dist(y_i,d₁),...,dist(y_i,d_j),...,dist(y_i,d_K)]^T∈R^K。

2)选取r_i中元素值由大到小的前K₀＝3个，构成r_0i为r_i选取的局部矢量，并选出其对应的字典原子，构成局部字典D₀。

3)按如下公式得到矢量y_i的编码：x_i＝(X_i+λdiag(r_0i))^-1·1，x_i＝x_i/1^Tx_i，其中X_i＝(D₀-1y_i ^T)(D₀-1y_i ^T)^T。

本发明实施例中第一层字典D，按照步骤1)所述的方法从8000幅训练图像中抽取8000个图像块矢量，以此作为第一层字典学习的训练矢量，生成16个维数为16×16的原子，通过求解如下问题获得：

s.t.且

式中，Y∈R^256×8000为所有8000个训练图像块转换成的256维矢量组成的训练样本矩阵，X∈R^16×8000为所有训练图像块矢量的稀疏表示x_i组成的编码矩阵，常数K₀＝3为稀疏度上限。

(3)式的求解过程采用梯度下降方法，对于初始字典及初始编码矩阵，本发明实施例中采用文献[2]所述的方法生成。

令(3)式随机依次对编码矩阵中每一个编码矢量x_i求梯度d_x ⁱ,令d_x ⁱ＝0，求解获得新的编码矢量x_i。

根据新的编码矩阵X，随机依次对字典D中每一个原子d_j求梯度通过梯度下降法直至每个原子更新完成。交替更新编码矩阵X和字典D，直到代价函数收敛得到字典D。

其中，本发明实例对更新次数不做限制，具体取值根据实际应用中的需要进行设定。最终通过上述操作步骤将每个原子归一化。

203：对第一层编码结果进行池化操作；

对输入的图像中的所有图像块矢量的编码结果矩阵做尺寸为2×2的平均值池化，将池化后的结果作为第一层编码结果矩阵X₁∈R^16×256。

204：依次对第一层编码结果矢量进行稀疏编码；

对于每一个第一层编码结果矢量x_1i∈R¹⁶,(i＝1,2,…,256)归一化为零均值，由预先生成包含8个原子的稀疏编码第二层字典D₂＝[d₁,…,d₈]进行编码。类似地，通过求解步骤202实现对每个第一层编码结果矢量x_1i的稀疏描述。

类似地，本发明实施例中第二层字典D₂与第一层字典的生成方法相同。按照步骤202所述的方法利用8000幅训练图像抽取8000个第一层编码结果矢量，以此作为第二层字典学习的训练矢量，生成8个维数为16(4×4)的原子。

205：对第二层编码结果的矩阵进行池化操作。

对第二层编码结果矩阵做尺寸为2×2的平均值池化，将池化后的结果X₂∈R⁵¹²作为最终的图像特征。

实施例3

下面结合具体的实验数据对实施例1和2中的方案，进行可行性验证，详见下文描述：

为了测试由上述实施例的性能，选取24000幅图片进行图像内容识别测试。其中300幅为原始图像，其余为每个原始图像经过图像处理操作之后的版本，测试中所采用的图像处理操作种类包括：JPEG有损压缩、高斯低通滤波、均值滤波、添加高斯噪声、添加散斑噪声、直方图均衡化、旋转以及伽马矫正。

根据上述方法，利用学习到的两层字典，对每幅图像进行特征提取，并根据编码结果生成哈希序列。在图像识别测试中，逐一选取每幅原始图像作为查询图像，并判定参考图像是否为该查询图像的失真版本。

根据所有图像的判断结果计算F₁指标，其值为0.998，验证了本方法的可行性，满足了实际应用中的需要。

参考文献

[1]K.Engan,S.O.Aase,J.H.Multi-frame compression:theory anddesign[J].Signal Processing,2000,80(10):2121-2140.

[2]M.Aharon,M.Elad,A.K.Bruckstein.K-SVD:An Algorithm for DesigningOvercomplete Dictionaries for Sparse Representation,IEEE Trans.SignalProcessing,2006,54(11):4311-4322.

[3]Z.Jiang,Z.Lin,L.S.Davis.Learning a discriminative dictionary forsparse coding via label consistent K-SVD[C].IEEE Conference on ComputerVision and Pattern Recognition.IEEE Computer Society,2011:1697-1704.

[4]S.G.Mallat,Z.Zhang.Matching pursuits with time-frequencydictionaries[J].IEEE Transactions on Signal Processing,1994,41(12):3397-3415.

[5]Y.C.Pati,R.Rezaiifar,P.S.Krishnaprasad.Orthogonal matchingpursuit:recursive function approximation with applications to waveletdecomposition[C].IEEE Conference on Signals,1995:1--3.

[6]J.Wang,J.Yang,K.Yu,et al.Locality-constrained Linear Coding forimage classification[C].IEEE Computer Society Conference on Computer Vision&Pattern Recognition,2010:3360-3367.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于提取数字图像特征的字典学习及编码方法，其特征在于，所述字典学习及编码方法包括以下步骤：

将输入图像分割成固定大小的图像块矢量，由训练图像选取固定大小的图像块矢量学习得到第一层字典，利用第一层字典，通过局部性约束稀疏编码获得每个图像块矢量的稀疏表示；

对输入图像中的所有图像块矢量的编码结果做尺寸为P×P的平均值池化，P表示水平和垂直方向上相邻矢量的个数，将池化后的结果作为第一层编码结果矩阵；

将第一层编码结果矩阵继续分割成矢量，利用第一层编码结果矩阵学习得到的第二层字典，通过局部性约束稀疏编码获得每个矢量的稀疏表示结果，作为第二层表示结果；

对第二层编码结果的矩阵按做尺寸为Q×Q的平均值池化，Q表示水平和垂直方向上相邻矢量的个数，将池化后的结果作为最终的图像特征；

其中，利用第一层字典，通过局部性约束稀疏编码获得每个图像块矢量的稀疏表示具体为：

根据稀疏编码第一层字典D＝[d₁,…,d_K]∈R^M×K依次对矢量y_i进行稀疏编码，d₁,…,d_K为字典中的K个原子，第一层字典的生成由训练图像中随机选取的固定大小的图像块学习得到；M为维数；

其中，通过局部性约束稀疏编码获得每个矢量的稀疏表示结果，作为第二层表示结果具体为：

1)将第一层编码结果矩阵按原始图像块分割成一系列维数为K的第一层编码结果矢量x_li∈R^K；

2)对于每一个矢量x_1i，根据稀疏编码第二层字典依次对x_1i进行稀疏编码，第二层字典的生成与第一层字典的生成相同。