CN105260736A

CN105260736A - 基于归一化非负稀疏编码器的图像快速特征表示方法

Info

Publication number: CN105260736A
Application number: CN201510567889.6A
Authority: CN
Inventors: 张世周; 王进军; 龚怡宏; 石伟伟
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2015-09-08
Filing date: 2015-09-08
Publication date: 2016-01-20

Abstract

本发明基于归一化非负稀疏编码器的图像快速特征表示方法，其实现步骤为：将数据集中图像稠密地提取SIFT特征；随机地选取若干个SIFT特征，以K-均值聚类的方法得到码书；利用得到的码书，按照基于归一化非负稀疏编码编码器的松弛模型，优化求解编码器参数；利用求解得到的编码器，将输入图像的SIFT特征的归一化非负稀疏编码系数计算出来，将编码系数按照空间金字塔最大池化的方式进行整合，所得到的高维的特征向量就是该图像的特征向量；利用得到的图像特征表示，可以进一步用于图像分类/检索等应用当中。本发明的编码方法所得到的编码判别性强，编码过程无需调节参数，编码速度相比较于传统方法大大提升，可以用于图像分类/检索等任务。

Description

基于归一化非负稀疏编码器的图像快速特征表示方法

技术领域：

本发明涉及计算机视觉图像处理技术领域，具体涉及一种基于归一化非负稀疏编码器的图像快速特征表示方法。

背景技术：

生物学研究表明，哺乳动物的初级视皮层对外界刺激的响应满足稀疏性，即只有少数的神经元被激活，相应的编码应该为稀疏编码。稀疏编码，通俗地说，就是将一个信号表示为一组基的组合，而且要求只需要少数的几个基就可以将信号重构出来。稀疏编码已经广泛应用到计算机视觉、图像信号处理等领域，例如，信号重构、信号去噪、图像特征提取、以及分类等应用。

传统的稀疏编码方法是基于最小均方误差意义下的重构，也就是使得重构误差尽可能小，同时，尽可能使得相应的编码系数稀疏化。由于稀疏编码之后的过程通常是最大池化(maxpooling)。这使得负数编码系数直接被忽略，造成了信息泄漏。在传统的稀疏编码基础之上，添加非负约束，引入了非负稀疏编码。

稀疏编码的基本理论模型：

记作N个D维的局部特征，表示含有M个基元的码书，表示对应的编码系数。并且X中第i个局部特征表示为x_i，其对应的编码系数为c_i。传统的稀疏编码模型目标在于优化以下的目标函数：

\arg \underset{C}{m i n} Σ_{i = 1}^{N} \frac{1}{2} | | x_{i} - {Bc}_{i} | |^{2} + λ | c_{i} |_{L_{1}}

其中λ为L1范数的稀疏约束，通过调节λ，可以控制c_i的稀疏度。

非负稀疏编码模型在此基础之上，对于编码系数添加了非负约束：

\arg \underset{C}{m i n} Σ_{i = 1}^{N} \frac{1}{2} | | x_{i} - {Bc}_{i} | |^{2} + λ | c_{i} |_{L_{1}}

s.t.

c_{i} (j) &GreaterEqual; 0, &ForAll; j .

以上两种编码方式，都需要手工调节λ，来达到控制稀疏度的目的。

发明内容：

本发明的目的在于改进传统稀疏编码的特征表达能力，自适应地调节参数。同时使用自编码器模型，学习得到归一化非负稀疏编码的编码系数，大大提升编码效率，从而能够快速得到图像的特征表示。

为达到上述目的，本发明采用如下技术方案：

基于归一化非负稀疏编码器的图像快速特征表示方法，包括以下步骤：

1)对待处理的图像数据集中所有图像分别稠密地提取SIFT特征；

2)对待处理的图像数据集中所有图像提取完SIFT特征后，随机地选取5万至50万的SIFT特征，求解出待处理的图像数据集的码书；

3)建立基于归一化非负稀疏编码编码器的松弛模型；

4)利用步骤2)中求解得到的码书，按照步骤3)中建立的基于归一化非负稀疏编码编码器的松弛模型，求解松弛模型的参数，得到基于归一化非负稀疏编码编码器；

5)利用求解得到的基于归一化非负稀疏编码编码器，对所有的SIFT特征进行编码；

6)对图像数据集中每张图像的编码进行空间金字塔最大池化方法整合，得到每张图像的特征向量。

本发明进一步的改进在于，步骤2)中，以K-均值聚类的方法求出待处理的图像数据集的码书。

本发明进一步的改进在于，步骤3)中，基于归一化非负稀疏编码编码器的松弛模型目标函数如下：

\arg \underset{θ, Z}{m i n} Σ_{i = 1}^{N} \frac{1}{2} | | x_{i} - {Bf}_{θ} (x_{i}) | |^{2} + β | z_{i} |_{L_{1}} + \frac{γ}{2} | | z_{i} - f_{θ} (x_{i}) | |^{2}

其中，记作N个D维的局部特征，x_i表示其中第i个样本，表示含有M个基元的码书，Z为引入的松弛变量，f_θ(·)为编码器的表达式，θ为编码器的参数，包括W₁,W₂,b₁,b₂，β,γ分别为控制松弛变量的稀疏度和编码器输出与松弛变量的逼近度的超参数；

使用两层神经网络模型来表示编码器f_θ(·)，即

f_θ(x)＝softmax(W₂(sigmoid(W₁x+b₁)+b₂))

其中，W₁,b₁分别为两层神经网络模型中第一层的权重系数和偏置系数；W₂,b₂分别为两层神经网络模型中第二层的权重系数和偏置系数，x为两层神经网络模型的输入SIFT特征。

本发明进一步的改进在于，步骤4)中，采用交替优化的策略求解参数θ,Z，具体方法如下：

401)固定参数θ，求解参数Z，公式如下：

\arg \underset{Z}{m i n} Σ_{i = 1}^{N} β | z_{i} |_{L_{1}} + \frac{γ}{2} | | z_{i} - f_{θ} (x_{i}) | |^{2}

使用梯度下降法对上述公式进行优化；

402)固定参数Z，求解参数θ，公式如下：

\arg \underset{θ}{m i n} Σ_{i = 1}^{N} \frac{1}{2} | | x_{i} - {Bf}_{θ} (x_{i}) | |^{2} + \frac{γ}{2} | | z_{i} - f_{θ} (x_{i}) | |^{2}

使用梯度下降法对上述公式进行优化；

403)交互迭代步骤401)和402)，直至收敛；最终求得归一化非负稀疏编码的编码器f_θ(x)。

本发明进一步的改进在于，步骤5)中，利用求解得到的基于归一化非负稀疏编码编码器f_θ(x)，对所有的SIFT特征进行编码。

相对于现有技术，本发明具有如下的优点：

传统稀疏编码方法需要手工调节控制稀疏程度的参数，本发明提出了归一化非负稀疏编码方法，能够自适应的控制稀疏度，避免了繁琐的参数调节过程；研究表明，局部限定约束的编码结果相较于稀疏约束来说更加平滑和鲁棒，本发明提出的归一化非负稀疏编码模型，隐式地包含了局部限定约束条件，因此编码结果也更加鲁棒。具体来说，本发明使用稠密SIFT特征，采用归一化非负稀疏编码器进行编码，之后对图像进行空间金字塔池化(SPMMaxpooling)，从而形成整幅图像的特征表示，其核心耗时模块即编码模块的速度被大大提升，这使得本发明提出的图像特征表示方法易于被使用与大规模的实时应用当中。

进一步，本发明使用松弛的自编码器模型，使得学习得到的非负稀疏编码的编码器的结果更加平滑。

进一步，传统的稀疏编码模型在编码过程中需要迭代求解，计算复杂度较高，不宜用于实时应用当中，本发明所提出的归一化非负稀疏编码器，对于输入的SIFT特征直接前向计算得到编码系数，大大降低了编码复杂度。

附图说明：

图1(a)至(c)分别为稀疏编码、局部限定性编码及归一化非负稀疏编码的编码示意图。

图2为本发明基于归一化非负稀疏编码的图像分类方法的流程图。

图3为空间金字塔最大池化示意图。

图4为学习编码器参数的自编码器网络示意图；其中，图4(a)为自编码器网络结构示意图，图4(b)为某个输入的SIFT特征编解码过程示例。

具体实施方式：

本发明在非负稀疏编码基础之上，进一步添加平移不变形约束。一方面使得稀疏编码系数的解释性得到加强，另一方面自动地使得传统的稀疏约束参数消失，避免了繁杂的参数调节过程。此外，本发明进一步使用自编码器模型，通过学习得到归一化非负稀疏编码的编码器，从而在编码过程中避免了迭代求解的过程。求解归一化非负稀疏编码只需要计算矩阵与矩阵乘法，以及一些非线性激活函数操作，从而大大增加了编码速度。

本发明基于归一化非负稀疏编码器的图像快速特征表示方法，包括以下几个步骤：

(1)对每一幅图片按照的一定大小的像素块，例如16×16，一定大小的步长，例如6像素的上下和左右滑动步长，稠密地提取SIFT特征，所提取的特征为128维的列向量；事实上，也可以提取HOG等图像的局部特征。

(2)对待处理的图像数据集中所有图像提取完SIFT特征后，随机地选取5万至50万的SIFT特征，使用K-均值方法或者其他带约束的目标函数优化方法，求解出待处理的图像数据集的码书；

(3)推导建立基于归一化非负稀疏编码编码器的松弛模型；

在非负稀疏编码的基础上，我们进一步添加平移不变性约束，来达到归一化非负稀疏编码：

\arg \underset{C}{m i n} Σ_{i = 1}^{N} \frac{1}{2} | | x_{i} - {Bc}_{i} | |^{2}

s.t.

c_{i} (j) &GreaterEqual; 0, 1^{T} c_{i} = 1, &ForAll; i, j .

其中记作N个D维的局部特征，表示含有M个基元的码书，表示对应的编码系数。并且X中第i个局部特征表示为x_i，x_i对应的编码系数为c_i，1为元素全部为1的M维列向量，c_i(j)为向量c_i的第j个分量。

由于非负约束和平移不变性约束的联合作用，使得c_i的L1范数变成常数1,因此传统稀疏编码中的L1范数约束项可以省略掉，从来达到了自适应的控制稀疏度的目的。尽管归一化非负稀疏编码的目标函数中没有显示的稀疏约束(L1范数正则项)，但是根据带约束凸优化的边界条件，归一化非负稀疏编码的结果通常都是稀疏的。

如图1所示，图1分析了稀疏编码，局部限定性编码，归一化非负稀疏编码的编码方案示意图。稀疏编码的结果趋向于局部性，但是并不严格地是局部性结果；局部限定性编码挑选几个临近的码字去重构输入局部特征；尽管归一化非负稀疏编码的目标函数里面没有显式的局部约束，事实上，它在目标函数里面从另一个角度隐含了局部约束。局部限定性编码强制重构局部特征在输入局部特征的局部子空间中，因为它选择的基都是非常接近输入局部特征的。而归一化非负稀疏编码仅仅允许重构局部特征存在于由所选择的基扩展成的单纯形(simplex)之中。

我们不直接对归一化非负稀疏编码的目标函数进行严格求解，设计两层的神经网络直接计算出编码系数：

f_θ(x)＝softmax(W₂(sigmoid(W₁x+b₁)+b₂))

f_θ(·)为编码器的表达式，θ为编码器的参数，包括W₁,W₂,b₁,b₂，其中，W₁,b₁分别为两层神经网络模型中第一层的权重系数和偏置系数；W₂,b₂分别为两层神经网络模型中第二层的权重系数和偏置系数，x为两层神经网络模型的输入SIFT特征。由于f_θ(x)的输出满足非负约束和平移不变性约束，因此，我们将f_θ(x)代入归一化非负稀疏编码的目标函数当中，约束条件便可以省略掉：

\arg \underset{θ}{m i n} Σ_{i = 1}^{N} \frac{1}{2} | | x_{i} - {Bf}_{θ} (x_{i}) | |^{2}

更进一步，我们对上述自编码器模型做一个松弛简化，引入松弛变量Z，使得编码输出系数f_θ(x)与Z有一定的差别，从而使得编码系数更加平滑，含编码器参数的目标函数变为：

\arg \underset{θ, Z}{m i n} Σ_{i = 1}^{N} \frac{1}{2} | | x_{i} - {Bf}_{θ} (x_{i}) | |^{2} + β | z_{i} |_{L_{1}} + \frac{γ}{2} | | z_{i} - f_{θ} (x_{i}) | |^{2}

其中，Z为引入的松弛变量，f_θ(·)为编码器的表达式，θ为编码器的参数，包括W₁,W₂,b₁,b₂，β,γ分别为控制松弛变量的稀疏度和编码器输出与松弛变量的逼近度的超参数。

(4)利用步骤(2)中求解得到的码书，按照步骤(3)中建立的基于归一化非负稀疏编码编码器的松弛模型，求解松弛模型的参数，得到基于归一化非负稀疏编码编码器；

如图4所示，采用交替优化的策略求解参数θ,Z，具体方法如下：

401)固定参数θ，求解参数Z，公式如下：

\arg \underset{Z}{m i n} Σ_{i = 1}^{N} β | z_{i} |_{L_{1}} + \frac{γ}{2} | | z_{i} - f_{θ} (x_{i}) | |^{2}

使用梯度下降法对上述公式进行优化；

402)固定参数Z，求解参数θ，公式如下：

\arg \underset{θ}{m i n} Σ_{i = 1}^{N} \frac{1}{2} | | x_{i} - {Bf}_{θ} (x_{i}) | |^{2} + \frac{γ}{2} | | z_{i} - f_{θ} (x_{i}) | |^{2}

使用梯度下降法对上述公式进行优化；

如图2所示，求解得到归一化非负稀疏编码器之后，对整幅图像进行图像特征表示的全部流程如下：

(1)：对每一幅图片按照的一定大小的像素块，例如16×16，一定大小的步长，例如6像素的上下和左右滑动步长，稠密地提取SIFT特征，所提取的特征为128维的列向量；事实上，也可以提取HOG等图像的局部特征。

(2)：利用求解得到的编码器，将一副输入图像的每一个SIFT特征的归一化非负稀疏编码系数直接计算出来。

(3)：将所有SIFT特征相应的编码系数，按照空间金字塔最大池化(SPMpooling)的方式进行整合，可以得到一个高维的特征向量，所得到的高维的特征向量就是该图像的最终特征表示。如图3所示，空间金字塔最大池化(SPMmaxpooling)：空间金字塔就是将原图片分别划分成的网格，一般划分成1×1、2×2、4×4的网格，每个网格可以看成一个较大的图像块。在每个图像块内，对其所有SIFT特征的稀疏编码在每一维上进行最大池化，即在每一个维上，池化的结果是所有稀疏编码相应维上绝对值的最大值。每个网格池化后可以得到该图像块上的特征向量，将所有网格或图像块上池化后的特征向量拼接到一起，所得到的一个高维的特征就是该整幅图片的特征向量，这个操作过程就称为空间金字塔最大池化。

(4)：利用得到的图像特征表示，可以进一步用于图像分类/检索等应用当中。

Claims

1.基于归一化非负稀疏编码器的图像快速特征表示方法，其特征在于，包括以下步骤：

3)建立基于归一化非负稀疏编码编码器的松弛模型；

2.根据权利要求1所述的基于归一化非负稀疏编码器的图像快速特征表示方法，其特征在于，步骤2)中，以K-均值聚类的方法求出待处理的图像数据集的码书。

3.根据权利要求1所述的基于归一化非负稀疏编码器的图像快速特征表示方法，其特征在于，步骤3)中，基于归一化非负稀疏编码编码器的松弛模型目标函数如下：

\arg \underset{θ, Z}{m i n} Σ_{i = 1}^{N} \frac{1}{2} | | x_{i} - {Bf}_{θ} (x_{i}) | |^{2} + β | z_{i} |_{L_{1}} + \frac{γ}{2} | | z_{i} - f_{θ} (x_{i}) | |^{2}

使用两层神经网络模型来表示编码器f_θ(·)，即

f_θ(x)＝softmax(W₂(sigmoid(W₁x+b₁)+b₂))

4.根据权利要求1所述的基于归一化非负稀疏编码器的图像快速特征表示方法，其特征在于，步骤4)中，采用交替优化的策略求解参数θ,Z，具体方法如下：

401)固定参数θ，求解参数Z，公式如下：

\arg \underset{Z}{m i n} Σ_{i = 1}^{N} β | z_{i} |_{L_{1}} + \frac{γ}{2} | | z_{i} - f_{θ} (x_{i}) | |^{2}

使用梯度下降法对上述公式进行优化；

402)固定参数Z，求解参数θ，公式如下：

\arg \underset{θ}{m i n} Σ_{i = 1}^{N} \frac{1}{2} | | x_{i} - {Bf}_{θ} (x_{i}) | |^{2} + \frac{γ}{2} | | z_{i} - f_{θ} (x_{i}) | |^{2}

使用梯度下降法对上述公式进行优化；

5.根据权利要求1所述的基于归一化非负稀疏编码器的图像快速特征表示方法，其特征在于，步骤5)中，利用求解得到的基于归一化非负稀疏编码编码器f_θ(x)，对所有的SIFT特征进行编码。