CN106778808A

CN106778808A - 一种基于组稀疏编码的图像特征学习方法

Info

Publication number: CN106778808A
Application number: CN201611036079.9A
Authority: CN
Inventors: 汪冬冬; 李岳楠
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-11-09
Filing date: 2016-11-09
Publication date: 2017-05-31
Anticipated expiration: 2036-11-09
Also published as: CN106778808B

Abstract

本发明公开了一种基于组稀疏编码的图像特征学习方法，涉及信号与信息处理技术领域，包括：将输入的图像分割成具有固定大小的图像块，并且按图像块空间位置分组，利用组稀疏编码获得每个组的图像块的稀疏描述；对各个组的稀疏描述进行池化，得到池化后的稀疏描述；将获得的稀疏描述再次按对应图像块空间位置分组，利用组稀疏编码获得每个组的稀疏描述；再次对各个组的稀疏描述进行池化，得到池化后的稀疏描述。本方法能够提取图像的慢变视觉特征，计算复杂度低；且提取出的特征鲁棒性强，复杂度低，模拟了人眼的视觉特性，可实现高效、准确的图像内容识别。

Description

一种基于组稀疏编码的图像特征学习方法

技术领域

本发明涉及信号与信息处理技术领域，尤其涉及一种基于组稀疏编码的图像特征学习方法。

背景技术

人眼的视觉特性具有稀疏、分层、慢变的特征。因此通过分层的结构学习出稀疏、慢变的图像特征来模拟人眼的视觉特性具有重要意义。慢变特征就是基于慢原则而来，人眼所注意的重要特性往往是慢变的：轮廓、环境以及重要目标本身等等。慢变特征也具有更鲁棒的性质。因此，用什么样的模型来学习慢变特征是慢变特征学习的关键技术。

时域慢变特征的学习上：文献[1]中Mobahi等采用基于CNN和视频时域相关性学习慢变特征，文献[2]中Bergstra等采用基于复杂类细胞网络学习慢变特征。空域慢变特征的学习中，编码与字典学习是关键，文献[3]中Bengio等人提出组稀疏编码，并使用混合范数，提高了字典原子的使用率。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：

传统的手工特征提取往往只针对某个方面，而且需要先验知识。这不符合人眼的视觉特性。而且需要先验知识也增加很多局限，需要人工标注，费时费力。传统的稀疏编码方法由于不能保证其每个视觉描述子都能对整幅图片稀疏编码，因此在大尺寸图片的应用中往往会受到空间和时间资源的限制。

发明内容

本发明提供了一种基于组稀疏编码的图像特征学习方法，本发明从图像中学习慢变特征，该特征可以反映图片在空间上变化慢的重要信息，反映各个尺度的内在特征，同时具有良好的鲁棒性和区分性，据此可应用于目标识别或者图像和视频的搜索等领域，详见下文描述：

一种基于组稀疏编码的图像特征学习方法，所述方法包括以下步骤：

将输入的图像分割成具有固定大小的图像块，并且按图像块空间位置分组，利用组稀疏编码获得每个组的图像块的稀疏描述；

对各个组的稀疏描述进行池化，得到池化后的稀疏描述；

将获得的稀疏描述再次按对应图像块空间位置分组，利用组稀疏编码获得每个组的稀疏描述；

再次对各个组的稀疏描述进行池化，得到池化后的稀疏描述。

其中，所述将输入的图像分割成具有固定大小的图像块并且按图像块空间位置分组，利用组稀疏编码获得每个组的图像块的稀疏描述具体为：

1)沿水平和垂直方向将图像分割为N个固定大小的图像块，并将图像块转化为一维向量；按照图像块空间位置，将水平和垂直方向上邻近的N/M个块分为一组，共分为M个组；

2)对于集合中的每一个组，根据组稀疏编码字典，依次对组进行稀疏编码。

其中，所述依次对组进行稀疏编码具体为：

式中，重构矩阵由向量组成，其中R表示实数空间；为与α_j维数相同的矢量；λ,β为常数；集合G称为组；|G|表示组中的图块向量数目，其值为N/M；为向量α_j的第i个元素；d_j为组稀疏编码字典中的第j(1≤j≤K)个原子，K表示字典原子个数，本发明实施例并不限制具体的字典生成方法及其原子个数。

其中，所述对各个组的稀疏描述进行池化，得到池化后的稀疏描述具体为：

将每个组的稀疏描述中的K个向量都求平均值，得到的平均向量作为池化结果；将池化结果作为该组的稀疏描述。

其中，所述将获得的稀疏描述再次按对应图像块空间位置分组，利用组稀疏编码获得每个组的稀疏描述具体为：

1)根据每个组对应图像的位置，将前一步池化得到的稀疏描述再次根据空间位置，将相近的M/M₂个稀疏描述分为一组；

2)对于集合中的每一个组，根据组稀疏编码字典，依次进行稀疏编码，得到每一组编码结果。

本发明提供的技术方案的有益效果是：本发明通过对图像进行多层组稀疏编码生成图像特征，具有如下的有益效果：

1、稀疏编码能够以最稀疏的方式对图像进行描述，由此可保证特征的摘要性，有利于降低图像识别的复杂度以及特征存储空间；

2、分组稀疏编码能够反映出图像空间上变化慢的特征，由此保证了图像特征的鲁棒性；

3、分层的结构，模拟了人眼的视觉特征，使图像特征能反映出更大尺寸上的空间信息；

4、本发明程序简单，易于实现，所述的特征编码过程计算复杂度低。

附图说明

图1为对图像特征矢量进行编码的流程图；

图2为对图像特征矢量进行编码的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

为了实现对图像内容的简要且鲁棒的描述，本发明实施例提出了一种用于图像内容识别的特征编码方法，参见图1和图2，详见下文描述：

101：将输入的图像分割成具有固定大小的图像块，并且按图像块空间位置分组，利用组稀疏编码获得每个组的图像块的稀疏描述；

其中，该步骤具体为：

1)沿水平和垂直方向将图像分割为N个固定大小的图像块，并将图像块转化为n个一维向量，该向量的元素数为n，x_i(i＝1,2,…,N)。按照图像块空间位置，将水平和垂直方向上邻近的N/M个图像块分为一组，共分为M个组，G_m为第m个组；x_m,i为第m个组中的第i个图块对应的一维向量。

其中，M和N的具体取值根据实际应用中的需要进行设定，本发明实施例对此不做限制。

2)对于集合中的每一个组G_m(m＝1,2,...M)，根据组稀疏编码字典依次对G_m进行稀疏编码；R为实数空间；

其中，d₁,…,d_K为字典中的K个原子，每个原子的维数与图像块x的维数相同，均为n。本发明实施例并不限制具体的字典生成方法及其原子个数。通过求解如下问题实现对其中一个组G的稀疏编码：

A＝argmin_A Q(A,G,D)

其中

式中，重构矩阵由向量组成；λ,β为常数；G为组；|G|表示组中的图块向量数目；α_j表示d_j对组内每个块的贡献值；d_j为组稀疏编码字典中的第j个原子；为当前组的第i个图块向量对应第j个字典原子的系数；为与α_j维数相同的矢量，各维值相同，为矢量α_j内所有元素的平均值；参数λ,β为各项的权重；||·||表示2-范数；A为当前组的系数矩阵。本发明实施例并不限制式(3)的求解方法及参数λ,β的选择。

102：对各个组的稀疏描述进行池化，得到池化后的稀疏描述：

其中，该步骤具体为：

在每个组的稀疏描述中，对每个向量α_m,j求其元素平均值，即该平均值为d_j对该组的平均贡献值，A_m经过池化后得到的向量作为该组的稀疏描述，从而所有M个组得到M个组成矩阵

103：将获得的稀疏描述再次按对应图像块空间位置分组，利用组稀疏编码获得每个组的稀疏描述：

该步骤具体为：

1)根据每个组对应图像的位置，将步骤102池化得到的稀疏描述再次根据空间位置，将相近的M/M₂个稀疏描述分为一组，共M₂个组

2)对于集合中的每一个组根据组稀疏编码字典依次对进行稀疏编码，编码方法和步骤101中的编码方法相同，得到每一组编码结果

104：再次对各个组的稀疏描述进行池化，得到池化后的稀疏描述。

其中，该步骤中的池化方法与步骤102中的池化方法相同。

综上所述，本发明实施例从图像中学习慢变特征，该特征可以反映图片在空间上变化慢的重要信息，反映各个尺度的内在特征，同时具有良好的鲁棒性和区分性，据此可应用于目标识别或者图像和视频的搜索等领域。

实施例2

下面以一幅图像为例，结合具体的计算公式对实施例1中的方案进行详细介绍，详细说明本发明实施例提供的提取特征的方法，详见下文描述：

201：预处理；

其中，将输入图像归一化至标准尺寸512×512，并通过均值滤波。

202：对图像分块并分组；

其中，将512×512分为4096个尺寸为16×16的图像块，并按每相邻的4×4个块为一组，将1024个图像块分为256个组，每个组G_m(m＝1,2,...256)中有16个图像块x_i(i＝1,2,…,16)。

203：对每图像块进行组稀疏编码；

对于所有组G_m(m＝1,2,...256)中的一个组G，含有16个图像块x_i(i＝1,2,…,16)，预先生成包含64个原子的稀疏编码字典D＝[d₁,…,d₆₄]。

其中，本发明实施例中字典D由文献[3]中所述的字典学习算法生成，按照步骤201和步骤202所述的方法从100幅训练图像中抽取个1600个图像块，以此作为字典学习的训练矢量，生成64个维数为256的原子，最终将每个原子归一化为零均值。通过求解如下问题实现对每个组的组稀疏编码，以G_m为例：

其中

式中，由向量组成，为组G_m的稀疏描述，常数λ＝0.1为约束稀疏描述稀疏性的权重，β＝10为约束同组图像块对应的稀疏描述相似的权重。

本发明实施例通过坐标下降法求解式(4)，针对每个组G_m，式(4)的求解方法包含如下具体步骤：

1)计算代价函数Q对于稀疏描述A_m中的一个行向量α_r的梯度：

[(||d_r||²+λ+β)E-βI]α_r-u

其中

其中，d_r为第r个字典原子；α_r为稀疏描述A_m中的第r个行向量。

令梯度为0，解得α_r＝(S^TS)S^Tu其中S＝[(||d_r||²+λ+β)E-βI]，其中，E为单位矩阵，I为全1矩阵；T为转置。

2)重复步骤1)，计算下一个行向量α_j+1直到得到A_m。

其中，迭代次数根据实际需要选择，本发明实施例对此不做限制。

204：对步骤203的编码结果池化，并且再次分组：

在步骤203中，每个组G_m得到的编码结果为矩阵A_m，对A_m的每个列向量α_j求其元素平均值，即每个向量α_j求平均值得到的值组成新的1×64的行向量作为该组的稀疏描述。共256组，池化完稀疏描述为256×64的矩阵。再根据每个行向量对应图片的位置，将相邻的2×2个稀疏描述的行向量分为一组，共16组。

205：对每组稀疏描述进行组稀疏编码：

对于每个组G_m(m＝1,2,...64)，含有4个图像块x_i(i＝1,2,…,4)，预先生成包含16个原子的稀疏编码字典此步中字典生成方法与步骤203中字典生成方法相同，按照步骤201、202和步骤203所述的方法从100幅训练图像中训练出25600个第一层稀疏描述矢量，以此作为字典学习的训练矢量，生成16个维数为64的原子，最终将每个原子归一化为零均值。通过求解如下问题实现对每个组的组稀疏编码，以G_m为例：

其中

式中，由向量组成，为组G_m的稀疏描述，常数λ＝0.1为约束稀疏描述稀疏性的正则化参数，β＝10为约束同组图像块对应的稀疏描述相似的正则化参数。针对每个组G_m，式(5)的求解方法与步骤203相同。

206：对步骤205的编码结果池化。

在步骤205中，每个组G_m得到的编码结果为矩阵A_m，对A_m的每个列向量α_j求其元素平均值，即每个向量α_j求平均值得到的值组成新的1×16的行向量作为该组的稀疏描述。共64组，池化完稀疏描述为64×16的矩阵。将矩阵转化为1024维的矢量，作为最终特征。

实施例3

下面结合具体的实验数据，对实施例1和2中的方案进行可行性验证，详见下文描述：

在上述实施例2中，将300张原始图片，每张图片加上8种失真，每种失真选取不同的失真程度。这8种失真分别为：JPEG有损压缩，压缩等级1到95；加入高斯噪声，方差范围为从0.01到0.36；旋转，旋转角度从1到10度；中值滤波，窗口大小从2到20；直方图均衡化，灰度级个数从8到224；伽马校正，伽马值从0.55到1.45；添加散斑噪声，方差从0.01到0.3；循环滤波，半径从0.1到3。共20100张失真图像。对每张失真图片和300张原始图片使用本方法生成1024维的慢变特征，并根据慢变特征生成哈希码。根据哈希码，查询每张失真图片的原始版本，统计查询结果是否正确。根据准确率P：查询结果正确的正例数据占预测为正例数据的比例；召回率R：查询结果为正例的数据占实际为正例数据的比例。

计算F1指标：F1＝2/(1/P+1/R)＝2×P×R/P+R，其结果是F₁指标为0.995，接近于理想值1。可知所学习图像特征具有很强的鲁棒性。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于组稀疏编码的图像特征学习方法，其特征在于，所述方法包括以下步骤：

对各个组的稀疏描述进行池化，得到池化后的稀疏描述；

2.根据权利要求1所述的一种基于组稀疏编码的图像特征学习方法，其特征在于，所述将输入的图像分割成具有固定大小的图像块并且按图像块空间位置分组，利用组稀疏编码获得每个组的图像块的稀疏描述具体为：

3.根据权利要求2所述的一种基于组稀疏编码的图像特征学习方法，其特征在于，所述依次对组进行稀疏编码具体为：

\begin{matrix} A = \arg \min_{A} Q (A, G, D) \\ Q (A, G, D) = \frac{1}{2} Σ_{i &Element; G} | | x_{i} - Σ_{j = 1}^{K} α_{j}^{i} d_{j} | |^{2} + {λΣ}_{j = 1}^{K} | | α_{j} | |^{2} + {βΣ}_{j = 1}^{K} | | α_{j} - \overset{&OverBar;}{α_{j}} | |^{2} \end{matrix} - - - (1)

4.根据权利要求1所述的一种基于组稀疏编码的图像特征学习方法，其特征在于，方法，所述对各个组的稀疏描述进行池化，得到池化后的稀疏描述具体为：

5.根据权利要求1所述的一种基于组稀疏编码的图像特征学习方法，其特征在于，方法，所述将获得的稀疏描述再次按对应图像块空间位置分组，利用组稀疏编码获得每个组的稀疏描述具体为：