CN104361363B

CN104361363B - 深度反卷积特征学习网络、生成方法及图像分类方法

Info

Publication number: CN104361363B
Application number: CN201410687304.XA
Authority: CN
Inventors: 卢汉清; 刘炳源; 刘静
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-11-25
Filing date: 2014-11-25
Publication date: 2018-01-16
Anticipated expiration: 2034-11-25
Also published as: CN104361363A

Abstract

本发明公开了一种深度反卷积特征学习网络的生成方法，包括：采用非监督的方式预训练一个多层的反卷积特征学习网络模型；以及用物体检测信息自上而下对所述学习网络模型进行微调。以及一种由此生成的深度反卷积特征学习网络和图像分类方法。本发明的方法在深度特征学习模型中引入非负稀疏性约束，增强了特征的判别力，提高了图像分类的准确率；将物体检测信息作为自上而下的高层指导信息对预训练后的网络进行细调，使得网络中不同节点对输入的图像结构具有较强选择性，尤其是最高层的节点对不同物体类别有不同响应，得到的高层特征有了明显的语义涵义，同时提高了图像分类的准确率。

Description

深度反卷积特征学习网络、生成方法及图像分类方法

技术领域

本发明涉及机器学习领域，更具体地，涉及一种深度反卷积特征学习网络、生成方法及图像分类方法。

背景技术

在计算机视觉中，如何构造好的图像特征一直是一个关键又极有挑战性的问题，特征的质量直接决定整个计算机视觉系统的性能，如图像识别、图像检索和行人检测等。一些人工设计的图像描述子的提出(如SIFT和HOG)取得了很大的成功，虽然这些人工设计的特征可以很好的利用人类对图像的理解和先验知识，但它的性能依赖于特定任务而且不能表征复杂图像的中层和高层结构。

近些年，很多研究工作试图构造深度网络用于图像特征学习。这些深度网络体现了人类视觉系统的层级性，自动地从图像数据中学习提取图像特征，但是这些模型缺乏很好的判别选择性和一些高层信息的指导，学习到的特征在自然图像的识别任务中难以得到很好的性能。

发明内容

鉴于现有深度特征学习网络中的缺点，本发明的目的之一在于提出一种深度反卷积特征学习网络及其生成方法，以提高图像分类的准确性。

为了实现上述目的，作为本发明的一个方面，本发明提供了一种深度反卷积特征学习网络的生成方法，包括以下步骤：

预训练一个多层的反卷积特征学习网络模型；以及

用物体检测信息自上而下对所述学习网络模型进行微调，从而得到所述深度反卷积特征学习网络。

其中，所述预训练一个多层的反卷积特征学习网络模型的步骤采用的是非监督的方式，以及所述多层的反卷积特征学习网络模型的每一层包含两种操作，分别为非负卷积稀疏编码和最大值抽取。

其中，每一层可将输入图像分解为一组2维特征图和相应滤波器的卷积和。

其中，所述将输入图像分解为卷积和的步骤还包括对所述卷积和进行优化的步骤，优化目标为最小化重构误差的同时最小化稀疏正则项，并满足非负约束。

其中，所述用物体检测信息自上而下对网络进行微调的步骤包括：

采用物体检测器对训练图像集进行检测得到物体训练集合，在微调过程中令最高层的网络单元分别响应不同物体类别的图像，同时对下层网络结构也进行自上而下的微调。

其中，所述对下层网络结构进行自上而下的微调的步骤为：

最高层的每一个特征提取单元和某一种物体类别对应，优化的目标是最小化每一个重构单元和相应物体原图像的重构误差，该误差可以自上而下的推演到每一层的节点，由此进行自上而下的网络参数更新和调整。

其中，所述对下层网络结构进行自上而下的微调的步骤中采用ISTA算法进行优化更新。

作为本发明的另一个方面，本发明还提供了一种根据如上任意一项所述的深度反卷积特征学习网络的生成方法生成的深度反卷积特征学习网络。

作为本发明的再一个方面，本发明还提供了一种图像分类方法，包括以下步骤：

将根据如上所述的深度反卷积特征学习网络与空间金字塔匹配模型SPM融合，对待分类图像进行分类。

其中，所述将深度反卷积特征学习网络与空间金字塔匹配模型融合的步骤包括：

从所述深度反卷积特征学习网络得到的特征图上抽取局部特征，代替标准空间金字塔匹配模型中的SIFT特征输入到所述空间金字塔匹配模型中进行相应运算，从而实现对所述待分类图像的分类。

其中，所述抽取局部特征的步骤为：输入待分类图像到训练好的所述深度反卷积特征学习网络中，获得从底层到高层的一组特征图，对于某一层中的特征图，首先抽取每个特征图内的最大值，并用重构操作将其分别重构到输入层，得到一组重构图，然后分别利用每个所述重构图对应到第一层的响应作为所述空间金字塔匹配模型的输入，从而可以构建若干个空间金字塔图像特征，取这若干个所述空间金字塔图像特征的平均值作为图像的最终描述，并将其作为SVM分类器的输入。

基于上述技术方案可知，本发明在深度特征学习模型中引入非负稀疏性约束，使得学习得到的特征具有非负稀疏性质，更适合于表征图像结构，同时增强了特征的判别力，提高了图像分类的准确率；本发明将物体检测信息作为一种自上而下的高层指导信息对预训练后的网络进行细调，充分融合了数据驱动和知识驱动，使得网络中的不同节点对输入的图像结构具有了较强的选择性，尤其是最高层的节点对不同的物体类别有不同的响应，得到的高层特征有了明显的语义涵义，同时提高了图像分类的准确率；本发明还解决了如何将深度特征学习与空间金字塔匹配模型结合完成图像分类任务的问题，既利用了特征学习模型提取图像特征又采用了最有效的图像分类模型，提高了图像分类的性能。

附图说明

图1是单层反卷积网络结构的示意图；

图2是本发明的多层反卷积网络结构的示意图；

图3是在Caltech101数据集上训练得到的4层的反卷积网络中每一层滤波器的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

在计算机视觉中，如何构造好的图像特征一直是一个核心并极有挑战性的问题。图像特征的优劣直接影响很多计算机视觉系统的性能，如图像识别、图像检测和视频监控等。一些人工设计的图像描述子的提出(如SIFT和HOG)取得了很大的成功，虽然这些人工设计的特征可以很好的利用人类智慧和先验知识，但它的性能依赖于特点任务而且不能表征复杂图像的中层和高层结构。

基于上述问题，本发明提出了一种层级反卷积特征学习网络，并将其应用到了图像分类任务中，该方法包括反卷积网络的非监督预训练、融合物体检测的网络细调，以及融合空间金字塔匹配模型的图像分类三个步骤，具体步骤如下所示：

首先，本发明采用非监督的方式预训练一个多层的反卷积特征学习网络模型，其中每一层包含两种操作，分别为非负卷积稀疏编码和最大值抽取。输入一幅二维特征图像，每一层模型将其分解为一组2维特征图和相应滤波器的卷积和，优化目标是最小化重构误差的同时最小化稀疏正则项和满足非负约束。之后，对得到的特征图实施一个作用在图像内部和相邻特征图之间的最大值抽取操作，降低特征图的分辨率，作为更高层的输入。

然后，在得到了一个预训练后的网络基础上，用物体检测信息自上而下对网络进行微调。采用物体检测器对训练图像集进行检测得到物体训练集合，在微调过程中令最高层的网络单元分别响应不同物体类别的图像，同时对下层网络结构也进行自上而下的微调。微调后的网络具有了很强的选择性，对图像中的不同结构有不同的响应，得到的特征有很强的判别性。

最后，将图像输入训练好的模型后，可以得到图像的多层次特征，包括底层的边缘结构、中层的边缘连接和高层的物体结构信息。本发明将得到的图像特征代替SIFT特征，并与空间金字塔匹配模型相结合，进行图像分类任务。

更具体地，本发明提出了一个物体检测指导的深度反卷积特征学习网络，包括反卷积网络的非监督预训练、融合物体检测的网络微调和融合空间金字塔匹配模型的图像分类三个步骤，下面从这三个部分对本发明作进一步详细地解释和说明。

一、多层反卷积网络的非监督预训练

单层反卷积网络结构

如图1所示，单层反卷积网络包含两步运算，非负卷积稀疏编码(即反卷积)和最大值抽取操作。输入一幅图像y，其中包含了N₀个通道该模型将每个通道分解为一组二维特征图和一组滤波器的卷积和。本发明通过在目标函数中加入关于特征图的l₁正则项同时强制要求不小于0的方式，在模型中引入了非负稀疏约束，使得系统能得到稳定解同时让学到的特征具有非负稀疏性质，提升了特征的表达力和判别性，还对模型学习起了约束作用，防止过拟合现象。单层反卷积网络的优化目标包含重构误差和l₁范数两项：

其中，y_c对应输入图像y的第c个通道，表示第一层中第i个特征图，对应第一层中第i个特征图和第c个输入通道的滤波器。超参数λ₁用于平衡重构误差项和l₁正则项，即λ₁越小得到的特征越稀疏，重构误差越大。

在反卷积后，对得到的特征图x¹实施一个三维的最大值抽取运算。这里的最大值抽取运算是三维的，因为它不仅发生在特征图内部也在相邻的几个特征图之间。在3维最大值抽取操作中，首先将输入图像划分为没有交叉区域的网格，然后只保留每个网格中最大像素点的像素值和位置，去掉其他像素点。最大值抽取运算可以增加模型的一些旋转和平移不变形，减少模型的复杂度，同时利于高层网络学习图像的更高层结构。分别用h和s表示经过这一操作后输出的特征图和最大值位置，则三维最大值抽取操作可记为：

[h，s]＝P(x)

三维最大值抽取是一个非线性运算，但当位置s固定后就成为了线性运算。它的反运算即将h放入位置s中，而其余位置的像素值都设为0。

在优化学习过程中的重构操作里，需要定义三维最大值抽取的逆运算，即将h中的元素按照记录的位置s恢复到x中而将x中剩余的元素置为0。当位置s固定后，这一运算也是一个线性操作，将其标记为：

构造多层反卷积网络

利用上文描述的单层结构，可以很容易的通过将单层网络级联的方式构造深度网络，即如图2所示，令第l层的输出h¹作为第l+1层的输入。其中，每一层的模型结构是相同的，但每一层的特征图像的数目设置是不同的。通过当前层和下层的滤波器可以对高层特征图像进行重构，记第l层的重构图像为在优化高层参数时，优化目标并不是最小化当前层的输入误差，而是最小化相对于原始输入像素的误差。由此，第l层的损失函数为：

其中，为第l层中的第i个特征图，y为输入的原始图像。为用第l层的特征图像自上而下经过交替的卷积和反向最大值抽取操作重构得到的重构图，将这样的重构操作定义为R¹：

其中，F¹表示第l层的卷积运算，表示第l层的反向最大值抽取运算。

多层反卷积网络的预训练

本发明先对这样的一个多层反卷积网络进行预训练，在预训练中采用了非监督的训练方式，即只根据训练图像集合进行模型的训练而没有包括任何语义信息。对于一个多层网络，如何有效的进行优化训练是非常重要的。在预训练的过程中，自下而上的逐层对模型进行更新。在每一层的目标函数中包含两个变量，即特征图像x和滤波器系数f，本发明采用了固定其中一个求解另一个的迭代更新策略。

首先固定滤波器系数f优化x，这里采用了一种非常高效率的算法ISTA(具体内容例如参见A.Beck and M.Teboulle.A fast iterative shrinkage-thresholdingalgorithm for linear inverse problems.SIAM Journal onImagingSciences，2(1)：183-202，2009)进行优化更新。在ISTA算法中的每次迭代里包含两步，即梯度下降和压缩。在梯度下降中，需要首先计算出优化目标函数中重构误差项关于特征图x的梯度：

其中，y表示原始输入的训练图像，x¹表示第l层的特征图，R¹表示从第l层到输入层的重构运算。从另一个角度看，此公式中首先将第l层特征图重构到输入空间计算重构误差，然后将此输入误差通过前向传播得到当前层的梯度。得到第l层的梯度后，通过梯度下降的方式更新特征图，更新公式为：

其中，β₁表示梯度下降的步长。经过梯度下降后，实施一个针对每个元素的压缩操作将小的元素压缩为0，增加它的稀疏性，即：

注意到这个公式还将解映射到非负空间，从而满足非负性。一次ISTA迭代就包含梯度下降和压缩两步。通常需要若干次迭代来得到一个稳定的解。

然后固定x更新滤波器系数f，本发明采用了共轭梯度下降算法更新f。在对第l层的滤波器f进行更新前，首先需要计算目标函数关于f的偏导数，计算公式如下：

此公式表明，梯度值是两项的卷积值，其中左边一项的函数是将重构误差前向传播到第l-1层的值，为第l-1层的最大值抽取操作，R¹为第l层到输入层的重构运算，而右项是第l层的特征图。得到梯度值后，就可根据线性共轭梯度下降法来对滤波器进行更新。

由于本模型在每层的梯度值可以并行的通过层级迭代求得，因而以上所述的优化算法都可以通过并行化高效实现。注意到滤波器系数f是模型参数，即对于所有输入图像都是相同的，而特征图像x是和每一个输入图像相对应的。

二、物体检测指导的网络结构细调

在用非监督的方式对网络进行预训练之后，用一组物体检测器作为自上而下的指导对整个网络进行微调。首先，用已有的不同类别的物体检测子对训练集中的每幅图像进行物体检测，然后根据检测到的物体位置框将图像分解，即分别保留检测到的每个类别物体区域内的像素而将区域外的像素值设为0，如图2所示，最终得到包含物体类别信息的物体图像训练集合。假设物体类别数目为M，则物体检测器的数目也为M。对于一幅图像y，分别施以M个类别检测子可以对相应类别的物体位置进行预测，然后通过保留预测框内物体像素而将框外像素置0的方式得到M个物体图。此外，还增加了一个不包含任何物体的背景图，因为背景信息对于理解一幅图像也是非常重要的。这样M+1个物体图像记为0＝{o₁，o₂，...，o_M+1}，其中M为数据库中物体类别数目。对于一组物体图像，只有很小的一部分是非零的，因为在一幅图像中包含的物体类别是很有限的。

在本发明中，细调的目的是提升网络的选择性，即希望不同的网络节点响应不同的结构，尤其是使得最高层的滤波器单元具有较高的语义选择性，即只响应某一种类别的物体而不响应其他类别。在本发明的反卷积模型中体现在将每一个或者一组滤波单元提取的特征图重构到输入层时，只重构图像中某一个类别的物体，而其他物体的重构图像接近于0，据此本发明构造了重构时的优化目标函数。将最高层L的滤波器分为M+1组，其中每一组对应某一个物体类别，第M+1组响应不包含任何物体的背景，相应的重构图记为由此物体检测指导下的网络微调的目标函数为：

其中，表示输入训练图像对应的第m类物体图，表示第m组特征图重构到输入层得到的重构图，表示顶层L层的第i个特征图。

注意到这个表达式与非监督预训练的表达式在形式上是完全一致的，因此在对这个目标进行优化中，依然可以通过迭代的ISTA算法和共轭梯度下降算法分别对特征图像和滤波器系数进行更新。所不同的是预训练中是自下而上的方式，而在微调中是自上而下的逐层更新。在用共轭梯度下降法对滤波器进行更新过程中，目标函数关于每一层滤波器的偏导数为：

其中第一个公式为目标函数关于最高层L层中滤波器的偏导数，为第L-1层的最大值抽取操作，R^L-1表示第L-1层到输入层的重构操作。第二个公式为目标函数关于第l层中滤波器的梯度，它是所有物体类别重构误差前向传播至第l层的值与将最高层向下重构至第l层的重构图的卷积。经过自上而下的指导后，整个反卷积网络具有了更强的选择性和判别力。

三、基于反卷积网络的图像分类

得到了训练好的网络后，将一幅图像输入到网络中就可以得到该图像对应的层级特征图表示，预测过程是完全非监督的，不需要任何物体检测器。为了进行图像分类，本发明将反卷积网络与一种有效的图像分类的监督模型结合，即空间金字塔匹配模型SPM(具体内容例如参见S.Lazebnik，C.Schmid，and J.Ponce.Beyond bags of features：Spatialpyramid matching for recognizing natural scene categories.In CVPR，2006.)。

在实施过程中，在通过反卷积网络得到的特征图上抽取局部特征，代替标准空间金字塔匹配模型中的SIFT特征输入到SPM分类模型中。因为每一副图像的最大位置记录是不同的，所以高层的特征图无法直接比较，由此本发明提出了一种新的特征提取方法。输入图像到训练好的反卷积网络中，获得从底层到高层的一组特征图，对于某一层中的特征图，首先抽取每个特征图内的最大值，并用重构操作R¹将其分别重构到输入层，得到一组重构图然后，本发明分别利用每个重构图对应到第一层的响应作为SPM的输入，因为第一层得到的特征非常类似于SIFT特征。因而可以构建N₁个空间金字塔图像特征，取这个N₁个特征的平均值作为图像的最终描述。此图像描述可以作为SPM模型中的SVM分类器的输入，完成最终的图像分类。

四、实验验证

在公开图像数据集Caltech-101上对本发明进行验证。Caltech-101数据集中总共有101个类别共9144副图像，其中每个类别中的图像数目为31到800不等。从每类中随机选取30副图像做训练，其余的做测试。采用本发明的方法训练了一个4层的反卷积网络，在网络结构微调过程中，让第4层的前101个特征图分别对应101个类别而让其余的49个图像响应背景。图3展示了学习得到的每一层的滤波器，可以看到得到的网络有效地抓取到了图像层级性的结构信息，从底层的边缘到中层的几何结构和高层的物体结构。最高层，即第4层中的滤波器明显的具有不同的语义信息，即不同的滤波器响应不同类别的物体。将每一层学习得到的图像特征结合起来训练一个SVM分类器进行分类测试，最终的分类准确率为77.3％，高于传统的SIFT特征的分类准确度(SIFT特征的分类准确率为64.6％，参见S.Lazebnik，C.Schmid，and J.Ponce.Beyond bags of features：Spatial pyramidmatching for recognizing natural scene categories.In CVPR，2006.)，此实验验证了通过本发明得到的特征具有更好的判别性，更适合于图像分类等判别性任务。

由此可见，本发明通过一个深度网络自动而有效地学习从底层到高层的图像特征，网络训练中既有自下而上的非监督学习也有高层语义指导下的微调，其中非监督学习中融入了非负稀疏性，而微调过程中融入了物体检测信息，使学到的特征具有很强的判别力。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种深度反卷积特征学习网络的生成方法，包括以下步骤：

预训练一个多层的反卷积特征学习网络模型；以及

用物体检测信息自上而下对所述学习网络模型进行微调，从而得到所述深度反卷积特征学习网络；其中所述用物体检测信息自上而下对网络进行微调的步骤包括：

采用物体检测器对训练图像集进行检测得到物体训练集合，在微调过程中令最高层的网络单元分别响应不同物体类别的图像，同时对下层网络结构也进行自上而下的微调；其中所述对下层网络结构进行自上而下的微调的步骤为：

最高层的每一个特征提取单元和某一种物体类别对应，优化的目标是最小化每一个重构单元和相应物体原图像的重构误差，该误差自上而下的推演到每一层的节点，由此进行自上而下的网络参数更新和调整。

2.根据权利要求1所述的深度反卷积特征学习网络的生成方法，其中所述预训练一个多层的反卷积特征学习网络模型的步骤采用的是非监督的方式，以及所述多层的反卷积特征学习网络模型的每一层包含两种操作，分别为非负卷积稀疏编码和最大值抽取。

3.根据权利要求2所述的深度反卷积特征学习网络的生成方法，其中每一层将输入图像分解为一组2维特征图和相应滤波器的卷积和。

4.根据权利要求3所述的深度反卷积特征学习网络的生成方法，其中所述将输入图像分解为卷积和的步骤还包括对所述卷积和进行优化的步骤，优化目标为最小化重构误差的同时最小化稀疏正则项，并满足非负约束。

5.一种根据如权利要求1至4任意一项所述的深度反卷积特征学习网络的生成方法生成的深度反卷积特征学习网络。

6.一种图像分类方法，包括以下步骤：

将根据如权利要求5所述的深度反卷积特征学习网络与空间金字塔匹配模型SPM融合，对待分类图像进行分类。

7.根据权利要求6所述的图像分类方法，其中所述将深度反卷积特征学习网络与空间金字塔匹配模型融合的步骤包括：

8.根据权利要求7所述的图像分类方法，其中所述抽取局部特征的步骤为：输入待分类图像到训练好的所述深度反卷积特征学习网络中，获得从底层到高层的一组特征图，对于某一层中的特征图，首先抽取每个特征图内的最大值，并用重构操作将其分别重构到输入层，得到一组重构图，然后分别利用每个所述重构图对应到第一层的响应作为所述空间金字塔匹配模型的输入，从而构建若干个空间金字塔图像特征，取这若干个所述空间金字塔图像特征的平均值作为图像的最终描述，并将其作为SVM分类器的输入。