CN106203354A

CN106203354A - 基于混合深度结构的场景识别方法

Info

Publication number: CN106203354A
Application number: CN201610554626.6A
Authority: CN
Inventors: 胡昭华; 姜啸远; 钱坤; 王珏
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Maxine software technology Nanjing Co.,Ltd.
Priority date: 2016-07-14
Filing date: 2016-07-14
Publication date: 2016-12-07
Anticipated expiration: 2036-07-14
Also published as: CN106203354B

Abstract

本发明公开了一种基于混合深度结构的场景识别方法。改进先前混合深度识别框架，运用到场景识别的任务中，使用深度自编码器自动提取局部图像块特征代替传统混合深度网络的局部特征提取层，得到图像块高级局部特征。同时引入空间信息改进场景识别的局部特征编码层，最后使用深度判别网络识别场景，完善混合深度混合场景识别框架，使改进的混合深度场景在形式上和识别准确率上接近卷积神经网络的，计算效率上高于深度卷积神经网络。此外针对场景数据类内差异性和类间相似性有选择扩充场景数据，构建鲁棒性高，适应小数据集的深度混合场景识别模型。

Description

基于混合深度结构的场景识别方法

技术领域

涉及图像处理和计算机视觉领域，特别是一种基于混合深度结构的场景识别方法。

背景技术

场景识别是计算机视觉领域重要研究方向。场景识别技术，即计算机对采集的图像自动判别场景类别，有助于加深计算机对场景理解，辅助计算机做出其他决策，该技术在机器人控制，遥感图像处理，智能监控等领域有着广泛应用。针对场景识别技术难点，国内外研究学者提出了许多先进算法。

最近，由于计算机技术发展，深度学习技术在计算机视觉领域取得巨大成功。监督类深度学习网络由多层非线性网络构成，通过最小化网络输出与真实标签损失值，反向传播调整网络参数。能从低级特征，甚至像素级特征，自动学习高级特征。近几年提出了很多深层监督学习框架，尤其是卷积神经网络CNN(Convolutional Neural Network)，在图片识别领域取得较好的效果，超过传统方法，例如AlexNet，GoogLeNet，VGGNet等，但是这类端到端的方法需要大量标签数据。此外，深度学习输入数据多，数据维度大，网络层数多，节点多，训练和测试阶段需要大量计算资源和时间。

混合网络架构是最近计算机视觉领域的常见方法，一般是由图片的高级编码和深度分类器组合构成，权衡了识别准确率和效率的矛盾，已经应用到图片识别，动作识别等领域。Perronnin等(Florent Perronnin,Diane Larlus,Fisher Vectors Meet NeuralNetworks:A Hybrid Classification Architecture.CVPR,Boston,USA,7-12June,2015)验证了Fisher编码和深度网络混合判别能和CNN深度学习取得类似的准确率，而且不需要大量计算资源。Perronnin将混合网络结构分为三层：第一层是图片中图像块局部特征提取，比如局部块SIFT特征，LCS(Local Color Statistics)；第二层是基于局部特征对图片Fisher编码，是非监督层。尽管Fisher编码和CNN的卷积层形式上大相径庭，但是Simonyan和Sydorov[14][20]指出Fisher编码与CNN卷积层都是一系列对图片线性和非线性处理，两者有很强的相关性；第三层把降维后的Fisher编码作为深度置信网络输入，深度置信网络输出是图片对应各类别概率，是监督层。该方法在物体识别上取得很好效果，但是混合识别网络局部特征提取层使用的是传统SIFT特征，缺乏判别能力，而且没有考虑到局部特征的空间位置。此外场景图片每类数据量不足，应用该方法需要扩充数据集，避免过拟合。

先前有很多用重构自编码网络去学习局部图像块特征的研究。Cheng等人用单层自编码去学习图像块的中级别特征，继而构建有判别力的字典。Lee和Sohn等人分别用堆栈的卷积置信网络提取人脸和物体特征，Geng等人训练堆栈卷积自编码器对遥感图像局部图像块逐个分类，继而实现对整幅遥感图片中陆地，河流，森林，建筑物等标注。Geng采用两个级联的堆栈卷积自编码器，逐层训练网络参数，最后通过监督的方式去微调网络，但是堆栈结构不能整体重构输入信息。此外，对局部图像块自编码时，局部图像块是没有标签的，需要一种改进深度卷积自编码器去提取场景图像块局部特征。

为了解决数据量不足问题，除了收集更多数据，基于已有数据扩充已有数据也是常见的方法。图像深度识别中从原始图像的四个角落和中间位置分别提取固定大小的子区域，作为新的训练图片。这样图片数据规模可以扩充五倍。手写字识别中对手写字图片局部多次仿射变换组合成新手写图片，引进人为干扰，生成新的训练图片提高识别鲁棒性。

场景识别的任务中，仍然没有一种识别方法计算效率高，构建鲁棒性高，且适应小数据集的深度混合场景识别模型；本发明解决这样的问题。

发明内容

为解决现有技术的不足，本发明的目的在于改进先前混合深度识别框架，运用到场景识别的任务中，使用深度自编码器自动提取局部图像块特征代替传统混合深度网络的局部特征提取层，得到图像块高级局部特征。同时引入空间信息改进场景识别的局部特征编码层，最后使用深度判别网络识别场景，完善混合深度混合场景识别框架，使改进的混合深度场景在形式上和识别准确率上接近卷积神经网络的，计算效率上高于深度卷积神经网络。此外针对场景数据类内差异性和类间相似性有选择扩充场景数据，构建鲁棒性高，适应小数据集的深度混合场景识别模型。

为了实现上述目标，本发明采用如下的技术方案：

基于混合深度结构的场景识别方法,包括如下步骤：

步骤一：在图片中随机抽取若干图像块后，对图像块标准化；

步骤二：从数据集中随机抽取若干图片，对每张图片抽取图像块，将图片块不计类别混合，归一化后分别训练两个深度直连卷积自编码器网络；

步骤三：深度直连卷积自编码特征提取，编码过程中的任一层都可视为特征层，特征层输出有多个特征映射矩阵，串联特征映射矩阵相同位置的值得到图像块的局部特征；

步骤四：将步骤三提取的局部特征对应图片中的位置，将其划分到各层级对应的子区域中，然后从金字塔基层向上依次对各自子区域内的深度直连自编码特征进行费舍尔编码，依次串联，再次PCA降维和标准化，得到空间金字塔费舍尔特征。

步骤五：将步骤四中得到表示费舍尔特征的图片，通过改变图片对应图像块的组成间接生成新数据，扩充场景数据集；

步骤六：采用深度网络对空间金字塔费舍尔特征分类，该深度判别网络包括全连接层和输出层，将步骤五得到的空间金字塔费舍尔编码作为第一层全连接层输入。

前述的基于混合深度结构的场景识别方法,步骤一中，图像块标准化的方式是图像块减去对应图片像素均值，然后对这些图像块整体归一化；

{I_{n 1}}^{'} = \frac{I_{n} - \overset{&OverBar;}{U} - I_{\min}}{I_{m a x} - I_{m i n}} - - - (1)

如公式(1)所示，其中I_n是第n个图像块归一化前的像素值，I_n1'是按照按像素值是原图片的像素均值，I_max,I_min分别是图像中像素最大值和最小值，基于该归一化方式后提取的局部特征对图片编码侧重反映图片的颜色统计特征。

前述的基于混合深度结构的场景识别方法,其特征在于，步骤一中，图像块标准化的方式是先对场景图片随机提取若干图像块，然后减去各图像块局部对应均值，各自完成归一化；

{I_{n 2}}^{'} = \frac{I_{n} - \overset{&OverBar;}{U_{n}} - {I^{n}}_{\min}}{{I^{n}}_{\max} - {I^{n}}_{\min}} - - - (2)

如公式(2)所示，其中I_n2'是按方式二标准化后的像素值，是第n个图像块对应的像素均值，Iⁿ _max,Iⁿ _min分别是第n个图像中像素最大值和最小值。

前述的基于混合深度结构的场景识别方法,步骤二具体包括：从数据集中随机抽取若干图片，对每张图片抽取图像块，将图片块不计类别混合，归一化后分别训练两个深度直连卷积自编码器网络；自编码器网络输入数据依次经过卷积层，池化层，卷积层，池化层，卷积层，解卷积层，上采样层，解卷积层，上采样层到达输出。在训练特征网络过程中一批次输入n个图像块，深度直连卷积自编码网络损失函数如公式(3)所示：

E (W, B) = \frac{1}{n} Σ_{L = 1}^{n} | | X_{L}^{i} - X_{L}^{o} | |_{2}^{2} = \frac{1}{n} Σ_{L = 1}^{n} | | X_{L}^{i} - f (W, B, X_{L}^{i}) | |_{2}^{2} - - - (3)

上式中的W，B是整个网络的卷积参数和偏置，在训练过程中使用随机梯度下降的优化策略实现整个网络的W，B更新，随机梯度下降模拟的是物体运动时的惯性，即更新的时候保留之前更新的方向，同时利用当前输入数据损失函数的梯度微调最终的更新方向，如公式(4)(5)所示：

W_{t + 1} = W_{t} + {μV}_{t} - α &dtri; E (W_{t}) - - - (4)

B_{t + 1} = B_{t} + {μU}_{t} - α &dtri; E (B_{t}) - - - (5)

其中W_t,B_t,W_t+1.B_t+1分别是第t批次图像块输入自编码器网络层后，初始和更新后的的权重和偏置，V_t,U_t是上一批输入更新的权重和偏置，是当前输入的损失函数对应W_t,B_t的梯度方向，μ是V_t,U_t的惯性系数，α当前输入批次参数梯度方向的系数，即学习率；在深度直连卷积自编码网络训练过程中，μ,α是初始化设定的，训练过程中不变。

前述的基于混合深度结构的场景识别方法,步骤四具体包括：金字塔费舍尔编码模型，先参考空间金字塔模型不同层对图片子区域的划分，根据图片提取的深度直连自编码特征对应图片中的位置，将其划分到各层级对应的子区域中，然后从金字塔基层向上依次对各自子区域内的深度直连自编码特征进行费舍尔编码，依次串联；将原场景图片作为金字塔基层，金字塔第二层将图片均分成2*2子区域，第三层将图片均分成子4*4区域，金字塔第n层将图片均分成2^n-1*2^n-1子区域；按照这样的区域划分方法，得到各层子区域中的DCCAE特征；接下来对不同子区域的DCCAE特征编码，若子区域中的深度自编码特征为X＝{x₁,x₂,...,x_M}，其中M是局部特征个数，假设局部特征是相互独立且分布均服从一个高斯混合模型，费舍尔编码本质是局部特征求取生成概率时，对其中高斯混合模型参数求偏导的过程，混合高斯模型参数为λ＝{ω_k,μ_k,σ_k,k＝1:K}，该模型包含K个单高斯模型，其中ω_k，μ_k，σ_k对应第k个高斯模型权重，均值和方差。其中x_i维度为D，对应费舍尔编码为Φ(X)＝{φ₁(X),φ₂(X),…,φ_K(X)}，维度2KD，φ_k(X)为第k个高斯分量对应的特征，如公式(7)所示：

φ_{k} (X) = [Σ_{i = 1}^{M} \frac{γ_{k} (x_{i})}{N \sqrt{ω_{k}}} (\frac{x_{i} - μ_{k}}{σ_{k}}), Σ_{i = 1}^{M} \frac{γ_{k} (x_{i})}{N \sqrt{2 ω_{k}}} (\frac{{(x_{i} - μ_{k})}^{2}}{σ_{k}^{2}} - 1)] - - - (7)

其中γ_k(x_i)是第i个局部特征对应第k个高斯成分概率。

前述的基于混合深度结构的场景识别方法,步骤六具体包括：采用深度网络对空间金字塔费舍尔特征分类，该深度判别网络包括全连接层和输出层，将步骤五得到的空间金字塔费舍尔编码作为第一层全连接层输入；通过卷积层，使用ReLU激励函数。输出层采用Softmax分类器，最后一层输入是x＝[x(1),x(2),…,x(E)]，其中E为最后一层输入维数；输出训练时，通过最小化输出各类概率与真实类别的交叉熵训练监督层参数，即最大化公式(8)：

L = Σ_{n = 1}^{N} Σ_{c = 1}^{C} y_{n, c} l o g ({\hat{y}}_{n, c}) = Σ_{n = 1}^{N} Σ_{c = 1}^{C} y_{n, c} l o g (f (X_{n}^{f}, W^{f}, B^{f})) - - - (8)

其中N为一批次输入样本数，C表示类别数，y_n,c＝1表示第n个样本的标签是c，反之y_n,c＝0；表示第n个样本c类的预测值，对应输出层x(c)，是第n个样本的金字塔费舍尔编码，也是深度判别网络的输入，W^f,B^f对应深度判别网络的权重和偏置参数；采用随机梯度下降的优化方法去更新网络参数，如公式(9)(10)所示：

W_{t + 1}^{f} = W_{t}^{f} + μ^{f} V_{t}^{f} - α^{f} &dtri; L (W_{t}^{f}) - - - (9)

B_{t + 1}^{f} = - B_{t}^{f} + μ^{f} U_{t}^{f} - α^{f} V L (- B_{t}^{f}) - - - (10)

其中W_t ^f,分别是第t批次数据输入深度判别网络后，初始和更新后的的权重和偏置，V_t ^f,是上一批输入更新的权重和偏置，是损失函数L对应W_t ^f,的梯度方向，μ^f是深度判别层的惯性系数，α^f是当前梯度方向的权重系数，即学习率，训练深度判别网络阶段，μ^f是初始设定不变的，α^f初始化后，随着迭代次数增加按比例减小。

本发明的有益之处在于：本发明提出的混合深度场景识别方法模型首先在混合识别的费舍尔编码层和判别层之前用深度直连自编码器作为图像局部特征提取层，完善了整个混合深度识别框架；采用直连非监督深度网络输出直接重构输入，能够提取更有判别性的中尺度局部特征；在费舍尔编码层引入金字塔空间信息，考虑局部特征空间分布；此外，通过改变场景图片对应局部图像块的构成实现场景数据扩充；引入图片所在类中出现概率低的图像块作为类内干扰加入原图像块中，减少类内差异误判；为了减少类间相似性影响，通过信息熵度量保留图片的类间相似的图像块，引入相似类中特有的关键图像块，替换原先类别相关的图像块，同时改变对应标签，突出关键图像块对相似类别判断的决定性。混合深度场景识别方法能有效提高场景识别的鲁棒性，为小数据集使用深度网络提供了解决方案。

具体实施方式

以下结合具体实施例对本发明作具体的介绍。

基于混合深度结构的场景识别方法,包括如下步骤：

步骤一：在每张场景图片中随机抽取400个图像块，可按照两种方式对图像块标准化：第一种方式是图像块减去对应图片像素均值，然后对这些图像块整体归一化，如公式(11)所示，其中I_n是第n个图像块归一化前的像素值，I_n1'是按照按方式一标准化后的像素值，是原图片的像素均值，I_max,I_min分别是图像中像素最大值和最小值，基于该归一化方式后提取的局部特征对图片编码侧重反映图片的颜色统计特征；第二种方式是先对场景图片随机提取若干图像块，然后减去各图像块局部对应均值，各自完成归一化，如公式(12)所示，其中I_n2'是按方式二标准化后的像素值，是第n个图像块对应的像素均值，Iⁿ _max,Iⁿ _min分别是第n个图像中像素最大值和最小值。方式二标准化侧重反映图片纹理特征分布。

{I_{n 1}}^{'} = \frac{I_{n} - \overset{&OverBar;}{U} - I_{\min}}{I_{m a x} - I_{m i n}} - - - (11)

{I_{n 2}}^{'} = \frac{I_{n} - \overset{&OverBar;}{U_{n}} - {I^{n}}_{\min}}{{I^{n}}_{\max} - {I^{n}}_{\min}} - - - (12)

步骤二：从训练数据集中随机抽取200张图片，对每张图片抽取400图像块，将图片块不计类别混合，按不同方式归一化后分别训练两个深度直连卷积自编码器。深度直连卷积自编码网络输入数据依次经过卷积层，池化层，卷积层，池化层，卷积层，解卷积层，上采样层，解卷积层，上采样层到达输出。在训练特征网络过程中一批次输入n个图像块，深度直连卷积自编码网络损失函数如公式(13)所示：

E (W, B) = \frac{1}{n} Σ_{L = 1}^{n} | | X_{L}^{i} - X_{L}^{o} | |_{2}^{2} = \frac{1}{n} Σ_{L = 1}^{n} | | X_{L}^{i} - f (W, B, X_{L}^{i}) | |_{2}^{2} - - - (13)

上式中的W，B是整个网络的卷积参数和偏置，在训练过程中使用随机梯度下降的优化策略实现整个网络的W，B更新，如公式(14)(15)所示：

W_{t + 1} = W_{t} + {μV}_{t} - α &dtri; E (W_{t}) - - - (14)

B_{t + 1} = B_{t} + {μU}_{t} - α &dtri; E (B_{t}) - - - (15)

其中W_t,B_t,W_t+1.B_t+1分别是第t批次图像块输入深度直连卷积自编码网络后，初始和更新后的的权重和偏置，V_t,U_t是上一批输入更新的权重和偏置，是当前输入的损失函数对应W_t,B_t的梯度方向，μ是V_t,U_t的惯性系数，α当前输入批次参数梯度方向的系数，即学习率。在DCCAE训练过程中，DCCAE训练阶段初始化网络参数服从零均值高斯分布。一批次输入50组数据，随机梯度下降优化的μ为0.5，学习率α为0.005，迭代次数设置为10000次。

步骤三：提取深度直连卷积自编码特征。将图片中随机提取的图像块标准化后，依次输入到训练好的深度直连卷积自编码网络中，编码过程中的任一层都可视为特征层；特征层输出一般有多个特征映射矩阵，串联特征映射矩阵相同位置的值得到图像块的局部特征。图像块输入到深度直连卷积自编码网络中，得到局部特征维数与特征映射层数一致，数目与每个映射矩阵中元素数目一致，选取的中间层越深，单个图像块包含的图像的局部特征数目越少，局部特征对应图像块的空间尺度也越大，特征的表示能力也随之增强，选取第四层池化后的结果作为特征层表示局部特征。

步骤四：金字塔费舍尔编码模型，先参考空间金字塔模型不同层对图片子区域的划分，根据图片提取的深度直连卷积自编码特征对应图片中的位置，将其划分到各层级对应的子区域中，然后从金字塔基层向上依次对各自子区域内的自编码特征进行费舍尔编码，依次串联，本例中采用三层金字塔模型将原场景图片作为金字塔基层，金字塔第二层将图片均分成2*2子区域，第三层将图片均分成子4*4区域；按照这样的区域划分方法，得到各层子区域中的深度直连卷积自编码特征。接下来对不同子区域的深度直连卷积自编码特征进行编码，若子区域中的自编码特征为X＝{x₁,x₂,...,x_M}，其中M是局部特征个数，假设局部特征是相互独立且分布均服从一个高斯混合模型，费舍尔编码本质是局部特征求取生成概率时，对其中高斯混合模型参数求偏导的过程，混合高斯模型参数为λ＝{ω_k,μ_k,σ_k,k＝1:K}，模型包含K个单高斯模型，其中ω_k，μ_k，σ_k对应第k个高斯模型权重，均值和方差。其中x_i维度为D，对应费舍尔编码Φ(X)＝{φ₁(X),φ₂(X),…,φ_K(X)}，维度2KD，φ_k(X)为第k个高斯分量对应的特征，如公式(16)所示：

φ_{k} (X) = [Σ_{i = 1}^{M} \frac{γ_{k} (x_{i})}{N \sqrt{ω_{k}}} (\frac{x_{i} - μ_{k}}{σ_{k}}), Σ_{i = 1}^{M} \frac{γ_{k} (x_{i})}{N \sqrt{2 ω_{k}}} (\frac{{(x_{i} - μ_{k})}^{2}}{σ_{k}^{2}} - 1)] - - - (16)

其中γ_k(x_i)是第i个局部特征对应第k个高斯成分概率。对费舍尔特征PCA降维既保存了原数据主要特征，又降低维度提高了计算效率。把不同层级各区域内局部特征进行费舍尔编码后串联，为了后续计算方便，再次PCA降维和标准化，得到空间金字塔费舍尔特征。本例中采用混合高斯成分数目为100，局部子区域的费舍尔编码PCA降维成1000维，不同子区域费舍尔编码串联后再次降维到2000维并标准化。

步骤五：针对类内差异性的数据扩充，引入图片所在类中出现概率低的图像块作为干扰,加入到图片提取图像块中，可以减少类内差异误判。

(1)计算每一类c＝1:C场景图片中的深度直连卷积自编码特征的高斯混合分布

(2)对于c类中一张图片扩充，提取400个随机图像块随机抽取300个图像块保留；

(3)从c类其他图片中随机抽取1000个图像块p＝{p₁,p₂...p₁₀₀₀}计算选取其中前100个对应概率值低图像块，作为类内差异大图像块；

(4)操作2中300个图像块和3中100个图像块组成新数据的图像块集，对应标签为c。

针对类间相似性的扩充，突出相似类别之间关键性图像块对场景图像类别的影响，抑制类间相似图像块对场景判别的干扰；

(2)对于c类提取p＝{p₁,p₂...p₂₀₀₀}2000个图像块，用KL散度衡量衡量c类与其他类u＝1:C,u≠c的相似度；

(3)对c类中一张图片进行扩充，提取图片中400个随机图像块D＝{d₁,d₂...d₄₀₀}，计算ρ_i＝log(P(c|d_i)/P(u_c|d_i))；取其中对应信息熵最大的200个关键图像块；选取最小值对应的u_c为c类最相似类；

(4)从u_c类中随机抽取1000个图像块V＝{v₁,v₂...v₁₀₀₀}；计算ρ_i＝log(P(c|v_i)/P(u_c|v_i))；取其中对应信息熵最大的200个图像块作为最相似类中决定类别关键图像块；

(5)将3中200图像块和4中的200图像块按信息熵大小顺序依次替换，新图像块对应原图中位置同3中图像块，组成新数据图像块集，对应标签变成uc。

步骤六：深度判别网络

采用深度网络对空间金字塔费舍尔特征分类，该深度判别网络包括全连接层和输出层，上述场景图片空间金字塔费舍尔编码作为第一层全连接层输入。通过卷积层，使用ReLU激励函数，输出层采用Softmax分类器，最后一层输入是x＝[x(1),x(2),…,x(E)]，其中E为最后一层输入维数，输出训练时，通过最小化输出各类概率与真实类别的交叉熵训练监督层参数，即最大化公式(17)：

L = Σ_{n = 1}^{N} Σ_{c = 1}^{C} y_{n, c} l o g ({\hat{y}}_{n, c}) = Σ_{n = 1}^{N} Σ_{c = 1}^{C} y_{n, c} l o g (f (X_{n}^{f}, W^{f}, B^{f})) - - - (18)

其中N为一批次输入样本数，C表示类别数，y_n,c＝1表示第n个样本的标签是c，反之y_n,c＝0；表示第n个样本c类的预测值，对应输出层x(c)，是第n个样本的金字塔费舍尔编码，也是深度判别网络的输入，W^f,B^f对应深度判别网络的权重和偏置参数。采用随机梯度下降的优化方法去更新网络参数，如公式(18)(19)所示：

W_{t + 1}^{f} = W_{t}^{f} + μ^{f} V_{t}^{f} - α^{f} &dtri; L (W_{t}^{f}) - - - (18)

B_{t + 1}^{f} = B_{t}^{f} + μ^{f} U_{t}^{f} - α^{f} &dtri; L (B_{t}^{f}) - - - (19)

其中W_t ^f,分别是第t批次数据输入深度判别网络后，初始和更新后的的权重和偏置，V_t ^f,是上一批输入更新的权重和偏置，是损失函数对L应W_t ^f,的梯度方向，μ^f是深度判别层的惯性系数，α^f是当前梯度方向的权重系数，即学习率，训练深度判别网络阶段，费舍尔判别网络训练阶段初始化参数服从零均值高斯分布；一次输入20组数据，随机梯度下降优化的μ为0.5，初始学习率α为0.05，迭代2000次后，学习率变为0.005，迭代5000次停止训练。最后一层输出即为该场景图片对应输出各类的概率，后期融合是把双通道输出得到对应各类的预测概率线性组合，得到最后的预测概率，对应概率最大即为网络判别场景类别。本例中通道一线性权重为0.4，通道二线性权重0.6，能够取得最佳效果。

本发明提出的混合深度场景识别方法模型首先在混合识别的费舍尔编码层和判别层之前用深度直连自编码器作为图像局部特征提取层，完善了整个混合深度识别框架；采用直连非监督深度网络输出直接重构输入，能够提取更有判别性的中尺度局部特征；在费舍尔编码层引入金字塔空间信息，考虑局部特征空间分布；此外，通过改变场景图片对应局部图像块的构成实现场景数据扩充；引入图片所在类中出现概率低的图像块作为类内干扰加入原图像块中，减少类内差异误判；为了减少类间相似性影响，通过信息熵度量保留图片的类间相似的图像块，引入相似类中特有的关键图像块，替换原先类别相关的图像块，同时改变对应标签，突出关键图像块对相似类别判断的决定性。混合深度场景识别方法能有效提高场景识别的鲁棒性，为小数据集使用深度网络提供了解决方案。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.基于混合深度结构的场景识别方法,其特征在于，包括如下步骤：

步骤四：将步骤三提取的局部特征对应图片中的位置，将其划分到各层级对应的子区域中，然后从金字塔基层向上依次对各自子区域内的深度自编码特征费舍尔编码，依次串联，再次PCA降维和标准化，得到空间金字塔费舍尔特征。

2.根据权利要求1所述的基于混合深度结构的场景识别方法,步骤一中，图像块标准化的方式是图像块减去对应图片像素均值，然后对这些图像块整体归一化；

{I_{n 1}}^{'} = \frac{I_{n} - \overset{&OverBar;}{U} - I_{m i n}}{I_{m a x} - I_{m i n}} - - - (1)

3.根据权利要求1所述的基于混合深度结构的场景识别方法,步骤一中，图像块标准化的方式是先对场景图片随机提取若干图像块，然后减去各图像块局部对应均值，各自完成归一化；

{I_{n 2}}^{'} = \frac{I_{n} - \overset{&OverBar;}{U_{n}} - {I^{n}}_{m i n}}{{I^{n}}_{m a x} - {I^{n}}_{m i n}} - - - (2)

4.根据权利要求1所述的基于混合深度结构的场景识别方法,步骤二具体包括：从数据集中随机抽取若干图片，对每张图片抽取图像块，将图片块不计类别混合，归一化后分别训练两个深度直连卷积自编码器网络；自编码器网络输入数据依次经过卷积层，池化层，卷积层，池化层，卷积层，解卷积层，上采样层，解卷积层，上采样层到达输出。在训练特征网络过程中一批次输入n个图像块，深度直连卷积自编码网络损失函数如公式(3)所示：

E (W, B) = \frac{1}{n} Σ_{L = 1}^{n} | | X_{L}^{i} - X_{L}^{o} | |_{2}^{2} = \frac{1}{n} Σ_{L = 1}^{n} | | X_{L}^{i} - f (W, B, X_{L}^{i}) | |_{2}^{2} - - - (3)

W_{t + 1} = W_{t} + {μV}_{t} - α &dtri; E (W_{t}) - - - (4)

B_{t + 1} = B_{t} + {μU}_{t} - α &dtri; E (B_{t}) - - - (5)

5.根据权利要求1所述的基于混合深度结构的场景识别方法,步骤四具体包括：金字塔费舍尔编码模型，先参考空间金字塔模型不同层对图片子区域的划分，根据图片提取的深度自编码特征对应图片中的位置，将其划分到各层级对应的子区域中，然后从金字塔基层向上依次对各自子区域内的深度直连自编码进行费舍尔编码，依次串联；将原场景图片作为金字塔基层，金字塔第二层将图片均分成2*2子区域，第三层将图片均分成子4*4区域，金字塔第n层将图片均分成2^n-1*2^n-1子区域；按照这样的区域划分方法，得到各层子区域中的DCCAE特征；接下来对不同子区域的深度自编码特征编码，若子区域中的深度直连卷积自编码特征为X＝{x₁,x₂,...,x_M}，其中M是局部特征个数，假设局部特征是相互独立且分布均服从一个高斯混合模型，费舍尔编码本质是局部特征求取生成概率时，对其中高斯混合模型参数求偏导的过程，混合高斯模型参数为λ＝{ω_k,μ_k,σ_k,k＝1:K}，该模型包含K个单高斯模型，其中ω_k，μ_k，σ_k对应第k个高斯模型权重，均值和方差。其中x_i维度为D，对应费舍尔编码为Φ(X)＝{φ₁(X),φ₂(X),…,φ_K(X)}，维度2KD，φ_k(X)为第k个高斯分量对应的特征，如公式(7)所示：

φ_{k} (X) = [Σ_{i = 1}^{M} \frac{γ_{k} (x_{i})}{N \sqrt{ω_{k}}} (\frac{x_{i} - μ_{k}}{σ_{k}}), Σ_{i = 1}^{M} \frac{γ_{k} (x_{i})}{N \sqrt{2 ω_{k}}} (\frac{{(x_{i} - μ_{k})}^{2}}{σ_{k}^{2}} - 1)] - - - (7)

其中γ_k(x_i)是第i个局部特征对应第k个高斯成分概率。

6.根据权利要求1所述的基于混合深度结构的场景识别方法，步骤六具体包括：采用深度网络对空间金字塔费舍尔特征分类，该深度判别网络包括全连接层和输出层，将步骤五得到的空间金字塔费舍尔编码作为第一层全连接层输入；通过卷积层，使用ReLU激励函数。输出层采用Softmax分类器，最后一层输入是x＝[x(1),x(2),...,x(E)]，其中E为最后一层输入维数；输出训练时，通过最小化输出各类概率与真实类别的交叉熵训练监督层参数，即最大化公式(8)：

L = Σ_{n = 1}^{N} Σ_{c = 1}^{C} y_{n, c} l o g ({\hat{y}}_{n, c}) = Σ_{n = 1}^{N} Σ_{c = 1}^{C} y_{n, c} l o g (f (X_{n}^{f}, W^{f}, B^{f})) - - - (8)

W_{t + 1}^{f} = W_{t}^{f} + μ^{f} V_{t}^{f} - α^{f} &dtri; L (W_{t}^{f}) - - - (9)

B_{t + 1}^{f} = B_{t}^{f} + μ^{f} U_{t}^{f} - α^{f} &dtri; L (B_{t}^{f}) - - - (10)

其中分别是第t批次数据输入深度判别网络后，初始和更新后的的权重和偏置，V_t ^f,是上一批输入更新的权重和偏置，

是损失函数L对应W_t ^f,的梯度方向，μ^f是深度判别层的惯性系数，α^f是当前梯度方向的权重系数，即学习率，训练深度判别网络阶段，μ^f是初始设定不变的，α^f初始化后，随着迭代次数增加按比例减小。