CN106203354A - 基于混合深度结构的场景识别方法 - Google Patents

基于混合深度结构的场景识别方法 Download PDF

Info

Publication number
CN106203354A
CN106203354A CN201610554626.6A CN201610554626A CN106203354A CN 106203354 A CN106203354 A CN 106203354A CN 201610554626 A CN201610554626 A CN 201610554626A CN 106203354 A CN106203354 A CN 106203354A
Authority
CN
China
Prior art keywords
depth
layer
picture
degree
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610554626.6A
Other languages
English (en)
Other versions
CN106203354B (zh
Inventor
胡昭华
姜啸远
钱坤
王珏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maxine software technology Nanjing Co.,Ltd.
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201610554626.6A priority Critical patent/CN106203354B/zh
Publication of CN106203354A publication Critical patent/CN106203354A/zh
Application granted granted Critical
Publication of CN106203354B publication Critical patent/CN106203354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于混合深度结构的场景识别方法。改进先前混合深度识别框架,运用到场景识别的任务中,使用深度自编码器自动提取局部图像块特征代替传统混合深度网络的局部特征提取层,得到图像块高级局部特征。同时引入空间信息改进场景识别的局部特征编码层,最后使用深度判别网络识别场景,完善混合深度混合场景识别框架,使改进的混合深度场景在形式上和识别准确率上接近卷积神经网络的,计算效率上高于深度卷积神经网络。此外针对场景数据类内差异性和类间相似性有选择扩充场景数据,构建鲁棒性高,适应小数据集的深度混合场景识别模型。

Description

基于混合深度结构的场景识别方法
技术领域
涉及图像处理和计算机视觉领域,特别是一种基于混合深度结构的场景识别方法。
背景技术
场景识别是计算机视觉领域重要研究方向。场景识别技术,即计算机对采集的图像自动判别场景类别,有助于加深计算机对场景理解,辅助计算机做出其他决策,该技术在机器人控制,遥感图像处理,智能监控等领域有着广泛应用。针对场景识别技术难点,国内外研究学者提出了许多先进算法。
最近,由于计算机技术发展,深度学习技术在计算机视觉领域取得巨大成功。监督类深度学习网络由多层非线性网络构成,通过最小化网络输出与真实标签损失值,反向传播调整网络参数。能从低级特征,甚至像素级特征,自动学习高级特征。近几年提出了很多深层监督学习框架,尤其是卷积神经网络CNN(Convolutional Neural Network),在图片识别领域取得较好的效果,超过传统方法,例如AlexNet,GoogLeNet,VGGNet等,但是这类端到端的方法需要大量标签数据。此外,深度学习输入数据多,数据维度大,网络层数多,节点多,训练和测试阶段需要大量计算资源和时间。
混合网络架构是最近计算机视觉领域的常见方法,一般是由图片的高级编码和深度分类器组合构成,权衡了识别准确率和效率的矛盾,已经应用到图片识别,动作识别等领域。Perronnin等(Florent Perronnin,Diane Larlus,Fisher Vectors Meet NeuralNetworks:A Hybrid Classification Architecture.CVPR,Boston,USA,7-12June,2015)验证了Fisher编码和深度网络混合判别能和CNN深度学习取得类似的准确率,而且不需要大量计算资源。Perronnin将混合网络结构分为三层:第一层是图片中图像块局部特征提取,比如局部块SIFT特征,LCS(Local Color Statistics);第二层是基于局部特征对图片Fisher编码,是非监督层。尽管Fisher编码和CNN的卷积层形式上大相径庭,但是Simonyan和Sydorov[14][20]指出Fisher编码与CNN卷积层都是一系列对图片线性和非线性处理,两者有很强的相关性;第三层把降维后的Fisher编码作为深度置信网络输入,深度置信网络输出是图片对应各类别概率,是监督层。该方法在物体识别上取得很好效果,但是混合识别网络局部特征提取层使用的是传统SIFT特征,缺乏判别能力,而且没有考虑到局部特征的空间位置。此外场景图片每类数据量不足,应用该方法需要扩充数据集,避免过拟合。
先前有很多用重构自编码网络去学习局部图像块特征的研究。Cheng等人用单层自编码去学习图像块的中级别特征,继而构建有判别力的字典。Lee和Sohn等人分别用堆栈的卷积置信网络提取人脸和物体特征,Geng等人训练堆栈卷积自编码器对遥感图像局部图像块逐个分类,继而实现对整幅遥感图片中陆地,河流,森林,建筑物等标注。Geng采用两个级联的堆栈卷积自编码器,逐层训练网络参数,最后通过监督的方式去微调网络,但是堆栈结构不能整体重构输入信息。此外,对局部图像块自编码时,局部图像块是没有标签的,需要一种改进深度卷积自编码器去提取场景图像块局部特征。
为了解决数据量不足问题,除了收集更多数据,基于已有数据扩充已有数据也是常见的方法。图像深度识别中从原始图像的四个角落和中间位置分别提取固定大小的子区域,作为新的训练图片。这样图片数据规模可以扩充五倍。手写字识别中对手写字图片局部多次仿射变换组合成新手写图片,引进人为干扰,生成新的训练图片提高识别鲁棒性。
场景识别的任务中,仍然没有一种识别方法计算效率高,构建鲁棒性高,且适应小数据集的深度混合场景识别模型;本发明解决这样的问题。
发明内容
为解决现有技术的不足,本发明的目的在于改进先前混合深度识别框架,运用到场景识别的任务中,使用深度自编码器自动提取局部图像块特征代替传统混合深度网络的局部特征提取层,得到图像块高级局部特征。同时引入空间信息改进场景识别的局部特征编码层,最后使用深度判别网络识别场景,完善混合深度混合场景识别框架,使改进的混合深度场景在形式上和识别准确率上接近卷积神经网络的,计算效率上高于深度卷积神经网络。此外针对场景数据类内差异性和类间相似性有选择扩充场景数据,构建鲁棒性高,适应小数据集的深度混合场景识别模型。
为了实现上述目标,本发明采用如下的技术方案:
基于混合深度结构的场景识别方法,包括如下步骤:
步骤一:在图片中随机抽取若干图像块后,对图像块标准化;
步骤二:从数据集中随机抽取若干图片,对每张图片抽取图像块,将图片块不计类别混合,归一化后分别训练两个深度直连卷积自编码器网络;
步骤三:深度直连卷积自编码特征提取,编码过程中的任一层都可视为特征层,特征层输出有多个特征映射矩阵,串联特征映射矩阵相同位置的值得到图像块的局部特征;
步骤四:将步骤三提取的局部特征对应图片中的位置,将其划分到各层级对应的子区域中,然后从金字塔基层向上依次对各自子区域内的深度直连自编码特征进行费舍尔编码,依次串联,再次PCA降维和标准化,得到空间金字塔费舍尔特征。
步骤五:将步骤四中得到表示费舍尔特征的图片,通过改变图片对应图像块的组成间接生成新数据,扩充场景数据集;
步骤六:采用深度网络对空间金字塔费舍尔特征分类,该深度判别网络包括全连接层和输出层,将步骤五得到的空间金字塔费舍尔编码作为第一层全连接层输入。
前述的基于混合深度结构的场景识别方法,步骤一中,图像块标准化的方式是图像块减去对应图片像素均值,然后对这些图像块整体归一化;
I n 1 ′ = I n - U ‾ - I min I m a x - I m i n - - - ( 1 )
如公式(1)所示,其中In是第n个图像块归一化前的像素值,In1'是按照按像素值是原图片的像素均值,Imax,Imin分别是图像中像素最大值和最小值,基于该归一化方式后提取的局部特征对图片编码侧重反映图片的颜色统计特征。
前述的基于混合深度结构的场景识别方法,其特征在于,步骤一中,图像块标准化的方式是先对场景图片随机提取若干图像块,然后减去各图像块局部对应均值,各自完成归一化;
I n 2 ′ = I n - U n ‾ - I n min I n max - I n min - - - ( 2 )
如公式(2)所示,其中In2'是按方式二标准化后的像素值,是第n个图像块对应的像素均值,In max,In min分别是第n个图像中像素最大值和最小值。
前述的基于混合深度结构的场景识别方法,步骤二具体包括:从数据集中随机抽取若干图片,对每张图片抽取图像块,将图片块不计类别混合,归一化后分别训练两个深度直连卷积自编码器网络;自编码器网络输入数据依次经过卷积层,池化层,卷积层,池化层,卷积层,解卷积层,上采样层,解卷积层,上采样层到达输出。在训练特征网络过程中一批次输入n个图像块,深度直连卷积自编码网络损失函数如公式(3)所示:
E ( W , B ) = 1 n Σ L = 1 n | | X L i - X L o | | 2 2 = 1 n Σ L = 1 n | | X L i - f ( W , B , X L i ) | | 2 2 - - - ( 3 )
上式中的W,B是整个网络的卷积参数和偏置,在训练过程中使用随机梯度下降的优化策略实现整个网络的W,B更新,随机梯度下降模拟的是物体运动时的惯性,即更新的时候保留之前更新的方向,同时利用当前输入数据损失函数的梯度微调最终的更新方向,如公式(4)(5)所示:
W t + 1 = W t + μV t - α ▿ E ( W t ) - - - ( 4 )
B t + 1 = B t + μU t - α ▿ E ( B t ) - - - ( 5 )
其中Wt,Bt,Wt+1.Bt+1分别是第t批次图像块输入自编码器网络层后,初始和更新后的的权重和偏置,Vt,Ut是上一批输入更新的权重和偏置,是当前输入的损失函数对应Wt,Bt的梯度方向,μ是Vt,Ut的惯性系数,α当前输入批次参数梯度方向的系数,即学习率;在深度直连卷积自编码网络训练过程中,μ,α是初始化设定的,训练过程中不变。
前述的基于混合深度结构的场景识别方法,步骤四具体包括:金字塔费舍尔编码模型,先参考空间金字塔模型不同层对图片子区域的划分,根据图片提取的深度直连自编码特征对应图片中的位置,将其划分到各层级对应的子区域中,然后从金字塔基层向上依次对各自子区域内的深度直连自编码特征进行费舍尔编码,依次串联;将原场景图片作为金字塔基层,金字塔第二层将图片均分成2*2子区域,第三层将图片均分成子4*4区域,金字塔第n层将图片均分成2n-1*2n-1子区域;按照这样的区域划分方法,得到各层子区域中的DCCAE特征;接下来对不同子区域的DCCAE特征编码,若子区域中的深度自编码特征为X={x1,x2,...,xM},其中M是局部特征个数,假设局部特征是相互独立且分布均服从一个高斯混合模型,费舍尔编码本质是局部特征求取生成概率时,对其中高斯混合模型参数求偏导的过程,混合高斯模型参数为λ={ωkkk,k=1:K},该模型包含K个单高斯模型,其中ωk,μk,σk对应第k个高斯模型权重,均值和方差。其中xi维度为D,对应费舍尔编码为Φ(X)={φ1(X),φ2(X),…,φK(X)},维度2KD,φk(X)为第k个高斯分量对应的特征,如公式(7)所示:
φ k ( X ) = [ Σ i = 1 M γ k ( x i ) N ω k ( x i - μ k σ k ) , Σ i = 1 M γ k ( x i ) N 2 ω k ( ( x i - μ k ) 2 σ k 2 - 1 ) ] - - - ( 7 )
其中γk(xi)是第i个局部特征对应第k个高斯成分概率。
前述的基于混合深度结构的场景识别方法,步骤六具体包括:采用深度网络对空间金字塔费舍尔特征分类,该深度判别网络包括全连接层和输出层,将步骤五得到的空间金字塔费舍尔编码作为第一层全连接层输入;通过卷积层,使用ReLU激励函数。输出层采用Softmax分类器,最后一层输入是x=[x(1),x(2),…,x(E)],其中E为最后一层输入维数;输出训练时,通过最小化输出各类概率与真实类别的交叉熵训练监督层参数,即最大化公式(8):
L = Σ n = 1 N Σ c = 1 C y n , c l o g ( y ^ n , c ) = Σ n = 1 N Σ c = 1 C y n , c l o g ( f ( X n f , W f , B f ) ) - - - ( 8 )
其中N为一批次输入样本数,C表示类别数,yn,c=1表示第n个样本的标签是c,反之yn,c=0;表示第n个样本c类的预测值,对应输出层x(c),是第n个样本的金字塔费舍尔编码,也是深度判别网络的输入,Wf,Bf对应深度判别网络的权重和偏置参数;采用随机梯度下降的优化方法去更新网络参数,如公式(9)(10)所示:
W t + 1 f = W t f + μ f V t f - α f ▿ L ( W t f ) - - - ( 9 )
B t + 1 f = - B t f + μ f U t f - α f V L ( - B t f ) - - - ( 10 )
其中Wt f,分别是第t批次数据输入深度判别网络后,初始和更新后的的权重和偏置,Vt f,是上一批输入更新的权重和偏置,是损失函数L对应Wt f,的梯度方向,μf是深度判别层的惯性系数,αf是当前梯度方向的权重系数,即学习率,训练深度判别网络阶段,μf是初始设定不变的,αf初始化后,随着迭代次数增加按比例减小。
本发明的有益之处在于:本发明提出的混合深度场景识别方法模型首先在混合识别的费舍尔编码层和判别层之前用深度直连自编码器作为图像局部特征提取层,完善了整个混合深度识别框架;采用直连非监督深度网络输出直接重构输入,能够提取更有判别性的中尺度局部特征;在费舍尔编码层引入金字塔空间信息,考虑局部特征空间分布;此外,通过改变场景图片对应局部图像块的构成实现场景数据扩充;引入图片所在类中出现概率低的图像块作为类内干扰加入原图像块中,减少类内差异误判;为了减少类间相似性影响,通过信息熵度量保留图片的类间相似的图像块,引入相似类中特有的关键图像块,替换原先类别相关的图像块,同时改变对应标签,突出关键图像块对相似类别判断的决定性。混合深度场景识别方法能有效提高场景识别的鲁棒性,为小数据集使用深度网络提供了解决方案。
具体实施方式
以下结合具体实施例对本发明作具体的介绍。
基于混合深度结构的场景识别方法,包括如下步骤:
步骤一:在每张场景图片中随机抽取400个图像块,可按照两种方式对图像块标准化:第一种方式是图像块减去对应图片像素均值,然后对这些图像块整体归一化,如公式(11)所示,其中In是第n个图像块归一化前的像素值,In1'是按照按方式一标准化后的像素值,是原图片的像素均值,Imax,Imin分别是图像中像素最大值和最小值,基于该归一化方式后提取的局部特征对图片编码侧重反映图片的颜色统计特征;第二种方式是先对场景图片随机提取若干图像块,然后减去各图像块局部对应均值,各自完成归一化,如公式(12)所示,其中In2'是按方式二标准化后的像素值,是第n个图像块对应的像素均值,In max,In min分别是第n个图像中像素最大值和最小值。方式二标准化侧重反映图片纹理特征分布。
I n 1 ′ = I n - U ‾ - I min I m a x - I m i n - - - ( 11 )
I n 2 ′ = I n - U n ‾ - I n min I n max - I n min - - - ( 12 )
步骤二:从训练数据集中随机抽取200张图片,对每张图片抽取400图像块,将图片块不计类别混合,按不同方式归一化后分别训练两个深度直连卷积自编码器。深度直连卷积自编码网络输入数据依次经过卷积层,池化层,卷积层,池化层,卷积层,解卷积层,上采样层,解卷积层,上采样层到达输出。在训练特征网络过程中一批次输入n个图像块,深度直连卷积自编码网络损失函数如公式(13)所示:
E ( W , B ) = 1 n Σ L = 1 n | | X L i - X L o | | 2 2 = 1 n Σ L = 1 n | | X L i - f ( W , B , X L i ) | | 2 2 - - - ( 13 )
上式中的W,B是整个网络的卷积参数和偏置,在训练过程中使用随机梯度下降的优化策略实现整个网络的W,B更新,如公式(14)(15)所示:
W t + 1 = W t + μV t - α ▿ E ( W t ) - - - ( 14 )
B t + 1 = B t + μU t - α ▿ E ( B t ) - - - ( 15 )
其中Wt,Bt,Wt+1.Bt+1分别是第t批次图像块输入深度直连卷积自编码网络后,初始和更新后的的权重和偏置,Vt,Ut是上一批输入更新的权重和偏置,是当前输入的损失函数对应Wt,Bt的梯度方向,μ是Vt,Ut的惯性系数,α当前输入批次参数梯度方向的系数,即学习率。在DCCAE训练过程中,DCCAE训练阶段初始化网络参数服从零均值高斯分布。一批次输入50组数据,随机梯度下降优化的μ为0.5,学习率α为0.005,迭代次数设置为10000次。
步骤三:提取深度直连卷积自编码特征。将图片中随机提取的图像块标准化后,依次输入到训练好的深度直连卷积自编码网络中,编码过程中的任一层都可视为特征层;特征层输出一般有多个特征映射矩阵,串联特征映射矩阵相同位置的值得到图像块的局部特征。图像块输入到深度直连卷积自编码网络中,得到局部特征维数与特征映射层数一致,数目与每个映射矩阵中元素数目一致,选取的中间层越深,单个图像块包含的图像的局部特征数目越少,局部特征对应图像块的空间尺度也越大,特征的表示能力也随之增强,选取第四层池化后的结果作为特征层表示局部特征。
步骤四:金字塔费舍尔编码模型,先参考空间金字塔模型不同层对图片子区域的划分,根据图片提取的深度直连卷积自编码特征对应图片中的位置,将其划分到各层级对应的子区域中,然后从金字塔基层向上依次对各自子区域内的自编码特征进行费舍尔编码,依次串联,本例中采用三层金字塔模型将原场景图片作为金字塔基层,金字塔第二层将图片均分成2*2子区域,第三层将图片均分成子4*4区域;按照这样的区域划分方法,得到各层子区域中的深度直连卷积自编码特征。接下来对不同子区域的深度直连卷积自编码特征进行编码,若子区域中的自编码特征为X={x1,x2,...,xM},其中M是局部特征个数,假设局部特征是相互独立且分布均服从一个高斯混合模型,费舍尔编码本质是局部特征求取生成概率时,对其中高斯混合模型参数求偏导的过程,混合高斯模型参数为λ={ωkkk,k=1:K},模型包含K个单高斯模型,其中ωk,μk,σk对应第k个高斯模型权重,均值和方差。其中xi维度为D,对应费舍尔编码Φ(X)={φ1(X),φ2(X),…,φK(X)},维度2KD,φk(X)为第k个高斯分量对应的特征,如公式(16)所示:
φ k ( X ) = [ Σ i = 1 M γ k ( x i ) N ω k ( x i - μ k σ k ) , Σ i = 1 M γ k ( x i ) N 2 ω k ( ( x i - μ k ) 2 σ k 2 - 1 ) ] - - - ( 16 )
其中γk(xi)是第i个局部特征对应第k个高斯成分概率。对费舍尔特征PCA降维既保存了原数据主要特征,又降低维度提高了计算效率。把不同层级各区域内局部特征进行费舍尔编码后串联,为了后续计算方便,再次PCA降维和标准化,得到空间金字塔费舍尔特征。本例中采用混合高斯成分数目为100,局部子区域的费舍尔编码PCA降维成1000维,不同子区域费舍尔编码串联后再次降维到2000维并标准化。
步骤五:针对类内差异性的数据扩充,引入图片所在类中出现概率低的图像块作为干扰,加入到图片提取图像块中,可以减少类内差异误判。
(1)计算每一类c=1:C场景图片中的深度直连卷积自编码特征的高斯混合分布
(2)对于c类中一张图片扩充,提取400个随机图像块随机抽取300个图像块保留;
(3)从c类其他图片中随机抽取1000个图像块p={p1,p2...p1000}计算选取其中前100个对应概率值低图像块,作为类内差异大图像块;
(4)操作2中300个图像块和3中100个图像块组成新数据的图像块集,对应标签为c。
针对类间相似性的扩充,突出相似类别之间关键性图像块对场景图像类别的影响,抑制类间相似图像块对场景判别的干扰;
(1)计算每一类c=1:C场景图片中的深度直连卷积自编码特征的高斯混合分布
(2)对于c类提取p={p1,p2...p2000}2000个图像块,用KL散度衡量衡量c类与其他类u=1:C,u≠c的相似度;
(3)对c类中一张图片进行扩充,提取图片中400个随机图像块D={d1,d2...d400},计算ρi=log(P(c|di)/P(uc|di));取其中对应信息熵最大的200个关键图像块;选取最小值对应的uc为c类最相似类;
(4)从uc类中随机抽取1000个图像块V={v1,v2...v1000};计算ρi=log(P(c|vi)/P(uc|vi));取其中对应信息熵最大的200个图像块作为最相似类中决定类别关键图像块;
(5)将3中200图像块和4中的200图像块按信息熵大小顺序依次替换,新图像块对应原图中位置同3中图像块,组成新数据图像块集,对应标签变成uc。
步骤六:深度判别网络
采用深度网络对空间金字塔费舍尔特征分类,该深度判别网络包括全连接层和输出层,上述场景图片空间金字塔费舍尔编码作为第一层全连接层输入。通过卷积层,使用ReLU激励函数,输出层采用Softmax分类器,最后一层输入是x=[x(1),x(2),…,x(E)],其中E为最后一层输入维数,输出训练时,通过最小化输出各类概率与真实类别的交叉熵训练监督层参数,即最大化公式(17):
L = Σ n = 1 N Σ c = 1 C y n , c l o g ( y ^ n , c ) = Σ n = 1 N Σ c = 1 C y n , c l o g ( f ( X n f , W f , B f ) ) - - - ( 18 )
其中N为一批次输入样本数,C表示类别数,yn,c=1表示第n个样本的标签是c,反之yn,c=0;表示第n个样本c类的预测值,对应输出层x(c),是第n个样本的金字塔费舍尔编码,也是深度判别网络的输入,Wf,Bf对应深度判别网络的权重和偏置参数。采用随机梯度下降的优化方法去更新网络参数,如公式(18)(19)所示:
W t + 1 f = W t f + μ f V t f - α f ▿ L ( W t f ) - - - ( 18 )
B t + 1 f = B t f + μ f U t f - α f ▿ L ( B t f ) - - - ( 19 )
其中Wt f,分别是第t批次数据输入深度判别网络后,初始和更新后的的权重和偏置,Vt f,是上一批输入更新的权重和偏置,是损失函数对L应Wt f,的梯度方向,μf是深度判别层的惯性系数,αf是当前梯度方向的权重系数,即学习率,训练深度判别网络阶段,费舍尔判别网络训练阶段初始化参数服从零均值高斯分布;一次输入20组数据,随机梯度下降优化的μ为0.5,初始学习率α为0.05,迭代2000次后,学习率变为0.005,迭代5000次停止训练。最后一层输出即为该场景图片对应输出各类的概率,后期融合是把双通道输出得到对应各类的预测概率线性组合,得到最后的预测概率,对应概率最大即为网络判别场景类别。本例中通道一线性权重为0.4,通道二线性权重0.6,能够取得最佳效果。
本发明提出的混合深度场景识别方法模型首先在混合识别的费舍尔编码层和判别层之前用深度直连自编码器作为图像局部特征提取层,完善了整个混合深度识别框架;采用直连非监督深度网络输出直接重构输入,能够提取更有判别性的中尺度局部特征;在费舍尔编码层引入金字塔空间信息,考虑局部特征空间分布;此外,通过改变场景图片对应局部图像块的构成实现场景数据扩充;引入图片所在类中出现概率低的图像块作为类内干扰加入原图像块中,减少类内差异误判;为了减少类间相似性影响,通过信息熵度量保留图片的类间相似的图像块,引入相似类中特有的关键图像块,替换原先类别相关的图像块,同时改变对应标签,突出关键图像块对相似类别判断的决定性。混合深度场景识别方法能有效提高场景识别的鲁棒性,为小数据集使用深度网络提供了解决方案。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (6)

1.基于混合深度结构的场景识别方法,其特征在于,包括如下步骤:
步骤一:在图片中随机抽取若干图像块后,对图像块标准化;
步骤二:从数据集中随机抽取若干图片,对每张图片抽取图像块,将图片块不计类别混合,归一化后分别训练两个深度直连卷积自编码器网络;
步骤三:深度直连卷积自编码特征提取,编码过程中的任一层都可视为特征层,特征层输出有多个特征映射矩阵,串联特征映射矩阵相同位置的值得到图像块的局部特征;
步骤四:将步骤三提取的局部特征对应图片中的位置,将其划分到各层级对应的子区域中,然后从金字塔基层向上依次对各自子区域内的深度自编码特征费舍尔编码,依次串联,再次PCA降维和标准化,得到空间金字塔费舍尔特征。
步骤五:将步骤四中得到表示费舍尔特征的图片,通过改变图片对应图像块的组成间接生成新数据,扩充场景数据集;
步骤六:采用深度网络对空间金字塔费舍尔特征分类,该深度判别网络包括全连接层和输出层,将步骤五得到的空间金字塔费舍尔编码作为第一层全连接层输入。
2.根据权利要求1所述的基于混合深度结构的场景识别方法,步骤一中,图像块标准化的方式是图像块减去对应图片像素均值,然后对这些图像块整体归一化;
I n 1 ′ = I n - U ‾ - I m i n I m a x - I m i n - - - ( 1 )
如公式(1)所示,其中In是第n个图像块归一化前的像素值,In1'是按照按像素值是原图片的像素均值,Imax,Imin分别是图像中像素最大值和最小值,基于该归一化方式后提取的局部特征对图片编码侧重反映图片的颜色统计特征。
3.根据权利要求1所述的基于混合深度结构的场景识别方法,步骤一中,图像块标准化的方式是先对场景图片随机提取若干图像块,然后减去各图像块局部对应均值,各自完成归一化;
I n 2 ′ = I n - U n ‾ - I n m i n I n m a x - I n m i n - - - ( 2 )
如公式(2)所示,其中In2'是按方式二标准化后的像素值,是第n个图像块对应的像素均值,In max,In min分别是第n个图像中像素最大值和最小值。
4.根据权利要求1所述的基于混合深度结构的场景识别方法,步骤二具体包括:从数据集中随机抽取若干图片,对每张图片抽取图像块,将图片块不计类别混合,归一化后分别训练两个深度直连卷积自编码器网络;自编码器网络输入数据依次经过卷积层,池化层,卷积层,池化层,卷积层,解卷积层,上采样层,解卷积层,上采样层到达输出。在训练特征网络过程中一批次输入n个图像块,深度直连卷积自编码网络损失函数如公式(3)所示:
E ( W , B ) = 1 n Σ L = 1 n | | X L i - X L o | | 2 2 = 1 n Σ L = 1 n | | X L i - f ( W , B , X L i ) | | 2 2 - - - ( 3 )
上式中的W,B是整个网络的卷积参数和偏置,在训练过程中使用随机梯度下降的优化策略实现整个网络的W,B更新,随机梯度下降模拟的是物体运动时的惯性,即更新的时候保留之前更新的方向,同时利用当前输入数据损失函数的梯度微调最终的更新方向,如公式(4)(5)所示:
W t + 1 = W t + μV t - α ▿ E ( W t ) - - - ( 4 )
B t + 1 = B t + μU t - α ▿ E ( B t ) - - - ( 5 )
其中Wt,Bt,Wt+1.Bt+1分别是第t批次图像块输入自编码器网络层后,初始和更新后的的权重和偏置,Vt,Ut是上一批输入更新的权重和偏置,是当前输入的损失函数对应Wt,Bt的梯度方向,μ是Vt,Ut的惯性系数,α当前输入批次参数梯度方向的系数,即学习率;在深度直连卷积自编码网络训练过程中,μ,α是初始化设定的,训练过程中不变。
5.根据权利要求1所述的基于混合深度结构的场景识别方法,步骤四具体包括:金字塔费舍尔编码模型,先参考空间金字塔模型不同层对图片子区域的划分,根据图片提取的深度自编码特征对应图片中的位置,将其划分到各层级对应的子区域中,然后从金字塔基层向上依次对各自子区域内的深度直连自编码进行费舍尔编码,依次串联;将原场景图片作为金字塔基层,金字塔第二层将图片均分成2*2子区域,第三层将图片均分成子4*4区域,金字塔第n层将图片均分成2n-1*2n-1子区域;按照这样的区域划分方法,得到各层子区域中的DCCAE特征;接下来对不同子区域的深度自编码特征编码,若子区域中的深度直连卷积自编码特征为X={x1,x2,...,xM},其中M是局部特征个数,假设局部特征是相互独立且分布均服从一个高斯混合模型,费舍尔编码本质是局部特征求取生成概率时,对其中高斯混合模型参数求偏导的过程,混合高斯模型参数为λ={ωkkk,k=1:K},该模型包含K个单高斯模型,其中ωk,μk,σk对应第k个高斯模型权重,均值和方差。其中xi维度为D,对应费舍尔编码为Φ(X)={φ1(X),φ2(X),…,φK(X)},维度2KD,φk(X)为第k个高斯分量对应的特征,如公式(7)所示:
φ k ( X ) = [ Σ i = 1 M γ k ( x i ) N ω k ( x i - μ k σ k ) , Σ i = 1 M γ k ( x i ) N 2 ω k ( ( x i - μ k ) 2 σ k 2 - 1 ) ] - - - ( 7 )
其中γk(xi)是第i个局部特征对应第k个高斯成分概率。
6.根据权利要求1所述的基于混合深度结构的场景识别方法,步骤六具体包括:采用深度网络对空间金字塔费舍尔特征分类,该深度判别网络包括全连接层和输出层,将步骤五得到的空间金字塔费舍尔编码作为第一层全连接层输入;通过卷积层,使用ReLU激励函数。输出层采用Softmax分类器,最后一层输入是x=[x(1),x(2),...,x(E)],其中E为最后一层输入维数;输出训练时,通过最小化输出各类概率与真实类别的交叉熵训练监督层参数,即最大化公式(8):
L = Σ n = 1 N Σ c = 1 C y n , c l o g ( y ^ n , c ) = Σ n = 1 N Σ c = 1 C y n , c l o g ( f ( X n f , W f , B f ) ) - - - ( 8 )
其中N为一批次输入样本数,C表示类别数,yn,c=1表示第n个样本的标签是c,反之yn,c=0;表示第n个样本c类的预测值,对应输出层x(c),是第n个样本的金字塔费舍尔编码,也是深度判别网络的输入,Wf,Bf对应深度判别网络的权重和偏置参数;采用随机梯度下降的优化方法去更新网络参数,如公式(9)(10)所示:
W t + 1 f = W t f + μ f V t f - α f ▿ L ( W t f ) - - - ( 9 )
B t + 1 f = B t f + μ f U t f - α f ▿ L ( B t f ) - - - ( 10 )
其中分别是第t批次数据输入深度判别网络后,初始和更新后的的权重和偏置,Vt f,是上一批输入更新的权重和偏置,
是损失函数L对应Wt f,的梯度方向,μf是深度判别层的惯性系数,αf是当前梯度方向的权重系数,即学习率,训练深度判别网络阶段,μf是初始设定不变的,αf初始化后,随着迭代次数增加按比例减小。
CN201610554626.6A 2016-07-14 2016-07-14 基于混合深度结构的场景识别方法 Active CN106203354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610554626.6A CN106203354B (zh) 2016-07-14 2016-07-14 基于混合深度结构的场景识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610554626.6A CN106203354B (zh) 2016-07-14 2016-07-14 基于混合深度结构的场景识别方法

Publications (2)

Publication Number Publication Date
CN106203354A true CN106203354A (zh) 2016-12-07
CN106203354B CN106203354B (zh) 2019-04-12

Family

ID=57476021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610554626.6A Active CN106203354B (zh) 2016-07-14 2016-07-14 基于混合深度结构的场景识别方法

Country Status (1)

Country Link
CN (1) CN106203354B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780543A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于卷积神经网络的双框架估计深度和运动方法
CN107133640A (zh) * 2017-04-24 2017-09-05 河海大学 基于局部图像块描述子和费舍尔向量的图像分类方法
CN107622498A (zh) * 2017-09-29 2018-01-23 北京奇虎科技有限公司 基于场景分割的图像穿越处理方法、装置及计算设备
CN107844769A (zh) * 2017-11-01 2018-03-27 济南浪潮高新科技投资发展有限公司 一种复杂场景下的车辆检测方法及系统
CN107944386A (zh) * 2017-11-22 2018-04-20 天津大学 基于卷积神经网络的视觉场景识别方法
CN108171223A (zh) * 2018-02-27 2018-06-15 北京中晟信达科技有限公司 一种基于多模型多通道的人脸识别方法及系统
CN108230240A (zh) * 2017-12-31 2018-06-29 厦门大学 一种基于深度学习获取图像城市范围内位置及姿态的方法
CN108985328A (zh) * 2018-06-08 2018-12-11 佛山市顺德区中山大学研究院 用于判别角膜溃烂的深度学习模型的构建方法及其系统
CN109087259A (zh) * 2018-08-01 2018-12-25 中国石油大学(北京) 基于卷积自编码器的叠前数据去噪方法及系统
CN109726719A (zh) * 2017-10-31 2019-05-07 比亚迪股份有限公司 基于自动编码器的文字识别方法、装置及计算机设备
CN109978013A (zh) * 2019-03-06 2019-07-05 华南理工大学 一种用于人物动作识别的深度聚类方法
CN110188827A (zh) * 2019-05-29 2019-08-30 创意信息技术股份有限公司 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN110210419A (zh) * 2019-06-05 2019-09-06 中国科学院长春光学精密机械与物理研究所 高分辨率遥感图像的场景识别系统及模型生成方法
CN110472746A (zh) * 2019-08-16 2019-11-19 北京智能工场科技有限公司 一种基于人工智能的编码预测方法和系统
CN110533631A (zh) * 2019-07-15 2019-12-03 西安电子科技大学 基于金字塔池化孪生网络的sar图像变化检测方法
CN110909636A (zh) * 2019-11-08 2020-03-24 北京邮电大学 一种基于非均匀分布的人脸识别方法
CN110991511A (zh) * 2019-11-26 2020-04-10 中原工学院 一种基于深度卷积神经网络的向日葵作物种子分拣方法
CN111027454A (zh) * 2019-12-06 2020-04-17 西安电子科技大学 基于深度密集连接和度量学习的sar舰船目标分类方法
CN111091158A (zh) * 2019-12-25 2020-05-01 科大讯飞股份有限公司 针对教辅图像的图像质量的分类方法、装置及设备
CN112017138A (zh) * 2020-09-02 2020-12-01 衢州光明电力投资集团有限公司赋腾科技分公司 一种基于场景三维结构的图像拼接方法
CN115761517A (zh) * 2023-01-06 2023-03-07 联通(江苏)产业互联网有限公司 一种基于神经网络和物联网的农业场景识别方法
WO2023056889A1 (zh) * 2021-10-09 2023-04-13 百果园技术(新加坡)有限公司 模型训练和场景识别方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646244A (zh) * 2013-12-16 2014-03-19 北京天诚盛业科技有限公司 人脸特征的提取、认证方法及装置
US20140270488A1 (en) * 2013-03-14 2014-09-18 Google Inc. Method and apparatus for characterizing an image
CN104239897A (zh) * 2014-09-04 2014-12-24 天津大学 一种基于自编码器词袋的视觉特征表示方法
WO2015177268A1 (en) * 2014-05-23 2015-11-26 Ventana Medical Systems, Inc. Systems and methods for detection of biological structures and/or patterns in images
US20160035078A1 (en) * 2014-07-30 2016-02-04 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
CN105488519A (zh) * 2015-11-13 2016-04-13 同济大学 一种基于视频尺度信息的视频分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140270488A1 (en) * 2013-03-14 2014-09-18 Google Inc. Method and apparatus for characterizing an image
CN103646244A (zh) * 2013-12-16 2014-03-19 北京天诚盛业科技有限公司 人脸特征的提取、认证方法及装置
WO2015177268A1 (en) * 2014-05-23 2015-11-26 Ventana Medical Systems, Inc. Systems and methods for detection of biological structures and/or patterns in images
US20160035078A1 (en) * 2014-07-30 2016-02-04 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
CN104239897A (zh) * 2014-09-04 2014-12-24 天津大学 一种基于自编码器词袋的视觉特征表示方法
CN105488519A (zh) * 2015-11-13 2016-04-13 同济大学 一种基于视频尺度信息的视频分类方法

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780543A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于卷积神经网络的双框架估计深度和运动方法
CN107133640A (zh) * 2017-04-24 2017-09-05 河海大学 基于局部图像块描述子和费舍尔向量的图像分类方法
CN107622498A (zh) * 2017-09-29 2018-01-23 北京奇虎科技有限公司 基于场景分割的图像穿越处理方法、装置及计算设备
CN107622498B (zh) * 2017-09-29 2021-06-04 北京奇虎科技有限公司 基于场景分割的图像穿越处理方法、装置及计算设备
CN109726719A (zh) * 2017-10-31 2019-05-07 比亚迪股份有限公司 基于自动编码器的文字识别方法、装置及计算机设备
CN107844769A (zh) * 2017-11-01 2018-03-27 济南浪潮高新科技投资发展有限公司 一种复杂场景下的车辆检测方法及系统
CN107844769B (zh) * 2017-11-01 2021-06-01 浪潮集团有限公司 一种复杂场景下的车辆检测方法及系统
CN107944386A (zh) * 2017-11-22 2018-04-20 天津大学 基于卷积神经网络的视觉场景识别方法
CN107944386B (zh) * 2017-11-22 2019-11-22 天津大学 基于卷积神经网络的视觉场景识别方法
CN108230240A (zh) * 2017-12-31 2018-06-29 厦门大学 一种基于深度学习获取图像城市范围内位置及姿态的方法
CN108230240B (zh) * 2017-12-31 2020-07-31 厦门大学 一种基于深度学习获取图像城市范围内位置及姿态的方法
CN108171223A (zh) * 2018-02-27 2018-06-15 北京中晟信达科技有限公司 一种基于多模型多通道的人脸识别方法及系统
CN108985328A (zh) * 2018-06-08 2018-12-11 佛山市顺德区中山大学研究院 用于判别角膜溃烂的深度学习模型的构建方法及其系统
CN109087259A (zh) * 2018-08-01 2018-12-25 中国石油大学(北京) 基于卷积自编码器的叠前数据去噪方法及系统
CN109978013A (zh) * 2019-03-06 2019-07-05 华南理工大学 一种用于人物动作识别的深度聚类方法
CN109978013B (zh) * 2019-03-06 2021-01-19 华南理工大学 一种用于人物动作识别的深度聚类方法
CN110188827A (zh) * 2019-05-29 2019-08-30 创意信息技术股份有限公司 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN110210419A (zh) * 2019-06-05 2019-09-06 中国科学院长春光学精密机械与物理研究所 高分辨率遥感图像的场景识别系统及模型生成方法
CN110533631A (zh) * 2019-07-15 2019-12-03 西安电子科技大学 基于金字塔池化孪生网络的sar图像变化检测方法
CN110533631B (zh) * 2019-07-15 2023-07-04 西安电子科技大学 基于金字塔池化孪生网络的sar图像变化检测方法
CN110472746A (zh) * 2019-08-16 2019-11-19 北京智能工场科技有限公司 一种基于人工智能的编码预测方法和系统
CN110909636A (zh) * 2019-11-08 2020-03-24 北京邮电大学 一种基于非均匀分布的人脸识别方法
CN110909636B (zh) * 2019-11-08 2021-03-19 北京邮电大学 一种基于非均匀分布的人脸识别方法
CN110991511A (zh) * 2019-11-26 2020-04-10 中原工学院 一种基于深度卷积神经网络的向日葵作物种子分拣方法
CN111027454A (zh) * 2019-12-06 2020-04-17 西安电子科技大学 基于深度密集连接和度量学习的sar舰船目标分类方法
CN111027454B (zh) * 2019-12-06 2023-03-10 西安电子科技大学 基于深度密集连接和度量学习的sar舰船目标分类方法
CN111091158A (zh) * 2019-12-25 2020-05-01 科大讯飞股份有限公司 针对教辅图像的图像质量的分类方法、装置及设备
CN111091158B (zh) * 2019-12-25 2024-04-30 科大讯飞股份有限公司 针对教辅图像的图像质量的分类方法、装置及设备
CN112017138A (zh) * 2020-09-02 2020-12-01 衢州光明电力投资集团有限公司赋腾科技分公司 一种基于场景三维结构的图像拼接方法
CN112017138B (zh) * 2020-09-02 2022-06-07 衢州光明电力投资集团有限公司赋腾科技分公司 一种基于场景三维结构的图像拼接方法
WO2023056889A1 (zh) * 2021-10-09 2023-04-13 百果园技术(新加坡)有限公司 模型训练和场景识别方法、装置、设备及介质
CN115761517A (zh) * 2023-01-06 2023-03-07 联通(江苏)产业互联网有限公司 一种基于神经网络和物联网的农业场景识别方法
CN115761517B (zh) * 2023-01-06 2023-04-07 联通(江苏)产业互联网有限公司 一种基于神经网络和物联网的农业场景识别方法

Also Published As

Publication number Publication date
CN106203354B (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN106203354A (zh) 基于混合深度结构的场景识别方法
CN107092870B (zh) 一种高分辨率影像语义信息提取方法
CN110889449A (zh) 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法
CN107766794A (zh) 一种特征融合系数可学习的图像语义分割方法
CN110059741A (zh) 基于语义胶囊融合网络的图像识别方法
CN105512680A (zh) 一种基于深度神经网络的多视sar图像目标识别方法
CN110097029B (zh) 基于Highway网络多视角步态识别的身份认证方法
CN105975931A (zh) 一种基于多尺度池化的卷积神经网络人脸识别方法
Ablavatski et al. Enriched deep recurrent visual attention model for multiple object recognition
CN105160400A (zh) 基于l21范数的提升卷积神经网络泛化能力的方法
CN105069468A (zh) 基于脊波和深度卷积网络的高光谱图像分类方法
CN103258214A (zh) 基于图像块主动学习的遥感图像分类方法
CN105095833A (zh) 用于人脸识别的网络构建方法、识别方法及系统
CN113313180B (zh) 一种基于深度对抗学习的遥感图像语义分割方法
CN106897669A (zh) 一种基于一致迭代多视角迁移学习的行人再辨识方法
CN104680173A (zh) 一种遥感图像场景分类方法
CN111709318B (zh) 一种基于生成对抗网络的高分辨率遥感图像分类方法
CN106022363A (zh) 一种适用于自然场景下的中文文字识别方法
CN113033520A (zh) 一种基于深度学习的树木线虫病害木识别方法及系统
CN106991666A (zh) 一种适用于多尺寸图片信息的病害图像识别方法
CN106096655A (zh) 一种基于卷积神经网络的光学遥感图像飞机检测方法
CN113190688A (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN109165699A (zh) 细粒度图像分类方法
CN104408731B (zh) 基于区域图和统计相似性编码的sar图像分割方法
CN108446616A (zh) 基于全卷积神经网络集成学习的道路提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210312

Address after: 210039 room 1003-3, building 1, 32 Fengzhan Road, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee after: Maxine software technology Nanjing Co.,Ltd.

Address before: 210044, No. 219, Ning six road, Pukou District, Jiangsu, Nanjing

Patentee before: NANJING University OF INFORMATION SCIENCE & TECHNOLOGY

TR01 Transfer of patent right