CN110222716A

CN110222716A - 基于全分辨率深度卷积神经网络的图像分类方法

Info

Publication number: CN110222716A
Application number: CN201910379525.3A
Authority: CN
Inventors: 庞彦伟; 李亚钊; 谢今; 汪天才; 张志杰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2019-09-10
Anticipated expiration: 2039-05-08
Also published as: CN110222716B

Abstract

本发明涉及一种基于全分辨率深度卷积神经网络的图像分类方法，包括下列步骤：准备训练图像集合及集合中每幅图像的类别标签；设定全分辨率卷积神经网络的层数；对输入图像先进行跨度卷积，然后将未经跨度卷积计算过的元素由1×1卷积进行计算，从而得到第一个全分辨率特征层，然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络，该网络最后一层称为HHF层；将HHF层划分成若干个区域，然后通过平均池化提取每个区域的特征，将这些区域的特征串联起来构成一个特征向量，将特征向量层和类别向量进行全连接，并对类别向量的每个元素进行Sigmoid运算；设定训练的损失函数；训练。

Description

基于全分辨率深度卷积神经网络的图像分类方法

技术领域

本发明涉及生物特征识别、人机交互、视频监控、无人驾驶等计算机视觉领域中图像分类方法，主要涉及基于深度卷积神经网络的图像分类方法。

背景技术

图像分类是将给定的图像分成若干预先定义好的类别的过程。例如，在人脸识别中，将一张人脸图像分类成不同身份的人脸；在场景分类中，将一幅图像分类成室内场景或室外场景。

由于具备强大的层次化特征表达能力，深度卷积神经网络已经成为最先进的图像识别框架。最具代表性的深度卷积神经网络方法是AlexNet[1]、VggNet[2]、ResNet[3]、DenseNet[4]等。对于输入图像，现有基于深度卷积神经网络的方法根据分辨率大小将神经网络分成若干块(block)，每块内部的若干特征层(layer)具有相同的分辨率，第一块分辨率最高，其后面的块的分辨率逐渐降低(一般成倍降低)。例如第一块、第二块、第三块、第四块、第五块的分辨率分别是128×128、64×64、32×32、16×16、8×8。图1显示了一个现有神经网络结构，其中第一块内的各个层的分辨率和输入图像的分辨率都是w×h。但第二块和第三块的分辨率分别降低为(w/2)×(h/2)和(w/4)×(h/4)。

参考文献：

[1]A.Krizhevsky,I.Sutskever,andG.E.Hinton,“Imagenetclassificationwithdeep convolutionalneuralnetworks,”Proc.Advances inNeuralInformationProcessingSystems,2012.

[2]K.SimonyanandA.Zisserman,“Verydeepconvolutionalnetworks forlarge-scale image recognition,”CoRR,vol.abs/1409.1556,2014.[Online].Available:http://arxiv.org/abs/1409.1556

[3]K.He,X.Zhang,S.Ren andJ.Sun,“Deep ResidualLearning forImageRecognition,”in Proc.IEEE ConferenceonComputerVisionandPatternRecognition,pp.770-778,2016.

[4]G.Huang,Z.Liu,and K.Q.Weinberger,“Densely Connected CovolutionalNetworks,”inProc.IEEE InternationalConferenceonComputerVisionandPatternRecognition,2017.

发明内容

本发明主要解决的技术问题是如何避免现有深度卷积神经网络因为逐渐降低分辨率带来的信息损失。为了解决该问题，本发明提出一种全分辨率深度卷积神经网络方法，在不显著增加计算量的情况下提高图像分类的正确率。技术方案如下：

一种基于全分辨率深度卷积神经网络的图像分类方法，包括下列步骤：

步骤1：准备训练图像集合及集合中每幅图像的类别标签；

步骤2：设定全分辨率卷积神经网络的层数；

步骤3：设定第i层全分辨率卷积的跨度卷积的跨度d_i、核大小m_i×m_i，d_i≥2、m_i≥2，且d_i+1≥d_i、m_i+1≥m_i，由跨度卷积和1×1卷积构成全分辨率卷积；

步骤4：对输入图像先进行跨度为d₁、核大小为m₁×m₁的跨度卷积，然后将未经跨度卷积计算过的元素由1×1卷积进行计算，从而得到第一个全分辨率特征层，然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络，该网络最后一层称为HHF层；

步骤5：将HHF层划分成若干个区域，然后通过平均池化提取每个区域的特征，将这些区域的特征串联起来构成一个特征向量，将特征向量层和类别向量进行全连接，并对类别向量的每个元素进行Sigmoid运算；

步骤6：设定训练的损失函数，该损失函数主要衡量神经网络预测分类标签和图像真实标签之间的差别；

步骤7：通过反向传播算法，不断更新网络的权重参数，当迭代次数结束时，所学习的权重参数为最终的网络参数；

步骤8：给定待分类的图像，将其输入给全分辨率神经网络,输出的类别向量即是最终分类结果。

优选地，步骤2设定每个特征层的分辨率都与输入图像的分辨率一样大。步骤3用膨胀卷积作为跨度卷积。

附图说明

图1:现有卷积神经网络结构图示意。最左侧是分辨率为w×h的输入图像，其后的特征层的分辨率成倍降低。

图2.本发明所提卷积神经网络结构图示意。最左侧是分辨率为w×h的输入图像，其后的特征层的分辨率均是w×h。

图3.针对全分辨率网络层的卷积运算。标有’s’符号的元素由跨度为d＝2的跨度卷积运算得到，而未经跨度卷积计算过的元素均由1×1卷积得到。

图4.一个用于图像分类的16层全分辨率神经网络架构。最后一层L₁₆是HHF层。L₁₇层是特征向量层。L₁₈层是类别向量层。

具体实施方式

图2给出了本发明的主要思想。在本发明的卷积神经网络中，所特征层的分辨率都和输入图像的分辨率一样大。由于全分辨率的保持，使网络能够提取更多的细节信息，称之谓全分辨率网络(full-resolution network)。传统方法由于使用了一系列池化(pooling)、跨度为2的卷积等下采样操作，使分辨率严重下降，损失了大量细节信息。本发明所提方法丢弃了下采样操作，使分辨率及细节信息得以保持。

需要指出的是，如果直接将现有方法的下采样操作去掉，那么会由于分辨率太大而导致网络的卷积运算量很大。因此，如何在去掉下采样的情况下，减少卷积运算的计算量是关键。为了解决该问题，本发明提出如图3所示的针对全分辨率特征层的高效卷积运算方法。其核心思想是在空间域层面交替进行跨度为d、核大小为m×m的卷积(其中d≥2、m≥2，简称跨度卷积)和无跨度的、核大小为1×1的卷积(简称1×1卷积)。在图3中，标有’s’符号的元素由跨度为d＝2的跨度卷积运算得到，而未经跨度卷积计算过的元素均由1×1卷积得到。由于1×1卷积计算量很小且大部分元素都是经过1×1卷积运算得到的，所以该方法计算量较少，适合于针对全分辨率特征层进行卷积运算。

如图4所示，若干个由全分辨率特征层构成全分辨率神经网络架构。最后一个全分辨率特征层不仅具有高分辨率的特点还具备高语义的特点，所以称之为高分辨率高语义特征层(High resolution andHigh-level Semantic Feature layer)，简称HHF。图4所示的全分辨率神经网络架构包含16个全分辨率特征层:L₁、L₂、…、L₁₆，其中最后一层L₁₆是HHF层(即HHF layer)。

最终的图像分类基于HHF层进行。方法是将HHF层划分成若干个相交或不相交的区域(在图4中，HHF层被划分成4个不相交的区域)；通过平均池化或其它方法提取每个区域的特征，将这些区域的特征串联起来构成一个特征向量(对应图4的L₁₇层)。设图像的类别数目是C，则类别向量b就是C维向量。将特征向量层和类别向量进行全连接，并对类别向量的每个元素进行Sigmoid运算，完成最终的图像分类。

所提方法可以经过如下几个步骤进行实施：

步骤1：准备训练图像集合及集合中每幅图像的类别标签。设类别标签的个数为C。

步骤2：设定全分辨率卷积神经网络的层数。设定每个特征层的分辨率都与输入图像的分辨率一样大。

步骤3：设定第i层全分辨率卷积的跨度卷积的跨度d_i、核大小m_i×m_i,要求d_i≥2、m_i≥2，且一般d_i+1≥d_i、m_i+1≥m_i。由跨度卷积和1×1卷积构成全分辨率卷积。为了提高效率，可以用膨胀卷积作为跨度卷积。

步骤4：对输入图像先进行跨度为d₁、核大小为m₁×m₁的跨度卷积，然后将未经跨度卷积计算过的元素由1×1卷积进行计算，从而得到第一个全分辨率特征层。然后依次逐层得到所有全分辨率特征层并构成整体全分辨率神经网络。该网络最后一层称为HHF层。

步骤5：将HHF层划分成若干个区域，然后通过平均池化(或其它方法)提取每个区域的特征，将这些区域的特征串联起来构成一个特征向量。将特征向量层和类别向量进行全连接，并对类别向量的每个元素进行Sigmoid运算。

步骤6：设定训练的损失函数，该损失函数主要衡量神经网络预测分类标签和图像真实标签之间的差别。

步骤7：通过反向传播算法，不断更新网络的权重参数(即全卷积滤波器(滤波器又称为核)的参数)。当迭代次数结束时，所学习的权重参数为最终的网络参数。

Claims

1.一种基于全分辨率深度卷积神经网络的图像分类方法，包括下列步骤：

步骤1：准备训练图像集合及集合中每幅图像的类别标签。

步骤2：设定全分辨率卷积神经网络的层数；

2.根据权利要求1所述的方法，其特征在于，步骤2设定每个特征层的分辨率都与输入图像的分辨率一样大。

3.根据权利要求1所述的方法，其特征在于，步骤3用膨胀卷积作为跨度卷积。