CN111832641B

CN111832641B - 一种基于级联下采样卷积神经网络的图像识别方法

Info

Publication number: CN111832641B
Application number: CN202010640272.3A
Authority: CN
Inventors: 徐国保; 龙海旭; 郭锦嘉; 冯奕帆; 刘阳; 赵霞; 王骥; 李锦锐; 陈泽林
Original assignee: Guangdong Ocean University
Current assignee: Guangdong Ocean University
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2021-08-27
Anticipated expiration: 2040-07-06
Also published as: CN111832641A

Abstract

本发明公开一种基于级联下采样卷积神经网络的图像识别方法，包括：基于级联下采样卷积神经网络构建图像识别模型；所述基于级联下采样卷积神经网络包括主体网络和两个独立预测网络；所述主体网络包括若干个卷积层和若干个级联下采样块；每个所述独立预测网络包括类别预测子网络和边界框预测子网络；所述独立预测网络的预测结果通过非极大值抑制得到图像识别结果；对构建的图像识别模型进行训练，通过训练好的图像识别模型进行图像识别。本发明能够对图像进行实时准确识别。

Description

一种基于级联下采样卷积神经网络的图像识别方法

技术领域

本发明涉及图像识别技术领域，特别是涉及一种基于级联下采样卷积神经网络的图像识别方法。

背景技术

随着计算机视觉的不断发展，工业检测、车流量计数和自动驾驶等领域也随之发展，而这些领域中最重要的技术就是图像识别，即对图像中的目标进行实时检测。目前大多数图像识别的方法都是基于深度卷积神经网络，并且采用滑窗的形式来对图片做特征提取。深度学习最早的成功是Yann LeCun成功地将深度学习应用于手写体数字识别。基于深度神经网络的图像识别方法已经在各个数据集(例如，ImageNet、Pascal VOC)上取得不错的效果，但是在MSCOCO数据集上的检测精度仍然较低，这为图像识别方法应用到自动驾驶等要求精度较高的场景带来了很大的困难。基于YOLO的图像识别方法以Pascal VOC2012为基准测试集，平均准确率(mAP)为57.9％,并在Nvidia Titan X GPU上运行的速度达45FPS(Frames Per Second)。基于SSD300的图像识别方法在相同条件下的平均准确率为72.4％，速度达59FPS。显然，虽然实现了对图像中目标的实时检测，但是精度还远远未能可靠地应用到工业界中。

先进的图像识别方法主要分为基于One-Stage算法和基于Two-Stage算法两大类。One-Stage算法包括YOLO、SSD以及RetinaNet等，Two-Stage算法包括SPP、Faster-RCNN等；但是这些算法在下采样的时候都仅仅是使用了某一种池化或者步长为2的卷积层，比如YOLO算法只使用了核为2×2，步长为2的最大池化层作为下采样方式，而SPP、Faster-RCNN则在某些层使用了RoI pooling作为下采样方式，但是这种下采样方式和普通池化方式并没有本质上的区别，同样都固定了神经网络的感受野，难以保证图像识别精度。

发明内容

本发明的目的是提供一种基于级联下采样卷积神经网络的图像识别方法，以解决现有技术中存在的技术问题，能够对图像进行实时准确识别。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于级联下采样卷积神经网络的图像识别方法，包括如下步骤：

基于级联下采样卷积神经网络构建图像识别模型；所述基于级联下采样卷积神经网络包括主体网络和两个独立预测网络；所述主体网络包括若干个卷积层和若干个级联下采样块；每个所述独立预测网络包括类别预测子网络和边界框预测子网络；所述独立预测网络的预测结果通过非极大值抑制得到图像识别结果；

对构建的图像识别模型进行训练，通过训练好的图像识别模型进行图像识别。

优选地，所述主体网络还包括若干个残差块，所述残差块用于计算所述卷积层的层数；所述残差块采用Bottleneck构建残差网络；所述Bottleneck的结构包括两个卷积核大小为1×1的卷积层、1个卷积核大小为3×3的卷积层和两个激活函数。

优选地，所述级联下采样块的下采样层同时使用大小不同的若干种卷积核；每个下采样层同时采用最大池化和卷积层两种下采样方式，对不同卷积核大小的下采样层得到的特征图进行相加，每个下采样层通过最大池化和卷积层两种下采样方式得到的特征图采用拼接的方式拼接到一起。

优选地，所述类别预测子网络和边界框预测子网络分别采用Predict-17预测网络和采用Predict-9预测网络；所述Predict-17预测网络指输出结果的宽×高为17×17，即将待识别图像等分为17×17个格子；所述Predict-9预测网络指输出结果的宽×高为9×9，即将待识别图像等分为9×9个格子；每个格子对应一个输出向量，每个输出向量包括预测结果和置信度。

优选地，所述类别预测子网络中的类别标签采用One-Hot向量；所述类别预测子网络先预测父类，再预测父类所对应的子类。

优选地，所述边界框预测子网络通过待识别图像中目标中心点在格子中的相对位置、预测目标的宽和高确定待识别图像中目标的位置。

优选地，所述图像识别模型训练过程中，设定目标类别的权重。

优选地，对图像识别模型进行训练的具体方法包括：

对获取的图像数据集进行数据扩增处理，将数据扩增处理后的数据按照预设比例划分为训练集和测试集；

将训练集样本数据输入图像识别模型，对图像识别模型进行训练；训练过程中采用代价函数作为图像识别模型的评估指标，图像识别模型的代价函数J(x,y)的计算如式4所示：

其中，coord loss、conf loss、class loss分别表示坐标误差损失、正样本置信度误差损失和负样本置信度误差损失之和、分类误差损失，

表示参数的二范数；τ_coord、τ_conf、τ_cls和τ_reg分别表示坐标误差损失、正样本置信度误差损失和负样本置信度误差损失之和、分类误差损失、参数的二范数对图像识别模型代价函数的重要程度；

将测试集样本数据输入训练好的图像识别模型，对图像识别模型的精确度进行验证。

本发明公开了以下技术效果：

(1)本发明引入残差块进行卷积层的层数的计算，能够在保持卷积神经网络的深度的同时，有效防止卷积神经网络出现退化的问题，提高了图像识别的准确率；同时，本发明采用Bottleneck构建残差网络，Bottleneck结构引入了卷积核大小为1×1的卷积层，包括两个卷积核大小为1×1的卷积层和1个卷积核大小为3×3的卷积层，能够有效减少模型的参数量，降低运算复杂度，保证了图像识别的实时性；

(2)本发明级联下采样块采用不同的采样方式和不同的感受野，通过多尺度和不同下采样方式混合的方法，不仅增加了多个感受野带来的语义信息，同时能够提高图像识别模型对图像的学习性能，有效提高了图像识别精度；

(3)本发明类别预测子网络中的类别标签采用One-Hot向量，并通过非极大值抑制方法将最大值置1，其余置0；同时，类别预测子网络采用先预测父类，再预测父类所对应的子类的策略，简化了类别预测子网络的计算过程，有效保证了图像识别的实时性；

(4)本发明采用了类别权重的策略，避免训练集图像中目标识别不平衡的问题对图像识别模型预测精度的影响，有效提高了图像识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于级联下采样卷积神经网络的图像识别模型的具体结构；

图2为本发明实施例中主体网络结构示意图；

图3为本发明实施例中残差块结构示意图，其中，图3a为采用Bottleneck构建的残差块结构示意图，图3b为传统采用两个3×3的卷积层构建的残差块结构示意图；

图4为本发明实施例中级联下采样块结构示意图；

图5为本发明实施例中Predict-17、Predict-9预测网络的卷积层结构示意图；

图6为本发明实施例中Predict-17、Predict-9预测网络的最大池化层结构示意图；

图7为本发明实施例中边界框预测子网络确定待识别图像中目标位置示意图；

图8为本发明实施例中二十个类别对应的权重；

图9为本发明实施例中数据扩增占比图；其中，图9(a)表示经过翻转变换、裁剪变换和无变换的数据占比，图9(b)表示颜色空间变换和无变换的数据占比；

图10为本发明实施例中图像识别模型训练过程中代价函数的损失值变化；

图11为本发明实施例中测试集预测结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1所示，本实施例提供一种基于级联下采样卷积神经网络的图像识别方法，具体包括如下步骤：

S1、基于级联下采样卷积神经网络构建图像识别模型；

所述基于级联下采样卷积神经网络包括主体网络和两个独立预测网络，所述主体网络包括若干个卷积层和若干个级联下采样块，每个所述独立预测网络包括类别预测子网络和边界框预测子网络，所述独立预测网络的预测结果通过非极大值抑制得到图像识别结果，基于级联下采样卷积神经网络的图像识别模型具体结构如图1所示。本实施例中，所述卷积层采用“SAME”模式进行零填充，所述卷积层的步长为1。

所述主体网络还包括若干个残差块，本实施例中主体网络的结构示意图如图2所示。

在卷积神经网络中，输入一张图像，经过卷积层不断进行特征提取，得到的特征逐渐从底层的简单特征到高层的抽象特征，因此，卷积网络太浅不利于特征的抽象，难以拟合大量的数据，通常卷积网络越深越好；但是随着卷积层数量的不断增加，梯度消失和梯度爆炸风险也随之增加；这是因为，卷积神经网络在反向传播进行梯度更新时，不断传播梯度，因此，卷积层数量增加时，梯度逐渐消失，导致随着卷积层的层数增加，图像识别准确率不断下降，称之为“退化”。为了使构建的图像识别模型能够对图像进行准确识别，引入了若干个残差块。如果既要保持卷积神经网络的深度，又不出现退化问题，通过式(1)计算卷积层的层数：

H(x)＝F(x)+x……………………………(1)

其中，x为残差块的输入，H(x)为残差块的输出，F(x)为学得的残差，当F(x)＝0时，等价于恒等映射。

本实施例中，采用了14个残差块来避免梯度消失和梯度爆炸。

所述残差块采用Bottleneck构建残差网络；其中，Bottleneck结构引入了卷积核大小为1×1的卷积层，包括两个卷积核大小为1×1的卷积层和1个卷积核大小为3×3的卷积层；1×1的卷积层能够在所有不同的通道上进行线性组合，且不改变特征图的大小；同时，1×1的卷积层能够起到升维和降维的作用，相比于使用3×3、5×5、7×7或其它大小的卷积核，使用1×1卷积层不仅大大减少了模型参数量，还极大地降低了运算的复杂度，有效保证了图像识别的实时性。Bottleneck结构拥有两个激活函数的运算，引入了更多的非线性映射，提高了图像识别的精度。本实施例中Bottleneck结构示意图如图3(a)所示，传统包括两个3×3卷积层的结构示意图如图3(b)所示。

下采样主要是为了减小图像或者特征图的大小从而减少卷积神经网络的参数量。当前的主流图像识别方法(比如YOLO、SSD、Faster RCNN)在下采样的时候都仅仅使用了某一种池化或者步长为二的卷积层，比如YOLO只使用了核为2×2，步长为2的最大池化层作为下采样方式，而Faster RCNN则在某些层使用了RoI pooling作为下采样方式，但是这种下采样方式和普通池化方式并没有本质上的区别，同样都固定了神经网络的感受野。研究表明，最大池化会导致图像识别精度的下降。

本发明级联下采样块采用不同的采样方式和不同的感受野，级联下采样块的结构示意图如图4。本发明级联下采样块结构与GoogLeNet中的Inception模块类似，但是Inception模块中并没有加入较大的卷积核，并且Inception模块并没有用来进行下采样。不同的是，本发明级联下采样块的下采样层同时使用了大小不同的卷积核K1、K2、K3,本实施例中K1＝17，K2＝5，K3＝3。使用不同大小的卷积核对卷积神经网络是有益的，K1作为最大的卷积核为神经网络带来了较大的感受野，不同卷积核的大小意味着能获得不同的语义信息，有效提高了图像识别精度。在深层网络中语义信息已经足够多的情况下，级联下采样块只需要一个卷积层，而不再需要三个卷积层，这时取K1＝5。

本发明级联下采样块中的每个下采样层同时采用步长为2的最大池化和步长为2的卷积层两种下采样方式，不同卷积核大小的下采样层得到的特征图采用相加的方式进行拼接，而每个下采样层通过最大池化和卷积层两种下采样方式得到的特征图采用拼接的方式，即在保持特征图大小不变的前提下在通道维度上拼接到一起。这样多尺度和不同下采样方式混合的方法，不仅增加了多个感受野带来的语义信息，同时能够提高模型对图像的学习性能，有效提高了图像识别精度。目前主流的目标检测算法大都受限于单一的感受野所导致的语义信息的缺失，而级联下采样的方式则很好地融合了多个感受野的语义信息。

本实施例图像识别模型的输入图像大小为300×300，独立预测网络中，类别预测子网络采用Predict-17预测网络，边界框预测子网络采用Predict-9预测网络，即为了解耦合采用类别和边界框预测分离的方法；Predict-17预测网络、Predict-9预测网络结构如图5和图6所示。Predict-17预测网络指输出结果的宽×高为17×17，相当于将输入图像等分为17×17个格子，而每个格子对应一个输出向量，其中每个输出向量都包含类别预测结果和置信度；Predict-9预测网络指输出结果的宽×高为9×9，相当于将输入图像等分为9×9个格子，而每个格子对应一个输出向量，其中每个输出向量都包含边界框预测结果和置信度。

其中，类别预测子网络中的类别标签采用One-Hot向量，One-Hot向量表示在该向量中，只有一个位置的值为1，其余为0，因此，只需要将不同的位置对应不同的类别，就能形成用来对类别预测子网络进行训练的类别标签，类别预测子网络的类别输出也是One-Hot向量，类别预测子网络的输出为一系列浮点数值，通过非极大值抑制，将最大值置1，其余置0，得到图像的类别识别结果。为了提高图像识别精度，本发明采用先预测父类，再预测父类所对应的子类的策略，其中，父类分为交通工具(Vehicle)、动物(Animal)、室内(Indoor)、人(Person)，将图像的类别预测问题简化成先预测四个父类中的一类，再预测父类中的子类，有效降低了图像识别的计算复杂度，因为直接预测20个类的正负样本的比例为1:19，即需要将预测向量中的19个预测值置0，而本发明方法仅需将预测向量中所在父类中的相应子类的预测值置0，简化了类别预测子网络的计算过程，有效保证了图像识别的实时性。

边界框预测子网络通过待识别图像中目标中心点在格子中的相对位置、预测目标的宽和高确定待识别图像中目标的位置，如图7所示，图7中x和y表示待识别图像中目标中心点坐标的位置，w和h分别表示待识别图像中目标的宽和高。置信度表示有目标的中心点坐标落到该格子中的概率大小。

本实施例中采用9个先验框简化待识别图像中目标宽高的回归。在输入图像为300×300的情况下，当独立预测网络为Predict-17时，先验框的大小为20×20、40×40和80×80三种尺寸，由于待识别图像中的目标通常不是规则的正方形，所以还设计了三种宽高比分别为1：1、1：2.5和2.5：1的子先验框，则每种尺寸的先验框对应三种宽高比的用于训练的子先验框，共有3×3＝9种子先验框。当独立预测网络为Predict-9时，先验框的大小为20×20、80×80和120×120三种尺寸，三种宽高比的子先验框与Predict-17中的子先验框比例一致，因此同样能得到大小不同的9种先验框。本实施例在Predict-17和Predict-9中，所设置的先验框尺寸大小不同，这是因为小的特征图更容易预测大的物体而大的特征图更容易预测小的物体，因此在Predict-9中设置的先验框尺寸偏大。先验框的设置相当于人为地给定一些经验，免去了神经网络从头开始学习目标的检测和形状，加速了神经网络的训练，神经网络只需要对先验框进行微调就能很好地表示待识别图像中目标的真实边界框，有效提高了图像识别的精度和效率。

由于在实际应用中，待识别图像中各个类别的目标数量在数据集中不一致，导致图像识别模型输出的目标类别准确度受到影响；例如，在Pascal VOC2012数据集中，人物在数据集中目标个数为近一万个，而汽车在数据集中目标个数不足七百，数量差距悬殊，如不加以控制，类别的预测会变得困难。

在图像识别模型的训练过程中，训练集图像中目标类别不平衡的问题对图像识别模型的预测有一定影响，传统的解决方法为对样本少的类别进行过采样，但是会导致有偏估计的问题。为了解决这个问题，本实施例使用了改变目标类别权重的方式，也就是说每一个类别对应不同的权重。经过大量的实验，在图8中给出了所有类别的权重，权重越大表示该类目标越难被正确分类。

本实施例中级联下采样卷积神经网络的正则化方法采用留存率为0.5的Dropout，防止过拟合。

S2、对构建的图像识别模型进行训练，通过训练好的图像识别模型进行图像识别；具体包括：

本实施例采用Pascal VOC2007+2012数据集对图像识别模型进行训练及验证。

首先，对获取的图像数据集进行数据扩增处理，将数据扩增处理后的数据按照7:3的比例划分为训练集和测试集；

数据扩增是指在不增加数据集的情况下，采用预设的数据变换规则，在已有的数据上进行数据扩增。本实施例采用翻转、裁剪和颜色空间变换策略来实现数据扩增，并且是单样本随机扩增。实验证明，在相同条件下使用数据扩增比不使用数据扩增准确率高了3到4个百分点。其中，颜色空间变换是指将图片从RGB空间转换到HSV(Hue,Saturation,Value，色调，饱和度，亮度)空间，因此，通过随机适当调整图像的色调、饱和度和亮度来实现数据扩增。数据扩增后，经过翻转变换、裁剪变换和无变换的数据占比如图9(a)所示，颜色空间变换和无变换的数据占比如图9(b)：

其次，将训练集样本数据输入图像识别模型，对图像识别模型进行训练；

在模型训练中，输入的训练集图像批量大小为64～128，由于显卡内存的限制，本实施例使用的图像批量大小为16。训练集图像输入图像识别模型之前进行归一化处理，但是否进行归一化处理对图像识别模型的准确率影响不大。卷积神经网络的初始学习率设置为1×10^-4，并采用Adam优化器对卷积神经网络进行优化，Adam优化器是采用能够取代传统梯度下降的一阶优化算法。同时，基于激活函数Relu在负半区会导致神经元无法更新，从而出现失活现象，本实施例采用负半区斜率为0.1的Leaky Relu激活函数。图像识别模型训练过程中，最重要的指标是代价函数的损失。

代价函数是指预测值与真实值误差损失加上与图像识别模型相同复杂度的惩罚项，预测值与真实值的差距越大，损失就越大。由于预测中的类别、边界框参数和正负样本贡献的损失不一样，而且需要对预测的不同部分给予不同的关注程度，因此本实施例给定不同预测部分不同的比例权重。本实施例中，代价函数由坐标误差损失、正样本置信度误差损失、负样本置信度误差损失、父类分类误差损失、子类分类误差损失和L2正则化项组成。本实施例中，计算误差损失的公式均省去了在某些维度上求和和求平均步骤，仅关注于对图像识别模型预测值误差损失的计算方式。

坐标误差损失coord loss的计算如式(2)所示：

其中，x₁、y₁、w₁、h₁分别代表待识别图像中目标中心点坐标和目标宽高的真实值，相对应的，x_p、y_p、w_p、h_p分别代表待识别图像中目标中心点坐标和目标宽高的预测值。

正样本置信度误差损失和负样本置信度误差损失之和conf loss的计算如式(3)所示：

conf loss＝-α(1-p)^γlog(p)⊙obj mask-(1-α)p^γlog(1-p)⊙noobj mask…(3)

其中，p表示图像识别模型类别预测的置信度，γ、α均为常量，obj mask表示存在目标的掩码，noobj mask表示不存在目标的掩码；本实施例中置信度p的真实值为{0，1}，0表示待测图像中没有目标，1表示待测图像中存在目标；γ的值为2，α的值为0.75。

分类误差损失为父类分类误差损失和子类分类误差损失之和，采用交叉熵损失函数计算分类误差损失class loss。

综上，图像识别模型的代价函数J(x，y)的计算如式(4)所示：

表示参数的二范数；τ_coord、τ_conf、τ_cls和τ_reg分别表示坐标误差损失、正样本置信度误差损失和负样本置信度误差损失之和、分类误差损失、参数的二范数对图像识别模型代价函数的重要程度，本实施例中τ_coord、τ_conf、τ_cls和τ_reg分别设置为8.0、4.0、10.0和1.0。

本实施例中代价函数的损失值在训练过程中的变化如图10所不。

再次，将测试集样本数据输入训练好的图像识别模型，对图像识别模型的精确度进行验证。

通过验证，本发明基于级联下采样卷积神经网络的图像识别方法运算速度达到91FPS，测试集的预测效果如图11所示。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于级联下采样卷积神经网络的图像识别方法，其特征在于，包括如下步骤：

对构建的图像识别模型进行训练，通过训练好的图像识别模型进行图像识别；

所述级联下采样块的下采样层同时使用大小不同的若干种卷积核；每个下采样层同时采用最大池化和卷积层两种下采样方式，对不同卷积核大小的下采样层得到的特征图进行相加，每个下采样层通过最大池化和卷积层两种下采样方式得到的特征图采用拼接的方式拼接到一起；

所述类别预测子网络和边界框预测子网络分别采用Predict-17预测网络和Predict-9预测网络；所述Predict-17预测网络指输出结果的宽×高为17×17，即将待识别图像等分为17×17个格子；所述Predict-9预测网络指输出结果的宽×高为9×9，即将待识别图像等分为9×9个格子；每个格子对应一个输出向量，每个输出向量包括预测结果和置信度；

采用9个先验框简化待识别图像中目标宽高的回归，所述先验框的大小包括三种尺寸，每种尺寸的先验框分别对应三种不同的宽高比，在Predict-17和Predict-9中，先验框尺寸大小不同；

所述类别预测子网络中的类别标签采用One-Hot向量；所述类别预测子网络先预测父类，再预测父类所对应的子类。

2.根据权利要求1所述的基于级联下采样卷积神经网络的图像识别方法，其特征在于，所述主体网络还包括若干个残差块，所述残差块用于计算所述卷积层的层数；所述残差块采用Bottleneck构建残差网络；所述Bottleneck的结构包括两个卷积核大小为1×1的卷积层、1个卷积核大小为3×3的卷积层和两个激活函数。

3.根据权利要求1所述的基于级联下采样卷积神经网络的图像识别方法，其特征在于，所述边界框预测子网络通过待识别图像中目标中心点在格子中的相对位置、预测目标的宽和高确定待识别图像中目标的位置。

4.根据权利要求1所述的基于级联下采样卷积神经网络的图像识别方法，其特征在于，所述图像识别模型训练过程中，设定目标类别的权重。

5.根据权利要求1所述的基于级联下采样卷积神经网络的图像识别方法，其特征在于，对图像识别模型进行训练的具体方法包括：