CN109886331A

CN109886331A - 一种基于卷积神经网络结构提取图像特征的方法

Info

Publication number: CN109886331A
Application number: CN201910121702.8A
Authority: CN
Inventors: 王楷元; 段迅达; 其他发明人请求不公开姓名
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2019-02-17
Filing date: 2019-02-17
Publication date: 2019-06-14

Abstract

一种基于卷积神经网络结构提取图像特征的方法，属于计算机深度学习领域，其特征是采用不同大小卷积核相结合，在提升网络深度的同时，对网络提取的特征进行降维。本发明增加了卷积神经网络的深度，提高网络提取图像特征的能力，同时避免了由于网络深度增加带来的计算量增大，梯度弥散消失等问题，加快了神经网络的训练过程，提升了网络的性能。

Description

一种基于卷积神经网络结构提取图像特征的方法

技术领域

本发明属于计算机深度学习领域，涉及一种基于跳跃连接原理，结合对浅层网络加深的方法，提高卷积神经网络结构图像提取特征的能力。

背景技术

卷积神经网络是一类包含卷积、池化、激活函数计算并且具有一定深度结构的神经网络，是深度学习领域的代表算法之一。目前已经被大量研究实例证实，在目标分类、定位、检测领域有强劲的表现，并以多层次的特征学习与丰富的特征表达能力，在目标检测领域取得了突破进展。

最近几年，卷积神经网络在物体识别领域逐渐发展成为候选框结合卷积神经网络进行目标分类，这种方法虽然提升了物体识别的准确率，但同时带来了以下问题：在训练过程中，首先要训练物体候选框位置的提取，再用提取到的候选框训练卷积神经网络，由于需要对每一个提取的候选框进行分类计算，因此导致计算量庞大，检测速度慢。目前，有基于回归方法的神经网络结构能使网络变浅，直接回归出物体的位置类别信息，这样的结构使得网络检测的速率大幅提高，但同时浅层网络结构带来的问题：提取的图像特征不够精细，对网络分类的准确性产生影响。

如上所述对于物体识别任务中，已存在多种卷积神经网络框架，但是在检测速度和检测准确率方面不能达到很好的兼容，导致实际应用存在诸多限制。目前，能使网络结构加深，且避免结构加深带来的梯度消失问题，同时保证网络检测速度的方法是在网络结构中添加跳跃连接，组成残差块。

一般来说，提升网络性能最直接的办法就是增加网络深度和宽度，但是这样会带来一些缺陷：参数太多，容易过拟合；网络越大计算复杂度越大，难以应用；网络越深，梯度越往后越容易消失。

发明内容

为了解决网络层数增加的情况下可能出现的梯度消失问题，提升网络性能，同时提高网络检测准确率，本发明要解决由于网络结构较浅带来的网络提取特征能力弱，物体识别精度不高的问题。本发明提出一种加深网络深度的卷积神经网络结构，同时避免网络结构加深带来的梯度消失问题，保证网络的检测精度和速度。

为了解决上述技术问题，本发明的技术方案是添加跳跃连接并增加深度的卷积神经网络结构的一种基于卷积神经网络结构提取图像特征的方法。

一种基于卷积神经网络结构提取图像特征的方法，包括以下步骤：

（1）利用卷积神经网络提取图像特征，增加卷积神经网络的深度，提高网络提取特征的能力，采用不同大小卷积核相结合，在提升网络深度的同时，对网络提取的特征进行降维；

所述卷积核的大小为1×1和3×3的组合，利用1×1的卷积核对图像特征进行降维，再用3×3的卷积核对图像特征进行卷积操作，提取更加精细的图像特征，每经过一层卷积层之后都使用Relu激活，并添加批量归一化层（BN）。

每一组1×1和3×3的卷积层通过跳跃连接组成残差块结构，整个神经网络结构采用残差块堆叠而成。

本发明与现有技术相比具有如下特点：本发明的残差块结构，增加了卷积神经网络的深度，提高网络提取图像特征的能力，同时避免了由于网络深度增加带来的计算量增大，梯度弥散消失等问题，加快了神经网络的训练过程，提升了网络的性能。

附图说明

图1为本发明的残差块结构；

图2为本发明中卷积神经网络结构示意图；

图中的箭头方向代表跳跃连接，组成残差块结构。

具体实施方式

下面结合附图对本发明做详细的说明。

图1所示，本发明的残差块结构由1×1和3×3的两个卷积层组成，这样的局部网络结构可以解决网络深度增加带来的梯度消失问题，同时跳跃连接可以提升网络反馈效率，加快网络的训练速度。

图2所示，一种基于卷积神经网络结构提取图像的方法，包括下述步骤：

（1）图像输入，图像为任意尺寸的RGB色彩模式图像，假设图像像素为416×416；

图像经过3个3×3卷积层和2个最大池化层之后，输出的特征维度为104×104×128。

（2）连接如图1所示的残差块结构，再经过1个最大池化和3×3的卷积层之后输出52×52×256大小的特征向量。

（3）经过2个残差块结构，再经过1个最大池化和3×3的卷积层输出的特征向量为26×26×512。

（4）经过4个残差块结构，输出的特征向量为26×26×512，输出记为A。

（5）经过1个最大池化和3×3的卷积层输出的特征向量为13×13×1024。

（6）经8个残差块结构，输出特征向量为13×13×1024，并与A输出进行特征融合，输出为13×13×3072。

（7）经过3×3的卷积层和一个1×1的卷积层输出13×13×30的特征向量，并以此特征向量对目标类别和位置进行预测，预测信息包括目标的类别，置信度以及位置。

本发明的网络结构包括19个3×3的卷积层和5个最大池化层，并组成了11个残差块结构。

性能方面：本发明利用KITTI数据集中的车辆目标作为检测对象，再KITTI数据集制作成的VOC 2007格式数据集上训练得到网络模型。训练经过100个Epoch网络收敛，损失降至0.02以下。

将训练好的网络模型在测试集上检测目标，单类目标的ap值达到0.7749，达到了较好的检测效果。

本发明一方面通过1×1和3×3的卷积层来增加网络结构的深度，使得卷积神经网络可以提取到更高维度的特征，同时组成的局部残差块结构又解决了网络深度增加对训练过程带来的梯度消失和梯度弥散问题，只单单给网络提升提取图像特征的能力，提升网络的检测准确率，同时网络结构中的1×1卷积层的应用，可以对网络的参数进行降维，使得网络参数不会随着网络深度的增加而大幅增加以致网络计算量急剧增加，网络检测变慢的问题产生，使得网络的性能依然保持在最佳状态。

Claims

1.一种基于卷积神经网络结构提取图像特征的方法，其特征是采用不同大小卷积核相结合，在提升网络深度的同时，对网络提取的特征进行降维。

2.根据权利要求1所述一种基于卷积神经网络结构提取图像特征的方法，其特征是所述网络结构包括19个3×3的卷积层和5个最大池化层组成的11个残差块结构。

3.根据权利要求1所述一种基于卷积神经网络结构提取图像特征的方法，其特征是所述卷积核大小为1×1和3×3的组合，利用1×1的卷积核对图像特征进行降维，再用3×3的卷积核对图像特征进行卷积操作，提取更加精细的图像特征，每经过一层卷积层之后都使用Relu激活函数激活，并添加批量归一化层；每一组1×1和3×3的卷积层通过跳跃连接组成残差块结构。

4.根据权利要求1所述一种基于卷积神经网络结构提取图像特征的方法，其特征是包括下述步骤：

（1）图像输入，图像经过3个3×3卷积层和2个最大池化层之后，输出特征维度；

（2）连接残差块结构，再经过1个最大池化和3×3的卷积层之后输出第一特征向量；

（3）经过2个残差块结构，再经过1个最大池化和3×3的卷积层输出第二特征向量；

（4）经过4个残差块结构，输出第三特征向量；

（5）经过1个最大池化和3×3的卷积层输出的第四特征向量；

（6）经8个残差块结构，输出第五特征向量并与第三特征向量进行特征融合，输出为第五特征向量；

（7）经过3×3的卷积层和一个1×1的卷积层输出最终特征向量，并以最终特征向量对目标类别、置信度以及位置进行预测。

5.根据权利要求1~4任意一项所述一种基于卷积神经网络结构提取图像特征的方法，其特征是所述图像像素为416×416；

图像经过3个3×3卷积层和2个最大池化层之后，输出的特征维度为104×104×128；

（2）连接残差块结构，再经过1个最大池化和3×3的卷积层之后输出的第一特征向量为52×52×256；

（3）经过2个残差块结构，再经过1个最大池化和3×3的卷积层输出的第二特征向量为26×26×512；

（4）经过4个残差块结构，输出的第三特征向量为26×26×512；

（5）经过1个最大池化和3×3的卷积层输出的第四特征向量为13×13×1024；

（6）经8个残差块结构，输出第五特征向量的图像像素为13×13×1024，第五特征向量与第四特征向量进行特征融合，输出第六特征向量为13×13×3072；

（7）经过3×3的卷积层和一个1×1的卷积层输出最终特征向量为13×13×30。