CN109886331A - 一种基于卷积神经网络结构提取图像特征的方法 - Google Patents
一种基于卷积神经网络结构提取图像特征的方法 Download PDFInfo
- Publication number
- CN109886331A CN109886331A CN201910121702.8A CN201910121702A CN109886331A CN 109886331 A CN109886331 A CN 109886331A CN 201910121702 A CN201910121702 A CN 201910121702A CN 109886331 A CN109886331 A CN 109886331A
- Authority
- CN
- China
- Prior art keywords
- image
- feature vector
- network
- convolutional
- residual error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
一种基于卷积神经网络结构提取图像特征的方法,属于计算机深度学习领域,其特征是采用不同大小卷积核相结合,在提升网络深度的同时,对网络提取的特征进行降维。本发明增加了卷积神经网络的深度,提高网络提取图像特征的能力,同时避免了由于网络深度增加带来的计算量增大,梯度弥散消失等问题,加快了神经网络的训练过程,提升了网络的性能。
Description
技术领域
本发明属于计算机深度学习领域,涉及一种基于跳跃连接原理,结合对浅层网络加深的方法,提高卷积神经网络结构图像提取特征的能力。
背景技术
卷积神经网络是一类包含卷积、池化、激活函数计算并且具有一定深度结构的神经网络,是深度学习领域的代表算法之一。目前已经被大量研究实例证实,在目标分类、定位、检测领域有强劲的表现,并以多层次的特征学习与丰富的特征表达能力,在目标检测领域取得了突破进展。
最近几年,卷积神经网络在物体识别领域逐渐发展成为候选框结合卷积神经网络进行目标分类,这种方法虽然提升了物体识别的准确率,但同时带来了以下问题:在训练过程中,首先要训练物体候选框位置的提取,再用提取到的候选框训练卷积神经网络,由于需要对每一个提取的候选框进行分类计算,因此导致计算量庞大,检测速度慢。目前,有基于回归方法的神经网络结构能使网络变浅,直接回归出物体的位置类别信息,这样的结构使得网络检测的速率大幅提高,但同时浅层网络结构带来的问题:提取的图像特征不够精细,对网络分类的准确性产生影响。
如上所述对于物体识别任务中,已存在多种卷积神经网络框架,但是在检测速度和检测准确率方面不能达到很好的兼容,导致实际应用存在诸多限制。目前,能使网络结构加深,且避免结构加深带来的梯度消失问题,同时保证网络检测速度的方法是在网络结构中添加跳跃连接,组成残差块。
一般来说,提升网络性能最直接的办法就是增加网络深度和宽度,但是这样会带来一些缺陷:参数太多,容易过拟合;网络越大计算复杂度越大,难以应用;网络越深,梯度越往后越容易消失。
发明内容
为了解决网络层数增加的情况下可能出现的梯度消失问题,提升网络性能,同时提高网络检测准确率,本发明要解决由于网络结构较浅带来的网络提取特征能力弱,物体识别精度不高的问题。本发明提出一种加深网络深度的卷积神经网络结构,同时避免网络结构加深带来的梯度消失问题,保证网络的检测精度和速度。
为了解决上述技术问题,本发明的技术方案是添加跳跃连接并增加深度的卷积神经网络结构的一种基于卷积神经网络结构提取图像特征的方法。
一种基于卷积神经网络结构提取图像特征的方法,包括以下步骤:
(1)利用卷积神经网络提取图像特征,增加卷积神经网络的深度,提高网络提取特征的能力,采用不同大小卷积核相结合,在提升网络深度的同时,对网络提取的特征进行降维;
所述卷积核的大小为1×1和3×3的组合,利用1×1的卷积核对图像特征进行降维,再用3×3的卷积核对图像特征进行卷积操作,提取更加精细的图像特征,每经过一层卷积层之后都使用Relu激活,并添加批量归一化层(BN)。
每一组1×1和3×3的卷积层通过跳跃连接组成残差块结构,整个神经网络结构采用残差块堆叠而成。
本发明与现有技术相比具有如下特点:本发明的残差块结构,增加了卷积神经网络的深度,提高网络提取图像特征的能力,同时避免了由于网络深度增加带来的计算量增大,梯度弥散消失等问题,加快了神经网络的训练过程,提升了网络的性能。
附图说明
图1为本发明的残差块结构;
图2为本发明中卷积神经网络结构示意图;
图中的箭头方向代表跳跃连接,组成残差块结构。
具体实施方式
下面结合附图对本发明做详细的说明。
图1所示,本发明的残差块结构由1×1和3×3的两个卷积层组成,这样的局部网络结构可以解决网络深度增加带来的梯度消失问题,同时跳跃连接可以提升网络反馈效率,加快网络的训练速度。
图2所示,一种基于卷积神经网络结构提取图像的方法,包括下述步骤:
(1)图像输入,图像为任意尺寸的RGB色彩模式图像,假设图像像素为416×416;
图像经过3个3×3卷积层和2个最大池化层之后,输出的特征维度为104×104×128。
(2)连接如图1所示的残差块结构,再经过1个最大池化和3×3的卷积层之后输出52×52×256大小的特征向量。
(3)经过2个残差块结构,再经过1个最大池化和3×3的卷积层输出的特征向量为26×26×512。
(4)经过4个残差块结构,输出的特征向量为26×26×512,输出记为A。
(5)经过1个最大池化和3×3的卷积层输出的特征向量为13×13×1024。
(6)经8个残差块结构,输出特征向量为13×13×1024,并与A输出进行特征融合,输出为13×13×3072。
(7)经过3×3的卷积层和一个1×1的卷积层输出13×13×30的特征向量,并以此特征向量对目标类别和位置进行预测,预测信息包括目标的类别,置信度以及位置。
本发明的网络结构包括19个3×3的卷积层和5个最大池化层,并组成了11个残差块结构。
性能方面:本发明利用KITTI数据集中的车辆目标作为检测对象,再KITTI数据集制作成的VOC 2007格式数据集上训练得到网络模型。训练经过100个Epoch网络收敛,损失降至0.02以下。
将训练好的网络模型在测试集上检测目标,单类目标的ap值达到0.7749,达到了较好的检测效果。
本发明一方面通过1×1和3×3的卷积层来增加网络结构的深度,使得卷积神经网络可以提取到更高维度的特征,同时组成的局部残差块结构又解决了网络深度增加对训练过程带来的梯度消失和梯度弥散问题,只单单给网络提升提取图像特征的能力,提升网络的检测准确率,同时网络结构中的1×1卷积层的应用,可以对网络的参数进行降维,使得网络参数不会随着网络深度的增加而大幅增加以致网络计算量急剧增加,网络检测变慢的问题产生,使得网络的性能依然保持在最佳状态。
Claims (5)
1.一种基于卷积神经网络结构提取图像特征的方法,其特征是采用不同大小卷积核相结合,在提升网络深度的同时,对网络提取的特征进行降维。
2.根据权利要求1所述一种基于卷积神经网络结构提取图像特征的方法,其特征是所述网络结构包括19个3×3的卷积层和5个最大池化层组成的11个残差块结构。
3.根据权利要求1所述一种基于卷积神经网络结构提取图像特征的方法,其特征是所述卷积核大小为1×1和3×3的组合,利用1×1的卷积核对图像特征进行降维,再用3×3的卷积核对图像特征进行卷积操作,提取更加精细的图像特征,每经过一层卷积层之后都使用Relu激活函数激活,并添加批量归一化层;每一组1×1和3×3的卷积层通过跳跃连接组成残差块结构。
4.根据权利要求1所述一种基于卷积神经网络结构提取图像特征的方法,其特征是包括下述步骤:
(1)图像输入,图像经过3个3×3卷积层和2个最大池化层之后,输出特征维度;
(2)连接残差块结构,再经过1个最大池化和3×3的卷积层之后输出第一特征向量;
(3)经过2个残差块结构,再经过1个最大池化和3×3的卷积层输出第二特征向量;
(4)经过4个残差块结构,输出第三特征向量;
(5)经过1个最大池化和3×3的卷积层输出的第四特征向量;
(6)经8个残差块结构,输出第五特征向量并与第三特征向量进行特征融合,输出为第五特征向量;
(7)经过3×3的卷积层和一个1×1的卷积层输出最终特征向量,并以最终特征向量对目标类别、置信度以及位置进行预测。
5.根据权利要求1~4任意一项所述一种基于卷积神经网络结构提取图像特征的方法,其特征是所述图像像素为416×416;
图像经过3个3×3卷积层和2个最大池化层之后,输出的特征维度为104×104×128;
(2)连接残差块结构,再经过1个最大池化和3×3的卷积层之后输出的第一特征向量为52×52×256;
(3)经过2个残差块结构,再经过1个最大池化和3×3的卷积层输出的第二特征向量为26×26×512;
(4)经过4个残差块结构,输出的第三特征向量为26×26×512;
(5)经过1个最大池化和3×3的卷积层输出的第四特征向量为13×13×1024;
(6)经8个残差块结构,输出第五特征向量的图像像素为13×13×1024,第五特征向量与第四特征向量进行特征融合,输出第六特征向量为13×13×3072;
(7)经过3×3的卷积层和一个1×1的卷积层输出最终特征向量为13×13×30。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910121702.8A CN109886331A (zh) | 2019-02-17 | 2019-02-17 | 一种基于卷积神经网络结构提取图像特征的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910121702.8A CN109886331A (zh) | 2019-02-17 | 2019-02-17 | 一种基于卷积神经网络结构提取图像特征的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109886331A true CN109886331A (zh) | 2019-06-14 |
Family
ID=66928395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910121702.8A Pending CN109886331A (zh) | 2019-02-17 | 2019-02-17 | 一种基于卷积神经网络结构提取图像特征的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109886331A (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764317A (zh) * | 2018-05-21 | 2018-11-06 | 浙江工业大学 | 一种基于多路特征加权的残差卷积神经网络图像分类方法 |
-
2019
- 2019-02-17 CN CN201910121702.8A patent/CN109886331A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764317A (zh) * | 2018-05-21 | 2018-11-06 | 浙江工业大学 | 一种基于多路特征加权的残差卷积神经网络图像分类方法 |
Non-Patent Citations (3)
Title |
---|
GAO HUANG ET AL.: "Densely Connected Convolutional Networks", 《ARXIV》 * |
JOSEPH REDMON ET AL.: "YOLO9000:Better, Faster, Stronger", 《ARXIV》 * |
木盏: "yolo系列之yolo v3", 《CSDN》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Single-shot refinement neural network for object detection | |
Liao et al. | Textboxes: A fast text detector with a single deep neural network | |
Chen et al. | Global context-aware progressive aggregation network for salient object detection | |
Li et al. | YOLO-ACN: Focusing on small target and occluded object detection | |
CN107844795B (zh) | 基于主成分分析的卷积神经网络特征提取方法 | |
Li et al. | Dynamic anchor feature selection for single-shot object detection | |
Zhang et al. | Cascade RetinaNet: Maintaining consistency for single-stage object detection | |
CN106778854B (zh) | 基于轨迹和卷积神经网络特征提取的行为识别方法 | |
CN110414371A (zh) | 一种基于多尺度核卷积神经网络的实时人脸表情识别方法 | |
Chen et al. | Dcan: improving temporal action detection via dual context aggregation | |
CN109190752A (zh) | 基于深度学习的全局特征和局部特征的图像语义分割方法 | |
CN107316031A (zh) | 用于行人重识别的图像特征提取方法 | |
CN109828251A (zh) | 基于特征金字塔轻量卷积神经网络的雷达目标识别方法 | |
CN106407931A (zh) | 一种新型深度卷积神经网络运动车辆检测方法 | |
CN113688894B (zh) | 一种融合多粒度特征的细粒度图像分类方法 | |
CN111242181B (zh) | 基于图像语义和细节的rgb-d显著性物体检测器 | |
Zhang et al. | Channel-wise and feature-points reweights densenet for image classification | |
CN109978003A (zh) | 基于密集连接残差网络的图像分类方法 | |
CN103778430A (zh) | 一种基于肤色分割和AdaBoost相结合的快速人脸检测方法 | |
Li et al. | A model for surface defect detection of industrial products based on attention augmentation | |
Chen et al. | Research on fast recognition method of complex sorting images based on deep learning | |
CN104866867B (zh) | 一种基于清分机的多国纸币序列号字符识别方法 | |
CN109685118A (zh) | 一种基于卷积神经网络特征的弱分类器Adaboost车辆检测方法 | |
CN109886331A (zh) | 一种基于卷积神经网络结构提取图像特征的方法 | |
CN113361474A (zh) | 基于图像块特征提取的双流网络图像伪造检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190614 |
|
WD01 | Invention patent application deemed withdrawn after publication |