CN117036806A - 一种基于双重复用残差网络的物体识别方法 - Google Patents
一种基于双重复用残差网络的物体识别方法 Download PDFInfo
- Publication number
- CN117036806A CN117036806A CN202311003995.2A CN202311003995A CN117036806A CN 117036806 A CN117036806 A CN 117036806A CN 202311003995 A CN202311003995 A CN 202311003995A CN 117036806 A CN117036806 A CN 117036806A
- Authority
- CN
- China
- Prior art keywords
- layer
- multiplexing
- residual
- convolution
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009977 dual effect Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000006870 function Effects 0.000 claims abstract description 71
- 230000004913 activation Effects 0.000 claims abstract description 62
- 238000011176 pooling Methods 0.000 claims abstract description 52
- 238000010606 normalization Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000006243 chemical reaction Methods 0.000 claims description 32
- 230000004927 fusion Effects 0.000 claims description 21
- 238000012935 Averaging Methods 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双重复用残差网络的物体识别方法,涉及计算机视觉技术领域,利用依次连接的卷积层、批归一化层和激活函数层构建第一卷积模块;利用最大池化层、特征复用残差单元分别构建第二至第五卷积模块;利用第一至第五卷积模块、残差复用路径、全局平均池化层和全连接层构建初始双重复用残差网络;利用样本数据训练初始双重复用残差网络,得到目标双重复用残差网络。从而通过目标双重复用残差网络实现了物体识别,通过残差学习缓解了训练过程中的梯度消失问题,通过双重复用增强了特征的前向传播,有效减少了计算代价,提高了物体识别的精度。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种基于双重复用残差网络的物体识别方法。
背景技术
随着计算机视觉技术的发展,深度卷积神经网络(Deep Convolution NeuralNetwork,DCNN)在基于图像的物体识别领域有着广泛的应用。为了解决DCNN训练过程中的梯度消失问题,深度残差网络(Residual Network,ResNet)在残差单元中通过快捷连接将特征进行跨层传播,可以对非常深的网络进行训练。现在已经有许多方法利用或改进了ResNet中残差单元的结构,将其应用到身份识别和认证、智能视频监控、视觉导航等领域。
密集连接卷积网络(Dense Convolutional Network,DenseNet)采用密集特征复用进一步提高物体识别性能,该方法将每个密集单元输出的特征输入到其之后的每个密集单元。密集特征复用策略使DenseNet的计算代价较高,该策略也已被许多方法直接使用,或做进一步改进以降低计算代价。然而,改进密集特征复用策略的方法虽然有效地降低了计算代价,但通常也会降低识别性能。
发明内容
为了解决以上技术问题,本发明提供一种基于双重复用残差网络的物体识别方法,包括以下步骤:
S1、获取物体图像并进行数据预处理;
S2、构建初始双重复用残差网络,初始双重复用残差网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、残差复用路径、全局平均池化层以及全连接层;且残差复用路径与第二至第四卷积模块并行设置;第一卷积模块包括依次连接的卷积层、批归一化层以及激活函数层;第二卷积模块包括最大池化层和依次连接的特征复用残差单元;第三至第五卷积模块均包括依次连接的特征复用残差单元;
S3、利用样本数据集训练初始双重复用残差网络,得到目标双重复用残差网络;
S4、将预处理后的物体图像数据输入至目标双重复用残差网络中,获取网络输出,得到物体识别结果。
本发明进一步限定的技术方案是:
进一步的,步骤S1中,对物体图像进行数据预处理的方法包括以下步骤:
S1.1、对物体图像进行缩放,将物体图像的短边等比例缩放到256像素;
S1.2、对物体图像进行裁剪,居中裁剪出224×224大小的图片区域,得到预处理后的物体图像。
前所述的一种基于双重复用残差网络的物体识别方法,步骤S2中,第一卷积模块中卷积层卷积核大小为7×7,步长为2,通道数为40;激活函数层使用Relu激活函数;
第二卷积模块包含依次连接的1个最大池化层和N2个无下采样的特征复用残差单元,其中,最大池化层池化域大小为3×3,步长为2,N2为可调参数;
第三卷积模块包含依次连接的N3个特征复用残差单元,其中N3为可调参数,且仅有第1个特征复用残差单元使用下采样;
第四卷积模块包含依次连接的N4个特征复用残差单元,其中N4为可调参数,且仅有第1个特征复用残差单元使用下采样;
第五卷积模块包含依次连接的N5个特征复用残差单元,其中N5为是可调参数,且仅有第1个特征复用残差单元使用下采样。
前所述的一种基于双重复用残差网络的物体识别方法,特征复用残差单元包括无下采样的特征复用残差单元和有下采样的特征复用残差单元;
无下采样的特征复用残差单元包括依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、拼接运算层和融合运算层;还包括从第一卷积层和第二卷积层的输出到拼接运算层的输入的快捷连接,以及从该特征复用残差单元的输入到融合运算层的输入的快捷连接;
无下采样的特征复用残差单元中,融合运算层的输出即为该特征复用残差单元的特征输出,拼接运算层的输出即为该特征复用残差单元的残差输出;且前一个特征复用残差单元的特征输出连接下一个特征复用残差单元的输入。
前所述的一种基于双重复用残差网络的物体识别方法,有下采样的特征复用残差单元包含依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、拼接运算层和融合运算层;还包括从第一卷积层和第二卷积层的输出到拼接运算层的输入的快捷连接,以及从特征复用残差单元的输入到融合运算层的输入的快捷连接;
从第一卷积层的输出到拼接运算层的输入的快捷连接之间添加有步长为2的2×2平均池化层,从特征复用残差单元的输入到融合运算层的输入的快捷连接之间依次添加有批归一化层、Relu激活函数层、步长为1通道数为120的1×1卷积层以及步长为2的2×2平均池化层;
有下采样的特征复用残差单元中,融合运算层的输出即为该特征复用残差单元的特征输出,拼接运算层的输出即为该特征复用残差单元的残差输出;且前一个特征复用残差单元的特征输出连接下一个特征复用残差单元的输入。
前所述的一种基于双重复用残差网络的物体识别方法,步骤S2中,残差复用路径包括初始特征复用单元、4个转换单元、3个平均池化层、批归一化层以及激活函数层,其中,平均池化层池化域大小为2×2,步长为2,激活函数层使用Relu激活函数;
第二卷积模块中最大池化层的输出连接初始特征复用单元的输入,初始特征复用单元的输出和第二卷积模块中每个特征复用残差单元的残差输出连接第一转换单元的输入,第一转换单元的输出连接第一平均池化层的输入;
第一平均池化层的输出和第三卷积模块中每个特征复用残差单元的残差输出连接第二转换单元的输入,第二转换单元的输出连接第二平均池化层的输入;
第二平均池化层的输出和第四卷积模块中每个特征复用残差单元的残差输出连接第三转换单元的输入,第三转换单元的输出连接第三平均池化层的输入;
第三平均池化层的输出和第五卷积模块中每个特征复用残差单元的残差输出连接第四转换单元的输入,第四转换单元的输出连接批归一化层的输入,批归一化层的输出连接激活函数层的输入,激活函数层的输出即为残差复用路径的输出。
前所述的一种基于双重复用残差网络的物体识别方法,初始特征复用单元包含依次连接的步长为1通道数为120的1×1卷积层、批归一化层以及Relu激活函数层。
前所述的一种基于双重复用残差网络的物体识别方法,转换单元包含依次连接的拼接运算层、批归一化层、Relu激活函数层以及步长为1且输出通道数可调的1×1卷积层,1×1卷积层的输出通道数设置为输入通道数的1/3。
前所述的一种基于双重复用残差网络的物体识别方法,步骤S2中,残差复用路径的输出依次连接全局平均池化层和全连接层,其中,全连接层使用Softmax激活函数,全连接层的神经元个数即为物体的类别数C,全连接层的输出即为初始双重复用残差网络的输出。
前所述的一种基于双重复用残差网络的物体识别方法,步骤S3中,对初始双重复用残差网络进行训练的方法包括以下步骤:
S3.1、设定训练模型初始参数,优化器设置为SGD优化器;初始学习率设置为0.1;训练轮数设置为120;学习率衰减设置为在训练轮数为60和90时学习率衰减为之前的1/10;权重衰减设置为0.0001;动量设置为0.9;批大小设置为128;
S3.2、对训练集图片进行数据增强,即进行随机缩放、随机裁剪、随机翻转、归一化处理以及颜色抖动;同时对验证集图片进行缩放和裁剪;将数据增强后的训练集图片和处理后的验证集图片输入初始双重复用和卷积连接网络;
S3.3、在训练过程中使用交叉熵损失函数计算损失,计算公式如下:
L=-[ylogy′+(1-y)log(1-y′)]
其中,y表示真实值,y′表示预测值,log表示对数函数;
S3.4、使用精度对网络模型进行评估,计算方法如下:
其中,acc表示网络模型的识别精度;
S3.5、根据将步骤S3.3得到的损失函数计算梯度,采用SGD优化器更新网络参数;
S3.6、重复步骤S3.2至步骤S3.5的训练过程,每训练完一轮使用验证集图片对网络模型进行评估,按照最优acc值保存模型参数,直至训练轮数120轮全部完成,得到目标双重复用残差网络。
本发明的有益效果是:
(1)本发明中,通过特征复用残差单元中的残差学习缓解了训练过程中的梯度消失问题;
(2)本发明中,特征复用残差单元内部的特征复用增加了残差映射和输出特征映射的数量,降低了特征复用的计算代价;
(3)本发明中,残差复用路径和由所有残差复用组成的最终特征映射保留了拼接运算的优点,增强了特征的前向传播,有效提高了识别性能,并且计算代价更低。
附图说明
图1为本发明的整体流程示意图;
图2为本发明中初始双重复用残差网络的结构示意图;
图3为本发明中特征复用残差单元的结构示意图;
图4为本发明中初始特征复用单元的结构示意图;
图5为本发明中转换单元的结构示意图。
具体实施方式
本实施例提供的一种基于双重复用残差网络的物体识别方法,如图1所示,包括以下步骤:
S1、获取物体图像并进行数据预处理,对物体图像进行数据预处理的方法包括以下步骤:
S1.1、对物体图像进行缩放,将物体图像的短边等比例缩放到256像素;
S1.2、对物体图像进行裁剪,居中裁剪出224×224大小的图片区域,得到预处理后的物体图像。
S2、构建初始双重复用残差网络,如图2所示,初始双重复用残差网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、残差复用路径、全局平均池化层以及全连接层;且残差复用路径与第二至第四卷积模块并行设置。
如图2中的Conv1所示,第一卷积模块包括依次连接的卷积层、批归一化层以及激活函数层,且卷积层卷积核大小为7×7,步长为2,通道数为40;激活函数层使用Relu激活函数。
如图2中的Conv2所示,第二卷积模块包含依次连接的1个最大池化层和N2个无下采样的特征复用残差单元,其中,最大池化层池化域大小为3×3,步长为2,N2为可调参数,可设置为4。
如图2中的Conv3所示,第三卷积模块包含依次连接的N3个特征复用残差单元,其中N3为可调参数,可设置为8,且仅有第1个特征复用残差单元使用下采样。
如图2中的Conv4所示,第四卷积模块包含依次连接的N4个特征复用残差单元,其中N4为可调参数,可设置为8,且仅有第1个特征复用残差单元使用下采样。
如图2中的Conv5所示,第五卷积模块包含依次连接的N5个特征复用残差单元,其中N5为是可调参数,可设置为11,且仅有第1个特征复用残差单元使用下采样。
特征复用残差单元包括无下采样的特征复用残差单元和有下采样的特征复用残差单元,如图3所示,图3中的上部分结构图为无下采样的特征复用残差单元,图3中的下部分结构图为有下采样的特征复用残差单元。
如图4中的上部分结构图所示,无下采样的特征复用残差单元包括依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、拼接运算层和融合运算层;还包括从第一卷积层和第二卷积层的输出到拼接运算层的输入的快捷连接,以及从该特征复用残差单元的输入到融合运算层的输入的快捷连接。
无下采样的特征复用残差单元中,第一至第三激活函数层使用Relu激活函数,第一卷积层卷积核大小为1×1,步长为1,通道数为40;第二卷积层卷积核大小为3×3,步长为1,通道数为40;第三卷积层卷积核大小为3×3,步长为1,通道数为40。
无下采样的特征复用残差单元中,融合运算层的输出即为该特征复用残差单元的特征输出,拼接运算层的输出即为该特征复用残差单元的残差输出;且前一个特征复用残差单元的特征输出连接下一个特征复用残差单元的输入。
如图4中的下部分结构图所示,有下采样的特征复用残差单元包含依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、拼接运算层和融合运算层;还包括从第一卷积层和第二卷积层的输出到拼接运算层的输入的快捷连接,以及从特征复用残差单元的输入到融合运算层的输入的快捷连接。
有下采样的特征复用残差单元中,第一至第三激活函数层使用Relu激活函数,第一卷积层卷积核大小为1×1,步长为1,通道数为40;第二卷积层卷积核大小为3×3,步长为2,通道数为40;第三卷积层卷积核大小为3×3,步长为1,通道数为40。
有下采样的特征复用残差单元中,从第一卷积层的输出到拼接运算层的输入的快捷连接之间添加有步长为2的2×2平均池化层,从特征复用残差单元的输入到融合运算层的输入的快捷连接之间依次添加有批归一化层、Relu激活函数层、步长为1通道数为120的1×1卷积层以及步长为2的2×2平均池化层。
有下采样的特征复用残差单元中,融合运算层的输出即为该特征复用残差单元的特征输出,拼接运算层的输出即为该特征复用残差单元的残差输出;且前一个特征复用残差单元的特征输出连接下一个特征复用残差单元的输入。
如图2所示,残差复用路径的输出依次连接全局平均池化层和全连接层,其中,全连接层使用Softmax激活函数,全连接层的神经元个数即为物体的类别数C,全连接层的输出即为初始双重复用残差网络的输出。
残差复用路径包括初始特征复用单元、4个转换单元、3个平均池化层、批归一化层以及激活函数层,其中,平均池化层池化域大小为2×2,步长为2,激活函数层使用Relu激活函数。
第二卷积模块中最大池化层的输出连接初始特征复用单元的输入,初始特征复用单元的输出和第二卷积模块中每个特征复用残差单元的残差输出连接第一转换单元的输入,第一转换单元的输出连接第一平均池化层的输入。
第一平均池化层的输出和第三卷积模块中每个特征复用残差单元的残差输出连接第二转换单元的输入,第二转换单元的输出连接第二平均池化层的输入。
第二平均池化层的输出和第四卷积模块中每个特征复用残差单元的残差输出连接第三转换单元的输入,第三转换单元的输出连接第三平均池化层的输入。
第三平均池化层的输出和第五卷积模块中每个特征复用残差单元的残差输出连接第四转换单元的输入,第四转换单元的输出连接批归一化层的输入,批归一化层的输出连接激活函数层的输入,激活函数层的输出即为残差复用路径的输出。
如图4所示,初始特征复用单元包含依次连接的步长为1通道数为120的1×1卷积层、批归一化层以及Relu激活函数层。
如图5所示,转换单元包含依次连接的拼接运算层、批归一化层、Relu激活函数层以及步长为1且输出通道数可调的1×1卷积层,1×1卷积层的输出通道数设置为输入通道数的1/3。
S3、利用样本数据集训练初始双重复用残差网络,得到目标双重复用残差网络;
样本数据集设置为从ImageNet官网(https://image-net.org/download.php)下载的ImageNet ILSVRC 2012数据集,ImageNet ILSVRC 2012数据集由不同物体的图片组成,包含1000个类的1281167幅训练集图片、50000幅验证集图片以及100000测试集图片,通过训练集图片、验证集图片及其对应的物体类别对初始双重复用残差网络进行训练,得到目标双重复用残差网络。
对初始双重复用残差网络进行训练的方法包括以下步骤:
S3.1、设定训练模型初始参数,优化器设置为SGD优化器;初始学习率设置为0.1;训练轮数设置为120;学习率衰减设置为在训练轮数为60和90时学习率衰减为之前的1/10;权重衰减设置为0.0001;动量设置为0.9;批大小设置为128。
S3.2、对训练集图片进行数据增强,即进行随机缩放、随机裁剪、随机翻转、归一化处理以及颜色抖动;同时对验证集图片进行缩放和裁剪;将数据增强后的训练集图片和处理后的验证集图片输入初始双重复用和卷积连接网络。
对训练集图片进行数据增强包括以下步骤:
A1、随机缩放:将图片的短边等比例随机缩放到[256,480]范围内;
A2、随机裁剪:将图片随机裁剪出224×224大小的图片区域;
A3、随机翻转:将图片进行随机水平翻转;
A4、归一化处理:图片包括R、G、B三个通道,将每个通道分别减去所有图片对应通道的平均值;
A5、颜色抖动:先将图片每个通道的数据由二维矩阵转成一维向量;然后对该图片R、G、B三个通道分别求出协方差矩阵;再求出协方差矩阵的特征向量和特征值;最后通过下式进行转换:
β=[p1,p2,p3][α1λ1,α2λ2,α3λ3]T
其中,p1,p2,p3是三个特征向量,λ1,λ2,λ3是三个特征值,α1,α2,α3是三个服从均值为0、方差为0.1的随机变量;将β与原图片的R、G、B三个通道相加,执行python的广播机制,即图片每个通道的所有像素点都与β中的一个数相加。
对验证集图片进行缩放和裁剪包括以下步骤:
B1、缩放:将图片的短边等比例缩放到256像素;
B2、裁剪:对图片居中裁剪出224×224大小的图片区域。
S3.3、在训练过程中使用交叉熵损失函数计算损失,计算公式如下:
L=-[ylogy′+(1-y)log(1-y′)]
其中,y表示真实值,y′表示预测值,log表示对数函数。
S3.4、使用精度对网络模型进行评估,计算方法如下:
其中,acc表示网络模型的识别精度,acc值越高则表示识别效果越好。
S3.5、根据将步骤S3.3得到的损失函数计算梯度,采用SGD优化器更新网络参数。
S3.6、重复步骤S3.2至步骤S3.5的训练过程,每训练完一轮使用验证集图片对网络模型进行评估,按照最优acc值保存模型参数,直至训练轮数120轮全部完成,得到目标双重复用残差网络。
S4、将预处理后的物体图像数据输入至目标双重复用残差网络中,获取网络输出的C个值,取其中最大值对应的那个类别作为预处理后的物体图像的类别,即得到物体识别结果。
从而通过目标双重复用残差网络实现了物体识别,通过残差学习缓解了训练过程中的梯度消失问题,通过双重复用增强了特征的前向传播,有效减少了计算代价,提高了物体识别的精度。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。
Claims (10)
1.一种基于双重复用残差网络的物体识别方法,其特征在于:包括以下步骤:
S1、获取物体图像并进行数据预处理;
S2、构建初始双重复用残差网络,初始双重复用残差网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、残差复用路径、全局平均池化层以及全连接层;且残差复用路径与第二至第四卷积模块并行设置;第一卷积模块包括依次连接的卷积层、批归一化层以及激活函数层;第二卷积模块包括最大池化层和依次连接的特征复用残差单元;第三至第五卷积模块均包括依次连接的特征复用残差单元;
S3、利用样本数据集训练初始双重复用残差网络,得到目标双重复用残差网络;
S4、将预处理后的物体图像数据输入至目标双重复用残差网络中,获取网络输出,得到物体识别结果。
2.根据权利要求1所述的一种基于双重复用残差网络的物体识别方法,其特征在于:所述步骤S1中,对物体图像进行数据预处理的方法包括以下步骤:
S1.1、对物体图像进行缩放,将物体图像的短边等比例缩放到256像素;
S1.2、对物体图像进行裁剪,居中裁剪出224×224大小的图片区域,得到预处理后的物体图像。
3.根据权利要求1所述的一种基于双重复用残差网络的物体识别方法,其特征在于:所述步骤S2中,第一卷积模块中卷积层卷积核大小为7×7,步长为2,通道数为40;激活函数层使用Relu激活函数;
第二卷积模块包含依次连接的1个最大池化层和N2个无下采样的特征复用残差单元,其中,最大池化层池化域大小为3×3,步长为2,N2为可调参数;
第三卷积模块包含依次连接的N3个特征复用残差单元,其中N3为可调参数,且仅有第1个特征复用残差单元使用下采样;
第四卷积模块包含依次连接的N4个特征复用残差单元,其中N4为可调参数,且仅有第1个特征复用残差单元使用下采样;
第五卷积模块包含依次连接的N5个特征复用残差单元,其中N5为是可调参数,且仅有第1个特征复用残差单元使用下采样。
4.根据权利要求3所述的一种基于双重复用残差网络的物体识别方法,其特征在于:所述特征复用残差单元包括无下采样的特征复用残差单元和有下采样的特征复用残差单元;
无下采样的特征复用残差单元包括依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、拼接运算层和融合运算层;还包括从第一卷积层和第二卷积层的输出到拼接运算层的输入的快捷连接,以及从该特征复用残差单元的输入到融合运算层的输入的快捷连接;
无下采样的特征复用残差单元中,融合运算层的输出即为该特征复用残差单元的特征输出,拼接运算层的输出即为该特征复用残差单元的残差输出;且前一个特征复用残差单元的特征输出连接下一个特征复用残差单元的输入。
5.根据权利要求4所述的一种基于双重复用残差网络的物体识别方法,其特征在于:所述有下采样的特征复用残差单元包含依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、拼接运算层和融合运算层;还包括从第一卷积层和第二卷积层的输出到拼接运算层的输入的快捷连接,以及从特征复用残差单元的输入到融合运算层的输入的快捷连接;
从第一卷积层的输出到拼接运算层的输入的快捷连接之间添加有步长为2的2×2平均池化层,从特征复用残差单元的输入到融合运算层的输入的快捷连接之间依次添加有批归一化层、Relu激活函数层、步长为1通道数为120的1×1卷积层以及步长为2的2×2平均池化层;
有下采样的特征复用残差单元中,融合运算层的输出即为该特征复用残差单元的特征输出,拼接运算层的输出即为该特征复用残差单元的残差输出;且前一个特征复用残差单元的特征输出连接下一个特征复用残差单元的输入。
6.根据权利要求1所述的一种基于双重复用残差网络的物体识别方法,其特征在于:所述步骤S2中,残差复用路径包括初始特征复用单元、4个转换单元、3个平均池化层、批归一化层以及激活函数层,其中,平均池化层池化域大小为2×2,步长为2,激活函数层使用Relu激活函数;
第二卷积模块中最大池化层的输出连接初始特征复用单元的输入,初始特征复用单元的输出和第二卷积模块中每个特征复用残差单元的残差输出连接第一转换单元的输入,第一转换单元的输出连接第一平均池化层的输入;
第一平均池化层的输出和第三卷积模块中每个特征复用残差单元的残差输出连接第二转换单元的输入,第二转换单元的输出连接第二平均池化层的输入;
第二平均池化层的输出和第四卷积模块中每个特征复用残差单元的残差输出连接第三转换单元的输入,第三转换单元的输出连接第三平均池化层的输入;
第三平均池化层的输出和第五卷积模块中每个特征复用残差单元的残差输出连接第四转换单元的输入,第四转换单元的输出连接批归一化层的输入,批归一化层的输出连接激活函数层的输入,激活函数层的输出即为残差复用路径的输出。
7.根据权利要求6所述的一种基于双重复用残差网络的物体识别方法,其特征在于:所述初始特征复用单元包含依次连接的步长为1通道数为120的1×1卷积层、批归一化层以及Relu激活函数层。
8.根据权利要求6所述的一种基于双重复用残差网络的物体识别方法,其特征在于:所述转换单元包含依次连接的拼接运算层、批归一化层、Relu激活函数层以及步长为1且输出通道数可调的1×1卷积层,1×1卷积层的输出通道数设置为输入通道数的1/3。
9.根据权利要求1所述的一种基于双重复用残差网络的物体识别方法,其特征在于:所述步骤S2中,残差复用路径的输出依次连接全局平均池化层和全连接层,其中,全连接层使用Softmax激活函数,全连接层的神经元个数即为物体的类别数C,全连接层的输出即为初始双重复用残差网络的输出。
10.根据权利要求1所述的一种基于双重复用残差网络的物体识别方法,其特征在于:所述步骤S3中,对初始双重复用残差网络进行训练的方法包括以下步骤:
S3.1、设定训练模型初始参数,优化器设置为SGD优化器;初始学习率设置为0.1;训练轮数设置为120;学习率衰减设置为在训练轮数为60和90时学习率衰减为之前的1/10;权重衰减设置为0.0001;动量设置为0.9;批大小设置为128;
S3.2、对训练集图片进行数据增强,即进行随机缩放、随机裁剪、随机翻转、归一化处理以及颜色抖动;同时对验证集图片进行缩放和裁剪;将数据增强后的训练集图片和处理后的验证集图片输入初始双重复用和卷积连接网络;
S3.3、在训练过程中使用交叉熵损失函数计算损失,计算公式如下:
L=-[ylogy′+(1-y)log(1-y′)]
其中,y表示真实值,y′表示预测值,log表示对数函数;
S3.4、使用精度对网络模型进行评估,计算方法如下:
其中,acc表示网络模型的识别精度;
S3.5、根据将步骤S3.3得到的损失函数计算梯度,采用SGD优化器更新网络参数;
S3.6、重复步骤S3.2至步骤S3.5的训练过程,每训练完一轮使用验证集图片对网络模型进行评估,按照最优acc值保存模型参数,直至训练轮数120轮全部完成,得到目标双重复用残差网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311003995.2A CN117036806A (zh) | 2023-08-10 | 2023-08-10 | 一种基于双重复用残差网络的物体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311003995.2A CN117036806A (zh) | 2023-08-10 | 2023-08-10 | 一种基于双重复用残差网络的物体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117036806A true CN117036806A (zh) | 2023-11-10 |
Family
ID=88642429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311003995.2A Pending CN117036806A (zh) | 2023-08-10 | 2023-08-10 | 一种基于双重复用残差网络的物体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117036806A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117470142A (zh) * | 2023-12-26 | 2024-01-30 | 中国林业科学研究院木材工业研究所 | 一种人造板施胶均匀性检测方法、控制方法及装置 |
-
2023
- 2023-08-10 CN CN202311003995.2A patent/CN117036806A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117470142A (zh) * | 2023-12-26 | 2024-01-30 | 中国林业科学研究院木材工业研究所 | 一种人造板施胶均匀性检测方法、控制方法及装置 |
CN117470142B (zh) * | 2023-12-26 | 2024-03-15 | 中国林业科学研究院木材工业研究所 | 一种人造板施胶均匀性检测方法、控制方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110601B (zh) | 基于多时空注意力模型的视频行人重识别方法及装置 | |
CN111127316B (zh) | 一种基于sngan网络的单幅人脸图像超分辨方法及系统 | |
CN112541877B (zh) | 基于条件生成对抗网络的去模糊方法、系统、设备及介质 | |
CN111612024B (zh) | 特征提取方法、装置、电子设备及计算机可读存储介质 | |
CN113570508A (zh) | 图像修复方法及装置、存储介质、终端 | |
CN115147598B (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
CN117036806A (zh) | 一种基于双重复用残差网络的物体识别方法 | |
CN112785637A (zh) | 一种基于动态融合网络的光场深度估计方法 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN114821058A (zh) | 一种图像语义分割方法、装置、电子设备及存储介质 | |
CN115861608A (zh) | 一种基于光强与偏振线索的伪装目标分割方法及系统 | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
CN115984701A (zh) | 一种基于编解码结构的多模态遥感图像语义分割方法 | |
CN117392496A (zh) | 基于红外与可见光图像融合的目标检测方法及系统 | |
CN114511798B (zh) | 基于transformer的驾驶员分心检测方法及装置 | |
CN113487530B (zh) | 一种基于深度学习的红外与可见光融合成像方法 | |
CN111046738A (zh) | 针对指静脉分割的轻量化u-net的精度提升方法 | |
CN114641792A (zh) | 图像处理方法、图像处理设备和可读存储介质 | |
CN113670440B (zh) | 一种基于自适应字典的压缩光谱成像方法 | |
CN115909332A (zh) | 一种基于通道特征加强的农业遥感图像语义分割方法 | |
CN112464916B (zh) | 人脸识别方法及其模型训练方法 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN117036857A (zh) | 一种基于双重复用和卷积连接网络的物体识别方法 | |
CN117351448B (zh) | 一种基于YOLOv8改进的偏振图像道路目标检测方法 | |
CN117495687B (zh) | 一种水下图像增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |