CN117036806A

CN117036806A - 一种基于双重复用残差网络的物体识别方法

Info

Publication number: CN117036806A
Application number: CN202311003995.2A
Authority: CN
Inventors: 刘茜
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-11-10

Abstract

本发明公开了一种基于双重复用残差网络的物体识别方法，涉及计算机视觉技术领域，利用依次连接的卷积层、批归一化层和激活函数层构建第一卷积模块；利用最大池化层、特征复用残差单元分别构建第二至第五卷积模块；利用第一至第五卷积模块、残差复用路径、全局平均池化层和全连接层构建初始双重复用残差网络；利用样本数据训练初始双重复用残差网络，得到目标双重复用残差网络。从而通过目标双重复用残差网络实现了物体识别，通过残差学习缓解了训练过程中的梯度消失问题，通过双重复用增强了特征的前向传播，有效减少了计算代价，提高了物体识别的精度。

Description

一种基于双重复用残差网络的物体识别方法

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种基于双重复用残差网络的物体识别方法。

背景技术

随着计算机视觉技术的发展，深度卷积神经网络(Deep Convolution NeuralNetwork，DCNN)在基于图像的物体识别领域有着广泛的应用。为了解决DCNN训练过程中的梯度消失问题，深度残差网络(Residual Network，ResNet)在残差单元中通过快捷连接将特征进行跨层传播，可以对非常深的网络进行训练。现在已经有许多方法利用或改进了ResNet中残差单元的结构，将其应用到身份识别和认证、智能视频监控、视觉导航等领域。

密集连接卷积网络(Dense Convolutional Network，DenseNet)采用密集特征复用进一步提高物体识别性能，该方法将每个密集单元输出的特征输入到其之后的每个密集单元。密集特征复用策略使DenseNet的计算代价较高，该策略也已被许多方法直接使用，或做进一步改进以降低计算代价。然而，改进密集特征复用策略的方法虽然有效地降低了计算代价，但通常也会降低识别性能。

发明内容

为了解决以上技术问题，本发明提供一种基于双重复用残差网络的物体识别方法，包括以下步骤：

S1、获取物体图像并进行数据预处理；

S2、构建初始双重复用残差网络，初始双重复用残差网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、残差复用路径、全局平均池化层以及全连接层；且残差复用路径与第二至第四卷积模块并行设置；第一卷积模块包括依次连接的卷积层、批归一化层以及激活函数层；第二卷积模块包括最大池化层和依次连接的特征复用残差单元；第三至第五卷积模块均包括依次连接的特征复用残差单元；

S3、利用样本数据集训练初始双重复用残差网络，得到目标双重复用残差网络；

S4、将预处理后的物体图像数据输入至目标双重复用残差网络中，获取网络输出，得到物体识别结果。

本发明进一步限定的技术方案是：

进一步的，步骤S1中，对物体图像进行数据预处理的方法包括以下步骤：

S1.1、对物体图像进行缩放，将物体图像的短边等比例缩放到256像素；

S1.2、对物体图像进行裁剪，居中裁剪出224×224大小的图片区域，得到预处理后的物体图像。

前所述的一种基于双重复用残差网络的物体识别方法，步骤S2中，第一卷积模块中卷积层卷积核大小为7×7，步长为2，通道数为40；激活函数层使用Relu激活函数；

第二卷积模块包含依次连接的1个最大池化层和N₂个无下采样的特征复用残差单元，其中，最大池化层池化域大小为3×3，步长为2，N₂为可调参数；

第三卷积模块包含依次连接的N₃个特征复用残差单元，其中N₃为可调参数，且仅有第1个特征复用残差单元使用下采样；

第四卷积模块包含依次连接的N₄个特征复用残差单元，其中N₄为可调参数，且仅有第1个特征复用残差单元使用下采样；

第五卷积模块包含依次连接的N₅个特征复用残差单元，其中N₅为是可调参数，且仅有第1个特征复用残差单元使用下采样。

前所述的一种基于双重复用残差网络的物体识别方法，特征复用残差单元包括无下采样的特征复用残差单元和有下采样的特征复用残差单元；

无下采样的特征复用残差单元包括依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、拼接运算层和融合运算层；还包括从第一卷积层和第二卷积层的输出到拼接运算层的输入的快捷连接，以及从该特征复用残差单元的输入到融合运算层的输入的快捷连接；

无下采样的特征复用残差单元中，融合运算层的输出即为该特征复用残差单元的特征输出，拼接运算层的输出即为该特征复用残差单元的残差输出；且前一个特征复用残差单元的特征输出连接下一个特征复用残差单元的输入。

前所述的一种基于双重复用残差网络的物体识别方法，有下采样的特征复用残差单元包含依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、拼接运算层和融合运算层；还包括从第一卷积层和第二卷积层的输出到拼接运算层的输入的快捷连接，以及从特征复用残差单元的输入到融合运算层的输入的快捷连接；

从第一卷积层的输出到拼接运算层的输入的快捷连接之间添加有步长为2的2×2平均池化层，从特征复用残差单元的输入到融合运算层的输入的快捷连接之间依次添加有批归一化层、Relu激活函数层、步长为1通道数为120的1×1卷积层以及步长为2的2×2平均池化层；

有下采样的特征复用残差单元中，融合运算层的输出即为该特征复用残差单元的特征输出，拼接运算层的输出即为该特征复用残差单元的残差输出；且前一个特征复用残差单元的特征输出连接下一个特征复用残差单元的输入。

前所述的一种基于双重复用残差网络的物体识别方法，步骤S2中，残差复用路径包括初始特征复用单元、4个转换单元、3个平均池化层、批归一化层以及激活函数层，其中，平均池化层池化域大小为2×2，步长为2，激活函数层使用Relu激活函数；

第二卷积模块中最大池化层的输出连接初始特征复用单元的输入，初始特征复用单元的输出和第二卷积模块中每个特征复用残差单元的残差输出连接第一转换单元的输入，第一转换单元的输出连接第一平均池化层的输入；

第一平均池化层的输出和第三卷积模块中每个特征复用残差单元的残差输出连接第二转换单元的输入，第二转换单元的输出连接第二平均池化层的输入；

第二平均池化层的输出和第四卷积模块中每个特征复用残差单元的残差输出连接第三转换单元的输入，第三转换单元的输出连接第三平均池化层的输入；

第三平均池化层的输出和第五卷积模块中每个特征复用残差单元的残差输出连接第四转换单元的输入，第四转换单元的输出连接批归一化层的输入，批归一化层的输出连接激活函数层的输入，激活函数层的输出即为残差复用路径的输出。

前所述的一种基于双重复用残差网络的物体识别方法，初始特征复用单元包含依次连接的步长为1通道数为120的1×1卷积层、批归一化层以及Relu激活函数层。

前所述的一种基于双重复用残差网络的物体识别方法，转换单元包含依次连接的拼接运算层、批归一化层、Relu激活函数层以及步长为1且输出通道数可调的1×1卷积层，1×1卷积层的输出通道数设置为输入通道数的1/3。

前所述的一种基于双重复用残差网络的物体识别方法，步骤S2中，残差复用路径的输出依次连接全局平均池化层和全连接层，其中，全连接层使用Softmax激活函数，全连接层的神经元个数即为物体的类别数C，全连接层的输出即为初始双重复用残差网络的输出。

前所述的一种基于双重复用残差网络的物体识别方法，步骤S3中，对初始双重复用残差网络进行训练的方法包括以下步骤：

S3.1、设定训练模型初始参数，优化器设置为SGD优化器；初始学习率设置为0.1；训练轮数设置为120；学习率衰减设置为在训练轮数为60和90时学习率衰减为之前的1/10；权重衰减设置为0.0001；动量设置为0.9；批大小设置为128；

S3.2、对训练集图片进行数据增强，即进行随机缩放、随机裁剪、随机翻转、归一化处理以及颜色抖动；同时对验证集图片进行缩放和裁剪；将数据增强后的训练集图片和处理后的验证集图片输入初始双重复用和卷积连接网络；

S3.3、在训练过程中使用交叉熵损失函数计算损失，计算公式如下：

L＝-[ylogy′+(1-y)log(1-y′)]

其中，y表示真实值，y′表示预测值，log表示对数函数；

S3.4、使用精度对网络模型进行评估，计算方法如下：

其中，acc表示网络模型的识别精度；

S3.5、根据将步骤S3.3得到的损失函数计算梯度，采用SGD优化器更新网络参数；

S3.6、重复步骤S3.2至步骤S3.5的训练过程，每训练完一轮使用验证集图片对网络模型进行评估，按照最优acc值保存模型参数，直至训练轮数120轮全部完成，得到目标双重复用残差网络。

本发明的有益效果是：

(1)本发明中，通过特征复用残差单元中的残差学习缓解了训练过程中的梯度消失问题；

(2)本发明中，特征复用残差单元内部的特征复用增加了残差映射和输出特征映射的数量，降低了特征复用的计算代价；

(3)本发明中，残差复用路径和由所有残差复用组成的最终特征映射保留了拼接运算的优点，增强了特征的前向传播，有效提高了识别性能，并且计算代价更低。

附图说明

图1为本发明的整体流程示意图；

图2为本发明中初始双重复用残差网络的结构示意图；

图3为本发明中特征复用残差单元的结构示意图；

图4为本发明中初始特征复用单元的结构示意图；

图5为本发明中转换单元的结构示意图。

具体实施方式

本实施例提供的一种基于双重复用残差网络的物体识别方法，如图1所示，包括以下步骤：

S1、获取物体图像并进行数据预处理，对物体图像进行数据预处理的方法包括以下步骤：

S2、构建初始双重复用残差网络，如图2所示，初始双重复用残差网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、残差复用路径、全局平均池化层以及全连接层；且残差复用路径与第二至第四卷积模块并行设置。

如图2中的Conv1所示，第一卷积模块包括依次连接的卷积层、批归一化层以及激活函数层，且卷积层卷积核大小为7×7，步长为2，通道数为40；激活函数层使用Relu激活函数。

如图2中的Conv2所示，第二卷积模块包含依次连接的1个最大池化层和N₂个无下采样的特征复用残差单元，其中，最大池化层池化域大小为3×3，步长为2，N₂为可调参数，可设置为4。

如图2中的Conv3所示，第三卷积模块包含依次连接的N₃个特征复用残差单元，其中N₃为可调参数，可设置为8，且仅有第1个特征复用残差单元使用下采样。

如图2中的Conv4所示，第四卷积模块包含依次连接的N₄个特征复用残差单元，其中N₄为可调参数，可设置为8，且仅有第1个特征复用残差单元使用下采样。

如图2中的Conv5所示，第五卷积模块包含依次连接的N₅个特征复用残差单元，其中N₅为是可调参数，可设置为11，且仅有第1个特征复用残差单元使用下采样。

特征复用残差单元包括无下采样的特征复用残差单元和有下采样的特征复用残差单元，如图3所示，图3中的上部分结构图为无下采样的特征复用残差单元，图3中的下部分结构图为有下采样的特征复用残差单元。

如图4中的上部分结构图所示，无下采样的特征复用残差单元包括依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、拼接运算层和融合运算层；还包括从第一卷积层和第二卷积层的输出到拼接运算层的输入的快捷连接，以及从该特征复用残差单元的输入到融合运算层的输入的快捷连接。

无下采样的特征复用残差单元中，第一至第三激活函数层使用Relu激活函数，第一卷积层卷积核大小为1×1，步长为1，通道数为40；第二卷积层卷积核大小为3×3，步长为1，通道数为40；第三卷积层卷积核大小为3×3，步长为1，通道数为40。

如图4中的下部分结构图所示，有下采样的特征复用残差单元包含依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、拼接运算层和融合运算层；还包括从第一卷积层和第二卷积层的输出到拼接运算层的输入的快捷连接，以及从特征复用残差单元的输入到融合运算层的输入的快捷连接。

有下采样的特征复用残差单元中，第一至第三激活函数层使用Relu激活函数，第一卷积层卷积核大小为1×1，步长为1，通道数为40；第二卷积层卷积核大小为3×3，步长为2，通道数为40；第三卷积层卷积核大小为3×3，步长为1，通道数为40。

有下采样的特征复用残差单元中，从第一卷积层的输出到拼接运算层的输入的快捷连接之间添加有步长为2的2×2平均池化层，从特征复用残差单元的输入到融合运算层的输入的快捷连接之间依次添加有批归一化层、Relu激活函数层、步长为1通道数为120的1×1卷积层以及步长为2的2×2平均池化层。

如图2所示，残差复用路径的输出依次连接全局平均池化层和全连接层，其中，全连接层使用Softmax激活函数，全连接层的神经元个数即为物体的类别数C，全连接层的输出即为初始双重复用残差网络的输出。

残差复用路径包括初始特征复用单元、4个转换单元、3个平均池化层、批归一化层以及激活函数层，其中，平均池化层池化域大小为2×2，步长为2，激活函数层使用Relu激活函数。

第二卷积模块中最大池化层的输出连接初始特征复用单元的输入，初始特征复用单元的输出和第二卷积模块中每个特征复用残差单元的残差输出连接第一转换单元的输入，第一转换单元的输出连接第一平均池化层的输入。

第一平均池化层的输出和第三卷积模块中每个特征复用残差单元的残差输出连接第二转换单元的输入，第二转换单元的输出连接第二平均池化层的输入。

第二平均池化层的输出和第四卷积模块中每个特征复用残差单元的残差输出连接第三转换单元的输入，第三转换单元的输出连接第三平均池化层的输入。

如图4所示，初始特征复用单元包含依次连接的步长为1通道数为120的1×1卷积层、批归一化层以及Relu激活函数层。

如图5所示，转换单元包含依次连接的拼接运算层、批归一化层、Relu激活函数层以及步长为1且输出通道数可调的1×1卷积层，1×1卷积层的输出通道数设置为输入通道数的1/3。

样本数据集设置为从ImageNet官网(https://image-net.org/download.php)下载的ImageNet ILSVRC 2012数据集，ImageNet ILSVRC 2012数据集由不同物体的图片组成，包含1000个类的1281167幅训练集图片、50000幅验证集图片以及100000测试集图片，通过训练集图片、验证集图片及其对应的物体类别对初始双重复用残差网络进行训练，得到目标双重复用残差网络。

对初始双重复用残差网络进行训练的方法包括以下步骤：

S3.1、设定训练模型初始参数，优化器设置为SGD优化器；初始学习率设置为0.1；训练轮数设置为120；学习率衰减设置为在训练轮数为60和90时学习率衰减为之前的1/10；权重衰减设置为0.0001；动量设置为0.9；批大小设置为128。

S3.2、对训练集图片进行数据增强，即进行随机缩放、随机裁剪、随机翻转、归一化处理以及颜色抖动；同时对验证集图片进行缩放和裁剪；将数据增强后的训练集图片和处理后的验证集图片输入初始双重复用和卷积连接网络。

对训练集图片进行数据增强包括以下步骤：

A1、随机缩放：将图片的短边等比例随机缩放到[256，480]范围内；

A2、随机裁剪：将图片随机裁剪出224×224大小的图片区域；

A3、随机翻转：将图片进行随机水平翻转；

A4、归一化处理：图片包括R、G、B三个通道，将每个通道分别减去所有图片对应通道的平均值；

A5、颜色抖动：先将图片每个通道的数据由二维矩阵转成一维向量；然后对该图片R、G、B三个通道分别求出协方差矩阵；再求出协方差矩阵的特征向量和特征值；最后通过下式进行转换：

β＝[p₁，p₂，p₃][α₁λ₁，α₂λ₂，α₃λ₃]^T

其中，p₁，p₂，p₃是三个特征向量，λ₁，λ₂，λ₃是三个特征值，α₁，α₂，α₃是三个服从均值为0、方差为0.1的随机变量；将β与原图片的R、G、B三个通道相加，执行python的广播机制，即图片每个通道的所有像素点都与β中的一个数相加。

对验证集图片进行缩放和裁剪包括以下步骤：

B1、缩放：将图片的短边等比例缩放到256像素；

B2、裁剪：对图片居中裁剪出224×224大小的图片区域。

L＝-[ylogy′+(1-y)log(1-y′)]

其中，y表示真实值，y′表示预测值，log表示对数函数。

S3.4、使用精度对网络模型进行评估，计算方法如下：

其中，acc表示网络模型的识别精度，acc值越高则表示识别效果越好。

S3.5、根据将步骤S3.3得到的损失函数计算梯度，采用SGD优化器更新网络参数。

S4、将预处理后的物体图像数据输入至目标双重复用残差网络中，获取网络输出的C个值，取其中最大值对应的那个类别作为预处理后的物体图像的类别，即得到物体识别结果。

从而通过目标双重复用残差网络实现了物体识别，通过残差学习缓解了训练过程中的梯度消失问题，通过双重复用增强了特征的前向传播，有效减少了计算代价，提高了物体识别的精度。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.一种基于双重复用残差网络的物体识别方法，其特征在于：包括以下步骤：

S1、获取物体图像并进行数据预处理；

2.根据权利要求1所述的一种基于双重复用残差网络的物体识别方法，其特征在于：所述步骤S1中，对物体图像进行数据预处理的方法包括以下步骤：

3.根据权利要求1所述的一种基于双重复用残差网络的物体识别方法，其特征在于：所述步骤S2中，第一卷积模块中卷积层卷积核大小为7×7，步长为2，通道数为40；激活函数层使用Relu激活函数；

4.根据权利要求3所述的一种基于双重复用残差网络的物体识别方法，其特征在于：所述特征复用残差单元包括无下采样的特征复用残差单元和有下采样的特征复用残差单元；

5.根据权利要求4所述的一种基于双重复用残差网络的物体识别方法，其特征在于：所述有下采样的特征复用残差单元包含依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、拼接运算层和融合运算层；还包括从第一卷积层和第二卷积层的输出到拼接运算层的输入的快捷连接，以及从特征复用残差单元的输入到融合运算层的输入的快捷连接；

6.根据权利要求1所述的一种基于双重复用残差网络的物体识别方法，其特征在于：所述步骤S2中，残差复用路径包括初始特征复用单元、4个转换单元、3个平均池化层、批归一化层以及激活函数层，其中，平均池化层池化域大小为2×2，步长为2，激活函数层使用Relu激活函数；

7.根据权利要求6所述的一种基于双重复用残差网络的物体识别方法，其特征在于：所述初始特征复用单元包含依次连接的步长为1通道数为120的1×1卷积层、批归一化层以及Relu激活函数层。

8.根据权利要求6所述的一种基于双重复用残差网络的物体识别方法，其特征在于：所述转换单元包含依次连接的拼接运算层、批归一化层、Relu激活函数层以及步长为1且输出通道数可调的1×1卷积层，1×1卷积层的输出通道数设置为输入通道数的1/3。

9.根据权利要求1所述的一种基于双重复用残差网络的物体识别方法，其特征在于：所述步骤S2中，残差复用路径的输出依次连接全局平均池化层和全连接层，其中，全连接层使用Softmax激活函数，全连接层的神经元个数即为物体的类别数C，全连接层的输出即为初始双重复用残差网络的输出。

10.根据权利要求1所述的一种基于双重复用残差网络的物体识别方法，其特征在于：所述步骤S3中，对初始双重复用残差网络进行训练的方法包括以下步骤：

L＝-[ylogy′+(1-y)log(1-y′)]

其中，y表示真实值，y′表示预测值，log表示对数函数；

S3.4、使用精度对网络模型进行评估，计算方法如下：

其中，acc表示网络模型的识别精度；