CN117036857A - 一种基于双重复用和卷积连接网络的物体识别方法 - Google Patents
一种基于双重复用和卷积连接网络的物体识别方法 Download PDFInfo
- Publication number
- CN117036857A CN117036857A CN202311006936.0A CN202311006936A CN117036857A CN 117036857 A CN117036857 A CN 117036857A CN 202311006936 A CN202311006936 A CN 202311006936A CN 117036857 A CN117036857 A CN 117036857A
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- output
- multiplexing unit
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000006835 compression Effects 0.000 claims abstract description 170
- 238000007906 compression Methods 0.000 claims abstract description 170
- 230000004913 activation Effects 0.000 claims abstract description 67
- 238000006243 chemical reaction Methods 0.000 claims abstract description 53
- 238000010606 normalization Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000011176 pooling Methods 0.000 claims abstract description 34
- 230000009977 dual effect Effects 0.000 claims abstract description 33
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 73
- 238000012795 verification Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于双重复用和卷积连接网络的物体识别方法,利用卷积层、批归一化层和激活函数层构建第一卷积模块;利用最大池化层、初始复用单元、压缩复用单元、转换单元、批归一化层和激活函数层分别构建第二至第五卷积模块;利用第一至第五卷积模块、全局平均池化层和全连接层构建初始双重复用和卷积连接网络;利用样本数据训练初始双重复用和卷积连接网络,得到目标基于双重复用和卷积连接的网络。从而通过目标基于双重复用和卷积连接的网络实现了物体识别,通过双重复用增强特征的前向传播,缓解训练过程中的梯度消失问题,通过压缩复用单元内的特征复用和卷积连接减少了计算代价,提高了物体识别的精度。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种基于双重复用和卷积连接网络的物体识别方法。
背景技术
随着人工智能的发展,深度学习技术广泛应用于基于图像的物体识别。密集连接卷积网络(Dense Convolutiona]Network,DenseNet)利用密集特征复用加强特征的前向传播,可以缓解深度卷积神经网络训练时的梯度消失问题,从而训练深层网络,提高物体识别性能。该方法复用每个密集单元的输出特征,将其输入之后的每个密集单元。由于密集的特征复用,DenseNet的训练代价和预测代价都较高。现在有许多方法直接利用密集特征复用,或对其做进一步改进来降低计算代价。但是,降低计算代价的改进方法通常难以保持或提高识别性能。
发明内容
为了解决以上技术问题,本发明提供一种基于双重复用和卷积连接网络的物体识别方法,包括以下步骤:
S1、获取物体图像并进行数据预处理;
S2、构建初始双重复用和卷积连接网络,初始双重复用和卷积连接网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、全局平均池化层以及全连接层;第一卷积模块包括依次连接的卷积层、批归一化层以及激活函数层;第二卷积模块包括最大池化层、初始复用单元、压缩复用单元以及转换单元;第三卷积模块和第四卷积模块均包括压缩复用单元和转换单元;第五卷积模块包括压缩复用单元、转换单元、批归一化层以及激活函数层;压缩复用单元均包括第一个输入、第二个输入、第一个输出以及第二个输出;
S3、利用样本数据集训练初始双重复用和卷积连接网络,得到目标基于双重复用和卷积连接的网络;
S4、将预处理后的物体图像数据输入至目标基于双重复用和卷积连接的网络中,获取网络输出,得到物体识别结果。
本发明进一步限定的技术方案是:
进一步的,步骤S1中,对物体图像进行数据预处理的方法包括以下步骤:
S1.1、对物体图像进行缩放,将物体图像的短边等比例缩放到256像素;
S1.2、对物体图像进行裁剪,居中裁剪出224×224大小的图片区域,得到预处理后的物体图像。
前所述的一种基于双重复用和卷积连接网络的物体识别方法,步骤S2中,第一卷积模块中卷积层卷积核大小为7×7,步长为2,通道数为32;激活函数层使用Relu激活函数;
第二卷积模块包括1个最大池化层、1个初始复用单元、N2个依次连接的无下采样的压缩复用单元以及1个转换单元,其中N2为可调参数,最大池化层池化域大小为3×3,步长为2;最大池化层的输出同时连接第1个压缩复用单元的第一个输入以及初始复用单元的输入,初始复用单元的输出连接第1个压缩复用单元的第二个输入;第i个压缩复用单元的第一个输出连接第i+1个压缩复用单元的第一个输入,第i个压缩复用单元的第二个输出连接第i+1个压缩复用单元的第二个输入,其中i=1,2,...,N2-1;第N2个压缩复用单元的第一个输出连接第三卷积模块中第1个压缩复用单元的第一个输入,第N2个压缩复用单元的第二个输出连接转换单元的输入,转换单元的输出连接第三卷积模块中第1个压缩复用单元的第二个输入;
第三卷积模块包括依次连接的N3个压缩复用单元和1个转换单元,其中N3为可调参数,且仅有第1个压缩复用单元使用下采样;第i个压缩复用单元的第一个输出连接第i+1个压缩复用单元的第一个输入,第i个压缩复用单元的第二个输出连接第i+1个压缩复用单元的第二个输入,其中i=1,2,...,N3-1;第N3个压缩复用单元的第一个输出连接第四卷积模块中第1个压缩复用单元的第一个输入,第N3个压缩复用单元的第二个输出连接转换单元的输入,转换单元的输出连接第四卷积模块中第1个压缩复用单元的第二个输入;
第四卷积模块包括依次连接的N4个压缩复用单元和1个转换单元,其中N4为可调参数,且仅有第1个压缩复用单元使用下采样;第i个压缩复用单元的第一个输出连接第i+1个压缩复用单元的第一个输入,第i个压缩复用单元的第二个输出连接第i+1个压缩复用单元的第二个输入,其中i=1,2,...,N4-1;第N4个压缩复用单元的第一个输出连接第五卷积模块中第1个压缩复用单元的第一个输入,第N4个压缩复用单元的第二个输出连接转换单元的输入,转换单元的输出连接第五卷积模块中第1个压缩复用单元的第二个输入;
第五卷积模块包括依次连接的N5个压缩复用单元、1个转换单元、1个批归一化层以及1个激活函数层,其中N5为可调参数,且仅有第1个压缩复用单元使用下采样;激活函数层使用Relu激活函数;第i个压缩复用单元的第一个输出连接第i+1个压缩复用单元的第一个输入,第i个压缩复用单元的第二个输出连接第i+1个压缩复用单元的第二个输入,i=1,2,...,N5-1;将第N5个压缩复用单元的第一个输入丢弃,第N5个压缩复用单元的第二个输出连接转换单元的输入,转换单元的输出依次连接批归一化层和激活函数层。
前所述的一种基于双重复用和卷积连接网络的物体识别方法,初始复用单元包括依次连接的步长为1通道数为64的1×1卷积层、批归一化层和Relu激活函数层。
前所述的一种基于双重复用和卷积连接网络的物体识别方法,压缩复用单元包括无下采样的压缩复用单元和有下采样的压缩复用单元;
无下采样的压缩复用单元包括第一分支、第二分支以及第三分支,第一分支包括依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、第一拼接运算层以及第二拼接运算层;第二分支包括第三拼接运算层;第三分支包括依次连接的第四批归一化层、第四激活函数层以及第四卷积层;
无下采样的压缩复用单元中,第二卷积层和第三卷积层的输出连接第一拼接运算层的输入;第一拼接运算层的输出和第二分支的输入连接第三拼接运算层的输入;第二分支的输入也是第三分支的输入;第一拼接运算层的输出和第三分支的输出连接第二拼接运算层的输入;第二拼接运算层的输出是该压缩复用单元的第一个输出,第三拼接运算层的输出是该压缩复用单元的第二个输出;
有下采样的压缩复用单元包括第一分支、第二分支以及第三分支,第一分支包括依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、第一拼接运算层以及第二拼接运算层;第二分支包括平均池化层和第三拼接运算层;第三分支包括依次连接的第四批归一化层、第四激活函数层以及第四卷积层;
有下采样的压缩复用单元中,第二卷积层和第三卷积层的输出连接第一拼接运算层的输入;第一拼接运算层的输出和第二分支中平均池化层的输出连接第三拼接运算层的输入;第二分支中平均池化层的输出也是第三分支的输入;第一拼接运算层的输出和第三分支的输出连接第二拼接运算层的输入;第二拼接运算层的输出是该压缩复用单元的第一个输出,第三拼接运算层的输出是该压缩复用单元的第二个输出。
前所述的一种基于双重复用和卷积连接网络的物体识别方法,转换单元包括依次连接的批归一化层、Relu激活函数层以及步长为1且输出通道数可调的1×1卷积层,1×1卷积层的输出通道数设置为输入通道数的1/2。
前所述的一种基于双重复用和卷积连接网络的物体识别方法,步骤S2中,第五卷积模块中激活函数层的输出依次连接全局平均池化层和全连接层,其中,全连接层使用Softmax激活函数,全连接层的神经元个数即为物体的类别数C,全连接层的输出即为初始双重复用和卷积连接网络的输出。
前所述的一种基于双重复用和卷积连接网络的物体识别方法,步骤S3中,样本数据集设置为ImageNet ILSVRC 2012数据集,ImageNet ILSVRC 2012数据集由不同物体的图片组成,包含1000个类的1281167幅训练集图片、50000幅验证集图片以及100000测试集图片,通过训练集图片、验证集图片及其对应的物体类别对初始双重复用和卷积连接网络进行训练,得到目标基于双重复用和卷积连接的网络。
前所述的一种基于双重复用和卷积连接网络的物体识别方法,步骤S3中,对初始双重复用和卷积连接网络进行训练的方法包括以下步骤:
S3.1、设定训练模型初始参数,优化器设置为SGD优化器;初始学习率设置为0.1;学习率衰减设置为在50%和75%训练轮数时学习率衰减为之前的1/10;权重衰减设置为0.0001;动量设置为0.9;批大小设置为128;训练轮数设置为100;
S3.2、对训练集图片进行数据增强,即进行随机缩放、随机裁剪、随机翻转、归一化处理以及颜色抖动;同时对验证集图片进行缩放和裁剪;将数据增强后的训练集图片和处理后的验证集图片输入初始双重复用和卷积连接网络;
S3.3、在训练过程中使用交叉熵损失函数计算损失,计算公式如下:
L=-[ylogy′+(1-y)log(1-y′)]
其中,y表示真实值,y′表示预测值,log表示对数函数;
S3.4、使用精度对网络模型进行评估,计算方法如下:
其中,acc表示网络模型的识别精度;
S3.5、根据将步骤S3.3得到的损失函数计算梯度,采用SGD优化器更新网络参数;
S3.6、重复步骤S3.2至步骤S3.5的训练过程,每训练完一轮使用验证集图片对网络模型进行评估,按照最优acc值保存模型参数,直至训练轮数100轮全部完成,得到目标基于双重复用和卷积连接的网络。
前所述的一种基于双重复用和卷积连接网络的物体识别方法,步骤S3.2中,对训练集图片进行数据增强包括以下步骤:
A1、随机缩放:将图片的短边等比例随机缩放到[256,480]范围内;
A2、随机裁剪:将图片随机裁剪出224×224大小的图片区域;
A3、随机翻转:将图片进行随机水平翻转;
A4、归一化处理:图片包括R、G、B三个通道,将每个通道分别减去所有图片对应通道的平均值;
A5、颜色抖动:先将图片每个通道的数据由二维矩阵转成一维向量;然后对该图片R、G、B三个通道分别求出协方差矩阵;再求出协方差矩阵的特征向量和特征值;最后通过下式进行转换:
β=[p1,p2,p3][α1λ1,α2λ2,α3λ3]T
其中,p1,p2,p3是三个特征向量,λ1,λ2,λ3是三个特征值,α1,α2,α3是三个服从均值为0、方差为0.1的随机变量;将β与原图片的R、G、B三个通道相加,执行python的广播机制,即图片每个通道的所有像素点都与β中的一个数相加;
对验证集图片进行缩放和裁剪包括以下步骤:
B1、缩放:将图片的短边等比例缩放到256像素;
B2、裁剪:对图片居中裁剪出224×224大小的图片区域。
本发明的有益效果是:
(1)本发明中,通过压缩复用单元中第一分支和第二分支的双重特征复用增强特征的前向传播,缓解训练过程中的梯度消失问题;
(2)本发明中,压缩复用单元中第一分支的特征复用和第三分支的卷积连接增加了新特征映射和输出特征映射的数量,降低了特征复用的计算代价;
(3)本发明中,压缩复用单元和由所有新特征映射的复用组成的最终特征映射保留了拼接运算的优点,增强了特征的前向传播,有效提高了识别性能,并且计算代价更低。
附图说明
图1为本发明的整体流程示意图;
图2为本发明中初始双重复用和卷积连接网络的结构示意图;
图3为本发明中初始复用单元的结构示意图;
图4为本发明中压缩复用单元的结构示意图;
图5为本发明中转换单元的结构示意图。
具体实施方式
本实施例提供的一种基于双重复用和卷积连接网络的物体识别方法,如图1所示,包括以下步骤:
S1、获取物体图像并进行数据预处理,对物体图像进行数据预处理的方法包括以下步骤:
S1.1、对物体图像进行缩放,将物体图像的短边等比例缩放到256像素;
S1.2、对物体图像进行裁剪,居中裁剪出224×224大小的图片区域,得到预处理后的物体图像。
S2、构建初始双重复用和卷积连接网络,如图2所示,初始双重复用和卷积连接网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、全局平均池化层以及全连接层。
如图2中的Conv1所示,第一卷积模块包括依次连接的卷积层、批归一化层以及激活函数层,且卷积层卷积核大小为7×7,步长为2,通道数为32;激活函数层使用Relu激活函数。
第二卷积模块包括最大池化层、初始复用单元、压缩复用单元以及转换单元;第三卷积模块和第四卷积模块均包括压缩复用单元和转换单元;第五卷积模块包括压缩复用单元、转换单元、批归一化层以及激活函数层;压缩复用单元均包括第一个输入、第二个输入、第一个输出以及第二个输出。
如图2中的Conv2所示,第二卷积模块包括1个最大池化层、1个初始复用单元、N2个依次连接的无下采样的压缩复用单元以及1个转换单元,其中N2为可调参数,可设置为4,最大池化层池化域大小为3×3,步长为2;最大池化层的输出同时连接第1个压缩复用单元的第一个输入以及初始复用单元的输入,初始复用单元的输出连接第1个压缩复用单元的第二个输入;第i个压缩复用单元的第一个输出连接第i+1个压缩复用单元的第一个输入,第i个压缩复用单元的第二个输出连接第i+1个压缩复用单元的第二个输入,其中i=1,2,...,N2-1;第N2个压缩复用单元的第一个输出连接第三卷积模块中第1个压缩复用单元的第一个输入,第N2个压缩复用单元的第二个输出连接转换单元的输入,转换单元的输出连接第三卷积模块中第1个压缩复用单元的第二个输入。
如图2中的Conv3所示,第三卷积模块包括依次连接的N3个压缩复用单元和1个转换单元,其中N3为可调参数,可设置为8,且仅有第1个压缩复用单元使用下采样;第i个压缩复用单元的第一个输出连接第i+1个压缩复用单元的第一个输入,第i个压缩复用单元的第二个输出连接第i+1个压缩复用单元的第二个输入,其中i=1,2,...,N3-1;第N3个压缩复用单元的第一个输出连接第四卷积模块中第1个压缩复用单元的第一个输入,第N3个压缩复用单元的第二个输出连接转换单元的输入,转换单元的输出连接第四卷积模块中第1个压缩复用单元的第二个输入。
如图2中的Conv4所示,第四卷积模块包括依次连接的N4个压缩复用单元和1个转换单元,其中N4为可调参数,可设置为16,且仅有第1个压缩复用单元使用下采样;第i个压缩复用单元的第一个输出连接第i+1个压缩复用单元的第一个输入,第i个压缩复用单元的第二个输出连接第i+1个压缩复用单元的第二个输入,其中i=1,2,...,N4-1;第N4个压缩复用单元的第一个输出连接第五卷积模块中第1个压缩复用单元的第一个输入,第N4个压缩复用单元的第二个输出连接转换单元的输入,转换单元的输出连接第五卷积模块中第1个压缩复用单元的第二个输入。
如图2中的Conv5所示,第五卷积模块包括依次连接的N5个压缩复用单元、1个转换单元、1个批归一化层以及1个激活函数层,其中N5为可调参数,可设置为11,且仅有第1个压缩复用单元使用下采样;激活函数层使用Relu激活函数;第i个压缩复用单元的第一个输出连接第i+1个压缩复用单元的第一个输入,第i个压缩复用单元的第二个输出连接第i+1个压缩复用单元的第二个输入,i=1,2,...,N5-1;将第N5个压缩复用单元的第一个输入丢弃,第N5个压缩复用单元的第二个输出连接转换单元的输入,转换单元的输出依次连接批归一化层和激活函数层。
第五卷积模块中激活函数层的输出依次连接全局平均池化层和全连接层,其中,全连接层使用Softmax激活函数,全连接层的神经元个数即为物体的类别数C,全连接层的输出即为初始双重复用和卷积连接网络的输出。
如图3所示,初始复用单元包括依次连接的步长为1通道数为64的1×1卷积层、批归一化层和Relu激活函数层。
压缩复用单元包括无下采样的压缩复用单元和有下采样的压缩复用单元,如图4所示,图4中的上部分结构图为无下采样的压缩复用单元,图4中的下部分结构图为有下采样的压缩复用单元。
如图4中的上部分结构图所示,无下采样的压缩复用单元包括第一分支、第二分支以及第三分支,第一分支包括依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、第一拼接运算层以及第二拼接运算层;第二分支包括第三拼接运算层;第三分支包括依次连接的第四批归一化层、第四激活函数层以及第四卷积层。
无下采样的压缩复用单元中,第一至第四激活函数层使用Relu激活函数;第一卷积层卷积核大小为1×1,步长为1,通道数为32;第二卷积层和第三卷积层卷积核大小为3×3,步长为1,通道数为32;第四卷积层卷积核大小为1×1,步长为1,通道数为96。
无下采样的压缩复用单元中,第二卷积层和第三卷积层的输出连接第一拼接运算层的输入;第一拼接运算层的输出和第二分支的输入连接第三拼接运算层的输入;第二分支的输入也是第三分支的输入;第一拼接运算层的输出和第三分支的输出连接第二拼接运算层的输入;第二拼接运算层的输出是该压缩复用单元的第一个输出,第三拼接运算层的输出是该压缩复用单元的第二个输出。
如图4中的下部分结构图所示,有下采样的压缩复用单元包括第一分支、第二分支以及第三分支,第一分支包括依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、第一拼接运算层以及第二拼接运算层;第二分支包括平均池化层和第三拼接运算层;第三分支包括依次连接的第四批归一化层、第四激活函数层以及第四卷积层。
有下采样的压缩复用单元中,第一至第四激活函数层使用Relu激活函数;第一卷积层卷积核大小为1×1,步长为1,通道数为32;第二卷积层卷积核大小为3×3,步长为2,通道数为32;第三卷积层卷积核大小为3×3,步长为1,通道数为32;第四卷积层卷积核大小为1×1,步长为1,通道数为96;平均池化层池化域大小为2×2,步长为2。
有下采样的压缩复用单元中,第二卷积层和第三卷积层的输出连接第一拼接运算层的输入;第一拼接运算层的输出和第二分支中平均池化层的输出连接第三拼接运算层的输入;第二分支中平均池化层的输出也是第三分支的输入;第一拼接运算层的输出和第三分支的输出连接第二拼接运算层的输入;第二拼接运算层的输出是该压缩复用单元的第一个输出,第三拼接运算层的输出是该压缩复用单元的第二个输出。
如图5所示,转换单元包括依次连接的批归一化层、Relu激活函数层以及步长为1且输出通道数可调的1×1卷积层,1×1卷积层的输出通道数设置为输入通道数的1/2。
S3、利用样本数据集训练初始双重复用和卷积连接网络,得到目标基于双重复用和卷积连接的网络;
样本数据集设置为从ImageNet官网(https://image-net.org/download.php)下载的ImageNet ILSVRC 2012数据集,ImageNet ILSVRC 2012数据集由不同物体的图片组成,包含1000个类的1281167幅训练集图片、50000幅验证集图片以及100000测试集图片,通过训练集图片、验证集图片及其对应的物体类别对初始双重复用和卷积连接网络进行训练,得到目标基于双重复用和卷积连接的网络。
对初始双重复用和卷积连接网络进行训练的方法包括以下步骤:
S3.1、设定训练模型初始参数,优化器设置为SGD优化器;初始学习率设置为0.1;学习率衰减设置为在50%和75%训练轮数时学习率衰减为之前的1/10;权重衰减设置为0.0001;动量设置为0.9;批大小设置为128;训练轮数设置为100。
S3.2、对训练集图片进行数据增强,即进行随机缩放、随机裁剪、随机翻转、归一化处理以及颜色抖动;同时对验证集图片进行缩放和裁剪;将数据增强后的训练集图片和处理后的验证集图片输入初始双重复用和卷积连接网络。
对训练集图片进行数据增强包括以下步骤:
A1、随机缩放:将图片的短边等比例随机缩放到[256,480]范围内;
A2、随机裁剪:将图片随机裁剪出224×224大小的图片区域;
A3、随机翻转:将图片进行随机水平翻转;
A4、归一化处理:图片包括R、G、B三个通道,将每个通道分别减去所有图片对应通道的平均值;
A5、颜色抖动:先将图片每个通道的数据由二维矩阵转成一维向量;然后对该图片R、G、B三个通道分别求出协方差矩阵;再求出协方差矩阵的特征向量和特征值;最后通过下式进行转换:
β=[p1,p2,p3][α1λ1,α2λ2,α3λ3]T
其中,p1,p2,p3是三个特征向量,λ1,λ2,λ3是三个特征值,α1,α2,α3是三个服从均值为0、方差为0.1的随机变量;将β与原图片的R、G、B三个通道相加,执行python的广播机制,即图片每个通道的所有像素点都与β中的一个数相加。
对验证集图片进行缩放和裁剪包括以下步骤:
B1、缩放:将图片的短边等比例缩放到256像素;
B2、裁剪:对图片居中裁剪出224×224大小的图片区域。
S3.3、在训练过程中使用交叉熵损失函数计算损失,计算公式如下:
L=-[ylogy′+(1-y)log(1-y′)]
其中,y表示真实值,y′表示预测值,log表示对数函数。
S3.4、使用精度对网络模型进行评估,计算方法如下:
其中,acc表示网络模型的识别精度,acc值越高则表示识别效果越好。
S3.5、根据将步骤S3.3得到的损失函数计算梯度,采用SGD优化器更新网络参数。
S3.6、重复步骤S3.2至步骤S3.5的训练过程,每训练完一轮使用验证集图片对网络模型进行评估,按照最优acc值保存模型参数,直至训练轮数100轮全部完成,得到目标基于双重复用和卷积连接的网络。
S4、将预处理后的物体图像数据输入至目标基于双重复用和卷积连接的网络中,获取网络输出的C个值,取其中最大值对应的那个类别作为预处理后的物体图像的类别,即得到物体识别结果。
从而通过目标基于双重复用和卷积连接的网络实现了物体识别,通过双重复用增强特征的前向传播,缓解训练过程中的梯度消失问题,通过压缩复用单元内的特征复用和卷积连接减少了计算代价,提高了物体识别的精度。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。
Claims (10)
1.一种基于双重复用和卷积连接网络的物体识别方法,其特征在于:包括以下步骤:
S1、获取物体图像并进行数据预处理;
S2、构建初始双重复用和卷积连接网络,初始双重复用和卷积连接网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、全局平均池化层以及全连接层;第一卷积模块包括依次连接的卷积层、批归一化层以及激活函数层;第二卷积模块包括最大池化层、初始复用单元、压缩复用单元以及转换单元;第三卷积模块和第四卷积模块均包括压缩复用单元和转换单元;第五卷积模块包括压缩复用单元、转换单元、批归一化层以及激活函数层;压缩复用单元均包括第一个输入、第二个输入、第一个输出以及第二个输出;
S3、利用样本数据集训练初始双重复用和卷积连接网络,得到目标基于双重复用和卷积连接的网络;
S4、将预处理后的物体图像数据输入至目标基于双重复用和卷积连接的网络中,获取网络输出,得到物体识别结果。
2.根据权利要求1所述的一种基于双重复用和卷积连接网络的物体识别方法,其特征在于:所述步骤S1中,对物体图像进行数据预处理的方法包括以下步骤:
S1.1、对物体图像进行缩放,将物体图像的短边等比例缩放到256像素;
S1.2、对物体图像进行裁剪,居中裁剪出224×224大小的图片区域,得到预处理后的物体图像。
3.根据权利要求1所述的一种基于双重复用和卷积连接网络的物体识别方法,其特征在于:所述步骤S2中,第一卷积模块中卷积层卷积核大小为7×7,步长为2,通道数为32;激活函数层使用Relu激活函数;
第二卷积模块包括1个最大池化层、1个初始复用单元、N2个依次连接的无下采样的压缩复用单元以及1个转换单元,其中N2为可调参数,最大池化层池化域大小为3×3,步长为2;最大池化层的输出同时连接第1个压缩复用单元的第一个输入以及初始复用单元的输入,初始复用单元的输出连接第1个压缩复用单元的第二个输入;第i个压缩复用单元的第一个输出连接第i+1个压缩复用单元的第一个输入,第i个压缩复用单元的第二个输出连接第i+1个压缩复用单元的第二个输入,其中i=1,2,...,N2-1;第N2个压缩复用单元的第一个输出连接第三卷积模块中第1个压缩复用单元的第一个输入,第N2个压缩复用单元的第二个输出连接转换单元的输入,转换单元的输出连接第三卷积模块中第1个压缩复用单元的第二个输入;
第三卷积模块包括依次连接的N3个压缩复用单元和1个转换单元,其中N3为可调参数,且仅有第1个压缩复用单元使用下采样;第i个压缩复用单元的第一个输出连接第i+1个压缩复用单元的第一个输入,第i个压缩复用单元的第二个输出连接第i+1个压缩复用单元的第二个输入,其中i=1,2,...,N3-1;第N3个压缩复用单元的第一个输出连接第四卷积模块中第1个压缩复用单元的第一个输入,第N3个压缩复用单元的第二个输出连接转换单元的输入,转换单元的输出连接第四卷积模块中第1个压缩复用单元的第二个输入;
第四卷积模块包括依次连接的N4个压缩复用单元和1个转换单元,其中N4为可调参数,且仅有第1个压缩复用单元使用下采样;第i个压缩复用单元的第一个输出连接第i+1个压缩复用单元的第一个输入,第i个压缩复用单元的第二个输出连接第i+1个压缩复用单元的第二个输入,其中i=1,2,...,N4-1;第N4个压缩复用单元的第一个输出连接第五卷积模块中第1个压缩复用单元的第一个输入,第N4个压缩复用单元的第二个输出连接转换单元的输入,转换单元的输出连接第五卷积模块中第1个压缩复用单元的第二个输入;
第五卷积模块包括依次连接的N5个压缩复用单元、1个转换单元、1个批归一化层以及1个激活函数层,其中N5为可调参数,且仅有第1个压缩复用单元使用下采样;激活函数层使用Relu激活函数;第i个压缩复用单元的第一个输出连接第i+1个压缩复用单元的第一个输入,第i个压缩复用单元的第二个输出连接第i+1个压缩复用单元的第二个输入,i=1,2,...,N5-1;将第N5个压缩复用单元的第一个输入丢弃,第N5个压缩复用单元的第二个输出连接转换单元的输入,转换单元的输出依次连接批归一化层和激活函数层。
4.根据权利要求3所述的一种基于双重复用和卷积连接网络的物体识别方法,其特征在于:所述初始复用单元包括依次连接的步长为1通道数为64的1×1卷积层、批归一化层和Relu激活函数层。
5.根据权利要求3所述的一种基于双重复用和卷积连接网络的物体识别方法,其特征在于:所述压缩复用单元包括无下采样的压缩复用单元和有下采样的压缩复用单元;
无下采样的压缩复用单元包括第一分支、第二分支以及第三分支,第一分支包括依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、第一拼接运算层以及第二拼接运算层;第二分支包括第三拼接运算层;第三分支包括依次连接的第四批归一化层、第四激活函数层以及第四卷积层;
无下采样的压缩复用单元中,第二卷积层和第三卷积层的输出连接第一拼接运算层的输入;第一拼接运算层的输出和第二分支的输入连接第三拼接运算层的输入;第二分支的输入也是第三分支的输入;第一拼接运算层的输出和第三分支的输出连接第二拼接运算层的输入;第二拼接运算层的输出是该压缩复用单元的第一个输出,第三拼接运算层的输出是该压缩复用单元的第二个输出;
有下采样的压缩复用单元包括第一分支、第二分支以及第三分支,第一分支包括依次连接的第一批归一化层、第一激活函数层、第一卷积层、第二批归一化层、第二激活函数层、第二卷积层、第三批归一化层、第三激活函数层、第三卷积层、第一拼接运算层以及第二拼接运算层;第二分支包括平均池化层和第三拼接运算层;第三分支包括依次连接的第四批归一化层、第四激活函数层以及第四卷积层;
有下采样的压缩复用单元中,第二卷积层和第三卷积层的输出连接第一拼接运算层的输入;第一拼接运算层的输出和第二分支中平均池化层的输出连接第三拼接运算层的输入;第二分支中平均池化层的输出也是第三分支的输入;第一拼接运算层的输出和第三分支的输出连接第二拼接运算层的输入;第二拼接运算层的输出是该压缩复用单元的第一个输出,第三拼接运算层的输出是该压缩复用单元的第二个输出。
6.根据权利要求3所述的一种基于双重复用和卷积连接网络的物体识别方法,其特征在于:所述转换单元包括依次连接的批归一化层、Relu激活函数层以及步长为1且输出通道数可调的1×1卷积层,1×1卷积层的输出通道数设置为输入通道数的1/2。
7.根据权利要求1所述的一种基于双重复用和卷积连接网络的物体识别方法,其特征在于:所述步骤S2中,第五卷积模块中激活函数层的输出依次连接全局平均池化层和全连接层,其中,全连接层使用Softmax激活函数,全连接层的神经元个数即为物体的类别数C,全连接层的输出即为初始双重复用和卷积连接网络的输出。
8.根据权利要求1所述的一种基于双重复用和卷积连接网络的物体识别方法,其特征在于:所述步骤S3中,样本数据集设置为ImageNetILSVRC 2012数据集,ImageNet ILSVRC2012数据集由不同物体的图片组成,包含1000个类的1281167幅训练集图片、50000幅验证集图片以及100000测试集图片,通过训练集图片、验证集图片及其对应的物体类别对初始双重复用和卷积连接网络进行训练,得到目标基于双重复用和卷积连接的网络。
9.根据权利要求8所述的一种基于双重复用和卷积连接网络的物体识别方法,其特征在于:所述步骤S3中,对初始双重复用和卷积连接网络进行训练的方法包括以下步骤:
S3.1、设定训练模型初始参数,优化器设置为SGD优化器;初始学习率设置为0.1;学习率衰减设置为在50%和75%训练轮数时学习率衰减为之前的1/10;权重衰减设置为0.0001;动量设置为0.9;批大小设置为128;训练轮数设置为100;
S3.2、对训练集图片进行数据增强,即进行随机缩放、随机裁剪、随机翻转、归一化处理以及颜色抖动;同时对验证集图片进行缩放和裁剪;将数据增强后的训练集图片和处理后的验证集图片输入初始双重复用和卷积连接网络;
S3.3、在训练过程中使用交叉熵损失函数计算损失,计算公式如下:
L=-[ylogy′+(1-y)log(1-y′)]
其中,y表示真实值,y′表示预测值,log表示对数函数;
S3.4、使用精度对网络模型进行评估,计算方法如下:
其中,acc表示网络模型的识别精度;
S3.5、根据将步骤S3.3得到的损失函数计算梯度,采用SGD优化器更新网络参数;
S3.6、重复步骤S3.2至步骤S3.5的训练过程,每训练完一轮使用验证集图片对网络模型进行评估,按照最优acc值保存模型参数,直至训练轮数100轮全部完成,得到目标基于双重复用和卷积连接的网络。
10.根据权利要求9所述的一种基于双重复用和卷积连接网络的物体识别方法,其特征在于:所述步骤S3.2中,对训练集图片进行数据增强包括以下步骤:
A1、随机缩放:将图片的短边等比例随机缩放到[256,480]范围内;
A2、随机裁剪:将图片随机裁剪出224×224大小的图片区域;
A3、随机翻转:将图片进行随机水平翻转;
A4、归一化处理:图片包括R、G、B三个通道,将每个通道分别减去所有图片对应通道的平均值;
A5、颜色抖动:先将图片每个通道的数据由二维矩阵转成一维向量;然后对该图片R、G、B三个通道分别求出协方差矩阵;再求出协方差矩阵的特征向量和特征值;最后通过下式进行转换:
β=[p1,p2,p3][α1λ1,α2λ2,α3λ3]T
其中,p1,p2,p3是三个特征向量,λ1,λ2,λ3是三个特征值,α1,α2,α3是三个服从均值为0、方差为0.1的随机变量;将β与原图片的R、G、B三个通道相加,执行python的广播机制,即图片每个通道的所有像素点都与β中的一个数相加;
对验证集图片进行缩放和裁剪包括以下步骤:
B1、缩放:将图片的短边等比例缩放到256像素;
B2、裁剪:对图片居中裁剪出224×224大小的图片区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311006936.0A CN117036857A (zh) | 2023-08-10 | 2023-08-10 | 一种基于双重复用和卷积连接网络的物体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311006936.0A CN117036857A (zh) | 2023-08-10 | 2023-08-10 | 一种基于双重复用和卷积连接网络的物体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117036857A true CN117036857A (zh) | 2023-11-10 |
Family
ID=88601769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311006936.0A Pending CN117036857A (zh) | 2023-08-10 | 2023-08-10 | 一种基于双重复用和卷积连接网络的物体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117036857A (zh) |
-
2023
- 2023-08-10 CN CN202311006936.0A patent/CN117036857A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109360171B (zh) | 一种基于神经网络的视频图像实时去模糊方法 | |
CN111489364B (zh) | 基于轻量级全卷积神经网络的医学图像分割方法 | |
CN111696101A (zh) | 一种基于SE-Inception的轻量级茄科病害识别方法 | |
CN111127316B (zh) | 一种基于sngan网络的单幅人脸图像超分辨方法及系统 | |
CN112818764B (zh) | 一种基于特征重建模型的低分辨率图像人脸表情识别方法 | |
CN112541877B (zh) | 基于条件生成对抗网络的去模糊方法、系统、设备及介质 | |
CN110930378B (zh) | 基于低数据需求的肺气肿影像处理方法及系统 | |
CN113298734B (zh) | 一种基于混合空洞卷积的图像修复方法及系统 | |
CN116052064B (zh) | 鱼群摄食强度识别方法、装置、电子设备及投饵机 | |
CN117036806A (zh) | 一种基于双重复用残差网络的物体识别方法 | |
CN113689545A (zh) | 一种2d到3d端对端的超声或ct医学影像跨模态重建方法 | |
CN115731597A (zh) | 一种人脸口罩掩膜图像自动分割与修复管理平台及方法 | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
CN117392496A (zh) | 基于红外与可见光图像融合的目标检测方法及系统 | |
CN114140641A (zh) | 面向图像分类的多参数自适应异构并行计算方法 | |
CN117036857A (zh) | 一种基于双重复用和卷积连接网络的物体识别方法 | |
CN116524283A (zh) | 一种农业虫害图像检测分类方法及系统 | |
CN113670440B (zh) | 一种基于自适应字典的压缩光谱成像方法 | |
CN116704188A (zh) | 一种基于改进U-Net网络的不同容重小麦籽粒图像分割算法 | |
CN116229081A (zh) | 基于注意力机制的无人机全景图像去噪方法 | |
CN116433516A (zh) | 一种基于注意力机制的低照度图像去噪增强方法 | |
CN112464916B (zh) | 人脸识别方法及其模型训练方法 | |
CN113689544B (zh) | 一种跨视图几何约束的医学影像三维重建方法 | |
CN113689548B (zh) | 一种基于互注意力Transformer的医学影像三维重建方法 | |
CN114332481A (zh) | 一种基于非负稀疏自编码器的盲端元提取与光谱解混方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |