CN112364979B

CN112364979B - 一种基于GoogLeNet的红外图像识别方法

Info

Publication number: CN112364979B
Application number: CN202011223719.3A
Authority: CN
Inventors: 张岩; 李坡; 武艳伟; 刘光宏; 李雨泽; 丛明煜; 于鲲; 杨春玲; 陈臻炜
Original assignee: Harbin Institute of Technology; CETC Information Science Research Institute
Current assignee: Harbin Institute of Technology; CETC Information Science Research Institute
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-07-12
Anticipated expiration: 2040-11-05
Also published as: CN112364979A

Abstract

本发明公开了一种基于GoogLeNet的红外图像识别方法，属于图像识别技术领域。通过数据增强扩充训练数据集，降低了对数据集大小的依赖。通过改进GoogLeNet的网络结构提高模型对于尺度变化的鲁棒性。将在ImageNet典型数据集上训练好的GoogLeNet模型参数进行迁移学习，在红外数据集上进行参数微调，提高训练速度。本发明解决了目标尺度变化问题、样本不均衡问题、训练样本不足的问题。同时提升了训练的稳定性，有效提高了红外图像的识别准确率，提升了模型的泛化性和鲁棒性。

Description

一种基于GoogLeNet的红外图像识别方法

技术领域

本发明涉及一种基于GoogLeNet的红外图像识别方法，属于图像识别技术领域。

背景技术

图像识别，是指对图像进行对象识别，以识别各种不同模式的目标和对象的技术。它涵盖图像匹配、图像分类、图像检索、人脸检测、行人检测等技术，在互联网搜索引擎、自动驾驶、医学分析、遥感分析等领域具有广泛的应用价值。

现有的图像识别技术主要分为基于特征提取的传统算法和基于卷积神经网络的深度学习算法。传统的特征提取算法针对不同应用场景难以选取稳定有效的特征。基于卷积神经网络的图像识别算法对训练集的大小要求严格，难以应对红外场景中数据缺乏的问题。此外，这种卷积神经网络不具备尺度不变性，一定程度上限制了图像识别技术的进一步发展。本发明使用迁移学习的方法，通过改进GoogLeNet的网络结构，解决尺度变化和训练集缺乏的问题。

发明内容

本发明的目的是提出一种基于GoogLeNet的红外图像识别方法，使用迁移学习的方法，通过改进GoogLeNet的网络结构，以解决尺度变化和训练集缺乏的问题。

一种基于GoogLeNet的红外图像识别方法，所述红外图像识别方法包括以下步骤：

步骤一、数据增强：对红外数据集进行数据增强，包括像素级调整、模拟对象遮挡以及多图像拼接；

步骤二、改进GoogLeNet基本单元结构，搭建浅层Inception结构和深层Inception结构；

步骤三、引入空间注意力机制：使用空间注意力机制，牺牲少量的计算时间来提高模型的分类准确率；

步骤四、引入特征金字塔融合：将浅层特征图和深层特征图进行加权融合，提高网络的识别精度和对于不同尺度目标的识别能力；

步骤五、引入Focal loss损失函数，并加入L1正则项：

loss＝-ya(1-y')^γlogy'-(1-y)(1-a)y'^γlog(1-y')+λ(||W||+||b||)

式中y为标签值，y'为预测值，a是平衡因子，用于平衡正负样本本身的比例不均，γ负责控制难易样本的权重，λ为正则化系数；

步骤六、引入Mish激活函数：使用Mish激活函数替换ReLU函数；

步骤七、使用迁移学习：使用ImageNet数据集对模型进行初始化，并将预训练好的模型参数迁移到红外数据集，进行参数微调；

步骤八、进行红外图像识别：使用微调后的网络模型对红外数据集进行识别，得到识别结果。

进一步的，在步骤一中，所述像素级调整包括光度畸变和几何畸变，模拟对象遮挡分为像素级遮挡和区域级遮挡，多图像拼接包括像素级拼接和区域级拼接。

进一步的，所述光度畸变包括调整图像的亮度和加入噪声；所述几何畸变包括随机缩放、剪切、翻转和反旋转；所述像素级遮挡，即随机选择图像中的某一些点，填充一个随机的或互补的零值；所述区域级遮挡，即随机或均匀地选择图像中的多个矩阵区域，并将其全部替换为0；所述像素级拼接，即使用两个图像以不同的系数相乘并叠加，使用该系数值作为标签；所述区域级拼接，即将剪切后的图像覆盖到其他图像的矩阵区域，并根据混合区域的大小调整标签。

进一步的，在步骤二中，引入7*7的卷积核分支，提高网络的感受野大小，使用1*1卷积核进行参数降维，在网络深层结构使用3*1和1*3的卷积组合替换3*3、5*5、7*7的卷积核，实现精度基本不改变的情况下减小参数和计算量。

进一步的，在步骤三中，前一层Inception结构的输出分成两条分支，一条经过两次3×3的卷积操作后，使用Sigmoid激活函数映射到[0,1]区间得到注意力图，另一条分支将Inception输出直接与注意力图进行相乘，得到下一层Inception的输入。

本发明的主要优点是：本发明提供的一种基于GoogLeNet的红外图像识别方法，通过改进GoogLeNet网络结构，解决了目标尺度变化问题。通过引入Focal loss解决了样本不均衡问题。使用数据增强和迁移学习解决训练样本不足的问题。同时，采用Mish替换ReLU激活函数，提升了训练的稳定性。与现有的基于深度学习的图像识别模型相比，改进的GoogLeNet网络模型有效提高了红外图像的识别准确率，提升了模型的泛化性和鲁棒性。

附图说明

图1是网络基本单元--Inception结构图；

图2是空间注意力网络结构示意图；

图3是特征金字塔融合结构图；

图4是基于共享参数的迁移学习示意图；

图5是本发明的一种基于GoogLeNet的红外图像识别方法的方法流程图；

图6是本发明的一种基于GoogLeNet的红外图像识别方法的具体网络结构图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图5所示，一种基于GoogLeNet的红外图像识别方法，所述红外图像识别方法包括以下步骤：

步骤三、引入空间注意力机制(SpatialAttentionmodule(SAM))：使用空间注意力机制，牺牲少量的计算时间来提高模型的分类准确率；

步骤四、引入特征金字塔融合，如图3所示。深层网络的特征图尺寸较小，对应于原图的感受野较大，主要提取的是目标的全局特征，缺乏细节特征。而浅层网络的特征图尺寸较大，对应于原图的感受野较小，主要提取的是目标的局部特征。将浅层特征图和深层特征图进行加权融合，提高网络的识别精度和对于不同尺度目标的识别能力；

步骤五、引入Focal loss损失函数，为解决样本不均衡问题并控制容易分类和难分类样本的权重，引入Focal loss损失函数，并加入L1正则项：

loss＝-ya(1-y')^γlogy'-(1-y)(1-a)y'γlog(1-y')+λ(||W||+||b||)

步骤六、引入Mish激活函数：相比于ReLU激活函数，Mish的梯度更平滑，能更好地传播信息。使用Mish激活函数替换ReLU函数，可以提升训练的稳定性，提高模型准确率；

步骤七、使用迁移学习：参照图4所示，深度学习需要大量的高质量标注数据，由于红外数据匮乏，需要使用ImageNet数据集对模型进行初始化。并将预训练好的模型参数迁移到红外数据集，进行参数微调；

参照图1所示，进一步的，在步骤二中，引入7*7的卷积核分支，提高网络的感受野大小，使用1*1卷积核进行参数降维，在网络深层结构使用3*1和1*3的卷积组合替换3*3、5*5、7*7的卷积核，实现精度基本不改变的情况下减小参数和计算量。

进一步的，在步骤三中，通道注意力机制虽然可以提高分类网络的精度，但同时也大大增加了模型的计算量。这里使用另一种注意力机制——空间注意力机制，牺牲少量的计算时间来提高模型的分类准确率。如图2所示，前一层Inception结构的输出分成两条分支，一条经过两次3×3的卷积操作后，使用Sigmoid激活函数映射到[0,1]区间得到注意力图，另一条分支将Inception输出直接与注意力图进行相乘，得到下一层Inception的输入。

以下为本发明的一具体实施例：

步骤一、对采集到的红外图像集进行数据增强，包括像素级调整、模拟对象遮挡以及多图像拼接。首先进行光度畸变，加入双峰高斯噪声。接着进行几何畸变，添加随机缩放(缩放比例选择0.3-1.3)、旋转(间隔15度)。然后模拟遮挡，随机选择图像中的某个矩形区域(像元数50*20)，将其全部填充为0。最后进行图像拼接，使用两类图像进行像素级拼接(系数分别为0.5)和区域级拼接(混合系数0.5)，使用该系数作为拼接后的图像标签；

步骤二、改进GoogLeNet的网络结构，如图6所示，包含4层浅层Inception结构和4层深层Inception结构。并引入注意力机制和特征金字塔融合机制。具体改进措施为步骤三至步骤六；

步骤三、构建GoogLeNet基本单元Inception结构，分为浅层Inception和深层Inception，浅层Inception分成5个分支，分别为7*7卷积分支，5*5卷积分支，3*3卷积分支，池化分支，1*1卷积分支，并分别使用1*1卷积核进行参数降维。深层Inception结构使用3个1*3、3*1卷积组合替换7*7卷积核，2个1*3、3*1卷积组合替换5*5卷积核，1个1*3、3*1卷积组合替换3*3卷积核；

步骤四、加入空间注意力机制，前一层Inception结构的输出经过SAM分支得到权重参数(尺寸与输入特征图尺寸完全一样)，再与原图相乘，将结果送到下一个Inception结构；

步骤五、引入特征金字塔融合结构，深层网络的特征图尺寸较小，对应于原图的感受野较大，主要提取的是目标的全局特征，缺乏细节特征。而浅层网络的特征图尺寸较大，对应于原图的感受野较小，主要提取的是目标的局部特征。将浅层特征图和深层特征图进行加权融合，提高网络的识别精度和对于不同尺度目标的识别能力；

步骤六、使用Focal Loss损失函数，

loss＝-ya(1-y')^γlogy'-(1-y)(1-a)y'γlog(1-y')+λ(||W||+||b||)

a根据各类别训练样本比值确定(取值范围为0-1，以二分类为例，当a取0-0.5时，表示负样本占比较大，当a取0.5-1时，表示正样本占比较大)，γ取2效果最佳，λ取0.001效果较好；

步骤七、将ReLU替换为Mish激活函数，使得x取负值时，并非完全截断，允许比较小的负梯度流入，从而保证信息流动，

Mish(x)＝x×tanh(ln(1+e^x))；

步骤八、使用ImageNet数据集对搭建好的网络模型进行训练，并将参数迁移到红外数据集，进一步微调；

步骤九、用微调好的网络模型对红外数据集图像进行识别，得到识别结果。

本文提出了一种基于GoogLeNet的红外图像识别方法。通过数据增强扩充训练数据集，降低了对数据集大小的依赖。通过改进GoogLeNet的网络结构提高模型对于尺度变化的鲁棒性。将在ImageNet典型数据集上训练好的GoogLeNet模型参数进行迁移学习，在红外数据集上进行参数微调，提高训练速度。

Claims

1.一种基于GoogLeNet的红外图像识别方法，其特征在于，所述红外图像识别方法包括以下步骤：

步骤二、改进GoogLeNet基本单元结构，搭建浅层Inception结构和深层Inception结构，其中，包含4层浅层Inception结构和4层深层Inception结构，

具体的，构建GoogLeNet基本单元Inception结构，分为浅层Inception和深层Inception，浅层Inception分成5个分支，分别为7*7卷积分支，5*5卷积分支，3*3卷积分支，池化分支，1*1卷积分支，并分别使用1*1卷积核进行参数降维，深层Inception结构使用3个1*3、3*1卷积组合替换7*7卷积核，2个1*3、3*1卷积组合替换5*5卷积核，1个1*3、3*1卷积组合替换3*3卷积核；

步骤三、引入空间注意力机制：使用空间注意力机制，牺牲少量的计算时间来提高模型的分类准确率，具体的，前一层Inception结构的输出经过SAM分支得到权重参数，尺寸与输入特征图尺寸完全一样，再与原图相乘，将结果送到下一个Inception结构，从而得到浅层特征图和深层特征图；

步骤五、引入Focal loss损失函数，并加入L1正则项：

loss＝-ya(1-y')^γlogy'-(1-y)(1-a)y'^γlog(1-y')+λ(||W||₂+||b||₂)

步骤六、引入Mish激活函数：使用Mish激活函数替换ReLU函数；

2.根据权利要求1所述的一种基于GoogLeNet的红外图像识别方法，其特征在于，在步骤一中，所述像素级调整包括光度畸变和几何畸变，模拟对象遮挡分为像素级遮挡和区域级遮挡，多图像拼接包括像素级拼接和区域级拼接。

3.根据权利要求2所述的一种基于GoogLeNet的红外图像识别方法，其特征在于，所述光度畸变包括调整图像的亮度和加入噪声；所述几何畸变包括随机缩放、剪切、翻转和反旋转；所述像素级遮挡，即随机选择图像中的某一些点，填充一个随机的或互补的零值；所述区域级遮挡，即随机或均匀地选择图像中的多个矩阵区域，并将其全部替换为0；所述像素级拼接，即使用两个图像以不同的系数相乘并叠加，使用该系数值作为标签；所述区域级拼接，即将剪切后的图像覆盖到其他图像的矩阵区域，并根据混合区域的大小调整标签。

4.根据权利要求1所述的一种基于GoogLeNet的红外图像识别方法，其特征在于，在步骤二中，引入7*7的卷积核分支，提高网络的感受野大小，使用1*1卷积核进行参数降维，在网络深层结构使用3*1和1*3的卷积组合替换3*3、5*5、7*7的卷积核。

5.根据权利要求1所述的一种基于GoogLeNet的红外图像识别方法，其特征在于，在步骤三中，前一层Inception结构的输出分成两条分支，一条经过两次3×3的卷积操作后，使用Sigmoid激活函数映射到[0,1]区间得到注意力图，另一条分支将Inception输出直接与注意力图进行相乘，得到下一层Inception的输入。