CN116385707A

CN116385707A - 基于多尺度特征与特征增强的深度学习场景识别方法

Info

Publication number: CN116385707A
Application number: CN202310354531.XA
Authority: CN
Inventors: 张丽丽; 解志强
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-07-04

Abstract

本发明提供了一种基于多尺度特征与特征增强的深度学习场景识别方法，包括：对待识别的原始图片进行预处理，获得适应网络输入尺寸和通道的待识别图像；基于EfficientNet构建用于场景识别的深度学习网络，并训练所述深度学习网络，获得收敛的网络模型，其中，所述深度学习网络包括场景识别网络、多尺度特征提取模块、特征增强模块和分类层；将待识别图像输入收敛的网络模型中，获得图像的场景分类结果。本发明从多尺度特征角度出发，提取场景的多尺度特征，从而捕获丰富的上下文信息，有利于识别复杂的场景图像；提出一种特征增强模块，增强图像特征的局部细节信息，提高深度学习网络的特征表达能力，有效的提高了识别的准确率。

Description

基于多尺度特征与特征增强的深度学习场景识别方法

技术领域

本发明属于场景识别技术领域，是一种基于多尺度特征与特征增强的深度学习场景识别方法。

背景技术

在计算机视觉技术所包含的技术中，场景识别技术无疑是分析和理解图像语义信息的关键技术。场景识别技术在照片和视频的自动化处理、智能监控和灾害监测方面均有应用，对我们的生活、工作具有十分重要的意义。场景识别是指对图像中的场景进行识别，预测出预先定义的场景类别标签，常见的场景类别分为：自然场景漠等、人工场景和室内场景。由于场景图像表现复杂，同时具有类内差异性大、类间相似性高的特点，目前场景识别的效果并不理想。

早期的基于手工特征的场景识别方法主要依据图像的基础属性设计特征，如尺度不特征变换(Scale-Invariant FeatureTransform，SIFT)、方向梯度直方图(Histogram ofOriented Gradient，HOG)、金字塔方向梯度直方图(Pyramid Histogram of OrientedGradient，PHOG)等，根据图像的纹理、形状、颜色等来描述图像。这些刻画图像基础属性的特征是以像素点为基础提取的，也称为底层特征，在简单的场景识别任务上是一种有效的表示，但其缺乏足够的语义信息使得在复杂场景下的表现较差。随着深度学习的发展，基于卷积神经网络的场景识别方法取得了不错的效果，通过训练过程卷积神经网络可以在数据集上自动学习特征，获取不同卷积层的特征，然后进行场景分类。

基于卷积神经网络的场景识别方法通过训练获取图像的整体特征，根据整体特征输出分类结果，但完全不同的场景类可能共享相似对象，产生了相似的场景表示进而影响判别，以致产生错误的识别结果，所以这种方法提取的特征不是有效的特征表示，从而识别的准确率降低。

发明内容

为了解决现有技术存在的问题，本发明提出一种基于多尺度特征与特征增强的深度学习场景识别方法，能够对场景图像进行有效的特征表示，增强网络的泛化能力，从而提高场景识别的准确率。

为达到上述目的，本发明提供如下技术方案：

一种基于多尺度特征与特征增强的深度学习场景识别方法，该方法包括以下步骤：

步骤S1：对待识别图像进行预处理，获得适应网络输入尺寸和通道的待识别图像；

步骤S2：基于EfficientNet构建用于场景识别的深度学习网络，并训练所述深度学习网络，获得训练后收敛的网络模型，其中，所述深度学习网络包括场景识别网络、多尺度特征提取模块、特征增强模块和分类层；所述场景识别网络用于获得所述待识别图像的场景特征向量；所述多尺度特征提取模块用于提取所述待识别图像的多尺度场景特征向量；所述特征增强模块用于增强所述多尺度场景特征向量的局部细节信息；所述分类层用于并获得场景分类结果；

步骤S3：将待识别图像输入训练后收敛的网络模型中，获得图像的场景分类结果。

所述步骤S1包括：

将待识别图像的大小设置为224*224；调整所述待识别图像的通道；

所述步骤S2包括：

所述场景识别网络为去掉最后全连接层的EfficientNet网络；

所述多尺度特征提取模块包括扩张因子分别为1、3、5的空洞卷积层，全局平均池化层和通道注意力模块，其中，

所述多尺度特征提取模块由扩张因子分别为1、3、5的空洞卷积层与所述全局平均池化层进行级联，获得级联特征，再与通道注意力模块连接，其中，所述空洞卷积层用于对所述场景特征向量进行扩张卷积，获得不同尺度下的特征信息，所述全局平均池化层用于对所述场景特征向量进行全局平均，获得一个包含全局上下文信息的特征向量，所述通道注意力模块用于关注级联特征中重要通道信息，抑制弱相关的通道信息，通过计算公式获得通道注意力权重系数Mc，将级联特征与所述权重系数相乘便可得到基于通道注意力机制的特征分布；

所述特征增强模块包括空间注意力残差模块和全局平均池化层，其中，

所述空间注意力残差模块用于增强所述场景特征向量的局部细节信息，优化网络学习过程，获得注意力权重，所述全局平均池化层用于根据所述注意力权重提取特征信息；

所述步骤S2对所述深度学习网络进行训练，包括：获取具有场景标签的大量图像，组成图像训练集；利用所述图像训练集中的图片对所述深度学习网络模型进行训练，获得训练后收敛的深度学习网络模型；

进一步地，所述多尺度特征提取模块中空洞卷积的计算公式为：

其中，F为输入的特征图，K为卷积核大小，d为扩张因子，本实施例中，设置K＝1，d＝1，3，5，S为输出特征图，i、j为特征图F的元素坐标，m、n为卷积核K的元素坐标；

进一步地，所述通道注意力模块中权重系数Mc的计算公式为：

其中，F为级联特征，σ(·)为Sigmoid激活函数；W₀为多层感知器MLP中的隐藏层权重；W₁为MLP中的输出层权重；F^c _avg表示全局平均池化，F^c _max表示全局最大池化。

所述分类层包括一层带有softmax函数的全连接层，用于进行最终分类。

本发明的有益效果在于：本发明提出的方法具有较高的场景识别精度，设计的网络具有较强的特征表达能力，可以为场景识别领域的提供方法基础。

本发明的其他优点在于：利用改进的EfficientNet网络模型对场景图像进行多尺度特征提取，多尺度模块利用不同尺度下的特征信息，同时结合全局上下文信息，形成了有效的特征表示，增强了网络的泛化能力；特征增强模块增强了图像特征中的局部细节信息，所包含的残差结构优化了网络学习过程，显著提高了识别准确率。

附图说明

通过以下附图对非限制性实施例所作的详细描述，本发明的其他特征、目的以及有点将变得更加明显：

图1为本发明实施例提供的基于多尺度特征与特征增强的深度学习场景识别方法的流程图；

图2为本发明实施例提供的一种深度学习网络的结构示意图；

图3为本发明实施例提供的多尺度特征提取模块的结构示意图；

图4为本发明实施例提供的特征增强模块结构示意图；

图5为是不同的识别方法对MIT Indoor67数据集进行场景识别的准确率对比。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

需要注意的是，这里所运用的属于仅是为了描述具体实施方法，而非具有对本发明进行限制意图。如所使用的，除非在上下文中有明确指出，否则单复数可以互相代表，此外，这里所运用的例如：包括、具有以及其他形式具有涵盖意思的词语的意图在于覆盖但是不排除其他的包含内容；例如，包括了一些了单元的模块、执行方式、设计构成不必限于清楚的列出全部的单元，而是包括没有清楚列出但对该模块、执行方式、设计构成所固有的单元。

一种基于多尺度特征与特征增强的深度学习场景识别方法，该方法主要包括以下步骤：

步骤S1：对待识别的原始图片进行预处理，获得适应网络输入尺寸和通道的待识别图像；

步骤S2：基于EfficientNet构建用于场景识别的深度学习网络，并训练所述深度学习网络，获得训练后收敛的网络模型；

步骤S3：将待识别图像输入步骤二得到的网络模型中，获得图像的场景分类结果。

具体的，所述步骤S1包括：

对待识别的原始图片进行预处理，获得适应网络输入尺寸和通道的待识别图像。在卷积神经网络中，为了保证输入图像维度的一致，需要对原始图片数据进行尺寸变换，以适应网络的输入，本实施例通过opencv库中的函数来实现图片的尺寸变换，如下：

dimg＝cv.resize(img，nsize[，dimg[，x[，y[，interpolation]]]])

其中，img表示原始图片，nsize表示为缩放后的图像大小，dimg表示目标图像，x和y分别表示x和y方向上的缩放比例，interpolation表示int类型，代表一个插值方式。

不同的卷积神经网络在读取图像时，对图像的通道要求是不同的，因此需要根据所用深度学习网络的格式要求进行通道变换。如在TensorFLow中可以通过参数data_format指定数据格式。通过上述尺寸变换和通道调整，将待识别的原始图片调整为符合深度学习网络的输入要求的图片。

具体的，所述步骤S2包括：

基于EfficientNet构建用于场景识别的深度学习网络，并训练所述深度学习网络，获得训练后收敛的网络模型。

具体参见图1，图1是本发明实施例提供的一种深度学习网络的结构示意图。本实例所构建的深度学习网络包括场景识别网络、多尺度特征提取模块、特征增强模块和分类层；所述场景识别网络用于获得所述待识别图像的场景特征向量；所述多尺度特征提取模块用于提取所述待识别图像的多尺度场景特征向量；所述特征增强模块用于增强所述多尺度场景特征向量的局部细节信息；所述分类层用于并获得场景分类结果。

进一步地，请参见图2，图2是本发明实施例提供的多尺度特征提取模块的结构示意图。具体地，所述深度学习网络包括四个部分：(1)特征提取部分，将去掉最后全连接层的EfficientNet网络作为特征提取的主干网络。(2)多尺度特征提取模块，融合不同尺度下的特征信息与全局上下文信息，通过通道注意力模块抑制融合特征中的噪声。(3)特征增强模块，增强图像特征中的局部细节信息。(4)分类层，包括一层带有softmax函数的全连接层，通过该部分获得分类结果。

进一步地，请参见图3，图3是本发明实施例提供的多尺度特征提取模块的结构示意图。本实施例的多尺度特征提取模块包括扩张因子分别为1、3、5的空洞卷积层，全局平均池化层和通道注意力模块。其中，扩张因子分别为1、3、5的空洞卷积层对特征提部分输入的特征分别进行扩张卷积，获得三种尺度下的特征信息f₁、f₂、f₃，与由全局平均池化层得到的全局特征g进行级联融合，获得的级联特征F输入通道注意力模块；其中，通道注意力模块将输入的一个H×W×C(H为高度、W为宽度、C为通道)的特征F分别进行全局平均池化和全局最大池化，从而得到两个1×1×C的通道描述，然后将这两个结果分别送入一个多层感知器(Multilayer Perceptron，MLP)进行压缩和ReLU函数激活；接着将不同池化操作后的结果进行相加，使用Sigmoid激活函数进行非线性激活以得到通道注意力权重系数Mc，将级联特征F与该权重系数相乘从而得到基于通道注意力机制的特征分布。

具体地，所述级联融合的公式为：

F＝[f₁，f₂，f₃，g]

具体地，所述空洞卷积的计算公式为：

其中，F为输入的特征图，K为卷积核大小，d为扩张因子，本实施例中，设置K＝1，d＝1，3，5，S为输出特征图，i、j为特征图F的元素坐标，m、n为卷积核K的元素坐标。

具体地，所述ReLU激活函数为：

ReLU(x)＝max(0，x)

具体地，通道注意力权重系数Mc的计算公式为：

进一步地，具体请参见图4，图4是本发明实施例提供的特征增强模块结构示意图。本实施例的特征增强模块包括空间注意力残差模块和全局平均池化层。本实施例通过特征增强模块增强图像特征中的局部细节信息，同时采用残差结构优化网络学习过程。

进一步地，空间注意力残差模块将多尺度特征模块输出的的多尺度特征x作为输入，计算公式如下：

Ms＝θ(F(x，{w}))

其中，F(x，{w})＝w*x+b，*为卷积运算，b为偏差，θ是非线性函数，Ms是注意力图，w表示输入的融合特征图x与注意力图Ms的连接权重，通过将Ms归一化为[0，1]，可以得到最终归一化后的注意力图，具体计算公式如下：

其中，L＝{l’＝(i，j)，i＝1，…，W，j＝1，…，H}，W表示特征宽度，H表示特征高度，

最后通过全局平均池化提取出特征信息S。

具体的，所述步骤S2对所述深度学习网络进行训练，包括：获取具有场景标签的大量图像，组成图像训练集；利用所述图像训练集中的图片对所述深度学习网络模型进行训练，获得训练后收敛的深度学习网络模型；

进一步地，将所述特征信息S输入到分类层，分类层包括一个带有softmax函数的全连接层，通过softmax函数获得模型对场景图像的分类结果。

具体的，本实施例选择常用的公开数据集MIT Indoor67中十类场景，每类选择100张图片，以8：2的比例划分为训练集和测试集，其中训练样本800张，测试样本200张。本实施例的实验硬件环境为：ubuntu20.04操作系统，Intel(R)Xeon(R)Platinum 8350C，一块NVIDIA GeForce RTX 3090。模型训练参数如表1所示。

表1模型训练参数设置

具体的，所述步骤S3包括：将待识别图像输入所述步骤S2得到的收敛的网络模型中，获得图像的场景分类结果。

进一步地，为了对本发明实施例提出的基于深度学习的场景识别方法的效果进行说明，本实施例利用几种不同的分类识别方法对MIT Indoor67数据集形成的测试集进行识别。请参见图5，图5是利用不同的识别方法对MIT Indoor67数据集进行场景识别的准确率对比，其中，RF-CNNs表示基于多层特征融合的场景识方法，SDO表示基于对象性语义描述符(Semantic Descriptor with Objectness)的场景识别方法，可以看出，本发明实施例提出的基于多尺度特征与特征增强的深度学习场景识别方法具有最高的识别准确率。

综上，本实施例基于多尺度特征与特征增强的深度学习场景识别方法，通过增加多尺度特征提取模块，获得了不同尺度下的特征信息和全局特征信息，丰富了图像特征中的语义信息，增强了网络的特征表达能力；通过添加特征增强模块，增强了图像特征中的细节信息，有利于识别相似性高的场景，提升了模型的泛化能力。针对基于深度学习的图像场景分类方法无法有效提取图像特征造成分类结果准确率下降的问题上，本实施例提出基于多尺度特征与特征增强的深度学习场景识别方法，通过模型的训练以及与其他场景识别方法的对比，其分类识别准确率显著提升。

以上仅为本发明的优选实例而已，并不用于限制本发明，对于本领域的技术人员来书，本发明可以有各种变化以及更改。凡在本发明的精神和原则之内，所作的任何修改、同等变化、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多尺度特征与特征增强的深度学习场景识别方法，其特征在于，包括

步骤S2：基于EfficientNet构建用于场景识别的深度学习网络，并训练所述深度学习网络，获得训练后收敛的网络模型，其中，所述深度学习网络包括场景识别网络、多尺度特征提取模块、特征增强模块和分类层；所述场景识别网络用于获得所述待识别图像的场景特征向量；所述多尺度特征提取模块用于提取所述待识别图像的多尺度场景特征向量；所述特征增强模块用于增强所述多尺度场景特征向量的局部细节信息；所述分类层用于获得场景分类结果；

2.根据权利要求1所述的基于多尺度特征与特征增强的深度学习场景识别方法，其特征在于，所述步骤S1包括：将待识别图像的大小设置为224*224；调整所述待识别图像的通道。

3.根据权利要求1所述的基于多尺度特征与特征增强的深度学习场景识别方法，其特征在于，所述步骤S2中场景识别网络为去掉最后全连接层的EfficientNet网络。

4.根据权利要求1所述的基于多尺度特征与特征增强的深度学习场景识别方法，其特征在于，所述步骤S2中多尺度特征提取模块包括：扩张因子分别为1、3、5的空洞卷积层，全局平均池化层和通道注意力模块，其中，

所述多尺度特征提取模块由扩张因子分别为1、3、5的空洞卷积层与所述全局平均池化层进行级联，获得级联特征，再与通道注意力模块连接，其中，所述空洞卷积层用于对所述场景特征向量进行扩张卷积，获得不同尺度下的特征信息，所述全局平均池化层用于对所述场景特征向量进行全局平均，获得一个包含全局上下文信息的特征向量，所述通道注意力模块用于关注级联特征中重要通道信息，抑制弱相关的通道信息，通过计算公式获得通道注意力权重系数Mc，将级联特征与所述权重系数相乘便可得到基于通道注意力机制的特征分布。

5.根据权利要求1所述的基于多尺度特征与特征增强的深度学习场景识别方法，其特征在于，所述步骤S2中特征增强模块包括：空间注意力残差模块和全局平均池化层，其中，

所述空间注意力残差模块用于增强所述场景特征向量的局部细节信息，优化网络学习过程，获得注意力权重，所述全局平均池化层用于根据所述注意力权重提取特征信息。

6.根据权利要求1所述的基于多尺度特征与特征增强的深度学习场景识别方法，其特征在于，所述步骤S2中分类层包括：一层带有softmax函数的全连接层。

7.根据权利要求1所述的基于多尺度特征与特征增强的深度学习场景识别方法，其特征在于，对所述步骤S2中深度学习网络进行训练，包括：获取具有场景标签的大量图像，组成图像训练集；利用所述图像训练集中的图片对所述深度学习网络模型进行训练，获得训练后收敛的深度学习网络模型。

8.根据权利要求4所述的基于多尺度特征与特征增强的深度学习场景识别方法，其特征在于，所述空洞卷积的计算公式为：

9.根据权利要求4所述的基于多尺度特征与特征增强的深度学习场景识别方法，其特征在于，所述通道注意力权重系数Mc的计算公式为：