CN113902744A

CN113902744A - 基于轻量级网络的图像检测方法、系统、设备和存储介质

Info

Publication number: CN113902744A
Application number: CN202111502610.8A
Authority: CN
Inventors: 刘金平; 郑坤一; 李梦可; 王靖超; 魏书宁; 陈海军
Original assignee: Hunan Normal University
Current assignee: Hunan Normal University
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-01-07
Anticipated expiration: 2041-12-10
Also published as: CN113902744B

Abstract

本申请涉及一种基于轻量级网络的图像检测方法、系统、设备和存储介质。包括：将高空航拍的图像数据集进行特定分辨率的分割，并进行在线数据增强和预处理获取输入图像，并对输入图像的标签值进行编码；将输入图像导入到轻量级骨干特征提取网络模型，并将输入图像通过Patch层进行4倍的下采样，获取第一低维特征图；将第一低维特征图导入ConvMixer层进行高维映射，并利用SElayer层通过通道注意力机制进行抑制或者关注,形成输出特征图；将输出特征图进行特征加强，通过连续的上采样与深度卷积、ConvMixer采样，将输出结果拼接在一起，形成不同维度信息的预测图，根据预测图完成高空航拍图像的检测。

Description

基于轻量级网络的图像检测方法、系统、设备和存储介质

技术领域

本申请涉及图像识别领域，特别是涉及一种基于轻量级网络的图像检测方法、系统、设备和存储介质。

背景技术

高空领域的目标检测是十分有意义的事情，在高空上我们的设备往往能看的更远，能获取更多的信息，我们可以运用在民事生产上，运用高空上的优势我们可以方便的监测如建筑工程的生产情况、麦田的涨势、以及监控非法入侵的人员，在无飞机航拍和军事上更是运用广泛。

目标检测发展了十多年，已经取得了不错的成果，在各各评价指标上达到了SOTA（state of the air），但检测任务主要面向自然场景图像，在相应的应用问题，如人脸识别、行人检测等领域已经相对成熟，在高空航拍上发展缓慢。现在前沿的目标检测算法，这些算法往往依赖于硬件平台（尤其是GPU）对于边缘设备等计算能力比较薄弱的设备不够友好，而且高空航拍的图像往往是高分辨率并且计算能力不是很好的设备。

此外，现有技术在高空航拍的图像与被检测物体往往有这几下缺点:1，尺度多样性，航空遥感图像从几百米到近万米的拍摄高度都有，且地面目标即使是同类目标也大小不一，如港口的轮船大的有300多米，小的也只有数十米。2，视角特殊性，航空遥感图像的视角基本都是高空俯视，但常规数据集大部分还是地面水平视角，所以同一目标的模式是不同的，在常规数据集上训练的很好的检测器，使用在航空遥感图像上可能效果很差。3.小目标问题，航空遥感图像的目标很多都是小目标（几十个甚至几个像素），导致目标信息量不大。4，多方向问题，航空遥感图像采用俯视拍摄，目标的方向都是不确定的（而常规数据集上往往有一定的确定性，如行人、车辆基本都是立着的），目标检测器需要对方向具有鲁棒性；5，背景复杂度高，航空遥感图像视野比较大（通常有数平方公里的覆盖范围），视野中可能包含各种各样的背景，会对目标检测产生较强的干扰。

发明内容

基于此，有必要针对上述技术问题，提供一种基于轻量级网络的图像检测方法、系统、计算机设备和存储介质。

第一方面，本发明实施例提供了一种基于轻量级网络的图像检测方法，该方法包括：

将高空航拍的图像数据集进行特定分辨率的分割，对分割后的初始图像进行在线数据增强和预处理获取输入图像，并对所述输入图像的标签值进行编码；

将所述输入图像导入到轻量级骨干特征提取网络模型，并将所述输入图像通过Patch层进行4倍的下采样，获取第一低维特征图；

将所述第一低维特征图导入ConvMixer层进行高维映射，并利用SElayer层通过通道注意力机制进行抑制或者关注,形成输出特征图；

将所述输出特征图进行特征加强，通过连续的上采样与深度卷积、ConvMixer采样，将不同维度的输出结果拼接在一起，形成不同维度信息的预测图，根据所述预测图完成高空航拍图像的检测。

进一步的，所述将高空航拍的图像数据集进行特定分辨率的分割，对分割后的初始图像进行在线数据增强和预处理获取输入图像，并对所述输入图像的标签值进行编码，包括：

对DOTA数据集进行离线数据增强，采用分割的方法，保留分割图像之间的重合面积；

采用分割分辨率为1024*1024进行分割，把大分辨率图像分割为小分辨率图像，使得图像特征保留完整并使得图像之间有重叠区域；

针对分割后的图像做mosaic、mixup在线数据增强，增加图像网络的鲁棒性，获取所述输入图像，并对所述输入图像的标签值进行编码。

进一步的，所述将所述第一低维特征图导入ConvMixer层进行高维映射，并利用SElayer层通过通道注意力机制进行抑制或者关注,形成输出特征图，包括：

将所述第一低维特征图经过逐点卷积，进行3倍维度的扩张,将低维空间映射到高维空间形成第一输出特征；

对所述输出第一输出特征经过深度卷积来提取特征形成第二输出特征 ,对所述第二输出特征通过所述ConvMixer层的逆残差模块堆叠，防止梯度弥散后得到第三输出特征；

把所述第三输出特征导入逐点卷积来压缩数据，得到第四输出特征；

将所述第四输出特征经过Patch层进行2倍的二次下采样，通过两次ConvMixer层进行二次升维之后导入SElayer层。

进一步的，所述将所述输出特征图进行特征加强，通过连续的上采样与深度卷积、ConvMixer采样，将不同维度的输出结果拼接在一起，形成不同维度信息的预测图，根据所述预测图完成高空航拍图像的检测，包括：

接受从特征加强部分输出的三个不同的目的特征图，根据所述目的特征图输出三个预测图，并获取所述预测图的维度分布；

根据所述预测图的维度分布，计算所述预测图的预测值与数据集标签编码的损失值。

另一方面，本发明实施例还提供了一种基于轻量级网络的图像检测系统，包括：

图像分割模块，用于将高空航拍的图像数据集进行特定分辨率的分割，对分割后的初始图像进行在线数据增强和预处理获取输入图像，并对所述输入图像的标签值进行编码；

快编码层模块，用于将所述输入图像导入到轻量级骨干特征提取网络模型，并将所述输入图像通过Patch层进行4倍的下采样，获取第一低维特征图；

维度处理模块，用于将所述第一低维特征图导入ConvMixer层进行高维映射，并利用SElayer层通过通道注意力机制进行抑制或者关注,形成输出特征图；

图像预测模块，用于将所述输出特征图进行特征加强，通过连续的上采样与深度卷积、ConvMixer采样，将不同维度的输出结果拼接在一起，形成不同维度信息的预测图，根据所述预测图完成高空航拍图像的检测。

进一步的，所述图像分割模块包括图像预处理单元，所述图像预处理单元用于：

进一步的，所述维度处理模块包括特征提取单元，所述特征提取单元用于：

再对所述输出第一输出特征经过深度卷积来提取特征形成第二输出特征 ,对所述第二输出特征通过所述ConvMixer层的逆残差模块堆叠，防止梯度弥散后得到第三输出特征；

进一步的，所述图像预测模块包括检测对比单元，所述检测对比单元用于：

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本申请公开了基于轻量级网络的图像检测方法、系统、设备和存储介质，该方法包括：将高空航拍的图像数据集进行特定分辨率的分割，对分割后的初始图像进行在线数据增强和预处理获取输入图像，并对所述输入图像的标签值进行编码；将所述输入图像导入到轻量级骨干特征提取网络模型，并将所述输入图像通过Patch层进行4倍的下采样，获取第一低维特征图；将所述第一低维特征图导入ConvMixer层进行高维映射，并利用SElayer层通过通道注意力机制进行抑制或者关注,形成输出特征图；将所述输出特征图进行特征加强，通过连续的上采样与深度卷积、ConvMixer采样，将不同维度的输出结果拼接在一起，形成不同维度信息的预测图，根据所述预测图完成高空航拍图像的检测。本发明实施例通过通过特殊分割的方式，把大分辨率物体分成小分辨率的物体，保留了图像上细粒度物体，突出其特征，方便了网络的训练；并轻量级骨干特征提取网络模型，设计了全新的ConvMixer层,先将低维空间映射到高维空间，在通过不断的坍塌维度，把高维特征映射到低维空间，在减少参数量的同时，提取了图像特征。通过引入通道注意力机制，便于网络关注局部信息，定位感兴趣的信息，抑制无用信息。此外，本实施例在大大的减少了推理的计算与参数量的前提下，保持了计算的高效性。并减少了参数量的同时，提升了网络的权重对于网络的贡献度。

附图说明

图1为一个实施例中基于轻量级网络的图像检测方法的流程示意图；

图2为一个实施例中对输入图像进行预处理的流程示意图；

图3为一个实施例中对特征图进行维度切换的流程示意图；

图4为一个实施例中通过损失值进行预测图检测的流程示意图；

图5为一个实施例中基于轻量级网络的图像检测系统的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

随着深度学习的火热，计算机视觉领域内的卷积神经网络模型也层出不穷。从1998年的LeNet，到2012年引爆深度学习热潮的AlexNet，再到后来2014年的VGG，2015年的ResNet，深度学习网络模型在图像处理中应用的效果越来越好。神经网络体积越来越大，结构越来越复杂，预测和训练需要的硬件资源也逐步增多，往往只能在高算力的服务器中运行深度学习神经网络模型。移动设备因硬件资源和算力的限制，很难运行复杂的深度学习网络模型。

在一个实施例中，如图1所示，提供了一种基于轻量级网络的图像检测方法，所述方法包括：

步骤101，将高空航拍的图像数据集进行特定分辨率的分割，对分割后的初始图像进行在线数据增强和预处理获取输入图像，并对所述输入图像的标签值进行编码；

步骤102，将所述输入图像导入到轻量级骨干特征提取网络模型，并将所述输入图像通过Patch层进行4倍的下采样，获取第一低维特征图；

步骤103，将所述第一低维特征图导入ConvMixer层进行高维映射，并利用SElayer层通过通道注意力机制进行抑制或者关注,形成输出特征图；

步骤104，将所述输出特征图进行特征加强，通过连续的上采样与深度卷积、ConvMixer采样，将不同维度的输出结果拼接在一起，形成不同维度信息的预测图，根据所述预测图完成高空航拍图像的检测。

具体地，本发明实施例本专利针对yolov5算法进行了改进，发明了一种全新的轻量化网络Patch-yolov5-lite（轻量级骨干特征提取网络模型），因此该实施例公开了全新的轻量级网络Patch-yolov5-lite，运用了Patch的思想下，减少下采样与特征提取的耦合,在极大的减少参数量、计算量与内存占用量的同时，达到了一个十分不错的效果。通过特殊分割的方式，把大分辨率物体分成小分辨率的物体，保留了图像上细粒度物体，突出其特征，方便了网络的训练；并轻量级骨干特征提取网络模型，设计了全新的ConvMixer层,先将低维空间映射到高维空间，在通过不断的坍塌维度，把高维特征映射到低维空间，在减少参数量的同时，提取了图像特征。通过引入通道注意力机制，便于网络关注局部信息，定位感兴趣的信息，抑制无用信息。此外，本实施例在大大的减少了推理的计算与参数量的前提下，保持了计算的高效性。并减少了参数量的同时，提升了网络的权重对于网络的贡献度。

其中，传统的卷积将空间和通道信息同时进行映射，造成了参数量的庞大，我们受深度可分离卷积和流行学习的影响,设计了膨胀压缩激活层（以下简称 ConvMxier），ConvMxier 将空间与通道特征的提取解耦了出来，一定比例上节省了参数量。膨胀模块由驻点卷积组成，通过1

1的卷积，对于特征图进行升维，由一个流形映射到高维空间上的，形成流形兴趣，我们所看到的数据就成为了嵌入在高维空间的低维流形，换句话说，我们观测特征图的数据时，信息编码应该以某种流形分布着。流形兴趣对于我们来说是需要的有用的数据，但因为数据内部的特性，会存在维度上的冗余信息，假设神经网络的兴趣流形可以如何流形学习的目标一样，嵌入到低维空间，我们设计了压缩模块，通过3

3的组卷积，在高维空间实现低纬度特征的提取，并且进行维度坍塌，理想情况下我们会过滤掉冗余信息，保留流形兴趣，经过压缩后输出的特征图经过逆残差结构保留着低维与高维的上下文信息，防止梯度的弥散，此时经过压缩模块的特征信息就拥有丰富的维度信息和流形信息，我们愿意把经过压缩模块后的特征信息比喻为一颗“种子”。维度上的压缩使得节省了大量的参数量，并保留了大量的有用信息，就像一颗种子一样，我们需要激活模块，激活有用的特征信息，再次提取通道上的有用信息，使得流行信息能贯穿整个模块处理的流程。

此外，SElayer层进行的是通道注意力机制，对相关通道进行抑制或者关注,形成输出。再通过不断的堆叠上述模块，在轻量级骨干特征提取网络模型里面的三个SElayer层会输出的三个不同维度的结果。通道注意力机制（SElayer）具体步骤如下:将图像特征值经过全局池化层、leaky-relu函数非线性激活和全连接层生成注意加权图，再与原特征值相乘得到注意力特征，使得模型可以自动学习到不同通道特征的重要程度。

在一个实施例中，如图2所示，对输入图像进行预处理的流程包括以下步骤：

步骤201，对DOTA数据集进行离线数据增强，采用分割的方法，保留分割图像之间的重合面积；

步骤202，采用分割分辨率为1024*1024进行分割，把大分辨率图像分割为小分辨率图像，使得图像特征保留完整并使得图像之间有重叠区域；

步骤203，针对分割后的图像做mosaic、mixup在线数据增强，增加图像网络的鲁棒性，获取所述输入图像，并对所述输入图像的标签值进行编码。

具体地，对DOTA数据集进行离线数据增强，采用分割的方法，相对比于传统的分割,本实施例保留了分割图像之间的gap（重合面积），在把大分辨率图像分割为一个个小图像时（本实施例分割经过实践得出,分割分辨率为1024*1024时图像特征保留最完整），确保图像之间有重叠区域，由原本一千四百多张图像扩充到两万张。之后针对图像做mosaic、mixup等在线数据增强，增加网络的鲁棒性，并对输入图像做预处理，对标签值进行编码。

在一个实施例中，如图3所示，对特征图进行维度切换的流程包括：

步骤301，将所述第一低维特征图经过逐点卷积，进行3倍维度的扩张,将低维空间映射到高维空间形成第一输出特征；

步骤302，对所述输出第一输出特征经过深度卷积来提取特征形成第二输出特征,对所述第二输出特征通过所述ConvMixer层的逆残差模块堆叠，防止梯度弥散后得到第三输出特征；

步骤303，把所述第三输出特征导入逐点卷积来压缩数据，得到第四输出特征；

步骤304，将所述第四输出特征经过Patch层进行2倍的二次下采样，通过两次ConvMixer层进行二次升维之后导入SElayer层。

具体地，例如，对于输入特征图x，其输入大小为（b，

，h，w）。x先经过逐点卷积，对于输入的c维度进行n倍的扩张（本实施例n为3倍），将低维空间映射到高维空间形成输出x1(b，

，h，w)，再经过深度卷积来提取特征形成输出x2（b，

，h，w），通过逆残差块堆叠X=x+x2，有效的防止梯度弥散,之后把X喂入逐点卷积来压缩数据，输出output（b，

，h，w）。

此外，输入图像首先进入核大小为（4，4）的Patch层进行一个4倍的下采样，然后在把输出的特征图送入一层的ConvMixer层进行一次升维，ConvMixer层由两个点卷积和深度卷积与一个逆残差模块组成,再经过Patch进行2倍的下采样，再通过两次ConvMixer层进行二次升维，把输出的特征图喂入SElayer层（通道注意力机制），对相关通道进行抑制或者关注,形成输出。通过不断的堆叠上述模块，在轻量级骨干特征提取网络模型里面的三个SElayer层会输出的三个不同维度的输出结果。

在一个实施例中，如图4所示，通过损失值进行预测图检测的流程包括：

步骤401，接受从特征加强部分输出的三个不同的目的特征图，根据所述目的特征图输出三个预测图，并获取所述预测图的维度分布；

步骤402，根据所述预测图的维度分布，计算所述预测图的预测值与数据集标签编码的损失值。

具体地，特征加强部分接收来自三个SElayer层的三个不同维度的输出结果，通过不断的上采样（UpSample）与深度卷积（DWConv）、ConvMixer采样，不同维度的输出结果并拼接在一起，形成了三个结合不同维度信息的输出，对应预测层的三个输入。预测层会接受从特征加强部分来的三个不同的特征图，输出三个预测图，三个预测图维度分布为（本实施例输入为b*1024*1024*3的维度）：（b，3，128，128，20）、（b，3，64，64，20）、（b，3，32，32，20）。其中b代表batch（每一批次有多少张图片），3表示一个grid cell（网格）包含3个boundingbox(预测框)，128，64，32表示一个特征图长宽被分为多个个grid cell网格，20表示每一个bounding box需要预测目标置信度(confidence)、长(h)、宽(w)、中心点坐标（x,y）,以及在我们数据集里面一共有15个分类，共20个值。三个预测图分别预测小中大三个体积的目标。最后，通过损失函数对预测值进行对比检测，获取最终的检测目标。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于轻量级网络的图像检测系统，包括：

图像分割模块501，用于将高空航拍的图像数据集进行特定分辨率的分割，对分割后的初始图像进行在线数据增强和预处理获取输入图像，并对所述输入图像的标签值进行编码；

快编码层模块502，用于将所述输入图像导入到轻量级骨干特征提取网络模型，并将所述输入图像通过Patch层进行4倍的下采样，获取第一低维特征图；

维度处理模块503，用于将所述第一低维特征图导入ConvMixer层进行高维映射，并利用SElayer层通过通道注意力机制进行抑制或者关注,形成输出特征图；

图像预测模块504，用于将所述输出特征图进行特征加强，通过连续的上采样与深度卷积、ConvMixer采样，将不同维度的输出结果拼接在一起，形成不同维度信息的预测图，根据所述预测图完成高空航拍图像的检测。

在一个实施例中，如图5所示，所述图像分割模块501包括图像预处理单元5011，所述图像预处理单元5011用于：

在一个实施例中，如图5所示，所述维度处理模块503包括特征提取单元5031，所述特征提取单元5031用于：

在一个实施例中，如图5所示，所述图像预测模块504包括检测对比单元5041，所述检测对比单元5041用于：

关于基于轻量级网络的图像检测系统的具体限定可以参见上文中对于基于轻量级网络的图像检测方法的限定，在此不再赘述。上述基于轻量级网络的图像检测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图6示出了一个实施例中计算机设备的内部结构图。如图6所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现基于轻量级网络的图像检测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行基于轻量级网络的图像检测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待识别图像的小样本数据集，将所述小样本数据集经过多头注意力模型进行图像的特征向量处理；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于轻量级网络的图像检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于轻量级网络的图像检测方法，其特征在于，所述将高空航拍的图像数据集进行特定分辨率的分割，对分割后的初始图像进行在线数据增强和预处理获取输入图像，并对所述输入图像的标签值进行编码，包括：

3.根据权利要求1所述的基于轻量级网络的图像检测方法，其特征在于，所述将所述第一低维特征图导入ConvMixer层进行高维映射，并利用SElayer层通过通道注意力机制进行抑制或者关注,形成输出特征图，包括：

4.根据权利要求1所述的基于轻量级网络的图像检测方法，其特征在于，所述将所述输出特征图进行特征加强，通过连续的上采样与深度卷积、ConvMixer采样，将不同维度的输出结果拼接在一起，形成不同维度信息的预测图，根据所述预测图完成高空航拍图像的检测，包括：

5.一种基于轻量级网络的图像检测系统，其特征在于，包括：

6.根据权利要求5所述的基于轻量级网络的图像检测系统，其特征在于，所述图像分割模块包括图像预处理单元，所述图像预处理单元用于：

7.根据权利要求5所述的基于轻量级网络的图像检测系统，其特征在于，所述维度处理模块包括特征提取单元，所述特征提取单元用于：

8.根据权利要求5所述的基于轻量级网络的图像检测系统，其特征在于，所述图像预测模块包括检测对比单元，所述检测对比单元用于：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。