CN115546500A

CN115546500A - 一种红外图像小目标检测方法

Info

Publication number: CN115546500A
Application number: CN202211373188.5A
Authority: CN
Inventors: 周艳辉; 邓楷文; 葛晨阳
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2022-12-30

Abstract

一种轻量化红外图像小目标检测的方法，包括如下步骤：S100：采用基于YOLOIR轻量化检测网络得到小目标红外图像，其中，所述基于YOLOIR轻量化检测网络结构包括骨干网络、自适应特征融合模块、Attention注意力特征融合模块和回归头预测模块；S200：对于所生成的小目标红外图像进行增强处理。该方法具有小目标图像检测准确、清晰，支持实时生成的特点，可广泛用于智能车、智能家居、机器人等领域的自然交互。

Description

一种红外图像小目标检测方法

技术领域

本公开属于计算机视觉、模式识别和人工智能技术领域，特别涉及一种红外图像小目标检测方法。

背景技术

随着智能化时代的到来，人们对视觉系统的应用场景要求越发多样性，由于可见光摄像头对光照尤为敏感，在低亮度或微光环境下存在一定的局限性。因此红外目标检测体现出很大的优势和价值。红外图像具有很强的抗干扰能力，对热源敏感，在许多领域都存在迫切需求，如无人机、智能家居、机器人、医疗国防等。另一方面，现有的算法多针对近距离的人、车检测。如何获得高精度、高准确率的微小红外目标已经成为目标检测研究的关键。

传统视频流目标检测的一般步骤：对输入的视频流中的图像进行逐帧目标检测，先进过特征提取模块输出图像的特征图，再进过特征融合模块对提取到的特征进行融合处理，得到低维度和高维度信息融合后的特征图，最后将特征图进行回归预测，回归预测得到检测框的坐标参数以及目标检测的种类置信度，最终将结果返回到输入图像中。目前主流的YOLO等目标检测算法一方面没有针对红外、微小目标的特点进行额外的设计，所以直接用红外数据对微小目标检测的精度难以保证。另一方面，模型参数量和计算量普遍过大，无法在移动端达到实时。

发明内容

为了解决上述问题，本公开提供了一种基于YOLOIR轻量化红外图像小目标检测的方法，包括如下步骤：

S100：采用基于YOLOIR轻量化检测网络得到小目标红外图像，其中，所述基于YOLOIR轻量化检测网络结构包括骨干网络、自适应特征融合模块、Attention注意力特征融合模块和回归头预测模块；

S200：对于所生成的小目标红外图像进行增强处理。

通过上述技术方案，将小目标检测基于YOLOIR的检测网络实现，具备微小检测定位准、精度高、支持实时生成的特点。该方法不仅适用于红外图像小目标检测，也适用于RGB-IR视频流中的动态小目标检测，可广泛用于智能车、智能家居、机器人等领域的自然交互。本方法可以实现在移动端的实时准确稳定的红外微小目标检测。

附图说明

图1是本公开一个实施例中所提供的一种基于YOLOIR轻量化红外图像小目标检测的方法的流程示意图；

图2是本公开一个实施例中基于YOLOIR轻量化红外图像小目标检测网络对微小目标检测的处理过程图；

图3是本公开一个实施例中一种自适应特征融合实现的流程图；

图4是本公开一个实施例中一种融合注意力机制的改进FPN实现流程图。

具体实施方式

为了使本领域技术人员理解本公开所披露的技术方案，下面将结合实施例及有关附图1至图4，对各个实施例的技术方案进行描述，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。本公开所采用的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，“包括”和“具有”以及它们的任何变形，意图在于覆盖且不排他的包含。例如包含了一系列步骤或单元的过程、或方法、或系统、或产品或设备没有限定于已列出的步骤或单元，而是可选的还包括没有列出的步骤或单元，或可选的还包括对于这些过程、方法、系统、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本公开的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员可以理解的是，本文所描述的实施例可以与其他实施例相结合。

在一个实施例中，如图1所示，公开了提供了一种基于YOLOIR轻量化红外图像小目标检测的方法，包括如下步骤：

S200：对于所生成的小目标红外图像进行增强处理。

就该实施例而言，本方法通过基于YOLOIR的检测网络生成所检测的小目标区域图像、对特定小目标区域图像进行超分增强处理这两个步骤。实施例可以实时检测红外图像中的小目标，并针对小目标进行超分优化。针对输入红外图像视频，逐帧进行小目标检测，提取小目标区域并对小目标区域进行超分处理。

所述的红外微小目标检测算法，属于通用目标检测中的任务子类，可以沿用目标检测中的经典模型。通用目标检测算法主要有两种类型：单阶段以YOLO、SSD为代表，模型简单，速度更快，更适合落地应用；双阶段以Faster R-CNN为代表，模型更复杂，精度更高但是速度较慢。目标检测算法从是否需要先验锚框又可以分为基于先验锚框(Anchor-base)和不基于锚框(Anchor-free)两种，在Anchor-base系列算法中，最具有代表性的为YOLO系列。

本方法考虑到轻量化部署需求，设计实现了一种基于YOLOIR的红外微小目标检测方法，其属于单阶段目标检测网络，可适用于本方法的轻量化红外小目标检测任务。

所述的基于YOLOIR的红外微小检测网络在结构上借鉴了YOLOV5框架的基础，对其中的许多模块都进行了改进和升级，具体而言在于改进特征金字塔(Feature PyramidNetworks，FPN)为自适应特征金字塔，同时在FPN中引入注意力机制模块，以及优化损失函数等工作。

YOLOIR从输入到输出的整个流程为：输入红外图像为640x480，将短边用纯黑像素补全到640。输入给YOLOIR的图像为640×640，经过YOLOIR三个阶段的特征提取，分别得到下采样了8倍，16倍，32倍的特征图，尺寸分别为80x80，40x40，20x20，其中的每一层特征图上的每一个像素点都分别对应了原图上8x8，16x16，32x32的一块区域。接下来，会根据预先设置的先验框参数在这三个特征图的每一个像素点上分别生成K个预测框。每一个框都需要6个参数(左上角横纵坐标、宽高和目标类别(人、车)，所以这三个特征图经过回归头模块后将会得到80×80×K×(4+2)、40×40×K×(4+2)、20×20×K×(4+2)的输出，也即为80×80×K个预测框的位置和属于不同类别的概率。训练的时候就使用这些预测和真实的标注计算损失，预测的时候就使用非极大值抑制算法来处理这些预测框以得到最后的预测结果。

基于YOLOIR的红外小目标检测网络符合目标检测算法中的Backbone、Neck、Head经典设计流程，其网络结构主要包含三个主要部分：

1)用于特征提取的骨干网络，通常称作Backbone。

2)用于特征融合的模块FPN，也被称作网络的neck。

3)回归头部分，通常称为head，用于从经过neck模块处理后的特征中回归出目标的坐标，类别置信度等信息。

在另一个实施例中，所述骨干网络为轻量级网络ShuffleNet。

就该实施例而言，将原有的特征提取网络改为轻量级网络ShuffleNet作为新的骨干网络，并严格按照其轻量化的设计理念，优化特征提取网络。

具体而言，由于C3 Layer采用多路分离卷积，会占用较多的缓存空间，降低运行速度，因此需要避免多次使用C3 Layer以及高通道的C3 Layer；同时摘除ShuffleNetbackbone的1024conv和5×5pooling层，因为在本文的场景中，只有有限的类别，摘除该模块后，能够加速网络速度，对精度影响有限。

综合而言，将YOLO原有的backbone换成ShuffleNet之后，能将原有的7M参数量降低至约2M参数量，大大优化了网络的Flops，使其能够在移动端达到实时。

在另一个实施例中，所述回归头预测模块中的检测头进行解耦，加入1×1卷积解耦头。

就该实施例而言，相比于传统的YOLOV5网络模型，将head中的分支进行了解耦。具体而言，使用1个1x1的卷积先进行降维，然后在后面两个分支里各使用2个3x3卷积，最终调整到仅仅增加一点点的网络参数，但是相对应的能够将检测框位置回归和目标类别回归进行解耦，更加有效地提高了检测的精度和对微小目标的准确度。

在另一个实施例中，步骤S100进一步包括如下步骤：

S101：先验锚框的生成以及锚框和目标框的匹配；

S102：端到端对输入图像进行特征提取、特征融合最终生成特征图；

S103：将得到的特征图分别经过目标框坐标回归分支和所属类别置信度回归分支回归出检测目标在当前坐标系下的坐标和所属类别的最大置信度。

就该实施例而言，回归头预测模块包含目标框坐标回归分支，所属类别置信度回归分支两个部分，一个用于回归坐标，一个用于回归得到不同类别的概率置信度。物体在当前图像坐标系下的坐标，具体而言为左上角和右下角的横纵坐标。

基于YOLOIR轻量化红外图像小目标检测网络对微小目标检测的处理过程分为三步，如图2所示。

第一步：先验锚框(anchor)的生成以及锚框和目标框(Ground Truth，GT)的匹配。所有单阶段基于先验锚框的目标检测算法的基本原理可以概括为针对原图的密集采样后的分类和回归，所以生成锚框是必不可少的一步，虽然锚框的几何意义是相对于原图而言，但是其具体生成是需要结合特征图来进行。对于这里的YOLOIR，会保留网络中的三层特征图，相对于原图的下采样比例分别是1/8、1/16、1/32。

结合本方法红外图像数据集特点以及对速度的考虑，一种实例下，输入的红外图像原图大小被限定为640×640，那么三层特征图的尺度分别为80x80、40x40、20x20，其中的每一层特征图上的每一个像素点都分别对应了原图上8x8、16x16、32x32的一块区域。对于传统的Faster R-CNN、SSD、YOLO等算法来说，会采取以特征图上的每一个像素点为基准，生成k个不同尺度和长宽比例的锚框，一般k＝9，表示3种不同尺度，3种宽高比例的锚框。由于该方法是针对微小目标的检测，检测框本身就比较小，因此实际上宽、高的精度并不重要，更加关注定位的精确度，即图像中心点的位置x，y坐标，而忽略宽高比从而简化锚框的设计，进一步对损失函数进行修改，增加x，y坐标损失的占比，降低宽高的占比，来进一步提高网络对定位精度的重视程度。

步骤S101中锚框和目标框的匹配进一步包括：对目标框相对于锚框的中心点利用宽高进行归一化。为了消除锚框本身尺度带来的影响，对所有锚框同等看待，还需要对目标框相对于锚框的中心点利用宽高进行归一化。如果不进行归一化，大锚框能容忍更大的偏差，而小锚框则会对偏差十分敏感，这不利于模型的训练学习，而将回归绝对尺度转换为回归相对尺度即可解决这个问题。

锚框生成以后只是完成了针对原图的密集采样工作，进一步的还需要为每一个样本构造出用于监督学习的目标，这里具体表示目标框相对于锚框的位置以及各个锚框的类别。也即为判断锚框属于具体的目标种类，同时也需要为其确定具体的位置，这里的位置是通过锚框相对于目标框的偏置来表示的。这里的偏置又分为两部分，目标框中心点相对于锚框中心点的偏置以及目标框的宽高相对于锚框的宽高的转换，这里的转换具体表示经过对数变换后的目标框和锚框的尺度比例。

第二步：端到端对输入图像进行特征提取、特征融合最终生成特征图。

第三步：这些特征图将分别经过目标框坐标回归分支，所属类别置信度回归分支回归出最终的坐标和不同目标分类的概率。对于本方法，如果锚框的总数量用N表示，那么网络模型的分类分支的最终输出将会是2N，而目标框坐标回归分支的最终输出也是2N，分别代表的是每一个锚框属于人、车这两个不同分类的概率以及目标的中心点相对于锚框的偏置和目标宽高相对于锚框的宽高的对数转换值。

在另一个实施例中，步骤S101中锚框和目标框的匹配进一步包含如下步骤：将目标框的宽高相对于锚框的宽高的转换变换到对数空间。

就该实施例而言，需要将目标框的宽高相对于锚框的宽高的转换变换到对数空间，如果不进行变换，模型的输出宽高只能是正值，这提高了对模型的要求，加大了优化难度，而变换到对数空间则解决了该问题。

在另一个实施例中，步骤S102进一步包括如下步骤：

S1021：输入图像经过一个由卷积层堆叠所构成的骨干网络进行特征提取；

S1022：将骨干网络中间某两层的特征以及最后一层的特征抽取出来送入自适应特征融合模块进行处理，得到三个不同层级的自适应特征图；

S1023：将骨干网络中间某两层的特征以及最后一层的特征抽取出来送入Attention注意力特征融合模块进行处理，得到三个不同层级带有注意力的特征图；

S1024：将步骤S1022和S1023中得到的特征图进行concat融合，并得到最终的特征图。

就该实施例而言，第一步：整个网络从输入到输出的特征提取过程，输入图像3×640×640首先经过一个由卷积层堆叠所构成的骨干网络进行特征提取，将网络中间各层的特征抽取出来送给接下来的FPN进行处理，这里总共抽取整个骨干网络的后三层特征，三层特征图的尺度分别为256×80×80、512×40×40、1024×20×20。经过FPN特征融合后得到3层特征，每一层都会有大量的先验锚框。为了提高特征的表达能力，此时的特征图还会分别经过两个不同的模块，一是自适应的特征融合模块，将三层特征进行不同权重的融合，以此提高特征的表达能力；二是Attention注意力特征融合模块，在特征中加入注意力机制，增强特征的感受能力。

在另一个实施例中，所述自适应特征融合模块是一种改进的自适应融合FPN。

就该实施例而言，对于自适应特征融合模块，为了充分利用高层特征的语义信息和底层特征的细粒度信息，常采用FPN的架构进行特征融合，但是FPN架构往往采用直接concat相加衔接的方式，并不能充分自适应的利用不同尺度特征，因此在传统FPN架构上加入了自适应的结构。如图3所示，将来自不同特征层的特征X1，X2，X3经过不同的步长stride进行通道调整后，送入自适应特征融合AFF模块，即将经过通道调整后的特征层乘以不同的权重系数a，b，c并相加，就得到了新的自适应权重融合特征predict。计算公式如下所示：

其中a，b，c表示不同的权重系数，

表示不同特征层调整后的特征。

因为采用相加的方式，所以需要相加之前的三个特征层输出的特征大小相同，且通道数也要相同，需要对不同层的feature做upsample或downsample并调整通道数。对于权重参数a，b和c，则是通过resize后的特征图经过1×1的卷积得到的。并且参数a，b和c经过concat之后通过softmax使得他们的范围都在[0，1]内并且和为1。

在另一个实施例中，所述Attention注意力特征融合模块中的Query来自于浅层特征图的非线性变换，Key和Value均来自于深层特征图经过上采样后的线性变换。

就该实施例而言，对于Attention注意力特征融合模块，是一种Attention-FPN。特征金字塔可以有效的提高算法对不同尺度目标的定位能力，对于微小目标检测任务而言，因为实际场景中被拍摄对象相对摄像头的距离、方位不同而导致最远的目标大小只有16×8，这就要求目标检测网络对小目标有良好的检出能力。而传统FPN是通过将高层特征上采样和底层特征直接相加实现，本方法设计实现了一种融合Attention思想的改进FPN。

Query、Key、Value不再是来自于同一个输入，Query来自于浅层特征图的非线性变换，Key和Value均来自于深层特征图经过上采样后的线性变换。将原始FPN中使用逐元素加法进行的操作变为了使用注意力机制的融合。从注意力机制的原理角度，可以将此操作理解为将浅层特征图里面的每个像素都使用深层特征图的所有像素的加权求和来表达。这样带来的好处在于用深层的注意力机制来表示浅层，可以有效的为浅层特征图中的每个像素引入全局信息，而卷积更关注于局部信息，所以经过融合后的特征图同时保留了全局信息和局部信息，更加有利于模型的学习。最后，再得到浅层特征和深层特征经过注意力机制融合的新特征图后，将再次使用自注意力机制将该特征图进一步的变换，提高特征的表达能力。

图4展示了Attention-FPN的完整实现流程。具体操作如下：先对深层的特征图进行上采样，使用1x1卷积将通道数与上一层的通道对齐，然后为了使用得到的特征图进行Attention操作，先将特征图进行切片操作，每一个切片内的所有像素进行自注意力运算，自注意力运算模块具体如图4右所示，输入为Query查询和特征向量F，从F中提取两个单独的矩阵Key，Value；将Key和Query查询进行注意力得分计算，最终根据Value得到其加权平均值，然后得到的加权平均值经过反变换得到与原始输入特征图相同的形状，自此实现了一次注意力计算过程。

将特征图分别送入自适应特征融合模块和Attention注意力特征融合模块进过特征融合后，利用concat对融合的特征进行精炼，最终得到融合后的特征图，进行下一步的回归预测处理。

在另一个实施例中，步骤S103中回归目标框坐标的损失函数为针对小目标优化的交并比损失。

就该实施例而言，为了提高定位精度，将回归目标框坐标的损失函数由平均绝对误差损失替换为了交并比损失(IoU Loss)。当使用绝对误差衡量输出与目标的距离，则回归出来的各个几何量是相互独立的，缺乏了相互之间固有的几何约束。而如果直接优化预测框和真实框之间的交并比则可以建模这种几何联系，这也可以看作是针对评价指标的直接优化。由于是针对小目标检测进行优化，检测框本身较小，因此在实际损失计算上回归得到的宽和高的精度并不十分重要，更加关注x，y坐标点的精确度，因此对IoU Loss进行修改，增加x，y坐标损失的占比，降低回归框的宽、高占比，来提高网络对定位精度的重视程度。

在另一个实施例中，步骤S200中的增强处理包括：红外图像去噪、Gamma校正和超分辨率。

就该实施例而言，增强后的微小目标图像中的关键点特征将更为显著，有利于提高后续的人体关键点定位和人体动作识别的准确率。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种轻量化红外图像小目标检测的方法，包括如下步骤：

S200：对于所生成的小目标红外图像进行增强处理。

2.根据权利要求1所述的方法，优选的，所述骨干网络为轻量级网络ShuffleNet。

3.根据权利要求1所述的方法，所述回归头预测模块中的检测头进行解耦，加入1×1卷积解耦头。

4.根据权利要求1所述的方法，其中，步骤S100进一步包括如下步骤：

S101：先验锚框的生成以及锚框和目标框的匹配；

5.如权利要求4所述的方法，步骤S101中锚框和目标框的匹配进一步包含如下步骤：将目标框的宽高相对于锚框的宽高的转换变换到对数空间。

6.根据权利要求4所述的方法，步骤S102进一步包括如下步骤：

7.根据权利要求6所述的方法，所述自适应特征融合模块是一种改进的自适应融合FPN。

8.根据权利要求6所述的方法，所述Attention注意力特征融合模块中的查询来自于浅层特征图的非线性变换，键和值均来自于深层特征图经过上采样后的线性变换。

9.如权利要求4所述的方法，步骤S103中回归目标框坐标的损失函数为针对小目标优化的交并比损失。

10.如权利要求1所述的方法，步骤S200中的增强处理包括：红外图像去噪、Gamma校正和超分辨率。