CN116486233A

CN116486233A - 一种多光谱双流网络的目标检测方法

Info

Publication number: CN116486233A
Application number: CN202310454914.4A
Authority: CN
Inventors: 许国良; 王钰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-07-25

Abstract

本发明涉及一种多光谱双流网络的目标检测方法，属于图像识别领域。该方法在YOLOv5的Backbone开始阶段有两条数据流，分别对所输入的可见光图像和红外光图像进行特征提取操作，首先构建双流网络，第一个融合模块基于残差网络与基于改进的SwinTransformer模态融合模块进行模态融合特征学习，第二个与第三个基于残差网络以特征图叠加的方式进行模态融合，重复三个模态融合模块的操作后，结束Backbone阶段，之后的Head层与预测程序与YOLOv5相同。本发明解决了在昏暗环境下目标检测性能弱的问题，提高小目标检测精度与运算速度。

Description

一种多光谱双流网络的目标检测方法

技术领域

本发明属于图像识别领域，涉及一种多光谱双流网络的目标检测方法。

背景技术

目标检测(Object Detection)目前应用于各个领域，包括但不限于行人检测、车辆检测、人体姿态检测等，其目的是按照所规定的目标来满足一定的业务需求。然而目前目标检测领域还存在以下问题：小目标检测不够精确，目标受遮挡影响以及光源不充足的条件下导致目标识别准确率低下等问题。为此，除了使用最常用的可见光相机外，增加一种严格对齐的红外摄像机所拍摄的红外图像，并通过多模态特征融合神经网络将这两种不同模态的信息进行深度的特征提取与融合，可以大大改善目标检测领域对于上述问题的训练精度和准确度。本发明对于现有的YOLOv5神经网络模型进行改造，使其同时对上述两种模态进行跨模态融合、学习和预测，同时双模态融合与学习模块引入改进的Swin Transformer架构。相较于传统的Transformer模块和卷积模块，它具有减少序列长度、降低计算复杂度、能够在更大的图像分辨率下运行神经网络并提高整体预测精度的优势。

发明内容

有鉴于此，本发明的目的在于提供一种多光谱双流网络的目标检测方法。

为达到上述目的，本发明提供如下技术方案：

一种多光谱双流网络的目标检测方法，该方法包括以下步骤：

S1：可见光和红外光数据经过特定的Mosaic数据增强、自适应锚框计算、自适应图片缩放过程后进入双流神经网络训练；

S2：建立基于YOLOv5的双流卷积检测网络的神经网络模型，其中Backbone采用卷积操作和基于图像堆叠方式的模态融合模块进行模态融合与特征学习，分别位于80×80×256、40×40×512、20×20×1024三处特征图大小的地方进行输出，其中前两个参数为特征图的大小，第三个参数为通道数；

S3：基于Swin Transformer基本模块加入全局平均池化和双线性插值模块组成跨模态特征融合神经网络CSFST模块，加入S2中80×80×256处的多模态特征融合模块，其中前两个参数为特征图的大小，第三个参数为通道数；

S4：输出三个不等大小的特征图进入Neck层即特征金字塔，进行特征提取，对输出的特征进行预测，并输出预测结果；

S5：在训练阶段，采用YOLO v5l预训练权重来进行初始化，并使用随机梯度下降算法来学习网络的参数；在预测阶段，使用softmax分类器获得所属类别的最终分类概率；在优化阶段，采用定位损失、分类损失、置信度损失联合优化的方式减少真实值与预测值之间的误差；不断重复S5，直到迭代次数达到设定的迭代次数时，模型训练完成，进行目标检测任务。

可选的，在所述S2中，图像堆叠方式是以通道维度进行堆叠；设输入的可见光特征图为X_V，特征图的长、宽、通道数分别为H、W、C，输入的红外光特征图为X_T，特征图的长、宽、通道数分别为H、W、C；则表示为：

F＝concat(X_V,X_T)

其中concat表示特征图叠加操作，融合特征图F的长、宽、通道数分别为H、W、2C。

可选的，在所述S2中，初始化神经网络模型参数包括初始化产生SwinTransformer模块的输入参数和相应的YOLO v5神经网络训练参数；双流神经网络模型包括Backbone、Head、预测层，其中Backbone包括初始卷积操作、基于SwinTransformer架构的模态融合特征提取操作，Head层包括四个卷积与全连接层，最后在预测层进行预测操作。

可选的，所述基于YOLO v5的双流卷积检测网络的神经网络模型中，输入不同模态的图像对，特征主干为双流卷积网络，并且将SwinTransformer模块作为可见光和红外光双模态间的特征提取器与特征融合器；首先将输入的两种模态图像经过卷积后，组成SwinTransformer模块的输入，后经SwinTransformer模块与卷积所组成的残差网络，分别将三个不同大小的特征图输入进特征金字塔，后经预测层输出结果。

可选的，所述SwinTransformer架构采用窗口计算自注意力和移动窗口计算自注意力机制SW-MSA，构建算法的结构为重复的LN、MLP、W-MSA与SW-MSA单元，并在其中Q、K的计算中加入卷积，在损失的可接受范围内的精度下大幅减小计算量并提高计算速度；同时，SwinTransformer的输入经过全局平均池化操作，在计算结束后对特征图使用双线性插值法，以减少计算量。

可选的，所述SwinTransformer模块在多模态数据输入之前，使用全局平均池化减小特征图分辨率大小，将图片的分辨率H×W降低若干倍；在处理完成后，使用双线性插值法将其上采样到原始分辨率；

全局平均池化操作表示为：

V＝Avgpool(X_V)

T＝Avgpool(X_T)

其中，X_V、X_T为输入的可见光和红外光特征图，V、T是经过全局池化操作后的特征图；双线性插值法表示为：

F”＝BI(F')

其中BI表示双线性插值操作，F'表示经过Swin Transformer模态特征融合操作的特征图。

可选的，所述优化阶段中存在损失函数，包括定位损失、分类损失、置信度损失三种损失共同组成的损失函数，表达为：

其中定位损失采用的是与SIoU loss，SIoU损失函数通过引入所需回归之间的向量角度，重新定义距离损失。

本发明的有益效果在于：本发明基于Swin Transformer架构和YOLO v5双流检测网络的目标方法，可以很好地优化对于图像整体或部分亮度不足的条件下目标检测，并且在预测精度和可靠性方面，应用于目标检测系统时更加具有优势。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明整体架构流程图；

图2为本发明Backbone流程图；

图3为CSFST模块结构；

图4为CSFST模块中SelfAttention结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明提供的一种基于Swin Transformer架构和YOLO v5双流检测网络的目标方法，如图1所示该方法包括以下步骤：

步骤1：使用特定的Mosaic数据增强、自适应锚框计算、自适应图片缩放对可见光与红外光双模态数据集进行预处理；

步骤2：基于YOLO v5 Backbone建立基于YOLO v5双流检测网络的神经网络模型。本发明设计了一种基于循环融合与细化的特征提取与融合思路，将融合操作重复多次并加以残差处理，以增加多光谱特征的一致性；

步骤3：设计基于Swin Transformer的多源数据模态融合模块CSFST，基于步骤2构建本发明的神经网络进行模态融合与特征学习；

步骤4：采用训练样本对步骤3中确定参数后的神经网络进行训练直至满足训练条件；

步骤5：采用测试集对训练后的神经网络进行测试。

图2为本发明Backbone流程图；

图3为CSFST模块结构；

图4为CSFST模块中SelfAttention结构图。

在步骤1中基于特定的Mosaic数据增强、自适应锚框计算、自适应图片缩放，以适应相应的神经网络训练。

(1)Mosaic数据增强

具体的，本发明使用Mosaic数据增强的方式，其主要思想是将四张图片经过处理拼接在一起，形成一张大图作为训练数据。使用调整后的Mosaic图像来训练模型，可以增加训练集的数量，也可以帮助模型更好地学习物体的上下文信息。所以Mosaic数据增强具有丰富数据集和减少GPU显存占用的优点，并不需要很大的batch size，使用一个相对较低的GPU硬件来训练就可以达到比较好的效果。

(2)自适应锚框计算

本发明在训练中，首先通过对数据集进行聚类分析，得到一组锚框的尺寸集合。然后，在每个检测层(detection layer)中，利用这组尺寸集合计算出一组相应的锚框，这些锚框与当前检测层特征图的尺寸相关，从而适应不同层次的目标物体尺寸。这种方法不仅能够自适应地调整锚框的尺寸，还能够在不同尺度下检测出不同大小的目标物体。通过这种方法，本发明可以在不同训练集中通过自适应的计算出最佳的锚框值。

(3)自适应图片缩放

本发明将输入图像按照长宽比进行缩放，使得较短的一边被缩放为指定的大小，而较长的一边则按照短边所缩放的比例进行缩放。如果输入图像的短边被缩放为512像素，则长边也会按照相同的比例进行缩放，以保持原始图像的长宽比不变。

进一步，在步骤2中，本发明的预测结构基于YOLO v5的Neck与Head层，并建立基于双流卷积网络的基线网络，其特征在于首先使用卷积网络提取可见光与红外光双模态各自的局部特征，之后使用特征融合模块进行特征加权融合操作。

首先，经过步骤1处理过后的可见光与红外光图像分别进行三次卷积操作，卷积后的可见光、红外光特征图表示为X_V、X_T。

本发明设计了一种使用CSFST模块与特征图以通道维度叠加并卷积的特征融合方式进行特征融合的操作。如图2所示，模块与残差网络共同构建出特征循环融合与细化的特征提取与融合思路。本发明将特征融合操作分别在YOLO v5网络中80×80×256、40×40×512、20×20×1024三个地方，即图2中的80×80×256、40×40×512、20×20×1024代表的大、中、小三个特征图进入特征金字塔。本发明的特征循环融合与细化结构可以增加多光谱特征的一致性。设在第i个融合模块中，为了获取新的融合特征f，可见光图像特征X_V与红外光图像特征X_T可以被表示为：

其中σ为特征融合函数，F为特征融合模块。

为了避免过度拟合，所有循环中的操作F共享权重，然后将融合特征与原始特征构建残差网络：

模态之间的相似性随着循环数量的增加而增加，而随着光谱特征之间相似性的增加，它们的一致性增加，互补性降低。多光谱特征之间的一致性非常重要，但是相反，一致性过多则会导致特征值的急剧上升或下降，多余的循环融合毫无意义。经实验，第四次循环及之后，特征融合性能开始下降，所以在实践中，我们选用三次循环来平衡一致性与互补性。

同时，如图2所示，三个特征融合模块将分三次向特征金字塔输入大、中、小三种经过处理的特征图。

进一步，在步骤3中建立SwinTransformer多源数据特征融合模块CSFST。由步骤2的循环与细化特征结构，本发明提出Conv-Swin Transformer循环结构的多源数据特征融合模块，并将模块嵌入至步骤2中的第一次特征提取中。

首先是全局池化操作，用以降低特征图分辨率，减少硬件计算消耗。可以表示为：

V＝Avgpool(X_V)

T＝Avgpool(X_T)

其中，X_V，X_T为输入的可见光特征图和红外特征图，V、T为经过全局平均池化的特征图。

其次是特征融合模块。数据在Swin Transformer模块中，对于输入大小为长H、宽W、通道数为C、Batch size大小为B的原始特征图X∈R^B×C×H×W，转换为X∈R^H×W×C，模型将图像分割为每块大小为M×M个部分。之后，通过concat操作将可见光图像和红外光图像拉平为一维特征并进行特征提取操作：

F＝concat(V,T)

之后，进行Swin Transformer模块的特征融合提取的操作。Swin Transformer由两个block组成，其中一个block中含有一个改良的W-MSA(window-multiHeadselfattention)与SW-MSA(shiftwindow multiHead selfattention)。每个block中拥有相对位置编码模块、可学习单元Layernorm与Linear层进行加权池化操作，实现维度下采样、特征加倍的效果。本发明将对Swin Transformer模块中的q、k变量加入卷积模块以进一步降低学习成本。经过Swin Transformer的输出后，进入Yolo v5的Neck层进行特征融合与检测操作。

经过改良的Swin Transformer模块输出为：

F′＝fusion(F)

其中，fusion为Swin Transformer模块的处理过程，F为输入特征图，F′为输出特征图。

具体地，Swin Transformer中Attention处理过程fusion如下：

输入变量F叠加位置信息后，将输入加入相对位置编码：

f＝F+R

其中R为相对位置编码，将输出f生成Q＝x×W^Q,K＝x×W^K,V＝x×W^V三个特征向量，x的维度是(hw,C)，W的维度为(C,C)。其中，Q、K经过步长为2、卷积核为3×3的卷积，整个过程可以表示为：

q＝Covd2D(Q)

k＝Covd2D(K)

之后计算Q与K的token的余弦相似度，然后除以一个可学习的标量τ：

Sim(q_i,k_j)＝cos(q_i,k_j)/τ+B_ij

其中，B_ij为相对位置偏差(relative position bias)，τ不同层的Attention不共享，并大于0.01。相对位置偏差用来编码window中的各个tokens间的相对位置，M为窗口大小，总共有_M ²个tokens。而由于图像是2D结构，token在每个维度上的相对位置分布在[-M+1,M-1]范围内，总计2M-1个值，计算方式可以表示为：

B(Δx,Δy)＝G(Δx,Δy)

其中G为一个包含2层的MLP模型，中间采用ReLU激活，并采用log空间下的坐标来替换原来的线性坐标，两者的转换公式为：

经过余弦相似度的计算后，所得到的结果在经过softmax函数后乘以V即得到最终的输出，其中可以表示为：

其中，为缩放参数。最后，经过Layer Norm、MLP处理，其处理过程可以表示为：

F′＝LN(f)+LN(MLP(LN(f)))

其中，LN代表LayerNorm操作，MLP为多层感知机。

最后，使用双线性插值法将特征图分辨率提升至与输入一致，可以表示为：

F”＝BI(F')

其中BI表示双线性插值操作，F'表示经过SwinTransformer模态特征融合操作的特征图。

步骤2中有三次循环，特征图大小H、W、C分别为80×80×256、40×40×512、20×20×1024，第一次循环使用Swin Transformer模块进行特征融合，之后两次使用叠加特征图的方式进行特征融合，三次向特征金字塔输出融合特征。

在步骤4中，将Backbone的大、中、小三个特征图输出到YOLO v5 Neck特征金字塔中进行进一步特征提取。

在步骤5中，损失函数分为定位损失(localization loss)、分类损失(classification loss)、置信度损失(confidence loss)，其中定位损失采用的是与SIoUloss。

SIoU损失函数可以表示为：

其中，IoU为交并比，Δ为距离损失Distance cost，Ω为形状损失Shape cost。

首先，距离损失Δ可以表示为：

其中：

其中，Λ是角度损失Angle cost。定义标定框Gtbox和预测框Predictbox的中心点连线的夹角为α。当时，目标是最小化α，当/>时，目标是最小化/>

其中：

b与b^gt分别为标定框与预测框对角线交点，σ为交点的连线长度，c_h为交点间的纵轴距离，c_w为交点的横轴距离。

形状损失Ω的定义如下：

其中：

综上所述，SIoU loss可定义为：

其中：

实验证明，SIoU loss能够有效地增加模型收敛速度。

分类损失由交叉熵损失函数(Binary Cross Entropy Loss)来计算。对于每个格子，计算其包含的目标与所有类别的置信度之差的平方和，将其作为分类损失的一部分。

分类损失的公式如下：

式中，系数表示判断第i个网格的第j个预测框是否为正样本分类损失，若是则为1，若不是则为0。p_i(c)表示真实样本为c类的概率，/>代表网络预测样本为c类的概率。

置信度损失用于衡量边界框是否包含物体以及边界框预测的准确度。YOLO v5使用二元交叉熵损失函数计算类别概率和目标置信度得分的损失，其函数可以用来度量边界框是否包含物体的预测与真实值之间的差距，越小表示模型对于物体是否存在的判断越准确。在YOLO v5中，每个边界框都有一个置信度损失。

置信度损失的公式如下：

式中，置信度损失由和/>损失组成，二者为存在目标的边界框的交叉熵损失和不存在目标的边界框的交叉熵损失：

式中，系数表示判断第i个网格的第j个预测框是否为正样本分类损失，若是则为0，若不是则为1。最后，c_i和/>表示置信度的真实值和网络所预测的置信度。

定位损失、分类损失、置信度损失三种损失共同组成本发明的损失函数，可以表达为：

通过不断地进行迭代与优化，最终获得最理想的Loss值，增强模型的分类性能。

在步骤5中，对构建好的模型输入数据集进行训练，每迭代一个epoch则保存当前epoch的模型参数，并比较当前epoch的分类精度与之前的最优模型的分类精度。当达到设定的最大epoch时，输出识别准确度最优的行人目标识别模型。完成训练后的模型可以实现对光线不好的环境下目标的检测与识别，包括人、动物、汽车、其他交通工具以及障碍物等物体的检测识别。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种多光谱双流网络的目标检测方法，其特征在于：该方法包括以下步骤：

S1：可见光和红外光数据分别经过特定的Mosaic数据增强、自适应锚框计算、自适应图片缩放过程后进入双流神经网络训练；

S2：建立基于YOLOv5的双流卷积检测网络的神经网络模型，其中Backbone中的部分采用图像堆叠方式并进行卷积操作的模态融合模块，再与双流网络组成残差结构进行模态融合与特征学习，两个卷积模块分别位于40×40×512、20×20×1024所对应的特征图进行输出，其中前二为特征图的长和宽，后者为通道数；

S3：建立基于SwinTransformer基本模块，其中加入全局平均池化和双线性插值模块组成跨模态特征融合CSFST模块，加入Backbone的80×80×256处组成多模态特征融合结构；

S4：在Backbone的特征提取过程中，80×80×256、40×40×512、20×20×1024三处的输出分别对应大、中、小三个特征图；输出三个特征图进入Neck层即特征金字塔，进行特征提取，对输出的特征进行预测，并输出预测结果；

S5：在训练阶段，采用YOLOv5l预训练权重来进行初始化，并使用随机梯度下降算法来学习网络的参数；在预测阶段，使用softmax分类器获得所属类别的最终分类概率；在优化阶段，采用定位损失、分类损失、置信度损失联合优化的方式减少真实值与预测值之间的误差；不断重复S5，直到迭代次数达到设定的迭代次数时，模型训练完成，进行目标检测任务。

2.根据权利要求1所述的一种多光谱双流网络的目标检测方法，其特征在于：在所述S2中，图像堆叠方式是以通道维度进行堆叠；设输入的可见光特征图为X_V，特征图的长、宽、通道数分别为H、W、C，输入的红外光特征图为X_T，特征图的长、宽、通道数分别为H、W、C；则表示为：

F＝concat(X_V,X_T)

其中concat表示以通道维度的特征图叠加操作，融合特征图F的长、宽、通道数分别为H、W、2C。

3.根据权利要求1所述的一种多光谱双流网络的目标检测方法，其特征在于：在所述S2中，初始化神经网络模型参数包括初始化产生SwinTransformer模块的输入参数和相应的YOLOv5神经网络训练参数；双流神经网络模型包括Backbone、Head、预测层，其中Backbone包括初始卷积操作、基于SwinTransformer架构的模态融合特征提取操作，Head层包括四个卷积与全连接层，最后在预测层进行预测操作。

4.根据权利要求1所述的一种多光谱双流网络的目标检测方法，其特征在于：在所述S4中，基于YOLOv5的双流卷积检测网络的神经网络模型中，输入不同模态的图像对，Backbone为双流卷积网络，并且将SwinTransformer模块作为可见光和红外光双模态间的特征提取器与特征融合器；首先将输入的两种模态图像经过卷积后，组成SwinTransformer模块的输入，后经SwinTransformer模块与卷积所组成的残差网络，分别将三个不同大小的特征图输入进特征金字塔，后经预测层输出结果。

5.根据权利要求3所述的一种多光谱双流网络的目标检测方法，其特征在于：所述SwinTransformer架构采用窗口计算自注意力W-MSA和移动窗口计算自注意力机制SW-MSA，构建算法的结构为重复的LN、MLP、W-MSA与SW-MSA单元，并在其中Q、K的计算中加入卷积，在损失的可接受范围内的精度下大幅减小计算量并提高计算速度；同时，Swin Transformer的输入经过全局平均池化操作，在计算结束后对特征图使用双线性插值法，以减少计算量。

6.根据权利要求4所述的一种多光谱双流网络的目标检测方法，其特征在于：所述SwinTransformer模块在多模态数据输入之前，使用全局平均池化减小特征图分辨率大小，将图片的分辨率H×W降低若干；在处理完成后，使用双线性插值法将其上采样到原始分辨率；

全局平均池化操作表示为：

V＝Avgpool(X_V)

T＝Avgpool(X_T)

其中，X_V、X_T为输入的可见光和红外光特征图，V、T是经过全局池化操作后的特征图；

双线性插值法表示为：

F”＝BI(F')

7.根据权利要求1所述的一种多光谱双流网络的目标检测方法，其特征在于：所述优化阶段中存在损失函数，包括定位损失、分类损失、置信度损失三种损失共同组成的损失函数，表达为：

8.根据权利要求7所述的一种多光谱双流网络的目标检测方法，其特征在于：定位损失采用的是SIoUloss，SIoU损失函数通过引入所需回归之间的向量角度，重新定义距离损失；SIoU损失函数表示为：

其中，IoU为交并比，Δ为距离损失Distancecost，Ω为形状损失Shapecost；

首先，距离损失Δ表示为：

其中：

其中，Λ是角度损失Anglecost；定义标定框Gtbox和预测框Predictbox的中心点连线的夹角为α；当时，目标是最小化α，当/>时，目标是最小化/>

其中：

b与b^gt分别为标定框与预测框对角线交点，σ为交点的连线长度，c_h为交点间的纵轴距离，c_w为交点的横轴距离；

形状损失Ω的定义如下：

其中：