CN115631397A

CN115631397A - 一种基于双模态图像的目标检测方法及装置

Info

Publication number: CN115631397A
Application number: CN202211361702.3A
Authority: CN
Inventors: 韩煜祺; 刘华平; 安梓嘉; 郑文栋
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-01-20

Abstract

本发明提出一种基于双模态图像的目标检测方法及装置，属于机器视觉、图像处理、精确制导领域。其中，所述方法包括：获取待目标检测的图像样本，所述图像样本包括对齐的一张可见光图像和一张红外图像；将所述图像样本输入预设的双模态目标检测网络，所述网络输出所述样本的目标初筛位置；对所述目标初筛位置进行优化，得到所述样本的最佳目标位置作为目标检测的最终结果。本发明利用可见光和红外在目标特征上的互补性以及在不同场景的有效性上的互补关系，通过融合二者的特征既能获得目标更特异性的特征，又能保证在更多场景的有效性，以解决现有技术中存在的目标特异性特征不充分和应用场景检测失效的问题。

Description

一种基于双模态图像的目标检测方法及装置

技术领域

本发明属于机器视觉、图像处理、精确制导领域，涉及一种基于双模态图像的目标检测方法及装置。

背景技术

目标检测技术是电视导引头制导技术的关键之一，是智能化、信息化的重要技术手段，在预警探测、精确制导、战场指挥和侦查等军事领域都发挥着重要的作用。电视制导导弹在发射初期，需要能够准确地锁定目标，才能够为后续的目标跟踪提供准确的目标模板，从而实现制导过程的精确打击。但是，在实际使用过程中，单一模态的图像目标信息不足，且随场景变化容易发生模态失效无法检测的问题，影响目标的可靠识别和跟踪。

传统的基于单一模态的目标检测方法存在诸多局限，导致检测结果面对复杂环境并不稳定可靠。比如，对于可见光图像，虽然包含目标清晰的细节信息，但是缺乏目标的边界信息，面对具有复杂背景干扰的场景，难以获得目标具有特异性的特征。此外，可见光图像由于其成像方法的局限性，在光照情况较差的情况下，无法获取目标信息，导致检测方法失效。而对于红外图像，虽然包含目标显著的边界信息，但是缺乏目标的细节信息。而且在强烈光照的情况下，由于背景反射严重，一些目标的边界不再清晰，严重影响检测方法的有效性。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种基于双模态图像的目标检测方法及装置。本发明利用可见光和红外在目标特征上的互补性以及在不同场景的有效性上的互补关系，通过融合二者的特征既能获得目标更特异性的特征，又能保证在更多场景的有效性，以解决现有技术中存在的目标特异性特征不充分和应用场景检测失效的问题。

本发明第一方面实施例提出一种基于双模态图像的目标检测方法，包括：

获取待目标检测的图像样本，所述图像样本包括对齐的一张可见光图像和一张红外图像；

将所述图像样本输入预设的双模态目标检测网络，所述网络输出所述样本的目标初筛位置；

对所述目标初筛位置进行优化，得到所述样本的最佳目标位置作为目标检测的最终结果。

在本发明的一个具体实施例中，所述双模态目标检测网络包括光照情况评估子网络和目标检测子网络；

将所述可见光图像输入所述光照情况评估子网络，得到所述样本分别对应可见光模态和红外模态的有效性权重；

将所述可见光图像、所述红外图像和所述有效性权重输入所述目标检测子网络，得到所述样本的目标初筛位置。

在本发明的一个具体实施例中，所述对所述目标初筛位置进行优化，得到所述样本的最佳目标位置作为目标检测的最终结果，包括：

设置非极大值的抑制门限；遍历所有目标初筛位置，若两个所述目标初筛位置的重叠的IOU值大于所述门限，则抑制置信度较低的所述目标初筛位置；遍历完毕后，保留的所述目标初筛位置即为所述样本的最佳目标位置。

在本发明的一个具体实施例中，所述方法还包括：

在所述将所述可见光图像输入所述光照情况评估子网络之前，将所述可见光图像缩小至设定的尺寸。

在本发明的一个具体实施例中，在所述将所述图像样本输入预设的双模态目标检测网络之前，所述方法还包括：

训练所述双模态目标检测网络；

所述训练所述双模态目标检测网络，包括：

1)获取由对齐的可见光图像和红外图像组成的训练样本，根据目标在所述训练样本中红外图像中的位置标注所述目标的坐标作为所述训练样本的位置标签，根据所述样本中可见光图像对应白天或黑夜标注场景的光照情况作为所述训练样本的光照情况标签；将标注完毕的所有训练样本组成训练集；

2)构建双模态目标检测网络；

3)利用所述训练集中每个训练样本的可见光图像和光照情况标签训练所述双模态目标检测网络中的所述光照情况评估子网络，得到训练完毕的所述光照情况评估子网络；、

4)将所述训练集中每个训练样本的可见光图像输入所述训练完毕的光照情况评估子网络，得到每个样本分别对应可见光模态和红外模态的有效性权重；

5)利用所述训练集中每个训练样本的可见光图像、红外图像和位置标签以及步骤4)得到的有效性权重训练所述双模态目标检测网络中的所述目标检测子网络，得到训练完毕的所述目标检测子网络。

在本发明的一个具体实施例中，所述光照情况评估子网络由依次连接的两个卷积层和三个全连接层组成，每个卷积层后使用Relu激活函数和大小为2×2的最大池化层对该卷积层输出的特征进行映射和压缩，前两个全连接层后使用dropout层以防止全连接参数过拟合，在最后一个全连接层后使用sigmoid激活函数获得输入样本对应的场景是白天的概率w_d和黑夜的概率w_n，进而计算输入样本分别对应的可见光模态的有效性权重w_r和红外模态的有效性权重w_i：

w_i＝1-w_r。

在本发明的一个具体实施例中，所述目标检测子网络由两个平行且结构相同的ResNet网络作为主干网络，其中一个ResNet网络的输入为可见光图像，另一个ResNet网络的输入为对齐所述可见光图像的红外图像；在两个ResNet网络中位于同一层次的卷积块组成所述目标检测子网络的一个卷积阶段，每个卷积块由卷积层组成；在所述目标检测子网络中位于同一卷积阶段的分别对应可见光图像和红外图像的卷积块之间，通过跨模态互助获得各模态加强后的特征图；

所述跨模态互助的方法为：首先，分别对两个ResNet网络对应卷积块输出的可见光模态的特征图F_R和红外模态的特征图F_I用沿通道轴的平均池化和最大池化操作后进行拼接，以分别生成一张对应可见光模态的特征描述图和一张对应红外模态的特征描述图；其次，对所述对应可见光模态的特征描述图和所述对应红外模态的特征描述图，分别应用该卷积块中7×7的卷积层判断不同空间位置的重要性，并对该卷积层输出使用sigmoid作为激活函数，从而分别获得对应可见光模态的空间注意力图和对应红外模态的空间注意力图；然后，将每个模态的空间注意力图通过点乘的方式分别与另一个模态的特征图相乘，以得到两个模态分别对应的加强特征；最后，通过跳接将两个模态分别对应的加强特征分别添加到对应模态的特征图F_R和F_I上，结合各模态的有效性权重，生成加强后的可见光模态的特征图F'_R和加强后的红外模态的特征图F'_I，表达式如下

F'_R＝F_R+F_R⊙w_iσ(f^7×7([AvgPool(F_I)；MaxPool(F_I)]))

F'_I＝F_I+F_I⊙w_rσ(f^7×7([AvgPool(F_R)；MaxPool(F_R)]))

其中，σ表示sigmoid函数，f^7×7表示进行卷积核大小为7×7的卷积运算，AvgPool()代表沿通道轴的平均池化，MaxPool()代表沿通道轴的最大池化，⊙代表点乘；

对除第一和第二卷积阶段外其余卷积阶段输出的两个模态加强后的特征图进行融合操作，通过将有效性权重乘以融合操作中每个模态各自的加强特征图，融合后得到该卷积阶段对应的一张融合特征图：

F＝relu(f^1×1(L₂norm([w_r·F'_R；w_l·F'_I])))

其中，relu表示relu激活函数，f^1×1表示进行卷积核大小为1×1的卷积运算，L₂norm表示L2归一化；

通过对所述融合特征图进行检测，所述目标检测子网络输出对应输入样本的目标初筛位置。

在本发明的一个具体实施例中，所述光照情况评估子网络在训练时的损失函数为：

其中，w_d是光照情况评估子网络输出的输入样本对应场景是白天的概率，w_n是该子网络对输入样本对应场景是黑夜的概率；

和

代表输入样本的光照情况标签：若输入样本的光照情况标签为白天，则

若输入样本的光照情况标签为黑夜，则

在本发明的一个具体实施例中，所述目标检测子网络在训练时的损失函数包括分类损失L_cls和位置回归损失L_reg；

所述分类损失L_cls表达式为：

式中，S₊，S_-分别表示正和负样本的锚框；α和γ为超参数，s_i是样本i为正样本的概率，

所述位置回归损失L_reg表达式为：

式中，l_i表示目标检测子网络输出的目标位置与实际目标位置标签的偏差；

其中，分类损失L_cls对所有样本进行计算，位置回归损失L_reg对正样本计算，则总损失函数L_d表示如下：

L_d＝L_cls+yL_reg

式中，y∈{0,1}表示样本的正负性，取值为1时代表为正样本，取值为0时代表为负样本。

本发明第二方面实施例提出一种基于双模态图像的目标检测装置，包括：

图像样本获取模块，用于获取待进行目标检测的图像样本，所述图像样本包括对齐的一张可见光图像和一张红外图像；

初步目标检测模块，用于将所述图像样本输入预设的双模态目标检测网络，所述网络输出所述样本的目标初筛位置；

目标检测优化模块，用于对所述目标初筛位置进行优化，得到所述样本的最佳目标位置作为目标检测的最终结果。

本发明第三方面实施例提出一种电子设备，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述一种基于双模态图像的目标检测方法。

本发明第四方面实施例提出一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述一种基于双模态图像的目标检测方法。

本发明的特点及有益效果在于：

1、本发明适用于复杂场景的目标检测，在背景复杂和光照不充分的场景下可以准确检测目标。。

2、本发明通过使用跨模态互助方法，能够增强各个模态的目标特征，使目标在复杂背景干扰下具有更特异性特征，从而增强目标检测性能。

3、本发明通过模态有效性引导方法，能够避免失效模态影响检测方法，从而达到在模态失效时，仍然准确检测目标的效果，增加了导引头在复杂场景的鲁棒性，以更好地支撑后续的导引头跟踪过程。

附图说明

图1为本发明一个具体实施例中一种基于双模态图像的目标检测方法的整体流程图。

图2为本发明一个具体实施例中双模态目标检测网络的结构示意图。

图3为本发明一个具体实施例中光照情况评估子网络结构示意图。

图4为本发明一个具体实施例中目标检测子网络结构示意图。

具体实施方式

本发明提出一种基于双模态图像的目标检测方法及装置，下面结合附图和具体实施例进一步详细说明如下。

图像导引头往往需要应用于复杂的场景中，比如背景复杂和弱光照。此时使用单一RGB模态数据作为输入的检测算法往往难以检测到目标，这由于RGB模态的目标特征缺乏特异性或者模态失效。故研究如何利用更多模态的数据，增加目标检测算法的性能对电视引导头的可靠性至关重要。

红外模态可以很好地互补可见光模态的目标特征和有效场景。红外图像根据目标的热辐射差异成像，不依赖外部光源，其更多关注于目标的边缘信息，可以很好地和可见光图像的内部细节信息互补。此外，红外模态在弱光照场景仍然有效，可以很好地弥补可见光在弱光照场景失效的问题。因此，使用可见光和红外双模态图像引导头相比单模态，不仅可以增强检测性能，并且在某一模态失效的情况下，仍然准确检测目标。

在本发明的一个具体实施例中，所述一种基于双模态图像的目标检测方法，整体流程如图1所示，分为训练阶段和测试阶段，包括如下步骤：

1)训练阶段；

1-1)构建训练集；

所述训练集中每个训练样本由对齐的可见光图像和红外图像组成；

本实施例中，对于每个训练样本，根据目标在该样本中红外图像中的位置标注目标的坐标作为该训练样本的位置标签，根据该样本中可见光图像对应白天或黑夜标注场景的光照情况作为该训练样本的光照情况标签。其中，本发明一个具体实施例中，在标注位置标签时，采用目标所在区域的最小横纵坐标和最大横纵坐标构成的最小外接矩形框作为目标的坐标；对于标注场景的光照情况，标注方法为：若将该训练样本的可见光图像转换为灰度图后，大于三分之一区域灰度值小于设定的灰度阈值(本实施例为70)，则标注该可见光图像的光照情况标签为黑夜，若小于等于三分之一区域灰度值小于设定的灰度阈值，则标注该可见光图像的光照情况标签为白天。

进一步地，标注完成后若样本数量不足，则需要对训练样本(包括图像和对应的标签)使用随机亮度、随机色调、随机饱和度、随机翻转和随机裁剪的增广方法，完成数据增强处理，以得到增强后的样本，然后将所有样本组成训练集。本实施例中，为保证数据集足够大，使得模型不会过拟合，建议增强后的样本的总数大于10000。

需要说明的是，本实施例方法对目标的种类没有特定要求，只要该目标相对背景具有特异性特征即可，且对检测的目标种类个数没有限制。

本发明一个具体实施例中，使用公开DroneVehicle可见光和红外双模态数据集，该数据集具有19264张白天黑夜不同光照条件下的对齐的可见光和红外图像对，目标种类为车辆，由于数据集中有些图片模态对齐欠佳，故本实施例中对该数据集中的图像进行挑选，使用17795个对齐良好的RGB-T图像对(即可见光-红外图像对)以组成初始训练集，并挑选另外1280个对齐良好的RGB-T图像对用于之后的测试。

由于该数据集已标定目标在图像的坐标位置，但未标定图像的光照情况，本实施例中根据训练集中每个样本中的可见光图像样本的情况，标注了场景的光照情况。

可选地，之后对标注的数据使用随机亮度、随机色调、随机饱和度、随机翻转和随机裁剪的增广方法，完成数据增强处理，并将增强后的数据组成训练集。本实施例中数据增强后共得到50000个样本构成训练集。

1-2)构建光照情况引导的双模态目标检测网络；

本发明一个具体实施例中，所述双模态目标检测网络结构如图2所示，包括：光照情况评估子网络和目标检测子网络。其中，本实施例中每个样本的可见光-红外图像对中图像的原始尺寸均为640*512，光照情况评估子网络的输入为可见光-红外图像对中经过缩小后的的可见光图像，用于评估场景的光照条件后，计算该样本的可见光模态的有效性权重w_r和红外模态的有效性权重w_i，其中本实施例中经过缩小后的可见光图像尺寸为56*56，光照情况评估子网络输出的可见光模态的有效性权重记为w_r，红外模态的有效性权重记为w_i。目标检测子网络的输入为每个样本中原始尺寸的可见光图像和红外图像，以及由光照情况评估子网络输出的该两种模态图像对应的有效性权重，目标检测子网络输出为对应输入样本的目标初筛位置的检测结果。

需要说明的是，光照情况评估子网络的输入为每个样本中的可见光图像，考虑到高分辨率的可见光图像的光照情况信息存在大量冗余，本实施例通过对可见光图像缩小尺寸后输入光照情况评估子网络，以增加该子网络计算速率。在本发明一个具体实施例中，所述光照情况评估子网络结构如图3所示，由依次连接的两个卷积层和三个全连接层组成，每个卷积层后使用Relu激活函数和大小为2×2的最大池化层对该卷积层输出的特征进行映射和压缩，前两个全连接层后使用dropout层，防止全连接参数过拟合，并在最后一个全连接层后使用sigmoid激活函数获得输入样本对应的场景是白天的概率w_d和黑夜的概率w_n。然后根据如下映射关系，通过场景是白天的概率w_d和是黑夜的概率w_n，计算输入样本分别对应的可见光模态的有效性权重w_r和红外模态的有效性权重w_i：

w_i＝1-w_r

在本发明一个具体实施例中，光照情况评估子网络使用的dropout层的概率设置为0.5。

进一步地，本发明实施例中，所述目标检测子网络结构如图4所示，所述目标检测子网络使用两个平行且结构相同的ResNet网络作为主干网络用于分别对每个样本的两种模态图像提取对应的特征，该子网络中每个ResNet网络输入分别为输入样本的可见光图像和红外图像，输出为分别对应该两个模态的不同尺度的特征图。在两个ResNet网络中，位于同一层次的卷积块组成所述目标检测子网络的一个卷积阶段，之后通过对同一卷积阶段输出的不同模态的特征图进行融合并对融合后的特征图进行检测，以得到对应输入样本的目标初筛位置。

在本发明的一个具体实施例中，权衡任务的复杂性、检测速度和平台的资源约束后，选择ResNet-50作为目标检测子网络的主干网络以提取目标特征。该目标检测子网络结构如图4所示，包含卷积阶段1-6共6个卷积阶段，其中该图中未画出卷积阶段1。

本实施例中，利用模态间的空间相关性，设计跨模态互助方法，嵌入到ResNet网络的3、4、5、6卷积阶段中的各个卷积块中。对于ResNet-50，阶段3、4、5、6分别有4、6、3、1个卷积块，跨模态互助方法分别嵌入到每个卷积阶段中分别对应可见光图像和红外图像的卷积块之间，用于增强该子网络的特征提取能力，获得各个模态加强后的特征图。

所述跨模态互助方法具体操作为：首先，分别对两个ResNet网络在该卷积阶段中对应卷积块输出的可见光模态的特征图F_R和红外模态的特征图F_I用沿通道轴的平均池化和最大池化操作后，将该两张特征图用拼接操作，以分别生成一张对应可见光模态的特征描述图和一张对应红外模态的特征描述图。其次，对所述对应可见光模态的特征描述图和所述对应红外模态的特征描述图，分别应用该卷积块中7×7的卷积层来判断不同空间位置的重要性，并对卷积层输出使用sigmoid作为激活函数，从而分别获得对应可见光模态的空间注意力图和对应红外模态的空间注意力图。然后，将每个模态的空间注意力图通过点乘的方式分别与另一个模态的特征图(F_R或F_I)相乘(本实施例中，点乘需要做两次)，从而令另一个模态加强关注该模态的重要空间位置，以得到两个模态分别对应的加强特征。最后为了便于梯度更新，使用类似于跳接结构，将两个模态分别对应的加强特征分别添加到原特征图(即F_R和F_I)上，生成加强后的可见光模态的特征图F_R'和红外模态的特征图F_I'，表达式如下：

F'_R＝F_R+F_R⊙σ(f^7×7([AvgPool(F_I)；MaxPool(F_I)]))

F'I＝FI+FI⊙σ(f^7×7([AvgPool(F_R)；MaxPool(F_R)]))

其中，σ表示sigmoid函数，f^7×7表示进行卷积核大小为7×7的卷积运算，AvgPool()代表沿通道轴的平均池化，MaxPool()代表沿通道轴的最大池化，⊙代表点乘。

将两个模态加强后的特征图进行融合操作，得到该卷积阶段对应的一张融合特征图(本实施例中只对图4中阶段3、阶段4、阶段5、阶段6输出的两个模态的加强特征图进行融合)。

其中，融合操作具体为：首先，对可见光和红外模态的加强后的特征图使用沿通道轴的concat操作拼接。其次，对拼接的特征图使用L2归一化。最后使用卷积核大小为1×1的卷积与relu操作得到和原始特征图大小一致且包含两模态信息的融合特征图F。整个过程表达如下：

F＝relu(f^1×1(L₂norm([F_R'；F_I'])))

其中，relu表示relu激活函数，f^1×1表示进行卷积核大小为1×1的卷积运算，L₂norm表示L2归一化。

进一步地，本实施例中，利用各个模态有效性权重，设计模态有效性引导方法，用于减少失效模态对检测算法的干扰。

模态有效性引导方法具体操作为：首先，将光照情况评估子网络输出的有效性权重乘以所述跨模态互助方法中的空间注意力图，以降低跨模态互助方法中失效模态对有效模态的干扰。有效性权重引导后的跨模态互助方法可以表达为：

F'_R＝F_R+F_R⊙w_iσ(f^7×7([AvgPool(F_I)；MaxPool(F_I)]))

F'_I＝F_I+F_I⊙w_rσ(f^7×7([AvgPool(F_R)；MaxPool(F_R)]))

其次，将有效性权重乘以融合操作中每个模态各自的加强后的特征图，以降低融合操作中失效特征图对融合特征图的干扰。有效性权重引导后的融合操作可以表达为：

F＝relu(f^1×1(L₂norm([w_r·F'_R；w_l·F'_I])))

对融合的特征图F后加入FPN(特征金字塔)操作和预测头完成检测，以生成对应输入样本的目标初筛位置。

1-3)利用步骤1-1)得到的训练集中每个训练样本的可见光图像和光照情况标签训练步骤1-2)构建的光照情况评估子网络。

本发明一个具体实施例中，利用训练集中每个训练样本的可见光图像和光照情况标签训练所述光照情况评估子网络，训练过程中使用的损失函数L_I为模型评估得分和光照情况标签之间的交叉熵，即：

其中，w_d是光照情况评估子网络输出的输入样本对应场景是白天的概率，w_n是该子网络对输入样本对应场景是黑夜天的概率；

和

代表该样本的光照情况标签：若输入样本的光照情况标签为白天，则

若输入样本的光照情况标签为黑夜光照，则

在本发明一个具体实施例中，训练时设置训练的批大小为16，学习率初始为0.0001，由Adam优化器优化20个epoch，训练过程使用余弦退火算法方法变化学习率，最终得到训练完毕的光照情况评估子网络。

1-4)将步骤1-1)得到的训练集中每个训练样本中的可见光图像输入步骤1-3)训练完毕的光照情况评估子网络，得到每个训练样本中可见光和红外两个模态分别对应的有效性权重。

1-5)利用步骤1-1)得到的训练集中每个训练样本的可见光图像、红外图像和位置标签以及步骤1-4)得到的训练集中每个训练样本的两个模态的有效性权重，对目标检测子网络进行训练。

本实施例中，采用每个训练样本的可见光-红外图像对和目标位置标签，训练所述目标检测子网络。训练目标检测子网络的损失函数L_d包含两部分损失，分别为分类损失L_cls和位置回归损失L_reg。其中分类损失L_cls表示为：

式中，S₊，S_-分别表示正和负样本的anchor(锚框)。本实施例中超参数设置为α＝0.25、γ＝2。s_i是样本i为正样本的概率。

位置回归损失L_reg表示为：

式中，l_i表示目标检测子网络输出的目标位置与实际目标位置标签的偏差。

分类损失L_cls对所有样本进行计算，而位置回归损失L_reg仅对正样本计算，则总损失函数L_d表示如下：

L_d＝L_cls+yL_reg

本实施例的具体训练方法为：使用在ImageNet数据集上预训练的ResNet-50模型参数初始化本实施例的ResNet-50网络。在训练若干个epoch后，损失若趋于稳定，则训练完成。

在本发明的一个具体实施例中，设置训练的批大小为16，学习率初始为0.0001，由Adam优化器优化20个epoch，训练过程使用余弦退火算法方法变化学习率，完成模型的迭代优化，最终得到训练完毕的目标检测子网络。

两个子网络均训练完毕后，得到训练完毕的双模态目标检测网络。

2)测试阶段；

2-1)获取对齐的可见光和红外图像组成一个测试样本。

在本发明的一个具体实施例中，挑选使用公开DroneVehicle可见光和红外双模态数据集中1280个对齐良好的RGB-T图像对作为测试样本用于测试。

2-2)将测试样本中的可见光图像缩小(缩小后的尺寸与训练阶段一致)后输入到训练完毕的光照情况评估子网络中，计算得到该样本对应场景下可见光和红外两个模态的有效性权重。之后将该测试样本的红外、可见光两种模态的图像和对应有效性权重输入到训练完毕的目标检测子网络中，得到目标的初筛位置，本实施例为包含目标的最小外接矩形框。

在本实施例中，测试样本中的可见光图像被缩放为56×56后，输入到训练完成的光照情况评估子网络中。

2-3)对于步骤2-2)得到的初步结果，为了解决检测到的目标框相互之间存在重叠的现象，利用非极大值抑制寻找最佳目标边界框，并将该最佳目标边界框作为检测的最终结果。

在本发明一个具体实施例中，非极大值抑制设置的抑制门限为0.4，遍历所有初步目标初筛位置，当两个目标初筛位置的重叠的IOU值大于0.4时，抑制置信度较低的目标初筛位置。遍历完毕后，保留的目标初筛位置即为测试样本的最佳目标位置。

完成上述步骤后，即可以准确检测到目标。

为实现上述实施例，本发明第二方面实施例提出一种基于双模态图像的目标检测装置，包括：

需要说明的是，前述对一种基于双模态图像的目标检测方法的实施例解释说明也适用于本实施例的一种基于双模态图像的目标检测装置，在此不再赘述。根据本公开实施例提出的一种基于双模态图像的目标检测装置，通过获取待目标检测的图像样本，所述图像样本包括对齐的一张可见光图像和一张红外图像；将所述图像样本输入预设的双模态目标检测网络，所述网络输出所述样本的目标初筛位置；对所述目标初筛位置进行优化，得到所述样本的最佳目标位置作为目标检测的最终结果。由此可实现利用可见光和红外在目标特征上的互补性以及在不同场景的有效性上的互补关系，通过融合二者的特征既能获得目标更特异性的特征，又能保证在更多场景的有效性，以解决现有技术中存在的目标特异性特征不充分和应用场景检测失效的问题。

为实现上述实施例，本发明第三方面实施例提出一种电子设备，包括：

为实现上述实施例，本发明第四方面实施例提出一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述一种基于双模态图像的目标检测方法。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例的一种基于双模态图像的目标检测方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于双模态图像的目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述双模态目标检测网络包括光照情况评估子网络和目标检测子网络；

3.根据权利要求1所述的方法，其特征在于，所述对所述目标初筛位置进行优化，得到所述样本的最佳目标位置作为目标检测的最终结果，包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，在所述将所述图像样本输入预设的双模态目标检测网络之前，所述方法还包括：

训练所述双模态目标检测网络；

所述训练所述双模态目标检测网络，包括：

2)构建双模态目标检测网络；

3)利用所述训练集中每个训练样本的可见光图像和光照情况标签训练所述双模态目标检测网络中的所述光照情况评估子网络，得到训练完毕的所述光照情况评估子网络；

6.根据权利要求5所述的方法，其特征在于，所述光照情况评估子网络由依次连接的两个卷积层和三个全连接层组成，每个卷积层后使用Relu激活函数和大小为2×2的最大池化层对该卷积层输出的特征进行映射和压缩，前两个全连接层后使用dropout层以防止全连接参数过拟合，在最后一个全连接层后使用sigmoid激活函数获得输入样本对应的场景是白天的概率w_d和黑夜的概率w_n，进而计算输入样本分别对应的可见光模态的有效性权重w_r和红外模态的有效性权重w_i：

w_i＝1-w_r。

7.根据权利要求6所述的方法，其特征在于，所述目标检测子网络由两个平行且结构相同的ResNet网络作为主干网络，其中一个ResNet网络的输入为可见光图像，另一个ResNet网络的输入为对齐所述可见光图像的红外图像；在两个ResNet网络中位于同一层次的卷积块组成所述目标检测子网络的一个卷积阶段，每个卷积块由卷积层组成；在所述目标检测子网络中位于同一卷积阶段的分别对应可见光图像和红外图像的卷积块之间，通过跨模态互助获得各模态加强后的特征图；

所述跨模态互助的方法为：首先，分别对两个ResNet网络对应卷积块输出的可见光模态的特征图F_R和红外模态的特征图F_I用沿通道轴的平均池化和最大池化操作后进行拼接，以分别生成一张对应可见光模态的特征描述图和一张对应红外模态的特征描述图；其次，对所述对应可见光模态的特征描述图和所述对应红外模态的特征描述图，分别应用该卷积块中7×7的卷积层判断不同空间位置的重要性，并对该卷积层输出使用sigmoid作为激活函数，从而分别获得对应可见光模态的空间注意力图和对应红外模态的空间注意力图；然后，将每个模态的空间注意力图通过点乘的方式分别与另一个模态的特征图相乘，以得到两个模态分别对应的加强特征；最后，通过跳接将两个模态分别对应的加强特征分别添加到对应模态的特征图F_R和F_I上，结合各模态的有效性权重，生成加强后的可见光模态的特征图F′_R和加强后的红外模态的特征图F′_I，表达式如下

F′_R＝F_R+F_R⊙w_iσ(f^7×7([AvgPool(F_I)；MaxPool(F_I)]))

F′_I＝F_I+F_I⊙w_rσ(f^7×7([AvgPool(F_R)；MaxPool(F_R)]))

F＝relu(f^1×1(L₂norm([w_r·F′_R；w_l·F′_I])))

8.根据权利要求7所述的方法，其特征在于，所述光照情况评估子网络在训练时的损失函数为：

和

若输入样本的光照情况标签为黑夜，则

9.根据权利要求8所述的方法，其特征在于，所述目标检测子网络在训练时的损失函数包括分类损失L_cls和位置回归损失L_reg；

所述分类损失L_cls表达式为：

所述位置回归损失L_reg表达式为：

L_d＝L_cls+yL_reg

10.一种基于双模态图像的目标检测装置，其特征在于，包括：