CN117636241A

CN117636241A - 基于决策级融合的低光照场景多模态行人检测跟踪方法

Info

Publication number: CN117636241A
Application number: CN202311537940.XA
Authority: CN
Inventors: 马惠敏; 傅豪杰; 王艺霖; 刘畅; 郭程皓
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-11-17
Filing date: 2023-11-17
Publication date: 2024-03-01

Abstract

本发明涉及目标检测跟踪技术领域，特别是指一种基于决策级融合的低光照场景多模态行人检测跟踪方法及装置。一种基于决策级融合的低光照场景多模态行人检测跟踪方法包括：使用红外图像以及可见光图像，对目标检测模型进行训练，获得红外检测模型以及可见光检测模型；基于红外检测模型、可见光检测模型以及决策级融合算法进行模型构建，获得决策级融合检测模型；将待检测红外图像以及待检测可见光图像输入决策级融合检测模型，获得融合检测结果；将融合检测结果输入多目标跟踪算法，获得多目标跟踪结果；根据多目标跟踪结果进行可视化处理，获得跟踪视频序列。本发明是一种基于决策级融合的高效、实时的低光照多模态行人检测跟踪方法。

Description

基于决策级融合的低光照场景多模态行人检测跟踪方法

技术领域

本发明涉及目标检测跟踪技术领域，特别是指一种基于决策级融合的低光照场景多模态行人检测跟踪方法及装置。

背景技术

在计算机视觉领域的众多研究中，行人目标检测与跟踪技术占据着重要位置。行人检测是指自动识别图像或视频中的行人目标，将它们从背景中准确分离出来，通常通过绘制检测框来完成。这一技术在安全监控、自动驾驶等领域发挥着关键作用，帮助我们检测和识别行人，从而提高安全性和便捷性。

在近年来的一些研究中，基于卷积神经网络的行人检测算法层出不穷，但基于可见光图像单模态的检测算法在复杂光照环境下往往不能取得令人满意的效果。使用Faster-RCNN检测器研究了在不同融合阶段进行图像融合对检测性能的影响，发现特征级融合即在特征提取阶段融合图像取得了最佳性能。考虑了图像的光照条件，基于Faster-RCNN提出感知照明网络(IAF R-CNN)。在将图像送入图像融合网络之前，先送入光照感知网络进行检测，根据图像中的光照强度来划分图像融合事可见光和红外图像各自的权重，然后根据分配的权值分别进行检测，再融合其检测结果，实验表明能够显著提高模型检测性能，但由于结构过于复杂，无法达到实时检测的效果。目标跟踪算法一般可根据所采用的基础方法分为两类，即以滤波等传统方法为主的跟踪算法和基于深度学习训练的跟踪算法。然而传统方法在针对解决特定问题或数据集时具有局限性。

在现有技术中，缺乏一种基于决策级融合的高效、实时的低光照多模态行人检测跟踪方法。

发明内容

本发明实施例提供了一种基于决策级融合的低光照场景多模态行人检测跟踪方法及装置。所述技术方案如下：

一方面，提供了一种基于决策级融合的低光照场景多模态行人检测跟踪方法，该方法由电子设备实现，该方法包括：

基于红外相机进行数据采集，获得红外图像；基于可见光相机进行数据采集，获得可见光图像；

基于YOLOv5目标检测模型以及非极大值抑制算法进行模型构建，获得目标检测模型；

使用所述红外图像，对所述目标检测模型进行训练，获得红外检测模型；使用所述可见光图像，对所述目标检测模型进行训练，获得可见光检测模型；

基于所述红外检测模型、所述可见光检测模型以及决策级融合算法进行模型构建，获得决策级融合检测模型；

获取待检测红外图像以及待检测可见光图像；将所述待检测红外图像以及待检测可见光图像输入所述决策级融合检测模型，获得融合检测结果；

将所述融合检测结果输入多目标跟踪算法，获得多目标跟踪结果；根据所述多目标跟踪结果进行可视化处理，获得跟踪视频序列。

其中，所述决策级融合算法是加权框融合算法或非极大值抑制算法。

其中，所述决策级融合检测模型是一种轻量级检测模型。

可选地，所述将所述待检测红外图像以及待检测可见光图像输入所述决策级融合检测模型，获得融合检测结果，包括：

将所述待检测红外图像输入所述红外检测模型，获得红外检测结果；

将所述待检测可见光图像输入所述可见光检测模型，获得可见光检测结果；

将所述红外检测结果以及所述可见光检测结果输入所述决策级融合检测模型，获得融合检测结果。

可选地，所述将所述红外检测结果以及所述可见光检测结果输入所述决策级融合检测模型，获得融合检测结果，包括：

对所述待检测可见光图像进行光照强度测量，获得可见光光照强度；

当所述可见光光照强度大于预设光照强度阈值时，所述红外检测结果以及所述可见光检测结果采用加权框融合算法进行融合，获得融合检测结果；

当所述可见光光照强度小于或等于预设光照强度阈值时，所述红外检测结果以及所述可见光检测结果采用非极大值抑制算法进行融合，获得融合检测结果。

其中，所述多目标跟踪算法包括基于StrongSORT跟踪器的跟踪算法、基于OCSort跟踪器的跟踪算法或基于ByteTrack跟踪器的跟踪算法。

另一方面，提供了一种基于决策级融合的低光照场景多模态行人检测跟踪装置，该装置应用于一种基于决策级融合的低光照场景多模态行人检测跟踪方法，该装置包括：

图像采集模块，用于基于红外相机进行数据采集，获得红外图像；基于可见光相机进行数据采集，获得可见光图像；

检测模型构建模块，用于基于YOLOv5目标检测模型以及非极大值抑制算法进行模型构建，获得目标检测模型；

检测模型训练模块，用于使用所述红外图像，对所述目标检测模型进行训练，获得红外检测模型；使用所述可见光图像，对所述目标检测模型进行训练，获得可见光检测模型；

融合检测模型构建模块，用于基于所述红外检测模型、所述可见光检测模型以及决策级融合算法进行模型构建，获得决策级融合检测模型；

融合检测结果获取模块，用于获取待检测红外图像以及待检测可见光图像；将所述待检测红外图像以及待检测可见光图像输入所述决策级融合检测模型，获得融合检测结果；

跟踪结果获取模块，用于将所述融合检测结果输入多目标跟踪算法，获得多目标跟踪结果；根据所述多目标跟踪结果进行可视化处理，获得跟踪视频序列。

其中，所述决策级融合检测模型是一种轻量级检测模型。

可选地，所述融合检测结果获取模块，进一步用于：

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述一种基于决策级融合的低光照场景多模态行人检测跟踪方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述一种基于决策级融合的低光照场景多模态行人检测跟踪方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明提出一种基于决策级融合的低光照场景多模态行人检测跟踪方法，针对跟踪目标的低光照场景，设计了可见光-红外图像的双通道输入；基于双通道对目标的检测，参考光照强度，通过可根据实际情况切换的决策级融合方法，大大提升了低光照下对目标检测的准确度和稳定性；本发明还设计了多种跟踪方法的集成框架，使本发明在针对多种类跟踪目标都有良好表现；本发明中决策级融合检测模型属于轻量级检测模型，适用于在有算力限制的边缘计算设备上。本发明是一种基于决策级融合的高效、实时的低光照多模态行人检测跟踪方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于决策级融合的低光照场景多模态行人检测跟踪方法流程图；

图2是本发明实施例提供的一种基于决策级融合的低光照场景多模态行人检测跟踪装置框图；

图3是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种基于决策级融合的低光照场景多模态行人检测跟踪方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图1所示的一种基于决策级融合的低光照场景多模态行人检测跟踪方法流程图，该方法的处理流程可以包括如下的步骤：

S1、基于红外相机进行数据采集，获得红外图像；基于可见光相机进行数据采集，获得可见光图像。

一种可行的实施方式中，现有的关于行人检测方面的研究大多集中在可见光图像上，即仅仅使用可见光图像信息去进行训练，因此其检测性能不可避免地会受到光照条件及周围环境的干扰，如在照明条件有限的场景(夜间)或恶劣的天气条件(雾，雨，尘)中，行人检测能力将大打折扣，实际场景的复杂性是检测任务的技术难点之一。

在良好的光照条件下，相比于红外图像，可见光图像具有更高的分辨率以及更丰富的颜色和纹理信息；而在低照度环境下，由于红外图像对光照变化更加不敏感，所以能够有效地感知环境中物体的温度差异，从而清楚地获得图像中物体的轮廓信息。因此本发明采用可见光-红外图像结合的检测策略可以充分利用两种图像的互补信息，是在低光照环境下效果更好、准确度更高的目标检测理想解决方案。本发明采用可见光相机的分辨率为640*480，红外相机的分辨率为640*512，红外波段是8～14μm，属于热红外。

S2、基于YOLOv5目标检测模型以及非极大值抑制算法进行模型构建，获得目标检测模型。

一种可行的实施方式中，在目标检测领域中一种用于目标检测的算法(You OnlyLook Once，YOLO)是一种流行的单阶段目标检测算法。它采用单个卷积神经网络模型实现端到端的目标检测。整个系统先将输入图片调整大小后送入卷积神经网络，处理网络预测结果得到检测的目标。与双阶段采用的算法相比，它是一个统一的框架，速度更快。YOLO算法将物体检测问题处理成回归问题，用一个卷积神经网络就可以直接预测图像中目标的边界框和类别概率。

YOLOv5的Backbone使用了CSPDarknet53作为主干网络。CSPDarknet53是一个轻量级的网络，它能够在保证较高检测精度的同时，尽可能地减少计算量和内存占用。Backbone中的主要结构有Conv模块、CSP模块、SPP模块。Conv模块是卷积神经网络中常用的一种基础模块，它主要由卷积层、BN层和激活函数组成。CSP模块是YOLOv5网络中的一个重要组成部分，其主要作用是增加网络的深度和感受野，提高特征提取的能力。

YOLOv5的Neck模块通常被用于将不同层级的特征图结合起来，生成具有多尺度信息的特征图，以提高目标检测的准确率。在YOLOv5中，使用了一种名为PANet的特征融合模块作为Neck模块。具体来说，自顶向下部分是通过上采样和与更粗粒度的特征图融合来实现不同层次特征的融合。

YOLOv5的Head部分负责进行最终的回归预测。Head部分包含多个输出层，每个输出层对应一个特定尺度的特征图。每个输出层都包含若干个卷积层和激活函数，用于对输入特征图进行进一步的处理。最后，每个输出层都会输出一个预测张量，其中包含了目标框的位置、大小和类别信息。

YOLOv5在输入图像的基础上生成不同尺度的图像金字塔。在生成不同尺度的图像金字塔后，YOLOv5将来自不同尺度的特征图进行融合。这种融合操作能够帮助网络在不同尺度上获取丰富的特征信息，并提高目标检测的准确性。

通过多尺度输出机制，YOLOv5在不同尺度上进行目标检测，可以更好地适应不同大小和比例的目标，并且能够在更广泛的场景下有效地检测目标。这一机制有助于提高算法的性能和鲁棒性。

YOLOv5的模型预测张量包含了目标框的位置、大小和类别信息。以及每个目标框所属类别的概率分布。这些概率值表示了模型对每个目标框所属类别的预测置信度。在进行目标检测时，YOLOv5会根据预测张量中的信息生成若干个候选目标框。然后通过非极大值抑制(Non-Maximum Suppression，NMS)算法对这些候选目标框进行筛选，去除重叠度较高的冗余目标框，最终输出检测结果。

S3、使用红外图像，对目标检测模型进行训练，获得红外检测模型；使用可见光图像，对目标检测模型进行训练，获得可见光检测模型。

一种可行的实施方式中，对红外图像和可见光图像进行预处理，得到YOLO格式的目标检测数据集，划分好训练集、验证集、测试集，并设置输入路径。

在对图像数据进行预处理时，先人工遍历采集数据的图片，去除拍摄过程中产生的无效样本(全黑、模糊、无行人等异常数据)，保证可见光和红外图像的每张图片的时间轴尽可能一致，一一对应。使用标注工具对每张图像进行标注，标注对象的位置和类别信息。在YOLO模型中，通常使用标签文件，以文本形式存储每张图像中标注对象的信息，每行表示一个对象，包含对象类别、中心点坐标、宽度和高度信息。

将标签文件中的信息转换为模型训练所需的格式，即将坐标和尺寸信息归一化到0到1之间。同时，将标注信息按照一定的格式存储在一个单独的txt文件中。将每张图像和其对应的标注信息一一对应，组成一个训练数据对，例如使用两个文件夹存储图像和标注文件，使用文件名相同的方式进行对应。

设置预训练权重文件，数据集路径，训练轮次，图像分在所有GPU上的总批次大小，使用的CPU/GPU数量；以及一些可选参数，如数据增强等。设置训练参数后，即可开始检测模型的训练过程。开始执行训练程序，等待训练结束后即可得到对应的红外检测模型、可见光检测模型和一些数据指标。

S4、基于红外检测模型、可见光检测模型以及决策级融合算法进行模型构建，获得决策级融合检测模型。

一种可行的实施方式中，针对每个模态(如可见光图像、红外图像、点云数据等)，使用单独的目标检测算法进行检测。这可以得到每个模态下的物体检测结果，包括检测到的物体边界框、类别和置信度等信息。在模态独立检测之后，将每个模态的检测结果进行融合。融合后的结果将包含来自多个模态的信息。

决策级融合的优点是每个模态可以专注于其特定的感知特征，使用不同的检测算法和模型对每个模态进行独立的检测。这样可以根据每个模态的特点和需求选择最适合的算法，以获得更好的检测结果。且决策级融合可以对每个模态进行独立的处理和优化，为每个模态选择最适合的预处理、特征提取和后处理方法，以充分利用模态间的差异性和互补性。

相比结构更复杂耦合度更高的特征级融合而言，决策级融合易于扩展到更多的模态。可以简单地添加新的模态，并使用独立的检测算法进行目标检测，然后将它们与已有的模态结果进行融合。

其中，决策级融合算法是加权框融合算法或非极大值抑制算法。

一种可行的实施方式中，非极大抑制算法是一种提取目标检测中每个类别下置信度最高边界框的算法。通常作为目标检测算法的后处理步骤，应用于基于边界框的检测方法(如Faster R-CNN、YOLO等)。NMS可以减少重复检测，并且保留置信度最高的目标框，从而提高检测算法的精度和鲁棒性。

NMS可以有效地去除高度重叠的边界框，避免了对同一目标的多次检测。通过选择置信度最高的边界框作为输出结果，NMS可以确保保留最具代表性和置信度最高的目标框。

加权框融合算法是一种目标检测中的后处理技术，可以融合来自多个模型的边界框，将它们的优势相互补充，从而提高整体的检测性能和准确性，也可以减少由于单个模型或单个检测结果的不稳定性导致的误检和漏检问题，提高检测算法的鲁棒性。

加权框融合算法(Weighted Boxes Fusion，WBF)的优点是它能够有效地结合多个模型的预测结果，提高检测精度。它不是简单地删除检测框，而是根据所有检测框的的位置和置信度，通过计算加权，生成新的融合框，这样就能够快速地筛选出最优解，避免造成干扰。

其中，决策级融合检测模型是一种轻量级检测模型。

一种可行的实施方式中，本发明在算法设计过程中，不仅要考虑检测准确率，还要考虑到算力资源限制的要求。

首先在于基础算法框架的选择上，选用的是单阶段检测算法YOLO。单阶段算法将目标检测任务作为一个单一的阶段来完成，即直接从输入图像中预测目标的位置和类别。双阶段算法将目标检测任务分为两个阶段进行处理。在第一阶段生成一系列候选框，第二阶段对生成的候选框进行分类和调整。因此通常情况下单阶段检测算法具有较快的检测速度，适用于对实时性要求较高的场景。而双阶段检测算法通常具有更高的检测精度，适用于对准确性要求较高的场景，但相应地会有更高的计算成本。

YOLOv5有不同大小的模型，从大到小分别为YOLOv5x,YOLOv5l,YOLOv5m，YOLOv5s，越大的模型模型参数量越多，计算复杂度越高，响应地运算速度越慢。为满足实时性行人检测，还要保证一定的检测精度，选用YOLOv5s进行了算法的设计。

将训练后的YOLOv5模型转化为开放神经网络交换格式(Open Neural NetworkExchange，ONNX)。ONNX是一种开放的模型表示格式，将模型转换为ONNX格式可以使模型在不同的深度学习框架和硬件平台上进行部署和使用，提高模型的可移植性和跨平台性。ONNX格式的模型文件可以利用各种优化工具和技术进行优化。例如，可以应用模型剪枝、量化、融合等技术，减少模型的存储空间和计算量，提高模型的推理速度和效率。ONNX还可以在如GPU等具有针对ONNX格式的优化和加速策略的硬件加速器上部署，以提供更高的计算性能和效率。

将决策级融合算法部署在Jetson Orin NX 16GB深度学习开发板上，检测每帧平均耗时50ms，帧率可达20帧每秒，满足实时性检测要求。

S5、获取待检测红外图像以及待检测可见光图像；将待检测红外图像以及待检测可见光图像输入决策级融合检测模型，获得融合检测结果。

可选地，将待检测红外图像以及待检测可见光图像输入决策级融合检测模型，获得融合检测结果，包括：

将待检测红外图像输入红外检测模型，获得红外检测结果；

将待检测可见光图像输入可见光检测模型，获得可见光检测结果；

将红外检测结果以及可见光检测结果输入决策级融合检测模型，获得融合检测结果。

一种可行的实施方式中，根据红外检测结果和可见光检测结果，得到两种检测结果的边界框集合，每个框都具有类别、位置和置信度等信息；按照置信度降序对红外和可见光的边界框进行排序；将置信度最高的边界框添加到两种检测结果的最终输出结果中；根据两类别检测的最终输出结果进一步进行决策级融合。

可选地，将红外检测结果以及可见光检测结果输入决策级融合检测模型，获得融合检测结果，包括：

对待检测可见光图像进行光照强度测量，获得可见光光照强度；

当可见光光照强度大于预设光照强度阈值时，红外检测结果以及可见光检测结果采用加权框融合算法进行融合，获得融合检测结果；

当可见光光照强度小于或等于预设光照强度阈值时，红外检测结果以及可见光检测结果采用非极大值抑制算法进行融合，获得融合检测结果。

一种可行的实施方式中，将可见光图像转换为灰度图像，计算灰度图像的平均亮度，作为图像的光照强度表示。决策级融合的数学表达式如下式(1)、(2)所示：

其中，可见光图像检测结果为V_de,红外图像的检测结果为IR_de,计算出的可见光图像光照强度为I，光照强度阈值设置为T，α、β分别为红外检测结果以及可见光检测结果的融合权重，width和height为图像的宽高，G为每一个像素点的灰度值。

决策级融合算法中分别加入NMS和WBF处理检测结果，根据在低光照条件下根据可见光图像质量的不同，两种方法各有其优势。

对比20lux和1lux光照强度的图像可看出即使同样都是在低光照条件下，可见光的图像质量也有一定的差别，而红外图像受到的影响不大。

在可见光图像质量较好时(如20lux)，可见光和红外两种模态的模型都能得到较好的结果，此时使用WBF可以结合两个模态的结果并综合加权，得到的综合结果相比于单模态指标会有所提升。

而在可见光图像质量较低时(如1lux)，两种模态的检测结果中起到主要作用的是红外图像，此时虽然可以继续使用WBF方法，通过增大红外图像的加权来过滤检测框，但考虑到计算量和生成框的稳定性的问题，使用NMS直接过滤框更佳。

S6、将融合检测结果输入多目标跟踪算法，获得多目标跟踪结果；根据多目标跟踪结果进行可视化处理，获得跟踪视频序列。

其中，多目标跟踪算法包括基于StrongSORT跟踪器的跟踪算法、基于OCSort跟踪器的跟踪算法或基于ByteTrack跟踪器的跟踪算法。

一种可行的实施方式中，StrongSORT是是一种轻量级、即插即用、独立于模型的跟踪算法。OSNet是一种轻量级的行人重识别的神经网络，可用于从行人图像中提取丰富且具有辨别性的特征。

使用StrongSORT进行跟踪，OSNet进行特征提取。这种方法的组合产生了一种既准确又高效的MOT算法。StrongSORT结合OSNet已被证明在各种基准上的表现优于其他算法。

OCSort是一种基于运动模型的多目标跟踪器，旨在提高在拥挤场景和物体非线性运动情况下的跟踪稳定性。它是一种简单、高效且轻量级的实时跟踪器。OCSort的设计目的是通过解决卡尔曼滤波器和SORT中的限制问题来改进跟踪性能。它可以与不同的检测器和匹配模块(如外观相似性)灵活集成。

它使用卡尔曼滤波器独立地跟踪每个物体。卡尔曼滤波器根据物体的先前状态预测其在下一帧中的位置和速度。将预测的状态与物体的实际状态进行比较，并相应地更新卡尔曼滤波器。如果预测的两个物体在下一帧中处于相同的位置，OCSort将尝试将它们匹配起来。匹配是通过比较物体的外观和运动特征来实现的。如果这些物体足够相似，它们将被合并成为一个单一的轨迹。

ByteTrack在多个多目标跟踪基准上表现出了最先进的性能。相比其他跟踪器，ByteTrack的速度也明显更快。

ByteTrack的工作原理是将视频序列中的每个检测框与跟踪器历史中的每条轨道进行关联。这一关联使用了一种新颖的算法，对于多物体跟踪中常见的遮挡和其他挑战具有鲁棒性。一旦检测框与轨道关联起来，ByteTrack会采用一种新的运动模型来预测轨道的未来状态。该运动模型基于卡尔曼滤波，可以更好地应对遮挡和其他挑战。ByteTrack使用一种新的外观模型进行跨帧匹配轨迹。这个外观模型基于卷积神经网络，能够学习识别物体，即使它们被部分遮挡或扭曲。

StrongSORT算法是三种跟踪方法里跟踪效果最好的方法。对行人遮挡和行人重识别来说具有很好的鲁棒性，即使在检测丢失目标后重新再检测，行人的ID也几乎没有改变。缺点是运算速度太慢，处理一帧图像的计算时间和检测所用时间相近(约40ms)，比较影响实时检测跟踪的可视化效果。

OCSort和ByteTrack相比之下计算速度更快(约5ms)，完全能够满足实时性行人检测和跟踪的要求，但对于遮挡和行人重识别的场景来说具有一定的挑战性。

本发明可以根据算力需求和速度需求在不同场景下选用对应的跟踪方法，体现了跟踪算法集成框架的优势，即在算法的选择上具有极大的灵活性。

图2是根据一示例性实施例示出的一种基于决策级融合的低光照场景多模态行人检测跟踪装置框图。参照图2，该装置包括：

图像采集模块210，用于基于红外相机进行数据采集，获得红外图像；基于可见光相机进行数据采集，获得可见光图像；

检测模型构建模块220，用于基于YOLOv5目标检测模型以及非极大值抑制算法进行模型构建，获得目标检测模型；

检测模型训练模块230，用于使用红外图像，对目标检测模型进行训练，获得红外检测模型；使用可见光图像，对目标检测模型进行训练，获得可见光检测模型；

融合检测模型构建模块240，用于基于红外检测模型、可见光检测模型以及决策级融合算法进行模型构建，获得决策级融合检测模型；

融合检测结果获取模块250，用于获取待检测红外图像以及待检测可见光图像；将待检测红外图像以及待检测可见光图像输入决策级融合检测模型，获得融合检测结果；

跟踪结果获取模块260，用于将融合检测结果输入多目标跟踪算法，获得多目标跟踪结果；根据多目标跟踪结果进行可视化处理，获得跟踪视频序列。

其中，决策级融合检测模型是一种轻量级检测模型。

可选地，融合检测结果获取模块250，进一步用于：

将待检测红外图像输入所述红外检测模型，获得红外检测结果；

可选地，融合检测结果获取模块250，进一步用于：

图3是本发明实施例提供的一种电子设备300的结构示意图，该电子设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)301和一个或一个以上的存储器302，其中，所述存储器302中存储有至少一条指令，所述至少一条指令由所述处理器301加载并执行以实现上述一种基于决策级融合的低光照场景多模态行人检测跟踪方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述一种基于决策级融合的低光照场景多模态行人检测跟踪方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于决策级融合的低光照场景多模态行人检测跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于决策级融合的低光照场景多模态行人检测跟踪方法，其特征在于，所述决策级融合算法是加权框融合算法或非极大值抑制算法。

3.根据权利要求1所述的一种基于决策级融合的低光照场景多模态行人检测跟踪方法，其特征在于，所述决策级融合检测模型是一种轻量级检测模型。

4.根据权利要求2所述的一种基于决策级融合的低光照场景多模态行人检测跟踪方法，其特征在于，所述将所述待检测红外图像以及待检测可见光图像输入所述决策级融合检测模型，获得融合检测结果，包括：

5.根据权利要求4所述的一种基于决策级融合的低光照场景多模态行人检测跟踪方法，其特征在于，所述将所述红外检测结果以及所述可见光检测结果输入所述决策级融合检测模型，获得融合检测结果，包括：

6.根据权利要求1所述的一种基于决策级融合的低光照场景多模态行人检测跟踪方法，其特征在于，所述多目标跟踪算法包括基于StrongSORT跟踪器的跟踪算法、基于OCSort跟踪器的跟踪算法或基于ByteTrack跟踪器的跟踪算法。

7.一种基于决策级融合的低光照场景多模态行人检测跟踪装置，其特征在于，所述装置包括：

8.根据权利要求7所述的一种基于决策级融合的低光照场景多模态行人检测跟踪装置，其特征在于，所述融合检测结果获取模块，进一步用于：

9.根据权利要求8所述的一种基于决策级融合的低光照场景多模态行人检测跟踪装置，其特征在于，所述融合检测结果获取模块，进一步用于：

10.根据权利要求7所述的一种基于决策级融合的低光照场景多模态行人检测跟踪装置，其特征在于，所述多目标跟踪算法包括基于StrongSORT跟踪器的跟踪算法、基于OCSort跟踪器的跟踪算法或基于ByteTrack跟踪器的跟踪算法。