CN114399790A

CN114399790A - 一种基于非配准多模态数据的微小人物检测方法

Info

Publication number: CN114399790A
Application number: CN202111676773.8A
Authority: CN
Inventors: 韩许盟; 张如飞; 韩振军; 黄志勋; 王岿然; 陈皓睿; 彭潇珂; 余学辉; 陈鹏飞; 吴狄; 曹光明; 叶齐祥; 焦建彬; 万方
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-26
Anticipated expiration: 2041-12-31
Also published as: CN114399790B

Abstract

本发明公开了一种基于非配准多模态数据的微小人物检测方法、一种计算机可读存储介质和一种计算机设备，所述方法包括训练检测模型用以进行微小人物检测的步骤，检测模型按照包括以下步骤的方法获得：步骤1，建立非配准多模态数据集；步骤2，对数据集中的图像进行配对采样；步骤3，获得图像的多模态特征；步骤4，对多模态特征进行融合；步骤5，对融合特征进行微调。本发明公开的基于非配准多模态数据的微小人物检测方法，消除了基于复杂传感器和大量人力的多模态图像配准的要求，可以直接使用非配准的多模态数据进行人物检测，且检测性能优越。

Description

一种基于非配准多模态数据的微小人物检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及微小人物检测方法，尤其涉及一种基于非配准多模态数据的微小人物检测方法。

背景技术

人/行人检测一直是计算机视觉中的活跃研究方向，它是许多更高层次应用场景的基础，例如：监控、追踪、快速救援和自动驾驶。尽管最近许多研究人员进行了长期研究并取得了前所未有的进展，但人体检测仍然面临着许多挑战，例如复杂多变的光线和微小的外观。

近年来，微小目标检测的研究也越来越受欢迎，尤其是Yu等人(Xuehui Yu，YuqiGong，Nan Jiang，Qixiang Ye，and ZhenjunHan.Scale match for tiny persondetection.In IEEE WACV，2020.1，3，4)介绍了TinyPerson，这是一个微小人物检测(TPD)基准。鉴于个体的信息量有限，这种方法比较适合完成个体特征敏感的任务。然而，现有的TPD检测器主要基于单模态RGB图像，其TPD性能有限。

多模态数据已被证明对人物检测有效，尤其是在复杂和/或变化的光线条件下。但是，多模态方法通常需要配准良好的图像对，后处理中需要精确的手动校准或图像配准算法，此外，即使传感器在初始化期间准确配准，轻微的干扰也可能使数据偏离理想设置。这些额外的因素不可避免地增加了数据收集所涉及的时间和精力。

因此，亟需提供一种高检测性能的微小人物的多模态检测方法，其能够在收集数据时省略配准操作、消除复杂传感器的配准要求和繁重的人力工作。

发明内容

为了克服上述问题，本发明人进行了锐意研究，提出了一种非配准多模态数据集NRMMPerson，其具有非配准的多模态基准，将多模态TPD的任务向现实的环境中推进了一步；同时提出了非配准的多模态特征融合检测器(NRMM-FFD)，它在端到端框架中执行隐式配准、特征融合和人物检测。本发明提出的方法，消除了基于复杂传感器和大量人力的多模态图像配准的要求，可以直接使用非配准的多模态数据进行人物检测，从而完成了本发明。

具体来说，本发明的目的在于提供以下方面：

第一方面，提供了一种基于非配准多模态数据的微小人物检测方法，所述方法包括训练检测模型用以进行微小人物检测的步骤，

所述检测模型按照包括以下步骤的方法获得：

步骤1，建立非配准多模态数据集；

步骤2，对数据集中的图像进行配对采样；

步骤3，获得图像的多模态特征；

步骤4，对多模态特征进行融合；

步骤5，对融合特征进行微调。

其中，步骤2中，在数据集的各个模态中，按照相同的捕获时间进行成对采样，形成图像对。

其中，在采样前，将数据集的图像进行随机混洗，以打乱图像序列。

其中，步骤3包括以下子步骤：

步骤3-1，获得图像的多模态候选特征；

步骤3-2，获得不同模态的实例特征。

其中，步骤3-1中，采用Faster R-CNN和FPN两级检测器进行提取图像的多模态特征。

其中，步骤4包括以下子步骤：

步骤4-1，获得多模态实例特征的集合；

步骤4-2，将多模态实例特征进行隐式配准；

步骤4-3，将隐式配准的实例特征进行融合。

其中，所述基于非配准多模态数据的微小人物检测方法，还包括用训练的检测模型进行检测的步骤，

所述检测包括以下子步骤：

步骤I，对待检测目标进行采样；

步骤II，对待检测目标进行检测。

其中，步骤I中，按照下述步骤对待检测目标进行采样：

步骤i，获取待检测目标的多模态图像；

步骤ii，对多模态图像进行成对采样；

优选地，步骤ii中，按照时间和空间一致的原则进行成对采样。

第二方面，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有基于非配准多模态数据的微小人物检测程序，所述程序被处理器执行时，使得处理器执行第一方面所述基于非配准多模态数据的微小人物检测方法的步骤。

第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有基于非配准多模态数据的微小人物检测程序，所述程序被处理器执行时，使得处理器执第一方面所述基于非配准多模态数据的微小人物检测方法的步骤。

本发明所具有的有益效果包括：

(1)本发明提供的基于非配准多模态数据的微小人物检测方法，建立了新的非配准多模态数据集，在数量和模态方面对现有的微小人物检测数据集进行了补充，并首次在多模态微小人物检测任务中引入了非配准概念，使得训练得到的检测器更适用于现实场景；

(2)本发明提供的基于非配准多模态数据的微小人物检测方法，采用多头注意力机制进行信息交互并探索特征之间的互补性，提高了每种模态的特征表示能力，在端到端框架中对多模态数据进行实例级隐式配准、特征融合和人物检测；

(3)本发明提供的基于非配准多模态数据的微小人物检测方法，在收集数据的时候省略了繁琐的配准操作，消除了复杂传感器的配准要求和繁重的人力工作，检测目标性能优选，应用更广泛。

附图说明

图1示出了根据本发明一种优选实施方式的基于非配准多模态数据的微小人物检测方法的流程图；

图2示出了根据本发明一种优选实施方式的非配准多模态数据集(NRMMPerson)概述图，其中，a示出了从NRMMPerson中获取的典型图像示例，b示出了NRMMPerson中人物绝对尺寸的直方图；

图3示出了根据本发明一种优选实施方式的隐式配准和融合模块的示意图，仅示出一个RGB实例特征与所有红外实例特征之间的隐式配准与融合，其中，橙色方块代表RGB实例特征，蓝色方块代表红外实例特征，红色箭头代表平均池化操作；

图4示出了本发明实验例1中多模态图像中多模态基线和NRMM-FFD检测结果的对比图，每个模态对应两幅图像，上方对应于多模态基线，下方对应于NRMM-FFD，绿色框代表真实值，红色框代表检测结果；

图5示出了本发明实验例1中NRMM-FFD方法和多模态基线的FDR-Recall曲线的对比图。

具体实施方式

下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

微小目标由于其低分辨率和模糊图像，使得特征提取无效，导致其与大目标检测相比性能较差，多模态检测被认为是实现微小人物检测的有效策略。

多模态/多光谱相关任务，包括多模态融合、多光谱行人检测、RGB-T目标跟踪、多光谱行人重识别等，目前已经提出了许多数据集来推进这些领域的研究。其中，OSU色彩和热量数据库是一个热可见视频融合数据集，用于运动目标跟踪和行人运动分析和分类；LITIV包含通过具有不同变焦设置和不同位置的热像仪、视觉相机捕获的不同跟踪场景的视频；KAIST多光谱数据集提供了对齐良好的彩色热图像对，这些图像对在白天和黑夜的各种交通场景中收集；LLVIP也是一个可见红外配对数据集，其中包含大量低亮度行人。上述传统的多模态数据集是基于手动配准的，即便多传感器配准良好，在现实世界中实现也是困难的，甚至是不可能的。

多模态方法，指仅在特征级别起作用的基于深度学习的方法。例如：Hwang等人(Soonmin Hwang，Jaesik Park，Namil Kim，Yukyung Choi，and In SoKweon.Multispectral pedestrian detection：Benchmark dataset and baseline.InCVPR，2015.1，2，3，4)提出了多光谱ACF(Piotr Doll′ar，Ron Appel，Serge J.Belongie，and Pietro Perona.Fast feature pyramids for object detection.IEEE PAMI，2014.2)来同时管理彩色热图像对，这种方法将ACF的平均遗漏率降低了15％；IAFR-CNN(Chengyang Li，Dan Song，Ruofeng Tong，and Min Tang.Illumination-aware faster R-CNN for robust multispectralpedestrian detection.Pattern Recognition，2019. 2)利用光照感知加权机制对红外和视觉图像的贡献进行加权，并在KAIST多光谱行人基准(Soonmin Hwang，Jaesik Park，Namil Kim，Yukyung Choi，and In SoKweon.Multispectral pedestrian detection：Benchmark dataset and baseline.InCVPR，2015. 1，2，3，4)上取得了优异的性能；SiamFT(Xingchen Zhang，Ping Ye，ShengyunPeng，Jun Liu，KeGong，and Gang Xiao.Siamft：An rgb-infrared fusiontrackingmethod via fully convolutional siamese networks.IEEEAccess，2019. 2)采用基于全卷积Siamese网络的融合跟踪方法来结合红外和可见光图像的多模态特征；RTFNet(Yuxiang Sun，WeixunZuo，and Ming Liu.Rtfnet：Rgbthermalfusion network forsemantic segmentation of urbanscenes.IEEE Robotics Autom.Lett.，2019. 2)开发了一种新颖的深度神经网络，该网络融合了可见光和红外信息，以提高城市场景中的语义分割性能。但是，上述多模态方法主要集中在已配准的多模态数据上。

本发明人研究发现，传统的多模态方法基于配准良好的图像对，不仅需要复杂的传感器，而且在很大程度上依赖于人类的努力来配准来自不同模态的样本。

基于此，本发明提供了一种基于非配准多模态数据的微小人物检测方法，所述方法包括训练检测模型用以进行微小人物检测的步骤。

优选地，所述检测模型按照包括以下步骤的方法获得，如图1所示：

步骤1，建立非配准多模态数据集；

步骤2，对数据集中的图像进行配对采样；

步骤3，获得图像的多模态特征；

步骤4，对多模态特征进行融合；

步骤5，对融合特征进行微调。

以下进一步详细描述所述方法：

步骤1，建立非配准多模态数据集。

在实际场景中，由于相机参数、拍摄角度、噪声和其他因素，多模态图像对中的未配准是不可避免的问题，但是传统的多模态任务中，配准良好的输入图像对是必要的，实现配对不仅需要复杂的传感器，还需要大量的人力。

为了消除基于复杂传感器和大量人力的多模态图像配准的要求，本发明中优选使用非配准的多模态数据进行微小人物检测。

在本发明中，所述多模态为多种光谱条件。

虽然目前已存在几个微小目标数据集：TinyNet(Jiangmiao Pang，Cong Li，Jianping Shi，Zhihai Xu，and HuajunFeng.R 2-cnn：Fast tiny object detection inlarge-scaleremote sensing images.IEEE Trans.Geosci.Remote.Sens..2019.3)、WiderFace(Shuo Yang，Ping Luo，Chen-Change Loy，and Xiaoou Tang.Wider face：Aface detection benchmark.In CVPR，2016. 3)和TinyPerson(Xuehui Yu，Yuqi Gong，NanJiang，Qixiang Ye，and ZhenjunHan.Scale match for tiny person detection.In IEEEWACV，2020. 1，3，4)，其中，TinyNet涉及远距离遥感目标检测，WiderFace主要专注于面部检测，TinyPerson是长距离TPD的第一个基准。微小目标检测领域的研究仍然有限。

因此，本发明人提出了非配准多模态数据集，如图2所示，旨在进行微小人物的多模态检测任务。

根据本发明一种优选的实施方式，步骤1包括以下子步骤：

步骤1-1，数据采集。

根据本发明一种优选的实施方式，所述数据通过一个RGB相机和一个红外相机组成的双目相机平台获得。

在进一步优选的实施方式中，从获得的视频序列中采样图像，然后删除不包含目标及同质性高的图像。

优选地，对视频序列的帧进行采样时，确保每个图像对的捕获时间相同，以保证时间的一致性。

在本发明中，由于双目相机的角度几乎一致，因此具有时间一致性的图像对也具有相对空间一致性。

根据本发明的实施例，由双目相机平台获得22个视频序列。

在更进一步优选的实施方式中，对采样图像进行时间对齐和过滤，以获得时间同步、质量高、包含人物目标的图像对。

优选地，采用手动校准将两个视频序列(RGB视频序列和红外视频序列)进行时间对齐。

在本发明中，优选从各种海边场景中捕获包含多个人物目标的图像，以实现野外海上快速救援任务。

步骤1-2，数据标注。

根据本发明的实施例，在视频序列抓取的帧中，手动标注了8,548个RGB-IR图像对，共有889,207个人带有边界框，包括471,924个RGB目标和417,283个红外目标；RGB和红外图像的分辨率分别为1,920×1,080像素和960×576像素。

根据本发明一种优选的实施方式，将数据标注为三种类型：person、ignore和uncertain；

其中，将清晰、可区分的人物目标通过边界框标注为person，

将具有密集人群、反射或模糊的区域被标注为ignore，

将难识别为人的目标标注为uncertain。

优选地，采用TinyPerson的标注规则。

步骤1-3，数据集划分。

在本发明中，将整个数据集划分成训练集，测试集和验证集。

根据本发明一种优选的实施方式，来自同一视频序列的图像划分在同一子集内。

根据本发明的实施例，训练集包含8个视频序列，4614个图像对和346413个标注，测试集包含13个视频序列，3559个图像对和509409个标注，验证集包含1个视频序列，375个图像对和33,385个标注。

本发明所建立的数据集，记为NRMMPerson，其中的RGB-IR图像对是未配准的，即图像对的像素是不对齐的，实例目标之间不存在一一对应关系。

NRMMPerson中，人物目标的绝对和相对尺寸与其他代表性数据集相比非常小，人物目标的纵横比有很大的方差，此外本发明建立的数据集，在姿态和视角的多样性方面对现有数据集提供了有效补充，带来了较多的复杂性，使得训练过程的检测难度提升，训练获得的模型性能更佳。

本发明所建立的多模态数据集，检测目标是远距离下分辨率低的微小人物(平均每人约24个像素)，数据中出现的个人信息很少，此外，数据集仅支持人物检测任务，不进行进一步的任务搜索或再识别，具有隐私性，不违反隐私保护。

步骤2，对数据集中的图像进行配对采样。

根据本发明一种优选的实施方式，在RGB图像集和红外图像集内，按照相同的捕获时间进行成对采样，形成图像对，如下所示：

表示RGB图像集，

表示红外图像集，

和

表示一个图像对。

优选地，所述图像对具有时间和空间一致性。

在进一步优选的实施方式中，在采样前将图像对进行随机混洗，如下式所述：

χ_input＝shuffle(χ_pair)

本发明人研究发现，采用随机混洗打乱图像序列，将混洗后的图像对排列形成采样序列，能够保证训练的鲁棒性，同时能够加速参数收敛。

在本发明中，对于图像对中一个图像有目标而另一个没有的情况，进行过滤删除。

步骤3，获得图像的多模态特征。

优选地，步骤3包括以下子步骤：

步骤3-1，获得图像的多模态候选特征。

步骤3-2，获得不同模态的实例特征。

对于多模态数据，常用的方法是使用多个不同的骨干网络来学习每种模态的特征，本发明人研究发现，多主干导致模型参数急剧增加，不利于模型训练和部署。

因此，步骤3-1中，根据本发明一种优选的实施方式，采用Faster R-CNN和FPN两级检测器进行提取图像的多模态特征，

优选地，将两级检测器的参数共享，所述参数共享是指将两级检测器提取到的特征参数共同用于后续步骤。

在进一步优选的实施方式中，采用参数共享的两级检测器获得多模态候选区域，以粗略定位目标，进而获得多模态候选特征，如下所示：

其中，N代表预测的候选区域的数量，S代表固定大小的RoI。

步骤3-2中，通过平均池化的方法获得不同模态的实例特征，记为

优选地，按照ROIAlign(Kaiming He，Georgia Gkioxari，Piotr Doll′ar，andRoss Girshick.Mask r-cnn.In ICCV，2017. 5)的方法获得不同模态的实例特征。

本发明人研究发现，采用上述获得多模态特征的方法，能够显著减少后续流程的计算量，提高检测速度。

步骤4，对多模态特征进行融合。

已有的微小目标检测研究有：FPN(Tsung-Yi Lin，Piotr Doll′ar，RossGirshick，Kaiming He，Bharath Hariharan，and Serge Belongie.Featurepyramidnetworks for object detection.In CVPR，2017. 3，5，7)开发了特征金字塔网络，该网络使用具有横向连接的自顶向下架构作为多尺度特征变形方法；SNIP(BharatSingh and Larry S Davis.An analysis of scale invariancein object detectionsnip.In CVPR，2018. 3)表明CNN对尺度变化不具有鲁棒性，并建议在图像金字塔的相同尺度上训练和测试检测器；Cao等人(Guimei Cao，XuemeiXie，Wenzhe Yang，Quan Liao，GuangmingShi，and Jinjian Wu.Feature-fused ssd：Fast detectionfor smallobjects.In Ninth International Conference on Graphic and Image Processing(ICGIP 2017)，2018. 3)提出了一种多级特征融合方法，以提高效目标检测的准确性；SINet(Xiaowei Hu，Xuemiao Xu，Yongjie Xiao，Hao Chen，Shengfeng He，Jing Qin，andPheng-Ann Heng.Sinet：Ascale-insensitive convolutional neural network for fastvehicledetection.IEEE transactions on intelligent transportationsystems，2018.3)提出了一种尺度不敏感的卷积神经网络，用于适应检测车辆中尺度的大方差；Yu等人(Xuehui Yu，Yuqi Gong，Nan Jiang，Qixiang Ye，and ZhenjunHan.Scale match for tinyperson detection.In IEEE WACV，2020. 1，3，4)提出了尺度匹配，将来自预训练数据集的目标尺度与目标数据集对齐，以获得可靠的微小目标特征表示。上述检测器均是检测单模态图像中的目标，不需要信息融合。

在本发明中，由于NRMMPerson数据集是未配准的，无法直接进行像素级特征融合，因此优选在实例级集成了多模态特征，且在融合实例级特征之前隐式配准实例特征。

根据本发明一种优选的实施方式，如图3所示，步骤4包括以下子步骤：

步骤4-1，获得多模态实例特征的集合。

在本发明中，将多模态候选区域的实例特征F和多模态的实例特征

分别进行整合，形成多模态候选区域的实例特征集合和多模态的实例特征的集合，分别如下所示：

其中，r和i分别代表RGB模态和IR模态。

步骤4-2，将多模态实例特征进行隐式配准。

根据本发明一种优选的实施方式，按照下式对多模态实例特征进行隐式配准：

其中，mAtt(Q，K，V)＝Cat(h¹，...，h^N)W_c

其中，I_att表示多模态实例的注意力；Att表示缩放后的点积注意力；

和

(C_d＝C/N，N为并行注意力头的数量)，W_c、

表示全连接层操作；

是避免softmax函数中梯度消失的缩放因子；Q、K、V是用于阐明函数的数学符号，它们没有实际意义。

步骤4-3，将隐式配准的实例特征进行融合。

根据本发明一种优选的实施方式，所述融合按照下式进行：

其中，F_fusion表示融合特征，

表示通道乘法。

在本发明中，采用注意力机制进行信息交互并探索特征之间的互补性，优选采用多头注意力模块进行，以提高每种模态的特征表达能力。

步骤5，对融合特征进行微调。

优选地，对融合特征进行微调，以获得每种模态的检测结果，

在本发明中，所述微调为在当前模型参数的基础上，再进行训练。

本发明中，通过包括上述步骤的方法，获得了用以进行微小人物检测的检测模型，所述训练方法基于非配准的NRMMPerson数据集，直接从未配准的图像中学习，利用多模态特征融合检测器(NRMM-FFD)，在端到端框架中有效地对多模态图像对进行隐式配准、特征融合和人物检测，使得检测器在每种模态下都能获得强大的检测性能。

根据本发明一种优选的实施方式，所述基于非配准多模态数据的微小人物检测方法，还包括用训练的检测模型进行检测的步骤。

优选地，所述检测包括以下子步骤：

步骤I，对待检测目标进行采样。

优选地，按照下述步骤对待检测目标进行采样：

步骤i，获取待检测目标的多模态图像。

在本发明中，采用图像获取设备获得包含待检测目标的多个模态的图像，

优选地，所述多模态图像包括RGB图像和红外图像。

根据本发明的实施例，采用由一个RGB相机和一个红外相机组成的双目相机平台获取多模态图像。

更优选地，所述多模态图像的采集角度一致，以保证空间的一致性。

步骤ii，对多模态图像进行成对采样。

根据本发明一种优选的实施方式，将不同模态的图像按照相同的捕获时间进行成对采样。

在本发明中，使得成对采样获得的图像对具有时间和空间一致性。

步骤II，对待检测目标进行检测。

优选地，采用上述训练得到的检测模型对采样得到的图像对进行检测，获得检测结果。

本发明提出的基于非配准多模态数据的微小人物检测方法，消除了检测目标任务数据收集中的配准操作，只需要多模态图像对具有时间和空间的一致性，消除了复杂传感器的配准要求和繁重的人力工作，形成了端到端的模式，使多模态TPD任务更适用于现实世界的场景。

根据本发明的实施例，本发明所述的微小人物检测方法在基线上的AP₅₀将性能提高了1.65～3.91；而且，本发明所述的检测方法在具有代表性的多模态行人检测数据集LLVIP上也达到了比基线更好的性能。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有基于非配准多模态数据的微小人物检测程序，所述程序被处理器执行时，使得处理器执行所述基于非配准多模态数据的微小人物检测方法的步骤。

本发明所述的基于非配准多模态数据的微小人物检测方法可借助软件加必需的通用硬件平台的方式来实现，所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有基于非配准多模态数据的微小人物检测程序，所述程序被处理器执行时，使得处理器执行所述基于非配准多模态数据的微小人物检测方法的步骤。

实施例

以下通过具体实例进一步描述本发明，不过这些实例仅仅是范例性的，并不对本发明的保护范围构成任何限制。

实施例1

按照下述步骤训练检测模型：

1、建立数据集

数据采集：采用由一个RGB相机和一个红外相机组成的双目相机平台，从各种海边场景中捕获包含许多人物目标的图像(意图研究野外海上快速救援对检测的挑战)，从22个视频序列中采样图像，并删除不包含目标以及具有同质性高的图像，经过时间对齐和手动过滤后，选择出时间同步、质量高、包含人物目标的图像对。

采集的图像具有空间一致性，且图像对是未配准的。

数据标注：在抓取的帧中，手动标注了8,548个RGB-IR图像对，总共有889,207个人带有边界框，其中包括471,924个RGB目标和417,283个红外目标；RGB和红外图像的分辨率分别为1,920×1,080和960×576像素。使用类似于TinyPerson的标注规则，清晰、可区分的人物目标通过边界框标注为person；具有密集人群、反射或模糊的区域被标注为ignore；有些目标很难识别为人，将它们标注为uncertain。

训练集、测试集和验证集：数据集划分成训练集，测试集和验证集，而来自同一视频序列的图像不能划分成不同的子集，划分结果如表1所示。训练集包含8个视频序列，4614个图像对和346413个标注，测试集包含13个视频序列，3559个图像对和509409个标注，验证集包含1个视频序列，375个图像对和33,385个标注。

表1

构建好的数据集如图2所示，图2中的a示出了从NRMMPerson中获取的典型图像示例，每一列代表一个时间对齐的RGB-IR图像对，每个图像对上的虚线框代表一个完全一致的视野，这表明图像对是未配准的。图2中的b示出了NRMMPerson中人物绝对尺寸的直方图，统计结果直观地反映出绝对尺寸集中在一个数值较小的区域。

本实施例构建的NRMMPerson数据集，与几个相关数据集的规模和属性对比如表2所示：

表2

其中，PD代指行人检测，OD代指目标检测，OT代指目标跟踪，TPD代指微小人物检测。

OSU-CT具体如“Alex Leykin，Yang Ran，and Riad Hammoud.Thermal-visiblevideo fusion for moving target tracking andpedestrianclassification.In CVPR，2007. 2，3，4”中所述；

LITIV具体如“AtousaTorabi，Guillaume Mass′e，and Guillaume-AlexandreBilodeau.An iterative integrated framework for thermal-visible imageregistration，sensor fusion，and people trackingfor video surveillanceapplications.Computer Vision and ImageUnderstanding，2012. 1，2，3，4”中所述；

TNO具体如“Alexander Toet.Tno image fusion dataset，2014.https：//doi.org/10.6084/m9.figshare.1008029.v1. 2，3，4”中所述；

KAIST具体如“Soonmin Hwang，Jaesik Park，Namil Kim，Yukyung Choi，and InSo Kweon.Multispectral pedestrian detection：Benchmark dataset and baseline.InCVPR，2015. 1，2，3，4”中所述；

LLVIP具体如“Xinyu Jia，Chuang Zhu，MinzhenLi，Wenqi Tang，andWenliZhou.Llvip：A visible-infrared paired dataset for low-lightvision.arXiv preprint arXiv：2108. 10831，2021. 1，2，3，4，5，8”中所述；

RGB-T210具体如“Chenglong Li，Nan Zhao，Yijuan Lu，Chengli Zhu，andJinTang.Weighted sparse representation regularized graphlearning for rgb-tobject tracking.In ACM MM，2017. 1，2，3”中所述；

RGB-T234具体如“Chenglong Li，Xinyan Liang，Yijuan Lu，Nan Zhao，andJinTang.Rgb-t object tracking：Benchmark and baseline.PatternRecognition，2019.1，2，3”中所述；

RegDB具体如“Dat Tien Nguyen，Hyung Gil Hong，Ki Wan Kim，andKang RyoungPark.Person recognition system based on acombination of body images fromvisible light and thermalcameras.Sensors，2017. 2，3”中所述；

SYSU-MM01具体如“Ancong Wu，Wei-Shi Zheng，Shaogang Gong，andJianhuangLai.Rgb-ir person re-identification by cross-modalitysimilaritypreservation.IJCV，2020. 2，3”中所述；

Caltech具体如“Piotr Doll′ar，Christian Wojek，Bernt Schiele，and PietroPerona.Pedestrian detection：A benchmark.In CVPR，2009. 1，3”中所述；

CityPersons具体如“Shanshan Zhang，Rodrigo Benenson，and BerntSchiele.Citypersons：A diverse dataset for pedestrian detection.InCVPR，2017.1，3”中所述；

SCUT-FIR具体如“Zhewei Xu，Jiajun Zhuang，Qiong Liu，Jingkai Zhou，andShaowu Peng.Benchmarking a large-scale FIR dataset foron-road pedestriandetection.Infrared Physics&Technology，2019. 3”中所述。

本实施例构建的数据集与几个代表性数据集中人物标注的尺寸和纵横比的均值和标准差统计，如表3所示。其中，绝对尺寸定义为边界框区域内的像素数，相对尺寸为绝对尺寸除以图像像素，纵横比定义为宽和高的比。

表3

由表2和表3可知，NRMMPerson中人物目标的绝对和相对尺寸与其他代表性数据集相比非常小，人物目标的纵横比有很大的方差。

具体地，数据集可以在

https：//github.com/NRMMPerson/NRMMPerson获得。

采用平均精度(AP)进行性能评估，由于微小人物检测的许多应用更多地是关于寻找人员而不是精确定位(例如，沉船搜索和救援)，因此采用了联合交叉(IoU)阈值为0.5，称为AP₅₀。为了进行更详细的实验比较，边界框尺寸分为三个区间：tiny[2，20]、small(20，32]和all[2，∞]。

2、对图像进行分割配对

由于GPU的内存有限，大图像无法直接输入到基于CNN的检测器中。因此，在训练和评估过程中将原始图像裁剪为重叠的子图像。

首先将不同分辨率的图像调整为相同大小(即1,920×1,080像素)，然后分割成一系列640×640的部分，再将原始多模态图像对中相应位置的子图像组成新的图像对。

其中，对于图像对可能存在一个图像有目标而另一个没有的情况，进行过滤，只留下每个图像都包含目标的图像对。

3、获得图像的多模态特征

采用Faster R-CNN和FPN两级检测器进行提取图像的多模态特征，将两级检测器的参数共享，采用参数共享的两级检测器获得多模态候选区域，如下所示：

其中，N代表预测的候选区域的数量，S代表固定大小的RoI。

通过平均池化的方法获得不同模态的实例特征，记为

4、对多模态特征进行融合

将多模态候选区域的实例特征F和多模态的实例特征

其中，r和i分别代表RGB模态和IR模态。

按照下式对多模态实例特征进行隐式配准：

其中，mAtt(Q，K，V)＝Cat(h¹，...，h^N)W_c

和

(C_d＝C/N，N为并行注意力头的数量)，W_c、

表示全连接层操作；

按照下式将实例特征进行融合：

其中，F_fusion表示融合特征，

表示通道乘法。

在本实施例中，mAtt使用8个Att头。

5、对融合特征进行微调

对融合特征进行微调，以获得每种模态的检测结果。

在本实施例中，选择ResNet-50作为主干，选择Faster R-CNN、FPN作为检测器。训练的epoch数量设置为12，基础学习率设置为0.04，在8个epochs和11个epochs后衰减0.1。使用8个RTX3090GPU进行模态训练和评估。锚点尺寸设置为(8，16，32，64，128)，纵横比设置为(0.5，1.0，2.0)。由于在NRMMPerson中有些图像有密集的对象，因此每个图像的最大检测结果数设置为1000。

同时，为了增加数据的多样性和模型的鲁棒性，本实施例使用了多种数据增强方法，包括光度失真、随机翻转、随机扩展和随机裁剪，所有变换的概率设置为50％，光度失真有8种变换：随机亮度、随机对比度、将颜色从BGR转换为HSV、随机饱和度、随机色调、将颜色从HSV转换为BGR、随机对比度和随机交换通道。

采用随机梯度下降(SGD)进行优化，权重衰减为0.0001。

通过上述训练获得检测模型。

实验例

实验例1

针对实施例1中所述的NRMMPerson数据集，提出了一组多样化的自然基线，即多模态基线和单模态基线。

其中，多模态基线与实施例1所述的多模态特征融合检测器(NRMM-FFD)一致，采用Faster R-CNN和FPN作为检测器。使用多模态数据训练单个检测器来研究单个检测器对同时多模态检测的适应性(即：研究单个检测器能否同时很好的检测多模态数据)。同时，多模态基线可以看作是不包含本发明所述隐式配准和融合模块的模型，以进一步探索隐式配准和融合模块对多模态检测性能的提升作用。

单模态基线，包括RGB模态基线和IR模态基线，采用各自光谱下的图像训练两个单模态检测器，并将它们与多模态基线进行比较，以探索多模态数据对检测结果的直接影响。

对基线与本发明实施例1所述的方法的检测结果进行比较，结果如表4和图4所示。

表4

其中，对于每种方法，采用三种测试策略，RGB和IR代表使用单模态测试集进行评估，Multi代表前述两个测试集的组合进行统一评估。

由表4可以看出，本发明所述的方法(NRMM-FFD)在RGB和IR测试集上有持续改进，结合这两种模态，在多模态测试集上得到63.37的AP₅₀，与多模态基线相比增加了2.06。结果表明，配对采样和隐式配准模块比基线具有显著优势，是TPD任务的有效方法。此外，虽然基线中没有刻意使用不同模态之间的相关信息，但添加额外的模态数据提高了所有模态测试集的性能。

图4示出了多模态图像中多模态基线和NRMM-FFD检测结果的对比，其中，每个模态对应两幅图像，上方对应于多模态基线，下方对应于NRMM-FFD，绿色框代表真实值，红色框代表检测结果。

由图4可以看出，NRMM-FFD可以有效减少多模态TPD中误报检测边界框的数量。为了进一步证明这一点，计算了定量分析的错误发现率(FDR)，其定义为：

其中FP是误报数，TP是正确数。

然后绘制FDR-Recall曲线(IoU阈值设置为0.5)，如图5所示，可以看出NRMM-FFD曲线低于多模态基线曲线，这表明本发明的方法可以更好地抑制误报的发生，证明了NRMM-FFD有效地对NRMMPerson进行了实例级的隐式配准和融合。

减少误报对于TPD任务非常有意义。例如，在实际的海上搜救场景中，该模型往往需要较高的召回率以避免漏检。但是，高召回率导致许多负面案例被错误检测，这对搜救产生负面影响，甚至可能影响正确对象的及时救援。通过以上分析，NRMM-FFD结合RGB模态和IR模态的信息，有效降低了FDR，无疑大大提高了救援的准确性和效率。

为进一步验证本发明所述的NRMM-FFD方法的有效性，将其与公开可用的多模态数据集LLVIP进行了比较。由于NRMMPerson数据集中的目标的绝对尺寸比较大，不适合使用

和

因此引入AP₇₅进行评价，结果如表4中所述。由表4可以看出，NRMM-FFD在多模态测试集上超过了多模态基线AP₅₀ 0.63和AP₇₅ 2.64，并且每种模态的性能不断提高，进一步验证了其有效性和广泛性适用性。

实验例2

NRMMPerson基准要求的检测框架是基于双流输入和时间对齐的配对采样策略。NRMM-FFD中单个组件的消融研究结果如表5所示，与多模态基线相比，双流输入和配对采样产生了很小的性能提升，这有助于多模态检测。

表5

其中，DSI表示双流输入，表示RGB和IR图像同时输入，但配对方式是随机的而不是时间对齐的；PS代指配对采样策略，代表时间对齐配对；IRF代指隐式配准融合模块；“√”表示存在。

表5还显示了隐式配准和融合模块为NRMM-FFD带来的性能改进，这证明它是本发明所述方法中的一个重要因素。由于该模块是基于注意力机制的，因此，本实验例建立了消融研究来验证所述方法的必要性和有效性，三种策略均基于实施例1中的多模态测试集，均包括配对采样，消融研究设置了两个对比实验：i)每张图像都使用自注意力机制；ii)在两个配对图像中使用了交叉注意机制。

隐式配准和融合模块的消融研究结果如表6所示。

表6

由表6可以看出，本发明所述方法的性能完全超过其他两种策略，证明了隐式配准和融合模块的有效性。

以上结合具体实施方式和范例性实例对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。

Claims

1.一种基于非配准多模态数据的微小人物检测方法，其特征在于，所述方法包括训练检测模型用以进行微小人物检测的步骤，

所述检测模型按照包括以下步骤的方法获得：

步骤1，建立非配准多模态数据集；

步骤2，对数据集中的图像进行配对采样；

步骤3，获得图像的多模态特征；

步骤4，对多模态特征进行融合；

步骤5，对融合特征进行微调。

2.根据权利要求1所述的基于非配准多模态数据的微小人物检测方法，其特征在于，

步骤2中，在数据集的各个模态中，按照相同的捕获时间进行成对采样，形成图像对。

3.根据权利要求2所述的基于非配准多模态数据的微小人物检测方法，其特征在于，

在采样前，将数据集的图像进行随机混洗，以打乱图像序列。

4.根据权利要求1所述的基于非配准多模态数据的微小人物检测方法，其特征在于，

步骤3包括以下子步骤：

步骤3-1，获得图像的多模态候选特征；

步骤3-2，获得不同模态的实例特征。

5.根据权利要求4所述的基于非配准多模态数据的微小人物检测方法，其特征在于，

步骤3-1中，采用Faster R-CNN和FPN两级检测器进行提取图像的多模态特征。

6.根据权利要求1所述的基于非配准多模态数据的微小人物检测方法，其特征在于，

步骤4包括以下子步骤：

步骤4-1，获得多模态实例特征的集合；

步骤4-2，将多模态实例特征进行隐式配准；

步骤4-3，将隐式配准的实例特征进行融合。

7.根据权利要求1所述的基于非配准多模态数据的微小人物检测方法，其特征在于，所述基于非配准多模态数据的微小人物检测方法，还包括用训练的检测模型进行检测的步骤，

所述检测包括以下子步骤：

步骤I，对待检测目标进行采样；

步骤II，对待检测目标进行检测。

8.根据权利要求7所述的基于非配准多模态数据的微小人物检测方法，其特征在于，

步骤I中，按照下述步骤对待检测目标进行采样：

步骤i，获取待检测目标的多模态图像；

步骤ii，对多模态图像进行成对采样；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于非配准多模态数据的微小人物检测程序，所述程序被处理器执行时，使得处理器执行权利要求1至8之一所述基于非配准多模态数据的微小人物检测方法的步骤。

10.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器存储有基于非配准多模态数据的微小人物检测程序，所述程序被处理器执行时，使得处理器执行权利要求1至8之一所述基于非配准多模态数据的微小人物检测方法的步骤。