CN116310669B

CN116310669B - 基于多模态特征提取网络的目标检测方法、系统及设备

Info

Publication number: CN116310669B
Application number: CN202211545086.7A
Authority: CN
Inventors: 吴珺; 董佳明; 聂万宇; 吴俊伟; 王江鹏; 叶志伟
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2024-02-06
Anticipated expiration: 2042-11-21
Also published as: CN116310669A

Abstract

本发明公开了一种基于多模态特征提取网络的目标检测方法、系统及设备，首先获取待检测场景内的多模态数据，包括时间戳相关的图像和其他模态文本数据；接着提取其他模态文本数据得到文本语义特征；根据文本语义特征，确定可能存在待检测目标范围；将待检测目标范围在相同时间戳的图像上生成预选框；将生成的预选框输入多模态特征提取网络中，进行特征提取，舍弃偏离预选框的锚框；最后对生成锚框的目标根据分类准确进行分类，确定目标类别，获得检测结果。本发明可以达到保护安全和节省人力的情况下更好的辅助多模态特征提取网络找到目标，在确定范围内检测目标可以提升检测精度，而生成更少的锚框也可以提升检测速度。

Description

基于多模态特征提取网络的目标检测方法、系统及设备

技术领域

本发明属于计算机视觉中的目标检测技术领域，涉及一种目标检测方法、系统及设备，具体涉及一种基于多模态特征提取网络的目标检测方法、系统及设备。可以应用到隧道安全救援等特定情境中。

背景技术

目标检测是计算机视觉中一个具有挑战的领域，其成果已广泛应用到很多领域。

目前目标检测算法采用的基本是YOLO，YOLO系列是单阶目标检测算法的代表之一，单阶目标类型的目标检测算法省略了对候选框的生成，而是根据每个单元格生成许多形状和大小不同的锚框，根据各个锚框的置信度最终确定最适合目标的锚框。但这个过程本身会生成许多额外的锚框，这会降低检测速度并且导致正负样本不均衡。

同时，在一些特定情境下，例如隧道封闭时实施救援，同类事故发生较少，能够获取的数据量也较少，这时能够获得的正负样本差距较大，这会导致检测精度下降，不能达到很好效果。

发明内容

在一些特定情境下，例如隧道封闭时实施救援，同类事故发生较少，能够获取的数据量也较少，不能够保证目标检测算法能够达到可靠的检测精度，此外检测速度进一步提升可以更快的实施精准救援。但这种情况下除了直接拍摄图像外，可以通过一些已有的传感器获取其他模态数据。为了解决这种问题，本发明提出一种基于多模态特征提取网络的目标检测方法、系统及设备。

本发明的方法所采用的技术方案是：一种基于多模态特征提取网络的目标检测方法，包括以下步骤：

步骤1：获取待检测场景内的多模态数据，包括时间戳相关的图像和其他模态文本数据；所述其他模态文本数据包括温度、湿度和二氧化碳浓度；

步骤2：提取其他模态文本数据得到文本语义特征；

步骤3：根据文本语义特征，确定可能存在待检测目标范围；

步骤4：将待检测目标范围在相同时间戳的图像上生成预选框；

步骤5：将生成的预选框输入多模态特征提取网络中，进行特征提取，舍弃偏离预选框的锚框；

所述多模态特征提取网络，包括主干特征提取网络、加强特征提取网络和检测头三部分。

所述主干特征提取网络，包括五个Conv结构和四个C3结构以及一个SPPF结构，第一个卷积特征图输入时为分辨率320*320通道数为32，输出时特征图分辨率为160*160通道数为64，以此类推主干特征提取网络中特征图分辨率依次减小，通道数依次增大；C3结构为三个标准卷积由残差结构并联，目的是融合不同特征；SPPF结构由池化核为5*5的三个最大池化层串联，目的是融合多尺度的特征；

所述加强特征提取网络，包括自顶向下和自底向上的双特征金字塔，共进行了三次上采样和三次下采样，共包括四个Conv结果和四个C3结构；第一个特征金字塔每当特征图分别为20*20、40*40时，从主干特征提取网络特征图大小相同的C3结构中获得输出，两者相加进行采样；第二个特征金字塔与第一个特征金字塔类似，但不从主干特征提取网络中获取输出，而是从第一个特征金字塔中获取相同分辨率的特征图作为相加；

所述检测头部分，用于根据主干特征提取网络和加强特征提取网络最终获得的特征图在待检测图片上进行比较，找到与特征图相符的目标，并对其划定锚框，从而找到最终待检测目标；

步骤6：对生成锚框的目标根据分类准确进行分类，确定目标类别，获得检测结果。

本发明的系统所采用的技术方案是：一种基于多模态特征提取网络的目标检测系统，包括以下模块：

模块1，用于获取待检测场景内的多模态数据，包括时间戳相关的图像和其他模态文本数据；所述其他模态文本数据包括温度、湿度和二氧化碳浓度；

模块2，用于提取其他模态文本数据得到文本语义特征；

模块3，用于根据文本语义特征，确定可能存在待检测目标范围；

模块4，用于将待检测目标范围在相同时间戳的图像上生成预选框；

模块5，用于将生成的预选框输入多模态特征提取网络中，进行特征提取，舍弃偏离预选框的锚框；

模块6，用于对生成锚框的目标根据回归损失函数CIOU准确进行分类，确定目标类别，获得检测结果。

本发明的设备所采用的技术方案是：一种基于多模态特征提取网络的目标检测设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述的基于多模态特征提取网络的目标检测方法。

本发明基于隧道救援情况下使用多模态数据，通过传感器获得例如温度、湿度、二氧化碳浓度等多模态数据，将这些数据处理好后，根据例如人体温度等已知科学知识划定预选框范围。将预选框作为一种先验知识和图像一起输入到多模态特征提取网络中，使得多模态特征提取网络只在预选框范围内生成锚框，这可以总体需要生成的锚框大幅减少，这种方法可以达到保护安全和节省人力的情况下更好的辅助目标检测网络找到目标，在确定范围内检测目标可以提升检测精度，而生成更少的锚框也可以提升检测速度。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例的多模态特征提取网络结构图；

图3为本发明实施例的多模态特征提取网络原理图；

图4为本发明实施例的隧道救援图片中预选框及检测结果例图，外侧黑框为多模态数据转换得到的预选框，内部带有目标类别的框体为目标检测结果。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于多模态特征提取网络的目标检测方法，包括以下步骤：

步骤1：获取待检测场景内的多模态数据，包括时间戳相关的图像和其他模态文本数据；其他模态文本数据包括温度、湿度和二氧化碳浓度等；

本实施例在获取图像和多模态数据时，两者应该具有同步性从而保证根据多模态数据分析出的待检测范围然后生成预选框可以一一对应到图像上。这里采用选择一个起始时刻t₀，在这个时刻后每过一个时间t获取一次数据，这里获取数据是在时间维度上同步获取包括多模态数据温度、湿度、二氧化碳浓度以及拍摄一次图像的数据。这样在t₀、t₀+t、t₀+2t等时刻可以获取到在时间戳上同步的多模态数据和图像数据，在时间维度上保持一组多模态数据和一张图像一一对应。

步骤2：提取其他模态文本数据得到文本语义特征；

本实施例将其他模态文本数据输入文本特征提取网络，该文本特征提取网络可以使用Bert等经典模型，Bert对其他模态数据进行提取得到文本特征语义。

步骤3：根据文本语义特征，确定可能存在待检测目标范围；

本实施例将文本语义特征转化为时间戳对应的图像上的相对位置，并根据像素坐标系保存为相对坐标标签；结合待检测目标范围确定准则确定图像上的待检测区域。

本实施例根据已知的经验，对于多模态数据做一个范围的划定，例如人体体温处在一个恒定的范围，将温度处在这个范围内且与附近温度发生明显变化的区域认为是待检测范围，结合坐标标签确定在图像上的待检测区域。

以温度举例，可以知道当时空气温度T₀以及通过已有的科学知识了解到人体平均温度T，那么必然存在温度处在T₀和T范围内的空间位置。引起空间范围上两种温度变化的原因极大概率是这个地方存在一个待救援的目标人，则将该区域认为是待检测区域，并将该区域通过人工和机器自动在对应的图像上生成预选框。湿度或二氧化碳浓度等其他多模态数据同理，这样实现了将多模态数据转化为输入给目标检测模型的先验知识。

本实施例根据所述待检测区域，以及具有相同的时间戳的图像，在对应的图像上生成预选框并且作为一种先验知识输入给多模态特征提取网络，将带有预选框的图像输入多模态特征提取网络后，根据预选框的先验，直接放弃中心点再预选框外的锚框。

请见图2，相对于二阶目标检测算法，本实施例用到的YOLOv5是一阶目标检测算法，其遍拥有更快的速度，作为一阶目标检测算法的YOLOv5是穷举锚框的方式找到待检测目标的，即将图像分为很多个网格，在每个网格生成各种大小的锚框，通过回归损失函数CIOU计算置信度，然后通过NMS非极大抑制来保留置信度最大的锚框。而使用多模态数据生成的预选框可以大幅减少需要穷举锚框的范围和锚框的数量，这本身就可以更快的找到目标，同时NMS非极大抑制方法的时间复杂度为O(n²)，所以生成的锚框越少，NMS非极大抑制所消耗的时间越少。综合两点预选框可以大大提升检测速度。

本实施例的生成预选框的思路是从二阶目标检测算法借鉴而来，二阶目标检测算法用到预选框生成算法本身是对前景和背景的一种二分类算法，这样保证待检测范围内的前景更多并且平衡了正负样本不均的问题。预选框放到一阶目标检测算法YOLO中时，会有以下步骤操作：

(1)根据温度和二氧化碳浓度等多模态数据获取划定的规范化后的预选框坐标，这应该是一个矩形的框体，如图4所示，可以认为该范围有待检测目标；

(2)使用YOLOv5算法对该图像进行检测，对生成锚框采取一些策略，即忽略中心锚点处在预选框外的锚框；

(3)对预选框内的锚框采取剩余步骤，即进行NMS非极大抑制并且进行分类，最终确定目标位置和目标类别。

步骤5：将生成的预选框输入目标检测特征提取网络中，进行特征提取，舍弃偏离预选框的锚框；

请见图2和图3，本实施例的多模态特征提取网络，包括主干特征提取网络、加强特征提取网络、检测头三部分，其中Conv为标准卷积层，C3为特征融合层，SPPF结构为多尺度特征融合模块。

本实施例的主干特征提取网络，包括五个Conv结构和四个C3结构以及一个SPPF结构，第一个卷积特征图输入时为分辨率320*320通道数为32，输出时特征图分辨率为160*160通道数为64，以此类推主干特征提取网络中特征图分辨率依次减小，通道数依次增大。C3结构为三个标准卷积由残差结构并联，目的是融合不同特征。SPPF结构由池化核为5*5的三个最大池化层串联，目的是融合多尺度的特征。

本实施例的加强特征提取网络包括自顶向下和自底向上的双特征金字塔，共进行了三次上采样和三次下采样，共包括四个Conv结果和四个C3结构。第一个特征金字塔每当特征图分别为20*20、40*40时，从主干特征提取网络特征图大小相同的C3结构中获得输出，两者相加进行采样。第二个特征金字塔与第一个特征金字塔类似，但不从主干特征提取网络中获取输出，而是从第一个特征金字塔中获取相同分辨率的特征图作为相加。

本实施例的检测头部分，是根据主干特征提取网络和加强特征提取网络最终获得的特征图在待检测图片上进行比较，找到与特征图相符的目标，并对其划定锚框，从而找到最终待检测目标。

本实施例的首先会将输入图像归一化压缩为640*640，输入主干特征提取网络后经过五个卷积层和四个特征融合层，特征图分辨率逐渐缩小，通道数逐渐增多，再通过多尺度融合模块后输入加强特征提取网络，通过主干特征提取网络的部分输出与多尺度融合模块后的输出同时输入进双特征金字塔中，经过三次上采样和三次下采样后输入进检测头部分，最终在检测头部分生成锚框找到待检测目标。但本实施例还用到了前面四步生成的预选框方法，通过多模态数据输入生成预选框，再对应的时间戳相关的图像中。将生成的预选框作为先验检测检测头部分生成的锚框，舍弃偏离预选框的锚框，最终得到检测目标位置结果。

本实施例对生成锚框的目标根据YOLOv5算法将图片分为13*13个区域，在每个区域生成若干锚框，然后框体间根据回归损失函数CIOU计算置信度，最终使用NMS非极大抑制方法，提出置信度较小的框体，从而准确进行分类，

本实施例通过确定每个锚框找到的时候救援目标中的哪一类目标，并给出可视化的结果标注出来。

在完成所有步骤后将用到的图像加入预训练多模态特征提取网络用到的数据集中，以提升检测精度。

本实施例采用的多模态特征提取网络，为训练好的多模态特征提取网络；其训练过程包括以下步骤：

(1)获取若干历史图像及文本数据，作为训练数据集；

(2)将训练数据集中图像进行归一化处理为分辨率一致的图像，处理方式是在图像边缘增加黑边。

(3)将训练数据集中数据输入多模态特征提取网络，对多模态特征提取网络进行训练；

训练过程中，回归损失使用CIOU，分类和置信度损失替换为FocalLoss，FocalLoss更加强调对前景困难目标的学习，结合其他模态数据生成的预选框增加前景减少背景的方法，从而使得网络的正负样本更加均衡；

训练过程中，将前一轮次的训练模型和训练数据加入下一迭代轮次的预训练模型和训练集，从而迭代提升检测精度，直到mAP即检测精度达到85％以上，认为训练达到要求，从而获得训练好的多模态特征提取网络。

本发明主要创新点在于：

1、通过将多模态的文本数据输入文本特征提取网络获得语义信息，然后将文本予以信息转化为一种便于利用的标签数据，这种标签数据应当是关于时间戳对应的图像中的相对坐标数据。

2、将这种标签根据已知的科学知识转化为一个可能存在检测目标的范围，将这个范围作为先验知识的预选框帮助目标检测算法更好的进行检测。

3、将预选框与时间维度上一一对应的图像结合，将预选框的坐标数据作为边界阈值和图像一起输入模型中。

这种方法可以平衡正负样本数量，并且减少所需生成的锚框数量，可以达到保护安全和节省人力的同时提升检测速度和精度。

本发明采用多模态数据辅助目标检测，通过多模态数据发生变化的范围划定待检测区域继而转化为预选框作为先验知识输入给多模态特征提取网络，从而让多模态特征提取网络只关注预选框范围内，这均衡了正负样本比例，并降低了所需锚框的数量，也大幅降低了NMS非极大抑制的耗时，从而使得目标检测速度和精度提升。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于多模态特征提取网络的目标检测方法，其特征在于，包括以下步骤：

步骤2：提取其他模态文本数据得到文本语义特征；

步骤3：根据文本语义特征，确定可能存在待检测目标范围；

所述多模态特征提取网络，包括主干特征提取网络、加强特征提取网络和检测头三部分；

步骤6：对生成锚框的目标根据回归损失函数CIOU准确进行分类，确定目标类别，获得检测结果。

2.根据权利要求1所述的基于多模态特征提取网络的目标检测方法，其特征在于：步骤1中，从t₀时刻开始每隔一个固定的时间间隔t，获取多模态数据以及无人机拍摄的图像数据，两种数据在时间戳上一一对应。

3.根据权利要求1所述的基于多模态特征提取网络的目标检测方法，其特征在于：步骤2中，将所述其他模态文本数据输入文本特征提取网络，得到文本特征语义。

4.根据权利要求1所述的基于多模态特征提取网络的目标检测方法，其特征在于：步骤3中，将文本语义特征转化为时间戳对应的图像上的相对位置，并根据像素坐标系保存为相对坐标标签；结合待检测目标范围确定准则确定图像上的待检测区域。

5.根据权利要求1所述的基于多模态特征提取网络的目标检测方法，其特征在于：步骤4中，使用一阶目标检测算法对待检测目标进行检测，忽略中心锚点处在预选框外的锚框，获得精确的锚框。

6.根据权利要求1所述的基于多模态特征提取网络的目标检测方法，其特征在于：步骤6中，所述对生成锚框的目标根据YOLOv5算法将图片分为13*13个区域，在每个区域生成若干锚框，然后框体间根据回归损失函数CIOU计算置信度，最终使用NMS非极大抑制方法，提出置信度较小的框体，从而进行分类。

7.根据权利要求1-6任意一项所述的基于多模态特征提取网络的目标检测方法，其特征在于：步骤5中所述多模态特征提取网络，为训练好的多模态特征提取网络；其训练过程包括以下步骤：

(1)获取若干历史图像及文本数据，作为训练数据集；

(2)将训练数据集中图像进行归一化处理为分辨率一致的图像；

(3)将训练数据集中数据输入所述多模态特征提取网络，对所述多模态特征提取网络进行训练；

训练过程中，回归损失函数使用CIOU，分类和置信度损失函数替换为FocalLoss，FocalLoss更加强调对前景困难目标的学习，结合其他模态数据生成的预选框增加前景减少背景的方法，从而使得网络的正负样本更加均衡；

8.一种基于多模态特征提取网络的目标检测系统，其特征在于，包括以下模块：

模块2，用于提取其他模态文本数据得到文本语义特征；

9.一种基于多模态特征提取网络的目标检测设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至8中任一项所述的基于多模态特征提取网络的目标检测方法。