CN113971801A

CN113971801A - 一种基于四类多模态数据融合的目标多维度检测方法

Info

Publication number: CN113971801A
Application number: CN202111255921.9A
Authority: CN
Inventors: 吕昊; 方铭宇; 宋治儒; 钱伟行; 刘童; 亓霈; 孟佳杰; 汪澜泽; 马玉浩
Original assignee: Jiangsu China Israel Industrial Technology Research Institute; Nanjing Normal University
Current assignee: Jiangsu China Israel Industrial Technology Research Institute; Nanjing Normal University
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-01-25

Abstract

本发明公开了一种基于四类多模态数据融合的目标多维度检测方法，包括：采集待检测目标的雷达点云图像、红外图像、磁场图像以及RGB图像，搭建卷积神经网络对四种输入图像进行特征提取，将预定义三维锚框投影到四种特征图上，搭建引入注意力模块的RPN网络生成建议框，将建议框投影到四种特征图上，搭建全连接网络实现边界框回归、方向估计和类别分类。本发明针对采用通常的RGB图像目标检测方法的缺陷，利用雷达、红外以及磁场图像可以弥补信息的缺失，提高对目标的检测精度。

Description

一种基于四类多模态数据融合的目标多维度检测方法

技术领域

本发明涉及深度学习、图像识别、三维目标检测技术领域，特别涉及了一种基于四类多模态数据融合的目标多维度检测方法。

背景技术

在机器人、自动装载和自动驾驶等许多实际应用中，物体的三维位置信息越来越受到重视，三维目标检测是建立机器与环境交互机制的关键技术。

目前基于雷达点云的三维目标检测方法主要包括两种，一种是对点云进行体素化，如VoxelNet；另一种是将点云投射到二维平面，如PIXOR。以图像为辅助融合处理雷达点云的方法主要包括：使用点云的俯视图和前视图与图像融合的MV3D，使用点云的俯视图与图像融合的AVOD等。检测小目标和遮挡目标仍然是当前最具有挑战性的，并且对于物体内部目标的检测目前研究较少，融合其他数据源信息的三维目标检测也较少。

发明内容

本发明所要解决的技术问题是为了解决上述背景技术提出的技术问题，本发明旨在提供一种基于四类多模态数据融合的目标多维度检测方法，融合多种数据源的图像信息，将注意力网络集成到多模态三维物体检测器中，解决物体遮挡、物体内部目标检测困难的问题。

为了实现上述技术目的，本发明提出一种基于四类多模态数据融合的目标多维度检测方法，包括：

步骤1、采集待检测目标的雷达、红外、磁场以及彩色图像，将其划分为训练集、验证集和测试集，并且进行三维锚框标注，生成数据集；

步骤2、搭建四个结构独立的卷积神经网络作为主干网络，用于提取四种输入图像的特征图，同时采用GAU模块增强特征的信息；

步骤3、在训练集上通过聚类预先设置三维锚框，投影到四种特征图上，裁剪并池化到相同大小进行融合，搭建RPN网络生成建议框，同时引入注意力模块；

步骤4、将RPN网络生成的建议框投影到四种特征图上，裁剪并池化到相同大小进行融合，搭建全连接网络，生成最终的预测框，同时引入注意力模块。

进一步，本发明提出的多维度检测方法，步骤1包括：

步骤1.1、将雷达、红外传感器、磁传感器以及摄像头集成到一起，确保四种图像对齐，采集较多的四种类型的目标图像，去除其中不清晰的图像，其中雷达点云数据转换成BEV鸟瞰图；

步骤1.2、将获得的数据集按一定比例划分为训练集、验证集和测试集，对训练集和验证集进行三维锚框标注，测试集用于评估目标检测网络训练的效果。

进一步，本发明提出的多维度检测方法，步骤2中，是通过四个结构独立的卷积神经网络分别对四种输入图像进行特征提取，主干网络采用VGG16结构，在conv-4处截断，每个卷积层滤波器数量变为原来的一半，最终提取四个256通道的特征图，同时采用GAU模块增强特征图的信息。

进一步，本发明所提出的多维度检测方法，步骤3包括：

步骤3.1、在训练集上采用聚类算法为每个类别生成大量的预定义锚框，并将其投影到主干网络的四种输出特征图上，裁剪对应的部分并且通过池化操作调整为相同宽高的特征图；

步骤3.2、对于每个锚框，通过元素平均操作将四种特征图进行融合，然后将其输入全连接网络，最终输出锚框的回归参数以及为前景的分数；

步骤3.3、在RPN网络中引入了注意力模块，使用分类识别定位策略Grad-CAM，获取最后一个卷积层的输出特征图，在进行反向传播时求得特征图的梯度，取平均作为每个特征图的权重，最后加权求和经过LeakyReLU激活函数得到类激活图；再使用反向注意力网络IAN生成生成空间方向的反向注意力图和通道方向的反向注意力图，然后组合生成反向注意力图，最后与卷积层输出特征图相乘。

进一步，本发明所提出的多维度检测方法，步骤4中，将步骤3生成的建议框投影到四种特征图上，裁剪并池化到相同大小，然后采用元素平均操作进行融合，输入全连接网络，最终输出每个建议框的回归参数、方向估计以及类别分类；同时也引入注意力模块，利用GradCAM和基于梯度的IAN计算反向注意力图，再与融合后的特征图进行元素相乘。

本发明采用以上技术方案，与现有技术相比具有以下技术效果：

本发明结合多种数据源如彩色图像、雷达、红外、磁场等，弥补了单一数据的局限性，可以达到优势互补的效果，对于物体内部物体通过红外、磁场解决信息获取的问题；另外，可以通过将注意力网络集成到多模态三维物体检测器中来解决物体遮挡的问题。

附图说明

图1是本发明的总体架构示意图。

图2是本发明的主干特征提取网络结构图。

图3是本发明的注意力模块结构图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

如图1所示，本发明提出了一种基于四类多模态数据融合的目标多维度检测方法。包括如下步骤：

步骤1：采集待检测目标的雷达、红外、磁场以及彩色图像，划分为训练集、验证集和测试集，并且进行三维锚框标注，生成数据集。

本步骤具体实施如下：

将雷达、红外传感器、三轴磁传感器以及摄像头集成到一起，确保四种图像对齐，采集足够的四种类型的目标图像，去除其中不清晰的图像。其中雷达点云数据转换成BEV(鸟瞰图)，三轴磁传感器测量到的数据可以表示为二次曲面，将其投影到当前视角的平面上；将获得的数据集按2:1:1划分为训练集、验证集和测试集，对训练集和验证集进行三维锚框标注，测试集用于评估目标检测网络训练的效果。

步骤2：搭建四个结构独立的卷积神经网络作为主干网络，用于提取四种输入图像的特征图，以便后续的特征融合。

本步骤具体实施如下：

对于四种输入图像数据，采用四个结构独立的主干特征提取网络。提取网络由两部分组成：编码器和解码器。编码器按照VGG-16搭建，并进行了一些修改，主要是将通道数量减少一半，并在conv-4层切断网络。解码器采用自底向上的特征金字塔结构，将编码器输出的特征进行全局平均池化，再进行1*1卷积将通道数变成原来的一半，即上一级特征的通道数，再使用sigmoid激活函数将数值压缩到0～1之间作为通道方向的权重，然后与上一级特征相乘得到新的特征图，最后将编码器输出的特征上采样到和上一级特征相同大小和通道，并于新的特征图相加融合，最终输出的特征图具有高分辨率和代表性，主干特征提取网络结构如图2所示。

步骤3：在训练集上通过聚类预先设置三维锚框，投影到四种特征图上，裁剪并池化到相同大小进行融合，搭建RPN网络生成建议框，同时引入注意力模块。

本步骤具体实施如下：

在训练集上采用聚类算法为每一个类生成大量的尺寸确定的预定义三维锚框，其中锚框由质心(tx,ty,tz)和轴对齐尺寸(dx,dy,dz)六个参数决定；

使用3D ROI处理此类高维特征图会大大增加计算复杂性，因此在主干特征提取网络输出的特征图上采用1×1卷积操作降低通道数；

将预定义三维锚框投影到主干特征提取网络输出的四种特征图上，将锚框对应的部分裁剪出来，由于锚框的尺寸不固定，为了便于融合四中特征图，采用池化操作统一到相同大小；

对于每个锚框，其在四种特征图上的裁剪部分已经变成相同大小，然后通过元素平均操作将四种特征图进行融合，然后将其输入全连接网络，最终输出三维锚框的回归参数以及当前特征图为前景的分数；RPN网络的损失函数中分类损失函数采用cross-entropyloss，RPN回归损失采用smooth L1 loss；

在BEV上通过建议框与真实框的IoU来分辨前景和背景,在BEV上采用二维NMS(非极大值抑制)删除重叠的建议框；

在RPN网络中引入了注意力模块，注意力模块如图3所示，使用Grad-CAM(一种分类识别定位策略)，获取最后一个卷积层的输出特征图，在进行反向传播时求得特征图的梯度，取全局平均和全局最大的和作为每个特征图的权重，最后加权求和经过LeakyReLU激活函数得到类激活图。

特征图权重计算：

其中Sc为第c类得分，特征图大小为c1*c2，Z＝c1*c2，

为第i个特征图第k行第j列的像素值；

Grad-CAM的类激活图计算：

使用LeakyReLU激活函数，关注对于类别有关的区域，即特征图取值大于0的部分,对于类别无关的区域以较小的值保留；

在标准训练过程中，梯度下降算法会强制注意力图收敛到对象的几个最敏感部分，而忽略对象的其他较不敏感部分。

通过IAN将原始注意力张量进行迭代反转，即反向注意力张量，从而迫使网络根据对象的敏感度较低的部分来检测对象。具体来说，我们生成一个空间方向的反向注意力图和一个通道方向的反向注意力图，然后将它们组合以生成最终的注意力图。

空间方向的反向注意力图计算：

其中T_s1、T_s2为空间注意力图的阈值；

通道方向的反向注意力图计算：

其中T_c1、T_c2为通道注意力图的阈值；

最终将两者通过对应元素相乘获得注意力图，再与融合后的特征图相乘，完成注意力模块的添加。

步骤4：将RPN生成的建议框投影到四种特征图上，裁剪并池化到相同大小进行融合，搭建全连接网络，生成最终的预测框，同时引入注意力模块。

本步骤具体实施如下：

与步骤3的操作类似，将步骤3中将保留的建议框投影到主干特征提取网络输出四种特征图上，裁剪并池化到相同大小，然后采用元素平均操作进行融合，输入全连接网络，最终输出每个建议框的回归参数、方向估计以及类别分类；

使用四个角和两个高度值对边界框进行编码，两个高度值表示从传感器高度确定的地平面的上下角偏移。

因此，回归目标变成了(Δx₁…Δx₄,Δy₁…Δy₄,Δh₁,Δh₂)，即建议框与真实框的角和高度的偏移值；

使用回归方向向量来解决所采用的四角表示的边界框方向估计中的模糊性，方向向量的计算：

(xθ，yθ)＝(cosθ,sinθ)

其中θ∈[-π,π]；

方向向量便被表示为BEV空间中唯一的单位向量。

注意力模块与步骤3中的类似；第二阶段检测网络的损失函数中分类损失函数采用softmax loss，回归损失函数采用L1 loss。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于四类多模态数据融合的目标多维度检测方法，其特征在于，包括以下步骤：

步骤2、搭建四个结构独立的卷积神经网络作为主干网络，用于提取四种输入图像的特征图；

2.根据权利要求1所述的多维度检测方法，其特征在于，步骤1包括：

步骤1.1、将雷达、红外传感器、磁传感器以及摄像头集成到一起，确保四种图像对齐，采集足够数量的四种类型的目标图像，去除其中不清晰的图像，其中雷达点云数据转换成BEV鸟瞰图；

3.根据权利要求1所述的多维度检测方法，其特征在于，步骤2中，是通过四个结构独立的卷积神经网络分别对四种输入图像进行特征提取，主干网络采用VGG16结构，在conv-4处截断，每个卷积层滤波器数量变为原来的一半，最终提取四个256通道的特征图，同时采用GAU模块增强特征图的信息。

4.根据权利要求1所述的多维度检测方法，其特征在于，步骤3包括：

步骤3.3、在RPN网络中引入了注意力模块，使用分类识别定位策略Grad-CAM，获取最后一个卷积层的输出特征图，在进行反向传播时求得特征图的梯度，取平均和最大值的和作为每个特征图的权重，最后加权求和经过LeakyReLU激活函数得到类激活图；再使用反向注意力网络IAN生成生成空间方向的反向注意力图和通道方向的反向注意力图，然后组合生成反向注意力图，最后与卷积层输出特征图相乘。

5.根据权利要求1所述的多维度检测方法，其特征在于，步骤4中，将步骤3生成的建议框投影到四种特征图上，裁剪并池化到相同大小，然后采用元素平均操作进行融合，输入全连接网络，最终输出每个建议框的回归参数、方向估计以及类别分类；同时也引入注意力模块，利用GradCAM和基于梯度的IAN计算反向注意力图，再与融合后的特征图进行元素相乘。