CN113971801A - 一种基于四类多模态数据融合的目标多维度检测方法 - Google Patents
一种基于四类多模态数据融合的目标多维度检测方法 Download PDFInfo
- Publication number
- CN113971801A CN113971801A CN202111255921.9A CN202111255921A CN113971801A CN 113971801 A CN113971801 A CN 113971801A CN 202111255921 A CN202111255921 A CN 202111255921A CN 113971801 A CN113971801 A CN 113971801A
- Authority
- CN
- China
- Prior art keywords
- network
- dimensional
- attention
- detection method
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 230000004927 fusion Effects 0.000 title claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 3
- 238000010586 diagram Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 19
- 238000005520 cutting process Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 9
- 238000000034 method Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于四类多模态数据融合的目标多维度检测方法,包括:采集待检测目标的雷达点云图像、红外图像、磁场图像以及RGB图像,搭建卷积神经网络对四种输入图像进行特征提取,将预定义三维锚框投影到四种特征图上,搭建引入注意力模块的RPN网络生成建议框,将建议框投影到四种特征图上,搭建全连接网络实现边界框回归、方向估计和类别分类。本发明针对采用通常的RGB图像目标检测方法的缺陷,利用雷达、红外以及磁场图像可以弥补信息的缺失,提高对目标的检测精度。
Description
技术领域
本发明涉及深度学习、图像识别、三维目标检测技术领域,特别涉及了一种基于四类多模态数据融合的目标多维度检测方法。
背景技术
在机器人、自动装载和自动驾驶等许多实际应用中,物体的三维位置信息越来越受到重视,三维目标检测是建立机器与环境交互机制的关键技术。
目前基于雷达点云的三维目标检测方法主要包括两种,一种是对点云进行体素化,如VoxelNet;另一种是将点云投射到二维平面,如PIXOR。以图像为辅助融合处理雷达点云的方法主要包括:使用点云的俯视图和前视图与图像融合的MV3D,使用点云的俯视图与图像融合的AVOD等。检测小目标和遮挡目标仍然是当前最具有挑战性的,并且对于物体内部目标的检测目前研究较少,融合其他数据源信息的三维目标检测也较少。
发明内容
本发明所要解决的技术问题是为了解决上述背景技术提出的技术问题,本发明旨在提供一种基于四类多模态数据融合的目标多维度检测方法,融合多种数据源的图像信息,将注意力网络集成到多模态三维物体检测器中,解决物体遮挡、物体内部目标检测困难的问题。
为了实现上述技术目的,本发明提出一种基于四类多模态数据融合的目标多维度检测方法,包括:
步骤1、采集待检测目标的雷达、红外、磁场以及彩色图像,将其划分为训练集、验证集和测试集,并且进行三维锚框标注,生成数据集;
步骤2、搭建四个结构独立的卷积神经网络作为主干网络,用于提取四种输入图像的特征图,同时采用GAU模块增强特征的信息;
步骤3、在训练集上通过聚类预先设置三维锚框,投影到四种特征图上,裁剪并池化到相同大小进行融合,搭建RPN网络生成建议框,同时引入注意力模块;
步骤4、将RPN网络生成的建议框投影到四种特征图上,裁剪并池化到相同大小进行融合,搭建全连接网络,生成最终的预测框,同时引入注意力模块。
进一步,本发明提出的多维度检测方法,步骤1包括:
步骤1.1、将雷达、红外传感器、磁传感器以及摄像头集成到一起,确保四种图像对齐,采集较多的四种类型的目标图像,去除其中不清晰的图像,其中雷达点云数据转换成BEV鸟瞰图;
步骤1.2、将获得的数据集按一定比例划分为训练集、验证集和测试集,对训练集和验证集进行三维锚框标注,测试集用于评估目标检测网络训练的效果。
进一步,本发明提出的多维度检测方法,步骤2中,是通过四个结构独立的卷积神经网络分别对四种输入图像进行特征提取,主干网络采用VGG16结构,在conv-4处截断,每个卷积层滤波器数量变为原来的一半,最终提取四个256通道的特征图,同时采用GAU模块增强特征图的信息。
进一步,本发明所提出的多维度检测方法,步骤3包括:
步骤3.1、在训练集上采用聚类算法为每个类别生成大量的预定义锚框,并将其投影到主干网络的四种输出特征图上,裁剪对应的部分并且通过池化操作调整为相同宽高的特征图;
步骤3.2、对于每个锚框,通过元素平均操作将四种特征图进行融合,然后将其输入全连接网络,最终输出锚框的回归参数以及为前景的分数;
步骤3.3、在RPN网络中引入了注意力模块,使用分类识别定位策略Grad-CAM,获取最后一个卷积层的输出特征图,在进行反向传播时求得特征图的梯度,取平均作为每个特征图的权重,最后加权求和经过LeakyReLU激活函数得到类激活图;再使用反向注意力网络IAN生成生成空间方向的反向注意力图和通道方向的反向注意力图,然后组合生成反向注意力图,最后与卷积层输出特征图相乘。
进一步,本发明所提出的多维度检测方法,步骤4中,将步骤3生成的建议框投影到四种特征图上,裁剪并池化到相同大小,然后采用元素平均操作进行融合,输入全连接网络,最终输出每个建议框的回归参数、方向估计以及类别分类;同时也引入注意力模块,利用GradCAM和基于梯度的IAN计算反向注意力图,再与融合后的特征图进行元素相乘。
本发明采用以上技术方案,与现有技术相比具有以下技术效果:
本发明结合多种数据源如彩色图像、雷达、红外、磁场等,弥补了单一数据的局限性,可以达到优势互补的效果,对于物体内部物体通过红外、磁场解决信息获取的问题;另外,可以通过将注意力网络集成到多模态三维物体检测器中来解决物体遮挡的问题。
附图说明
图1是本发明的总体架构示意图。
图2是本发明的主干特征提取网络结构图。
图3是本发明的注意力模块结构图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
如图1所示,本发明提出了一种基于四类多模态数据融合的目标多维度检测方法。包括如下步骤:
步骤1:采集待检测目标的雷达、红外、磁场以及彩色图像,划分为训练集、验证集和测试集,并且进行三维锚框标注,生成数据集。
本步骤具体实施如下:
将雷达、红外传感器、三轴磁传感器以及摄像头集成到一起,确保四种图像对齐,采集足够的四种类型的目标图像,去除其中不清晰的图像。其中雷达点云数据转换成BEV(鸟瞰图),三轴磁传感器测量到的数据可以表示为二次曲面,将其投影到当前视角的平面上;将获得的数据集按2:1:1划分为训练集、验证集和测试集,对训练集和验证集进行三维锚框标注,测试集用于评估目标检测网络训练的效果。
步骤2:搭建四个结构独立的卷积神经网络作为主干网络,用于提取四种输入图像的特征图,以便后续的特征融合。
本步骤具体实施如下:
对于四种输入图像数据,采用四个结构独立的主干特征提取网络。提取网络由两部分组成:编码器和解码器。编码器按照VGG-16搭建,并进行了一些修改,主要是将通道数量减少一半,并在conv-4层切断网络。解码器采用自底向上的特征金字塔结构,将编码器输出的特征进行全局平均池化,再进行1*1卷积将通道数变成原来的一半,即上一级特征的通道数,再使用sigmoid激活函数将数值压缩到0~1之间作为通道方向的权重,然后与上一级特征相乘得到新的特征图,最后将编码器输出的特征上采样到和上一级特征相同大小和通道,并于新的特征图相加融合,最终输出的特征图具有高分辨率和代表性,主干特征提取网络结构如图2所示。
步骤3:在训练集上通过聚类预先设置三维锚框,投影到四种特征图上,裁剪并池化到相同大小进行融合,搭建RPN网络生成建议框,同时引入注意力模块。
本步骤具体实施如下:
在训练集上采用聚类算法为每一个类生成大量的尺寸确定的预定义三维锚框,其中锚框由质心(tx,ty,tz)和轴对齐尺寸(dx,dy,dz)六个参数决定;
使用3D ROI处理此类高维特征图会大大增加计算复杂性,因此在主干特征提取网络输出的特征图上采用1×1卷积操作降低通道数;
将预定义三维锚框投影到主干特征提取网络输出的四种特征图上,将锚框对应的部分裁剪出来,由于锚框的尺寸不固定,为了便于融合四中特征图,采用池化操作统一到相同大小;
对于每个锚框,其在四种特征图上的裁剪部分已经变成相同大小,然后通过元素平均操作将四种特征图进行融合,然后将其输入全连接网络,最终输出三维锚框的回归参数以及当前特征图为前景的分数;RPN网络的损失函数中分类损失函数采用cross-entropyloss,RPN回归损失采用smooth L1 loss;
在BEV上通过建议框与真实框的IoU来分辨前景和背景,在BEV上采用二维NMS(非极大值抑制)删除重叠的建议框;
在RPN网络中引入了注意力模块,注意力模块如图3所示,使用Grad-CAM(一种分类识别定位策略),获取最后一个卷积层的输出特征图,在进行反向传播时求得特征图的梯度,取全局平均和全局最大的和作为每个特征图的权重,最后加权求和经过LeakyReLU激活函数得到类激活图。
特征图权重计算:
Grad-CAM的类激活图计算:
使用LeakyReLU激活函数,关注对于类别有关的区域,即特征图取值大于0的部分,对于类别无关的区域以较小的值保留;
在标准训练过程中,梯度下降算法会强制注意力图收敛到对象的几个最敏感部分,而忽略对象的其他较不敏感部分。
通过IAN将原始注意力张量进行迭代反转,即反向注意力张量,从而迫使网络根据对象的敏感度较低的部分来检测对象。具体来说,我们生成一个空间方向的反向注意力图和一个通道方向的反向注意力图,然后将它们组合以生成最终的注意力图。
空间方向的反向注意力图计算:
其中Ts1、Ts2为空间注意力图的阈值;
通道方向的反向注意力图计算:
其中Tc1、Tc2为通道注意力图的阈值;
最终将两者通过对应元素相乘获得注意力图,再与融合后的特征图相乘,完成注意力模块的添加。
步骤4:将RPN生成的建议框投影到四种特征图上,裁剪并池化到相同大小进行融合,搭建全连接网络,生成最终的预测框,同时引入注意力模块。
本步骤具体实施如下:
与步骤3的操作类似,将步骤3中将保留的建议框投影到主干特征提取网络输出四种特征图上,裁剪并池化到相同大小,然后采用元素平均操作进行融合,输入全连接网络,最终输出每个建议框的回归参数、方向估计以及类别分类;
使用四个角和两个高度值对边界框进行编码,两个高度值表示从传感器高度确定的地平面的上下角偏移。
因此,回归目标变成了(Δx1…Δx4,Δy1…Δy4,Δh1,Δh2),即建议框与真实框的角和高度的偏移值;
使用回归方向向量来解决所采用的四角表示的边界框方向估计中的模糊性,方向向量的计算:
(xθ,yθ)=(cosθ,sinθ)
其中θ∈[-π,π];
方向向量便被表示为BEV空间中唯一的单位向量。
注意力模块与步骤3中的类似;第二阶段检测网络的损失函数中分类损失函数采用softmax loss,回归损失函数采用L1 loss。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (5)
1.一种基于四类多模态数据融合的目标多维度检测方法,其特征在于,包括以下步骤:
步骤1、采集待检测目标的雷达、红外、磁场以及彩色图像,将其划分为训练集、验证集和测试集,并且进行三维锚框标注,生成数据集;
步骤2、搭建四个结构独立的卷积神经网络作为主干网络,用于提取四种输入图像的特征图;
步骤3、在训练集上通过聚类预先设置三维锚框,投影到四种特征图上,裁剪并池化到相同大小进行融合,搭建RPN网络生成建议框,同时引入注意力模块;
步骤4、将RPN网络生成的建议框投影到四种特征图上,裁剪并池化到相同大小进行融合,搭建全连接网络,生成最终的预测框,同时引入注意力模块。
2.根据权利要求1所述的多维度检测方法,其特征在于,步骤1包括:
步骤1.1、将雷达、红外传感器、磁传感器以及摄像头集成到一起,确保四种图像对齐,采集足够数量的四种类型的目标图像,去除其中不清晰的图像,其中雷达点云数据转换成BEV鸟瞰图;
步骤1.2、将获得的数据集按一定比例划分为训练集、验证集和测试集,对训练集和验证集进行三维锚框标注,测试集用于评估目标检测网络训练的效果。
3.根据权利要求1所述的多维度检测方法,其特征在于,步骤2中,是通过四个结构独立的卷积神经网络分别对四种输入图像进行特征提取,主干网络采用VGG16结构,在conv-4处截断,每个卷积层滤波器数量变为原来的一半,最终提取四个256通道的特征图,同时采用GAU模块增强特征图的信息。
4.根据权利要求1所述的多维度检测方法,其特征在于,步骤3包括:
步骤3.1、在训练集上采用聚类算法为每个类别生成大量的预定义锚框,并将其投影到主干网络的四种输出特征图上,裁剪对应的部分并且通过池化操作调整为相同宽高的特征图;
步骤3.2、对于每个锚框,通过元素平均操作将四种特征图进行融合,然后将其输入全连接网络,最终输出锚框的回归参数以及为前景的分数;
步骤3.3、在RPN网络中引入了注意力模块,使用分类识别定位策略Grad-CAM,获取最后一个卷积层的输出特征图,在进行反向传播时求得特征图的梯度,取平均和最大值的和作为每个特征图的权重,最后加权求和经过LeakyReLU激活函数得到类激活图;再使用反向注意力网络IAN生成生成空间方向的反向注意力图和通道方向的反向注意力图,然后组合生成反向注意力图,最后与卷积层输出特征图相乘。
5.根据权利要求1所述的多维度检测方法,其特征在于,步骤4中,将步骤3生成的建议框投影到四种特征图上,裁剪并池化到相同大小,然后采用元素平均操作进行融合,输入全连接网络,最终输出每个建议框的回归参数、方向估计以及类别分类;同时也引入注意力模块,利用GradCAM和基于梯度的IAN计算反向注意力图,再与融合后的特征图进行元素相乘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111255921.9A CN113971801A (zh) | 2021-10-27 | 2021-10-27 | 一种基于四类多模态数据融合的目标多维度检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111255921.9A CN113971801A (zh) | 2021-10-27 | 2021-10-27 | 一种基于四类多模态数据融合的目标多维度检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113971801A true CN113971801A (zh) | 2022-01-25 |
Family
ID=79588701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111255921.9A Pending CN113971801A (zh) | 2021-10-27 | 2021-10-27 | 一种基于四类多模态数据融合的目标多维度检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113971801A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115761646A (zh) * | 2022-12-06 | 2023-03-07 | 武汉纺织大学 | 一种面向工业园区的行人跟踪方法、设备及存储介质 |
CN116188999A (zh) * | 2023-04-26 | 2023-05-30 | 南京师范大学 | 一种基于可见光和红外图像数据融合的小目标检测方法 |
-
2021
- 2021-10-27 CN CN202111255921.9A patent/CN113971801A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115761646A (zh) * | 2022-12-06 | 2023-03-07 | 武汉纺织大学 | 一种面向工业园区的行人跟踪方法、设备及存储介质 |
CN115761646B (zh) * | 2022-12-06 | 2023-08-01 | 武汉纺织大学 | 一种面向工业园区的行人跟踪方法、设备及存储介质 |
CN116188999A (zh) * | 2023-04-26 | 2023-05-30 | 南京师范大学 | 一种基于可见光和红外图像数据融合的小目标检测方法 |
CN116188999B (zh) * | 2023-04-26 | 2023-07-11 | 南京师范大学 | 一种基于可见光和红外图像数据融合的小目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Barabanau et al. | Monocular 3d object detection via geometric reasoning on keypoints | |
EP3499414B1 (en) | Lightweight 3d vision camera with intelligent segmentation engine for machine vision and auto identification | |
US7831087B2 (en) | Method for visual-based recognition of an object | |
CN108090435B (zh) | 一种可停车区域识别方法、系统及介质 | |
CN111080659A (zh) | 一种基于视觉信息的环境语义感知方法 | |
KR101163042B1 (ko) | 차량 검출 장치 및 방법 | |
CN110427797B (zh) | 一种基于几何条件限制的三维车辆检测方法 | |
Wang et al. | An overview of 3d object detection | |
Martinez et al. | Stereo-based aerial obstacle detection for the visually impaired | |
CN113971801A (zh) | 一种基于四类多模态数据融合的目标多维度检测方法 | |
CN114693661A (zh) | 一种基于深度学习的快速分拣方法 | |
GB2612029A (en) | Lifted semantic graph embedding for omnidirectional place recognition | |
CN109813334A (zh) | 基于双目视觉的实时高精度车辆里程计算方法 | |
CN112396036A (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
Mishra et al. | Active segmentation for robotics | |
CN111626241A (zh) | 一种人脸检测方法及装置 | |
Kanaujia et al. | Part segmentation of visual hull for 3d human pose estimation | |
Han et al. | A real-time lidar and vision based pedestrian detection system for unmanned ground vehicles | |
CN115797397B (zh) | 一种机器人全天候自主跟随目标人员的方法及系统 | |
Zhao et al. | DHA: Lidar and vision data fusion-based on road object classifier | |
Jørgensen et al. | Geometric Edge Description and Classification in Point Cloud Data with Application to 3D Object Recognition. | |
Schulz et al. | Pedestrian recognition from a moving catadioptric camera | |
Li et al. | Pedestrian detection algorithm based on video sequences and laser point cloud | |
Dogru et al. | Monocular person localization with lidar fusion for social navigation | |
CN112232272A (zh) | 一种激光与视觉图像传感器融合的行人识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |