CN117351445A - 小样本条件下的自动驾驶多模态融合目标检测方法及系统 - Google Patents
小样本条件下的自动驾驶多模态融合目标检测方法及系统 Download PDFInfo
- Publication number
- CN117351445A CN117351445A CN202311280016.8A CN202311280016A CN117351445A CN 117351445 A CN117351445 A CN 117351445A CN 202311280016 A CN202311280016 A CN 202311280016A CN 117351445 A CN117351445 A CN 117351445A
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- module
- convolution
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 230000004927 fusion Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000000694 effects Effects 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000005251 gamma ray Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种小样本条件下的自动驾驶多模态融合目标检测方法及系统,首先实时获取前行方向图像,提取图像点云数据和图像特征数据,得到雷达俯视图特征和图像特征;然后利用多模态数据融合网络,融合雷达俯视图特征和图像特征,输出检测目标;所述多模态数据融合网络,包括图像引导的序列初始化模块、解码器模块和交叉注意力模块。本发明将小样本方法与不同模态传感器的优势互补特性结合,通过实际测试调整数据与参数,模型在小样本条件下平均精度均值与nuScenes检测分数得到一定涨点,具有一定效果目标检测功能,可应用于自动驾驶某些现实场景的数据不足的问题。
Description
技术领域
本发明属于深度学习技术领域,涉及一种自动驾驶多模态融合目标检测方法及系统,具体涉及一种基于transfusion的小样本条件下的自动驾驶多模态融合目标检测方法及系统。
背景技术
近年来,随着深度学习技术的进步,作为计算机视觉领域的核心任务之一的目标检测技术得到了极大拓展,逐步取代传统目标检测技术而快速发展,成为研究的热点与焦点,从而在生产生活等各个领域进一步提高人们的生活质量,其中以目标检测技术作为关键一环的自动驾驶技术也逐渐成为人工智能技术的热门领域之一。
目前,在自动驾驶领域,通用的目标检测算法已经基本能够满足一般交通场景下的目标检测问题。但是,在实际的无人驾驶环境中存在着长尾效应,“长尾”是指无人驾驶车辆中出现的“边缘”情形,这种情形出现的可能性很小。这些极少发生的事件是很容易被忽略的,因此在数据集中经常被遗漏或数量不足以训练算法。尽管人类在面对罕见危险情况时表现出了与生俱来的优势,但是人工智能并不具备这种优势,因为在深度学习中大多数成熟的算法对大规模标注数据要求颇高,而收集这样大量满足条件的数据极大耗费人力、物力和财力。除此之外,自动驾驶汽车上有多种传感器包括激光雷达、摄像头、超声波传感器、雷达等,它们可以提供车辆周围环境和车辆自身状态的多模态信息,比如车辆周围的障碍物、道路状况、车速、加速度等。这些传感器的数据在一定程度上存在互补关系,提高车辆对环境的感知和理解能力。例如,激光雷达可以提供高精度的三维距离和形状信息,而摄像头则可以提供更加丰富的颜色和纹理信息,两者结合可以更加准确地识别物体。因此,可以通过融合多模态数据来充分挖掘信息,以进一步提高目标检测和其他自动驾驶模型的性能。许多传统3D方法依赖于大量的标记数据进行学习,而在自动驾驶罕见危险场景中,收集到的单一模态数据的样本量也往往远远低于训练卷积神经网络所需的数据集数量。在2D领域,已经有很多方法如G-FSD、BAGS等能够解决小样本条件下的目标检测问题,实现缓解长尾效应的现实效果。然而,在数据受限情况下,使用多模态技术检测物体的研究仍然较为空白。因此,在标注样本数量受限的情况下,小样本自动驾驶多模态目标检测技术的研究应运而生,极具现实意义。
发明内容
为了解决同时有效利用不同模态传感器的优势互补,充分利用收集到样本质量一般的数据,在小样本条件下实现目标检测任务问题,本发明提供了一种基于transfusion的小样本条件下的自动驾驶多模态融合目标检测方法及系统。
本发明的方法所采用的技术方案为:一种小样本条件下的自动驾驶多模态融合目标检测方法,包括以下步骤:
步骤1:实时获取前行方向图像,提取图像点云数据和图像特征数据,得到雷达俯视图特征和图像特征;
步骤2:利用多模态数据融合网络,融合雷达俯视图特征和图像特征,输出检测目标;
所述多模态数据融合网络,包括图像引导的序列初始化模块、解码器模块和交叉注意力模块。
作为优选,步骤1中,采用三维骨干网络提取图像点云数据;
所述三维骨干网络,包括体素特征提取模块、三维特征提取模块、二维卷积处理模块和预测头模块;
所述体素特征提取模块,用于将三维点云划分为一定数量的体素,然后进行点的随机采样以及归一化,再对每一个非空体素使用若干体素特征提取层进行局部特征提取;对体素划分后规定同一体素内的点进行统一处理,通过随机取样在每个体素选取T个点,使用体素特征提取层进行体素特征编码,得到一系列的体素特征;
所述三维特征提取模块,对于得到的一系列体素特征,使用3D卷积来处理,包括2个卷积核,卷积核当前覆盖到非零数据点就计算卷积输出;
所述二维卷积处理模块,包含三个全卷积块,每个全卷积块的第一层通过步长为2的卷积将特征图采样为一半,之后是三个步长为1的卷积层,每个卷积层都包含BN层和ReLU操作;将每一个全卷积块的输出都上采样到一个固定的尺寸并串联构造高分辨率的特征图;
所述预测头模块,包括多个卷积层和1个全连接层,2个分支分别输出预测的回归边框位置信息和对应位置的类别信息;经过第一个基训练阶段后,骨干在第一阶段获得了良好的特征提取能力,基头分支对基类具有鉴别能力。如果每个输入中一个新类的对象少于两个,则复制一些示例数据并将它们添加到输入中。在第二个微调阶段增添增量分支,每个增量分支由一个简单的双层卷积、一层BN和一层ReLU组成。
作为优选,步骤1中,采用二维骨干网络提取图像特征数据。
作为优选,步骤2中,所述图像引导的序列初始化模块,包括维度压缩层和相机变换矩阵层;所述维度压缩层,对于步骤1得到的多视图图像特征F,沿高度轴维度压缩,作为注意力机制的键值和输入特征向量的序列,得到图像列;所述相机变换矩阵层,把俯视图特征与图像列联系起来,建立俯视图位置与图像列之间的关系,完成融合点云和图像特征初始化序列。
作为优选,步骤2中,所述解码器模块,由6个相同的解码层顺序连接构成,解码层包含2个多头注意力模块和1个前馈模块,模块与模块之间均由一个残差模块连接,并送入正则化模块进行层规范化;每一个解码层计算得到一个损失,从第一解码层得到初始的边界框预测。
作为优选,步骤2中,所述交叉注意力模块,通过围绕每个查询的投影二维中心的二维圆形高斯掩码对交叉注意力进行加权。
作为优选,在步骤2中,构建样本自适应平衡损失函数解决点云场景中的解决正负样本之间明显的不平衡问题;
所述样本自适应平衡损失函数为:
FL=-αt(1-pt)γlog(pt);
令一个C类分类器的输出为y∈RC×1,定义函数f将输出y转为伪概率值p=f(y),当前样本的类标签为t,记pt=p[t],表示分类器预测为t类的概率值;γ>0为权重指标,αt为平衡因子;
其中y是真实样本的标签,1表示正而0表示负,y'是经过sigmoid激活函数的预测输出,其数值在0到1之间;
基于焦点损失中预测p的置信度,样本自适应平衡损失动态地调整了正样本中困难样本和简单样本的权值wpos,其中s是当前位置的分数;设置numpos为每个输入样本中的正样本数,numneg为每个输入样本中的负样本数,使用/>计算权重系数wneg,以抑制大量的背景区域;设置一个负样本响应阈值θ来测量预测区域的响应水平,对高于θ的区域的数量做统计并记为numhn;设置动态权重whn,其值随着numpos和numneg的变化而变化;利用wpos调整困难样本的权重和正样本中的简单样本,并使用wneg减少正样本和负样本之间大量背景区域导致的严重失衡的负面影响,最后用whn来处理高于阈值θ的困难负样本。
本发明的系统所采用的技术方案是:一种小样本条件下的自动驾驶多模态融合目标检测系统,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的小样本条件下的自动驾驶多模态融合目标检测方法。
本发明结合最新多模态融合3D目标检测算法与小样本学习技术,在少量数据下训练得到具备一定准确性和鲁棒性的模型算法,对解决自动驾驶危险场景中样本不足的问题做出尝试和提出改进方案,进一步提高自动驾驶的安全性和可靠,在实际应用中具有广阔的价值和意义。
附图说明
下面使用实施例,以及具体实施方式作进一步说明本文的技术方案。另外,在说明技术方案的过程中,也使用了一些附图。对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图以及本发明的意图。
图1是本发明实施例的多模态融合的流程图;
图2是本发明实施例的自适应平衡权值选择流程图;
图3是本发明实施例的增量式学习流程图;
图4是本发明实施例的图像指导的查询初始化流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本实施例面向现实自动驾驶场景极端情况标注数据量少的问题,结合不同模态传感器的优势互补特性,提出的一种在小样本条件下基于图像与点云多模态融合的目标检测方法及系统。
请见图1,本实施例提供的一种小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于,包括以下步骤:
步骤1:实时获取前行方向图像,提取图像点云数据和图像特征数据,得到雷达俯视图特征和图像特征;
在一种实施方式中,采用三维骨干网络提取图像点云数据;所述三维骨干网络,包括体素特征提取模块、三维特征提取模块、二维卷积处理模块和预测头模块;
所述体素特征提取模块,用于将三维点云划分为一定数量的体素,然后进行点的随机采样以及归一化,再对每一个非空体素使用若干体素特征提取层进行局部特征提取;对体素划分后规定同一体素内的点进行统一处理,通过随机取样在每个体素选取T个点,使用体素特征提取层进行体素特征编码,得到一系列的体素特征;
所述三维特征提取模块,对于得到的一系列体素特征,使用3D卷积来处理,包括2个卷积核,其内核大小为3x3,卷积核当前覆盖到非零数据点就计算卷积输出;
所述二维卷积处理模块,包含三个全卷积块,每个全卷积块的第一层通过步长为2的卷积将特征图采样为一半,之后是三个步长为1的卷积层,每个卷积层都包含BN层和ReLU操作;将每一个全卷积块的输出都上采样到一个固定的尺寸并串联构造高分辨率的特征图;
所述预测头模块,包括多个卷积层和1个全连接层,2个分支分别输出预测的回归边框位置信息和对应位置的类别信息;经过第一个基训练阶段后,骨干在第一阶段获得了良好的特征提取能力,基头分支对基类具有鉴别能力。如果每个输入中一个新类的对象少于两个,则复制一些示例数据并将它们添加到输入中。在第二个微调阶段增添增量分支,每个增量分支由一个简单的双层卷积、一层BN和一层ReLU组成。
在一种实施方式中,采用二维骨干网络提取图像特征数据。
步骤2:利用多模态数据融合网络,融合雷达俯视图特征和图像特征,输出检测目标;
所述多模态数据融合网络,包括图像引导的序列初始化模块、解码器模块和交叉注意力模块。
在一种实施方式中,所述图像引导的序列初始化模块,包括维度压缩层和相机变换矩阵层;所述维度压缩层,对于步骤1得到的多视图图像特征F,有3个维度,沿高度轴维度压缩,作为注意力机制的键值和输入特征向量的序列,得到图像列;通常一个图像列最多包含一个物体,之后所述相机变换矩阵层,把俯视图特征与图像列联系起来,建立俯视图位置与图像列之间的关系,并且通常沿着每个图像列最多只有一个对象,完成融合点云和图像特征初始化序列。
在一种实施方式中,所述解码器模块,由6个相同的解码层顺序连接构成,解码层包含2个多头注意力模块和1个前馈模块,模块与模块之间均由一个残差模块连接,并送入正则化模块进行层规范化;每一个解码层计算得到一个损失,从第一解码层得到初始的边界框预测。具体用8检测头(num_head),前馈层的通道数设置为256,对输出的全连接层随机置零的比率设置为0.1,使用常见的relu激活函数。对于一个d维雷达俯视图特征图,通过预测一个特定类的热图,选择所有类别的前n个候选对象作为初始目标查询,并将热图看作对象候选,选择局部最大元素作为对象查询,其值大于或等于它们的8个连接的邻居。然后,使用每个被选中候选的类别,通过将一个热门类别向量线性投影到Rd向量产生的类别嵌入,对查询特征进行元素求和。n个包含丰富实例信息的目标查询被前馈网络独立地解码为方框和类标签。
在一种实施方式中,所述交叉注意力模块,保留了所有图像特征作为记忆库,通过在空间上限制初始边界框周围的交叉注意来利用局部诱导偏差,以帮助网络更好地访问相关位置。空间调制交叉注意力通过围绕每个查询的投影二维中心的二维圆形高斯掩码对交叉注意力进行加权。掩码生成使用公式(i,j)是权重掩码M的空间索引,(cx,cy)是通过将查询预测投影到图像平面上计算的2D中心,r是三维边界框投影角的最小外切圆的半径,σ是调制高斯分布带宽的超参数。
请见图2,在一种实施方式中,构建样本自适应平衡损失函数解决点云场景中的解决正负样本之间明显的不平衡问题;
所述样本自适应平衡损失函数为:
FL=-αt(1-pt)γlog(pt);
令一个C类分类器的输出为y∈RC×1,定义函数f将输出y转为伪概率值p=f(y),当前样本的类标签为t,记pt=p[t],表示分类器预测为t类的概率值;γ>0为权重指标,αt为平衡因子;
其中y是真实样本的标签,1表示正而0表示负,y'是经过sigmoid激活函数的预测输出,其数值在0到1之间;
基于焦点损失中预测p的置信度,样本自适应平衡损失动态地调整了正样本中困难样本和简单样本的权值wpos,其中s是当前位置的分数;设置numpos为每个输入样本中的正样本数,numneg为每个输入样本中的负样本数,使用/>计算权重系数wneg,以抑制大量的背景区域;设置一个负样本响应阈值θ来测量预测区域的响应水平,实验中设置为0.1。对高于θ的区域的数量做统计并记为numhn;设置动态权重whn,其值随着numpos和numneg的变化而变化;利用wpos调整困难样本的权重和正样本中的简单样本,并使用wneg减少正样本和负样本之间大量背景区域导致的严重失衡的负面影响,最后用whn来处理高于阈值θ的困难负样本。对于从样本中得到一系列带有标注标签yi的热图fi,其中N为类别的总数,wi为第k类的自适应平衡权值,wi的选择如图4。最终构建的损失函数为用于解决正负样本之间明显的不平衡问题的样本自适应平衡损失与回归损失函数相加,并引入λ调整平衡分类损失和回归损失的权重,实验中λ设置为0.25。至此,本实例的损失函数便构建完成。
本实施例还提供了一种小样本条件下的自动驾驶多模态融合目标检测系统,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的小样本条件下的自动驾驶多模态融合目标检测方法。
下面通过具体实验对本发明做进一步阐述。
实验首先配置基本数据的路径,类别名、输入的模态数等。设置特征图尺度缩放因子为4,每1轮评估一次效果。对于采样器Sampler,设置为每训练一轮对数据采样一次,每次每类最少采样5个样本,学习率设为0.001。SECOND作为backbone,定义输入通道为64、输出通道为[64,128,256]、层数为[3,5,5]、步长为2以及是否归一化与卷积。
对于小样本的处理采取增量式学习方法,在不断接收新数据的情况下不断更新模型,从而实现学习的连续性,如图3。通过不断接收新的小样本数据,更新模型,从而实现小样本目标检测任务的连续学习过程。这种方法可以使得模型更加灵活,能够适应不同场景下的目标检测任务,同时也可以提高模型的准确性和效率。具体做法是为每个新类添加新的独立分支来修改网络的头部部分,每个新的分支都与中心点的基础预测分支具有相同的头部,中心点的基础预测分支可以预测物体的中心位置、大小、方向和速度。每个增量分支由一个简单的两层卷积、一层BN和一层ReLU组成。实验总共采取10类数据,分别为汽车、卡车、施工车辆、公共汽车、拖车、障碍、摩托车、自行车、行人和交通锥,并在配置文件种定义好,其中新类为数据量相对较少的摩托车和施工车辆。
把得到的特征图按照Transformer架构输出初始预测,并引入空间调制交叉注意的软连接方式进行多模态融合,分别依赖两层解码器实现,构建多模态数据融合模型。对于特征融合neck部分,输入通道为64,与骨干网络的输出通道一致,输出通道为128,步长为0.5、1、2。对于框架的检测头部分,提前定义最多检测框数量n为200个,使用8检测头(num_head),前馈网络FFN的通道数设置为256,对输出的全连接层随机置零的比率设置为0.1,使用常见的relu激活函数。
第一层解码器结构框架遵循DETR,将n个序列送入前置层进行前向推理,最终得到初始预测边框,实例中n设置为200。在第一层解码器中,根据得到的雷达俯视图特征进行初始化,初始化查询序列时采用输入依赖和类别感知的策略。
给定一个d维雷达俯视图特征图,通过预测一个特定类的热图,选择所有类别的前n个候选对象作为初始目标查询,并将热图看作对象候选,选择局部最大元素作为对象查询,其值大于或等于它们的8个连接的邻居。然后,使用每个被选中候选的类别,通过将一个热门类别向量线性投影到Rd向量产生的类别嵌入,对查询特征进行元素求和。n个包含丰富实例信息的目标查询被前馈网络独立地解码为方框和类标签。在每个解码器层后增加前馈神经网络和监督,此时每一个解码层计算得到一个损失,从第一解码器层得到初始的边界框预测。
在第二层解码器部分,利用空间和上下文关系,基于transformer的注意力机制,使模型能够自适应地确定应该从图像中获取的信息的位置和内容,从而将第一层解码器得到的查询序列与图像特征融合,达到较好的鲁棒效果。
保留了所有图像特征作为记忆库,通过在空间上限制初始边界框周围的交叉注意来利用局部诱导偏差,以帮助网络更好地访问相关位置。空间调制交叉注意力通过围绕每个查询的投影二维中心的二维圆形高斯掩码对交叉注意力进行加权。掩码生成使用公式(i,j)是权重掩码M的空间索引,(cx,cy)是通过将查询预测投影到图像平面上计算的2D中心,r是三维边界框投影角的最小外切圆的半径,σ是调制高斯分布带宽的超参数。
除此之外,为了进一步利用高分辨率图像的能力来检测小目标,在查询初始化的阶段引入图像指导,也就是图像指导的查询初始化,如图4。
使用图像和激光雷达点云特征初始化查询,利用图像查询判断点云中哪一部分是困难样本,从而使网络可以检测激光雷达难以检测的物体。多视图图像先沿纵轴压缩作为交叉注意力的键值序列,这是因为图像列与BEV位置的关系容易使用相机几何建立,且通常一个图像列最多包含一个物体,使用相机几何形状轻松建立俯视图位置与图像列之间的关系,并且通常沿着每个图像列最多只有一个对象,因此这样做可以在不丢失关键信息的情况下减小计算量。
最后令一个前馈网络层使用包含激光雷达和图像信息的物体查询预测最终边界框,每一个解码层计算得到一个损失。使用nuScenes检测任务中的评价指标来评估方法效果,即平均精度均值与nuScenes检测分数。
本发明将小样本方法与不同模态传感器的优势互补特性结合,通过实际测试调整数据与参数,模型在小样本条件下平均精度均值与nuScenes检测分数得到一定涨点,具有一定效果目标检测功能,可应用于自动驾驶某些现实场景的数据不足的问题。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (8)
1.一种小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于,包括以下步骤:
步骤1:实时获取前行方向图像,提取图像点云数据和图像特征数据,得到雷达俯视图特征和图像特征;
步骤2:利用多模态数据融合网络,融合雷达俯视图特征和图像特征,输出检测目标;
所述多模态数据融合网络,包括图像引导的序列初始化模块、解码器模块和交叉注意力模块。
2.根据权利要求1所述的小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于:步骤1中,采用三维骨干网络提取图像点云数据;
所述三维骨干网络,包括体素特征提取模块、三维特征提取模块、二维卷积处理模块和预测头模块;
所述体素特征提取模块,用于将三维点云划分为一定数量的体素,然后进行点的随机采样以及归一化,再对每一个非空体素使用若干体素特征提取层进行局部特征提取;对体素划分后规定同一体素内的点进行统一处理,通过随机取样在每个体素选取T个点,使用体素特征提取层进行体素特征编码,得到一系列的体素特征;
所述三维特征提取模块,对于得到的一系列体素特征,使用3D卷积来处理,包括2个卷积核,卷积核当前覆盖到非零数据点就计算卷积输出;
所述二维卷积处理模块,包含三个全卷积块,每个全卷积块的第一层通过步长为2的卷积将特征图采样为一半,之后是三个步长为1的卷积层,每个卷积层都包含BN层和ReLU操作;将每一个全卷积块的输出都上采样到一个固定的尺寸并串联构造高分辨率的特征图;
所述预测头模块,包括多个卷积层和1个全连接层,2个分支分别输出预测的回归边框位置信息和对应位置的类别信息;经过第一个基训练阶段后,骨干在第一阶段获得了良好的特征提取能力,基头分支对基类具有鉴别能力。如果每个输入中一个新类的对象少于两个,则复制一些示例数据并将它们添加到输入中。在第二个微调阶段增添增量分支,每个增量分支由一个简单的双层卷积、一层BN和一层ReLU组成。
3.根据权利要求1所述的小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于:步骤1中,采用二维骨干网络提取图像特征数据。
4.根据权利要求1所述的小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于:步骤2中,所述图像引导的序列初始化模块,包括维度压缩层和相机变换矩阵层;所述维度压缩层,对于步骤1得到的多视图图像特征F,沿高度轴维度压缩,作为注意力机制的键值和输入特征向量的序列,得到图像列;所述相机变换矩阵层,把俯视图特征与图像列联系起来,建立俯视图位置与图像列之间的关系,完成融合点云和图像特征初始化序列。
5.根据权利要求1所述的小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于:步骤2中,所述解码器模块,由6个相同的解码层顺序连接构成,解码层包含2个多头注意力模块和1个前馈模块,模块与模块之间均由一个残差模块连接,并送入正则化模块进行层规范化;每一个解码层计算得到一个损失,从第一解码层得到初始的边界框预测。
6.根据权利要求1所述的小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于:步骤2中,所述交叉注意力模块,通过围绕每个查询的投影二维中心的二维圆形高斯掩码对交叉注意力进行加权。
7.根据权利要求1所述的小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于:在步骤2中,构建样本自适应平衡损失函数解决点云场景中的解决正负样本之间明显的不平衡问题;
所述样本自适应平衡损失函数为:
FL=-αt(1-pt)γlog(pt);
令一个C类分类器的输出为y∈RC×1,定义函数f将输出y转为伪概率值p=f(y),当前样本的类标签为t,记pt=p[t],表示分类器预测为t类的概率值;γ>0为权重指标,αt为平衡因子;
其中y是真实样本的标签,1表示正而0表示负,y'是经过sigmoid激活函数的预测输出,其数值在0到1之间;
基于焦点损失中预测p的置信度,样本自适应平衡损失动态地调整了正样本中困难样本和简单样本的权值wpos,其中s是当前位置的分数;设置numpos为每个输入样本中的正样本数,numneg为每个输入样本中的负样本数,使用/>计算权重系数wneg,以抑制大量的背景区域;设置一个负样本响应阈值θ来测量预测区域的响应水平,对高于θ的区域的数量做统计并记为numhn;设置动态权重whn,其值随着numpos和numneg的变化而变化;利用wpos调整困难样本的权重和正样本中的简单样本,并使用wneg减少正样本和负样本之间大量背景区域导致的严重失衡的负面影响,最后用whn来处理高于阈值θ的困难负样本。
8.一种小样本条件下的自动驾驶多模态融合目标检测系统,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的小样本条件下的自动驾驶多模态融合目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311280016.8A CN117351445A (zh) | 2023-09-28 | 2023-09-28 | 小样本条件下的自动驾驶多模态融合目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311280016.8A CN117351445A (zh) | 2023-09-28 | 2023-09-28 | 小样本条件下的自动驾驶多模态融合目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117351445A true CN117351445A (zh) | 2024-01-05 |
Family
ID=89355220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311280016.8A Pending CN117351445A (zh) | 2023-09-28 | 2023-09-28 | 小样本条件下的自动驾驶多模态融合目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117351445A (zh) |
-
2023
- 2023-09-28 CN CN202311280016.8A patent/CN117351445A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11276230B2 (en) | Inferring locations of 3D objects in a spatial environment | |
JP7430277B2 (ja) | 障害物検出方法及び装置、コンピュータデバイス、並びにコンピュータプログラム | |
US10733755B2 (en) | Learning geometric differentials for matching 3D models to objects in a 2D image | |
CN111201451B (zh) | 基于场景的激光数据和雷达数据进行场景中的对象检测的方法及装置 | |
CN114723955B (zh) | 图像处理方法、装置、设备和计算机可读存储介质 | |
US20200151512A1 (en) | Method and system for converting point cloud data for use with 2d convolutional neural networks | |
US12008762B2 (en) | Systems and methods for generating a road surface semantic segmentation map from a sequence of point clouds | |
CN113126115A (zh) | 基于点云的语义slam方法、装置、电子设备和存储介质 | |
US12079970B2 (en) | Methods and systems for semantic scene completion for sparse 3D data | |
CN113160117A (zh) | 一种自动驾驶场景下的三维点云目标检测方法 | |
CN115937520A (zh) | 基于语义信息引导的点云运动目标分割方法 | |
CN117523514A (zh) | 基于交叉注意力的雷达视觉融合数据目标检测方法及系统 | |
Aditya et al. | Collision detection: An improved deep learning approach using SENet and ResNext | |
CN114048536A (zh) | 一种基于多任务神经网络的道路结构预测与目标检测方法 | |
CN117542010A (zh) | 基于图像与4d毫米波雷达融合的3d目标检测方法 | |
CN114913519B (zh) | 一种3d目标检测方法、装置、电子设备及存储介质 | |
CN116824537A (zh) | 一种自动驾驶多任务视觉感知方法 | |
CN117351445A (zh) | 小样本条件下的自动驾驶多模态融合目标检测方法及系统 | |
CN114429524A (zh) | 单目视觉下的三维目标检测模型的构建方法及检测方法 | |
Mehtab | Deep neural networks for road scene perception in autonomous vehicles using LiDARs and vision sensors | |
CN117786520B (zh) | 目标感知模型的训练方法和应用、无人车和存储介质 | |
CN111815667B (zh) | 一种相机移动条件下高精度检测运动目标的方法 | |
CN118259312B (zh) | 一种基于激光雷达的车辆碰撞预警方法 | |
Kumar et al. | GhostNet-YOLO Algorithm for Object Detection in UAV Image | |
Menon | Lidar Based 3D Object Detection Using Yolov8 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |