CN117351445A - 小样本条件下的自动驾驶多模态融合目标检测方法及系统 - Google Patents

小样本条件下的自动驾驶多模态融合目标检测方法及系统 Download PDF

Info

Publication number
CN117351445A
CN117351445A CN202311280016.8A CN202311280016A CN117351445A CN 117351445 A CN117351445 A CN 117351445A CN 202311280016 A CN202311280016 A CN 202311280016A CN 117351445 A CN117351445 A CN 117351445A
Authority
CN
China
Prior art keywords
image
layer
module
convolution
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311280016.8A
Other languages
English (en)
Inventor
沈志东
乔丹妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202311280016.8A priority Critical patent/CN117351445A/zh
Publication of CN117351445A publication Critical patent/CN117351445A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种小样本条件下的自动驾驶多模态融合目标检测方法及系统,首先实时获取前行方向图像,提取图像点云数据和图像特征数据,得到雷达俯视图特征和图像特征;然后利用多模态数据融合网络,融合雷达俯视图特征和图像特征,输出检测目标;所述多模态数据融合网络,包括图像引导的序列初始化模块、解码器模块和交叉注意力模块。本发明将小样本方法与不同模态传感器的优势互补特性结合,通过实际测试调整数据与参数,模型在小样本条件下平均精度均值与nuScenes检测分数得到一定涨点,具有一定效果目标检测功能,可应用于自动驾驶某些现实场景的数据不足的问题。

Description

小样本条件下的自动驾驶多模态融合目标检测方法及系统
技术领域
本发明属于深度学习技术领域,涉及一种自动驾驶多模态融合目标检测方法及系统,具体涉及一种基于transfusion的小样本条件下的自动驾驶多模态融合目标检测方法及系统。
背景技术
近年来,随着深度学习技术的进步,作为计算机视觉领域的核心任务之一的目标检测技术得到了极大拓展,逐步取代传统目标检测技术而快速发展,成为研究的热点与焦点,从而在生产生活等各个领域进一步提高人们的生活质量,其中以目标检测技术作为关键一环的自动驾驶技术也逐渐成为人工智能技术的热门领域之一。
目前,在自动驾驶领域,通用的目标检测算法已经基本能够满足一般交通场景下的目标检测问题。但是,在实际的无人驾驶环境中存在着长尾效应,“长尾”是指无人驾驶车辆中出现的“边缘”情形,这种情形出现的可能性很小。这些极少发生的事件是很容易被忽略的,因此在数据集中经常被遗漏或数量不足以训练算法。尽管人类在面对罕见危险情况时表现出了与生俱来的优势,但是人工智能并不具备这种优势,因为在深度学习中大多数成熟的算法对大规模标注数据要求颇高,而收集这样大量满足条件的数据极大耗费人力、物力和财力。除此之外,自动驾驶汽车上有多种传感器包括激光雷达、摄像头、超声波传感器、雷达等,它们可以提供车辆周围环境和车辆自身状态的多模态信息,比如车辆周围的障碍物、道路状况、车速、加速度等。这些传感器的数据在一定程度上存在互补关系,提高车辆对环境的感知和理解能力。例如,激光雷达可以提供高精度的三维距离和形状信息,而摄像头则可以提供更加丰富的颜色和纹理信息,两者结合可以更加准确地识别物体。因此,可以通过融合多模态数据来充分挖掘信息,以进一步提高目标检测和其他自动驾驶模型的性能。许多传统3D方法依赖于大量的标记数据进行学习,而在自动驾驶罕见危险场景中,收集到的单一模态数据的样本量也往往远远低于训练卷积神经网络所需的数据集数量。在2D领域,已经有很多方法如G-FSD、BAGS等能够解决小样本条件下的目标检测问题,实现缓解长尾效应的现实效果。然而,在数据受限情况下,使用多模态技术检测物体的研究仍然较为空白。因此,在标注样本数量受限的情况下,小样本自动驾驶多模态目标检测技术的研究应运而生,极具现实意义。
发明内容
为了解决同时有效利用不同模态传感器的优势互补,充分利用收集到样本质量一般的数据,在小样本条件下实现目标检测任务问题,本发明提供了一种基于transfusion的小样本条件下的自动驾驶多模态融合目标检测方法及系统。
本发明的方法所采用的技术方案为:一种小样本条件下的自动驾驶多模态融合目标检测方法,包括以下步骤:
步骤1:实时获取前行方向图像,提取图像点云数据和图像特征数据,得到雷达俯视图特征和图像特征;
步骤2:利用多模态数据融合网络,融合雷达俯视图特征和图像特征,输出检测目标;
所述多模态数据融合网络,包括图像引导的序列初始化模块、解码器模块和交叉注意力模块。
作为优选,步骤1中,采用三维骨干网络提取图像点云数据;
所述三维骨干网络,包括体素特征提取模块、三维特征提取模块、二维卷积处理模块和预测头模块;
所述体素特征提取模块,用于将三维点云划分为一定数量的体素,然后进行点的随机采样以及归一化,再对每一个非空体素使用若干体素特征提取层进行局部特征提取;对体素划分后规定同一体素内的点进行统一处理,通过随机取样在每个体素选取T个点,使用体素特征提取层进行体素特征编码,得到一系列的体素特征;
所述三维特征提取模块,对于得到的一系列体素特征,使用3D卷积来处理,包括2个卷积核,卷积核当前覆盖到非零数据点就计算卷积输出;
所述二维卷积处理模块,包含三个全卷积块,每个全卷积块的第一层通过步长为2的卷积将特征图采样为一半,之后是三个步长为1的卷积层,每个卷积层都包含BN层和ReLU操作;将每一个全卷积块的输出都上采样到一个固定的尺寸并串联构造高分辨率的特征图;
所述预测头模块,包括多个卷积层和1个全连接层,2个分支分别输出预测的回归边框位置信息和对应位置的类别信息;经过第一个基训练阶段后,骨干在第一阶段获得了良好的特征提取能力,基头分支对基类具有鉴别能力。如果每个输入中一个新类的对象少于两个,则复制一些示例数据并将它们添加到输入中。在第二个微调阶段增添增量分支,每个增量分支由一个简单的双层卷积、一层BN和一层ReLU组成。
作为优选,步骤1中,采用二维骨干网络提取图像特征数据。
作为优选,步骤2中,所述图像引导的序列初始化模块,包括维度压缩层和相机变换矩阵层;所述维度压缩层,对于步骤1得到的多视图图像特征F,沿高度轴维度压缩,作为注意力机制的键值和输入特征向量的序列,得到图像列;所述相机变换矩阵层,把俯视图特征与图像列联系起来,建立俯视图位置与图像列之间的关系,完成融合点云和图像特征初始化序列。
作为优选,步骤2中,所述解码器模块,由6个相同的解码层顺序连接构成,解码层包含2个多头注意力模块和1个前馈模块,模块与模块之间均由一个残差模块连接,并送入正则化模块进行层规范化;每一个解码层计算得到一个损失,从第一解码层得到初始的边界框预测。
作为优选,步骤2中,所述交叉注意力模块,通过围绕每个查询的投影二维中心的二维圆形高斯掩码对交叉注意力进行加权。
作为优选,在步骤2中,构建样本自适应平衡损失函数解决点云场景中的解决正负样本之间明显的不平衡问题;
所述样本自适应平衡损失函数为:
FL=-αt(1-pt)γlog(pt);
令一个C类分类器的输出为y∈RC×1,定义函数f将输出y转为伪概率值p=f(y),当前样本的类标签为t,记pt=p[t],表示分类器预测为t类的概率值;γ>0为权重指标,αt为平衡因子;
其中y是真实样本的标签,1表示正而0表示负,y'是经过sigmoid激活函数的预测输出,其数值在0到1之间;
基于焦点损失中预测p的置信度,样本自适应平衡损失动态地调整了正样本中困难样本和简单样本的权值wpos,其中s是当前位置的分数;设置numpos为每个输入样本中的正样本数,numneg为每个输入样本中的负样本数,使用/>计算权重系数wneg,以抑制大量的背景区域;设置一个负样本响应阈值θ来测量预测区域的响应水平,对高于θ的区域的数量做统计并记为numhn;设置动态权重whn,其值随着numpos和numneg的变化而变化;利用wpos调整困难样本的权重和正样本中的简单样本,并使用wneg减少正样本和负样本之间大量背景区域导致的严重失衡的负面影响,最后用whn来处理高于阈值θ的困难负样本。
本发明的系统所采用的技术方案是:一种小样本条件下的自动驾驶多模态融合目标检测系统,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的小样本条件下的自动驾驶多模态融合目标检测方法。
本发明结合最新多模态融合3D目标检测算法与小样本学习技术,在少量数据下训练得到具备一定准确性和鲁棒性的模型算法,对解决自动驾驶危险场景中样本不足的问题做出尝试和提出改进方案,进一步提高自动驾驶的安全性和可靠,在实际应用中具有广阔的价值和意义。
附图说明
下面使用实施例,以及具体实施方式作进一步说明本文的技术方案。另外,在说明技术方案的过程中,也使用了一些附图。对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图以及本发明的意图。
图1是本发明实施例的多模态融合的流程图;
图2是本发明实施例的自适应平衡权值选择流程图;
图3是本发明实施例的增量式学习流程图;
图4是本发明实施例的图像指导的查询初始化流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本实施例面向现实自动驾驶场景极端情况标注数据量少的问题,结合不同模态传感器的优势互补特性,提出的一种在小样本条件下基于图像与点云多模态融合的目标检测方法及系统。
请见图1,本实施例提供的一种小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于,包括以下步骤:
步骤1:实时获取前行方向图像,提取图像点云数据和图像特征数据,得到雷达俯视图特征和图像特征;
在一种实施方式中,采用三维骨干网络提取图像点云数据;所述三维骨干网络,包括体素特征提取模块、三维特征提取模块、二维卷积处理模块和预测头模块;
所述体素特征提取模块,用于将三维点云划分为一定数量的体素,然后进行点的随机采样以及归一化,再对每一个非空体素使用若干体素特征提取层进行局部特征提取;对体素划分后规定同一体素内的点进行统一处理,通过随机取样在每个体素选取T个点,使用体素特征提取层进行体素特征编码,得到一系列的体素特征;
所述三维特征提取模块,对于得到的一系列体素特征,使用3D卷积来处理,包括2个卷积核,其内核大小为3x3,卷积核当前覆盖到非零数据点就计算卷积输出;
所述二维卷积处理模块,包含三个全卷积块,每个全卷积块的第一层通过步长为2的卷积将特征图采样为一半,之后是三个步长为1的卷积层,每个卷积层都包含BN层和ReLU操作;将每一个全卷积块的输出都上采样到一个固定的尺寸并串联构造高分辨率的特征图;
所述预测头模块,包括多个卷积层和1个全连接层,2个分支分别输出预测的回归边框位置信息和对应位置的类别信息;经过第一个基训练阶段后,骨干在第一阶段获得了良好的特征提取能力,基头分支对基类具有鉴别能力。如果每个输入中一个新类的对象少于两个,则复制一些示例数据并将它们添加到输入中。在第二个微调阶段增添增量分支,每个增量分支由一个简单的双层卷积、一层BN和一层ReLU组成。
在一种实施方式中,采用二维骨干网络提取图像特征数据。
步骤2:利用多模态数据融合网络,融合雷达俯视图特征和图像特征,输出检测目标;
所述多模态数据融合网络,包括图像引导的序列初始化模块、解码器模块和交叉注意力模块。
在一种实施方式中,所述图像引导的序列初始化模块,包括维度压缩层和相机变换矩阵层;所述维度压缩层,对于步骤1得到的多视图图像特征F,有3个维度,沿高度轴维度压缩,作为注意力机制的键值和输入特征向量的序列,得到图像列;通常一个图像列最多包含一个物体,之后所述相机变换矩阵层,把俯视图特征与图像列联系起来,建立俯视图位置与图像列之间的关系,并且通常沿着每个图像列最多只有一个对象,完成融合点云和图像特征初始化序列。
在一种实施方式中,所述解码器模块,由6个相同的解码层顺序连接构成,解码层包含2个多头注意力模块和1个前馈模块,模块与模块之间均由一个残差模块连接,并送入正则化模块进行层规范化;每一个解码层计算得到一个损失,从第一解码层得到初始的边界框预测。具体用8检测头(num_head),前馈层的通道数设置为256,对输出的全连接层随机置零的比率设置为0.1,使用常见的relu激活函数。对于一个d维雷达俯视图特征图,通过预测一个特定类的热图,选择所有类别的前n个候选对象作为初始目标查询,并将热图看作对象候选,选择局部最大元素作为对象查询,其值大于或等于它们的8个连接的邻居。然后,使用每个被选中候选的类别,通过将一个热门类别向量线性投影到Rd向量产生的类别嵌入,对查询特征进行元素求和。n个包含丰富实例信息的目标查询被前馈网络独立地解码为方框和类标签。
在一种实施方式中,所述交叉注意力模块,保留了所有图像特征作为记忆库,通过在空间上限制初始边界框周围的交叉注意来利用局部诱导偏差,以帮助网络更好地访问相关位置。空间调制交叉注意力通过围绕每个查询的投影二维中心的二维圆形高斯掩码对交叉注意力进行加权。掩码生成使用公式(i,j)是权重掩码M的空间索引,(cx,cy)是通过将查询预测投影到图像平面上计算的2D中心,r是三维边界框投影角的最小外切圆的半径,σ是调制高斯分布带宽的超参数。
请见图2,在一种实施方式中,构建样本自适应平衡损失函数解决点云场景中的解决正负样本之间明显的不平衡问题;
所述样本自适应平衡损失函数为:
FL=-αt(1-pt)γlog(pt);
令一个C类分类器的输出为y∈RC×1,定义函数f将输出y转为伪概率值p=f(y),当前样本的类标签为t,记pt=p[t],表示分类器预测为t类的概率值;γ>0为权重指标,αt为平衡因子;
其中y是真实样本的标签,1表示正而0表示负,y'是经过sigmoid激活函数的预测输出,其数值在0到1之间;
基于焦点损失中预测p的置信度,样本自适应平衡损失动态地调整了正样本中困难样本和简单样本的权值wpos,其中s是当前位置的分数;设置numpos为每个输入样本中的正样本数,numneg为每个输入样本中的负样本数,使用/>计算权重系数wneg,以抑制大量的背景区域;设置一个负样本响应阈值θ来测量预测区域的响应水平,实验中设置为0.1。对高于θ的区域的数量做统计并记为numhn;设置动态权重whn,其值随着numpos和numneg的变化而变化;利用wpos调整困难样本的权重和正样本中的简单样本,并使用wneg减少正样本和负样本之间大量背景区域导致的严重失衡的负面影响,最后用whn来处理高于阈值θ的困难负样本。对于从样本中得到一系列带有标注标签yi的热图fi,其中N为类别的总数,wi为第k类的自适应平衡权值,wi的选择如图4。最终构建的损失函数为用于解决正负样本之间明显的不平衡问题的样本自适应平衡损失与回归损失函数相加,并引入λ调整平衡分类损失和回归损失的权重,实验中λ设置为0.25。至此,本实例的损失函数便构建完成。
本实施例还提供了一种小样本条件下的自动驾驶多模态融合目标检测系统,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的小样本条件下的自动驾驶多模态融合目标检测方法。
下面通过具体实验对本发明做进一步阐述。
实验首先配置基本数据的路径,类别名、输入的模态数等。设置特征图尺度缩放因子为4,每1轮评估一次效果。对于采样器Sampler,设置为每训练一轮对数据采样一次,每次每类最少采样5个样本,学习率设为0.001。SECOND作为backbone,定义输入通道为64、输出通道为[64,128,256]、层数为[3,5,5]、步长为2以及是否归一化与卷积。
对于小样本的处理采取增量式学习方法,在不断接收新数据的情况下不断更新模型,从而实现学习的连续性,如图3。通过不断接收新的小样本数据,更新模型,从而实现小样本目标检测任务的连续学习过程。这种方法可以使得模型更加灵活,能够适应不同场景下的目标检测任务,同时也可以提高模型的准确性和效率。具体做法是为每个新类添加新的独立分支来修改网络的头部部分,每个新的分支都与中心点的基础预测分支具有相同的头部,中心点的基础预测分支可以预测物体的中心位置、大小、方向和速度。每个增量分支由一个简单的两层卷积、一层BN和一层ReLU组成。实验总共采取10类数据,分别为汽车、卡车、施工车辆、公共汽车、拖车、障碍、摩托车、自行车、行人和交通锥,并在配置文件种定义好,其中新类为数据量相对较少的摩托车和施工车辆。
把得到的特征图按照Transformer架构输出初始预测,并引入空间调制交叉注意的软连接方式进行多模态融合,分别依赖两层解码器实现,构建多模态数据融合模型。对于特征融合neck部分,输入通道为64,与骨干网络的输出通道一致,输出通道为128,步长为0.5、1、2。对于框架的检测头部分,提前定义最多检测框数量n为200个,使用8检测头(num_head),前馈网络FFN的通道数设置为256,对输出的全连接层随机置零的比率设置为0.1,使用常见的relu激活函数。
第一层解码器结构框架遵循DETR,将n个序列送入前置层进行前向推理,最终得到初始预测边框,实例中n设置为200。在第一层解码器中,根据得到的雷达俯视图特征进行初始化,初始化查询序列时采用输入依赖和类别感知的策略。
给定一个d维雷达俯视图特征图,通过预测一个特定类的热图,选择所有类别的前n个候选对象作为初始目标查询,并将热图看作对象候选,选择局部最大元素作为对象查询,其值大于或等于它们的8个连接的邻居。然后,使用每个被选中候选的类别,通过将一个热门类别向量线性投影到Rd向量产生的类别嵌入,对查询特征进行元素求和。n个包含丰富实例信息的目标查询被前馈网络独立地解码为方框和类标签。在每个解码器层后增加前馈神经网络和监督,此时每一个解码层计算得到一个损失,从第一解码器层得到初始的边界框预测。
在第二层解码器部分,利用空间和上下文关系,基于transformer的注意力机制,使模型能够自适应地确定应该从图像中获取的信息的位置和内容,从而将第一层解码器得到的查询序列与图像特征融合,达到较好的鲁棒效果。
保留了所有图像特征作为记忆库,通过在空间上限制初始边界框周围的交叉注意来利用局部诱导偏差,以帮助网络更好地访问相关位置。空间调制交叉注意力通过围绕每个查询的投影二维中心的二维圆形高斯掩码对交叉注意力进行加权。掩码生成使用公式(i,j)是权重掩码M的空间索引,(cx,cy)是通过将查询预测投影到图像平面上计算的2D中心,r是三维边界框投影角的最小外切圆的半径,σ是调制高斯分布带宽的超参数。
除此之外,为了进一步利用高分辨率图像的能力来检测小目标,在查询初始化的阶段引入图像指导,也就是图像指导的查询初始化,如图4。
使用图像和激光雷达点云特征初始化查询,利用图像查询判断点云中哪一部分是困难样本,从而使网络可以检测激光雷达难以检测的物体。多视图图像先沿纵轴压缩作为交叉注意力的键值序列,这是因为图像列与BEV位置的关系容易使用相机几何建立,且通常一个图像列最多包含一个物体,使用相机几何形状轻松建立俯视图位置与图像列之间的关系,并且通常沿着每个图像列最多只有一个对象,因此这样做可以在不丢失关键信息的情况下减小计算量。
最后令一个前馈网络层使用包含激光雷达和图像信息的物体查询预测最终边界框,每一个解码层计算得到一个损失。使用nuScenes检测任务中的评价指标来评估方法效果,即平均精度均值与nuScenes检测分数。
本发明将小样本方法与不同模态传感器的优势互补特性结合,通过实际测试调整数据与参数,模型在小样本条件下平均精度均值与nuScenes检测分数得到一定涨点,具有一定效果目标检测功能,可应用于自动驾驶某些现实场景的数据不足的问题。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (8)

1.一种小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于,包括以下步骤:
步骤1:实时获取前行方向图像,提取图像点云数据和图像特征数据,得到雷达俯视图特征和图像特征;
步骤2:利用多模态数据融合网络,融合雷达俯视图特征和图像特征,输出检测目标;
所述多模态数据融合网络,包括图像引导的序列初始化模块、解码器模块和交叉注意力模块。
2.根据权利要求1所述的小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于:步骤1中,采用三维骨干网络提取图像点云数据;
所述三维骨干网络,包括体素特征提取模块、三维特征提取模块、二维卷积处理模块和预测头模块;
所述体素特征提取模块,用于将三维点云划分为一定数量的体素,然后进行点的随机采样以及归一化,再对每一个非空体素使用若干体素特征提取层进行局部特征提取;对体素划分后规定同一体素内的点进行统一处理,通过随机取样在每个体素选取T个点,使用体素特征提取层进行体素特征编码,得到一系列的体素特征;
所述三维特征提取模块,对于得到的一系列体素特征,使用3D卷积来处理,包括2个卷积核,卷积核当前覆盖到非零数据点就计算卷积输出;
所述二维卷积处理模块,包含三个全卷积块,每个全卷积块的第一层通过步长为2的卷积将特征图采样为一半,之后是三个步长为1的卷积层,每个卷积层都包含BN层和ReLU操作;将每一个全卷积块的输出都上采样到一个固定的尺寸并串联构造高分辨率的特征图;
所述预测头模块,包括多个卷积层和1个全连接层,2个分支分别输出预测的回归边框位置信息和对应位置的类别信息;经过第一个基训练阶段后,骨干在第一阶段获得了良好的特征提取能力,基头分支对基类具有鉴别能力。如果每个输入中一个新类的对象少于两个,则复制一些示例数据并将它们添加到输入中。在第二个微调阶段增添增量分支,每个增量分支由一个简单的双层卷积、一层BN和一层ReLU组成。
3.根据权利要求1所述的小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于:步骤1中,采用二维骨干网络提取图像特征数据。
4.根据权利要求1所述的小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于:步骤2中,所述图像引导的序列初始化模块,包括维度压缩层和相机变换矩阵层;所述维度压缩层,对于步骤1得到的多视图图像特征F,沿高度轴维度压缩,作为注意力机制的键值和输入特征向量的序列,得到图像列;所述相机变换矩阵层,把俯视图特征与图像列联系起来,建立俯视图位置与图像列之间的关系,完成融合点云和图像特征初始化序列。
5.根据权利要求1所述的小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于:步骤2中,所述解码器模块,由6个相同的解码层顺序连接构成,解码层包含2个多头注意力模块和1个前馈模块,模块与模块之间均由一个残差模块连接,并送入正则化模块进行层规范化;每一个解码层计算得到一个损失,从第一解码层得到初始的边界框预测。
6.根据权利要求1所述的小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于:步骤2中,所述交叉注意力模块,通过围绕每个查询的投影二维中心的二维圆形高斯掩码对交叉注意力进行加权。
7.根据权利要求1所述的小样本条件下的自动驾驶多模态融合目标检测方法,其特征在于:在步骤2中,构建样本自适应平衡损失函数解决点云场景中的解决正负样本之间明显的不平衡问题;
所述样本自适应平衡损失函数为:
FL=-αt(1-pt)γlog(pt);
令一个C类分类器的输出为y∈RC×1,定义函数f将输出y转为伪概率值p=f(y),当前样本的类标签为t,记pt=p[t],表示分类器预测为t类的概率值;γ>0为权重指标,αt为平衡因子;
其中y是真实样本的标签,1表示正而0表示负,y'是经过sigmoid激活函数的预测输出,其数值在0到1之间;
基于焦点损失中预测p的置信度,样本自适应平衡损失动态地调整了正样本中困难样本和简单样本的权值wpos,其中s是当前位置的分数;设置numpos为每个输入样本中的正样本数,numneg为每个输入样本中的负样本数,使用/>计算权重系数wneg,以抑制大量的背景区域;设置一个负样本响应阈值θ来测量预测区域的响应水平,对高于θ的区域的数量做统计并记为numhn;设置动态权重whn,其值随着numpos和numneg的变化而变化;利用wpos调整困难样本的权重和正样本中的简单样本,并使用wneg减少正样本和负样本之间大量背景区域导致的严重失衡的负面影响,最后用whn来处理高于阈值θ的困难负样本。
8.一种小样本条件下的自动驾驶多模态融合目标检测系统,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的小样本条件下的自动驾驶多模态融合目标检测方法。
CN202311280016.8A 2023-09-28 2023-09-28 小样本条件下的自动驾驶多模态融合目标检测方法及系统 Pending CN117351445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311280016.8A CN117351445A (zh) 2023-09-28 2023-09-28 小样本条件下的自动驾驶多模态融合目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311280016.8A CN117351445A (zh) 2023-09-28 2023-09-28 小样本条件下的自动驾驶多模态融合目标检测方法及系统

Publications (1)

Publication Number Publication Date
CN117351445A true CN117351445A (zh) 2024-01-05

Family

ID=89355220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311280016.8A Pending CN117351445A (zh) 2023-09-28 2023-09-28 小样本条件下的自动驾驶多模态融合目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN117351445A (zh)

Similar Documents

Publication Publication Date Title
US11276230B2 (en) Inferring locations of 3D objects in a spatial environment
JP7430277B2 (ja) 障害物検出方法及び装置、コンピュータデバイス、並びにコンピュータプログラム
US10733755B2 (en) Learning geometric differentials for matching 3D models to objects in a 2D image
CN111201451B (zh) 基于场景的激光数据和雷达数据进行场景中的对象检测的方法及装置
CN114723955B (zh) 图像处理方法、装置、设备和计算机可读存储介质
US20200151512A1 (en) Method and system for converting point cloud data for use with 2d convolutional neural networks
US12008762B2 (en) Systems and methods for generating a road surface semantic segmentation map from a sequence of point clouds
CN113126115A (zh) 基于点云的语义slam方法、装置、电子设备和存储介质
US12079970B2 (en) Methods and systems for semantic scene completion for sparse 3D data
CN113160117A (zh) 一种自动驾驶场景下的三维点云目标检测方法
CN115937520A (zh) 基于语义信息引导的点云运动目标分割方法
CN117523514A (zh) 基于交叉注意力的雷达视觉融合数据目标检测方法及系统
Aditya et al. Collision detection: An improved deep learning approach using SENet and ResNext
CN114048536A (zh) 一种基于多任务神经网络的道路结构预测与目标检测方法
CN117542010A (zh) 基于图像与4d毫米波雷达融合的3d目标检测方法
CN114913519B (zh) 一种3d目标检测方法、装置、电子设备及存储介质
CN116824537A (zh) 一种自动驾驶多任务视觉感知方法
CN117351445A (zh) 小样本条件下的自动驾驶多模态融合目标检测方法及系统
CN114429524A (zh) 单目视觉下的三维目标检测模型的构建方法及检测方法
Mehtab Deep neural networks for road scene perception in autonomous vehicles using LiDARs and vision sensors
CN117786520B (zh) 目标感知模型的训练方法和应用、无人车和存储介质
CN111815667B (zh) 一种相机移动条件下高精度检测运动目标的方法
CN118259312B (zh) 一种基于激光雷达的车辆碰撞预警方法
Kumar et al. GhostNet-YOLO Algorithm for Object Detection in UAV Image
Menon Lidar Based 3D Object Detection Using Yolov8

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination