CN112257605A - 基于自标注训练样本的三维目标检测方法、系统及装置 - Google Patents

基于自标注训练样本的三维目标检测方法、系统及装置 Download PDF

Info

Publication number
CN112257605A
CN112257605A CN202011146504.6A CN202011146504A CN112257605A CN 112257605 A CN112257605 A CN 112257605A CN 202011146504 A CN202011146504 A CN 202011146504A CN 112257605 A CN112257605 A CN 112257605A
Authority
CN
China
Prior art keywords
sample
level
feature map
anchor
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011146504.6A
Other languages
English (en)
Other versions
CN112257605B (zh
Inventor
张兆翔
张驰
杨振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202011146504.6A priority Critical patent/CN112257605B/zh
Publication of CN112257605A publication Critical patent/CN112257605A/zh
Application granted granted Critical
Publication of CN112257605B publication Critical patent/CN112257605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉、模式识别和机器学习领域,具体涉及了一种基于自标注训练样本的三维目标检测方法、系统及装置,旨在解决真实带标签数据获取难度大、代价高,而虚拟数据训练的模型无法适应真实场景的问题。本发明包括:通过训练好的模型进行输入图像序列的三维目标检测,其中,模型训练方法包括:向CARLA模拟器中嵌入高质量的模型;通过基于激光雷达引导的采样算法对CARLA模拟器生成的点云数据样本进行增强;以三维目标检测器VoxelNet为基础,通过引入体素级别和锚点级别的领域自适应模块进行领域偏移的对齐,并且增加一致性约束来搭建领域自适应的三维目标检测器DA‑VoxelNet。本发明使得由虚拟数据训练的三维目标检测模型能够适应真实场景,检测效果好、精度高。

Description

基于自标注训练样本的三维目标检测方法、系统及装置
技术领域
本发明属于计算机视觉、模式识别和机器学习领域,具体涉及了一种基于自标注训练样本的三维目标检测方法、系统及装置。
背景技术
三维目标检测可以提供更为详细的空间信息和语义信息,即目标类别和目标在三维空间中的位置、朝向、所占空间体积等,近年来受到越来越多的关注。通常,三维目标检测需要大量的带高质量标签的数据来训练模型。而在计算机视觉领域中,收集充分的人工标注数据的代价非常昂贵,加上三维目标检测需要的标注信息更加复杂化和专业化,数据标注成本相比分类和图像目标检测等任务更高,因此极大地阻碍了三维目标检测的发展。
幸运的是,计算机图形技术为我们解决三维目标检测算法的发展被人工标注数据限制这一问题提供了可能。随着计算机图形技术的不断发展,由计算机合成的虚拟数据越来越多地被用来弥补标注数据的不足,并应用在很多计算机视觉任务中,包括:光流估计,语义分割,视频分析,立体视觉和导航。计算机中的模拟器可以生成自带详细标注的数据,其成本只有对模拟器建模的开销,并且是一次性的——一旦模拟器组建完成,就可以源源不断的生成我们所需要的自标注训练样本。这一点非常重要。因为,利用模拟器自动生成的标注更加可靠和精准,而人工标注却不可避免地出现一些疏漏,比如,标记不合适的目标外包框。这种疏漏在点云数据中显得尤为突出,因为在点云数据中,一个目标面向激光雷达的表面会被表示为一个稀疏的点集,而背向激光雷达的表面是没有任何点来表示的,特别是相对于激光雷达具有一定距离的目标,其不可知的表面所占的比例更大,以至于点云数据的标注人员只能通过直觉去标记目标的3D外包框。但是,这种依靠直觉标记的3D外包框通常是不准确的,甚至会出现比较大的误差。此外,虚拟数据和模拟器可以很大程度上减小使用现实世界中的数据时经常难以消除的偏差。因为我们在现实世界中遇到的实际场景往往是不可控制的,这将导致模型在实际应用场景中获取的图像数据在质量、光照、背景、物体外观、观察角度等方面发生很大的变化,模拟器及其生成的自标注训练样本有助于提高训练集数据的多样性,并且能够完全覆盖真实场景的所有情况,从而减小因场景变化而带来的数据偏差。
通过模拟器获取模型训练数据,可以大大降低模型对真实带标签数据的依赖,然而,这种方法也不可避免地带来了模型从虚拟数据到真实场景的鸿沟,使得由虚拟数据训练的三维目标检测模型无法适应真实场景。
发明内容
为了解决现有技术中的上述问题,即真实带标签数据获取难度大、代价高,而虚拟数据训练的模型无法适应真实场景的问题,本发明提供了一种基于自标注训练样本的三维目标检测方法,该三维目标检测方法包括:
通过第一模型进行输入图像序列的三维目标检测,获得目标类别和目标在三维空间中的位置、朝向和所占空间体积;
其中,所述第一模型为基于虚拟样本数据和真实样本数据共同训练的三维目标检测模型,其训练方法为:
步骤S10,将所述三维目标检测模型嵌入CARLA模拟器,并通过所述CARLA模拟器生成虚拟样本数据;所述虚拟样本数据包括CARLA模拟器中的深度传感器和激光雷达得到的深度图像和点云数据;
步骤S20,获取所述三维目标检测模型的少量真实样本数据,并进行所述虚拟样本数据和真实样本数据的样本级和锚点级的特征提取,获得样本级特征图和锚点级特征图;所述真实样本数据包括真实场景中的深度传感器和激光雷达得到的深度图像和点云数据;
步骤S30,进行所述样本级特征图的特征对齐以及所述锚点级特征图的特征对齐,获得样本级对齐特征图和样本级分类标签以及锚点级对齐特征图和锚点级分类标签;
步骤S40,将获得的对齐特征图和对应的分类标签加入所述三维目标检测模型的训练样本集,并进行模型的迭代训练直至模型的损失函数值低于设定阈值或达到设定训练次数,获得训练好的第一模型。
在一些优选的实施例中,步骤S10之后还设置有虚拟样本数据增强的步骤,其方法为:
通过基于激光雷达引导的采样算法根据所述点云数据中的激光点在深度图像上的投影位置进行采样,将采样后的深度图像反投影回相机三维坐标系,得到增强后的点云数据,获得增强的虚拟样本数据。
在一些优选的实施例中,所述三维目标检测模型为具有流线结构的多凸壳的三维物理碰撞模型。
在一些优选的实施例中,步骤S20包括:
步骤S21,基于所述虚拟样本数据和真实样本数据中的点云数据构建激光点云数据库D:
Figure BDA0002739844960000031
其中,Di代表激光点云数据库中第i个激光点云数据,xi,yi,zi表示激光点云中第i个点相对于激光雷达的三维位置信息,Ri表示激光点云中第i个点的反射率,N为激光点云中点云的数量;
步骤S22,进行所述数据库的体素网格划分,并通过特征提取器进行每个体素网格中点云的特征提取,获得空间稀疏的体素特征;
步骤S23,通过稀疏卷积编码所述空间稀疏的体素特征,获得空间特征图fs(x,y,z):
Figure BDA0002739844960000041
其中,F(·)表示特征提取,包括三位空间栅格化操作、池化操作和全连接操作;Di代表输入的激光点云数据,(x,y,z)表示空间特征图fs(x,y,z)的坐标;
步骤S24,将所述空间特征图投影到顶视图进行垂直方向的维度压缩,获得样本级特征图;
步骤S25,基于所述样本级特征图,通过特征金字塔卷积网络获取不同尺度的特征,并通过反卷积层合并所述不同尺度的特征,获得锚点级特征图。
在一些优选的实施例中,步骤S30包括:
步骤S31,通过样本级二分类器进行所述样本级特征图的二分类,获得所述样本级特征图的样本级分类标签;所述样本级分类标签包括虚拟样本分类标签0和真实样本分类标签1;
步骤S32,通过锚点级二分类器进行所述样本级特征图的二分类,获得所述锚点级特征图的锚点级分类标签;所述锚点级分类标签包括虚拟样本分类标签0和真实样本分类标签1。
在一些优选的实施例中,所述样本级二分类器,其训练中的领域自适应损失函数Lsample为:
Figure BDA0002739844960000051
其中,Fs表示卷积和非线性激活的操作,ns和nt分别代表用于样本级二分类器训练的源领域和目标领域的样本数量,Ds代表样本级二分类器,
Figure BDA0002739844960000052
代表源领域样本数据的样本级特征图,
Figure BDA0002739844960000053
代表目标领域样本数据的样本级特征图。
在一些优选的实施例中,所述锚点级二分类器,其训练中的领域自适应损失函数Lanchor为:
Figure BDA0002739844960000054
其中,Fa表示卷积和非线性激活的操作,ns和nt分别代表用于锚点级二分类器训练的源领域和目标领域的样本数量,Da代表锚点级二分类器,
Figure BDA0002739844960000055
代表源领域第i帧点云数据特征,
Figure BDA0002739844960000056
代表目标领域第i帧点云数据特征。
在一些优选的实施例中,所述样本级二分类器和锚点级二分类器的分类结果在一致性约束下趋于一致;所述一致性约束,其损失函数Lcon为:
Lcon=Lconf(ns,fsample)+Lconf(nt,fanchor)
Lconf(n,f)=‖Ms(n,f)-Ma(n,f)‖2
Figure BDA0002739844960000057
Figure BDA0002739844960000058
其中,n=ns,nt,f=fsample,fanchor,Ds(Fs(pi))(w,h)和Da(Fa(pi))(w,h)分别代表样本级二分类器和锚点级二分类器在特征向量的每个位置上的输出结果,‖·‖2代表L2范数,Hs和Ws分别代表特征图的高和宽。
在一些优选的实施例中,所述三维目标检测模型包括目标的分类分支和回归分支;
所述分类分支的交叉熵损失函数Loss_c为:
Figure BDA0002739844960000061
其中,N为用于三维目标检测模型训练的样本数量,yi表示第i个样本的标签,pi表示第i个样本预测为正的概率;
所述回归分支的Smooth L1损失函数SmoothL1为:
Figure BDA0002739844960000062
其中,x代表预测值与真实值之间的误差。
本发明的另一方面,提出了一种基于自标注训练样本的三维目标检测系统,该三维目标检测系统包括以下模块:
输入模块,用于获取输入图像序列;
目标检测模块,用于通过第一模型进行所述输入图像序列的三维目标检测,获得目标类别和目标在三维空间中的位置、朝向和所占空间体积;
其中,所述第一模型为基于虚拟样本数据和真实样本数据共同训练的三维目标检测模型,其训练方法为:
步骤S10,将所述三维目标检测模型嵌入CARLA模拟器,并通过所述CARLA模拟器生成虚拟样本数据;所述虚拟样本数据包括CARLA模拟器中的深度传感器和激光雷达得到的深度图像和点云数据;
步骤S20,获取所述三维目标检测模型的少量真实样本数据,并进行所述虚拟样本数据和真实样本数据的样本级和锚点级的特征提取,获得样本级特征图和锚点级特征图;所述真实样本数据包括真实场景中的深度传感器和激光雷达得到的深度图像和点云数据;
步骤S30,进行所述样本级特征图的特征对齐以及所述锚点级特征图的特征对齐,获得样本级对齐特征图和样本级分类标签以及锚点级对齐特征图和锚点级分类标签;
步骤S40,将获得的对齐特征图和对应的分类标签加入所述三维目标检测模型的训练样本集,并进行模型的迭代训练直至模型的损失函数值低于设定阈值或达到设定训练次数,获得训练好的第一模型。
本发明的有益效果:
(1)本发明基于自标注训练样本的三维目标检测方法,利用CARLA模拟器生成用于三维目标检测任务的大量自标注训练样本,可以很大程度上降低三维目标检测器对真实带标签数据的依赖,进一步的,通过引入一种新型的面向三维目标检测的领域自适应方法来引导网络跨越从虚拟数据到真实场景的鸿沟,从而使得由虚拟数据训练的三维目标检测模型能够适应真实场景,检测效果好、精度高。
(2)本发明基于自标注训练样本的三维目标检测方法,还通过基于激光雷达引导的采样算法对CARLA模拟器生成的点云数据样本进行增强,进一步提升了模型训练的效果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于自标注训练样本的三维目标检测方法的流程示意图;
图2是本发明基于自标注训练样本的三维目标检测方法一种实施例的网络结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于自标注训练样本的三维目标检测方法,解决了三维数据标注成本高昂的一大痛点,借助计算机合成的自标注训练样本来解决三维目标检测算法对人工标注数据的依赖问题,并通过引入领域自适应模块引导三维目标检测模型跨越从虚拟数据到真实场景的鸿沟,从而三维目标检测模型可以基于自标注训练样本进行训练。
实现本发明方法的主要思路是:首先向CARLA模拟器中嵌入高质量的三维模型,然后使用基于激光雷达引导的采样算法对CARLA模拟器生成的虚拟点云数据样本进行增强,从而得到自标注训练样本。然后,以自标注数据训练的三维目标检测器VoxelNet为基础,通过引入体素级别的领域自适应模块和锚点级别的领域自适应模块进行领域偏移的对齐,并且在这两个模块之间增加一致性约束来搭建领域自适应的三维目标检测器:DA-VoxelNet,从而使得由CARLA模拟器生成的自标注样本训练的三维目标检测器能够适应真实场景。
本发明的一种基于自标注训练样本的三维目标检测方法,该三维目标检测方法包括:
通过第一模型进行输入图像序列的三维目标检测,获得目标类别和目标在三维空间中的位置、朝向和所占空间体积;
其中,所述第一模型为基于虚拟样本数据和真实样本数据共同训练的三维目标检测模型,其训练方法为:
步骤S10,将所述三维目标检测模型嵌入CARLA模拟器,并通过所述CARLA模拟器生成虚拟样本数据;所述虚拟样本数据包括CARLA模拟器中的深度传感器和激光雷达得到的深度图像和点云数据;
步骤S20,获取所述三维目标检测模型的少量真实样本数据,并进行所述虚拟样本数据和真实样本数据的样本级和锚点级的特征提取,获得样本级特征图和锚点级特征图;所述真实样本数据包括真实场景中的深度传感器和激光雷达得到的深度图像和点云数据;
步骤S30,进行所述样本级特征图的特征对齐以及所述锚点级特征图的特征对齐,获得样本级对齐特征图和样本级分类标签以及锚点级对齐特征图和锚点级分类标签;
步骤S40,将获得的对齐特征图和对应的分类标签加入所述三维目标检测模型的训练样本集,并进行模型的迭代训练直至模型的损失函数值低于设定阈值或达到设定训练次数,获得训练好的第一模型。
为了更清晰地对本发明基于自标注训练样本的三维目标检测方法进行说明,下面结合图1对本发明实施例中各步骤展开详述。
本发明第一实施例的基于自标注训练样本的三维目标检测方法,各步骤详细描述如下:
通过第一模型进行输入图像序列的三维目标检测,获得目标类别和目标在三维空间中的位置、朝向和所占空间体积。
其中,所述第一模型为基于虚拟样本数据和真实样本数据共同训练的三维目标检测模型,其训练方法为:
步骤S10,将所述三维目标检测模型嵌入CARLA模拟器,并通过所述CARLA模拟器生成虚拟样本数据;所述虚拟样本数据包括CARLA模拟器中的深度传感器和激光雷达得到的深度图像和点云数据。
本发明一个实施例中,嵌入CARLA模拟器的模型为更具流线结构的多凸壳(MultiConvex Hull)的三维物理碰撞模型。
为了进一步增加模型训练的效果,步骤B10之后还设置有虚拟样本数据增强的步骤,其方法为:
通过基于激光雷达引导的采样算法根据所述点云数据中的激光点在深度图像上的投影位置进行采样,将采样后的深度图像反投影回相机三维坐标系,得到增强后的点云数据,获得增强的虚拟样本数据。
步骤S20,获取所述三维目标检测模型的少量真实样本数据,并进行所述虚拟样本数据和真实样本数据的样本级和锚点级的特征提取,获得样本级特征图和锚点级特征图;所述真实样本数据包括真实场景中的深度传感器和激光雷达得到的深度图像和点云数据。
步骤S21,基于所述虚拟样本数据和真实样本数据中的点云数据构建激光点云数据库D,如式(1)所示:
Figure BDA0002739844960000101
其中,Di代表激光点云数据库中第i个激光点云数据,xi,yi,zi表示激光点云中第i个点相对于激光雷达的三维位置信息,Ri表示激光点云中第i个点的反射率,N为激光点云中点云的数量。
假设激光雷达点云包含一个范围为H、W、D的三维空间,分别表示垂直方向上的高度、水平方向上的位置和距离。假设每个体素的尺寸大小为ΔH,ΔW,ΔD,则整个三维空间的体素网格的尺寸可以通过H/ΔH,W/ΔW,D/ΔD计算得到。
步骤S22,进行所述数据库的体素网格划分,并通过特征提取器进行每个体素网格中点云的特征提取,获得空间稀疏的体素特征。
步骤S23,通过稀疏卷积编码所述空间稀疏的体素特征,获得空间特征图fs(x,y,z),如式(2)所示:
Figure BDA0002739844960000111
其中,F(·)表示特征提取,包括三位空间栅格化操作、池化操作和全连接操作;Di代表输入的激光点云数据,(x,y,z)表示空间特征图fs(x,y,z)的坐标。
步骤S24,将所述空间特征图fs(x,y,z)投影到顶视图(即鸟瞰图)进行垂直方向的维度压缩,获得样本级特征图fsample(u,v)。
假设原始特征为(C,D,H,W)的特征,则将高度的特征并入特征通道变为(C×D,H,W)的2D卷积特征,即样本级特征图fsample(u,v)。
步骤S25,基于所述样本级特征图fsample(u,v),通过特征金字塔卷积网络获取不同尺度的特征,并通过反卷积层合并所述不同尺度的特征,获得锚点级特征图fanchor(u,v)。
步骤S30,进行样本级特征图的特征对齐以及所述锚点级特征图的特征对齐,获得样本级对齐特征图和样本级分类标签以及锚点级对齐特征图和锚点级分类标签。
步骤S31,通过样本级二分类器进行所述样本级特征图的二分类,获得所述样本级特征图的样本级分类标签;所述样本级分类标签包括虚拟样本分类标签0和真实样本分类标签1。
将步骤S24获取的样本级特征图fsample(u,v)送入到样本级别的样本级二分类器中进行分类,判断当前特征所属分类,此分类包含真实数据和虚拟数据两类,用于对齐当前对虚拟数据和真实数据提取的样本级别的特征。假设已经获得了虚拟数据的样本级别的特征
Figure BDA0002739844960000112
同时还有无标签的真实数据的样本级别的特征
Figure BDA0002739844960000113
领域分类标签对于虚拟数据是0,对于真实数据是1。
样本级二分类器,其训练中的领域自适应损失函数Lsample如式(3)所示:
Figure BDA0002739844960000121
其中,Fs表示卷积和非线性激活的操作,ns和nt分别代表用于样本级二分类器训练的源领域和目标领域的样本数量,Ds代表样本级二分类器,
Figure BDA0002739844960000122
代表源领域样本数据的样本级特征图,
Figure BDA0002739844960000123
代表目标领域样本数据的样本级特征图。
步骤S32,通过锚点级二分类器进行所述样本级特征图的二分类,获得所述锚点级特征图的锚点级分类标签;所述锚点级分类标签包括虚拟样本分类标签0和真实样本分类标签1。
将步骤S25获取的锚点级特征图fanchor(u,v)送入到锚点级别的二分类器中进行分类,判断当前特征所属分类,此分类包含真实数据和虚拟数据两类,用于对齐当前对虚拟数据和真实数据提取的锚点级别的特征。假设已经获得了虚拟数据的锚点级别的特征
Figure BDA0002739844960000124
同时还有无标签的真实数据的锚点级别的特征
Figure BDA0002739844960000125
领域分类标签对于虚拟数据是0,对于真实数据是1。
锚点级二分类器,其训练中的领域自适应损失函数Lanchor如式(4)所示:
Figure BDA0002739844960000126
其中,Fa表示卷积和非线性激活的操作,ns和nt分别代表用于锚点级二分类器训练的源领域和目标领域的样本数量,Da代表锚点级二分类器,
Figure BDA0002739844960000131
代表源领域第i帧点云数据特征,
Figure BDA0002739844960000132
代表目标领域第i帧点云数据特征。
通过在样本级和锚点级两个二分类器中添加一个一致性约束,是的样本级二分类器和锚点级二分类器的分类结果趋于一致,假设特征提取器Fs输出一个宽度和高度为Ws和Hs的特征向量,而特征提取器Fa输出一个宽度和高度为Wa和Ha的特征向量,那么一致性约束的损失函数Lcon可以定义如式(5)所示:
Figure BDA0002739844960000135
其中的一些中间参数的变换和计算方法如式(6)、式(7)和式(8)所示:
Figure BDA0002739844960000136
Figure BDA0002739844960000133
Figure BDA0002739844960000134
其中,n=ns,nt,f=fsample,fanchor,Ds(Fs(pi))(w,h)和Da(Fa(pi))(w,h)分别代表样本级二分类器和锚点级二分类器在特征向量的每个位置上的输出结果,‖·‖2代表L2范数,Hs和Ws分别代表特征图的高和宽。
步骤S40,将获得的对齐特征图和对应的分类标签加入所述三维目标检测模型的训练样本集,并进行模型的迭代训练直至模型的损失函数值低于设定阈值或达到设定训练次数,获得训练好的第一模型。
将步骤S32获取的对齐后的锚点级特征图fanchor作为三维目标检测模型的训练集送入模型的分类分支和回归分支,通过损失函数减小预测和真实目标的标签的残差对网络进行学习。分类分支用于判断是否为目标,而回归分支用于回归出目标的位置、尺寸和方向。
本发明一个实施例中,对于分类任务中的汽车,将锚点和目标的交并比(IOU)大于0.6的设置为正样本,交并比(IOU)小于0.45的设为负样本。
分类分支的交叉熵损失函数Loss_c如式(9)所示:
Figure BDA0002739844960000141
其中,N为用于三维目标检测模型训练的样本数量,yi表示第i个样本的标签,pi表示第i个样本预测为正的概率。
本发明一个实施例中,对于回归任务,对应目标车的预定义锚点的宽、长、高的尺寸为(1.6,3.9,1.5)米。定义一个三维的真实边界框为xg,yg,zg,lg,wg,hgg,其中,xg,yg,zg是边界框的中心位置坐标,lg,wg,hg表示三维目标的长宽高,θg是目标在Z轴方向的转角,以*a表示正样本的锚点,以Δ*表示对应的残差,则其关系表示如式(10)-式(16)所示:
Figure BDA0002739844960000142
Figure BDA0002739844960000143
Figure BDA0002739844960000144
Figure BDA0002739844960000145
Figure BDA0002739844960000146
Figure BDA0002739844960000147
Δθ=sin(θga) (16)
回归分支的Smooth L1损失函数SmoothL1如式(17)所示:
Figure BDA0002739844960000151
其中,x代表预测值与真实值之间的误差。
如图2所示,为本发明基于自标注训练样本的三维目标检测方法一种实施例的网络结构示意图,C、D、H和W分别表示特征图的通道数量、深度、高度和宽度。
为了详细说明本发明的具体实施方式及验证发明的有效性,我们将本发明提出的方法应用于公开无人驾驶数据集KITTI。在实施例中,对于KITTI中,使用无标签的train数据集进行训练,使用val数据集进行测试。如表1所示,为本发明方法在KITTI数据集的3D目标检测结果,评价指标包括三维框和顶视图(鸟瞰图)框的平均准确率:
表1
Figure BDA0002739844960000152
其中,BEV AP和3D AP分别代表鸟瞰图框精度和三维框精度,Easy、Moderate和Hard分别代表KITTI数据集中的简单、中等和困难样本,从表中数据可知本发明方法在不借助任何人工标记的真实数据的前提下,可在原有方法上取得明显的性能提升,在BEV AP下的困难样本检测中提升最为明显,使用本发明所提方法使得模型性能提升了6.06个点的绝对精度,效果显著。
本发明第二实施例的基于自标注训练样本的三维目标检测系统,该三维目标检测系统包括以下模块:
输入模块,用于获取输入图像序列;
目标检测模块,用于通过第一模型进行所述输入图像序列的三维目标检测,获得目标类别和目标在三维空间中的位置、朝向和所占空间体积;
其中,所述第一模型为基于虚拟样本数据和真实样本数据共同训练的三维目标检测模型,其训练方法为:
步骤S10,将所述三维目标检测模型嵌入CARLA模拟器,并通过所述CARLA模拟器生成虚拟样本数据;所述虚拟样本数据包括CARLA模拟器中的深度传感器和激光雷达得到的深度图像和点云数据;
步骤S20,获取所述三维目标检测模型的少量真实样本数据,并进行所述虚拟样本数据和真实样本数据的样本级和锚点级的特征提取,获得样本级特征图和锚点级特征图;所述真实样本数据包括真实场景中的深度传感器和激光雷达得到的深度图像和点云数据;
步骤S30,进行所述样本级特征图的特征对齐以及所述锚点级特征图的特征对齐,获得样本级对齐特征图和样本级分类标签以及锚点级对齐特征图和锚点级分类标签;
步骤S40,将获得的对齐特征图和对应的分类标签加入所述三维目标检测模型的训练样本集,并进行模型的迭代训练直至模型的损失函数值低于设定阈值或达到设定训练次数,获得训练好的第一模型。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于自标注训练样本的三维目标检测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于自标注训练样本的三维目标检测方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于自标注训练样本的三维目标检测方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于自标注训练样本的三维目标检测方法,其特征在于,该三维目标检测方法包括:
通过第一模型进行输入图像序列的三维目标检测,获得目标类别和目标在三维空间中的位置、朝向和所占空间体积;
其中,所述第一模型为基于虚拟样本数据和真实样本数据共同训练的三维目标检测模型,其训练方法为:
步骤S10,将所述三维目标检测模型嵌入CARLA模拟器,并通过所述CARLA模拟器生成虚拟样本数据;所述虚拟样本数据包括CARLA模拟器中的深度传感器和激光雷达得到的深度图像和点云数据;
步骤S20,获取所述三维目标检测模型的少量真实样本数据,并进行所述虚拟样本数据和真实样本数据的样本级和锚点级的特征提取,获得样本级特征图和锚点级特征图;所述真实样本数据包括真实场景中的深度传感器和激光雷达得到的深度图像和点云数据;
步骤S30,进行样本级特征图的特征对齐以及所述锚点级特征图的特征对齐,获得样本级对齐特征图和样本级分类标签以及锚点级对齐特征图和锚点级分类标签;
步骤S40,将获得的对齐特征图和对应的分类标签加入所述三维目标检测模型的训练样本集,并进行模型的迭代训练直至模型的损失函数值低于设定阈值或达到设定训练次数,获得训练好的第一模型。
2.根据权利要求1所述的基于自标注训练样本的三维目标检测方法,其特征在于,步骤S10之后还设置有虚拟样本数据增强的步骤,其方法为:
通过基于激光雷达引导的采样算法根据所述点云数据中的激光点在深度图像上的投影位置进行采样,将采样后的深度图像反投影回相机三维坐标系,得到增强后的点云数据,获得增强的虚拟样本数据。
3.根据权利要求1所述的基于自标注训练样本的三维目标检测方法,其特征在于,所述三维目标检测模型为具有流线结构的多凸壳的三维物理碰撞模型。
4.根据权利要求1-3任一项所述的基于自标注训练样本的三维目标检测方法,其特征在于,步骤S20包括:
步骤S21,基于所述虚拟样本数据和真实样本数据中的点云数据构建激光点云数据库D:
Figure FDA0002739844950000021
其中,Di代表激光点云数据库中第i个激光点云数据,xi,yi,zi表示激光点云中第i个点相对于激光雷达的三维位置信息,Ri表示激光点云中第i个点的反射率,N为激光点云中点云的数量;
步骤S22,进行所述数据库的体素网格划分,并通过特征提取器进行每个体素网格中点云的特征提取,获得空间稀疏的体素特征;
步骤S23,通过稀疏卷积编码所述空间稀疏的体素特征,获得空间特征图fs(x,y,z):
Figure FDA0002739844950000022
其中,F(·)表示特征提取,包括三位空间栅格化操作、池化操作和全连接操作;Di代表输入的激光点云数据,(x,y,z)表示空间特征图fs(x,y,z)的坐标;
步骤S24,将所述空间特征图投影到顶视图进行垂直方向的维度压缩,获得样本级特征图;
步骤S25,基于所述样本级特征图,通过特征金字塔卷积网络获取不同尺度的特征,并通过反卷积层合并所述不同尺度的特征,获得锚点级特征图。
5.根据权利要求4所述的基于自标注训练样本的三维目标检测方法,其特征在于,步骤S30包括:
步骤S31,通过样本级二分类器进行所述样本级特征图的二分类,获得所述样本级特征图的样本级分类标签;所述样本级分类标签包括虚拟样本分类标签0和真实样本分类标签1;
步骤S32,通过锚点级二分类器进行所述样本级特征图的二分类,获得所述锚点级特征图的锚点级分类标签;所述锚点级分类标签包括虚拟样本分类标签0和真实样本分类标签1。
6.根据权利要求5所述的基于自标注训练样本的三维目标检测方法,其特征在于,所述样本级二分类器,其训练中的领域自适应损失函数Lsample为:
Figure FDA0002739844950000031
其中,Fs表示卷积和非线性激活的操作,ns和nt分别代表用于样本级二分类器训练的源领域和目标领域的样本数量,Ds代表样本级二分类器,
Figure FDA0002739844950000032
代表源领域样本数据的样本级特征图,
Figure FDA0002739844950000033
代表目标领域样本数据的样本级特征图。
7.根据权利要求6所述的基于自标注训练样本的三维目标检测方法,其特征在于,所述锚点级二分类器,其训练中的领域自适应损失函数Lanchor为:
Figure FDA0002739844950000041
其中,Fa表示卷积和非线性激活的操作,ns和nt分别代表用于锚点级二分类器训练的源领域和目标领域的样本数量,Da代表锚点级二分类器,
Figure FDA0002739844950000042
代表源领域第i帧点云数据特征,
Figure FDA0002739844950000043
代表目标领域第i帧点云数据特征。
8.根据权利要求7所述的基于自标注训练样本的三维目标检测方法,其特征在于,所述样本级二分类器和锚点级二分类器的分类结果在一致性约束下趋于一致;所述一致性约束,其损失函数Lcon为:
Figure FDA0002739844950000044
Lconf(n,f)=‖Ms(n,f)-Ma(n,f)‖2
Figure FDA0002739844950000045
Figure FDA0002739844950000046
其中,n=ns,nt,f=fsample,fanchor,Ds(Fs(pi))(w,h)和Da(Fa(pi))(w,h)分别代表样本级二分类器和锚点级二分类器在特征向量的每个位置上的输出结果,‖·‖2代表L2范数,Hs和Ws分别代表特征图的高和宽。
9.根据权利要求1所述的基于自标注训练样本的三维目标检测方法,其特征在于,所述三维目标检测模型包括目标的分类分支和回归分支;
所述分类分支的交叉熵损失函数Loss_c为:
Figure FDA0002739844950000047
其中,N为用于三维目标检测模型训练的样本数量,yi表示第i个样本的标签,pi表示第i个样本预测为正的概率;
所述回归分支的Smooth L1损失函数SmoothL1为:
Figure FDA0002739844950000051
其中,x代表预测值与真实值之间的误差。
10.一种基于自标注训练样本的三维目标检测系统,其特征在于,该三维目标检测系统包括以下模块:
输入模块,用于获取输入图像序列;
目标检测模块,用于通过第一模型进行所述输入图像序列的三维目标检测,获得目标类别和目标在三维空间中的位置、朝向和所占空间体积;
其中,所述第一模型为基于虚拟样本数据和真实样本数据共同训练的三维目标检测模型,其训练方法为:
步骤S10,将所述三维目标检测模型嵌入CARLA模拟器,并通过所述CARLA模拟器生成虚拟样本数据;所述虚拟样本数据包括CARLA模拟器中的深度传感器和激光雷达得到的深度图像和点云数据;
步骤S20,获取所述三维目标检测模型的少量真实样本数据,并进行所述虚拟样本数据和真实样本数据的样本级和锚点级的特征提取,获得样本级特征图和锚点级特征图;所述真实样本数据包括真实场景中的深度传感器和激光雷达得到的深度图像和点云数据;
步骤S30,进行所述样本级特征图的特征对齐以及所述锚点级特征图的特征对齐,获得样本级对齐特征图和样本级分类标签以及锚点级对齐特征图和锚点级分类标签;
步骤S40,将获得的对齐特征图和对应的分类标签加入所述三维目标检测模型的训练样本集,并进行模型的迭代训练直至模型的损失函数值低于设定阈值或达到设定训练次数,获得训练好的第一模型。
CN202011146504.6A 2020-10-23 2020-10-23 基于自标注训练样本的三维目标检测方法、系统及装置 Active CN112257605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011146504.6A CN112257605B (zh) 2020-10-23 2020-10-23 基于自标注训练样本的三维目标检测方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011146504.6A CN112257605B (zh) 2020-10-23 2020-10-23 基于自标注训练样本的三维目标检测方法、系统及装置

Publications (2)

Publication Number Publication Date
CN112257605A true CN112257605A (zh) 2021-01-22
CN112257605B CN112257605B (zh) 2021-07-23

Family

ID=74263659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011146504.6A Active CN112257605B (zh) 2020-10-23 2020-10-23 基于自标注训练样本的三维目标检测方法、系统及装置

Country Status (1)

Country Link
CN (1) CN112257605B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113267761A (zh) * 2021-05-28 2021-08-17 中国航天科工集团第二研究院 激光雷达目标检测识别方法、系统及计算机可读存储介质
CN113269147A (zh) * 2021-06-24 2021-08-17 浙江海康智联科技有限公司 基于空间和形状的三维检测方法、系统、存储及处理装置
CN113450462A (zh) * 2021-06-18 2021-09-28 广州领汇信息科技有限公司 一种三维场景动态元素还原方法、装置及存储介质
CN113469190A (zh) * 2021-06-10 2021-10-01 电子科技大学 基于域适应的单阶段目标检测算法
CN113936158A (zh) * 2021-10-13 2022-01-14 北京百度网讯科技有限公司 一种标签匹配方法及装置
CN114359892A (zh) * 2021-12-09 2022-04-15 北京大学深圳研究生院 三维目标检测方法、装置及计算机可读存储介质
CN114663879A (zh) * 2022-02-09 2022-06-24 中国科学院自动化研究所 目标检测方法、装置、电子设备及存储介质
CN115063789A (zh) * 2022-05-24 2022-09-16 中国科学院自动化研究所 基于关键点匹配的3d目标检测方法及装置
CN116883677A (zh) * 2023-06-12 2023-10-13 北京百度网讯科技有限公司 目标检测方法、目标检测模型训练方法、装置及车辆

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106856012A (zh) * 2017-01-12 2017-06-16 上海云拟科技有限公司 一种实时大规模场景三维扫描建模方法及系统
CN108334832A (zh) * 2018-01-26 2018-07-27 深圳市唯特视科技有限公司 一种基于生成对抗网络的视线估计方法
CN109118564A (zh) * 2018-08-01 2019-01-01 湖南拓视觉信息技术有限公司 一种基于融合体素的三维点云标记方法和装置
CN109190674A (zh) * 2018-08-03 2019-01-11 百度在线网络技术(北京)有限公司 训练数据的生成方法及装置
CN109523552A (zh) * 2018-10-24 2019-03-26 青岛智能产业技术研究院 基于视锥点云的三维物体检测方法
CN109697397A (zh) * 2017-10-24 2019-04-30 高德软件有限公司 一种目标检测方法及装置
US10334158B2 (en) * 2014-11-03 2019-06-25 Robert John Gove Autonomous media capturing
CN110879994A (zh) * 2019-12-02 2020-03-13 中国科学院自动化研究所 基于形状注意力机制的三维目测检测方法、系统、装置
CN111444811A (zh) * 2020-03-23 2020-07-24 复旦大学 一种三维点云目标检测的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10334158B2 (en) * 2014-11-03 2019-06-25 Robert John Gove Autonomous media capturing
CN106856012A (zh) * 2017-01-12 2017-06-16 上海云拟科技有限公司 一种实时大规模场景三维扫描建模方法及系统
CN109697397A (zh) * 2017-10-24 2019-04-30 高德软件有限公司 一种目标检测方法及装置
CN108334832A (zh) * 2018-01-26 2018-07-27 深圳市唯特视科技有限公司 一种基于生成对抗网络的视线估计方法
CN109118564A (zh) * 2018-08-01 2019-01-01 湖南拓视觉信息技术有限公司 一种基于融合体素的三维点云标记方法和装置
CN109190674A (zh) * 2018-08-03 2019-01-11 百度在线网络技术(北京)有限公司 训练数据的生成方法及装置
CN109523552A (zh) * 2018-10-24 2019-03-26 青岛智能产业技术研究院 基于视锥点云的三维物体检测方法
CN110879994A (zh) * 2019-12-02 2020-03-13 中国科学院自动化研究所 基于形状注意力机制的三维目测检测方法、系统、装置
CN111444811A (zh) * 2020-03-23 2020-07-24 复旦大学 一种三维点云目标检测的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEIHANG ZHOU,JUNGUO LU: "A new semantic segmentation method of point cloud based on pointnet and voxelnet", 《2019 CHINESE CONTROL AND DECISION CONFERENCE》 *
YIN ZHOU,ONCEL TUZEL: "VoxelNet:End-to-End Learning for Point Cloud Based 3D Object Detection", 《ARXIV:1711.06396V1》 *
牛辰庚,刘玉杰,李宗民,李华: "基于点云数据的三维目标识别和模型分割方法", 《图学学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113267761A (zh) * 2021-05-28 2021-08-17 中国航天科工集团第二研究院 激光雷达目标检测识别方法、系统及计算机可读存储介质
CN113469190B (zh) * 2021-06-10 2023-09-15 电子科技大学 基于域适应的单阶段目标检测算法
CN113469190A (zh) * 2021-06-10 2021-10-01 电子科技大学 基于域适应的单阶段目标检测算法
CN113450462A (zh) * 2021-06-18 2021-09-28 广州领汇信息科技有限公司 一种三维场景动态元素还原方法、装置及存储介质
CN113450462B (zh) * 2021-06-18 2024-08-09 广州领汇信息科技有限公司 一种三维场景动态元素还原方法、装置及存储介质
CN113269147A (zh) * 2021-06-24 2021-08-17 浙江海康智联科技有限公司 基于空间和形状的三维检测方法、系统、存储及处理装置
CN113936158A (zh) * 2021-10-13 2022-01-14 北京百度网讯科技有限公司 一种标签匹配方法及装置
CN114359892A (zh) * 2021-12-09 2022-04-15 北京大学深圳研究生院 三维目标检测方法、装置及计算机可读存储介质
CN114663879A (zh) * 2022-02-09 2022-06-24 中国科学院自动化研究所 目标检测方法、装置、电子设备及存储介质
CN114663879B (zh) * 2022-02-09 2023-02-21 中国科学院自动化研究所 目标检测方法、装置、电子设备及存储介质
CN115063789B (zh) * 2022-05-24 2023-08-04 中国科学院自动化研究所 基于关键点匹配的3d目标检测方法及装置
CN115063789A (zh) * 2022-05-24 2022-09-16 中国科学院自动化研究所 基于关键点匹配的3d目标检测方法及装置
CN116883677A (zh) * 2023-06-12 2023-10-13 北京百度网讯科技有限公司 目标检测方法、目标检测模型训练方法、装置及车辆

Also Published As

Publication number Publication date
CN112257605B (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN112257605B (zh) 基于自标注训练样本的三维目标检测方法、系统及装置
US10217007B2 (en) Detecting method and device of obstacles based on disparity map and automobile driving assistance system
CN109285220B (zh) 一种三维场景地图的生成方法、装置、设备及存储介质
CN109753885B (zh) 一种目标检测方法、装置以及行人检测方法、系统
CN111179152B (zh) 一种道路标识识别方法及装置、介质、终端
CN110428490B (zh) 构建模型的方法和装置
CN110264416A (zh) 稀疏点云分割方法及装置
CN108764187A (zh) 提取车道线的方法、装置、设备、存储介质以及采集实体
CN110879994A (zh) 基于形状注意力机制的三维目测检测方法、系统、装置
CN113052109A (zh) 一种3d目标检测系统及其3d目标检测方法
CN112435338B (zh) 电子地图的兴趣点的位置获取方法、装置及电子设备
Yao et al. Comparison of two methods for vehicle extraction from airborne LiDAR data toward motion analysis
CN110298281B (zh) 视频结构化方法、装置、电子设备及存储介质
GB2520338A (en) Automatic scene parsing
US20230005278A1 (en) Lane extraction method using projection transformation of three-dimensional point cloud map
CN113377888A (zh) 训练目标检测模型和检测目标的方法
Zelener et al. Cnn-based object segmentation in urban lidar with missing points
CN115937520A (zh) 基于语义信息引导的点云运动目标分割方法
CN111325184A (zh) 一种遥感影像智能解译与变化信息检测方法
CN113808142B (zh) 一种地面标识的识别方法、装置、电子设备
CN118244281A (zh) 一种视觉与雷达融合的目标定位方法及装置
CN117870716A (zh) 地图兴趣点的显示方法、装置、电子设备及存储介质
CN114627438A (zh) 目标检测模型生成方法、目标检测方法、设备及介质
CN112700455A (zh) 一种激光点云数据生成方法、装置、设备及介质
CN114004740B (zh) 基于无人机激光雷达点云的建筑物墙线提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant