CN116664825A - 面向大场景点云物体检测的自监督对比学习方法及系统 - Google Patents

面向大场景点云物体检测的自监督对比学习方法及系统 Download PDF

Info

Publication number
CN116664825A
CN116664825A CN202310761813.1A CN202310761813A CN116664825A CN 116664825 A CN116664825 A CN 116664825A CN 202310761813 A CN202310761813 A CN 202310761813A CN 116664825 A CN116664825 A CN 116664825A
Authority
CN
China
Prior art keywords
point cloud
bev
enhanced
original
roi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310761813.1A
Other languages
English (en)
Inventor
唐路路
崔玉峰
韩乔岳
黄铁军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyuan Artificial Intelligence Research Institute
Original Assignee
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Beijing Zhiyuan Artificial Intelligence Research Institute
Priority to CN202310761813.1A priority Critical patent/CN116664825A/zh
Publication of CN116664825A publication Critical patent/CN116664825A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了面向大场景点云物体检测的自监督对比学习方法及系统,属于机器视觉技术领域。该方法包括将原始点云进行转换操作得到增强点云,并分别输入到两条分支:目标网络和在线网络,得到原始点云与增强点云对应的BEV特征图;将特征图划分成多个子区域,计算每个子区域的ROI得分,获取得分图;基于排序后的ROI得分确定候选子区域,将候选子区域的BEV特征确定为对比学习中的对比实例,利用对比实例进行点云物体检测模型预训练。本发明能够使得BEV空间上的ROI区域与物体检测任务更加相关,有利于大场景点云对比学习模型的训练,减少了人工标注成本。

Description

面向大场景点云物体检测的自监督对比学习方法及系统
技术领域
本发明涉及机器视觉技术领域,尤其涉及面向大场景点云物体检测的自监督对比学习方法及系统。
背景技术
激光雷达传感器可以提供比传统二维相机更高的定位精度,使其成为自动驾驶视觉感知系统的一种理想的补充。基于激光雷达的三维(3D)物体检测可以从原始激光雷达点云中估计出物体的位置、方向和语义类别,近年来在产业中得到了广泛应用。
然而,室外激光雷达点云具有稀疏性、遮挡和分布不均等自然属性。使得从大场景点云中进行物体检测是存在挑战性的。在近年来公开的大规模自动驾驶数据集(如Waymo、nuScenes和KITTI等)的基础上,基于激光雷达点云的3D检测任务取得了巨大进展。然而,传统的3D检测器都是建立在足够规模的标注数据之上的。尽管随着激光雷达的普及,3D数据采集变得更加容易,但大规模点云数据的精准标注则需要耗费大量人工成本和时间成本。而且即使采用这种高成本的标注数据进行3D检测器的训练,不同地理环境或不同传感器配置所导致的雷达数据域差异也会导致在一个数据集上训练的检测器通常在另一个数据集上表现欠佳。因此,如何从大量未标注的室外点云数据中学习到具有泛化性、迁移性的点云特征,从而提高物体检测精度,是实现自动驾驶的安全性的关键问题。
为了高效利用大规模未标注数据,自监督学习提供了一种可行的技术方案。目前,面向大场景点云的自监督学习通常有两种范式,即基于重构的方法和基于对比学习的方法。理想的自监督学习技术应当能够有效地提高少量有标注数据的下游任务性能,并且在未标注的同类数据上实现较合理的迁移性能。
其中,在基于对比学习的方法中需要考虑两个关键问题,即如何确定对比学习中的对比实例,以及如何提高检测器在未标注数据上的定位精度。在对比实例的确定方面,现有的对比学习方法通常将整个视图(例如整张图像或整场点云)描述为一个全局特征,这类方法更适合于物体实例级别的分类任务。对于户外检测任务,它需要从稀疏和不均匀分布的点云中定位和识别出各种运动物体。因而,它需要更加细粒度的区分实例。已有的基于对比学习的大场景点云预训练方法通常从原始输入空间(坐标空间)中采集子区域作为对比实例。具体而言,将原始点云划分为具有固定大小和固定数量的实例(如球状的或长方体状的)。然而,具有固定尺寸的坐标空间实例难以平衡局部细节和全场景信息,并且可能忽略不同子区域之间的语义关联性。
在提高模型的检测精度方面,现有的面向大场景点云的对比学习没有考虑到与检测任务相关的预训练目标。这类方法可以学习到有区分性的点云特征,但其学习到的特征与具体的物体检测任务关系并不明显。其次,随机从原始空间采集子区域作为对比样本的方法可能给模型的训练带来模糊性干扰。因为具有相似几何特征的子区域也可能被分配为负样本;并且随机采集样本的方法很可能采集到大量简单的背景样本,不利于挖掘到有助于训练的困难样本。此外,固定尺寸和固定数量的样本定义难以平衡大尺度目标(如汽车)与细粒度目标(如行人)的检测。
发明内容
本发明提出了一种针对大场景点云物体检测的新型自监督对比学习方法,旨在提供面向自动驾驶场景的物体检测预训练框架,减少人工标注成本,并且使3D检测器在不同自动驾驶数据集上更加有效。
本发明在第一方面提供了一种面向大场景点云物体检测的自监督对比学习方法,包括:
将原始点云进行转换操作得到增强点云,并将所述原始点云和所述增强点云分别输入到目标网络和在线网络,分别得到所述原始点云对应的原始BEV特征图和所述增强点云对应的增强BEV特征图;
将所述原始BEV特征图和所述增强BEV特征图划分成多个子区域,计算每个子区域的ROI得分,获取与所述原始BEV特征图和所述增强BEV特征图相对应的得分图;
基于排序后的ROI得分,从所述得分图中确定候选子区域,将所述候选子区域的BEV特征确定为对比学习中的对比实例,以利用所确定的对比实例进行点云物体检测模型预训练。
优选地,所述将所述原始BEV特征图和所述增强BEV特征图划分成多个子区域,计算每个子区域的ROI得分,获取与所述原始BEV特征图和所述增强BEV特征图相对应的得分图,进一步包括:
将所述原始BEV特征图和所述增强BEV特征图划分成多个预定义大小的子区域特征图;
对每个子区域通过投影运算,得到ROI子区域特征;
通过全连接层计算每个ROI子区域特征相关的ROI得分,形成得分图。
优选地,所述得分图包括与原始BEV特征相对应的原始得分图和与增强BEV特征相对应的增强得分图,并且在获取所述得分图之后,该方法还包括:
通过计算所述原始得分图与所述增强得分图之间的二元交叉熵BCE损失,实现ROI区域的定位。
优选地,所述目标网络和在线网络分别包括3D骨干网络Eδ和Eθ,用于根据所述原始点云和增强点云分别生成原始BEV特征和增强BEV特征;
其中参数δ采用动量更新的方式:
δ←τδ+(1-τ)θ
其中τ∈[0,1]是预定义的温度参数,δ和θ分别表示3D骨干网络Eδ和Eθ对应的可学习参数。
本发明在第二方面提供了一种面向大场景点云物体检测的自监督对比学习系统,包括:
BEV特征提取模块,用于将原始点云进行转换操作得到增强点云,并将所述原始点云和所述增强点云分别输入到目标网络和在线网络,分别得到所述原始点云对应的原始BEV特征图和所述增强点云对应的增强BEV特征图;
多尺度ROI投影模块,用于将所述原始BEV特征图和所述增强BEV特征图划分成多个子区域,计算每个子区域的ROI得分,获取与所述原始BEV特征图和所述增强BEV特征图相对应的得分图;
ROI区域感知对比学习模块,用于基于排序后的ROI得分,从所述得分图中确定候选子区域,将所述候选子区域的BEV特征确定为对比学习中的对比实例,以利用所确定的对比实例进行点云物体检测模型预训练。
本发明又一方面提供了一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行前述第一方面的方法。
本发明又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行前述第一方面的方法。
本发明的有益效果是:本发明从BEV特征空间确定对比学习实例,并采用专门用于3D物体检测的基于ROI区域感知的自监督对比学习框架,通过对从BEV特征空间中采样的每个候选子区域进行打分,以筛选出信息丰富的、与检测任务相关的ROI特征,并采用多尺度的对比学习方式,能够更好地考虑局部细节和全场景信息,以及相邻子区域之间的语义关联,使得BEV空间上的ROI区域与物体检测任务更加相关,避免采集到大量无关的负样本,在训练优化损失函数的驱动下,随着训练的进行,模型可以更加准确地自动定位出有效的ROI区域,并在细粒度目标与较大尺度目标两方面进行更好的平衡,更有效地同时挖掘出大尺度物体与细粒度物体特征。
附图说明
图1是本发明所述的基于ROI区域感知的自监督对比学习框架示意图。
图2是本发明所述的面向大场景点云物体检测的自监督对比学习方法的流程图。
图3是本发明所述的面向大场景点云物体检测的自监督对比学习方法与现有技术的对比示意图。
图4是本发明所述的ROI投影模块定位能力可视化效果示意图。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
本发明提出了一种针对大场景点云物体检测的新型自监督对比学习框架(BEV-CL),旨在实现面向自动驾驶场景的物体检测预训练,通过对比学习区分来自不同BEV空间位置的实例特征,同时保持相同位置对应的实例具有相似的特征。在大量未标注点云数据上进行对比学习预训练,为下游检测任务提供较好的初始化模型参数,从而减少人工标注成本,并且使3D检测器在不同自动驾驶数据集上更加有效。
发明人通过长期研究发现,BEV(birds-eye-view鸟瞰视图)特征比低级的几何特征更具有迁移性。经过3D、2D编码器,每一个BEV子区域天然地包含了邻域信息,因而更加适合作为对比实例。为了确定对比学习中的对比实例,本发明在BEV特征空间中重新定义对比实例。为了避免随机采集对比样本可能采集到大量简单的背景样本,本发明将ROI(感兴趣区域)引导的BEV特征子区域定义为对比学习实例,由此使得BEV空间上的ROI区域与物体检测任务更加相关,并且通过ROI可以过滤掉大部分简单的背景负样本,进而挖掘出难样本,有利于对比学习模型的训练。此外,为了提高模型的检测精度,针对行人、自行车、汽车三类常见的自动驾驶参与者,本发明提出了多尺度的对比实例。具体而言,根据不同物体的大小定义不同尺寸的ROI区域,并根据ROI得分分别采集出三类对比样本,使模型自动定位有效的ROI区域,为检测任务提供更强的空间线索。
本发明提出了BEV-CL框架由两条神经网络分支组成,分别表述为目标网络(Target)以及在线网络(Online),总体架构如图1所示。为了简化描述,本发明将下分支Online网络定义为一个两阶段结构,包括3D骨干网络(backbone)Eθ和ROI投影模块(projector)。上分支Target网络共享所述下分支Online网络的相同网络结构,即包括3D骨干网络(backbone)Eδ和ROI投影模块。
其中参数δ采用动量更新的方式,即:
δ←τδ+(1-τ)θ
其中τ∈[0,1]是预定义的温度参数,δ和θ分别表示3D骨干网络Eδ和Eθ对应的可学习参数。
本发明提出的BEV-CL框架在网络分支中均设置两个关键模块,即多尺度ROI投影模块与ROI区域感知对比学习模块。
实施例一
如图2所示,本发明第一方面提供了一种面向大场景点云物体检测的自监督对比学习方法,包括:
S101、将原始点云进行转换操作得到增强点云,并将所述原始点云和所述增强点云分别输入到目标网络和在线网络,分别得到所述原始点云对应的原始BEV特征图和所述增强点云对应的增强BEV特征图。
在预训练阶段,将原始点云Pori输入到Target网络,为Online网络提供较稳定的回归目标。然后,从预定义的增强空间中随机选择一种数据增强操作T,以获得与原始点云相关的增强后的点云变体Faug=T(Pori)作为Online网络的输入。对于从同一个3D场景采样的配对视图(Pori,Paug),本发明将其分别输入到目标网络和在线网络中各自包含的3Dbackbone骨干网络中,以获得各自的BEV特征Fori与Faug。基于配对的特征图(Fori,Faug)进行对比学习。
S102、将原始BEV特征图和增强BEV特征图划分成多个子区域,计算每个子区域的ROI得分,获取与原始BEV特征图和增强BEV特征图相对应的得分图。
户外激光雷达扫描通常包含各种带有噪声背景的移动物体。如果从原始的3D坐标空间中进行细粒度的对比实例采样,则容易采集到各种噪声信息。简单的全局BEV特征(Fori,Faug)也不适用于较细粒度的物体检测任务。图3是本发明的面向大场景点云物体检测的自监督对比学习方法与现有技术流程的对比。与此不同的是,本发明使学习到的检测模型能够自动发现与检测任务密切相关的、有效的ROI区域。因此,本发明从BEV特征空间中进行对比实例采样。本发明采用多尺度ROI投影模块,对BEV特征图上每个划分的子区域进行打分,根据得分排序获得K个ROI候选子区域。这K个候选子区域特征进一步形成对比学习中的对比实例(称为ROI引导的对比实例),这些实例对应了原始点云输入中最可能存在检测目标的区域,因而更加适用于检测任务。
具体而言,多尺度ROI投影模块首先将每个BEV特征图Fori,Faug∈RW×H×C划分成N个大小为w×h的子区域特征图,其中W、H、C分别表示BEV特征图Fori的宽度、高度和特征通道数量,w、h分别表示划分的子区域的宽度和高度。w、h与不同实例类别的目标尺寸成正相关。然后对每个子区域应用共享的投影模块projector,通过投影运算得到N个ROI子区域特征(fo,fa)∈RN×C。fo,fa分别为Target网络和Online网络中计算得到的ROI子区域特征。随后,采用共享的全连接层FC(Fully Connected Layer),计算每个子区域特征(fo,fa)相关的ROI得分,分别形成得分图(So,Sa)∈RN×1。So,Sa分别为Target网络和Online网络的ROI投影模块中计算得到的ROI得分。
为了精确定位ROI区域,本发明进一步引入ROI损失函数,并通过计算两个得分图(So,Sa)之间的二元交叉熵(BCE)损失LROI来实现精确定位。
LROI=BCE(So,Sa) (1)
在进一步优选的实施例中,为了更加准确地同时定位出较大目标(如汽车)与较小目标(如行人),本发明在所述ROI投影模块中采用多尺度的ROI投影。针对各种实例类别的不同的目标尺寸大小(例如汽车、行人、自行车是三类最常见的实例),将每个BEV特征图Fori,Faug∈RW×H×C划分出不同尺寸大小的候选子区域,并分别获得相应尺度的ROI得分图以及ROI损失。
S103、基于排序后的ROI得分,从所述得分图中确定候选子区域,将所述候选子区域的BEV特征确定为对比学习中的对比实例,以利用所确定的对比实例进行点云物体检测模型预训练。
在ROI区域感知对比学习模块,根据ROI得分图(So,Sa),获取最大的K个得分对应的前K个候选特征,最终被选定为对比学习实例:K为预定义的候选子区域数量。此外,为了使模型的训练更加稳定,实际情况下可以采用Target网络的得分图So,选择Online网络中相同位置处的ROI子区域特征fa作为对比学习实例/>通过对比实例的预训练,使得原始BEV特征图中的某个实例与增强BEV特征图上相同空间位置处的正样本特征相似,而与其他不同空间位置处的负样本特征尽量远离。
作为进一步的实施例,在对比学习架构BYOL的基础上,本发明可以对实例额外增加一个轻量级的预测器Predictor,用于对/>进行预测,得到预测后的实例/>随后,将对比损失函数LCL定义为/>与/>之间的余弦距离:
最终,模型的联合损失函数定义为:
Loss=αLROI+βLCL (3)
其中α,β为相应损失函数的平衡参数。
根据所述损失函数来优化更新模型参数,使模型能力接近下游物体检测任务目标。在得到预训练后的模型之后,便可以将该模型应用于下游物体检测任务,采用少量的有标注的训练数据,即可达到普通的需要大量训练数据的有监督学习模型的性能,显著减少了人工标注成本。
可以看出,通过本发明的上述方法,能够实现如下技术效果:
首先,本发明从BEV特征空间确定对比学习实例,并采用专门用于3D物体检测的基于ROI区域感知的自监督对比学习框架,相对于现有技术中的固定尺寸和固定数量的对比实例,采用ROI区域感知机制能够更好地考虑局部细节和全场景信息,以及相邻子区域之间的语义关联,使得BEV空间上的ROI区域与物体检测任务密切相关。
其次,本发明采用ROI投影模块,通过对从BEV特征空间中采样的每个候选子区域进行打分,以筛选出信息丰富的、与检测任务相关的ROI特征。与现有技术相比较,能够避免采集到大量无关的负样本,在训练优化损失函数的驱动下,随着训练的进行,模型可以更加准确地自动定位出有效的ROI区域,减少了人工标注成本。
此外,针对常见的自动驾驶参与者,本发明采用多尺度的对比学习机制。与现有技术相比较,能够在细粒度目标与较大尺度目标两方面进行更好的平衡,更有效地同时挖掘出大尺度物体与细粒度物体特征。
如图4所示,左侧图是输入的原始点云的两个具体示例,右侧图是两个示例分别对应的ROI得分的可视化效果。可以看出,ROI投影模块筛选出的区域与真实的物体位置是强相关的,证实了ROI投影模块可以定位出大部分的有效区域,为模型的训练提供了更加有效的对比实例,验证了本方案的可行性。
实施例二
本发明的另一方面还包括与前述实施例一的面向大场景点云物体检测的自监督对比学习方法完全对应一致的功能模块架构,即提供了一种面向大场景点云物体检测的自监督对比学习系统,包括:
BEV特征提取模块,用于将原始点云进行增强操作得到增强点云,并将所述原始点云和所述增强点云分别输入到目标网络和在线网络,得到分别包含原始BEV特征和增强BEV特征的特征图;
多尺度ROI投影模块,用于将所述特征图划分成多个子区域,计算每个子区域的ROI得分,获取与所述特征图相对应的得分图;
ROI区域感知对比学习模块,用于基于排序后的ROI得分,从所述得分图中确定候选子区域,将所述候选子区域的BEV特征确定为对比学习中的对比实例,以利用所确定的对比实例进行点云物体检测模型预训练。
该系统可通过上述实施例一提供的面向大场景点云物体检测的自监督对比学习方法实现,具体的实现方式可参见实施例一中的描述,在此不再赘述。
实施例三
本发明还提供了一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行前述实施例一中的任一种方法。其中处理器和存储器可以通过总线或者其他方式连接,以通过总线连接为例。处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的面向大场景点云物体检测的自监督对比学习方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例四
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一中的任意一种方法。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种面向大场景点云物体检测的自监督对比学习方法,其特征在于,包括:
将原始点云进行转换操作得到增强点云,并将所述原始点云和所述增强点云分别输入到目标网络和在线网络,分别得到所述原始点云对应的原始BEV特征图和所述增强点云对应的增强BEV特征图;
将所述原始BEV特征图和所述增强BEV特征图划分成多个子区域,计算每个子区域的ROI得分,获取与所述原始BEV特征图和所述增强BEV特征图相对应的得分图;
基于排序后的ROI得分,从所述得分图中确定候选子区域,将所述候选子区域的BEV特征确定为对比学习中的对比实例,以利用所确定的对比实例进行点云物体检测模型预训练。
2.根据权利要求1所述的面向大场景点云物体检测的自监督对比学习方法,其特征在于,所述将所述原始BEV特征图和所述增强BEV特征图划分成多个子区域,计算每个子区域的ROI得分,获取与所述原始BEV特征图和所述增强BEV特征图相对应的得分图,进一步包括:
将所述原始BEV特征图和所述增强BEV特征图划分成多个预定义大小的子区域特征图;
对每个子区域通过投影运算,得到ROI子区域特征;
通过全连接层计算每个ROI子区域特征相关的ROI得分,形成得分图。
3.根据权利要求1所述的面向大场景点云物体检测的自监督对比学习方法,其特征在于,所述得分图包括与原始BEV特征相对应的原始得分图和与增强BEV特征相对应的增强得分图,并且在获取所述得分图之后,该方法还包括:
通过计算所述原始得分图与所述增强得分图之间的二元交叉熵BCE损失,实现ROI区域的定位。
4.根据权利要求1所述的面向大场景点云物体检测的自监督对比学习方法,其特征在于,所述目标网络和在线网络分别包括3D骨干网络Eδ和Eθ,用于根据所述原始点云和增强点云分别生成原始BEV特征和增强BEV特征;
其中参数δ采用动量更新的方式:
δ←τδ+(1-τ)θ
其中τ∈[0,1]是预定义的温度参数,δ和θ分别表示3D骨干网络Eδ和Eθ对应的可学习参数。
5.一种面向大场景点云物体检测的自监督对比学习系统,其特征在于,包括:
BEV特征提取模块,用于将原始点云进行转换操作得到增强点云,并将所述原始点云和所述增强点云分别输入到目标网络和在线网络,分别得到所述原始点云对应的原始BEV特征图和所述增强点云对应的增强BEV特征图;
多尺度ROI投影模块,用于将所述原始BEV特征图和所述增强BEV特征图划分成多个子区域,计算每个子区域的ROI得分,获取与所述原始BEV特征图和所述增强BEV特征图相对应的得分图;
ROI区域感知对比学习模块,用于基于排序后的ROI得分,从所述得分图中确定候选子区域,将所述候选子区域的BEV特征确定为对比学习中的对比实例,以利用所确定的对比实例进行点云物体检测模型预训练。
6.根据权利要求5所述的面向大场景点云物体检测的自监督对比学习系统,其特征在于,所述多尺度ROI投影模块,进一步用于:
将每个BEV特征图划分成多个预定义大小的子区域特征图,
对每个子区域通过投影运算,得到ROI子区域特征;
通过全连接层计算每个ROI子区域特征相关的ROI得分,形成得分图。
7.根据权利要求5所述的面向大场景点云物体检测的自监督对比学习系统,其特征在于,所述得分图包括与原始BEV特征相对应的原始得分图和与增强BEV特征相对应的增强得分图,并且所述多尺度ROI投影模块,进一步用于:
通过计算所述原始得分图与所述增强得分图之间的二元交叉熵BCE损失,实现ROI区域的定位。
8.根据权利要求5所述的面向大场景点云物体检测的自监督对比学习系统,其特征在于,所述目标网络和在线网络分别包括3D骨干网络Eδ和Eθ,用于根据所述原始点云和增强点云分别生成原始BEV特征和增强BEV特征;
其中参数δ采用动量更新的方式:
δ←τδ+(1-τ)θ
其中τ∈[0,1]是预定义的温度参数,δ和θ分别表示3D骨干网络Eδ和Eθ对应的可学习参数。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1至4任一项所述的面向大场景点云物体检测的自监督对比学习方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1至4任一项所述的面向大场景点云物体检测的自监督对比学习方法。
CN202310761813.1A 2023-06-26 2023-06-26 面向大场景点云物体检测的自监督对比学习方法及系统 Pending CN116664825A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310761813.1A CN116664825A (zh) 2023-06-26 2023-06-26 面向大场景点云物体检测的自监督对比学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310761813.1A CN116664825A (zh) 2023-06-26 2023-06-26 面向大场景点云物体检测的自监督对比学习方法及系统

Publications (1)

Publication Number Publication Date
CN116664825A true CN116664825A (zh) 2023-08-29

Family

ID=87727983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310761813.1A Pending CN116664825A (zh) 2023-06-26 2023-06-26 面向大场景点云物体检测的自监督对比学习方法及系统

Country Status (1)

Country Link
CN (1) CN116664825A (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002753A (zh) * 2018-06-01 2018-12-14 上海大学 一种基于卷积神经网络级联的大场景监控图像人脸检测方法
US20200117937A1 (en) * 2018-10-16 2020-04-16 Samsung Electronics Co., Ltd. Convolutional neural network for object detection
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
US20210354721A1 (en) * 2020-05-14 2021-11-18 StradVision, Inc. Learning Method and Learning Device for Updating Object Detector, Based on Deep Learning, of Autonomous Vehicle to Adapt the Object Detector to Driving Circumstance, and Updating Method and Updating Device Using the Same
WO2022041406A1 (zh) * 2020-08-25 2022-03-03 深圳大学 一种基于ocr和迁移学习的app违规监测方法
CN114550161A (zh) * 2022-01-20 2022-05-27 北京大学 一种端到端的三维目标稀疏检测方法
CN114549985A (zh) * 2022-02-23 2022-05-27 清华大学 一种基于自监督对比学习的目标检测方法及系统
US20220207742A1 (en) * 2020-12-30 2022-06-30 United Imaging Research Institute of Innovative Medical Equipment Image segmentation method, device, equipment and storage medium
WO2022160406A1 (zh) * 2021-01-29 2022-08-04 深圳技术大学 基于增强现实技术的物联网实训系统的实现方法及系统
CN115131504A (zh) * 2022-06-29 2022-09-30 天津大学 一种宽视场大场景下的多人三维重建方法
CN115205633A (zh) * 2022-07-27 2022-10-18 北京大学 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法
CN115641583A (zh) * 2022-12-26 2023-01-24 苏州赫芯科技有限公司 一种基于自监督和主动学习的点云检测方法、系统及介质
JP7224682B1 (ja) * 2021-08-17 2023-02-20 忠北大学校産学協力団 自律走行のための3次元多重客体検出装置及び方法
CN115861601A (zh) * 2022-12-20 2023-03-28 清华大学 一种多传感器融合感知方法及装置
WO2023109208A1 (zh) * 2021-12-15 2023-06-22 北京邮电大学 小样本目标检测方法及装置
CN116311221A (zh) * 2023-02-15 2023-06-23 上海人工智能创新中心 一种基于双域主动学习的跨域目标检测方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002753A (zh) * 2018-06-01 2018-12-14 上海大学 一种基于卷积神经网络级联的大场景监控图像人脸检测方法
US20200117937A1 (en) * 2018-10-16 2020-04-16 Samsung Electronics Co., Ltd. Convolutional neural network for object detection
US20210354721A1 (en) * 2020-05-14 2021-11-18 StradVision, Inc. Learning Method and Learning Device for Updating Object Detector, Based on Deep Learning, of Autonomous Vehicle to Adapt the Object Detector to Driving Circumstance, and Updating Method and Updating Device Using the Same
WO2022041406A1 (zh) * 2020-08-25 2022-03-03 深圳大学 一种基于ocr和迁移学习的app违规监测方法
US20220207742A1 (en) * 2020-12-30 2022-06-30 United Imaging Research Institute of Innovative Medical Equipment Image segmentation method, device, equipment and storage medium
WO2022160406A1 (zh) * 2021-01-29 2022-08-04 深圳技术大学 基于增强现实技术的物联网实训系统的实现方法及系统
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
JP7224682B1 (ja) * 2021-08-17 2023-02-20 忠北大学校産学協力団 自律走行のための3次元多重客体検出装置及び方法
WO2023109208A1 (zh) * 2021-12-15 2023-06-22 北京邮电大学 小样本目标检测方法及装置
CN114550161A (zh) * 2022-01-20 2022-05-27 北京大学 一种端到端的三维目标稀疏检测方法
CN114549985A (zh) * 2022-02-23 2022-05-27 清华大学 一种基于自监督对比学习的目标检测方法及系统
CN115131504A (zh) * 2022-06-29 2022-09-30 天津大学 一种宽视场大场景下的多人三维重建方法
CN115205633A (zh) * 2022-07-27 2022-10-18 北京大学 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法
CN115861601A (zh) * 2022-12-20 2023-03-28 清华大学 一种多传感器融合感知方法及装置
CN115641583A (zh) * 2022-12-26 2023-01-24 苏州赫芯科技有限公司 一种基于自监督和主动学习的点云检测方法、系统及介质
CN116311221A (zh) * 2023-02-15 2023-06-23 上海人工智能创新中心 一种基于双域主动学习的跨域目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王康如;谭锦钢;杜量;陈利利;李嘉茂;张晓林;: "基于迭代式自主学习的三维目标检测", 光学学报, no. 09, 10 May 2020 (2020-05-10) *
青晨;禹晶;肖创柏;段娟;: "深度卷积神经网络图像语义分割研究进展", 中国图象图形学报, no. 06, 16 June 2020 (2020-06-16) *

Similar Documents

Publication Publication Date Title
CN108288088B (zh) 一种基于端到端全卷积神经网络的场景文本检测方法
US10755112B2 (en) Systems and methods for reducing data storage in machine learning
CN109977997B (zh) 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
Zhang et al. Semi-automatic road tracking by template matching and distance transformation in urban areas
JP7204823B2 (ja) 車両制御方法、車両制御装置及び車両
CN111340855A (zh) 一种基于轨迹预测的道路移动目标检测方法
CN110599489A (zh) 一种目标空间定位方法
CN115049700A (zh) 一种目标检测方法及装置
CN110992424B (zh) 基于双目视觉的定位方法和系统
You et al. Lane detection algorithm for night-time digital image based on distribution feature of boundary pixels
CN112634368A (zh) 场景目标的空间与或图模型生成方法、装置及电子设备
Tan et al. Eco-tr: Efficient correspondences finding via coarse-to-fine refinement
CN111681172A (zh) 协同构建点云地图的方法、设备和系统
Yang et al. Robust and real-time pose tracking for augmented reality on mobile devices
CN114627441A (zh) 非结构化道路识别网络训练方法、应用方法及存储介质
Xiao et al. A real-time system for lane detection based on FPGA and DSP
Mei et al. A conditional wasserstein generative adversarial network for pixel-level crack detection using video extracted images
CN114972947B (zh) 一种基于模糊语义建模的深度场景文本检测方法和装置
Lim et al. Integrated position and motion tracking method for online multi-vehicle tracking-by-detection
CN116664825A (zh) 面向大场景点云物体检测的自监督对比学习方法及系统
Song et al. ODSPC: deep learning-based 3D object detection using semantic point cloud
Yang et al. Explorations on visual localization from active to passive
CN116664824A (zh) 基于多尺度roi投影的物体检测任务bev特征提取方法及系统
CN115063760A (zh) 车辆可行驶区域检测方法、装置、设备及存储介质
Shirke et al. A novel region-based iterative seed method for the detection of multiple lanes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination