CN113674421A - 3d目标检测方法、模型训练方法、相关装置及电子设备 - Google Patents
3d目标检测方法、模型训练方法、相关装置及电子设备 Download PDFInfo
- Publication number
- CN113674421A CN113674421A CN202110980060.4A CN202110980060A CN113674421A CN 113674421 A CN113674421 A CN 113674421A CN 202110980060 A CN202110980060 A CN 202110980060A CN 113674421 A CN113674421 A CN 113674421A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- target
- feature
- monocular image
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 174
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 title claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 238000009826 distribution Methods 0.000 claims description 27
- 238000004821 distillation Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 240000004050 Pentaglottis sempervirens Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种3D目标检测方法、模型训练方法、相关装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取第一单目图像;将所述第一单目图像输入至目标模型执行第一检测操作,得到三维3D空间上的第一检测信息;其中,所述第一检测操作包括:基于所述第一单目图像进行特征提取,得到第一点云特征,基于目标学习参数对所述第一点云特征进行调整,得到第二点云特征,基于所述第二点云特征进行3D目标检测,得到所述第一检测信息,所述目标学习参数用于表征所述第一点云特征与所述第一单目图像的目标点云特征的差异程度。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域,具体涉及一种3D目标检测方法、模型训练方法、相关装置及电子设备。
背景技术
随着图像处理技术的高速发展,3D目标检测得到了广泛的应用,而单目图像的3D目标检测指的是基于单目图像进行3D目标检测,得到3D空间上的检测信息。
目前,单目图像的3D目标检测通常基于彩色RGB图像,结合几何约束或语义知识的方式来进行3D目标检测,或者对单目图像进行深度估计,结合深度信息与图像特征进行3D目标检测。
发明内容
本公开提供了一种量子门的3D目标检测方法、模型训练方法、相关装置及电子设备。
根据本公开的第一方面,提供了一种3D目标检测方法,包括:
获取第一单目图像;
将所述第一单目图像输入至目标模型执行第一检测操作,得到三维3D空间上的第一检测信息;
其中,所述第一检测操作包括:基于所述第一单目图像进行特征提取,得到第一点云特征,基于目标学习参数对所述第一点云特征进行调整,得到第二点云特征,基于所述第二点云特征进行3D目标检测,得到所述第一检测信息,所述目标学习参数用于表征所述第一点云特征与所述第一单目图像的目标点云特征的差异程度。
根据本公开的第二方面,提供了一种模型训练方法,包括:
获取训练样本数据,所述训练样本数据包括第二单目图像、所述第二单目图像对应的点云特征标签和3D空间上的检测标签;
将所述第二单目图像输入至目标模型执行第二检测操作,得到3D空间上的第二检测信息,所述第二检测操作包括:基于所述第二单目图像进行特征提取,得到第三点云特征,基于所述点云特征标签,对所述第三点云特征进行特征蒸馏,得到第四点云特征和目标学习参数,所述目标学习参数为使所述第四点云特征和所述点云特征标签的差异值小于预设阈值的学习参数,基于所述第四点云特征进行3D目标检测,得到所述第二检测信息;
确定所述目标模型的损失值,所述损失值包括:所述点云特征标签与所述第四点云特征的差异值,以及所述检测标签与所述第二检测信息的差异值;
基于所述损失值更新所述目标模型的网络参数。
根据本公开的第三方面,提供了一种3D目标检测装置,包括:
第一获取模块,用于获取第一单目图像;
第一执行模块,用于将所述第一单目图像输入至目标模型执行第一检测操作,得到三维3D空间上的第一检测信息;
其中,所述第一检测操作包括:基于所述第一单目图像进行特征提取,得到第一点云特征,基于目标学习参数对所述第一点云特征进行调整,得到第二点云特征,基于所述第二点云特征进行3D目标检测,得到所述第一检测信息,所述目标学习参数用于表征所述第一点云特征与所述第一单目图像的目标点云特征的差异程度。
根据本公开的第四方面,提供了一种模型训练装置,包括:
第二获取模块,用于获取训练样本数据,所述训练样本数据包括第二单目图像、所述第二单目图像对应的点云特征标签和3D空间上的检测标签;
第二执行模块,用于将所述第二单目图像输入至目标模型执行第二检测操作,得到3D空间上的第二检测信息,所述第二检测操作包括:基于所述第二单目图像进行特征提取,得到第三点云特征,基于所述点云特征标签,对所述第三点云特征进行特征蒸馏,得到第四点云特征和目标学习参数,所述目标学习参数为使所述第四点云特征和所述点云特征标签的差异值小于预设阈值的学习参数,基于所述第四点云特征进行3D目标检测,得到所述第二检测信息;
模型损失确定模块,用于确定所述目标模型的损失值,所述损失值包括:所述点云特征标签与所述第四点云特征的差异值,以及所述检测标签与所述第二检测信息的差异值;
网络参数更新模块,用于基于所述损失值更新所述目标模型的网络参数。
根据本公开的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面中的任一项方法,或者执行第二方面中的任一项方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行第一方面中的任一项方法,或者执行第二方面中的任一项方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现第一方面中的任一项方法,或者执行时实现第二方面中的任一项方法。
根据本公开的技术解决了3D目标检测的精度比较低的问题,提高了3D目标检测的精度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的3D目标检测方法的流程示意图;
图2是目标模型执行第一检测操作的整体框架示意图;
图3是根据本公开第二实施例的模型训练方法的流程示意图;
图4是目标模型训练的整体框架示意图;
图5是根据本公开第三实施例的3D目标检测装置的结构示意图;
图6是根据本公开第四实施例的模型训练装置的结构示意图;
图7是用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
第一实施例
如图1所示,本公开提供一种3D目标检测方法,包括如下步骤:
步骤S101:获取第一单目图像。
本实施例中,3D目标检测方法涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域,其可以广泛应用于单目3D目标检测场景中,即对单目图像进行3D目标检测。本公开实施例的3D目标检测方法,可以由本公开实施例的3D目标检测装置执行。本公开实施例的3D目标检测装置可以配置在任意电子设备中,以执行本公开实施例的3D目标检测方法。该电子设备可以为服务器,也可以为终端,这里不做具体限定。
该步骤中,单目图像是相对于双目图像和多目图像来说的,双目图像指的是在同一场景拍摄的左目图像和右目图像,多目图像指的是在同一场景拍摄的多个图像,而单目图像则指的是在同一场景拍摄的单个图像。
本实施例的目的即是对单目图像进行3D目标检测,以获取单目图像中3D空间上的检测信息,该检测信息包括单目图像中物体的3D检测框。在一可选场景中,当单目图像中包括车辆图像数据时,可以对单目图像进行3D目标检测,得到物体类别和车辆的3D检测框,以确定单目图像中的物体类别以及车辆所在位置。
第一单目图像可以为彩色RGB图像,也可以为灰度图像,这里不进行具体限定。
第一单目图像的获取方式可以包括多种,比如,可以采用单目相机拍摄一张图像作为第一单目图像,也可以获取预先存储的第一单目图像,还可以接收其他电子设备发送的第一单目图像,亦或是从网络上下载一张图像。
步骤S102:将所述第一单目图像输入至目标模型执行第一检测操作,得到三维3D空间上的第一检测信息;其中,所述第一检测操作包括:基于所述第一单目图像进行特征提取,得到第一点云特征,基于目标学习参数对所述第一点云特征进行调整,得到第二点云特征,基于所述第二点云特征进行3D目标检测,得到所述第一检测信息,所述目标学习参数用于表征所述第一点云特征与所述第一单目图像的目标点云特征的差异程度。
该步骤中,目标模型可以为神经网络模型,如卷积神经网络或残差神经网络ResNet等。该目标模型可以用于针对单目图像进行3D目标检测。其输入为任意一张图像,输出为该图像中3D空间上的检测信息,该检测信息可以包括物体类别和物体的3D检测框。
可以将第一单目图像输入至目标模型执行第一检测操作,以通过目标模型对第一单目图像进行3D目标检测,得到3D空间上的第一检测信息。其中,第一检测信息包括第一单目图像中的物体类别和物体的3D检测框,物体类别指的是第一单目图像中物体的分类属性,如物体类别为车辆、猫或人物等,3D检测框指的是物体在第一单目图像中的具体位置,其包括围成物体的长、宽和高的框体,以及通过框体的朝向角来表征物体在第一单目图像中的朝向位置。
具体的,第一检测操作可以包括三个部分,第一部分为点云特征提取,第二部分可以为点云特征蒸馏,第三部分为基于点云特征进行3D目标检测。
其中,点云特征提取指的是基于第一单目图像进行点云特征提取,得到第一点云特征,第一点云特征可以为与第一单目图像对应的点云三维图像相关的特征,也就是说,其为3D空间上的特征,相对于与二维图像相关的特征来说,其具备图像深度特征。由于点云三维图像可以通过鸟瞰图来表征,因此,第一点云特征也可以称之为鸟瞰图特征,指的是与第一单目图像对应的鸟瞰图相关的特征。
点云特征提取的方式可以包括多种,在一可选实施方式中,可以对第一单目图像进行深度估计,得到深度信息,基于预测得到的深度信息确定第一单目图像的点云数据,之后结合该点云数据将2D图像特征转换为体素数据,基于该体素数据进行点云特征提取,得到体素的图像特征即第一点云特征。
在另一可选实施方式中,可以对第一单目图像进行深度估计,得到深度信息,基于预测得到的深度信息确定第一单目图像的点云数据,之后将点云数据转换为鸟瞰图,并对鸟瞰图进行点云特征提取,得到第一点云特征。
点云特征蒸馏指的是从第一点云特征中蒸馏出可表达第一单目图像的目标点云特征的特征,即蒸馏出与目标点云特征相似的特征。其中,目标点云特征指的是基于第一单目图像的点云数据标签所提取出来的点云特征,其可以称之为点云特征标签,点云数据标签可以为通过激光雷达,针对第一单目图像的同一场景采集到的该场景下比较精确的点云数据。
可以通过目标学习参数对第一点云特征进行特征蒸馏,得到第二点云特征,第二点云特征可以与目标点云特征相似,具体可以基于目标学习参数对第一点云特征进行调整,得到第二点云特征。
其中,目标学习参数可以表征第一点云特征与目标点云特征的差异程度,其是通过对目标模型进行训练得到。在一可选实施方式中,目标学习参数可以包括第一点云特征与目标点云特征之间像素点的特征差异值。相应的,基于该特征差异值,对第一点云特征中像素点的特征值进行调整,可以得到与目标点云特征相似的第二点云特征。
在另一可选实施方式中,目标学习参数具体可以表征第一点云特征与目标点云特征的分布差异程度,该目标学习参数可以包括第一点云特征与目标点云特征的分布之间的均值差异值和方差差异值。
在该实施方式中,设第一点云特征为BEVimg,目标学习参数为(Δμimg,Δσimg),基于该目标学习参数对第一点云特征进行调整的步骤具体可以为:计算BEVimg的均值和方差,记为(μimg,σimg),基于该均值和方差,对BEVimg进行归一化,得到归一化的第一点云特征,用表示,基于该目标学习参数,采用下式(1)对归一化的第一点云特征进行调整,得到第二点云特征。
之后,可以采用现有的或新的检测方式,基于第二点云特征进行3D目标检测,得到第一检测信息,这里的检测方式不进行具体限定。
需要说明的是,目标模型在使用之前,需要对其进行训练,以学习目标模型的参数,包括目标学习参数,其训练过程将在以下实施例中进行详细说明。
本实施例中,通过目标模型对第一单目图像进行点云特征提取,得到第一点云特征,并基于目标学习参数对第一点云特征进行点云特征蒸馏,得到与目标点云特征相似的第二点云特征,之后基于第二点云特征进行3D目标检测,得到第一检测信息。如此,可以通过目标模型对单目图像进行点云特征提取和点云特征蒸馏,使得单目图像学到的特征与目标点云特征相似,从而可以提高单目3D目标检测的精度。
可选的,所述基于所述第一单目图像进行特征提取,得到第一点云特征,包括:
对所述第一单目图像进行深度预测,得到所述第一单目图像的深度信息;
基于所述深度信息和所述第一单目图像对应的相机内参,将所述第一单目图像中的像素点转换为第一3D点云数据;
对所述第一3D点云数据进行特征提取,得到所述第一点云特征。
本实施方式中,目标模型执行第一检测操作的整体框架示意图如图2所示,目标模型可以包括2D编码器和用于对单目图像进行深度预测的网络分支,2D编码器用于提取第一单目图像的2D图像特征,且用于对单目图像进行深度预测的网络分支串接在2D图像编辑器之后。
可以对第一单目图像进行深度估计,得到深度信息,基于预测得到的深度信息确定第一单目图像的点云数据,之后结合该点云数据将2D图像特征转换为体素数据,基于该体素数据进行点云特征提取,得到体素的图像特征即第一点云特征。
具体的,给定W x H大小的RGB图像作为目标模型的输入,基于该网络分支,采用现有的或新的深度预测方法对该RGB图像进行深度预测,得到该RGB图像的深度信息。
基于该深度信息确定第一单目图像的点云数据,在一可选实施方式中,可以结合深度信息和第一单目图像对应的相机内参将第一单目图像中每个像素点转换为三维点云。具体为,即相机内参为预测的深度图为D(u,v),针对第一单目图像中每一像素点,记为I(u,v),可以采用下式(2),基于相机内参和深度图转换为三维点云。
其中,Pc为三维点云,对上式(2)进行转换,采用下式(3)表示Pc。
针对每个三维点,可以基于该三维点将2D图像特征转换为体素,得到体素数据,之后目标模型中可以串接一个现有的或者新的用于提取点云特征的网络对该体素数据进行点云特征提取,得到体素的图像特征即第一点云特征。
本实施方式中,通过对所述第一单目图像进行深度预测,得到所述第一单目图像的深度信息;基于所述深度信息和所述第一单目图像对应的相机内参,将所述第一单目图像中的像素点转换为第一3D点云数据;对所述第一3D点云数据进行特征提取,得到所述第一点云特征。如此,可以实现基于第一单目图像进行点云特征提取,得到第一点云特征,且点云特征提取方式简单易实现。
可选的,所述目标学习参数用于表征所述第一点云特征与所述目标点云特征的分布差异程度,所述基于目标学习参数对所述第一点云特征进行调整,得到第二点云特征,包括:
对所述第一点云特征进行归一化;
基于所述目标学习参数,对归一化的第一点云特征进行调整,得到所述第二点云特征。
本实施方式中,目标学习参数具体可以表征第一点云特征与目标点云特征的分布差异程度,该目标学习参数可以包括第一点云特征与目标点云特征的分布之间的均值差异值和方差差异值。
设第一点云特征为BEVimg,目标学习参数为(Δμimg,Δσimg),其中Δμimg表征第一点云特征与目标点云特征的分布之间的均值差异值,Δσimg表征第一点云特征与目标点云特征的分布之间的方差差异值。
基于该目标学习参数对第一点云特征进行调整的步骤具体可以为:计算BEVimg的均值和方差,记为(μimg,σimg),基于该均值和方差,对BEVimg进行归一化,得到归一化的第一点云特征基于该目标学习参数,采用上式(1)对归一化的第一点云特征进行调整,得到第二点云特征
本实施方式中,在目标学习参数用于表征所述第一点云特征与所述目标点云特征的分布差异程度的情况下,通过对所述第一点云特征进行归一化;基于所述目标学习参数,对归一化的第一点云特征进行调整,得到所述第二点云特征。如此,可以实现对第一点云特征进行点云特征蒸馏,得到第二点云特征,且点云特征蒸馏方式简单易实现。
第二实施例
如图3所示,本公开提供一种模型训练方法,包括如下步骤:
步骤S301:获取训练样本数据,所述训练样本数据包括第二单目图像、所述第二单目图像对应的点云特征标签和3D空间上的检测标签。
步骤S302:将所述第二单目图像输入至目标模型执行第二检测操作,得到3D空间上的第二检测信息,所述第二检测操作包括:基于所述第二单目图像进行特征提取,得到第三点云特征,基于所述点云特征标签,对所述第三点云特征进行特征蒸馏,得到第四点云特征和目标学习参数,所述目标学习参数为使所述第四点云特征和所述点云特征标签的差异值小于预设阈值的学习参数,基于所述第四点云特征进行3D目标检测,得到所述第二检测信息;
步骤S303:确定所述目标模型的损失值,所述损失值包括:所述点云特征标签与所述第四点云特征的差异值,以及所述检测标签与所述第二检测信息的差异值;
步骤S304:基于所述损失值更新所述目标模型的网络参数。
本实施例描述的是目标模型的训练过程。
在步骤S301中,训练样本数据中可以包括很多个第二单目图像以及每个第二单目图像对应的点云特征标签和3D空间上的检测标签。
第二单目图像的获取方式可以包括多种,可以采用一种或多种方式获取训练样本数据中的第二单目图像。比如,可以通过单目相机直接拍摄一张单目图像,并将该单目图像作为第二单目图像,也可以获取预先存储的该第二单目图像,还可以接收其他电子设备发送的该第二单目图像,亦或是从网络上下载单目图像作为该第二单目图像。
第二单目图像对应的点云特征标签可以指的是基于第二单目图像的点云数据标签所提取出来的点云特征,该点云特征标签可以比较准确地表达第二单目图像的特征。第二单目图像的点云数据标签可以为通过激光雷达,针对第二单目图像的同一场景采集到的该场景下比较精确的点云数据。
第二单目图像对应的点云特征标签的获取方式可以包括多种,比如,在准确获知第二单目图像的点云数据标签的情况下,可以对该点云数据标签进行点云特征提取,得到点云特征标签,也可以获取预先存储的该第二单目图像对应的点云特征标签,还可以接收其他电子设备发送的该第二单目图像对应的点云特征标签。
第二单目图像对应的3D空间上的检测标签可以包括表征第二单目图像中物体类别的标签,以及表征第二单目图像中物体位置的3D检测框的标签,其获取方式可以包括多种,比如,可以对点云特征标签进行3D目标检测,得到检测标签,也可以获取预先存储的该第二单目图像对应的检测标签,还可以接收其他电子设备发送的该第二单目图像对应的检测标签。
在一可选实施方式中,可以基于点云预训练网络模型来获取,该模型的参数已经固定,比如,常见的点云三维检测框架Second或PointPillars等。可以将第二单目图像对应的真实雷达点云输入至点云预训练网络模型进行3D目标检测,中间特征图为点云特征标签,输出为第二单目图像对应的检测标签。
目标模型训练的整体框架示意图如图4所示,可以输入真实雷达点云至点云预训练网络模型,点云预训练网络模型对该真实雷达点云进行体素化,得到体素数据,并基于3D编码器进行特征提取,得到点云特征标签BEVcloud,归一化点云特征标签后,得到归一化的点云特征标签,用表示。
在步骤S302中,可以将第二单目图像输入至目标模型执行第二检测操作,得到第二检测信息。其中,第二检测操作也可以包括点云特征提取、点云特征蒸馏和基于点云特征进行3D目标检测。
第二检测操作中的点云特征提取与第一检测操作中的点云特征提取的方式类似,以及第二检测操作中的基于点云特征进行3D目标检测与第一检测操作中的基于点云特征进行3D目标检测的方式类似,这里不进行赘述。
第二检测操作中的点云特征蒸馏方式也可以包括多种,在一可选实施方式中,可以设置初始学习参数,该初始学习参数可以包括两个点云特征之间像素点的特征差异值,基于该初始学习参数对第三点云特征中像素点的特征值进行调整,得到另一点云特征,确定调整后的点云特征与点云特征标签之间像素点的特征差异值,基于该特征差异值,采用梯度下降等方法调整初始学习参数,最终得到目标学习参数。
其中,目标学习参数可以包括第三点云特征与目标点云特征之间像素点的特征差异值,基于该特征差异值,对第三点云特征中像素点的特征值进行调整,可以得到与点云特征标签相似的第四点云特征。
在另一可选实施方式中,可以设置初始学习参数,该初始学习参数可以表征两个点云特征之间的分布差异值,基于该初始学习参数对第三点云特征的分布进行调整,得到另一点云特征,确定调整后的点云特征与点云特征标签之间的分布差异值,基于该分布差异值,采用梯度下降等方法调整初始学习参数,最终得到目标学习参数。
其中,目标学习参数具体可以表征第三点云特征与点云特征标签的分布差异程度,该目标学习参数可以包括第三点云特征与点云特征标签的分布之间的均值差异值和方差差异值。基于该均值差异值和方差差异值,对第三点云特征的分布进行调整,可以得到与点云特征标签分布相似的第四点云特征。
另外,第二检测信息中包括的内容与第一检测信息中包括的内容类似,这里不进行赘述。
在步骤S303中,可以确定目标模型的损失值,该损失值可以包括点云特征标签与第四点云特征的差异值,以及检测标签与第二检测信息的差异值,具体可以下式(4)来计算目标模型的损失值。
L=Ldistill+Lclass+Lbox3d (4)
其中,L表示目标模型的损失值,Ldistill表示点云特征标签与第四点云特征的差异值,Lclass为检测标签中物体类别的标签与第二检测信息中物体类别的差异值,Lbox3d为检测标签中3D检测框与第二检测信息中3D检测框的差异值,包括两个3D检测框之间的长、宽、高以及朝向角的差异值。
在步骤S304中,基于该损失值,采用梯度下降等方法更新目标模型的网络参数,直至目标模型的损失值小于某一阈值,且达到收敛,此时目标模型训练完成。
本实施例中,通过获取训练样本数据,所述训练样本数据包括第二单目图像、所述第二单目图像对应的点云特征标签和3D空间上的检测标签;将所述第二单目图像输入至目标模型执行第二检测操作,得到3D空间上的第二检测信息,所述第二检测操作包括:基于所述第二单目图像进行特征提取,得到第三点云特征,基于所述点云特征标签,对所述第三点云特征进行特征蒸馏,得到第四点云特征和目标学习参数,所述目标学习参数为使所述第四点云特征和所述点云特征标签的差异值小于预设阈值的学习参数,基于所述第四点云特征进行3D目标检测,得到所述第二检测信息;确定所述目标模型的损失值,所述损失值包括:所述点云特征标签与所述第四点云特征的差异值,以及所述检测标签与所述第二检测信息的差异值;基于所述损失值更新所述目标模型的网络参数。如此,可以实现目标模型的训练,采用该目标模型对单目图像进行3D目标检测,可以提高单目3D目标检测的精度。
可选的,所述基于所述点云特征标签,对所述第三点云特征进行特征蒸馏,得到第四点云特征和目标学习参数,包括:
分别对所述第三点云特征和所述点云特征标签进行归一化;
基于学习参数,对归一化后的第三点云特征进行调整,得到第五点云特征;
确定所述第五点云特征和归一化的点云特征标签的差异值;
基于所述第五点云特征和归一化的点云特征标签的差异值更新所述学习参数,以得到所述目标学习参数和所述第四点云特征。
本实施方式中,第三点云特征和点云特征标签的归一化方式与第一点云特征的归一化方式类似,这里不进行赘述。
可以设置初始学习参数,该初始学习参数可以表征两个点云特征之间的分布差异值,基于该初始学习参数对第三点云特征的分布(即归一化的第三点云特征)进行调整,得到另一点云特征即第五点云特征,确定第五点云特征与点云特征标签之间的分布差异值,即确定第五点云特征与归一化的点云特征之间的差异值。基于该分布差异值,采用梯度下降等方法调整初始学习参数,最终得到目标学习参数。
其中,目标学习参数具体可以表征第三点云特征与点云特征标签的分布差异程度,该目标学习参数可以包括第三点云特征与点云特征标签的分布之间的均值差异值和方差差异值。基于该均值差异值和方差差异值,对第三点云特征的分布进行调整,可以得到与点云特征标签分布相似的第四点云特征。
在训练过程中,可以首先确定目标学习参数,在该目标学习参数下,确定目标模型的损失值,以更新目标模型的网络参数,之后在更新的目标模型的网络参数下,由于第三点云特征进行了更新,相应的,再次更新目标学习参数,直至目标模型的损失值小于某一阈值,且达到收敛,此时,将最后一次更新的网络参数和目标学习参数用于实际的单目3D目标检测。
本实施方式中,通过分别对所述第三点云特征和所述点云特征标签进行归一化;基于学习参数,对归一化后的第三点云特征进行调整,得到第五点云特征;确定所述第五点云特征和归一化的点云特征标签的差异值;基于所述第五点云特征和归一化的点云特征标签的差异值更新所述学习参数,以得到所述目标学习参数和所述第四点云特征。如此,可以在目标模型的训练过程中实现对第三点云特征的点云特征蒸馏,得到与点云特征标签相似的第四点云特征,且点云特征蒸馏方式简单易实现。
第三实施例
如图5所示,本公开提供一种3D目标检测装置500,包括:
第一获取模块501,用于获取第一单目图像;
第一执行模块502,用于将所述第一单目图像输入至目标模型执行第一检测操作,得到三维3D空间上的第一检测信息;
其中,所述第一检测操作包括:基于所述第一单目图像进行特征提取,得到第一点云特征,基于目标学习参数对所述第一点云特征进行调整,得到第二点云特征,基于所述第二点云特征进行3D目标检测,得到所述第一检测信息,所述目标学习参数用于表征所述第一点云特征与所述第一单目图像的目标点云特征的差异程度。
可选的,所述第一执行模块502包括:
深度预测单元,用于对所述第一单目图像进行深度预测,得到所述第一单目图像的深度信息;
转换单元,用于基于所述深度信息和所述第一单目图像对应的相机内参,将所述第一单目图像中的像素点转换为第一3D点云数据;
第一特征提取单元,用于对所述第一3D点云数据进行特征提取,得到所述第一点云特征。
可选的,所述目标学习参数用于表征所述第一点云特征与所述目标点云特征的分布差异程度,所述第一执行模块502包括:
第一归一化单元,用于对所述第一点云特征进行归一化;
第一调整单元,用于基于所述目标学习参数,对归一化的第一点云特征进行调整,得到所述第二点云特征。
本公开提供的3D目标检测装置500能够实现3D目标检测方法实施例实现的各个过程,且能够达到相同的有益效果,为避免重复,这里不再赘述。
第四实施例
如图6所示,本公开提供一种模型训练装置600,包括:
第二获取模块601,用于获取训练样本数据,所述训练样本数据包括第二单目图像、所述第二单目图像对应的点云特征标签和3D空间上的检测标签;
第二执行模块602,用于将所述第二单目图像输入至目标模型执行第二检测操作,得到3D空间上的第二检测信息,所述第二检测操作包括:基于所述第二单目图像进行特征提取,得到第三点云特征,基于所述点云特征标签,对所述第三点云特征进行特征蒸馏,得到第四点云特征和目标学习参数,所述目标学习参数为使所述第四点云特征和所述点云特征标签的差异值小于预设阈值的学习参数,基于所述第四点云特征进行3D目标检测,得到所述第二检测信息;
模型损失确定模块603,用于确定所述目标模型的损失值,所述损失值包括:所述点云特征标签与所述第四点云特征的差异值,以及所述检测标签与所述第二检测信息的差异值;
网络参数更新模块604,用于基于所述损失值更新所述目标模型的网络参数。
可选的,所述第二执行模块602包括:
第二归一化单元,用于分别对所述第三点云特征和所述点云特征标签进行归一化;
第二调整单元,用于基于学习参数,对归一化后的第三点云特征进行调整,得到第五点云特征;
特征差异确定单元,用于确定所述第五点云特征和归一化的点云特征标签的差异值;
学习参数更新单元,用于基于所述第五点云特征和归一化的点云特征标签的差异值更新所述学习参数,以得到所述目标学习参数和所述第四点云特征。
本公开提供的模型训练装置600能够实现模型训练方法实施例实现的各个过程,且能够达到相同的有益效果,为避免重复,这里不再赘述。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如3D目标检测方法或模型训练方法。例如,在一些实施例中,3D目标检测方法或模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的3D目标检测方法或模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行3D目标检测方法或模型训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (13)
1.一种3D目标检测方法,包括:
获取第一单目图像;
将所述第一单目图像输入至目标模型执行第一检测操作,得到三维3D空间上的第一检测信息;
其中,所述第一检测操作包括:基于所述第一单目图像进行特征提取,得到第一点云特征,基于目标学习参数对所述第一点云特征进行调整,得到第二点云特征,基于所述第二点云特征进行3D目标检测,得到所述第一检测信息,所述目标学习参数用于表征所述第一点云特征与所述第一单目图像的目标点云特征的差异程度。
2.根据权利要求1所述的方法,其中,所述基于所述第一单目图像进行特征提取,得到第一点云特征,包括:
对所述第一单目图像进行深度预测,得到所述第一单目图像的深度信息;
基于所述深度信息和所述第一单目图像对应的相机内参,将所述第一单目图像中的像素点转换为第一3D点云数据;
对所述第一3D点云数据进行特征提取,得到所述第一点云特征。
3.根据权利要求1所述的方法,其中,所述目标学习参数用于表征所述第一点云特征与所述目标点云特征的分布差异程度,所述基于目标学习参数对所述第一点云特征进行调整,得到第二点云特征,包括:
对所述第一点云特征进行归一化;
基于所述目标学习参数,对归一化的第一点云特征进行调整,得到所述第二点云特征。
4.一种模型训练方法,包括:
获取训练样本数据,所述训练样本数据包括第二单目图像、所述第二单目图像对应的点云特征标签和3D空间上的检测标签;
将所述第二单目图像输入至目标模型执行第二检测操作,得到3D空间上的第二检测信息,所述第二检测操作包括:基于所述第二单目图像进行特征提取,得到第三点云特征,基于所述点云特征标签,对所述第三点云特征进行特征蒸馏,得到第四点云特征和目标学习参数,所述目标学习参数为使所述第四点云特征和所述点云特征标签的差异值小于预设阈值的学习参数,基于所述第四点云特征进行3D目标检测,得到所述第二检测信息;
确定所述目标模型的损失值,所述损失值包括:所述点云特征标签与所述第四点云特征的差异值,以及所述检测标签与所述第二检测信息的差异值;
基于所述损失值更新所述目标模型的网络参数。
5.根据权利要求4所述的方法,其中,所述基于所述点云特征标签,对所述第三点云特征进行特征蒸馏,得到第四点云特征和目标学习参数,包括:
分别对所述第三点云特征和所述点云特征标签进行归一化;
基于学习参数,对归一化后的第三点云特征进行调整,得到第五点云特征;
确定所述第五点云特征和归一化的点云特征标签的差异值;
基于所述第五点云特征和归一化的点云特征标签的差异值更新所述学习参数,以得到所述目标学习参数和所述第四点云特征。
6.一种3D目标检测装置,包括:
第一获取模块,用于获取第一单目图像;
第一执行模块,用于将所述第一单目图像输入至目标模型执行第一检测操作,得到三维3D空间上的第一检测信息;
其中,所述第一检测操作包括:基于所述第一单目图像进行特征提取,得到第一点云特征,基于目标学习参数对所述第一点云特征进行调整,得到第二点云特征,基于所述第二点云特征进行3D目标检测,得到所述第一检测信息,所述目标学习参数用于表征所述第一点云特征与所述第一单目图像的目标点云特征的差异程度。
7.根据权利要求6所述的装置,其中,所述第一执行模块包括:
深度预测单元,用于对所述第一单目图像进行深度预测,得到所述第一单目图像的深度信息;
转换单元,用于基于所述深度信息和所述第一单目图像对应的相机内参,将所述第一单目图像中的像素点转换为第一3D点云数据;
第一特征提取单元,用于对所述第一3D点云数据进行特征提取,得到所述第一点云特征。
8.根据权利要求6所述的装置,其中,所述目标学习参数用于表征所述第一点云特征与所述目标点云特征的分布差异程度,所述第一执行模块包括:
第一归一化单元,用于对所述第一点云特征进行归一化;
第一调整单元,用于基于所述目标学习参数,对归一化的第一点云特征进行调整,得到所述第二点云特征。
9.一种模型训练装置,包括:
第二获取模块,用于获取训练样本数据,所述训练样本数据包括第二单目图像、所述第二单目图像对应的点云特征标签和3D空间上的检测标签;
第二执行模块,用于将所述第二单目图像输入至目标模型执行第二检测操作,得到3D空间上的第二检测信息,所述第二检测操作包括:基于所述第二单目图像进行特征提取,得到第三点云特征,基于所述点云特征标签,对所述第三点云特征进行特征蒸馏,得到第四点云特征和目标学习参数,所述目标学习参数为使所述第四点云特征和所述点云特征标签的差异值小于预设阈值的学习参数,基于所述第四点云特征进行3D目标检测,得到所述第二检测信息;
模型损失确定模块,用于确定所述目标模型的损失值,所述损失值包括:所述点云特征标签与所述第四点云特征的差异值,以及所述检测标签与所述第二检测信息的差异值;
网络参数更新模块,用于基于所述损失值更新所述目标模型的网络参数。
10.根据权利要求9所述的装置,所述第二执行模块包括:
第二归一化单元,用于分别对所述第三点云特征和所述点云特征标签进行归一化;
第二调整单元,用于基于学习参数,对归一化后的第三点云特征进行调整,得到第五点云特征;
特征差异确定单元,用于确定所述第五点云特征和归一化的点云特征标签的差异值;
学习参数更新单元,用于基于所述第五点云特征和归一化的点云特征标签的差异值更新所述学习参数,以得到所述目标学习参数和所述第四点云特征。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述的方法,或者执行权利要求4-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的方法,或者执行权利要求4-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-3中任一项所述的方法,或者执行时实现根据根据权利要求4-5中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110980060.4A CN113674421B (zh) | 2021-08-25 | 2021-08-25 | 3d目标检测方法、模型训练方法、相关装置及电子设备 |
US17/709,283 US20220222951A1 (en) | 2021-08-25 | 2022-03-30 | 3d object detection method, model training method, relevant devices and electronic apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110980060.4A CN113674421B (zh) | 2021-08-25 | 2021-08-25 | 3d目标检测方法、模型训练方法、相关装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113674421A true CN113674421A (zh) | 2021-11-19 |
CN113674421B CN113674421B (zh) | 2023-10-13 |
Family
ID=78546041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110980060.4A Active CN113674421B (zh) | 2021-08-25 | 2021-08-25 | 3d目标检测方法、模型训练方法、相关装置及电子设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220222951A1 (zh) |
CN (1) | CN113674421B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311172A (zh) * | 2023-05-17 | 2023-06-23 | 九识(苏州)智能科技有限公司 | 3d目标检测模型的训练方法、装置、设备及存储介质 |
CN116740669A (zh) * | 2023-08-16 | 2023-09-12 | 之江实验室 | 多目图像检测方法、装置、计算机设备和存储介质 |
CN117315402A (zh) * | 2023-11-02 | 2023-12-29 | 北京百度网讯科技有限公司 | 三维对象检测模型的训练方法及三维对象检测方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471805B (zh) * | 2022-09-30 | 2023-09-05 | 阿波罗智能技术(北京)有限公司 | 点云处理和深度学习模型训练方法、装置及自动驾驶车辆 |
CN116665189B (zh) * | 2023-07-31 | 2023-10-31 | 合肥海普微电子有限公司 | 基于多模态的自动驾驶任务处理方法及系统 |
CN117274749B (zh) * | 2023-11-22 | 2024-01-23 | 电子科技大学 | 一种基于4d毫米波雷达和图像的融合3d目标检测方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509918A (zh) * | 2018-04-03 | 2018-09-07 | 中国人民解放军国防科技大学 | 融合激光点云与图像的目标检测与跟踪方法 |
US20190206071A1 (en) * | 2017-12-29 | 2019-07-04 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for recovering point cloud data |
CN110060331A (zh) * | 2019-03-14 | 2019-07-26 | 杭州电子科技大学 | 一种基于全卷积神经网络的单目相机室外三维重建方法 |
CN110264468A (zh) * | 2019-08-14 | 2019-09-20 | 长沙智能驾驶研究院有限公司 | 点云数据标注、分割模型确定、目标检测方法及相关设备 |
CN110689008A (zh) * | 2019-09-17 | 2020-01-14 | 大连理工大学 | 一种面向单目图像的基于三维重建的三维物体检测方法 |
CN110766170A (zh) * | 2019-09-05 | 2020-02-07 | 国网江苏省电力有限公司 | 基于图像处理的多传感器融合和人员定位的方法 |
US20200118331A1 (en) * | 2018-10-11 | 2020-04-16 | GM Global Technology Operations LLC | Point cloud data compression in an autonomous vehicle |
US20200167941A1 (en) * | 2018-11-27 | 2020-05-28 | GM Global Technology Operations LLC | Systems and methods for enhanced distance estimation by a mono-camera using radar and motion data |
CN111291714A (zh) * | 2020-02-27 | 2020-06-16 | 同济大学 | 一种基于单目视觉和激光雷达融合的车辆检测方法 |
CN111723721A (zh) * | 2020-06-15 | 2020-09-29 | 中国传媒大学 | 基于rgb-d的三维目标检测方法、系统及装置 |
CN111739005A (zh) * | 2020-06-22 | 2020-10-02 | 北京百度网讯科技有限公司 | 图像检测方法、装置、电子设备及存储介质 |
CN112132829A (zh) * | 2020-10-23 | 2020-12-25 | 北京百度网讯科技有限公司 | 车辆信息的检测方法、装置、电子设备和存储介质 |
US20210004974A1 (en) * | 2019-07-06 | 2021-01-07 | Toyota Research Institute, Inc. | Systems and methods for semi-supervised depth estimation according to an arbitrary camera |
US20210065391A1 (en) * | 2019-08-27 | 2021-03-04 | Nec Laboratories America, Inc. | Pseudo rgb-d for self-improving monocular slam and depth prediction |
US20210073997A1 (en) * | 2019-09-06 | 2021-03-11 | Google Llc | Future semantic segmentation prediction using 3d structure |
CN112862006A (zh) * | 2021-03-25 | 2021-05-28 | 北京百度网讯科技有限公司 | 图像深度信息获取模型的训练方法、装置及电子设备 |
-
2021
- 2021-08-25 CN CN202110980060.4A patent/CN113674421B/zh active Active
-
2022
- 2022-03-30 US US17/709,283 patent/US20220222951A1/en not_active Abandoned
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190206071A1 (en) * | 2017-12-29 | 2019-07-04 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for recovering point cloud data |
CN108509918A (zh) * | 2018-04-03 | 2018-09-07 | 中国人民解放军国防科技大学 | 融合激光点云与图像的目标检测与跟踪方法 |
US20200118331A1 (en) * | 2018-10-11 | 2020-04-16 | GM Global Technology Operations LLC | Point cloud data compression in an autonomous vehicle |
US20200167941A1 (en) * | 2018-11-27 | 2020-05-28 | GM Global Technology Operations LLC | Systems and methods for enhanced distance estimation by a mono-camera using radar and motion data |
CN111223135A (zh) * | 2018-11-27 | 2020-06-02 | 通用汽车环球科技运作有限责任公司 | 通过使用雷达和运动数据的单目相机来增强距离估计的系统和方法 |
CN110060331A (zh) * | 2019-03-14 | 2019-07-26 | 杭州电子科技大学 | 一种基于全卷积神经网络的单目相机室外三维重建方法 |
US20210004974A1 (en) * | 2019-07-06 | 2021-01-07 | Toyota Research Institute, Inc. | Systems and methods for semi-supervised depth estimation according to an arbitrary camera |
CN110264468A (zh) * | 2019-08-14 | 2019-09-20 | 长沙智能驾驶研究院有限公司 | 点云数据标注、分割模型确定、目标检测方法及相关设备 |
US20210065391A1 (en) * | 2019-08-27 | 2021-03-04 | Nec Laboratories America, Inc. | Pseudo rgb-d for self-improving monocular slam and depth prediction |
CN110766170A (zh) * | 2019-09-05 | 2020-02-07 | 国网江苏省电力有限公司 | 基于图像处理的多传感器融合和人员定位的方法 |
US20210073997A1 (en) * | 2019-09-06 | 2021-03-11 | Google Llc | Future semantic segmentation prediction using 3d structure |
CN110689008A (zh) * | 2019-09-17 | 2020-01-14 | 大连理工大学 | 一种面向单目图像的基于三维重建的三维物体检测方法 |
CN111291714A (zh) * | 2020-02-27 | 2020-06-16 | 同济大学 | 一种基于单目视觉和激光雷达融合的车辆检测方法 |
CN111723721A (zh) * | 2020-06-15 | 2020-09-29 | 中国传媒大学 | 基于rgb-d的三维目标检测方法、系统及装置 |
CN111739005A (zh) * | 2020-06-22 | 2020-10-02 | 北京百度网讯科技有限公司 | 图像检测方法、装置、电子设备及存储介质 |
CN112132829A (zh) * | 2020-10-23 | 2020-12-25 | 北京百度网讯科技有限公司 | 车辆信息的检测方法、装置、电子设备和存储介质 |
CN112862006A (zh) * | 2021-03-25 | 2021-05-28 | 北京百度网讯科技有限公司 | 图像深度信息获取模型的训练方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
李宇杰;李煊鹏;张为公;: "基于视觉的三维目标检测算法研究综述", 计算机工程与应用, no. 01 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311172A (zh) * | 2023-05-17 | 2023-06-23 | 九识(苏州)智能科技有限公司 | 3d目标检测模型的训练方法、装置、设备及存储介质 |
CN116311172B (zh) * | 2023-05-17 | 2023-09-22 | 九识(苏州)智能科技有限公司 | 3d目标检测模型的训练方法、装置、设备及存储介质 |
CN116740669A (zh) * | 2023-08-16 | 2023-09-12 | 之江实验室 | 多目图像检测方法、装置、计算机设备和存储介质 |
CN116740669B (zh) * | 2023-08-16 | 2023-11-14 | 之江实验室 | 多目图像检测方法、装置、计算机设备和存储介质 |
CN117315402A (zh) * | 2023-11-02 | 2023-12-29 | 北京百度网讯科技有限公司 | 三维对象检测模型的训练方法及三维对象检测方法 |
Also Published As
Publication number | Publication date |
---|---|
US20220222951A1 (en) | 2022-07-14 |
CN113674421B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113674421B (zh) | 3d目标检测方法、模型训练方法、相关装置及电子设备 | |
WO2022257487A1 (zh) | 深度估计模型的训练方法, 装置, 电子设备及存储介质 | |
CN113920307A (zh) | 模型的训练方法、装置、设备、存储介质及图像检测方法 | |
CN112634343A (zh) | 图像深度估计模型的训练方法、图像深度信息的处理方法 | |
US20220351398A1 (en) | Depth detection method, method for training depth estimation branch network, electronic device, and storage medium | |
CN113869449A (zh) | 一种模型训练、图像处理方法、装置、设备及存储介质 | |
CN113378712A (zh) | 物体检测模型的训练方法、图像检测方法及其装置 | |
CN112861885A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN113591566A (zh) | 图像识别模型的训练方法、装置、电子设备和存储介质 | |
CN113205041A (zh) | 结构化信息提取方法、装置、设备和存储介质 | |
CN112580666A (zh) | 图像特征的提取方法、训练方法、装置、电子设备及介质 | |
CN115147831A (zh) | 三维目标检测模型的训练方法和装置 | |
CN113409340A (zh) | 语义分割模型训练方法、语义分割方法、装置及电子设备 | |
CN113592932A (zh) | 深度补全网络的训练方法、装置、电子设备及存储介质 | |
CN114882313B (zh) | 生成图像标注信息的方法、装置、电子设备及存储介质 | |
CN113781653B (zh) | 对象模型生成方法、装置、电子设备及存储介质 | |
CN115830268A (zh) | 用于优化感知算法的数据的获取方法、装置和存储介质 | |
CN115482443A (zh) | 图像特征融合及模型训练方法、装置、设备以及存储介质 | |
CN112560848B (zh) | 兴趣点poi预训练模型的训练方法、装置及电子设备 | |
CN115019057A (zh) | 图像特征提取模型确定方法及装置、图像识别方法及装置 | |
CN114549904A (zh) | 视觉处理及模型训练方法、设备、存储介质及程序产品 | |
CN113205131A (zh) | 图像数据的处理方法、装置、路侧设备和云控平台 | |
CN113936158A (zh) | 一种标签匹配方法及装置 | |
CN113591569A (zh) | 障碍物检测方法、装置、电子设备以及存储介质 | |
CN113658277B (zh) | 立体匹配方法、模型训练方法、相关装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |