CN116453109A - 3d目标检测方法、装置、设备及存储介质 - Google Patents

3d目标检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116453109A
CN116453109A CN202310320998.2A CN202310320998A CN116453109A CN 116453109 A CN116453109 A CN 116453109A CN 202310320998 A CN202310320998 A CN 202310320998A CN 116453109 A CN116453109 A CN 116453109A
Authority
CN
China
Prior art keywords
data
training sample
model
pseudo
loss value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310320998.2A
Other languages
English (en)
Inventor
郑秀枝
赵显�
张经纬
李�昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Goldway Intelligent Transportation System Co Ltd
Original Assignee
Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Goldway Intelligent Transportation System Co Ltd filed Critical Shanghai Goldway Intelligent Transportation System Co Ltd
Priority to CN202310320998.2A priority Critical patent/CN116453109A/zh
Publication of CN116453109A publication Critical patent/CN116453109A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种3D目标检测方法、装置、设备及存储介质,所述3D目标检测方法包括:获取目标物体的特征数据,其中,所述特征数据包括点云数据和图像数据;将所述特征数据输入至预设的目标检测模型,基于所述目标检测模型,对所述特征数据进行检测处理,得到所述目标物体的3D检测框;其中,所述目标检测模型是基于特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练得到的,所述第一伪标注数据是对所述特征训练样本的全部伪标注数据进行筛选后得到的。本申请属于汽车自动驾驶技术领域,基于伪标注数据以及标注数据的半监督学习的方式训练得到的目标检测模型,无需大量人工标注数据,提高了3D目标检测的效率。

Description

3D目标检测方法、装置、设备及存储介质
技术领域
本申请涉及汽车自动驾驶技术领域,尤其涉及一种3D目标检测方法、装置、设备及存储介质。
背景技术
在汽车自动驾驶领域,目标检测是自动驾驶系统的基础与核心,2D目标检测对于高级别自动驾驶远远不够,通常需要采用3D目标检测来保证目标检测的准确性。
相关技术中,3D目标检测常用的传感器有相机和激光雷达,利用多传感器的互补特性,以此实现可靠的3D目标检测。目前主流的方法有3D-CVF、EPNet、PointPainting等,但是以上的算法性能依赖于准确的人工标注数据,而在自动驾驶场景中,人工标注数据的速度远远小于数据积累的速度,从而导致目标检测的效率低。
发明内容
本申请的主要目的在于提供一种3D目标检测方法、装置、设备及存储介质,旨在解决相关技术中目标检测的效率低的技术问题。
为实现以上目的,本申请提供一种3D目标检测方法,所述3D目标检测方法包括:
获取目标物体的特征数据,其中,所述特征数据包括点云数据和图像数据;
将所述特征数据输入至预设的目标检测模型,基于所述目标检测模型,对所述特征数据进行检测处理,得到所述目标物体的3D检测框;
其中,所述目标检测模型是基于特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练得到的,所述第一伪标注数据是对所述特征训练样本的全部伪标注数据进行筛选后得到的。
可选地,所述获取目标物体的特征数据的步骤之前,所述方法包括:
获取特征训练样本、所述特征训练样本的第二伪标注数据及标注数据,其中,所述特征训练样本包括点云训练样本和图像训练样本;
对所述第二伪标注数据进行自适应阈值过滤,得到筛选后的所述特征训练样本的第一伪标注数据;
基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练,得到目标检测模型。
可选地,所述对所述第二伪标注数据进行自适应阈值过滤,得到筛选后的所述特征训练样本的第一伪标注数据的步骤,包括:
将所述图像训练样本输入至预设的2D检测模型,基于所述2D检测模型,对所述图像训练样本进行2D检测处理,得到预测2D检测框;
将所述第二伪标注数据的3D检测框投影至所述图像训练样本,计算得到投影2D检测框;
基于所述预测2D检测框和所述投影2D检测框,计算所述图像训练样本的2D检测重叠度IoU值,并基于所述IoU值和预设的分数计算公式对所述第二伪标注数据进行打分,得到所述第二伪标注数据的分值;
基于所述分值,对所述第二伪标注数据进行筛选,得到筛选后的所述特征训练样本的第一伪标注数据。
可选地,所述基于所述分值,对所述第二伪标注数据进行筛选,得到筛选后的所述特征训练样本的第一伪标注数据的步骤,包括:
获取所述图像训练样本的类别信息和距离信息;
基于所述类别信息、所述距离信息和预设的过滤阈值计算公式,确定过滤阈值,其中,所述过滤阈值计算公式如下:
其中,k代表类别,d为代表距离,t为过滤阈值,和/>分别表示类别k在距离d处的真阳性TP和假阳性FP总数,/>和/>分别表示距离d处类别k的置信度大于t时真阳性和假阳性的数量,δTP表示真阳性的比例,δFP表示假阳性的比例;
筛除所述分值小于所述过滤阈值的第二伪标注数据,以及将所述分值大于或者等于所述过滤阈值的第二伪标注数据确定为筛选后的所述特征训练样本的第一伪标注数据。
可选地,所述基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练,得到目标检测模型的步骤,包括:
将所述特征训练样本输入至预设的待训练模型,得到预测3D检测框;
基于所述预测3D检测框与所述特征训练样本的第一伪标注数据及标注数据,采用第一损失函数,计算得到第一误差值;
判断所述第一误差值是否满足预设误差阈值范围指示的误差标准;
若所述误差结果未满足所述误差标准,返回将所述特征训练样本输入至预设的待训练模型,得到预测3D检测框的步骤,直到所述误差结果满足所述误差标准后停止训练,得到初始检测模型;
对所述初始检测模型进行初始化,并将初始化后的初始检测模型分为学生模型与教师模型;
基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,分别对所述学生模型与教师模型进行训练,并将训练完成后的教师模型确定为目标检测模型。
可选地,所述基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,分别对所述学生模型与教师模型进行训练,并将训练完成后的教师模型确定为目标检测模型的步骤,包括:
对所述特征训练样本进行第一数据增强处理,得到第二特征训练样本;
将所述第二特征训练样本输入至所述教师模型,得到第二损失值;
将所述第二特征训练样本进行第二数据增强处理,得到第三特征训练样本;
基于所述第一损失值和第二损失值,计算得到第三损失值;
将所述第三特征训练样本和所述第三损失值输入至所述学生模型,对所述学生模型进行训练,得到训练后的学生模型的参数;
将所述训练后的学生模型的参数更新为所述教师模型的参数,并判断当前学生模型的参数是否满足所述第三损失值所指示的收敛标准;
若所述当前学生模型的参数未满足所述第三损失值所指示的收敛标准,返回所述将所述第三特征训练样本和所述第三损失值输入至所述学生模型,对所述学生模型进行训练,得到训练后的学生模型的参数的步骤,直至所述学生模型满足所述第三损失值所指示的收敛标准,得到满足精度条件的学生模型,并将所述满足精度条件的学生模型的参数更新为所述教师模型的参数,得到满足精度条件的目标检测模型。
可选地,所述第二损失值包括中心点损失值、尺寸损失值和类别损失值,所述基于所述第一损失值和第二损失值,计算得到第三损失值的步骤,包括:
基于所述中心点损失值、尺寸损失值、类别损失值和预设的一致性损失值计算公式,计算得到第四损失值,其中,所述一致性损失值计算公式如下所示:
Lconsis=αLctr+βLsize+γLcls
其中,Lctr表示中心点损失值,Lsize表示尺寸损失值,所述Lcls表示类别损失值,Lconsis表示第四损失值;
基于所述第一损失值、第四损失值和预设的监督损失计算公式,计算得到第三损失值,其中,所述监督损失计算公式如下所示:
L=Lsup+ω(t)·Lconsis
其中,Lsup表示第一损失值,Lconsis表示第四损失值,ω(t)表示一致性损失权重。
本申请还提供一种3D目标检测装置,所述3D目标检测装置包括:
获取模块,用于获取目标物体的特征数据,其中,所述特征数据包括点云数据和图像数据;
检测模块,用于将所述特征数据输入至预设的目标检测模型,基于所述目标检测模型,对所述特征数据进行检测处理,得到所述目标物体的3D检测框;
其中,所述目标检测模型是基于特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练得到的,所述第一伪标注数据是对所述特征训练样本的全部伪标注数据进行筛选后得到的。
本申请还提供一种3D目标检测设备,所述3D目标检测设备包括:存储器、处理器以及存储在存储器上的用于实现所述3D目标检测方法的程序,
所述存储器用于存储实现3D目标检测方法的程序;
所述处理器用于执行实现所述3D目标检测方法的程序,以实现所述3D目标检测方法的步骤。
本申请还提供一种存储介质,所述存储介质上存储有实现3D目标检测方法的程序,所述实现3D目标检测方法的程序被处理器执行以实现所述3D目标检测方法的步骤。
本申请提供的一种3D目标检测方法、装置、设备及存储介质,与相关技术中算法性能依赖于准确的人工标注数据,导致目标检测的效率低相比,在本申请中,获取目标物体的特征数据,其中,所述特征数据包括点云数据和图像数据;将所述特征数据输入至预设的目标检测模型,基于所述目标检测模型,对所述特征数据进行检测处理,得到所述目标物体的3D检测框;其中,所述目标检测模型是基于特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练得到的,所述第一伪标注数据是对所述特征训练样本的全部伪标注数据进行筛选后得到的。即在本申请中,基于伪标注数据以及标注数据的半监督学习的方式训练得到的目标检测模型,无需大量人工标注数据,提高了3D目标检测的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本申请3D目标检测方法第一实施例的流程示意图;
图3为本申请3D目标检测装置的模块示意图;
图4为本申请3D目标检测方法第二实施例的算法框架示意图;
图5为本申请3D目标检测方法第一实施例的LV模型算法框架示意图;
图6为本申请3D目标检测方法第一实施例的自适应阈值过滤器的框架示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图。
本申请实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作装置、网络通信模块、用户接口模块以及3D目标检测程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的3D目标检测程序。
参照图2,本申请实施例提供一种3D目标检测方法,所述3D目标检测方法包括:
步骤S100,获取目标物体的特征数据,其中,所述特征数据包括点云数据和图像数据;
步骤S200,将所述特征数据输入至预设的目标检测模型,基于所述目标检测模型,对所述特征数据进行检测处理,得到所述目标物体的3D检测框;
其中,所述目标检测模型是基于特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练得到的,所述第一伪标注数据是对所述特征训练样本的全部伪标注数据进行筛选后得到的。
在本实施例中,针对的应用场景是:
作为一种示例,3D目标检测方法的场景可以为,自动驾驶汽车在行驶过程中对障碍物的检测。相关技术中,3D目标检测常用的传感器有相机和激光雷达,利用多传感器的互补特性,以此实现可靠的3D目标检测。目前主流的方法有3D-CVF、EPNet、PointPainting等,但是以上的算法性能依赖于准确的人工标注数据,而在自动驾驶场景中,人工标注数据的速度远远小于数据积累的速度,从而导致目标检测的效率低。针对此场景,本实施例的3D目标检测方法基于伪标注数据以及标注数据的半监督学习的方式训练得到的目标检测模型,无需大量人工标注数据,提高了3D目标检测的效率。
本实施例旨在:提高3D目标检测的效率。
在本实施例中,3D目标检测方法应用于3D目标检测装置。
具体步骤如下:
步骤S100,获取目标物体的特征数据,其中,所述特征数据包括点云数据和图像数据;
在本实施例中,所述目标物体为自动驾驶场景下道路上的物体,包括但不限于机动车、非机动车、行人等,所述特征数据包括点云数据和图像数据,其中,所述点云数据是指在一个三维坐标系统中的一组向量的集合,即目标物体的三维坐标数据;所述图像数据为车辆行驶的场景下,车辆的摄像机所拍摄获取的图像。
在本实施例中,装置获取目标物体的特征数据的方式为通过设置的摄像头和激光雷达分别获取图像数据和点云数据。
步骤S200,将所述特征数据输入至预设的目标检测模型,基于所述目标检测模型,对所述特征数据进行检测处理,得到所述目标物体的3D检测框;
其中,所述目标检测模型是基于特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练得到的,所述第一伪标注数据是对所述特征训练样本的全部伪标注数据进行筛选后得到的。
在本实施例中,装置将所述特征数据输入至预设的目标检测模型,基于所述目标检测模型,对所述特征数据进行检测处理,得到所述目标物体的3D检测框,具体地,将训练充分的目标检测模型作为最终的输出模型用来预测目标物体的3D目标检测框,其中,目标框的类别由应用的要求决定,如自动驾驶场景中,有机动车、非机动车、人等类别。目标框的尺度由以下参数定义(x,y,z,w,l,h,θ),其中(x,y,z)表示框中心点坐标,(w,l,h,θ)表示框的宽、长、高和角度。
在本实施例中,所述目标检测模型是基于特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练得到的,其中,所述伪标注数据是指利用在人工标注数据所训练的模型,在未标注的数据上进行预测,得到的预测结果即伪标注数据,即非准确的数据,相对的,标注数据即人工标注数据,为准确的数据。
在本实施例中,所述第一伪标注数据是对所述特征训练样本的全部伪标注数据进行筛选后得到的,具体地,由于特征训练样本存在大量的伪标注数据,在进行半监督学习的训练模型之前,需要对伪标注数据进行质量筛选,取高质量的第一伪标注数据,以此提高模型的检测性能。
在本实施例中,本申请设计了一种基于摄像头和激光雷合的半监督三维目标检测方案,基于伪标注数据以及标注数据的半监督学习的方式训练得到的目标检测模型,无需大量人工标注数据,提高了3D目标检测的效率,能够实现高性能的3D目标检测。
在所述步骤S100,获取目标物体的特征数据的步骤之前,所述方法包括以下步骤A100-A300:
步骤A100,获取特征训练样本、所述特征训练样本的第二伪标注数据及标注数据,其中,所述特征训练样本包括点云训练样本和图像训练样本;
在本实施例中,所述特征训练样本是用于模型训练的特征数据,包括点云数据的训练样本和图像数据的训练样本,所述特征训练样本的第二伪标注数据是利用任一模型获取的伪标注数据,所述特征训练样本的标注数据即人工标注的准确的数据,需要说明的是,所述特征训练样本的第二伪标注数据及标注数据具体为训练样本的3D检测框。
步骤A200,对所述第二伪标注数据进行自适应阈值过滤,得到筛选后的所述特征训练样本的第一伪标注数据;
在本实施例中,由于在高度复杂的户外3D物体检测场景中,伪标注数据会显著受到噪声影响,导致该第二伪标注数据质量低,从而影响3D检测的准确性,因此本申请提出对所述第二伪标注数据进行自适应阈值过滤,以此对第二伪标注数据进行筛选,得到高质量的伪标注数据,即所述特征训练样本的第一伪标注数据。
具体地,所述步骤A200,包括以下步骤A210-A240:
步骤A210,将所述图像训练样本输入至预设的2D检测模型,基于所述2D检测模型,对所述图像训练样本进行2D检测处理,得到预测2D检测框;
在本实施例中,装置将所述图像训练样本输入至预设的2D检测模型,基于所述2D检测模型,对所述图像训练样本进行2D检测处理,得到预测2D检测框,其中,所述2D检测模型可以是任一训练完成的用于2D目标检测的模型。
步骤A220,将所述第二伪标注数据的3D检测框投影至所述图像训练样本,计算得到投影2D检测框;
在本实施例中,装置将所述第二伪标注数据的3D检测框投影至所述图像训练样本,计算得到投影2D检测框。
步骤A230,基于所述预测2D检测框和所述投影2D检测框,计算所述图像训练样本的2D检测重叠度IoU值,并基于所述IoU值和预设的分数计算公式对所述第二伪标注数据进行打分,得到所述第二伪标注数据的分值;
在本实施例中,装置基于所述预测2D检测框和所述投影2D检测框,计算所述图像训练样本的2D检测重叠度IoU值,其中,所述重叠度IoU(Intersection over Union)是一种测量在特定数据集中检测相应物体准确度的一个标准,是对象类别分割问题的标准性能度量,给定一组图像训练样本,IoU测量给出了在该组图像中存在的对象的预测区域和实况区域之间的相似性。
在本实施例中,参照图6,装置基于所述IoU值、预测2D检测框和所述预设的分数计算公式对所述第二伪标注数据进行打分,得到所述第二伪标注数据的分值,具体地,所述分数计算公式如下所示:
f=score1-α*iouα
其中,f表示第二伪标注数据更新后的分值;score表示第二伪标注数据的分值,分值为根据预设打分规则对第二伪标注数据进行打分的分值;α表示一个0-1之间的参数,α根据需求自行设定。
步骤A240,基于所述分值,对所述第二伪标注数据进行筛选,得到筛选后的所述特征训练样本的第一伪标注数据。
在本实施例中,装置基于所述分值,对所述第二伪标注数据进行筛选,得到筛选后的所述特征训练样本的第一伪标注数据,即根据每一第二伪标注数据的分值,将符合高质量标准的第二伪标注数据确定为第一伪标注数据,将不符合高质量标准的第二伪标注数据进行筛除,以此得到高质量伪标注数据的第一伪标注数据。
具体地,所述步骤A240,包括以下步骤A241-A243:
步骤A241,获取所述图像训练样本的类别信息和距离信息;
在本实施例中,所述图像训练样本的类别信息为所述图像训练样本中目标物体的类别,例如,图像训练样本A中目标物体为机动车,则图像训练样本A的类别信息为机动车;所述距离信息为目标物体与自身车辆之间的距离,例如,图像训练样本A中目标物体与自身车辆之间的距离为10米,则所述图像训练样本的距离信息为10米。
步骤A242,基于所述类别信息、所述距离信息和预设的过滤阈值计算公式,确定过滤阈值,其中,所述过滤阈值计算公式如下:
其中,k代表类别,d为代表距离,t为过滤阈值,和/>分别表示类别k在距离d处的真阳性TP和假阳性FP总数,/>和/>分别表示距离d处类别k的置信度大于t时真阳性和假阳性的数量,δTP表示真阳性的比例,δFP表示假阳性的比例;
在本实施例中,装置基于所述类别信息、所述距离信息和预设的过滤阈值计算公式,确定过滤阈值,即装置是基于分类别分距离的自适应阈值过滤器来过滤伪标签。其中,所述过滤阈值计算公式为在距离d处,对于k类,保留占比δTP的正样本,去除占比δFP的负样本。
步骤A243,筛除所述分值小于所述过滤阈值的第二伪标注数据,以及将所述分值大于或者等于所述过滤阈值的第二伪标注数据确定为筛选后的所述特征训练样本的第一伪标注数据。
在本实施例中,装置筛除所述分值小于所述过滤阈值的第二伪标注数据,以及将所述分值大于或者等于所述过滤阈值的第二伪标注数据确定为筛选后的所述特征训练样本的第一伪标注数据,其中,所述分值小于所述过滤阈值的第二伪标注数据表示质量低的伪标注数据,对其进行筛除;所述分值大于或者等于所述过滤阈值的第二伪标注数据表示质量高的伪标注数据,对其进行保留,并确定为筛选后的所述特征训练样本的第一伪标注数据。
步骤A300,基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练,得到目标检测模型。
在本实施例中,装置基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练,得到目标检测模型,其中,所述半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模型识别工作。
具体地,所述步骤A300,包括以下步骤A310-A360:
步骤A310,将所述特征训练样本输入至预设的待训练模型,得到预测3D检测框;
在本实施例中,所述预设的待训练模型是具有3D目标检测功能,但预测准确性还不满足精度条件的模型,装置将所述特征训练样本输入至预设的待训练模型,得到预测3D检测框。
步骤A320,基于所述预测3D检测框与所述特征训练样本的第一伪标注数据及标注数据,采用第一损失函数,计算得到第一误差值;
在本实施例中,装置基于所述预测3D检测框与所述特征训练样本的第一伪标注数据及标注数据,采用第一损失函数,计算得到第一误差值,其中,所述损失函数是用来度量模型的预测值与真实值的差异程度的运算函数,为非负实值函数,损失函数越小,模型的鲁棒性就越好。
步骤A330,判断所述第一误差值是否满足预设误差阈值范围指示的误差标准;
在本实施例中,装置判断所述第一误差值是否满足预设误差阈值范围指示的误差标准,其中,所述误差阈值范围是根据需求设置的,即若所述第一误差值满足预设误差阈值范围指示的误差标准,表示该轮模型所预测的3D检测框已满足精度条件,停止训练;相反,若所述第一误差值未满足预设误差阈值范围指示的误差标准,表示该轮模型所预测的3D检测框尚未满足精度条件,则进行下一轮迭代训练。
步骤A340,若所述误差结果未满足所述误差标准,返回将所述特征训练样本输入至预设的待训练模型,得到预测3D检测框的步骤,直到所述误差结果满足所述误差标准后停止训练,得到初始检测模型;
在本实施例中,即若所述第一误差值满足预设误差阈值范围指示的误差标准,表示该轮模型所预测的3D检测框已满足精度条件,停止训练,得到初始检测模型;相反,若所述第一误差值未满足预设误差阈值范围指示的误差标准,表示该轮模型所预测的3D检测框尚未满足精度条件,则进行下一轮迭代训练,直到所述误差结果满足所述误差标准后停止训练,得到初始检测模型。
在本实施例中,所述初始检测模型包括但不限于3D-CVF、EPNet、PointPainting,本申请还提供一种激光雷达和图像LV(Lidar and Vision)模型算法,具体地,参照图5,所述LV模型算法是首先利用图像特征编码器提取图像特征,再根据相机内外参将点云投影到图像上获取对应的图像特征,将点云特征和图像特征进行拼接得到新的点云特征,接着将点云进行体素化分割,并经过3D稀疏卷积得到高维特征,将高维特征在高度方向拼接以得到BEV特征图,最后使用2D卷积网络和两个检测头预测3D框。
步骤A350,对所述初始检测模型进行初始化,并将初始化后的初始检测模型分为学生模型与教师模型;
在本实施例中,装置对所述初始检测模型进行初始化,并将初始化后的初始检测模型分为学生模型与教师模型,即当前所述学生模型与教师模型是与初始化后的初始检测模型相同的模型。
步骤A360,基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,分别对所述学生模型与教师模型进行训练,并将训练完成后的教师模型确定为目标检测模型。
在本实施例中,装置基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,分别对所述学生模型与教师模型进行训练,并将训练完成后的教师模型确定为目标检测模型,其中,所述教师模型在训练过程中用于指导所述学生模型,学生模型向教师模型更新参数,由于教师模型训练过程的数据参数更多,预测准确度更高,因此将训练完成后的教师模型确定为目标检测模型。
具体地,所述步骤A360,包括以下步骤A361-A367:
步骤A361,对所述特征训练样本进行第一数据增强处理,得到第二特征训练样本;
在本实施例中,装置对所述特征训练样本进行第一数据增强处理,得到第二特征训练样本,其中,所述第一数据增强处理包括但不限于随机采样和GT采样,其中,具体地,在本申请的初始阶段,对于已标注数据,保存在3d框内的点云,将3d框投影到图像上,保存该图像,以此同时也保存其他必要信息,比如类别,尺寸等;所述GT采样是要求该帧点云每个类别至少有预设数量的检测框,对于不够该预设数量的检测框的类别从刚才以上初始阶段保存的3d框中随机选取,并将保存的点云放到该帧点云,同时把保存的图像粘到输入图像上。
步骤A362,将所述第二特征训练样本输入至所述教师模型,得到第二损失值;
在本实施例中,装置将所述第二特征训练样本输入至所述教师模型,得到第二损失值,其中,教师模型的输出经过第一数据增强处理和自适应阈值筛选器,得到第二损失值,其中,所述第二损失值包括中心点损失值、尺寸损失值和类别损失值三个一致性损失值,以此用三个一致性损失来指导学生模型。同时将经过自适应阈值筛选器和相同变换操作的伪标签和真值作为监督信号。
步骤A363,将所述第二特征训练样本进行第二数据增强处理,得到第三特征训练样本;
在本实施例中,装置将所述第二特征训练样本进行第二数据增强处理,得到第三特征训练样本,其中,所述第二数据增强处理包括但不限于随机稀疏点云,真值框随机缩放、平移和翻转。
步骤A364,基于所述第一损失值和第二损失值,计算得到第三损失值;
在本实施例中,装置基于所述第一损失值和第二损失值,计算得到第三损失值,即装置用所述第二损失值来指导学生模型,具体是通过所述第一损失值和第二损失值确定第三损失值,将所述第三损失值作为学生模型的监督损失值,以此指导学生模型。
具体地,所述步骤A364,包括以下步骤A3641-A3642:
步骤A3641,基于所述中心点损失值、尺寸损失值、类别损失值和预设的一致性损失值计算公式,计算得到第四损失值,其中,所述一致性损失值计算公式如下所示:
Lconsis=αLctr+βLsize+γLcls
其中,Lctr表示中心点损失值,Lsize表示尺寸损失值,所述Lcls表示类别损失值,Lconsis表示第四损失值;
步骤A3642,基于所述第一损失值、第四损失值和预设的监督损失计算公式,计算得到第三损失值,其中,所述监督损失计算公式如下所示:
L=Lsup+ω(t)·Lconsis
其中,Lsup表示第一损失值,Lconsis表示第四损失值,ω(t)表示一致性损失权重。
步骤A365,将所述第三特征训练样本和所述第三损失值输入至所述学生模型,对所述学生模型进行训练,得到训练后的学生模型的参数;
步骤A366,将所述训练后的学生模型的参数更新为所述教师模型的参数,并判断当前学生模型的参数是否满足所述第三损失值所指示的收敛标准;
步骤A367,若所述当前学生模型的参数未满足所述第三损失值所指示的收敛标准,返回所述将所述第三特征训练样本和所述第三损失值输入至所述学生模型,对所述学生模型进行训练,得到训练后的学生模型的参数的步骤,直至所述学生模型满足所述第三损失值所指示的收敛标准,得到满足精度条件的学生模型,并将所述满足精度条件的学生模型的参数更新为所述教师模型的参数,得到满足精度条件的目标检测模型,
在本实施例中,装置将所述训练后的学生模型的参数更新为所述教师模型的参数,具体地,装置利用指数移动平均(EMA)算法将来自学生模型的参数更新为教师模型的参数,如下式所示:
parametertea=parametertea×β+(1-β)parameterstu
其中,parametertea表示教师模型的参数,parameterstu表示学生模型的参数。
本申请提供的一种3D目标检测方法与相关技术中算法性能依赖于准确的人工标注数据,导致目标检测的效率低相比,在本申请中,获取目标物体的特征数据,其中,所述特征数据包括点云数据和图像数据;将所述特征数据输入至预设的目标检测模型,基于所述目标检测模型,对所述特征数据进行检测处理,得到所述目标物体的3D检测框;其中,所述目标检测模型是基于特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练得到的,所述第一伪标注数据是对所述特征训练样本的全部伪标注数据进行筛选后得到的。即在本申请中,基于伪标注数据以及标注数据的半监督学习的方式训练得到的目标检测模型,无需大量人工标注数据,提高了3D目标检测的效率。
基于上述的第一实施例,本申请还提供另一实施例,参照图4,所述3D目标检测方法,包括:
1、伪标签预训练阶段:
利用任一模型获得大量伪标签后,这些伪标签经过自适应阈值筛选器得到高质量伪标签。合并伪标签和标注数据用于训练3D激光雷达和图像检测模型,并将该模型作为二阶段的初始模型。
2、学生-教师模型训练阶段:
首先利用预训练阶段模型来初始化教师模型和学生模型。然后将经过随机采样和GT采样的点云和图像数据作为教师模型的输入,对这些数据进行随机稀疏点云和数据增强变换作为学生模型的输入,数据增强变换包括对真值框随机缩放,平移和翻转。教师模型的输出经过相同的变换操作和自适应阈值筛选器,用三个一致性损失来指导学生模型。同时将经过自适应阈值筛选器和相同变换操作的伪标签和真值作为监督信号。学生模型的损失函数由监督损失和一致性损失构成,具体参照上一实施例步骤S362-S364;
最后,利用指数移动平均(EMA)算法将来自学生模型的参数更新为教师模型的参数,并将训练完成教师模型的预测结果作为正向推理的结果。
3、3D目标检测:
将目标物体的特征数据输入至训练完成的教师模型中,教师模型输出的3D检测框即目标物体的3D检测框。
本申请还提供一种3D目标检测装置,所述3D目标检测装置包括:
获取模块10,用于获取目标物体的特征数据,其中,所述特征数据包括点云数据和图像数据;
检测模块20,用于将所述特征数据输入至预设的目标检测模型,基于所述目标检测模型,对所述特征数据进行检测处理,得到所述目标物体的3D检测框;其中,所述目标检测模型是基于特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练得到的,所述第一伪标注数据是对所述特征训练样本的全部伪标注数据进行筛选后得到的。
可选地,所述3D目标检测装置还包括:
样本获取模块,用于获取特征训练样本、所述特征训练样本的第二伪标注数据及标注数据,其中,所述特征训练样本包括点云训练样本和图像训练样本;
过滤模块,用于对所述第二伪标注数据进行自适应阈值过滤,得到筛选后的所述特征训练样本的第一伪标注数据;
训练模块,用于基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练,得到目标检测模型。
可选地,所述过滤模块,包括:
2D检测模块,用于将所述图像训练样本输入至预设的2D检测模型,基于所述2D检测模型,对所述图像训练样本进行2D检测处理,得到预测2D检测框;
投影模块,用于将所述第二伪标注数据的3D检测框投影至所述图像训练样本,计算得到投影2D检测框;
分数计算模块,用于基于所述预测2D检测框和所述投影2D检测框,计算所述图像训练样本的2D检测重叠度IoU值,并基于所述IoU值和预设的分数计算公式对所述第二伪标注数据进行打分,得到所述第二伪标注数据的分值;
筛选模块,用于基于所述分值,对所述第二伪标注数据进行筛选,得到筛选后的所述特征训练样本的第一伪标注数据。
可选地,所述筛选模块,包括:
样本信息获取模块,用于获取所述图像训练样本的类别信息和距离信息;
过滤阈值确定模块,用于基于所述类别信息、所述距离信息和预设的过滤阈值计算公式,确定过滤阈值,其中,所述过滤阈值计算公式如下:
其中,k代表类别,d为代表距离,t为过滤阈值,和/>分别表示类别k在距离d处的真阳性TP和假阳性FP总数,/>和/>分别表示距离d处类别k的置信度大于t时真阳性和假阳性的数量,δTP表示真阳性的比例,δFP表示假阳性的比例;
伪标注数据筛选模块,用于筛除所述分值小于所述过滤阈值的第二伪标注数据,以及将所述分值大于或者等于所述过滤阈值的第二伪标注数据确定为筛选后的所述特征训练样本的第一伪标注数据。
可选地,所述训练模块,包括:
预测模块,用于将所述特征训练样本输入至预设的待训练模型,得到预测3D检测框;
第一误差值计算模块,用于基于所述预测3D检测框与所述特征训练样本的第一伪标注数据及标注数据,采用第一损失函数,计算得到第一误差值;
判断模块,用于判断所述第一误差值是否满足预设误差阈值范围指示的误差标准;
迭代训练模块,用于若所述误差结果未满足所述误差标准,返回将所述特征训练样本输入至预设的待训练模型,得到预测3D检测框的步骤,直到所述误差结果满足所述误差标准后停止训练,得到初始检测模型;
初始化模块,用于对所述初始检测模型进行初始化,并将初始化后的初始检测模型分为学生模型与教师模型;
自学习训练模块,用于基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,分别对所述学生模型与教师模型进行训练,并将训练完成后的教师模型确定为目标检测模型。
可选地,所述自学习训练模块,包括:
第一数据增强模块,用于对所述特征训练样本进行第一数据增强处理,得到第二特征训练样本;
第二损失值确定模块,用于将所述第二特征训练样本输入至所述教师模型,得到第二损失值;
第二数据增强模块,将所述第二特征训练样本进行第二数据增强处理,得到第三特征训练样本;
第三损失值计算模块,用于基于所述第一损失值和第二损失值,计算得到第三损失值;
学生模型训练模块,用于将所述第三特征训练样本和所述第三损失值输入至所述学生模型,对所述学生模型进行训练,得到训练后的学生模型的参数;
参数更新模块,用于将所述训练后的学生模型的参数更新为所述教师模型的参数,并判断当前学生模型的参数是否满足所述第三损失值所指示的收敛标准;
目标检测模型确定模块,用于若所述当前学生模型的参数未满足所述第三损失值所指示的收敛标准,返回所述将所述第三特征训练样本和所述第三损失值输入至所述学生模型,对所述学生模型进行训练,得到训练后的学生模型的参数的步骤,直至所述学生模型满足所述第三损失值所指示的收敛标准,得到满足精度条件的学生模型,并将所述满足精度条件的学生模型的参数更新为所述教师模型的参数,得到满足精度条件的目标检测模型。
可选地,所述第三损失值计算模块,包括:
第四损失值计算模块,用于基于所述中心点损失值、尺寸损失值、类别损失值和预设的一致性损失值计算公式,计算得到第四损失值,其中,所述一致性损失值计算公式如下所示:
Lconsis=αLctr+βLsize+γLcls
其中,Lctr表示中心点损失值,Lsize表示尺寸损失值,所述Lcls表示类别损失值,Lconsis表示第四损失值;
监督损失计算模块,用于基于所述第一损失值、第四损失值和预设的监督损失计算公式,计算得到第三损失值,其中,所述监督损失计算公式如下所示:
L=Lsup+ω(t)·Lconsis
其中,Lsup表示第一损失值,Lconsis表示第四损失值,ω(t)表示一致性损失权重。
本申请3D目标检测装置具体实施方式与上述3D目标检测方法各实施例基本相同,在此不再赘述。
参照图1,图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,该3D目标检测设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图1中示出的3D目标检测设备结构并不构成对3D目标检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块以及3D目标检测程序。操作系统是管理和控制3D目标检测设备硬件和软件资源的程序,支持3D目标检测程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与3D目标检测系统中其它硬件和软件之间通信。
在图1所示的3D目标检测设备中,处理器1001用于执行存储器1005中存储的3D目标检测程序,实现上述任一项所述的3D目标检测方法的步骤。
本申请3D目标检测设备具体实施方式与上述3D目标检测方法各实施例基本相同,在此不再赘述。
本申请还提供一种存储介质,所述存储介质上存储有实现3D目标检测方法的程序,所述实现3D目标检测方法的程序被处理器执行以实现如下所述3D目标检测方法:
获取目标物体的特征数据,其中,所述特征数据包括点云数据和图像数据;
将所述特征数据输入至预设的目标检测模型,基于所述目标检测模型,对所述特征数据进行检测处理,得到所述目标物体的3D检测框;
其中,所述目标检测模型是基于特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练得到的,所述第一伪标注数据是对所述特征训练样本的全部伪标注数据进行筛选后得到的。
可选地,所述获取目标物体的特征数据的步骤之前,所述方法包括:
获取特征训练样本、所述特征训练样本的第二伪标注数据及标注数据,其中,所述特征训练样本包括点云训练样本和图像训练样本;
对所述第二伪标注数据进行自适应阈值过滤,得到筛选后的所述特征训练样本的第一伪标注数据;
基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练,得到目标检测模型。
可选地,所述对所述第二伪标注数据进行自适应阈值过滤,得到筛选后的所述特征训练样本的第一伪标注数据的步骤,包括:
将所述图像训练样本输入至预设的2D检测模型,基于所述2D检测模型,对所述图像训练样本进行2D检测处理,得到预测2D检测框;
将所述第二伪标注数据的3D检测框投影至所述图像训练样本,计算得到投影2D检测框;
基于所述预测2D检测框和所述投影2D检测框,计算所述图像训练样本的2D检测重叠度IoU值,并基于所述IoU值和预设的分数计算公式对所述第二伪标注数据进行打分,得到所述第二伪标注数据的分值;
基于所述分值,对所述第二伪标注数据进行筛选,得到筛选后的所述特征训练样本的第一伪标注数据。
可选地,所述基于所述分值,对所述第二伪标注数据进行筛选,得到筛选后的所述特征训练样本的第一伪标注数据的步骤,包括:
获取所述图像训练样本的类别信息和距离信息;
基于所述类别信息、所述距离信息和预设的过滤阈值计算公式,确定过滤阈值,其中,所述过滤阈值计算公式如下:
其中,k代表类别,d为代表距离,t为过滤阈值,和/>分别表示类别k在距离d处的真阳性TP和假阳性FP总数,/>和/>分别表示距离d处类别k的置信度大于t时真阳性和假阳性的数量,δTP表示真阳性的比例,δFP表示假阳性的比例;
筛除所述分值小于所述过滤阈值的第二伪标注数据,以及将所述分值大于或者等于所述过滤阈值的第二伪标注数据确定为筛选后的所述特征训练样本的第一伪标注数据。
可选地,所述基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练,得到目标检测模型的步骤,包括:
将所述特征训练样本输入至预设的待训练模型,得到预测3D检测框;
基于所述预测3D检测框与所述特征训练样本的第一伪标注数据及标注数据,采用第一损失函数,计算得到第一误差值;
判断所述第一误差值是否满足预设误差阈值范围指示的误差标准;
若所述误差结果未满足所述误差标准,返回将所述特征训练样本输入至预设的待训练模型,得到预测3D检测框的步骤,直到所述误差结果满足所述误差标准后停止训练,得到初始检测模型;
对所述初始检测模型进行初始化,并将初始化后的初始检测模型分为学生模型与教师模型;
基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,分别对所述学生模型与教师模型进行训练,并将训练完成后的教师模型确定为目标检测模型。
可选地,所述基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,分别对所述学生模型与教师模型进行训练,并将训练完成后的教师模型确定为目标检测模型的步骤,包括:
对所述特征训练样本进行第一数据增强处理,得到第二特征训练样本;
将所述第二特征训练样本输入至所述教师模型,得到第二损失值;
将所述第二特征训练样本进行第二数据增强处理,得到第三特征训练样本;
基于所述第一损失值和第二损失值,计算得到第三损失值;
将所述第三特征训练样本和所述第三损失值输入至所述学生模型,对所述学生模型进行训练,得到训练后的学生模型的参数;
将所述训练后的学生模型的参数更新为所述教师模型的参数,并判断当前学生模型的参数是否满足所述第三损失值所指示的收敛标准;
若所述当前学生模型的参数未满足所述第三损失值所指示的收敛标准,返回所述将所述第三特征训练样本和所述第三损失值输入至所述学生模型,对所述学生模型进行训练,得到训练后的学生模型的参数的步骤,直至所述学生模型满足所述第三损失值所指示的收敛标准,得到满足精度条件的学生模型,并将所述满足精度条件的学生模型的参数更新为所述教师模型的参数,得到满足精度条件的目标检测模型。
可选地,所述第二损失值包括中心点损失值、尺寸损失值和类别损失值,所述基于所述第一损失值和第二损失值,计算得到第三损失值的步骤,包括:
基于所述中心点损失值、尺寸损失值、类别损失值和预设的一致性损失值计算公式,计算得到第四损失值,其中,所述一致性损失值计算公式如下所示:
Lconsis=αLctr+βLsize+γLcls
其中,Lctr表示中心点损失值,Lsize表示尺寸损失值,所述Lcls表示类别损失值,Lconsis表示第四损失值;
基于所述第一损失值、第四损失值和预设的监督损失计算公式,计算得到第三损失值,其中,所述监督损失计算公式如下所示:
L=Lsup+ω(t)·Lconsis
其中,Lsup表示第一损失值,Lconsis表示第四损失值,ω(t)表示一致性损失权重。
本申请存储介质具体实施方式与上述3D目标检测方法各实施例基本相同,在此不再赘述。
本申请还提供一种计算机程序产品、包括计算机程序,该计算机程序被处理器执行时实现上述的3D目标检测方法的步骤。
本申请计算机程序产品的具体实施方式与上述3D目标检测方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种3D目标检测方法,其特征在于,所述3D目标检测方法包括:
获取目标物体的特征数据,其中,所述特征数据包括点云数据和图像数据;
将所述特征数据输入至预设的目标检测模型,基于所述目标检测模型,对所述特征数据进行检测处理,得到所述目标物体的3D检测框;
其中,所述目标检测模型是基于特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练得到的,所述第一伪标注数据是对所述特征训练样本的全部伪标注数据进行筛选后得到的。
2.如权利要求1所述的3D目标检测方法,其特征在于,所述获取目标物体的特征数据的步骤之前,所述方法包括:
获取特征训练样本、所述特征训练样本的第二伪标注数据及标注数据,其中,所述特征训练样本包括点云训练样本和图像训练样本;
对所述第二伪标注数据进行自适应阈值过滤,得到筛选后的所述特征训练样本的第一伪标注数据;
基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练,得到目标检测模型。
3.如权利要求2所述的3D目标检测方法,其特征在于,所述对所述第二伪标注数据进行自适应阈值过滤,得到筛选后的所述特征训练样本的第一伪标注数据的步骤,包括:
将所述图像训练样本输入至预设的2D检测模型,基于所述2D检测模型,对所述图像训练样本进行2D检测处理,得到预测2D检测框;
将所述第二伪标注数据的3D检测框投影至所述图像训练样本,计算得到投影2D检测框;
基于所述预测2D检测框和所述投影2D检测框,计算所述图像训练样本的2D检测重叠度IoU值,并基于所述IoU值和预设的分数计算公式对所述第二伪标注数据进行打分,得到所述第二伪标注数据的分值;
基于所述分值,对所述第二伪标注数据进行筛选,得到筛选后的所述特征训练样本的第一伪标注数据。
4.如权利要求3所述的3D目标检测方法,其特征在于,所述基于所述分值,对所述第二伪标注数据进行筛选,得到筛选后的所述特征训练样本的第一伪标注数据的步骤,包括:
获取所述图像训练样本的类别信息和距离信息;
基于所述类别信息、所述距离信息和预设的过滤阈值计算公式,确定过滤阈值,其中,所述过滤阈值计算公式如下:
其中,k代表类别,d为代表距离,t为过滤阈值,和/>分别表示类别k在距离d处的真阳性TP和假阳性FP总数,/>和/>分别表示距离d处类别k的置信度大于t时真阳性和假阳性的数量,δTP表示真阳性的比例,δFP表示假阳性的比例;
筛除所述分值小于所述过滤阈值的第二伪标注数据,以及将所述分值大于或者等于所述过滤阈值的第二伪标注数据确定为筛选后的所述特征训练样本的第一伪标注数据。
5.如权利要求2所述的3D目标检测方法,其特征在于,所述基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练,得到目标检测模型的步骤,包括:
将所述特征训练样本输入至预设的待训练模型,得到预测3D检测框;
基于所述预测3D检测框与所述特征训练样本的第一伪标注数据及标注数据,采用第一损失函数,计算得到第一误差值;
判断所述第一误差值是否满足预设误差阈值范围指示的误差标准;
若所述误差结果未满足所述误差标准,返回将所述特征训练样本输入至预设的待训练模型,得到预测3D检测框的步骤,直到所述误差结果满足所述误差标准后停止训练,得到初始检测模型;
对所述初始检测模型进行初始化,并将初始化后的初始检测模型分为学生模型与教师模型;
基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,分别对所述学生模型与教师模型进行训练,并将训练完成后的教师模型确定为目标检测模型。
6.如权利要求5所述的3D目标检测方法,其特征在于,所述基于所述特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,分别对所述学生模型与教师模型进行训练,并将训练完成后的教师模型确定为目标检测模型的步骤,包括:
对所述特征训练样本进行第一数据增强处理,得到第二特征训练样本;
将所述第二特征训练样本输入至所述教师模型,得到第二损失值;
将所述第二特征训练样本进行第二数据增强处理,得到第三特征训练样本;
基于所述第一损失值和第二损失值,计算得到第三损失值;
将所述第三特征训练样本和所述第三损失值输入至所述学生模型,对所述学生模型进行训练,得到训练后的学生模型的参数;
将所述训练后的学生模型的参数更新为所述教师模型的参数,并判断当前学生模型的参数是否满足所述第三损失值所指示的收敛标准;
若所述当前学生模型的参数未满足所述第三损失值所指示的收敛标准,返回所述将所述第三特征训练样本和所述第三损失值输入至所述学生模型,对所述学生模型进行训练,得到训练后的学生模型的参数的步骤,直至所述学生模型满足所述第三损失值所指示的收敛标准,得到满足精度条件的学生模型,并将所述满足精度条件的学生模型的参数更新为所述教师模型的参数,得到满足精度条件的目标检测模型。
7.如权利要求6所述的3D目标检测方法,其特征在于,所述第二损失值包括中心点损失值、尺寸损失值和类别损失值,所述基于所述第一损失值和第二损失值,计算得到第三损失值的步骤,包括:
基于所述中心点损失值、尺寸损失值、类别损失值和预设的一致性损失值计算公式,计算得到第四损失值,其中,所述一致性损失值计算公式如下所示:
Lconsis=αLctr+βLsize+γLcls
其中,Lctr表示中心点损失值,Lsize表示尺寸损失值,所述Lcls表示类别损失值,Lconsis表示第四损失值;
基于所述第一损失值、第四损失值和预设的监督损失计算公式,计算得到第三损失值,其中,所述监督损失计算公式如下所示:
L=Lsup+ω(t)·Lconsis
其中,Lsup表示第一损失值,Lconsis表示第四损失值,ω(t)表示一致性损失权重。
8.一种3D目标检测装置,其特征在于,所述3D目标检测装置包括:
获取模块,用于获取目标物体的特征数据,其中,所述特征数据包括点云数据和图像数据;
检测模块,用于将所述特征数据输入至预设的目标检测模型,基于所述目标检测模型,对所述特征数据进行检测处理,得到所述目标物体的3D检测框;
其中,所述目标检测模型是基于特征训练样本、所述特征训练样本的第一伪标注数据及标注数据,对预设的待训练模型进行半监督学习的方式训练得到的,所述第一伪标注数据是对所述特征训练样本的全部伪标注数据进行筛选后得到的。
9.一种3D目标检测设备,其特征在于,所述3D目标检测设备包括:存储器、处理器以及存储在存储器上的用于实现所述3D目标检测方法的程序,
所述存储器用于存储实现3D目标检测方法的程序;
所述处理器用于执行实现所述3D目标检测方法的程序,以实现如权利要求1至7中任一项所述3D目标检测方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有实现3D目标检测方法的程序,所述实现3D目标检测方法的程序被处理器执行以实现如权利要求1至7中任一项所述3D目标检测方法的步骤。
CN202310320998.2A 2023-03-28 2023-03-28 3d目标检测方法、装置、设备及存储介质 Pending CN116453109A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310320998.2A CN116453109A (zh) 2023-03-28 2023-03-28 3d目标检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310320998.2A CN116453109A (zh) 2023-03-28 2023-03-28 3d目标检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116453109A true CN116453109A (zh) 2023-07-18

Family

ID=87131386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310320998.2A Pending CN116453109A (zh) 2023-03-28 2023-03-28 3d目标检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116453109A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681123A (zh) * 2023-07-31 2023-09-01 福思(杭州)智能科技有限公司 感知模型训练方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681123A (zh) * 2023-07-31 2023-09-01 福思(杭州)智能科技有限公司 感知模型训练方法、装置、计算机设备和存储介质
CN116681123B (zh) * 2023-07-31 2023-11-14 福思(杭州)智能科技有限公司 感知模型训练方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US11232318B2 (en) Methods and apparatuses for vehicle appearance feature recognition, methods and apparatuses for vehicle retrieval, storage medium, and electronic devices
CN110163187B (zh) 基于f-rcnn的远距离交通标志检测识别方法
US11543830B2 (en) Unsupervised real-to-virtual domain unification for end-to-end highway driving
EP3338248B1 (en) Systems and methods for object tracking
CN110706266B (zh) 一种基于YOLOv3的空中目标跟踪方法
CN106845430A (zh) 基于加速区域卷积神经网络的行人检测与跟踪方法
US20220157053A1 (en) Target recognition method and device based on mask rcnn network model
CN107545263B (zh) 一种物体检测方法及装置
US20230076266A1 (en) Data processing system, object detection method, and apparatus thereof
US11244188B2 (en) Dense and discriminative neural network architectures for improved object detection and instance segmentation
CN111709416A (zh) 车牌定位方法、装置、系统及存储介质
CN115797736B (zh) 目标检测模型的训练和目标检测方法、装置、设备和介质
CN111797711A (zh) 一种模型训练的方法及装置
CN116453109A (zh) 3d目标检测方法、装置、设备及存储介质
CN110909656B (zh) 一种雷达与摄像机融合的行人检测方法和系统
CN114792416A (zh) 一种目标检测方法及装置
CN113449548A (zh) 更新物体识别模型的方法和装置
CN111428567B (zh) 一种基于仿射多任务回归的行人跟踪系统及方法
CN116823884A (zh) 多目标跟踪方法、系统、计算机设备及存储介质
Fan et al. Covered vehicle detection in autonomous driving based on faster rcnn
CN116152576A (zh) 图像处理方法、装置、设备及存储介质
CN113112525B (zh) 目标跟踪方法、网络模型及其训练方法、设备和介质
CN115457274A (zh) 一种基于深度学习的车载视角遮挡目标检测方法及装置
CN114927236A (zh) 一种面向多重目标图像的检测方法及系统
CN114155504A (zh) 用于自动驾驶的视觉识别车辆方法、装置、出行装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination