CN116664987A - 目标对象检测模型的训练方法及对象检测方法 - Google Patents

目标对象检测模型的训练方法及对象检测方法 Download PDF

Info

Publication number
CN116664987A
CN116664987A CN202310796738.2A CN202310796738A CN116664987A CN 116664987 A CN116664987 A CN 116664987A CN 202310796738 A CN202310796738 A CN 202310796738A CN 116664987 A CN116664987 A CN 116664987A
Authority
CN
China
Prior art keywords
information
dimensional
detection
object detection
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310796738.2A
Other languages
English (en)
Inventor
张振林
高川
赵起超
袁金伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Automotive Innovation Co Ltd
Original Assignee
China Automotive Innovation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Automotive Innovation Co Ltd filed Critical China Automotive Innovation Co Ltd
Priority to CN202310796738.2A priority Critical patent/CN116664987A/zh
Publication of CN116664987A publication Critical patent/CN116664987A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本公开关于目标对象检测模型的训练方法及对象检测方法,该方法包括获取第一样本对象的第一样本图像和第一样本图像对应的多维度标签信息,多维度标签信息包括:二维属性标签信息和三维属性标签信息;将第一样本图像输入预设对象检测模型进行多维度对象检测,得到第一样本图像对应的多维度检测信息,多维度检测信息包括二维属性检测信息和三维属性检测信息;根据二维属性标签信息、三维属性标签信息、二维属性检测信息和三维属性检测信息对预设对象检测模型进行训练,得到目标对象检测模型。利用本公开实施例通过目标对象检测模型进行对象检测,得到对象的检测信息,目标对象检测模型的检测精度较高,进而提升了检测结果的准确性。

Description

目标对象检测模型的训练方法及对象检测方法
技术领域
本公开涉及自动驾驶领域,尤其涉及一种目标对象检测模型的训练方法及对象检测方法。
背景技术
在自动驾驶领域中,自动驾驶车辆的行驶速度预测、行驶方向预测、行驶规划以及车辆控制等都与目标检测模块有密切的联系。
目前,现有技术基于激光雷达可以实现三维对象检测,凭借高线束激光雷达可以实现对周围环境的厘米级精确建模,但是,该对象检测方法成本较高,因雨雪等环境原因还会产生定位精度下降的问题,极大地限制了激光雷达对象检测方法在自动驾驶领域的应用以及规模化落地;而现有技术中基于单目相机的三维对象检测方法,采用将二维图像送入模型学习三维信息并训练该模型,利用训练后的模型进行目标检测,因二维图像不包含深度信息,并且训练所用的标签较为单一,导致训练后的模型检测精度较低,进而带来基于该模型进行对象检测时得出的检测结果准确性欠佳等问题。
发明内容
本公开提供一种目标对象检测模型的训练方法及对象检测方法,以至少解决相关技术中三维对象检测网络模型的训练标签较为单一,训练后的网络模型检测准确性较低等问题。本公开的技术方案如下:
根据本公开实施例的一方面,提供一种目标对象检测模型的训练方法,包括:
获取第一样本对象的第一样本图像和所述第一样本图像对应的多维度标签信息,所述多维度标签信息包括:二维属性标签信息和三维属性标签信息;
将所述第一样本图像输入预设对象检测模型进行多维度对象检测,得到所述第一样本图像对应的多维度检测信息,所述多维度检测信息包括二维属性检测信息和三维属性检测信息;
根据所述二维属性标签信息、所述三维属性标签信息、所述二维属性检测信息和所述三维属性检测信息对所述预设对象检测模型进行训练,得到目标对象检测模型。
根据本公开实施例的另一方面,提供一种对象检测方法,包括:
获取待检测的目标对象对应的目标图像;
将所述目标图像输入,基于所述目标对象检测模型的训练方法所得到的目标对象检测模型进行多维度对象检测,得到所述目标图像对应的多维度目标检测信息,所述多维度目标检测信息包括:预测三维属性检测信息;
将所述预测三维属性检测信息中的三维检测信息、类别检测信息、中心点检测信息和欧拉角检测信息,作为所述目标图像对应的对象检测结果。
根据本公开实施例的另一方面,提供一种目标对象检测模型的训练装置,包括:
样本图像获取模块,用于获取第一样本对象的第一样本图像和所述第一样本图像对应的多维度标签信息,所述多维度标签信息包括:二维属性标签信息和三维属性标签信息;
样本对象检测模块,用于将所述第一样本图像输入预设对象检测模型进行多维度对象检测,得到所述第一样本图像对应的多维度检测信息,所述多维度检测信息包括二维属性检测信息和三维属性检测信息;
检测模型生成模块,用于根据所述二维属性标签信息、所述三维属性标签信息、所述二维属性检测信息和所述三维属性检测信息对所述预设对象检测模型进行训练,得到目标对象检测模型。
根据本公开实施例的另一方面,提供一种对象检测装置,包括:
目标图像获取模块,用于获取待检测的目标对象对应的目标图像;
目标对象检测模块,用于将所述目标图像输入,用于基于所述目标对象检测模型的训练方法所得到的目标对象检测模型进行多维度对象检测,得到所述目标图像对应的多维度目标检测信息,所述多维度目标检测信息包括:预测三维属性检测信息;
检测结果生成模块,用于将所述预测三维属性检测信息中的三维检测信息、类别检测信息、中心点检测信息和欧拉角检测信息,作为所述目标图像对应的对象检测结果。
根据本公开实施例的另一方面,提供一种目标对象检测模型训练电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现本公开实施例中任一项所述的目标对象检测模型的训练方法或本公开实施例中任一项所述的对象检测方法。
根据本公开实施例的另一方面,提供一种目标对象检测模型训练存储介质,包括:
当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行本公开实施例中任一项所述的目标对象检测模型的训练方法或本公开实施例中任一项所述的对象检测方法。
根据本公开实施例的另一方面,提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例中任一项所述的目标对象检测模型的训练方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
在对目标对象进行检测的过程中,首先获取样本对象的样本图像和样本图像对应的多维度标签信息,通过获取多维度标签信息可以更全面地获取的样本对象的二维特征和三维特征,再将样本图像输入预设对象检测模型进行多维度对象检测,得到样本图像对应的多维度检测信息,基于多维度检测信息和多维度标签信息对预设对象检测模型进行训练,其中,利用二维属性标签与二维属性检测信息可以约束目标对象的检测位置,加强模型对目标对象的判别,利用三维属性标签与三维属性检测信息可以使模型实现对三维目标对象的检测,得到目标对象所处世界坐标系下的三维信息,因此,通过多维度检测信息和多维度标签信息对预设对象检测模型进行训练提高模型的精度,得到检测精度较高的目标对象检测模型,使得用户能够利用该目标对象检测模型对自动驾驶中待检测的目标对象进行检测,并得到较为准确的检测结果,提升对象检测方法的准确性,进而也可以提升驾驶安全性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定-。
图1是根据一示例性实施例示出的一种目标对象检测模型的训练方法的流程图;
图2是根据一示例性实施例示出的另一种目标对象检测模型的训练方法的流程示意图;
图3是根据一示例性实施例示出的一种目标对象检测模型的模型结构示意图;
图4是根据一示例性实施例示出的另一种目标对象检测模型的训练方法的流程示意图。
图5是根据一示例性实施例示出的一种对象检测方法的流程示意图。
图6是根据一示例性实施例示出的一种目标对象检测模型的训练装置框图;
图7是根据一示例性实施例示出的一种对象检测装置框图;
图8是根据一示例性实施例示出的一种用于目标对象检测模型的训练的电子设备的框图;
图9是根据一示例性实施例示出的另一种用于目标对象检测模型的训练的电子设备的框图。
具体实施方式
为了使本领域普通技术人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
以下介绍本申请一种目标对象检测模型的训练方法,如图1所示,图1是根据一示例性实施例示出的一种目标对象检测模型的训练方法的流程示意图,该方法可以应用于能够运行目标对象检测模型的训练方法的任一终端;具体的,任一终端可以是服务器终端、移动终端等,具体的,该方法可以包括以下步骤:
在步骤S201中,获取第一样本对象的第一样本图像和第一样本图像对应的多维度标签信息。
在一个具体的实施例中,多维度标签信息包括:二维属性标签信息和三维属性标签信息,其中,二维属性标签信息可以包括:热力图标签和正负样本标签;
相应的,二维属性标签信息包括采用下述方式获取:
对第一样本图像进行图像转换,得到第一样本图像对应的热力图;
将热力图作为热力图标签;
获取第一样本图像中的第一样本对象对应的预设正负样本信息;
将预设正负样本信息将作为正负样本标签;
具体的,第一样本图像对应的热力图可以表征第一样本图像中不同区域对第一样本对象进行类别检测的贡献程度,具体的,热力图中各区域的颜色深浅与该区域对第一样本对象进行类别检测的贡献程度呈正相关,颜色越浅贡献程度越高,反之,颜色越深贡献程度越低,热力图可以依据用户需求设置单色热力图或多色热力图,例如:红色热力图,颜色偏浅红的区域贡献程度较高,偏深红的区域贡献程度较低,或,蓝黄热力图,颜色偏黄的区域贡献程度较高,颜色偏蓝的区域贡献程度较低。实际应用中,可以采用Grad-CAM(Gradient-weighted Class Activation Map,梯度加权类激活图)的方式生成相应热力图,上述预设正负样本信息包括正样本信息与负样本信息,正样本信息为第一样本对象对应的图像信息,负样本信息为第一样本图像中其他对象的图像信息,其他对象为第一样本图像中除第一样本对象以外的对象。实际应用中,上述预设正负样本信息可以通过人工标注的方式获取,在自动驾驶场景中,第一样本对象可以为自动驾驶车辆附近预设范围内的障碍物,例如:自动驾驶车辆5米范围内的其他车辆,第一样本图像为包含第一样本对象(如障碍物)的图像,该图像可以由设置在自动驾驶车辆上的单目相机采集,其他对象可以为除障碍物以外的对象,例如:斑马线。
在一个具体的实施例中,多维度标签信息包括:二维属性标签信息和三维属性标签信息,其中,三维属性标签可以包括:关键点标签、深度信息标签、类别标签、中心点标签、三维信息标签和欧拉角标签;
相应的,三维属性标签信息包括采用下述方式获取:
获取与第一样本图像对应的样本点云数据;
基于样本点云数据对第一样本图像进行深度信息标注,得到第一样本图像对应的深度信息标签;
基于样本点云数据对第一样本图像中的第一样本对象进行三维信息标注,得到第一样本图像对应的三维信息标签;
获取第一样本图像中的第一样本对象对应的预设关键点信息、预设类别信息、预设中心点信息、预设欧拉角信息;
将预设关键点信息作为关键点标签;
将预设类别信息作为类别标签;
将预设中心点信息作为中心点标签;
将预设欧拉角信息作为欧拉角标签;
具体的,第一样本图像对应的样本点云数据可以为目标区域内基于激光雷达获得的点云数据,表征目标区域的路面真实情况,在实际应用中,第一样本图像可以通过自动驾驶车辆装配的车载摄像机获取,第一样本图像对应的样本点云数据可以通过自动驾驶车辆装配的车载激光雷达获取;具体的,深度信息标签表征第一样本图像中每个像素的深度信息,具体的,每个像素的深度信息可以表征在世界坐标系下该点距车载激光雷达的距离,相应的,上述基于样本点云数据对第一样本图像进行深度信息标注包括:基于第一样本图像与样本点云数据建立第一映射信息,该第一映射信息表征第一样本图像对应的像素坐标系与样本点云数据对应的世界坐标系之间的映射关系,根据第一映射信息对样本点云数据进行坐标转换,得到转换后点云数据,转换后点云数据为像素坐标系下的点云数据;基于针孔相机模型、采集第一样本图像的相机的标定参数、转换后点云数据构建第二映射信息,该第二映射信息表征转换后点云数据与第一样本图像的像素点的深度值之间的映射关系,根据第二映射信息计算转换后点云数据对应像素点的第一深度值,将第一深度值作为第一样本图像对应的深度信息标签;
具体的,三维信息标签表征第一样本图像中第一样本对象对应的尺寸信息与深度信息,相应的,上述基于样本点云数据对第一样本图像进行三维信息标注包括:根据样本点云数据定位第一样本图像中第一样本对象对应的对象区域,将该对象区域的尺寸信息作为第一样本对象对应的尺寸信息,并基于第一样本图像与样本点云数据建立第一映射信息,该第一映射信息表征第一样本图像对应的像素坐标系与样本点云数据对应的世界坐标系之间的映射关系,根据第一映射信息对样本点云数据进行坐标转换,得到转换后点云数据,转换后点云数据为像素坐标系下的点云数据;基于针孔相机模型、采集第一样本图像的相机的标定参数、转换后点云数据构建第二映射信息,该第二映射信息表征转换后点云数据与第一样本图像的像素点的深度值之间的映射关系,根据第二映射信息计算转换后点云数据对应像素点的第一深度值,基于第一深度值与尺寸信息,确定第一样本对象对应的像素点的第二深度值,根据第二深度值计算第一样本对象对应的深度信息,将第一样本对象对应的尺寸信息与深度信息作为三维信息标签;
具体的,关键点标签可以表征第一样本图像中第一样本对象对应的角点信息,类别标签可以表征第一样本对象所属的类别信息,例如:第一样本对象所属类别为车辆,中心点标签可以表征处于三维空间的第一样本对象对应的世界坐标系下的中心点坐标,欧拉角标签可以表征第一样本对象相对于采集第一样本图像的相机的世界坐标系下的角度信息,上述获取预设关键点信息、预设类别信息、预设中心点信息和预设欧拉角信息可以通过人工标注的方式获得,进而依据上述预设关键点信息、预设类别信息、预设中心点信息和预设欧拉角信息得到第一样本对象对应的关键点标签、类别标签、中心点标签和欧拉角标签。
上述实施例中,获取第一样本对象的第一样本图像和第一样本图像对应的多维度标签信息,以使后续可以基于第一样本图像与多维度标签信息对预设对象检测模型进行训练,并且,设置多维度标签信息可以从多方面描述第一样本图像对应的图像特征信息,使得后续基于多维度标签信息进行模型训练时可以提升所训练模型的检测精度。
在步骤S203中,将第一样本图像输入预设对象检测模型进行多维度对象检测,得到第一样本图像对应的多维度检测信息。
在一个具体的实施例中,上述多维度检测信息与多维度标签信息相对应,多维度检测信息为第一样本图像经预设对象检测模型检测而得出的预测值,多维度检测信息可以包括:二维属性检测信息和三维属性检测信息;
具体的,二维属性检测信息可以包括:第一样本图像对应的热力图检测信息和正负样本检测信息,三维属性检测信息可以包括:第一样本对象应的关键点检测信息、深度检测信息、类别检测信息、中心点检测信息、三维检测信息和欧拉角检测信息。
在一个可选的实施例中,如图2所示,预设对象检测模型可以包括特征提取层、特征融合层和检测输出层;
相应的,将第一样本图像输入预设对象检测模型进行多维度目标对象检测,得到第一样本图像对应的多维度检测信息,可以包括:
在步骤S2031中,基于特征提取层对第一样本图像进行多维度特征提取,生成多维度特征信息;
在步骤S2033中,基于特征融合层对多维度特征信息进行特征融合,得到融合特征信息;
在步骤S2035中,基于检测输出层对融合特征信息进行检测,得到多维度检测信息。
在一个具体的实施例中,特征提取层用于提取预设对象检测模型中输入的图像的特征信息,输入的第一样本图像在特征提取层经过降采样可以得到不同尺度的特征图,具体的,特征提取层为backbone(主干网络),可以采用深度卷积神经网络实现相应功能,例如:采用ResNet(Residual Network,残差网络)、VGGNet(Visual Geometry GroupNetwork,视觉几何组神经网络)等;特征融合层用于进一步提取第一样本图像的特征,并基于特征提取层输出的不同尺度的特征图进行特征融合,通过将不同尺度特征图的高层语义特征信息和底层语义特征信息融合,从而提高预设对象检测模型的检测效果,具体的,特征融合层为neck(融合网络),实际应用中可以采用FPN(Feature Pyramid Networks,特征金字塔网络)、PAN(Path Aggregation network,路径聚合网络)、PAFPN(PAN-FPN特征融合网络)等网络实现相应功能;检测输出层用于基于特征融合层输出的融合后的第一样本图像的特征语义信息进行预测,得到第一样本图像的检测信息,具体的,检测输出层为head(检测头),对应模型训练设置的多维属性标签,预设对象检测模型的检测头可以包括多维检测头,用于输出多维属性检测信息,具体的,多维检测头包括二维属性检测头和三维属性检测头,二维检测头用于输出二维属性检测信息,例如:输出热力图检测信息、正负样本检测信息,三维检测头用于输出三维属性检测信息,例如:输出关键点检测信息、深度检测信息、类别检测信息、中心点检测信息、三维检测信息和欧拉角检测信息,实际应用中也可以依据用户的需求增设其他类型的检测头,从而得到输入预设对象检测模型的第一样本图像对应的不同类型的检测信息。
在实际应用中,如图3所示,图3为一种目标对象检测模型对应的模型结构示意图,在第一样本图像分辨率为960x512dpi(点每英寸)的情况下,将第一样本图像输入预设对象检测模型,第一样本图像通过设置为ResNet50(Residual Network,残差网络50)的主干网络进行特征提取,经过8,16,32,64四个比例的降采样,可以得到4个特征图输出,输出维度分别为:[N,256,64,120],[N,512,32,60],[N,1024,16,30],[N,2048,8,15],其中N代表batch size(批尺寸)为一次特征提取所抓取的样本数量,N后三个数值依次代表图像高度、图像宽度、图像通道数,将上述4个特征图输入特征融合层,特征融合层的融合网络采用PAFPN,将4个特征图的高层语义特征信息和底层语义特征信息融合得到融合后的特征语义信息,检测输出层根据融合后的特征语义信息进行预测,得到第一样本图像对应的检测信息,其中,检测输出层的检测头可以设置为能够检测第一样本图像中第一样本对象的多维度检测信息(二维属性检测信息和三维属性检测信息)的检测头,例如基于该检测头检测输出层可以输出第一样本对象的所属类别、第一样本图像对应的热力图信息、第一样本对象中心点坐标、第一样本对象的实际尺寸及深度信息,第一样本对象相对相机的角度(欧拉角)等多维度检测信息。
在一个可选的实施例中,预设对象检测模型包括采用下述方式获取:
获取第二样本对象的样本图像和第二样本图像对应的深度标签;
将第二样本图像输入预设网络模型进行深度检测,得到第二样本图像对应的深度检测信息;
根据深度标签和深度检测信息对预设网络模型进行训练,得到预设对象检测模型。
在一个具体的实施例中,根据深度标签和深度检测信息对预设网络模型进行训练,得到预设对象检测模型可以包括:
根据深度标签和深度检测信息生成深度检测损失信息;
基于深度检测损失信息对预设网络模型进行训练,得到预设对象检测模型。
具体的,上述第二样本对象的样本图像可以为在历史时间段内车载相机采集的历史样本图像,第二样本对象可以为在历史时间段内自动驾驶车辆附近预设范围内的障碍物,例如:自动驾驶车辆5米范围内的其他车辆,具体的,第二样本图像为包含第一样本对象(如障碍物)的图像,该图像可以由设置在自动驾驶车辆上的单目相机采集;具体的,上述深度检测损失信息可以表征深度检测信息和深度标签之间的差异程度,该差异程度可以反映预设网络模型的检测性能,可选的,差异程度越大,当前的预设网络模型的检测性能越差,反之,该差异程度越小,当前的预设网络模型的检测性能越好。
在一个具体的实施例中,上述基于深度检测损失信息对预设网络模型进行训练,得到预设对象检测模型可以包括:根据上述深度检测损失信息更新预设网络模型的模型参数,基于更新后的预设网络模型重复上述将第二样本图像输入预设网络模型进行深度检测,得到第二样本图像对应的深度检测信息,至根据深度检测损失信息更新预设网络模型的模型参数的训练迭代操作,直至满足第一预设收敛条件,并将满足第一预设收敛条件时对应的预设网络模型作为训练好的预设对象检测模型。
在一个可选的实施例中,上述满足第一预设收敛条件可以为训练迭代操作的次数达到预设训练次数。可选的,满足第一预设收敛条件也可以为对象检测损失信息小于指定阈值等。本说明书实施例中,预设训练次数和指定阈值可以结合实际应用中对模型的训练速度和精准度预先设置。
上述实施例中,基于深度标签与深度检测信息对预设网络模型进行预训练,将经过预训练的预设网络模型作为预设对象检测模型,可以提升预设对象检测模型对样本对象进行多维度对象检测时的效率和检测精度,获取的预设对象检测模型更为可靠,而基于该预设对象检测模型进行训练得到的目标对象检测模型,检测效率和检测精度也随之提高。
在步骤S205中,根据二维属性标签信息、三维属性标签信息、二维属性检测信息和三维属性检测信息对预设对象检测模型进行训练,得到目标对象检测模型。
在一个可选的实施例中,如图4所示,上述根据二维属性标签信息、三维属性标签信息、二维属性检测信息和三维属性检测信息对预设对象检测模型进行训练,得到目标对象检测模型,包括:
在步骤S2051中,根据二维属性标签信息、三维属性标签信息、二维属性检测信息和三维属性检测信息生成对象检测损失信息;
在步骤S2053中,基于对象检测损失信息对预设对象检测模型进行训练,得到目标对象检测模型。
在一个具体的实施例中,上述对象检测损失信息可以表征多维度检测信息和多维度标签信息之间的差异程度,具体的,该差异程度可以反映预设对象检测模型的检测性能,可选的,该差异程度越大,当前的预设对象检测模型的检测性能越差,反之,该差异程度越小,当前的预设对象检测模型的检测性能越好。上述确定对象检测损失信息的过程中,可以结合预设的损失函数,例如交叉熵损失函数、绝对值损失函数等进行计算。
在一个具体的实施例中,上述基于对象检测损失信息对预设对象检测模型进行训练,得到目标对象检测模型可以包括:根据上述对象检测损失信息更新预设对象检测模型的模型参数,基于更新后的预设对象检测模型重复上述将第一样本图像输入预设对象检测模型进行多维度对象检测,得到第一样本图像对应的多维度检测信息,至根据对象检测损失信息更新预设对象检测模型的模型参数的训练迭代操作,直至满足第二预设收敛条件,并将满足第二预设收敛条件时对应的预设对象检测模型作为训练好的目标对象检测模型。
在一个可选的实施例中,上述满足第二预设收敛条件可以为训练迭代操作的次数达到预设训练次数。可选的,满足预设收敛条件也可以为对象检测损失信息小于指定阈值等。本说明书实施例中,预设训练次数和指定阈值可以结合实际应用中对模型的训练速度和精准度预先设置。
上述实施例中,通过二维属性标签信息、三维属性标签信息、二维属性检测信息和三维属性检测信息对预设对象检测模型进行训练,可以得到目标对象检测模型,其中,利用二维属性标签与二维属性检测信息可以约束目标对象的检测位置,加强模型对目标对象的判别,利用三维属性标签与三维属性检测信息可以使模型实现对三维目标对象的检测,得到目标对象所处世界坐标系下的三维信息,因此,通过多维度检测信息和多维度标签信息对预设对象检测模型进行训练提高模型的精度,得到检测精度较高的目标对象检测模型,通过多维度标签信息结合多维度检测信息进行训练的方式可以提升检测模型的检测精度与检测效率,使得训练得到的目标对象检测模型可以结合多种类型的二维信息与三维信息对目标对象进行检测,进而提升了基于目标对象检测模型的检测方法的检测准确性与检测速度。
以下介绍本申请一种对象检测方法,如图5所示,图5是根据一示例性实施例示出的一种对象检测方法的流程示意图,该方法可以应用于能够运行对象检测方法的任一终端;具体的,任一终端可以是服务器终端、移动终端等,具体的,该方法可以包括以下步骤:
在步骤S501中,获取待检测的目标对象对应的目标图像;
在步骤S503中,将目标图像输入,基于目标对象检测模型的训练方法所得到的目标对象检测模型进行多维度对象检测,得到目标图像对应的多维度目标检测信息,多维度目标检测信息包括:预测三维属性检测信息;
在步骤S505中,将预测三维属性检测信息中的三维检测信息、类别检测信息、中心点检测信息和欧拉角检测信息,作为目标图像对应的对象检测结果。
在一个具体的实施例中,上述目标对象可以为自动驾驶过程中车辆附近预设范围内的障碍物,例如:在车辆5米范围内的其他车辆,上述多维度目标检测信息可以包括预测二维属性检测信息和预测三维属性检测信息,其中,预测三维属性检测信息可以包括目标对象对应的三维检测信息、类别检测信息、中心点检测信息和欧拉角检测信息,三维检测信息表征目标对象的尺寸与深度信息,类别检测信息表征目标对象的所述类别,例如:目标对象所述类别为车辆,中心点检测信息表征目标对象在所处三维空间下的中心点位置坐标,欧拉角检测信息表征目标对象相对于采集目标图像的相机的角度,选取三维检测信息、类别检测信息、中心点检测信息和欧拉角检测信息作为目标图像对应的对象检测结果,可以使用户通过该对象检测结果获知处于三维空间中的目标对象的类别、所处方位和尺寸大小,在自动驾驶场景中,在目标对象为车辆附近预设范围内的障碍物的情况下,通过获取障碍物的检测结果得知障碍物的类别、所处方位和尺寸大小,从而使得驾驶车辆可以基于该检测结果避开障碍物实现安全行驶。
上述实施例中,将目标图像输入目标对象检测模型进行多维度对象检测,可以得到目标图像对应的多维度目标检测信息,并将预测三维属性检测信息中的三维检测信息、类别检测信息、中心点检测信息和欧拉角检测信息作为目标图像对应的对象检测结果,因目标对象检测模型的检测精度与检测效率较高,因此对目标对象的检测速度较快,最终得出的对象检测结果准确性也较高。
图6是根据一示例性实施例示出的一种目标对象检测模型的训练装置框图。参照图6,该装置包括:
样本图像获取模块610,用于获取第一样本对象的第一样本图像和第一样本图像对应的多维度标签信息,多维度标签信息包括:二维属性标签信息和三维属性标签信息;
样本对象检测模块620,用于将第一样本图像输入预设对象检测模型进行多维度对象检测,得到第一样本图像对应的多维度检测信息,多维度检测信息包括二维属性检测信息和三维属性检测信息;
检测模型生成模块630,用于根据二维属性标签信息、三维属性标签信息、二维属性检测信息和三维属性检测信息对预设对象检测模型进行训练,得到目标对象检测模型。
在一个可选的实施例中,上述三维模型获取模块610还包括:
热力图转换单元,用于对第一样本图像进行图像转换,得到第一样本图像对应的热力图;
热力图标签生成单元,用于将热力图作为热力图标签;
正负样本信息获取单元,用于获取第一样本图像中的第一样本对象对应的预设正负样本信息;
正负样本标签获取单元,用于将预设正负样本信息将作为正负样本标签;
点云数据获取单元,用于获取与第一样本图像对应的样本点云数据;
深度信息标签生成单元,用于基于样本点云数据对第一样本图像进行深度信息标注,得到第一样本图像对应的深度信息标签;
三维信息标签生成单元,用于基于样本点云数据对第一样本图像进行三维信息标注,得到第一样本图像对应的三维信息标签;
预设信息获取单元,用于获取第一样本图像中的第一样本对象对应的预设关键点信息、预设类别信息、预设中心点信息、预设欧拉角信息;
关键点标签生成单元,用于将预设关键点信息作为关键点标签;
类别标签生成单元,用于将预设类别信息作为类别标签;
中心点标签生成单元,用于将预设中心点信息作为中心点标签;
欧拉角标签生成单元,用于将预设欧拉角信息作为欧拉角标签。
在一个可选的实施例中,上述样本对象检测模块620还包括:
多维度信息生成单元,用于基于特征提取层对第一样本图像进行多维度特征提取,生成多维度特征信息;
融合信息生成单元,用于基于特征融合层对多维度特征信息进行特征融合,得到融合特征信息;
检测信息生成单元,用于基于检测输出层对融合特征信息进行检测,得到多维度检测信息。
在一个可选的实施例中,上述装置还包括:
标签获取模块,用于获取第二样本对象的样本图像和第二样本图像对应的深度标签;
深度监督模块,用于将第二样本图像输入预设网络模型进行深度检测,得到第二样本图像对应的深度检测信息;
预设模型获取模块,用于根据深度标签和深度检测信息对预设网络模型进行训练,得到预设对象检测模型。
图7是根据一示例性实施例示出的一种对象检测装置框图。参照图7,该装置包括:
目标图像获取模块710,用于获取待检测的目标对象对应的目标图像;
目标对象检测模块720,用于将目标图像输入,用于基于目标对象检测模型的训练方法所得到的目标对象检测模型进行多维度对象检测,得到目标图像对应的多维度目标检测信息,多维度目标检测信息包括:预测三维属性检测信息;
检测结果生成模块730,用于将预测三维属性检测信息中的三维检测信息、类别检测信息、中心点检测信息和欧拉角检测信息,作为目标图像对应的对象检测结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种用于目标对象检测模型的训练的电子设备的框图,该电子设备可以是任一能运行目标对象检测模型的训练方法的操控终端,其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标对象检测模型的训练方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
图9是根据一示例性实施例示出的一种用于目标对象检测模型训练的电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图9所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标对象检测模型的训练方法。
本领域技术人员可以理解,图8或图9中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中的目标对象检测模型的训练方法。
在示例性实施例中,还提供了一种计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中的目标对象检测模型的训练方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
在示例性实施例中,还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的目标对象检测模型的训练方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (11)

1.一种目标对象检测模型的训练方法,其特征在于,所述方法包括:
获取第一样本对象的第一样本图像和所述第一样本图像对应的多维度标签信息,所述多维度标签信息包括:二维属性标签信息和三维属性标签信息;
将所述第一样本图像输入预设对象检测模型进行多维度对象检测,得到所述第一样本图像对应的多维度检测信息,所述多维度检测信息包括二维属性检测信息和三维属性检测信息;
根据所述二维属性标签信息、所述三维属性标签信息、所述二维属性检测信息和所述三维属性检测信息对所述预设对象检测模型进行训练,得到目标对象检测模型。
2.根据权利要求1所述的方法,其特征在于,所述预设对象检测模型包括特征提取层、特征融合层和检测输出层;所述将所述第一样本图像输入所述预设对象检测模型进行多维度目标对象检测,得到所述第一样本图像对应的所述多维度检测信息,包括:
基于所述特征提取层对所述第一样本图像进行多维度特征提取,生成多维度特征信息;
基于所述特征融合层对所述多维度特征信息进行特征融合,得到融合特征信息;
基于所述检测输出层对所述融合特征信息进行检测,得到所述多维度检测信息。
3.根据权利要求1所述的方法,其特征在于,所述二维属性标签信息包括:热力图标签和正负样本标签;所述二维属性标签信息包括采用下述方式获取:
对所述第一样本图像进行图像转换,得到所述第一样本图像对应的热力图;
将所述热力图作为所述热力图标签;
获取所述第一样本图像中的所述第一样本对象对应的预设正负样本信息;
将所述预设正负样本信息将作为所述正负样本标签。
4.根据权利要求1所述的方法,其特征在于,所述三维属性标签信息包括:关键点标签、深度信息标签、类别标签、中心点标签、三维信息标签和欧拉角标签;所述三维属性标签信息包括采用下述方式获取:
获取与所述第一样本图像对应的样本点云数据;
基于所述样本点云数据对所述第一样本图像进行深度信息标注,得到所述第一样本图像对应的所述深度信息标签;
基于所述样本点云数据对所述第一样本图像进行三维信息标注,得到所述第一样本图像对应的所述三维信息标签;
获取所述第一样本图像中的所述第一样本对象对应的预设关键点信息、预设类别信息、预设中心点信息、预设欧拉角信息;
将所述预设关键点信息作为所述关键点标签;
将所述预设类别信息作为所述类别标签;
将所述预设中心点信息作为所述中心点标签;
将所述预设欧拉角信息作为所述欧拉角标签。
5.根据权利要求4所述的方法,其特征在于,所述预设对象检测模型包括采用下述方式获取:
获取第二样本对象的样本图像和所述第二样本图像对应的所述深度标签;
将所述第二样本图像输入预设网络模型进行深度检测,得到所述第二样本图像对应的深度检测信息;
根据所述深度标签和所述深度检测信息对所述预设网络模型进行训练,得到所述预设对象检测模型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述二维属性标签信息、所述三维属性标签信息、所述二维属性检测信息和所述三维属性检测信息对所述预设对象检测模型进行训练,得到所述目标对象检测模型,包括:
根据所述二维属性标签信息、所述三维属性标签信息、所述二维属性检测信息和所述三维属性检测信息生成对象检测损失信息,所述对象检测损失信息表征所述预设对象检测模型的检测性能;
基于所述对象检测损失信息对所述预设对象检测模型进行训练,得到所述目标对象检测模型。
7.一种对象检测方法,其特征在于,所述方法包括:
获取待检测的目标对象对应的目标图像;
将所述目标图像输入目标对象检测模型进行多维度对象检测,得到所述目标图像对应的多维度目标检测信息,所述多维度目标检测信息包括:三维检测信息、类别检测信息、中心点检测信息和欧拉角检测信息;
将所述预测三维属性检测信息中的三维检测信息、类别检测信息、中心点检测信息和欧拉角检测信息,作为所述目标图像对应的对象检测结果,所述目标对象检测模型是权利要求1-6任一所述的目标对象检测模型的训练方法所得到的。
8.一种目标对象检测模型的训练装置,其特征在于,所述装置包括:
样本图像获取模块,用于获取第一样本对象的第一样本图像和所述第一样本图像对应的多维度标签信息,所述多维度标签信息包括:二维属性标签信息和三维属性标签信息;
样本对象检测模块,用于将所述第一样本图像输入预设对象检测模型进行多维度对象检测,得到所述第一样本图像对应的多维度检测信息,所述多维度检测信息包括二维属性检测信息和三维属性检测信息;
检测模型生成模块,用于根据所述二维属性标签信息、所述三维属性标签信息、所述二维属性检测信息和所述三维属性检测信息对所述预设对象检测模型进行训练,得到目标对象检测模型。
9.一种对象检测装置,其特征在于,所述装置包括:
目标图像获取模块,用于获取待检测的目标对象对应的目标图像;
目标对象检测模块,用于将所述目标图像输入,用于基于所述目标对象检测模型的训练方法所得到的目标对象检测模型进行多维度对象检测,得到所述目标图像对应的多维度目标检测信息,所述多维度目标检测信息包括:预测三维属性检测信息;
检测结果生成模块,用于将所述预测三维属性检测信息中的三维检测信息、类别检测信息、中心点检测信息和欧拉角检测信息,作为所述目标图像对应的对象检测结果。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的目标对象检测模型的训练方法或权利要求7所述的对象检测方法。
11.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至6中任一项所述的目标对象检测模型的训练方法或权利要求7所述的对象检测方法。
CN202310796738.2A 2023-06-30 2023-06-30 目标对象检测模型的训练方法及对象检测方法 Pending CN116664987A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310796738.2A CN116664987A (zh) 2023-06-30 2023-06-30 目标对象检测模型的训练方法及对象检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310796738.2A CN116664987A (zh) 2023-06-30 2023-06-30 目标对象检测模型的训练方法及对象检测方法

Publications (1)

Publication Number Publication Date
CN116664987A true CN116664987A (zh) 2023-08-29

Family

ID=87726266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310796738.2A Pending CN116664987A (zh) 2023-06-30 2023-06-30 目标对象检测模型的训练方法及对象检测方法

Country Status (1)

Country Link
CN (1) CN116664987A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315402A (zh) * 2023-11-02 2023-12-29 北京百度网讯科技有限公司 三维对象检测模型的训练方法及三维对象检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315402A (zh) * 2023-11-02 2023-12-29 北京百度网讯科技有限公司 三维对象检测模型的训练方法及三维对象检测方法

Similar Documents

Publication Publication Date Title
KR102143108B1 (ko) 차선 인식 모델링 방법, 장치, 저장 매체 및 기기, 및 인식 방법, 장치, 저장 매체 및 기기
US10915793B2 (en) Method and system for converting point cloud data for use with 2D convolutional neural networks
CN111142557B (zh) 无人机路径规划方法、系统、计算机设备及可读存储介质
CN111353969B (zh) 道路可行驶区域的确定方法、装置及计算机设备
Qiu et al. RGB-DI images and full convolution neural network-based outdoor scene understanding for mobile robots
CN108764187A (zh) 提取车道线的方法、装置、设备、存储介质以及采集实体
US11967103B2 (en) Multi-modal 3-D pose estimation
US11718324B2 (en) Instance segmentation imaging system
CN111488812A (zh) 障碍物位置识别方法、装置、计算机设备和存储介质
CN116664987A (zh) 目标对象检测模型的训练方法及对象检测方法
CN113383283B (zh) 感知信息处理方法、装置、计算机设备和存储介质
CN114298982A (zh) 图像标注方法、装置、计算机设备和存储介质
CN116740668A (zh) 三维目标检测方法、装置、计算机设备和存储介质
CN114663598A (zh) 三维建模方法、装置和存储介质
CN114627073A (zh) 地形识别方法、装置、计算机设备和存储介质
CN111696147B (zh) 一种基于改进YOLOv3模型的深度估计方法
CN113496163B (zh) 障碍物识别方法和装置
CN112883853A (zh) 车道线的检测方法、装置、设备及存储介质
CN114119757A (zh) 图像处理方法、装置、设备、介质和计算机程序产品
CN112747757A (zh) 用于提供雷达数据的方法和设备、计算机程序和计算机可读存储介质
CN105678321A (zh) 一种基于融合模型的人体姿态估计方法
CN116740127A (zh) 障碍物轨迹预测方法、装置、计算机设备和存储介质
EP3846128A1 (en) Estimation of road marking position in an ego vehicle environment
CN114078323B (zh) 感知增强方法、装置、路侧基站、计算机设备和存储介质
CN117911453A (zh) 轨迹预测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination