发明内容
本发明的目的在于提供一种三维目标检测方法及检测装置,通过对待检测目标的原始点云数据进行地面信息增强后重构鸟瞰图,基于重构的鸟瞰图、原始点云数据及待检测目标的原始RGB图像进行数据融合,基于融合后的数据完成三维目标检测,提高目标检测精度。
为实现上述发明目的,本发明提供的方法采用下述技术方案予以实现:
一种三维目标检测方法,包括:
获取待检测目标的原始点云数据和原始RGB图像;
利用所述原始点云数据重构鸟瞰图,获得地面特征信息增强的鸟瞰图;
将所述原始点云数据、所述原始RGB图像和所述鸟瞰图进行特征持续融合,获得融合特征;
将所述融合特征输入目标检测器,获得目标检测结果。
在其中一个优选实施例中,利用所述原始点云数据重构鸟瞰图,获得地面特征信息增强的鸟瞰图,具体包括:
将所述原始点云数据转换为体素空间内的原始数据;
采用线性插值方法对所述体素空间内的每一个原始数据进行处理,获得体素空间特征;
将所述体素空间特征输入至全卷积网络中进行特征学习,输出体素空间内原始数据点相对于地面点的高度预测数据;
对所述原始点云数据和所述高度预测数据进行处理,获得去除地面点信息的点云数据;
将所述去除地面点信息的点云数据进行体素处理,重构鸟瞰图,获得地面特征信息增强的鸟瞰图。
在其中一个优选实施例中,对所述原始点云数据和所述高度预测数据进行处理,获得去除地面点信息的点云数据,具体包括:
将所述原始点云数据中每个点的Z轴原始高度数据减去该点在所述高度预测数据中对应的预测的Z轴高度数据,获得Z轴高度差数据;
用所述Z轴高度差数据更新所述原始点云数据中的每个点的Z轴原始高度数据,更新后的点云数据确定为去除地面点信息的点云数据。
优选的,所述全卷积网络为U-Net++网络。
在其中一个优选实施例中,将所述原始点云数据、所述原始RGB图像和所述鸟瞰图进行特征持续融合,获得融合特征,具体包括:
对所述鸟瞰图中的每一个点使用K近邻算法确定鸟瞰图K近邻点,获得鸟瞰图K近邻点数据和鸟瞰图K近邻中心偏移数据;
从所述原始点云数据中获得与所述鸟瞰图K近邻点对应的原始点的点云数据,确定为融合用点云数据;
采用残差网络和特征金字塔网络对所述原始RGB图像进行特征学习,获得图像学习特征;
将所述鸟瞰图、所述鸟瞰图K近邻点数据、所述鸟瞰图K近邻中心偏移数据、所述融合用点云数据和所述图像学习特征作为输入,输入至由残差网络和特征金字塔网络构成的特征融合模块进行特征持续融合,获得融合特征。
在其中一个优选实施例中,将所述鸟瞰图、所述鸟瞰图K近邻点数据、所述鸟瞰图K近邻中心偏移数据、所述融合用点云数据和所述图像学习特征作为输入,输入至由残差网络、连续卷积和特征金字塔网络构成的特征融合模块进行特征持续融合,获得融合特征,具体包括:
将所述鸟瞰图数据经过卷积处理和归一化激活处理,得到处理后的鸟瞰图数据,作为输入数据输入至所述特征融合模块中;
从所述图像学习特征中获得与所述鸟瞰图K近邻点对应的图像学习特征数据,确定为融合用图像学习特征;将所述融合用图像学习特征和所述鸟瞰图K近邻中心偏移数据进行张量拼接,输出二维密集信息数据;将所述二维密集信息数据与所述融合用点云数据进行张量拼接处理,输出融合三维空间信息的融合数据;
将所述处理后的鸟瞰图数据和所述融合三维空间信息的融合数据均作为输入数据输入至所述特征融合模块中进行特征持续融合,获得融合特征。
在其中一个优选实施例中,将所述融合特征输入目标检测器,获得目标检测结果,具体包括:
利用目标检测器中的关键点热力图检测头及已知的定位损失函数检测目标的中心点;
利用目标检测器中的偏移损失检测头及已知的偏移损失函数检测目标的偏移;
利用目标检测器中的3D目标尺寸回归检测头及已知的尺寸损失函数检测目标的尺寸;
利用目标检测器中的方向角回归检测头及已知的方向损失函数检测目标的方向;
根据目标的中心点、目标的偏移、目标的尺寸及目标的方向,确定目标检测结果。
为实现前述发明目的,本发明提供的三维目标检测装置采用下述技术方案来实现:
一种三维目标检测装置,包括:
原始点云数据获取单元,用于获取待检测目标的原始点云数据;
原始RGB图像获取单元,用于获取待检测目标的原始RGB图像;
鸟瞰图重构单元,用于利用所述原始点云数据重构鸟瞰图,获得地面特征信息增强的鸟瞰图;
特征融合单元,用于将所述原始点云数据、所述原始RGB图像和所述鸟瞰图进行特征持续融合,获得融合特征;
目标检测器,用于对所述融合特征进行检测,并获得目标检测结果。
本发明的另一目的是提供一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时,实现上述的三维目标检测方法。
本发明的又一目的是提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的三维目标检测方法。
与现有技术相比,本发明的优点和积极效果是:本发明提供的三维目标检测方法,利用原始点云数据重构鸟瞰图,获得地面特征信息增强的鸟瞰图,去除干扰三维目标检测任务的地面点云数据;将原始点云数据、原始RGB图像和地面信息增强的鸟瞰图进行特征融合,获得特征信息增强、更加有助于有效识别目标的融合特征,再基于融合特征进行目标检测,显著提高了三维目标检测精确度。
结合附图阅读本发明的具体实施方式后,本发明的其他特点和优点将变得更加清楚。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下将结合附图和实施例,对本发明作进一步详细说明。
首先,简要描述本发明的核心技术思想:本发明为了解决现有技术在实现三维目标检测时存在的检测精度低的问题,提出了一种新的三维目标检测方法及检测装置,通过对待检测目标的原始点云数据进行地面信息增强后重构鸟瞰图,以去除干扰三维目标检测任务的地面点云数据;然后基于重构的鸟瞰图、原始点云数据及待检测目标的原始RGB图像进行数据融合,获得特征信息增强、更加有助于有效识别目标的融合特征,再基于融合特征完成三维目标检测,继而提高目标检测精度。
图1示出了本发明三维目标检测装置一个实施例的结构示意图。
如图1所示,该实施例的三维目标检测装置包括有鸟瞰图重构单元11、原始点云数据获取单元12、原始RGB图像获取单元13、特征融合单元14及目标检测器15。
原始点云数据获取单元12,用于获取待检测目标的原始点云数据。对于具体实现手段,原始点云数据获取单元12采用现有技术中能够获取三维目标点云数据的设备和技术实现。作为其中一种实施方式,采用激光雷达传感器采集包含检测目标的三维数据,并将所采集的三维数据以点云格式表示,形成待检测目标的原始点云数据。在其他的实施方式中,还可以直接采用激光雷达点云采集设备采集包括待检测目标的原始点云数据。
鸟瞰图重构单元11,用于利用原始点云数据获取单元12所获取的原始点云数据重构鸟瞰图,从而获得地面特征信息增强的鸟瞰图。重构鸟瞰图,获得地面特征信息增强的鸟瞰图,具体而言,是通过对原始点云数据进行处理,去除干扰三维目标检测的地面点云数据,获得地面特征信息增强、三维空间特征信息更加丰富的鸟瞰图。
原始RGB图像获取单元13,用于获取待检测目标的原始RGB图像。该单元的具体实现手段,为采用现有技术中能够获取RGB图像的设备和技术来实现。作为其中一种实施方式,采用相机采集包含检测目标的二维数据,并将所采集的二维数据以RGB图像格式表示,形成待检测目标的原始RGB图像。
特征融合单元14,用于将原始点云数据、原始RGB图像和重构后的鸟瞰图进行特征持续融合,获得融合特征。多个数据进行特征融合的具体实现,可以采用现有技术中的方法来实现,也可以采用后续检测方法实施例中描述的方式实现。
目标检测器15,用于对特征融合单元14输出的融合特征进行检测,并获得三维目标检测结果。
该实施例的三维目标检测装置更具体的检测过程及所产生的技术效果,参见后续检测方法的描述。
图2所示为本发明三维目标检测方法一个实施例的流程图,具体来说,是基于点云数据重构鸟瞰图,并基于二维RGB图像和三维的点云数据及三维鸟瞰图数据进行特征融合,基于融合特征检测三维目标的一个实施例的检测方法的流程图。
如图2所示,实现三维目标检测的方法采用下述过程实现:
步骤21:获取待检测目标的原始点云数据和原始RGB图像。
采用现有技术中能够获取三维目标点云数据的设备和技术获取待检测目标的原始点云数据。作为其中一种实施方式,采用激光雷达传感器采集包含检测目标的三维数据,并将所采集的三维数据以点云格式表示,形成待检测目标的原始点云数据。在其他的实施方式中,还可以直接采用激光雷达点云采集设备采集包括待检测目标的原始点云数据。
采用现有技术中能够获取RGB图像的设备和技术获取待检测目标的原始RGB图像。作为其中一种实施方式,采用相机采集包含检测目标的二维数据,并将所采集的二维数据以RGB图像格式表示,形成待检测目标的原始RGB图像。
步骤22:利用:原始点云数据重构鸟瞰图,获得地面特征信息增强的鸟瞰图。
具体而言,是通过对原始点云数据进行处理,去除干扰三维目标检测的地面点云数据,获得地面特征信息增强、三维空间特征信息更加丰富的鸟瞰图。
步骤23:将原始点云数据、原始RGB图像和鸟瞰图进行特征持续融合,获得融合特征。
多个数据进行特征融合的具体实现,可以采用现有技术中的方法来实现,也可以采用后续实施例中描述的方式实现,该实施例对此不作限定。
步骤24:将融合特征输入目标检测器,获得目标检测结果。
根据目标检测器获得目标检测结果可以采用现有三维目标检测方法中的方式实现,也可以采用后续实施例中描述的优选方式实现,该实施例对此不作限定。
该实施例提出的三维目标检测方法,相比于现有技术,改进点在于:首先利用原始点云数据重构鸟瞰图,去除干扰三维目标检测任务的地面点云数据,获得地面特征信息增强的鸟瞰图;然后,将原始点云数据、原始RGB图像和地面信息增强的鸟瞰图均作为输入数据,进行特征融合,获得特征信息更强的融合特征;最后基于融合特征进行目标检测。通过重构鸟瞰图,去除影响三维目标检测精度的干扰数据,获得特征更显著、更有助于有效识别目标的原始数据;通过将三种数据进行特征融合,充分利用点云数据和重构鸟瞰图提供的精确的视图范围和利用图像数据提供的细粒度的纹理及颜色等信息,实现更加有效的特征融合,实现更三维目标检测精确度的提升。
在其他一些优选实施例中,利用原始点云数据重构鸟瞰图,获得地面特征信息增强的鸟瞰图,具体实现过程包括:
首先,将原始点云数据转换为体素空间内的原始数据。
原始点云数据表示为:
其中,p
i为第i个点的点云数据,t为采用时间,x
i,y
i,z
i分别为第i个点在三维空间坐标系中的位置,r
i为点云采集设备对于第i个点的反射光线的强度,为已知值。
为了便于使用二维卷积神经网络对点云数据进行学习并回归,需要将原始点云数据转换为体素空间内的原始数据。体素是指三维空间中具有相同体积大小的空间。体素空间根据选取的体素的体积和选定的点云数据的三维空间范围确定。考虑到三维目标检测中地面高度对检测所带来的影响,作为优选实施方式,选取体素体积时,其Z轴方向的尺寸大于X轴方向的尺寸及Y轴方向的尺寸。也即,体素在Z轴方向的尺寸较大,在Z轴方向上具有较低的分辨率,目的是为了提高后续采用卷积网络预测原始数据点相对应地面点的高度的预测速度,进而提高三维目标检测的快速性和实时性。在其中一个实施例中,选取的体素的大小为:0.2×0.2×0.4,单位为米。假定选定的点云数据的三维空间范围为:x∈[0,70.4],y∈[-40,40],z∈[-3,1],则得到体素空间为:
其中,D`、H`、W`分别为体素空间的深度、高度、宽度。然后,将选定的点云数据的三维空间范围中的数据转换为体素空间内的原始数据。也即,将三维空间范围中的数据点在逻辑上划分到体素空间内。
然后,采用线性插值方法对体素空间内的每一个原始数据进行处理,获得体素空间特征。具体来说,是采用线性插值方法对体素空间中的每一个点进行表示。经过线性插值方法计算处理后得到的体素表示张量为10×400×352,体素空间特征数据表示为{d`m,j,k}m∈1,..,10。其中,m代表通道数,j、k分别代表每个通道中的像素位置。
将体素空间特征输入至全卷积网络中进行特征学习,输出体素空间内原始数据点相对于地面点的高度预测数据。其中,参数含义与体素空间特征数据表示中的参数含义相同,但具有不同的数值。优选的,全卷积网络采用U-Net++网络,包含更多的下采样学习和上采样学习以及用来残差学习计算的跳过连接计算,能够更好地学习各个特征层之间的残差信息,进而更好地预测地面高度信息,提高预测准确性。并且,U-Net++网络最后输出的特征图是与输入数据具有同等大小的特征图,与输入数据保持对应一致的关系。预测得到的高度预测数据表示为:{dm,j,k}m∈1,..,10。其中,参数含义与体素空间特征数据表示中的参数含义相同,但具有不同的数值。通过对体素空间内的点进行特征学习,回归预测相对于地面点的高度,还可以实现在线估计地面点,进而有助于进一步提高目标预测的实时性和精确性。
然后,对原始点云数据和高度预测数据进行处理,获得去除地面点信息的点云数据。具体的,是将原始点云数据中每个点的Z轴原始高度数据减去该点在高度预测数据中对应的预测的Z轴高度数据,获得Z轴高度差数据。然后,用Z轴高度差数据更新原始点云数据中的每个点的Z轴原始高度数据,更新后的点云数据确定为去除地面点信息的点云数据。
最后,将去除地面点信息的点云数据进行体素处理,重构鸟瞰图,获得地面特征信息增强的鸟瞰图。具体的,是将去除地面点信息的点云数据再次根据选取的体素的体积转换为体素空间内的数据,确定为地面特征信息增强的鸟瞰图。
图3示出了实现特征融合的一个具体实例的网络架构图。
在该具体实例中,将原始点云数据、原始RGB图像和重构后的地面特征信息增强的鸟瞰图进行特征融合而获得融合特征的具体过程描述如下:
(1)对鸟瞰图的处理:
对鸟瞰图中的每一个点使用K近邻算法处理,确定鸟瞰图K近邻点,获得鸟瞰图K近邻点数据和鸟瞰图K近邻中心偏移数据。
鸟瞰图特征信息中的地面点信息被去除,因此,对鸟瞰图中的每一个点进行遍历寻找K近邻点的过程大大简化,计算量减少,计算速度快。对鸟瞰图中的每一个点使用K近邻算法确定鸟瞰图K近邻点,一方面能够利用鸟瞰图的抗遮挡能力增强对被遮挡目标的检测精度,另一方面是能够找到与该点信息结果类似的数据进行融合。使用K近邻算法确定鸟瞰图K近邻点并获得鸟瞰图K近邻点数据的具体实现,可采用现有技术,在此不作具体描述。
将鸟瞰图中的点作为中心点,其鸟瞰图K近邻点与其中心点的位置偏差数据,定义为鸟瞰图K近邻中心偏移数据。
鸟瞰图K近邻点数据和鸟瞰图近邻中心偏移数据将用于与原始点云数据及原始RGB图像进行特征融合使用。
此外,鸟瞰图还将作为特征融合的输入数据使用。具体来说,鸟瞰图数据经过卷积处理和归一化激活处理,得到处理后的鸟瞰图数据,作为输入数据输入到特征融合模块中进行特征融合。对数据进行卷积处理和归一化激活处理可以采用现有技术来实现。
(2)对原始RGB图像的处理:
采用残差网络和特征金字塔网络对原始RGB图像进行特征学习,获得图像学习特征。通过对原始RGB图像采用残差网络和特征金字塔网络进行特征学习,能够最大程度找回学习过程中丢掉的信息,尤其能够有效学习图像中的小目标特征。该过程的具体实现可利用现有技术中的残差网络及特征金字塔网络实现。
然后,利用鸟瞰图K近邻点数据和图像学习特征确定融合用图像学习特征。具体来说,是从图像学习特征中找到与每个鸟瞰图K近邻点对应的数据点,所有鸟瞰图K近邻点所对应的数据点的图像学习特征数据构成融合用图像学习特征。
再然后,将融合用图像学习特征与鸟瞰图K近邻中心偏移数据进行张量拼接,获得二维密集信息数据。两部分数据进行张量拼接的具体实现,可以采用现有技术中的拼接技术来实现,譬如,采用神经网络计算框架中的拼接方法来实现。
二维密集信息数据是基于鸟瞰图K近邻点数据和鸟瞰图K近邻中心偏移数据对原始RGB图像处理后所获得的数据,实现了鸟瞰图数据与原始RGB图像数据的融合处理。通过使用K近邻,能够找到周围点之间的关系,基于这些关系可以更好地增强数据对于空间信息的感知能力。
(3)对原始点云数据的处理:
利用鸟瞰图K近邻点数据和原始点云数据确定融合用点云数据。具体来说,是从原始点云数据中找到与每个鸟瞰图K近邻点对应的数据点,所有鸟瞰图K近邻点所对应的数据点的点云数据构成融合用点云数据。
然后,将上述过程(2)所确定的二维密集信息数据与该过程所确定的融合用点云数据再次进行张量拼接,获得融合三维空间信息的融合数据,该数据作为输入数据输入到特征融合模块中进行融合。
融合三维空间信息的融合数据基于原始点云数据获得,而且是根据鸟瞰图K近邻点所确定的点云数据。由此,在特征融合过程中叠加了先验知识,能够提高对检测目标几何信息的感知能力和提升最终的三维目标检测准确度。
最后,特征融合模块基于过程(1)确定的处理后的鸟瞰图数据和过程(2)、(3)所确定的融合三维空间信息的融合数据进行特征融合,获得最终的融合特征。特征融合模块的具体实现,可以是由残差网络和特征金字塔网络构成的网络结构,也可以是其他能够进行特征融合的网络架构。
采用上述方法获得融合特征的过程中,基于原始点云数据重构鸟瞰图,得到地面信息增强的鸟瞰图,再基于鸟瞰图的中心点的K近邻点,将原始RGB图像及原始点云数据中的信息进行融合,由此获得的融合特征可以解决单纯使用点云数据导致的检测目标被遮挡、忽略的问题,提升三维目标检测精度。
在其他一些优选实施例中,目标检测器使用多任务目标检测器,检测速度快,检测精度高。多任务目标检测器利用多个检测头和多任务损失函数完成目标检测。在其中的一个优选实施例中,目标检测器包括有四个检测头,分别为关键点热力图检测头、偏移损失检测头、3D目标尺寸回归检测头和方向角回归检测头。相应的,多任务损失函数包括定位损失函数、偏移损失函数、尺寸损失函数及方向损失函数确定。
下面对四个检测头做具体阐述。
关键点热力图检测头用来检测目标的中心点,如果检测到一个中心点,表示以该中心点作为中心存在一个检测目标。关键点热力图学习融合特征中的鸟瞰图,因此,检测也是在鸟瞰图中进行的。在关键点热力图检测中,计算每个点的欧式距离,根据欧式距离和已知的计算方法确定热力图中的点的数值K,根据点的数值K确定对应的点是否为检测目标的中心点。对于关键点热力图的损失函数,使用改进的FocalLoss损失函数进行优化。在一个优选实施例中,K值的确定方法包括下述三种情况:1)如果计算得到的欧式距离等于1,则令K为1;2)如果计算的欧式距离为0,则令K为0.8;3)若欧式距离的计算数值不是1或0,则令K的数值为计算的欧式距离的倒数。目标中心点根据点的数值K进行判断:如果K为1,判断该点为预估的目标中心点;否则,如果K不为1,判断该点为预估的非目标中心点。对于预估的目标中心点,,使用(1-K)
αlog(K)计算损失;对于预估的非目标中心点,使用
计算损失。其中的α和β均为神经网络计算时的超参数,可以根据实验结果进行调整。
偏移损失检测头用来检测目标的偏移,具体来说是对鸟瞰图中的关键点进行相对于对于Z轴的偏移检测,计算神经网络的预测输出结果与真实的Z轴数值之间的偏差,用来优化神经网络输出结果的准确度。偏移检测所用的偏移损失函数优选为L1范数损失函数。
3D目标尺寸回归检测头用来检测目标的尺寸,具体来说是对鸟瞰图中的关键点预测回归大小。3D目标尺寸回归所用的尺寸损失函数优选为L1范数损失函数。
方向角回归检测头用来检测目标的方向,具体来说是对鸟瞰图中的关键点进行方向检测。为了可以更好地减少预测方向和真实的方向之间的误差,使用Sin函数对预测结果和真实方向角的差值进行计算,即
其中
为预测方向角;θ为真实的方向角。方向角回归检测所用的方向损失函数优选为平滑范数损失函数SmoothL1。
采用上述多检测头及相应的损失函数,基于融合后的特征实现目标框无关的三维目标检测,能够在保证检测精度的基础上提升检测的速度。
上述的三维目标检测方法可以应用在一个或者多个电子设备中。电子设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等设备。电子设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
图4示出了本发明电子设备一个实施例的结构示意图。在该实施例中,电子设备4包括有存储器41和处理器42,存储器41中存储有计算机程序。处理器42能够通过总线读取并运行/执行存储器41中存储的计算机程序。并且,处理器42在执行计算机程序时,实现上述的图2、图3实施例及其他优选实施例的三维目标检测方法,实现方法所能产生的技术效果。
上述的三维目标检测方法还可以以软件产品的形式体现出来,软件产品存储在计算机可读存储介质中。具体来说,本发明还提供一种计算机可读存储介质的实施例,在存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现上述的图2、图3实施例及其他优选实施例的三维目标检测方法,实现方法所能产生的技术效果。对于计算机可读存储介质,包括但不限于U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟、光盘等。
以上实施例仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施例对本发明进行了详细的说明,对于本领域的普通技术人员来说,依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。