CN117612070A

CN117612070A - 静态真值数据的校正方法和装置、存储介质

Info

Publication number: CN117612070A
Application number: CN202410081840.9A
Authority: CN
Inventors: 郑杨韬; 朱子凌; 洪伟
Original assignee: Foss Hangzhou Intelligent Technology Co Ltd
Current assignee: Foss Hangzhou Intelligent Technology Co Ltd
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-02-27
Anticipated expiration: 2044-01-19
Also published as: CN117612070B

Abstract

本申请公开了一种静态真值数据的校正方法和装置、存储介质。其中，该方法包括：基于已构建的真值数据中的关键图像帧进行数据划分，得到多个真值数据片段；在从多个真值数据片段的至少一个真值数据片段中识别出处于静止状态的目标静态对象的情况下，获取识别出目标静态对象的图像帧序列；对图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息；在目标点云信息中对目标静态对象的对象检测框进行校正。本申请解决了现有技术中由于存在不确定的环境因素，导致获取到的真值数据出现不同程度的偏差的技术问题。

Description

静态真值数据的校正方法和装置、存储介质

技术领域

本申请涉及驾驶控制领域，具体而言，涉及一种静态真值数据的校正方法和装置、存储介质。

背景技术

在配置有自动驾驶功能的移动载具中，为了辅助驾驶员对其实现更加安全便捷的驾驶控制，其对应的驾驶系统往往需要依赖在行驶环境中获取到的真值数据来做出相应正确的驾驶决策。其中，这里的真值数据通常是基于移动载具内布设的现实传感器所采集到的图像、点云、车身位姿信息等内容，进一步结合应用真值算法计算推导出的与实际驾驶过程相关的真实数据。

然而，真实的驾驶环境往往纷繁复杂，常常会出现一些突发的变数，而这些变化不确定的环境因素却会对真值数据的获取造成很大干扰，从而导致获取到的真值数据出现不同程度的偏差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种静态真值数据的校正方法和装置、存储介质，以至少解决现有技术中由于存在不确定的环境因素，导致获取到的真值数据出现不同程度的偏差的技术问题。

根据本申请实施例的一个方面，提供了一种静态真值数据的校正方法，包括：基于已构建的真值数据中的关键图像帧进行数据划分，得到多个真值数据片段；在从上述多个真值数据片段的至少一个真值数据片段中识别出处于静止状态的目标静态对象的情况下，获取识别出上述目标静态对象的图像帧序列；对上述图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息；在上述目标点云信息中对上述目标静态对象的对象检测框进行校正。

可选地，在本实施例中，在上述目标点云信息中对上述目标静态对象的对象检测框进行校正包括：在上述图像帧序列中包括上述关键图像帧的情况下，基于上述关键图像帧中识别出的上述对象检测框的显示信息，对在其他图像帧中识别出的上述对象检测框的显示信息进行修正，其中，上述显示信息包括显示尺寸和/或显示位置。

可选地，在本实施例中，在上述目标点云信息中对上述目标静态对象的对象检测框进行校正包括：在上述图像帧序列中并未包括上述关键图像帧的情况下，基于深度学习模型预测上述对象检测框的修正信息，其中，上述深度学习模型是利用静态对象的点云数据进行预测的；基于上述修正信息对识别出的上述对象检测框的上述显示信息进行修正。

可选地，在本实施例中，在上述目标点云信息中对上述目标静态对象的对象检测框进行校正包括：在上述图像帧序列中并未包括上述关键图像帧的情况下，将上述图像帧序列中识别出的上述对象检测框的显示位置映射到参考坐标系，得到多个参考显示位置；对上述多个参考显示位置进行聚类处理，得到聚类中心位置；基于上述聚类中心位置对识别出的上述对象检测框的显示位置进行修正。

可选地，在本实施例中，在上述获取识别出上述目标静态对象的图像帧序列之前，还包括：从上述多个真值数据片段中识别出目标对象；获取上述目标对象的对象检测框在各个图像帧中的显示位置信息；基于上述显示位置信息确定出上述目标对象的对象检测框在不同图像帧中的位置偏移向量；利用上述位置偏移向量识别出处于上述静止状态的上述目标静态对象。

可选地，在本实施例中，上述对上述图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息包括：按照预设比例对识别出的上述目标对象各自对应的对象检测框进行缩放调整；将每个上述目标对象依次作为当前对象，并执行以下操作：获取与上述当前对象关联的多个调整后的当前对象检测框；将包含上述当前对象检测框的点云数据进行三维融合叠加，以得到上述当前对象对应的上述目标点云信息。

可选地，在本实施例中，在上述基于已构建的真值数据中的关键图像帧进行数据划分，得到多个真值数据片段之前，还包括：确定用于采集上述点云数据的车辆的车身坐标系，其中，上述车身坐标系是基于上述车辆内雷达传感器的安装位置所构建的；基于上述车身坐标系和与参考坐标系匹配的转置矩阵生成转换矩阵，其中，上述转换矩阵用于将上述车身坐标系下采集的点位置坐标转换到上述参考坐标系下的点位置坐标。

根据本申请实施例的另一方面，还提供了一种静态真值数据的校正装置，包括：划分单元，用于基于已构建的真值数据中的关键图像帧进行数据划分，得到多个真值数据片段；第一获取单元，用于在从上述多个真值数据片段的至少一个真值数据片段中识别出处于静止状态的目标静态对象的情况下，获取识别出上述目标静态对象的图像帧序列；叠加单元，用于对上述图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息；校正单元，用于在上述目标点云信息中对上述目标静态对象的对象检测框进行校正。

可选地，在本实施例中，上述校正单元包括：第一修正模块，用于在上述图像帧序列中包括上述关键图像帧的情况下，基于上述关键图像帧中识别出的上述对象检测框的显示信息，对在其他图像帧中识别出的上述对象检测框的显示信息进行修正，其中，上述显示信息包括显示尺寸和/或显示位置。

可选地，在本实施例中，上述校正单元包括：预测模块，用于在上述图像帧序列中并未包括上述关键图像帧的情况下，基于深度学习模型预测上述对象检测框的修正信息，其中，上述深度学习模型是利用静态对象的点云数据进行预测的；第二修正模块，用于基于上述修正信息对识别出的上述对象检测框的上述显示信息进行修正。

可选地，在本实施例中，上述校正单元包括：映射模块，用于在上述图像帧序列中并未包括上述关键图像帧的情况下，将上述图像帧序列中识别出的上述对象检测框的显示位置映射到参考坐标系，得到多个参考显示位置；聚类模块，用于对上述多个参考显示位置进行聚类处理，得到聚类中心位置；第三修正模块，用于基于上述聚类中心位置对识别出的上述对象检测框的显示位置进行修正。

可选地，在本实施例中，上述装置还包括：第一识别单元，用于在上述获取识别出上述目标静态对象的图像帧序列之前，从上述多个真值数据片段中识别出目标对象；第二获取单元，用于获取上述目标对象的对象检测框在各个图像帧中的显示位置信息；第一确定单元，用于基于上述显示位置信息确定出上述目标对象的对象检测框在不同图像帧中的位置偏移向量；第二识别单元，用于利用上述位置偏移向量识别出处于上述静止状态的上述目标静态对象。

可选地，在本实施例中，上述叠加单元包括：缩放模块，用于按照预设比例对识别出的上述目标对象各自对应的对象检测框进行缩放调整；处理模块，用于将每个上述目标对象依次作为当前对象，并执行以下操作：获取与上述当前对象关联的多个调整后的当前对象检测框；将包含上述当前对象检测框的点云数据进行三维融合叠加，以得到上述当前对象对应的上述目标点云信息。

可选地，在本实施例中，上述装置还包括：第二确定单元，用于在上述基于已构建的真值数据中的关键图像帧进行数据划分，得到多个真值数据片段之前，确定用于采集上述点云数据的车辆的车身坐标系，其中，上述车身坐标系是基于上述车辆内雷达传感器的安装位置所构建的；生成单元，用于基于上述车身坐标系和与参考坐标系匹配的转置矩阵生成转换矩阵，其中，上述转换矩阵用于将上述车身坐标系下采集的点位置坐标转换到上述参考坐标系下的点位置坐标。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述静态真值数据的校正方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的静态真值数据的校正方法。

在本申请实施例中，依据关键图像帧将已构建的真值数据划分为多个真值数据片段，当从多个真值数据片段的至少一个真值数据片段中识别出处于静止状态的目标静态对象时，获取识别出目标静态对象的图像帧序列，对图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息，在目标点云信息中对目标静态对象的对象检测框进行校正。也就是说，通过对识别出目标静态对象的图像帧序列的点云数据叠加，基于叠加后的点云数据对目标静态对象的对象框进行校正，可以减少不确定环境因素对真值数据的干扰，从而实现了对受到不确定环境因素干扰的真值数据进行校正的目的，进而解决了现有技术中由于存在不确定的环境因素，导致获取的真值数据出现不同程度的偏差的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的静态真值数据的校正方法示意图；

图2是根据本申请实施例的另一种可选的静态真值数据的校正方法示意图；

图3是根据本申请实施例的又一种可选的静态真值数据的校正方法示意图；

图4是根据本申请实施例的又一种可选的静态真值数据的校正方法示意图；

图5是根据本申请实施例的又一种可选的静态真值数据的校正方法示意图；

图6是根据本申请实施例的又一种可选的静态真值数据的校正方法示意图；

图7是根据本申请实施例的又一种可选的静态真值数据的校正方法示意图；

图8是根据本申请实施例的又一种可选的静态真值数据的校正方法示意图；

图9是根据本申请实施例的又一种可选的静态真值数据的校正方法示意图；

图10是根据本申请实施例的又一种可选的静态真值数据的校正方法示意图；

图11是根据本申请实施例的一种可选的静态真值数据的校正装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可选地，作为一种可选的实施方式，如图1所示，上述静态真值数据的校正方法包括：

S102，基于已构建的真值数据中的关键图像帧进行数据划分，得到多个真值数据片段；

S104，在从多个真值数据片段的至少一个真值数据片段中识别出处于静止状态的目标静态对象的情况下，获取识别出目标静态对象的图像帧序列；

S106，对图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息；

S108，在目标点云信息中对目标静态对象的对象检测框进行校正。

可选地，在本申请实施例中，该静态真值数据的校正方法可以但不限于应用于真值车传感器原始采集相关图像和点云真值数据，再通过云端系统筛选出高价值场景切片，针对切片数据基于云端的真值大模型进行真值构建，对构建后的真值进行校正的场景中。上述已构建的真值数据可以包括3D检测框的ID、位置、尺寸和航向角等。

进一步举例说明，存在200个图像帧，每个图像帧都有相对应的点云数据，其关键图像帧共有6帧，那么相邻两个关键图像帧构成一个真值数据片段，其中，每一个真值数据片段不仅包括图像帧还包括图像帧对应的点云数据，那么共计可以得到7个真值数据片段，在第2个真值数据片段、第3个真值数据片段和第4个真值数据片段中识别出目标静态对象A处于静止状态，将上述识别出的目标静态对象A的图像帧序列对应的点云数据中的3D检测框进行1.1倍的比例放大，使得能框住该目标静态对象A的所有点云，将能识别出目标静态对象A的图像帧序列点云数据叠加，从而生成目标静态对象A更稠密的点云数据，基于目标静态对象A更稠密的点云数据可以进行一个更精确的检测，基于更精确的检测框对目标静态对象A的所有对象检测框进行校正。

通过本实施例，基于已构建的真值数据中的关键图像帧进行数据划分，得到多个真值数据片段；在从多个真值数据片段的至少一个真值数据片段中识别出处于静止状态的目标静态对象的情况下，获取识别出目标静态对象的图像帧序列；对图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息；在目标点云信息中对目标静态对象的对象检测框进行校正。也就是说，基于叠加后的点云数据对上述对象检测进行校正，可以使得目标静态对象的对象检测框数据更加准确。

作为一种可选的方案，在目标点云信息中对目标静态对象的对象检测框进行校正包括：在图像帧序列中包括关键图像帧的情况下，基于关键图像帧中识别出的对象检测框的显示信息，对在其他图像帧中识别出的对象检测框的显示信息进行修正，其中，显示信息包括显示尺寸和/或显示位置。

进一步举例说明，如图2所示，存在20个图像帧，每个图像帧都有相对应的点云数据，其中，第8帧和第16帧为关键图像帧，那么相邻两个关键图像帧之间构成一个真值数据片段，其中，每一个真值数据片段不仅包括图像帧还包括图像帧对应的点云数据，那么共计可以得到3个真值数据片段，分别为第1-8帧，第8-16帧和第16-20帧，假设在第2个真值数据片段中的第8-13图像帧对应的点云数据中检测目标静态对象A，因为第8帧为关键图像帧，所以目标静态对象A的图像帧序列中包括关键图像帧。因为关键图像帧对应的点云数据中标注的3D检测框尺寸和位置是准确的，那么将第9-13帧上目标静态对象A的3D检测框的显示尺寸和显示位置均替换为第8帧上目标静态对象A的3D检测框的显示尺寸和显示位置。

通过本实施例，在图像帧序列中包括关键图像帧的情况下，基于关键图像帧中识别出的对象检测框的显示信息，对在其他图像帧中识别出的对象检测框的显示信息进行修正，其中，显示信息包括显示尺寸和/或显示位置。因为关键图像帧中的对象检测框是正确的，那么根据关键图像帧中的对象检测框对目标静态对象的其它对象检测框的显示尺寸和显示位置进行修正，从而使得目标静态对象的所有对象检测框更加准确。

作为一种可选的方案，在目标点云信息中对目标静态对象的对象检测框进行校正包括：

S1，在图像帧序列中并未包括关键图像帧的情况下，基于深度学习模型预测对象检测框的修正信息，其中，深度学习模型是利用静态对象的点云数据进行预测的；

S2，基于修正信息对识别出的对象检测框的显示信息进行修正。

可选地，在本申请实施例中，在图像帧序列并未包括关键图像帧的情况下，将目标静态对象的目标检测框统一修正为深度学习模型预测出的目标检测框的修正尺寸，其中，对象检测框可以为目标检测框。

进一步举例说明，存在20个图像帧，每个图像帧都有相对应的点云数据，其中，第8帧和第16帧为关键图像帧，那么相邻两个关键图像帧之间构成一个真值数据片段，其中，每一个真值数据片段不仅包括图像帧还包括图像帧对应的点云数据，那么共计可以得到3个真值数据片段，分别为第1-8帧，第8-16帧和第16-20帧，假设在第2个真值数据片段中的第9-14图像帧对应的点云数据中检测出目标静态对象A，第9-14图像帧并未包括关键图像帧，那么通过一个深度学习模型如中心点网络（即CenterPoint网络），对目标静态对象A的长宽高进行回归，输出目标静态对象A较为精确的目标尺寸大小，将目标静态对象A在20个图像帧对应的点云序列中的所有检测框统一修正为上述目标尺寸大小，具体实现方式如下：将识别出目标静态对象A的上述第9-14图像帧对应的点云取出，分别输入CenterPoint网络中，如图3所示，之后通过3D骨干网络从点云中提取鸟瞰图下的特征图M，然后经过两个阶段回归3D目标检测框，第一个阶段基于2D卷积神经网络实现的检测头去找目标的中心并用中心特征回归出3D边界框的属性，第二阶段需要从第一个阶段预测出的边界框每个面的3D中心去提取点特征，因为边界框的中心、顶部和顶部中心在鸟瞰图中会被投影到同一个点，因此仅考虑边界框的中心和四个向外面的中心。从骨干网络输出的特征图M中通过双线性差值来提取每个点的特征，然后将提取的特征堆叠起来送入一个多层感知器模型网络中用来对前一段预测出的边界框进行优化，同时这个阶段还会预测一个置信度分数，将置信度分数最高的3D检测框作为目标静态对象A在该帧点云中的目标检测框，将目标静态对象的第9-14图像帧对应的点云分别输入CenterPoint网络，共计可得到目标静态对象A对应的6个目标检测框，将6个目标检测框的尺寸求取平均数据，选择不超过平均数5%且最大的目标检测框作为最终精确的目标检测框尺寸大小，将目标静态对象A在6个图像帧对应的点云数据中的显示尺寸统一修正为上述得到的精确的目标检测框尺寸大小。

通过本申请实施例，在图像帧序列中并未包括关键图像帧的情况下，基于深度学习模型预测对象检测框的修正信息，其中，深度学习模型是利用静态对象的点云数据进行预测的；基于修正信息对识别出的对象检测框的显示信息进行修正。也就是说，基于深度学习模型对目标静态目标的对象检测框显示尺寸进行修正，从而使得目标静态对象的对象检测框的显示尺寸更加准确。

S1，在图像帧序列中并未包括关键图像帧的情况下，将图像帧序列中识别出的对象检测框的显示位置映射到参考坐标系，得到多个参考显示位置；

S2，对多个参考显示位置进行聚类处理，得到聚类中心位置；

S3，基于聚类中心位置对识别出的对象检测框的显示位置进行修正。

可选地，在本申请实施例中，当图像帧序列中并未包括关键图像帧时，将图像帧序列对应的点云数据中识别出的对象检测框的显示位置映射到世界坐标系下，得到对象检测框相对于世界坐标系的多个参考显示位置，对多个参考显示位置进行聚类，得到聚类中心位置，将上述对象检测框的显示位置都统一替换为上述聚类中心的位置，并将该聚类中心的位置反投回车身坐标系下。

进一步举例来说，假设图像帧序列对应的点云数据中识别出的目标静态对象A的对象检测框显示位置为，将上述显示位置映射到世界坐标系可得到/>，因为Z轴坐标不变，所以可忽略不计，所以就变为对以下n个数据点的聚类，聚类方法可以采用平均值法、中位数法、加权平均法和聚类算法等，以平均值法为例，将上述n个数据点的坐标相加，然后除以点的数量，得到的结果就是上述n个数据点的中心。

通过本申请实施例，在图像帧序列中并未包括关键图像帧的情况下，将图像帧序列中识别出的对象检测框的显示位置映射到参考坐标系，得到多个参考显示位置；对多个参考显示位置进行聚类处理，得到聚类中心位置；基于聚类中心位置对识别出的对象检测框的显示位置进行修正。也就是说，通过对参考显示位置的聚类得到聚类中心，基于聚类中心对上述对象检测框的显示位置进行修正，从而使得目标静态对象的对象检测框的显示位置更加准确。

作为一种可选的方案，在获取识别出目标静态对象的图像帧序列之前，还包括：

S1，从多个真值数据片段中识别出目标对象；

S2，获取目标对象的对象检测框在各个图像帧中出现的显示位置信息；

S3，基于显示位置信息确定出目标对象的对象检测框在不同图像帧中的位置偏移向量；

S4，利用位置偏移向量识别出处于静止状态的目标静态对象。

可选地，在本申请实施例中，多个真值数据片段中包括多个对象，根据每个对像的对象检测框在各个图像帧中出现的显示位置信息，得到每个对象在不同图像帧中的位置偏移量，基于上述多个对象的位置偏移量进行动态目标和静态目标的分类，从而判断出目标对象是否处于静止状态。

进一步举例说明，参考上述示例，在真值数据片段A中，共检测出10个对象，统计在真值数据片段A中上述10个对象的运动距离变化，运动距离变化指的是每个对象在真值数据片段中在x方向的总位移以及在y方向的总位移，如第一个对象的运动距离变化为（x1_总，y1_总），因为z方向统一都为1所以忽略不计，进而得到一个二维向量如可为[（x1_总，y1_总），（x2_总，y2_总），（x3_总，y3_总）……，（x10_总，y10_总）]，通过分类网络对上述二维向量进行二分类，将动态目标和静态目标予以区分。以支持向量机对上述二维向量进行二分类举例说明：使用支持向量机进行二分类，也就是需要找到一个分隔超平面，将二维向量中的多个数据点分为两类，即动态目标和静态目标，如图4所示，也就是说需要找到一条虚线n使得右上角的点和左下角的点分开，使得右上角的点都满足，左下角的点都满足/>，其中，右上角的点表示动态目标的位移距离变化，左下角的点表示静态目标的位移距离变化，并且使得找到的上述一条虚线n的其中一条平行线n₁恰好与左下角的点接触，即，还有一条平行线n₂恰好与右上角的点接触，即/>，计算上述两条平行线n₁与n₂之间的距离，将使得距离最大的两条平行线的中间线作为所要找的虚线n。动态目标和静态目标的运动轨迹不同，所以产生的位移距离变化也就不同，如图5所示为动态目标的轨迹，图中横坐标表示世界坐标系下东向坐标x，纵坐标表示世界坐标系下北向坐标y，从A点到C点横坐标的变化量为x_1总，从A点到B点纵坐标的变化量为y_1总。如图6所示为静态目标的轨迹，图中横坐标表示世界坐标系下东向坐标x，纵坐标表示世界坐标系下北向坐标y，从A点到B点的横坐标变化为x_2总，从C点到D点的纵坐标变化是y_2总。从图中可以看出，动态目标的移动轨迹连起来为一条延伸的曲线，静态目标的移动轨迹是在某一位置附近变化，也就是说x_1总大于x_2总，y_1总大于y_2总，所以静态目标的位移距离变化小于动态目标的位移距离变化，那么由此可知静态目标在真值数据片段中表现为运动距离变化比较小的目标。

通过本申请实施例，从多个真值数据片段中识别出目标对象；获取目标对象的对象检测框在各个图像帧中出现的显示位置信息；基于显示位置信息确定出目标对象的对象检测框在不同图像帧中的位置偏移向量；利用位置偏移向量识别出处于静止状态的目标静态对象。从而可以依据动态目标和静态目标的运动特点，对动态目标和静态目标分别采用不同的优化方式，进而提高了构建的真值数据的准确性。

作为一种可选的方案，对图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息包括：

S1，按照预设比例对识别出的目标对象各自对应的对象检测框进行缩放调整；

S2，将每个目标对象依次作为当前对象，并执行以下操作；

S3，获取与当前对象关联的多个调整后的当前对象检测框；

S4，将包含当前对象检测框的点云数据进行三维融合叠加，以得到当前对象对应的目标点云信息。

可选地，在本申请实施例中，按照预设比例对识别出目标对象各自对应的对象检测框进行放大处理，将目标对象放大处理后的对象检测框的点云数据进行三维融合叠加，从而得到目标对象更加完整的点云信息。

进一步举例说明，存在20个图像帧，每个图像帧都有相对应的点云数据，其中，第8帧和第16帧为关键图像帧，相邻两个关键图像帧之间构成一个真值数据片段，其中，每一个真值数据片段不仅包括图像帧还包括图像帧对应的点云数据，那么共计可以得到3个真值数据片段，分别为第1-8帧，第8-16帧和第16-20帧，若在第2个真值数据片段中的第9-13帧检测出目标静态对象A，将目标静态对象A在第9-14帧目标检测框的尺寸进行1.1倍的比例放大，若第9帧目标检测框检测出的是目标静态对象A左上角的点云，第10帧目标检测框检测出的是目标静态对象A右上角的点云，第11帧目标检测框检测出的是目标静态对象A左下角的点云，第12帧目标检测框检测出的是目标静态对象A右下角的点云，第13帧目标检测框检测出的是目标静态对象中心的点云，那么将目标静态对象A在第9-13帧中检测框所框出的点云进行融合，可得到目标静态对象A完整的点云信息。

通过本申请实施例，按照预设比例对识别出的目标对象各自对应的对象检测框进行缩放调整；将每个目标对象依次作为当前对象，并执行以下操作；获取与当前对象关联的多个调整后的当前对象检测框；将包含当前对象检测框的点云数据进行三维融合叠加，以得到当前对象对应的目标点云信息。通过对上述对象检测框的尺寸放大处理，并对放大后的对象检测框的点云信息进行融合，从而使得目标对象的点云信息更加完整准确。

作为一种可选的方案，在基于已构建的真值数据中的关键图像帧进行数据划分，得到多个真值数据片段之前，还包括：

S1，确定用于采集点云数据的车辆的车身坐标系，其中，车身坐标系是基于车辆内雷达传感器的安装位置所构建的；

S2，基于车身坐标系和与参考坐标系匹配的转置矩阵生成转换矩阵，其中，转换矩阵用于将车身坐标系下采集的点位置坐标转换到参考坐标系下的点位置坐标。

进一步举例说明，基于导航卫星系统（Global Navigation Satellite System，简称GNSS）和惯性导航系统（Inertial Navigation System，简称IMU）信息，将整个连续帧的所有点云以及已构建真值数据中3D检测框的结果，转换到统一的世界坐标系下，具体实现方式如下：以公司（空间中某点）为坐标原点，在客观世界的东为x，北为y，上为z的东北天坐标系下，采集车里的全球定位系统（Global Positioning System，简称GPS）单元和IMU单元记录了采集车相对坐标原点的xyz坐标和朝向角。采集车上的激光雷达所获取的点云数据，一般是以采集车后轴中心或激光雷达的安装位置为坐标原点，即其xyz和目标的检测框的朝向都是相对于上述坐标原点的。结合点云对采集车的坐标和朝向，以及采集车对东北坐标系的坐标和朝向，通过以下数学计算可得到点云对东北坐标系即世界坐标写的坐标和朝向。假设绕XYZ三轴的旋转角度分辨为，则三次旋转的旋转矩阵计算方法如下：

按照内旋的方式，Z-Y-X的旋转顺序（先绕自身轴Z，再绕自身轴Y，最后绕自身轴X），可得到旋转矩阵（内旋是右乘）：

得到上述旋转矩阵后，可或得如下的转换矩阵：

其中，t为采集车的世界坐标[x，y，z]的转置矩阵。

最终得到采集车的车身坐标系某点转换到世界坐标系的点坐标为：

其中，为车身坐标系下的某点坐标[x，y，z，1]的转置矩阵，得到的为世界坐标系下对应的坐标[x₁，y₁，z₁，1]的转置矩阵，其中这些1无含义，仅用于数学计算。

通过本申请实施例，确定用于采集点云数据的车辆的车身坐标系，其中，车身坐标系是基于车辆内雷达传感器的安装位置所构建的；基于车身坐标系和与参考坐标系匹配的转置矩阵生成转换矩阵，其中，转换矩阵用于将车身坐标系下采集的点位置坐标转换到参考坐标系下的点位置坐标。也就是说将对象检测框转换到统一的坐标系下，从而可以实现对动态目标和静态目标的分类以及后续的优化处理。

可选地，作为一种可选的实施方式，由以下步骤对上述方法进行整体性的举例解释说明：

存在200个图像帧的大片段数据，每个图像帧都有相对应的点云数据，其中等间隔真值帧有6帧，其中，真值帧包括真值图像帧和真值点云帧，则相邻两真值帧间构成一个小片段，随后基于小片段做片段内的目标追踪、重召回以及轨迹优化，得到的结果在真值帧上做前后片段串联。具体来说，如图7所示，S702，获取大片段数据，其中，大片段数据包括点云帧和粗优化真值（即已构建的真值数据），S704，对大片段数据进行坐标系转换，均统一转换到世界坐标系下，S706，然后以关键真值帧为间隔将大片段数据划分为小片段数据，之后每个小片段数据通过分类网络，S708，基于每个对象的运动轨迹进行动静态目标分离，具体来说统计某个对象序列在片段内的运动距离变化，计算其在x和y两个方向的总位移，得到一个二维向量，基于该二维向量使用支持向量机进行二分类，将动态目标和静态目标予以区分。S710，针对静态目标，基于粗优化真值结果，将静态目标的原有检测框的尺寸进行1.1比例的放大，保证放大后的检测框能框住静态目标所有的点云，将该静态目标的所有时刻的点云进行叠加，生成更为稠密的目标点云信息。S712，如果识别出静态目标的图像帧序列有经过关键真值图像帧，而关键真值点云帧上标注的对象检测框的位置和尺寸是绝对准确的，那么就将静态目标的图像帧序列所对应的点云数据中的检测框的位置和尺寸替换为关键真值点云帧上标注的该静态目标的位置和尺寸。否则，S714，则意味着静态目标的图像帧序列为通过关键图像帧，即仅存在与两个关键图像帧之间，那么就通过一个深度学习模型如中心点网络（CenterPoint网络）对上述静态目标的长宽高一一检测并进行递归，从而输出较为精确的静态目标尺寸，将静态目标的图像帧序列所对应的点云数据中的检测框的尺寸均替换为上述得到的精确的静态目标尺寸。对于静态目标检测框的中心点位置的修正，则通过以下方式实现：将识别出静态目标的所有点云帧序列中检测框的中心点位置均投影到世界坐标系下，并对投影到世界坐标下的中心点位置进行聚类处理，从而得到聚类中心位置，将聚类中心位置作为上述识别出静态目标的所有点云帧序列中检测框的中心点位置，并将中心点位置反投回车身坐标下。

以下结合图8对静态真值数据的校正的具体在场景识别中的应用进行说明：

S802，获取车辆采集的道路图像及对应的点云信息作为片段数据。

S804，对片段数据中的关键帧进行真值标注后输入检测跟踪模型中输出粗优化真值片段数据。具体来说，从片段数据中等时间间隔抽取一定帧数作为关键帧，并对关键帧进行真值标注，将标注真值后的关键帧插回原有片段数据中。对关键帧的真值标注可以为对关键帧上的静态障碍物和动态障碍物进行标注，其中，静态障碍物可以为路标、路牌、建筑物、树木、路边停放的车辆等，动态障碍物可以为行人、自行车、摩托车、动物和行驶的车辆等。粗优化真值片段数据可以包括静态障碍物和动态障碍物在每一帧上的位置、尺寸大小、航向角和ID等信息。

S806，对粗优化真值片段数据中静态障碍物进行点云补齐、位置优化和尺寸优化，得到如图9（a）所示的优化后的粗优化真值片段数据。

S808，将优化后的粗优化真值片段数据输入场景识别模型进行各场景信息的识别，如图9（b）所示。识别的标签包括天气，道路类型，光照类型，道路拓扑结构等。该场景识别为基于深度学习的多任务分类模型，会对每一帧输出对应的类型结果。在这里，保留每一个任务输出结果的软标签，即每一种类型以及模型推理出来的概率值，此处以图9（c）的场景识别结果为例。

S810，将优化后的粗优化真值片段数据输入先验经验模型进行推断，此处以图9（d）的场景识别过程为例，动态场景真值中有行人、车、三轮车，静态场景真值中有交通灯、道路标识（限速牌）。

进一步地，该先验经验模型基于一些传统的经验，对一些场景内可能出现和不出现的动态/静态障碍物进行总结，并支持判断。比如该场景中出现了行人，则基本上不会是高速场景；出现红绿灯，则大概率是路口场景；如果出现车道线分离点，则可能是匝道场景。

S812，判断得到的分类标签是否合理；具体地，基于先验经验模型，对上述软标签进行一次筛选，剔除不合理的分类结果，提升部分场景类型的分类的权重，此处示例判断结果为不可能出现高速场景，因此场景识别结果如图9（e）所示，即图9的（e）中显示的“高速：0.45”被删除（如图所示有删除线）。

作为一种可选的方式，先验模型基于GBDT方法，总体流程如下：

首先，对得到的道路对象进行数据转化，具体地，对于真实的场景标签进行独热编码，对于存在的标签组合设为正样本反之为负样本（1和0）。

接着，对先验经验模型进行训练，具体地，将行列化的数据输入GBDT中，得到优化后回归树，对于给定结果输出二分类标签结果，结果大于0.5即标签结果合理，反之为标签结果异常。

最后使用先验经验模型进行调用，具体地，精优化真值片段数据分类结果使用回归树判断精优化真值片段数据结果可用性，分数小于0.5则判定标记为问题数据，如图10所示，以场景为高速场景为例，将得到的分类标签输入先验经验模型中，得到有行人、40限速标牌的分数为0，即“行人”“40限速标牌”为问题数据，得到“有车”、“雨天”、“120限速牌”、“没有红绿灯”的分数为0.8，则说明标签符合高速场景，即数据合理。

若判断出的分类标签合理，执行S814，针对不同的识别任务，将多帧结果进行统一计算（如图9中以“投票”代表计算过程），其中选择多帧权重之和（计算结果）最大的类别，作为该场景最后的标签，如图9（f）所示，由计算结果得到：天气类型对应的识别结果为晴天，光照类型对应的结果为白天，道路类型对应的结果为路口。

具体地，对于场景识别、天气识别等任务，抽取10秒视频片段的每一帧进行分类模型推理，对于每个任务，模型都会输出每一帧对应的该任务的标签以及其概率，然后这个概率乘以权重最为最后分数，对于每个任务的每个标签，进行求和，得到这个视频片段对应任务标签的分数，选取最高分的结果作为该视频片段该任务对应的标签。

否则，执行S816，舍弃异常标签，如图9（e）所示，舍弃道路类型中“高速”标签。

通过上述实施方式，可以根据获取到的道路图像得到第一场景识别结果以及分类标签匹配概率，根据获取到的道路图像关联的道路对象集合，基于道路对象集合和分类标签间的先验关联关系对第一场景识别结果进行校验，通过先验关联关系能够进一步判断第一场景的场景识别结果的合理性、准确性，从而得到更准确的第二场景识别结果，将道路场景识别方法与复杂的道路行驶场景高度适配，使复杂环境中的场景识别结果更准确。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述静态真值数据的校正方法的静态真值数据的校正装置。如图11所示，该装置包括：

划分单元1102，用于基于已构建的真值数据中的关键图像帧进行数据划分，得到多个真值数据片段；

第一获取单元1104，用于在从上述多个真值数据片段的至少一个真值数据片段中识别出处于静止状态的目标静态对象的情况下，获取识别出上述目标静态对象的图像帧序列；

叠加单元1106，用于对上述图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息；

校正单元1108，用于在上述目标点云信息中对上述目标静态对象的对象检测框进行校正。

本方案中的实施例，可以但不限于参照上述方法实施例，本申请实施例中对此不作任何限定。

通过本实施例，基于已构建的真值数据中的关键图像帧进行数据划分，得到多个真值数据片段；在从多个真值数据片段的至少一个真值数据片段中识别出处于静止状态的目标静态对象的情况下，获取识别出目标静态对象的图像帧序列；对图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息；在目标点云信息中对目标静态对象的对象检测框进行校正。也就是说，基于叠加后的点云数据对上述对象检测框进行校正，可以使得目标静态对象的对象检测框数据更加准确。

作为一种可选的方案，上述校正单元1108包括：第一修正模块，用于在上述图像帧序列中包括上述关键图像帧的情况下，基于上述关键图像帧中识别出的上述对象检测框的显示信息，对在其他图像帧中识别出的上述对象检测框的显示信息进行修正，其中，上述显示信息包括显示尺寸和/或显示位置。

作为一种可选的方案，上述校正单元1108包括：

预测模块，用于在上述图像帧序列中并未包括上述关键图像帧的情况下，基于深度学习模型预测上述对象检测框的修正信息，其中，上述深度学习模型是利用静态对象的点云数据进行预测的；

第二修正模块，用于基于上述修正信息对识别出的上述对象检测框的上述显示信息进行修正。

作为一种可选的方案，上述校正单元1108包括：

映射模块，用于在上述图像帧序列中并未包括上述关键图像帧的情况下，将上述图像帧序列中识别出的上述对象检测框的显示位置映射到参考坐标系，得到多个参考显示位置；聚类模块，用于对上述多个参考显示位置进行聚类处理，得到聚类中心位置；

第三修正模块，用于基于上述聚类中心位置对识别出的上述对象检测框的显示位置进行修正。

作为一种可选的方案，上述装置还包括：

第一识别单元，用于在上述获取识别出上述目标静态对象的图像帧序列之前，从上述多个真值数据片段中识别出目标对象；

第二获取单元，用于获取上述目标对象的对象检测框在各个图像帧中的显示位置信息；第一确定单元，用于基于上述显示位置信息确定出上述目标对象的对象检测框在不同图像帧中的位置偏移向量；

第二识别单元，用于利用上述位置偏移向量识别出处于上述静止状态的上述目标静态对象。

作为一种可选的方案，上述叠加单元1106包括：

缩放模块，用于按照预设比例对识别出的上述目标对象各自对应的对象检测框进行缩放调整；

处理模块，用于将每个上述目标对象依次作为当前对象，并执行以下操作：获取与上述当前对象关联的多个调整后的当前对象检测框；将包含上述当前对象检测框的点云数据进行三维融合叠加，以得到上述当前对象对应的上述目标点云信息。

作为一种可选的方案，上述装置还包括：

第二确定单元，用于在上述基于已构建的真值数据中的关键图像帧进行数据划分，得到多个真值数据片段之前，确定用于采集上述点云数据的车辆的车身坐标系，其中，上述车身坐标系是基于上述车辆内雷达传感器的安装位置所构建的；

生成单元，用于基于上述车身坐标系和与参考坐标系匹配的转置矩阵生成转换矩阵，其中，上述转换矩阵用于将上述车身坐标系下采集的点位置坐标转换到上述参考坐标系下的点位置坐标。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例上述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上上述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种静态真值数据的校正方法，其特征在于，包括：

基于已构建的真值数据中的关键图像帧进行数据划分，得到多个真值数据片段；

在从所述多个真值数据片段的至少一个真值数据片段中识别出处于静止状态的目标静态对象的情况下，获取识别出所述目标静态对象的图像帧序列；

对所述图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息；

在所述目标点云信息中对所述目标静态对象的对象检测框进行校正。

2.根据权利要求1所述的方法，其特征在于，在所述目标点云信息中对所述目标静态对象的对象检测框进行校正包括：

在所述图像帧序列中包括所述关键图像帧的情况下，基于所述关键图像帧中识别出的所述对象检测框的显示信息，对在其他图像帧中识别出的所述对象检测框的显示信息进行修正，其中，所述显示信息包括显示尺寸和/或显示位置。

3.根据权利要求2所述的方法，其特征在于，在所述目标点云信息中对所述目标静态对象的对象检测框进行校正包括：

在所述图像帧序列中并未包括所述关键图像帧的情况下，基于深度学习模型预测所述对象检测框的修正信息，其中，所述深度学习模型是利用静态对象的点云数据进行预测的；

基于所述修正信息对识别出的所述对象检测框的所述显示信息进行修正。

4.根据权利要求1所述的方法，其特征在于，在所述目标点云信息中对所述目标静态对象的对象检测框进行校正包括：

在所述图像帧序列中并未包括所述关键图像帧的情况下，将所述图像帧序列中识别出的所述对象检测框的显示位置映射到参考坐标系，得到多个参考显示位置；

对所述多个参考显示位置进行聚类处理，得到聚类中心位置；

基于所述聚类中心位置对识别出的所述对象检测框的显示位置进行修正。

5.根据权利要求1所述的方法，其特征在于，在所述获取识别出所述目标静态对象的图像帧序列之前，还包括：

从所述多个真值数据片段中识别出目标对象；

获取所述目标对象的对象检测框在各个图像帧中的显示位置信息；

基于所述显示位置信息确定出所述目标对象的对象检测框在不同图像帧中的位置偏移向量；

利用所述位置偏移向量识别出处于所述静止状态的所述目标静态对象。

6.根据权利要求5所述的方法，其特征在于，所述对所述图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息包括：

按照预设比例对识别出的所述目标对象各自对应的对象检测框进行缩放调整；

将每个所述目标对象依次作为当前对象，并执行以下操作：

获取与所述当前对象关联的多个调整后的当前对象检测框；

将包含所述当前对象检测框的点云数据进行三维融合叠加，以得到所述当前对象对应的所述目标点云信息。

7.根据权利要求1至6中任一项所述的方法，其特征在于，在所述基于已构建的真值数据中的关键图像帧进行数据划分，得到多个真值数据片段之前，还包括：

确定用于采集所述点云数据的车辆的车身坐标系，其中，所述车身坐标系是基于所述车辆内雷达传感器的安装位置所构建的；

基于所述车身坐标系和与参考坐标系匹配的转置矩阵生成转换矩阵，其中，所述转换矩阵用于将所述车身坐标系下采集的点位置坐标转换到所述参考坐标系下的点位置坐标。

8.一种静态真值数据的校正装置，其特征在于，包括：

划分单元，用于基于已构建的真值数据中的关键图像帧进行数据划分，得到多个真值数据片段；

获取单元，用于在从所述多个真值数据片段的至少一个真值数据片段中识别出处于静止状态的目标静态对象的情况下，获取识别出所述目标静态对象的图像帧序列；

叠加单元，用于对所述图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息；

校正单元，用于在所述目标点云信息中对所述目标静态对象的对象检测框进行校正。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序被处理器运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。