CN117593685B

CN117593685B - 真值数据的构建方法和装置、存储介质

Info

Publication number: CN117593685B
Application number: CN202410081800.4A
Authority: CN
Inventors: 朱子凌; 郑杨韬; 谢忠鑫; 洪伟; 王明明
Original assignee: Foss Hangzhou Intelligent Technology Co Ltd
Current assignee: Foss Hangzhou Intelligent Technology Co Ltd
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-04-26
Anticipated expiration: 2044-01-19
Also published as: CN117593685A

Abstract

本申请公开了一种真值数据的构建方法和装置、存储介质。其中，该方法包括：为待处理的片段数据中确定出的关键帧数据标记真值信息，得到真值关键帧数据，其中，片段数据中包括目标时间段内所采集到的连续多帧图像帧及每帧图像帧各自对应的点云数据，真值信息用于指示在关键帧数据中出现的目标对象；通过目标检测跟踪模型对从片段数据中识别出的目标对象进行位置跟踪，得到含有目标对象的对象检测框的第一真值数据；利用真值关键帧数据对第一真值数据中的对象检测框进行校正，得到第二真值数据。本申请解决了现有技术中提供的真值数据构建方式受到聚类过程的性能限制，从而导致构建的结果准确性较低的技术问题。

Description

真值数据的构建方法和装置、存储介质

技术领域

本申请涉及驾驶控制领域，具体而言，涉及一种真值数据的构建方法和装置、存储介质。

背景技术

在配置有自动驾驶功能的移动载具中，为了辅助驾驶员对其实现更加安全便捷的驾驶控制，其对应的驾驶系统往往需要依赖在行驶环境中获取到的真值数据来做出相应正确的驾驶决策。其中，这里的真值数据通常是基于移动载具内布设的现实传感器所采集到的图像、点云、车身位姿信息等内容，进一步结合应用真值算法计算推导出的与实际驾驶过程相关的真实数据。

目前针对驾驶领域的真值数据，相关技术中常用的获取方式是在载具端的传感器采集到原始数据以后，由专门的工作人员对该原始数据中的每一帧都进行人工识别和人工标注，再基于该标注的结果进行聚类分析后得到驾驶真值数据，其中，这里的聚类过程受限于原始数据中3D空间点云的形态及点云密度。换言之，相关技术提供的真值数据的构建方式受到聚类过程的性能限制，从而导致构建的结果准确性较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种真值数据的构建方法和装置、存储介质，以至少解决现有技术中提供的真值数据构建方式受到聚类过程的性能限制，从而导致构建的结果准确性较低的技术问题。

根据本申请实施例的一个方面，提供了一种真值数据的构建方法，包括：为待处理的片段数据中确定出的关键帧数据标记真值信息，得到真值关键帧数据，其中，上述片段数据中包括目标时间段内所采集到的连续多帧图像帧及每帧图像帧各自对应的点云数据，上述真值信息用于指示在上述关键帧数据中出现的目标对象；通过目标检测跟踪模型对从上述片段数据中识别出的上述目标对象进行位置跟踪，得到含有上述目标对象的对象检测框的第一真值数据；利用上述真值关键帧数据对上述第一真值数据中的上述对象检测框进行校正，得到第二真值数据。

可选地，在本实施例中，通过目标检测跟踪模型对从上述片段数据中识别出的上述目标对象进行位置跟踪，得到含有上述目标对象的对象检测框的第一真值数据包括：将上述片段数据中的图像帧依次作为当前图像帧，并对上述当前图像帧和上述当前图像帧对应的当前点云数据执行以下操作：在上述目标检测跟踪模型中对上述当前图像帧和上述当前点云数据执行检测处理过程，其中，在上述当前图像帧为上述关键图像帧的情况下，对上述当前图像帧和上述当前点云数据跳过上述目标检测跟踪模型的检测处理过程，并通过与上述当前图像帧对应的上述真值关键帧数据来获取上述当前图像帧和上述当前点云数据各自的检测处理结果；在根据上述检测处理结果获取到上述目标对象所关联的全部的候选图像帧的情况下，通过上述目标检测跟踪模型对上述候选图像帧及上述候选图像帧对应的点云数据执行跟踪处理过程，得到上述目标对象对应的上述第一真值数据，其中，上述候选图像帧中包含上述目标对象的二维对象检测框，与上述候选图像帧对应的点云数据中包含上述目标对象的三维对象检测框。

可选地，在本实施例中，在上述目标检测跟踪模型中对上述当前图像帧和上述当前点云数据执行检测处理过程包括：在上述当前图像帧为上述关键图像帧的情况下，使用与上述当前图像帧对应的上述真值关键帧数据替换上述当前图像帧和上述当前点云数据，其中，上述真值关键数据中包括上述关键图像帧中出现的上述目标对象的上述二维对象检测框的显示信息，以及上述关键图像帧对应的关键点云数据中出现的上述目标对象的三维对象检测框的显示信息；在上述当前图像帧并非关键图像帧的情况下，在上述目标检测跟踪模型中对上述当前图像帧进行特征提取，得到当前图像特征，并对上述当前点云数据进行特征提取，得到当前点云特征；对上述当前图像特征和上述当前点云特征进行融合，得到当前特征；基于上述当前特征检测出上述目标对象的上述二维对象检测框和上述三维对象检测框。

可选地，在本实施例中，通过上述目标检测跟踪模型对上述候选图像帧及上述候选图像帧对应的点云数据执行跟踪处理过程，得到上述目标对象的上述图像帧序列包括：对各个上述候选图像帧中检测出的上述目标对象的上述二维对象框进行跟踪串联，得到图像对象框序列；对各个上述候选图像帧对应的点云数据中检测出的上述目标对象的上述三维对象框进行跟踪串联，得到点云对象框序列；基于上述图像对象框序列和上述点云对象框序列，获取上述目标对象的上述图像帧序列。

可选地，在本实施例中，基于上述图像对象框序列和上述点云对象框序列，获取上述目标对象的上述图像帧序列包括：将上述候选图像帧中是关键图像帧中出现的上述目标对象的上述二维对象框，以及上述关键图像帧对应的关键点云数据中出现的上述目标对象的上述三维对象框作为参考帧数据；利用上述参考帧数据对上述候选图像帧中并非上述关键图像帧的其他图像帧和对应的点云数据进行调整，得到上述目标图像帧序列。

可选地，在本实施例中，利用上述真值关键帧数据对上述第一真值数据中的上述对象检测框进行校正，得到第二真值数据包括：基于上述第一真值数据中上述对象检测框的显示信息，确定出上述目标对象的对象检测框在各个图像帧中的位置偏移向量；在上述位置偏移向量指示大于目标阈值的情况下，确定出上述目标对象为处于运动状态的移动对象，并按照与上述移动对象匹配的动态校正模式对上述对象检测框进行校正；在上述位置偏移向量指示小于或等于上述目标阈值的情况下，确定出上述目标对象为静态对象，并按照与上述静态对象匹配的静态校正模式对上述对象检测框进行校正。

可选地，在本实施例中，按照与上述移动对象匹配的动态校正模式对上述对象检测框进行校正包括：对上述第一真值数据按照关键图像帧进行划分，得到多个真值数据片段；基于每个上述真值数据片段内图像帧中识别出的上述移动对象的对象检测框，确定出上述移动对象在各个上述图像帧中出现的移动位置；利用在上述真值数据片段内确定出的上述移动位置进行段内轨迹拟合，以生成与上述真值数据片段相匹配的对象移动轨迹；利用上述对象移动轨迹对上述移动对象的对象检测框进行校正。

可选地，在本实施例中，按照与上述静态对象匹配的静态校正模式对上述对象检测框进行校正包括：对上述第一真值数据按照关键图像帧进行划分，得到多个真值数据片段；从上述多个真值数据片段中获取包含上述静态对象的图像帧序列；对上述图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息；在上述目标点云信息中对上述静态对象的对象检测框进行校正。

可选地，在本实施例中，利用上述真值关键帧数据对上述第一真值数据中的上述对象检测框进行校正，得到第二真值数据包括：在上述第一真值数据中上述目标对象的上述对象检测框在至少一个图像帧内出现的显示位置满足位置扩展条件的情况下，在与上述位置扩展条件匹配的目标图像帧内对上述目标对象的对象检测框进行位置扩展，得到被扩展后的对象检测框；对上述被扩展后的对象检测框和上述第一真值数据内的对象检测框进行匹配；根据匹配的结果对上述第一真值数据进行更新，得到上述第二真值数据。

可选地，在本实施例中，对上述被扩展后的对象检测框和上述第一真值数据内的对象检测框进行匹配包括：将上述被扩展后的对象检测框投影到上述图像帧内，得到对象检测框投影；在上述对象检测框投影与上述图像帧内的对象检测结果并未匹配的情况下，确定上述被扩展后的对象检测框为待标记对象检测框，其中，上述待标记检测框用于指示出现误检的对象检测框或出现遮挡的对象检测框。

根据本申请实施例的另一方面，还提供了一种真值数据的构建装置，包括：标记单元，用于为待处理的片段数据中确定出的关键帧数据标记真值信息，得到真值关键帧数据，其中，上述片段数据中包括目标时间段内所采集到的连续多帧图像帧及每帧图像帧各自对应的点云数据，上述真值信息用于指示在上述关键帧数据中出现的目标对象；跟踪单元，用于通过目标检测跟踪模型对从上述片段数据中识别出的上述目标对象进行位置跟踪，得到含有上述目标对象的对象检测框的第一真值数据；校正单元，用于利用上述真值关键帧数据对上述第一真值数据中的上述对象检测框进行校正，得到第二真值数据。

可选地，在本实施例中，上述跟踪单元包括：处理模块，用于将上述片段数据中的图像帧依次作为当前图像帧，并对上述当前图像帧和上述当前图像帧对应的当前点云数据执行以下操作：在上述目标检测跟踪模型中对上述当前图像帧和上述当前点云数据执行检测处理过程，其中，在上述当前图像帧为上述关键图像帧的情况下，对上述当前图像帧和上述当前点云数据跳过上述目标检测跟踪模型的检测处理过程，并通过与上述当前图像帧对应的上述真值关键帧数据来获取上述当前图像帧和上述当前点云数据各自的检测处理结果；在上述当前图像帧并非关键图像帧的情况下，通过上述目标检测跟踪模型对上述当前图像帧和上述当前点云数据执行检测处理过程，得到检测处理结果；在根据上述检测处理结果获取到上述目标对象所关联的全部的候选图像帧的情况下，通过上述目标检测跟踪模型对上述候选图像帧及上述候选图像帧对应的点云数据执行跟踪处理过程，得到上述目标对象对应的上述第一真值数据，其中，上述候选图像帧中包含上述目标对象的二维对象检测框，与上述候选图像帧对应的点云数据中包含上述目标对象的三维对象检测框。

可选地，在本实施例中，上述处理模块包括：替换子模块，用于在上述当前图像帧为上述关键图像帧的情况下，使用与上述当前图像帧对应的上述真值关键帧数据替换上述当前图像帧和上述当前点云数据，其中，上述真值关键数据中包括上述关键图像帧中出现的上述目标对象的上述二维对象检测框的显示信息，以及上述关键图像帧对应的关键点云数据中出现的上述目标对象的三维对象检测框的显示信息；检测子模块，用于在上述当前图像帧并非关键图像帧的情况下，在上述目标检测跟踪模型中对上述当前图像帧进行特征提取，得到当前图像特征，并对上述当前点云数据进行特征提取，得到当前点云特征；对上述当前图像特征和上述当前点云特征进行融合，得到当前特征；基于上述当前特征检测出上述目标对象的上述二维对象检测框和上述三维对象检测框。

可选地，在本实施例中，上述处理模块包括：第一串联子模块，用于对各个上述候选图像帧中检测出的上述目标对象的上述二维对象框进行跟踪串联，得到图像对象框序列；第二串联子模块，用于对各个上述候选图像帧对应的点云数据中检测出的上述目标对象的上述三维对象框进行跟踪串联，得到点云对象框序列；第一获取子模块，用于基于上述图像对象框序列和上述点云对象框序列，获取上述目标对象的上述图像帧序列。

可选地，在本实施例中，上述获取子模块用于通过以下步骤实现基于上述图像对象框序列和上述点云对象框序列，获取上述目标对象的上述图像帧序列：将上述候选图像帧中是关键图像帧中出现的上述目标对象的上述二维对象框，以及上述关键图像帧对应的关键点云数据中出现的上述目标对象的上述三维对象框作为参考帧数据；利用上述参考帧数据对上述候选图像帧中并非上述关键图像帧的其他图像帧和对应的点云数据进行调整，得到上述目标图像帧序列。

可选地，在本实施例中，上述校正单元包括：确定模块，用于基于上述第一真值数据中上述对象检测框的显示信息，确定出上述目标对象的对象检测框在各个图像帧中的位置偏移向量；第一校正模块，在上述位置偏移向量指示大于目标阈值的情况下，确定出上述目标对象为处于运动状态的移动对象，并按照与上述移动对象匹配的动态校正模式对上述对象检测框进行校正；第二校正模块，在上述位置偏移向量指示小于或等于上述目标阈值的情况下，确定出上述目标对象为静态对象，并按照与上述静态对象匹配的静态校正模式对上述对象检测框进行校正。

可选地，在本实施例中，上述第一校正模块包括：第一划分子模块，用于对上述第一真值数据按照关键图像帧进行划分，得到多个真值数据片段；确定子模块，用于基于每个上述真值数据片段内图像帧中识别出的上述移动对象的对象检测框，确定出上述移动对象在各个上述图像帧中出现的移动位置；拟合子模块，用于利用在上述真值数据片段内确定出的上述移动位置进行段内轨迹拟合，以生成与上述真值数据片段相匹配的对象移动轨迹；第一校正子模块，用于利用上述对象移动轨迹对上述移动对象的对象检测框进行校正。

可选地，在本实施例中，上述第二校正模块包括：第二划分子模块，用于对上述第一真值数据按照关键图像帧进行划分，得到多个真值数据片段；第二获取子模块，用于从上述多个真值数据片段中获取包含上述静态对象的图像帧序列；叠加子模块，用于对上述图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息；第二校正子模块，用于在上述目标点云信息中对上述静态对象的对象检测框进行校正。

可选地，在本实施例中，上述校正单元包括：扩展模块，用于在上述第一真值数据中上述目标对象的上述对象检测框在至少一个图像帧内出现的显示位置满足位置扩展条件的情况下，在与上述位置扩展条件匹配的目标图像帧内对上述目标对象的对象检测框进行位置扩展，得到被扩展后的对象检测框；匹配模块，用于对上述被扩展后的对象检测框和上述第一真值数据内的对象检测框进行匹配；更新模块，用于根据匹配的结果对上述第一真值数据进行更新，得到上述第二真值数据。

可选地，在本实施例中，上述匹配模块包括：投影子模块，用于将上述被扩展后的对象检测框投影到上述图像帧内，得到对象检测框投影；确定子模块，用于在上述对象检测框投影与上述图像帧内的对象检测结果并未匹配的情况下，确定上述被扩展后的对象检测框为待标记对象检测框，其中，上述待标记检测框用于指示出现误检的对象检测框或出现遮挡的对象检测框。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述真值数据的校正方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的真值数据的校正方法。

在本申请实施例中，为待处理的片段数据中确定出的关键帧数据标记真值信息，得到真值关键帧数据，通过目标检测跟踪模型对从上述片段数据中识别出的目标对象进行位置跟踪，得到含有目标对象的对象检测框的第一真值数据，利用真值关键帧数据对第一真值数据中的对象检测框进行校正，得到第二真值数据。也就是说目标检测跟踪模型通过标记真值信息的关键帧数据对片段数据进行第一次优化，利用真值关键帧数据对第一次优化的数据结果再进行第二次优化，通过两次优化，减少了真值数据的构建受到聚类过程的限制，进而解决了现有技术中由于真值数据的构建方式受到聚类过程的性能限制，导致构建的结果准确性较低的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的真值数据的构建方法示意图；

图2是根据本申请实施例的另一种可选的真值数据的构建方法示意图；

图3是根据本申请实施例的又一种可选的真值数据的构建方法示意图；

图4是根据本申请实施例的又一种可选的真值数据的构建方法示意图；

图5是根据本申请实施例的又一种可选的真值数据的构建方法示意图；

图6是根据本申请实施例的又一种可选的真值数据的构建方法示意图；

图7是根据本申请实施例的又一种可选的真值数据的构建方法示意图；

图8是根据本申请实施例的又一种可选的真值数据的构建方法示意图；

图9是根据本申请实施例的又一种可选的真值数据的构建方法示意图；

图10是根据本申请实施例的又一种可选的真值数据的构建方法示意图；

图11是根据本申请实施例的又一种可选的真值数据的构建方法示意图；

图12是根据本申请实施例的又一种可选的真值数据的构建方法示意图；

图13是根据本申请实施例的又一种可选的真值数据的构建方法示意图；

图14是根据本申请实施例的又一种可选的真值数据的构建方法示意图；

图15是根据本申请实施例的又一种可选的真值数据的构建方法示意图；

图16是根据本申请实施例的又一种可选的真值数据的构建方法示意图；

图17是根据本申请实施例的一种可选的真值数据的构建装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可选地，作为一种可选的实施方式，如图1所示，上述真值数据的构建方法包括：

S102，为待处理的片段数据中确定出的关键帧数据标记真值信息，得到真值关键帧数据，其中，片段数据中包括目标时间段内所采集到的连续多帧图像帧及每帧图像帧各自对应的点云数据，真值信息用于指示在关键帧数据中出现的目标对象；

S104，通过目标检测跟踪模型对从片段数据中识别出的目标对象进行位置跟踪，得到含有目标对象的对象检测框的第一真值数据；

S106，利用真值关键帧数据对第一真值数据中的对象检测框进行校正，得到第二真值数据。

可选地，在本申请实施例中，该真值数据的构建方法可以但不限于应用于真值车传感器原始采集相关图像和点云真值数据，再通过云端系统筛选出高价值场景切片，针对切片数据基于云端的真值大模型进行真值构建的场景中。上述预设间隔可以为预设的时间间隔，也可以为预设的帧间隔，图像为PNG格式数据，在内存中为3840*2160*3的矩阵，点云为标准ASCIIpcd文件，在内存中为若干个（x，y，z，反射强度）坐标点。

以预设的帧间隔为例，进一步举例说明，如图2所示，在10:00-12:00这一时间段内采集车采集到连续的48帧数据作为片段数据，以10帧作为帧间隔每隔10帧抽取一次关键帧数据，则共抽取到4帧关键帧数据分别为第10帧、第20帧、第30帧、第40帧，每一帧关键帧数据都包括关键图像帧和关键图像帧对应的点云数据。在每一帧关键帧数据上标注目标对象所出现的位置，如可用对象检测框来表示目标对象所在的位置，从而得到真值关键帧数据，将得到的真值关键帧数据放入标注数据池。在目标检测跟踪模型对片段数据第1至48帧进行处理时，如果遇到第10帧、第20帧、第30帧和第40帧中任一帧关键帧，则目标检测跟踪模型跳过对上述关键帧的检测处理过程，并使用上述得到的真值关键帧数据替换片段数据中对应位置上的关键帧数据，否则就对片段数据进行检测处理，最后基于跟踪处理结果构建第一真值数据。在实际操作过程中，对于少量标注好的真值关键帧数据，有一个完整的管理系统，在推理过程中，会先读取待标注的片段数据包含不包含关键帧数据，如果包含的话，将真值关键帧数据从数据库中取出，并在内存中以帧号为key，真值关键帧数据为value，构建字典的key-value键值对存储这些真值关键帧数据，在推理的过程中如果遇到帧号和标记好真值关键帧数据帧号相同时就会跳过，以确保这些真值关键帧数据将不通过目标检测跟踪模型进行覆盖。

上述构建的第一真值数据可以包括3D对象检测框的ID、位置、尺寸和航向角等，因为真值关键帧数据绝对准确，所以后续会基于真值关键帧数据对第一真值数据中的对象检测框进行校正。具体来说，当目标对象为动态目标时，会对每两个关键帧中间的动态目标轨迹进行分段拟合，之后再进行航向角优化，同时对非关键帧数据中的对象检测框进行尺寸优化。当目标对象为静态目标时，会对静态目标进行点云补齐优化，同时对非关键帧数据中的对象检测框进行位置优化和尺寸优化。最后基于动态目标的轨迹进行轨迹拓展，对关键帧附近超远距离目标进行拓展，并对上述拓展后的检测框进行筛选，从而得到第二真值数据。

通过本申请实施例，为待处理的片段数据中确定出的关键帧数据标记真值信息，得到真值关键帧数据，通过目标检测跟踪模型对片段数据中识别出的目标对象进行位置跟踪，可得到含有目标对象的对象检测框的第一真值数据，利用真值关键帧数据对第一真值数据中的对象检测框进行校正，得到第二真值数据，从而实现对真值数据的两次优化，使得基于真值关键帧数据构建的真值数据更加准确。

作为一种可选的方案，通过目标检测跟踪模型对从片段数据中识别出的目标对象进行位置跟踪，得到含有目标对象的对象检测框的第一真值数据包括：

S1，将片段数据中的图像帧依次作为当前图像帧，并对当前图像帧和当前图像帧对应的当前点云数据执行以下操作：

S2，在目标检测跟踪模型中对当前图像帧和当前点云数据执行检测处理过程，其中，在当前图像帧为关键图像帧的情况下，对当前图像帧和当前点云数据跳过目标检测跟踪模型的检测处理过程，并通过与当前图像帧对应的真值关键帧数据来获取当前图像帧和当前点云数据各自的检测处理结果；在当前图像帧并非关键图像帧的情况下，通过目标检测跟踪模型对当前图像帧和当前点云数据执行检测处理过程，得到检测处理结果；

S3，在根据检测处理结果获取到目标对象所关联的全部的候选图像帧的情况下，通过目标检测跟踪模型对候选图像帧及候选图像帧对应的点云数据执行跟踪处理过程，得到目标对象对应的第一真值数据，其中，候选图像帧中包含目标对象的二维对象检测框，与候选图像帧对应的点云数据中包含目标对象的三维对象检测框。

进一步举例说明，如图3所示，以连续18帧的图像帧数据作为片段数据，其中第5帧、第10帧和第15帧为关键帧数据，使用目标检测跟踪模型对1至18连续图像帧数据进行遍历，当遇到第5帧、第10帧和第15帧中任一图像帧数据时，跳过目标检测跟踪模型对上述关键帧数据的目标检测识别，并使用对第5帧、第10帧和第15帧标记好目标的真值关键帧数据替换原有的关键帧数据插回片段数据中，图3中加粗的目标框为标记好的目标框，否则，使用目标检测跟踪模型对图像帧数据进行检测识别处理，输出每一个目标对象的2D和3D目标框信息，图3中虚线所圈出的目标框为目标检测跟踪模型检测出的2D目标框。使用目标检测跟踪模型对每一个目标对象的2D和3D目标框执行目标跟踪处理，从而得到目标对象对应的第一真值数据。

通过本申请实施例，将片段数据中的图像帧依次作为当前图像帧，并对当前图像帧和当前图像帧对应的当前点云数据执行以下操作：在目标检测跟踪模型中对当前图像帧和当前点云数据执行检测处理过程，其中，在当前图像帧为关键图像帧的情况下，对当前图像帧和当前点云数据跳过目标检测跟踪模型的检测处理过程，并通过与当前图像帧对应的真值关键帧数据来获取当前图像帧和当前点云数据各自的检测处理结果。在当前图像帧并非关键图像帧的情况下，通过目标检测跟踪模型对当前图像帧和当前点云数据执行检测处理过程，得到检测处理结果。在根据检测处理结果获取到目标对象所关联的全部的候选图像帧的情况下，通过目标检测跟踪模型对候选图像帧及候选图像帧对应的点云数据执行跟踪处理过程，得到目标对象对应的第一真值数据。对关键图像帧不进行目标检测跟踪模型的检测处理，从而保证了片段数据中包含绝对真值的存在，使得目标检测跟踪模型可以根据绝对真值对目标跟踪结果进行优化，进一步提高了真值构建准确性的效果。

作为一种可选的方案，在目标检测跟踪模型中对当前图像帧和当前点云数据执行检测处理过程包括：

S1，在当前图像帧为关键图像帧的情况下，使用与当前图像帧对应的真值关键帧数据替换当前图像帧和当前点云数据，其中，真值关键数据中包括关键图像帧中出现的目标对象的二维对象检测框的显示信息，以及关键图像帧对应的关键点云数据中出现的目标对象的三维对象检测框的显示信息；

S2，在当前图像帧并非关键图像帧的情况下，在目标检测跟踪模型中对当前图像帧进行特征提取，得到当前图像特征，并对当前点云数据进行特征提取，得到当前点云特征；对当前图像特征和当前点云特征进行融合，得到当前特征；基于当前特征检测出目标对象的二维对象检测框和三维对象检测框。

进一步举例说明，以连续18帧的图像帧数据作为片段数据，其中第5帧、第10帧和第15帧为关键帧数据，使用目标检测跟踪模型对1至18连续图像帧数据进行遍历，当遇到第5帧、第10帧和第15帧中任一图像帧数据时，跳过目标检测跟踪模型对上述关键帧数据的目标检测识别，并使用对第5帧、第10帧和第15帧标记好目标的真值关键帧数据替换原有的关键帧数据插回片段数据中，否则，基于目标检测跟踪模型对每一个非关键图像帧进行特征提取，得到当前图像特征，基于目标检测跟踪模型对每一个非关键图像帧对应的点云数据进行特征提取，得到当前点云特征，将当前图像特征和当前点云特征进行融合，得到当前特征，基于目标检测跟踪模型在当前特征上检测目标对象的2D检测框信息和3D检测框信息。

通过本申请实施例，在当前图像帧为关键图像帧的情况下，使用与当前图像帧对应的真值关键帧数据替换当前图像帧和当前点云数据。在当前图像帧并非关键图像帧的情况下，在目标检测跟踪模型中对当前图像帧进行特征提取，得到当前图像特征，并对当前点云数据进行特征提取，得到当前点云特征，对当前图像特征和当前点云特征进行融合，得到当前特征，基于当前特征检测出目标对象的二维对象检测框和三维对象检测框。从而保证了片段数据中关键图像帧的数据作为绝对真值的存在，使得目标检测跟踪模型可以根据绝对真值对目标跟踪结果进行优化，进一步提高了真值构建准确性的效果。

作为一种可选的方案，通过目标检测跟踪模型对候选图像帧及候选图像帧对应的点云数据执行跟踪处理过程，得到目标对象的图像帧序列包括：

S1，对各个候选图像帧中检测出的目标对象的二维对象框进行跟踪串联，得到图像对象框序列；

S2，对各个候选图像帧对应的点云数据中检测出的目标对象的三维对象框进行跟踪串联，得到点云对象框序列；

S3，基于图像对象框序列和点云对象框序列，获取目标对象的图像帧序列。

可选地，在本申请实施例中，将关键图像帧中标注的目标对象的2D对象框和非关键图像帧中检测出的目标对象的2D对象框进行串联跟踪，得到目标对象的图像对象框序列。同样，将关键图像帧对应的点云数据中检测出的目标对象的3D对象框和非关键图像帧对应的点云数据中检测出的目标对象的3D对象框进行串联跟踪，得到目标对象的点云对象框序列。基于图像对象框序列和点云对象框序列，获取目标对象的图像帧序列。

进一步举例说明，关键图像帧中标记好的4个目标对象A、B、C、D各自对应的标注框信息为a、b、c、d，目标检测跟踪模型在非关键图像帧中检测出的3个目标对象A、B、C各自对应的目标框信息为，也就是说目标对象D在非关键图像帧中并未检测出来，那么只将关键图像帧中的标注框信息a和非关键图像帧中的/>进行跟踪串联、关键图像帧中的标注框信息b和非关键图像帧中的/>进行跟踪串联、关键图像帧中的标注框信息c和非关键图像帧中的/>进行跟踪串联，跟踪串联的目标对象A、B和C会作为移动对象进行后续的分段轨迹拟合和轨迹拓展。关键图像帧中的标注框信息d作为独立存在，后续针对目标对象D会作为静态对象进行关键帧附近超远距离目标扩展。同样，关键图像帧对应的点云数据和非关键帧对应的点云数据采用相同的处理。

通过本申请实施例，对各个候选图像帧中检测出的目标对象的二维对象框进行跟踪串联，得到图像对象框序列。对各个候选图像帧对应的点云数据中检测出的目标对象的三维对象框进行跟踪串联，得到点云对象框序列。基于图像对象框序列和点云对象框序列，获取目标对象的图像帧序列。实现了对同一目标对象在关键帧数据和非关键帧数据中的串联，以便后续根据串联结果采用相对应的优化方式，进而提高了构建真值数据准确性的效果。

作为一种可选的方案，基于图像对象框序列和点云对象框序列，获取目标对象的图像帧序列包括：

S1，将候选图像帧中是关键图像帧中出现的目标对象的二维对象框，以及关键图像帧对应的关键点云数据中出现的目标对象的三维对象框作为参考帧数据；

S2，利用参考帧数据对候选图像帧中并非关键图像帧的其他图像帧和对应的点云数据进行调整，得到目标图像帧序列。

可选地，在本申请实施例中，将关键图像帧中出现的目标对象的二维对象框，以及关键图像帧对应的关键点云数据出现的目标对象的三维对象框作为参考帧数据，将所有参考帧数据（即所有关键图像帧标注数据）输入初始目标检测跟踪模型进行训练优化得到目标检测跟踪模型，基于目标检测跟踪模型对并非关键图像帧的其他图像帧和对应的点云数据进行检测跟踪，从而得到目标图像帧序列。

进一步举例说明，第一次得到100个场景中已标注好的1000个关键图像帧及其对应的点云数据，那么基于1000个关键图像帧及其对应的点云数据对初始目标检测跟踪模型进行训练优化，可得到第一目标检测跟踪模型，基于第一目标检测跟踪模型对非关键图像帧及其对应的点云数据进行检测跟踪可得到非关键图像帧及其点云数据对应的检测跟踪结果。第二次得到100个场景中已标注好的2000个关键图像帧及其对应的点云数据，那么基于2000个关键图像帧及其对应的点云数据对第一目标检测跟踪模型进行训练优化，可得到第二目标检测跟踪模型，基于第二目标检测跟踪模型对非关键图像帧及其对应的点云数据进行检测跟踪可得到非关键图像帧及其点云数据对应的检测跟踪结果。第三次得到100个场景中已标注好的1000个关键图像帧及其对应的点云数据，基于1000个关键图像帧及其对应的点云数据对第二目标检测跟踪模型进行训练优化，可得到第三目标检测跟踪模型，基于第三目标检测跟踪模型对非关键图像帧及其对应的点云数据进行检测跟踪可得到非关键图像帧及其点云数据对应的检测跟踪结果。随着多次的循环迭代，所得到的目标检测跟踪模型越来越优，从而使得所得到的非关键图像帧及其点云数据对应的检测跟踪结果越来越准确。

通过本申请实施例，将候选图像帧中是关键图像帧中出现的目标对象的二维对象框，以及关键图像帧对应的关键点云数据中出现的目标对象的三维对象框作为参考帧数据。利用参考帧数据对候选图像帧中并非关键图像帧的其他图像帧和对应的点云数据进行调整，得到目标图像帧序列。依据真值关键帧数据，目标检测跟踪模型可以对非真值关键帧数据进行优化，从而使得依据目标检测跟踪模型对非关键帧的检测跟踪结果更加准确。

作为一种可选的方案，利用真值关键帧数据对第一真值数据中的对象检测框进行校正，得到第二真值数据包括：

S1，基于第一真值数据中对象检测框的显示信息，确定出目标对象的对象检测框在各个图像帧中的位置偏移向量；

S2，在位置偏移向量指示大于目标阈值的情况下，确定出目标对象为处于运动状态的移动对象，并按照与移动对象匹配的动态校正模式对对象检测框进行校正；

S3，在位置偏移向量指示小于或等于目标阈值的情况下，确定出目标对象为静态对象，并按照与静态对象匹配的静态校正模式对对象检测框进行校正。

可选地，在本申请实施例中，根据第一真值数据中对象检测框的显示信息，确定出目标对象的对象检测框在各个图像帧中的运动距离变化，根据运动距离变化进行动态目标和静态目标的分类，针对动态目标采用动态校正模式对动态目标的对象检测框进行校正，针对静态目标采用静态校正模式对静态目标的对象检测框进行校正。

进一步举例说明，在真值数据片段A中，共检测出10个对象，统计在真值数据片段A中上述10个对象的运动距离变化，运动距离变化指的是每个对象在真值数据片段中在x方向的总位移以及在y方向的总位移，如第一个对象的运动距离变化为（x1_总，y1_总），因为z方向统一都为0所以忽略不计，进而得到一个二维向量如可为[（x1_总，y1_总），（x2_总，y2_总），（x3_总，y3_总）……，（x10_总，y10_总）]，通过分类网络对上述二维向量进行二分类，以将动态目标和静态目标予以区分。以支持向量机对二维向量进行二分类举例说明：使用支持向量机进行二分类，也就是需要找到一个分隔超平面，将二维向量中的多个数据点分为两类，动态目标和静态目标，如图4所示，也就是说需要找到一条虚线n使得右上角的点和左下角的点分开，使得右上角的点都满足，左下角的点都满足/>，其中，右上角的点表示动态目标的位移距离变化，左下角的点表示静态目标的位移距离变化，并且使得找到的上述一条虚线n的其中一条平行线n₁恰好与左下角的点接触，即/>，还有一条平行线n₂恰好与右上角的点接触，即/>，计算上述两条平行线n₁与n₂之间的距离，将使得距离最大的两条平行线的中间线作为所要找到的虚线n。如图5所示为动态目标的轨迹，图中横坐标表示世界坐标系下东向坐标x，纵坐标表示世界坐标系下北向坐标y，从图中可以看出，动态目标的移动轨迹连接起来是一条延伸的曲线，从A点到C点横坐标的变化量为x_1总，从A点到B点纵坐标的变化量为y_1总，从图中可以看出动态目标的x_1总和y_1总的运动距离变化量比较大。如图6所示为静态目标的轨迹，图中横坐标表示世界坐标系下东向坐标x，纵坐标表示世界坐标系下北向坐标y，从图中可以看出，静态目标的移动轨迹是在某一位置附近变化的离散点，从A点到B点的横坐标变化为x_2总，从C点到D点的纵坐标变化是y_2总，从图中可以看出x_2总和y_2总的运动距离变化量比较小。

针对动态目标可进行分段轨迹拟合和航向角优化，同时对动态目标的对象检测框进行尺寸优化。针对静态目标，可进行点云补齐，以及对象检测框的位置优化和尺寸优化。

通过本申请实施例，基于第一真值数据中对象检测框的显示信息，确定出目标对象的对象检测框在各个图像帧中的位置偏移向量。在位置偏移向量指示大于目标阈值的情况下，确定出目标对象为处于运动状态的移动对象，并按照与移动对象匹配的动态校正模式对对象检测框进行校正。在位置偏移向量指示小于或等于目标阈值的情况下，确定出目标对象为静态对象，并按照与静态对象匹配的静态校正模式对对象检测框进行校正。将目标对象进行动静态目标的分类，以针对动态目标和静态目标分别采用不同的优化方式，实现了提高真值数据构建结果准确性的效果。

作为一种可选的方案，按照与移动对象匹配的动态校正模式对对象检测框进行校正包括：

S1，对第一真值数据按照关键图像帧进行划分，得到多个真值数据片段；

S2，基于每个真值数据片段内图像帧中识别出的移动对象的对象检测框，确定出移动对象在各个图像帧中出现的移动位置；

S3，利用在真值数据片段内确定出的移动位置进行段内轨迹拟合，以生成与真值数据片段相匹配的对象移动轨迹；

S4，利用对象移动轨迹对移动对象的对象检测框进行校正。

可选地，在本申请实施例中，对第一真值数据按照关键图像帧进行划分，得到多个真值数据片段，基于每个真值数据片段内图像帧中识别出的移动对象的对象检测框，确定出移动对象在各个图像帧中出现的移动位置，利用在真值数据片段内确定出的移动位置进行段内曲线拟合，以生成与真值数据片段相匹配的对象移动轨迹。基于对象移动轨迹对移动对象的航向角进行优化。同时根据对象移动轨迹是否经过关键帧对移动对象的对象检测框进行校正。

如图7所示为车辆类目标移动对象A分别在多个真值数据片段数据下所拟合出的曲线，图中横坐标表示在世界坐标系下的东向坐标x，纵坐标表示在世界坐标系下的北向坐标y，从图中可以看出，一共有4个关键图像帧，共划分出5个真值数据片段，在每一个真值数据片段分别各自进行多项式曲线拟合，可以得到目标移动对象A在整个真值数据片段中的最终曲线。

进一步举例说明，存在200个图像帧，每个图像帧都有相对应的点云数据，其关键图像帧共有6帧，那么相邻两个关键图像帧构成一个真值数据片段，其中，每一个真值数据片段不仅包括图像帧还包括图像帧对应的点云数据，那么共计可以得到7个真值数据片段，在第2个真值数据片段中识别出目标移动对象A处于运动状态，根据目标移动对象A在第2个真值数据片段中目标检测框（即对象检测框）出现的移动位置，对第2个真值数据片段内目标移动对象的移动位置进行多项式曲线拟合，从而得到目标移动对象A在第2个真值数据片段中的移动轨迹。若目标移动对象A在第2个真值数据片段中的移动轨迹的曲线拟合方程为，其中/>为已知量，若想要求取点的切线斜率k，则斜率k的计算公式为/>，根据斜率反正切值得到点/>的航向角，如当斜率为1时，正切值就为/>，航向角就是180度，也就是说根据上述计算公式可对目标移动对象A的航向角进行优化。

如图8所示，左图是目标移动对象优化前的航向角，右图是目标移动对象优化后航向角，从图中可以看出，目标检测框的中心位置代表目标移动对象的位置，优化前目标移动对象直行时其航向角并没有在一条直线上，拐弯时航向角并不平滑稳定，而优化后目标移动对象的航向角更加稳定，准确性更高。

若上述目标移动对象A在第2个真值数据片段中的移动轨迹经过关键图像帧，由于在3D空间中，目标检测框的尺寸不会随着目标移动对象A的移动而变化，关键图像帧所对应的点云数据中标注的目标检测框尺寸是准确的，所以将目标移动对象A在整个真值片段数据中所检测出的检测框尺寸都统一修正为关键图像帧所对应的点云数据中标注的目标检测框尺寸。假设目标移动对象A只出现在第2个真值数据片段中间的连续几帧，并未经过关键图像帧，则意味着目标移动对象A仅存在于两个关键帧之间的片段，那么通过一个深度学习模型如中心点网络（即CenterPoint网络），对目标移动对象的长宽高进行回归，输出目标移动对象A较为精确的目标尺寸大小，将目标移动对象A在整个目标序列中所有检测框统一修正为上述目标尺寸大小。具体实现方式如下：假如目标移动对象A存在于两个关键帧之间的中间片段的连续7帧上，将上述7帧的点云取出，分别输入CenterPoint网络中，如图9所示，之后通过3D骨干网络从点云中提取鸟瞰图下的特征图M，然后经过两个阶段回归3D目标检测框，第一个阶段基于2D卷积神经网络实现的检测头去找目标的中心并用中心特征回归出3D边界框的属性，第二阶段需要从第一个阶段预测出的边界框每个面的3D中心去提取点特征，因为边界框的中心、顶部和顶部中心在鸟瞰图中会被投影到同一个点，因此仅考虑边界框的中心和四个向外面的中心。从骨干网络输出的特征图M中通过双线性差值来提取每个点的特征，然后将提取的特征堆叠起来送入一个多层感知器模型网络中用来对前一段预测出的边界框进行优化，同时这个阶段还会预测一个置信度分数，将置信度分数最高的3D检测框最为目标移动对象A在该帧中的目标检测框，将目标移动对象的7帧点云分别输入CenterPoint网络，共计可得到目标移动对象A对应的7个目标检测框，将7个目标检测框的尺寸求取平均数据，选择不超过平均数5%且最大的目标检测框作为精确的目标检测框尺寸大小，将目标移动对象A在7帧图像帧中显示尺寸统一修正为上述得到的精确的目标检测框尺寸大小。

通过本申请实施例，对第一真值数据按照关键图像帧进行划分，得到多个真值数据片段，基于每个真值数据片段内图像帧中识别出的移动对象的对象检测框，确定出移动对象在各个图像帧中出现的移动位置，利用在真值数据片段内确定出的移动位置进行段内轨迹拟合，以生成与真值数据片段相匹配的对象移动轨迹，利用对象移动轨迹对移动对象的对象检测框进行校正。也就是说通过对移动对象的移动位置进行分段拟合，并基于拟合后的轨迹曲线进行航向角优化，以及对移动对象的对象检测框进行尺寸优化，可以实现提高构建移动对象真值信息准确性的效果。

作为一种可选的方案，按照与静态对象匹配的静态校正模式对对象检测框进行校正包括：

S2，从多个真值数据片段中获取包含静态对象的图像帧序列；

S3，对图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息；

S4，在目标点云信息中对静态对象的对象检测框进行校正。

可选地，在本申请实施例中，对第一真值数据按照关键图像帧进行划分，得到多个真值数据片段，从多个真值数据片段中获取包含静态对象的图像帧序列，对图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息，在目标点云信息中对静态对象的对象检测框的位置和尺寸进行校正。

进一步举例来说，存在200个图像帧，每个图像帧都有相对应的点云数据，其关键图像帧共有6帧，分别为第30帧、第60帧、第90帧、第120帧、第150帧和第180帧，那么相邻两个关键图像帧构成一个真值数据片段，其中，每一个真值数据片段不仅包括图像帧还包括图像帧对应的点云数据，那么共计可以得到7个真值数据片段，分别为第1-30帧、第30-60帧、第60-90帧、第90-120帧、第120-150帧、第150-180帧和第180-200帧。在第2个真值数据片段、第3个真值数据片段和第4个真值数据片段中识别出静态对象B处于静止状态，将上述识别出的静态对象B的图像帧序列对应的点云数据中的3D检测框进行1.1倍的比例放大，使得能框住该静态对象B的所有点云，将能识别出静态对象B的图像帧序列点云数据叠加，从而生成静态对象B更稠密的点云数据，基于静态对象B更稠密的点云数据可以进行一个更精确的检测。当在第2个真值数据片段的第45-60帧识别出静态对象B处于静止状态时，因为第60帧为关键图像帧，所以静态对象B的图像帧序列中包括关键图像帧，那么将静态对象B在所有图像帧序列对应的点云数据中的3D检测框的显示尺寸和显示位置均替换为第60帧上静态对象B的3D检测框的显示尺寸和显示位置。

当在第2个真值数据片段、第3个真值数据片段和第4个真值数据片段中识别出静态对象B的图像帧序列中并未包括关键图像帧时。对于静态对象B的检测框的显示尺寸的修正，采用和上述移动对象A同样的处理方法，将包含静态对象B的图像帧序列对应的点云分别输入CenterPoint网络中对静态对象B的长宽高进行回归，对CenterPoint网络输出的静态对象B的检测框求取平均数据，选择不超过平均数5%且最大的检测框作为静态对象B最终精确的检测框尺寸大小，将静态对象A在片段数据中所有图像帧序列对应的点云数据中的检测框统一修正为上述精确的检测框尺寸大小。对于静态对象B的检测框的显示位置的修正，采用的做法是将图像帧序列中识别出的静态对象B的对象检测框的显示位置映射到世界坐标系下，对静态对象B在世界坐标系的显示位置进行聚类处理，得到聚类中心位置，其中，聚类方法可采用平均值法、中位数法、加权平均法和聚类算法等，以平均值法为例，将世界坐标系下静态对象B的对象检测框的显示位置的坐标进行相加，然后除以显示位置的数量，得到的结果就是聚类中心位置。将静态对象B的对象检测框的显示位置都统一替换为上述聚类中心位置，并将该聚类中心位置反投回车身坐标系下，从而实现对静态对象B的位置优化。

通过本申请实施例，对第一真值数据按照关键图像帧进行划分，得到多个真值数据片段，从多个真值数据片段中获取包含静态对象的图像帧序列，对图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息，在目标点云信息中对静态对象的对象检测框进行校正。也就是说通过对静态对象进行点云补齐优化，以及对象检测框的位置优化和尺寸优化，可以实现提高构建静态对象真值信息准确性的效果。

S1，在第一真值数据中目标对象的对象检测框在至少一个图像帧内出现的显示位置满足位置扩展条件的情况下，在与位置扩展条件匹配的目标图像帧内对目标对象的对象检测框进行位置扩展，得到被扩展后的对象检测框；

S2，对被扩展后的对象检测框和第一真值数据内的对象检测框进行匹配；

S3，根据匹配的结果对第一真值数据进行更新，得到第二真值数据。

可选地，在本申请实施例中，在第一真值数据中目标对象为移动对象的情况下，基于移动对象的对象检测框的显示位置进行轨迹拟合，在拟合出的轨迹的首末端点进行轨迹拓展，得到被扩展后的移动对象检测框信息。在第一真值数据中目标对象为静态对象的情况下，若静态对象只存在与关键图像帧及对应的点云数据中，那么基于关键图像帧及对应的点云数据中的对象检测框进行关键帧附近静态对象扩展，得到被扩展后的静态对象检测框信息，将上述移动对象检测框信息和静态对象检测框信息和第一真值数据中内的对象检测框进行匹配，根据匹配结果对第一真值数据进行更新，得到第二真值数据。

进一步举例说明，存在200帧的点云，其关键图像帧共有6帧，那么相邻两个关键图像帧构成一个真值数据片段，共计可以得到7个真值数据片段，在第2个和第4个真值数据片段中识别出汽车S处于运动状态，在第2个真值数据片段中出现汽车S的连续7帧图像帧序列，在汽车S的连续7帧图像帧序列中，检测出汽车S检测框的中心点位置为（x₁，y₁，0），（x₂，y₂，0），（x₃，y₃，0），（x₄，y₄，0），（x₅，y₅，0），（x₆，y₆，0），（x₇，y₇，0），对上述7个中心点位置进行曲线拟合，得到汽车S的一段拟合移动轨迹。同样在第4个真值数据片段中出现汽车S的连续5帧图像帧序列，在汽车S的连续5帧图像帧序列中，检测出汽车S检测框的中心点位置为，对上述5个中心点位置进行曲线拟合，得到汽车S的另一段拟合移动轨迹。

如图10所示，以第4个真值数据片段连续5帧图像帧序列中汽车S的拟合移动轨迹为例，将拟合移动轨迹的轨迹边界端点所对应的中心点位置，点a和点b，确定为满足轨迹扩展条件的中心点位置，并将与轨迹边界端点对应的图像帧（图中第t+4帧和第t帧）相邻的外延图像帧（图中第t+5帧和第t-1帧）确定为与轨迹扩展条件匹配的第一目标图像帧。在轨迹边界端点a处进行轨迹拓展的具体方法如下：在轨迹边界端点a处汽车S的运动速度为v，因为采集车每隔0.1秒采集一帧数据，所以轨迹边界端点a所在的图像帧即t+4帧与外延帧即t+5帧相差0.1秒。假设汽车S的速度不变，那么汽车S从t+4帧中轨迹边界端点a所对应的中心点位置到t+5帧中汽车S目标检测框的中心点位置的运动位移为0.1v，基于轨迹边界端点a所对应的中心点位置和上述求得的运动位移可确定出汽车S在第t+5帧中所对应的目标检测框的中心点位置，其中，第t+5帧中汽车S的目标检测框的尺寸和第t+4帧中目标检测框的尺寸一致。统计第t+5帧中汽车S的目标检测框中检测出的点云数量与第t+4帧中汽车S的目标检测框中检测出的点云数量的比值，如果比值出现显著性变小，如点云数量相比上一帧减少50%，则认为第t+5帧中汽车S已丢失，则停止递推，或者在t+5帧中汽车S的目标检测中并没有检测出点云，也认为第t+5帧中汽车S已丢失，停止递推。如果比值变化不大，如点云数量相比上一帧只减少10%，则继续在t+5帧的基础上进行递推，具体来说，汽车S在第t+5帧中的目标检测框处的中心位置的速度为v，第t+5帧和第t+6帧相差0.1秒，假定速度不变，则第t+5帧中汽车S的目标检测框的中心点位置到第t+6帧中汽车S的目标检测框的中心点位置的运动位移为0.1v，基于第t+5帧中汽车S的目标检测框的中心点位置和上述求得的运动位移可确定出汽车S在第t+6帧中所对应的目标检测框的中心点位置，其中，第t+6帧中汽车S的目标检测框的尺寸和第t+5帧中目标检测框的尺寸一致。统计第t+6帧中汽车S的目标检测框中检测出的点云数量与第t+5帧中汽车S的目标检测框中检测出的点云数量的比值，如果比值出现显著性变小，如点云数量相比上一帧减少50%，则认为第t+6帧中汽车S已丢失，则停止递推，或者在t+6帧中汽车S的目标检测中并没有检测出点云，也认为第t+6帧中汽车S已丢失，停止递推。如果比值变化不大，如点云数量相比上一帧只减少10%，则继续在t+6帧的基础上进行递推。重复上述过程，直至满足停止递推的条件。

同样地，对于静态对象，如图11所示，第t帧为关键图像帧，并且第t帧上已经提前标注好超远距离目标S，但是在第t-1帧和第t+1帧中并没有检测出超远距离目标S，那么将第t帧中超远距离目标S的检测框的中心点位置a映射到第t-1帧得到点c，映射到第t+1帧得到点b，也就是说第t-1帧和第t+1帧中超远距离目标S的检测框尺寸和中心点位置和第t帧中超远距离目标S的检测框尺寸和中心点位置一致。以第t+1帧为例说明在t+1帧上确定出超远距离目标S的最终中心点位置的实现方式：以t+1帧中映射的中心点位置b为搜索原点，因为点云数据的频率为10hz，所以相邻帧的时间差为0.1秒，在城市道路中，车辆的形式速度一般不超过22m/s，则距离搜索原点的最远距离差为22*0.1=2.2m，又因为车辆在0.1秒内的转角一般不超过10度，所以可确定出搜索范围为搜索原点的前后距离2.2米，转角差左右10度。在上述确定出的搜索范围内，以搜索间距为0.1米，搜索角度差为0.1度进行潜在对象检测框的搜索。将t+1帧中确定出的搜索范围内的每一个搜索点确定出的检测框的点云特性与第t帧中超远目标S的检测框的点云特性进行相似度比较，其中，第t+1帧中搜索点确定出的检测框与第t帧中超远目标S的检测框的尺寸一致。将相似度最大且超过0.75的检测框M确定其潜在对象检测框。点云特性包括点云统计值和点云所在检测框的中心点位置，点云统计值就是检测框中点云与检测框中心点位置的方差。第t+1帧中搜索点确定出的检测框与第t帧中超远目标S的检测框的相似度就是计算两个检测框的点云方差距离和中心点位置距离的加权求和。如果确定出的潜在对象检测框的中心点位置在上述搜索范围的搜索边界上，如图11中的d点，则将d点确定为搜索原点，再向前0.1米，左右10度的边界上继续寻找是否存在比检测框M相似度更高的检测框，如果存在检测框N，其与第t帧中超远目标S的检测框的相似度大于潜在对象检测框与第t帧中超远目标S的检测框的相似度，则将检测框N更新为潜在对象检测框，并继续以检测框N的中心点作为搜索原点，再向前0.1米，左右10度的边界上继续寻找是否存在比检测框N相似度更高的检测框。直到没有检测出比潜在对象检测框与第t帧中超远目标S的相似度高的检测框。

通过本申请实施例，在第一真值数据中目标对象的对象检测框在至少一个图像帧内出现的显示位置满足位置扩展条件的情况下，在与位置扩展条件匹配的目标图像帧内对目标对象的对象检测框进行位置扩展，得到被扩展后的对象检测框。对被扩展后的对象检测框和第一真值数据内的对象检测框进行匹配，根据匹配的结果对第一真值数据进行更新，得到第二真值数据。也就是说通过对移动对象和静态对象的对象检测框的扩展，从而可以将真值模型无法检测到的目标对象的对象检测框进行额外的补充，进一步提高了真值数据构建的准确性的效果。

作为一种可选的方案，对被扩展后的对象检测框和第一真值数据内的对象检测框进行匹配包括：

S1，将被扩展后的对象检测框投影到图像帧内，得到对象检测框投影；

S2，在对象检测框投影与图像帧内的对象检测结果并未匹配的情况下，确定被扩展后的对象检测框为待标记对象检测框，其中，待标记检测框用于指示出现误检的对象检测框或出现遮挡的对象检测框。

可选地，在本申请实施例中，将基于移动对象轨迹拓展的3D检测框和基于静态对象关键帧附近拓展的3D检测框投影到图像帧内，得到对象检测框投影，在对象检测框投影与图像帧内的对象检测结果并未匹配的情况下，确定被扩展后的对象检测框为待标记对象检测框，其中，待标记检测框用于指示出现误检对象的检测框或出现完全遮挡的对象检测框，乳香帧内的对象检测结果是提前输入到深度学习模型中检测得到的结果。

进一步举例说明，如图12所示为扩展的3D对象检测框，图中实心椭圆表示对象，对象周围是3D对象检测框。图13为3D对象检测框投影到图像帧内得到的对象检测框投影，图中实心圆表示对象，对象周围是对象检测框，图13中的对象已经提前经过深度学习模型进行目标检测，如果对象检测框投影和深度学习模型输出的目标检测结果未匹配上，那么将被扩展后的3D对象检测框确定为误检，或者处于完全遮挡状态，并打上相关标签交由后续的人工审核。

通过本申请实施例，将被扩展后的对象检测框投影到图像帧内，得到对象检测框投影，在对象检测框投影与图像帧内的对象检测结果并未匹配的情况下，确定被扩展后的对象检测框为待标记对象检测框，其中，待标记检测框用于指示出现误检的对象检测框或出现遮挡的对象检测框。从而可以保证扩展的对象检测框的准确性，提高了构建的真值数据的准确性。

可选地，作为一种可选的实施方式，由以下步骤对上述方法进行整体性的举例解释说明：

将采集车传感器原始采集的片段数据作为待标注的连续帧片段数据，从待标注的连续帧片段数据中等时间间隔抽取少量的单帧数据作为关键帧数据，其它的作为非关键帧数据，其中，连续帧片段数据包含连续帧图像数据和连续帧点云数据，关键帧数据包括图像关键帧数据和点云关键帧数据。对关键帧数据进行标注，得到图像关键帧数据和点云关键帧数据的目标框信息，标注后的目标框信息会进入标注池。将标注池中的关键帧数据输入初始目标检测跟踪模型中训练优化得到目标检测跟踪模型，后续若标注池中更新了关键帧数据，则将更新后的关键帧数据输入目标检测跟踪模型中进行训练优化得到更新后的目标检测更新模型，也就是，每当标注池中的关键帧数据更新，就会在原来得到的目标检测跟踪模型的基础上进行再次更新得到新的目标检测跟踪模型，随着关键帧数据在不断更新，目标检测跟踪模型也跟随着不断更新。将连续帧片段数据输入目标检测跟踪模型，目标检测跟踪模型为深度学习模型，目标检测跟踪模型会分别提取连续帧图像数据的特征和连续帧点云数据的特征，之后将连续帧图像数据特征和连续帧点云数据的特征进行特征融合，基于融合后的特征对非关键帧场景中的障碍物进行目标检测，从而得到非关键帧数据所对应的每一个目标的2D检测框信息和3D检测框信息。而标注后的关键帧数据会插入回原有的连续帧片段数据所对应的时刻，作为绝对真值存在，这些真值将不通过目标检测跟踪模型进行覆盖。

将非关键帧数据经过目标检测模型检测以及关键帧数据经过标注的连续帧片段数据中的各帧目标进行关联以进行目标跟踪，其中在进行目标关联时会在第一次设置较高的阈值，进行第一次关联匹配跟踪，随后针对剩下为匹配上的检测框，会降低阈值进行第二次匹配跟踪，从而较大程度的实现对绝大多数检测目标的跟踪。具体来说，在检测空间中，在前几帧中对于检测出的目标建立线性运动模型，目标的运动模型初始化后，再利用卡尔曼滤波预测当前帧每个物体的状态量即预测值，再利用匈牙利算法与目标检测模型对当前帧的检测状态即观测值进行关联，其中，检测空间指2D图像空间或3D点云空间，线性模型指类似与y=kx+b的一次函数，物体的运动量指物体移动速度和朝向，状态量和观测值均包含目标的尺寸长宽高即1，w，h和位置信息即x，y，z，匈牙利算法将观测值序列和预测值徐丽进行最小代价矩阵计算，返回最优匹配的结果，代价的计算采用GIOU的方法，公式如下：

其中，是两个检测结果框，I是两个检测结果框的交集，U是两个检测结果框的并集，V是多边形的体积，/>是两个检测结果框各自所对应的体积，/>是两个检测结果框交集的体积，/>是两个检测结果框并集的体积，C是U的闭凸集的交集，/>是U的闭凸集的交集的体积。

基于GIOU的值，设定一个阈值，第一次匹配需要相关性较高，GIOU的值需要大于0.85，第二次匹配，将剩下为匹配上的检测框进行低阈值匹配，GIOU阈值为0.65。通过目标检测跟踪模型，原始连续帧片段数据的每一个点云和图像采集的时刻，都会生成相关的粗优化真值信息，包含每一个目标的身份标识（Identity，简称ID），以及目标在该片段每一个时刻的目标框信息，这里的粗优化真值包含连续帧片段数据中所有目标框的位置x，y，z，表示在三个轴上的坐标，目标框的尺寸长宽高即1，w，h，以及目标框与上下帧关联的信息即ID，在3D点云空间中还有关于框的朝向的描述。

在对连续帧片段数据中的目标进行跟踪时，非关键帧直接使用目标检测跟踪模型的检测结果，作为粗优化的标注结果，关键帧则通过匹配映射方式，将可以匹配上的目标进行绝对真值替换，未匹配上的目标，如果是模型漏检，则予以补充，并提供全新目标ID，模型误检目标将予以删除，从而得到最终的连续帧片段的粗优化真值。

获取大片段数据，其中，大片段数据包括点云帧和粗优化真值（即已构建的第一真值数据），基于导航卫星系统（Global Navigation Satellite System，简称GNSS）和惯性导航系统（Inertial Navigation System，简称IMU）信息对大片段数据进行坐标系转换，均统一转换到世界坐标系下，具体实现方式如下：以公司（空间中某点）为坐标原点，在客观世界的东为x，北为y，上为z的东北天坐标系下，采集车里的全球定位系统（Global PositioningSystem，简称GPS）单元和IMU单元记录了采集车相对坐标原点的xyz坐标和朝向角。采集车上的激光雷达所获取的点云数据，一般是以采集车后轴中心或激光雷达的安装位置为坐标原点，即其xyz和目标的检测框的朝向都是相对于上述坐标原点的。结合点云对采集车的坐标和朝向，以及采集车对东北坐标系的坐标和朝向，通过以下数学计算可得到点云对东北坐标系即世界坐标写的坐标和朝向。假设绕XYZ三轴的旋转角度分辨为，则三次旋转的旋转矩阵计算方法如下：

按照内旋的方式，Z-Y-X的旋转顺序（先绕自身轴Z，再绕自身轴Y，最后绕自身轴X），可得到旋转矩阵（内旋是右乘）：

得到上述旋转矩阵后，可或得如下的转换矩阵：

其中，t为采集车的世界坐标[x，y，z]的转置矩阵。

最终得到采集车的车身坐标系某点转换到世界坐标系的点坐标为：

其中，为车身坐标系下的某点坐标[x，y，z，1]的转置矩阵，得到的为世界坐标系下对应的坐标[x₁，y₁，z₁，1]的转置矩阵，其中这些1无含义，仅用于数学计算。

然后以关键真值帧为间隔将大片段数据划分为小片段数据，之后每个小片段数据通过分类网络，基于每个目标的运动轨迹进行动静态目标分离，具体来说统计某个目标序列在片段内的运动距离变化，计算其在x和y两个方向的总位移，得到一个二维向量，基于该二维向量使用支持向量机进行二分类，将动态目标和静态目标予以区分。针对动态目标，基于粗优化真值结果，将车和行人/二轮车分开，分别进行不同的轨迹优化方式，基于关键帧数据，每两个关键帧中间的轨迹进行分段拟合，而其中车由于运行过程中总体符合刚体运动，所以通过三次多项式拟合方式获得车辆运动的优化后轨迹，行人/二轮车由于其运动无规律性，则会通过离散点平滑的方式进行轨迹优化。在轨迹优化之后，会基于轨迹以及车辆的运动方向，将航向角统一修正为车辆运动轨迹的切线方向。最后进行尺寸优化，如果目标的运动轨迹有通过关键帧，则意味着关键帧标注的目标尺寸是准确的。由于在3D空间中，目标框的尺寸不会随着目标移动而变化，通过这种方式，可以将整个目标运动序列的所有检测框统一修正为关键帧标注的尺寸大小。如果该目标没有通过关键帧，则意味着该目标仅存在与两个关键帧之间的片段，则通过一个深度学习模型，对目标的长宽高进行回归后，输出较为精确的目标尺寸。该尺寸的检测框会用于修正整个目标序列所有检测框。针对静态目标，基于粗优化真值结果，将静态目标的原有检测框的尺寸进行1.1比例的放大，保证放大后的检测框能框住静态目标所有的点云，将该静态目标的所有时刻的点云进行叠加，生成更为稠密的目标点云信息。如果识别出静态目标的图像帧序列有经过关键真值图像帧，而关键真值点云帧上标注的对象检测框的位置和尺寸是绝对准确的，那么就将静态目标的图像帧序列所对应的点云数据中的检测框的位置和尺寸替换为关键真值点云帧上标注的该静态目标的位置和尺寸。否则，则意味着静态目标的图像帧序列为通过关键图像帧，即仅存在与两个关键图像帧之间，那么就通过一个深度学习模型如中心点网络（CenterPoint网络）对上述静态目标的长宽高一一检测并进行递归，从而输出较为精确的静态目标尺寸，将静态目标的图像帧序列所对应的点云数据中的检测框的尺寸均替换为上述得到的精确的静态目标尺寸。对于静态目标检测框的中心点位置的修正，则通过以下方式实现：将识别出静态目标的所有点云帧序列中检测框的中心点位置均投影到世界坐标系下，并对投影到世界坐标下的中心点位置进行聚类处理，从而得到聚类中心位置，将聚类中心位置作为上述识别出静态目标的所有点云帧序列中检测框的中心点位置，并将中心点位置反投回车身坐标下。

分别针对上述拟合出轨迹进行前后多帧的拓展。在这里，通过递推的方式，额外将轨迹前后进行轨迹拓展。具体推理方式为：利用原有移动轨迹曲线方程，在该轨迹的末端点外延的帧中，假定速度不变，计算其在采集车采集频率为10Hz（即0.1秒）下到外延帧的位移，从而得到新框的中心点，新框的尺寸和形状继承末端点帧中的汽车S的检测框。其中每次推理一帧的时候，需要统计检测框内的点云数量与前一帧点云数量的比值。如果比值出现显著性变小，或者框内没有点云，则认为目标已丢失，则停止递推。通过这种方式，可以将真值模型无法检测到的目标进行额外的补充。在后续的实际算法运行过程中，由于最后进行多传感器融合借助其他传感器信息进行辅助判断，因此，在此步骤，遵循的推理原则为尽可能多的递推，宁推错不少推。

由于真值模型受限于激光雷达的特性，在距离100米以上的目标由于点云较为稀疏，往往难以检测到目标。但人工标注关键帧的时候会基于图像信息，将标出该关键帧上的远距离目标。这些目标往往难以通过上述真值方式进行连续帧轨迹跟踪。所以这里会对关键帧中超过100米的标注的目标，且前后帧均无生成真值的目标，进行跟踪递推，直到点云数量相比于关键帧框住点云数量有显著性减少，或者无点云，则停止跟踪。具体来说，首先关键帧中的超远目标已被人工标注，将该帧该超远目标的点云取出，并计算其点云特性——点云统计值、位置等数据，在下一帧中，在一定范围内搜索上述超远目标，寻找点云特性与上帧点云特性距离最近的尺寸一样的框。其搜索的具体策略是根据物体运动的规律来定：首先点云数据的频率为10hz，相邻帧的时间差为0.1秒，在城市道路中，车辆的一般行驶速度不超过80kph，也即22m/s，则最远距离差为22*0.1=2.2米，车辆在0.1秒的转角一般不超过10度。因此，搜索范围如图11所示，在前后距离2.2米，转角差左右10度的范围内进行中心点搜索，搜索间距为0.1米，搜索角度差为0.1度，以每个中心点为新目标的中新店，尺寸与真值帧一致，计算该框与真值帧中框的点云特性相似度，相似度最大且超过0.75，则判断为该框存续，后帧以该帧中的新框中心点作为搜索原点，继续进行搜索。如果计算得到的相似度最大值的中心点在搜索边界，则顺着边界方向外延找到最大值，否则该框判定为消失。

上述基于轨迹拓展的框和基于关键帧中超远目标扩展的框为3D框，将上述得到的3D框的真值信息转换到每一帧的图像坐标系下，并将框投影至图像中得到2D框。通过每一帧图像的检测框和上述投影得到的2D框进性目标匹配，如果连续多帧图像未有目标框，而3D真值存在目标框，则认为该3D真值框属于误检，或者处于完全遮挡状态，则会对该部分真值打上相关标签，后续人工审核是会由人工进行判断。通过这种方式，可以将错误添加的3D真值框予以删除，从而保证构建的真值的准确性。

以下结合图14对构建的真值数据具体在场景识别中的应用进行说明：

S1402，获取车辆采集的道路图像及对应的点云信息作为片段数据。

S1404，对片段数据中的关键帧进行真值标注后输入检测跟踪模型中输出粗优化真值片段数据。具体来说，从片段数据中等时间间隔抽取一定帧数作为关键帧，并对关键帧进行真值标注，将标注真值后的关键帧插回原有片段数据中。对关键帧的真值标注可以为对关键帧上的静态障碍物和动态障碍物进行标注，其中，静态障碍物可以为路标、路牌、建筑物、树木、路边停放的车辆等，动态障碍物可以为行人、自行车、摩托车、动物和行驶的车辆等。粗优化真值片段数据可以包括静态障碍物和动态障碍物在每一帧上的位置、尺寸大小、航向角和ID等信息。

S1406，对粗优化真值片段数据中的障碍物进行优化。其中，动态障碍物进行运动轨迹优化、航向角优化和尺寸优化，静态障碍物进行点云补齐、尺寸优化和位置优化。

S1408，对优化后的粗优化真值片段数据再次进行拓展优化，从而得到精优化真值片段数据。如图15（a）所示为精优化真值片段数据。

S1410，将精优化真值片段数据输入场景识别模型进行各场景信息的识别，如图15（b）所示。识别的标签包括天气，道路类型，光照类型，道路拓扑结构等。该场景识别为基于深度学习的多任务分类模型，会对每一帧输出对应的类型结果。在这里，保留每一个任务输出结果的软标签，即每一种类型以及模型推理出来的概率值，此处以图15（c）的场景识别结果为例。

S1412，将精优化真值片段数据输入先验经验模型进行推断，此处以图15（d）的场景识别过程为例，动态场景真值中有行人、车、三轮车，静态场景真值中有交通灯、道路标识（限速牌）。

进一步地，该先验经验模型基于一些传统的经验，对一些场景内可能出现和不出现的动态/静态障碍物进行总结，并支持判断。比如该场景中出现了行人，则基本上不会是高速场景；出现红绿灯，则大概率是路口场景；如果出现车道线分离点，则可能是匝道场景。

S1414，判断得到的分类标签是否合理；具体地，基于先验经验模型，对上述软标签进行一次筛选，剔除不合理的分类结果，提升部分场景类型的分类的权重，此处示例判断结果为不可能出现高速场景，因此场景识别结果如图15（e）所示，即图15的（e）中显示的“高速：0.45”被删除（如图所示有删除线）。

作为一种可选的方式，先验模型基于GBDT方法，总体流程如下：

首先，对得到的道路对象进行数据转化，具体地，对于真实的场景标签进行独热编码，对于存在的标签组合设为正样本反之为负样本（1和0）。

接着，对先验经验模型进行训练，具体地，将行列化的数据输入GBDT中，得到优化后回归树，对于给定结果输出二分类标签结果，结果大于0.5即标签结果合理，反之为标签结果异常。

最后使用先验经验模型进行调用，具体地，精优化真值片段数据分类结果使用回归树判断精优化真值片段数据结果可用性，分数小于0.5则判定标记为问题数据，如图16所示，以场景为高速场景为例，将得到的分类标签输入先验经验模型中，得到有行人、40限速标牌的分数为0，即“行人”“40限速标牌”为问题数据，得到“有车”、“雨天”、“120限速牌”、“没有红绿灯”的分数为0.8，则说明标签符合高速场景，即数据合理。

若判断出的分类标签合理，执行S1416，针对不同的识别任务，将多帧结果进行统一计算（如图15中以“投票”代表计算过程），其中选择多帧权重之和（计算结果）最大的类别，作为该场景最后的标签，如图15（f）所示，由计算结果得到：天气类型对应的识别结果为晴天，光照类型对应的结果为白天，道路类型对应的结果为路口。

具体地，对于场景识别、天气识别等任务，抽取10秒视频片段的每一帧进行分类模型推理，对于每个任务，模型都会输出每一帧对应的该任务的标签以及其概率，然后这个概率乘以权重最为最后分数，对于每个任务的每个标签，进行求和，得到这个视频片段对应任务标签的分数，选取最高分的结果作为该视频片段该任务对应的标签。

否则，执行S1418，舍弃异常标签，如图15（e）所示，舍弃道路类型中“高速”标签。

通过上述实施方式，可以根据获取到的道路图像得到第一场景识别结果以及分类标签匹配概率，根据获取到的道路图像关联的道路对象集合，基于道路对象集合和分类标签间的先验关联关系对第一场景识别结果进行校验，通过先验关联关系能够进一步判断第一场景的场景识别结果的合理性、准确性，从而得到更准确的第二场景识别结果，将道路场景识别方法与复杂的道路行驶场景高度适配，使复杂环境中的场景识别结果更准确。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述真值数据的构建方法的真值数据的构建装置。如图17所示，该装置包括：

标记单元1702，用于为待处理的片段数据中确定出的关键帧数据标记真值信息，得到真值关键帧数据，其中，上述片段数据中包括目标时间段内所采集到的连续多帧图像帧及每帧图像帧各自对应的点云数据，上述真值信息用于指示在上述关键帧数据中出现的目标对象；

跟踪单元1704，用于通过目标检测跟踪模型对从上述片段数据中识别出的上述目标对象进行位置跟踪，得到含有上述目标对象的对象检测框的第一真值数据；

校正单元1706，用于利用上述真值关键帧数据对上述第一真值数据中的上述对象检测框进行校正，得到第二真值数据。

本方案中的实施例，可以但不限于参照上述方法实施例，本申请实施例中对此不作任何限定。

作为一种可选的方案，上述跟踪单元1704包括：

处理模块，用于将上述片段数据中的图像帧依次作为当前图像帧，并对上述当前图像帧和上述当前图像帧对应的当前点云数据执行以下操作：在上述目标检测跟踪模型中对上述当前图像帧和上述当前点云数据执行检测处理过程，其中，在上述当前图像帧为上述关键图像帧的情况下，对上述当前图像帧和上述当前点云数据跳过上述目标检测跟踪模型的检测处理过程，并通过与上述当前图像帧对应的上述真值关键帧数据来获取上述当前图像帧和上述当前点云数据各自的检测处理结果；在上述当前图像帧并非关键图像帧的情况下，通过上述目标检测跟踪模型对上述当前图像帧和上述当前点云数据执行检测处理过程，得到检测处理结果；在根据上述检测处理结果获取到上述目标对象所关联的全部的候选图像帧的情况下，通过上述目标检测跟踪模型对上述候选图像帧及上述候选图像帧对应的点云数据执行跟踪处理过程，得到上述目标对象对应的上述第一真值数据，其中，上述候选图像帧中包含上述目标对象的二维对象检测框，与上述候选图像帧对应的点云数据中包含上述目标对象的三维对象检测框。

作为一种可选的方案，上述处理模块包括：

替换子模块，用于在上述当前图像帧为上述关键图像帧的情况下，使用与上述当前图像帧对应的上述真值关键帧数据替换上述当前图像帧和上述当前点云数据，其中，上述真值关键数据中包括上述关键图像帧中出现的上述目标对象的上述二维对象检测框的显示信息，以及上述关键图像帧对应的关键点云数据中出现的上述目标对象的三维对象检测框的显示信息；

检测子模块，用于在上述当前图像帧并非关键图像帧的情况下，在上述目标检测跟踪模型中对上述当前图像帧进行特征提取，得到当前图像特征，并对上述当前点云数据进行特征提取，得到当前点云特征；对上述当前图像特征和上述当前点云特征进行融合，得到当前特征；基于上述当前特征检测出上述目标对象的上述二维对象检测框和上述三维对象检测框。

作为一种可选的方案，上述处理模块包括：

第一串联子模块，用于对各个上述候选图像帧中检测出的上述目标对象的上述二维对象框进行跟踪串联，得到图像对象框序列；

第二串联子模块，用于对各个上述候选图像帧对应的点云数据中检测出的上述目标对象的上述三维对象框进行跟踪串联，得到点云对象框序列；

第一获取子模块，用于基于上述图像对象框序列和上述点云对象框序列，获取上述目标对象的上述图像帧序列。

作为一种可选的方案，上述获取子模块用于通过以下步骤实现基于上述图像对象框序列和上述点云对象框序列，获取上述目标对象的上述图像帧序列：将上述候选图像帧中是关键图像帧中出现的上述目标对象的上述二维对象框，以及上述关键图像帧对应的关键点云数据中出现的上述目标对象的上述三维对象框作为参考帧数据；利用上述参考帧数据对上述候选图像帧中并非上述关键图像帧的其他图像帧和对应的点云数据进行调整，得到上述目标图像帧序列。

作为一种可选的方案，上述校正单元1706包括：

确定模块，用于基于上述第一真值数据中上述对象检测框的显示信息，确定出上述目标对象的对象检测框在各个图像帧中的位置偏移向量；

第一校正模块，在上述位置偏移向量指示大于目标阈值的情况下，确定出上述目标对象为处于运动状态的移动对象，并按照与上述移动对象匹配的动态校正模式对上述对象检测框进行校正；

第二校正模块，在上述位置偏移向量指示小于或等于上述目标阈值的情况下，确定出上述目标对象为静态对象，并按照与上述静态对象匹配的静态校正模式对上述对象检测框进行校正。

作为一种可选的方案，上述第一校正模块包括：

第一划分子模块，用于对上述第一真值数据按照关键图像帧进行划分，得到多个真值数据片段；

确定子模块，用于基于每个上述真值数据片段内图像帧中识别出的上述移动对象的对象检测框，确定出上述移动对象在各个上述图像帧中出现的移动位置；

拟合子模块，用于利用在上述真值数据片段内确定出的上述移动位置进行段内轨迹拟合，以生成与上述真值数据片段相匹配的对象移动轨迹；

第一校正子模块，用于利用上述对象移动轨迹对上述移动对象的对象检测框进行校正。

作为一种可选的方案，上述第二校正模块包括：

第二划分子模块，用于对上述第一真值数据按照关键图像帧进行划分，得到多个真值数据片段；

第二获取子模块，用于从上述多个真值数据片段中获取包含上述静态对象的图像帧序列；

叠加子模块，用于对上述图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息；

第二校正子模块，用于在上述目标点云信息中对上述静态对象的对象检测框进行校正。

作为一种可选的方案，上述校正单元1706包括：

扩展模块，用于在上述第一真值数据中上述目标对象的上述对象检测框在至少一个图像帧内出现的显示位置满足位置扩展条件的情况下，在与上述位置扩展条件匹配的目标图像帧内对上述目标对象的对象检测框进行位置扩展，得到被扩展后的对象检测框；

匹配模块，用于对上述被扩展后的对象检测框和上述第一真值数据内的对象检测框进行匹配；

更新模块，用于根据匹配的结果对上述第一真值数据进行更新，得到上述第二真值数据。

作为一种可选的方案，上述匹配模块包括：

投影子模块，用于将上述被扩展后的对象检测框投影到上述图像帧内，得到对象检测框投影；

确定子模块，用于在上述对象检测框投影与上述图像帧内的对象检测结果并未匹配的情况下，确定上述被扩展后的对象检测框为待标记对象检测框，其中，上述待标记检测框用于指示出现误检的对象检测框或出现遮挡的对象检测框。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例上述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上上述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种真值数据的构建方法，其特征在于，包括：

为待处理的片段数据中确定出的关键帧数据标记真值信息，得到真值关键帧数据，其中，所述片段数据中包括目标时间段内所采集到的连续多帧图像帧及每帧图像帧各自对应的点云数据，所述真值信息用于指示在所述关键帧数据中出现的目标对象；

将所述片段数据中的图像帧依次作为当前图像帧，并对所述当前图像帧和所述当前图像帧对应的当前点云数据执行以下操作：在目标检测跟踪模型中对所述当前图像帧和所述当前点云数据执行检测处理过程，其中，在所述当前图像帧为关键图像帧的情况下，对所述当前图像帧和所述当前点云数据跳过所述目标检测跟踪模型的检测处理过程，并通过与所述当前图像帧对应的所述真值关键帧数据来获取所述当前图像帧和所述当前点云数据各自的检测处理结果，所述真值关键数据中包括所述关键图像帧中出现的所述目标对象的二维对象检测框的显示信息，以及所述关键图像帧对应的关键点云数据中出现的所述目标对象的三维对象检测框的显示信息；在所述当前图像帧并非关键图像帧的情况下，通过所述目标检测跟踪模型对所述当前图像帧和所述当前点云数据执行检测处理过程，得到检测处理结果；

在根据所述检测处理结果获取到所述目标对象所关联的全部的候选图像帧的情况下，通过所述目标检测跟踪模型对所述候选图像帧及所述候选图像帧对应的点云数据执行跟踪处理过程，得到所述目标对象对应的第一真值数据，其中，所述候选图像帧中包含所述目标对象的所述二维对象检测框，与所述候选图像帧对应的点云数据中包含所述目标对象的所述三维对象检测框；

基于所述第一真值数据中所述对象检测框的显示信息，确定出所述目标对象的对象检测框在各个图像帧中的位置偏移向量；

在所述位置偏移向量指示大于目标阈值的情况下，确定出所述目标对象为处于运动状态的移动对象，并按照与所述移动对象匹配的动态校正模式对所述对象检测框进行校正；

在所述位置偏移向量指示小于或等于所述目标阈值的情况下，确定出所述目标对象为静态对象，并按照与所述静态对象匹配的静态校正模式对所述对象检测框进行校正；

在所述第一真值数据中所述目标对象的所述对象检测框在至少一个图像帧内出现的显示位置满足位置扩展条件的情况下，在与所述位置扩展条件匹配的目标图像帧内对所述目标对象的对象检测框进行位置扩展，得到被扩展后的对象检测框；

对所述被扩展后的对象检测框和所述第一真值数据内的对象检测框进行匹配；

根据匹配的结果对所述第一真值数据进行更新，得到第二真值数据。

2.根据权利要求1所述的方法，其特征在于，所述在目标检测跟踪模型中对所述当前图像帧和所述当前点云数据执行检测处理过程包括：

在所述当前图像帧为所述关键图像帧的情况下，使用与所述当前图像帧对应的所述真值关键帧数据替换所述当前图像帧和所述当前点云数据；

在所述当前图像帧并非关键图像帧的情况下，在所述目标检测跟踪模型中对所述当前图像帧进行特征提取，得到当前图像特征，并对所述当前点云数据进行特征提取，得到当前点云特征；对所述当前图像特征和所述当前点云特征进行融合，得到当前特征；基于所述当前特征检测出所述目标对象的所述二维对象检测框和所述三维对象检测框。

3.根据权利要求1所述的方法，其特征在于，所述通过所述目标检测跟踪模型对所述候选图像帧及所述候选图像帧对应的点云数据执行跟踪处理过程，得到所述目标对象对应的第一真值数据包括：

对各个所述候选图像帧中检测出的所述目标对象的所述二维对象框进行跟踪串联，得到图像对象框序列；

对各个所述候选图像帧对应的点云数据中检测出的所述目标对象的所述三维对象框进行跟踪串联，得到点云对象框序列；

基于所述图像对象框序列和所述点云对象框序列，获取所述目标对象的所述图像帧序列。

4.根据权利要求3所述的方法，其特征在于，所述基于所述图像对象框序列和所述点云对象框序列，获取所述目标对象的所述图像帧序列包括：

将所述候选图像帧中是关键图像帧中出现的所述目标对象的所述二维对象框，以及所述关键图像帧对应的关键点云数据中出现的所述目标对象的所述三维对象框作为参考帧数据；

利用所述参考帧数据对所述候选图像帧中并非所述关键图像帧的其他图像帧和对应的点云数据进行调整，得到所述目标图像帧序列。

5.根据权利要求1所述的方法，其特征在于，所述按照与所述移动对象匹配的动态校正模式对所述对象检测框进行校正包括：

对所述第一真值数据按照关键图像帧进行划分，得到多个真值数据片段；

基于每个所述真值数据片段内图像帧中识别出的所述移动对象的对象检测框，确定出所述移动对象在各个所述图像帧中出现的移动位置；

利用在所述真值数据片段内确定出的所述移动位置进行段内轨迹拟合，以生成与所述真值数据片段相匹配的对象移动轨迹；

利用所述对象移动轨迹对所述移动对象的对象检测框进行校正。

6.根据权利要求1所述的方法，其特征在于，所述按照与所述静态对象匹配的静态校正模式对所述对象检测框进行校正包括：

从所述多个真值数据片段中获取包含所述静态对象的图像帧序列；

对所述图像帧序列中各个图像帧各自对应的点云数据进行叠加，生成目标点云信息；

在所述目标点云信息中对所述静态对象的对象检测框进行校正。

7.根据权利要求1所述的方法，其特征在于，所述对所述被扩展后的对象检测框和所述第一真值数据内的对象检测框进行匹配包括：

将所述被扩展后的对象检测框投影到所述图像帧内，得到对象检测框投影；

在所述对象检测框投影与所述图像帧内的对象检测结果并未匹配的情况下，确定所述被扩展后的对象检测框为待标记对象检测框，其中，所述待标记检测框用于指示出现误检的对象检测框或出现遮挡的对象检测框。

8.一种真值数据的构建装置，其特征在于，包括：

标记单元，用于为待处理的片段数据中确定出的关键帧数据标记真值信息，得到真值关键帧数据，其中，所述片段数据中包括目标时间段内所采集到的连续多帧图像帧及每帧图像帧各自对应的点云数据，所述真值信息用于指示在所述关键帧数据中出现的目标对象；

跟踪单元，所述跟踪单元包括：处理模块，用于将所述片段数据中的图像帧依次作为当前图像帧，并对所述当前图像帧和所述当前图像帧对应的当前点云数据执行以下操作：在目标检测跟踪模型中对所述当前图像帧和所述当前点云数据执行检测处理过程，其中，在所述当前图像帧为关键图像帧的情况下，对所述当前图像帧和所述当前点云数据跳过所述目标检测跟踪模型的检测处理过程，并通过与所述当前图像帧对应的所述真值关键帧数据来获取所述当前图像帧和所述当前点云数据各自的检测处理结果，所述真值关键数据中包括所述关键图像帧中出现的所述目标对象的二维对象检测框的显示信息，以及所述关键图像帧对应的关键点云数据中出现的所述目标对象的三维对象检测框的显示信息；在所述当前图像帧并非关键图像帧的情况下，通过所述目标检测跟踪模型对所述当前图像帧和所述当前点云数据执行检测处理过程，得到检测处理结果；在根据所述检测处理结果获取到所述目标对象所关联的全部的候选图像帧的情况下，通过所述目标检测跟踪模型对所述候选图像帧及所述候选图像帧对应的点云数据执行跟踪处理过程，得到所述目标对象对应的第一真值数据，其中，所述候选图像帧中包含所述目标对象的所述二维对象检测框，与所述候选图像帧对应的点云数据中包含所述目标对象的所述三维对象检测框；

校正单元，所述校正单元包括：确定模块，用于基于所述第一真值数据中所述对象检测框的显示信息，确定出所述目标对象的对象检测框在各个图像帧中的位置偏移向量；第一校正模块，用于在所述位置偏移向量指示大于目标阈值的情况下，确定出所述目标对象为处于运动状态的移动对象，并按照与所述移动对象匹配的动态校正模式对所述对象检测框进行校正；第二校正模块，用于在所述位置偏移向量指示小于或等于所述目标阈值的情况下，确定出所述目标对象为静态对象，并按照与所述静态对象匹配的静态校正模式对所述对象检测框进行校正；扩展模块，用于在所述第一真值数据中所述目标对象的所述对象检测框在至少一个图像帧内出现的显示位置满足位置扩展条件的情况下，在与所述位置扩展条件匹配的目标图像帧内对所述目标对象的对象检测框进行位置扩展，得到被扩展后的对象检测框；匹配模块，用于对所述被扩展后的对象检测框和所述第一真值数据内的对象检测框进行匹配；更新模块，用于根据匹配的结果对所述第一真值数据进行更新，得到第二真值数据。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序被处理器运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。