CN114494332B

CN114494332B - 一种无监督的合成到真实LiDAR点云场景流估计方法

Info

Publication number: CN114494332B
Application number: CN202210070076.6A
Authority: CN
Inventors: 雷印杰; 金钊
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2023-04-25
Anticipated expiration: 2042-01-21
Also published as: CN114494332A

Abstract

本发明涉及计算机视觉领域，且公开了一种无监督的合成到真实LiDAR点云场景流估计方法，所述无监督的合成到真实LiDAR点云场景流估计方法包括以下步骤：第一步：利用GTA‑V游戏引擎，基于Scrip Hook V编译生成.asi格式动态链接库文件并拷贝到游戏路径下，启动GTA‑V。该一种无监督的合成到真实LiDAR点云场景流估计方法，本发明中训练网络模型所需的数据和标签可直接由游戏引擎生成，无需消耗人力进行手动标注，具有实用性，同时本发明中所涉及的合成数据集生成和域适应方法具有可扩展性，可根据实际情况调整生成数据的属性、规模，且域适应方法可方便的部署于多种现有的主流场景流估计网络。

Description

一种无监督的合成到真实LiDAR点云场景流估计方法

技术领域

本发明涉及计算机视觉技术领域，具体为一种无监督的合成到真实LiDAR点云场景流估计方法。

背景技术

场景流的定义为连续两帧输入(如RGB-D图像，三维点云)间的三维运动场(motionfield)，表示逐点在三维空间的运动矢量。通常场景流被用于描述三维物体在一定时间间隔内的运动状态，且可被用于估计物体未来的运动趋势，对于机器人导航、自动驾驶等领域具有重要实际意义。早期工作通常从RGB-D图像中估计场景流，而随着三维传感技术的普及和深度学习领域的发展，利用深度学习方法从连续采集的点云帧中估计逐点场景流逐渐成为主流。由于点云能够更加准确地描述三维场景，点云场景流估计任务已受到众多研究者的关注。

对于点云场景流估计任务，一个关键难点在于标注数据的获取。由于主流场景流估计网络模型的性能依赖于大量标注数据，即需要对连续采集的点云进行逐点三维运动矢量的标注，其标注代价十分高昂。一种实用且被广泛采用的方法是利用合成点云数据，实现自动生成点云场景流标签。在合成点云数据集上训练模型，进而利用训练好的模型泛化推广到真实数据集，这种方法被称为合成到真实点云场景流估计。虽然这种利用合成数据集降低人工标注需求的方法，在真实数据集上具有一定的泛化能力。但随着真实点云数据集逐渐走向大规模化，现有方法逐渐不能满足这些大规模点云数据集上场景流估计的需求。其原因在于：首先，目前已有的用于点云场景流估计的合成数据集十分有限，且其中合成点云的形态与真实采集点云存在较大差异，这种点云形态差异限制了模型在真实数据上的泛化能力。其次，由于合成数据与真实数据之间不可避免存在域间隙，如合成点云不存在真实噪声，且结构细节远不及真实点云丰富。由于这种域间隙，直接将合成数据集上训练好的模型用于真实数据集测试，往往会出现明显的模型性能退化。然而目前对于点云场景流估计任务，如何克服这种合成到真实域间隙以提升模型鲁棒性，仍是一个未被有效解决的问题。为解决上述问题，本发明提出一种无监督的合成到真实点云场景流估计方法，具体包含点云场景流合成数据集生成与无监督域适应场景流估计方法两部分。该方法首先利用GTA-V游戏引擎自动生成大规模点云数据与场景流标签，进而在模型训练阶段，采用教师-学生的学习范式，结合物体形状畸变感知与帧间对应关系优化方法，有效提高模型在真实数据集上的泛化性能。

发明内容

针对现有技术的不足，本发明提供了一种无监督的合成到真实LiDAR点云场景流估计方法，解决了传统训练网络模型所需的数据和标签均需人力手动标注，传统合成数据集生成和域适应方法不具备扩展性，传统合成数据质量较差和域适应方法泛化性能较弱的问题。

为实现上述目的，本发明提供如下技术方案：一种无监督的合成到真实LiDAR点云场景流估计方法，所述无监督的合成到真实LiDAR点云场景流估计方法包括以下步骤：

第一步：利用GTA-V游戏引擎，基于Scrip Hook V编译生成.asi格式动态链接库文件并拷贝到游戏路径下，启动GTA-V。

第二步：游戏启动后，通过Socket发送采集数据指令，开始构建自动驾驶场景，并连续采集以玩家所驾驶车辆一定范围内的点云，保存为.bin文件，同时记录下逐点的游戏实体属性以及当前所驾驶车辆位姿信息，保存为.txt文件。

第三步：利用逐点游戏实体属性与车辆位姿信息，计算所采集的连续点云间场景流，将每连续两帧点云和对应场景流一起保存为.npz文件，用于后续网络模型训练。

第四步：将第三步得到的合成点云和场景流数据作为训练集，进行场景流估计模型的训练，得到预训练模型。

第五步：将第四步得到的预训练模型加载到学生模型和教师模型进行初始化，其中学生模型通过训练过程损失函数更新，教师模型为学生模型参数的指数移动平均。

第六步：将第三步得到的合成数据输入学生模型，计算L1损失。

第七步：将真实数据和变换后的真实数据分别输入教师模型和学生模型，得到教师预测结果和学生预测结果。

第八步：对第七步得到的教师预测结果进行物体形变约束，得到形变约束后教师预测结果。

第九步：对第八步得到的形变约束后教师预测结果进行帧间对应关系优化，得到优化后教师预测结果。

第十步：对第七步得到的学生预测结果和第九步得到的优化后教师预测结果计算一致性损失。

第十一步：更新学生模型和教师模型参数，训练一定轮数后分别保存学生和教师模型，即可用于真实点云数据集上的场景流估计。

优选的，所述第二步中采用模拟64线LiDAR扫描的方式获取点云数据，所保存的文件包含逐点的xyz坐标。

优选的，所述第三步中计算连续两帧点云间的场景流时，对于第一帧中的某一坐标为p_i的点，首先读取它所在的游戏实体属性，进而在第二帧中查找是否存在具有相同ID的游戏实体。若存在，则记该实体在两帧点云中的位置分别为

和

通过姿态角度求得的旋转矩阵分别为

和

则该点的场景流向量f_i可通过下式求得：

对于在第二帧中不存在相同ID游戏实体的点，则利用两帧对应时刻所驾驶车辆位姿信息计算自我运动(ego-motion)，所求得运动矢量作为场景流向量。

优选的，所述第四步中所使用的场景流估计模型为HPLFlowNet，预训练轮数为40轮。

优选的，所述第五步中教师模型和学生模型具有和第四步中场景流估计模型完全相同的网络结构，二者的网络参数不同，利用EMA对教师模型参数Φ_teach进行更新的过程为

其中参数α设为0.999，用于控制更新速率；Φ_stu为学生模型参数，

为更新后的教师模型参数。

优选的，所述第七步中通过设置高度阈值的方式去除真实点云中的地面点，阈值设为0.3m，输入学生模型的真实数据所采用的变换方式为非对称变换，即对作为输入的连续两帧点云，保持第二帧点云不变，仅对第一帧点云进行随机全局旋转和偏移，旋转角度为[0°,2°]，偏移量为[0m,0.3m]，模型的输出为估计的场景流，将教师和学生模型的输出分别加上对应第一帧输入点云，得到教师预测结果和学生预测结果。

优选的，所述第八步首先对教师预测结果进行DBSCAN聚类，由于地面点已被提前去除，聚类后可有效分离点云中的前景物体，由于真实点云场景中大部分物体可视为刚性物体，即聚类后每一物体的运动应符合刚体变换规则，可通过旋转矩阵和偏移向量进行表示，本方法采用Kabsch算法估计聚类后每一簇从第一帧到教师预测结果的刚体运动，并利用刚体运动代替教师模型预测的逐点运动矢量，得到形变约束后的教师预测结果，从而约束教师预测结果不破坏刚体形状。

优选的，所述第九步进一步对形变约束后的教师预测结果进行优化，本方法利用拉普拉斯坐标计算教师预测结果点云中各点所在位置物体表面变化率，并进而根据第二帧点云进行物体表面对应关系建模，首先，对于第八步得到的形变约束后教师预测结果，计算各点拉普拉斯坐标：

其中

表示教师预测结果P_warp中某一点坐标，

利用最近邻算法计算

的K个近邻点，进而通过查询第二帧中的近邻点，将上式推广到帧间对应关系的计算：

其中

为教师模型的第二帧输入点云，

计算

中距离

最近的K个点，利用帧内与帧间拉普拉斯坐标，对第八步得到的每一簇点云进行优化：

其中

为优化后的第l簇点云。

优选的，所述第十步中的一致性损失计算优化后教师预测结果和学生预测结果间的L1距离。

优选的，所述第十一步模型更新所用的整体损失函数为：Λ_total＝Λ_source+Λ_consist，其中Λ_source表示第六步中学生模型在源域上的损失函数，Λ_consist为第十步计算所得一致性损失函数。

有益效果如下：

1、无需人工标注，降低劳动力成本。本发明中训练网络模型所需的数据和标签可直接由游戏引擎生成，无需消耗人力进行手动标注，具有实用性。

2、可扩展性强，本发明中所涉及的合成数据集生成和域适应方法具有可扩展性，可根据实际情况调整生成数据的属性、规模，且域适应方法可方便的部署于多种现有的主流场景流估计网络。

3、合成数据质量高，通过本发明方法所得到的合成数据更接近真实场景，直接迁移性能在Waymo数据集上达到0.1146的EPE3D，相比此前的合成数据集，这一数值误差减少了0.1359。

4、域适应方法泛化性能好，相比现有方法，本发明在多个真实数据集上取得了更好的泛化性能。在Waymo、Lyft和KITTI三个数据集上的EPE3D分别为0.0683、0.1277和0.0464，相较现有方法均提升60％左右，且在多个主干网络上(包括HPLFlowNet、FLOT和PV-RAFT)表现出了一致的效果，具有较强的鲁棒性。

附图说明

图1为本发明整体流程图；

图2为本发明第二步流程图；

图3为本发明第七步流程图；

图4为本发明第八步与第九步流程图；

图5为本发明生成的部分合成点云数据效果展示图；

图6为本发明的无监督域适应场景流估计框架结构示意图。

具体实施方式

基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1-6，本发明提供一种技术方案：一种无监督的合成到真实LiDAR点云场景流估计方法。

一种无监督的合成到真实LiDAR点云场景流估计方法，无监督的合成到真实LiDAR点云场景流估计方法包括以下步骤：

第二步：游戏启动后，通过Socket发送采集数据指令，开始构建自动驾驶场景，并连续采集以玩家所驾驶车辆一定范围内的点云，保存为.bin文件，同时记录下逐点的游戏实体属性以及当前所驾驶车辆位姿信息，保存为.txt文件，该步骤中采用模拟64线LiDAR扫描的方式获取点云数据，所保存的文件包含逐点的xyz坐标，采集过程所记录的逐点游戏实体属性包括该点所在的游戏实体ID、类别、中心位置和姿态角度，当前所驾驶车辆位姿信息包括位置、角度和时间戳

第三步：利用逐点游戏实体属性与车辆位姿信息，计算所采集的连续点云间场景流，将每连续两帧点云和对应场景流一起保存为.npz文件，用于后续网络模型训练，该步骤中计算连续两帧点云间的场景流时，对于第一帧中的某一坐标为p_i的点，首先读取它所在的游戏实体属性，进而在第二帧中查找是否存在具有相同ID的游戏实体。若存在，则记该实体在两帧点云中的位置分别为

和

通过姿态角度求得的旋转矩阵分别为

和

则该点的场景流向量f_i可通过下式求得：

对于在第二帧中不存在相同ID游戏实体的点，则利用两帧对应时刻所驾驶车辆位姿信息计算自我运动(ego-motion)，所求得运动矢量作为场景流向量，此外，由于地面点对于场景流估计无意义，故利用游戏中地面实体ID相同且在点云中占比最高的特性，筛除每帧点云中地面点，得到去除地面后的点云用于模型训练。

第四步：将第三步得到的合成点云和场景流数据作为训练集，进行场景流估计模型的训练，得到预训练模型，该步骤中所使用的场景流估计模型为HPLFlowNet，预训练轮数为40轮。

第五步：将第四步得到的预训练模型加载到学生模型和教师模型进行初始化，其中学生模型通过训练过程损失函数更新，教师模型为学生模型参数的指数移动平均，该步骤中教师模型和学生模型具有和第四步中场景流估计模型完全相同的网络结构，二者的网络参数不同，利用EMA对教师模型参数Φ_teach进行更新的过程为

为更新后的教师模型参数。

第七步：将真实数据和变换后的真实数据分别输入教师模型和学生模型，得到教师预测结果和学生预测结果，该步骤中通过设置高度阈值的方式去除真实点云中的地面点，阈值设为0.3m，输入学生模型的真实数据所采用的变换方式为非对称变换，即对作为输入的连续两帧点云，保持第二帧点云不变，仅对第一帧点云进行随机全局旋转和偏移，旋转角度为[0°,2°]，偏移量为[0m,0.3m]，模型的输出为估计的场景流，将教师和学生模型的输出分别加上对应第一帧输入点云，得到教师预测结果和学生预测结果。

第八步：对第七步得到的教师预测结果进行物体形变约束，得到形变约束后教师预测结果，该步骤中首先对教师预测结果进行DBSCAN聚类，由于地面点已被提前去除，聚类后可有效分离点云中的前景物体，由于真实点云场景中大部分物体可视为刚性物体，即聚类后每一物体的运动应符合刚体变换规则，可通过旋转矩阵和偏移向量进行表示，本方法采用Kabsch算法估计聚类后每一簇从第一帧到教师预测结果的刚体运动，并利用刚体运动代替教师模型预测的逐点运动矢量，得到形变约束后的教师预测结果，从而约束教师预测结果不破坏刚体形状。

第九步：对第八步得到的形变约束后教师预测结果进行帧间对应关系优化，得到优化后教师预测结果，该步骤中进一步对形变约束后的教师预测结果进行优化，由于在合成到真实域迁移的过程中，合成数据不及真实物体形状复杂与运动方式多样，在合成数据集上表现优异的模型可能难以应对更具挑战性的真实数据集，导致场景流预测结果不准确，例如加上场景流后导致刚体变形、运动方向偏离和移动距离不准等，因此，在形变约束的基础上，有必要进一步对预测结果进行优化，由于场景流描述物体从第一帧到第二帧的运动，第一帧加上场景流的预测结果应当与第二帧对齐，即对于预测结果和第二帧点云，二者中相同的物体表面应当重合，考虑到这一点，本方法利用拉普拉斯坐标计算教师预测结果点云中各点所在位置物体表面变化率，并进而根据第二帧点云进行物体表面对应关系建模，从而优化教师模型预测的场景流向量，首先，对于第八步得到的形变约束后教师预测结果，计算各点拉普拉斯坐标：

其中

表示教师预测结果P_warp中某一点坐标，

利用最近邻算法计算

其中

为教师模型的第二帧输入点云，

计算

中距离

其中

为优化后的第l簇点云，所有簇优化后点云构成的集合为优化后教师预测结果。

第十步：对第七步得到的学生预测结果和第九步得到的优化后教师预测结果计算一致性损失，该步骤中的一致性损失计算优化后教师预测结果和学生预测结果间的L1距离。

第十一步：更新学生模型和教师模型参数，训练一定轮数后分别保存学生和教师模型，即可用于真实点云数据集上的场景流估计，该步骤模型更新所用的整体损失函数为：Λ_total＝Λ_source+Λ_consist，其中Λ_source表示第六步中学生模型在源域上的损失函数，Λ_consist为第十步计算所得一致性损失函数。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种无监督的合成到真实LiDAR点云场景流估计方法，其特征在于：所述无监督的合成到真实LiDAR点云场景流估计方法包括以下步骤：

第一步：利用GTA-V游戏引擎，基于ScripHookV编译生成.asi格式动态链接库文件并拷贝到游戏路径下，启动GTA-V；

第二步：游戏启动后，通过Socket发送采集数据指令，开始构建自动驾驶场景，并连续采集以玩家所驾驶车辆一定范围内的点云，保存为.bin文件，同时记录下逐点的游戏实体属性以及当前所驾驶车辆位姿信息，保存为.txt文件；

第三步：利用逐点游戏实体属性与车辆位姿信息，计算所采集的连续点云间场景流，将每连续两帧点云和对应场景流一起保存为.npz文件，用于后续网络模型训练；

第四步：将第三步得到的合成点云和场景流数据作为训练集，进行场景流估计模型的训练，得到预训练模型；

第五步：将第四步得到的预训练模型加载到学生模型和教师模型进行初始化，其中学生模型通过训练过程损失函数更新，教师模型为学生模型参数的指数移动平均；

第六步：将第三步得到的合成数据输入学生模型，计算L1损失；

第七步：将真实数据和变换后的真实数据分别输入教师模型和学生模型，得到教师预测结果和学生预测结果；

第八步：对第七步得到的教师预测结果进行物体形变约束，得到形变约束后教师预测结果；

第九步：对第八步得到的形变约束后教师预测结果进行帧间对应关系优化，得到优化后教师预测结果；

第十步：对第七步得到的学生预测结果和第九步得到的优化后教师预测结果计算一致性损失；

2.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法，其特征在于：所述第二步中采用模拟64线LiDAR扫描的方式获取点云数据，所保存的文件包含逐点的xyz坐标。

3.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法，其特征在于：计算所采集的连续点云间场景流时，对于第一帧中的某一坐标为p_i的点，首先读取它所在的游戏实体属性，进而在第二帧中查找是否存在具有相同ID的游戏实体，若存在，则记该实体在两帧点云中的位置分别为

和

通过姿态角度求得的旋转矩阵分别为

和

则该点的场景流向量f_i可通过下式求得：

对于在第二帧中不存在相同ID游戏实体的点，则利用两帧对应时刻所驾驶车辆位姿信息计算自我运动ego-motion，所求得运动矢量作为场景流向量。

4.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法，其特征在于：所述第四步中所使用的场景流估计模型为HPLFlowNet，预训练轮数为40轮。

5.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法，其特征在于：所述第五步中教师模型和学生模型具有和第四步中场景流估计模型完全相同的网络结构，二者的网络参数不同，利用EMA对教师模型参数Φ_teach进行更新的过程为

为更新后的教师模型参数。

6.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法，其特征在于：所述第七步中通过设置高度阈值的方式去除真实点云中的地面点，阈值设为0.3m，输入学生模型的真实数据所采用的变换方式为非对称变换，即对作为输入的连续两帧点云，保持第二帧点云不变，仅对第一帧点云进行随机全局旋转和偏移，旋转角度为[0°,2°]，偏移量为[0m,0.3m]，模型的输出为估计的场景流，将教师和学生模型的输出分别加上对应第一帧输入点云，得到教师预测结果和学生预测结果。

7.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法，其特征在于：所述第八步首先对教师预测结果进行DBSCAN聚类，由于地面点已被提前去除，聚类后可有效分离点云中的前景物体，由于真实点云场景中大部分物体可视为刚性物体，即聚类后每一物体的运动应符合刚体变换规则，可通过旋转矩阵和偏移向量进行表示，本方法采用Kabsch算法估计聚类后每一簇从第一帧到教师预测结果的刚体运动，并利用刚体运动代替教师模型预测的逐点运动矢量，得到形变约束后的教师预测结果，从而约束教师预测结果不破坏刚体形状。

8.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法，其特征在于：所述第九步进一步对形变约束后的教师预测结果进行优化，本方法利用拉普拉斯坐标计算教师预测结果点云中各点所在位置物体表面变化率，并进而根据第二帧点云进行物体表面对应关系建模，首先，对于第八步得到的形变约束后教师预测结果，计算各点拉普拉斯坐标：