CN114494332A - 一种无监督的合成到真实LiDAR点云场景流估计方法 - Google Patents

一种无监督的合成到真实LiDAR点云场景流估计方法 Download PDF

Info

Publication number
CN114494332A
CN114494332A CN202210070076.6A CN202210070076A CN114494332A CN 114494332 A CN114494332 A CN 114494332A CN 202210070076 A CN202210070076 A CN 202210070076A CN 114494332 A CN114494332 A CN 114494332A
Authority
CN
China
Prior art keywords
model
teacher
point cloud
point
scene flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210070076.6A
Other languages
English (en)
Other versions
CN114494332B (zh
Inventor
雷印杰
金钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210070076.6A priority Critical patent/CN114494332B/zh
Publication of CN114494332A publication Critical patent/CN114494332A/zh
Application granted granted Critical
Publication of CN114494332B publication Critical patent/CN114494332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/803Driving vehicles or craft, e.g. cars, airplanes, ships, robots or tanks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/80Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
    • A63F2300/8017Driving on land or water; Flying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉领域,且公开了一种无监督的合成到真实LiDAR点云场景流估计方法,所述无监督的合成到真实LiDAR点云场景流估计方法包括以下步骤:第一步:利用GTA‑V游戏引擎,基于Scrip Hook V编译生成.asi格式动态链接库文件并拷贝到游戏路径下,启动GTA‑V。该一种无监督的合成到真实LiDAR点云场景流估计方法,本发明中训练网络模型所需的数据和标签可直接由游戏引擎生成,无需消耗人力进行手动标注,具有实用性,同时本发明中所涉及的合成数据集生成和域适应方法具有可扩展性,可根据实际情况调整生成数据的属性、规模,且域适应方法可方便的部署于多种现有的主流场景流估计网络。

Description

一种无监督的合成到真实LiDAR点云场景流估计方法
技术领域
本发明涉及计算机视觉技术领域,具体为一种无监督的合成到真实LiDAR点云场景流估计方法。
背景技术
场景流的定义为连续两帧输入(如RGB-D图像,三维点云)间的三维运动场(motionfield),表示逐点在三维空间的运动矢量。通常场景流被用于描述三维物体在一定时间间隔内的运动状态,且可被用于估计物体未来的运动趋势,对于机器人导航、自动驾驶等领域具有重要实际意义。早期工作通常从RGB-D图像中估计场景流,而随着三维传感技术的普及和深度学习领域的发展,利用深度学习方法从连续采集的点云帧中估计逐点场景流逐渐成为主流。由于点云能够更加准确地描述三维场景,点云场景流估计任务已受到众多研究者的关注。
对于点云场景流估计任务,一个关键难点在于标注数据的获取。由于主流场景流估计网络模型的性能依赖于大量标注数据,即需要对连续采集的点云进行逐点三维运动矢量的标注,其标注代价十分高昂。一种实用且被广泛采用的方法是利用合成点云数据,实现自动生成点云场景流标签。在合成点云数据集上训练模型,进而利用训练好的模型泛化推广到真实数据集,这种方法被称为合成到真实点云场景流估计。虽然这种利用合成数据集降低人工标注需求的方法,在真实数据集上具有一定的泛化能力。但随着真实点云数据集逐渐走向大规模化,现有方法逐渐不能满足这些大规模点云数据集上场景流估计的需求。其原因在于:首先,目前已有的用于点云场景流估计的合成数据集十分有限,且其中合成点云的形态与真实采集点云存在较大差异,这种点云形态差异限制了模型在真实数据上的泛化能力。其次,由于合成数据与真实数据之间不可避免存在域间隙,如合成点云不存在真实噪声,且结构细节远不及真实点云丰富。由于这种域间隙,直接将合成数据集上训练好的模型用于真实数据集测试,往往会出现明显的模型性能退化。然而目前对于点云场景流估计任务,如何克服这种合成到真实域间隙以提升模型鲁棒性,仍是一个未被有效解决的问题。为解决上述问题,本发明提出一种无监督的合成到真实点云场景流估计方法,具体包含点云场景流合成数据集生成与无监督域适应场景流估计方法两部分。该方法首先利用GTA-V游戏引擎自动生成大规模点云数据与场景流标签,进而在模型训练阶段,采用教师-学生的学习范式,结合物体形状畸变感知与帧间对应关系优化方法,有效提高模型在真实数据集上的泛化性能。
发明内容
针对现有技术的不足,本发明提供了一种无监督的合成到真实LiDAR点云场景流估计方法,解决了传统训练网络模型所需的数据和标签均需人力手动标注,传统合成数据集生成和域适应方法不具备扩展性,传统合成数据质量较差和域适应方法泛化性能较弱的问题。
为实现上述目的,本发明提供如下技术方案:一种无监督的合成到真实LiDAR点云场景流估计方法,所述无监督的合成到真实LiDAR点云场景流估计方法包括以下步骤:
第一步:利用GTA-V游戏引擎,基于Scrip Hook V编译生成.asi格式动态链接库文件并拷贝到游戏路径下,启动GTA-V。
第二步:游戏启动后,通过Socket发送采集数据指令,开始构建自动驾驶场景,并连续采集以玩家所驾驶车辆一定范围内的点云,保存为.bin文件,同时记录下逐点的游戏实体属性以及当前所驾驶车辆位姿信息,保存为.txt文件。
第三步:利用逐点游戏实体属性与车辆位姿信息,计算所采集的连续点云间场景流,将每连续两帧点云和对应场景流一起保存为.npz文件,用于后续网络模型训练。
第四步:将第三步得到的合成点云和场景流数据作为训练集,进行场景流估计模型的训练,得到预训练模型。
第五步:将第四步得到的预训练模型加载到学生模型和教师模型进行初始化,其中学生模型通过训练过程损失函数更新,教师模型为学生模型参数的指数移动平均。
第六步:将第三步得到的合成数据输入学生模型,计算L1损失。
第七步:将真实数据和变换后的真实数据分别输入教师模型和学生模型,得到教师预测结果和学生预测结果。
第八步:对第七步得到的教师预测结果进行物体形变约束,得到形变约束后教师预测结果。
第九步:对第八步得到的形变约束后教师预测结果进行帧间对应关系优化,得到优化后教师预测结果。
第十步:对第七步得到的学生预测结果和第九步得到的优化后教师预测结果计算一致性损失。
第十一步:更新学生模型和教师模型参数,训练一定轮数后分别保存学生和教师模型,即可用于真实点云数据集上的场景流估计。
优选的,所述第二步中采用模拟64线LiDAR扫描的方式获取点云数据,所保存的文件包含逐点的xyz坐标。
优选的,所述第三步中计算连续两帧点云间的场景流时,对于第一帧中的某一坐标为pi的点,首先读取它所在的游戏实体属性,进而在第二帧中查找是否存在具有相同ID的游戏实体。若存在,则记该实体在两帧点云中的位置分别为
Figure BDA0003481751820000031
Figure BDA0003481751820000032
通过姿态角度求得的旋转矩阵分别为
Figure BDA0003481751820000033
Figure BDA0003481751820000034
则该点的场景流向量fi可通过下式求得:
Figure BDA0003481751820000035
对于在第二帧中不存在相同ID游戏实体的点,则利用两帧对应时刻所驾驶车辆位姿信息计算自我运动(ego-motion),所求得运动矢量作为场景流向量。
优选的,所述第四步中所使用的场景流估计模型为HPLFlowNet,预训练轮数为40轮。
优选的,所述第五步中教师模型和学生模型具有和第四步中场景流估计模型完全相同的网络结构,二者的网络参数不同,利用EMA对教师模型参数Φteach进行更新的过程为
Figure BDA0003481751820000041
其中参数α设为0.999,用于控制更新速率;Φstu为学生模型参数,
Figure BDA0003481751820000042
为更新后的教师模型参数。
优选的,所述第七步中通过设置高度阈值的方式去除真实点云中的地面点,阈值设为0.3m,输入学生模型的真实数据所采用的变换方式为非对称变换,即对作为输入的连续两帧点云,保持第二帧点云不变,仅对第一帧点云进行随机全局旋转和偏移,旋转角度为[0°,2°],偏移量为[0m,0.3m],模型的输出为估计的场景流,将教师和学生模型的输出分别加上对应第一帧输入点云,得到教师预测结果和学生预测结果。
优选的,所述第八步首先对教师预测结果进行DBSCAN聚类,由于地面点已被提前去除,聚类后可有效分离点云中的前景物体,由于真实点云场景中大部分物体可视为刚性物体,即聚类后每一物体的运动应符合刚体变换规则,可通过旋转矩阵和偏移向量进行表示,本方法采用Kabsch算法估计聚类后每一簇从第一帧到教师预测结果的刚体运动,并利用刚体运动代替教师模型预测的逐点运动矢量,得到形变约束后的教师预测结果,从而约束教师预测结果不破坏刚体形状。
优选的,所述第九步进一步对形变约束后的教师预测结果进行优化,本方法利用拉普拉斯坐标计算教师预测结果点云中各点所在位置物体表面变化率,并进而根据第二帧点云进行物体表面对应关系建模,首先,对于第八步得到的形变约束后教师预测结果,计算各点拉普拉斯坐标:
Figure BDA0003481751820000051
其中
Figure BDA0003481751820000052
表示教师预测结果Pwarp中某一点坐标,
Figure BDA0003481751820000053
利用最近邻算法计算
Figure BDA0003481751820000054
的K个近邻点,进而通过查询第二帧中的近邻点,将上式推广到帧间对应关系的计算:
Figure BDA0003481751820000055
其中
Figure BDA0003481751820000056
为教师模型的第二帧输入点云,
Figure BDA0003481751820000057
计算
Figure BDA0003481751820000058
中距离
Figure BDA0003481751820000059
最近的K个点,利用帧内与帧间拉普拉斯坐标,对第八步得到的每一簇点云进行优化:
Figure BDA00034817518200000510
其中
Figure BDA00034817518200000511
为优化后的第l簇点云。
优选的,所述第十步中的一致性损失计算优化后教师预测结果和学生预测结果间的L1距离。
优选的,所述第十一步模型更新所用的整体损失函数为:Λtotal=Λsourceconsist,其中Λsource表示第六步中学生模型在源域上的损失函数,Λconsist为第十步计算所得一致性损失函数。
有益效果如下:
1、无需人工标注,降低劳动力成本。本发明中训练网络模型所需的数据和标签可直接由游戏引擎生成,无需消耗人力进行手动标注,具有实用性。
2、可扩展性强,本发明中所涉及的合成数据集生成和域适应方法具有可扩展性,可根据实际情况调整生成数据的属性、规模,且域适应方法可方便的部署于多种现有的主流场景流估计网络。
3、合成数据质量高,通过本发明方法所得到的合成数据更接近真实场景,直接迁移性能在Waymo数据集上达到0.1146的EPE3D,相比此前的合成数据集,这一数值误差减少了0.1359。
4、域适应方法泛化性能好,相比现有方法,本发明在多个真实数据集上取得了更好的泛化性能。在Waymo、Lyft和KITTI三个数据集上的EPE3D分别为0.0683、0.1277和0.0464,相较现有方法均提升60%左右,且在多个主干网络上(包括HPLFlowNet、FLOT和PV-RAFT)表现出了一致的效果,具有较强的鲁棒性。
附图说明
图1为本发明整体流程图;
图2为本发明第二步流程图;
图3为本发明第七步流程图;
图4为本发明第八步与第九步流程图;
图5为本发明生成的部分合成点云数据效果展示图;
图6为本发明的无监督域适应场景流估计框架结构示意图。
具体实施方式
基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1-6,本发明提供一种技术方案:一种无监督的合成到真实LiDAR点云场景流估计方法。
一种无监督的合成到真实LiDAR点云场景流估计方法,无监督的合成到真实LiDAR点云场景流估计方法包括以下步骤:
第一步:利用GTA-V游戏引擎,基于Scrip Hook V编译生成.asi格式动态链接库文件并拷贝到游戏路径下,启动GTA-V。
第二步:游戏启动后,通过Socket发送采集数据指令,开始构建自动驾驶场景,并连续采集以玩家所驾驶车辆一定范围内的点云,保存为.bin文件,同时记录下逐点的游戏实体属性以及当前所驾驶车辆位姿信息,保存为.txt文件,该步骤中采用模拟64线LiDAR扫描的方式获取点云数据,所保存的文件包含逐点的xyz坐标,采集过程所记录的逐点游戏实体属性包括该点所在的游戏实体ID、类别、中心位置和姿态角度,当前所驾驶车辆位姿信息包括位置、角度和时间戳
第三步:利用逐点游戏实体属性与车辆位姿信息,计算所采集的连续点云间场景流,将每连续两帧点云和对应场景流一起保存为.npz文件,用于后续网络模型训练,该步骤中计算连续两帧点云间的场景流时,对于第一帧中的某一坐标为pi的点,首先读取它所在的游戏实体属性,进而在第二帧中查找是否存在具有相同ID的游戏实体。若存在,则记该实体在两帧点云中的位置分别为
Figure BDA0003481751820000071
Figure BDA0003481751820000072
通过姿态角度求得的旋转矩阵分别为
Figure BDA0003481751820000073
Figure BDA0003481751820000074
则该点的场景流向量fi可通过下式求得:
Figure BDA0003481751820000075
对于在第二帧中不存在相同ID游戏实体的点,则利用两帧对应时刻所驾驶车辆位姿信息计算自我运动(ego-motion),所求得运动矢量作为场景流向量,此外,由于地面点对于场景流估计无意义,故利用游戏中地面实体ID相同且在点云中占比最高的特性,筛除每帧点云中地面点,得到去除地面后的点云用于模型训练。
第四步:将第三步得到的合成点云和场景流数据作为训练集,进行场景流估计模型的训练,得到预训练模型,该步骤中所使用的场景流估计模型为HPLFlowNet,预训练轮数为40轮。
第五步:将第四步得到的预训练模型加载到学生模型和教师模型进行初始化,其中学生模型通过训练过程损失函数更新,教师模型为学生模型参数的指数移动平均,该步骤中教师模型和学生模型具有和第四步中场景流估计模型完全相同的网络结构,二者的网络参数不同,利用EMA对教师模型参数Φteach进行更新的过程为
Figure BDA0003481751820000081
其中参数α设为0.999,用于控制更新速率;Φstu为学生模型参数,
Figure BDA0003481751820000082
为更新后的教师模型参数。
第六步:将第三步得到的合成数据输入学生模型,计算L1损失。
第七步:将真实数据和变换后的真实数据分别输入教师模型和学生模型,得到教师预测结果和学生预测结果,该步骤中通过设置高度阈值的方式去除真实点云中的地面点,阈值设为0.3m,输入学生模型的真实数据所采用的变换方式为非对称变换,即对作为输入的连续两帧点云,保持第二帧点云不变,仅对第一帧点云进行随机全局旋转和偏移,旋转角度为[0°,2°],偏移量为[0m,0.3m],模型的输出为估计的场景流,将教师和学生模型的输出分别加上对应第一帧输入点云,得到教师预测结果和学生预测结果。
第八步:对第七步得到的教师预测结果进行物体形变约束,得到形变约束后教师预测结果,该步骤中首先对教师预测结果进行DBSCAN聚类,由于地面点已被提前去除,聚类后可有效分离点云中的前景物体,由于真实点云场景中大部分物体可视为刚性物体,即聚类后每一物体的运动应符合刚体变换规则,可通过旋转矩阵和偏移向量进行表示,本方法采用Kabsch算法估计聚类后每一簇从第一帧到教师预测结果的刚体运动,并利用刚体运动代替教师模型预测的逐点运动矢量,得到形变约束后的教师预测结果,从而约束教师预测结果不破坏刚体形状。
第九步:对第八步得到的形变约束后教师预测结果进行帧间对应关系优化,得到优化后教师预测结果,该步骤中进一步对形变约束后的教师预测结果进行优化,由于在合成到真实域迁移的过程中,合成数据不及真实物体形状复杂与运动方式多样,在合成数据集上表现优异的模型可能难以应对更具挑战性的真实数据集,导致场景流预测结果不准确,例如加上场景流后导致刚体变形、运动方向偏离和移动距离不准等,因此,在形变约束的基础上,有必要进一步对预测结果进行优化,由于场景流描述物体从第一帧到第二帧的运动,第一帧加上场景流的预测结果应当与第二帧对齐,即对于预测结果和第二帧点云,二者中相同的物体表面应当重合,考虑到这一点,本方法利用拉普拉斯坐标计算教师预测结果点云中各点所在位置物体表面变化率,并进而根据第二帧点云进行物体表面对应关系建模,从而优化教师模型预测的场景流向量,首先,对于第八步得到的形变约束后教师预测结果,计算各点拉普拉斯坐标:
Figure BDA0003481751820000091
其中
Figure BDA0003481751820000092
表示教师预测结果Pwarp中某一点坐标,
Figure BDA0003481751820000093
利用最近邻算法计算
Figure BDA0003481751820000094
的K个近邻点,进而通过查询第二帧中的近邻点,将上式推广到帧间对应关系的计算:
Figure BDA0003481751820000095
其中
Figure BDA0003481751820000096
为教师模型的第二帧输入点云,
Figure BDA0003481751820000097
计算
Figure BDA0003481751820000098
中距离
Figure BDA0003481751820000099
最近的K个点,利用帧内与帧间拉普拉斯坐标,对第八步得到的每一簇点云进行优化:
Figure BDA00034817518200000910
其中
Figure BDA00034817518200000911
为优化后的第l簇点云,所有簇优化后点云构成的集合为优化后教师预测结果。
第十步:对第七步得到的学生预测结果和第九步得到的优化后教师预测结果计算一致性损失,该步骤中的一致性损失计算优化后教师预测结果和学生预测结果间的L1距离。
第十一步:更新学生模型和教师模型参数,训练一定轮数后分别保存学生和教师模型,即可用于真实点云数据集上的场景流估计,该步骤模型更新所用的整体损失函数为:Λtotal=Λsourceconsist,其中Λsource表示第六步中学生模型在源域上的损失函数,Λconsist为第十步计算所得一致性损失函数。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种无监督的合成到真实LiDAR点云场景流估计方法,其特征在于:所述无监督的合成到真实LiDAR点云场景流估计方法包括以下步骤:
第一步:利用GTA-V游戏引擎,基于Scrip Hook V编译生成.asi格式动态链接库文件并拷贝到游戏路径下,启动GTA-V;
第二步:游戏启动后,通过Socket发送采集数据指令,开始构建自动驾驶场景,并连续采集以玩家所驾驶车辆一定范围内的点云,保存为.bin文件,同时记录下逐点的游戏实体属性以及当前所驾驶车辆位姿信息,保存为.txt文件;
第三步:利用逐点游戏实体属性与车辆位姿信息,计算所采集的连续点云间场景流,将每连续两帧点云和对应场景流一起保存为.npz文件,用于后续网络模型训练;
第四步:将第三步得到的合成点云和场景流数据作为训练集,进行场景流估计模型的训练,得到预训练模型;
第五步:将第四步得到的预训练模型加载到学生模型和教师模型进行初始化,其中学生模型通过训练过程损失函数更新,教师模型为学生模型参数的指数移动平均;
第六步:将第三步得到的合成数据输入学生模型,计算L1损失;
第七步:将真实数据和变换后的真实数据分别输入教师模型和学生模型,得到教师预测结果和学生预测结果;
第八步:对第七步得到的教师预测结果进行物体形变约束,得到形变约束后教师预测结果;
第九步:对第八步得到的形变约束后教师预测结果进行帧间对应关系优化,得到优化后教师预测结果;
第十步:对第七步得到的学生预测结果和第九步得到的优化后教师预测结果计算一致性损失;
第十一步:更新学生模型和教师模型参数,训练一定轮数后分别保存学生和教师模型,即可用于真实点云数据集上的场景流估计。
2.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法,其特征在于:所述第二步中采用模拟64线LiDAR扫描的方式获取点云数据,所保存的文件包含逐点的xyz坐标。
3.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法,其特征在于:所述第三步中计算连续两帧点云间的场景流时,对于第一帧中的某一坐标为pi的点,首先读取它所在的游戏实体属性,进而在第二帧中查找是否存在具有相同ID的游戏实体,若存在,则记该实体在两帧点云中的位置分别为
Figure FDA0003481751810000021
Figure FDA0003481751810000022
通过姿态角度求得的旋转矩阵分别为
Figure FDA0003481751810000023
Figure FDA0003481751810000024
则该点的场景流向量fi可通过下式求得:
Figure FDA0003481751810000025
对于在第二帧中不存在相同ID游戏实体的点,则利用两帧对应时刻所驾驶车辆位姿信息计算自我运动(ego-motion),所求得运动矢量作为场景流向量。
4.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法,其特征在于:所述第四步中所使用的场景流估计模型为HPLFlowNet,预训练轮数为40轮。
5.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法,其特征在于:所述第五步中教师模型和学生模型具有和第四步中场景流估计模型完全相同的网络结构,二者的网络参数不同,利用EMA对教师模型参数Φteach进行更新的过程为
Figure FDA0003481751810000026
其中参数α设为0.999,用于控制更新速率;Φstu为学生模型参数,
Figure FDA0003481751810000027
为更新后的教师模型参数。
6.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法,其特征在于:所述第七步中通过设置高度阈值的方式去除真实点云中的地面点,阈值设为0.3m,输入学生模型的真实数据所采用的变换方式为非对称变换,即对作为输入的连续两帧点云,保持第二帧点云不变,仅对第一帧点云进行随机全局旋转和偏移,旋转角度为[0°,2°],偏移量为[0m,0.3m],模型的输出为估计的场景流,将教师和学生模型的输出分别加上对应第一帧输入点云,得到教师预测结果和学生预测结果。
7.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法,其特征在于:所述第八步首先对教师预测结果进行DBSCAN聚类,由于地面点已被提前去除,聚类后可有效分离点云中的前景物体,由于真实点云场景中大部分物体可视为刚性物体,即聚类后每一物体的运动应符合刚体变换规则,可通过旋转矩阵和偏移向量进行表示,本方法采用Kabsch算法估计聚类后每一簇从第一帧到教师预测结果的刚体运动,并利用刚体运动代替教师模型预测的逐点运动矢量,得到形变约束后的教师预测结果,从而约束教师预测结果不破坏刚体形状。
8.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法,其特征在于:所述第九步进一步对形变约束后的教师预测结果进行优化,本方法利用拉普拉斯坐标计算教师预测结果点云中各点所在位置物体表面变化率,并进而根据第二帧点云进行物体表面对应关系建模,首先,对于第八步得到的形变约束后教师预测结果,计算各点拉普拉斯坐标:
Figure FDA0003481751810000031
其中
Figure FDA0003481751810000032
表示教师预测结果Pwarp中某一点坐标,
Figure FDA0003481751810000033
利用最近邻算法计算
Figure FDA0003481751810000034
的K个近邻点,进而通过查询第二帧中的近邻点,将上式推广到帧间对应关系的计算:
Figure FDA0003481751810000041
其中
Figure FDA0003481751810000042
为教师模型的第二帧输入点云,
Figure FDA0003481751810000043
计算
Figure FDA0003481751810000044
中距离
Figure FDA0003481751810000045
最近的K个点,利用帧内与帧间拉普拉斯坐标,对第八步得到的每一簇点云进行优化:
Figure FDA0003481751810000046
其中
Figure FDA0003481751810000047
为优化后的第l簇点云。
9.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法,其特征在于:所述第十步中的一致性损失计算优化后教师预测结果和学生预测结果间的L1距离。
10.根据权利要求1所述的一种无监督的合成到真实LiDAR点云场景流估计方法,其特征在于:所述第十一步模型更新所用的整体损失函数为:Λtotal=Λsourceconsist,其中Λsource表示第六步中学生模型在源域上的损失函数,Λconsist为第十步计算所得一致性损失函数。
CN202210070076.6A 2022-01-21 2022-01-21 一种无监督的合成到真实LiDAR点云场景流估计方法 Active CN114494332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210070076.6A CN114494332B (zh) 2022-01-21 2022-01-21 一种无监督的合成到真实LiDAR点云场景流估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210070076.6A CN114494332B (zh) 2022-01-21 2022-01-21 一种无监督的合成到真实LiDAR点云场景流估计方法

Publications (2)

Publication Number Publication Date
CN114494332A true CN114494332A (zh) 2022-05-13
CN114494332B CN114494332B (zh) 2023-04-25

Family

ID=81472279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210070076.6A Active CN114494332B (zh) 2022-01-21 2022-01-21 一种无监督的合成到真实LiDAR点云场景流估计方法

Country Status (1)

Country Link
CN (1) CN114494332B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932725A (zh) * 2018-06-08 2018-12-04 哈尔滨工程大学 基于卷积神经网络的场景流估计方法
CN111105432A (zh) * 2019-12-24 2020-05-05 中国科学技术大学 基于深度学习的无监督端到端的驾驶环境感知方法
WO2020104423A1 (en) * 2018-11-20 2020-05-28 Volkswagen Aktiengesellschaft Method and apparatus for data fusion of lidar data and image data
CN111311664A (zh) * 2020-03-03 2020-06-19 上海交通大学 一种深度、位姿与场景流的联合无监督估计方法及系统
CN111476822A (zh) * 2020-04-08 2020-07-31 浙江大学 一种基于场景流的激光雷达目标检测与运动跟踪方法
CN112233149A (zh) * 2020-10-28 2021-01-15 浙江大华技术股份有限公司 场景流的确定方法及装置、存储介质、电子装置
CN112802111A (zh) * 2021-04-01 2021-05-14 中智行科技有限公司 一种物体模型构建方法及装置
CN113009506A (zh) * 2021-02-22 2021-06-22 西安交通大学 一种虚实结合的实时激光雷达数据生成方法、系统及设备
CN113160278A (zh) * 2021-04-23 2021-07-23 西安电子科技大学广州研究院 一种场景流估计、场景流估计模型的训练方法和装置
CN113284173A (zh) * 2021-04-20 2021-08-20 中国矿业大学 基于伪激光雷达的端到端的场景流、位姿联合学习方法
CN113766343A (zh) * 2020-06-01 2021-12-07 辉达公司 使用一个或更多个神经网络进行视频合成

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932725A (zh) * 2018-06-08 2018-12-04 哈尔滨工程大学 基于卷积神经网络的场景流估计方法
WO2020104423A1 (en) * 2018-11-20 2020-05-28 Volkswagen Aktiengesellschaft Method and apparatus for data fusion of lidar data and image data
CN111105432A (zh) * 2019-12-24 2020-05-05 中国科学技术大学 基于深度学习的无监督端到端的驾驶环境感知方法
CN111311664A (zh) * 2020-03-03 2020-06-19 上海交通大学 一种深度、位姿与场景流的联合无监督估计方法及系统
CN111476822A (zh) * 2020-04-08 2020-07-31 浙江大学 一种基于场景流的激光雷达目标检测与运动跟踪方法
CN113766343A (zh) * 2020-06-01 2021-12-07 辉达公司 使用一个或更多个神经网络进行视频合成
CN112233149A (zh) * 2020-10-28 2021-01-15 浙江大华技术股份有限公司 场景流的确定方法及装置、存储介质、电子装置
CN113009506A (zh) * 2021-02-22 2021-06-22 西安交通大学 一种虚实结合的实时激光雷达数据生成方法、系统及设备
CN112802111A (zh) * 2021-04-01 2021-05-14 中智行科技有限公司 一种物体模型构建方法及装置
CN113284173A (zh) * 2021-04-20 2021-08-20 中国矿业大学 基于伪激光雷达的端到端的场景流、位姿联合学习方法
CN113160278A (zh) * 2021-04-23 2021-07-23 西安电子科技大学广州研究院 一种场景流估计、场景流估计模型的训练方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
IVAN TISHCHENKO等: "Self-supervised learning of non-rigid residual flow and ego-motion" *
PHILIPP JUND等: "Scalable scene flow from point clouds in the real world" *
刘奕博: "基于车载双目相机的目标检测及其运动状态估计" *
李国林: "动态场景下基于语义分割和多视图几何的SLAM技术研究" *

Also Published As

Publication number Publication date
CN114494332B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
Li et al. DXSLAM: A robust and efficient visual SLAM system with deep features
CN110473231B (zh) 一种具有预判式学习更新策略的孪生全卷积网络的目标跟踪方法
CN108038906B (zh) 一种基于图像的三维四边形网格模型重建方法
CN110781262B (zh) 基于视觉slam的语义地图的构建方法
CN111460984A (zh) 一种基于关键点与梯度均衡损失的全局车道线检测方法
CN110070565B (zh) 一种基于图像叠加的船舶轨迹预测方法
CN111640173A (zh) 一种基于特定路径的家装漫游动画的云端渲染方法及系统
CN112861616B (zh) 一种无源领域自适应目标检测方法
CN111872934A (zh) 一种基于隐半马尔可夫模型的机械臂控制方法及系统
CN113628244A (zh) 基于无标注视频训练的目标跟踪方法、系统、终端及介质
CN110909778A (zh) 一种基于几何一致性的图像语义特征匹配方法
CN110378932B (zh) 一种基于空间正则矫正的相关滤波视觉跟踪方法
CN113034681B (zh) 空间平面关系约束的三维重建方法及装置
CN113378830B (zh) 一种基于域适应的可自主学习数据标签生成方法
CN113624239A (zh) 基于层级可开关稀疏位姿图优化的激光建图方法及装置
CN114494332B (zh) 一种无监督的合成到真实LiDAR点云场景流估计方法
CN117576303A (zh) 三维图像生成方法、装置、设备及存储介质
CN116433768A (zh) 一种基于神经辐射场的可扩展增量式视觉建图方法
CN117392268A (zh) 一种基于自适应结合cpd和icp算法的激光扫描建图方法及系统
CN114022520A (zh) 一种基于卡尔曼滤波与孪生网络的机器人目标跟踪方法
CN109785331B (zh) 基于自适应像素值约束和mrf的声呐图像分割方法
CN110751153A (zh) 一种室内场景rgb-d图像的语义标注方法
CN118447299A (zh) 一种自监督的纯视觉三维目标物体自动标注方法及装置
CN118250499B (zh) 基于无人机的联动显示控制方法及系统
CN116071473B (zh) 一种动画运动关键帧的获取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant