CN116385751A

CN116385751A - 一种自动驾驶场景用大规模自监督预训练学习方法及系统

Info

Publication number: CN116385751A
Application number: CN202310382763.6A
Authority: CN
Inventors: 柯炜; 伍彦豪; 张同
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-07-04

Abstract

本发明公开了一种自动驾驶场景用大规模自监督预训练学习方法及系统，使用激光雷达采集的原始点云数据作为输入，对点云数据进行地面线滤除、聚类以将点云分为不同的语义个体；在多帧连续的点云上，对聚类体进行无监督跟踪以将不同时间下的同一物体赋予相同的ID；对原始点云进行数据增强获得增强点云数据；搭建神经网络提取增强点云中每个点特征，使用池化等操作获得语义的特征；计算多帧中拥有相同ID的语义个体之间的特征差异、语义体特征与从属它的点特征之间的差异；使用差异作为监督信号对网络进行训练。训练完成的网络作为预训练模型被应用于下游的不同数据集的语义分割任务。大幅度提高了数据的利用效率，极大的节约了人工成本。

Description

一种自动驾驶场景用大规模自监督预训练学习方法及系统

技术领域

本发明属于计算机视觉和人工智能交叉技术领域，具体涉及一种自动驾驶场景用大规模自监督预训练学习方法及系统。

背景技术

从雷达点云中进行语义分割是非常重要的任务，它是自动驾驶汽车与环境安全交互的基础。现在最先进的方法使用深度神经网路实现语义分割任务。虽然这些方法取得了非常良好的效果，但是训练这些模型需要大量点级别的标注信息，而标注成本是非常高的。另一方面，随着自动驾驶汽车的快速普及，每天会产生大量的未标注的雷达点云数据。如何有效的对这些没有标注的点云数据进行利用，是一个非常值得关注的问题。

传统的点云自监督学习方案，要么依赖于采集设备的空间位置信息，要么没有有效利用时间维度的信息。在室外场景采集设备的空间位置信息并不准确，不足以支撑传统方案的应用，所以这些方案目前只能在室内场景使用。而缺少对时间维度的利用将导致预训练模型效果不佳，对下游任务的性能提升有限。

目前，没有方法可以有效利用室外激光雷达产生的点云数据的时空信息进行大规模预训练。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种自动驾驶场景用大规模自监督预训练学习方法及系统，用于解决点云数据标注成本高，耗时高的技术问题，能够应用于大规模的室外激光雷达点云数据，并有效利用点云数据之间的时空信息，经过本发明预训练的网络大幅度减小了对标注数据的需求，可以使用更少的标注数据获得更好的下游任务性能。这将极大的节约人工标注成本，对于降本增效有非常重大的意义。

本发明采用以下技术方案：

一种自动驾驶场景用大规模自监督预训练学习方法，包括以下步骤：

S1、读取激光雷达采集的点云序列数据，利用地面线滤除、聚类获得空间中的聚类体，使用无监督跟踪方式对激光雷达点云序列数据中的聚类体进行跟踪，获得每个聚类体的身份标签ID；

S2、对步骤S1激光雷达采集的点云序列数据进行数据增强，获得多个增强点云，搭建特征提取网络模型提取增强点云中每个点的特征，并使用池化操作获得聚类体特征；

S3、基于步骤S2得到的聚类体特征和步骤S1得到的聚类体身份标签ID计算相同ID聚类体特征之间的差异；使用差异作为监督信号对步骤S2得到的特征提取网络模型进行训练，将训练完成的特征提取网络模型作为预训练模型应用于不同下游数据集、任务。

具体的，步骤S1具体为：

S101、读取激光雷达采集的点云数据；

S102、使用RANSAC算法拟合场景中最大的平面，将最打平面视为地面并滤除，获得滤除地面线后的点云数据；

S103、利用S102得到的点云数据，对非地面点进行聚类，获得多个聚类体；

S104、计算步骤S103得到的每个聚类体中所有点坐标的平均值，作为聚类体的坐标；

S105、计算步骤S104中相邻帧中聚类体之间的坐标距离，对聚类体们进行匹配，对匹配上的聚类体赋予相同的下标以获得每个聚类体的身份标签ID。

进一步的，步骤S105中，对没有匹配上又是第一次出现的物体赋予新的下标，被赋予相同下标的物体被视为不同时刻的同一物体，不再出现的物体视作消失。

具体的，步骤S2具体为：

S201、对激光雷达采集的点云进行数据增强，获得多个不同的增强点云；

S202、搭建特征提取网络；

S203、使用特征提取网络处理两帧点云中的每个点，获得每个点的特征；

S204、根据步骤S103得到的每个点的特征，将从属于同一聚类体的点特征收集在一起，使用最大池化的方式对收集在一起的点特征处理，获取每个聚类体的特征。

进一步的，步骤S201中，数据增强包括：随机翻转、随机裁减、随机丢弃、随机抖动和随机旋转。

进一步的，步骤S202中，特征提取网络模型包括老师支路和学生支路，老师支路和学生支路的结构相同，老师支路的网络不参与反向传播，训练过程中老师支路的模型参数不断向学生支路逼近，老师支路上设置有3DUNet模块和投影模块，“学生”支路上设置由预测模块；将点云放入3DUNet模块后，提取的特征再通过投影模块和/或预测模块获得最终的特征。

更进一步的，3DUNet模块包含6个卷积层、4个反卷积层和一个池化模块，。

进一步的，步骤S203中，将经过数据增强之后的两帧点云数据分别放入网络中的老师支路和学生支路，依次经过6层卷积层后，获取包含不同大小视野信息的特征图；然后将特征图经过4次反卷积层的操作，得到每个点的特征。

具体的，步骤S3具体为：

S301、收集从特征提取网络中获得的点特征和聚类体特征，点特征来源于学生支路，聚类体特征来源于老师支路；

S302、使用余弦损失计算点特征和对应的聚类体特征之间的差异；

S303、使用差异作为损失值进行反向传播迭代更新模型参数。

第二方面，本发明实施例提供了一种自动驾驶场景用大规模自监督预训练学习系统，包括：

预处理模块，读取激光雷达采集的点云序列数据，利用地面线滤除、聚类获得空间中的聚类体，使用无监督跟踪方式对激光雷达点云序列数据中的聚类体进行跟踪，获得每个聚类体的身份标签ID；

网络模块，对步骤S1激光雷达采集的点云序列数据进行数据增强，获得多个增强点云，搭建特征提取网络模型提取增强点云中每个点的特征，并使用池化操作获得聚类体特征；

学习模块，基于网络模块得到的聚类体特征和预处理模块得到的聚类体身份标签ID计算相同ID聚类体特征之间的差异；使用差异作为监督信号对网络模块得到的特征提取网络模型进行训练，将训练完成的特征提取网络模型作为预训练模型应用于不同下游数据集、任务。

与现有技术相比，本发明至少具有以下有益效果：

一种自动驾驶场景用大规模自监督预训练学习方法，首先使用激光雷达采集点云信息。随后在每一帧中滤除点云数据中的地面线，对剩余的非地面线点进行聚类获得多个不同的聚类体；使用无监督跟踪的方法，对聚类体进行跟踪，关联多帧中的同一聚类体并且赋予相同的ID；然后对点云数据进行数据增强并使用网络提取每一个点和聚类体的特征；计算点和对应聚类体特征的差异，并将该差异作为损失函数反向传播更新模型参数；该过程不需要任何标注信息，训练完成后的模型可以微调后应用于下游任务，如语义分割，目标检测等；可以有效的、大量的节约人工标注成本。

进一步的，计算每个聚类体中所含有点的平均坐标作为该聚类体的坐标。计算相邻两帧中，任意两个聚类体的距离。使用匈牙利算法，以距离作为指标，对相邻两帧间的聚类体进行匹配。对匹配上的物体赋予相同的下标，没有匹配上的物体，第一次出现的物体赋予新的下标。

进一步的，通过对相邻帧的聚类体进行匹配，可以获得同一聚类体在不同时刻、不同照射角度下的不同外观。照射角度的差异会导致同一物体在不同时刻有非常不一样的外观，这将提升网络模块准确提取特征的难度。通过收集同一聚类体不同时刻的外观将有利于提高网络模块的辨识能力。

进一步的，计算同一聚类体不同时刻外观的特征，这些特征将用于后续计算差异以及更新网络参数。

进一步的，数据增强将有助于增强数据本身的多样性，进而将提高训练的网络的鲁棒性。

进一步的，搭建“学生”支路和“老师”支路用于网络训练，将提高训练过程中的稳定性，提高网络的整体性能。

进一步的，搭建3DUNet用于提取点云数据的特征，该特征将被用于计算差异。3DUNet是一个神经网络，能够提取点云数据中每个点的几何特征。

进一步的，使用3DUNet网络提取每个点的特征，这些点的特征可以使用池化的方式得到对应的聚类体的特征。

进一步的，对网络模型进行训练，收集从特征提取网络中获得的点特征和聚类体特征；其中点特征来源于“学生”支路，聚类体特征来源于“老师”支路。计算点特征和对应的聚类体特征之间的差异，使用差异作为损失值进行反向传播迭代更新模型参数，将训练完成的模型保存，并在需要使用时，使用少量的标签对模型进行微调，则模型可以较好的完成下游任务的要求。

可以理解的是，上述第二方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

综上所述，本发明通过预训练实现模型的初步训练，提高模型对标签的使用效率，减小下游任务所需要的标签量，大幅度提高了数据的利用效率，极大的节约了人工成本。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为数据预处理的流程图；

图2为模型训练的结构图；

图3为模型训练、微调后应用的效果图；

图4为算法无监督跟踪的结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种自动驾驶场景用大规模自监督预训练学习方法，用于提高在相同人工标注成本情况下，模型的语义分割能力。算法使用激光雷达采集的原始点云数据作为输入，对点云数据进行地面线滤除、聚类以将点云分为不同的语义个体；在多帧连续的点云上，对聚类体进行无监督跟踪以将不同时间下的同一物体赋予相同的ID；对原始点云进行数据增强(随机裁剪、翻转等)获得增强点云数据；搭建神经网络提取增强点云中每个点特征，使用池化等操作获得语义的特征；计算多帧中拥有相同ID的语义个体之间的特征差异、语义体特征与从属它的点特征之间的差异；使用差异作为监督信号对网络进行训练。训练完成的网络可以作为预训练模型被应用于下游的不同数据集的语义分割任务。

本发明一种自动驾驶场景用大规模自监督预训练学习方法，包括以下步骤：

S1、读取激光雷达点云序列数据，并利用地面线滤除、聚类获得空间中的聚类体，使用无监督跟踪的方式对聚类体在序列中跟踪，将不同帧中的同一聚类体关联在一起；

请参阅图1，具体步骤如下：

S101、读取原始点云数据；

从网络平台上下载已有的大规模的点云数据集并且存放到电脑中。数据集中的点云以帧为单位进行保存，每一帧数据中包含了一个点云数据集合，由一系列的三维空间的点组成；每个点包含x、y、z三轴坐标和反射强度。

S102、使用RANSAC算法拟合场景中最大的平面，将该平面视为地面并滤除；

激光雷达采集过程中会无差别的对周围的所有物体进行采集，包括地面，但是地面信息并不被需要，需要被滤除。使用RANSAC对单帧点云中所有点进行平面拟合，拟合得到的平面就是地面。将所有在该平面上的点记录，并视为地面点。

S103、使用DBSCAN算法对非地面点进行聚类，获得多个聚类体；

DBSCAN算法受到地面点的影响，如果存在地面点将影响聚类，利用S102的拟合结果，使用DBSCAN聚类时忽略掉所有的地面点，仅以非地面点作为输入进行聚类；则可以得到空间中的多个聚类体。聚类时，每一帧的点云数据集独立被处理。

S104、计算每个聚类体中所有点坐标的平均值，作为该聚类体的坐标；

根据S103的聚类体结果，依次处理每一个得到的聚类体。收集每个聚类体拥有的所有点，分别计算这些点的x轴、y轴、z轴的平均坐标，将得到的平均坐标视作聚类体坐标。

S105、计算相邻帧中聚类体之间的坐标距离，使用匈牙利算法对聚类体们进行匹配，对匹配上的聚类体赋予相同的下标。

点云数据都是连续采集，相邻帧指在采集时间上相邻的帧。取任意两个相邻帧的点云数据以及对应的聚类结果。计算相邻帧中聚类体之间的距离，使用匈牙利算法，以距离作为指标，对相邻两帧间的聚类体进行匹配。对匹配上的物体赋予相同的下标，没有匹配上又是第一次出现的物体赋予新的下标。被赋予相同下标的物体被视为不同时刻的同一物体。跟踪完成的物体如图4所示。

请参阅图4，分别展示了三个聚类体的跟踪结果，从上到下分别是汽车、摩托车、行人；分别使用红色、蓝色、黄色进行突出展示；三个聚类体都被准确的跟踪，在不同的帧下准确被关联在一起；因此，使用无监督跟踪的方式关联不同帧的同一聚类体是可行的。

S2、对点云进行数据增强，获得多个增强点云，搭建特征提取提网络模型取点云中每个点的特征，并使用池化等操作获得聚类体特征；

请参阅图2，具体步骤如下：

S201、对点云进行数据增强以获得多个不同的增强点云；

读取点云数据后使用数据增强手段，包括数据增强手段包括：随机翻转、随机裁减、随机丢弃、随机抖动、随机旋转等对原始点云进行处理以获得增强点云。增强后的点云拥有更多的随机性和多样性吗，可以有效提高预训练的效果。

S202、搭建特征提取网络模型；

特征提取网络模型包括两个相同的支路，两个支路结构相同，参数不同，分别称为“老师”支路和“学生”支路。其中“老师”支路的网络不参与反向传播，训练过程中模型参数不断向“学生”支路逼近。“老师”支路上设置有3DUNet模块和投影模块，“学生”支路上额外设置了预测模块。将点云放入3DUNet模块后，提取的特征再通过投影模块(和预测模块)获得最终的特征。其中3DUNet模块包含6个卷积层、4个反卷积层、一个池化模块；

S203、使用特征提取网络为两帧点云中的每个点提取特征；

将经过数据增强之后的两帧点云数据分别放入网络中的“老师”支路和“学生”支路，依次经过6层卷积层后，获取包含不同大小视野信息的特征图；然后将特征图经过四次反卷积层的操作，得到每个点的特征；

S204、根据聚类结果，将从属于同一聚类体的点特征收集在一起。使用最大池化的方式对收集在一起的点特征处理，获取聚类体特征。

在“老师”支路上，将不同聚类体的点特征分别通过池化模块，以获得不同聚类体的特征。

S3、计算多帧中被关联起的聚类体之间的特征差异，使用差异作为监督信号对网络进行训练。

S301、收集从特征提取网络中获得的点特征和聚类体特征。其中点特征来源于“学生”支路，聚类体特征来源于“老师”支路；

S302、计算点特征和对应的聚类体特征之间的差异；

使用余弦损失计算点特征与对应聚类体之间的差异。点数量远多于对应的聚类体的数量，所以复制聚类体的特征数量与点特征数量保持一致，进而计算对应的差异值。

S303、使用差异作为损失值进行反向传播迭代更新模型参数。

请参阅图3，将训练完成的模型保存，并在需要使用时，使用少量的标签对模型进行微调，则模型可以较好的完成下游任务的要求。

本发明再一个实施例中，提供一种自动驾驶场景用大规模自监督预训练学习系统，该系统能够用于实现上述自动驾驶场景用大规模自监督预训练学习方法，具体的，该自动驾驶场景用大规模自监督预训练学习系统包括预处理模块、网络模块以及模块。

其中，预处理模块，读取激光雷达采集的点云序列数据，利用地面线滤除、聚类获得空间中的聚类体，使用无监督跟踪方式对激光雷达点云序列数据中的聚类体进行跟踪，获得每个聚类体的身份标签ID；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于自动驾驶场景用大规模自监督预训练学习方法的操作，包括：

读取激光雷达采集的点云序列数据，利用地面线滤除、聚类获得空间中的聚类体，使用无监督跟踪方式对激光雷达点云序列数据中的聚类体进行跟踪，获得每个聚类体的身份标签ID；对激光雷达采集的点云序列数据进行数据增强，获得多个增强点云，搭建特征提取网络模型提取增强点云中每个点的特征，并使用池化操作获得聚类体特征；基于聚类体特征和聚类体身份标签ID计算相同ID聚类体特征之间的差异；使用差异作为监督信号对特征提取网络模型进行训练，将训练完成的特征提取网络模型作为预训练模型应用于不同下游数据集、任务。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(Non-Volatile Memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关自动驾驶场景用大规模自监督预训练学习方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明在知名且有影响力的数据集上SemantiKITTI进行了定量测试，测试结果如表1所示。

表1

	0.1％	1％	10％	100％
					不使用本发明	29.17	48.11	51.00	56.14
使用本发明	37.71	52.60	54.51	57.33

表1分别展示了是否使用本发明进行预训练后，在下游任务使用不同比例的标注数据进行训练的结果，使用平均交并比作为验证指标，该指标越大，代表下游分割任务的效果越好，该值最大为100。

可以看到，在使用本发明进行预训练之后，网络在所有不同比例的标注数据的情况下，都取得了明显更好的效果。有效的降低了网络对标注数据的需求，降低了标注成本。

综上所述，本发明一种自动驾驶场景用大规模自监督预训练学习方法及系统，经过本发明预训练的网络在应用到下游任务时只需要更少的标注数据可以获得更好的效果；有效降低网络对数据的需求量，极大的节约人工标注成本，对于降本增效有非常重大的意义。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、电载波信号、电信信号以及软件分发介质等，需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种自动驾驶场景用大规模自监督预训练学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的自动驾驶场景用大规模自监督预训练学习方法，其特征在于，步骤S1具体为：

S101、读取激光雷达采集的点云数据；

3.根据权利要求2所述的自动驾驶场景用大规模自监督预训练学习方法，其特征在于，步骤S105中，对没有匹配上又是第一次出现的物体赋予新的下标，被赋予相同下标的物体被视为不同时刻的同一物体，不再出现的物体视作消失。

4.根据权利要求1所述的自动驾驶场景用大规模自监督预训练学习方法，其特征在于，步骤S2具体为：

S202、搭建特征提取网络；

5.根据权利要求4所述的自动驾驶场景用大规模自监督预训练学习方法，其特征在于，步骤S201中，数据增强包括：随机翻转、随机裁减、随机丢弃、随机抖动和随机旋转。

6.根据权利要求4所述的自动驾驶场景用大规模自监督预训练学习方法，其特征在于，步骤S202中，特征提取网络模型包括老师支路和学生支路，老师支路和学生支路的结构相同，老师支路的网络不参与反向传播，训练过程中老师支路的模型参数不断向学生支路逼近，老师支路上设置有3DUNet模块和投影模块，“学生”支路上设置由预测模块；将点云放入3DUNet模块后，提取的特征再通过投影模块和/或预测模块获得最终的特征。

7.根据权利要求6所述的自动驾驶场景用大规模自监督预训练学习方法，其特征在于，3DUNet模块包含6个卷积层、4个反卷积层和一个池化模块，。

8.根据权利要求4所述的自动驾驶场景用大规模自监督预训练学习方法，其特征在于，步骤S203中，将经过数据增强之后的两帧点云数据分别放入网络中的老师支路和学生支路，依次经过6层卷积层后，获取包含不同大小视野信息的特征图；然后将特征图经过4次反卷积层的操作，得到每个点的特征。

9.根据权利要求1所述的自动驾驶场景用大规模自监督预训练学习方法，其特征在于，步骤S3具体为：

S303、使用差异作为损失值进行反向传播迭代更新模型参数。

10.一种自动驾驶场景用大规模自监督预训练学习系统，其特征在于，包括：