CN116883654A

CN116883654A - 语义分割模型的训练方法、语义分割方法、装置及设备

Info

Publication number: CN116883654A
Application number: CN202310777932.6A
Authority: CN
Inventors: 刘松璇; 王宇; 黄佳伟; 李锦瑭; 王硕; 孙雪
Original assignee: Faw Nanjing Technology Development Co ltd; FAW Group Corp
Current assignee: Faw Nanjing Technology Development Co ltd; FAW Group Corp
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-10-13

Abstract

本发明公开了一种语义分割模型的训练方法、语义分割方法、装置及设备，涉及人工智能技术领域，尤其涉及深度学习、语义分割、自动驾驶等技术领域。该方法包括：基于预设降采样筛选方式，从原始点云数据中确定样本对象对应的样本点云数据；所述样本对象包括必选对象和待筛选对象；基于预设投影规则，对样本点云数据中样本点进行降维映射，得到所述样本点对应的样本距离影像；根据样本距离影像和样本点云数据对应的样本标签数据，对语义分割模型进行训练。通过上述技术方案，能够提高语义分割的准确性。

Description

语义分割模型的训练方法、语义分割方法、装置及设备

技术领域

本发明涉及人工智能技术领域，尤其涉及深度学习、语义分割、自动驾驶等技术领域，具体涉及语义分割模型的训练方法、语义分割方法、装置及设备。

背景技术

自动驾驶系统高度依赖于精准、实时且高鲁棒性的环境感知。一辆自动驾驶汽车需要精准的对路面上与驾驶相关的障碍物完成识别、归类和定位，主要包括：汽车、行人、双轮车以及其他障碍物。不同的自动驾驶解决方案可能有不同的传感器组合，但不可否认的是激光雷达是其中最常见的组件之一。激光雷达扫描得到的点云可以直接产生环境的距离量测和描述，供车辆控制器和后续规划模块使用，同时，激光雷达在几乎所有照明条件下(包括白天、晚上、炫光、阴影等)都能够保证良好的感知效果，因此获得了广泛的关注。

激光雷达点云的无序性和稀疏性导致标准的卷积神经网络无法直接用于点云数据，为了解决这个问题，近年来提出了许多新的方法，大致可以分为基于点、基于体素和基于距离影像(range image)的方法。一般来说，基于点的方法直接作用于点云原始数据，能够获得最高的精度，但同时这类方法计算复杂度非常高，模型也十分复杂。而基于体素的方法将非结构化的点云数据投影到结构化的、规则的网格中，从而能够使用三维稀疏卷积，虽然这类方法能够达到较高的精度，但是复杂的模型设计使得其依然无法达到实时的效果。基于距离影像的方法使用球面投影的策略，将无序的点云数据投影到规则的类似图像的表示上，而后可利用标准的二维卷积神经网络来完成基于点云的语义分割任务；这类方法能够在提供较高的语义分割精确度的前提下，保证推理速度，能够完成实时分割的效果。需要注意的一点是，距离影像由点云投影而来，投影和反投影的不可避免的产生信息损失。

现有的点云语义分割技术往往着眼于完成对场景中全部物体的高精准度分割，而在自动驾驶中，最需要关注的是在保证实时分割的前提下，完成高精度的对路面上障碍物的分割。

发明内容

本发明提供了一种语义分割模型的训练方法、语义分割方法、装置及设备，以解决自动驾驶场景中语义分割精度不高的问题。

根据本发明的一方面，提供了一种语义分割模型的训练方法，其特征在于，包括：

基于预设降采样筛选方式，从原始点云数据中确定样本对象对应的样本点云数据；所述样本对象包括必选对象和待筛选对象；

基于预设投影规则，对样本点云数据中样本点进行降维映射，得到所述样本点对应的样本距离影像；

根据样本距离影像和样本点云数据对应的样本标签数据，对语义分割模型进行训练。

根据本发明的另一方面，提供了一种语义分割方法，其特征在于，包括：

基于预设投影规则，对目标对象的目标点云数据中目标点进行降维映射，得到所述目标点对应的目标距离影像；

采用语义分割模型，对所述目标距离影像进行预测，得到所述目标点的目标二维预测结果；其中，所述语义分割模型基于本发明任意实施例所提供的语义分割模型的训练方法训练得到；

对所述目标二维预测结果进行三维转换，得到所述目标点的目标预测结果。

根据本发明的另一方面，提供了一种语义分割模型的训练装置，其特征在于，包括：

样本点云数据确定模块，用于基于预设降采样筛选方式，从原始点云数据中确定样本对象对应的样本点云数据；所述样本对象包括必选对象和待筛选对象；

样本距离影像确定模块，用于基于预设投影规则，对样本点云数据中样本点进行降维映射，得到所述样本点对应的样本距离影像；

语义分割模型训练模块，用于根据样本距离影像和样本点云数据对应的样本标签数据，对语义分割模型进行训练。

根据本发明的另一方面，提供了一种语义分割装置，其特征在于，包括：

目标距离影像确定模块，用于基于预设投影规则，对目标对象的目标点云数据中目标点进行降维映射，得到所述目标点对应的目标距离影像；

目标二维预测结果确定模块，用于采用语义分割模型，对所述目标距离影像进行预测，得到所述目标点的目标二维预测结果；其中，所述语义分割模型基于本发明任意实施例所提供的语义分割模型的训练方法训练得到；

目标预测结果确定模块，用于对所述目标二维预测结果进行三维转换，得到所述目标点的目标预测结果。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的语义分割模型的训练方法或语义分割方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的语义分割模型的训练方法或语义分割方法。

本发明实施例的技术方案，通过基于预设降采样筛选方式，从原始点云数据中确定样本对象对应的样本点云数据；所述样本对象包括必选对象和待筛选对象，之后基于预设投影规则，对样本点云数据中样本点进行降维映射，得到所述样本点对应的样本距离影像，进而根据样本距离影像和样本点云数据对应的样本标签数据，对语义分割模型进行训练。上述技术方案，通过对样本对象的原始点云数据进行筛选，解决了数据集不平衡导致语义分割不准确的问题，同时同样本距离影像对语义分割模型进行训练，能够提高语义分割的精度。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种语义分割模型的训练方法的流程图；

图2是根据本发明实施例二提供的一种语义分割模型的训练方法的流程图；

图3是根据本发明实施例三提供的一种语义分割模型的训练方法的流程图；

图4是根据本发明实施例四提供的一种语义分割模型的训练方法的流程图；

图5是根据本发明实施例五提供的一种语义分割方法的流程图；

图6是根据本发明实施例六提供的一种语义分割模型的训练装置的结构示意图；

图7是根据本发明实施例七提供的一种语义分割装置的结构示意图；

图8是实现本发明实施例的语义分割模型的训练方法或语义分割方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“原始”、“目标”、“样本”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

此外，还需要说明的是，本发明的技术方案中，所涉及的点云数据等相关数据的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

实施例一

图1是根据本发明实施例一提供的一种语义分割模型的训练方法的流程图。本实施例可适用于自动驾驶场景中如何进行障碍物分割的情况，该方法可以由语义分割模型的训练装置来执行，该装置可以采用硬件和/或软件的形式实现，并可集成于承载语义分割模型的训练功能的电子设备中，比如服务器中。如图1所示，本实施例的语义分割模型的训练可以包括：

S110、基于预设降采样筛选方式，从原始点云数据中确定样本对象对应的样本点云数据。

本实施例中，原始点云数据是指样本对象对应的未经过处理的点云数据。其中，样本对象可以是自动驾驶场景中的对象，例如小轿车、卡车、人等；可选的，样本对象可以包括必选对象和待筛选对象；所谓必选对象是指不需要进行点云数据筛选的对象，也即需要特别关注的对象；所谓待筛选对象是指需要进行点云数据筛选的对象。示例性的，若原始点云数据中包括小轿车、人、摩托车3中类别的点云数据，若小轿车的点云数据量占比大，人和摩托车对应的点云数据量占比小，为保证数据量平衡，需要对小轿车的点云数据进行缩减；此时，小轿车为待筛选对象；人和摩托车为必选对象。

所谓样本点云数据是指样本对象对应的点云数据，包含多帧点云，即一帧点云中包括多个样本点，每个样本点包括三维位置信息。

一种可选方式，可以采用预设降采样筛选方式，从原始点云数据中确定样本对象对应的样本点云数据。例如，可以首先确定原始点云数据中样本对象的类别数量，将其中点云数量最少的对象作为必选对象，其余对象作为待筛选对象，之后对待筛选对象对应的原始点云数据进行筛选，筛选出数量与必选对象的点云数量一致的点云数据，从而得到各样本对象对应的样本点云数据，此时，各样本对象对应的样本点云数据的数量一致。

S120、基于预设投影规则，对样本点云数据中样本点进行降维映射，得到样本点对应的样本距离影像。

本实施例中，预设投影规则是指三维点云数据投影成一维数据的投影规则，例如，预设投影规则可以是球面投影规则。

所谓样本点是指样本点云数据中的点。所谓样本距离影像是指样本点对应的一维距离影像。

具体的，对于样本点云数据中每一样本点，可以基于球面投影规则，对该样本点进行降维映射，得到该样本点对应的样本距离影像。例如，可以通过如下球面投影规则，确定样本点对应的样本距离影像：

其中，f＝f_u+f_d表示传感器垂直的视场；d表示样本点的深度，H，W分别表示样本距离应用的分辨率，优选的，本申请中未来保证语义分割模型能够实时运行，W＝512，H＝128。r表示样本点的反射率；最终所得到的样本距离影像是一个维度为(H,W,5)的数据，其中，5代表(x，y，z，d，r)。

S130、根据样本距离影像和样本点云数据对应的样本标签数据，对语义分割模型进行训练。

本实施例中，语义分割模型是用于进行语义分割的模型；可选的，语义分割模型可以基于神经网络构成。

本实施例中，样本标签数据是指样本点云数据的标签数据，可选的，样本标签数据包括每帧点云中样本对象所在位置的真值框，即真值框的四个顶点的坐标点；还包括样本对象对应的样本点云数据中每一样本点的语义标签，即类别标签。

示例性的，可以通过如下方式，确定样本点云数据对应的样本标签数据：对样本点云数据对应的原始标签数据中真值框进行尺寸扩展，得到样本标签数据中的样本真值框；根据原始标签数据中的类别标签，为样本点云数据中每一样本点赋予类别标签，得到样本标签数据中的样本点标签。具体的，可以对于样本点云数据中各样本点云对应的原始标签数据中真值框向框外进行尺寸扩展，例如，可以对真值框的左右、前后和上的面分别向外扩展第一长度(比如15cm)，下底面向上收缩第二长度(比如10m)；其中，第一长度和第二长度可以由本领域技术人员根据实际情况设定。之后，根据原始标签数据中的类别标签，为样本点云数据中每一样本点赋予该类别标签，得到样本标签数据中各点的样本点标签。

可以理解的是，相比于现有语义分割数据集标注价格昂贵的情况下，本发明对原始标签数据进行预处理，对原始标签数据中的真值框进行扩展，可以表面部分物体的点每一在真值框内，同时也尽量避免将地面的点划进框内；同时还为样本点云数据中每一样本点赋予语义级别标签，可以节约成本；同时，可以修正自动驾驶场景中障碍物检测结果的目的，辅助障碍物检测，从而使得后续语义分割模型训练更加准确。

一种可选方式，可以将样本距离影像输入语义分割模型，得到预测分割结果，根据预测分割结果和样本点云数据对应的样本标签数据计算训练损失，采用训练损失对语义分割模进行训练，直至满足训练停止条件，停止模型训练。其中，训练停止条件可以是训练损失稳定在设定范围，或训练次数达到设定次数；需要说明的是，设定范围和设定次数，可以由本领域技术人员根据实际需求设定。

其中，训练损失可以基于预设损失函数，根据预测分割结果和样本标签数据进行计算得到。需要说明的是，预设损失函数可以是交叉熵损失函数等。

本发明实施例提供的技术方案，通过基于预设降采样筛选方式，从原始点云数据中确定样本对象对应的样本点云数据，之后基于预设投影规则，对样本点云数据中样本点进行降维映射，得到样本点对应的样本距离影像，进而根据样本距离影像和样本点云数据对应的样本标签数据，对语义分割模型进行训练。上述技术方案，通过对样本对象的原始点云数据进行筛选，解决了数据集不平衡导致语义分割不准确的问题，同时同样本距离影像对语义分割模型进行训练，能够提高语义分割的精度。

实施例二

图2是根据本发明实施例二提供的一种语义分割模型的训练方法的流程图。本实施例在上述实施例的基础上，对“基于预设降采样筛选方式，从原始点云数据中确定样本对象对应的样本点云数据”进一步优化，提供一种可选实施方案。如图2所示，本实施例的语义分割模型的训练方法可以包括：

S210、从原始点云数据中确定必选对象对应的必选点云数据。

本实施例中，必选点云数据是指必选对象的点云数据。

具体的，可以基于必选单元筛选规则，从原始点云数据中选择出必选对象对应的必选点云数据。例如，对于每一单帧点云数据，若该单帧点云数据包含必选对象，则保留该单帧点云数据，作为必选点云数据。又如，若该单帧点云数据中必选对象对应的点数量超过设定阈值在，则将该单帧点云数据作为必选点云数据。

S220、从原始点云数据中去除必选点云数据，得到待筛选点云数据。

本实施例中，待筛选点云数据是指原始点云数据中除去必选点云数据剩下的点云数据。

具体的，可以从原始点云数据中去掉必选点云数据，得到待筛选点云数据。

S230、根据待筛选对象在待筛选点云数据中的占比情况，对待筛选点云数据进行更新。

一种可选方式，对于每一待筛选对象，从待筛选点云数据中确定该待筛选对象对应的点云数据，计算该待筛选对象对应的点云数据和待筛选点云数据之间的比例，得到待筛选对象在待筛选点云数据中的占比，根据该占比对待筛选点云数据进行更新，例如，若占比大于设定值，则从待筛选点云数据中筛除待筛选对象对应的点云数据，得到筛除后的待筛选点云数据，即更新后的待筛选点云数据。其中，设定值可以由本领域技术人员根据实际需求设定。需要说明的是，若更新待筛选点云数据后，占比仍大于设定值，则继续筛除待筛选对象对应的点云数据，直至占比等于或约等于设定值。

又一种可选方式，对于待筛选点云数据中的每一单帧点云数据，确定待筛选对象在该单帧点云数据中对应样本点的第一数量；根据第一数量和该帧点云数据中样本点的总数量，确定待筛选对象在该单帧点云数据中的单独占比；确定待筛选对象对应的类别框数量在待筛选点云数据的总类别框数量的整体占比；根据单独占比和整体占比，更新待筛选点云数据。

具体的，对于待筛选点云数据中的每一单帧点云数据，对于每一待筛选对象，确定该待筛选对象在该单帧点云数据中对应样本点的第一数量，之后将第一数量和该单帧点云数据中样本点的总数量之间的比值，作为该待筛选对象在该单帧点云数据中的单独占比。进而将该待筛选对应对应的类别框数量与待筛选点云数据中的总类别框数量之间的比值，作为该待筛选对象对应的类别框数量在待筛选点云数据的总类别框数量的整体占比。最后，若单独占比大于k倍的整体占比，则从待筛选点云数据中随机筛掉P％的点云帧，得到更新后的待筛选点云数据。其中，k是自然数，本实施例中k优选为1；P是自然数，本实施例中P优选为5。需要说明的是，若更新后的待筛选点云数据中，待筛选对象的单独占比仍大于k倍的整体占比，则继续从待筛选点云数据中随机筛掉点云帧，直至待筛选对象的单独占比小于或等于k倍的整体占比。

可以理解的是，本实施例中基于自适应的降采样方式对样本点云数据进行筛选，可以保证样本点云数据的数据平衡，即不同样本对象的样本点云数据的数量差不多，从而可以保证语义分割模型训练的准确性。

S240、根据必选点云数据和更新后的待筛选点云数据，确定样本对象对应的样本点云数据。

具体的，可以将必选点云数据和更新后的待筛选点云数据，作为样本对象对应的样本点云数据。

S250、基于预设投影规则，对样本点云数据中样本点进行降维映射，得到样本点对应的样本距离影像。

S260、根据样本距离影像和样本点云数据对应的样本标签数据，对语义分割模型进行训练。

本发明实施例提供的技术方案，通过从原始点云数据中确定必选对象对应的必选点云数据，从原始点云数据中去除必选点云数据，得到待筛选点云数据，并根据待筛选对象在待筛选点云数据中的占比情况，对待筛选点云数据进行更新，根据必选点云数据和更新后的待筛选点云数据，确定样本对象对应的样本点云数据。之后基于预设投影规则，对样本点云数据中样本点进行降维映射，得到样本点对应的样本距离影像，进而根据样本距离影像和样本点云数据对应的样本标签数据，对语义分割模型进行训练。上述技术方案，通过对原始点云数据进行筛选得到样本点云数据，保证了训练语义分割模型的数据的均衡性，有效改善了训练数据的质量，从而可以提高模型训练的效率。

实施例三

图3是根据本发明实施例三提供的一种语义分割模型的训练方法的流程图。本实施例在上述实施例的基础上，语义分割模型进一步包括卷积特征提取网络、骨干网络和预测网络；其中，卷积特征提取网络用于提取样本距离影像数据的特征；可选的，卷积特征提取网络可以由至少一个卷积层构成。骨干网络用于对卷积特征提取网络所提取到的特征进行二次提取，即深度挖掘特征；可选的，骨干网络可以是若干个残差单元组成的。预测网络用于进行语义分割结果进行预测；可选的，预测网络可以由卷积层和全连接层构成。

相应的，对“根据样本距离影像和样本点云数据对应的样本标签数据，对语义分割模型进行训练”进一步优化，提供一种可选实施方案。如图3所示，本实施例的语义分割模型的训练方法可以包括：

S310、基于预设降采样筛选方式，从原始点云数据中确定样本对象对应的样本点云数据。

样本对象包括必选对象和待筛选对象。

S320、基于预设投影规则，对样本点云数据中样本点进行降维映射，得到样本点对应的样本距离影像。

S330、采用卷积特征提取网络，对样本距离影像进行特征提取，得到第一特征。

本实施例中，第一特征是指对样本距离影像进行特征提取后得到的特征，可以采用矩阵或向量形式表示。

具体的，可以将每个样本点对应的样本距离影像输入卷积特征提取网络中，经过卷积特征提取网络进行处理，得到该样本点对应的第一特征。

S340、采用骨干网络，对第一特征进行二次特征提取，得到第二特征。

本实施例中，第二特征是指对第一特征进行深度挖掘提取后的特征，可以采用矩阵或向量形式表示。

具体的，可以将每一样本点对应的第一特征输入骨干网络，经过骨干网络进行特征深度挖掘，得到该样本点对应的第二特征。

S350、采用预测网络，对第二特征进行预测，得到样本点的样本二维预测结果。

本实施例中，样本二维预测结果是指每个样本点的预测结果，即该样本点的语义预测类别。

具体的，可以将每个样本点对应的第二特征输入预测网络，经过预测网络处理，得到该样本点的样本二维预测结果。

S360、根据样本二维预测结果和样本点云数据对应的样本标签数据，对语义分割模型进行训练。

具体的，可以基于预设损失函数，根据样本二维预测结果和样本点云数据对应的样本标签数据中的语义标签，计算训练损失，并根据训练损失对语义分割模型进行训练，直至满足训练停止条件。其中，预设损失函数可以是交叉熵损失函数等。

本发明实施例提供的技术方案，通过基于预设降采样筛选方式，从原始点云数据中确定样本对象对应的样本点云数据，之后基于预设投影规则，对样本点云数据中样本点进行降维映射，得到样本点对应的样本距离影像，进而采用卷积特征提取网络，对样本距离影像进行特征提取，得到第一特征，接着采用骨干网络，对第一特征进行二次特征提取，得到第二特征，并采用预测网络，对第二特征进行预测，得到样本点的样本二维预测结果，最后根据样本二维预测结果和样本点云数据对应的样本标签数据，对语义分割模型进行训练。上述技术方案，可以样本距离影响进行多次特征提取，可以深度挖掘点云的语义信息，从而使得语义分割模型更加鲁棒，语义分割精度更高。

在上述实施例的基础上，作为本发明的一种可选方式，骨干网络包括至少两个子残差网络；至少两个子残差网络依次相连；相应的，采用骨干网络，对第一特征进行二次特征提取，得到第二特征，包括：将第一特征输入骨干网络，得到至少两个子残差网络输出的辅助特征；对至少两个辅助特征进行归一化处理，得到至少两个归一化辅助特征；将至少两个归一化辅助特征进行拼接，得到第二特征。

其中，骨干网络包括至少两个子残差网络，至少两个子残差网络之间依次相连，即上一子残差网络的输出为下一子残差网络的输入；每一子残差网络包括至少一个残差单元。

具体的，可以将第一特征输入骨干网络，依次经过骨干网络中的子残差网络的处理，即第一特征输入骨干网络中的首个子残差网络，得到该首个子残差网络输出的辅助特征，将该首个子残差网络输出的辅助特征输入下一子残差网络，得到下一子残差网络输出的辅助特征，以此类推，可以得到每一子残差网络输出的辅助特征。之后对每一子残差网络输出的辅助特征进行归一化处理，得到每一子残差网络对应的归一化辅助特征。最后将各归一化辅助特征进行拼接，得到第二特征。

可以理解的是，通过多个子残差网络来提取特征，可以提取到更加丰富的特征，从而可以使得语义分割模型的训练更加精准。

实施例四

图4是根据本发明实施例四提供的一种语义分割模型的训练方法的流程图。本实施例在上述实施例的基础上，语义分割模型还可以包括辅助预测网络；其中，辅助预测网络用于对骨干网络中子残差网络输出的辅助特征进行预测；可选的辅助预测网络可以由卷积层和全连接层构成。

相应的，对“对语义分割模型进行训练”进一步优化，提供一种可选实施方案。如图4所示，本实施例的语义分割模型的训练方法可以包括：

S410、基于预设降采样筛选方式，从原始点云数据中确定样本对象对应的样本点云数据。

样本对象包括必选对象和待筛选对象。

S420、基于预设投影规则，对样本点云数据中样本点进行降维映射，得到样本点对应的样本距离影像。

S430、采用卷积特征提取网络，对样本距离影像进行特征提取，得到第一特征。

S440、采用骨干网络，对第一特征进行二次特征提取，得到第二特征。

S450、采用预测网络，对第二特征进行预测，得到样本点的样本二维预测结果。

S460、从至少两个归一化辅助特征中选择候选辅助特征。

本实施例中，候选辅助特征用于对语义分割模型进行辅助训练。

具体的，可以基于预设规则，从至少两个归一化辅助特征中选择辅助特征。例如，可以随机从至少两个归一化辅助特征中选择设定数量的归一化辅助特征，作为候选辅助特征。又如，可以去除至少一个归一化辅助特征中靠前的第一归一化辅助特征，即去除首个子残差网络输出的辅助特征对应的归一化辅助特征，将其他归一化辅助特征作为候选辅助特征。

S470、采用辅助预测网络对候选辅助特征进行预测，得到辅助二维预测结果。

本实施例中，辅助二维预测结果是指对候选辅助特征进行预测所得到的样本点的二维语义预测结果。

具体的，可以分别将候选辅助特征输入辅助预测网络，经过辅助预测网络进行处理，得到每一候选辅助特征对应的辅助二维预测结果。

S480、根据辅助二维预测结果、样本二维预测结果和样本点云数据对应的样本标签数据，对语义分割模型进行训练。

一种可选方式，可以对各辅助二维预测结果与样本二维预测结果求均值，之后可以基于预设损失函数，根据该均值和样本点云数据对应的样本标签数据中的语义标签，计算训练损失，并采用训练损失对语义分割模型进行训练。其中，预设损失函数可以是交叉熵损失函数。

又一种可选方式，还根据辅助二维预测结果和样本标签数据，确定辅助损失；根据样本二维预测结果和样本标签数据，确定主损失；根据辅助损失和主损失，确定训练损失；采用训练损失，对语义分割模型进行训练。

具体的，可以基于预设损失函数，分别根据辅助二维预测结果和样本标签数据，确定每一候选辅助特征对应的辅助损失；之后基于预设损失函数，根据样本二维预测结果和样本标签数据，计算主损失；进而可以对各辅助损失和主损失进行加权求和，得到训练损失，最后采用训练损失，对语义分割模型进行训练。

可以理解的是，通过确定辅助损失来对模型进行训练，可以为语义分割模型的训练辅助帮助，增加模型的鲁棒性和准确性。

本发明实施例提供的技术方案，通过基于预设降采样筛选方式，从原始点云数据中确定样本对象对应的样本点云数据，之后基于预设投影规则，对样本点云数据中样本点进行降维映射，得到样本点对应的样本距离影像，进而采用卷积特征提取网络，对样本距离影像进行特征提取，得到第一特征，接着采用骨干网络，对第一特征进行二次特征提取，得到第二特征，并采用预测网络，对第二特征进行预测，得到样本点的样本二维预测结果，同时从至少两个归一化辅助特征中选择候选辅助特征，并采用辅助预测网络对候选辅助特征进行预测，得到辅助二维预测结果，最后根据辅助二维预测结果、样本二维预测结果和样本点云数据对应的样本标签数据，对语义分割模型进行训练。上述技术方案，引入辅助预测网络进行语义分割模型训练，能够使得语义分割模型训练得更加准确。

实施例五

图5是根据本发明实施例五提供的一种语义分割方法的流程图。本实施例可适用于自动驾驶场景中如何进行障碍物分割的情况，该方法可以由语义分割装置来执行，该装置可以采用硬件和/或软件的形式实现，并可集成于承载语义分割功能的电子设备中，比如服务器中。如图5所示，本实施例的语义分割方法可以包括：

S510、基于预设投影规则，对目标对象的目标点云数据中目标点进行降维映射，得到目标点对应的目标距离影像。

所谓目标对象是指需要进行语义分割的对象，例如小轿车、人等。目标点云数据是指目标对象的点云数据，包括若干个目标点。

所谓目标距离影像是指目标点对应的一维距离影像。

具体的，对应目标点云数据中的每一目标点，可以基于球面投影规则，对该目标点进行降维映射，得到该目标点对应的目标距离影像。例如，可通过与模型训练时采用的球面投影规则对应的公式对目标点进行处理，得到目标点对应的目标距离影像。

S520、采用语义分割模型，对目标距离影像进行预测，得到目标点的目标二维预测结果。

其中，语义分割模型基于上述任意实施例所提供的语义分割模型的训练方法训练得到。

目标二维预测结果是指每个目标点的预测结果，即该目标点的语义预测类别。

具体的额，可以将每一目标点对应的目标距离影像输入语义分割模型，经过模型预测，得到该目标点的目标二维预测结果。

S530、对目标二维预测结果进行三维转换，得到目标点的目标预测结果。

本实施例中，目标预测结果是指目标点的三维的语义预测结果。

可选的，基于预设投影规则，对目标二维预测结果进行反向映射，得到目标点的目标三维预测结果；对目标三维预测结果进行滤波，得到滤波结果；从滤波结果中选取设定数量的最邻近点，并对最邻近点的三维预测结果进行投票；根据投票结果，确定目标点的目标预测结果。其中，预设投影规则和语义分割模型训练时所采用的预设投影规则相同。

其中，目标三维预测结果是指三维的语义预测结果。

具体的，可以基于预设投影规则，对目标二维预测结果进行反向映射，即逆向处理(将二维数据转换为三维数据)，得到目标点的目标三维预测结果。之后可以基于邻近算法(K-NearesNeughbor,KNN)，从目标三维预测结果中确定目标点的目标预测结果。例如，可以对目标三维预测结果进行高斯滤波，例如可以对目标三维预测结果，进行搜索空间大小为7×7、高斯核均值为5、标准差为2的高斯滤波，得到滤波结果；需要说明的是，滤波结果中包括若干个点及各点的三维预测结果。从滤波结果中选取设定数量的最邻近点，并对最邻近点的三维预测结果进行投票；根据投票结果，确定目标点的目标预测结果，即在这设定数量个邻近点中，设定数量个邻近点所属的类别进行比较，多数邻近点所属的类别为最终目标点的目标预测结果。

可以理解的是，由于反向映射后得到的目标三维预测结果，在物体边缘处的语义比较模糊，通过对目标三维预测结果进行滤波处理后再投票确定目标预测结果，可以使得最终的语义分割结果更加准确。

本发明实施例提供的技术方案，通过基于预设投影规则，对目标对象的目标点云数据中目标点进行降维映射，得到目标点对应的目标距离影像，之后采用语义分割模型，对目标距离影像进行预测，得到目标点的目标二维预测结果，进而对目标二维预测结果进行三维转换，得到目标点的目标预测结果。上述技术方案，采用语义分割模型进行语义分割，可以提高语义分割的准确性。

实施例六

图6是根据本发明实施例六提供的一种语义分割模型的训练装置的结构示意图。本实施例可适用于自动驾驶场景中如何进行障碍物分割的情况。该装置可以采用硬件和/或软件的形式实现，并可集成于承载语义分割模型的训练功能的电子设备中，比如服务器中如图6所示，本实施例的语义分割模型的训练装置可以包括：

样本点云数据确定模块610，用于基于预设降采样筛选方式，从原始点云数据中确定样本对象对应的样本点云数据；样本对象包括必选对象和待筛选对象；

样本距离影像确定模块620，用于基于预设投影规则，对样本点云数据中样本点进行降维映射，得到样本点对应的样本距离影像；

语义分割模型训练模块630，用于根据样本距离影像和样本点云数据对应的样本标签数据，对语义分割模型进行训练。

可选的，样本点云数据确定模块610，包括：

必选点云确定单元，用于从原始点云数据中确定必选对象对应的必选点云数据；

待筛选点云确定单元，用于从原始点云数据中去除必选点云数据，得到待筛选点云数据；

点云更新单元，用于根据待筛选对象在待筛选点云数据中的占比情况，对待筛选点云数据进行更新；

样本点云数据确定单元，用于根据必选点云数据和更新后的待筛选点云数据，确定样本对象对应的样本点云数据。

可选的，点云更新单元具体用于：

对于待筛选点云数据中的每一单帧点云数据，确定待筛选对象在该单帧点云数据中对应样本点的第一数量；

根据第一数量和该帧点云数据中样本点的总数量，确定待筛选对象在该单帧点云数据中的单独占比；

确定待筛选对象对应的类别框数量在待筛选点云数据的总类别框数量的整体占比；

根据单独占比和整体占比，更新待筛选点云数据。

可选的，语义分割模型包括卷积特征提取网络、骨干网络和预测网络；

相应的，语义分割模型训练模块630，包括：

第一特征确定单元，用于采用卷积特征提取网络，对样本距离影像进行特征提取，得到第一特征；

第二特征确定单元，用于采用骨干网络，对第一特征进行二次特征提取，得到第二特征；

二维预测结果确定单元，用于采用预测网络，对第二特征进行预测，得到样本点的样本二维预测结果；

语义分割模型训练单元，用于根据样本二维预测结果和样本点云数据对应的样本标签数据，对语义分割模型进行训练。

可选的，骨干网络包括至少两个子残差网络；至少两个子残差网络依次相连；

相应的，第二特征确定单元具体用于：

将第一特征输入骨干网络，得到至少两个子残差网络输出的辅助特征；

对至少两个辅助特征进行归一化处理，得到至少两个归一化辅助特征；

将至少两个归一化辅助特征进行拼接，得到第二特征。

可选的，语义分割模型还包括辅助预测网络；相应的，语义分割模型训练模块630，还包括：

辅助特征确定单元，用于从至少两个归一化辅助特征中选择候选辅助特征；

辅助预测结果确定单元，用于采用辅助预测网络对候选辅助特征进行预测，得到辅助二维预测结果；

语义分割模型训练单元，还用于根据辅助二维预测结果、样本二维预测结果和样本点云数据对应的样本标签数据，对语义分割模型进行训练。

可选的，语义分割模型训练单元具体用于：

根据辅助二维预测结果和样本标签数据，确定辅助损失；

根据样本二维预测结果和样本标签数据，确定主损失；

根据辅助损失和主损失，确定训练损失；

采用训练损失，对语义分割模型进行训练。

可选的，该装置还包括样本标签数据确定模块，该样本标签数据确定模块具体用于：

对样本点云数据对应的原始标签数据中真值框进行尺寸扩展，得到样本标签数据中的样本真值框；

根据原始标签数据中的类别标签，为样本点云数据中每一样本点赋予类别标签，得到样本标签数据中的样本点标签。

本发明实施例所提供的语义分割模型的训练装置可执行本发明任意实施例所提供的语义分割模型的训练方法，具备执行方法相应的功能模块和有益效果。

实施例七

图7是根据本发明实施例七提供的一种语义分割装置的结构示意图。本实施例适用于。本实施例可适用于自动驾驶场景中如何进行障碍物分割的情况。该装置可以采用硬件和/或软件的形式实现，并可集成于承载语义分割功能的电子设备中，比如服务器中如图7所示，本实施例的语义分割装置可以包括：

目标距离影像确定模块710，用于基于预设投影规则，对目标对象的目标点云数据中目标点进行降维映射，得到目标点对应的目标距离影像；

目标二维预测结果确定模块720，用于采用语义分割模型，对目标距离影像进行预测，得到目标点的目标二维预测结果；其中，语义分割模型基于本发明任一实施例所提供的语义分割模型的训练方法训练得到；

目标预测结果确定模块730，用于对目标二维预测结果进行三维转换，得到目标点的目标预测结果。

可选的，目标预测结果确定模块730具体用于：

基于预设投影规则，对目标二维预测结果进行反向映射，得到目标点的目标三维预测结果；

对目标三维预测结果进行滤波，得到滤波结果；

从滤波结果中选取设定数量的最邻近点，并对最邻近点的三维预测结果进行投票；

根据投票结果，确定目标点的目标预测结果。

本发明实施例所提供的语义分割装置可执行本发明任意实施例所提供的语义分割方法，具备执行方法相应的功能模块和有益效果。

实施例八

图8是实现本发明实施例的语义分割模型的训练方法或语义分割方法的电子设备的结构示意图。图8示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图8所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如语义分割模型的训练方法或语义分割方法。

在一些实施例中，语义分割模型的训练方法或语义分割方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的语义分割模型的训练方法或语义分割方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语义分割模型的训练方法或语义分割方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种语义分割模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预设降采样筛选方式，从原始点云数据中确定样本对象对应的样本点云数据，包括：

从所述原始点云数据中确定所述必选对象对应的必选点云数据；

从所述原始点云数据中去除所述必选点云数据，得到待筛选点云数据；

根据所述待筛选对象在待筛选点云数据中的占比情况，对所述待筛选点云数据进行更新；

根据必选点云数据和更新后的待筛选点云数据，确定样本对象对应的样本点云数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述待筛选对象在待筛选点云数据中的占比情况，对所述待筛选点云数据进行更新，包括：

对于所述待筛选点云数据中的每一单帧点云数据，确定所述待筛选对象在该单帧点云数据中对应样本点的第一数量；

根据所述第一数量和该帧点云数据中样本点的总数量，确定所述待筛选对象在该单帧点云数据中的单独占比；

确定所述待筛选对象对应的类别框数量在所述待筛选点云数据的总类别框数量的整体占比；

根据所述单独占比和所述整体占比，更新所述待筛选点云数据。

4.根据权利要求1所述的方法，其特征在于，所述语义分割模型包括卷积特征提取网络、骨干网络和预测网络；

相应的，所述根据样本距离影像和样本点云数据对应的样本标签数据，对语义分割模型进行训练，包括：

采用所述卷积特征提取网络，对所述样本距离影像进行特征提取，得到第一特征；

采用所述骨干网络，对所述第一特征进行二次特征提取，得到第二特征；

采用所述预测网络，对所述第二特征进行预测，得到所述样本点的样本二维预测结果；

根据所述样本二维预测结果和样本点云数据对应的样本标签数据，对所述语义分割模型进行训练。

5.根据权利要求4所述的方法，其特征在于，所述骨干网络包括至少两个子残差网络；所述至少两个子残差网络依次相连；

相应的，采用所述骨干网络，对所述第一特征进行二次特征提取，得到第二特征，包括：

将所述第一特征输入所述骨干网络，得到所述至少两个子残差网络输出的辅助特征；

将所述至少两个归一化辅助特征进行拼接，得到第二特征。

6.根据权利要求5所述的方法，其特征在于，所述语义分割模型还包括辅助预测网络；相应的，对语义分割模型进行训练，包括：

从至少两个归一化辅助特征中选择候选辅助特征；

采用所述辅助预测网络对所述候选辅助特征进行预测，得到辅助二维预测结果；

根据所述辅助二维预测结果、所述样本二维预测结果和样本点云数据对应的样本标签数据，对所述语义分割模型进行训练。

7.根据权利要求6所述的方法，其特征在于，所述根据所述辅助二维预测结果、所述样本二维预测结果和样本点云数据对应的样本标签数据，对所述语义分割模型进行训练，包括：

根据所述辅助二维预测结果和所述样本标签数据，确定辅助损失；

根据所述样本二维预测结果和所述样本标签数据，确定主损失；

根据所述辅助损失和所述主损失，确定训练损失；

采用所述训练损失，对所述语义分割模型进行训练。

8.根据权利要求1所述的方法，其特征在于，还包括：

根据所述原始标签数据中的类别标签，为样本点云数据中每一样本点赋予类别标签，得到样本标签数据中的样本点标签。

9.一种语义分割方法，其特征在于，包括：

采用语义分割模型，对所述目标距离影像进行预测，得到所述目标点的目标二维预测结果；其中，所述语义分割模型基于权利要求1-8中任一项所述的语义分割模型的训练方法训练得到；

10.根据权利要求9所述的方法，其特征在于，所述对所述目标二维预测结果进行三维转换，得到所述目标点的目标预测结果，包括：

基于预设投影规则，对所述目标二维预测结果进行反向映射，得到所述目标点的目标三维预测结果；

对所述目标三维预测结果进行滤波，得到滤波结果；

从所述滤波结果中选取设定数量的最邻近点，并对所述最邻近点的三维预测结果进行投票；

根据投票结果，确定所述目标点的目标预测结果。

11.一种语义分割模型的训练装置，其特征在于，包括：

12.一种语义分割装置，其特征在于，包括：

目标二维预测结果确定模块，用于采用语义分割模型，对所述目标距离影像进行预测，得到所述目标点的目标二维预测结果；其中，所述语义分割模型基于权利要求1-8中任一项所述的语义分割模型的训练方法训练得到；

13.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的语义分割模型的训练方法，或权利要求9-10中任一项所述的语义分割方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-8中任一项所述的语义分割模型的训练方法，或权利要求9-10中任一项所述的语义分割方法。