CN116468731A

CN116468731A - 基于跨模态Transformer的点云语义分割方法

Info

Publication number: CN116468731A
Application number: CN202310215339.2A
Authority: CN
Inventors: 周勇; 解泽明; 赵佳琦
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-03-08
Filing date: 2023-03-08
Publication date: 2023-07-21

Abstract

一种基于跨模态Transformer的点云语义分割方法，属于语义分割技术领域。方法注重将相机图像密集视觉信息引导到点云语义分割任务中，以完成点云语义分割任务。先将三维点云按照坐标系变换关系统一到相机图像坐标系下，然后透视投影得到三维点云的二维表示，接着计算提取得到多尺度特征图，再进行跨模态注意力融合，将相机图像与投影的点云图像进行特征级融合，最后上采样图像并进行分类，将分类结果根据逆投影变换关系投影到三维点云上即可完成点云语义分割任务。利用Transformer自注意机制来建立跨模态间特征依赖关系，结合图像和点云两个模态的特征信息，增强了模型的特征表达能力，并设计了边界性损失函数，强调语义物体的边界，从而提高了物体分割的边界精度。

Description

基于跨模态Transformer的点云语义分割方法

技术领域

本发明涉及语义分割技术领域，尤其涉及一种基于跨模态Transformer的点云语义分割方法，适合用于有获取环境信息、感知环境需求的应用场景中，如自动驾驶或道路监控。

背景技术

随着深度学习技术的高速发展，计算机在越来越多的领域中的发展潜力被挖掘出来。场景理解是许多应用的基础任务，如自动驾驶、自主机器人和增强现实。场景理解可以为高级应用(如自动驾驶汽车)提供具备细粒度的环境信息，而它的重要任务之一是语义分割，语义分割指为输入数据中的每个数据点分配一个类别标签。近年来，随着三维采集设备更新换代和成本降低，越来越多的研究人员将精力投入到三维场景语义分割的研究当中。

点云数据是通过激光雷达扫描器通过发射激光、接收反射激光来主动获取外界环境的空间的一种三维数据信息，具有稀疏性、离散性、无结构性的特点。在点云领域，与图像领域的发展相似，传统点云语义提取方法设计为针对点云描述子的手工设计特征，不具有可学习性，进而对具体任务的适应性不强，效果难以满足实际需求。随着深度学习技术的发展，近年来涌现了很多代表性的工作，点云分类网络PointNet是开创性研究成果。以及PointNet++成为了后续工作的典范。

跨模态融合是将多个种类的数据进行融汇整合，以达到增强特征表达，提高模型性能的目的，尤其可克服因单一模态数据带来的固有缺陷。具体到点云和相机图像两类数据，点云数据具备空间尺度、深度等三维信息，但缺乏物体纹理、颜色信息；相机图像则包含丰富的纹理、颜色信息，但图像容易受环境因素影响，图像质量易受损。因此，点云数据和图像数据两者相辅相成。进行跨模态的信息交互融合，可以进一步提高三维场景理解的研究水平。然而，由于点云和图像数据间存在着固有的数据格式差异以及领域差距，如何有效融合这两类数据进行三维场景语义提取任务仍是具有挑战性的问题。

发明内容

技术问题：本发明的目的在于克服跨模态融合的程度低的问题，有效提高跨模态融合能力，借助Transformer全局依赖性建模机制，提供一种为点云提供互补信息、丰富隐式特征空间分布、增强模型的特征表达能力、提高物体分割的边界精度的基于跨模态Transformer的点云语义分割方法。

技术方案：为实现本发明的目的，本发明一种基于跨模态Transformer的点云语义分割方法，包括以下步骤：

S1、针对给定场景的三维点云和相应视野范围的相机彩色图像根据旋转矩阵R、平移矩阵T，将三维点云/>透视投影变换转换到二维平面上，将三维点云/>中共计N个点的各自4个维度数据，外加计算得到的距离共5个维度数据，组合成为二维图像/>N为点云数量，H为图像高度，W为图像宽度；

S2、将投影得到的二维图像和相机彩色图像/>分别经过基于ResNet网络处理之后分别得到4个尺度特征图/>和/>l为尺度索引，I表示二维图像/>经过ResNet得到的特征图，S表示相机彩色图像/>经过ResNet得到的特征图；

S3、得到多尺度特征图和/>之后，取l＝1尺度的特征图/>和/>输入到Transformer中进行特征跨模态自注意，得到跨模态图像特征F₁ ^C；

S4、针对步骤S3得到的跨模态图像特征F₁ ^C，进行双线性插值上采样步骤和CNN卷积网络处理，得到l＝1尺度的最终特征图其中，H为图像高度，W为图像宽度；

S5、同理，将步骤S2中l＝2,3,4尺度的特征图逐步经过步骤S3、S4处理得到最终特征图记作特征图组/>

S6、得到特征图组后，将所有特征图在维度上相连接，通过卷积层得到概率体T，对概率体沿维度方向进行softmax运算来归一化概率以得到分割结果图P₀；

S7、计算分割结果图和真实值之间的损失，根据得到的损失值训练整个网络，直到达到限定次数，此时得到的分割结果图就是最终的分割图，选取最大概率处的维度值为预测的类别值，根据反透视投影过程得到三维点云的分割结果。

步骤S1中，所述的三维点云的透视投影变换成二维图像方法如下：

S11、取出给定的三维点云的前三个维度坐标值x、y和z，以其中一个点p为例，添加第四个维度，进行齐次坐标化，得到坐标p＝(x,y,z,1)^T；

S12、将得到的齐次坐标p＝(x,y,z,1)^T，根据透视投影变换将点云坐标系坐标转换成相机坐标系坐标，透视投影变换公式为：

其中，是相机内参矩阵，/>坐标系变换矩阵，/>是旋转修正矩阵，得到p点的相机坐标系坐标写作/>

S13、将得到的相机坐标系坐标归一化，得到作为对应于三维点云中p点的二维平面坐标；对三维点云/>中所有点进行步骤S11、S12、S13的处理；

S14、将原本三维点云的4个通道信息和距离信息/>共计5个维度信息作为透视投影转换得到的二维图像的维度信息，最终得到二维图像H为图像高度，W为图像宽度。

步骤S2中，所述4个尺度特征图和/>的提取方法如下：

S21、将给定的点云投影二维图像和相机彩色图像/>分别输入到ResNet网络中进行预处理，在ResNet网络的基础上使用CNN卷积层各自提取出4个尺度特征图/>和/>具体为：对S1阶段处理得到的图像/>和/>分别经过ResNet网络得到的4个尺度特征图，共计8个特征图，最终得到的特征图/>和/>由大到小依次为：/> 和/>

步骤S3中，所述的特征跨模态自注意的计算方法如下：

S31、对步骤S2得到的特征图和/>以融合尺度l＝1特征图和/>为例，输入到Transformer中进行特征跨模态自注意计算，计算步骤如下：

(1)对于输入的图像特征和/>均通过linearembedding将通道数从256变为C，此时得到初始输入特征，分别记作g^I和g^S，g^I表示由得到的初始输入特征，g^S表示由/>得到的初始输入特征；

(2)将得到的g^I和g^S输入到Transformer中进行处理：g^I和g^S首先经过归一化层和自注意计算后与g^I相加得到再将得到的/>经过归一化层和多层感知机处理后与自身相加，最终得到跨模态特征输出F_l ^C，公式如下：

其中，LN表示归一化层，linear表示线性映射层，MLP表示多层感知机，a、b、c分别指代输入的三个参数，分别为LN(g^S)、LN(g^I)和LN(g^I)；F₁ ^C为尺度l＝1的跨模态图像特征；SA表示自注意计算，进行公式(4)的计算过程；C为通道数；φ表示softmax函数。

步骤S4中，所述双线性插值上采样步骤和CNN卷积网络处理方法如下：

S41、以尺度l＝1的跨模态图像特征F₁ ^C为例，对给定的跨模态图像特征F₁ ^C，经过双线性插值，增大图像特征尺寸到原来的两倍，再经过CNN卷积网络处理，网络的具体结果如下：

在第一层卷积层中，定义尺寸为3×3的卷积核，定义步长为1，填充值为1，在layer1层后接一个ReLU激活函数和批处理归一化层进行归一化；

在第二层卷积层中，定义尺寸为3×3的卷积核，定义步长为1，填充值为2，膨胀率为2，在layer2层后接一个ReLU激活函数和批处理归一化层进行归一化；

在第三层卷积层中，定义尺寸为2×2的卷积核，定义步长为1，填充值为1，膨胀率为2，在layer3层后接一个ReLU激活函数和批处理归一化层进行归一化；

在第四层卷积层中，定义尺寸为1×1的卷积核，定义步长为1，在layer4层后接一个ReLU激活函数和批处理归一化层进行归一化；

S42、对于尺度l＝1的跨模态图像特征，需要进行一次步骤S41的处理，得到最终特征图其中，H为图像高度，W为图像宽度；对于尺度l＝2、l＝3、l＝4的跨模态图像特征分别需要经过两次、三次、四次步骤S41的处理，目的是将跨模态图像特征恢复到源图像尺寸。

步骤S6中，所述的概率体T的生成方法如下：

S61、得到特征图组之后，将所有特征图在维度方向上经过连接操作，再通过两个卷积层得到概率体T，概率体T的计算公式如下：

T＝conv2(conv1(cat(F₁ ^C',F₂ ^C',F₃ ^C',F₄ ^C'))) (5)

其中，cat表示连接操作，conv1表示为1×1的卷积层，conv2表示为1×1的卷积层；为l＝1的最终特征图，/>为l＝2的最终特征图，/>为l＝3的最终特征图、/>为l＝4的最终特征图；

S62、对概率体T沿维度方向进行softmax运算来归一化概率，得到分割结果图P₀。

步骤S7中，所述透视投影过程得到三维点云的分割结果的方法如下：

S71、得到分割结果图P₀之后，计算其与真实值之间的损失，根据得到的损失值来训练整个网络，迭代训练网络100至150轮；损失函数由两部分组成，通过下列方式计算：

(1)交叉熵损失函数方式计算：

其中，q_xy和p_xy分别表示图像坐标(x,y)处像素的真实值和分割结果图P₀中的预测概率，B为批量大小，H为图像高度，W为图像宽度；

(2)边界性损失函数计算方式：

其中w_x,y为图像坐标(x,y)处像素的边界权重，c_x,y和c_x+i,j+i分别为图像坐标(x,y)处像素的真实语义标签，为异或操作；

(3)将上述两者相加得到损失函数表示为：

其中，L_seg表示公式(6)中的交叉熵损失，L_w表示公式(8)中的边界性损失；

S72、训练停止后得到的分割结果图P₀就是最终的分割图，得到分割图后，选取最大概率处的维度值为预测的类别值，通过步骤S12中的反向变换对应关系即得到三维点对应的类别结果，对所有像素点均进行反向变换，最终得到源三维点云P₀的分割结果

有益效果：由于采用了上述技术方案，本发明与现有技术中单一点云输入的深度分割网络模型相比，跨模态引入了相机图像信息，为点云提供互补信息，丰富了隐式特征空间分布；利用Transformer自注意机制来建立跨模态间特征依赖关系，结合了图像和点云两个模态的特征信息，增强模型的特征表达能力。除此之外，本发明还设计了边界性损失函数，强调语义物体的边界，提高了物体分割的边界精度，解决了传统点云语义提取方法中不具有可学习性、对具体任务的适应性不强、效果难以满足实际需求等问题，与现有技术相比的主要优点如下：

1)将低成本相机图像信息引入到点云语义分割任务中，缓解单一点云数据对环境纹理、颜色信息的缺陷问题，扩大并丰富了隐式特征空间分布。

2)对于三维点云输入，没有采用球面投影或鸟瞰图投影方式，而是利用透视投影变换将三维点云转换成二维图像，避免了在投影过程中的信息丢失和变形的问题。

3)对于输入的两种模态信息利用了Transformer自注意机制在全局范围内建立长距离跨模态间特征依赖关系，有效结合了图像和点云两个模态的特征信息，丰富特征图信息，增强模型的特征表达能力。

4)为了缓解卷积操作固有的边界模糊问题，设计了边界性损失函数，强调语义物体的边界；结合交叉熵损失，共同指导模型进行更为全面的分割任务，进一步提高了语义分割的精度。

附图说明

图1为本发明的网络结构示意图。

具体实施方式

下面结合附图对本发明的一个实施例作进一步描述：

如图1所示，本发明的基于跨模态Transformer的点云语义分割方法，具体步骤如下：

S1、针对给定场景的三维点云和相应视野范围的相机彩色图像/>根据旋转矩阵R、平移矩阵T，将三维点云/>透视投影变换转换到二维平面上，将三维点云/>中共计N个点的各自4个维度数据，外加计算得到的距离/>共5个维度数据，组合成为二维图像/>N为点云数量，H为图像高度，W为图像宽度；

所述的三维点云的透视投影变换成二维图像方法如下：

S14、将原本三维点云的4个通道信息和距离信息/>共计5个维度信息作为透视投影转换得到的二维图像的维度信息，最终得到二维图像/>H为图像高度，W为图像宽度。

所述4个尺度特征图和/>的提取方法如下：

S21、将给定的点云投影二维图像和相机彩色图像/>分别输入到ResNet网络中进行预处理，在ResNet网络的基础上使用CNN卷积层各自提取出4个尺度特征图/>和/>具体为：对S1阶段处理得到的图像/>和/>，分别经过ResNet网络得到的4个尺度特征图，共计8个特征图，最终得到的特征图/>和/>由大到小依次为：/> 和/>

所述的特征跨模态自注意的计算方法如下：

S31、对步骤S2得到的特征图和/>以融合尺度l＝1特征图/>和/>为例，输入到Transformer中进行特征跨模态自注意计算，计算步骤如下：

所述双线性插值上采样步骤和CNN卷积网络的处理方法如下：

所述的概率体T的生成方法如下：

T＝conv2(conv1(cat(F₁ ^C',F₂ ^C',F₃ ^C',F₄ ^C'))) (5)

所述透视投影过程得到三维点云的分割结果的方法如下：

(1)交叉熵损失函数方式计算：

(2)边界性损失函数计算方式：

(3)将上述两者相加得到损失函数表示为：

L＝L_seg+L_w (9)

S72、训练停止后得到的分割结果图P₀就是最终的分割图，得到分割图后，选取最大概率处的维度值为预测的类别值，通过步骤S12中的反向变换对应关系即得到三维点对应的类别结果，对所有像素点均进行反向变换，最终得到源三维点云P₀的分割结果。

Claims

1.一种基于跨模态Transformer的点云语义分割方法，其特征在于，该方法包括以下步骤：

S3、得到多尺度特征图和/>之后，取l＝1尺度的特征图/>和输入到Transformer中进行特征跨模态自注意，得到跨模态图像特征F₁ ^C；

2.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法，其特征在于：步骤S1中，所述的三维点云的透视投影变换成二维图像方法如下：

3.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法，其特征在于：步骤S2中，所述4个尺度特征图和/>的提取方法如下：

4.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法，其特征在于，步骤S3中，所述的特征跨模态自注意的计算方法如下：

S31、对步骤S2得到的特征图和/>以融合尺度l＝1特征图/>和为例，输入到Transformer中进行特征跨模态自注意计算，计算步骤如下：

(1)对于输入的图像特征和/>均通过linear embedding将通道数从256变为C，此时得到初始输入特征，分别记作g^I和g^S，g^I表示由/>得到的初始输入特征，g^S表示由/>得到的初始输入特征；

5.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法，其特征在于：步骤S4中，所述双线性插值上采样步骤和CNN卷积网络处理方法如下：

6.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法，其特征在于：步骤S6中，所述的概率体T的生成方法如下：

7.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法，其特征在于：步骤S7中，所述透视投影过程得到三维点云的分割结果的方法如下：

(1)交叉熵损失函数方式计算：

(2)边界性损失函数计算方式：

(3)将上述两者相加得到损失函数表示为：

L＝L_seg+L_w (9)