CN116468731A - 基于跨模态Transformer的点云语义分割方法 - Google Patents
基于跨模态Transformer的点云语义分割方法 Download PDFInfo
- Publication number
- CN116468731A CN116468731A CN202310215339.2A CN202310215339A CN116468731A CN 116468731 A CN116468731 A CN 116468731A CN 202310215339 A CN202310215339 A CN 202310215339A CN 116468731 A CN116468731 A CN 116468731A
- Authority
- CN
- China
- Prior art keywords
- image
- point cloud
- cross
- dimensional
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims abstract description 31
- 230000009466 transformation Effects 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 238000010606 normalization Methods 0.000 claims description 33
- 238000010586 diagram Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 230000001131 transforming effect Effects 0.000 claims description 6
- 241000282326 Felis catus Species 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 20
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
一种基于跨模态Transformer的点云语义分割方法,属于语义分割技术领域。方法注重将相机图像密集视觉信息引导到点云语义分割任务中,以完成点云语义分割任务。先将三维点云按照坐标系变换关系统一到相机图像坐标系下,然后透视投影得到三维点云的二维表示,接着计算提取得到多尺度特征图,再进行跨模态注意力融合,将相机图像与投影的点云图像进行特征级融合,最后上采样图像并进行分类,将分类结果根据逆投影变换关系投影到三维点云上即可完成点云语义分割任务。利用Transformer自注意机制来建立跨模态间特征依赖关系,结合图像和点云两个模态的特征信息,增强了模型的特征表达能力,并设计了边界性损失函数,强调语义物体的边界,从而提高了物体分割的边界精度。
Description
技术领域
本发明涉及语义分割技术领域,尤其涉及一种基于跨模态Transformer的点云语义分割方法,适合用于有获取环境信息、感知环境需求的应用场景中,如自动驾驶或道路监控。
背景技术
随着深度学习技术的高速发展,计算机在越来越多的领域中的发展潜力被挖掘出来。场景理解是许多应用的基础任务,如自动驾驶、自主机器人和增强现实。场景理解可以为高级应用(如自动驾驶汽车)提供具备细粒度的环境信息,而它的重要任务之一是语义分割,语义分割指为输入数据中的每个数据点分配一个类别标签。近年来,随着三维采集设备更新换代和成本降低,越来越多的研究人员将精力投入到三维场景语义分割的研究当中。
点云数据是通过激光雷达扫描器通过发射激光、接收反射激光来主动获取外界环境的空间的一种三维数据信息,具有稀疏性、离散性、无结构性的特点。在点云领域,与图像领域的发展相似,传统点云语义提取方法设计为针对点云描述子的手工设计特征,不具有可学习性,进而对具体任务的适应性不强,效果难以满足实际需求。随着深度学习技术的发展,近年来涌现了很多代表性的工作,点云分类网络PointNet是开创性研究成果。以及PointNet++成为了后续工作的典范。
跨模态融合是将多个种类的数据进行融汇整合,以达到增强特征表达,提高模型性能的目的,尤其可克服因单一模态数据带来的固有缺陷。具体到点云和相机图像两类数据,点云数据具备空间尺度、深度等三维信息,但缺乏物体纹理、颜色信息;相机图像则包含丰富的纹理、颜色信息,但图像容易受环境因素影响,图像质量易受损。因此,点云数据和图像数据两者相辅相成。进行跨模态的信息交互融合,可以进一步提高三维场景理解的研究水平。然而,由于点云和图像数据间存在着固有的数据格式差异以及领域差距,如何有效融合这两类数据进行三维场景语义提取任务仍是具有挑战性的问题。
发明内容
技术问题:本发明的目的在于克服跨模态融合的程度低的问题,有效提高跨模态融合能力,借助Transformer全局依赖性建模机制,提供一种为点云提供互补信息、丰富隐式特征空间分布、增强模型的特征表达能力、提高物体分割的边界精度的基于跨模态Transformer的点云语义分割方法。
技术方案:为实现本发明的目的,本发明一种基于跨模态Transformer的点云语义分割方法,包括以下步骤:
S1、针对给定场景的三维点云和相应视野范围的相机彩色图像根据旋转矩阵R、平移矩阵T,将三维点云/>透视投影变换转换到二维平面上,将三维点云/>中共计N个点的各自4个维度数据,外加计算得到的距离共5个维度数据,组合成为二维图像/>N为点云数量,H为图像高度,W为图像宽度;
S2、将投影得到的二维图像和相机彩色图像/>分别经过基于ResNet网络处理之后分别得到4个尺度特征图/>和/>l为尺度索引,I表示二维图像/>经过ResNet得到的特征图,S表示相机彩色图像/>经过ResNet得到的特征图;
S3、得到多尺度特征图和/>之后,取l=1尺度的特征图/>和/>输入到Transformer中进行特征跨模态自注意,得到跨模态图像特征F1 C;
S4、针对步骤S3得到的跨模态图像特征F1 C,进行双线性插值上采样步骤和CNN卷积网络处理,得到l=1尺度的最终特征图其中,H为图像高度,W为图像宽度;
S5、同理,将步骤S2中l=2,3,4尺度的特征图逐步经过步骤S3、S4处理得到最终特征图记作特征图组/>
S6、得到特征图组后,将所有特征图在维度上相连接,通过卷积层得到概率体T,对概率体沿维度方向进行softmax运算来归一化概率以得到分割结果图P0;
S7、计算分割结果图和真实值之间的损失,根据得到的损失值训练整个网络,直到达到限定次数,此时得到的分割结果图就是最终的分割图,选取最大概率处的维度值为预测的类别值,根据反透视投影过程得到三维点云的分割结果。
步骤S1中,所述的三维点云的透视投影变换成二维图像方法如下:
S11、取出给定的三维点云的前三个维度坐标值x、y和z,以其中一个点p为例,添加第四个维度,进行齐次坐标化,得到坐标p=(x,y,z,1)T;
S12、将得到的齐次坐标p=(x,y,z,1)T,根据透视投影变换将点云坐标系坐标转换成相机坐标系坐标,透视投影变换公式为:
其中,是相机内参矩阵,/>坐标系变换矩阵,/>是旋转修正矩阵,得到p点的相机坐标系坐标写作/>
S13、将得到的相机坐标系坐标归一化,得到作为对应于三维点云中p点的二维平面坐标;对三维点云/>中所有点进行步骤S11、S12、S13的处理;
S14、将原本三维点云的4个通道信息和距离信息/>共计5个维度信息作为透视投影转换得到的二维图像的维度信息,最终得到二维图像H为图像高度,W为图像宽度。
步骤S2中,所述4个尺度特征图和/>的提取方法如下:
S21、将给定的点云投影二维图像和相机彩色图像/>分别输入到ResNet网络中进行预处理,在ResNet网络的基础上使用CNN卷积层各自提取出4个尺度特征图/>和/>具体为:对S1阶段处理得到的图像/>和/>分别经过ResNet网络得到的4个尺度特征图,共计8个特征图,最终得到的特征图/>和/>由大到小依次为:/> 和/>
步骤S3中,所述的特征跨模态自注意的计算方法如下:
S31、对步骤S2得到的特征图和/>以融合尺度l=1特征图和/>为例,输入到Transformer中进行特征跨模态自注意计算,计算步骤如下:
(1)对于输入的图像特征和/>均通过linearembedding将通道数从256变为C,此时得到初始输入特征,分别记作gI和gS,gI表示由得到的初始输入特征,gS表示由/>得到的初始输入特征;
(2)将得到的gI和gS输入到Transformer中进行处理:gI和gS首先经过归一化层和自注意计算后与gI相加得到再将得到的/>经过归一化层和多层感知机处理后与自身相加,最终得到跨模态特征输出Fl C,公式如下:
其中,LN表示归一化层,linear表示线性映射层,MLP表示多层感知机,a、b、c分别指代输入的三个参数,分别为LN(gS)、LN(gI)和LN(gI);F1 C为尺度l=1的跨模态图像特征;SA表示自注意计算,进行公式(4)的计算过程;C为通道数;φ表示softmax函数。
步骤S4中,所述双线性插值上采样步骤和CNN卷积网络处理方法如下:
S41、以尺度l=1的跨模态图像特征F1 C为例,对给定的跨模态图像特征F1 C,经过双线性插值,增大图像特征尺寸到原来的两倍,再经过CNN卷积网络处理,网络的具体结果如下:
在第一层卷积层中,定义尺寸为3×3的卷积核,定义步长为1,填充值为1,在layer1层后接一个ReLU激活函数和批处理归一化层进行归一化;
在第二层卷积层中,定义尺寸为3×3的卷积核,定义步长为1,填充值为2,膨胀率为2,在layer2层后接一个ReLU激活函数和批处理归一化层进行归一化;
在第三层卷积层中,定义尺寸为2×2的卷积核,定义步长为1,填充值为1,膨胀率为2,在layer3层后接一个ReLU激活函数和批处理归一化层进行归一化;
在第四层卷积层中,定义尺寸为1×1的卷积核,定义步长为1,在layer4层后接一个ReLU激活函数和批处理归一化层进行归一化;
S42、对于尺度l=1的跨模态图像特征,需要进行一次步骤S41的处理,得到最终特征图其中,H为图像高度,W为图像宽度;对于尺度l=2、l=3、l=4的跨模态图像特征分别需要经过两次、三次、四次步骤S41的处理,目的是将跨模态图像特征恢复到源图像尺寸。
步骤S6中,所述的概率体T的生成方法如下:
S61、得到特征图组之后,将所有特征图在维度方向上经过连接操作,再通过两个卷积层得到概率体T,概率体T的计算公式如下:
T=conv2(conv1(cat(F1 C',F2 C',F3 C',F4 C'))) (5)
其中,cat表示连接操作,conv1表示为1×1的卷积层,conv2表示为1×1的卷积层;为l=1的最终特征图,/>为l=2的最终特征图,/>为l=3的最终特征图、/>为l=4的最终特征图;
S62、对概率体T沿维度方向进行softmax运算来归一化概率,得到分割结果图P0。
步骤S7中,所述透视投影过程得到三维点云的分割结果的方法如下:
S71、得到分割结果图P0之后,计算其与真实值之间的损失,根据得到的损失值来训练整个网络,迭代训练网络100至150轮;损失函数由两部分组成,通过下列方式计算:
(1)交叉熵损失函数方式计算:
其中,qxy和pxy分别表示图像坐标(x,y)处像素的真实值和分割结果图P0中的预测概率,B为批量大小,H为图像高度,W为图像宽度;
(2)边界性损失函数计算方式:
其中wx,y为图像坐标(x,y)处像素的边界权重,cx,y和cx+i,j+i分别为图像坐标(x,y)处像素的真实语义标签,为异或操作;
(3)将上述两者相加得到损失函数表示为:
其中,Lseg表示公式(6)中的交叉熵损失,Lw表示公式(8)中的边界性损失;
S72、训练停止后得到的分割结果图P0就是最终的分割图,得到分割图后,选取最大概率处的维度值为预测的类别值,通过步骤S12中的反向变换对应关系即得到三维点对应的类别结果,对所有像素点均进行反向变换,最终得到源三维点云P0的分割结果
有益效果:由于采用了上述技术方案,本发明与现有技术中单一点云输入的深度分割网络模型相比,跨模态引入了相机图像信息,为点云提供互补信息,丰富了隐式特征空间分布;利用Transformer自注意机制来建立跨模态间特征依赖关系,结合了图像和点云两个模态的特征信息,增强模型的特征表达能力。除此之外,本发明还设计了边界性损失函数,强调语义物体的边界,提高了物体分割的边界精度,解决了传统点云语义提取方法中不具有可学习性、对具体任务的适应性不强、效果难以满足实际需求等问题,与现有技术相比的主要优点如下:
1)将低成本相机图像信息引入到点云语义分割任务中,缓解单一点云数据对环境纹理、颜色信息的缺陷问题,扩大并丰富了隐式特征空间分布。
2)对于三维点云输入,没有采用球面投影或鸟瞰图投影方式,而是利用透视投影变换将三维点云转换成二维图像,避免了在投影过程中的信息丢失和变形的问题。
3)对于输入的两种模态信息利用了Transformer自注意机制在全局范围内建立长距离跨模态间特征依赖关系,有效结合了图像和点云两个模态的特征信息,丰富特征图信息,增强模型的特征表达能力。
4)为了缓解卷积操作固有的边界模糊问题,设计了边界性损失函数,强调语义物体的边界;结合交叉熵损失,共同指导模型进行更为全面的分割任务,进一步提高了语义分割的精度。
附图说明
图1为本发明的网络结构示意图。
具体实施方式
下面结合附图对本发明的一个实施例作进一步描述:
如图1所示,本发明的基于跨模态Transformer的点云语义分割方法,具体步骤如下:
S1、针对给定场景的三维点云和相应视野范围的相机彩色图像/>根据旋转矩阵R、平移矩阵T,将三维点云/>透视投影变换转换到二维平面上,将三维点云/>中共计N个点的各自4个维度数据,外加计算得到的距离/>共5个维度数据,组合成为二维图像/>N为点云数量,H为图像高度,W为图像宽度;
所述的三维点云的透视投影变换成二维图像方法如下:
S11、取出给定的三维点云的前三个维度坐标值x、y和z,以其中一个点p为例,添加第四个维度,进行齐次坐标化,得到坐标p=(x,y,z,1)T;
S12、将得到的齐次坐标p=(x,y,z,1)T,根据透视投影变换将点云坐标系坐标转换成相机坐标系坐标,透视投影变换公式为:
其中,是相机内参矩阵,/>坐标系变换矩阵,/>是旋转修正矩阵,得到p点的相机坐标系坐标写作/>
S13、将得到的相机坐标系坐标归一化,得到作为对应于三维点云中p点的二维平面坐标;对三维点云/>中所有点进行步骤S11、S12、S13的处理;
S14、将原本三维点云的4个通道信息和距离信息/>共计5个维度信息作为透视投影转换得到的二维图像的维度信息,最终得到二维图像/>H为图像高度,W为图像宽度。
S2、将投影得到的二维图像和相机彩色图像/>分别经过基于ResNet网络处理之后分别得到4个尺度特征图/>和/>l为尺度索引,I表示二维图像/>经过ResNet得到的特征图,S表示相机彩色图像/>经过ResNet得到的特征图;
所述4个尺度特征图和/>的提取方法如下:
S21、将给定的点云投影二维图像和相机彩色图像/>分别输入到ResNet网络中进行预处理,在ResNet网络的基础上使用CNN卷积层各自提取出4个尺度特征图/>和/>具体为:对S1阶段处理得到的图像/>和/>,分别经过ResNet网络得到的4个尺度特征图,共计8个特征图,最终得到的特征图/>和/>由大到小依次为:/> 和/>
S3、得到多尺度特征图和/>之后,取l=1尺度的特征图/>和/>输入到Transformer中进行特征跨模态自注意,得到跨模态图像特征F1 C;
所述的特征跨模态自注意的计算方法如下:
S31、对步骤S2得到的特征图和/>以融合尺度l=1特征图/>和/>为例,输入到Transformer中进行特征跨模态自注意计算,计算步骤如下:
(1)对于输入的图像特征和/>均通过linearembedding将通道数从256变为C,此时得到初始输入特征,分别记作gI和gS,gI表示由得到的初始输入特征,gS表示由/>得到的初始输入特征;
(2)将得到的gI和gS输入到Transformer中进行处理:gI和gS首先经过归一化层和自注意计算后与gI相加得到再将得到的/>经过归一化层和多层感知机处理后与自身相加,最终得到跨模态特征输出Fl C,公式如下:
其中,LN表示归一化层,linear表示线性映射层,MLP表示多层感知机,a、b、c分别指代输入的三个参数,分别为LN(gS)、LN(gI)和LN(gI);F1 C为尺度l=1的跨模态图像特征;SA表示自注意计算,进行公式(4)的计算过程;C为通道数;φ表示softmax函数。
S4、针对步骤S3得到的跨模态图像特征F1 C,进行双线性插值上采样步骤和CNN卷积网络处理,得到l=1尺度的最终特征图其中,H为图像高度,W为图像宽度;
所述双线性插值上采样步骤和CNN卷积网络的处理方法如下:
S41、以尺度l=1的跨模态图像特征F1 C为例,对给定的跨模态图像特征F1 C,经过双线性插值,增大图像特征尺寸到原来的两倍,再经过CNN卷积网络处理,网络的具体结果如下:
在第一层卷积层中,定义尺寸为3×3的卷积核,定义步长为1,填充值为1,在layer1层后接一个ReLU激活函数和批处理归一化层进行归一化;
在第二层卷积层中,定义尺寸为3×3的卷积核,定义步长为1,填充值为2,膨胀率为2,在layer2层后接一个ReLU激活函数和批处理归一化层进行归一化;
在第三层卷积层中,定义尺寸为2×2的卷积核,定义步长为1,填充值为1,膨胀率为2,在layer3层后接一个ReLU激活函数和批处理归一化层进行归一化;
在第四层卷积层中,定义尺寸为1×1的卷积核,定义步长为1,在layer4层后接一个ReLU激活函数和批处理归一化层进行归一化;
S42、对于尺度l=1的跨模态图像特征,需要进行一次步骤S41的处理,得到最终特征图其中,H为图像高度,W为图像宽度;对于尺度l=2、l=3、l=4的跨模态图像特征分别需要经过两次、三次、四次步骤S41的处理,目的是将跨模态图像特征恢复到源图像尺寸。
S5、同理,将步骤S2中l=2,3,4尺度的特征图逐步经过步骤S3、S4处理得到最终特征图记作特征图组/>
S6、得到特征图组后,将所有特征图在维度上相连接,通过卷积层得到概率体T,对概率体沿维度方向进行softmax运算来归一化概率以得到分割结果图P0;
所述的概率体T的生成方法如下:
S61、得到特征图组之后,将所有特征图在维度方向上经过连接操作,再通过两个卷积层得到概率体T,概率体T的计算公式如下:
T=conv2(conv1(cat(F1 C',F2 C',F3 C',F4 C'))) (5)
其中,cat表示连接操作,conv1表示为1×1的卷积层,conv2表示为1×1的卷积层;为l=1的最终特征图,/>为l=2的最终特征图,/>为l=3的最终特征图、/>为l=4的最终特征图;
S62、对概率体T沿维度方向进行softmax运算来归一化概率,得到分割结果图P0。
S7、计算分割结果图和真实值之间的损失,根据得到的损失值训练整个网络,直到达到限定次数,此时得到的分割结果图就是最终的分割图,选取最大概率处的维度值为预测的类别值,根据反透视投影过程得到三维点云的分割结果。
所述透视投影过程得到三维点云的分割结果的方法如下:
S71、得到分割结果图P0之后,计算其与真实值之间的损失,根据得到的损失值来训练整个网络,迭代训练网络100至150轮;损失函数由两部分组成,通过下列方式计算:
(1)交叉熵损失函数方式计算:
其中,qxy和pxy分别表示图像坐标(x,y)处像素的真实值和分割结果图P0中的预测概率,B为批量大小,H为图像高度,W为图像宽度;
(2)边界性损失函数计算方式:
其中wx,y为图像坐标(x,y)处像素的边界权重,cx,y和cx+i,j+i分别为图像坐标(x,y)处像素的真实语义标签,为异或操作;
(3)将上述两者相加得到损失函数表示为:
L=Lseg+Lw (9)
其中,Lseg表示公式(6)中的交叉熵损失,Lw表示公式(8)中的边界性损失;
S72、训练停止后得到的分割结果图P0就是最终的分割图,得到分割图后,选取最大概率处的维度值为预测的类别值,通过步骤S12中的反向变换对应关系即得到三维点对应的类别结果,对所有像素点均进行反向变换,最终得到源三维点云P0的分割结果。
Claims (7)
1.一种基于跨模态Transformer的点云语义分割方法,其特征在于,该方法包括以下步骤:
S1、针对给定场景的三维点云和相应视野范围的相机彩色图像/>根据旋转矩阵R、平移矩阵T,将三维点云/>透视投影变换转换到二维平面上,将三维点云/>中共计N个点的各自4个维度数据,外加计算得到的距离/>共5个维度数据,组合成为二维图像/>N为点云数量,H为图像高度,W为图像宽度;
S2、将投影得到的二维图像和相机彩色图像/>分别经过基于ResNet网络处理之后分别得到4个尺度特征图/>和/>l为尺度索引,I表示二维图像/>经过ResNet得到的特征图,S表示相机彩色图像/>经过ResNet得到的特征图;
S3、得到多尺度特征图和/>之后,取l=1尺度的特征图/>和输入到Transformer中进行特征跨模态自注意,得到跨模态图像特征F1 C;
S4、针对步骤S3得到的跨模态图像特征F1 C,进行双线性插值上采样步骤和CNN卷积网络处理,得到l=1尺度的最终特征图其中,H为图像高度,W为图像宽度;
S5、同理,将步骤S2中l=2,3,4尺度的特征图逐步经过步骤S3、S4处理得到最终特征图记作特征图组/>
S6、得到特征图组后,将所有特征图在维度上相连接,通过卷积层得到概率体T,对概率体沿维度方向进行softmax运算来归一化概率以得到分割结果图P0;
S7、计算分割结果图和真实值之间的损失,根据得到的损失值训练整个网络,直到达到限定次数,此时得到的分割结果图就是最终的分割图,选取最大概率处的维度值为预测的类别值,根据反透视投影过程得到三维点云的分割结果。
2.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法,其特征在于:步骤S1中,所述的三维点云的透视投影变换成二维图像方法如下:
S11、取出给定的三维点云的前三个维度坐标值x、y和z,以其中一个点p为例,添加第四个维度,进行齐次坐标化,得到坐标p=(x,y,z,1)T;
S12、将得到的齐次坐标p=(x,y,z,1)T,根据透视投影变换将点云坐标系坐标转换成相机坐标系坐标,透视投影变换公式为:
其中,是相机内参矩阵,/>坐标系变换矩阵,/>是旋转修正矩阵,得到p点的相机坐标系坐标写作/>
S13、将得到的相机坐标系坐标归一化,得到作为对应于三维点云中p点的二维平面坐标;对三维点云/>中所有点进行步骤S11、S12、S13的处理;
S14、将原本三维点云的4个通道信息和距离信息/>共计5个维度信息作为透视投影转换得到的二维图像的维度信息,最终得到二维图像/>H为图像高度,W为图像宽度。
3.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法,其特征在于:步骤S2中,所述4个尺度特征图和/>的提取方法如下:
S21、将给定的点云投影二维图像和相机彩色图像/>分别输入到ResNet网络中进行预处理,在ResNet网络的基础上使用CNN卷积层各自提取出4个尺度特征图/>和/>具体为:对S1阶段处理得到的图像/>和/>分别经过ResNet网络得到的4个尺度特征图,共计8个特征图,最终得到的特征图/>和/>由大到小依次为:/> 和/>
4.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法,其特征在于,步骤S3中,所述的特征跨模态自注意的计算方法如下:
S31、对步骤S2得到的特征图和/>以融合尺度l=1特征图/>和为例,输入到Transformer中进行特征跨模态自注意计算,计算步骤如下:
(1)对于输入的图像特征和/>均通过linear embedding将通道数从256变为C,此时得到初始输入特征,分别记作gI和gS,gI表示由/>得到的初始输入特征,gS表示由/>得到的初始输入特征;
(2)将得到的gI和gS输入到Transformer中进行处理:gI和gS首先经过归一化层和自注意计算后与gI相加得到再将得到的/>经过归一化层和多层感知机处理后与自身相加,最终得到跨模态特征输出Fl C,公式如下:
其中,LN表示归一化层,linear表示线性映射层,MLP表示多层感知机,a、b、c分别指代输入的三个参数,分别为LN(gS)、LN(gI)和LN(gI);F1 C为尺度l=1的跨模态图像特征;SA表示自注意计算,进行公式(4)的计算过程;C为通道数;φ表示softmax函数。
5.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法,其特征在于:步骤S4中,所述双线性插值上采样步骤和CNN卷积网络处理方法如下:
S41、以尺度l=1的跨模态图像特征F1 C为例,对给定的跨模态图像特征F1 C,经过双线性插值,增大图像特征尺寸到原来的两倍,再经过CNN卷积网络处理,网络的具体结果如下:
在第一层卷积层中,定义尺寸为3×3的卷积核,定义步长为1,填充值为1,在layer1层后接一个ReLU激活函数和批处理归一化层进行归一化;
在第二层卷积层中,定义尺寸为3×3的卷积核,定义步长为1,填充值为2,膨胀率为2,在layer2层后接一个ReLU激活函数和批处理归一化层进行归一化;
在第三层卷积层中,定义尺寸为2×2的卷积核,定义步长为1,填充值为1,膨胀率为2,在layer3层后接一个ReLU激活函数和批处理归一化层进行归一化;
在第四层卷积层中,定义尺寸为1×1的卷积核,定义步长为1,在layer4层后接一个ReLU激活函数和批处理归一化层进行归一化;
S42、对于尺度l=1的跨模态图像特征,需要进行一次步骤S41的处理,得到最终特征图其中,H为图像高度,W为图像宽度;对于尺度l=2、l=3、l=4的跨模态图像特征分别需要经过两次、三次、四次步骤S41的处理,目的是将跨模态图像特征恢复到源图像尺寸。
6.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法,其特征在于:步骤S6中,所述的概率体T的生成方法如下:
S61、得到特征图组之后,将所有特征图在维度方向上经过连接操作,再通过两个卷积层得到概率体T,概率体T的计算公式如下:
其中,cat表示连接操作,conv1表示为1×1的卷积层,conv2表示为1×1的卷积层;为l=1的最终特征图,/>为l=2的最终特征图,/>为l=3的最终特征图、/>为l=4的最终特征图;
S62、对概率体T沿维度方向进行softmax运算来归一化概率,得到分割结果图P0。
7.根据权利要求1所述的一种基于跨模态Transformer的点云语义分割方法,其特征在于:步骤S7中,所述透视投影过程得到三维点云的分割结果的方法如下:
S71、得到分割结果图P0之后,计算其与真实值之间的损失,根据得到的损失值来训练整个网络,迭代训练网络100至150轮;损失函数由两部分组成,通过下列方式计算:
(1)交叉熵损失函数方式计算:
其中,qxy和pxy分别表示图像坐标(x,y)处像素的真实值和分割结果图P0中的预测概率,B为批量大小,H为图像高度,W为图像宽度;
(2)边界性损失函数计算方式:
其中wx,y为图像坐标(x,y)处像素的边界权重,cx,y和cx+i,j+i分别为图像坐标(x,y)处像素的真实语义标签,为异或操作;
(3)将上述两者相加得到损失函数表示为:
L=Lseg+Lw (9)
其中,Lseg表示公式(6)中的交叉熵损失,Lw表示公式(8)中的边界性损失;
S72、训练停止后得到的分割结果图P0就是最终的分割图,得到分割图后,选取最大概率处的维度值为预测的类别值,通过步骤S12中的反向变换对应关系即得到三维点对应的类别结果,对所有像素点均进行反向变换,最终得到源三维点云P0的分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310215339.2A CN116468731A (zh) | 2023-03-08 | 2023-03-08 | 基于跨模态Transformer的点云语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310215339.2A CN116468731A (zh) | 2023-03-08 | 2023-03-08 | 基于跨模态Transformer的点云语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116468731A true CN116468731A (zh) | 2023-07-21 |
Family
ID=87183152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310215339.2A Pending CN116468731A (zh) | 2023-03-08 | 2023-03-08 | 基于跨模态Transformer的点云语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468731A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523206A (zh) * | 2024-01-04 | 2024-02-06 | 南京航空航天大学 | 一种基于跨源点云与多模态信息的自动化装配方法 |
-
2023
- 2023-03-08 CN CN202310215339.2A patent/CN116468731A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523206A (zh) * | 2024-01-04 | 2024-02-06 | 南京航空航天大学 | 一种基于跨源点云与多模态信息的自动化装配方法 |
CN117523206B (zh) * | 2024-01-04 | 2024-03-29 | 南京航空航天大学 | 一种基于跨源点云与多模态信息的自动化装配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210435B (zh) | 一种基于局部和全局特征增强模块的图像语义分割方法 | |
CN110674829B (zh) | 一种基于图卷积注意网络的三维目标检测方法 | |
CN110009674B (zh) | 基于无监督深度学习的单目图像景深实时计算方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN110223382B (zh) | 基于深度学习的单帧图像自由视点三维模型重建方法 | |
CN112767486B (zh) | 基于深度卷积神经网络的单目6d姿态估计方法及装置 | |
US11544898B2 (en) | Method, computer device and storage medium for real-time urban scene reconstruction | |
CN116468731A (zh) | 基于跨模态Transformer的点云语义分割方法 | |
Samavati et al. | Deep learning-based 3D reconstruction: a survey | |
Liu et al. | Convergent binocular vision algorithm for guiding machining robot under extended imaging dynamic range | |
CN114332796A (zh) | 一种多传感器融合体素特征图生成方法及系统 | |
Yin et al. | [Retracted] Virtual Reconstruction Method of Regional 3D Image Based on Visual Transmission Effect | |
CN112258631B (zh) | 一种基于深度神经网络的三维目标检测方法及系统 | |
CN117745944A (zh) | 预训练模型确定方法、装置、设备以及存储介质 | |
CN116433904A (zh) | 一种基于形状感知和像素卷积的跨模态rgb-d语义分割方法 | |
KR20230098058A (ko) | 3차원 데이터 증강 방법, 모델 트레이닝 검출 방법, 설비 및 자율 주행 차량 | |
CN115496859A (zh) | 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 | |
CN115512100A (zh) | 基于多尺度特征提取与融合的点云分割方法、装置及介质 | |
Huo et al. | Semantic segmentation and scene reconstruction for traffic simulation using CNN | |
Motayyeb et al. | Enhancing contrast of images to improve geometric accuracy of a UAV photogrammetry project | |
Lee et al. | Radar translation network between sunny and rainy domains by combination of KP-convolution and CycleGAN | |
CN116363329B (zh) | 基于CGAN与LeNet-5的三维图像生成方法及系统 | |
CN115082295B (zh) | 一种基于自注意力机制的图像编辑方法及装置 | |
CN117593618B (zh) | 基于神经辐射场和深度图的点云生成方法 | |
Wang et al. | PVONet: point-voxel-based semi-supervision monocular three-dimensional object detection using LiDAR camera systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |