CN117422629B

CN117422629B - 一种实例感知的单目语义场景补全方法、介质及设备

Info

Publication number: CN117422629B
Application number: CN202311743384.1A
Authority: CN
Inventors: 康文雄; 肖海鸿; 谷文聪
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-04-26
Anticipated expiration: 2043-12-19
Also published as: CN117422629A

Abstract

本发明涉及图像数据处理技术领域，具体提供了一种实例感知的单目语义场景补全方法、介质及设备；其中方法为：将单张RGB图像输入到单目深度估计模型估计得到深度图；反投影出伪点云；将三维空间体素网格分配二进制值得到初始的二进制体素占用网格；通过基于区域量化的变分自编码器预测，生成细粒度的体素查询特征；从RGB图像中挖掘先验特征向量和辅助特征向量；依次通过实例感知注意力模块、可变形交叉注意力模块、可变形自注意力模块进行处理，得到视觉增强的体素特征；进而得到最终的语义场景补全结果。该方法可实现精确地感知室外场景的几何信息和语义信息，计算量低，可提高计算效率。

Description

一种实例感知的单目语义场景补全方法、介质及设备

技术领域

本发明涉及图像数据处理技术领域，更具体地说，涉及一种实例感知的单目语义场景补全方法、介质及设备。

背景技术

现有的语义场景补全方法根据输入数据的不同形式，可大致分为两类：1）基于深度引导的语义场景补全方法。2）基于RGB图像的语义场景补全方法。

基于深度引导的方法主要是通过激光雷达或深度相机获取点云或深度图作为几何引导。然而，雷达的价格是昂贵的，且扫描的对象点云通常是稀疏的，对远距离对象的特征提取带来了极大的挑战。

基于RGB图像的方法可再细分为两类：基于环视角的方法和基于单目的方法。基于环视角的方法在扩展鸟瞰图表示方面进行了改进，但更多视角RGB图像的需求导致图像在数据采集、特征提取和计算资源方面都提出了更高的要求，从而限制了其适用性。基于单目的方法具有便捷、快速的优势，但是由于缺乏准确的深度信息，导致模型预测的三维空间存在层化信息的模糊。

此外，无论是基于深度引导的语义场景补全方法，还是基于RGB图像的语义场景补全方法，都没有深入探究语义场景补全任务中重要实例的感知问题；对于语义场景补全任务而言，需要更加关注对场景中重要实例的感知，如小车、人和摩托等；这对确保自动驾驶系统的安全是至关重要的。

发明内容

为克服现有技术中的缺点与不足，本发明的目的在于提供一种实例感知的单目语义场景补全方法、介质及设备；该方法可从单张RGB图像中估算出相机视野内三维空间中每个体素的占用状态及其对应的语义标签类别，从而实现精确地感知室外场景的几何信息和语义信息，计算量低，可提高计算效率。

为了达到上述目的，本发明通过下述技术方案予以实现：一种实例感知的单目语义场景补全方法，包括如下步骤：

步骤S1、将单张RGB图像输入到单目深度估计模型，估计得到对应的深度图；利用相机参数、相机中心和焦距对深度图进行反投影，得到对应的伪点云；将伪点云三维空间所划分的每一个体素网格分配一个二进制值，得到初始的二进制体素占用网格；

步骤S2、通过基于区域量化的变分自编码器预测得到三维体素占用网格V _c，进而生成细粒度的体素查询特征q；

步骤S3、从所述RGB图像中挖掘先验特征向量f _m和辅助特征向量f _r；

步骤S4、将先验特征向量f _m和辅助特征向量f _r采用实例感知注意力模块进行处理，得到实例增强的RGB图像特征f _u；

步骤S5、采用可变形交叉注意力模块实现体素查询特征q和RGB图像特征f _u之间的有效交互；利用掩码策略选择性地掩码交互体素查询特征q，并使用可变形自注意力模块得到视觉增强的体素特征I ^3D；通过上采样插值技术和基于多层感知机的轻量级分割头得到最终的语义场景补全结果；语义场景补全结果包括场景的占用状态和对应的语义标签。

优选地，所述步骤S2是指：

将初始的二进制体素占用网格V _in划分为局部区域v ⁱ （i=1,2,3,...,n）并进行独立的特征提取以得到区域特征z ⁱ：

z ⁱ= F(v ⁱ)；

其中，F( )代表特征提取；

采用空间向量量化器VQ(.)将每个区域特征z ⁱ映射到码本E ⁱ中最近的码本条目e _k ⁱ，得到量化的区域特征z ⁱ _q：

；

其中，k表示码本的大小，E ⁱ表示第i个码本；z ⁱ表示第i个区域特征；e ⁱ _k表示第i个码本中与z ⁱ距离最近的码本条目；

合并量化的区域特征z ⁱ _q得到合并特征z _q；并推断出一个细化的三维体素占用网格V _c；

利用预定义的可学习网格参数Q和三维体素占用网格V _c生成细粒度的体素查询特征q。

优选地，所述变分自编码器是指经过训练的变分自编码器；采用损失函数L _VQ进行训练：

；

其中，N表示占用网格总数，sg ( )表示停止梯度操作函数；z ⁱ表示第i个区域特征；z ⁱ _q表示第i个量化区域特征；V _c ^S表示第S个生成的占用网格；V _g ^S表示第S个真实的占用网格；β表示设置的超参数。

优选地，所述步骤S4中，实例感知注意力模块的工作方法是：使用卷积神经网络对先验特征向量f _m执行卷积操作，得到查询特征Q _m和关键特征K _m；并对辅助特征向量f _r执行卷积操作得到值特征V _r：

；/>；/>；

通过矩阵乘法和Softmax操作来计算空间非局部关系I _m：

；

使用空间非局部关系I _m来增强值特征V _r，得到实例感知特征f _intra：

；

采用Pytorch内置的插值函数进行最终插值，得到插值特征f _ip，并采用逐元素相加操作，得到实例增强的RGB图像特征f _u：

；

其中，a表示设置的超参数。

优选地，所述步骤S1是指：

将单张RGB图像输入到单目深度估计模型；单目深度估计模型估计得到对应的深度图；

基于相机参数、相机中心和焦距，将深度图反投影到三维空间，得到对应的伪点云；将伪点云三维空间划分为体素网格，根据反投影的点云来确定伪点云三维空间所划分的每一个体素网格是否被占用，来分配一个二进制值；当被占用时二进制值为1，未被占用时二进制值为0，得到初始的二进制体素占用网格V _in。

优选地，所述步骤S3是指：使用预训练的Mask2Former模型生成RGB图像对应的掩码图像；采用预训练特征提取模型ResNet-50进行掩码图像和RGB图像的特征提取，得到先验特征向量f _m和辅助特征向量f _r。

优选地，所述步骤S5中，可变形交叉注意力模块的工作方法是：对于三维体素占用网格V _c每一个在位置（x,y,z）处的体素查询特征q,设定体素交叉注意力VCA：

；

其中，d表示投影参考点索引；D表示每个体素查询特征对应的投影参考点总数；DA表示可变形注意力；f _u表示实例感知的图像特征；π(Ref ^d _x,y,z)表示第d个投影参考点。

优选地，所述步骤S5中，可变形自注意力模块VSA的工作方法是：

；

其中，u表示更新的体素查询特征或掩码的标记；p表示占用网格坐标位置。

一种可读存储介质，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述实例感知的单目语义场景补全方法。

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述实例感知的单目语义场景补全方法。

与现有技术相比，本发明具有如下优点与有益效果：

1、本发明先使用深度估计获得RGB图像的深度图，通过相机内外参数矩阵将深度图反投影为伪点云，并执行体素化操作生成初始的二进制体素占用网格；采用基于区域量化的变分自编码器进行三维占用预测，并生成细粒度的体素查询建议特征；之后再次从RGB图像中挖掘额外的先验信息和辅助信息，以增强三维占用预测中实例的可感知性和场景的完整性；使用实例感知注意力模块、可变形交叉注意力模块、可变形自注意力模块来更好地实现体素查询特征与二维图像的交互；最后通过上采样操作得到具有目标维度的输出，并采用一个轻量级的多层感知机输出准确的语义场景补全结果；因此，本发明可从单张RGB图像中估算出相机视野内三维空间中每个体素的占用状态及其对应的语义标签类别，从而实现精确地感知室外场景的几何信息和语义信息；

2、本发明，实例感知注意力模块可以更好地解耦三维空间中物体之间的关联性，使其每一个物体之间能够更好的具有边界性，从而实现更好的三维语义分割；

3、与原始的量化自编码器不同，本发明采用了区域划分策略来增强编码器在独立捕获局部特征的能力，首次在离散空间进行区域编码-解码，不仅降低了特征维数，而且提高了计算效率，也实现了局部原子结构的共享；能进一步推进自动驾驶领域中语义占用网格的预测；

4、现有方法主要是直接将RGB图像特征投影到三维空间，得到三维特征体，并在三维空间进行卷积、上采样和分割操作；但是现有方法会直接带来尺度和深度的歧义性；发明使用了一种基于扩散模型的预训练单目深度估计模型作为深度估计的先验信息，可以得到更加准确的深度信息，降低同一图像特征在三维空间中的深度歧义性；此外，由于发明使用的是预训练单目深度估计模型来进行有效的深度引导，从而实现几何环境的感知；尽管基于环视角的方法也能在一定程度上感知几何信息，但是多个视角的图像特征提取会极大的增加计算量；因此，相比现有方法，本发明提出的深度估计模型在语义场景补全任务中，需要的计算量也会更低；同时，单视角的深度先验在实际应用中也具有更好的便捷性。

附图说明

图1是本发明实例感知的单目语义场景补全方法的流程示意框图；

图2是本发明实例感知的单目语义场景补全方法，实例感知注意力模块的示意框图；

图3是在Semantickitt验证集上的可视化结果示意图；

图4是在Semantickitt测试集上的可视化结果示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的描述。

实施例一

本实施例提供一种实例感知的单目语义场景补全方法，如图1所示，包括如下步骤：

步骤S1、将单张RGB图像输入到单目深度估计模型，估计得到对应的深度图；利用相机参数、相机中心和焦距对深度图进行反投影，得到对应的伪点云；将伪点云三维空间所划分的每一个体素网格分配一个二进制值，得到初始的二进制体素占用网格。

具体是指：

将单张RGB图像输入到现有的单目深度估计模型（Diffusion depth）；单目深度估计模型估计得到对应的深度图。这一步骤是实现场景三维预测的关键。通过预测的深度图，可以在一定程度地避免二维特征投影到三维空间中所存在的特征深度歧义性，从而更好地进行体素占用状态的估计。相比于其他单目深度估计模型，本实施例采用扩散深度估计模型；它将深度估计任务定义为一个视觉引导的迭代扩散去噪问题，相比于回归的深度估计方法，能够获得更准确的深度估计结果。

基于已知的相机参数、相机中心和焦距，将深度图反投影到三维空间，得到对应的伪点云；将伪点云三维空间划分为体素网格，根据反投影的点云来确定伪点云三维空间所划分的每一个体素网格是否被占用，来分配一个二进制值；当被占用时二进制值为1，未被占用时二进制值为0，得到初始的二进制体素占用网格V _in。这一步骤有助于构建初始的场景体素表示，但尚未涉及语义信息。

步骤S2、通过基于区域量化的变分自编码器预测得到三维体素占用网格V _c，进而生成细粒度的体素查询特征q。

由于初始的二进制体素占用网格会受到错误深度值的影响，并且会缺失一些关键实例信息。为此，本实施例提出基于区域量化的变分自编码器进一步细化；变分自编码器包括三个核心组件：编码器、解码器和码本。

具体地说，将初始的二进制体素占用网格V _in划分为局部区域v ⁱ （i=1,2,3,...,n）；每个局部区域相当于一个小的三维空间子区域，这有助于在更小的范围内提取特征，从而更准确地表示局部信息；每个局部区域进行独立的特征提取以得到区域特征z ⁱ：

z ⁱ= F(v ⁱ)；

其中，F( )代表特征提取；

；

其中，k表示码本的大小，E ⁱ表示第i个码本。

使用空间向量量化器，将连续特征映射到最接近的码本，从而生成量化的区域特征，这有助于减少特征的维度，提高计算效率，同时共享相似的局部原子结构信息。

相比于现有连续的场景编码方法，本实施例提出的区域量化变分自编码器具有降低特征维度、提高计算效率、共享局部原子结构信息的优点。

所述变分自编码器是指经过训练的变分自编码器；采用Straight-ThroughEstimator（STE）技术并构建如下损失函数进行训练：

；

步骤S3、从所述RGB图像中挖掘先验特征向量f _m和辅助特征向量f _r。具体地说，使用预训练的Mask2Former模型生成RGB图像对应的掩码图像；采用预训练特征提取模型ResNet-50进行掩码图像和RGB图像的特征提取，得到先验特征向量f _m和辅助特征向量f _r。

步骤S4、将先验特征向量f _m和辅助特征向量f _r采用实例感知注意力模块进行处理，得到实例增强的RGB图像特征f _u。

实例感知注意力模块的工作方法是：如图2所示，使用卷积神经网络对先验特征向量f _m执行卷积操作，得到查询特征Q _m和关键特征K _m；并对辅助特征向量f _r执行卷积操作得到值特征V _r：

；/>；/>；

通过矩阵乘法和Softmax操作来计算空间非局部关系I _m：

；

其中，a表示设置的超参数。

步骤S5、采用可变形交叉注意力模块实现体素查询特征q和RGB图像特征f _u之间的有效交互；利用掩码策略选择性地掩码交互体素查询特征q，并使用可变形自注意力模块得到视觉增强的体素特征I ^3D。

具体地说，可变形交叉注意力模块的工作方法是：对于三维体素占用网格V _c每一个在位置（x,y,z）处的体素查询特征q,设定体素交叉注意力VCA：

；

可变形交叉注意力模块主要是实现体素查询特征q和RGB图像特征f _u之间的有效交互，使用RGB图像所包含的丰富视觉线索增强三维空间的表达。

可变形自注意力模块VSA的工作方法是：

；

可变形自注意力模块旨在进一步得到细化、完整的体素查询特征；采用掩码策略选择性掩码体素查询，来提升体素占用预测的完整性。

最后，通过上采样插值技术和基于多层感知机的轻量级分割头得到最终的语义场景补全结果；语义场景补全结果包括场景的占用状态和对应的语义标签。

本实施例解决了现有技术中的问题，包括单目场景理解的不足，以及对场景中多个实例的准确感知等。可以用于增强现实、自动驾驶、机器人导航等领域，提升了三维感知的精度和应用范围。

为验证本发明方法的技术效果，采用若干现有方法和本发明方法分别在Semantickitt验证集和Semantickitt测试集上进行了试验和对比；现有方法包括：LMSCNet（Lightweight Multiscale 3D Semantic Completion Net，轻量级多尺度三维语义场景补全）、3DSketch（3D Sketch-aware Semantic Scene Completion via Semi-supervisedStructure Prior，使用半监督结构先验骨架感知的语义场景补全）、AICNet（AnisotropicConvolutional Networks for 3D Semantic Scene Completion，各向异性卷积网络的语义场景补全）、MonoScene（Monocular 3D Semantic Scene Completion ，单目三维语义场景补全）、TPVFormer（Tri-Perspective View for Vision-Based 3DSemanticOccupancy Prediction，基于视觉的三视角视图的三维语义占用预测）、VoxFormer-S（Sparse Voxel Transformer for Camera-based 3D Semantic SceneCompletion，基于相机的三维语义场景补全的稀疏体素变换器）。

在Semantickitt验证集上的实验数据结果如表1所示；

表1 在Semantickitt验证集上的实验数据结果

在Semantickitt测试集上的实验数据结果如表2所示；

表2 在Semantickitt测试集上的实验数据结果

从表1和表2可知，本发明方法的平均交并比较其它现有方法高，能准确感知室外场景的几何信息和语义信息。

本实施例提供可视化结果；在Semantickitt验证集上的可视化结果如图3所示；由图3可知，本发明方法生成轮廓分明、边界清晰的汽车造型；相比其他方法，本发明方法擅长捕捉不太突出的物体类别，例如极点；此外，VoxFormer-S和本发明方法都表现出在生成空间结构方面的卓越能力，而MonoScene往往会过度生成平滑的结果；并且本发明方法较VoxFormer-S具备更优越的完备性。

在Semantickitt测试集上的可视化结果如图4所示，本实施例选择了几个具有代表性的场景可视化，包括日落时的工业道路、广阔景色开阔的乡村公路、欧洲城镇的市中心和拥堵的高速公路；结果显示本发明方法成功避免生成细长条纹，即使在长距离场景中也是如此；本发明方法的显著优势之一在于它能够准确感知；即使在拥堵的高速公路场景中也能有效地将大量汽车隔开；在乡村道路场景，本发明方法展示了准确生成排列整齐的树；相比之下，MonoScene完全忽略了树的生成，而VoxFormer-S没有做到生成完整的树。

实施例二

本实施例一种可读存储介质，其中所述可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的实例感知的单目语义场景补全方法。

实施例三

本实施例一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现实施例一所述的实例感知的单目语义场景补全方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种实例感知的单目语义场景补全方法，其特征在于：包括如下步骤：

所述步骤S2是指：

z ⁱ= F(v ⁱ)；

其中，F( )代表特征提取；

；

利用预定义的可学习网格参数Q和三维体素占用网格V _c生成细粒度的体素查询特征q；

所述步骤S3是指：使用预训练的Mask2Former模型生成RGB图像对应的掩码图像；采用预训练特征提取模型ResNet-50进行掩码图像和RGB图像的特征提取，得到先验特征向量f _m和辅助特征向量f _r；

步骤S5、采用可变形交叉注意力模块实现体素查询特征q和RGB图像特征f _u之间的有效交互；利用掩码策略选择性地掩码交互体素查询特征q，并使用可变形自注意力模块得到视觉增强的体素特征I ^3D；通过上采样插值技术和基于多层感知机的轻量级分割头得到最终的语义场景补全结果。

2.根据权利要求1所述的实例感知的单目语义场景补全方法，其特征在于：所述变分自编码器是指经过训练的变分自编码器；采用损失函数L _VQ进行训练：

；

其中，N表示占用网格总数，sg ( )表示停止梯度操作函数；z ⁱ表示第i个区域特征； z ⁱ _q表示第i个量化区域特征；V _c ^S表示第S个生成的占用网格；V _g ^S表示第S个真实的占用网格；β表示设置的超参数。

3.根据权利要求1所述的实例感知的单目语义场景补全方法，其特征在于：所述步骤S4中，实例感知注意力模块的工作方法是：使用卷积神经网络对先验特征向量f _m执行卷积操作，得到查询特征Q _m和关键特征K _m；并对辅助特征向量f _r执行卷积操作得到值特征V _r：

；/>；/>；

通过矩阵乘法和Softmax操作来计算空间非局部关系I _m：

；

其中，a表示设置的超参数。

4.根据权利要求1所述的实例感知的单目语义场景补全方法，其特征在于：所述步骤S1是指：

5.根据权利要求1所述的实例感知的单目语义场景补全方法，其特征在于：所述步骤S5中，可变形交叉注意力模块的工作方法是：对于三维体素占用网格V _c每一个在位置（x,y,z）处的体素查询特征q,设定体素交叉注意力VCA：

；

6.根据权利要求1所述的实例感知的单目语义场景补全方法，其特征在于：所述步骤S5中，可变形自注意力模块VSA的工作方法是：

；

其中，u表示更新的体素查询特征或掩码的标记；p表示占用网格坐标位置；DA表示可变形注意力。

7.一种可读存储介质，其特征在于，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行权利要求1-6中任一项所述的实例感知的单目语义场景补全方法。

8.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-6中任一项所述的实例感知的单目语义场景补全方法。