CN117422629B - 一种实例感知的单目语义场景补全方法、介质及设备 - Google Patents
一种实例感知的单目语义场景补全方法、介质及设备 Download PDFInfo
- Publication number
- CN117422629B CN117422629B CN202311743384.1A CN202311743384A CN117422629B CN 117422629 B CN117422629 B CN 117422629B CN 202311743384 A CN202311743384 A CN 202311743384A CN 117422629 B CN117422629 B CN 117422629B
- Authority
- CN
- China
- Prior art keywords
- voxel
- feature
- monocular
- grid
- aware
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000008447 perception Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000005065 mining Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 9
- 238000013139 quantization Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 230000000873 masking effect Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 abstract description 8
- 230000000295 complement effect Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000009792 diffusion process Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
- G06V20/38—Outdoor scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Generation (AREA)
Abstract
本发明涉及图像数据处理技术领域,具体提供了一种实例感知的单目语义场景补全方法、介质及设备;其中方法为:将单张RGB图像输入到单目深度估计模型估计得到深度图;反投影出伪点云;将三维空间体素网格分配二进制值得到初始的二进制体素占用网格;通过基于区域量化的变分自编码器预测,生成细粒度的体素查询特征;从RGB图像中挖掘先验特征向量和辅助特征向量;依次通过实例感知注意力模块、可变形交叉注意力模块、可变形自注意力模块进行处理,得到视觉增强的体素特征;进而得到最终的语义场景补全结果。该方法可实现精确地感知室外场景的几何信息和语义信息,计算量低,可提高计算效率。
Description
技术领域
本发明涉及图像数据处理技术领域,更具体地说,涉及一种实例感知的单目语义场景补全方法、介质及设备。
背景技术
现有的语义场景补全方法根据输入数据的不同形式,可大致分为两类:1)基于深度引导的语义场景补全方法。2)基于RGB图像的语义场景补全方法。
基于深度引导的方法主要是通过激光雷达或深度相机获取点云或深度图作为几何引导。然而,雷达的价格是昂贵的,且扫描的对象点云通常是稀疏的,对远距离对象的特征提取带来了极大的挑战。
基于RGB图像的方法可再细分为两类:基于环视角的方法和基于单目的方法。基于环视角的方法在扩展鸟瞰图表示方面进行了改进,但更多视角RGB图像的需求导致图像在数据采集、特征提取和计算资源方面都提出了更高的要求,从而限制了其适用性。基于单目的方法具有便捷、快速的优势,但是由于缺乏准确的深度信息,导致模型预测的三维空间存在层化信息的模糊。
此外,无论是基于深度引导的语义场景补全方法,还是基于RGB图像的语义场景补全方法,都没有深入探究语义场景补全任务中重要实例的感知问题;对于语义场景补全任务而言,需要更加关注对场景中重要实例的感知,如小车、人和摩托等;这对确保自动驾驶系统的安全是至关重要的。
发明内容
为克服现有技术中的缺点与不足,本发明的目的在于提供一种实例感知的单目语义场景补全方法、介质及设备;该方法可从单张RGB图像中估算出相机视野内三维空间中每个体素的占用状态及其对应的语义标签类别,从而实现精确地感知室外场景的几何信息和语义信息,计算量低,可提高计算效率。
为了达到上述目的,本发明通过下述技术方案予以实现:一种实例感知的单目语义场景补全方法,包括如下步骤:
步骤S1、将单张RGB图像输入到单目深度估计模型,估计得到对应的深度图;利用相机参数、相机中心和焦距对深度图进行反投影,得到对应的伪点云;将伪点云三维空间所划分的每一个体素网格分配一个二进制值,得到初始的二进制体素占用网格;
步骤S2、通过基于区域量化的变分自编码器预测得到三维体素占用网格V c ,进而生成细粒度的体素查询特征q;
步骤S3、从所述RGB图像中挖掘先验特征向量f m 和辅助特征向量f r ;
步骤S4、将先验特征向量f m 和辅助特征向量f r 采用实例感知注意力模块进行处理,得到实例增强的RGB图像特征f u ;
步骤S5、采用可变形交叉注意力模块实现体素查询特征q和RGB图像特征f u 之间的有效交互;利用掩码策略选择性地掩码交互体素查询特征q,并使用可变形自注意力模块得到视觉增强的体素特征I 3D ;通过上采样插值技术和基于多层感知机的轻量级分割头得到最终的语义场景补全结果;语义场景补全结果包括场景的占用状态和对应的语义标签。
优选地,所述步骤S2是指:
将初始的二进制体素占用网格V in 划分为局部区域v i (i=1,2,3,...,n)并进行独立的特征提取以得到区域特征z i :
z i = F(v i );
其中,F( )代表特征提取;
采用空间向量量化器VQ(.)将每个区域特征z i 映射到码本E i 中最近的码本条目e k i ,得到量化的区域特征z i q :
;
其中,k表示码本的大小,E i 表示第i个码本;z i 表示第i个区域特征;e i k 表示第i个码本中与z i 距离最近的码本条目;
合并量化的区域特征z i q 得到合并特征z q ;并推断出一个细化的三维体素占用网格V c ;
利用预定义的可学习网格参数Q和三维体素占用网格V c 生成细粒度的体素查询特征q。
优选地,所述变分自编码器是指经过训练的变分自编码器;采用损失函数L VQ 进行训练:
;
其中,N表示占用网格总数,sg ( )表示停止梯度操作函数;z i 表示第i个区域特征;z i q 表示第i个量化区域特征;V c S 表示第S个生成的占用网格;V g S 表示第S个真实的占用网格;β表示设置的超参数。
优选地,所述步骤S4中,实例感知注意力模块的工作方法是:使用卷积神经网络对先验特征向量f m 执行卷积操作,得到查询特征Q m 和关键特征K m ;并对辅助特征向量f r 执行卷积操作得到值特征V r :
;/>;/>;
通过矩阵乘法和Softmax操作来计算空间非局部关系I m :
;
使用空间非局部关系I m 来增强值特征V r ,得到实例感知特征f intra :
;
采用Pytorch内置的插值函数进行最终插值,得到插值特征f ip ,并采用逐元素相加操作,得到实例增强的RGB图像特征f u :
;
其中,a表示设置的超参数。
优选地,所述步骤S1是指:
将单张RGB图像输入到单目深度估计模型;单目深度估计模型估计得到对应的深度图;
基于相机参数、相机中心和焦距,将深度图反投影到三维空间,得到对应的伪点云;将伪点云三维空间划分为体素网格,根据反投影的点云来确定伪点云三维空间所划分的每一个体素网格是否被占用,来分配一个二进制值;当被占用时二进制值为1,未被占用时二进制值为0,得到初始的二进制体素占用网格V in 。
优选地,所述步骤S3是指:使用预训练的Mask2Former模型生成RGB图像对应的掩码图像;采用预训练特征提取模型ResNet-50进行掩码图像和RGB图像的特征提取,得到先验特征向量f m 和辅助特征向量f r 。
优选地,所述步骤S5中,可变形交叉注意力模块的工作方法是:对于三维体素占用网格V c 每一个在位置(x,y,z)处的体素查询特征q,设定体素交叉注意力VCA:
;
其中,d表示投影参考点索引;D表示每个体素查询特征对应的投影参考点总数;DA表示可变形注意力;f u 表示实例感知的图像特征;π(Ref d x,y,z )表示第d个投影参考点。
优选地,所述步骤S5中,可变形自注意力模块VSA的工作方法是:
;
其中,u表示更新的体素查询特征或掩码的标记;p表示占用网格坐标位置。
一种可读存储介质,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述实例感知的单目语义场景补全方法。
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述实例感知的单目语义场景补全方法。
与现有技术相比,本发明具有如下优点与有益效果:
1、本发明先使用深度估计获得RGB图像的深度图,通过相机内外参数矩阵将深度图反投影为伪点云,并执行体素化操作生成初始的二进制体素占用网格;采用基于区域量化的变分自编码器进行三维占用预测,并生成细粒度的体素查询建议特征;之后再次从RGB图像中挖掘额外的先验信息和辅助信息,以增强三维占用预测中实例的可感知性和场景的完整性;使用实例感知注意力模块、可变形交叉注意力模块、可变形自注意力模块来更好地实现体素查询特征与二维图像的交互;最后通过上采样操作得到具有目标维度的输出,并采用一个轻量级的多层感知机输出准确的语义场景补全结果;因此,本发明可从单张RGB图像中估算出相机视野内三维空间中每个体素的占用状态及其对应的语义标签类别,从而实现精确地感知室外场景的几何信息和语义信息;
2、本发明,实例感知注意力模块可以更好地解耦三维空间中物体之间的关联性,使其每一个物体之间能够更好的具有边界性,从而实现更好的三维语义分割;
3、与原始的量化自编码器不同,本发明采用了区域划分策略来增强编码器在独立捕获局部特征的能力,首次在离散空间进行区域编码-解码,不仅降低了特征维数,而且提高了计算效率,也实现了局部原子结构的共享;能进一步推进自动驾驶领域中语义占用网格的预测;
4、现有方法主要是直接将RGB图像特征投影到三维空间,得到三维特征体,并在三维空间进行卷积、上采样和分割操作;但是现有方法会直接带来尺度和深度的歧义性;发明使用了一种基于扩散模型的预训练单目深度估计模型作为深度估计的先验信息,可以得到更加准确的深度信息,降低同一图像特征在三维空间中的深度歧义性;此外,由于发明使用的是预训练单目深度估计模型来进行有效的深度引导,从而实现几何环境的感知;尽管基于环视角的方法也能在一定程度上感知几何信息,但是多个视角的图像特征提取会极大的增加计算量;因此,相比现有方法,本发明提出的深度估计模型在语义场景补全任务中,需要的计算量也会更低;同时,单视角的深度先验在实际应用中也具有更好的便捷性。
附图说明
图1是本发明实例感知的单目语义场景补全方法的流程示意框图;
图2是本发明实例感知的单目语义场景补全方法,实例感知注意力模块的示意框图;
图3是在Semantickitt验证集上的可视化结果示意图;
图4是在Semantickitt测试集上的可视化结果示意图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细的描述。
实施例一
本实施例提供一种实例感知的单目语义场景补全方法,如图1所示,包括如下步骤:
步骤S1、将单张RGB图像输入到单目深度估计模型,估计得到对应的深度图;利用相机参数、相机中心和焦距对深度图进行反投影,得到对应的伪点云;将伪点云三维空间所划分的每一个体素网格分配一个二进制值,得到初始的二进制体素占用网格。
具体是指:
将单张RGB图像输入到现有的单目深度估计模型(Diffusion depth);单目深度估计模型估计得到对应的深度图。这一步骤是实现场景三维预测的关键。通过预测的深度图,可以在一定程度地避免二维特征投影到三维空间中所存在的特征深度歧义性,从而更好地进行体素占用状态的估计。相比于其他单目深度估计模型,本实施例采用扩散深度估计模型;它将深度估计任务定义为一个视觉引导的迭代扩散去噪问题,相比于回归的深度估计方法,能够获得更准确的深度估计结果。
基于已知的相机参数、相机中心和焦距,将深度图反投影到三维空间,得到对应的伪点云;将伪点云三维空间划分为体素网格,根据反投影的点云来确定伪点云三维空间所划分的每一个体素网格是否被占用,来分配一个二进制值;当被占用时二进制值为1,未被占用时二进制值为0,得到初始的二进制体素占用网格V in 。这一步骤有助于构建初始的场景体素表示,但尚未涉及语义信息。
步骤S2、通过基于区域量化的变分自编码器预测得到三维体素占用网格V c ,进而生成细粒度的体素查询特征q。
由于初始的二进制体素占用网格会受到错误深度值的影响,并且会缺失一些关键实例信息。为此,本实施例提出基于区域量化的变分自编码器进一步细化;变分自编码器包括三个核心组件:编码器、解码器和码本。
具体地说,将初始的二进制体素占用网格V in 划分为局部区域v i (i=1,2,3,...,n);每个局部区域相当于一个小的三维空间子区域,这有助于在更小的范围内提取特征,从而更准确地表示局部信息;每个局部区域进行独立的特征提取以得到区域特征z i :
z i = F(v i );
其中,F( )代表特征提取;
采用空间向量量化器VQ(.)将每个区域特征z i 映射到码本E i 中最近的码本条目e k i ,得到量化的区域特征z i q :
;
其中,k表示码本的大小,E i 表示第i个码本。
使用空间向量量化器,将连续特征映射到最接近的码本,从而生成量化的区域特征,这有助于减少特征的维度,提高计算效率,同时共享相似的局部原子结构信息。
合并量化的区域特征z i q 得到合并特征z q ;并推断出一个细化的三维体素占用网格V c ;
利用预定义的可学习网格参数Q和三维体素占用网格V c 生成细粒度的体素查询特征q。
相比于现有连续的场景编码方法,本实施例提出的区域量化变分自编码器具有降低特征维度、提高计算效率、共享局部原子结构信息的优点。
所述变分自编码器是指经过训练的变分自编码器;采用Straight-ThroughEstimator(STE)技术并构建如下损失函数进行训练:
;
其中,N表示占用网格总数,sg ( )表示停止梯度操作函数;z i 表示第i个区域特征;z i q 表示第i个量化区域特征;V c S 表示第S个生成的占用网格;V g S 表示第S个真实的占用网格;β表示设置的超参数。
步骤S3、从所述RGB图像中挖掘先验特征向量f m 和辅助特征向量f r 。具体地说,使用预训练的Mask2Former模型生成RGB图像对应的掩码图像;采用预训练特征提取模型ResNet-50进行掩码图像和RGB图像的特征提取,得到先验特征向量f m 和辅助特征向量f r 。
步骤S4、将先验特征向量f m 和辅助特征向量f r 采用实例感知注意力模块进行处理,得到实例增强的RGB图像特征f u 。
实例感知注意力模块的工作方法是:如图2所示,使用卷积神经网络对先验特征向量f m 执行卷积操作,得到查询特征Q m 和关键特征K m ;并对辅助特征向量f r 执行卷积操作得到值特征V r :
;/>;/>;
通过矩阵乘法和Softmax操作来计算空间非局部关系I m :
;
使用空间非局部关系I m 来增强值特征V r ,得到实例感知特征f intra :
;
采用Pytorch内置的插值函数进行最终插值,得到插值特征f ip ,并采用逐元素相加操作,得到实例增强的RGB图像特征f u :
;
其中,a表示设置的超参数。
步骤S5、采用可变形交叉注意力模块实现体素查询特征q和RGB图像特征f u 之间的有效交互;利用掩码策略选择性地掩码交互体素查询特征q,并使用可变形自注意力模块得到视觉增强的体素特征I 3D 。
具体地说,可变形交叉注意力模块的工作方法是:对于三维体素占用网格V c 每一个在位置(x,y,z)处的体素查询特征q,设定体素交叉注意力VCA:
;
其中,d表示投影参考点索引;D表示每个体素查询特征对应的投影参考点总数;DA表示可变形注意力;f u 表示实例感知的图像特征;π(Ref d x,y,z )表示第d个投影参考点。
可变形交叉注意力模块主要是实现体素查询特征q和RGB图像特征f u 之间的有效交互,使用RGB图像所包含的丰富视觉线索增强三维空间的表达。
可变形自注意力模块VSA的工作方法是:
;
其中,u表示更新的体素查询特征或掩码的标记;p表示占用网格坐标位置。
可变形自注意力模块旨在进一步得到细化、完整的体素查询特征;采用掩码策略选择性掩码体素查询,来提升体素占用预测的完整性。
最后,通过上采样插值技术和基于多层感知机的轻量级分割头得到最终的语义场景补全结果;语义场景补全结果包括场景的占用状态和对应的语义标签。
本实施例解决了现有技术中的问题,包括单目场景理解的不足,以及对场景中多个实例的准确感知等。可以用于增强现实、自动驾驶、机器人导航等领域,提升了三维感知的精度和应用范围。
为验证本发明方法的技术效果,采用若干现有方法和本发明方法分别在Semantickitt验证集和Semantickitt测试集上进行了试验和对比;现有方法包括:LMSCNet(Lightweight Multiscale 3D Semantic Completion Net,轻量级多尺度三维语义场景补全)、3DSketch(3D Sketch-aware Semantic Scene Completion via Semi-supervisedStructure Prior,使用半监督结构先验骨架感知的语义场景补全)、AICNet(AnisotropicConvolutional Networks for 3D Semantic Scene Completion,各向异性卷积网络的语义场景补全)、MonoScene(Monocular 3D Semantic Scene Completion ,单目三维语义场景补全)、TPVFormer(Tri-Perspective View for Vision-Based 3DSemanticOccupancy Prediction,基于视觉的三视角视图的三维语义占用预测)、VoxFormer-S(Sparse Voxel Transformer for Camera-based 3D Semantic SceneCompletion,基于相机的三维语义场景补全的稀疏体素变换器)。
在Semantickitt验证集上的实验数据结果如表1所示;
表1 在Semantickitt验证集上的实验数据结果
在Semantickitt测试集上的实验数据结果如表2所示;
表2 在Semantickitt测试集上的实验数据结果
从表1和表2可知,本发明方法的平均交并比较其它现有方法高,能准确感知室外场景的几何信息和语义信息。
本实施例提供可视化结果;在Semantickitt验证集上的可视化结果如图3所示;由图3可知,本发明方法生成轮廓分明、边界清晰的汽车造型;相比其他方法,本发明方法擅长捕捉不太突出的物体类别,例如极点;此外,VoxFormer-S和本发明方法都表现出在生成空间结构方面的卓越能力,而MonoScene往往会过度生成平滑的结果;并且本发明方法较VoxFormer-S具备更优越的完备性。
在Semantickitt测试集上的可视化结果如图4所示,本实施例选择了几个具有代表性的场景可视化,包括日落时的工业道路、广阔景色开阔的乡村公路、欧洲城镇的市中心和拥堵的高速公路;结果显示本发明方法成功避免生成细长条纹,即使在长距离场景中也是如此;本发明方法的显著优势之一在于它能够准确感知;即使在拥堵的高速公路场景中也能有效地将大量汽车隔开;在乡村道路场景,本发明方法展示了准确生成排列整齐的树;相比之下,MonoScene完全忽略了树的生成,而VoxFormer-S没有做到生成完整的树。
实施例二
本实施例一种可读存储介质,其中所述可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的实例感知的单目语义场景补全方法。
实施例三
本实施例一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例一所述的实例感知的单目语义场景补全方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种实例感知的单目语义场景补全方法,其特征在于:包括如下步骤:
步骤S1、将单张RGB图像输入到单目深度估计模型,估计得到对应的深度图;利用相机参数、相机中心和焦距对深度图进行反投影,得到对应的伪点云;将伪点云三维空间所划分的每一个体素网格分配一个二进制值,得到初始的二进制体素占用网格;
步骤S2、通过基于区域量化的变分自编码器预测得到三维体素占用网格V c ,进而生成细粒度的体素查询特征q;
所述步骤S2是指:
将初始的二进制体素占用网格V in 划分为局部区域v i (i=1,2,3,...,n)并进行独立的特征提取以得到区域特征z i :
z i = F(v i );
其中,F( )代表特征提取;
采用空间向量量化器VQ(.)将每个区域特征z i 映射到码本E i 中最近的码本条目e k i ,得到量化的区域特征z i q :
;
其中,k表示码本的大小,E i 表示第i个码本;z i 表示第i个区域特征;e i k 表示第i个码本中与z i 距离最近的码本条目;
合并量化的区域特征z i q 得到合并特征z q ;并推断出一个细化的三维体素占用网格V c ;
利用预定义的可学习网格参数Q和三维体素占用网格V c 生成细粒度的体素查询特征q;
步骤S3、从所述RGB图像中挖掘先验特征向量f m 和辅助特征向量f r ;
所述步骤S3是指:使用预训练的Mask2Former模型生成RGB图像对应的掩码图像;采用预训练特征提取模型ResNet-50进行掩码图像和RGB图像的特征提取,得到先验特征向量f m 和辅助特征向量f r ;
步骤S4、将先验特征向量f m 和辅助特征向量f r 采用实例感知注意力模块进行处理,得到实例增强的RGB图像特征f u ;
步骤S5、采用可变形交叉注意力模块实现体素查询特征q和RGB图像特征f u 之间的有效交互;利用掩码策略选择性地掩码交互体素查询特征q,并使用可变形自注意力模块得到视觉增强的体素特征I 3D ;通过上采样插值技术和基于多层感知机的轻量级分割头得到最终的语义场景补全结果。
2.根据权利要求1所述的实例感知的单目语义场景补全方法,其特征在于:所述变分自编码器是指经过训练的变分自编码器;采用损失函数L VQ 进行训练:
;
其中,N表示占用网格总数,sg ( )表示停止梯度操作函数;z i 表示第i个区域特征; z i q 表示第i个量化区域特征;V c S 表示第S个生成的占用网格;V g S 表示第S个真实的占用网格;β表示设置的超参数。
3.根据权利要求1所述的实例感知的单目语义场景补全方法,其特征在于:所述步骤S4中,实例感知注意力模块的工作方法是:使用卷积神经网络对先验特征向量f m 执行卷积操作,得到查询特征Q m 和关键特征K m ;并对辅助特征向量f r 执行卷积操作得到值特征V r :
;/>;/>;
通过矩阵乘法和Softmax操作来计算空间非局部关系I m :
;
使用空间非局部关系I m 来增强值特征V r ,得到实例感知特征f intra :
;
采用Pytorch内置的插值函数进行最终插值,得到插值特征f ip ,并采用逐元素相加操作,得到实例增强的RGB图像特征f u :
;
其中,a表示设置的超参数。
4.根据权利要求1所述的实例感知的单目语义场景补全方法,其特征在于:所述步骤S1是指:
将单张RGB图像输入到单目深度估计模型;单目深度估计模型估计得到对应的深度图;
基于相机参数、相机中心和焦距,将深度图反投影到三维空间,得到对应的伪点云;将伪点云三维空间划分为体素网格,根据反投影的点云来确定伪点云三维空间所划分的每一个体素网格是否被占用,来分配一个二进制值;当被占用时二进制值为1,未被占用时二进制值为0,得到初始的二进制体素占用网格V in 。
5.根据权利要求1所述的实例感知的单目语义场景补全方法,其特征在于:所述步骤S5中,可变形交叉注意力模块的工作方法是:对于三维体素占用网格V c 每一个在位置(x,y,z)处的体素查询特征q,设定体素交叉注意力VCA:
;
其中,d表示投影参考点索引;D表示每个体素查询特征对应的投影参考点总数;DA表示可变形注意力;f u 表示实例感知的图像特征;π(Ref d x,y,z )表示第d个投影参考点。
6.根据权利要求1所述的实例感知的单目语义场景补全方法,其特征在于:所述步骤S5中,可变形自注意力模块VSA的工作方法是:
;
其中,u表示更新的体素查询特征或掩码的标记;p表示占用网格坐标位置;DA表示可变形注意力。
7.一种可读存储介质,其特征在于,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1-6中任一项所述的实例感知的单目语义场景补全方法。
8.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-6中任一项所述的实例感知的单目语义场景补全方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311743384.1A CN117422629B (zh) | 2023-12-19 | 2023-12-19 | 一种实例感知的单目语义场景补全方法、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311743384.1A CN117422629B (zh) | 2023-12-19 | 2023-12-19 | 一种实例感知的单目语义场景补全方法、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117422629A CN117422629A (zh) | 2024-01-19 |
CN117422629B true CN117422629B (zh) | 2024-04-26 |
Family
ID=89532808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311743384.1A Active CN117422629B (zh) | 2023-12-19 | 2023-12-19 | 一种实例感知的单目语义场景补全方法、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117422629B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037138A (zh) * | 2020-07-29 | 2020-12-04 | 大连理工大学 | 一种单张深度图点云场景语义补全的方法 |
WO2021198666A1 (en) * | 2020-03-31 | 2021-10-07 | Imperial College Of Science, Technology And Medicine | Image processing system and method |
CN113487664A (zh) * | 2021-07-23 | 2021-10-08 | 香港中文大学(深圳) | 三维场景感知方法、装置、电子设备、机器人及介质 |
CN113850270A (zh) * | 2021-04-15 | 2021-12-28 | 北京大学 | 基于点云-体素聚合网络模型的语义场景补全方法及系统 |
CN115631489A (zh) * | 2022-11-03 | 2023-01-20 | 香港中文大学(深圳) | 一种三维语义场景补全方法、装置、设备及介质 |
CN116630912A (zh) * | 2023-03-24 | 2023-08-22 | 北京鉴智科技有限公司 | 三维语义占用预测方法、系统、设备、介质及产品 |
WO2023155353A1 (zh) * | 2022-02-16 | 2023-08-24 | 奥比中光科技集团股份有限公司 | 深度图像的获取方法、装置、深度系统、终端和存储介质 |
CN116934977A (zh) * | 2023-08-03 | 2023-10-24 | 山东大学 | 一种基于三维占用预测和神经渲染的视觉三维感知方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808261B (zh) * | 2021-09-30 | 2022-10-21 | 大连理工大学 | 一种基于全景图的自监督学习场景点云补全的数据集生成方法 |
US20230260247A1 (en) * | 2022-02-17 | 2023-08-17 | Samsung Electronics Co., Ltd. | System and method for dual-value attention and instance boundary aware regression in computer vision system |
-
2023
- 2023-12-19 CN CN202311743384.1A patent/CN117422629B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021198666A1 (en) * | 2020-03-31 | 2021-10-07 | Imperial College Of Science, Technology And Medicine | Image processing system and method |
CN112037138A (zh) * | 2020-07-29 | 2020-12-04 | 大连理工大学 | 一种单张深度图点云场景语义补全的方法 |
CN113850270A (zh) * | 2021-04-15 | 2021-12-28 | 北京大学 | 基于点云-体素聚合网络模型的语义场景补全方法及系统 |
CN113487664A (zh) * | 2021-07-23 | 2021-10-08 | 香港中文大学(深圳) | 三维场景感知方法、装置、电子设备、机器人及介质 |
WO2023155353A1 (zh) * | 2022-02-16 | 2023-08-24 | 奥比中光科技集团股份有限公司 | 深度图像的获取方法、装置、深度系统、终端和存储介质 |
CN115631489A (zh) * | 2022-11-03 | 2023-01-20 | 香港中文大学(深圳) | 一种三维语义场景补全方法、装置、设备及介质 |
CN116630912A (zh) * | 2023-03-24 | 2023-08-22 | 北京鉴智科技有限公司 | 三维语义占用预测方法、系统、设备、介质及产品 |
CN116934977A (zh) * | 2023-08-03 | 2023-10-24 | 山东大学 | 一种基于三维占用预测和神经渲染的视觉三维感知方法及系统 |
Non-Patent Citations (2)
Title |
---|
Learning Discriminative Speaker Embedding by Improving Aggregation Strategy and Loss Function for Speaker Verification;Chengfang Luo et al;《2021 IEEE International Joint Conference on Biometrics(IJCB)》;20210720;第1-8页 * |
三维补全关键技术研究综述;肖海鸿 等;《光学 精密工程》;20230331;第31卷(第5期);第667-696页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117422629A (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6745328B2 (ja) | 点群データを復旧するための方法及び装置 | |
CN110659664A (zh) | 一种基于ssd的高精度识别小物体的方法 | |
CN113761999A (zh) | 一种目标检测方法、装置、电子设备和存储介质 | |
US11544898B2 (en) | Method, computer device and storage medium for real-time urban scene reconstruction | |
CN114841228A (zh) | 生成用于指定视觉数据集的数据结构 | |
CN114758337A (zh) | 一种语义实例重建方法、装置、设备及介质 | |
CN115578702A (zh) | 道路元素的提取方法、装置、电子设备、存储介质及车辆 | |
JP2024507727A (ja) | 潜在変数で条件付けた幾何学的形状認識ニューラルネットワークを使用した、シーンの新規画像のレンダリング | |
CN116563488A (zh) | 一种基于点云体柱化的三维目标检测方法 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN116433903A (zh) | 实例分割模型构建方法、系统、电子设备及存储介质 | |
CN115147798A (zh) | 可行驶区域预测方法、模型、装置及车辆 | |
CN114462486A (zh) | 图像处理模型的训练方法、图像处理方法及相关装置 | |
Ibrahim et al. | MVPCC-Net: multi-view based point cloud completion network for MLS data | |
Gählert et al. | Single-shot 3d detection of vehicles from monocular rgb images via geometry constrained keypoints in real-time | |
CN117422629B (zh) | 一种实例感知的单目语义场景补全方法、介质及设备 | |
CN116703996A (zh) | 基于实例级自适应深度估计的单目三维目标检测算法 | |
CN116630912A (zh) | 三维语义占用预测方法、系统、设备、介质及产品 | |
CN116168384A (zh) | 点云目标检测方法、装置、电子设备及存储介质 | |
CN115035296A (zh) | 一种基于鸟瞰投影的飞行汽车3d语义分割方法及系统 | |
Jeong et al. | Fast and Lite Point Cloud Semantic Segmentation for Autonomous Driving Utilizing LiDAR Synthetic Training Data | |
CN114743001A (zh) | 语义分割方法、装置、电子设备及存储介质 | |
CN113920733A (zh) | 一种基于深度网络的交通体量估计方法及系统 | |
CN116052122B (zh) | 一种可行驶空间的检测方法、装置、电子设备及存储介质 | |
US20230105331A1 (en) | Methods and systems for semantic scene completion for sparse 3d data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |