CN116681831A - 一种自下而上的单图像全景重建方法、装置及计算机设备 - Google Patents
一种自下而上的单图像全景重建方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN116681831A CN116681831A CN202310650872.1A CN202310650872A CN116681831A CN 116681831 A CN116681831 A CN 116681831A CN 202310650872 A CN202310650872 A CN 202310650872A CN 116681831 A CN116681831 A CN 116681831A
- Authority
- CN
- China
- Prior art keywords
- result
- reconstruction
- instance
- center point
- offset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000011218 segmentation Effects 0.000 claims abstract description 98
- 230000008447 perception Effects 0.000 claims abstract description 12
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 9
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 14
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000007429 general method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/61—Scene description
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及计算机视觉技术领域,具体而言,涉及一种自下而上的单图像全景重建方法、装置及电子设备,一定程度上可以解决现有技术仅基于深度估计的自上而下框架,在对2D实例掩码进行反向投影获得初始化3D特征时会造成被遮挡区域的不确定性和通道排列的不确定性的问题。方法包括:获取图像,并将单张图像输入2D模型中;基于2D模型进行预测,再根据预测结果基于经过空间感知的反向投影模块,生成完整3D空间的初始化特征;基于3D模型将初始化特征预测为3D重建结果、3D语义分割结果及3D偏移结果;根据3D重建结果、3D语义分割结果及3D偏移结果,基于全景重建模块结合2D实例中心点,进行实例分组合成,得到全景重建的最终成果。
Description
技术领域
本申请涉及计算机视觉技术领域,具体而言,涉及一种自下而上的单图像全景重建方法、装置及计算机设备。
背景技术
单图像全景重建主要研究如何利用单张2D图像作为输入,重建出整个3D场景,同时对场景进行前景实例个体分割和背景语义分割,实现该任务需要从单张2D图像提取充足的空间信息和语义信息,从而使提取的2D信息反向投影得到的初始3D特征更加精准,进而使三维模型能更好地重建和分割场景。目前单图像全景重建的解决方案主要分为三个阶段:1)2D阶段:使用2D模型预测2D分割和2D空间信息(如深度估计);2)2D-3D阶段:利用2D空间信息将2D分割信息反向投影到3D用于初始化3D特征;3)3D阶段:将初始化的3D特征输入到3D模型,重建出场景并预测场景的全景分割结果。
在2D阶段,2D分割模型通常包含自上而下(通常为实例分割模型)和自下而上(通常可进行全景分割)两类,自上而下的一般方法先预测物体类别及其边界框,然后在边界框内预测实例掩码以获得实例分割结果;而自下而上的典型方法通过预测每个实例的中心点及实例内像素到中心点的相对偏移,同时预测2D语义分割,后处理阶段先使用预测的中心点和相对偏移进行实例分组,然后使用语义分割结果对实例进行归类,最后结合前景实例个体与语义背景形成全景分割结果;在2D-3D阶段,通常方法借助2D模型估计的深度反向投影获得3D物体表面,再使用2D分割结果填充物体表面形成初始化的3D特征,但这种方案获得的3D特征仅存在于物体表面,而无法获得被遮挡区域的信息;在3D阶段,使用3D稀疏卷积构成的3D模型重建场景并对场景进行全景分割。
现有技术通常在2D阶段采用自上而下的Mask R-CNN进行实例分割,获得实例掩码,同时采用单目深度估计预测物体表面深度;在2D-3D阶段,将2D实例掩码随机排列后再利用深度和相机内参反向投影到3D形成初始化物体表面的3D特征;在3D阶段,将3D特征输入到3D模型预测对应排列的3D实例掩码,同时预测语义分割用于实例分类,最后组合所预测的实例个体和语义背景形成全景重建结果。
但是,现有技术仅基于深度估计的自上而下框架,在对2D实例掩码进行反向投影获得初始化3D特征时会造成被遮挡区域的不确定性和通道排列的不确定性。
发明内容
为了解决现有技术仅基于深度估计的自上而下框架,在对2D实例掩码进行反向投影获得初始化3D特征时会造成被遮挡区域的不确定性和通道排列的不确定性的问题,本申请提供了一种自下而上的单图像全景重建方法、装置及计算机设备,借助空间感知的自下而上框架,本发明极大改善了最终全景重建结果。
本申请的实施例是这样实现的:
第一方面,本申请提供一种自下而上的单图像全景重建方法,包括:
获取图像,并将单张所述图像输入2D模型中;
根据所述2D模型预测物体可能存在的深度空间、2D语义分割结果、物体表面深度及2D实例中心点;
根据所述深度空间、2D语义分割结果、物体表面深度,基于经过空间感知的反向投影模块,生成完整3D空间的初始化特征;
基于3D模型将所述初始化特征预测为3D重建结果、3D语义分割结果及3D偏移结果;
根据所述3D重建结果、3D语义分割结果及3D偏移结果,基于全景重建模块结合所述2D实例中心点,进行实例分组合成,得到全景重建的最终成果。
在一种可能的实现方式中,所述空间感知的反向投影模块根据所述2D模型预测的物体可能存在的深度空间和物体表面深度,获得完整空间感知的3D特征。
在一种可能的实现方式中,所述根据所述深度空间、2D语义分割结果、物体表面深度,基于经过空间感知的反向投影模块,生成完整3D空间的初始化特征步骤中,还包括:
利用相机内参和预测的深度将所属2D模型预测的物体可能存在的深度空间反向投影到3D空间;
并将2D语义分割结果反向投影并填充整个3D空间;
将两者经过3D稀疏卷积之后相乘,获得空间感知的初始化3D特征。
在一种可能的实现方式中,所述2D语义分割结果用于空间感知的反向投影模块获得初始化的3D特征,所述2D实例中心点用于结合3D偏移进行3D体素的实例分组。
在一种可能的实现方式中,所述根据所述3D重建结果、3D语义分割结果及3D偏移结果,基于全景重建模块结合所述2D实例中心点,进行实例分组合成,得到全景重建的最终成果步骤中,还包括:
将所述3D语义分割结果经过3D重建结果过滤,获得精细的3D语义重建结果;
将所述3D偏移结果经过3D重建结果过滤,获得3D偏移重建结果;
所述3D语义重建结果中,每个前景语义类别输入到实例分组模块,结合2D实例中心点生成实例,背景语义类别用于最终拼接获得整个全景重建结果。
在一种可能的实现方式中,所述3D语义重建结果中,每个前景语义类别输入到实例分组模块,结合2D实例中心点生成实例,背景语义类别用于最终拼接获得整个全景重建结果步骤中,还包括:
根据所述前景语义类别,获得该类别的3D偏移重建结果及2D实例中心点;
基于所述3D偏移重建结果及2D实例中心点,进行分组,得到3D实例分割结果;
所述3D实例分割结果结合实例分割结果和背景语义获得全景重建结果。
在一种可能的实现方式中,所述根据所述前景语义类别,获得该类别的3D偏移重建结果及2D实例中心点步骤中,还包括:
所述3D偏移重建结果和该类别的所述3D语义重建结果,经过投影转化到多层深度空间;
通过该类别所述3D语义重建结果,过滤所述3D偏移重建结果,获得该类别的3D偏移重建结果;
从所有所述2D实例中心点中提取该类别的所述2D实例中心点用于类别实例分组。
在一种可能的实现方式中,所述基于所述3D偏移重建结果及2D实例中心点,进行分组,得到3D实例分割结果步骤中,还包括:
将该类别每个体素的所述3D偏移重建结果加上该体素的坐标,得到该体素预测的2D实例中心点;
根据所述预测的2D实例中心点到实际所有2D实例中心点的距离,将该体素分配给离它预测的2D实例中心点最近的实际的2D实例中心点;
完成所有类别所有体素的实例分组后,即可获得3D实例分割结果。
第二方面,本申请提供一种自下而上的单图像全景重建装置,包括:
2D获取模块,用于获取图像,并将单张所述图像输入2D模型中;
2D预测模块,用于根据所述2D模型预测物体可能存在的深度空间、2D语义分割结果、物体表面深度及2D实例中心点;
3D转化模块,用于根据所述深度空间、2D语义分割结果、物体表面深度,基于经过空间感知的反向投影模块,生成完整3D空间的初始化特征;
3D预测模块,用于基于3D模型将所述初始化特征预测为3D重建结果、3D语义分割结果及3D偏移结果;
3D重建模块,用于根据所述3D重建结果、3D语义分割结果及3D偏移结果,基于全景重建模块结合所述2D实例中心点,进行实例分组合成,得到全景重建的最终成果。
第三方面,本申请提供一种计算机设备,该设备包括存储器和处理器,存储器存储有计算机程序,处理器从存储器中调用并执行计算机程序时实现上述第一方面中任一项所示的自下而上的单图像全景重建方法的步骤。
本申请提供的技术方案至少可以达到以下有益效果:
本申请提供了自下而上的单图像全景重建方法、装置及计算机设备,其中,提出了自下而上的全景重建框架,是首次为单图像全景重建提出的自下而上解决方案,并为避免实例通道排列的不确定性而设计使用固定通道的2D语义分割结果用于3D特征的初始化,同时设计2D实例中心点结合3D偏移对体素进行3D实例分组。
本申请提出了空间感知的反向投影模块,通过2D模型额外预测物体可能存在的深度空间,将2D语义分割结果反向投影到整个3D空间获得更完整的、空间感知的初始化3D特征,以优化最终的全景重建结果。
并且本申请通过解决上述两个不确定性在合成数据集3D-Front和真实场景数据集Matterport-3D均获得了全景重建的最优性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单的介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一示例性实施例示出的一种自下而上的单图像全景重建方法的流程示意图;
图2是本申请一示例性实施例示出的如何将2D特征转化为初始化3D特征的流程示意图;
图3是本申请一示例性实施例示出的全景重建的流程示意图;
图4是本申请一示例性实施例示出的获取全景重建结果的流程示意图;
图5是本申请一示例性实施例示出的获取3D偏移重建结果的流程示意图;
图6是本申请一示例性实施例示出的如何实例分组的流程示意图;
图7是本申请一示例性实施例示出的自下而上的单图像全景重建框架的框架结构示意图;
图8是本申请一示例性实施例示出的空间感知的反向投影模块的框架结构示意图;
图9是本申请一示例性实施例示出的全景重建模块的框架结构示意图;
图10是本申请一示例性实施例示出的实例分组模块的框架结构示意图;
图11是本申请一示例性实施例示出的自下而上的单图像全景重建装置的结构示意图;
图12是本申请一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、实施方式和优点更加清楚明白,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整的描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例,应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”“第二”“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其他组件。
在对本申请实施例提供的自下而上的单图像全景重建方法进行解释说明之前,先对本申请实施例的应用场景和实施环境进行介绍。
单图像全景重建主要研究如何利用单张2D图像作为输入,重建出整个3D场景同时对场景进行前景实例个体分割和背景语义分割,实现该任务需要从单张2D图像提取充足的空间信息和语义信息,从而使提取的2D信息反向投影得到的初始3D特征更加精准,进而使三维模型能更好地重建和分割场景。
目前单图像全景重建的解决方案主要分为三个阶段:
1)2D阶段:使用2D模型预测2D分割和2D空间信息(如深度估计);
2)2D-3D阶段:利用2D空间信息将2D分割信息反向投影到3D用于初始化3D特征;
3)3D阶段:将初始化的3D特征输入到3D模型,重建出场景并预测场景的全景分割结果。
已有的2D分割模型通常包含自上而下(通常为实例分割模型)和自下而上(通常可进行全景分割)两类,自上而下的一般方法先预测物体类别及其边界框,然后在边界框内预测实例掩码以获得实例分割结果;而自下而上的典型方法通过预测每个实例的中心点及实例内像素到中心点的相对偏移,同时预测2D语义分割,后处理阶段先使用预测的中心点和相对偏移进行实例分组,然后使用语义分割结果对实例进行归类,最后结合前景实例个体与语义背景形成全景分割结果。
在2D-3D阶段,通常方法借助2D模型估计的深度反向投影获得3D物体表面,再使用2D分割结果填充物体表面形成初始化的3D特征,但这种方案获得的3D特征仅存在于物体表面,而无法获得被遮挡区域的信息。
在3D阶段使用3D稀疏卷积构成的3D模型重建场景并对场景进行全景分割。
现有最新技术在2D阶段采用自上而下的Mask R-CNN进行实例分割,获得实例掩码,同时采用单目深度估计预测物体表面深度;在2D-3D阶段,将2D实例掩码随机排列后再利用深度和相机内参反向投影到3D形成初始化物体表面的3D特征;在3D阶段,将3D特征输入到3D模型预测对应排列的3D实例掩码,同时预测语义分割用于实例分类,最后组合所预测的实例个体和语义背景形成全景重建结果。
但是,现有技术仅基于深度估计的自上而下框架,在对2D实例掩码进行反向投影获得初始化3D特征时会造成被遮挡区域的不确定性和通道排列的不确定性。
具体而言:
1)仅通过深度估计提取物体表面空间信息,造成被遮挡区域的不确定性,难以支撑整个场景的重建。
2)采用自上而下的框架,类别和数量都不确定的实例掩码在从2D向3D反向投影中会进行随机排列,造成通道排列的不确定性,从而影响场景的分割结果。因此本发明提出自下而上的单图像全景重建框架(BUOL)用于解决被遮挡区域的不确定性和通道排列的不确定性,从而提升单图像全景重建的性能。
基于此,本申请提供了一种自下而上的单图像全景重建方法。
1)针对仅通过深度估计获得物体表面信息造成的被遮挡区域不确定性,本发明在2D模型中额外预测被遮挡区域的空间信息,从而使初始化得到空间更加完整的3D特征;
2)针对实例掩码在通道上的随机排列造成的通道排列不确定性,本发明采用了自下而上的框架,将固定通道的2D语义分割结果反向投影到3D获得初始化的3D特征,再通过预测的2D中心点和3D偏移对体素进行实例分组,既解决了通道排列的不确定性,也实现了3D实例分割。
借助空间感知的自下而上框架,本发明极大改善了最终全景重建结果。
接下来,将通过实施例并结合附图具体地对本申请的技术方案,以及本申请的技术方案如何解决上述技术问题进行详细说明。各实施例之间可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。显然,所描述的实施例是本申请实施例一部分实施例,而不是全部的实施例。
图1是本申请一示例性实施例示出的一种自下而上的单图像全景重建方法的流程示意图;图7是本申请一示例性实施例示出的自下而上的单图像全景重建框架的框架结构示意图。
在一个示例性实施例中,如图1所示,提供了一种自下而上的单图像全景重建方法。本实施例中,该方法包括以下步骤:
步骤100:获取图像,并将单张所述图像输入2D模型中。
步骤200:根据所述2D模型预测物体可能存在的深度空间、2D语义分割结果、物体表面深度及2D实例中心点;
步骤300:根据所述深度空间、2D语义分割结果、物体表面深度,基于经过空间感知的反向投影模块,生成完整3D空间的初始化特征;
步骤400:基于3D模型将所述初始化特征预测为3D重建结果、3D语义分割结果及3D偏移结果;
步骤500:根据所述3D重建结果、3D语义分割结果及3D偏移结果,基于全景重建模块结合所述2D实例中心点,进行实例分组合成,得到全景重建的最终成果。
其中,步骤100-步骤200为2D阶段,步骤300为2D-3D阶段,步骤400-步骤500为3D阶段,三个部分均属于本申请提出的自下而上的单图像全景重建框架,该框架如图7所示,其最重要部分为最终的3D全景重建过程。
可以看出,本申请的一些实施例提出了自下而上的单图像全景重建框架,包括自下而上的全景重建框架和空间感知的反向投影模块,其中,自下而上框架将所预测的2D语义分割结果按固定通道反向投影为初始化的3D特征,避免实例掩码的随机排列造成的通道不确定性,而在合成3D实例时使用预测的2D实例中心点和3D偏移对每个体素进行实例分组;空间感知的反向投影模块利用额外预测物体所占据的深度空间,结合预测的深度,能在整个3D空间中填充2D语义信息,从而获得完整空间的初始化3D特征,进而优化最终的全景重建结果。
在一种可能的实现方式中,所述空间感知的反向投影模块根据所述2D模型预测的物体可能存在的深度空间和物体表面深度,获得完整空间感知的3D特征。
图2是本申请一示例性实施例示出的如何将2D特征转化为初始化3D特征的流程示意图;图8是本申请一示例性实施例示出的空间感知的反向投影模块的框架结构示意图。
在一种可能的实现方式中,如图2所示,根据所述深度空间、2D语义分割结果、物体表面深度,基于经过空间感知的反向投影模块,生成完整3D空间的初始化特征步骤中,还包括:
步骤310:利用相机内参和预测的深度将所属2D模型预测的物体可能存在的深度空间反向投影到3D空间;
步骤320:并将2D语义分割结果反向投影并填充整个3D空间;
步骤330:将两者经过3D稀疏卷积之后相乘,获得空间感知的初始化3D特征。
其中,所述空间感知的反向投影模块如图8显示。
在一种可能的实现方式中,所述2D语义分割结果用于空间感知的反向投影模块获得初始化的3D特征,所述2D实例中心点用于结合3D偏移进行3D体素的实例分组。
其中,2D语义分割结果与2D实例中心点均通过自下而上的全景重建框架在2D模型中预测,用于自下而上的全景分割。
图3是本申请一示例性实施例示出的全景重建的流程示意图;图9是本申请一示例性实施例示出的全景重建模块的框架结构示意图。
在一种可能的实现方式中,如图3所示,所述根据所述3D重建结果、3D语义分割结果及3D偏移结果,基于全景重建模块结合所述2D实例中心点,进行实例分组合成,得到全景重建的最终成果步骤中,还包括:
步骤510:将所述3D语义分割结果经过3D重建结果过滤,获得精细的3D语义重建结果;
步骤520:将所述3D偏移结果经过3D重建结果过滤,获得3D偏移重建结果;
步骤530:所述3D语义重建结果中,每个前景语义类别输入到实例分组模块,结合2D实例中心点生成实例,背景语义类别用于最终拼接获得整个全景重建结果。
其中,所述全景重建模块如图9所示。
图4是本申请一示例性实施例示出的获取全景重建结果的流程示意图。
在一种可能的实现方式中,如图4所示,所述3D语义重建结果中,每个前景语义类别输入到实例分组模块,结合2D实例中心点生成实例,背景语义类别用于最终拼接获得整个全景重建结果步骤中,还包括:
步骤531:根据所述前景语义类别,获得该类别的3D偏移重建结果及2D实例中心点;
步骤532:基于所述3D偏移重建结果及2D实例中心点,进行分组,得到3D实例分割结果;
步骤533:所述3D实例分割结果结合实例分割结果和背景语义获得全景重建结果。
图5是本申请一示例性实施例示出的获取3D偏移重建结果的流程示意图。
在一种可能的实现方式中,如图5所示,所述根据所述前景语义类别,获得该类别的3D偏移重建结果及2D实例中心点步骤中,还包括:
步骤5311:所述3D偏移重建结果和该类别的所述3D语义重建结果,经过投影转化到多层深度空间;
步骤5312:通过该类别所述3D语义重建结果,过滤所述3D偏移重建结果,获得该类别的3D偏移重建结果;
步骤5313:从所有所述2D实例中心点中提取该类别的所述2D实例中心点用于类别实例分组。
图6是本申请一示例性实施例示出的如何实例分组的流程示意图;图10是本申请一示例性实施例示出的实例分组模块的框架结构示意图。
在一种可能的实现方式中,如图6所示,所述基于所述3D偏移重建结果及2D实例中心点,进行分组,得到3D实例分割结果步骤中,还包括:
步骤5321:将该类别每个体素的所述3D偏移重建结果加上该体素的坐标,得到该体素预测的2D实例中心点;
步骤5322:根据所述预测的2D实例中心点到实际所有2D实例中心点的距离,将该体素分配给离它预测的2D实例中心点最近的实际的2D实例中心点;
步骤5323:完成所有类别所有体素的实例分组后,即可获得3D实例分割结果。
其中,实例分组模块如图10所示。
可以看出,本申请的一些实施例通过自下而上的全景重建框架使用固定通道的语义分割结果,解决了自上而下框架造成的实例通道排列不确定性,再利用2D中心点和3D偏移完成了实例合成;提出了空间感知模块解决了仅预测深度造成的被遮挡区域不确定性。提出的整体方案无论在场景重建还是全景分割上都取得了更好的性能。
应该理解的是,虽然上述实施例所涉及的流程图中的各个步骤按照指示依次显示,但是这些步骤并不是必然按照指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其他的顺序执行。而且,上述实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
并且,本发明已经经过实验验证,在合成数据集3D-Front和真实场景数据集Matterport-3D上验证了其有效性,均达到了目前最优性能。在3D-Front和Matterport-3D上的实验结果中,全景重建质量(PRQ)相比现有最优方案分别高11.81%和7.46%,显著提升了单图像全景重建的性能指标。
与前述自下而上的单图像全景重建方法的实施例相对应,采用相同的技术构思,本申请还提供了自下而上的单图像全景重建装置的实施例。
图11是本申请一示例性实施例示出的自下而上的单图像全景重建装置的结构示意图。
在一个示例性实施例中,如图11所示,该自下而上的单图像全景重建装置包括:
2D获取模块1,用于获取图像,并将单张所述图像输入2D模型中;
2D预测模块2,用于根据所述2D模型预测物体可能存在的深度空间、2D语义分割结果、物体表面深度及2D实例中心点;
3D转化模块3,用于根据所述深度空间、2D语义分割结果、物体表面深度,基于经过空间感知的反向投影模块,生成完整3D空间的初始化特征;
3D预测模块4,用于基于3D模型将所述初始化特征预测为3D重建结果、3D语义分割结果及3D偏移结果;
3D重建模块5,用于根据所述3D重建结果、3D语义分割结果及3D偏移结果,基于全景重建模块结合所述2D实例中心点,进行实例分组合成,得到全景重建的最终成果。
关于自下而上的单图像全景重建装置的具体限定可以参见上文中对于自下而上的单图像全景重建方法的限定,在此不再赘述。上述自下而上的单图像全景重建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
一个示例性实施例中,上述自下而上的单图像全景重建方法可应用于图11所示的计算机设备10中,此时,本申请可以利用计算机设备通过构建卷积和基于注意力机制相结合的神经网络模型,卷积层用于序列局部特征的提取,自注意力层用于学习全局范围内各个位置之间的关系,能够有效提取剪切位点特征,并将公开数据库和真实数据相结合提高了模型的预测能力,实现对RNA剪切位点的准确预测。
图12是本申请一示例性实施例示出的一种计算机设备的结构示意图。
在一种可能的实现方式中,该计算机设备的结构如图12所示,该计算机设备10包括至少处理器11、存储器12、通信总线13以及通信接口14。
其中,处理器11可以是一个通用中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、微处理器,或者可以是一个或多个用于实现本申请方案的集成电路,例如,专用集成电路(Application-Specific Integrated Circuit,ASIC),可编程逻辑器件(Programmable Logic Device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD),现场可编程逻辑门阵列(Field-Programmable Gate Array,FPGA),通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。
可选地,处理器11可以包括一个或多个CPU。计算机设备10可以包括多个处理器11。这些处理器11中的每一个可以是一个单核处理器(single-CPU),也可以是一个多核处理器(multi-CPU)。
需要说明的是,这里的处理器11可以指一个或多个设备、电路和/或用于处理数据(如计算机程序指令)的处理核。
存储器12可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,也可以是随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,还可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备,或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选地,存储器12可以是独立存在,并通过通信总线13与处理器11相连接;存储器12也可以和处理器11集成在一起。
通信总线13用于在各组件之间(比如处理器和存储器之间)传送信息,通信总线12可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条通信总线进行示意,但并不表示仅有一根总线或一种类型的总线。
通信接口14用于供该计算机设备10与其他设备或通信网络进行通信。通信接口14包括有线通信接口或无线通信接口。其中,有线通信接口例如可以为以太网接口。以太网接口可以是光接口,电接口或其组合。无线通信接口可以为无线局域网(Wireless LocalArea Networks,WLAN)接口、蜂窝网络通信接口或其组合等。
在一些实施例中,该计算机设备10还可以包括输出设备15和输入设备16(图12中未示出)。输出设备15和处理器11通信,可以以多种方式来显示信息。例如,输出设备15可以是液晶显示器(Liquid Crystal Display,LCD)、发光二极管(Light Emitting Diode,LED)显示设备、阴极射线管(Cathode Ray Tube,CRT)显示设备或投影仪(projector)等。输入设备16和处理器11通信,可以以多种方式接收用户的输入。例如,输入设备16可以是鼠标、键盘、触摸屏设备或传感设备等。
在一些实施例中,存储器12用于存储执行本申请方案的计算机程序,处理器11可以执行存储器12中存储的计算机程序。例如,该计算机设备10可以通过处理器11调用并执行存储在存储器12中的计算机程序,以实现本申请实施例提供的自下而上的单图像全景重建方法的步骤。
应该理解的是,本申请提供的自下而上的单图像全景重建方法,可以应用于自下而上的单图像全景重建装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为处理器11的部分或者全部,集成在计算机设备10中
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述的实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种自下而上的单图像全景重建方法,其特征在于,包括:
获取图像,并将单张所述图像输入2D模型中;
根据所述2D模型预测物体可能存在的深度空间、2D语义分割结果、物体表面深度及2D实例中心点;
根据所述深度空间、2D语义分割结果及物体表面深度,基于经过空间感知的反向投影模块,生成完整3D空间的初始化特征;
基于3D模型将所述初始化特征预测为3D重建结果、3D语义分割结果及3D偏移结果;
根据所述3D重建结果、3D语义分割结果及3D偏移结果,基于全景重建模块结合所述2D实例中心点,进行实例分组合成,得到全景重建的最终成果。
2.如权利要求1所述的自下而上的单图像全景重建方法,其特征在于,所述空间感知的反向投影模块根据所述的深度空间和物体表面深度,获得完整空间感知的3D特征。
3.如权利要求2所述的自下而上的单图像全景重建方法,其特征在于,所述根据所深度空间、2D语义分割结果、物体表面深度,基于经过空间感知的反向投影模块,生成完整3D空间的初始化特征步骤中,还包括:
利用相机内参和预测的深度将所属2D模型预测的物体可能存在的深度空间反向投影到3D空间;
并将2D语义分割结果反向投影并填充整个3D空间;
将两者经过3D稀疏卷积之后相乘,获得空间感知的初始化3D特征。
4.如权利要求1所述的自下而上的单图像全景重建方法,其特征在于,所述2D语义分割结果用于空间感知的反向投影模块获得初始化的3D特征,所述2D实例中心点用于结合3D偏移进行3D体素的实例分组。
5.如权利要求1所述的自下而上的单图像全景重建方法,其特征在于,所述根据所述3D重建结果、3D语义分割结果及3D偏移结果,基于全景重建模块结合所述2D实例中心点,进行实例分组合成,得到全景重建的最终成果步骤中,还包括:
将所述3D语义分割结果经过3D重建结果过滤,获得精细的3D语义重建结果;
将所述3D偏移结果经过3D重建结果过滤,获得3D偏移重建结果;
所述3D语义重建结果中,每个前景语义类别输入到实例分组模块,结合2D实例中心点生成实例,背景语义类别用于最终拼接获得整个全景重建结果。
6.如权利要求5所述的自下而上的单图像全景重建方法,其特征在于,所述3D语义重建结果中,每个前景语义类别输入到实例分组模块,结合2D实例中心点生成实例,背景语义类别用于最终拼接获得整个全景重建结果步骤中,还包括:
根据所述前景语义类别,获得该类别的3D偏移重建结果及2D实例中心点;
基于所述3D偏移重建结果及2D实例中心点,进行分组,得到3D实例分割结果;
所述3D实例分割结果结合实例分割结果和背景语义获得全景重建结果。
7.如权利要求6所述的自下而上的单图像全景重建方法,其特征在于,所述根据所述前景语义类别,获得该类别的3D偏移重建结果及2D实例中心点步骤中,还包括:
所述3D偏移重建结果和该类别的所述3D语义重建结果,经过投影转化到多层深度空间;
通过该类别所述3D语义重建结果,过滤所述3D偏移重建结果,获得该类别的3D偏移重建结果;
从所有所述2D实例中心点中提取该类别的所述2D实例中心点用于类别实例分组。
8.如权利要求6所述的自下而上的单图像全景重建方法,其特征在于,所述基于所述3D偏移重建结果及2D实例中心点,进行分组,得到3D实例分割结果步骤中,还包括:
将该类别每个体素的所述3D偏移重建结果加上该体素的坐标,得到该体素预测的2D实例中心点;
根据所述预测的2D实例中心点到实际所有2D实例中心点的距离,将该体素分配给离它预测的2D实例中心点最近的实际的2D实例中心点;
完成所有类别所有体素的实例分组后,即可获得3D实例分割结果。
9.一种自下而上的单图像全景重建装置,其特征在于,包括:
2D获取模块,用于获取图像,并将单张所述图像输入2D模型中;
2D预测模块,用于根据所述2D模型预测物体可能存在的深度空间、2D语义分割结果、物体表面深度及2D实例中心点;
3D转化模块,用于根据所述深度空间、2D语义分割结果、物体表面深度,基于经过空间感知的反向投影模块,生成完整3D空间的初始化特征;
3D预测模块,用于基于3D模型将所述初始化特征预测为3D重建结果、3D语义分割结果及3D偏移结果;
3D重建模块,用于根据所述3D重建结果、3D语义分割结果及3D偏移结果,基于全景重建模块结合所述2D实例中心点,进行实例分组合成,得到全景重建的最终成果。
10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器从所述存储器中调用并执行所述计算机程序时实现上述权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310650872.1A CN116681831A (zh) | 2023-06-02 | 2023-06-02 | 一种自下而上的单图像全景重建方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310650872.1A CN116681831A (zh) | 2023-06-02 | 2023-06-02 | 一种自下而上的单图像全景重建方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116681831A true CN116681831A (zh) | 2023-09-01 |
Family
ID=87784889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310650872.1A Pending CN116681831A (zh) | 2023-06-02 | 2023-06-02 | 一种自下而上的单图像全景重建方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116681831A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593517A (zh) * | 2024-01-19 | 2024-02-23 | 南京信息工程大学 | 基于互补感知跨视图融合网络的伪装目标检测方法 |
-
2023
- 2023-06-02 CN CN202310650872.1A patent/CN116681831A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593517A (zh) * | 2024-01-19 | 2024-02-23 | 南京信息工程大学 | 基于互补感知跨视图融合网络的伪装目标检测方法 |
CN117593517B (zh) * | 2024-01-19 | 2024-04-16 | 南京信息工程大学 | 基于互补感知跨视图融合网络的伪装目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | A late fusion cnn for digital matting | |
CN114549731B (zh) | 视角图像的生成方法、装置、电子设备及存储介质 | |
US8331615B2 (en) | Match, expand, and filter technique for multi-view stereopsis | |
Weiss et al. | Volumetric isosurface rendering with deep learning-based super-resolution | |
Wu et al. | Revisiting light field rendering with deep anti-aliasing neural network | |
DE102019130889A1 (de) | Schätzung der tiefe eines mit einer monokularen rgb-kamera aufgenommenen videodatenstroms | |
EP2080167B1 (en) | System and method for recovering three-dimensional particle systems from two-dimensional images | |
CN110023964B (zh) | 训练和/或使用神经网络模型来生成光谱图像的中间输出 | |
US11823322B2 (en) | Utilizing voxel feature transformations for view synthesis | |
CN111667459B (zh) | 一种基于3d可变卷积和时序特征融合的医学征象检测方法、系统、终端及存储介质 | |
CN110517352B (zh) | 一种物体的三维重建方法、存储介质、终端及系统 | |
CN116310076A (zh) | 基于神经辐射场的三维重建方法、装置、设备及存储介质 | |
JP2023533907A (ja) | 自己注意ベースのニューラルネットワークを使用した画像処理 | |
CN114022799A (zh) | 一种自监督单目深度估计方法和装置 | |
CN116681831A (zh) | 一种自下而上的单图像全景重建方法、装置及计算机设备 | |
US20240020915A1 (en) | Generative model for 3d face synthesis with hdri relighting | |
CN113140034A (zh) | 基于房间布局的全景新视角生成方法、装置、设备和介质 | |
CN112241934B (zh) | 一种图像处理方法以及相关设备 | |
Yi et al. | DDR-Net: Learning multi-stage multi-view stereo with dynamic depth range | |
Gupta et al. | A robust and efficient image de-fencing approach using conditional generative adversarial networks | |
Srivastava et al. | xcloth: Extracting template-free textured 3d clothes from a monocular image | |
CN116630912A (zh) | 三维语义占用预测方法、系统、设备、介质及产品 | |
Shaharabany et al. | End-to-end segmentation of medical images via patch-wise polygons prediction | |
Hu et al. | 3D map reconstruction using a monocular camera for smart cities | |
CN112967370B (zh) | 三维光场重建方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |