CN116129036B - 一种深度信息引导的全方向图像三维结构自动恢复方法 - Google Patents
一种深度信息引导的全方向图像三维结构自动恢复方法 Download PDFInfo
- Publication number
- CN116129036B CN116129036B CN202211533676.8A CN202211533676A CN116129036B CN 116129036 B CN116129036 B CN 116129036B CN 202211533676 A CN202211533676 A CN 202211533676A CN 116129036 B CN116129036 B CN 116129036B
- Authority
- CN
- China
- Prior art keywords
- omnidirectional image
- omnidirectional
- image
- geometric
- geometric structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011084 recovery Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000013507 mapping Methods 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000001788 irregular Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000001427 coherent effect Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 230000001965 increasing effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000012805 post-processing Methods 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 5
- 239000004973 liquid crystal related substance Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 241000251468 Actinopterygii Species 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
- G06T3/047—Fisheye or wide-angle transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明一种深度信息引导的全方向图像三维结构自动恢复方法,构建基于编码‑解码策略的全方向图像结构深度估计网络模型;通过带有深度信息的全方向图像训练数据集对结构深度估计模型进行训练优化,预测出全方向图像结构深度图;构建场景结构深度信息引导的全方向图像几何结构恢复网络模型;通过全方向图像训练数据集对几何结构恢复模型进行训练优化,预测出全方向图像的几何结构角点概率图;通过全方向图像三维点云恢复方法恢复出全方向图像中地面、墙面或天花板主要的二维几何结构,以及点云表示的三维结构。本发明实现了从单幅全方向图像中恢复出场景三维点云结构,广泛应用于数字孪生、元宇宙,提升复杂场景中三维场景重建与理解的效果。
Description
技术领域
本发明涉及室内场景重建技术领域,尤其涉及一种深度信息引导的全方向图像三维结构自动恢复方法。
背景技术
从单幅图像中恢复室内场景结构是计算机视觉中的一项基本的研究内容,其旨在推断出墙-墙、墙-地面、墙-天花板边界的几何形状,能够为其他应用提供几何先验,例如室内导航、VR/AR/MR和设计。此外,几何结构的恢复对场景理解中的物体检测与恢复任务也具有一定的辅助功能。此前,针对标准针孔投影模型捕获的传统透视图像的结构恢复已经取得了一定的进展,但是其有限的视场角使得难以捕获整体的结构及上下文信息,使复杂场景的结构恢复达到一个瓶颈期。
超宽的视场角(180°或360°)能够完整的覆盖整体场景,为场景结构恢复与理解都提供了更丰富的全局上下文信息,因此,研究者更倾向于全方向图像三维结构恢复的研究。现有方法一类是基于几何的方法,利用几何特征生成结构假设,对结构假设进行排序和优化,筛选出最合理的结构恢复。第二类是鉴于深度神经网络在图像语义线索方面的取得的显著进展,将几何特征与语义线索相结合的混合驱动方法,进一步提高了场景结构恢复的效果。
上述两类方法均具有较高的计算复杂度并且算法性能很大程度上依赖于提取的语义信息的质量。近年来,随着卷积神经网络在特征提取方面的快速发展,第三类则是端到端的全方向图像结构恢复学习框架,通过设计不同的网络结构提升结构恢复的效果,进一步推进了室内结构恢复的发展,在提升结构恢复性能的同时也提高了整体效率,其中该类网络在特征提取模块通过标准卷积核进行全方向图像特征学习,经过训练网络预测出室内关键结构区域的相关元素(结构边界或结构角点)。
然而标准卷积固定的采样策略,限制了网络对几何变换的建模能力,难以解决全方向图像中的严重几何畸变。近期,对于全方向图像的畸变已有初步的研究,主要是通过引入可变形卷积加强几何变换的学习与建模能力。
尽管上述算法已经能够获得较好的结构恢复结果,但在实际应用场景时仍然存在以下两方面的不足。不同的投影模型在畸变位置和畸变程度上存在明显的差异。全景图像越靠近极点畸变程度越大,而鱼眼图像的畸变在整个空间范围内呈现不均匀的现象,并主要与相机与物体之间的距离有关。实际应用中室内场景的结构多样会造成几何边界出现被全部或部分遮挡,使得室内结构难以预测,尤其是对于普遍存在的曼哈顿类型场景结构的恢复。
发明内容
本发明的技术解决问题:室内中物体的杂乱摆放会对结构特征产生部分或全部遮挡,导致难以提取结构上的全局特征信息,此外全方向图像不符合针孔相机模型,卷积神经网络中局部固定感受野难以进行高准确率的图像特征提取,都会影响全方向几何结构恢复的质量。针对上述问题,提出一种深度信息引导的全方向图像三维结构自动恢复方法,将深度信息作为几何先验引入到结构恢复网络中缓解杂乱遮挡的干扰,并通过全方向卷积模块对全方向特征进行学习和提取特征,设计一种并行的水平-垂直步进模块以最大限度的捕获场景中全局相关性信息,实现全方向图像的三维结构恢复。
本发明的技术解决方案如下:一种深度信息引导的全方向图像三维结构自动恢复方法,包括以下步骤:
(1)构建基于编码-解码策略的全方向图像结构深度估计网络模型,设置所述网络模型训练参数;所述编码-解码策略中的编码器基于全方向畸变卷积模块实现,缓解图像畸变对全方向结构深度估计的干扰;所述编码-解码策略中的解码器采用向上映射层模块加深网络模型的深度,提升全方向图像结构深度估计质量,得到带有深度信息的全方向图像;通过带有深度信息的全方向图像的训练数据集对所述全方向图像结构深度估计网络进行训练优化,并将带有深度信息的全方向图像的测试数据集输入到训练的所述网络模型中,预测出全方向图像结构深度;
(2)以所述全方向图像结构深度作为几何先验信息,构建场景结构深度信息引导的全方向图像几何结构恢复网络模型,设置所述网络模型训练参数;所述全方向图像几何结构恢复网络模型的结构遵循编码-解码策略,所述编码-解码策略中的编码器根据不同的全方向投影模型选择对应的全方向畸变卷积模块,利用所述全方向卷积学习全方向图像中不同位置及不同程度的图像畸变特征,提高全方向图像特征提取的准确率;所述编码-解码策略中的解码器采用并行的水平-垂直步进模块捕获更多的全方向图像的局部上下文相关信息,提升全方向图像几何结构恢复的准确度;通过全方向图像的训练数据集对全方向图像几何结构恢复模型进行训练优化,并将全方向图像的测试数据集输入到全方向图像几何结构恢复模型中,从而预测出全方向图像的几何结构角点概率图;
(3)采用全方向图像三维点云恢复方法对输入的全方向图像几何结构角点概率图进行峰值化后处理,恢复出全方向图像几何结构;并在曼哈顿世界假设下,根据不同的全方向投影模型的几何约束恢复出对应的全方向图像几何结构三维点云形式,从而恢复出全方向图像三维结构。
进一步,所述步骤(1)中,构建基于编码-解码策略的全方向图像几何结构深度估计网络模型中,编码器的实现为:以全方向图像和对应的全方向掩码图为输入,选择ResNet50作为主干网络提取输入全方向图像的语义特征信息,获得不同语义级别的语义信息特征图;所述ResNet-50中最后一个区块根据不同的全方向投影模型引入相应的全方向畸变卷积模块,增强几何结构深度估计模型对全方向图像畸变的学习能力;所述全方向畸变卷积模块包括采用全景图像投影模型设计的全景卷积和采用鱼眼投影模型设计的鱼眼卷积。
进一步,所述步骤(1)中,构建基于编码-解码策略的全方向图像几何结构深度估计网络模型中,解码器的实现为:以编码器得到的全方向语义特征图为输入,基于向上映射层模块构建对全方向特征的解码;解码器中包含四个向上映射层模块,负责增大全方向语义特征图的分辨率并实现对语义特征的解码,并预测全方向几何结构深度图;所述每个向上映射层模块采用残差结构设计。
进一步,所述步骤(2)中,构建几何结构深度信息引导的全方向图像几何结构恢复网络模型中,编码器的实现为:
以ResNet50作为主干网络提取全向图像相关的低/中/高级特征,边缘和颜色低级特征是从低卷积层学习,全方向图像畸变的关键区别特征能够从高级卷积层中学习获得;在ResNet50最后一个区块根据不同的全方向投影模型引入相应的全方向畸变卷积模块,增强网络模型对畸变特征的建模能力,提高全方向图像特征提取的准确性;所述全方向畸变卷积模块包括采用全景图像投影模型设计的全景卷积和采用鱼眼投影模型设计的鱼眼卷积;编码器的最后四个特征映射通过一系列卷积层保留,保证同时捕获低级和高级语义信息特征,并将特征映射重新塑造为相同的大小,连接成单个顺序特征映射作为解码器Bi-LSTM的输入。
进一步,所述步骤(2)中,构建场景结构深度信息引导的全方向图像几何结构恢复网络模型中,解码器的实现为:
在解码器中采用Bi-LSTM捕获物体的长距离几何模式进行全局连贯预测,并采用并行的水平-垂直步进模块来充分利用全方向图像的上下文先验,恢复出全方向图像几何结构角点概率图。其中并行的水平-垂直步进模块包含全方向中水平-垂直双向的上下文先验,为结构恢复深度学习网络中的特征图,其中C是通道数,W和H分别是张量的高与宽,给定输入特征图,从水平xh和垂直xw上同时进行全方向特征的学习,学习到的特征汇入Bi-LSTM的记忆单元来聚焦全局一致的特征。
进一步,所述步骤(3)中,全方向图像三维点云恢复方法中,根据室内结构中角点个数的差异,全方向图像恢复的结构包括长方体类型和曼哈顿类型;
对于全景图像,直接使用计算预测结果中局部峰值提取的方法得到关键结构角点;对于鱼眼图像,长方体类型中的四个预测角点分别位于四个不同的象限中,外加鱼眼图像的特点,采用基于最大半径的峰值提取方法获得关键结构角点;对于曼哈顿空间类型呈现的不规则结构,采用基于最大联通区域的峰值优化方法,提取出关键结构角点;在曼哈顿世界假设下,根据全景投影模型恢复出全景图像的三维点云形式,包括墙面、地面和天花板;根据鱼眼投影模型恢复出鱼眼图像的三维点云形式,包括墙面和地面。
本发明与现有技术相比的优点在于:
(1)全方向图像不符合针孔相机模型,卷积神经网络中局部固定感受野难以进行有效的全方向特征学习。针对该问题,本发明提出一种基于畸变感知的室内全方向图像三维结构恢复算法并构建了全方向图像数据集,在网络中设计畸变感知模块处理不同投影带来的几何畸变问题,设计水平-垂直并行步进模块捕获全方向特征信息,通过预测概率图的峰值化处理和点云恢复获得全方向图像的三维结构。
(2)室内场景杂乱物体的严重遮挡,影响全局结构信息的获取,难以恢复出高质量的三维结构。针对上述问题,提出一种引入深度估计的室内全方向图像三维结构恢复算法,构建了一种全方向图像结构深度估计网络。将深度信息作为几何先验引入到几何结构恢复网络中,缓解杂乱遮挡问题,进一步提升三维结构恢复的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的面向室内全方向图像的三维结构自动恢复方法总体流程示意图;
图2为本发明的全方向图像结构深度估计神经网络架构图;
图3为本发明的全方向图像几何结构恢复神经网络架构图;
图4为本发明的全方向图像结构深度估计神经网络输入与预测示意图,(a)为网络输入RGB鱼眼图像和对应的掩码图,(b)为网络输入RGB全景图像和对应的掩码图,(c)为最终恢复的三维点云结构;
图5为本发明的并行的水平和垂直步进模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本发明提出了一种深度信息引导的全方向图像三维结构自动恢复方法,流程步骤如下:
1、构建基于编码-解码策略的全方向图像结构深度估计网络模型
全方向图像的深度估计网络通常处理的全景图像,针对鱼眼图像的相对较少,且两者都存在严重的不同程度和不同位置的几何畸变,对特征提取产生一定的干扰。此外,现有的深度估计方法从输出结果上看,较多的是预测整体的深度图,难以有效的缓解遮挡的影响。从网络结构上看,其偏少的网络层深度会带来梯度消失和过拟合的现象减弱网络学习能力。
针对上述问题,采用编码-解码的策略设计有效的全方向图像结构深度估计网络,整体网络结构如图2所示。
整体网络结构的输入包括两部分,一个是鱼眼RGB图像或全景RGB图像,另一个为相应的鱼眼掩码图或全景掩码图,分别如图4中(a)和(b)所示。其中掩码图中作为位图,将可移动物体对应的所有像素值设置为0,以黑色呈现,其他结构区域像素值设置为255,以白色呈现。在添加掩码图引导结构深度估计时,采用了两种不同方法,分别将其与RGB图像叉乘后输入到编码结构或将其直接连接到解码结构。通过设计的编解码结构估计出移除可变动物体的场景结构深度图。
在编码器中的主干网络仍然选择去除全连接层的ResNet50,引入畸变感知模块到ResNet50最后的卷积层中,解决全方向中几何畸变导致低效特征学习的问题,提高结构深度估计中对几何变换的建模能力。
解码器由四个向上映射模块和一个3×3卷积层组成,主要是为了能够恢复特征图分辨率到原始图像大小并对编码中获得的语义特征进行解码,其中采用双线性插值的方法进行上采样以增加特征图的分辨率。在此基础上,设计了基于残差结构的向上映射层模块,进一步增加网络结构深度,避免梯度消失和过拟合问题,提高模型的学习能力。为了能够充分利用不同尺度特征图中的全向语义信息,将编码器和解码器中的多尺度特征进行跳跃连接融合,更进一步的提升网络估计结构深度的精度。
2、构建场景结构深度信息引导的全方向图像几何结构恢复网络模型
在全方向图像几何结构恢复的过程中,对于复杂的场景,可变动物体的杂乱性导致场景中关键结构相交区域被部分或全部遮挡,严重影响几何恢复的效果。尤其是对曼哈顿类型的场景,甚至难以恢复出室内场景的几何结构。对遮挡现象进行有效的处理是高质量结构恢复的关键所在。在上述结构深度的研究基础上,通过景深与几何结构的强相关性,将其引入到全方向图像结构恢复网络中,实现高精度的结构恢复效果。引入深度估计的结构恢复网络,整体结构如图3所示。
网络输入为全方向图像和对应的结构深度图,包括等距投影表示的全景图像或正交投影表示的鱼眼图像,其分辨率为3×H×W,作为超参,可以根据实验条件进行调整,其中3表示的是通道数,H表示全方向图像的高度,W表示全方向图像的宽度,并验证了分辨率大小对结构恢复性能的影响,其中最佳的分辨率分别是全景图像3×512×1024和鱼眼图像3×1024×1024。整体的网络结构采用编码-解码的策略。
编码器以ResNet50[152]作为主干网络提取全向图像相关的低/中/高级特征,边缘和颜色等低级特征是从低卷积层学习,几何畸变的关键区别特征可以从高级卷积层中学习获得。为了增强网络模型对畸变的建模能力,在ResNet50最后一个区块根据不同投影模型引入相应的畸变感知模块,提高全方向图像特征提取的准确性。此外,为了同时捕获低级和高级特征,编码器的最后四个特征映射通过一系列卷积层保留,并将特征映射重新塑造为相同的大小,连接为Bi-LSTM输入的单个顺序特征映射。
在解码器中采用Bi-LSTM来捕获物体的长距离几何模式进行全局连贯预测,并设计并行的水平-垂直步进模块来充分利用全方向图像的上下文先验,实现复杂场景中的高质量结构恢复。
3、设计全方向畸变卷积模块
采用不同投影模型的全方向图像,实质是非欧几里德空间到欧几里德空间的变换过程,这将会产生严重的几何畸变,传统的标准卷积更加难以提取带有畸变的高层语义信息。为此,引入基于球面域的可变形卷积,以球面上的没有畸变的小块切面表示卷积核,来增强对全方向图像中畸变的建模能力。在具体的计算过程中,可变形卷积并不是直接改变卷积核的形状,而是在标准卷积的基础上通过新增偏移量对网格中每个点进行位移,生成与几何变换相对应的不规则的卷积核。可变形卷积的输出特征图的映射关系为:
其中,Δp, n为通过不同的投影模型计算得到的pn相应的偏移量。
等距表示的全景图像和正交表示的鱼眼图像,由于投影模型不同,带来的畸变位置和畸变程度也有很大差异。在计算偏移量的过程中,本文根据不同的几何变换模型进行设计,分别用于全景图像的等距卷积和鱼眼图像的正交卷积。等距卷积继续沿用CFL中的卷积核。计算正交卷积时,通过预处理提取鱼眼图像中的有效区域以保持上下文的一致性,从鱼眼图像中采样相应的非规则网格,并根据原网格计算畸变像素的位置为:
其中,为通过正交投影模型计算得到的pn相应的偏移量。p0=(u(p0),v(p0))表示在fl+1中的像素位置。为计算偏移量,计算p0在球坐标系中的经纬度坐标为:
其中,采用欧拉-罗德里格斯旋转方程计算旋转矩阵T为:
其中,Rα(β)表示一个绕α轴旋转β的旋转矩阵。通过旋转矩阵T将卷积核上的任一点pn旋转为:
其中,pn=[i,j,d],i,j∈[-kw/2,-kh/2],kw和kh为卷积核的分辨率。d为R到单位球中心的距离,根据视场和卷积核大小计算为:
之后将旋转后卷积核的三维空间映射到对应的经纬度坐标为:
变换后的经纬度坐标投影到鱼眼图像中对应的像素坐标为:
求得偏移量其中u(Δp’n),v(Δp’n)分别为:
u(Δp’n)=u(p’n)-u(pn)
v(Δp’n)=v(p’n)-v(pn)
4、设计并行的水平-垂直步进模块
递归神经网络在处理时间序列方面的有效性得到了广泛的认可,包括在深度估计、目标检测和语义分割等视觉任务上的优异表现。近期,HorizonNet使用双向长短期记忆在不同几何边界之间传播全局信息,在室内场景结构恢复任务上取得了显著的提升,为此我们也采用Bi-LSTM作为全局相干预测网络的核心。但是HorizonNet在设计时间序列步长时,只考虑了水平方向一维的信息,缺少垂直方向的几何先验。为了能够充分利用全方向的上下文相关信息,本发明设计了一个并行的水平和垂直步进模块,示意图如图5所示。并行的水平和垂直步进模块包含了全方向中水平-垂直双向的上下文先验。如图5中,为结构恢复深度学习网络中的特征图,其中C是通道数,W和H分别是张量的高与宽。给定输入特征图,通过四个神经网络层和网络层间的逐点操作、矢量转换和复制操作从水平xh和垂直xw上同时进行全向特征的学习,将其汇入Bi-LSTM的记忆单元来聚焦全局一致的特征,恢复出更理想的场景结构,尤其对于具有严重遮挡的复杂场景。
5、三维点云的生成全方向图像三维点云恢复
对于全景图像,直接使用计算预测结果中局部峰值提取的方法得到关键结构角点;对于鱼眼图像,长方体类型中的四个预测角点分别位于四个不同的象限中,外加鱼眼图像的特点,采用基于最大半径的峰值提取方法获得关键结构角点;对于曼哈顿空间类型呈现的不规则结构,采用基于最大联通区域的峰值优化方法,提取出关键结构角点;在曼哈顿世界假设下,根据全景投影模型恢复出全景图像的三维点云形式,包括墙面、地面和天花板;根据鱼眼投影模型恢复出鱼眼图像的三维点云形式,包括墙面和地面。
已知鱼眼图像If,分辨率为W×W。首先将图像进行归一化为[0,1]作为恢复的三维场景的纹理It。对于关键角点集合中的每一角点通过经纬度转换计算对应的空间坐标为:
xi=W/2×cosθ
yi=W/2×sinθ
其中,θ=arcsin(W/2×R),/>通过相邻的关键角点对(Pi,Pi+1)的空间坐标计算对应的墙面三维空间坐标为:
其中,表示插值出α和β两个角点间的三维空间坐标,得到γ大小的平面。平面的宽度为/>平面的高度为th=zf×ω。ω为可调节的参数,表示每平方米的点云数,默认设置为180。zf为地面的z值且/>ch表示相机距离天花板的高度,默认为0.6。通过经纬度坐标转换将插值的墙面转换为图像坐标为:
Ui,i+1=W/2×sinΦ×cosΘ
Vi,i+1=W/2×sinΦ×sinΘ
其中,Θ=Yi,i+1/Xi,i+1。将鱼眼图像纹理It中每一个通道值映射到相应的墙面像素坐标(Ui,i+1,Vi,i+1)上,得到带有纹理的三维墙面结构为:
其中,Mi,i+1=Ui,i+1+W/2,Ni,i+1=Vi,i+1+W/2。天花板视角下的鱼眼图像不包含天花板部分,为此重复上述公式(2.13)~(2.17)分别对室内场景几何结构中的其他墙面和地面进行三维点云的恢复,如图4中的(c),与现有全方向图像结构恢复方法相比,本发明可缓解全方向图像中杂乱物体对几何结构的部分遮挡或全部遮挡,提升全方向图像不同视角下的场景结构恢复效果。
Claims (2)
1.一种深度信息引导的全方向图像三维结构自动恢复方法,其特征在于,包括如下步骤:
(1)构建基于编码-解码策略的全方向图像几何结构深度估计网络模型,设置所述网络模型训练参数;所述编码-解码策略中的编码器基于全方向畸变卷积模块实现,缓解图像畸变对全方向结构深度估计的干扰;所述编码-解码策略中的解码器采用向上映射层模块加深网络模型的深度,提升全方向图像几何结构深度估计质量,得到带有深度信息的全方向图像;通过带有深度信息的全方向图像的训练数据集对所述全方向图像几何结构深度估计网络进行训练优化,并将带有深度信息的全方向图像的测试数据集输入到训练的所述网络模型中,预测出全方向图像几何结构深度;
(2)以所述全方向图像几何结构深度作为几何先验信息,构建几何结构深度信息引导的全方向图像几何结构恢复网络模型,设置所述网络模型训练参数;所述全方向图像几何结构恢复网络模型的结构遵循编码-解码策略,所述编码-解码策略中的编码器根据不同的全方向投影模型选择对应的全方向畸变卷积模块,利用所述全方向畸变卷积模块学习全方向图像中不同位置及不同程度的图像畸变特征,提高全方向图像特征提取的准确率;所述编码-解码策略中的解码器采用并行的水平-垂直步进模块捕获更多的全方向图像的局部上下文相关信息,提升全方向图像几何结构恢复的准确度;通过全方向图像的训练数据集对全方向图像几何结构恢复模型进行训练优化,并将全方向图像的测试数据集输入到全方向图像几何结构恢复模型中,从而预测出全方向图像几何结构角点概率图;
(3)采用全方向图像三维点云恢复方法对输入的全方向图像几何结构角点概率图进行峰值化后处理,恢复出全方向图像几何结构;并在曼哈顿世界假设下,根据不同的全方向投影模型的几何约束恢复出对应的全方向图像几何结构三维点云形式,从而恢复出全方向图像三维结构;
所述步骤(1)中,构建基于编码-解码策略的全方向图像几何结构深度估计网络模型中,编码器的实现为:以全方向图像和对应的全方向掩码图为输入,选择ResNet50作为主干网络提取输入全方向图像的语义特征信息,获得不同语义级别的语义信息特征图;所述ResNet50中最后一个区块根据不同的全方向投影模型引入相应的全方向畸变卷积模块,增强几何结构深度估计模型对全方向图像畸变的学习能力;所述全方向畸变卷积模块包括采用全景图像投影模型设计的全景卷积和采用鱼眼投影模型设计的鱼眼卷积;
所述步骤(1)中,构建基于编码-解码策略的全方向图像几何结构深度估计网络模型中,解码器的实现为:以编码器得到的全方向语义特征图为输入,基于向上映射层模块构建对全方向特征的解码;解码器中包含四个向上映射层模块,负责增大全方向语义特征图的分辨率并实现对语义特征的解码,并预测全方向几何结构深度图;所述四个向上映射层模块采用残差结构设计;
所述步骤(2)中,构建几何结构深度信息引导的全方向图像几何结构恢复网络模型中,编码器的实现为:
以ResNet50作为主干网络提取全向图像相关的低/中/高级特征,边缘和颜色低级特征是从低卷积层学习,全方向图像畸变的关键区别特征能够从高级卷积层中学习获得;在ResNet50最后一个区块根据不同的全方向投影模型引入相应的全方向畸变卷积模块,增强网络模型对畸变特征的建模能力,提高全方向图像特征提取的准确性;所述全方向畸变卷积模块包括采用全景图像投影模型设计的全景卷积和采用鱼眼投影模型设计的鱼眼卷积;编码器的最后四个特征映射通过一系列卷积层保留,保证同时捕获低级和高级语义信息特征,并将特征映射重新塑造为相同的大小,连接成单个顺序特征映射作为解码器Bi-LSTM的输入;
所述步骤(2)中,构建几何结构深度信息引导的全方向图像几何结构恢复网络模型中,解码器的实现为:
在解码器中采用Bi-LSTM捕获物体的长距离几何模式进行全局连贯预测,并采用并行的水平-垂直步进模块来充分利用全方向图像的上下文先验,恢复出全方向图像几何结构角点概率图,其中并行的水平-垂直步进模块包含全方向中水平-垂直双向的上下文先验,为结构恢复深度学习网络中的特征图,其中C是通道数,W和H分别是张量的高与宽,给定输入特征图,从水平xh和垂直xw上同时进行全方向特征的学习,学习到的特征汇入Bi-LSTM的记忆单元来聚焦全局一致的特征。
2.根据权利要求1所述的一种深度信息引导的全方向图像三维结构自动恢复方法,其特征在于:所述步骤(3)中,全方向图像三维点云恢复方法中,根据室内结构中角点个数的差异,全方向图像恢复的结构包括长方体类型和曼哈顿类型;
对于全景图像,直接使用计算预测结果中局部峰值提取的方法得到关键结构角点;对于鱼眼图像,长方体类型中的四个预测角点分别位于四个不同的象限中,外加鱼眼图像的特点,采用基于最大半径的峰值提取方法获得关键结构角点;对于曼哈顿空间类型呈现的不规则结构,采用基于最大联通区域的峰值优化方法,提取出关键结构角点;在曼哈顿世界假设下,根据全景投影模型恢复出全景图像的三维点云形式,包括墙面、地面和天花板;根据鱼眼投影模型恢复出鱼眼图像的三维点云形式,包括墙面和地面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211533676.8A CN116129036B (zh) | 2022-12-02 | 2022-12-02 | 一种深度信息引导的全方向图像三维结构自动恢复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211533676.8A CN116129036B (zh) | 2022-12-02 | 2022-12-02 | 一种深度信息引导的全方向图像三维结构自动恢复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116129036A CN116129036A (zh) | 2023-05-16 |
CN116129036B true CN116129036B (zh) | 2023-08-29 |
Family
ID=86294618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211533676.8A Active CN116129036B (zh) | 2022-12-02 | 2022-12-02 | 一种深度信息引导的全方向图像三维结构自动恢复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129036B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017090420A (ja) * | 2015-11-17 | 2017-05-25 | パナソニックIpマネジメント株式会社 | 3次元情報復元装置及び3次元情報復元方法 |
CN108335322A (zh) * | 2018-02-01 | 2018-07-27 | 深圳市商汤科技有限公司 | 深度估计方法和装置、电子设备、程序和介质 |
CN111402310A (zh) * | 2020-02-29 | 2020-07-10 | 同济大学 | 一种基于深度估计网络的单目图像深度估计方法及系统 |
CN111754561A (zh) * | 2020-06-10 | 2020-10-09 | 江南大学 | 基于自监督深度学习的光场图像深度恢复方法及系统 |
CN112053441A (zh) * | 2020-10-14 | 2020-12-08 | 北京大视景科技有限公司 | 一种室内鱼眼图像的全自动布局恢复方法 |
CN112215880A (zh) * | 2019-07-10 | 2021-01-12 | 浙江商汤科技开发有限公司 | 一种图像深度估计方法及装置、电子设备、存储介质 |
WO2022097932A1 (ko) * | 2020-11-09 | 2022-05-12 | 주식회사 엔닷라이트 | 딥러닝 기반으로 2차원 이미지로부터 3차원 모델을 복원하는 장치 및 그 방법 |
CN114494395A (zh) * | 2022-02-11 | 2022-05-13 | 腾讯科技(深圳)有限公司 | 基于平面先验的深度图生成方法、装置、设备及存储介质 |
CN115063463A (zh) * | 2022-06-20 | 2022-09-16 | 东南大学 | 一种基于无监督学习的鱼眼相机场景深度估计方法 |
-
2022
- 2022-12-02 CN CN202211533676.8A patent/CN116129036B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017090420A (ja) * | 2015-11-17 | 2017-05-25 | パナソニックIpマネジメント株式会社 | 3次元情報復元装置及び3次元情報復元方法 |
CN108335322A (zh) * | 2018-02-01 | 2018-07-27 | 深圳市商汤科技有限公司 | 深度估计方法和装置、电子设备、程序和介质 |
CN112215880A (zh) * | 2019-07-10 | 2021-01-12 | 浙江商汤科技开发有限公司 | 一种图像深度估计方法及装置、电子设备、存储介质 |
CN111402310A (zh) * | 2020-02-29 | 2020-07-10 | 同济大学 | 一种基于深度估计网络的单目图像深度估计方法及系统 |
CN111754561A (zh) * | 2020-06-10 | 2020-10-09 | 江南大学 | 基于自监督深度学习的光场图像深度恢复方法及系统 |
CN112053441A (zh) * | 2020-10-14 | 2020-12-08 | 北京大视景科技有限公司 | 一种室内鱼眼图像的全自动布局恢复方法 |
WO2022097932A1 (ko) * | 2020-11-09 | 2022-05-12 | 주식회사 엔닷라이트 | 딥러닝 기반으로 2차원 이미지로부터 3차원 모델을 복원하는 장치 및 그 방법 |
CN114494395A (zh) * | 2022-02-11 | 2022-05-13 | 腾讯科技(深圳)有限公司 | 基于平面先验的深度图生成方法、装置、设备及存储介质 |
CN115063463A (zh) * | 2022-06-20 | 2022-09-16 | 东南大学 | 一种基于无监督学习的鱼眼相机场景深度估计方法 |
Non-Patent Citations (1)
Title |
---|
AutoPhaseNN: Unsupervised Physics-aware Deep Learning of 3D Nanoscale Bragg Coherent Diffraction Imaging;Yudong Yao.etc;IEEE;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116129036A (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738697B (zh) | 基于深度学习的单目深度估计方法 | |
CN111915484B (zh) | 基于密集匹配与自适应融合的参考图引导超分辨率方法 | |
TWI709107B (zh) | 影像特徵提取方法及包含其顯著物體預測方法 | |
CN104574347B (zh) | 基于多源遥感数据的在轨卫星图像几何定位精度评价方法 | |
CN107358576A (zh) | 基于卷积神经网络的深度图超分辨率重建方法 | |
CN111899295B (zh) | 一种基于深度学习的单目场景深度预测方法 | |
CN109410133B (zh) | 一种基于3dmm的人脸纹理修复方法 | |
CN116310076A (zh) | 基于神经辐射场的三维重建方法、装置、设备及存储介质 | |
CN110634147A (zh) | 基于双边引导上采样的图像抠图方法 | |
CN110245199A (zh) | 一种大倾角视频与2d地图的融合方法 | |
CN112950475A (zh) | 一种基于残差学习及空间变换网络的光场超分辨率重建方法 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN116310111A (zh) | 基于伪平面约束的室内场景三维重建方法 | |
CN115546273A (zh) | 一种面向室内鱼眼图像的场景结构深度估计方法 | |
CN113610912B (zh) | 三维场景重建中低分辨率图像单目深度估计系统及方法 | |
CN117115359B (zh) | 一种基于深度图融合的多视图电网三维空间数据重建方法 | |
CN113240584A (zh) | 一种基于图片边缘信息的多任务手势图片超分辨率方法 | |
CN111696167A (zh) | 自范例学习引导的单张影像超分辨率重构方法 | |
Rau et al. | Lod generation for 3d polyhedral building model | |
CN112785502A (zh) | 一种基于纹理迁移的混合相机的光场图像超分辨率方法 | |
CN116129036B (zh) | 一种深度信息引导的全方向图像三维结构自动恢复方法 | |
Liu et al. | Gradient prior dilated convolution network for remote sensing image super resolution | |
CN112950481B (zh) | 一种基于图像拼接网络的水花遮挡图像数据集采集方法 | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 | |
CN115115860A (zh) | 一种基于深度学习的图像特征点检测匹配网络 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |