CN111127538B - 一种基于卷积循环编码-解码结构的多视影像三维重建方法 - Google Patents

一种基于卷积循环编码-解码结构的多视影像三维重建方法 Download PDF

Info

Publication number
CN111127538B
CN111127538B CN201911301740.8A CN201911301740A CN111127538B CN 111127538 B CN111127538 B CN 111127538B CN 201911301740 A CN201911301740 A CN 201911301740A CN 111127538 B CN111127538 B CN 111127538B
Authority
CN
China
Prior art keywords
image
view
depth
convolutional
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911301740.8A
Other languages
English (en)
Other versions
CN111127538A (zh
Inventor
季顺平
刘瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201911301740.8A priority Critical patent/CN111127538B/zh
Publication of CN111127538A publication Critical patent/CN111127538A/zh
Application granted granted Critical
Publication of CN111127538B publication Critical patent/CN111127538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积循环编码‑解码结构的多视影像三维重建方法,包括如下步骤:构建用于训练网络的多视航空影像数据库,数据库中包括多视航空影像、影像对应的内外方位元素,以及每张影像对应的真实深度图;构建多视密集匹配网络RED‑Net,利用步骤1构建的训练数据库训练网络,学习影像匹配中的底层特征;利用训练完成后的网络对多视航空影像进行预测,得到参考影像视角下的预测深度图;根据提供的相机的内参和位置姿态参数,结合预测的深度图,将影像中的每个像素点反投影至三维物方空间,得到点云构成的三维模型。本发明具有如下优点:可用于从多视影像到深度图的端到端的密集匹配;可用于大尺度影像的匹配;可迁移性强、精度好、效率高。

Description

一种基于卷积循环编码-解码结构的多视影像三维重建方法
技术领域
本发明涉及一种用于多视航空遥感影像的多视密集匹配的深度学习方法,可实现基于遥感影像的地形地物三维重建。
背景技术
从立体或多视航空航天遥感影像重建地面三维场景一直是摄影测量与遥感中的核心问题。从遥感影像中获取高精度的三维地形信息的一个核心关键问题是影像的密集匹配。密集匹配是一种由计算机代替人眼进行立体观察,自动获取影像中同名像点的视差值或深度值的过程。是由二维图像到三维场景转换过程中不可或缺的一部分。传统的多视密集匹配方法多是基于影像间的几何关系,通过复杂的几何运算得到,计算量大。例如基于面片的全局匹配算法是在全局范围内执行最优化,其计算量大,运行所需时间过长,对资源的消耗多,不适合实时的匹配操作。目前由多视航空影像进行大尺度、高精度的地表三维重建主要通过商用软件SURE、Smart3D等完成,这些软件均基于传统的密集匹配方法。
近年来逐渐发展并应用在各个方面的深度学习方法,节省了大量的时间消耗和人工特征提取的工作,引起了广泛的研究。一些基于深度学习的密集匹配方法如LSM、DeepMVS、MVSNet等被陆续提出。然而这些方法具有很大局限性,只能处理较小的影像或较小的深度范围,使得这些方法只能进行一些实验室内近景物体的重建,并不适合大尺度大范围(如城市级)地形表面的重建。因此针对多视航空遥感影像的快速、自动、高分辨率的多视密集匹配方法的研究至关重要。
发明内容
本发明针对现有技术的不足,提供了一种适合于大尺度高分辨率遥感影像多视匹配的深度神经网络。以多张不同视角下的遥感影像和相机参数作为输入,以深度图作为训练标签,得到神经元网络模型。利用该模型,输入新的多视影像时,可估计影像上每个点对应的深度和空间三维坐标,从而恢复三维场景。该网络可以使用模拟的多视匹配数据集进行自我训练,解决了缺乏与真实影像对应的完整且可靠的地面深度真值作为训练数据的问题。实现本发明目的采用的技术方案是,一种基于卷积循环编码-解码结构的多视影像三维重建方法,包括如下步骤:
步骤1,构建用于训练网络的多视航空影像数据库,数据库中包括多视航空影像、影像对应的内外方位元素,以及每张影像对应的真实深度图;
步骤2,构建多视密集匹配网络RED-Net,利用步骤1构建的数据库训练网络,学习影像匹配中的底层特征;
所述多视密集匹配网络RED-Net包括:特征检测部分,构建代价图部分,循环编码-解码规则化部分,计算损失函数值部分共四个部分;其中特征检测部分用于利用卷积神经网络分支提取遥感影像二维层面的特征,获得特征图;代价图构建部分用于将特征图投影至三维空间的特定深度平面上,将不同视角下的特征图融合为代价图;循环编码-解码规则化部分由循环编码-解码结构组成,包括4个卷积层和4个上卷积层,以及4个门控循环单元,用于对代价图进行规则化处理;计算损失函数值部分采用交叉熵损失值,当交叉熵损失值收敛时,网络模型训练完成;
步骤3,利用训练好的网络模型对真实的多视航空影像进行预测,得到参考影像视角下的预测深度图;
步骤4,根据提供的相机的内参和位置姿态参数,结合预测的深度图,利用已有的共线条件方程将影像中的每个像素点反投影至三维物方空间,得到点云构成的三维模型。
进一步的,步骤1的具体实现包括如下子步骤,
步骤1.1,选取多视影像数据;以一张航空影像为参考影像,与其航向相邻与旁向相邻的上下左右四张影像为源影像,这样的五张影像和对应的真实深度图以及空三解算后的相机参数、位姿参数作为一组五视数据单元,真实深度图由激光扫描获得,或利用高精度的地表三维模型通过虚拟投影的方式生成虚拟影像和对应的深度图;
步骤1.2,训练样本分割;在一组五视数据单元影像所共有的重叠区域内,将五张影像分别裁剪为M*N的样本数据,并用同样的方式将对应的深度图裁剪为同样大小的样本作为训练真值;
步骤1.3,构建训练样本库;选取一组裁剪为M*N像素大小的五视数据切片,与对应的五视切片深度图和相机参数文件构成一组五视训练样本,将多组多视航空影像数据分别裁剪为多组数据切片,构成训练样本库。
进一步的,所述特征检测部分对于N张输入影像设置了N个2D卷积神经元网络分支,每一分支包括5个卷积层,通道数分别为8,8,16,16,16;其中前四层均由卷积层和修正线性单元ReLU构成,第五层仅由卷积层构成;前两层的卷积核大小为3×3,卷积步长为1.第三层的卷积核大小为5×5,卷积步长为2,后两层的卷积核大小为3×3,步长为1,每个网络分支之间共享权重,最终特征检测部分对每一张输入影像得到16个通道的特征图,特征图的宽和高分别为输入原始影像的1/2。
进一步的,所述构建代价图部分输入为特征检测部分得到的N组16通道的特征图,利用差分形式的平面扫描法将一组2D特征图反投影至参考影像视角下的3D空间中某个特定深度的平面上,采用方差运算将同一个深度位置的多个视角下的特征图融合为一张代价图,将深度范围以一定的间隔采样为D个深度层,得到D个代价图。
进一步的,所述循环编码-解码规则化部分包括卷积编码部分、卷积解码部分以及循环门控单元,其中卷积编码部分由四个卷积层组成,每个卷积层后紧接着一个修正线性单元,卷积核大小均为3×3,第一层步长为1,后三层的步长为2,特征通道数分别为8,16,32,64;解码部分由四个上卷积层组成,除最后一层外,每个上卷积层后紧接着一个修正线性单元,四个卷积层的卷积核大小均为3×3,步长为2,特征通道数分别为32,16,8,1;
卷积编码部分产生的4个尺度的特征图分别通过4个卷积门控循环单元进行正则化,其中,第4个卷积层产生的特征图在卷积门控循环单元规则化后通过解码部分第1个上卷积层进行上采样,第1,2,3个卷积层产生的特征图通过卷积门控循环单元规则化后,分别与解码部分第3,2,1个上卷积层产生的特征图相加,相加后的特征图作为下一个上卷积层的输入,通过解码部分后,得到通道数为1、上采样为原始影像大小的特征图;
其中4个尺度上的卷积门控循环单元共包括4个状态转换参量,记录当前时刻的代价图的信息并作为初值传递给下一时刻输入代价图的状态参量,用于记录代价图在深度方向上的上下文信息。
进一步的,所述计算损失函数值部分将每个深度层面上规则化后的代价图堆叠为一个代价体,然后在深度方向上应用softmax函数将代价体转换为概率体,概率体中的每个值表示当前像素点在当前深度层Di上的概率值;真实深度值通过独热编码后变成与上述概率体同样大小的二分体;计算上述二分体和概率体之间的交叉熵损失值,利用该损失值指导网络的训练,直到训练该损失值不再下降,网络模型达到最优。
进一步的,步骤3的具体实现方式如下,
利用训练好的网络模型对一组多视航空影像进行预测,输入为一组多视航空影像和对应的每张影像的相机参数,输出为对应于参考影像的、由softmax转换而得的概率体,在概率体上沿深度方向上采用赢者通吃策略,获得每个像素点对应的深度估计值。
本发明具有如下优点:
(1)提出了一个基于卷积神经元和循环编码-解码结构的多视密集匹配模型,用于从多视影像到深度图的端到端的密集匹配,而无需核线重采样等预处理步骤。
(2)多尺度循环编码-解码结构使得密集匹配网络在预测深度图时不受深度采样数量的限制,可以进行基于航空影像的大尺度场景的重建。
(3)可迁移性强,在虚拟样本数据上训练的模型,无需重训练也能在真实航空影像上得到很好的匹配结果。
(4)重建效率高。由提出的密集匹配网络模型进行三维重建,在相同大小的场景下,比商业软件SURE快16倍,比开源软件COLMAP快65倍。
附图说明
图1是本发明的整体流程图。
图2是本发明的多视密集匹配网络RED-Net结构示意图。
图3是本发明实施例的RED-Net和其他方法及软件得到的深度结果对比图。
图4是本发明实施例的大尺度场景的点云重建结果示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
本发明提供的一种基于卷积循环编码-解码结构的多视影像三维重建方法,包括如下步骤:
步骤1,构建用于训练网络的多视航空影像数据库,数据库中包括多视航空影像、影像对应的内外方位元素,以及每张影像对应的真实深度图。如有数据库,该步骤可省略。
步骤2,构建多视密集匹配网络RED-Net,利用步骤1构建的多视航空影像数据库训练网络,训练RED-Net模型。
步骤3,利用训练好的网络对一组多视航空影像数据进行预测,得到参考影像视角下的预测深度图。
步骤4,根据提供的相机的内参和位置姿态参数,结合预测的深度图,利用已有的共线条件方程将影像中的每个像素点反投影至三维物方空间,得到点云构成的三维模型。
进一步地,步骤1的具体实现包括如下子步骤:
步骤1.1,选取多视影像数据;以一张航空影像为参考影像,与其航向相邻与旁向相邻的上下左右四张影像为源影像,这样的五张影像和对应的真实深度图以及空三解算后的相机参数、位姿参数作为一组五视数据单元,真实深度图可由激光扫描获得,或利用高精度的地表三维模型通过虚拟投影的方式生成虚拟影像和对应的深度图。
步骤1.2,训练样本分割;在一组五视数据单元影像所共有的重叠区域内将五张影像分别裁剪为一定大小的样本数据(768×384像素),并用同样的方式将对应的深度图裁剪为同样大小的样本作为训练真值。
步骤1.3,构建训练样本库;选取一组裁剪为768×384像素大小的五视数据切片,与对应的五视切片深度图和相机参数文件构成一组五视训练样本,将多组多视航空影像数据分别裁剪为多组数据切片,构成训练样本库。
进一步地,步骤2中所述的多视密集匹配网络RED-Net包括:
特征检测部分(Feature Extraction),构建代价图部分(Cost Maps),循环编码-解码规则化(Recurrent Encoder-Decoder Regularization),计算损失函数值(Loss)共四个部分。其中特征检测部分对每张输入影像分别有一个卷积神经网络分支用于提取二维层面的特征;代价图构建部分将特征图投影至三维空间的特定深度平面上,并通过方差算子(Variance Operation)将不同视角下的特征图融合为代价图;循环编码-解码规则化部分由循环编码-解码结构(Recurrent Encoder-Decoder Structure)组成,包括4个卷积层(Convolution Layer)和4个上卷积层(Upconvolution Layer),以及4个门控循环单元(Gated Recurrent Unit)。
上述的特征检测部分对于N张输入影像设置了N个2D卷积神经元网络分支,每一分支包括5个卷积层,通道数分别为8,8,16,16,16。其中前四层均由卷积层和修正线性单元(Rectified Linear Unit,ReLU)构成,第五层仅由卷积层构成。前两层的卷积核大小为3×3,卷积步长为1.第三层的卷积核大小为5×5,卷积步长为2.后两层的卷积核大小为3×3,步长为1.每个网络分支之间共享权重(Shared Weight),最终特征检测部分对每一张输入影像得到16个通道的特征图,特征图的宽和高分别为输入原始影像的1/2.
上述的构建代价体部分输入为特征检测部分得到的N组16通道的特征图。利用差分形式的平面扫描法(Differentiable Plane Sweep Method)将一组2D特征图反投影至参考影像视角下的3D空间中某个特定深度的平面上,采用方差运算将同一个深度位置的多个视角下的特征图融合为一张代价图。将深度范围以一定的间隔采样为D+1个深度层,可得到D+1个代价图。
上述的循环编码-解码规则化部分包括卷积编码部分、卷积解码部分以及循环门控单元。其中卷积编码部分由四个卷积层组成,每个卷积层后紧接着一个修正线性单元,卷积核大小均为3×3,第一层步长为1,后三层的步长为2,特征通道数分别为8,16,32,64。解码部分由四个上卷积层组成,除最后一层外,每个上卷积层后紧接着一个修正线性单元,四个卷积层的卷积核大小均为3×3,步长为2,特征通道数分别为32,16,8,1。
上述编码部分产生的4个尺度的特征图分别通过4个卷积门控循环单元进行正则化。其中,第4个卷积层产生的特征图在卷积门控循环单元规则化后通过解码部分第1个上卷积层进行上采样,第1,2,3个卷积层产生的特征图通过卷积门控循环单元规则化后,分别与解码部分第3,2,1个上卷积层产生的特征图相加,相加后的特征图作为下一个上卷积层的输入。通过解码部分后,得到通道数为1,上采样为原始影像大小的特征图。
上述四个尺度上的卷积门控循环单元共包括四个状态转换参量,记录当前时刻的代价图的信息并作为初值传递给下一时刻输入代价图的状态参量,用于记录代价图在深度方向上的上下文信息。
上述计算损失函数值部分将每个深度层面上规则化后的代价图堆叠为一个代价体(Cost Volume),然后在深度方向上应用softmax函数将代价体转换为概率体,概率体中的每个值表示当前像素点在当前深度层Di上的概率值。真实深度值通过独热(one-hot)编码后变成与上述概率体同样大小的二分体(Binary Occupancy Volume)。计算上述二分体和概率体之间的交叉熵损失值,利用损失值指导网络的训练,直到训练损失不再下降,模型达到最优。
进一步地,步骤3的具体实现方式如下:利用步骤1构建的数据库训练步骤2构建的网络模型,利用训练好的模型对一组多视航空影像进行预测,输入为一组多视航空影像和对应的每张影像的相机参数,输出为对应于参考影像的、由softmax转换而得的概率体。在概率体上沿深度方向上采用赢者通吃(Winner-take-all)策略,获得每个像素点对应的深度估计值。
进一步地,步骤4的具体实现方式如下:根据步骤3的深度估计值和已知的参考影像的相机参数,将参考影像上每个像素点利用共线条件方程反投影至三维物方空间,得到点云构成的三维模型。
实施例:
为了训练深度学习网络,首先需要获取训练样本数据。为了确保训练样本的可靠性,我们使用已有的虚拟多视航空影像(WHU数据集)作为训练样本,对应的深度图作为训练真值。
选取其中一张影像作为参考影像,与其航向相邻与旁向相邻的周围四张影像作为搜索影像,这样的五张影像和对应的真实深度图以及空三解算后的相机参数、位姿参数作为一组五视数据单元。将一组五视数据单元的所有影像共有的重叠区域分别裁剪为768×384像素大小的样本。这样一组五视数据切片与对应的深度图切片和相机参数文件构成一组五视训练样本。将多组多视航空数据分别裁剪多组数据切片,构成五视数据样本库。其中3/4的数据用作训练样本,1/4的数据用作测试样本。五视样本集表示为WHU-5,选取其中在同一条航带上的三视数据作为三视样本集,表示为WHU-3。
构建多视密集匹配网络RED-Net,附图2为多视密集匹配网络模型的结构示意图。以三视样本集为例,网络训练的输入为三张不同视角下的影像和对应的相机参数、真实深度图。输入影像首先分别通过3个2D卷积神经元网络分支(包括5个卷积层)进行特征检测,得到3组具有16个通道、大小为输入影像1/2的特征图。利用差分形式的平面扫描法将搜索影像对应的特征图反投影至参考影像视角下的特定深度平面上,采用方差运算将同一个深度位置的特征图融合为一张代价图Ci,在D+1个深度层上可得到D+1个代价图。
每一个代价图Ci顺次通过循环编码-解码部分REDi进行规则化得到Cir。在规则化模块里,代价图通过多个卷积层和上卷积层进行编码-解码。在编码阶段,首先通过一个步长为1、卷积核大小为3×3的卷积层和修正线性单元(ReLU)进行编码,随后通过3个步长为2、卷积核大小为3×3的卷积层进行下采样,通道数加倍。在解码阶段,特征图通过4个连续的上卷积层进行上采样,除最后一层外,每个上卷积层将特征图的通道数减半,并附加一个修正线性单元。
上述编码部分产生的4个尺度的特征图分别通过4个卷积门控循环单元进行正则化。其中,第4个卷积层产生的特征图在规则化后通过解码部分第1个上卷积层进行上采样,第1,2,3个卷积层产生的特征图通过卷积门控循环单元规则化后,分别与解码部分第3,2,1个上卷积层产生的特征图相加,相加后的特征图作为下一个上卷积层的输入。通过解码部分后,得到通道数为1、上采样为原始影像大小的特征图。
每一个卷积门控循环单元产生一个状态转换参量
Figure BDA0002321978980000091
记录当前输入的代价图信息。四个状态转换参量Statei {1,2,3,4}将作为初值参与下一个代价图的规则化过程。
将所有规则化后的代价图堆叠为一个代价体,然后在深度方向上应用softmax函数将代价体转换为概率体,概率体中的每个值表示当前像素点在当前深度层Di上的概率值。真实深度值通过独热(one-hot)编码后变成与上述概率体同样大小的二分体(BinaryOccupancy Volume)。计算上述二分体和概率体之间的交叉熵损失值,利用损失值指导网络的训练,直到训练损失不再下降,模型达到最优。
模型训练完成后,将一组多视影像和对应的相机参数作为网络输入,利用训练好的模型预测参考影像,网络输出为对应于参考影像的、由softmax转换而得的概率体。在概率体上沿深度方向采用赢者通吃(Winner-take-all)策略,获得每个像素点对应的深度估计值,由每个像素点的深度值构成一幅深度估计图。
我们选择训练集和测试集的数据量比例为3:1,在测试集上验证模型的精度,并与基于传统方法的开源软件COLMAP、商业软件SURE和其他基于深度学习的密集匹配方法MVSNet、R-MVSNet进行比较。其中COLMAP和SURE软件的输入为93张5376×5376大小的图像,输出为深度图或密集点云。深度学习方法的训练时的输入为上述虚拟训练集,包括758×384大小的共3600组五视单元,影像数量为(N=3或N=5),深度采样数量D=200,测试时固定深度间隔为0.15m,深度采样数量可变。表1是五种方法的定量评价结果,评价标准为平均绝对误差(Mean Absolute Error,MAE);L1误差小于0.6m的像素百分比(<0.6m);小于三个采样间隔的像素百分比(<3-interval);以及深度图的完整度(Completeness)。在四个指标上,RED-Net方法的结果均优于其他方法。附图3是五种方法得到的深度图的比较。RED-Net方法得到的深度图准确率最高且地物边缘最清晰。
表1五种方法在构建的训练、测试集上的定量结果比较
Figure BDA0002321978980000101
利用影像的相机参数信息和得到的深度图结果,将每个像素点根据共线条件方程反投影至物方空间,得到三维点云模型。图4是RED-Net方法和三维重建软件COLMAP由航空影像得到的三维重建结果图。可以看出,我们的方法产生的模型最为完整,空洞区域最少,且地物边缘清晰,误差点最少。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (6)

1.一种基于卷积循环编码-解码结构的多视影像三维重建方法,其特征在于,包括如下步骤:
步骤1,构建用于训练网络的多视航空影像数据库,数据库中包括多视航空影像、影像对应的内外方位元素,以及每张影像对应的真实深度图;
步骤2,构建多视密集匹配网络RED-Net,利用步骤1构建的数据库训练网络,学习影像匹配中的底层特征;
所述多视密集匹配网络RED-Net包括:特征检测部分,构建代价图部分,循环编码-解码规则化部分,计算损失函数值部分共四个部分;其中特征检测部分用于利用卷积神经网络分支提取遥感影像二维层面的特征,获得特征图;代价图构建部分用于将特征图投影至三维空间的特定深度平面上,将不同视角下的特征图融合为代价图;循环编码-解码规则化部分由循环编码-解码结构组成,包括4个卷积层和4个上卷积层,以及4个门控循环单元,用于对代价图进行规则化处理;计算损失函数值部分采用交叉熵损失值,当交叉熵损失值收敛时,网络模型训练完成;
所述循环编码-解码规则化部分包括卷积编码部分、卷积解码部分以及循环门控单元,其中卷积编码部分由四个卷积层组成,每个卷积层后紧接着一个修正线性单元,卷积核大小均为3×3,第一层步长为1,后三层的步长为2,特征通道数分别为8,16,32,64;解码部分由四个上卷积层组成,除最后一层外,每个上卷积层后紧接着一个修正线性单元,四个卷积层的卷积核大小均为3×3,步长为2,特征通道数分别为32,16,8,1;
卷积编码部分产生的4个尺度的特征图分别通过4个卷积门控循环单元进行正则化,其中,第4个卷积层产生的特征图在卷积门控循环单元规则化后通过解码部分第1个上卷积层进行上采样,第1,2,3个卷积层产生的特征图通过卷积门控循环单元规则化后,分别与解码部分第3,2,1个上卷积层产生的特征图相加,相加后的特征图作为下一个上卷积层的输入,通过解码部分后,得到通道数为1、上采样为原始影像大小的特征图;
其中4个尺度上的卷积门控循环单元共包括4个状态转换参量,记录当前时刻的代价图的信息并作为初值传递给下一时刻输入代价图的状态参量,用于记录代价图在深度方向上的上下文信息;步骤3,利用训练好的网络模型对真实的多视航空影像进行预测,得到参考影像视角下的预测深度图;
步骤4,根据提供的相机的内参和位置姿态参数,结合预测的深度图,利用已有的共线条件方程将影像中的每个像素点反投影至三维物方空间,得到点云构成的三维模型。
2.如权利要求1所述的一种基于卷积循环编码-解码结构的多视影像三维重建方法,其特征在于:步骤1的具体实现包括如下子步骤,
步骤1.1,选取多视影像数据;以一张航空影像为参考影像,与其航向相邻与旁向相邻的上下左右四张影像为源影像,这样的五张影像和对应的真实深度图以及空三解算后的相机参数、位姿参数作为一组五视数据单元,真实深度图由激光扫描获得,或利用高精度的地表三维模型通过虚拟投影的方式生成虚拟影像和对应的深度图;
步骤1.2,训练样本分割;在一组五视数据单元影像所共有的重叠区域内,将五张影像分别裁剪为M*N的样本数据,并用同样的方式将对应的深度图裁剪为同样大小的样本作为训练真值;
步骤1.3,构建训练样本库;选取一组裁剪为M*N像素大小的五视数据切片,与对应的五视切片深度图和相机参数文件构成一组五视训练样本,将多组多视航空影像数据分别裁剪为多组数据切片,构成训练样本库。
3.如权利要求1所述的一种基于卷积循环编码-解码结构的多视影像三维重建方法,其特征在于:所述特征检测部分对于N张输入影像设置了N个2D卷积神经元网络分支,每一分支包括5个卷积层,通道数分别为8,8,16,16,16;其中前四层均由卷积层和修正线性单元ReLU构成,第五层仅由卷积层构成;前两层的卷积核大小为3×3,卷积步长为1.第三层的卷积核大小为5×5,卷积步长为2,后两层的卷积核大小为3×3,步长为1,每个网络分支之间共享权重,最终特征检测部分对每一张输入影像得到16个通道的特征图,特征图的宽和高分别为输入原始影像的1/2。
4.如权利要求1所述的一种基于卷积循环编码-解码结构的多视影像三维重建方法,其特征在于:所述构建代价图部分输入为特征检测部分得到的N组16通道的特征图,利用差分形式的平面扫描法将一组2D特征图反投影至参考影像视角下的3D空间中某个特定深度的平面上,采用方差运算将同一个深度位置的多个视角下的特征图融合为一张代价图,将深度范围以一定的间隔采样为D个深度层,得到D个代价图。
5.如权利要求1所述的一种基于卷积循环编码-解码结构的多视影像三维重建方法,其特征在于:所述计算损失函数值部分将每个深度层面上规则化后的代价图堆叠为一个代价体,然后在深度方向上应用softmax函数将代价体转换为概率体,概率体中的每个值表示当前像素点在当前深度层Di上的概率值;真实深度值通过独热编码后变成与上述概率体同样大小的二分体;计算上述二分体和概率体之间的交叉熵损失值,利用该损失值指导网络的训练,直到训练该损失值不再下降,网络模型达到最优。
6.如权利要求1所述的一种基于卷积循环编码-解码结构的多视影像三维重建方法,其特征在于:步骤3的具体实现方式如下,
利用训练好的网络模型对一组多视航空影像进行预测,输入为一组多视航空影像和对应的每张影像的相机参数,输出为对应于参考影像的、由softmax转换而得的概率体,在概率体上沿深度方向上采用赢者通吃策略,获得每个像素点对应的深度估计值。
CN201911301740.8A 2019-12-17 2019-12-17 一种基于卷积循环编码-解码结构的多视影像三维重建方法 Active CN111127538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911301740.8A CN111127538B (zh) 2019-12-17 2019-12-17 一种基于卷积循环编码-解码结构的多视影像三维重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911301740.8A CN111127538B (zh) 2019-12-17 2019-12-17 一种基于卷积循环编码-解码结构的多视影像三维重建方法

Publications (2)

Publication Number Publication Date
CN111127538A CN111127538A (zh) 2020-05-08
CN111127538B true CN111127538B (zh) 2022-06-07

Family

ID=70499408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911301740.8A Active CN111127538B (zh) 2019-12-17 2019-12-17 一种基于卷积循环编码-解码结构的多视影像三维重建方法

Country Status (1)

Country Link
CN (1) CN111127538B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640145B (zh) * 2020-05-29 2022-03-29 上海商汤智能科技有限公司 图像配准方法及其相关的模型训练方法、设备、装置
CN111402345B (zh) * 2020-06-04 2020-09-04 深圳看到科技有限公司 基于多目全景图像的模型生成方法及装置
CN111612898B (zh) * 2020-06-18 2023-04-18 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质及电子设备
CN112418336B (zh) * 2020-11-27 2024-01-23 广东电网有限责任公司肇庆供电局 一种电力线巡检影像密集匹配方法
CN117083852A (zh) * 2021-04-04 2023-11-17 镭亚股份有限公司 多视图图像创建系统和方法
CN113160375B (zh) * 2021-05-26 2022-12-13 郑健青 一种基于多任务学习算法的三维重建及相机位姿估计方法
CN113486928B (zh) * 2021-06-16 2022-04-12 武汉大学 一种基于有理多项式模型可微分张量表达的多视影像对齐方法
CN113743515B (zh) * 2021-09-08 2022-03-11 感知天下(北京)信息科技有限公司 基于自监督自学习特征点的遥感影像特征匹配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3178067A1 (en) * 2014-08-08 2017-06-14 Carestream Health, Inc. Facial texture mapping to volume image
CN108629291A (zh) * 2018-04-13 2018-10-09 深圳市未来媒体技术研究院 一种抗网格效应的人脸深度预测方法
CN108876907A (zh) * 2018-05-31 2018-11-23 大连理工大学 一种面向目标对象的主动式三维重建方法
CN109903304A (zh) * 2019-02-25 2019-06-18 武汉大学 一种基于卷积神经元网络和多边形规则化的建筑物轮廓自动提取算法
CN110136170A (zh) * 2019-05-13 2019-08-16 武汉大学 一种基于卷积神经网络的遥感影像建筑物变化检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510573B (zh) * 2018-04-03 2021-07-30 南京大学 一种基于深度学习的多视点人脸三维模型重建的方法
CN109919206B (zh) * 2019-02-25 2021-03-16 武汉大学 一种基于全空洞卷积神经网络的遥感影像地表覆盖分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3178067A1 (en) * 2014-08-08 2017-06-14 Carestream Health, Inc. Facial texture mapping to volume image
CN108629291A (zh) * 2018-04-13 2018-10-09 深圳市未来媒体技术研究院 一种抗网格效应的人脸深度预测方法
CN108876907A (zh) * 2018-05-31 2018-11-23 大连理工大学 一种面向目标对象的主动式三维重建方法
CN109903304A (zh) * 2019-02-25 2019-06-18 武汉大学 一种基于卷积神经元网络和多边形规则化的建筑物轮廓自动提取算法
CN110136170A (zh) * 2019-05-13 2019-08-16 武汉大学 一种基于卷积神经网络的遥感影像建筑物变化检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Just Look at the Image: Viewpoint-Specific Surface Normal Prediction for Improved Multi-View Reconstruction;Silvano Galliani et.al;《2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20161212;第5479-5487页 *
基于增量式运动恢复结构的弱纹理目标三维重建;陶易之;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181215;I138-1229 *

Also Published As

Publication number Publication date
CN111127538A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111127538B (zh) 一种基于卷积循环编码-解码结构的多视影像三维重建方法
CN110458939B (zh) 基于视角生成的室内场景建模方法
CN111462329B (zh) 一种基于深度学习的无人机航拍影像的三维重建方法
Liu et al. A novel recurrent encoder-decoder structure for large-scale multi-view stereo reconstruction from an open aerial dataset
CN111862126B (zh) 深度学习与几何算法结合的非合作目标相对位姿估计方法
CN109472819B (zh) 一种基于级联几何上下文神经网络的双目视差估计方法
CN110009674B (zh) 基于无监督深度学习的单目图像景深实时计算方法
CN110570522B (zh) 一种多视图三维重建方法
CN112529015A (zh) 一种基于几何解缠的三维点云处理方法、装置及设备
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及系统
CN111832655A (zh) 一种基于特征金字塔网络的多尺度三维目标检测方法
CN110197505B (zh) 基于深度网络及语义信息的遥感图像双目立体匹配方法
US20230206603A1 (en) High-precision point cloud completion method based on deep learning and device thereof
CN112347987A (zh) 一种多模数据融合的三维目标检测方法
CN110969653B (zh) 一种基于深度学习和傅里叶域分析的图像深度估计方法
CN103606151A (zh) 基于影像点云的大范围虚拟地理场景自动构建方法
Chen et al. 3D photogrammetry point cloud segmentation using a model ensembling framework
CN114332302A (zh) 一种基于多尺度自注意力网络的点云补全系统及方法
CN115439694A (zh) 一种基于深度学习的高精度点云补全方法及装置
CN117315169A (zh) 基于深度学习多视密集匹配的实景三维模型重建方法和系统
CN114387512A (zh) 基于多尺度特征融合与增强的遥感影像建筑物提取方法
CN115423938A (zh) 一种基于语义识别的三维模型重建方法及系统
CN114373104A (zh) 一种基于动态聚合的三维点云语义分割方法及系统
CN113111740A (zh) 一种遥感图像目标检测的特征编织方法
CN115546649B (zh) 一种单视遥感影像高度估计和语义分割多任务预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant