CN112750201A - 三维重建方法及相关装置、设备 - Google Patents
三维重建方法及相关装置、设备 Download PDFInfo
- Publication number
- CN112750201A CN112750201A CN202110057035.9A CN202110057035A CN112750201A CN 112750201 A CN112750201 A CN 112750201A CN 202110057035 A CN202110057035 A CN 202110057035A CN 112750201 A CN112750201 A CN 112750201A
- Authority
- CN
- China
- Prior art keywords
- reconstruction
- space
- feature map
- voxel
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 126
- 238000010586 diagram Methods 0.000 claims abstract description 47
- 230000004927 fusion Effects 0.000 claims description 25
- 238000013519 translation Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 46
- 238000000605 extraction Methods 0.000 description 18
- 239000006185 dispersion Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000032798 delamination Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000010332 selective attention Effects 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/08—Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/36—Level of detail
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2016—Rotation, translation, scaling
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Geometry (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- Image Generation (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种三维重建方法及相关装置、设备,其中,三维重建方法包括:获取用于本次重建的若干帧第一关键图像,并确定包围若干帧第一关键图像的视锥的第一空间;其中,第一关键图像是对待重建目标拍摄得到的;基于若干帧第一关键图像中的图像信息,得到第一空间的第一特征图,其中,第一特征图包括第一空间中体素的第一特征信息;利用第一特征图,得到本次重建的第一重建结果;利用本次重建的第一重建结果,对之前重建得到的第二重建结果进行更新。上述方案,能够提高三维重建过程的实时性以及三维重建结果的平滑度。
Description
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种三维重建方法及相关装置、设备。
背景技术
随着电子信息技术的发展,通过手机、平板电脑等集成有摄像头的电子设备对真实场景中的物体进行三维重建,在诸多应用场景中均得到了广泛应用。例如,可以应用于AR(Augmented Reality,增强现实)等下游应用之中,而为了增强AR效果和物理场景之间的沉浸感,三维重建结果需要尽可能地平滑,且三维重建过程需要尽可能地实时。有鉴于此,如何提高三维重建过程的实时性以及三维重建结果的平滑度成为极具研究价值的课题。
发明内容
本申请提供一种三维重建方法及相关装置、设备。
本申请第一方面提供了一种三维重建方法,包括:获取用于本次重建的若干帧第一关键图像,并确定包围若干帧第一关键图像的视锥的第一空间;其中,第一关键图像是对待重建目标拍摄得到的;基于若干帧第一关键图像中的图像信息,得到第一空间的第一特征图,其中,第一特征图包括第一空间中体素的第一特征信息;利用第一特征图,得到本次重建的第一重建结果;利用本次重建的第一重建结果,对之前重建得到的第二重建结果进行更新。
因此,通过获取用于本次重建的若干帧第一关键图像,并确定包围若干帧第一关键图像的视锥的第一空间,且第一关键图像是对待重建目标拍摄得到的,在此基础上基于若干帧第一关键图像中的图像信息,得到第一空间的第一特征图,且第一特征图包括第一空间中体素的第一特征信息,从而利用第一特征图,得到本次重建的第一重建结果,进而利用本次重建的第一重建结果,对之前重建得到的第二重建结果进行更新,故此每次重建过程中,均能够对包围若干帧第一关键图像的视锥的第一空间整体进行三维重建,从而不仅能够大大降低计算负荷,还能够降低重建结果出现分层或分散的概率,进而能够提高三维重建过程的实时性以及三维重建结果的平滑度。
其中,在获取用于本次重建的若干帧第一关键图像之后,方法还包括:分别对每帧第一关键图像进行特征提取,得到第一关键图像的第二特征图;基于若干帧第一关键图像中的图像信息,得到第一空间的第一特征图,包括:基于第一空间的各体素在第二特征图中对应的第二特征信息,得到第一空间的第一特征图。
因此,通过分别对每帧第一关键图像进行特征提取,得到第一关键图像的第二特征图,从而基于第一空间的各体素在第二特征图中对应的第二特征信息,得到第一空间的第一特征图,故能够融合各帧第一关键图像的第二特征图,得到第一空间的第一特征图,有利于提高第一特征图的准确性,进而能够有利于提高三维重建的准确性。
其中,基于第一空间的各体素在第二特征图中对应的第二特征信息,得到第一空间的第一特征图,包括:分别从每帧第一关键图像的第二特征图中,提取体素对应的第二特征信息;将体素分别对应若干帧第一关键图像的第二特征信息进行融合,得到体素的第一特征信息;基于第一空间的各体素的第一特征信息,得到第一空间的第一特征图。
因此,通过分别从每帧第一关键图像的第二特征图中,提取体素对应的第二特征信息,并将体素分别对应若干帧第一关键图像的第二特征信息进行融合,得到体素的第一特征信息,从而基于第一空间的各体素的第一特征信息,得到第一空间的第一特征图,故此对于第一空间中每一体素而言,均融合有对应每帧第一关键图像的第二特征信息,能够有利于进一步提高第一空间的第一特征图的精准性。
其中,将体素分别对应若干帧第一关键图像的第二特征信息进行融合,得到体素的第一特征信息,包括:将体素对应每帧第一关键图像的第二特征信息的平均值,作为体素的第一特征信息;和/或,在分别从每帧第一关键图像的第二特征图中,提取体素对应的第二特征信息之后,方法还包括:在每帧第一关键图像的第二特征图中均未提取得到体素对应的第二特征信息的情况下,将预设特征信息作为体素的第一特征信息。
因此,通过将体素对应每帧第一关键图像的第二特征信息的平均值,作为体素的第一特征信息,能够降低获取第一特征信息的复杂度,从而能够有利于提高三维重建的速度,进而能够有利于进一步提高三维重建过程的实时性;而在每帧第一关键图像的第二特征图中均未提取得到体素对应的第二特征信息的情况下,将预设特征信息作为体素的第一特征信息,能够有利于进一步降低获取第一特征信息的复杂度。
其中,每帧第一关键图像的第二特征图均包括对应不同分辨率的预设数量张第二特征图;第一空间包括对应不同分辨率的预设数量个第一空间,分辨率越高,第一空间中体素的尺寸越小;第一特征图包括对应不同分辨率的预设数量张第一特征图,每张第一特征图是基于相同分辨率的第二特征图的第二特征信息得到。
因此,通过将每帧第一关键图像的第二特征图设置为均包括对应不同分辨率的预设数量张第二特征图,且第一空间包括对应不同分辨率的预设数量个第一空间,分辨率越高,第一空间中体素的尺寸越小,此外将第一特征图设置为包括对应不同分辨率的预设数量张第一特征图,每张第一特征图是基于相同分辨率的第二特征图的第二特征信息得到,故能够有利于通过不同分辨率的预设数量张第二特征图来进行三维重建,从而能够有利于进一步提高三维重建的精细度。
其中,利用第一特征图,得到本次重建的第一重建结果,包括:按照分辨率由低到高的顺序,依次选择一种分辨率作为当前分辨率;将上一次选择的分辨率对应的第一重建结果进行上采样,并将上采样后的第一重建结果与当前分辨率对应的第一特征图进行融合,得到与当前分辨率对应的融合特征图;利用融合特征图,得到与当前分辨率对应的第一重建结果;在当前分辨率并非最高分辨率的情况下,重新执行按照分辨率由低到高的顺序,依次选择一种分辨率作为当前分辨率的步骤以及后续步骤;在当前分辨率为最高分辨率的情况下,将与当前分辨率对应的第一重建结果作为本次重建最终的第一重建结果。
因此,通过按照分辨率由低到高的顺序,依次选择一种分辨率作为当前分辨率,并将上一次选择的分辨率对应的第一重建结果进行上采样,将上采样后的第一重建结果与当前分辨率对应的第一特征图进行融合,得到与当前分辨率对应的融合特征图,在此基础上利用融合特征图,得到与当前分辨率对应的第一重建结果,从而在当前分辨率并非最高分辨率的情况下,重新执行按照分辨率由低到高的顺序,依次选择一种分辨率作为当前分辨率的步骤以及后续步骤,或者在当前分辨率为最高分辨率的情况下,将与当前分辨率对应的第一重建结果作为本次重建最终的第一重建结果,故此能够由基于“低分辨率”的第一特征图至基于“高分辨率”的第一特征图逐渐进行三维重建,从而能够有利于实现“由粗到细”的三维重建,进而能够有利于进一步提高三维重建的精细度。
其中,利用第一特征图,得到本次重建的第一重建结果,包括:利用第一特征图进行预测,得到第一空间中各体素的第一重建值和第一重建值在预设数值范围内的概率值;其中,第一重建值用于表示体素与待重建目标中的关联物体表面之间的距离;选择第一空间中概率值满足预设条件的体素;利用选择的体素的第一重建值,得到本次重建的第一重建结果。
因此,通过利用第一特征图进行预测,得到第一空间中各体素的第一重建值和第一重建值在预设数值范围内的概率值,且第一重建值用于表示体素与待重建目标中的关联物体表面之间的距离,并选择第一空间中概率值满足预设条件的体素,从而利用选择的体素的第一重建值,得到本次重建的第一重建结果,故能够滤除概率值不满足预设条件的体素对于三维重建的干扰,能够有利于进一步提高三维重建的准确性。
其中,第一重建结果包括第一空间中体素的第一重建值,第二重建结果包括第二空间中体素的第二重建值,第二空间是包围之前重建的第二关键图像的视锥的总空间,第一重建值和第二重建值用于表示体素与待重建目标中的关联物体表面之间的距离;利用本次重建的第一重建结果,对之前重建得到的第二重建结果进行更新,包括:利用第一空间中体素的第一重建值,更新第二空间中对应体素的第二重建值。
因此,通过将第一重建结果设置为包括第一空间中体素的第一重建值,第二重建结果设置为包括第二空间中体素的第二重建值,且第二空间是包围之前重建的第二关键图像的视锥的总空间,第一重建值和第二重建值用于表示体素与待重建目标中的关联物体表面之间的距离,在此基础上利用第一空间中体素的第一重建值,更新第二空间中对应体素的第二重建值,以对之前重建得到的第二重建结果进行更新,能够有利于在三维重建过程中利用本次重建过程中第一空间中体素的第一重建值,更新之前重建得到的第二重建结果,进而能够有利于在重建过程中不断完善第二重建结果,提高三维重建的准确性。
其中,关联物体表面为待重建目标中与体素距离最近的物体表面。
因此,通过将关联物体表面设置为待重建目标中与体素距离最近的物体表面,能够有利于进一步提高三维重建的准确性。
其中,第一重建结果是利用三维重建模型得到的;利用第一特征图,得到本次重建的第一重建结果,包括:获取三维重建模型的融合网络在之前重建所得到的第一历史隐层状态;其中,第一历史隐层状态包括第二空间中体素对应的状态值,第二空间是包围之前重建的第二关键图像的视锥的总空间;从第一历史隐层状态中,提取第一空间的体素对应的状态值,以作为第二历史隐层状态;利用融合网络执行:基于第一特征图对第二历史隐层状态中的状态值进行更新,得到本次隐层状态;利用三维重建模型对本次隐层状态进行预测,得到第一重建结果。
因此,通过将第一重建结果设置为是利用三维重建模型得到的,并获取三维重建模型的融合网络在之前重建所得到的第一历史隐层状态,且第一历史隐层状态包括第二空间中体素对应的状态值,第二空间是包围之前重建的第二关键图像的视锥的总空间,在此基础上从第一历史隐层状态中,提取第一空间的体素对应的状态值,以作为第二历史隐层状态,从而利用融合网络执行:基于第一特征图对第二历史隐层状态中的状态值进行更新,得到本次隐层状态,进而利用三维重建模型对本次隐层状态进行预测,得到第一重建结果,故此每次重建过程中均能参考之前重建所得到的第一历史隐层状态,能够有利于提高本次重建与之前重建的一致性,从而能够有利于降低本次重建结果与之前重建结果之间发生分层或分散的概率,进而能够有利于进一步提高三维重建结果的平滑度。
其中,在本次重建为首次重建的情况下,第一历史隐层状态中的状态值为预设状态值。
因此,在本次重建为首次重建的情况下,通过将第一历史隐层状态中的状态值设置为预设状态值,能够有利于提高三维重建的鲁棒性。
其中,融合网络包括:门控循环单元;和/或,三维重建模型还包括预测网络,利用三维重建模型对本次隐层状态进行预测,得到第一重建结果,包括:利用预测网络对本次隐层状态进行预测,得到第一重建结果。
因此,通过将融合网络设置为包括门控循环单元,能够有利于通过门控循环单元引入选择性注意机制,从而能够有利于在三维重建过程中选择性地参考之前重建所得到的第一历史隐层状态,进而能够有利于提高三维重建的准确性;而通过将三维重建模型设置为包括预测网络,从而利用预测网络对本次隐层状态进行预测,得到第一重建结果,能够有利于提高三维重建的效率。
其中,在基于第一特征图对第二历史隐层状态中的状态值进行更新,得到本次隐层状态之前,方法还包括:对第一特征图进行几何信息提取,得到几何特征图;其中,几何特征图包括体素的几何信息;基于第一特征图对第二历史隐层状态中的状态值进行更新,得到本次隐层状态,包括:基于几何特征图对第二历史隐层状态中的状态值进行更新,得到本次隐层状态。
因此,通过对第一特征图进行几何信息提取,得到几何特征图,且几何特征图包括体素的几何信息,在此基础上基于几何特征图对第二历史隐层状态中的状态值进行更新,得到本次隐层状态,能够在提取得到的体素的几何信息的基础上对本次重建的第一空间的第二历史隐层状态进行更新,有利于提高三维重建的准确性。
其中,在基于第一特征图对第二历史隐层状态中的状态值进行更新,得到本次隐层状态之后,方法还包括:利用本次隐层状态中的状态值,更新第一历史隐层状态中相应体素对应的状态值。
因此,通过利用本次隐层状态中的状态值,更新本次重建的第一空间的第二历史隐层状态中相应体素对应的状态值,故能够在更新得到本次隐层状态之后,进一步更新第二空间的第一历史隐层状态,有利于在本次重建的基础上进一步提高第二空间的第一历史隐层状态的准确性,从而能够有利于提高三维重建的准确性。
其中,若干帧第一关键图像是在拍摄待重建目标过程中获取的;和/或,第一关键图像对应有相机位姿参数,相机位姿参数包括平移距离和旋转角度,第一关键图像满足以下至少一者:相邻第一关键图像之间平移距离的差异大于预设距离阈值,相邻第一关键图像之间旋转角度的差异大于预设角度阈值。
因此,通过将若干帧第一关键图像设置为是在拍摄待重建目标过程中获取的,能够实现一边拍摄一边进行三维重建;而第一关键图像对应有相机位姿参数,相机位姿参数包括平移距离和旋转角度,第一关键图像设置为满足以下至少一者:相邻第一关键图像之间平移距离的差异大于预设距离阈值,相邻第一关键图像之间旋转角度的差异大于预设角度阈值,能够有利于在每次重建过程中参考尽可能少的关键图像的基础上,尽可能地扩大第一空间的视觉范围,从而能够有利于提高三维重建的效率。
本申请第二方面提供了一种三维重建装置,包括:关键图像获取模块、第一空间确定模块、第一特征获取模块、重建结果获取模块和重建结果更新模块,关键图像获取模块用于获取用于本次重建的若干帧第一关键图像;第一空间确定模块用于确定包围若干帧第一关键图像的视锥的第一空间;其中,第一关键图像是对待重建目标拍摄得到的;第一特征获取模块用于基于若干帧第一关键图像中的图像信息,得到第一空间的第一特征图,其中,第一特征图包括第一空间中体素的第一特征信息;重建结果获取模块用于利用第一特征图,得到本次重建的第一重建结果;重建结果更新模块用于利用本次重建的第一重建结果,对之前重建得到的第二重建结果进行更新。
本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的三维重建方法。
本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的三维重建方法。
上述方案,通过获取用于本次重建的若干帧第一关键图像,并确定包围若干帧第一关键图像的视锥的第一空间,且第一关键图像是对待重建目标拍摄得到的,在此基础上基于若干帧第一关键图像中的图像信息,得到第一空间的第一特征图,且第一特征图包括第一空间中体素的第一特征信息,从而利用第一特征图,得到本次重建的第一重建结果,进而利用本次重建的第一重建结果,对之前重建得到的第二重建结果进行更新,故此每次重建过程中,均能够对包围若干帧第一关键图像的视锥的第一空间整体进行三维重建,从而不仅能够大大降低计算负荷,还能够降低重建结果出现分层或分散的概率,进而能够提高三维重建过程的实时性以及三维重建结果的平滑度。
附图说明
图1是本申请三维重建方法一实施例的流程示意图;
图2是第一空间一实施例的示意图;
图3是本申请三维重建方法一实施例的过程示意图;
图4是本申请三维重建方法与其他三维重建方法的效果示意图;
图5是图1中步骤S12一实施例的流程示意图;
图6是获取第一特征图一实施例的状态示意图;
图7是图1中步骤S13一实施例的流程示意图;
图8是获取本次隐层状态一实施例的状态示意图;
图9是本申请三维重建方法另一实施例的过程示意图;
图10是本申请三维重建装置一实施例的框架示意图;
图11是本申请电子设备一实施例的框架示意图;
图12是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请三维重建方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取用于本次重建的若干帧第一关键图像,并确定包围若干帧第一关键图像的视锥的第一空间。
本公开实施例中,第一关键图像是对待重建目标拍摄得到的。待重建目标可以根据实际应用情况进行设置。例如,在需要对某一物体进行三维重建的情况下,待重建目标可以为物体,例如,待重建目标可以包括但不限于:桌子、椅子、沙发等等,在此不做限定;或者,在需要对某一场景进行三维重建的情况下,待重建目标可以为场景,需要说明的是,场景中可以包含若干物体,以待重建目标是客厅为例,客厅内可以包括但不限于如下物体:桌子、椅子、沙发等,以待重建目标是建筑为例,建筑可以包括但不限于如下物体:楼梯、走廊、大门等,其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,为了提高三维重建的实时性,第一关键图像可以是在拍摄待重建目标过程中获取的。具体地,可以一边拍摄待重建目标,一边获取用于本次重建的若干帧第一关键图像,以实现对三维重建过程进行增量处理。
在一个实施场景中,第一关键图像可以对应有相机位姿参数,相机位姿参数具体可以包括平移距离和旋转角度,在此基础上,第一关键图像具体满足以下至少一者:相邻第一关键图像之间的平移距离的差异大于预设距离阈值,相邻第一关键图像之间旋转角度的差异大于预设角度阈值。上述方式,能够有利于在每次重建过程中参考尽可能少的关键图像的基础上,尽可能地扩大第一空间的视觉范围,从而能够有利于提高三维重建的效率。
在一个具体的实施场景中,相机位姿参数具体可以利用诸如SLAM(SimultaneousLocalization And Mapping,即时定位与地图构建)等方式获取,在此不做限定。SLAM通常包括如下几个部分,特征提取,数据关联,状态估计,状态更新以及特征更新等,具体细节在此不再赘述。
在另一个具体的实施场景中,为了便于描述,对待重建目标拍摄得到的图像序列可以记为{It},图像序列所对应的相机位姿参数可以记为{ξt},对于相机位姿参数ξt而言,具体可以包括平移距离t和旋转角度R。为了在保持多视角重建过程中提供足够的视觉范围,在上述图像序列中所挑选的第一关键图像在三维空间中彼此之间须既不太靠近又不太远离,故在图像序列中某一帧图像的平移距离t与最新挑选的第一关键图像的平移距离t之间的差异大于预设距离阈值tmax,且该帧图像的旋转角度R与上述最新挑选的第一关键图像的旋转角度R之间的差异大于预设角度阈值Rmax的情况下,可以将该帧图像挑选为新的第一关键图像。上述方式,能够在每次重建过程中最大可能地利用较少的第一关键图像,同时最大可能地扩大第一空间的视觉范围。
在又一个具体的实施场景中,为了合理控制每次三维重建的计算负荷,每次三维重建所获取的若干帧第一关键图像的图像数量可以小于预设数量阈值,预设数量阈值可以根据实际应用情况进行设置,例如,在执行三维重建的电子设备具有较为富余的计算资源的情况下,预设数量阈值可以设置地稍大一些,如可以设置为5、10、15等等;或者,在执行三维重建的电子设备具有相对贫乏的计算资源的情况下,预设数量阈值也可以设置地稍小一些,如可以设置为2、3、4等等,在此不做限定。
此外,需要说明的是,视锥可以理解为一个形状为四棱锥的实体形状,该实体形状就是相机渲染时能够看到区域的形状。可以理解,摄像头所拍摄到的图像中任何一点最终对应于现实世界中的一条线,并且只会现实这条线上的一个点,这条线上所有在这个显示的点后面的物体都会被遮挡,而图像的外边界由四个顶点对应的发散线定义,且这四条线最终相较于摄像头所在位置。
在一个实施场景中,请结合参阅图2,图2是第一空间一实施例的示意图。如图2所示,第一关键图像分别由黑点表示的相机1、相机2和相机3拍摄得到,在实际应用过程中,为了降低相对相机过远的图像信息对后续三维重建可能产生的干扰,在确定第一空间时,可以预先定义上述视锥的最大深度为Dmax,即四棱锥的高度为上述最大深度Dmax。请继续结合参阅图2,为了便于描述,图2以等腰三角形所示的视锥为俯视第一空间的情况下视锥的示意图,即图2所示的第一空间为二维视角下的示意图,其中等腰三角形中的虚线即表示上述最大深度Dmax,在此情况下,可以定义将相机1、相机2和相机3拍摄到的第一关键图像的视锥包围起来的空间即为第一空间。具体地,为了便于三维重建,本公开实施例以及下述公开实施例中,如无特别说明,第一空间具体可以包括长方体、正方体等相邻表面相互垂直的六面体。此外,在第一关键图像的视锥为其他情况下,或者第一关键图像为其他数量的情况下,第一空间可以参照上述描述以此类推,在此不再一一举例。
此外,本公开实施例以及下述公开实施例中,第一空间可以包括若干体素(voxel)。具体地,以第一空间为长方体或正方体为例,体素也可以为长方体或正方体,若干体素堆叠形成第一空间。此外,体素的尺寸可以根据实际应用情况进行设置。例如,在对三维重建的精度要求较高的情况下,体素的尺寸可以设置地稍小一些,或者,在对三维重建的精度要求相对宽松的情况下,体素的尺寸可以设置地稍大一些,在此不做限定。
步骤S12:基于若干帧第一关键图像中的图像信息,得到第一空间的第一特征图。
本公开实施例中,第一特征图包括第一空间中体素的第一特征信息。
在一个实施场景中,可以分别对每帧第一关键图像进行特征提取,得到第一关键图像的第二特征图,在此基础上可以基于第一空间的各个体素在第二特征图中对应的第二特征信息,得到第一空间的第一特征图。上述方式,能够融合各帧第一关键图像的第二特征图,得到第一空间的第一特征图,有利于提高第一特征图的准确性,进而能够有利于提高三维重建的准确性。
在一个具体的实施场景中,为了提高特征提取的效率,可以预先训练一个三维重建模型,且该三维重建模型包括特征提取网络,从而可以利用特征提取网络分别对每帧第一关键图像进行特征提取,得到第一关键图像的第二特征图。特征提取网络具体可以包括但不限于卷积神经网络(Convolutional Neural Networks,CNN)等等,在此不做限定。三维重建模型的训练过程具体可以参阅下述相关公开实施例,在此暂不赘述。
在另一个具体的实施场景中,第一关键图像的第二特征图具体可以为预设分辨率的特征图,预设分辨率具体可以根据实际应用情况进行设置,例如,在对三维重建的精度要求较高的情况下,预设分辨率可以设置地稍大一些,而在对三维重建的精度要求相对宽松的情况下,预设分辨率可以设置地稍小一些,在此不做限定。
在又一个具体的实施场景中,对于第一空间的每一体素而言,具体可以融合该体素在第二特征图中对应的第二特征信息,从而得到该体素的第一特征信息,最终在得到第一空间所有体素的第一特征信息的基础上,可以得到第一空间的第一特征图。
在又一个具体的实施场景中,在每帧第一关键图像的第二特征图中均未提取得到体素对应的第二特征信息的情况下,可以将预设特征信息作为该体素的第一特征信息。预设特征信息具体可以根据实际应用情况进行设置,例如,为了进一步降低三维重建的计算复杂度,预设特征信息可以设置为0,在此不做限定。
在另一个实施场景中,每帧第一关键图像的第二特征图可以包括对应不同分辨率的预设数量张第二特征图,且第一空间包括对应不同分辨率的预设数量个第一空间,分辨率越高,第一空间中体素的尺寸越小,第一特征图也可以包括对应不同分辨率的预设数量张第一特征图,每张第一特征图是基于相同分辨率的第二特征图的第二特征信息得到的。上述方式,能够有利于通过不同分辨率的预设数量张第二特征图来进行三维重建,从而能够有利于进一步提高三维重建的精细度。
在一个具体的实施场景中,预设数量可以根据实际应用情况进行设置,例如,可以设置两种不同分辨率、三种不同分辨率、四种不同分辨率等等,在此不做限定。此外,不同分辨率具体也可以根据实际应用情况进行设置,例如,可以设置640*480和480*360两种分辨率,也可以设置1280*960和640*480两种分辨率;或者,可以设置640*480、480*360和360*240三种分辨率,也可以设置1280*960、640*480和480*360三种分辨率,在此不做限定。
在另一个具体的实施场景中,如前所述,为了提高三维重建的效率,可以预先训练一个三维重建模型,且该三维重建模型具体可以包括特征提取网络,进而可以利用该特征提取网络分别对若干第一关键图像进行特征提取,得到不同分辨率的第二特征图。具体地,该特征提取网络可以包括但不限于FPN(Feature Pyramid Networks,特征金字塔网络)等,在此不做限定。
在另一个具体的实施场景中,在第一关键图像的第二特征图包括对应N种不同分辨率的N张第二特征图的情况下,第一空间也包括分别与N种不同分辨率对应的N个第一空间,且分辨率越高,第一空间中体素的尺寸越小。例如,在第一关键图像的第二特征图包括1280*960和640*480两种分辨的第二特征图的情况下,第一空间也包括与分辨率1280*960对应的第一空间和与分辨率640*480对应的第一空间,且与分辨率1280*960对应的第一空间中体素的尺寸小于与分辨率640*480对应的第一空间中体素的尺寸。其他情况可以以此类推,在此不再一一举例。进一步地,对于第i种分辨率对应的第一空间中体素的第一特征信息,可以利用若干帧第一关键图像中第i种分辨率的第二特征图中对应的第二特征信息得到,具体过程可以参阅下述公开实施例,在此暂不赘述。
在又一个具体的实施场景中,第i种分辨率对应的第一空间中体素的宽度可以采用下式计算得到:
上述公式(1)中,wi表示第i种分辨率对应的第一空间中体素的宽度,s表示预先设置的基准体素宽度,具体可以根据实际应用情况进行调整。此外,需要说明的是,i具体是将不同分辨率按照由低到高的顺序排序之后的第i种分辨率。仍以上述1280*960、640*480和480*360三种分辨率为例,由低到高排序之后,分别为480*360、640*480、1280*960,即在计算分辨率480*360对应的第一空间的体素的宽度时,i为1,在计算分辨率640*480对应的第一空间的体素的宽度时,i为2,在计算分辨率1280*960对应的第一空间的体素的宽度时,i为3,其他情况可以以此类推,在此不再一一举例。
步骤S13:利用第一特征图,得到本次重建的第一重建结果。
在一个实施场景中,具体可以利用第一特征图进行预测,得到第一空间中各体素的第一重建值和第一重建值在预设数值范围内的概率值,且第一重建值用于表示体素与待重建目标中关联物体表面之间的距离,在此基础上,可以对上述预测结果进行稀疏化(sparsify)处理,具体可以选择第一空间中概率满足预设条件的体素,并利用选择的体素的第一重建值,得到本次充电的第一重建结果。上述方式,能够滤除概率值不满足预设条件的体素对于三维重建的干扰,能够有利于进一步提高三维重建的准确性。
在一个具体的实施场景中,为了提高三维重建的效率,可以预先训练一个三维重建模型,且该三维重建模型可以包括预测网络,从而可以将第一特征图输入预测网络,得到第一空间中各个体素的第一重建值和第一重建值在预设数值范围内的概率值。具体地,预测网络可以包括但不限于MLP(Multi-Layer Perceptron,多层感知机)等等,在此不做限定。
在另一个具体的实施场景中,第一重建值具体可以采用TSDF(Truncated SignedDistance Function,截断有符号距离函数)进行表示,在此情况下,预设数值范围具体可以为-1至1之间。为了便于描述,可以将第j个体素的第一重建值表示为需要说明的是,在大于0且小于1的情况下,表示第j个体素位于关联物体表面之前的截断距离λ之内,而在小于0且大于-1的情况下,表示第j个体素位于关联物体表面之后的截断距离λ之内。
在又一个具体的实施场景中,第一重建值在预设数值范围内的概率值可以视为第一重建值在预设数值范围内的可能性,且概率值越高,第一重建值在预设数值范围内的可能性越高,反之,概率值越低,第一重建值在预设数值范围内的可能性越低。
在又一个具体的实施场景中,预设条件具体可以设置为包括概率值大于预设概率阈值。具体地,预设概率阈值可以根据实际应用情况进行设置。例如,在对三维重建的准确性要求较高的情况下,预设概率阈值可以设置地稍大一些,如可以设置为0.9、0.95等,或者,在对三维重建的准确性要求相对宽松的情况下,预设概率阈值可以设置地稍小一些,如可以设置为0.8、0.85等,在此不做限定。
在又一个具体的实施场景中,在选择得到第一空间中概率值满足预设条件的体素之后,具体可以将选择的体素及其第一重建值整体作为本次重建的第一重建结果。
在又一个具体的实施场景中,为了便于后续利用重建值重建出待重建目标的表面,关联物体表面具体可以为待重建目标中与体素距离最近的物体表面。以待重建目标是客厅为例,对于最靠近客厅中地板的体素而言,关联物体表面具体可以为地板,而对于最靠近客厅中沙发的体素而言,关联物体表面具体可以为沙发,其他情况可以以此类推,在此不再一一举例。上述方式,能够有利于进一步提高三维重建的准确性。
在另一个实施场景中,如前所述,每帧第一关键图像的第二特征图均可以包括对应不同分辨率的预设数量张第二特征图,在此情况下,可以按照分辨率由低到高的顺序,依次选择一种分辨率作为当前分辨率,在此基础上将上一次选择的分辨率对应的第一重建结果进行上采样(Upsample),并将上采样后的第一重建结果与当前分辨率对应的第一特征图进行融合,得到与当前分辨率对应的融合特征图,从而利用融合特征图,得到与当前分辨率对应的第一重建结果,进而在当前分辨率并非最高分辨率的情况下,重新执行按照分辨率由低到高的顺序,依次选择一种分辨率作为当前分辨率的步骤以及后续步骤,或者在当前分辨率为最高分辨率的情况下,将与当前分辨率对应的第一重建结果作为本次重建最终的第一重建结果。上述方式,能够由基于“低分辨率”的第一特征图至基于“高分辨率”的第一特征图逐渐进行三维重建,从而能够有利于实现“由粗到细”的三维重建,进而能够有利于进一步提高三维重建的精细度。
在一个具体的实施场景中,具体可以采用最近邻插值等上采样方式对第一重建结果进行上采样。需要说明的是,为了便于后续将上采样后的第一重建结果与当前分辨率对应的第一特征图进行融合,在体素宽度由诸如上述公式(1)计算得到的情况下,即在第i种分辨率对应的第一空间中体素的宽度两倍于第i+1种分辨率对应的第一空间中体素的宽度的情况下,上采样之后体素的宽度为原宽度的一半,从而可以使得上采样后的第一重建结果中体素的宽度与当前分辨率对应的第一空间中体素的宽度相同。
在另一个具体的实施场景中,对于每一体素而言,可以将上采样后的第一重建结果中第j个体素的第一重建值与当前分辨率对应的第一空间中第j个体素的第一特征信息进行拼接(Concatenate),从而实现将上采样后的第一重建结果与当前分辨率对应的第一特征图的融合。例如,当前分辨率对应的第一空间中每一体素的第一特征信息可以表示为维度d的矩阵,而上采样后的第一重建结果中每一体素的第一重建值可以视为维度1的矩阵,故将两者拼接之后所得到的融合特征图可以视为维度d+1的矩阵,进而融合特征图中每一体素可以表示为d+1维度的矩阵。
在又一个具体的实施场景中,利用融合特征图,得到与当前分辨率对应的第一重建结果的具体过程,可以参阅前述利用第一特征图得到本次重建的第一重建结果的相关描述,在此不再赘述。
在又一个具体的实施场景中,请结合参阅图3,图3是本申请三维重建方法一实施例的过程示意图。如图3所示,在对待重建目标拍摄的图像序列中挑选得到若干第一关键图像,经特征提取网络(如前述FPN)进行特征提取之后,对于每帧第一关键图像而言,提取得到3种不同分辨率的第二特征图,这3种不同分辨率按照由低到高排序之后,可以分别记为分辨率1、分辨率2和分辨率3,分辨率1对应的第一空间可以记为第一空间1,分辨率2对应的第一空间可以记为第一空间2、分辨率3对应的第一空间可以记为第一空间3,对于每种分辨率,可以基于与该种分辨率对应的第一空间的各体素在该种分辨率的第二特征图中对应的第二特征信息,得到该种分辨率对应的第一空间的第一特征图。为了便于描述可以将本次重建(即第t时间步)第一空间1的第一特征图记为Ft 1,第一空间2的第一特征图记为Ft 2,第一空间3的第一特征图记为Ft 3。按照分辨率由低到高的顺序,先选择分辨率1作为当前分辨率,并将上一次选择的分辨率对应的第一重建结果进行上采样,由于分辨率1位首次选择的分辨率,故不存在上一次选择的分辨率对应的第一重建结果,从而可以直接利用诸如MLP等预测网络对当前分辨率对应的第一特征图Ft 1进行预测,得到第一空间1中各体素的第一重建值和第一重建值在预设数值范围内的概率值,为了便于描述可以记为再对进行稀疏化(即图3中S)处理得到第一重建结果。由于当前分辨率并非最高分辨率,故可以接着将分辨率2作为当前分辨率,并将上一次选择的分辨率1对应的第一重建结果进行上采样(即图3中U),并利用上采样后的第一重建结果与当前分辨率对应的第一特征图Ft 2进行拼接(即图3中C)处理,得到与分辨率2对应的融合特征图,从而利用诸如MLP等预测网络对融合特征图进行预测,得到第一空间2中各体素的第一重建值和第一重建值在预设数值范围内的概率值,为了便于描述可以记为再对进行稀疏化(即图3中S)处理得到第一重建结果。由于当前分辨率仍然并非最高分辨率,故可以接着将分辨率3作为当前分辨率,并将上一次选择的分辨率2对应的第一重建结果进行上采样(即图3中U),并利用上采样后的第一重建结果与当前分辨率对应的第一特征图Ft 3进行拼接(即图3中C)处理,得到与分辨率3对应的融合特征图,从而利用诸如MLP等预测网络对融合特征图进行预测,得到第一空间3中各体素的第一重建值和第一重建值在预设数值范围内的概率值,为了便于描述可以记为再对进行稀疏化(即图3中S)处理得到第一重建结果。由于当前分辨率为最高分辨率,故可以将当前分辨率对应的第一重建结果作为本次重建最终的第一重建结果,为了便于描述可以将本次重建最终的第一重建结果记为其他情况可以以此类推,在此不再一一举例。
步骤S14:利用本次重建的第一重建结果,对之前重建得到的第二重建结果进行更新。
在一个实施场景中,如前所述,第一重建结果具体包括第一空间中体素的第一重建值,类似地,第二重建结果包括第二空间中体素的第二重建值,第二空间是包围之前重建的第二关键图像的视锥的总空间,且第一重建值和第二重建值用于表示体素与待重建目标中的关联物体表面之间的距离。具体可以参阅前述关于第一重建值的相关描述,在此不再赘述。在此基础上,可以利用第一空间中体素的第一重建值,更新第二空间中对应体素的第二重建值。上述方式,能够有利于在三维重建过程中利用本次重建过程中第一空间中体素的第一重建值,更新之前重建得到的第二重建结果,进而能够有利于在重建过程中不断完善第二重建结果,提高三维重建的准确性。
在一个具体的实施场景中,在本次重建为对待重建目标的三维重建过程中首次重建的情况下,可以不执行利用本次重建的第一重建结果对之前重建得到的第二重建结果进行更新的步骤。
在另一个具体的实施场景中,具体可以将第二空间中与第一空间对应部分的体素的第二重建值替换为本次重建第一空间中体素的第一重建值。请继续结合参阅图3,如前所述,为了便于描述本次重建最终的第一重建结果记为之前重建得到的第二重建结果可以记为通过利用第一空间中体素的第一重建值更新第二空间中对应体素的第二重建值,可以得到更新后的第二重建结果,为了便于描述可以记为
在又一个具体的实施场景中,在本次重建之后需要进一步重建的情况下,可以重新执行上述步骤S11以及后续步骤,以通过多次重建不断完善第二重建结果。此外,在本次重建之后无需进一步重建的情况下,可以将更新后的第二重建结果作为待重建目标的最终重建结果。
在另一个实施场景中,请结合参阅图4,图4是本申请三维重建方法与其他三维重建方法的效果示意图。具体地,虚线上方表示其他重建方法重建得到的重建结果,虚线下方表示本申请三维重建方法重建得到的重建结果。如图4所示,其他三维重建方法重建得到的重建结果在矩形框圈出的墙壁部分呈现出明显的分散和分层现象,而本申请三维重建方法重建得到的重建二级果在矩形框圈出的墙壁部分未呈现出明显的分散或分层现象,且具有较优的平滑度。
上述方案,通过获取用于本次重建的若干帧第一关键图像,并确定包围若干帧第一关键图像的视锥的第一空间,且第一关键图像是对待重建目标拍摄得到的,在此基础上基于若干帧第一关键图像中的图像信息,得到第一空间的第一特征图,且第一特征图包括第一空间中体素的第一特征信息,从而利用第一特征图,得到本次重建的第一重建结果,进而利用本次重建的第一重建结果,对之前重建得到的第二重建结果进行更新,故此每次重建过程中,均能够对包围若干帧第一关键图像的视锥的第一空间整体进行三维重建,从而不仅能够大大降低计算负荷,还能够降低重建结果出现分层或分散的概率,进而能够提高三维重建过程的实时性以及三维重建结果的平滑度。
请参阅图5,图5是图1中步骤S12一实施例的流程示意图。如前述公开实施例所述,具体可以分别对每帧第一关键图像进行特征提取,得到第一关键图像的第二特征图,从而可以基于第一空间的各体素在第二特征图中对应的第二特征信息,得到第一空间的第一特征图。本公开实施例具体是基于第一空间的各体素在第二特征图中对应的第二特征信息得到第一特征图的流程示意图。具体可以包括如下步骤:
步骤S51:分别从每帧第一关键图像的第二特征图中,提取体素对应的第二特征信息。
本公开实施例中,对于第一空间中每一体素,可以分别从每帧第一关键图像的第二特征图中,提取体素对应的第二特征信息。
在一个实施场景中,可以利用第一关键图像的相机位姿参数以及相机内部参数对第二特征图中各个像素点进行反投影,确定第一空间中与第二特征图中像素点对应的体素。在此基础上,对于第一空间中每一体素,可以从各帧第一关键图像的第二特征图中提取得到与该体素对应的像素点的第二特征信息。
在另一个实施场景中,请结合参阅图6,图6是获取第一特征图一实施例的状态示意图。如图6所示,为了便于描述,与图2类似地,图6也以“二维视角”描述获取第一特征图的具体过程。如图6所示,通过对第二特征图中像素点进行反投影,能够确定第一空间中与各个像素点对应的体素。需要说明的是,图6中不同颜色的方格表示对应于不同的第二特征信息。
步骤S52:将体素分别对应若干帧第一关键图像的第二特征信息进行融合,得到体素的第一特征信息。
在一个实施场景中,请继续结合参阅图6,可以将体素分别对应若干帧第一关键图像的第二特征信息的平均值,作为体素的第一特征信息。例如,第一空间中第k个体素,在第1个第一关键图像的第二特征图中对应于第i行第j列个像素点,而在第2个第一关键图像的第二特征图中对应于第m行第n列个像素点,在此基础上,可以将第1个第一关键图像的第二特征图中第i行第j列个像素点的第二特征信息和第2个第一关键图像的第二特征图中第m行第n列个像素点的第二特征信息的平均值,作为第一空间中第k个体素的第一特征信息,其他情况可以以此类推,在此不再一一举例。
在另一个实施场景中,还可以将体素分别对应若干帧第一关键图像的第二特征信息的加权结果,作为体素的第一特征信息。上述加权结果可以包括但不限于:加权求和、加权平均等,在此不做限定。
在又一个实施场景中,如前述公开实施例所述,在每帧第一关键图像的第二特征图中均未提取得到体素对应的第二特征信息的情况下,将预设特征信息作为体素的第一特征信息。具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S53:基于第一空间的各体素的第一特征信息,得到第一空间的第一特征图。
在求得第一空间中各个像素点的第一特征信息之后,即可将第一空间中各个体素的第一特征信息整体作为第一特征图。
区别于前述实施例,通过分别从每帧第一关键图像的第二特征图中,提取体素对应的第二特征信息,并将体素分别对应若干帧第一关键图像的第二特征信息进行融合,得到体素的第一特征信息,从而基于第一空间的各体素的第一特征信息,得到第一空间的第一特征图,故此对于第一空间中每一体素而言,均融合有对应每帧第一关键图像的第二特征信息,能够有利于进一步提高第一空间的第一特征图的精准性。
请参阅图7,图7是图1中步骤S13一实施例的流程示意图。本公开实施例中,第一重建结果是利用三维重建模型得到的。具体可以包括如下步骤:
步骤S71:获取三维重建模型的融合网络在之前重建所得到的第一历史隐层状态。
本公开实施例中,第一历史隐层状态包括第二空间中体素对应的状态值,第二空间是包围之前重建的第二关键图像的视锥的总空间。需要说明的是,在本次重建为首次重建的情况下,第二空间即为本次重建的第一空间,且在此情况下,可以将第一历史隐层状态所包含的第二空间中体素对应的状态值设置为预设状态值(如,0)。
步骤S72:从第一历史隐层状态中,提取第一空间的体素对应的状态值,以作为第二历史隐层状态。
请结合参阅图8,图8是获取本次隐层状态一实施例的状态示意图。需要说明的是,为了便于描述,与前述图2和图6类似,图8具体是在“二维视角”描述的获取本次隐层状态的状态示意图。如图8所示,为了便于描述,可以将第一历史隐层状态记为第一历史隐层状态中不同灰度的方格表示体素的状态值,无颜色的方格表示对应体素无状态值,此外第一历史隐层状态中的矩形框表示第一空间,从第一历史隐层状态中提取第一空间的体素对应的状态值,可以得到第二历史隐层状态其他情况可以以此类推,在此不再一一举例。
步骤S73:利用融合网络执行:基于第一特征图对第二历史隐层状态中的状态值进行更新,得到本次隐层状态。
在一个实施场景中,可以将第一特征图、第二历史隐层状态输入融合网络,从而输出得到本次隐层状态。具体地,融合网络可以设置为包括但不限于GRU(Gated RecurrentUnit,门控循环单元),在此不做限定。
在另一个实施场景中,请继续结合参阅图8,在更新第二历史隐层状态之前,可以进一步对第一特征图Ft l进行几何信息提取,得到几何特征图且几何特征图包括体素的几何信息,从而可以基于几何特征图对第二历史隐层状态中的状态值进行更新,得到本次隐层状态。上述方式,能够在提取得到的体素的几何信息的基础上对本次重建的第一空间的第二历史隐层状态进行更新,有利于提高三维重建的准确性。
在另一个具体的实施场景中,以融合网络包括门控循环单元GRU为例,请结合参阅图8,GRU通过融合几何特征图和第二历史隐层状态最终可以得到本次隐层状态为了便于描述,可以记门控循环单元GRU的更新门控为zt,重置门控为rt,具体可以表示为:
上述公式(2)和公式(3)中,sparseconv表示稀疏卷积,Wz,Wr表示稀疏卷积的网络权重,σ表示激活函数(如,sigmoid)。
上述公式(4)和公式(5)中,sparseconv表示稀疏卷积,Wh表示稀疏卷积的网络权重,tanh表示激活函数。由此可见,作为一种数据驱动方式,GRU在三维重建过程中能够提供一种选择性的注意力机制。
步骤S74:利用三维重建模型对本次隐层状态进行预测,得到第一重建结果。
在一个具体的实施场景中,利用预测网络对本次隐层状态Ht l进行预测可以得到第一空间中各体素的第一重建值和第一重建值在预设数值范围内的概率值,且第一重建值用于表示体素与待重建目标中的关联物体表面之间的距离,在此基础上,可以选择第一空间中概率值满足预设条件的体素,从而可以利用选择的体素的第一重建值,得到本次重建的第一重建结果。具体可以参阅前述公开实施例中相关描述,在此不再赘述。
在另一个实施场景中,请继续结合参阅图8,在得到本次隐层状态之后,可以利用本次隐层状态中的状态值,更新第一历史隐层状态中相应体素对应的状态值,得到更新后的第一历史隐层状态以供下次重建使用。上述方式,能够在更新得到本次隐层状态之后,进一步更新第二空间的第一历史隐层状态,有利于在本次重建的基础上进一步提高第二空间的第一历史隐层状态的准确性,从而能够有利于提高三维重建的准确性。
在又一个实施场景中,请结合参阅图9,图9是本申请三维重建方法另一实施例的过程示意图。不同于图3所示的三维重建过程,如本公开实施例所述,图9所示的三维重建过程引入了之前重建得到的第一历史隐层状态(即图9中global hidden state),即在前述公开实施例所描述的三维重建过程中,每次利用利用诸如MLP等预测网络对当前分辨率对应的第一特征图Ft i进行预测具体可以包括如下步骤:获取在之前重建所得到的与当前分辨率对应的第一历史隐层状态,并从当前分辨率对应的第一历史隐层状态中,提取第一空间的体素对应的状态值,以作为第二历史隐层状态,并利用诸如GRU的融合网络执行:基于与当前分辨率对应的第一特征图Ft i对第二历史隐层状态中的状态值进行更新,得到与当前分辨率对应的本次隐层状态,在此基础上再利用诸如MLP等预测网络对当前分辨率对应的本次隐层状态进行预测,得到当前分辨率对应的第一重建结果。本公开实施例仅描述与前述公开实施例的不同之处,其他过程可以参阅前述公开实施例中相关描述,在此不再赘述。
区别于前述实施例,通过将第一重建结果设置为是利用三维重建模型得到的,并获取三维重建模型的融合网络在之前重建所得到的第一历史隐层状态,且第一历史隐层状态包括第二空间中体素对应的状态值,第二空间是包围之前重建的第二关键图像的视锥的总空间,在此基础上从第一历史隐层状态中,提取第一空间的体素对应的状态值,以作为第二历史隐层状态,从而利用融合网络执行:基于第一特征图对第二历史隐层状态中的状态值进行更新,得到本次隐层状态,进而利用三维重建模型对本次隐层状态进行预测,得到第一重建结果,故此每次重建过程中均能参考之前重建所得到的第一历史隐层状态,能够有利于提高本次重建与之前重建的一致性,从而能够有利于降低本次重建结果与之前重建结果之间发生分层或分散的概率,进而能够有利于进一步提高三维重建结果的平滑度。
在一些公开实施例中,上述任一三维重建方法实施例中的三维重建结果可以是由三维重建模型重建得到的。具体地,可以预先收集对样本目标拍摄的若干组样本图像,每组样本图像包括若干帧样本关键图像,且每组样本图像所包含的若干帧样本关键图像的视锥由第一样本空间包围,第一样本空间包括若干体素,具体可以参阅前述公开实施例中相关描述,在此不再赘述。与前述公开实施例不同的是,每组样本图像标注有第一样本空间中各个体素的第一实际重建值和第一实际重建值在预设数值范围内的实际概率值,且第一实际重建值用于表示体素与样本目标中关联物体表面之间的距离,第一实际重建值具体可以采用TSDF表示,关联物体表面具体可以参见前述公开实施例中的相关描述,在此不再赘述。此外,在第一实际重建值位于预设数值范围内的情况下,第一实际重建值对应的实际概率值可以标注为1,而在第一实际重建值不位于预设数值范围内的情况下,第一实际重建值对应的实际概率值可以标注为0。在此基础上,可以将一组样本图像所包含的若干帧样本关键图像输入三维重建模型的特征提取网络(如,FPN),得到第一样本空间的第一样本特征图,且第一样本特征图包括第一样本空间中体素的第一样本特征信息,从而可以将第一样本特征图输入三维重建模型的预测网络,得到第一样本重建结果,且第一样本重建结果包括第一样本空间中各体素的第一样本重建值和第一样本重建值在预设数值范围内的样本概率值,进而可以利用第一样本空间中各体素的第一样本重建值和第一实际重建值之间的差异,以及第一样本空间中各体素的样本概率值和实际概率值之间的差异,调整三维重建模型的网络参数。
在一个具体的实施场景中,具体可以利用二分类交叉熵损失(binary cross-entropy,BCE)函数计算样本概率值和实际概率值之间的第一损失值,并利用L1损失函数计算第一样本重建值和第一实际重建值之间的第二损失值,从而可以利用第一损失值和第二损失值,调整三维重建模型的网络参数。
在另一个具体的实施场景中,与前述公开实施例类似地,在预测第一样本重建结果过程中,具体可以获取三维重建模型的融合网络在之前重建所得到的第一样本历史隐层状态,且第一样本历史隐层状态包括第二样本空间中体素对应的样本状态值,第二样本空间时包围之前重建的若干组样本图像的视锥的总空间,在此基础上,可以从第一样本历史隐层状态中,提取第一样本空间的体素对应的样本状态值,以作为第二样本历史隐层状态,从而可以利用融合网络执行:基于第一样本特征图对第二样本历史隐层状态中的样本状态值进行更新,得到本次样本隐层状态,进而可以利用预测网络对本次样本隐层状态进行预测,得到第一样本重建结果。具体可以参阅前述公开实施例中相关描述,在此不再赘述。
请参阅图10,图10是本申请三维重建装置100一实施例的框架示意图。三维重建装置100包括关键图像获取模块101、第一空间确定模块102、第一特征获取模块103、重建结果获取模块104和重建结果更新模块105,关键图像获取模块101用于获取用于本次重建的若干帧第一关键图像;第一空间确定模块102用于确定包围若干帧第一关键图像的视锥的第一空间;其中,第一关键图像是对待重建目标拍摄得到的;第一特征获取模块103用于基于若干帧第一关键图像中的图像信息,得到第一空间的第一特征图,其中,第一特征图包括第一空间中体素的第一特征信息;重建结果获取模块104用于利用第一特征图,得到本次重建的第一重建结果;重建结果更新模块105用于利用本次重建的第一重建结果,对之前重建得到的第二重建结果进行更新。
在一些公开实施例中,三维重建装置100还包括第二特征获取模块,用于分别对每帧第一关键图像进行特征提取,得到第一关键图像的第二特征图,第一特征获取模块103具体用于基于第一空间的各体素在第二特征图中对应的第二特征信息,得到第一空间的第一特征图。
在一些公开实施例中,第一特征获取模块103包括特征信息提取子模块,用于分别从每帧第一关键图像的第二特征图中,提取体素对应的第二特征信息,第一特征获取模块103包括特征信息融合子模块,用于将体素分别对应若干帧第一关键图像的第二特征信息进行融合,得到体素的第一特征信息,第一特征获取模块103包括第一特征获取子模块,用于基于第一空间的各体素的第一特征信息,得到第一空间的第一特征图。
在一些公开实施例中,特征信息融合子模块具体用于将体素对应每帧第一关键图像的第二特征信息的平均值,作为体素的第一特征信息。
在一些公开实施例中,第一特征获取模块103还包括特征信息设置子模块,用于在每帧第一关键图像的第二特征图中均未提取得到体素对应的第二特征信息的情况下,将预设特征信息作为体素的第一特征信息。
在一些公开实施例中,每帧第一关键图像的第二特征图均包括对应不同分辨率的预设数量张第二特征图;第一空间包括对应不同分辨率的预设数量个第一空间,分辨率越高,第一空间中体素的尺寸越小;第一特征图包括对应不同分辨率的预设数量张第一特征图,每张第一特征图是基于相同分辨率的第二特征图的第二特征信息得到。
在一些公开实施例中,重建结果获取模块104包括分辨率选择子模块,用于按照分辨率由低到高的顺序,依次选择一种分辨率作为当前分辨率,重建结果获取模块104包括特征图更新子模块,用于将上一次选择的分辨率对应的第一重建结果进行上采样,并将上采样后的第一重建结果与当前分辨率对应的第一特征图进行融合,得到与当前分辨率对应的融合特征图,重建结果获取模块104包括重建结果获取子模块,用于利用融合特征图,得到与当前分辨率对应的第一重建结果,重建结果获取模块104包括循环执行子模块,用于在当前分辨率并非最高分辨率的情况下,结合前述分辨率选择子模块、特征图更新子模块和重建结果获取子模块重新执行按照分辨率由低到高的顺序,依次选择一种分辨率作为当前分辨率的步骤以及后续步骤,重建结果获取模块104包括第一结果确定子模块,用于在当前分辨率为最高分辨率的情况下,将与当前分辨率对应的第一重建结果作为本次重建最终的第一重建结果。
在一些公开实施例中,重建结果获取模块104包括结果预测子模块,用于利用第一特征图进行预测,得到第一空间中各体素的第一重建值和第一重建值在预设数值范围内的概率值;其中,第一重建值用于表示体素与待重建目标中的关联物体表面之间的距离,重建结果获取模块104包括体素选择子模块,用于选择第一空间中概率值满足预设条件的体素,重建结果获取模块104包括第二结果确定子模块,用于利用选择的体素的第一重建值,得到本次重建的第一重建结果。
在一些公开实施例中,第一重建结果包括第一空间中体素的第一重建值,第二重建结果包括第二空间中体素的第二重建值,第二空间是包围之前重建的第二关键图像的视锥的总空间,第一重建值和第二重建值用于表示体素与待重建目标中的关联物体表面之间的距离,重建结果更新模块105具体用于利用第一空间中体素的第一重建值,更新第二空间中对应体素的第二重建值。
在一些公开实施例中,关联物体表面为待重建目标中与体素距离最近的物体表面。
在一些公开实施例中,第一重建结果是利用三维重建模型得到的,重建结果获取模块104包括隐层状态获取子模块,用于获取三维重建模型的融合网络在之前重建所得到的第一历史隐层状态;其中,第一历史隐层状态包括第二空间中体素对应的状态值,第二空间是包围之前重建的第二关键图像的视锥的总空间,重建结果获取模块104包括隐层状态提取子模块,用于从第一历史隐层状态中,提取第一空间的体素对应的状态值,以作为第二历史隐层状态,重建结果获取模块104包括隐层状态更新子模块,用于利用融合网络执行:基于第一特征图对第二历史隐层状态中的状态值进行更新,得到本次隐层状态,重建结果获取模块104包括重建结果预测子模块,用于利用三维重建模型对本次隐层状态进行预测,得到第一重建结果。
在一些公开实施例中,在本次重建为首次重建的情况下,第一历史隐层状态中的状态值为预设状态值。
在一些公开实施例中,融合网络包括:门控循环单元。
在一些公开实施例中,三维重建模型还包括预测网络,重建结果预测子模块具体用于利用预测网络对本次隐层状态进行预测,得到第一重建结果。
在一些公开实施例中,重建结果获取模块104包括几何特征提取子模块,用于对第一特征图进行几何信息提取,得到几何特征图;其中,几何特征图包括体素的几何信息,隐层状态更新子模块具体用于基于几何特征图对第二历史隐层状态中的状态值进行更新,得到本次隐层状态。
在一些公开实施例中,重建结果获取模块104还包括历史状态更新子模块,用于利用本次隐层状态中的状态值,更新第一历史隐层状态中相应体素对应的状态值。
在一些公开实施例中,若干帧第一关键图像是在拍摄待重建目标过程中获取的;和/或,第一关键图像对应有相机位姿参数,相机位姿参数包括平移距离和旋转角度,第一关键图像满足以下至少一者:相邻第一关键图像之间平移距离的差异大于预设距离阈值,相邻第一关键图像之间旋转角度的差异大于预设角度阈值。
请参阅图11,图11是本申请电子设备110一实施例的框架示意图。电子设备110包括相互耦接的存储器111和处理器112,处理器112用于执行存储器111中存储的程序指令,以实现上述任一三维重建方法实施例的步骤。在一个具体的实施场景中,电子设备110可以包括但不限于:微型计算机、服务器,此外,电子设备110还可以包括手机、笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器112用于控制其自身以及存储器111以实现上述任一三维重建方法实施例的步骤。处理器112还可以称为CPU(Central Processing Unit,中央处理单元)。处理器112可能是一种集成电路芯片,具有信号的处理能力。处理器112还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器112可以由集成电路芯片共同实现。
上述方案,能够提高三维重建过程的实时性以及三维重建结果的平滑度。
请参阅图12,图12为本申请计算机可读存储介质120一实施例的框架示意图。计算机可读存储介质120存储有能够被处理器运行的程序指令121,程序指令121用于实现上述任一三维重建方法实施例的步骤。
上述方案,提高三维重建过程的实时性以及三维重建结果的平滑度。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (18)
1.一种三维重建方法,其特征在于,包括:
获取用于本次重建的若干帧第一关键图像,并确定包围所述若干帧第一关键图像的视锥的第一空间;其中,所述第一关键图像是对待重建目标拍摄得到的;
基于所述若干帧第一关键图像中的图像信息,得到所述第一空间的第一特征图,其中,所述第一特征图包括所述第一空间中体素的第一特征信息;
利用所述第一特征图,得到本次重建的第一重建结果;
利用所述本次重建的第一重建结果,对之前重建得到的第二重建结果进行更新。
2.根据权利要求1所述的方法,其特征在于,在所述获取用于本次重建的若干帧第一关键图像之后,所述方法还包括:
分别对每帧所述第一关键图像进行特征提取,得到所述第一关键图像的第二特征图;
所述基于所述若干帧第一关键图像中的图像信息,得到所述第一空间的第一特征图,包括:
基于所述第一空间的各体素在所述第二特征图中对应的第二特征信息,得到所述第一空间的所述第一特征图。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一空间的各体素在所述第二特征图中对应的第二特征信息,得到所述第一空间的所述第一特征图,包括:
分别从每帧所述第一关键图像的所述第二特征图中,提取所述体素对应的第二特征信息;
将所述体素分别对应所述若干帧第一关键图像的所述第二特征信息进行融合,得到所述体素的第一特征信息;
基于所述第一空间的各体素在所述第一特征信息,得到所述第一空间的所述第一特征图。
4.根据权利要求3所述的方法,其特征在于,所述将所述体素分别对应所述若干帧第一关键图像的所述第二特征信息进行融合,得到所述体素的第一特征信息,包括:
将所述体素分别对应所述若干帧第一关键图像的第二特征信息的平均值,作为所述体素的第一特征信息;
和/或,在所述分别从每帧所述第一关键图像的所述第二特征图中,提取所述体素对应的第二特征信息之后,所述方法还包括:
在每帧所述第一关键图像的第二特征图中均未提取得到所述体素对应的第二特征信息的情况下,将预设特征信息作为所述体素的第一特征信息。
5.根据权利要求2至4任一项所述的方法,其特征在于,每帧所述第一关键图像的第二特征图均包括对应不同分辨率的预设数量张第二特征图;所述第一空间包括对应不同所述分辨率的预设数量个第一空间,所述分辨率越高,所述第一空间中所述体素的尺寸越小;所述第一特征图包括对应不同所述分辨率的预设数量张第一特征图,每张所述第一特征图是基于相同所述分辨率的所述第二特征图的第二特征信息得到。
6.根据权利要求5所述的方法,其特征在于,所述利用所述第一特征图,得到本次重建的第一重建结果,包括:
按照所述分辨率由低到高的顺序,依次选择一种所述分辨率作为当前分辨率;
将上一次选择的分辨率对应的第一重建结果进行上采样,并将上采样后的第一重建结果与所述当前分辨率对应的第一特征图进行融合,得到与所述当前分辨率对应的融合特征图;
利用所述融合特征图,得到与所述当前分辨率对应的第一重建结果;
在所述当前分辨率并非最高所述分辨率的情况下,重新执行所述按照所述分辨率由低到高的顺序,依次选择一种所述分辨率作为当前分辨率的步骤以及后续步骤;
在所述当前分辨率为最高所述分辨率的情况下,将与所述当前分辨率对应的第一重建结果作为本次重建最终的第一重建结果。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述利用所述第一特征图,得到本次重建的第一重建结果,包括:
利用所述第一特征图进行预测,得到所述第一空间中各所述体素的第一重建值和所述第一重建值在预设数值范围内的概率值;其中,所述第一重建值用于表示所述体素与所述待重建目标中的关联物体表面之间的距离;
选择第一空间中所述概率值满足预设条件的所述体素;
利用选择的所述体素的所述第一重建值,得到本次重建的第一重建结果。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述第一重建结果包括所述第一空间中所述体素的第一重建值,所述第二重建结果包括第二空间中所述体素的第二重建值,所述第二空间是包围之前重建的第二关键图像的视锥的总空间,所述第一重建值和所述第二重建值用于表示所述体素与所述待重建目标中的关联物体表面之间的距离;
所述利用所述本次重建的第一重建结果,对之前重建得到的第二重建结果进行更新,包括:
利用所述第一空间中所述体素的第一重建值,更新所述第二空间中对应所述体素的第二重建值。
9.根据权利要求7或8所述的方法,其特征在于,所述关联物体表面为所述待重建目标中与所述体素距离最近的物体表面。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述第一重建结果是利用三维重建模型得到的;所述利用所述第一特征图,得到本次重建的第一重建结果,包括:
获取所述三维重建模型的融合网络在之前重建所得到的第一历史隐层状态;其中,所述第一历史隐层状态包括第二空间中所述体素对应的状态值,所述第二空间是包围之前重建的第二关键图像的视锥的总空间;
从所述第一历史隐层状态中,提取所述第一空间的体素对应的状态值,以作为第二历史隐层状态;
利用所述融合网络执行:基于所述第一特征图对所述第二历史隐层状态中的所述状态值进行更新,得到本次隐层状态;
利用所述三维重建模型对所述本次隐层状态进行预测,得到所述第一重建结果。
11.根据权利要求10所述的方法,其特征在于,在本次重建为首次重建的情况下,所述第一历史隐层状态中的状态值为预设状态值。
12.根据权利要求10所述的方法,其特征在于,所述融合网络包括:门控循环单元;
和/或,所述三维重建模型还包括预测网络,所述利用所述三维重建模型对所述本次隐层状态进行预测,得到所述第一重建结果,包括:
利用所述预测网络对所述本次隐层状态进行预测,得到所述第一重建结果。
13.根据权利要求10至12任一项所述的方法,其特征在于,在所述基于所述第一特征图对所述第二历史隐层状态中的所述状态值进行更新,得到本次隐层状态之前,所述方法还包括:
对所述第一特征图进行几何信息提取,得到几何特征图;其中,所述几何特征图包括所述体素的几何信息;
所述基于所述第一特征图对所述第二历史隐层状态中的所述状态值进行更新,得到本次隐层状态,包括:
基于所述几何特征图对所述第二历史隐层状态中的所述状态值进行更新,得到本次隐层状态。
14.根据权利要求10至13任一项所述的方法,其特征在于,在所述基于所述第一特征图对所述第二历史隐层状态中的所述状态值进行更新,得到本次隐层状态之后,所述方法还包括:
利用所述本次隐层状态中的状态值,更新所述第一历史隐层状态中相应所述体素对应的状态值。
15.根据权利要求1至14任一项所述的方法,其特征在于,所述若干帧第一关键图像是在拍摄所述待重建目标过程中获取的;
和/或,所述第一关键图像对应有相机位姿参数,所述相机位姿参数包括平移距离和旋转角度,所述第一关键图像满足以下至少一者:相邻所述第一关键图像之间所述平移距离的差异大于预设距离阈值,相邻所述第一关键图像之间所述旋转角度的差异大于预设角度阈值。
16.一种三维重建装置,其特征在于,包括:
关键图像获取模块,用于获取用于本次重建的若干帧第一关键图像;
第一空间确定模块,用于确定包围所述若干帧第一关键图像的视锥的第一空间;其中,所述第一关键图像是对待重建目标拍摄得到的;
第一特征获取模块,用于基于所述若干帧第一关键图像中的图像信息,得到所述第一空间的第一特征图,其中,所述第一特征图包括所述第一空间中体素的第一特征信息;
重建结果获取模块,用于利用所述第一特征图,得到本次重建的第一重建结果;
重建结果更新模块,用于利用所述本次重建的第一重建结果,对之前重建得到的第二重建结果进行更新。
17.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至15任一项所述的三维重建方法。
18.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至15任一项所述的三维重建方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110057035.9A CN112750201B (zh) | 2021-01-15 | 2021-01-15 | 三维重建方法及相关装置、设备 |
JP2022546566A JP7352748B2 (ja) | 2021-01-15 | 2021-06-24 | 三次元再構築方法、装置、機器及び記憶媒体 |
KR1020227026271A KR20220120674A (ko) | 2021-01-15 | 2021-06-24 | 3차원 재구성 방법, 장치, 기기 및 저장 매체 |
PCT/CN2021/102117 WO2022151661A1 (zh) | 2021-01-15 | 2021-06-24 | 一种三维重建方法、装置、设备及存储介质 |
US18/318,724 US20230290099A1 (en) | 2021-01-15 | 2023-05-17 | Method and apparatus for reconstructing three-dimensional, device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110057035.9A CN112750201B (zh) | 2021-01-15 | 2021-01-15 | 三维重建方法及相关装置、设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112750201A true CN112750201A (zh) | 2021-05-04 |
CN112750201B CN112750201B (zh) | 2024-03-29 |
Family
ID=75652226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110057035.9A Active CN112750201B (zh) | 2021-01-15 | 2021-01-15 | 三维重建方法及相关装置、设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230290099A1 (zh) |
JP (1) | JP7352748B2 (zh) |
KR (1) | KR20220120674A (zh) |
CN (1) | CN112750201B (zh) |
WO (1) | WO2022151661A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114429495A (zh) * | 2022-03-14 | 2022-05-03 | 荣耀终端有限公司 | 一种三维场景的重建方法和电子设备 |
WO2022151661A1 (zh) * | 2021-01-15 | 2022-07-21 | 浙江商汤科技开发有限公司 | 一种三维重建方法、装置、设备及存储介质 |
WO2023024441A1 (zh) * | 2021-08-25 | 2023-03-02 | 上海商汤智能科技有限公司 | 模型重建方法及相关装置、电子设备和存储介质 |
CN116958455A (zh) * | 2023-09-21 | 2023-10-27 | 北京飞渡科技股份有限公司 | 基于神经网络的屋顶重建方法、装置及电子设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115359192B (zh) * | 2022-10-14 | 2023-03-28 | 阿里巴巴(中国)有限公司 | 三维重建与商品信息处理方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537876A (zh) * | 2018-03-05 | 2018-09-14 | 清华-伯克利深圳学院筹备办公室 | 基于深度相机的三维重建方法、装置、设备及存储介质 |
WO2020060196A1 (ko) * | 2018-09-18 | 2020-03-26 | 서울대학교산학협력단 | 3차원 영상 재구성 장치 및 그 방법 |
CN111369681A (zh) * | 2020-03-02 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 三维模型的重构方法、装置、设备及存储介质 |
CN111652966A (zh) * | 2020-05-11 | 2020-09-11 | 北京航空航天大学 | 一种基于无人机多视角的三维重建方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09231370A (ja) * | 1996-02-21 | 1997-09-05 | Canon Inc | 画像情報入力装置 |
JP2004013869A (ja) | 2002-06-12 | 2004-01-15 | Nec Corp | 3次元形状生成装置及びそれに用いる3次元形状生成方法並びにそのプログラム |
JP2005250692A (ja) | 2004-03-02 | 2005-09-15 | Softopia Japan Foundation | 物体の同定方法、移動体同定方法、物体同定プログラム、移動体同定プログラム、物体同定プログラム記録媒体、移動体同定プログラム記録媒体 |
JP2009048305A (ja) | 2007-08-15 | 2009-03-05 | Nara Institute Of Science & Technology | 形状解析プログラム及び形状解析装置 |
JP2009074836A (ja) | 2007-09-19 | 2009-04-09 | Advanced Telecommunication Research Institute International | 画像処理装置、画像処理方法及び画像処理プログラム |
JP5454573B2 (ja) | 2009-04-28 | 2014-03-26 | 日本電気株式会社 | 物体位置推定装置、物体位置推定方法及びプログラム |
JP6736422B2 (ja) | 2016-08-23 | 2020-08-05 | キヤノン株式会社 | 画像処理装置、画像処理の方法およびプログラム |
US10740986B2 (en) * | 2018-08-30 | 2020-08-11 | Qualcomm Incorporated | Systems and methods for reconstructing a moving three-dimensional object |
CN112017228A (zh) * | 2019-05-31 | 2020-12-01 | 华为技术有限公司 | 一种对物体三维重建的方法及相关设备 |
CN112750201B (zh) * | 2021-01-15 | 2024-03-29 | 浙江商汤科技开发有限公司 | 三维重建方法及相关装置、设备 |
-
2021
- 2021-01-15 CN CN202110057035.9A patent/CN112750201B/zh active Active
- 2021-06-24 WO PCT/CN2021/102117 patent/WO2022151661A1/zh active Application Filing
- 2021-06-24 JP JP2022546566A patent/JP7352748B2/ja active Active
- 2021-06-24 KR KR1020227026271A patent/KR20220120674A/ko not_active Application Discontinuation
-
2023
- 2023-05-17 US US18/318,724 patent/US20230290099A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537876A (zh) * | 2018-03-05 | 2018-09-14 | 清华-伯克利深圳学院筹备办公室 | 基于深度相机的三维重建方法、装置、设备及存储介质 |
WO2020060196A1 (ko) * | 2018-09-18 | 2020-03-26 | 서울대학교산학협력단 | 3차원 영상 재구성 장치 및 그 방법 |
CN111369681A (zh) * | 2020-03-02 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 三维模型的重构方法、装置、设备及存储介质 |
CN111652966A (zh) * | 2020-05-11 | 2020-09-11 | 北京航空航天大学 | 一种基于无人机多视角的三维重建方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022151661A1 (zh) * | 2021-01-15 | 2022-07-21 | 浙江商汤科技开发有限公司 | 一种三维重建方法、装置、设备及存储介质 |
WO2023024441A1 (zh) * | 2021-08-25 | 2023-03-02 | 上海商汤智能科技有限公司 | 模型重建方法及相关装置、电子设备和存储介质 |
CN114429495A (zh) * | 2022-03-14 | 2022-05-03 | 荣耀终端有限公司 | 一种三维场景的重建方法和电子设备 |
CN116958455A (zh) * | 2023-09-21 | 2023-10-27 | 北京飞渡科技股份有限公司 | 基于神经网络的屋顶重建方法、装置及电子设备 |
CN116958455B (zh) * | 2023-09-21 | 2023-12-26 | 北京飞渡科技股份有限公司 | 基于神经网络的屋顶重建方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20230290099A1 (en) | 2023-09-14 |
CN112750201B (zh) | 2024-03-29 |
WO2022151661A1 (zh) | 2022-07-21 |
JP7352748B2 (ja) | 2023-09-28 |
JP2023514107A (ja) | 2023-04-05 |
KR20220120674A (ko) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443842B (zh) | 基于视角融合的深度图预测方法 | |
CN112750201A (zh) | 三维重建方法及相关装置、设备 | |
CN109377530B (zh) | 一种基于深度神经网络的双目深度估计方法 | |
WO2021093620A1 (en) | Method and system for high-resolution image inpainting | |
TWI709107B (zh) | 影像特徵提取方法及包含其顯著物體預測方法 | |
CN112308200B (zh) | 神经网络的搜索方法及装置 | |
CN110674829B (zh) | 一种基于图卷积注意网络的三维目标检测方法 | |
CN113706714A (zh) | 基于深度图像和神经辐射场的新视角合成方法 | |
CN112132023A (zh) | 基于多尺度上下文增强网络的人群计数方法 | |
EP4309132A1 (en) | High resolution neural rendering | |
CN111340866A (zh) | 深度图像生成方法、装置及存储介质 | |
TWI643137B (zh) | 物件辨識方法及物件辨識系統 | |
CN110659664A (zh) | 一种基于ssd的高精度识别小物体的方法 | |
WO2020186385A1 (zh) | 图像处理方法、电子设备及计算机可读存储介质 | |
WO2021114870A1 (zh) | 视差估计系统、方法、电子设备及计算机可读存储介质 | |
CN113283525A (zh) | 一种基于深度学习的图像匹配方法 | |
CN113962858A (zh) | 一种多视角深度获取方法 | |
US20220215617A1 (en) | Viewpoint image processing method and related device | |
CN116797768A (zh) | 全景图像减少现实的方法和装置 | |
CN114092540A (zh) | 基于注意力机制的光场深度估计方法及计算机可读介质 | |
CN113837941A (zh) | 图像超分模型的训练方法、装置及计算机可读存储介质 | |
Hara et al. | Enhancement of novel view synthesis using omnidirectional image completion | |
CN113313133A (zh) | 一种生成对抗网络的训练方法、动画图像生成方法 | |
CN115330601A (zh) | 一种多尺度文物点云超分辨率方法及系统 | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40045355 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |