CN115311424A - 一种目标场景的三维重建方法、装置、无人机及存储介质 - Google Patents

一种目标场景的三维重建方法、装置、无人机及存储介质 Download PDF

Info

Publication number
CN115311424A
CN115311424A CN202210924877.4A CN202210924877A CN115311424A CN 115311424 A CN115311424 A CN 115311424A CN 202210924877 A CN202210924877 A CN 202210924877A CN 115311424 A CN115311424 A CN 115311424A
Authority
CN
China
Prior art keywords
local
target scene
frame
reconstruction
dimensional space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210924877.4A
Other languages
English (en)
Other versions
CN115311424B (zh
Inventor
林必毅
贺振中
封其国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huasairuifei Intelligent Technology Co ltd
Original Assignee
Shenzhen Huasairuifei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huasairuifei Intelligent Technology Co ltd filed Critical Shenzhen Huasairuifei Intelligent Technology Co ltd
Priority to CN202210924877.4A priority Critical patent/CN115311424B/zh
Publication of CN115311424A publication Critical patent/CN115311424A/zh
Application granted granted Critical
Publication of CN115311424B publication Critical patent/CN115311424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/08Projecting images onto non-planar surfaces, e.g. geodetic screens
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

一种目标场景的三维重建方法,包括:获取第一数量的包含目标场景局部的关键图像帧;对第一数量的关键图像帧均添加预设范围内的深度值后,计算目标场景中包含全部关键图像帧的视图的局部三维空间边界,以得到目标场景的局部三维空间;将第一数量的关键图像帧反投影到所述局部三维空间中,得到局部三维空间坐标;将局部三维空间坐标输入至长短期记忆网络,得到短期记忆的局部三维空间坐标并输入卷积神经网络中,得到目标场景的局部TSDF重建结果,以纳入目标场景的全局三维重建中;重复直至完成所述目标场景的全局三维重建。由于局部重建的思想,避免了大量的冗余计算。本发明还提供了一种目标场景的三维重建装置、无人机及介质。

Description

一种目标场景的三维重建方法、装置、无人机及存储介质
技术领域
本发明涉及场景三维重建技术领域,具体涉及一种目标场景的三维重建方法、装置、无人机及存储介质。
背景技术
近些年来,打造智慧城市是当前我国城市化建设的重要课题,智慧城市是城市信息化的高级形态,建设智慧城市有利于实现对城市资源的集约化利用。而智慧城市的建设离不开城市地理空间数据的获取和城市三维地理模型的构建。由于传统卫星遥感影像分辨率低,响应时间长,无法满足新型智慧城市三维建模的高精度需求和室内建模要求,所以发展以无人机结合机载数码相机作为工具的目标场景三维重建技术成为智慧城市数字化管理的新趋势。另外,在很多地理勘探与考古发掘活动中,由于地形的复杂与环境的恶劣,考察人员时常会承担很大的风险,而无人机三维重建技术的出现将会改善这一现状。可以预见,在不久的将来,具有三维重建功能的无人机将成为勘探、考古等工作者们不可或缺的工具。
现有技术中,许多行业的三维建模工作都依赖于深度传感器,其测距原理是通过给目标连续发送光脉冲,然后用传感器接收从物体返回的光,通过探测光脉冲的飞行往返时间来得到目标物距离,进而构建三维模型。深度传感器虽然精度较高,但是能效比低,这会严重影响其设备的续航时间,另外深度传感器设备成本相对较高,普及率较低。在此基础下,基于深度图融合的无人机三维重建技术得以发展。该技术获取目标场景若干图像帧,然后对这些图像帧进行深度估计,在得到每个图像帧视角下的深度估计之后,通过算法融合所选图像帧的深度图,最终获得目标场景的三维模型。该技术缺点在于深度图融合过程中容易出现深度不一致的情况,从而会降低建模质量,且其重建过程中存在大量的冗余计算,从而会降低重建速度。
发明内容
本发明主要解决的技术问题是提供一种高效率且高质量的目标场景三维重建方法、装置、无人机及介质。
根据第一方面,一种实施例中提供一种目标场景的三维重建方法,包括:
图像选取步骤:获取第一数量的包含目标场景局部的关键图像帧;
局部提取步骤:对第一数量的所述关键图像帧均添加预设范围内的深度值后,计算目标场景中包含全部所述关键图像帧的视图的局部三维空间边界,以得到所述目标场景的局部三维空间;
反投影步骤:将第一数量的所述关键图像帧反投影到所述局部三维空间中,得到局部三维空间坐标;
重建步骤:将所述局部三维空间坐标输入至长短期记忆网络,得到短期记忆的局部三维空间坐标并输入卷积神经网络中,得到所述目标场景的局部TSDF重建结果,以纳入所述目标场景的全局三维重建中;
重复图像选取步骤、局部提取步骤、反投影步骤和重建步骤,以得到所述目标场景的其他局部的TSDF重建结果,直至完成所述目标场景的全局三维重建。
一些实施例中,所述获取第一数量的包含目标场景局部的关键图像帧,包括:
获取包含目标场景局部的图像;
获取其中一帧图像,作为第一帧关键图像帧;
根据前一帧关键图像帧获取后一帧关键图像帧:获取所述前一帧关键图像帧之后的每帧图像,直到其中一帧图像与所述前一帧关键图像帧的空间位置变化大于预设变化度时,则将该帧图像作为所述后一帧关键图像帧;
选取到第一数量的关键图像帧后停止。
一些实施例中,所述其中一帧图像与所述前一帧关键图像帧的空间位置变化大于预设变化度,包括;
所述其中一帧图像与所述前一帧关键图像帧之间的相对平移距离大于预设平移距离;
或,
所述其中一帧图像与所述前一帧关键图像帧之间的相对旋转角度大于预设旋转角度。
一些实施例中,将第一数量的所述关键图像帧反投影到所述局部三维空间中,包括:
通过二维卷积神经网络分别提取出第一数量的所述关键图像帧的多层级特征;
将第一数量的所述关键图像帧的多层级特征分别反投影到所述目标场景的局部三维空间中。
一些实施例中,在将所述第一数量的图像帧的多层级特征分别反投影到所述目标场景的局部三维空间中时,通过以下公式进行反投影:
Figure BDA0003778316640000032
Figure BDA0003778316640000031
其中,Pt和Kt分别是外部矩阵和内部矩阵,(i,j,k)是三维空间中体素的坐标,
Figure BDA0003778316640000033
是二维空间中像素的坐标。
一些实施例中,在将所述第一数量的图像帧的多层级特征分别反投影到所述目标场景的局部三维空间中时,还包括:
当同一个像素反投影到不同的体素时,对不同的体素均赋予同一个像素的多层级特征。
一些实施例中,目标场景的三维重建方法还包括:
当不同的像素反投影到同一个体素时,对不同的像素的多层级特征取均值后赋予同一个体素。
根据第二方面,一种实施例中提供一种目标场景的三维重建装置,包括:
图像选取模块,用于获取第一数量的包含目标场景局部的关键图像帧;
局部提取模块,用于对第一数量的所述关键图像帧均添加预设范围内的深度值后,计算目标场景中包含全部所述关键图像帧的视图的局部三维空间边界,以得到所述目标场景的局部三维空间;
反投影模块,用于将第一数量的所述关键图像帧反投影到所述局部三维空间中,得到局部三维空间坐标;
重建模块,用于将所述局部三维空间坐标输入至长短期记忆网络,得到短期记忆的局部三维空间坐标并输入卷积神经网络中,得到所述目标场景的局部TSDF重建结果,以纳入所述目标场景的全局三维重建中;
控制模块,用于重复控制图像选取模块、局部提取模块、反投影模块和重建模块,以得到所述目标场景的其他局部的TSDF重建结果,直至完成所述目标场景的全局三维重建。
根据第三方面,一种实施例中提供一种无人机,包括:
摄像头,用于对所述目标场景获取包含目标场景局部的图像;
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如第一方面所述的方法。
根据第四方面,一种实施例中提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现如第一方面所述的方法。
据上述实施例的目标场景的三维重建方法,在进行目标场景的全局三维重建过程中,是先完成对目标场景的局部三维重建,然后重复各个重建步骤完成目标场景的其它局部三维重建,然后由全部的局部三维重建得到目标场景的全局三维重建。第一方面,由于局部重建的思想,三维重建的过程中不会对同一区域重复预测,使得避免了大量的冗余计算,对计算资源的消耗也将更低,提高了三维重建的效率和质量,这也就意味着在相同计算资源下,通过相同的无人机能对更大范围的目标场景进行三维重建或者能对相同的目标场景更高质量完成的三维重建,从而更高效地应用于相关场景之中。第二方面,由于长短期记忆网络可以把之前的重建结果记录下来,且不断的循环迭代,这样可以帮助下一次局部重建乃至全局重建获得更好的结果。第三方面,本实施例中所采用的方法直接预测基于TSDF的三维表面,实验结果表明这显著提升了重建结果的平滑度与还原度。因此本实施例的目标场景的三维重建方法,其重建速度、质量以及能效比都较现有技术有显著提升,为无人机在高速巡航状态下进行高质量实时三维重建提供了可能。
附图说明
图1为目标场景的三维重建方法的流程图;
图2为一种实施例的目标场景的三维重建方法的流程图;
图3为另一种实施例的目标场景的三维重建方法的流程图;
图4为一种实施例的目标场景的三维重建装置的框架图;
图5为一种实施例的无人机的框架图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
在本发明实施例中,由于是先对目标场景的局部进行三维重建,然后由多个局部的三维重建纳入目标场景的全局的三维建设,以完成目标场景的三维重建,其局部重建的思想,避免了大量的冗余计算,对计算资源的消耗也将更低。其次在局部重建的过程中,由于长短期记忆网络可以把之前的局部重建结果记录下来,且不断的循环迭代,以帮助下一次局部重建乃至全局重建获得更好的结果。而且在局部重建的过程中,直接预测基于TSDF的三维表面,以提升重建结果的平滑度与还原度。
一些实施例中提供了一种目标场景的三维重建方法,其用于对目标场景,例如各种房屋建筑等地理地形,构建其所对应的数字三维模块,以满足其数字化的需求。请参考图1,以下对其具体的方法进行说明:
图像选取步骤100:获取第一数量的包含目标场景局部的关键图像帧。
一些实施例中,在获取目标场景的图像时,可以是在目标场景的上空或者其它方位,然后在时序上连续获取目标场景的若干图像帧。一些实施例中,可以通过无人机机载用于获取图像帧的摄像头后,飞行于目标场景的上空或者其它方位,以获取目标场景的若干图像帧。一些实施例中,无人机所机载的摄像头为单目摄像机。一些实施例中,在所获取的若干图像帧中,需要选取第一数量的关键图像帧,该关键图像帧为包含目标场景的局部的图像帧。可以理解的是,由于关键图像帧中均包含目标场景的局部,因此可以根据一定数量的关键图像帧获取到目标场景的局部的特征,以用于完成后续目标场景的局部重建。一些实施例中,关键图像帧的数量可以根据需要来获取,例如根据不同目标场景、不同设备对第一数量进行调整,以得到最合适的取值。
局部提取步骤200:对第一数量的所述关键图像帧均添加预设范围内的深度值后,计算目标场景中包含全部所述关键图像帧的视图的局部三维空间边界,以得到所述目标场景的局部三维空间。
一些实施例中,由于获取的关键图像帧均只有二维信息,没有深度信息,因此在局部的三维重建前,需要对第一数量的关键图像帧人为添加一个深度信息以确定其三维空间的边界,而局部的三维空间边界确认之后,再将第一数量的关键图像帧组合在一起,就可以形成目标场景的局部三维空间。一些实施例中,对关键图像帧所添加的深度值为预设范围内的,该预设范围是根据需要所设定的。一些实施例中,在计算局部三维空间边界时,其局部三维空间边界内的空间需要包括全部关键图像帧的视图,以得到目标场景的局部三维空间,即关键图像帧所获取的目标场景的局部应当均在目标场景的局部三维空间内,使得没有遗漏关键图像帧所获取目标场景的局部的特征。
反投影步骤300:将第一数量的所述关键图像帧反投影到所述局部三维空间中,得到局部三维空间坐标。
一些实施例中,当确认了包括全部关键图像帧的视图的局部三维空间后,便可以将全部的关键图像帧反投影到该局部三维空间中,以得到局部三维空间坐标,即由关键图像帧中二维的像素反投影到该局部三维空间中得到三维的体素。
重建步骤400:将所述局部三维空间坐标输入至长短期记忆网络,得到短期记忆的局部三维空间坐标并输入卷积神经网络中,得到所述目标场景的局部TSDF重建结果,以纳入所述目标场景的全局三维重建中。
一些实施例中,先将局部三维空间坐标输入至长短期记忆网络,以得到短期记忆的局部三维空间坐标。由于长短期记忆网络可以把之前的重建结果记录下来,且不断的循环迭代,即将历史的局部预测结果不断作为下一局部预测的输入,这样可以帮助下一次局部重建乃至全局重建获得更好的结果。一些实施例中,可以通过以下公式实现长短期记忆网络:
it=σ(VtWvi+Ht-1Whi+bi)
ft=σ(VtWvf+Ht-1Whf+bf)
ot=σ(VtWvo+Ht-1Who+bo)
Figure BDA0003778316640000061
Figure BDA0003778316640000062
Ht=ot⊙tanh(Ct)
其中,it为输入门,ft为遗忘门,ot为输出门,
Figure BDA0003778316640000063
是输入,Vt是输入长短期记忆网络的局部三维空间坐标,根据短期记忆Ht-1,通过遗忘门ft和输入门it得到Ct,再使用Ct更新得到新的短期记忆的局部三维空间坐标Ht。然后将短期记忆的局部三维空间坐标输入卷积神经网络中,例如三维卷积神经网络,以得到目标场景的局部TSDF(truncated signeddistance function)重建结果St,以纳入所述目标场景的全局三维重建中,其公式表示如下:
St=Conv(Ht)
步骤500:重复图像选取步骤、局部提取步骤、反投影步骤和重建步骤,以得到所述目标场景的其他局部的TSDF重建结果,直至完成所述目标场景的全局三维重建。
一些实施例中,由于之前获取的是第一数量的包含目标场景局部的关键图像帧,因此在依次经过图像选取步骤、局部提取步骤、反投影步骤和重建步骤后得到的是标场景的局部重建,而重复图像选取步骤、局部提取步骤、反投影步骤和重建步骤,并在重复图像选取步骤时,获取的预设数量的关键图像帧,其均是包含目标场景的其它局部,从而得到目标场景的其他局部的TSDF重建结果,直至完成目标场景的全局三维重建。
由上述实施例的目标场景的三维重建方法可知,在进行目标场景的全局三维重建过程中,是先完成对目标场景的局部三维重建,然后重复各个重建步骤完成目标场景的其它局部三维重建,然后由全部的局部三维重建得到目标场景的全局三维重建。第一方面,由于局部重建的思想,三维重建的过程中不会对同一区域重复预测,使得避免了大量的冗余计算,对计算资源的消耗也将更低,提高了三维重建的效率和质量,这也就意味着在相同计算资源下,通过相同的无人机能对更大范围的目标场景进行三维重建或者能对相同的目标场景更高质量完成的三维重建,从而更高效地应用于相关场景之中。第二方面,由于长短期记忆网络可以把之前的重建结果记录下来,且不断的循环迭代,这样可以帮助下一次局部重建乃至全局重建获得更好的结果。第三方面,本实施例中所采用的方法直接预测基于TSDF的三维表面,实验结果表明这显著提升了重建结果的平滑度与还原度。因此本实施例的目标场景的三维重建方法,其重建速度、质量以及能效比都较现有技术有显著提升,为无人机在高速巡航状态下进行高质量实时三维重建提供了可能。
请参考图2,一些实施例中,在获取第一数量的包含目标场景局部的关键图像帧时,其具体方法包括:
步骤110:获取包含目标场景局部的图像。
步骤120:获取其中一帧图像,作为第一帧关键图像帧。
步骤130:根据前一帧关键图像帧获取后一帧关键图像帧:获取所述前一帧关键图像帧之后的每帧图像,直到其中一帧图像与所述前一帧关键图像帧的空间位置变化大于预设变化度时,则将该帧图像作为所述后一帧关键图像帧。
步骤140:选取到第一数量的关键图像帧后停止。
一些实施例中,在对目标场景获取包含目标场景局部的若干图像后,需要从中选取第一数量的关键图像帧,而关键图像帧中不仅均包含目标场景的局部,且关键图像帧中之间所包含目标场景的局部尽量少重复,且包含的局部的特征尽量不同,从而可以通过较少数量的关键图像帧完成后续目标场景的局部三维重建,以提高其重建效率和质量。一些实施例中,先随机获取其中一帧图像,作为第一帧关键图像帧,并且以第一帧关键图像帧作为参考帧,以获取后一帧关键图像帧。一些实施例中,先获取前一帧关键图像帧之后的每帧图像,直到其中有一帧图像与前一帧关键图像帧的空间位置变化大于预设变化度时,则将该帧图像作为后一帧关键图像帧。然后由后一帧关键图像帧作为参考帧,以继续获取再后一帧关键图像帧,直至选取到第一数量的关键图像帧后停止。
一些实施例中,在其中一帧图像与所述前一帧关键图像帧的空间位置变化大于预设变化度时,其具体方法包括:
当其中一帧图像与所述前一帧关键图像帧之间的相对平移距离大于预设平移距离;或该其中一帧图像与所述前一帧关键图像帧之间的相对旋转角度大于预设旋转角度。
一些实施例中,预设平移距离和预设旋转角度可以根据目标场景和需求进行调整,当其中一帧图像与前一帧关键图像帧之间的相对平移距离大于预设平移距离时,说明该其中一帧图像相比前一帧关键图像帧,其包含目标场景的局部在水平距离上不同的特征,而当其中一帧图像与前一帧关键图像帧之间的相对旋转角度大于预设旋转角度,说明该其中一帧图像相比前一帧关键图像帧,其包含目标场景的局部在不同角度上不同的特征。一些实施例中,可以根据具体的目标场景和需求,选择满足平移距离大于预设平移距离和相对旋转角度大于预设旋转角度中的至少一个条件的图像作为关键图像帧。一些实施例中,在判断两帧图像之间的平移距离大于预设平移距离和相对旋转角度大于预设旋转角度时,可以根据两帧图像中相同参照物之间的变化比较得到,其属于现有技术,在此不再赘述。
请参考图3,一些实施例中,在将第一数量的所述关键图像帧反投影到所述局部三维空间中时,其具体方法包括:
步骤310:通过二维卷积神经网络分别提取出第一数量的所述关键图像帧的多层级特征。
步骤320:将第一数量的所述关键图像帧的多层级特征分别反投影到所述目标场景的局部三维空间中。
一些实施例中,通过二维卷积神经网络分别提取出第一数量的所述关键图像帧的多层级特征,用公式表示如下:
Figure BDA0003778316640000091
其中It是各个关键图像帧,Ft是所提取的多层级特征,Conv是卷积函数,R表示一个空间,各个关键图像帧都属于此空间,H表示High,W表示Width,C表示特征维度,用一个格式为H×W×C的数据类型就可以表征出一个关键图像帧的多层级特征像。然后将全部的关键图像帧的多层级特征分别反投影到目标场景的局部三维空间中。
一些实施例中,在将所述第一数量的图像帧的多层级特征分别反投影到所述目标场景的局部三维空间中时,通过以下公式进行反投影:
Figure BDA0003778316640000092
Figure BDA0003778316640000093
其中,Pt和Kt分别是外部矩阵和内部矩阵(获取关键图像帧所对应的相机参数),(i,j,k)是三维空间中体素的坐标,
Figure BDA0003778316640000094
是二维空间中像素的坐标。而
Figure BDA0003778316640000095
R表示一个空间,局部三维空间属于此空间,C表示特征维度,H表示High,W表示Width,D表示深度值,用一个格式为C×H×W×D的数据类型就可以表征出一个局部三维空间。
一些实施例中,在将所述第一数量的图像帧的多层级特征分别反投影到所述目标场景的局部三维空间中时,还包括:
当同一个像素反投影到不同的体素时,对不同的体素均赋予同一个像素的多层级特征。
当不同的像素反投影到同一个体素时,对不同的像素的多层级特征取均值后赋予同一个体素。
一些实施例中,在将第一数量的图像帧的多层级特征分别反投影到所述目标场景的局部三维空间中时,可能出现同一个二维的像素反投影到不同三维的体素中,也可能出现不同二维的像素反投影到同一个三维的体素,由于三维的体素比二维的像素多出了一个维度,因此多出来的这个维度可以有多种取值。一些实施例中,当同一个像素反投影到不同的体素时,对不同的体素均赋予同一个像素的多层级特征,当不同的像素反投影到同一个体素时,对不同的像素的多层级特征取均值后赋予同一个体素,从而使得多出的这一个维度既不影响原来二维特征的体现,又可以使其三维特征较好的体现。
请参考图4,一些实施例中提供了一种目标场景的三维重建装置,其包括图像选取模块10、局部提取模块20、反投影模块30、重建模块40和控制模块50。
图像选取模块10用于获取第一数量的包含目标场景局部的关键图像帧;
局部提取模块20用于对第一数量的所述关键图像帧均添加预设范围内的深度值后,计算目标场景中包含全部所述关键图像帧的视图的局部三维空间边界,以得到所述目标场景的局部三维空间;
反投影模块30用于将第一数量的所述关键图像帧反投影到所述局部三维空间中,得到局部三维空间坐标;
重建模块40用于将所述局部三维空间坐标输入至长短期记忆网络,得到短期记忆的局部三维空间坐标并输入卷积神经网络中,得到所述目标场景的局部TSDF重建结果,以纳入所述目标场景的全局三维重建中;
控制模块50用于重复控制图像选取模块10、局部提取模块20、反投影模块30和重建模块40,以得到所述目标场景的其他局部的TSDF重建结果,直至完成所述目标场景的全局三维重建。
一些实施例中,在获取第一数量的包含目标场景局部的关键图像帧时,图像选取模块10还用于获取包含目标场景局部的图像;获取其中一帧图像,作为第一帧关键图像帧;根据前一帧关键图像帧获取后一帧关键图像帧:获取所述前一帧关键图像帧之后的每帧图像,直到其中一帧图像与所述前一帧关键图像帧的空间位置变化大于预设变化度时,则将该帧图像作为所述后一帧关键图像帧;选取到第一数量的关键图像帧后停止。
一些实施例中,在判断其中一帧图像与所述前一帧关键图像帧的空间位置变化是否大于预设变化度时,图像选取模块10还用于判断所述其中一帧图像与所述前一帧关键图像帧之间的相对平移距离是否大于预设平移距离;或判断所述其中一帧图像与所述前一帧关键图像帧之间的相对旋转角度是否大于预设旋转角度。
一些实施例中,在将第一数量的所述关键图像帧反投影到所述局部三维空间中时,反投影模块30还用于通过二维卷积神经网络分别提取出第一数量的所述关键图像帧的多层级特征;将第一数量的所述关键图像帧的多层级特征分别反投影到所述目标场景的局部三维空间中。
一些实施例中,在将所述第一数量的图像帧的多层级特征分别反投影到所述目标场景的局部三维空间中时,反投影模块30还用于通过以下公式进行反投影:
Figure BDA0003778316640000111
Figure BDA0003778316640000112
其中,Pt和Kt分别是外部矩阵和内部矩阵(获取关键图像帧所对应的相机参数),(i,j,k)是三维空间中体素的坐标,
Figure BDA0003778316640000113
是二维空间中像素的坐标。
一些实施例中,在将所述第一数量的图像帧的多层级特征分别反投影到所述目标场景的局部三维空间中时,反投影模块30还用于当同一个像素反投影到不同的体素时,对不同的体素均赋予同一个像素的多层级特征,以及当不同的像素反投影到同一个体素时,对不同的像素的多层级特征取均值后赋予同一个体素。
请参考图5,一些实施例中还提供了一种无人机,其包括摄像头60、存储器80和处理器70。其中摄像头60用于对所述目标场景获取包含目标场景局部的图像,存储器80用于存储程序,处理器70用于通过执行所述存储器80存储的程序以实现上述实施例中的目标场景的三维重建方法。一些实施例中,摄像头60可以是无人机机载的单目摄像机。
以上实施例在智慧城市的建设中有着广泛的应用,如利用无人机构建城市三维地理模型、城市地理资源变化监测、室内三维模型构建和地理资源数字化管理等。也可以应用于地理勘探、考古发掘等活动中,例如利用无人机充当勘探工具,可以帮助勘探、考古团队提前获取目标区域的地理环境数据,避免潜在的风险,更好的完成任务。
一些实施例中还提供了一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现上述实施例中的目标场景的三维重建方法。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (10)

1.一种目标场景的三维重建方法,其特征在于,包括:
图像选取步骤:获取第一数量的包含目标场景局部的关键图像帧;
局部提取步骤:对第一数量的所述关键图像帧均添加预设范围内的深度值后,计算目标场景中包含全部所述关键图像帧的视图的局部三维空间边界,以得到所述目标场景的局部三维空间;
反投影步骤:将第一数量的所述关键图像帧反投影到所述局部三维空间中,得到局部三维空间坐标;
重建步骤:将所述局部三维空间坐标输入至长短期记忆网络,得到短期记忆的局部三维空间坐标并输入卷积神经网络中,得到所述目标场景的局部TSDF重建结果,以纳入所述目标场景的全局三维重建中;
重复图像选取步骤、局部提取步骤、反投影步骤和重建步骤,以得到所述目标场景的其他局部的TSDF重建结果,直至完成所述目标场景的全局三维重建。
2.如权利要求1所述的目标场景的三维重建方法,其特征在于,所述获取第一数量的包含目标场景局部的关键图像帧,包括:
获取包含目标场景局部的图像;
获取其中一帧图像,作为第一帧关键图像帧;
根据前一帧关键图像帧获取后一帧关键图像帧:获取所述前一帧关键图像帧之后的每帧图像,直到其中一帧图像与所述前一帧关键图像帧的空间位置变化大于预设变化度时,则将该帧图像作为所述后一帧关键图像帧;
选取到第一数量的关键图像帧后停止。
3.如权利要求2所述的目标场景的三维重建方法,其特征在于,所述其中一帧图像与所述前一帧关键图像帧的空间位置变化大于预设变化度,包括;
所述其中一帧图像与所述前一帧关键图像帧之间的相对平移距离大于预设平移距离;
或,
所述其中一帧图像与所述前一帧关键图像帧之间的相对旋转角度大于预设旋转角度。
4.如权利要求1所述的目标场景的三维重建方法,其特征在于,将第一数量的所述关键图像帧反投影到所述局部三维空间中,包括:
通过二维卷积神经网络分别提取出第一数量的所述关键图像帧的多层级特征;
将第一数量的所述关键图像帧的多层级特征分别反投影到所述目标场景的局部三维空间中。
5.如权利要求4所述的目标场景的三维重建方法,其特征在于,在将所述第一数量的图像帧的多层级特征分别反投影到所述目标场景的局部三维空间中时,通过以下公式进行反投影:
Figure FDA0003778316630000021
Figure FDA0003778316630000022
其中,Pt和Kt分别是外部矩阵和内部矩阵,(i,j,k)是三维空间中体素的坐标,
Figure FDA0003778316630000023
是二维空间中像素的坐标。
6.如权利要求5所述的目标场景的三维重建方法,其特征在于,在将所述第一数量的图像帧的多层级特征分别反投影到所述目标场景的局部三维空间中时,还包括:
当同一个像素反投影到不同的体素时,对不同的体素均赋予同一个像素的多层级特征。
7.如权利要求6所述的目标场景的三维重建方法,其特征在于,还包括:
当不同的像素反投影到同一个体素时,对不同的像素的多层级特征取均值后赋予同一个体素。
8.一种目标场景的三维重建装置,其特征在于,包括:
图像选取模块,用于获取第一数量的包含目标场景局部的关键图像帧;
局部提取模块,用于对第一数量的所述关键图像帧均添加预设范围内的深度值后,计算目标场景中包含全部所述关键图像帧的视图的局部三维空间边界,以得到所述目标场景的局部三维空间;
反投影模块,用于将第一数量的所述关键图像帧反投影到所述局部三维空间中,得到局部三维空间坐标;
重建模块,用于将所述局部三维空间坐标输入至长短期记忆网络,得到短期记忆的局部三维空间坐标并输入卷积神经网络中,得到所述目标场景的局部TSDF重建结果,以纳入所述目标场景的全局三维重建中;
控制模块,用于重复控制图像选取模块、局部提取模块、反投影模块和重建模块,以得到所述目标场景的其他局部的TSDF重建结果,直至完成所述目标场景的全局三维重建。
9.一种无人机,其特征在于,包括:
摄像头,用于对所述目标场景获取包含目标场景局部的图像;
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述介质上存储有程序,所述程序能够被处理器执行以实现如权利要求1-7中任一项所述的方法。
CN202210924877.4A 2022-08-02 2022-08-02 一种目标场景的三维重建方法、装置、无人机及存储介质 Active CN115311424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210924877.4A CN115311424B (zh) 2022-08-02 2022-08-02 一种目标场景的三维重建方法、装置、无人机及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210924877.4A CN115311424B (zh) 2022-08-02 2022-08-02 一种目标场景的三维重建方法、装置、无人机及存储介质

Publications (2)

Publication Number Publication Date
CN115311424A true CN115311424A (zh) 2022-11-08
CN115311424B CN115311424B (zh) 2023-04-07

Family

ID=83859191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210924877.4A Active CN115311424B (zh) 2022-08-02 2022-08-02 一种目标场景的三维重建方法、装置、无人机及存储介质

Country Status (1)

Country Link
CN (1) CN115311424B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833270A (zh) * 2017-09-28 2018-03-23 浙江大学 基于深度相机的实时物体三维重建方法
CN108898630A (zh) * 2018-06-27 2018-11-27 清华-伯克利深圳学院筹备办公室 一种三维重建方法、装置、设备和存储介质
CN111369688A (zh) * 2020-03-11 2020-07-03 暗物智能科技(广州)有限公司 一种结构化场景表达的认知导航方法及系统
CN111433818A (zh) * 2018-12-04 2020-07-17 深圳市大疆创新科技有限公司 目标场景三维重建方法、系统及无人机
CN113808253A (zh) * 2021-08-31 2021-12-17 武汉理工大学 场景三维重建的动态对象处理方法、系统、设备及介质
US20220172386A1 (en) * 2020-11-27 2022-06-02 Samsung Electronics Co., Ltd. Method and device for simultaneous localization and mapping (slam)

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833270A (zh) * 2017-09-28 2018-03-23 浙江大学 基于深度相机的实时物体三维重建方法
CN108898630A (zh) * 2018-06-27 2018-11-27 清华-伯克利深圳学院筹备办公室 一种三维重建方法、装置、设备和存储介质
CN111433818A (zh) * 2018-12-04 2020-07-17 深圳市大疆创新科技有限公司 目标场景三维重建方法、系统及无人机
CN111369688A (zh) * 2020-03-11 2020-07-03 暗物智能科技(广州)有限公司 一种结构化场景表达的认知导航方法及系统
US20220172386A1 (en) * 2020-11-27 2022-06-02 Samsung Electronics Co., Ltd. Method and device for simultaneous localization and mapping (slam)
CN113808253A (zh) * 2021-08-31 2021-12-17 武汉理工大学 场景三维重建的动态对象处理方法、系统、设备及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
IZADI S 等: "KinectFusion: real-time 3D reconstruction and interaction using a moving depth camera", 《PROCEEDINGS OF THE 24TH ANNUAL ACM SYMPOSIUM ON USER INTERFACE SOFTWARE AND TECHNOLOGY》 *
NEWCOMBE R A 等: "KinectFusion: real-time dense surface mapping and tracking", 《IEEE》 *
丁文东等: "移动机器人视觉里程计综述", 《自动化学报》 *
王元博: "基于深度学习与视角规划的三维对象建模方法", 《信息科技辑》 *

Also Published As

Publication number Publication date
CN115311424B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN108416840B (zh) 一种基于单目相机的三维场景稠密重建方法
CN111462329B (zh) 一种基于深度学习的无人机航拍影像的三维重建方法
Musialski et al. A survey of urban reconstruction
US9916679B2 (en) Deepstereo: learning to predict new views from real world imagery
CN111507927A (zh) 在神经网络中统合图像及点云图的方法及装置
US11887256B2 (en) Deferred neural rendering for view extrapolation
CN111709984B (zh) 位姿深度预测方法、视觉里程计方法、装置、设备及介质
US11544898B2 (en) Method, computer device and storage medium for real-time urban scene reconstruction
CN111161413A (zh) 一种基于gis的三维虚拟机场平台的构建方法
CN116563493A (zh) 基于三维重建的模型训练方法、三维重建方法及装置
CN117274515A (zh) 基于ORB和NeRF映射的视觉SLAM方法及系统
Panek et al. Visual localization using imperfect 3d models from the internet
CN115249266A (zh) 航路点位置预测方法、系统、设备及存储介质
CN115375836A (zh) 基于多元置信度滤波的点云融合三维重建方法和系统
CN112991436B (zh) 基于物体尺寸先验信息的单目视觉slam方法
CN117058474B (zh) 一种基于多传感器融合的深度估计方法及系统
CN111402429B (zh) 一种尺度还原、三维重建方法、系统、存储介质及设备
CN115311424B (zh) 一种目标场景的三维重建方法、装置、无人机及存储介质
CN117115343A (zh) 动态场景自主定位与线上高精度三维重建方法
CN116433768A (zh) 一种基于神经辐射场的可扩展增量式视觉建图方法
Muenster et al. Software and Content Design of a Browser-based Mobile 4D VR Application to Explore Historical City Architecture
Cui et al. LetsGo: Large-Scale Garage Modeling and Rendering via LiDAR-Assisted Gaussian Primitives
US11908070B2 (en) Dynamic three-dimensional imaging method
Belter et al. Keyframe-Based local normal distribution transform occupancy maps for environment mapping
CN116958449B (zh) 城市场景三维建模方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 518000, A2305, Building 11, Shenzhen Bay Science and Technology Ecological Park, No. 16, Keji South Road, Gaoxin District, Yuehai Street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen huasairuifei Intelligent Technology Co.,Ltd.

Address before: 518000 12b, Sanhang science and technology building, Northwest University of technology, No. 45, Gaoxin South ninth Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen, Guangdong

Patentee before: Shenzhen huasairuifei Intelligent Technology Co.,Ltd.