CN114022630A - 三维场景的重建方法、装置、设备和计算机可读存储介质 - Google Patents
三维场景的重建方法、装置、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN114022630A CN114022630A CN202111329437.6A CN202111329437A CN114022630A CN 114022630 A CN114022630 A CN 114022630A CN 202111329437 A CN202111329437 A CN 202111329437A CN 114022630 A CN114022630 A CN 114022630A
- Authority
- CN
- China
- Prior art keywords
- feature map
- scene
- point
- reconstructed
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/05—Geographic models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
Abstract
本发明实施例涉及计算机视觉技术领域,公开了一种三维场景的重建方法、装置、设备和计算机可读存储介质。其中方法包括:获取目标图像,所述目标图像包括待重建场景信息;基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图;根据所述点特征图、所述线特征图、所述面特征图和所述物体特征图,确定各特征图中所述点、线、面和物体之间的关系,得到对所述待重建场景进行重建的第一预测结果;将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果。通过上述方式,本发明实施例提高了SLAM算法构建地图的精度。
Description
技术领域
本发明实施例涉及计算机视觉技术领域,具体涉及一种三维场景的重建方法、装置、设备和计算机可读存储介质。
背景技术
基于视觉的SLAM(multaneous Localization and Mapping,即时定位与地图构建)是一项新兴的三维地图构建技术,即在传感器运动过程中,对运动轨迹进行估算,并构建周围环境的三维信息。视觉SLAM用相机作为数据获取的传感器,有着信息量大、灵活性高、成本低、时效性高、易于进行嵌入式开发等优势。
近几年,随着AR/VR技术的快速发展及场景落地,SLAM技术逐渐成为了新的研究热点,尤其在自动驾驶、智慧城市等领域均具有广阔的市场前景,但传统的SLAM方法精度较低。如何提高现有SLAM方法构建地图的精度,是需要解决的问题。
发明内容
鉴于上述问题,本发明实施例提供了一种三维场景的重建方法、装置、设备和计算机可读存储介质,用于解决现有技术中存在的SLAM方法精度较低的问题。
根据本发明实施例的第一方面,提供了一种三维场景的重建方法,所述方法包括:
获取目标图像,所述目标图像包括待重建场景信息;
基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,所述点特征图包括所述待重建场景中的点信息,所述线特征图包括所述待重建场景中的线信息,所述面特征图包括所述待重建场景中的面信息,所述物体特征图包括所述待重建场景中的物体信息;
根据所述点特征图、所述线特征图、所述面特征图和所述物体特征图,确定各特征图中所述点、线、面和物体之间的关系,得到对所述待重建场景进行重建的第一预测结果;
将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果。
在一些实施例中,所述基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,包括:
输入所述目标图像至第一特征提取模型;
确定所述第一特征提取模型中每个节点的卷积核,以及确定节点与节点之间的链接路径;
根据确定的所述每个节点的卷积核和节点与节点之间的链接路径,进行多层卷积运算,得到多个不同尺度的特征图;
将所述不同尺度的特征图输入点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型,得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图。
在一些实施例中,所述方法还包括:
在所述点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型的训练过程中,对所述点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型的损失函数进行联合优化。在一些实施例中,所述基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,包括:
输入所述目标图像至第二特征提取模型,得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,所述第二特征提取模型通过对多张标记有点、线、面和物体特征的训练图像进行多任务学习得到。
在一些实施例中,所述根据所述点特征图、所述线特征图、所述面特征图和所述物体特征图,确定各特征图中所述点、线、面和物体之间的关系,进一步包括:
基于所述点特征图和所述线特征图中的点特征和线特征进行边缘检测,得到所述三维场景的边缘特征;
根据所述物体特征图中的二维物体特征和所述边缘特征,生成平面布局方案和物体三维包围盒方案;
对于每个物体特征,根据所述物体三维包围盒方案选择最优的N个物体三维包围盒方案,N为整数,N>0;
采用无限平面和9自由度参数定义的物体位姿,定义新的参数;
根据所述平面布局方案和所述最优的N个物体三维包围盒方案,获取物体和平面之间的约束,以及点和平面之间的约束;
根据所述物体和平面之间的约束以及点和平面之间的约束,对所述点特征图、所述线特征图、所述面特征图和所述物体特征图进行点关联、线关联、平面关联和物体关联。
在一些实施例中,所述对于每个物体特征,根据所述平面布局方案和物体三维包围盒方案选择最优的N个物体三维包围盒方案,进一步包括:
为每个所述物体三维包围盒方案定义一个二进制随机变量xi∈{0,1},所述二进制随机变量用于标记所述物体三维包围盒方案是否被选中;
优化所述二进制随机变量,使得所述如下公式的计算结果为最小值,得到被选中的N个物体三维包围盒方案:
在一些实施例中,所述将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果,进一步包括:
根据时间窗口对选取的多帧目标图像的帧数量进行设置,通过Transformer模型或者LSTM长短时记忆网络进行多个第一预测结果的融合。根据本发明实施例的第二方面,提供了一种三维场景的重建装置,所述装置包括:
获取模块,用于获取目标图像,所述目标图像包括待重建场景信息;
得到模块,用于基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,所述点特征图包括所述待重建场景中的点信息,所述线特征图包括所述待重建场景中的线信息,所述面特征图包括所述待重建场景中的面信息,所述物体特征图包括所述待重建场景中的物体信息;
确定模块,用于根据所述点特征图、所述线特征图、所述面特征图和所述物体特征图,确定各特征图中所述点、线、面和物体之间的关系,得到对所述待重建场景进行重建的第一预测结果;
融合模块,用于将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果。
根据本发明实施例的第三方面,提供了一种三维场景的重建设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上所述的三维场景的重建方法的操作。
根据本发明实施例的第四方面,提供了指令,所述可执行指令在三维场景的重建设备上运行时,使得三维场景的重建设备执行如上所述的三维场景的重建方法的操作。
本发明实施例通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,根据上述特征图得到对所述待重建场景进行重建的第一预测结果,并将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果,提高了三维场景的重建精度。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的三维场景的重建方法的流程示意图;
图2示出了本发明实施例提供的卷积层的节点之间的链接路径示意图;
图3示出了本发明另一实施例提供的节点与节点之间的链接路径示意图;
图4示出了本发明实施例提供的三维场景的重建的结构示意图;
图5示出了本发明实施例提供的三维场景的重建设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
图1示出了本发明实施例提供的三维场景的重建方法的流程图,该方法由计算设备执行,例如计算机、服务器、服务器集群等。如图1所示,该方法包括以下步骤:
步骤110:获取目标图像,所述目标图像包括待重建场景信息。
其中,目标图像是指对待重建场景进行拍摄所获得的图像,目标图像包括待重建场景信息。目标图像可以由图像采集设备采集获得,图像采集设备可以是摄像机等具有图像采集功能的设备。例如,可以通过手持设备或者在机器人上安装摄像头,机器人在待重建的场景内移动的同时进行拍摄,可以拍摄图片或者拍摄视频,根据机器人拍摄的图片或者视频获得多张目标图像。
待重建场景信息是指待重建场景中各特征的图像信息,其包括点特征、线特征、面特征和物体特征的图像信息。
步骤120:基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,所述点特征图包括所述待重建场景中的点信息,所述线特征图包括所述待重建场景中的线信息,所述面特征图包括所述待重建场景中的面信息,所述物体特征图包括所述待重建场景中的物体信息。
多任务学习(Multi-task learning)是和单任务学习(single-task learning)相对的一种机器学习方法。单任务学习是指一次学习一个任务。多任务学习则是一种联合学习,多个任务并行学习,多个任务的学习结果之间相互影响。
特征图(feature map)一般包括图像的颜色特征、纹理特征、形状特征和空间关系特征。本步骤中得到的各个特征图用于后续的空间特征融合和每帧目标图像的三维重建。
其中,步骤120进一步包括:
步骤a1:输入所述目标图像至第一特征提取模型;其中,第一特征提取模型可以为卷积神经网络,可以检测输入的目标图像中的特征。卷积神经网络卷通过一层一层的节点组织起来,每一个节点就是一个神经元,相邻两层之间的节点相连。
步骤a2:确定所述第一特征提取模型中每个节点的卷积核,以及确定节点与节点之间的链接路径;
本步骤为第一特征提取模型中每个节点确定卷积核,卷积核包括不同大小,例如2*2、3*3或5*5等,还包括不同形状,例如矩形、原型、椭圆形等固定形状卷积核或者可变形状卷积核等。具体的,可以通过先验选择的方式为每个节点选取卷积核。通过为每个节点搜索卷积核,根据连续多次的评分结果确定最优卷积核后保存采用该最优卷积核的第一特征提取模型。例如,可以采用蒙特卡洛方法进行参数调优,求解最优化模型。可以理解的是,还可以为每个卷积层确定单独的卷积核,则该层中每个节点均采用相同的卷积核,以提高计算效率。
本步骤还确定节点与节点之间的链接路径。请参考图2所示,不同卷积层的节点之间的链接路径有多种可能,需要确定每个节点与下一个卷积层中哪个或者哪几个节点链接,也即确定节点与节点之间的链接路径。具体的,也可以通过先验选择的方式为相邻卷积层之间的节点选择链接路径。可以理解的是,还可以为每个卷积层之间的链接确定路径,例如统一确定第一卷积层与第三卷积层链接,则第一卷积层中每个节点均与第三卷积层中的某个节点链接,以提高计算效率。
请参考图3所示,以图2中虚线框内的依次相邻的3个卷积层中的3个节点为例,进一步说明确定节点与节点之间的链接路径的方式。Cl-2节点可以链接到Cl-1节点、数组0、数组1或者数组2;Cl-1节点可以链接到数组0、数组1或者数组2,还可以通过Concat函数链接到Cl节点;数组0、数组1或者数组2均可以通过Concat函数链接到Cl节点。通过搜索节点与节点之间不同的链接路径,根据连续多次的评分结果确定最优路径后保存该最优路径下的第一特征提取模型。例如,可以采用蒙特卡洛方法进行参数调优,求解最优化模型。
步骤a3:根据确定的所述每个节点的卷积核和节点与节点之间的链接路径,进行多层卷积运算,得到多个不同尺度的特征图;
通过为每个节点确定卷积核,形成多种卷积核的组合。通过搜索确定节点与节点之间最优的链接路径,在第一特征提取模型种进行多层卷积运算后,得到多个不同尺度的特征图,也即多尺度特征。
多尺度特征可以从空间图片信息中提取多个维度的空间描述,得到多尺度、多分类、多素材的数据,提高了特征提取的精度和速度,有利于模型的小型化。
上述步骤a1-a3通过采用第一特征提取模型这一通用特征模型进行多尺度特征的提取,通过搜索的方式进行卷积核选择、组合以及路径选择,实现了自动化的模型训练,无需人为训练、人为选择路径,提高了训练效率,并节约时间和成本。
步骤a4:将所述不同尺度的特征图输入点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型,得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图。
其中,点线检测模型可以检测点特征和线特征,平面检测模型可以检测面特征,点线检测模型、平面检测模型和语义分割模型可以用于检测物体特征,深度估计模型、法相估计模型用于上述特征检测的辅助估计。
其中,在所述点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型的训练过程中,对所述点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型的损失函数进行联合优化。上述各模型检测的参数或特征之间具有对应关系,例如,法相和平面之间的关系为:若法相检测越准确,则平面检测越准确。再如,深度和平面之间的关系为:若深度检测越准确,则平面检测越准确。深度和语义之间的关系为:若深度检测越准确,则语义检测越准确。因此,可以通过为上述各个模型之间添加权重作为约束,对各模型的损失函数进行联合优化。权重添加和优化过程可参考卷积神经网络通常的损失函数优化过程。
通过上述多任务学习的方式得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,可以确定各特征图中所述点、线、面和物体之间的关系,使最终对所述待重建场景进行重建的第一预测结果更准确,提高了SLAM构建地图的精度。
可以理解的是,在一些实施例中,步骤120可以通过第二特征提取模型实现。例如,输入所述目标图像至第二特征提取模型,得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,所述特征提取模型通过对多张标记有点、线、面和物体特征的训练图像进行多任务学习得到。
其中,第二特征提取模型包括上述的点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型。
步骤130:根据所述点特征图、所述线特征图、所述面特征图和所述物体特征图,确定各特征图中所述点、线、面和物体之间的关系,得到对所述待重建场景进行重建的第一预测结果。
其中,步骤130中根据所述点特征图、所述线特征图、所述面特征图和所述物体特征图,确定各特征图中所述点、线、面和物体之间的关系,进一步包括:
步骤b1:基于所述点特征图和所述线特征图中的点特征和线特征进行边缘检测,得到所述三维场景的边缘特征;
本步骤中,对于同一三维场景,其边缘特征(例如地墙边缘)是固定的,因此边缘观测在图像帧之间是一致的,可以将检测到的三维场景的边缘特征作为后续三维重建的地标。
步骤b2:根据所述物体特征图中的二维物体特征和所述边缘特征,生成平面布局方案和物体三维包围盒方案;
其中,平面布局方案主要包括从步骤b1中检测到的边缘特征中选择的代表性边缘特征。例如,通过步骤b1首先检测所有的图像边缘,然后从其中选择一些接近地墙分割边界的边缘。若边缘位于物体区域内而被物体遮挡所中断,则可以将该边缘扩展,使其与其他边缘相交。
物体三维包围盒可以为长方体包围盒。具可以基于二维包围盒检测生成长方体包围盒。
步骤b3:对于每个物体特征,根据所述物体三维包围盒方案选择最优的N个物体三维包围盒方案,N为整数,N>0;
其中,步骤b3进一步包括:
步骤b31:为每个所述物体三维包围盒方案定义一个二进制随机变量xi∈{0,1},所述二进制随机变量用于标记所述物体三维包围盒方案是否被选中;
步骤b32:优化所述二进制随机变量,使得所述如下公式的计算结果为最小值,得到被选中的N个物体三维包围盒方案:
本步骤中,E(x|I)为总势能,通过优化xi∈{0,1}使得总势能最小,从而得到此时被选择的物体三维包围盒方案。
步骤b3中,可以根据图像特征对物体三围包围盒进行打分。对于每个物体,可以选择最优的N个物体三围包围盒方案用于后续的优化。例如,N可以选择10-20个,更多的物体三围包围盒方案可以提高识别精度,但会导致计算量增加。
步骤b4:采用无限平面和9自由度参数定义的物体位姿,定义新的参数;
步骤b5:根据所述平面布局方案和所述最优的N个物体三维包围盒方案,获取物体和平面之间的约束,以及点和平面之间的约束;
步骤b6:根据所述物体和平面之间的约束以及点和平面之间的约束,对所述点特征图、所述线特征图、所述面特征图和所述物体特征图进行点关联、线关联、平面关联和物体关联。
通过上述步骤,最终确定各特征图中所述点、线、面和物体之间的关系,从而得到对所述待重建场景进行重建的第一预测结果。
步骤140:将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果。
其中,多帧目标图像一般为连续的多帧目标图像,这里选取的帧数量可以根据时间窗口对选取的帧数量进行设置,例如设置时间窗口t,选取该时间窗口t范围内拍摄的目标图像,将根据这些所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果。同时,时间窗口t内的图像若视差需要在预设阈值范围内,才进行融合,若小于预设阈值范围,说明图像基本没有变化,若大于预设阈值范围,则图像之间的变化过大,上述情况均不适合进行融合。预设阈值范围可以根据经验设置。
具体的,可通过Transformer模型或者LSTM(Long Short-Term Memory,长短时记忆网络)等方式进行多个第一预测结果的融合。
通过对时间窗口内多帧图像的第一预测结果进行融合后,得到该多帧图像所拍摄场景的第二预测结果,也即最终的三维重建结果。
本发明实施例通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,根据上述特征图得到对所述待重建场景进行重建的第一预测结果,并将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果,提高了三维场景的重建精度。
图4示出了本发明实施例提供的三维场景的重建装置的结构示意图。如图4所示,该装置300包括:
获取模块310,用于获取目标图像,所述目标图像包括待重建场景信息;
得到模块320,用于基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,所述点特征图包括所述待重建场景中的点信息,所述线特征图包括所述待重建场景中的线信息,所述面特征图包括所述待重建场景中的面信息,所述物体特征图包括所述待重建场景中的物体信息;
确定模块330,用于根据所述点特征图、所述线特征图、所述面特征图和所述物体特征图,确定各特征图中所述点、线、面和物体之间的关系,得到对所述待重建场景进行重建的第一预测结果;
融合模块340,用于将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果。
在一种可选的方式中,所述基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,包括:
输入所述目标图像至第一特征提取模型;
确定所述第一特征提取模型中每个节点的卷积核,以及确定节点与节点之间的链接路径;
根据确定的所述每个节点的卷积核和节点与节点之间的链接路径,进行多层卷积运算,得到多个不同尺度的特征图;
将所述不同尺度的特征图输入点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型,得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图。
在一种可选的方式中,所述方法还包括:
在所述点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型的训练过程中,对所述点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型的损失函数进行联合优化。
在一种可选的方式中,所述基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,包括:
输入所述目标图像至第二特征提取模型,得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,所述第二特征提取模型通过对多张标记有点、线、面和物体特征的训练图像进行多任务学习得到。
在一种可选的方式中,所述根据所述点特征图、所述线特征图、所述面特征图和所述物体特征图,确定各特征图中所述点、线、面和物体之间的关系,进一步包括:
基于所述点特征图和所述线特征图中的点特征和线特征进行边缘检测,得到所述三维场景的边缘特征;
根据所述物体特征图中的二维物体特征和所述边缘特征,生成平面布局方案和物体三维包围盒方案;
对于每个物体特征,根据所述物体三维包围盒方案选择最优的N个物体三维包围盒方案,N为整数,N>0;
采用无限平面和9自由度参数定义的物体位姿,定义新的参数;
根据所述平面布局方案和所述最优的N个物体三维包围盒方案,获取物体和平面之间的约束,以及点和平面之间的约束;
根据所述物体和平面之间的约束以及点和平面之间的约束,对所述点特征图、所述线特征图、所述面特征图和所述物体特征图进行点关联、线关联、平面关联和物体关联。
在一种可选的方式中,所述对于每个物体特征,根据所述平面布局方案和物体三维包围盒方案选择最优的N个物体三维包围盒方案,进一步包括:
为每个所述物体三维包围盒方案定义一个二进制随机变量xi∈{0,1},所述二进制随机变量用于标记所述物体三维包围盒方案是否被选中;
优化所述二进制随机变量,使得所述如下公式的计算结果为最小值,得到被选中的N个物体三维包围盒方案:
在一种可选的方式中,所述将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果,进一步包括:
根据时间窗口对选取的多帧目标图像的帧数量进行设置,通过Transformer模型或者LSTM长短时记忆网络进行多个第一预测结果的融合。
本发明实施例通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,根据上述特征图得到对所述待重建场景进行重建的第一预测结果,并将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果,提高了三维场景的重建精度。
图5示出了本发明实施例提供的三维场景的重建设备的结构示意图,本发明具体实施例并不对三维场景的重建设备的具体实现做限定。
如图5所示,该三维场景的重建设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述用于三维场景的重建方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机可执行指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。三维场景的重建设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以被处理器402调用使三维场景的重建设备执行以下操作:
获取目标图像,所述目标图像包括待重建场景信息;
基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,所述点特征图包括所述待重建场景中的点信息,所述线特征图包括所述待重建场景中的线信息,所述面特征图包括所述待重建场景中的面信息,所述物体特征图包括所述待重建场景中的物体信息;
根据所述点特征图、所述线特征图、所述面特征图和所述物体特征图,确定各特征图中所述点、线、面和物体之间的关系,得到对所述待重建场景进行重建的第一预测结果;
将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果。
在一种可选的方式中,所述基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,包括:
输入所述目标图像至第一特征提取模型;
确定所述第一特征提取模型中每个节点的卷积核,以及确定节点与节点之间的链接路径;
根据确定的所述每个节点的卷积核和节点与节点之间的链接路径,进行多层卷积运算,得到多个不同尺度的特征图;
将所述不同尺度的特征图输入点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型,得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图。
在一种可选的方式中,所述方法还包括:
在所述点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型的训练过程中,对所述点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型的损失函数进行联合优化。
在一种可选的方式中,所述基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,包括:
输入所述目标图像至第二特征提取模型,得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,所述第二特征提取模型通过对多张标记有点、线、面和物体特征的训练图像进行多任务学习得到。
在一种可选的方式中,所述根据所述点特征图、所述线特征图、所述面特征图和所述物体特征图,确定各特征图中所述点、线、面和物体之间的关系,进一步包括:
基于所述点特征图和所述线特征图中的点特征和线特征进行边缘检测,得到所述三维场景的边缘特征;
根据所述物体特征图中的二维物体特征和所述边缘特征,生成平面布局方案和物体三维包围盒方案;
对于每个物体特征,根据所述物体三维包围盒方案选择最优的N个物体三维包围盒方案,N为整数,N>0;
采用无限平面和9自由度参数定义的物体位姿,定义新的参数;
根据所述平面布局方案和所述最优的N个物体三维包围盒方案,获取物体和平面之间的约束,以及点和平面之间的约束;
根据所述物体和平面之间的约束以及点和平面之间的约束,对所述点特征图、所述线特征图、所述面特征图和所述物体特征图进行点关联、线关联、平面关联和物体关联。
在一种可选的方式中,所述对于每个物体特征,根据所述平面布局方案和物体三维包围盒方案选择最优的N个物体三维包围盒方案,进一步包括:
为每个所述物体三维包围盒方案定义一个二进制随机变量xi∈{0,1},所述二进制随机变量用于标记所述物体三维包围盒方案是否被选中;
优化所述二进制随机变量,使得所述如下公式的计算结果为最小值,得到被选中的N个物体三维包围盒方案:
在一种可选的方式中,所述将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果,进一步包括:
根据时间窗口对选取的多帧目标图像的帧数量进行设置,通过Transformer模型或者LSTM长短时记忆网络进行多个第一预测结果的融合。
本发明实施例通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,根据上述特征图得到对所述待重建场景进行重建的第一预测结果,并将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果,提高了三维场景的重建精度。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在三维场景的重建设备上运行时,使得所述三维场景的重建设备执行上述任意方法实施例中的三维场景的重建方法。
本发明实施例提供一种三维场景的重建装置,用于执行上述三维场景的重建方法。
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使三维场景的重建设备执行上述任意方法实施例中的三维场景的重建方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的三维场景的重建方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种三维场景的重建方法,其特征在于,所述方法包括:
获取目标图像,所述目标图像包括待重建场景信息;
基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,所述点特征图包括所述待重建场景中的点信息,所述线特征图包括所述待重建场景中的线信息,所述面特征图包括所述待重建场景中的面信息,所述物体特征图包括所述待重建场景中的物体信息;
根据所述点特征图、所述线特征图、所述面特征图和所述物体特征图,确定各特征图中所述点、线、面和物体之间的关系,得到对所述待重建场景进行重建的第一预测结果;
将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,包括:
输入所述目标图像至第一特征提取模型;
确定所述第一特征提取模型中每个节点的卷积核,以及确定节点与节点之间的链接路径;
根据确定的所述每个节点的卷积核和节点与节点之间的链接路径,进行多层卷积运算,得到多个不同尺度的特征图;
将所述不同尺度的特征图输入点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型,得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型的训练过程中,对所述点线检测模型、平面检测模型、深度估计模型、法相估计模型和语义分割模型的损失函数进行联合优化。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,包括:
输入所述目标图像至第二特征提取模型,得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,所述第二特征提取模型通过对多张标记有点、线、面和物体特征的训练图像进行多任务学习得到。
5.根据权利要求1所述的方法,其特征在于,所述根据所述点特征图、所述线特征图、所述面特征图和所述物体特征图,确定各特征图中所述点、线、面和物体之间的关系,进一步包括:
基于所述点特征图和所述线特征图中的点特征和线特征进行边缘检测,得到所述三维场景的边缘特征;
根据所述物体特征图中的二维物体特征和所述边缘特征,生成平面布局方案和物体三维包围盒方案;
对于每个物体特征,根据所述物体三维包围盒方案选择最优的N个物体三维包围盒方案,N为整数,N>0;
采用无限平面和9自由度参数定义的物体位姿,定义新的参数;
根据所述平面布局方案和所述最优的N个物体三维包围盒方案,获取物体和平面之间的约束,以及点和平面之间的约束;
根据所述物体和平面之间的约束以及点和平面之间的约束,对所述点特征图、所述线特征图、所述面特征图和所述物体特征图进行点关联、线关联、平面关联和物体关联。
7.根据权利要求1所述的方法,其特征在于,所述将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果,进一步包括:
根据时间窗口对选取的多帧目标图像的帧数量进行设置,通过Transformer模型或者LSTM长短时记忆网络进行多个第一预测结果的融合。
8.一种三维场景的重建装置,其特征在于,所述装置包括:
获取模块,用于获取目标图像,所述目标图像包括待重建场景信息;
得到模块,用于基于所述目标图像,通过多任务学习得到所述待重建场景的点特征图、线特征图、面特征图和物体特征图,所述点特征图包括所述待重建场景中的点信息,所述线特征图包括所述待重建场景中的线信息,所述面特征图包括所述待重建场景中的面信息,所述物体特征图包括所述待重建场景中的物体信息;
确定模块,用于根据所述点特征图、所述线特征图、所述面特征图和所述物体特征图,确定各特征图中所述点、线、面和物体之间的关系,得到对所述待重建场景进行重建的第一预测结果;
融合模块,用于将根据多帧所述目标图像得到的多个所述第一预测结果进行融合,得到第二预测结果。
9.一种三维场景的重建设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7任意一项所述的三维场景的重建方法的操作。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在三维场景的重建设备上运行时,使得三维场景的重建设备执行如权利要求1-7任意一项所述的三维场景的重建方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111329437.6A CN114022630A (zh) | 2021-11-10 | 2021-11-10 | 三维场景的重建方法、装置、设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111329437.6A CN114022630A (zh) | 2021-11-10 | 2021-11-10 | 三维场景的重建方法、装置、设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114022630A true CN114022630A (zh) | 2022-02-08 |
Family
ID=80063249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111329437.6A Pending CN114022630A (zh) | 2021-11-10 | 2021-11-10 | 三维场景的重建方法、装置、设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022630A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115049783A (zh) * | 2022-05-20 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 模型的确定方法、场景重建模型、介质、设备及产品 |
-
2021
- 2021-11-10 CN CN202111329437.6A patent/CN114022630A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115049783A (zh) * | 2022-05-20 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 模型的确定方法、场景重建模型、介质、设备及产品 |
CN115049783B (zh) * | 2022-05-20 | 2024-04-02 | 支付宝(杭州)信息技术有限公司 | 模型的确定方法、场景重建模型、介质、设备及产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hamzah et al. | Literature survey on stereo vision disparity map algorithms | |
CN110119148B (zh) | 一种六自由度姿态估计方法、装置及计算机可读存储介质 | |
CN112991413A (zh) | 自监督深度估测方法和系统 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
Si et al. | Dense depth-map estimation and geometry inference from light fields via global optimization | |
CN111340922A (zh) | 定位与地图构建的方法和电子设备 | |
Lu et al. | PatchMatch filter: edge-aware filtering meets randomized search for visual correspondence | |
WO2023159757A1 (zh) | 视差图生成方法和装置、电子设备及存储介质 | |
WO2023016182A1 (zh) | 位姿确定方法、装置、电子设备和可读存储介质 | |
CN114170290A (zh) | 图像的处理方法及相关设备 | |
Brandt et al. | Efficient binocular stereo correspondence matching with 1-D max-trees | |
CN114022630A (zh) | 三维场景的重建方法、装置、设备和计算机可读存储介质 | |
CN114972492A (zh) | 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质 | |
CN114648639B (zh) | 一种目标车辆的检测方法、系统及装置 | |
Muresan et al. | Stereo and mono depth estimation fusion for an improved and fault tolerant 3D reconstruction | |
CN116246119A (zh) | 3d目标检测方法、电子设备及存储介质 | |
CN113570713B (zh) | 一种面向动态环境的语义地图构建方法及装置 | |
Lai et al. | 3D semantic map construction system based on visual SLAM and CNNs | |
CN116228850A (zh) | 物体姿态估计方法、装置、电子设备及可读存储介质 | |
CN114140660A (zh) | 一种车辆检测方法、装置、设备及介质 | |
Jiang et al. | A dense map optimization method based on common-view geometry | |
CN114049444B (zh) | 一种3d场景生成方法及装置 | |
WO2020227933A1 (zh) | 一种六自由度姿态估计方法、装置及计算机可读存储介质 | |
CN114331827B (zh) | 风格迁移方法、装置、设备和存储介质 | |
Wu et al. | Oriented-linear-tree based cost aggregation for stereo matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |