CN115908723B - 基于区间感知的极线引导多视图立体重建方法 - Google Patents
基于区间感知的极线引导多视图立体重建方法 Download PDFInfo
- Publication number
- CN115908723B CN115908723B CN202310221993.4A CN202310221993A CN115908723B CN 115908723 B CN115908723 B CN 115908723B CN 202310221993 A CN202310221993 A CN 202310221993A CN 115908723 B CN115908723 B CN 115908723B
- Authority
- CN
- China
- Prior art keywords
- round
- target
- depth
- preset
- pixel point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本公开提供了一种基于区间感知的极线引导多视图立体重建方法、装置、设备及存储介质,可以应用于计算机视觉技术领域和多视图立体重建技术领域。该方法包括重复执行以下操作直至满足预设条件:在确定循环轮次不满足预设条件的情况下,提取K个目标图像各自的特征图像得到本轮次的目标分辨率的K个特征图像;将本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块得到本轮次的目标代价体;将本轮次的目标代价体输入三维卷积神经网络得到本轮次的概率量;将本轮次的概率量和本轮次的预设深度信息输入区间感知深度估计模块得到本轮次的预测深度图;将在循环轮次满足预设条件的情况下得到的本轮次的预设深度图确定为目标深度图。
Description
技术领域
本申请涉及计算机视觉技术领域和多视图立体重建技术领域,尤其涉及一种基于区间感知的极线引导多视图立体重建方法。
背景技术
多视图立体重建是计算机视觉中的一个基本主题,旨在从一系列重叠图像中重建场景的密集 3D(3-dimension,三维)表示。由于多视图立体重建技术在自动驾驶、机器人、虚拟现实等领域的广泛应用,近年来受到越来越多的关注。
相关技术中,试图用卷积或可变形卷积聚合的特征来形成代价体积,但并未考虑不同视角间的特征对齐,以这些方式聚合的特征而构造的成本量(即代价体)不够准确,容易受到噪声数据的影响。同时,通常采用回归或分类的方式来预测深度,而回归的方式是间接地学习权重,容易受到无关点的影响;分类的方式会直接限制成本量,但深度假设的精细程度限制了结果的准确性。
发明内容
鉴于上述问题,本申请提供了一种基于区间感知的极线引导多视图立体重建方法、装置、设备和介质。
根据本申请的第一个方面,提供了一种基于区间感知的极线引导多视图立体重建方法,包括重复执行以下操作直至满足预设条件:
在确定循环轮次不满足上述预设条件的情况下,
提取K个目标图像各自的特征图像,得到本轮次的目标分辨率的K个特征图像,其中,上述K个目标图像为从不同视角拍摄同一画面的K个图像,K为大于等于2的整数,上述本轮次的目标分辨率大于上一轮次的目标分辨率;
将上述本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块,得到本轮次的目标代价体上述;
将上述本轮次的目标代价体输入三维卷积神经网络,得到本轮次的概率量;
将上述本轮次的概率量和上述本轮次的预设深度信息输入区间感知深度估计模块,得到本轮次的预测深度图,其中,上述本轮次的预测深度图包括下一轮次的预设深度信息;
将在上述循环轮次满足上述预设条件的情况下得到的上述本轮次的预设深度图确定为目标深度图,以用于实现多视图立体重建。
根据本申请的实施例,上述极线引导代价体模块包括极线引导聚合子模块和可见性融合子模块,上述将上述本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块,得到本轮次的目标代价体,包括:
将上述本轮次的K个特征图像和上述本轮次的预设深度信息输入上述极线引导聚合子模块,得到本轮次的K-1个特征更新图像对;
根据上述本轮次的预设深度信息,对上述本轮次的K-1个特征更新图像对进行可微单应性变换,得到本轮次的K-1个代价体;以及
将上述本轮次的K-1个代价体输入上述可见性融合子模块,得到上述本轮次的目标代价体。
根据本申请的实施例,上述将上述本轮次的K个特征图像和上述本轮次的预设深度信息输入上述极线引导聚合子模块,得到本轮次的K-1个特征更新图像对,包括:
根据上述本轮次的K个特征图像,确定本轮次的K-1个特征图像对,其中,以上述K个特征图像中任意一个特征图像为第一参考图像,其余K-1个特征图像为K-1个第一源图像,上述特征图像对包括上述第一参考图像和上述第一源图像;
根据每个上述特征图像对中的上述第一参考图像和上述第一源图像,确定与上述第一参考图像对应的第一目标点和与上述第一源图像对应的第二目标点,其中,上述第一参考图像是利用第一采集装置采集得到的,上述第一源图像是利用第二采集装置采集得到的,上述第一目标点是上述第一采集装置的光心和上述第二采集装置的光心的连线与上述第一参考图像所在平面相交的点,上述第二目标点是上述第一采集装置的光心和上述第二采集装置的光心的连线与上述第一源图像所在平面相交的点;
针对本轮次的每个上述特征图像对中上述第一参考图像中的每个第一目标像素点,根据上述第一目标点和上述第一目标像素点各自的位置信息,确定上述第一目标像素点的第一对极方向;
针对本轮次的每个上述特征图像对中上述第一源图像中与上述第一目标像素点相匹配的第二目标像素点,根据上述第二目标点和上述第二目标像素点各自的位置信息,确定上述第二目标像素点的第二对极方向;
根据上述第一对极方向,确定以上述第一目标像素点为中心的第一目标区域;
根据上述第二对极方向、上述第一目标区域和深度信息,确定以上述第二目标像素点为中心的第二目标区域,其中,上述深度信息包括根据上述预设深度信息得到的与上述第一目标像素点和上述第二目标像素点分别对应的深度信息;
根据与每个上述特征图像对各自对应的多个上述第一目标区域和多个上述第二目标区域,得到上述本轮次的K-1个特征更新图像对。
根据本申请的实施例,上述特征更新图像对包括第二参考图像和第二源图像上述根据上述本轮次的预设深度信息,对上述本轮次的K-1个特征更新图像对进行可微单应性变换,得到本轮次的K-1个代价体,包括:
针对本轮次的每个上述特征更新图像对中上述第二参考图像中的每个第三目标像素点,根据上述本轮次的预设深度信息,确定与上述第三目标像素点对应的预设深度区域;
对上述预设深度区域进行划分,得到D个深度区域,其中,D为大于等于1的整数;
将上述D个深度区域各自的节点分别投影到上述第二源图像上,得到D个第四目标像素点;
确定上述第三目标像素点与上述D个第四目标像素点各自的相似度,得到D个相似度;
基于每个上述特征更新图像对中与上述第二参考图像中的每个第三目标像素点对应的上述D个相似度,得到上述本轮次的K-1个代价体,其中,上述代价体的深度维度为D。
根据本申请的实施例,上述将上述本轮次的K-1个代价体输入上述可见性融合子模块,得到上述本轮次的目标代价体,包括:
针对本轮次的每个上述代价体,沿上述深度维度确定每个上述第三目标像素点的最高相似度,得到对应的权重图;以及
根据K-1个权重图和与上述K-1个权重图各自对应的代价体,得到上述本轮次的目标代价体。
根据本申请的实施例,上述将上述本轮次的概率量和上述本轮次的预设深度信息输入区间感知深度估计模块,得到本轮次的预测深度图,包括:
根据上述本轮次的概率量,确定每个上述第三目标像素点的第一目标深度值和第二目标深度值,其中,上述本轮次的概率量包括每个上述第三目标像素点的上述D个深度区域和与上述D个深度区域的节点深度值各自对应的概率,上述第一目标深度值和上述第二目标深度值各自对应的概率之和最高,上述第一目标深度值和上述第二目标深度值表征上述预设深度区域中两个连续深度区域的节点深度值,上述预设深度区域是根据上述本轮次的预设深度信息确定的;
根据上述第一目标深度值和上述第二目标深度值以及上述第一目标深度值和上述第二目标深度值各自对应的概率,得到上述第三目标像素点的深度预测值;以及
基于每个上述第三目标像素点的深度预测值,得到上述本轮次的预测深度图。
根据本申请的实施例,上述基于区间感知的极线引导多视图立体重建还包括:对上一轮次的预测深度图进行向上插值,得到上述本轮次的预设深度信息。
本申请的第二方面提供了一种基于区间感知的极线引导多视图立体重建装置,包括:提取模块、第一输入模块、第二输入模块、第三输入模块和确定模块。其中,提取模块,用于在确定循环轮次不满足上述预设条件的情况下,提取K个目标图像各自的特征图像,得到本轮次的目标分辨率的K个特征图像,其中,上述K个目标图像为从不同视角拍摄同一画面的K个图像,K为大于等于2的整数,上述本轮次的目标分辨率大于上一轮次的目标分辨率。第一输入模块,用于将上述本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块,得到本轮次的目标代价体上述。第二输入模块,用于将上述本轮次的目标代价体输入三维卷积神经网络,得到本轮次的概率量。第三输入模块,用于将上述本轮次的概率量和上述本轮次的预设深度信息输入区间感知深度估计模块,得到本轮次的预测深度图,其中,上述本轮次的预测深度图包括下一轮次的预设深度信息。确定模块,用于将在上述循环轮次满足上述预设条件的情况下得到的上述本轮次的预设深度图确定为目标深度图,以用于实现多视图立体重建。
本申请的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
本申请的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
根据本申请提供的基于区间感知的极线引导多视图立体重建方法、装置、设备和介质,在确定循环轮次不满足预设条件的情况下,提取K个目标图像各自的特征图像,得到本轮次的目标分辨率的K个特征图像,其中,本轮次的目标分辨率大于上一轮次的目标分辨率,并将本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块,可以得到本轮次的目标代价体,利用极线引导代价体模块,能够对齐不同视角下的特征图像上的特征;将本轮次的目标代价体输入三维卷积神经网络,可以得到本轮次的概率量,再将本轮次的概率量和本轮次的预设深度信息输入区间感知深度估计模块,利用区间感知深度估计模块,可以得到本轮次的预测深度图,能够准确地感知包含真实深度区间的上下边界,并在亚像素级上回归预测,同时不受无关点的影响,其中,本轮次的预测深度图包括下一轮次的预设深度信息,最后将在循环轮次满足预设条件的情况下得到的本轮次的预设深度图确定为目标深度图,以用于实现多视图立体重建,使得在面对真实场景遮挡,光照变化等挑战的情况下,都能快速高效获得精准的多视图立体重建结果。
附图说明
通过以下参照附图对本申请实施例的描述,本申请的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示出了根据本申请实施例的基于区间感知的极线引导多视图立体重建方法的应用场景图。
图2示出了根据本申请实施例的基于区间感知的极线引导多视图立体重建方法的流程图。
图3示出了根据本申请实施例的得到本轮次的K-1个特征更新图像对的流程图。
图4示出了根据本申请实施例的极线引导特征聚合的结构示意图。
图5示出了根据本申请实施例的得到本轮次的K-1个代价体的流程图。
图6示出了根据本申请实施例的得到本轮次的预测深度图的流程图。
图7示出了根据本申请实施例的基于区间感知的极线引导多视图立体重建方法的示意图。
图8示出了根据本申请实施例的得到真实概率分布的示意图。
图9示出了根据本申请实施例的基于区间感知的极线引导多视图立体重建装置的结构框图。
图10示出了根据本申请实施例的适于实现基于区间感知的极线引导多视图立体重建方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本申请的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本申请的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本申请实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本申请。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本申请的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本申请的技术方案中,对数据的获取、收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在实施本申请的过程中发现,传统的多视图立体重建方法根据输出数据格式主要分为四类:基于体素的,基于点云的,基于网格的和基于深度图的。基于体素的方法将3D空间初始化为常规的3D体积网格(称为体素),然后确定体素是否位于对象表面,但由于空间离散化误差大、内存消耗大,这些方法难以重构大规模场景。基于点云的方法通常在传播策略中利用稀疏的三维点云来逐步增强重建结果,但关键点的传播通常是按顺序处理的,需要大量的时间。基于网格的方法使用多边形网格来拟合三维空间中的表面,通常需要对表面进行良好的先验假设。相比之下,基于深度图的方法最为简洁和灵活,不是在3D空间操作,而是估计所有图像的深度图,然后执行深度融合来重建3D模型。此外,深度图可以转换为点云、体素和网格作为中间表示。尽管传统方法取得了很好的效果,但它们仍然面临着一些现实世界的挑战,例如遮挡、光照变化、无纹理区域和非朗伯表面。相关技术中,试图用卷积或可变形卷积聚合的特征来形成代价体积,但并未考虑不同视角间的特征对齐,以这些方式聚合的特征而构造的成本量不够准确,容易受到噪声数据的影响。同时,通常采用回归或分类的方式来预测深度,回归的方式是间接地学习权重,容易受到无关点的影响;分类的方式会直接限制成本量,但深度假设的精细程度限制了结果的准确性。
为此,本申请的实施例提供了一种基于区间感知的极线引导多视图立体重建方法,包括重复执行以下操作直至满足预设条件:在确定循环轮次不满足预设条件的情况下,提取K个目标图像各自的特征图像,得到本轮次的目标分辨率的K个特征图像,其中,K个目标图像为从不同视角拍摄同一画面的K个图像,K为大于等于2的整数,本轮次的目标分辨率大于上一轮次的目标分辨率;将本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块,得到本轮次的目标代价体;将本轮次的目标代价体输入三维卷积神经网络,得到本轮次的概率量;将本轮次的概率量和本轮次的预设深度信息输入区间感知深度估计模块,得到本轮次的预测深度图,其中,本轮次的预测深度图包括下一轮次的预设深度信息;将在循环轮次满足预设条件的情况下得到的本轮次的预设深度图确定为目标深度图,以用于实现多视角立体重建。
图1示意性示出了根据本申请实施例的基于区间感知的极线引导多视图立体重建的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用第一终端设备101、第二终端设备102、第三终端设备103通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
例如,可以通过服务器105在确定循环轮次不满足预设条件的情况下,提取K个目标图像各自的特征图像,得到本轮次的目标分辨率的K个特征图像,其中,本轮次的目标分辨率大于上一轮次的目标分辨率,并将本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块,得到本轮次的目标代价体,并将本轮次的目标代价体输入三维卷积神经网络,得到本轮次的概率量,再将本轮次的概率量和本轮次的预设深度信息输入区间感知深度估计模块,得到本轮次的预测深度图,其中,本轮次的预测深度图包括下一轮次的预设深度信息,最后将在循环轮次满足预设条件的情况下得到的本轮次的预设深度图确定为目标深度图,以用于实现多视角立体重建。
需要说明的是,本申请实施例所提供的基于区间感知的极线引导多视图立体重建方法一般可以由服务器105执行。相应地,本申请实施例所提供的基于区间感知的极线引导多视图立体重建装置一般可以设置于服务器105中。本申请实施例所提供的基于区间感知的极线引导多视图立体重建方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本申请实施例所提供的基于区间感知的极线引导多视图立体重建装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图8对公开实施例的基于区间感知的极线引导多视图立体重建方法进行详细描述。
图2示意性示出了根据本申请实施例的基于区间感知的极线引导多视图立体重建方法的流程图。
如图2所示,该方法200包括操作S210~操作S260。
在操作S210,提取K个目标图像各自的特征图像,得到本轮次的目标分辨率的K个特征图像。
根据本申请的实施例,K个目标图像为从不同视角拍摄同一画面的K个图像,K为大于等于2的整数,本轮次的目标分辨率大于上一轮次的目标分辨率。
根据本申请的实施例,可以通过CNN Backbone(Convolutional Neural NetworkBackbone,卷积神经网络的主干网络)对图像进行特征提取,也可以通过FPN(FeaturePyramid Network,特征金字塔网络)对图像进行特征提取。
在操作S220,将本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块,得到本轮次的目标代价体。
根据本申请的实施例,预设深度信息可以表征采集装置的光心和拍摄画面上与特征图像中像素点对应的点之间的距离。预设深度信息可以包括特征图像中每个像素点对应的预测深度值。第一轮次的预设深度信息是根据拍摄目标图像的采集装置与拍摄画面之间的距离估计得到的,第一轮次的特征图像的预设深度信息是相同的。例如,拍摄目标图像的采集装置与拍摄画面之间的距离估计在9米到10米之间,选择距离最远估计值10米作为第一轮次的预设深度信息,可以使得拍摄画面上的所有点都被包括在内,对于参与第一轮次的特征图像的预设深度信息是相同的,即特征图像上的每个像素点对应的均为10米。除去第一轮次,本轮次的预设深度信息是根据上一轮次的预测深度图得到的。
在操作S230,将本轮次的目标代价体输入三维卷积神经网络,得到本轮次的概率量。
根据本申请的实施例,本轮次的概率量可以包括每个像素点的D个深度区域和与D个深度区域的节点深度值各自对应的概率。
根据本申请的实施例,将本轮次的目标代价体输入三维卷积神经网络,经过一系列3D卷积正则化处理,最后沿着深度维度做一个softmax(归一化指数函数)处理,可以得到本轮次的概率量。
在操作S240,将本轮次的概率量和本轮次的预设深度信息输入区间感知深度估计模块,得到本轮次的预测深度图。
根据本申请的实施例,本轮次的预测深度图可以包括下一轮次的预设深度信息。根据本轮次的预设深度信息可以得到每个像素点对应的预测深度值,根据预测深度值可以确定与像素点对应的预设深度区域,例如,根据本轮次的预设深度信息可以得到一个像素点对应的预测深度值为6,根据该预测深度值可以确定该像素点对应的预设深度区域为5到7。根据概率量,可以得到该像素点的D个深度区域和与D个深度区域的节点深度值各自对应的概率,从而可以得到像素点本轮次的预测深度值,如6.5。基于每个像素点,都能够得到各自对应的本轮次的预测深度值,因此,可以得到本轮次的预测深度图。
在操作S250,判断循环轮次是否满足预设条件。
根据本申请的实施例,在循环轮次不满足预设条件的情况下,执行操作S210~操作S240;在循环轮次满足预设条件的情况下,执行操作S260。
在操作S260,将在循环轮次满足预设条件的情况下得到的本轮次的预设深度图确定为目标深度图,以用于实现多视图立体重建。
根据本申请的实施例,预设条件可以表征循环次数,在循环次数为3次的情况下,使得在达到较好效果的同时处理时间尽可能的少。
根据本申请的实施例,在确定循环轮次不满足预设条件的情况下,提取K个目标图像各自的特征图像,得到本轮次的目标分辨率的K个特征图像,其中,本轮次的目标分辨率大于上一轮次的目标分辨率,将本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块,可以得到本轮次的目标代价体,利用极线引导代价体模块,能够对齐不同视角下的特征图像上的特征;将本轮次的目标代价体输入三维卷积神经网络,可以得到本轮次的概率量,再将本轮次的概率量和本轮次的预设深度信息输入区间感知深度估计模块,利用区间感知深度估计模块,可以得到本轮次的预测深度图,能够准确地感知包含真实深度区间的上下边界,并在亚像素级上回归预测,同时不受无关点的影响,其中,本轮次的预测深度图包括下一轮次的预设深度信息,最后将在循环轮次满足预设条件的情况下得到的本轮次的预设深度图确定为目标深度图,以用于实现多视图立体重建,使得在面对真实场景遮挡,光照变化等挑战的情况下,都能快速高效获得精准的点云重建结果。
根据本申请的实施例,将本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块,得到本轮次的目标代价体,包括:将本轮次的K个特征图像和本轮次的预设深度信息输入极线引导聚合子模块,得到本轮次的K-1个特征更新图像对;根据本轮次的预设深度信息,对本轮次的K-1个特征更新图像对进行可微单应性变换,得到本轮次的K-1个代价体;将本轮次的K-1个代价体输入可见性融合子模块,得到本轮次的目标代价体。
根据本申请的实施例,极线引导代价体模块可以包括极线引导聚合子模块和可见性融合子模块。
根据本申请的实施例,将本轮次的K个特征图像和本轮次的预设深度信息输入极线引导聚合子模块,能够对齐不同视角下的特征图像上的特征,从而得到本轮次的K-1个特征更新图像对;根据本轮次的预设深度信息,对本轮次的K-1个特征更新图像对进行可微单应性变换,使得一张特征图像通过深度假设,将特征变换到另一张特征图像上,从而得到本轮次的K-1个代价体;将本轮次的K-1个代价体输入可见性融合子模块,对本轮次的K-1个代价体进行加权和的处理,可以得到本轮次的目标代价体。
图3示意性示出了根据本申请实施例的得到本轮次的K-1个特征更新图像对的流程图。
如图3所示,该方法300包括操作S310~操作S370。
在操作S310,根据本轮次的K个特征图像,确定本轮次的K-1个特征图像对。
根据本申请的实施例,以K个特征图像中任意一个特征图像为第一参考图像,其余K-1个特征图像为K-1个第一源图像,特征图像对可以包括第一参考图像和第一源图像。例如,在K=5的情况下,选择5张特征图像中的任意一张特征图像作为第一参考图像,剩余4张特征图像作为第一源图像,4张第一源图像分别与第一参考图像组成一个特征图像对,可以得到4个特征图像对。
在操作S320,根据每个特征图像对中的第一参考图像和第一源图像,确定与第一参考图像对应的第一目标点和与第一源图像对应的第二目标点。
根据本申请的实施例,第一参考图像是利用第一采集装置采集得到的,第一源图像是利用第二采集装置采集得到的,第一目标点是第一采集装置的光心和第二采集装置的光心的连线与第一参考图像所在平面相交的点,第二目标点是第一采集装置的光心和第二采集装置的光心的连线与第一源图像所在平面相交的点。
根据本申请的实施例,采集装置可以包括相机。第一参考图像上的所有第一目标像素点均对应同一个第一目标点;第一源图像上的所有第二目标像素点均对应同一个第二目标点。
在操作S330,针对本轮次的每个特征图像对中第一参考图像中的每个第一目标像素点,根据第一目标点和第一目标像素点各自的位置信息,确定第一目标像素点的第一对极方向。
根据本申请的实施例,位置信息可以表征图像坐标。根据第一采集装置的装置内参以及第一参考图像和第一源图像的相对位姿,可以得到第一目标点的图像坐标。根据第一目标点和第一目标像素点各自的图像坐标,可以确定第一目标点与第一目标像素点所在直线的斜率,该斜率可以用于表示第一对极方向。第一目标点与第一目标像素点所在直线可以表示第一对极线。
在操作S340,针对本轮次的每个特征图像对中第一源图像中与第一目标像素点相匹配的第二目标像素点,根据第二目标点和第二目标像素点各自的位置信息,确定第二目标像素点的第二对极方向。
根据本申请的实施例,根据第二采集装置的装置内参以及第一参考图像和第一源图像的相对位姿,可以得到第二目标点的图像坐标。根据第二目标点和第二目标像素点各自的图像坐标,可以确定第二目标点与第二目标像素点所在直线的斜率,该斜率可以用于表示第二对极方向。第二目标点与第二目标像素点所在直线可以表示第二对极线。
在操作S350,根据第一对极方向,确定以第一目标像素点为中心的第一目标区域。
根据本申请的实施例,根据第一对极方向,可以确定与第一对极线正交方向的斜率,根据这两个斜率,可以对第一参考图像中以第一目标像素点为中心的初始第一目标区域进行一定程度上的旋转,得到第一目标区域,其中,第一目标区域中相邻像素点之间的距离是给定的。
在操作S360,根据第二对极方向、第一目标区域和深度信息,确定以第二目标像素点为中心的第二目标区域。
根据本申请的实施例,深度信息可以包括根据预设深度信息得到的与第一目标像素点和第二目标像素点分别对应的深度信息。
根据本申请的实施例,根据第二对极方向,可以确定与第二对极线正交方向的斜率,根据这两个斜率,可以对第一源图像中以第二目标像素点为中心的初始第二目标区域进行一定程度上的旋转,并根据第一目标区域的大小和深度信息,对初始第二目标区域进行一定程度上的尺度变化,得到第二目标区域。
根据本申请的实施例,根据第一目标像素点和第二目标像素点各自深度信息的比值以及第一目标区域中相邻像素点之间的距离,可以确定第二目标区域中相邻像素点之间的距离。
根据本申请的实施例,第一轮次的预设深度信息是根据拍摄目标图像的采集装置与拍摄画面之间的距离估计得到的,且第一轮次的特征图像的预设深度信息是相同的,因此,在第一轮次的过程中,第一目标区域中相邻像素点之间的距离与第二目标区域中相邻像素点之间的距离相同,不需要对第一参考图像和第一源图像进行尺度变化处理。
在操作S370,根据与每个特征图像对各自对应的多个第一目标区域和多个第二目标区域,得到本轮次的K-1个特征更新图像对。
根据本申请的实施例,针对每个特征图像对中第一参考图像中的每个第一目标像素点以及第一源图像中的每个第二目标像素点,都可以得到各自对应的第一目标区域和第二目标区域,因此,基于与每个特征图像对各自对应的多个第一目标区域和多个第二目标区域,可以得到本轮次的K-1个特征更新图像对。
根据本申请的实施例,将本轮次的K个特征图像和本轮次的预设深度信息输入极线引导聚合子模块,根据每个特征图像对中所有第一目标像素点和第二目标像素点各自的对极方向和深度信息,对每个特征图像对中的第一参考图像和第一源图像进行旋转以及尺度变化处理,可以尽量使得不同视角下的第一参考图像和第一源图像上相匹配的特征点对齐,从而得到本轮次的K-1个特征更新图像对。
图4示意性示出了根据本申请实施例的极线引导特征聚合策略的结构示意图。
如图4所示,Ref.Image可以表示第一参考图像I0,Src.Image可以表示第一源图像Ii,第一参考图像I0是利用第一采集装置采集得到的,第一源图像Ii是利用第二采集装置采集得到的,M可以表示第一采集装置的光心,N可以表示第二采集装置的光心,第一目标像素点A0和第二目标像素点Ai可以表示一对匹配点。N0可以表示与第一参考图像对应的第一目标点,第一目标点N0是第二采集装置的光心N投影到第一参考图像I0所在平面上的投影点,N0可以表示与第一参考图像对应的第一目标点,第二目标点Mi是第一采集装置的光心M投影到第一源图像Ii所在平面上的投影点。以第一参考图像I0和第一源图像Ii来描述极线引导特征聚合的过程。
根据本申请的实施例,以第一参考图像I0中任意一个第一目标像素点A0为例,可以根据计算得到的A0N0的斜率来表示第一目标像素点A0的第一对极方向。
根据本申请的实施例,在采集装置为相机的情况下,第一采集装置可以表示第一相机,第二采集装置可以表示第二相机。第一目标点N0对应第一相机的坐标可以表示为如下公式(1)。
其中,可以表示N0的相机坐标,/>,K0可以表示第一相机的相机内参,Ri可以表示第二相机坐标系相对世界坐标系的旋转矩阵,ti可以表示第二相机坐标系相对世界坐标系的平移向量,R0可以表示第一相机坐标系相对世界坐标系的旋转矩阵,t0可以表示第一相机坐标系相对世界坐标系的平移向量。
根据本申请的实施例,根据上述公式(1),第一目标点N0在第一参考图像所在平面上的坐标可以表示为如下公式(2)。
根据本申请的实施例,根据上述公式(1)和公式(2),A0N0的斜率可以表示为如下公式(3)。
根据本申请的实施例,根据平面几何知识,根据A0N0的斜率,可以推导出与对极线A0N0正交方向的斜率为。根据斜率/>和/>,可以确定沿A0对极线的网格,即以第一目标像素点A0为中心的第一目标区域,其中,第一目标区域中相邻点之间的距离可以用s0表示,s0是预先给定的。
根据本申请的实施例,以第一源图像Ii为例,对于第一源图像上与第一目标像素点相匹配的第二目标像素点Ai,可以根据计算得到的AiMi的斜率来表示第二目标像素点Ai的第二对极方向。
根据本申请的实施例,第二目标点Mi对应第二相机的坐标可以表示为如下公式(4)。
其中,可以表示Mi的相机坐标,/>,Ki可以表示第二相机的相机内参,Ri可以表示第二相机坐标系相对世界坐标系的旋转矩阵,ti可以表示第二相机坐标系相对世界坐标系的平移向量,R0可以表示第一相机坐标系相对世界坐标系的旋转矩阵,t0可以表示第一相机坐标系相对世界坐标系的平移向量。
根据本申请的实施例,根据上述公式(4),第二目标点Mi在第一源图像所在平面上的坐标可以表示为如下公式(5)。
根据本申请的实施例,根据上述公式(4)和公式(5),AiMi的斜率可以表示为如下公式(6)。
根据本申请的实施例,根据平面几何知识,根据AiMi的斜率,可以推导出与对极线AiMi正交方向的斜率为。根据斜率/>和/>,可以确定沿Ai对极线的网格,即以第二目标像素点Ai为中心的初始第二目标区域,其中,第二目标区域中相邻点之间的距离可以用si表示。
根据本申请的实施例,为考虑特征图像尺度放缩的原因,令s0和si分别表示A0和Ai的网格中相邻点之间的距离。它们应满足的等式可以表示为如下公式(7)。
其中,d0和di可以分别表示A距离第一相机光心M和第二相机光心N的深度,A可以表示在拍摄画面上与第一目标像素点和第二目标像素点这对匹配点相对应的点。
根据本申请的实施例,相机的焦距是比较短的,可知,MA0的距离也是比较短的,MA和AA0的距离的差值比较小,因此,一定程度上,d0也可以表示A距离第一目标像素点A0的深度。
根据本申请的实施例,可以根据第一对极方向和第二对极方向对第一目标区域和初始第二目标区域中的像素点进行旋转。可以根据s0、d0和di,即公式(7),调整初始第二目标区域中相邻像素点之间的距离,即初始第二目标区域的尺度大小。
根据本申请的实施例,在拍摄图像的过程中,会存在旋转角度以及尺度大小的影响,使得第一参考图像和第一源图像上相匹配的特征点无法做到一一对应。因此,对第一参考图像中的多个第一目标区域和第一源图像中的多个第二目标区域进行旋转以及尺度变化处理,可以尽量使得第一参考图像和第一源图像上相匹配的特征点对齐。例如,通过旋转以及尺度变化,尽量使得图4中3×3的第一目标区域(左图)与3×3的第二目标区域(右图)中相匹配的特征点对齐起来,使得提取的特征更好。
根据本申请的实施例,以图4中的B0为例进行证明,可以得到,与A0N0这条对极线上任意一个第一目标像素点B0相匹配的第二目标像素点Bi在AiMi这条对极线上,其中,B可以表示在拍摄画面上与B0和Bi这对匹配点对应的点。
图5示意性示出了根据本申请实施例的得到本轮次的K-1个代价体的流程图。
如图5所示,该方法500包括操作S510~操作S550。
在操作S510,针对本轮次的每个特征更新图像对中第二参考图像中的每个第三目标像素点,根据本轮次的预设深度信息,确定与第三目标像素点对应的预设深度区域。
根据本申请的实施例,特征更新图像对可以包括第二参考图像和第二源图像。第一轮次的预设深度信息是根据拍摄目标图像的采集装置与拍摄画面之间的距离估计得到的,例如,选择10米作为第一轮次的预设深度信息,认为第二参考图像上的每个像素点和拍摄画面上与像素点对应的点之间的距离均为10米,即每个第三目标像素点对应的深度预测值为10米,从而可以确定与第三目标像素点对应的预设深度区域为10米。
根据本申请的实施例,在本轮次的预设深度信息是根据上一轮次的预测深度图得到的情况下,根据本轮次的预设深度信息,可以得到第三目标像素点的深度预测值,从而可以确定与第三目标像素点对应的预设深度区域。以一个第三目标像素点为例,根据本轮次的预设深度信息可以得到该第三目标像素点对应的深度预测值为5米,根据该第三目标像素点对应的深度预测值为5,确定与该第三目标像素点对应的预设深度区域为4到6。
在操作S520,对预设深度区域进行划分,得到D个深度区域。
根据本申请实施例,D为大于等于1的整数。
根据本申请的实施例,第一轮次的预设深度信息是根据拍摄目标图像的采集装置与拍摄画面之间的距离估计得到的,例如,与第三目标像素点对应的预设深度区域为0~10米,可以以1米为区间对该预设深度区域进行划分,可以得到10个深度区域,如0~1,1~2,2~3,…,9~10。
根据本申请的实施例,在本轮次的预设深度信息是根据上一轮次的预测深度图得到的情况下,例如,与该第三目标像素点对应的预设深度区域为4~6米,可以以0.5米为区间对该深度区域进行划分,得到4个深度区域,如4~4.5,4.5~5,5~5.5,5.5~6。
根据本申请的实施例,本轮次的区间划分比上一轮次的区间划分更精细化,例如,上一轮次以0.5为区间进行划分,本轮次可以以0.2为区间进行划分。
在操作S530,将D个深度区域各自的节点分别投影到第二源图像上,得到D个第四目标像素点。
根据本申请的实施例,将D个深度区域各自的节点分别投影到第二源图像上,可以得到D个第四目标像素点,其中,D个深度区域各自的节点为假设深度。例如,存在4个深度区域,如4~4.5,4.5~5,5~5.5,5.5~6,将4~4.5深度区域的节点,即深度值为4.5的节点,投影到第二源图像上,可以在第二源图像上找到与深度值为4.5的节点对应的第四目标像素点。
在操作S540,确定第三目标像素点与D个第四目标像素点各自的相似度,得到D个相似度。
根据本申请的实施例,对得到的D个第四目标像素点各自的特征全部提取出来,再分别与第三目标像素点的特征计算相似度,可以得到D个相似度。例如,存在4个深度区域,如4~4.5,4.5~5,5~5.5,5.5~6,可以计算得到4个相似度,4~4.5深度区域的相似度为0.2,4.5~5深度区域的相似度为0.3,5~5.5深度区域的相似度为0.4,5.5~6深度区域的相似度为0.1。
在操作S550,基于每个特征更新图像对中与第二参考图像中的每个第三目标像素点对应的D个相似度,得到本轮次的K-1个代价体。
根据本申请的实施例,代价体的深度维度为D。
根据本申请的实施例,根据特征更新图像对中与第二参考图像中的每个第三目标像素点对应的D个相似度,可以得到HW×D的代价体,其中,H可以表示特征图的高,W可以表示特征图的宽,D可以表示特征图的深度维度。
根据本申请的实施例,代价体可以包括第二参考图像中每个第三目标像素点的D个深度区域以及与D个深度区域各自对应的相似度。
根据本申请的实施例,对特征更新图像对进行可微单应性变换,使得第二源图像通过深度假设,将特征变换到第二参考图像上,从而得到本轮次的K-1个代价体。
根据本申请的实施例,将本轮次的K-1个代价体输入可见性融合子模块,得到本轮次的目标代价体,包括:针对本轮次的每个代价体,沿深度维度确定每个第三目标像素点的最高相似度,得到对应的权重图;以及根据K-1个权重图和与K-1个权重图各自对应的代价体,得到本轮次的目标代价体。
根据本申请的实施例,针对本轮次的每个代价体,沿深度维度确定每个第三目标像素点的最高相似度,可以得到对应的权重图,例如,针对一个第三目标像素点,存在4个深度区域,如4~4.5,4.5~5,5~5.5,5.5~6,根据对应的代价体可以得到4个相似度,4~4.5深度区域的相似度为0.2,4.5~5深度区域的相似度为0.3,5~5.5深度区域的相似度为0.4,5.5~6深度区域的相似度为0.1,沿深度维度可以确定该第三目标像素点在4.5~5深度区域的相似度0.4为最高相似度。权重图可以包括每个第三目标像素点的最高相似度以及与最高相似度对应的深度区域。
根据本申请的实施例,针对每个权重图,将权重图和与权重图对应的代价体相乘,可以得到一个新的HW×D的代价体。将得到的K-1个新的HW×D的代价体相加,可以得到本轮次的目标代价体。例如,针对代价体中的一个第三目标像素点,该第三目标像素点在4~4.5深度区域的相似度为0.2,在4.5~5深度区域的相似度为0.3,在5~5.5深度区域的相似度为0.4,在5.5~6深度区域的相似度为0.1;针对权重图中的该第三目标像素点,该第三目标像素点在4.5~5深度区域的相似度0.4为最高相似度,将0.2、0.3、0.4和0.1分别与0.4相乘,得到0.08、0.12、0.16和0.04,基于每个第三目标像素点,可以得到一个新的HW×D的代价体。另一个新的代价体对应的第三目标像素点对应的值分别为0.05、0.25、0.1和0.1,将0.08、0.12、0.16和0.04与0.05、0.25、0.1和0.1分别对应相加,得到0.13、0.37、0.26和0.14,并基于K-1个权重图中的每个第三目标像素点,可以得到本轮次的目标代价体。
根据本申请的实施例,将本轮次的K-1个代价体输入可见性融合子模块,通过确定每个第三目标像素点的最高相似度,可以得到对应的权重图,并将K-1个权重图和与K-1个权重图各自对应的代价体进行加权和处理,可以得到本轮次的目标代价体。
根据本申请的实施例,为了考虑可见性信息,需要成对地计算几个成本量。根据可微单应性变换使得第二源图像通过假设深度,将特征变换到第二参考图像上,可以表示为如下公式(8)。
其中,可以表示对应于第二源图像上假设深度d处的第三目标像素点p的变换像素,Ki可以表示第二源图像的内参矩阵,K0可以表示第二参考图像的内参矩阵,R0,i和T0,i可以分别表示第二参考图像和第二源图像之间的相对旋转矩阵和变换向量。
根据本申请的实施例,可以利用双线性插值来捕捉这些变换像素的特征。成对成本量可以计算为如下公式(9)。
根据本申请的实施例,基于这些成对的成本量,相应的可见性权重图可以表示为如下公式(10)。
其中,vk(p)可以表示从第二源图像的角度来看第三目标像素点p的可见性权重。
根据本申请的实施例,根据N个成对成本量与可见性权重图的加权和,得到最终成本量,可以表示为如下公式(11)。
根据本申请的实施例,N=K-1,最终成本量可以表征目标代价体。
图6示意性示出了根据本申请实施例的得到本轮次的预测深度图的流程图。
如图6所示,该方法600包括操作S610~操作S630。
在操作S610,根据本轮次的概率量,确定每个第三目标像素点的第一目标深度值和第二目标深度值。
根据本申请的实施例,本轮次的概率量P可以包括每个第三目标像素点的D个深度区域和与D个深度区域的节点深度值各自对应的概率,第一目标深度值和第二目标深度值各自对应的概率之和最高,第一目标深度值和第二目标深度值可以表征预设深度区域中两个连续深度区域的节点深度值,预设深度区域是根据本轮次的预设深度信息确定的。
根据本申请的实施例,例如,根据概率量,可以得到一个第三目标像素点在4~4.5深度区域的概率为0.2,即第三目标像素点在深度值为4.5的情况下的概率为0.2,在4.5~5深度区域的概率为0.3,在5~5.5深度区域的概率为0.4,在5.5~6深度区域的概率为0.1,根据第三目标像素点在深度值为5和5.5的情况下,两个深度值对应的概率之和最高,因此,将深度值5和5.5分别确定为第一目标深度值和第二目标深度值。
其中,Pi可以表示深度值di对应的概率,Pi+1可以表示深度值di+1对应的概率,将预设深度区域划分为D份,D个深度区域的节点深度值依次为d0,d1,…,di,di+1,…,dD,d0可以表示预设深度区域的最小深度值,dD可以表示预设深度区域的最大深度值。
根据本申请的实施例,根据概率之和的最高值i0可以确定第一目标深度值di和第二目标深度值di+1。
在操作S620,根据第一目标深度值和第二目标深度值以及第一目标深度值和第二目标深度值各自对应的概率,得到第三目标像素点的深度预测值。
根据本申请的实施例,得到第三目标像素点的深度预测值可以表示为如下公式(13)。
其中,di和di+1可以分别表示第一目标深度值和第二目标深度值, Pi可以表示第一目标深度值di对应的概率,Pi+1可以表示第二目标深度值di+1对应的概率。
在操作S630,基于每个第三目标像素点的深度预测值,得到本轮次的预测深度图。
根据本申请的实施例,针对每个第三目标像素点,都可以得到对应的深度预测值,因此,基于每个第三目标像素点的深度预测值,可以得到本轮次的预测深度图。
根据本申请的实施例,将本轮次的概率量和本轮次的预设深度信息输入区间感知深度估计模块,利用概率量可以得到每个第三目标像素点对应概率之和最高的第一目标深度值和第二目标深度值,并根据第一目标深度值和第二目标深度值以及第一目标深度值和第二目标深度值各自对应的概率,可以得到本轮次的预测深度图,能够准确地感知包含真实深度区间的上下边界,并在亚像素级上回归预测,同时不受无关点的影响,同时,根据本轮次的预测深度图可以得到用于下一轮次的预设深度信息。
根据本申请的实施例,上述基于区间感知的极线引导多视图立体重建方法还包括:对上一轮次的预测深度图进行向上插值,得到本轮次的预设深度信息。
根据本申请的实施例,本轮次的目标分辨率大于上一轮次的目标分辨率,对上一轮次的预测深度图进行向上插值,可以得到与本轮次目标分辨率相同的预设深度信息,用于确定预设深度区域。
图7示意性示出了根据本申请实施例的基于区间感知的极线引导多视图立体重建方法的示意图。
如图7所示,该示意图700主要包括极线引导代价体模块(EGVC,Epipolar-GuidedVolume Construction)720、760、780和区间感知深度估计模块(IADE,Interval-AweraDepth Estimation)750、770、790。极线引导代价体模块720可以包括极线引导聚合子模块730和可见性融合子模块740。在循环次数为3次的情况下,可以使得在达到较好效果的同时处理时间尽可能的少,因此,以3次循环轮次为例。
根据本申请的实施例,对K个目标图像710进行特征提取可以得到各自目标分辨率下的K个特征图像711、712和713。K个特征图像711用于第一轮次,K个特征图像712用于第二轮次,K个特征图像713用于第三轮次,且K个特征图像713的目标分辨率大于K个特征图像712的目标分辨率,K个特征图像712的目标分辨率大于K个特征图像711的目标分辨率。
根据本申请的实施例,对于第一轮次,将同一目标分辨率下的K个特征图像711输入极线引导代价体模块720中,则K个特征图像711先进入极线引导聚合子模块730中,执行操作S310,可以得到以K个特征图像711中的任意一个特征图像作为第一参考图像711_0,其余K-1个特征图像分别作为第一源图像711_1、711_2…711_N的K-1个特征图像对,其中,N=K-1,再执行操作S320~操作S370,可以得到K-1个特征更新图像对,即N个特征更新图像对。
根据本申请的实施例,对根据第一参考图像711_0和第一源图像711_1得到的特征更新图像对进行可微单应性变换730_1,通过执行操作S510~操作S550,可以得到代价体740_1;对根据第一参考图像711_0和第一源图像711_2得到的特征更新图像对进行可微单应性变换730_2,通过执行操作S510~操作S550,可以得到代价体740_2;…对根据第一参考图像711_0和第一源图像711_N得到的特征更新图像对进行可微单应性变换730_N,通过执行操作S510~操作S550,可以得到代价体740_N。
根据本申请的实施例,将得到的N个代价体740_1、740_2…740_N输入可见性融合子模块740中,针对每个代价体,沿深度维度确定每个第三目标像素点的最高相似度,即通过公式(10),可以得到对应的权重图,其中,代价体740_1对应的权重图为741_1,代价体740_2对应的权重图为741_2,…,代价体740_N对应的权重图为741_N;将代价体740_1、740_2…740_N和各自分别对应的权重图741_1、741_2…741_N进行相乘再加权处理,即通过公式(11),可以得到目标代价体743。
根据本申请的实施例,将目标代价体743输入三维卷积神经网络744中,执行操作S230,可以得到概率量745。
根据本申请的实施例,将概率量745输入区间感知深度估计模块750中,根据概率量745中每个第三目标像素点的概率分布751,即执行操作S610~操作S630,可以得到第一轮次的预测深度图752。
根据本申请的实施例,对于第二轮次,将同一目标分辨率下的K个特征图像712输入极线引导代价体模块760中,执行操作S220,可以得到第二轮次的目标代价体,其中,第二轮次的预设深度信息是根据对第一轮次的预测深度图752进行向上插值得到的,使第一轮次得到的预测深度图752的目标分辨率与第二轮次的目标分辨率相同。将目标代价体输入三维卷积神经网络761中,执行操作S230,可以得到概率量762,再将概率量762输入区间感知深度估计模块770中,执行操作S610~操作S630,可以得到第二轮次的预测深度图771,其中,根据第二轮次的预设深度信息可以得到第三目标像素点的预设深度区域。
根据本申请的实施例,对于第三轮次,将同一目标分辨率下的K个特征图像713输入极线引导代价体模块780中,执行操作S220,可以得到第三轮次的目标代价体,其中,第三轮次的预设深度信息是根据对第二轮次的预测深度图771进行向上插值得到的,使第二轮次得到的预测深度图771的目标分辨率与第三轮次的目标分辨率相同。将目标代价体输入三维卷积神经网络781中,执行操作S230,可以得到概率量782,再将概率量782输入区间感知深度估计模块790中,执行操作S610~操作S630,可以得到第三轮次的预测深度图791,其中,根据第三轮次的预设深度信息可以得到第三目标像素点的预设深度区域。
根据本申请的实施例,将循环轮次满足预设条件的预测深度图791确定为目标深度图,以用于实现多视图立体重建,其中,预设条件可以表示循环轮次为3。
根据本申请的实施例,在对区间感知深度估计模块750、770和790进行训练的过程中,深度图753、772、792分别可以表示训练过程中第一轮次、第二轮次和第三轮次的真实深度图,其中,真实深度图753、772、792是相应轮次的目标分辨率下的真实深度图。
根据本申请的实施例,对于真实深度图,获取从不同视角拍摄与真实深度图对应的同一画面的K个图像,用于训练过程中。
根据本申请的实施例,在训练过程中,对于第一轮次,对得到的K个图像进行上述应用过程中第一轮次的操作,可以得到一个概率量745。根据真实深度图753中的一个像素点的真实深度值7.9,可以得到该像素点的真实概率分布754,基于真实深度图753中的每一个像素点,都可以得到对应的真实概率分布,因此,基于多个真实概率分布754,可以得到真实概率量755,即区间感知标签(IA Label)将概率量745和真实概率量755通过交叉熵损失,对概率量745进行约束。
根据本申请的实施例,在训练过程中,对于第二轮次,对得到的K个图像进行上述应用过程中第一轮次的操作,可以得到一个概率量,并根据真实深度图772得到的真实概率量,通过交叉熵损失,对概率量进行约束;对于第三轮次,对得到的K个图像进行上述应用过程中第一轮次的操作,可以得到一个概率量,并根据真实深度图792得到的真实概率量,通过交叉熵损失,对概率量进行约束。
根据本申请的实施例,在应用的过程中,区间感知深度估计模块中上面的用于训练约束的分支就从虚线箭头这个地方断开了。
图8示意性示出了根据本申请实施例的得到真实概率分布的示意图。
如图8所示,为图7所示的区间感知深度估计模块的训练过程中得到真实概率分布754的示意图。
根据本申请的实施例,每个像素点的深度范围[dmin,dmax]取决于最后阶段的预测深度值,可以自适应地生成其间隔感知表示,例如,最后阶段的预测深度值为7,则该像素点的深度范围可以表示为[6,8],并以0.5进行区间划分。dmin可以表示预设深度区域的最小深度值,dmax可以表示预设深度区域的最大深度值。
根据本申请的实施例,对于每一轮次得到的像素点的深度范围都需要判断像素点的真实深度值dGT是否属于得到的预测深度范围[dmin,dmax]。在的情况下,则对应的像素点不计入最终的损失。对于第一轮次,给定的像素点的深度范围比较大,对应的像素点的真实深度值均在该给定的深度范围内,可以不需要判断。
根据本申请的实施例,为了更好地监督成本量,应用交叉熵损失Lfinal作为损失函数可以表示为如下公式(14)。
其中,Ω可以表示有效点集,λs可以表示第s轮次的损失权重, IAs(p)可以表示第轮次的区间感知标签,Ps(p)可以表示p在第s轮次的预测概率分布,S可以表示训练中的循环轮次数,s为大于等于1且小于等于S的整数,区间感知标签可以包括多个像素点的真实概率分布。
如图8所示,将预设深度区域[dmin,dmax],以l作为区间长度进行划分,可以得到D个深度区域,i为大于等于0且小于等于D的整数。
根据本申请的实施例,对于一个像素点,可知其真实深度值为dGT,再根据概率量得到的该像素点的第一目标深度值di和第二目标深度值di+1,得到的真实概率分布Ia(dGT)可以表示为如下公式(15)。
其中,区间长度l与对预设深度区域进行划分得到的深度区域的区间长度是相同的,l upper可以表示di+1与dGT之间的深度差值,l lower可以表示di与dGT之间的深度差值,其余深度区域内对应的值均为0,Ia(dGT)中包括D+1个值。
根据本申请的实施例,以图7中真实深度图753中一个真实深度值为7.9的像素点为例,根据之前对预设深度区域的划分,可以得到2 4 6 8 10的深度区域划分,7.9在6到8这个深度区域内,根据公式(15),可以得到0 0 0.05 0.95 0 这样的一个真实概率分布向量。
基于上述基于区间感知的极线引导多视图立体重建方法,本申请还提供了一种基于区间感知的极线引导多视图立体重建装置。以下将结合图9对该装置进行详细描述。
图9示意性示出了根据本申请实施例的基于区间感知的极线引导多视图立体重建装置的结构框图。
如图9所示,该实施例的基于区间感知的极线引导多视图立体重建装置900包括提取模块910、第一输入模块920、第二输入模块930、第三输入模块940和确定模块950。
提取模块910用于在确定循环轮次不满足预设条件的情况下,提取K个目标图像各自的特征图像,得到本轮次的目标分辨率的K个特征图像,其中,K个目标图像为从不同视角拍摄同一画面的K个图像,K为大于等于2的整数,本轮次的目标分辨率大于上一轮次的目标分辨率。在一实施例中,提取模块910可以用于执行前文描述的操作S210,在此不再赘述。
第一输入模块920用于将本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块,得到本轮次的目标代价体。在一实施例中,第一输入模块920可以用于执行前文描述的操作S220,在此不再赘述。
第二输入模块930用于将本轮次的目标代价体输入三维卷积神经网络,得到本轮次的概率量。在一实施例中,第二输入模块930可以用于执行前文描述的操作S230,在此不再赘述。
第三输入模块940用于将本轮次的概率量和本轮次的预设深度信息输入区间感知深度估计模块,得到本轮次的预测深度图,其中,本轮次的预测深度图包括下一轮次的预设深度信息。在一实施例中,第三输入模块940可以用于执行前文描述的操作S240,在此不再赘述。
确定模块950用于将在循环轮次满足预设条件的情况下得到的本轮次的预设深度图确定为目标深度图,以用于实现多视角立体重建。在一实施例中,确定模块950可以用于执行前文描述的操作S260,在此不再赘述。
根据本申请的实施例,第一输入模块920包括第一输入单元、第一获得单元和第二输入单元。
第一输入单元,用于将本轮次的K个特征图像和本轮次的预设深度信息输入极线引导聚合子模块,得到本轮次的K-1个特征更新图像对。
第一获得单元,用于根据本轮次的预设深度信息,对本轮次的K-1个特征更新图像对进行可微单应性变换,得到本轮次的K-1个代价体。
第二输入单元,用于将本轮次的K-1个代价体输入可见性融合子模块,得到本轮次的目标代价体。
根据本申请的实施例,第一输入单元包括第一确定子单元、第二确定子单元、第三确定子单元、第四确定子单元、第五确定子单元、第六确定子单元和第一获得子单元。
第一确定子单元,用于根据本轮次的K个特征图像,确定本轮次的K-1个特征图像对,其中,以K个特征图像中任意一个特征图像为第一参考图像,其余K-1个特征图像为K-1个第一源图像,特征图像对包括第一参考图像和第一源图像。
第二确定子单元,用于根据每个特征图像对中的第一参考图像和第一源图像,确定与第一参考图像对应的第一目标点和与第一源图像对应的第二目标点,其中,第一参考图像是利用第一采集装置采集得到的,第一源图像是利用第二采集装置采集得到的,第一目标点是第一采集装置的光心和第二采集装置的光心的连线与第一参考图像所在平面相交的点,第二目标点是第一采集装置的光心和第二采集装置的光心的连线与第一源图像所在平面相交的点。
第三确定子单元,用于针对本轮次的每个特征图像对中第一参考图像中的每个第一目标像素点,根据第一目标点和第一目标像素点各自的位置信息,确定第一目标像素点的第一对极方向。
第四确定子单元,用于针对本轮次的每个特征图像对中第一源图像中与第一目标像素点相匹配的第二目标像素点,根据第二目标点和第二目标像素点各自的位置信息,确定第二目标像素点的第二对极方向。
第五确定子单元,用于根据第一对极方向,确定以第一目标像素点为中心的第一目标区域。
第六确定子单元,用于根据第二对极方向、第一目标区域和深度信息,确定以第二目标像素点为中心的第二目标区域,其中,深度信息包括根据预设深度信息得到的与第一目标像素点和第二目标像素点分别对应的深度信息。
第一获得子单元,用于根据与每个特征图像对各自对应的多个第一目标区域和多个第二目标区域,得到本轮次的K-1个特征更新图像对。
根据本申请的实施例,特征更新图像对包括第二参考图像和第二源图像,第一获得单元包括第七确定子单元、第二获得子单元、第三获得子单元、第四获得子单元和第五获得子单元。
第七确定子单元,用于针对本轮次的每个特征更新图像对中第二参考图像中的每个第三目标像素点,根据本轮次的预设深度信息,确定与第三目标像素点对应的预设深度区域。
第二获得子单元,用于对预设深度区域进行划分,得到D个深度区域,其中,D为大于等于1的整数。
第三获得子单元,用于将D个深度区域各自的节点分别投影到第二源图像上,得到D个第四目标像素点。
第四获得子单元,用于确定第三目标像素点与D个第四目标像素点各自的相似度,得到D个相似度。
第五获得子单元,用于基于每个特征更新图像对中与第二参考图像中的每个第三目标像素点对应的D个相似度,得到本轮次的K-1个代价体,其中,代价体的深度维度为D。
根据本申请的实施例,第二输入单元包括第六获得子单元和第七获得子单元。
第六获得子单元,用于针对本轮次的每个代价体,沿深度维度确定每个第三目标像素点的最高相似度,得到对应的权重图。
第七获得子单元,用于根据K-1个权重图和与K-1个权重图各自对应的代价体,得到本轮次的目标代价体。
根据本申请的实施例,第三输入模块940包括确定单元、第二获得单元和第三获得单元。
确定单元,用于根据本轮次的概率量,确定每个第三目标像素点的第一目标深度值和第二目标深度值,其中,本轮次的概率量包括每个第三目标像素点的D个深度区域和与D个深度区域的节点深度值各自对应的概率,第一目标深度值和第二目标深度值各自对应的概率之和最高,第一目标深度值和第二目标深度值表征预设深度区域中两个连续深度区域的节点深度值,预设深度区域是根据本轮次的预设深度信息确定的。
第二获得单元,用于根据第一目标深度值和第二目标深度值以及第一目标深度值和第二目标深度值各自对应的概率,得到第三目标像素点的深度预测值。
第三获得单元,用于基于每个第三目标像素点的深度预测值,得到本轮次的预测深度图。
根据本申请的实施例,上述基于区间感知的极线引导多视图立体重建装置900还包括获得模块。
获得模块,用于对上一轮次的预测深度图进行向上插值,得到本轮次的预设深度信息。
根据本申请的实施例,提取模块910、第一输入模块920、第二输入模块930、第三输入模块940和确定模块950中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本申请的实施例,提取模块910、第一输入模块920、第二输入模块930、第三输入模块940和确定模块950中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,提取模块910、第一输入模块920、第二输入模块930、第三输入模块940和确定模块950中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图10示意性示出了根据本申请实施例的适于实现基于区间感知的极线引导多视图立体重建方法的电子设备的方框图。
如图10所示,根据本申请实施例的电子设备1000包括处理器1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本申请实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1003中,存储有电子设备1000操作所需的各种程序和数据。处理器 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。处理器1001通过执行ROM 1002和/或RAM1003中的程序来执行根据本申请实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本申请实施例的方法流程的各种操作。
根据本申请的实施例,电子设备1000还可以包括输入/输出(I/O)接口1005,输入/输出(I/O)接口1005也连接至总线1004。电子设备1000还可以包括连接至输入/输出(I/O)接口1005的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至输入/输出(I/O)接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本申请实施例的方法。
根据本申请的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本申请的实施例,计算机可读存储介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。
本申请的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本申请实施例所提供的物品推荐方法。
在该计算机程序被处理器1001执行时执行本申请实施例的系统/装置中限定的上述功能。根据本申请的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1009被下载和安装,和/或从可拆卸介质1011被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时,执行本申请实施例的系统中限定的上述功能。根据本申请的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本申请的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本申请的范围。
以上对本申请的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本申请的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本申请的范围由所附权利要求及其等同物限定。不脱离本申请的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (9)
1.一种基于区间感知的极线引导多视图立体重建方法,其特征在于,包括重复执行以下操作直至满足预设条件:
在确定循环轮次不满足所述预设条件的情况下,
提取K个目标图像各自的特征图像,得到本轮次的目标分辨率的K个特征图像,其中,所述K个目标图像为从不同视角拍摄同一画面的K个图像,K为大于等于2的整数,所述本轮次的目标分辨率大于上一轮次的目标分辨率;
将所述本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块,得到本轮次的目标代价体;
其中,所述极线引导代价体模块包括极线引导聚合子模块和可见性融合子模块,所述将所述本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块,得到本轮次的目标代价体,包括:
将所述本轮次的K个特征图像和所述本轮次的预设深度信息输入所述极线引导聚合子模块,得到本轮次的K-1个特征更新图像对;
根据所述本轮次的预设深度信息,对所述本轮次的K-1个特征更新图像对进行可微单应性变换,得到本轮次的K-1个代价体;
将所述本轮次的K-1个代价体输入所述可见性融合子模块,得到所述本轮次的目标代价体;
将所述本轮次的目标代价体输入三维卷积神经网络,得到本轮次的概率量;
将所述本轮次的概率量和所述本轮次的预设深度信息输入区间感知深度估计模块,得到本轮次的预测深度图,其中,所述本轮次的预测深度图包括下一轮次的预设深度信息;
将在所述循环轮次满足所述预设条件的情况下得到的所述本轮次的预设深度图确定为目标深度图,以用于实现多视图立体重建。
2.根据权利要求1所述的方法,其特征在于,所述将所述本轮次的K个特征图像和所述本轮次的预设深度信息输入所述极线引导聚合子模块,得到本轮次的K-1个特征更新图像对,包括:
根据所述本轮次的K个特征图像,确定本轮次的K-1个特征图像对,其中,以所述K个特征图像中任意一个特征图像为第一参考图像,其余K-1个特征图像为K-1个第一源图像,所述特征图像对包括所述第一参考图像和所述第一源图像;
根据每个所述特征图像对中的所述第一参考图像和所述第一源图像,确定与所述第一参考图像对应的第一目标点和与所述第一源图像对应的第二目标点,其中,所述第一参考图像是利用第一采集装置采集得到的,所述第一源图像是利用第二采集装置采集得到的,所述第一目标点是所述第一采集装置的光心和所述第二采集装置的光心的连线与所述第一参考图像所在平面相交的点,所述第二目标点是所述第一采集装置的光心和所述第二采集装置的光心的连线与所述第一源图像所在平面相交的点;
针对本轮次的每个所述特征图像对中所述第一参考图像中的每个第一目标像素点,根据所述第一目标点和所述第一目标像素点各自的位置信息,确定所述第一目标像素点的第一对极方向;
针对本轮次的每个所述特征图像对中所述第一源图像中与所述第一目标像素点相匹配的第二目标像素点,根据所述第二目标点和所述第二目标像素点各自的位置信息,确定所述第二目标像素点的第二对极方向;
根据所述第一对极方向,确定以所述第一目标像素点为中心的第一目标区域;
根据所述第二对极方向、所述第一目标区域和深度信息,确定以所述第二目标像素点为中心的第二目标区域,其中,所述深度信息包括根据所述预设深度信息得到的与所述第一目标像素点和所述第二目标像素点分别对应的深度信息;
根据与每个所述特征图像对各自对应的多个所述第一目标区域和多个所述第二目标区域,得到所述本轮次的K-1个特征更新图像对。
3.根据权利要求1所述的方法,其特征在于,所述本轮次的K-1个特征更新图像对中的每个特征更新图像对包括第二参考图像和第二源图像,所述根据所述本轮次的预设深度信息,对所述本轮次的K-1个特征更新图像对进行可微单应性变换,得到本轮次的K-1个代价体,包括:
针对本轮次的每个所述特征更新图像对中所述第二参考图像中的每个第三目标像素点,根据所述本轮次的预设深度信息,确定与所述第三目标像素点对应的预设深度区域;
对所述预设深度区域进行划分,得到D个深度区域,其中,D为大于等于1的整数;
将所述D个深度区域各自的节点分别投影到所述第二源图像上,得到D个第四目标像素点;
确定所述第三目标像素点与所述D个第四目标像素点各自的相似度,得到D个相似度;
基于每个所述特征更新图像对中与所述第二参考图像中的每个第三目标像素点对应的所述D个相似度,得到所述本轮次的K-1个代价体,其中,所述代价体的深度维度为D。
4. 根据权利要求3所述的方法,其特征在于,所述将所述本轮次的K-1个代价体输入所述可见性融合子模块,得到所述本轮次的目标代价体,包括:
针对本轮次的每个所述代价体,沿所述深度维度确定每个所述第三目标像素点的最高相似度,得到对应的权重图;以及
根据K-1个权重图和与所述K-1个权重图各自对应的代价体,得到所述本轮次的目标代价体。
5.根据权利要求3所述的方法,其特征在于,所述将所述本轮次的概率量和所述本轮次的预设深度信息输入区间感知深度估计模块,得到本轮次的预测深度图,包括:
根据所述本轮次的概率量,确定每个所述第三目标像素点的第一目标深度值和第二目标深度值,其中,所述本轮次的概率量包括每个所述第三目标像素点的所述D个深度区域和与所述D个深度区域的节点深度值各自对应的概率,所述第一目标深度值和所述第二目标深度值各自对应的概率之和最高,所述第一目标深度值和所述第二目标深度值表征所述预设深度区域中两个连续深度区域的节点深度值,所述预设深度区域是根据所述本轮次的预设深度信息确定的;
根据所述第一目标深度值和所述第二目标深度值以及所述第一目标深度值和所述第二目标深度值各自对应的概率,得到所述第三目标像素点的深度预测值;以及
基于每个所述第三目标像素点的深度预测值,得到所述本轮次的预测深度图。
6.根据权利要求1所述的方法,还包括:
对上一轮次的预测深度图进行向上插值,得到所述本轮次的预设深度信息。
7.一种基于点引导注意力机制的自适应局部图像特征匹配装置,包括重复执行以下操作直至满足预设条件:
提取模块,用于在确定循环轮次不满足所述预设条件的情况下,提取K个目标图像各自的特征图像,得到本轮次的目标分辨率的K个特征图像,其中,所述K个目标图像为从不同视角拍摄同一画面的K个图像,K为大于等于2的整数,所述本轮次的目标分辨率大于上一轮次的目标分辨率;
第一输入模块,用于将所述本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块,得到本轮次的目标代价体;
其中,所述极线引导代价体模块包括极线引导聚合子模块和可见性融合子模块,所述将所述本轮次的K个特征图像和本轮次的预设深度信息输入极线引导代价体模块,得到本轮次的目标代价体,包括:
将所述本轮次的K个特征图像和所述本轮次的预设深度信息输入所述极线引导聚合子模块,得到本轮次的K-1个特征更新图像对;
根据所述本轮次的预设深度信息,对所述本轮次的K-1个特征更新图像对进行可微单应性变换,得到本轮次的K-1个代价体;
将所述本轮次的K-1个代价体输入所述可见性融合子模块,得到所述本轮次的目标代价体;
第二输入模块,用于将所述本轮次的目标代价体输入三维卷积神经网络,得到本轮次的概率量;
第三输入模块,用于将所述本轮次的概率量和所述本轮次的预设深度信息输入区间感知深度估计模块,得到本轮次的预测深度图,其中,所述本轮次的预测深度图包括下一轮次的预设深度信息;
确定模块,用于将在所述循环轮次满足所述预设条件的情况下得到的所述本轮次的预设深度图确定为目标深度图,以用于实现多视图立体重建。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310221993.4A CN115908723B (zh) | 2023-03-09 | 2023-03-09 | 基于区间感知的极线引导多视图立体重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310221993.4A CN115908723B (zh) | 2023-03-09 | 2023-03-09 | 基于区间感知的极线引导多视图立体重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115908723A CN115908723A (zh) | 2023-04-04 |
CN115908723B true CN115908723B (zh) | 2023-06-16 |
Family
ID=86491515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310221993.4A Active CN115908723B (zh) | 2023-03-09 | 2023-03-09 | 基于区间感知的极线引导多视图立体重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115908723B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436269A (zh) * | 2021-06-15 | 2021-09-24 | 影石创新科技股份有限公司 | 图像稠密立体匹配方法、装置和计算机设备 |
CN115082540A (zh) * | 2022-07-25 | 2022-09-20 | 武汉图科智能科技有限公司 | 一种适用于无人机平台的多视图深度估计方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7822280B2 (en) * | 2007-01-16 | 2010-10-26 | Microsoft Corporation | Epipolar geometry-based motion estimation for multi-view image and video coding |
CN111340021B (zh) * | 2020-02-20 | 2022-07-15 | 中国科学技术大学 | 基于中心对齐和关系显著性的无监督域适应目标检测方法 |
CN115035235A (zh) * | 2021-03-05 | 2022-09-09 | 华为技术有限公司 | 三维重建方法及装置 |
CN113850900A (zh) * | 2021-05-27 | 2021-12-28 | 北京大学 | 三维重建中基于图像和几何线索恢复深度图的方法及系统 |
KR20240015643A (ko) * | 2021-05-31 | 2024-02-05 | 트리나미엑스 게엠베하 | 투사 패턴의 공액 선 거리로부터의 자동 교정 |
CN113345082B (zh) * | 2021-06-24 | 2022-11-11 | 云南大学 | 一种特征金字塔多视图三维重建方法和系统 |
CN113643366B (zh) * | 2021-07-12 | 2024-03-05 | 中国科学院自动化研究所 | 一种多视角三维对象姿态估计方法及装置 |
CN113963117B (zh) * | 2021-10-29 | 2024-03-29 | 温州大学 | 一种基于可变卷积深度网络的多视图三维重建方法及装置 |
CN114693983B (zh) * | 2022-05-30 | 2022-09-30 | 中国科学技术大学 | 基于图像-实例对齐网络的训练方法和跨域目标检测方法 |
-
2023
- 2023-03-09 CN CN202310221993.4A patent/CN115908723B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436269A (zh) * | 2021-06-15 | 2021-09-24 | 影石创新科技股份有限公司 | 图像稠密立体匹配方法、装置和计算机设备 |
CN115082540A (zh) * | 2022-07-25 | 2022-09-20 | 武汉图科智能科技有限公司 | 一种适用于无人机平台的多视图深度估计方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115908723A (zh) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276829B (zh) | 通过多尺度体素哈希处理的三维表示 | |
US10706567B2 (en) | Data processing method, apparatus, system and storage media | |
US9454851B2 (en) | Efficient approach to estimate disparity map | |
CN112733820B (zh) | 障碍物信息生成方法、装置、电子设备和计算机可读介质 | |
US20190080462A1 (en) | Method and apparatus for calculating depth map based on reliability | |
CN110910437B (zh) | 一种复杂室内场景的深度预测方法 | |
CN113711276A (zh) | 尺度感知单目定位和地图构建 | |
CN113643414A (zh) | 一种三维图像生成方法、装置、电子设备及存储介质 | |
CN114519772A (zh) | 一种基于稀疏点云和代价聚合的三维重建方法及系统 | |
JP2024507727A (ja) | 潜在変数で条件付けた幾何学的形状認識ニューラルネットワークを使用した、シーンの新規画像のレンダリング | |
CN113140034A (zh) | 基于房间布局的全景新视角生成方法、装置、设备和介质 | |
CN116194951A (zh) | 用于基于立体视觉的3d对象检测与分割的方法和装置 | |
CN112233149A (zh) | 场景流的确定方法及装置、存储介质、电子装置 | |
CN115908723B (zh) | 基于区间感知的极线引导多视图立体重建方法 | |
US20240013477A1 (en) | Point-based neural radiance field for three dimensional scene representation | |
CN115409949A (zh) | 模型训练方法、视角图像生成方法、装置、设备及介质 | |
Zhao et al. | Distance transform pooling neural network for lidar depth completion | |
Hu et al. | 3D map reconstruction using a monocular camera for smart cities | |
CN115908879B (zh) | 基于点引导注意力机制的自适应局部图像特征匹配方法 | |
CN113312979B (zh) | 图像处理方法、装置、电子设备、路侧设备及云控平台 | |
CN115439331B (zh) | 角点的校正方法和元宇宙中三维模型的生成方法、装置 | |
Nguyen et al. | Accuracy and robustness evaluation in stereo matching | |
Liu et al. | Moving target detection algorithm combined background compensation with optical flow | |
US20240161391A1 (en) | Relightable neural radiance field model | |
CN113393510B (zh) | 一种图像处理方法、智能终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |