CN111652922A - 一种基于双目视觉的单目视频深度估计方法及系统 - Google Patents
一种基于双目视觉的单目视频深度估计方法及系统 Download PDFInfo
- Publication number
- CN111652922A CN111652922A CN202010498627.XA CN202010498627A CN111652922A CN 111652922 A CN111652922 A CN 111652922A CN 202010498627 A CN202010498627 A CN 202010498627A CN 111652922 A CN111652922 A CN 111652922A
- Authority
- CN
- China
- Prior art keywords
- binocular
- view
- network
- parallax
- monocular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于双目视觉的单目视频深度估计方法,包括以下步骤:S1,视图合成部分:利用双目数据集去训练得到数据集中双目视图之间像素点的对应关系;基于双目数据集的视差,利用输入的单目视图进行另一视点的视图估计,得到双目视图;S2,双目匹配部分:利用S1中所得的双目视图进行视差的估计,根据视差结果计算出像素的深度值;通过编码解码结构保证整体网络结构的稳定性。本发明还公开一种基于双目视觉的单目视频深度估计系统,包括视图合成网络、双目匹配网络。
Description
技术领域
本发明属于图像处理领域,尤其涉及一种单目深度估计技术。
背景技术
深度估计是理解场景内部几何关系的一个重要组成部分。从二维图片中估计深度是场景的重建和理解、三维目标识别、分割和检测等任务的关键步骤。目前,在获取图像时通常只会保存图像的二维信息,丢失场景的三维信息。深度估计可以用于三维建模、场景理解、深度感知等领域。随着虚拟现实,自动驾驶,3D电影等应用场景的不断普及,技术上对三维层面信息的需求越来越强烈。在单目深度估计上仍然存在很多问题,深度真值获取困难、成本昂贵;单幅图像的特征有限,特征的局限性增加了训练的难度。现有单目深度估计方法存在以下几个问题:
(1)依赖于大量的原始深度信息;
(2)对于单目来说,仅使用有限的图像信息对深度信息进行监督,缺少几何约束,深度估计结果存在偏差;
(3)单幅图像的深度估计缺少帧间的平滑效果。
发明内容
本发明的目的是为解决单目深度对于大量深度信息的依赖,在单目视图有限特征图的条件下进行更为准确的深度估计,以及一般大幅图像深度估计无法做到的帧间平滑的问题。
为达到上述目的,本发明采用的技术方案为:一种基于双目视觉的单目视频深度估计方法,包括以下步骤:
(1)视图合成部分。双目数据集为包括两个位置相对固定的单目相机拍摄得到的成对视图的集合。利用双目数据集去训练得到双目视图之间每个像素点的对应关系,训练所得模型能够基于双目数据集的视差,利用输入的单目视图进行另一视点的视图估计,最终得到双目视图。
(2)双目匹配部分。利用(1)中所得的双目视图的输出进行视差的估计,根据视差结果计算出像素的深度值;通过编码解码结构保证上采样后的特征不会偏离,即与输入保持一定的关系。在编码解码结构过程中,使用下采样中的特征对上采样的特征进行监督,保证整体网络结构的稳定性。
进一步的,步骤(1)中的方法通过以下子步骤来实现:
(1.1)根据用于训练的双目数据集设定训练的视差范围,利用卷积网络获取图像的特征图,并将不同层级的特征图经过反卷积操作恢复到与原图一致的大小,最后使用concat操作将各层级的特征图结合到一起,得到一个概率分布图;将各个层级的特征通过反卷积恢复到同一尺度进行视图的估计,在使用高层级全局语义的同时,也保留了图像中的细节特征,保证了该方法对于图像整体估计的准确度。
对单目视频深度估计结构的检验与训练,进一步的在步骤(1)中的方法中包括以下步骤:(1.2)将(1.1)中所得的特征图用于损失的估计,根据预先定义的视差范围利用损失函数进行监督,另一个视点各像素点的表示如其中是原视点作了大小为d的偏移操作,是不同视差值上的每个像素的概率分布图,损失函数loss=|R-S|,其中S为另一个视点的真实值。
进一步的,步骤(2)中的双目匹配方法通以过下子步骤来实现:
(2.1)利用(1)中生成的双目视图进行视差估计,将输入的单目视图和估计的另一视点视图进行concat的操作后进行特征提取获取两者的特征图,利用原始的视差并且使用损失函数进行监督:loss=|Dgt-Ddt|,其中Dgt为原始的视差图(也称为视差真值),即双目数据集中成对视图之间的视差图;Ddt为单目视图和另一视点视图之间的视差图。
(2.2)在(2.1)后获取的视差图上做进一步的修正,这其中利用了残差机制,使用残差网络尽可能优化前一阶段生成的视差图,具体来说就是将真实视差与估计视差之间的差值作为监督的对象;
为了进一步提高视频帧间的连续性,本方法还包括以下步骤:
(3)引入掩膜训练策略,将前景与背景分开训练,最后再将视差结果进行合并。前后景的视差范围存在差距,分开训练能够使得网络对于前后景的估计更加精确,而不会互相干扰,尽可能保留前景与背景之间的差距。加大对于前景信息训练过程中的权重,增强对于前景估计的准确度,从而整体上加大视频帧间的连续性。
进一步的,步骤(3)中的深度平滑通过以下子步骤来实现:
(3.1)使用mask估计网络对训练数据添加mask真值;
(3.2)在(2)阶段训练中利用mask的标签,计算损失时将前景与背景的训练分离,从而使得对前景与背景的深度估计更加精确,前景与背景的交界处更加清晰,这样的估计结果会增强整体视频帧间的平滑程度;
(3.3)使用相关滤波方法对最后生成的视频帧图像对应的深度图序列进行深度优化的后处理。作为优选方式,(3.3)中滤波后处理操作为:联合双边滤波、导向滤波以及中值滤波。
本发明还公开一种基于双目视觉的单目视频深度估计系统,包括视图合成网络、双目匹配网络;
视图合成部分包括主网络、选择网络;主网络基于VGG-16网络结构,用于得到各个尺度的特征图,在主网络的每一个池化层之后进行反卷积操作,用于将每一个层级的特征统一至相同的尺寸,将各层级的特征累加,并且进行归一化操作,最后得到一个概率分布图;选择网络将概率分布图以及单目视图的平移图像作为输入,对于每一个像素点给出不同的差异值,计算出在不同的差异值上像素点的概率分布之和,得到左视点的偏移,重建右视点,从而生成另一视点的视图,得到双目视图;
双目匹配部分包括DispNetC+、DispResNet;DispNetC+为视差估计网络,首先将立体图像对作为网络的输入,双目视图经过卷积层后得到相应的特征图像,得到的特征图像经过correlation操作,作为第二部分DispResNet部分的输入,最后利用几何约束根据视差计算得到深度图结果。
进一步的,DispResNet部分将预测值与真实值之间的误差作为监督对象,修正视图生成部分产生的初始视差。
本发明具有以下有益效果:
(1)本发明通过将双目数据集引入单幅图像深度估计方法中,减少了单幅图像深度估计方法对于高成本的原始深度值的依赖。
(2)本发明通过引入双目的图像,增加的深度估计中的几何约束信息,相较于原来单幅图像的特征信息,估计过程中增加了双目几何原理的约束,解决了单目深度估计中可用信息稀少的问题。
(3)本发明所提出的借助于mask信息在训练过程中分离前景与背景训练的方法,能够有效的增加对感兴趣物体的关注程度,同时可以增强对前景与背景深度估计的准确度,不仅仅适用于深度估计,同样适用但不限于目标检测,目标追踪等方面。
附图说明
图1为本发明实施例的基于双目视觉的单目视频深度估计方法示意图。
图2为本发明实施例的视图合成部分示意图。
图3为本发明实施例的双目匹配部分示意图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图进行深度估计过程的叙述。
本实施例的基于双目视图训练的单目视频深度估计训练的方法,能够有效的减少对高成本深度数据集的依赖,增加几何约束弥补单幅图像特征信息稀缺的问题,训练过程中加大前景物体的训练权重,增强前景的预测精确度和前景的帧间连续性。
如图1所示,为本实施例的基于双目视觉的单目视频深度估计方法整体流程图,包括以下步骤:
(1)将视图合成引入深度估计。利用输入的单目视图进行另一视点的视图(即图中右视图)估计,根据双目数据集的视差制订训练的视差范围。将各个层级的特征通过反卷积恢复到同一尺度进行视图的估计,在使用高层级全局语义的同时,也保留了图像中的细节特征,保证了该方法对于图像整体估计的准确度;
(2)将双目间的几何约束引入深度估计。利用两个视点的图像形成双目立体对图像,利用双目图像之间的几何关系,进行双目视差的估计,根据视差结果计算出每个像素的深度值。该步骤分为两个阶段,第一步进行初始视差值的估计,第二步借鉴resnet的结构对初始的视差进一步的修正。
(3)对于图像帧间的平滑性,在训练阶段使用掩膜分离前景与背景的训练,同时在最后加入深度优化部分,使用相关滤波器对图像进行帧间的进一步平滑。
下面为具体可实施的步骤,各部分可使用以下方案但不限于以下方案,可对每一部分进行替换以到达到更优的深度估计结果。
(1)视图合成,使用单幅图像获取另一视点的图像,从而得到立体图像对用于下一步的训练:
视图合成网络主要分为两部分,第一部分为主网络,该部分基于VGG-16网络结构,主要用于得到各个尺度的特征图,具体实现过程中会在网络的每一个池化层之后进行反卷积操作,用于将每一个层级的特征统一至一个尺寸,将各层级的特征累加,并且进行归一化操作,最后得到一个概率分布图;第二部分为选择网络,选择网络将概率分布图以及原始单目视图的平移图像作为输入,对于每一个像素点给出不同的差异值,计算出在不同的差异值上像素点的概率分布之和,得到左视点的偏移,最后重建右视点,方法示意图如图2所示。
(2)双目匹配,该部分利用双目之间的几何关系生成视差而后计算出深度值,同时引入mask训练策略,增强对于前景的训练权重,进而得到更好的前景估计结果,加大帧间的联系:
双目匹配网络简要示意图如图3所示,可以分为DispNetC+与DispResNet两个部分,其中DispNetC+作为视差估计网络,该部分首先将立体图像对作为网络的输入,其中左图为原始输入图像,右图为视图合成网络生成的图像,两幅图像经过卷积层后得到相应的特征图像,得到的特征图像经过correlation操作,将其结果作为第二部分DispResNet视差优化网络部分的输入,该网络借鉴resnet的主要思想,以预测值与真实值之间的误差作为监督对象,主要用于修正第一阶段产生的初始视差,最后利用几何约束根据视差计算得到深度图结果。具体的网络结构可参考图3。
(3)深度优化:
单幅图像的深度估计对每一帧图像进行深度估计,所以深度图之间并不能保证绝对的有联系。为了保证深度图像连续帧之间的联系,使用原始彩色图像作为导向对各帧的深度图进行优化。
在使用深度图进行虚拟视点合成时会出现虚假边缘问题,其产生的原因就是彩色图像边缘是平滑的,而深度图的边缘可能在估计过程中与彩色图之间存在一定的差异。对于深度图中出现的一些问题,通常会采用低通滤波的方式对深度图进行处理。
经过实验验证,证明使用联合双边滤波、导向滤波以及中值滤波后的深度图像在视频的平滑上有更大的优势,更加适应于深度图视频的生成。
以上的实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (9)
1.一种基于双目视觉的单目视频深度估计方法,其特征在于,包括以下步骤:
S1,视图合成部分:利用双目数据集去训练得到数据集中双目视图之间像素点的对应关系;基于双目数据集的视差,利用输入的单目视图进行另一视点的视图估计,得到双目视图;
S2,双目匹配部分:利用S1中所得的双目视图进行视差的估计,根据视差结果计算出像素的深度值。
2.根据权利要求1所述的基于双目视觉的单目视频深度估计方法,其特征在于,所述S1具体包括以下子步骤:
S1.1,根据双目数据集设定训练的视差范围,利用卷积网络获取图像的特征图,并将不同层级的特征图经过反卷积操作恢复到与原图一致的大小,最后使用concat操作将各层级的特征图结合到一起,得到一个概率分布图。
4.根据权利要求1所述的基于双目视觉的单目视频深度估计方法,其特征在于,所述S2具体包括以下子步骤:
S2.1,利用S1中生成的双目视图进行视差估计,将输入的单目视图和估计的另一视点视图进行concat的操作后进行特征提取,获取输入的单目视图和估计的另一视点视图的特征图,利用原始的视差并且使用损失函数进行监督:loss=|Dgt-Ddt|,其中Dgt为原始的视差图,Ddt为单目视图和另一视点视图之间的视差图;
S2.2,将真实视差与估计视差之间的差值作为监督的对象,对S2.1获取的视差图进行优化;
5.根据权利要求1所述的基于双目视觉的单目视频深度估计方法,其特征在于,还包括以下步骤:
S3,引入掩膜训练策略,将前景与背景分开训练,最后再将视差结果进行合并。
6.根据权利要求5所述的基于双目视觉的单目视频深度估计方法,其特征在于,所述S3中进一步包括以下子步骤:
S3.1,使用mask估计网络对于双目数据集添加mask真值;
S3.2,在S2阶段训练中利用mask的标签,计算损失时分离前景与背景的训练;
S3.3,对最后生成的视频帧图像对应的深度图序列进行滤波后处理。
7.根据权利要求6所述的基于双目视觉的单目视频深度估计方法,其特征在于:S3.3中滤波后处理操作联合双边滤波、导向滤波以及中值滤波。
8.一种基于双目视觉的单目视频深度估计系统,其特征在于:包括视图合成网络、双目匹配网络;
视图合成网络包括主网络、选择网络;主网络基于VGG-16网络结构,用于得到各个尺度的特征图,在主网络的每一个池化层之后进行反卷积操作,用于将每一个层级的特征统一至相同的尺寸,将各层级的特征累加,并且进行归一化操作,最后得到一个概率分布图;选择网络将概率分布图以及单目视图的平移图像作为输入,对于每一个像素点给出不同的差异值,计算出在不同的差异值上像素点的概率分布之和,得到左视点的偏移,重建右视点,从而生成另一视点的视图,得到双目视图;
双目匹配网络包括DispNetC+、DispResNet;DispNetC+为视差估计网络,首先将双目视图对作为网络的输入,双目视图经过卷积层后得到相应的特征图像,得到的特征图像经过correlation操作,作为第二部分DispResNet视差优化网络的输入,最后利用几何约束根据视差计算得到深度图结果。
9.根据权利要求8所述的基于双目视觉的单目视频深度估计系统,其特征在于:DispResNet部分将预测值与真实值之间的误差作为监督对象,修正视图生成部分产生的初始视差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010498627.XA CN111652922B (zh) | 2020-06-04 | 2020-06-04 | 一种基于双目视觉的单目视频深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010498627.XA CN111652922B (zh) | 2020-06-04 | 2020-06-04 | 一种基于双目视觉的单目视频深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652922A true CN111652922A (zh) | 2020-09-11 |
CN111652922B CN111652922B (zh) | 2023-09-08 |
Family
ID=72348528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010498627.XA Active CN111652922B (zh) | 2020-06-04 | 2020-06-04 | 一种基于双目视觉的单目视频深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652922B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112543317A (zh) * | 2020-12-03 | 2021-03-23 | 东南大学 | 高分辨率单目2d视频到双目3d视频的转制方法 |
CN112561980A (zh) * | 2020-12-16 | 2021-03-26 | 北京航空航天大学 | 一种基于循环一致性的单目深度估计方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160249037A1 (en) * | 2013-10-30 | 2016-08-25 | Tsinghua University | Method for acquiring comfort degree of motion-sensing binocular stereoscopic video |
CN108335322A (zh) * | 2018-02-01 | 2018-07-27 | 深圳市商汤科技有限公司 | 深度估计方法和装置、电子设备、程序和介质 |
CN109087349A (zh) * | 2018-07-18 | 2018-12-25 | 亮风台(上海)信息科技有限公司 | 一种单目深度估计方法、装置、终端和存储介质 |
CN110310317A (zh) * | 2019-06-28 | 2019-10-08 | 西北工业大学 | 一种基于深度学习的单目视觉场景深度估计的方法 |
CN110443843A (zh) * | 2019-07-29 | 2019-11-12 | 东北大学 | 一种基于生成对抗网络的无监督单目深度估计方法 |
-
2020
- 2020-06-04 CN CN202010498627.XA patent/CN111652922B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160249037A1 (en) * | 2013-10-30 | 2016-08-25 | Tsinghua University | Method for acquiring comfort degree of motion-sensing binocular stereoscopic video |
CN108335322A (zh) * | 2018-02-01 | 2018-07-27 | 深圳市商汤科技有限公司 | 深度估计方法和装置、电子设备、程序和介质 |
CN109087349A (zh) * | 2018-07-18 | 2018-12-25 | 亮风台(上海)信息科技有限公司 | 一种单目深度估计方法、装置、终端和存储介质 |
CN110310317A (zh) * | 2019-06-28 | 2019-10-08 | 西北工业大学 | 一种基于深度学习的单目视觉场景深度估计的方法 |
CN110443843A (zh) * | 2019-07-29 | 2019-11-12 | 东北大学 | 一种基于生成对抗网络的无监督单目深度估计方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112543317A (zh) * | 2020-12-03 | 2021-03-23 | 东南大学 | 高分辨率单目2d视频到双目3d视频的转制方法 |
CN112561980A (zh) * | 2020-12-16 | 2021-03-26 | 北京航空航天大学 | 一种基于循环一致性的单目深度估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111652922B (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102523464A (zh) | 一种双目立体视频的深度图像估计方法 | |
Wu et al. | A novel method for semi-automatic 2D to 3D video conversion | |
CN111652922B (zh) | 一种基于双目视觉的单目视频深度估计方法 | |
CN112270701B (zh) | 基于分组距离网络的视差预测方法、系统及存储介质 | |
CN116977596A (zh) | 一种基于多视角图像的三维建模系统及方法 | |
Xu et al. | High-speed stereo matching algorithm for ultra-high resolution binocular image | |
CN101557534A (zh) | 一种从视频相近帧中生成视差图的方法 | |
CN112489097B (zh) | 基于混合2d卷积和伪3d卷积的立体匹配方法 | |
CN113436254B (zh) | 一种级联解耦的位姿估计方法 | |
CN117830538A (zh) | 一种基于跨尺度Transformer的多视图立体匹配的三维重建方法 | |
Min et al. | Temporally consistent stereo matching using coherence function | |
Li et al. | A novel method for 2D-to-3D video conversion using bi-directional motion estimation | |
CN102567992B (zh) | 遮挡区域的图像匹配方法 | |
CN117315138A (zh) | 基于多目视觉的三维重建方法及系统 | |
Lee et al. | Automatic 2d-to-3d conversion using multi-scale deep neural network | |
CN116402908A (zh) | 一种基于异构式成像的密集光场图像重建方法 | |
Chen et al. | Bidirectional optical flow NeRF: high accuracy and high quality under fewer views | |
KR100655465B1 (ko) | 실시간 중간 시점 영상 보간 방법 | |
CN107194931A (zh) | 一种基于双目图像匹配获取目标深度信息的方法和系统 | |
Chen et al. | Automatic 2d-to-3d video conversion using 3d densely connected convolutional networks | |
Li et al. | An efficient method for automatic stereoscopic conversion | |
CN117474956B (zh) | 基于运动估计注意力的光场重建模型训练方法及相关设备 | |
Zhang et al. | Temporal3d: 2d-to-3d video conversion network with multi-frame fusion | |
Huang et al. | Towards naturalistic depth propagation | |
CN115965676A (zh) | 一种对高分辨率图像敏感的单目绝对深度估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |