CN106600583A - 基于端到端神经网络的视差图获取方法 - Google Patents
基于端到端神经网络的视差图获取方法 Download PDFInfo
- Publication number
- CN106600583A CN106600583A CN201611113333.0A CN201611113333A CN106600583A CN 106600583 A CN106600583 A CN 106600583A CN 201611113333 A CN201611113333 A CN 201611113333A CN 106600583 A CN106600583 A CN 106600583A
- Authority
- CN
- China
- Prior art keywords
- network
- disparity map
- image block
- dimensionalreconstruction
- dimensional scenic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于端到端神经网络的视差图获取方法,主要解决现有获取视差图时大量搜索与迭代计算导致实时性差的问题。其方案是:1.利用特征学习网络与视差重构网络构建三维重构网络,其中特征学习网络设有结构相同的两个分支,每个分支结构设有五个网络层,视差重构网络设有三个网络层,这两个网络通过一个全连接网络层连接;2.将虚拟场景与现实场景数据分别输入至三维重构网络,通过训练该网络确定其权重参数;3.将拍摄的同步左右视图输入至确定权重参数后的三维重构网络,获得视差图。本发明避免了复杂的预处理,减小了搜索与迭代计算量,能满足更高的实时性要求,可用于双目相机、机器人视觉导航、工业自动化领域。
Description
技术领域
本发明属于计算机视觉领域,特别涉及一种视差图获取方法,可用于双目相机、机器人视觉导航、工业自动化领域。
技术背景
人类正在以飞快的速度进入信息时代,随着科学技术的快速发展,计算机视觉的应用越来越受到广泛的重视。计算机视觉的目标是要使机器人或计算机通过对二维图像的处理达到对三维场景和环境的认知,从而具有和人类相当的视觉处理能力,最终像人一样通过视觉观察和理解世界,具有自主适应环境的能力。
当前,人类解决三维场景重构问题的低成本方法主要停留在基于图像的三维重构技术上,从一系列的二维投影图像中重建出真实三维物体模型。现在国内外常见的三维重构算法有基于平面的三维重构、基于深度图的三维重构、基于轮廓线的三维重构、基于立体视觉的三维重构,其中基于立体视觉的三维重构最接近于人类的视觉系统,也是当前最受关注的一种三维重构的方法。
基于立体视觉的三维重构方法主要利用基于视差理论的双目立体视觉原理,该方法从两个或多个视点去观察同一物体,获得在不同视角下的一组图像,通过各种算法匹配出相应像素点,然后通过不同图像中对应像素间的视差,推断出物体的空间几何形状和位置。一个完整的双目立体视觉系统通常由图像获取、摄像机标定、特征提取、立体匹配、深度确定及内插与重建这六大部分组成,其中立体匹配是该方法的难点。
立体匹配是三维重构最困难的工作之一。给出一幅图像的特征点,如何在其它图像中找到对应点,这一类问题称为特征匹配。当空间三维场景被投影为二维图像时,同一景物在不同视点下的图像会大有不同,而且场景中的诸多因素,如光照条件,景物几何形状和物理特性、噪声干扰和畸变以及摄像机特性等,都被综合成单一的图像中的灰度值。因此,要准确地对包含了如此之多不利因素的图像进行无歧义的匹配,显然十分困难。
传统的立体匹配技术可以粗略分为两大类:基于面积的匹配与基于特征的匹配。
基于面积的立体匹配方法一般要求图像较为光滑,或者具有较高的纹理区域,因此该类匹配方法已被应用于航天图像以及多纹理的图像。该类匹配方法可以直接产生高密的视差图像,但是当一幅图像缺乏纹理特征,或者在图像的边界不连续区域时,匹配则变得没有意义。
基于特征的立体匹配方法不是匹配两幅图像中的纹理区域而是抽取图像中特定的特征进行匹配,该类匹配方法有三个基本步骤:(1)从立体图像对中的一幅图像如左视图中选择与实际物理结构相应的图像特征;(2)在另一幅图像如右视图中确定出同一物理结构的对应图像特征;(3)确定这两个特征之间的相对位置,得到视差。该类匹配方法与基于面积的匹配方法相比,可以得到更加准确的视差图像,但是由于特征的稀疏性、以及特征的分布不均衡性,该方法很难得到高密的视差图像,往往要求进行线性插值计算,这又使视差图像的准确性下降。
近几年深度学习网络由于更接近人类的经验而被引入到人工智能领域,同样也被用来解决三维重构中的立体匹配问题。Zbontar和LeCun在文章“Computing the stereomatching cost with a convolutional neural network.(CVPR,2015)”中首次将CNN(Convolutional Neural Network,卷积神经网络)用来计算立体匹配代价,提出新的网络称之为MC-CNN(Matching Cost-Convolutional Neural Network),基于立体数据库KITTI,将匹配错误率从2.83%降低至2.61%,提升了匹配精度,同时开启了深度学习网络在三维重构领域的应用。基于该文章的理论,Luo,Schwing和Urtasum在文章“Efficient DeepLearning for Stereo Matching.(CVPR,2016)”提出了新的网络,该网络将立体匹配定义为一个多类的分类问题,这里的类代表是所有可能的视差值,并通过加入一个计算内积的网络层来提升训练速度,与MC-CNN网络进行对比,该网络的精度与速率均有明显提升。虽然深度学习网络的应用使立体匹配技术更智能化,匹配的准确率也有所提升,但其与传统技术类似,依然不可避免的需要经过大量搜索操作,需要进行复杂的迭代优化计算,才能形成视差图来进行重构工作的后期运算,从二维投影图像到获得视差图仍然需要较长的时间,因此该方法不适合用于对实时性要求较高的领域。
发明内容
本发明的目的在于克服已有技术的不足,提出一种基于端到端神经网络的视差图获取方法,以实现三维重构的人工智能化,使三维重构的过程更接近于人类双目视觉,提高三维重构的灵活性和重构的速率,使其能满足更高的实时性要求。
本发明的技术方案是,将深度学习与三维重构相结合,通过构建三维重构网络与确定三维重构网络的权重参数,构建一个输入为同步左右视图,输出为对应的视差图的端到端的三维重构网络。其实现步骤包括如下:
(1)构建三维重构网络:
(1a)设计特征学习网络,该网络设有结构相同的两个分支,每个分支有五个网络层,第一层是卷积网络层,第二层是以sigmoid函数为激活函数的池化网络层,第三层是卷积网络层,第四层是以sigmoid函数为激活函数的池化网络层,第五层是全连接网络层,该网络用于分别学习两幅输入图像的特征;
(1b)设计视差重构网络,该网络包括三个网络层,其中第一层是全连接网络层,第二层是一个卷积网络层,第三层是一个携带sigmoid函数的全连接网络层,该网络用于综合训练(1a)中学习到的两幅输入图像特征,重构出视差图;
(1c)将(1a)得到的特征学习网络与(1b)得到的视差重构网络进行连接,构建成三维重构网络;
(2)确定三维重构网络的权重参数:
(2a)由计算机三维场景技术生成虚拟场景数据,该数据作为网络的训练样本,虚拟场景数据中包括同步的左右视图(VSL,VSR)和左右视图所对应的虚拟场景的视差图DS;
(2b)将虚拟场景数据输入至步骤(1)构建的三维重构网络中,并使用随机梯度下降算法对该三维重构网络进行训练,直至网络收敛,得到权重参数为θ1的粗调后网络;
(2c)在摄像机上平行放置两个摄像头,拍摄现实场景,获得现实场景的同步左右视图(VAL,VAR),使用三维立体扫描仪扫描同一现实场景,获取该现实场景的视差图DA,该视差图DA与所述同步左右视图(VAL,VAR)相对应;
(2d)将现实场景的同步左右视图(VAL,VAR)与现实场景的视差图DA输入至粗调后网络中,使用随机梯度下降算法对该粗调后网络进行训练,直至网络收敛,得到权重参数为θ2的精调后网络;
(3)通过精调后网络获得视差图D:
(3a)使用两个平行放置的摄像头拍摄三维场景,获得三维场景的同步左右视图(VL,VR),分别在三维场景的左视图VL与右视图VR中以k×k大小的矩形窗按照步长s进行滑动,获得三维场景的n个左视图图像块IL(pi)与n个右视图图像块IR(pi),其中当三维场景的左视图VL与右视图VR的尺寸是M×N时,pi表示第i个图像块的中心坐标是(xi,yi),i∈(0,…,n-1);
(3b)将三维场景的同步左右图像块(IL(pi),IR(pi))输入至步骤(2d)得到的精调后网络中,从该网络输出与该左右图像块对应位置的三维场景的视差图图像块D(pi);
(3c)对三维场景的视差图图像块D(pi)进行融合,得到三维场景的视差图D。
本发明与现有技术相比具有如下优点:
1.重构过程更智能化
传统的三维重构方法均是基于数学计算理论实现重构,本发明基于人工智能领域的深度学习理论构建三维重构网络,即该网络由多层神经网络层构成,该网络更接近于人类的学习经验与认知习惯,使重构过程更智能化。
2.不经过复杂预处理
传统的三维重构方法基于像素点进行讨论与计算,对图像质量要求较高,因此需要对同步的左右视图进行预处理来提升图像质量,本发明构建的三维重构网络通过学习左右视图中的特征实现重构,摄像机拍摄得到的两幅同步左右视图不需要经过图像平滑、锐化等预处理即进行网络训练,处理过程简单。
3.运算量小,重构速率高
传统的三维重构方法是首先进行立体匹配,之后经过代价聚合、半全局匹配等立体方法计算后得到视差图,其中立体匹配需经过大量的搜索比对才能实现,代价聚合、半全局匹配这些立体方法均是基于像素点的运算,运算量非常大,而本发明构建的三维重构网络的输出为视差图图像块,图像块通过融合即可获得最终视差图,减少了大量的搜索过程与复杂的立体计算,提高了重构速率,使其能满足更高的实时性要求。
附图说明
图1为本发明的实现流程图;
图2为本发明中构建的端到端的三维重构网络结构示意图;
图3为本发明中确定网络参数的子流程图;
图4为本发明中的输入图像示意图。
具体实施方式
以下参照附图对本发明作详细描述:
参照图1,本发明的实现步骤如下:
步骤1.构建三维重构网络。
(1a)设计特征学习网络,用于分别学习两幅输入图像的特征,该网络设有结构相同的两个分支,每个分支有五个网络层,第一层是卷积网络层C1,第二层是以sigmoid函数为激活函数的池化网络层P2,第三层是卷积网络层C3,第四层是以sigmoid函数为激活函数的池化网络层P4,第五层是全连接网络层F5,其中:
所述第一层卷积网络层C1,其卷积核根据输入图像的类型设置:
若输入图像为灰度图像,则设置32个4×4×1的卷积核,其中4×4是指卷积核的大小,且在1个通道内实现卷积训练;
若输入图像为彩色图像,则设置32个4×4×3的卷积核,其中4×4是指卷积核的大小,需要在3个通道内实现卷积训练,3个通道分别指R、G、B三个通道;
所述第二层以sigmoid函数为激活函数的池化网络层P2,其池化层模板大小设置为2×2,且该池化网络层训练过程中先使用sigmoid函数作为激活函数激活该网络层,后进行池化操作;
所述第三层卷积网络层C3,其卷积核根据输入图像的类型设置:
若输入图像为灰度图像,则设置64个4×4×1的卷积核,其中4×4是指卷积核的大小,且在1个通道内实现卷积训练;
若输入图像为彩色图像,则设置64个4×4×3的卷积核,其中4×4是指卷积核的大小,需要在3个通道内实现卷积训练,3个通道分别指R、G、B三个通道;
所述第四层以sigmoid函数为激活函数的池化网络层P4,其池化层模板大小设置为2×2,且该池化网络层训练过程中先使用sigmoid函数作为激活函数激活该网络层,然后进行池化操作;
所述第五层全连接网络层F5,其设置的神经元个数为6400个;
(1b)设计视差重构网络,用于综合训练步骤(1)中学习到的两幅输入图像特征,重构出视差图,该网络包括三个网络层,其中第一层是全连接网络层F7,第二层是一个卷积网络层C8,第三层是一个携带sigmoid函数的全连接网络层F9,该网络
所述第一层全连接网络层F7,其设置的神经元个数为8192个;
所述第二层卷积网络层C8,其卷积核根据输入图像的类型设置:
若输入图像为灰度图像,则设置64个2×1×1的卷积核,其中2×1是指卷积核的大小,且在1个通道内实现卷积训练;
若输入图像为彩色图像,则设置64个2×1×3的卷积核,其中2×1是指卷积核的大小,需要在3个通道内实现卷积训练,3个通道分别指R、G、B三个通道;
所述第三层携带sigmoid函数的全连接网络层F9,其设置的神经元个数为4096个,且该全连接网络层训练过程中先使用sigmoid函数作为激活函数激活该网络层,后进行全连接训练;
(1c)创建全连接网络层F6,将(1a)得到的特征学习网络的输出结果输入至该全连接网络层F6,将全连接网络层F6的输出结果输入给(1b)设计的视差重构网络;
所述的创建的全连接网络层F6,其设置的神经元个数为10000个;
(1d)将(1a)设计的特征学习网络与(1b)设计的视差重构网络经过(1c)创建的全连接网络层进行连接,构建成三维重构网络,如图2所示。该三维重构网络的总层数、每层的神经元个数、卷积核大小和个数,以及池化层模板大小根据(1b)设计的视差重构网络的输出结果进行调整。
步骤2.确定三维重构网络的权重参数。
参照图3,本步骤是通过分别以虚拟场景数据与现实场景数据作为该网络输入时的两次训练确定该网络权重参数,其具体实现如下:
(2a)模拟虚拟场景数据:
使用计算机模拟三维场景,将通过计算机模拟得到的数据作为虚拟场景数据,其中包括虚拟场景的左视图VSL、右视图VSR与虚拟场景的视差图DS,且虚拟数据的同步左右视图(VSL,VSR)与视差图DS一一对应,表示为虚拟场景的样本((VSL,VSR),DS);
(2b)将虚拟场景数据输入至步骤1构建的三维重构网络,使用随机梯度下降法训练该网络,粗调网络的权重参数;
该训练过程包括两个阶段:
(2b1)前向传播阶段:
首先,从虚拟场景数据中取出样本((VSL,VSR),DS),分别在左视图VSL与右视图VSR中以ks×ks大小的矩形窗按照步长ss进行滑动,获得左视图的图像块ISL(pi)与右视图的图像块ISR(pi),其中pi表示第i个图像块的中心坐标是(xi,yi),其中设置ks=64,ss=8;
然后,将虚拟场景数据的左右视图图像块(ISL(pi),ISR(pi))输入至步骤1构建的三维重构网络,计算三维重构网络实际输出的视差图图像块DOS(pi):
其中,f(·)是反映该三维重构网络学习的函数,是三维重构网络的权重参数,该权重参数随机初始化后在网络的计算过程中进行更新;
(2b2)反向传播阶段:
(2b21),根据三维重构网络实际输出视差图图像块DOS(pi)和虚拟场景数据中的视差图DS,计算实际输出视差图图像块DOS(pi)与对应位置的视差图图像块DS(pi)的误差e1i:
e1i=|DOS(pi)-DS(pi)|;
(2b22)使用随机梯度下降法对三维重构网络进行训练,即通过更新网络的权重参数使实际输出的视差图图像块DOS(pi)逐渐接近对应位置的视差图图像块DS(pi),从而使误差e1i逐渐减小;
(2b23)重复步骤(2b21)与步骤(2b22),直至使误差e1i得到最小值使三维重构网络收敛,该收敛的网络即为权重参数为θ1的粗调后网络;
(2c)采集现实场景数据:
在摄像机上平行放置两个摄像头,拍摄现实场景,获得现实场景的同步左右视图(VAL,VAR),使用三维立体扫描仪扫描同一现实场景,获取该现实场景的视差图DA,同步左右视图(VAL,VAR)与视差图DA一一对应,表示为现实场景的样本((VAL,VAR),DA)。
(2d)将现实场景数据输入到经过步骤(2b)训练的粗调后网络,使用随机梯度下降法训练粗调后网络,精调网络的权重参数;
该训练过程按照如下步骤实现:
(2d1)前向传播阶段:
(2d11)取出现实场景数据中的样本((VAL,VAR),DA),分别在现实场景的左视图VAL与右视图VAR中以kA×kA大小的矩形窗按照步长sA进行滑动,获得现实场景的左视图的图像块IAL(pi)与现实场景的右视图的图像块IAR(pi),其中pi表示第i个图像块的中心坐标是(xi,yi),其中设置kA=64,sA=8;
(2d12)将现实场景的左右视图图像块(IAL(pi),IAR(pi))输入至粗调后网络,计算粗调后网络实际输出的视差图图像块DOA(pi):
其中,f(·)是反映该粗调后网络学习的函数,是粗调后网络的权重参数,该的初始状态为粗调后网络的权重参数θ1,在网络计算过程中进行更新;
(2d2)反向传播阶段:
(2d21)根据三维重构网络实际输出视差图图像块DOA(pi)和现实场景数据中同步左右视图(VAL,VAR)对应的视差图DA,计算实际输出视差图图像块DOA(pi)与对应位置的视差图图像块DA(pi)的误差e2i:
e2i=|DOA(pi)-DA(pi)|;
(2d22)使用随机梯度下降法对粗调后网络进行训练,即通过更新网络的权重参数使实际输出的视差图图像块DOA(pi)逐渐接近对应位置的视差图图像块DA(pi),从而使误差e2i逐渐减小;
(2d3)重复步骤(2d21)与步骤(2d22),直至误差e2i得到最小值使三维重构网络收敛,该收敛的网络即为权重参数为θ2的精调后网络。
步骤3.通过精调后网络获得视差图D。
(3a)使用两个平行放置的摄像头拍摄三维场景,获得三维场景的同步左右视图(VL,VR);
(3b)获取三维场景的同步左右视图的图像块(IL(pt),IR(pt)):
参照图4,分别在三维场景的左视图VL与右视图VR中以k×k大小的矩形窗按照步长s进行滑动,获得三维场景的n个左视图图像块IL(pt)与n个右视图图像块IR(pt),其中M表示三维场景的左视图VL与右视图VR的长为M个像素点,N表示三维场景的左视图VL与右视图VR的宽为N个像素点,pt表示第t个图像块的中心坐标是(xt,yt),t∈(0,…,n-1);
(3c)将三维场景的同步左右视图图像块(IL(pt),IR(pt))输入至步骤(2d)得到的精调后网络中,从该网络输出与该左右视图图像块对应位置的三维场景的视差图图像块D(pt);
(3d)对三维场景的视差图图像块D(pt)进行融合,得到三维场景的视差图D:
(3d1)将三维场景的视差图图像块D(pt)按照对应位置排放,再将对应像素点的视差值求和得到叠加图像pt表示第t个图像块的中心坐标是(xt,yt),该坐标决定图像块排放的位置;
(3d2)根据三维场景的视差图图像块D(pt)与三维场景的左右视图图像块IL(pt)、IR(pt)大小相同的特点,设置矩形窗参数k与矩形窗滑动步长s的关系:
为了使三维场景的左视图图像块IL(pt)全覆盖三维场景的左视图VL,三维场景的右视图图像块IR(pt)全覆盖三维场景的右视图VR,设置矩形窗参数k与矩形窗滑动步长s的关系为s≤k;
(3d3)根据矩形窗参数k与矩形窗滑动步长s的关系,确定三维场景的视差图D:
当s=k时,三维场景的视差图图像块D(pt)之间没有重叠像素点,叠加图像即为三维场景的视差图D;
当s<k时,对叠加图像进行取平均计算,获得三维场景的初始视差图:
设置阈值γ,将三维场景的初始视差图的边缘区域中像素点值远远小于阈值γ的像素点去掉,即获得三维场景的视差图D,其中表示对k/s的值进行下取整,阈值γ根据叠加图像的像素点值与的比值大小设置。
本发明提出的视差图获取方法可以广泛应用于双目相机、三维立体扫描仪这些基于双目立体视觉原理实现三维重构的设备中。以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修正和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
Claims (5)
1.一种基于端到端神经网络的视差图获取方法,其特征在于包括:
(1)构建三维重构网络:
(1a)设计特征学习网络,该网络设有结构相同的两个分支,每个分支有五个网络层,第一层是卷积网络层,第二层是以sigmoid函数为激活函数的池化网络层,第三层是卷积网络层,第四层是以sigmoid函数为激活函数的池化网络层,第五层是全连接网络层,该网络用于分别学习两幅输入图像的特征;
(1b)设计视差重构网络,该网络包括三个网络层,其中第一层是全连接网络层,第二层是一个卷积网络层,第三层是一个携带sigmoid函数的全连接网络层,该网络用于综合训练(1a)中学习到的两幅输入图像特征,重构出视差图;
(1c)将(1a)得到的特征学习网络与(1b)得到的视差重构网络进行连接,构建成三维重构网络;
(2)确定三维重构网络的权重参数:
(2a)由计算机三维场景技术生成虚拟场景数据,该数据作为网络的训练样本,虚拟场景数据中包括同步的左右视图(VSL,VSR)和左右视图所对应的虚拟场景的视差图DS;
(2b)将虚拟场景数据输入至步骤(1)构建的三维重构网络中,并使用随机梯度下降算法对该三维重构网络进行训练,直至网络收敛,得到权重参数为θ1的粗调后网络;
(2c)在摄像机上平行放置两个摄像头,拍摄现实场景,获得现实场景的同步左右视图(VAL,VAR),使用三维立体扫描仪扫描同一现实场景,获取该现实场景的视差图DA,该视差图DA与所述同步左右视图(VAL,VAR)相对应;
(2d)将现实场景的同步左右视图(VAL,VAR)与现实场景的视差图DA输入至粗调后网络中,使用随机梯度下降算法对该粗调后网络进行训练,直至网络收敛,得到权重参数为θ2的精调后网络;
(3)通过精调后网络获得视差图D:
(3a)使用两个平行放置的摄像头拍摄三维场景,获得三维场景的同步左右视图(VL,VR),分别在三维场景的左视图VL与右视图VR中以k×k大小的矩形窗按照步长s进行滑动,获得三维场景的n个左视图图像块IL(pt)与n个右视图图像块IR(pt),其中M表示三维场景的左视图VL与右视图VR的长为M个像素点,N表示三维场景的左视图VL与右视图VR的宽为N个像素点,pt表示第t个图像块的中心坐标是(xt,yt),t∈(0,…,n-1);
(3b)将三维场景的同步左右图像块(IL(pt),IR(pt))输入至步骤(2d)得到的精调后网络中,从该网络输出与该左右图像块对应位置的三维场景的视差图图像块D(pt);
(3c)对三维场景的视差图图像块D(pt)进行融合,得到三维场景的视差图D。
2.根据权利要求1所述的方法,其特征在于步骤(1c)中将(1a)得到的特征学习网络与(1b)得到的视差重构网络进行连接,是通过新创建一个全连接网络层将两者进行连接,即将(1a)特征学习网络得到的两幅输入图像的特征输入至该全连接网络层,该全连接网络层的输出结果输入给(1b)设计的视差重构网络。
3.根据权利要求1所述的方法,其特征在于,步骤(2b)中使用随机梯度下降算法对三维重构网络进行训练,按如下步骤进行:
(2b1)前向传播阶段:
(2b11)从虚拟场景数据中取出样本((VSL,VSR),DS),分别在左视图VSL与右视图VSR中以ks×ks大小的矩形窗按照步长ss进行滑动,获得左视图的图像块ISL(pi)与右视图的图像块ISR(pi),其中pi表示第i个图像块的中心坐标是(xi,yi);
(2b12)将图像块(ISL(pi),ISR(pi))输入至三维重构网络,计算三维重构网络实际输出的视差图图像块DOS(pi):
其中,f(·)是反映该三维重构网络学习的函数,是三维重构网络的权重参数,该参数随机初始化后在网络进行计算过程中更新;
(2b2)反向传播阶段:
(2b21)根据三维重构网络实际输出视差图图像块DOS(pi)和虚拟场景数据中同步左右视图(VSL,VSR)对应的视差图DS,计算实际输出视差图图像块DOS(pi)与对应位置的视差图图像块DS(pi)的误差e1i:
e1i=|DOS(pi)-DS(pi)|;
(2b22)使用随机梯度下降法对三维重构网络进行训练,即通过更新网络的权重参数使实际输出的视差图图像块DOS(pi)逐渐接近对应位置的视差图图像块DS(pi),从而使误差e1i逐渐减小;
(2b3)重复步骤(2b21)与步骤(2b22),直至误差e1i得到最小值使三维重构网络收敛,该收敛的网络即为权重参数为θ1的粗调后网络。
4.根据权利要求1所述的方法,其特征在于,步骤(2d)使用随机梯度下降算法对粗调后网络进行训练,按如下步骤进行:
(2d1)前向传播阶段:
(2d11)取出现实场景数据中的((VAL,VAR),DA),分别在现实场景数据的左视图VAL与右视图VAR中以kA×kA大小的矩形窗按照步长sA进行滑动,获得左视图的图像块IAL(pi)与右视图的图像块IAR(pi),其中pi表示第i个图像块的中心坐标是(xi,yi),现实场景的视差图DA是通过三维立体扫描仪扫描现实场景获得;
(2d12)将图像块(IAL(pi),IAR(pi))输入至粗调后网络,计算粗调后网络实际输出的视差图图像块DOA(pi):
其中,f(·)是反映该三维重构网络学习的函数,是三维重构网络的权重参数,该参数初始状态为粗调后网络的权重参数θ1,在网络进行计算过程中更新;
(2d2)反向传播阶段:
(2d21)根据三维重构网络实际输出视差图图像块DOA(pi)和现实场景的视差图DA,计算实际输出视差图图像块DOA(pi)与对应位置的视差图图像块DA(pi)的误差e2i:
e2i=|DOA(pi)-DA(pi)|;
(2d22)使用随机梯度下降法对粗调后网络进行训练,即通过更新网络的权重参数使实际输出的视差图图像块DOA(pi)逐渐接近对应位置的视差图图像块DA(pi),从而使误差e2i逐渐减小;
(2d3)重复步骤(2d21)与步骤(2d22),直至误差e2i得到最小值使粗调后网络收敛,该收敛的网络即为权重参数为θ2的精调后网络。
5.根据权利要求1所述的方法,其特征在于,步骤(3c)中对三维场景的视差图图像块D(pt)进行融合,按如下步骤进行:
(3c1)将三维场景的视差图图像块D(pt)按照对应位置排放,再将对应像素点的视差值求和得到叠加图像pt表示第t个图像块的中心坐标是(xt,yt),决定图像块排放的位置;
(3c2)根据三维场景的视差图图像块D(pt)与三维场景的左右视图图像块IL(pt)、IR(pt)大小相同,设置矩形窗参数k与矩形窗滑动步长s的关系为s≤k;
(3c3)根据矩形窗参数k与矩形窗滑动步长s的关系,确定三维场景的视差图D:
当s=k时,三维场景的视差图图像块D(pt)之间没有重叠像素点,叠加图像即为三维场景的视差图D;
当s<k时,对叠加图像进行取平均计算,获得三维场景的初始视差图:设置阈值γ,将三维场景的初始视差图的边缘区域中像素点值远远小于阈值γ的像素点去掉,即获得三维场景的视差图D,其中表示对k/s的值进行下取整,阈值γ根据叠加图像的像素点值与的比值大小设置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611113333.0A CN106600583B (zh) | 2016-12-07 | 2016-12-07 | 基于端到端神经网络的视差图获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611113333.0A CN106600583B (zh) | 2016-12-07 | 2016-12-07 | 基于端到端神经网络的视差图获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106600583A true CN106600583A (zh) | 2017-04-26 |
CN106600583B CN106600583B (zh) | 2019-11-01 |
Family
ID=58596543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611113333.0A Active CN106600583B (zh) | 2016-12-07 | 2016-12-07 | 基于端到端神经网络的视差图获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106600583B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492122A (zh) * | 2017-07-20 | 2017-12-19 | 深圳市佳创视讯技术股份有限公司 | 一种基于多层深度平面的深度学习视差估计方法 |
CN107992848A (zh) * | 2017-12-19 | 2018-05-04 | 北京小米移动软件有限公司 | 获取深度图像的方法、装置及计算机可读存储介质 |
CN108230235A (zh) * | 2017-07-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 一种视差图生成系统、方法及存储介质 |
CN108734693A (zh) * | 2018-03-30 | 2018-11-02 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN108846858A (zh) * | 2018-06-01 | 2018-11-20 | 南京邮电大学 | 一种计算机视觉的立体匹配算法 |
CN110276442A (zh) * | 2019-05-24 | 2019-09-24 | 西安电子科技大学 | 一种神经网络架构的搜索方法及装置 |
CN110310317A (zh) * | 2019-06-28 | 2019-10-08 | 西北工业大学 | 一种基于深度学习的单目视觉场景深度估计的方法 |
CN110443841A (zh) * | 2018-05-02 | 2019-11-12 | 杭州海康威视数字技术股份有限公司 | 地面深度的测量方法、装置及系统 |
CN110533663A (zh) * | 2018-05-25 | 2019-12-03 | 杭州海康威视数字技术股份有限公司 | 一种图像视差确定方法、装置、设备及系统 |
CN110574371A (zh) * | 2017-12-08 | 2019-12-13 | 百度时代网络技术(北京)有限公司 | 使用硬件加速器的立体摄像机深度确定 |
CN110766797A (zh) * | 2019-10-30 | 2020-02-07 | 中山大学 | 一种基于gan的三维地图修复方法 |
CN110782412A (zh) * | 2019-10-28 | 2020-02-11 | 深圳市商汤科技有限公司 | 图像处理方法及装置、处理器、电子设备及存储介质 |
CN111062900A (zh) * | 2019-11-21 | 2020-04-24 | 西北工业大学 | 一种基于置信度融合的双目视差图增强方法 |
CN111292425A (zh) * | 2020-01-21 | 2020-06-16 | 武汉大学 | 一种基于单双目混合数据集的视图合成方法 |
CN111354032A (zh) * | 2018-12-24 | 2020-06-30 | 杭州海康威视数字技术股份有限公司 | 一种生成视差图的方法及装置 |
GB2585197A (en) * | 2019-07-01 | 2021-01-06 | Sony Interactive Entertainment Inc | Method and system for obtaining depth data |
US11158077B2 (en) | 2019-12-13 | 2021-10-26 | NextVPU (Shanghai) Co., Ltd. | Disparity estimation |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020036648A1 (en) * | 1999-12-08 | 2002-03-28 | Putilin Andrey N. | System and method for visualization of stereo and multi aspect images |
US20140098089A1 (en) * | 2012-10-10 | 2014-04-10 | Sony Corporation | Image processing device, image processing method, and program |
CN104915943A (zh) * | 2014-03-12 | 2015-09-16 | 株式会社理光 | 用于在视差图中确定主要视差值的方法和装置 |
CN105956597A (zh) * | 2016-05-04 | 2016-09-21 | 浙江大学 | 一种基于卷积神经网络的双目立体匹配方法 |
CN105979244A (zh) * | 2016-05-31 | 2016-09-28 | 十二维度(北京)科技有限公司 | 一种基于深度学习的2d图像转3d图像的方法及系统 |
-
2016
- 2016-12-07 CN CN201611113333.0A patent/CN106600583B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020036648A1 (en) * | 1999-12-08 | 2002-03-28 | Putilin Andrey N. | System and method for visualization of stereo and multi aspect images |
US20140098089A1 (en) * | 2012-10-10 | 2014-04-10 | Sony Corporation | Image processing device, image processing method, and program |
CN104915943A (zh) * | 2014-03-12 | 2015-09-16 | 株式会社理光 | 用于在视差图中确定主要视差值的方法和装置 |
CN105956597A (zh) * | 2016-05-04 | 2016-09-21 | 浙江大学 | 一种基于卷积神经网络的双目立体匹配方法 |
CN105979244A (zh) * | 2016-05-31 | 2016-09-28 | 十二维度(北京)科技有限公司 | 一种基于深度学习的2d图像转3d图像的方法及系统 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492122A (zh) * | 2017-07-20 | 2017-12-19 | 深圳市佳创视讯技术股份有限公司 | 一种基于多层深度平面的深度学习视差估计方法 |
CN108230235A (zh) * | 2017-07-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 一种视差图生成系统、方法及存储介质 |
CN108230235B (zh) * | 2017-07-28 | 2021-07-02 | 北京市商汤科技开发有限公司 | 一种视差图生成系统、方法及存储介质 |
CN110574371A (zh) * | 2017-12-08 | 2019-12-13 | 百度时代网络技术(北京)有限公司 | 使用硬件加速器的立体摄像机深度确定 |
CN110574371B (zh) * | 2017-12-08 | 2021-12-21 | 百度时代网络技术(北京)有限公司 | 使用硬件加速器的立体摄像机深度确定 |
US11182917B2 (en) | 2017-12-08 | 2021-11-23 | Baidu Usa Llc | Stereo camera depth determination using hardware accelerator |
CN107992848A (zh) * | 2017-12-19 | 2018-05-04 | 北京小米移动软件有限公司 | 获取深度图像的方法、装置及计算机可读存储介质 |
CN107992848B (zh) * | 2017-12-19 | 2020-09-25 | 北京小米移动软件有限公司 | 获取深度图像的方法、装置及计算机可读存储介质 |
CN108734693A (zh) * | 2018-03-30 | 2018-11-02 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN110443841A (zh) * | 2018-05-02 | 2019-11-12 | 杭州海康威视数字技术股份有限公司 | 地面深度的测量方法、装置及系统 |
CN110443841B (zh) * | 2018-05-02 | 2022-08-05 | 杭州海康威视数字技术股份有限公司 | 地面深度的测量方法、装置及系统 |
CN110533663A (zh) * | 2018-05-25 | 2019-12-03 | 杭州海康威视数字技术股份有限公司 | 一种图像视差确定方法、装置、设备及系统 |
CN110533663B (zh) * | 2018-05-25 | 2022-03-04 | 杭州海康威视数字技术股份有限公司 | 一种图像视差确定方法、装置、设备及系统 |
CN108846858A (zh) * | 2018-06-01 | 2018-11-20 | 南京邮电大学 | 一种计算机视觉的立体匹配算法 |
CN111354032B (zh) * | 2018-12-24 | 2023-10-20 | 杭州海康威视数字技术股份有限公司 | 一种生成视差图的方法及装置 |
CN111354032A (zh) * | 2018-12-24 | 2020-06-30 | 杭州海康威视数字技术股份有限公司 | 一种生成视差图的方法及装置 |
CN110276442B (zh) * | 2019-05-24 | 2022-05-17 | 西安电子科技大学 | 一种神经网络架构的搜索方法及装置 |
CN110276442A (zh) * | 2019-05-24 | 2019-09-24 | 西安电子科技大学 | 一种神经网络架构的搜索方法及装置 |
CN110310317A (zh) * | 2019-06-28 | 2019-10-08 | 西北工业大学 | 一种基于深度学习的单目视觉场景深度估计的方法 |
GB2585197B (en) * | 2019-07-01 | 2023-12-20 | Sony Interactive Entertainment Inc | Method and system for obtaining depth data |
GB2585197A (en) * | 2019-07-01 | 2021-01-06 | Sony Interactive Entertainment Inc | Method and system for obtaining depth data |
CN110782412B (zh) * | 2019-10-28 | 2022-01-28 | 深圳市商汤科技有限公司 | 图像处理方法及装置、处理器、电子设备及存储介质 |
CN110782412A (zh) * | 2019-10-28 | 2020-02-11 | 深圳市商汤科技有限公司 | 图像处理方法及装置、处理器、电子设备及存储介质 |
CN110766797A (zh) * | 2019-10-30 | 2020-02-07 | 中山大学 | 一种基于gan的三维地图修复方法 |
CN110766797B (zh) * | 2019-10-30 | 2021-08-13 | 中山大学 | 一种基于gan的三维地图修复方法 |
CN111062900A (zh) * | 2019-11-21 | 2020-04-24 | 西北工业大学 | 一种基于置信度融合的双目视差图增强方法 |
US11158077B2 (en) | 2019-12-13 | 2021-10-26 | NextVPU (Shanghai) Co., Ltd. | Disparity estimation |
CN111292425A (zh) * | 2020-01-21 | 2020-06-16 | 武汉大学 | 一种基于单双目混合数据集的视图合成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106600583B (zh) | 2019-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106600583A (zh) | 基于端到端神经网络的视差图获取方法 | |
CN108921926B (zh) | 一种基于单张图像的端到端三维人脸重建方法 | |
CN111968217B (zh) | 基于图片的smpl参数预测以及人体模型生成方法 | |
Turner et al. | Fast, automated, scalable generation of textured 3D models of indoor environments | |
CN110570522B (zh) | 一种多视图三维重建方法 | |
CN104661010B (zh) | 三维立体模型的建立方法和装置 | |
CN110705448A (zh) | 一种人体检测方法及装置 | |
CN111145253B (zh) | 一种高效的物体6d姿态估计算法 | |
CN106826833A (zh) | 基于3d立体感知技术的自主导航机器人系统 | |
CN110009691A (zh) | 基于双目立体视觉匹配的视差图像生成方法及系统 | |
CN108171249B (zh) | 一种基于rgbd数据的局部描述子学习方法 | |
CN102129708A (zh) | 增强现实环境中快速多层次虚实遮挡处理方法 | |
CN101398933B (zh) | 一种从图像中恢复三维几何信息的方法 | |
CN107481313A (zh) | 一种基于学习有效点云生成的密集三维物体重建方法 | |
CN104123747A (zh) | 多方式触控三维建模方法和系统 | |
CN108133496B (zh) | 一种基于g2o与随机蕨类算法的稠密地图创建方法 | |
CN112529010B (zh) | 一种基于在线局部特征提取的点云识别方法 | |
CN107103285A (zh) | 基于卷积神经网络的人脸深度预测方法 | |
CN111062326A (zh) | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 | |
CN104103091A (zh) | 3d智能建模方法和系统及3d模型柔性制造系统 | |
CN103337085A (zh) | 一种高效的人像面部变形方法 | |
CN111292425A (zh) | 一种基于单双目混合数据集的视图合成方法 | |
CN103927787A (zh) | 一种基于矩阵恢复的提高三维重建精度的方法及其装置 | |
CN111145338A (zh) | 一种基于单视角rgb图像的椅子模型重建方法及系统 | |
CN106683163A (zh) | 一种视频监控的成像方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |