CN110033483A

CN110033483A - 基于dcnn深度图生成方法及系统

Info

Publication number: CN110033483A
Application number: CN201910266071.9A
Authority: CN
Inventors: 赵新超; 尹首一; 冯进丽; 唐士斌; 欧阳鹏; 李秀东; 王博
Original assignee: Beijing Qingwei Intelligent Technology Co Ltd
Current assignee: Beijing Qingwei Intelligent Technology Co Ltd
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2019-07-19

Abstract

本发明提供了一种基于DCNN深度图生成方法及系统，所述方法包含：根据KITT或Middlebury立体数据集的ground truth视差图构建每一图片均包含正负样本的数据集；对所述数据集进行数据扩充处理后，通过极线约束法对所述数据集进行降维处理，获得训练数据；通过所述训练数据训练补入跳跃连接结构的CNN模型，获得图像分类模型；获得待处理图形数据，将所述待处理图像数据带入所述图像分类模型中获得分析数据；对所述分析数据进行空间金字塔池化处理后，通过匹配代价计算及代价聚合处理获得深度图像数据。

Description

基于DCNN深度图生成方法及系统

技术领域

本发明涉及计算机立体视觉领域，尤指一种基于DCNN深度图生成方法及系统。

背景技术

在计算机视觉系统中,物体深度信息的测量一直是一个热点问题,从立体图像中估计深度信息对于计算机视觉的应用至关重要，包括车辆的自动驾驶，3D模型重建和物体的检测与识别等。

目前深度信息的获取可通过硬件和软件两种途径。硬件获取深度信息的设备有激光测距仪和微软推出的3D体感摄像仪Kinect等，但激光测距仪价格昂贵，不利于推广；Kinect虽然价格亲民，但最大检测距离不超过5米，且感知精度受光线和背景物体影响较大，对透明、镜面反光等物体无法正确测距。软件方法常见的主要有多视图立体法、光度立体视觉法、色度成形法、散焦推断法以及基于机器学习的方法等。而现有的CNN方法通过相似性计算来解决深度估计问题，尽管在速度和准确性方面都取得了重大突破，但依旧很难在不适定区域(例如遮挡区域，重复纹理区域，弱纹理区域和反光表面等)找到精确的匹配点，导致最终的深度图效果并不理想，难以满足构建高精度深度图的实际需要。

发明内容

本发明目的在于针对当前现有的深度图生成方法的各种不足，提出一种基于DCNN的多尺度多模态的深度图生成方法。

为达上述目的，本发明所提供的基于DCNN深度图生成方法，具体包含：根据KITT或Middlebury立体数据集的ground truth视差图构建每一图片均包含正负样本的数据集；对所述数据集进行数据扩充处理后，通过极线约束法对所述数据集进行降维处理，获得训练数据；通过所述训练数据训练补入跳跃连接结构的CNN模型，获得图像分类模型；获得待处理图形数据，将所述待处理图像数据带入所述图像分类模型中获得分析数据；对所述分析数据进行空间金字塔池化处理后，通过匹配代价计算及代价聚合处理获得深度图像数据。

在上述基于DCNN深度图生成方法中，优选的，根据KITT或Middlebury立体数据集的ground truth视差图构建每一图片均包含正负样本的数据集包含：于所述ground truth视差图中每一图片的视差图位置提取一正样本和一负样本；根据所述ground truth视差图中所有图片的正负样本获得数据集。

在上述基于DCNN深度图生成方法中，优选的，对所述数据集进行数据扩充处理包含：对所述数据集进行图像平移处理、图像旋转处理、图像镜像处理、图像裁剪处理、图像缩放处理、图像模糊处理、图像亮度变化处理中一个或多个的组合处理。

在上述基于DCNN深度图生成方法中，优选的，通过极线约束法对所述数据集进行降维处理，获得训练数据包含：将所述数据集中相对应的两个图像的像素坐标系通过共同的内参矩阵转换到相机坐标系中；分别对两个相机坐标系进行旋转得到旋转相机坐标系；对所述旋转相机坐标分别进行左、右相机的去畸变处理后，通过左、右相机的内参矩阵将左、右两个相机坐标系重新转换到左、右图像像素坐标系；通过左、右源图像的像素值对左、右图像像素坐标系中左、右图像的像素点进行插值，获得训练数据。

在上述基于DCNN深度图生成方法中，优选的，补入跳跃连接结构的CNN模型包含：通过跳跃连接结构将所述CNN模型中相邻两层编码器的输出特征图相加并提供至所述CNN模型中解码器进行反卷积处理。

在上述基于DCNN深度图生成方法中，优选的，对所述分析数据进行空间金字塔池化处理后，通过匹配代价计算及代价聚合处理获得深度图像数据还包含：对所述深度图像数据进行半全局匹配处理、视差优化处理、视差回归处理、损失优化处理中一个或多个的组合。

本发明还提供一种基于DCNN深度图生成系统，所述系统包含数据集构建模块、数据预处理模块、模型构建模块和匹配计算模块；所述数据集构建模块用于根据KITT或Middlebury立体数据集的ground truth视差图构建每一图片均包含正负样本的数据集；所述数据预处理模块用于对所述数据集进行数据扩充处理后，通过极线约束法对所述数据集进行降维处理，获得训练数据；所述模型构建模块用于通过所述训练数据训练补入跳跃连接结构的CNN模型，获得图像分类模型；所述匹配计算模块用于获得待处理图形数据，将所述待处理图像数据带入所述图像分类模型中获得分析数据；以及对所述分析数据进行空间金字塔池化处理后，通过匹配代价计算及代价聚合处理获得深度图像数据。

在上述基于DCNN深度图生成系统中，优选的，所述数据集构建模块还包含：于所述ground truth视差图中每一图片的视差图位置提取一正样本和一负样本；根据所述groundtruth视差图中所有图片的正负样本获得数据集。

在上述基于DCNN深度图生成系统中，优选的，所述数据预处理模块包含数据扩充单元，所述数据扩充模块用于对所述数据集进行图像平移处理、图像旋转处理、图像镜像处理、图像裁剪处理、图像缩放处理、图像模糊处理、图像亮度变化处理中一个或多个的组合处理。

在上述基于DCNN深度图生成系统中，优选的，所述数据预处理模块包含预处理单元，所述预处理单元用于将所述数据集中相对应的两个图像的像素坐标系通过共同的内参矩阵转换到相机坐标系中；分别对两个相机坐标系进行旋转得到旋转相机坐标系；对所述旋转相机坐标分别进行左、右相机的去畸变处理后，通过左、右相机的内参矩阵将左、右两个相机坐标系重新转换到左、右图像像素坐标系；通过左、右源图像的像素值对左、右图像像素坐标系中左、右图像的像素点进行插值，获得训练数据。

在上述基于DCNN深度图生成系统中，优选的，所述模型构建模块包含：通过跳跃连接结构将所述CNN模型中相邻两层编码器的输出特征图相加并提供至所述CNN模型中解码器进行反卷积处理。

在上述基于DCNN深度图生成系统中，优选的，所述系统还包含优化模块，所述优化模块包含半全局匹配单元和视差优化单元；所述半全局匹配单元用于对所述深度图像数据进行半全局匹配处理；所述视差优化单元用于对半全局匹配处理的所述深度图像数据进行视差优化处理、视差回归处理、损失优化处理中一个或多个的组合。

本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明所提供的基于DCNN深度图生成方法及系统通过可并行的逻辑结构实现特征提取、代价聚合、动态规划等关键操作，化繁为简，大大减少运算时间和资源开销，实现算法的实时性，同时可以通过合理的分块及融合运算很好地支持高清图像作为输入。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例所提供的基于DCNN深度图生成方法的流程示意图；

图2为本发明一实施例所提供的数据扩充的流程示意图；

图3为本发明一实施例所提供的数据预处理的流程示意图；

图4为本发明一实施例所提供的空间金字塔池化处理的原理示意图；

图5为本发明一实施例所提供的半全局匹配的原理示意图；

图6为本发明一实施例所提供的连通域过滤的示意图；

图7为本发明一实施例所提供的基于DCNN深度图生成方法的流程示意图；

图8为本发明一实施例所提供的基于DCNN深度图生成系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

请参考图1所示，本发明所提供的基于DCNN深度图生成方法，具体包含：S101根据KITT或Middlebury立体数据集的ground truth视差图构建每一图片均包含正负样本的数据集；S102对所述数据集进行数据扩充处理后，通过极线约束法对所述数据集进行降维处理，获得训练数据；S103通过所述训练数据训练补入跳跃连接结构的CNN模型，获得图像分类模型；S104获得待处理图形数据，将所述待处理图像数据带入所述图像分类模型中获得分析数据；S105对所述分析数据进行空间金字塔池化处理后，通过匹配代价计算及代价聚合处理获得深度图像数据。

在上述实施例中，请参考图2所示，根据KITT或Middlebury立体数据集的groundtruth视差图构建每一图片均包含正负样本的数据集包含：S201于所述groundtruth视差图中每一图片的视差图位置提取一正样本和一负样本；S202根据所述groundtruth视差图中所有图片的正负样本获得数据集。具体的，实际工作中主要使用KITT或者Middlebury立体数据集的ground truth视差图构建一个二分类的数据集。在每一个图片的视差图的位置上我们提取一个负样本与正样本。这保证了这个数据集包含了相等数量的正样本与负样本。一个正样本是一部分的图像块，一部分来自左边图片另一部分来自右边图片，这个样本的位置中心是与图片一致的三维中心，同时一个负样本是一部分的图像块；其中数据集构建的流程如下：

左图的点P(x,y)对应右图匹配点为q。

正样本：q＝(x-d+Opos,y)；

负样本：q＝(x-d+Oneg,y)；

其中Oneg从[-dataset_neg_high,-dataset_neg_low]以及

[dataset_neg_low,dataset_neg_high]中选；Opos理论上是0，但实际选取一个不超过1的值。

在本发明一实施例中，对所述数据集进行数据扩充处理包含：对所述数据集进行图像平移处理、图像旋转处理、图像镜像处理、图像裁剪处理、图像缩放处理、图像模糊处理、图像亮度变化处理中一个或多个的组合处理。实际工作中，图像平移可以使得网络学习到平移不变的特征；图像旋转可学习旋转不变的特征，有些任务里，目标可能有多种不同的姿态，旋转正好可以弥补样本中姿态较少的问题；图像镜像和旋转的功能类似；图像亮度变化，甚至可以用直方图均衡化；以及图像裁剪和图像缩放；图像模糊处理主要是用不同的模板卷积产生模糊图像；上述数据扩充的各处理环节均可通过现有技术直接获得，为此，本发明在此并不做详细解释；

因实际工作中计算目标点在左右两个视图上形成的视差，首先要把该点在左右视图上两个对应的像点匹配起来；然而，在二维空间上匹配对应点是非常耗时的，为了减少匹配搜索范围，请参考图3所示，在本发明一实施例中，可利用极线约束使得对应点的匹配由二维搜索降为一维搜索，具体的流程如下：S301将所述数据集中相对应的两个图像的像素坐标系通过共同的内参矩阵转换到相机坐标系中；S302分别对两个相机坐标系进行旋转得到旋转相机坐标系；S303对所述旋转相机坐标分别进行左、右相机的去畸变处理后，通过左、右相机的内参矩阵将左、右两个相机坐标系重新转换到左、右图像像素坐标系；S304通过左、右源图像的像素值对左、右图像像素坐标系中左、右图像的像素点进行插值，获得训练数据。

CNN模型一共18层，由12个卷积层的编码器，和5个反卷积层加2个卷积层的解码器，以及1个全卷积层构成。除了第一个卷积层采用5×5卷积核之外，其余的卷积层均使用卷积核3×3，步长1，扩充尺寸1的卷积结构。编码器由三个单元构成，第一个组成单元由卷积核5×5，步长3，扩充尺寸2的卷积层以及3×3的平均池化层组成，分别完成两次下采样；第二个组成单元全部由5层输出通道为256的3×3卷积层构成，再加上一个5×5的平均池化层；第三个组成单元全部由输出通道为512的3×3卷积层构成；在本发明一实施例中，加入特征金字塔模块(FeaturePyramid Module,FPM)，通过跨层连接结构将所述CNN模型中不同层次编码器的输出特征图相加，以增加解码器的特征图的重复利用，以及梯度的跨层流动，再进行解码的反卷积操作，解码器由5个反卷积层及2个卷积核尺寸为5，步长为3，补充边长为2的卷积层组成；5个反卷积层的卷积核尺寸都设置为3，步长为1，补充边长为1，每层依次将特征图尺寸上采样两倍，特征通道数量削减一半，将特征通道数量由256缩减为128再进一步缩减为64，最后一层卷积层保持特征图尺寸不变，特征通道个数为1，以完成彩色图到单通道深度图的映射。在大规模数据集中训练好的图像分类模型对于一副图像有着优良的特征提取功能，并且在模型的前端对图像低层特征有着良好的提取功能，在网络的后端对目标的类别有着良好的特征提取功能，图像的低层特征对于深度恢复任务较为重要。因此利用迁移学习的方法进一步提升模型性能，在完成深度恢复模型的构建之后，将一个50层的残差网络的前18层的参数赋给本模型，利用优良的参数初始化方法减小训练的时间，减小过拟合的风险，并且提升深度恢复的效果，深度恢复模型的损失函数采用一范数的形式。

请参考图4所示，特征金字塔模块FPM是基于在深层网络中实际的感受野要远小于理论上感受野的尺寸这一现实情况提出来的，通过配合全局池化方法来扩大实际感受野的大小，去在整幅图像水平上提取信息进而改善特征的表达能力。单独从一个像素的强度(灰度或RGB值)很难判断环境关系。因此借助物体的环境信息来丰富图像特征能够有助于一致性估计，尤其对于不适定区域。为此，本发明一实施例中，上述步骤S105中主要是将FPM设计用来去除CNN中的尺寸约束；由FPM生成的不同级别的特征图在进行解码的反卷积操作后送入全卷积层用于分类。实际工作中，SPP可设计为5个尺度的平均池化：512*512,256*256,128*128,64*64，32*32，在简化模型测试中，可通过大量的实验来展示不同级别的特征图的影响。

通过上述池化处理后，则可进行匹配代价计算，具体的以左目图像的源匹配点为中心，定义一个窗口D，统计其窗口的灰度值的和，然后在右目图像中逐步计算其左右窗口的灰度和的差值，最后搜索到的差值最小的区域的中心像素即为匹配点；具体计算方式如下：

C(x_i,y_i)＝d_dif(x_i,y_i)+d_org(x_i,y_i)；

其中，C(x,y)表示代价，I表示输入图像(L/R分别对应左/右图，下同)，I^*/I⁺分别表示I的左右插值点，x,y为图像坐标(i表示坐标分量)，I(y)表示像素值。d_diff表示d(x,y)处理后的值，d_org表示处理前的值。

由于代价计算步骤只考虑了局部的相关性，对噪声非常敏感，无法直接用来计算最优视差，所以可进一步通过代价聚合步骤，使聚合后的代价值能够更准确的反应像素之间的相关性。聚合后的新的代价值保存在与匹配代价空间C同样大小的聚合代价空间C_win中，且元素位置一一对应。

其中，m和n为坐标，i和j为对应的增量，d表示视差。

当然，为提高后期图像精准度，在本发明一实施例中，还包含：对所述深度图像数据进行半全局匹配处理、视差优化处理、视差回归处理、损失优化处理中一个或多个的组合，具体的流程如下：

代价函数最优化问题依旧是一个NP完全问题，为高效的解决它，本发明提供一种路径代价聚合的思路，即将像素所有视差下的匹配代价进行像素周围所有路径上的一维聚合得到路径下的路径代价值，然后将所有路径代价值相加得到该像素聚合后的匹配代价值，像素p沿着某条路径r的路径代价计算方法；动态规划的思想就是把求解整个图像深度值的过程分解为一些子过程，逐个求解子过程，具体过程为根据外极线顺序约束，通过在视差图像上寻找最小代价路径得到最终视差图，从而减少了算法的复杂度，动态规划的思想体现了顺序约束和连续性约束；传统的动态规划算法可以很好的处理因局部纹理单一而造成的误匹配，算法复杂度不高，缺点是匹配过程忽略了每条极线间视差的约束，导致了视差图有条纹瑕疵现象，具体请参考图5及如下计算公式所示。

L_r(p,d)＝C(p,d)+min(L_r(p-r,d),

L_r(p-r,d-1)+P₁,

L_r(p-r,d+1)+P₁,

min_iL_r(p-r,i)+P₂)-min_kL_r(p-r,k).

其中，L_r(p,d)表示一条路径的代价和，S(p,d)表示多条路径的总代价，p为当前位置，d表示视差，r表示方向，P₁和P₂表示惩罚因子。

在上述处理的基础上，还可继续进行视差优化处理，如唯一性检测、亚像素增强、左右一致性检测、连通域过滤、中值滤波、双边滤波等，其中唯一性检测是值视差窗口范围内最低代价是次低代价的(1+uniquenessRatio/100)倍时，最低代价对应的视差值才是该像素点的视差，否则该像素点的视差为0。其中uniquenessRatio是一个常数参数；具体计算公式如下：

(100-uniqueness Ratio)/100＞minS/S(P,d)d∈{0,1,...,D}

其中，uniquenessRatio为超参数，minS为最小S(p,d)。

通常情况下，匹配算法计算出来的视差都是一些离散的特定整数值，可满足一般应用的精度要求；但在一些精度要求比较高的场合，如精确的三维重构中，就需要在初始视差获取后采用一些措施对视差进行细化，如匹配代价的曲线拟合、图像滤波、图像分割等亚像素增强。

当左图多个点同时匹配到右图中同一个点时，如何选择正确的匹配关系，毕竟左右图像素应该是一对一的；为此本发明中可采用左右一致性检测的方式来选择正确的匹配关系，如从多对匹配关系中，取匹配代价最低的作为正确匹配关系。匹配条件如下：

abs(dispR[x-d]-d)＞disp12MaxDiff；

d＝dispL[x],x∈[maxD,width]；

abs(dispR[x-d_]-d_)＞disp12MaxDiff；

d_＝dispL[x]+1；

其中disp12MaxDiff为超参数，dispL和dispR表示左右视差图，d_和d分别表示dispL和dispR中的视差。

为进一步提高上述一致性检查的准确性，还可采用连通域过滤来辅助检测，该连通域过滤是对左右一致性检测后的视差图再一次检测误匹配点，根据与当前处理的视差点满足连通条件的像素点个数来判断当前处理的视差点是否是误匹配点，个数小于一个阈值就认为是误匹配点；具体流程如下，请参考图6所示：

(a)从上至下，从左至右依次遍历图像。

(b)如下图A所示，A为遇到一个外轮廓点(其实上遍历过程中第一个遇到的白点即为外轮廓点)，且没有被标记过，则给A一个新的标记号。我们从A点出发，按照一定的规则(这个规则后面详细介绍)将A所在的外轮廓点全部跟踪到，然后回到A点，并将路径上的点全部标记为A的标号。

(c)如下图B所示，如果遇到已经标记过的外轮廓点A′,则从A′向右，将它右边的点都标记为A′的标号，直到遇到黑色像素为止。

(d)如下图C所示，如果遇到了一个已经被标记的点B，且是内轮廓的点(它的正下方像素为黑色像素且不在外轮廓上)，则从B点开始，跟踪内轮廓，路径上的点都设置为B的标号，因为B已经被标记过与A相同，所以内轮廓与外轮廓将标记相同的标号。

(e)如下图D所示，如果遍历到内轮廓上的点，则也是用轮廓的标号去标记它右侧的点，直到遇到黑色像素为止。

(f)结束。

通过上述处理后，获得图像数据还需进一步执行滤噪处理，如中值滤波和双边滤波，其中中值滤波算法是一种非线性的滤波算法，其中心思想是采用模板内所有像素的排序中值作为目标像素的值，进行滤波；一般情况下，若模板大小为m×mm×m，可有效滤除面积小于m2/2m2/2的脉冲像素团。比如3×33×3中值滤波模板可有效滤除面积为1的椒盐噪声；同样的滤波条件下，更新式中值滤波算法在牺牲轻微锐度的基础上滤除了更多噪声；而牺牲的锐度可以通过锐化来补偿。当然，在模板大小为5×5时，传统中值滤波算法也会滤除掉大部分噪声，但此时图像引入了非常多的blurring，导致图像变得更加模糊。双边滤波是一种非线性滤波器，它可以达到保持边缘、降噪平滑的效果。和其他滤波原理一样，双边滤波也是采用加权平均的方法，用周边像素亮度值的加权平均代表某个像素的强度，所用的加权平均基于高斯分布。最重要的是，双边滤波的权重不仅考虑了像素的欧氏距离(如普通的高斯低通滤波，只考虑了位置对中心像素的影响)，还考虑了像素范围域中的辐射差异(例如卷积核中像素与中心像素之间相似程度、颜色强度，深度距离等)，在计算中心像素的时候同时考虑这两个权重。

为准确估算实际工作中连续的视差图，本发明一实时中主要通过视差回归的方式得以获得，具体的，根据由softmax操作得到预测代价Cd来计算每一个视差值d的可能性；预测视差值d'由每一个视差值*其对应的可能性求和得到，如下式：

视差值回归比基于分类的立体匹配方法鲁棒性更强。

因为采用上述视差回归，为此本发明一实施例中可采用了平滑的L1损失函数来训练DCNN网络；平滑的L1在物体检测的边缘箱型回归中应用十分广泛，因为它比L2损失函数具有更高的鲁棒性，对于异常点更不敏感。损失函数定义如下：

式中：

其中，N是标记的像素的数量，d是真实视差值，d'是预测的视差值。

综上所述，本发明所提供的基于DCNN深度图生成方法在实际应用时，整理流程可参考图7所示，具体包含S1构建数据集、S2数据预处理、S3构建网络模块、S4匹配代价计算、S5半全局匹配、S6视差优化、S7视差回归、S8损失优化；各步骤具体实施方式已在前述实例中说明，在此就不再详述。

请参考图8所示，本发明还提供一种基于DCNN深度图生成系统，所述系统包含数据集构建模块、数据预处理模块、模型构建模块和匹配计算模块；所述数据集构建模块用于根据KITT或Middlebury立体数据集的ground truth视差图构建每一图片均包含正负样本的数据集；所述数据预处理模块用于对所述数据集进行数据扩充处理后，通过极线约束法对所述数据集进行降维处理，获得训练数据；所述模型构建模块用于通过所述训练数据训练补入跳跃连接结构的CNN模型，获得图像分类模型；所述匹配计算模块用于获得待处理图形数据，将所述待处理图像数据带入所述图像分类模型中获得分析数据；以及对所述分析数据进行空间金字塔池化处理后，通过匹配代价计算及代价聚合处理获得深度图像数据。

在上述实施例中，所述数据集构建模块还包含：于所述ground truth视差图中每一图片的视差图位置提取一正样本和一负样本；根据所述ground truth视差图中所有图片的正负样本获得数据集。

在上述实施例中，所述数据预处理模块包含数据扩充单元和预处理单元，所述数据扩充模块用于对所述数据集进行图像平移处理、图像旋转处理、图像镜像处理、图像裁剪处理、图像缩放处理、图像模糊处理、图像亮度变化处理中一个或多个的组合处理。所述预处理单元用于将所述数据集中相对应的两个图像的像素坐标系通过共同的内参矩阵转换到相机坐标系中；分别对两个相机坐标系进行旋转得到旋转相机坐标系；对所述旋转相机坐标分别进行左、右相机的去畸变处理后，通过左、右相机的内参矩阵将左、右两个相机坐标系重新转换到左、右图像像素坐标系；通过左、右源图像的像素值对左、右图像像素坐标系中左、右图像的像素点进行插值，获得训练数据。

在上述实施例中，所述模型构建模块包含：通过跳跃连接结构将所述CNN模型中相邻两层编码器的输出特征图相加并提供至所述CNN模型中解码器进行反卷积处理。

在本发明一实施例中，所述系统还包含优化模块，所述优化模块包含半全局匹配单元和视差优化单元；所述半全局匹配单元用于对所述深度图像数据进行半全局匹配处理；所述视差优化单元用于对半全局匹配处理的所述深度图像数据进行视差优化处理、视差回归处理、损失优化处理中一个或多个的组合。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于DCNN深度图生成方法，其特征在于，所述方法包含：

根据KITT或Middlebury立体数据集的ground truth视差图构建每一图片均包含正负样本的数据集；

对所述数据集进行数据扩充处理后，通过极线约束法对所述数据集进行降维处理，获得训练数据；

通过所述训练数据训练补入跳跃连接结构的CNN模型，获得图像分类模型；

获得待处理图形数据，将所述待处理图像数据带入所述图像分类模型中获得分析数据；

对所述分析数据进行空间金字塔池化处理后，通过匹配代价计算及代价聚合处理获得深度图像数据。

2.根据权利要求1所述的基于DCNN深度图生成方法，其特征在于，根据KITT或Middlebury立体数据集的ground truth视差图构建每一图片均包含正负样本的数据集包含：于所述ground truth视差图中每一图片的视差图位置提取一正样本和一负样本；根据所述ground truth视差图中所有图片的正负样本获得数据集。

3.根据权利要求1所述的基于DCNN深度图生成方法，其特征在于，通过极线约束法对所述数据集进行降维处理，获得训练数据包含：

将所述数据集中相对应的两个图像的像素坐标系通过共同的内参矩阵转换到相机坐标系中；

分别对两个相机坐标系进行旋转得到旋转相机坐标系；

对所述旋转相机坐标分别进行左、右相机的去畸变处理后，通过左、右相机的内参矩阵将左、右两个相机坐标系重新转换到左、右图像像素坐标系；

通过左、右源图像的像素值对左、右图像像素坐标系中左、右图像的像素点进行插值，获得训练数据。

4.根据权利要求1所述的基于DCNN深度图生成方法，其特征在于，补入跳跃连接结构的CNN模型包含：通过跳跃连接结构将所述CNN模型中相邻两层编码器的输出特征图相加并提供至所述CNN模型中解码器进行反卷积处理。

5.一种基于DCNN深度图生成系统，其特征在于，所述系统包含数据集构建模块、数据预处理模块、模型构建模块和匹配计算模块；

所述数据集构建模块用于根据KITT或Middlebury立体数据集的ground truth视差图构建每一图片均包含正负样本的数据集；

所述数据预处理模块用于对所述数据集进行数据扩充处理后，通过极线约束法对所述数据集进行降维处理，获得训练数据；

所述模型构建模块用于通过所述训练数据训练补入跳跃连接结构的CNN模型，获得图像分类模型；

所述匹配计算模块用于获得待处理图形数据，将所述待处理图像数据带入所述图像分类模型中获得分析数据；以及对所述分析数据进行空间金字塔池化处理后，通过匹配代价计算及代价聚合处理获得深度图像数据。

6.根据权利要求5所述的基于DCNN深度图生成系统，其特征在于，所述数据集构建模块还包含：于所述ground truth视差图中每一图片的视差图位置提取一正样本和一负样本；根据所述ground truth视差图中所有图片的正负样本获得数据集。

7.根据权利要求5所述的基于DCNN深度图生成系统，其特征在于，所述数据预处理模块包含预处理单元，所述预处理单元用于将所述数据集中相对应的两个图像的像素坐标系通过共同的内参矩阵转换到相机坐标系中；分别对两个相机坐标系进行旋转得到旋转相机坐标系；对所述旋转相机坐标分别进行左、右相机的去畸变处理后，通过左、右相机的内参矩阵将左、右两个相机坐标系重新转换到左、右图像像素坐标系；通过左、右源图像的像素值对左、右图像像素坐标系中左、右图像的像素点进行插值，获得训练数据。

8.根据权利要求5所述的基于DCNN深度图生成系统，其特征在于，所述系统还包含优化模块，所述优化模块包含半全局匹配单元和视差优化单元；

所述半全局匹配单元用于对所述深度图像数据进行半全局匹配处理；

所述视差优化单元用于对半全局匹配处理的所述深度图像数据进行视差优化处理、视差回归处理、损失优化处理中一个或多个的组合。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至4任一所述方法的计算机程序。