CN111476835A

CN111476835A - 多视角图像一致性的无监督深度预测方法、系统、装置

Info

Publication number: CN111476835A
Application number: CN202010437242.2A
Authority: CN
Inventors: 徐士彪; 张宇阳; 孟维亮; 张吉光; 张晓鹏
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-07-31
Anticipated expiration: 2040-05-21
Also published as: CN111476835B

Abstract

本发明属于领域，具体涉及了一种多视角图像一致性的无监督深度预测方法、系统、装置，旨在解决深度预测中监督方法费时费力，而无监督方法预测结果精度低的问题。本发明包括：基于无监督密集深度网络以及无监督姿态网络构建图像深度预测网络；获取多个不同视图的图像簇集合作为训练样本集合；结合图像簇中不同视角图像的颜色一致性、深度一致性及深度平滑损失构建总损失函数；进行无监督的深度预测网络的训练；通过训练好的网络获取输入图像的预测深度。本发明避开了监督学习方法中需要的高质量大规模数据集和相应真值深度标注，降低成本、提高效率，同时结合了多视图的颜色一致性、深度一致性和深度平滑损失，实现了高精度无监督的深度预测。

Description

多视角图像一致性的无监督深度预测方法、系统、装置

技术领域

本发明属于计算机视觉领域，具体涉及了一种多视角图像一致性的无监督深度预测方法、系统、装置。

背景技术

图像深度信息的精确预测是计算机视觉中的基本问题，也是视觉感知和三维场景理解领域中最具有挑战性的话题之一，而它也是众多计算机视觉应用的基础，包括自动驾驶汽车、机器人导航、虚拟现实等。人们为解决这个问题做了很多努力。传统的方法试图通过人造特征和精心调整的参数来预测深度图。然而，它们受限于人工特征的能力，对于复杂的场景很难准确有效的得到预测结果。

近年来，深度神经网络在图像分类、分割和目标检测等传统的计算机视觉问题上取得了巨大的成功。它们也被用于深度预测问题，例如有些研究将深度预测视为监督回归任务。这些监督学习方法通常需要高质量的大规模数据集和相应的真值深度标注。然而，获取这样的标注是很昂贵的，因为需要使用特殊的设备(激光、深度相机)来采集深度信息，并且需要很长的采集时间。为了突破这个限制，一些方法是尝试使用无监督框架，以避免使用上述标注信息。这些工作的关键思想是利用输入图像(立体或多视图)之间的颜色对应关系来构造训练网络的损失函数。现有的无监督方法不需要标记数据集，大大降低了收集数据的成本，但是，其图像深度信息的预测质量却不如监督方法。

总的来说，深度预测问题中监督学习方法由于需要获取大量高质量的标注，实现起来费时费力，而场景的多样性和复杂性，也导致采用无监督学习方法进行深度预测，其结果的精度远远不能满足要求。

发明内容

为了解决现有技术中的上述问题，即深度预测中监督方法费时费力，而无监督方法预测结果精度低的问题，本发明提供了一种多视角图像一致性的无监督深度预测方法，该深度预测方法包括：

通过训练好的图像深度预测网络获取输入图像的预测深度；所述图像深度预测网络基于无监督密集深度网络以及无监督姿态网络构建，其训练方法为：

步骤S10，获取多个不同视图的图像簇集合作为训练样本集合；所述训练样本集合中每一个训练样本为一个图像簇；所述图像簇包括1个当前图像和n个当前图像的近邻图像；

步骤S20，结合所述图像簇中不同视角图像的颜色一致性、深度一致性及深度平滑损失构建所述图像深度预测网络的总损失函数；

步骤S30，随机选取所述训练样本集合中一个训练样本，迭代进行图像深度预测以及图像深度预测网络的优化，直至所述总损失函数值低于设定值或达到设定的训练次数，得到训练好的图像深度预测网络。

在一些优选的实施例中，所述无监督密集深度网络基于UNet网络构建，包括编码器和解码器；

所述编码器包括多个密集块；所述解码器包括多个反密集块；

所述密集块与反密集块由紧密相连的卷积单元叠加而成。

在一些优选的实施例中，所述无监督姿态网络基于不同视角间图像像素之间的投影关系及像素深度值，获取不同视角间图像像素之间的预测深度值；

所述不同视角间图像像素之间的投影关系为：

其中，p_s＝[u_s,v_s]^T和p_t＝[u_t,v_t]^T分别为t视角图像与s视角图像中相同点对应像素坐标，d_s和d_t分别代表p_s、p_t对应的深度值，K为相机内参矩阵，T_t→s为相机t视角到s视角的位姿变换矩阵。

在一些优选的实施例中，所述总损失函数为：

其中，L_c为颜色一致性损失函数，L_d为深度一致性损失函数，L_s(D,I)为深度平滑损失函数，λ_c、λ_d、λ_s分别为颜色一致性损失函数、深度一致性损失函数、深度平滑损失函数相对于总损失函数的权重，l代表图像的尺度。

在一些优选的实施例中，所述颜色一致性损失函数为：

L_c＝L_color,s→t+L_color,t→s

其中，L_color,s→t代表s视角图像到t视角图像的相似度度量，L_color,t→s代表t视角图像到s视角图像的相似度度量；

所述相似度度量，其计算方法为：

其中，SSIM(i_s,i_t)和SSIM(i_t,i_s)分别代表求i_s到i_t的相似度和i_t到i_s之间的相似度，i_t和i_s分别为t视角和s视角对应的图像像素位置的颜色值；α为预先设定的常数；N为图像的像素个数。

在一些优选的实施例中，所述深度一致性损失函数为：

L_d＝L_depth,s→t+L_depth,t→s

其中，L_dept,h→s代表s视角图像到t视角图像的深度一致性，L_depth,t→s代表t视角图像到s视角图像的深度一致性；

所述深度一致性，其计算方法为：

其中，d_s和d_t分别代表t视角图像与s视角图像中相同点对应像素的深度值，d'_s和d'_t分别代表通过无监督姿态网络获取的t视角图像与s视角图像中相同点对应像素的预测深度值，N为图像的像素个数。

在一些优选的实施例中，所述深度平滑损失函数为：

其中，▽I(p)和▽D(p)分别为s视角图像I中的像素p和对应的深度图D中的像素p的梯度，T代表矩阵转置，N为图像的像素个数。

本发明的另一方面，提出了一种多视角图像一致性的无监督深度预测系统，该深度预测系统包括输入模块、深度预测模块和输出模块；

所述输入模块，配置为获取输入图像或多个不同视图的图像簇集合并输入；所述图像簇集合中每一个图像簇作为一个训练样本；所述图像簇包括1个当前图像和n个当前图像的近邻图像；

所述深度预测模块，配置为基于所述输入图像，调用训练好的图像深度预测网络获取所述输入图像的预测深度；

所述输出模块，配置为输出获取的输入图像的预测深度；

其中，所述深度预测模块包括网络构建模块、损失函数构建模块、网络训练模块和网络存储模块；

所述网络构建模块，配置为基于无监督密集深度网络以及无监督姿态网络构建图像深度预测网络；

所述损失函数构建模块，配置为结合所述图像簇中不同视角图像的颜色一致性、深度一致性及深度平滑损失构建所述图像深度预测网络的总损失函数；

所述网络训练模块，配置为随机选取一个训练样本，迭代进行图像深度预测以及图像深度预测网络的优化，直至所述总损失函数值低于设定值或达到设定的训练次数；

所述网络存储模块，配置为存储训练好的图像深度预测网络。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的多视角图像一致性的无监督深度预测方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的多视角图像一致性的无监督深度预测方法。

本发明的有益效果：

本发明多视角图像一致性的无监督深度预测方法，先对稠密深度预测进行无监督网络结构设计；然后，构建联合多视图的颜色一致性、深度一致性及深度平滑损失；最后，通过无监督网络的训练与优化，获得图像深度预测网络，避开了有监督学习方法中需要的高质量的大规模数据集和相应的真值深度标注，降低成本、提高效率，同时，本发明的无监督学习方法结合了多视图的颜色一致性、深度一致性和深度平滑损失，深度预测结果质量高。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明多视角图像一致性的无监督深度预测方法的流程示意图；

图2是本发明多视角图像一致性的无监督深度预测方法一种实施例的无监督密集深度网络结构示意图；

图3是本发明多视角图像一致性的无监督深度预测方法一种实施例的深度一致性示意图；

图4是本发明多视角图像一致性的无监督深度预测方法一种实施例的输入图像、深度预测结果、真值结果对比图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的一种多视角图像一致性的无监督深度预测方法，该深度预测方法包括：

本发明一种实施例的多视角图像一致性的无监督深度预测方法，各步骤详细描述如下：

通过训练好的图像深度预测网络获取输入图像的预测深度。

图像深度预测网络基于无监督密集深度网络(DenseDepthNet)以及无监督姿态网络(unPoseNet)构建。如图2所示，为本发明多视角图像一致性的无监督深度预测方法一种实施例的无监督密集深度网络结构示意图，网络基于UNet网络构建，包括由密集块(Denseblock)组成的编码器和反向密集块组成的解码器(upDenseblock)。图中，密集块3、密集块6、密集块12、密集块8代表网络相应位置分别叠加了3个、6个、12个、8个密集块(即稠密块)；反向密集块8、反向密集块12、反向密集块6、反向密集块3代表网络相应位置分别叠加了8个、12个、6个、3个反向密集块(即反向稠密块)。密集块和反向密集块都是由紧密相连的卷积单元(1×1卷积和3×3卷积)叠加而成，其结构能够利用之前的所有输出进行更高效的特征计算；反向密集块利用双线性上采样模块对特征图进行处理，不仅接收前一个直接连接层的输出，还通过跳层连接接收对应的密集块传输过来的信息。

为了构造完全无监督损失来训练图像深度预测网络，需要通过相机转换来消除不同视图中图像之间的差距，使用无监督姿态网络(unPoseNet)来预测输入图像对的相对变换，以计算后续阶段的非监督损失。无监督姿态网络基于不同视角间图像像素之间的投影关系及像素深度值，获取不同视角间图像像素之间的预测深度值。

不同视角间图像像素之间的投影关系如式(1)所示：

本发明方法将当前图像的视角定义为s视角，当前图像的近邻图像的视角定义为t视角。

步骤S10，获取多个不同视图的图像簇集合作为训练样本集合；所述训练样本集合中每一个训练样本为一个图像簇；所述图像簇包括1个当前图像和n个当前图像的近邻图像。

步骤S20，结合所述图像簇中不同视角图像的颜色一致性、深度一致性及深度平滑损失构建所述图像深度预测网络的总损失函数，如式(2)所示：

颜色一致性损失：对于同一3D点在不同视图下无遮挡的像素p_t和它对应的像素p_s，假设它们有相同的颜色，例如i_t＝I_t(u_t,v_t)和i_s＝I_s(u_s,v_s)是相等的。因此，i_t和i_s间的色差可以作为颜色一致性损失监督信号。

颜色一致性损失函数如式(3)所示：

L_c＝L_color,s→t+L_color,t→s 式(3)

为了更好地量化这种颜色差异，采用一种鲁棒的图像相似性度量方法SSIM和L1范式获取s视角图像到t视角图像的相似度度量和t视角图像到s视角图像的相似度度量，如式(4)和式(5)所示：

其中，SSIM(i_s,i_t)和SSIM(i_t,i_s)分别代表求i_s到i_t的相似度和i_t到i_s之间的相似度，i_t和i_s分别为t视角和s视角对应的图像像素位置的颜色值；α为预先设定的常数；N为图像的像素个数。本发明一个实施例中，α＝0.85。

深度一致性损失：为了利用两两序列图像深度图之间的像素对应关系，如图3所示，为本发明多视角图像一致性的无监督深度预测方法一种实施例的深度一致性示意图，对于在t视图下的像素p_t＝[u_t,v_t]^T和它的深度值d_t＝(u_t,v_t)，可以通过式(1)得到对应的像素坐标p_s＝[u_s,v_s]^T和它的深度值d_s＝(u_s,v_s)。使用来自s视图的深度图D_s，还可以查询深度值d_s'＝D_s(u_s,v_s)。

深度一致性损失函数如式(6)所示：

L_d＝L_depth,s→t+L_depth,t→s 式(6)

深度一致性损失定义为d_s和d'_s差的L1范式，s视角图像到t视角图像的深度一致性和t视角图像到s视角图像的深度一致性分别如式(7)和式(8)所示：

应用深度一致性损失是提高深度估计精度的一种直接而有效的方法。深度一致性损失强制深度估计满足几何约束，这潜在地消除了由无真值的无监督学习的性质引起的歧义。

深度光滑损失：非监督损失函数中固有的噪声对整个训练过程产生了负面影响，为了尽可能减少这种影响，采用深度平滑损失作为正则化来提高密集深度网络的输出。

深度平滑损失函数如式(9)所示：

本发明使用TensorFlow实现网络结构及损失函数，整个网络在一个单独的泰坦GPU上训练，为了充分利用多视图约束，在训练阶段使用多个图像来组成训练簇(batch)，因为损失是以成对的方式来描述的。具体来说，训练簇(batch)X中的一个样本x包含n+1个具有相似视图的图像，即1个当前图像和n个当前图像的近邻图像。中心视图的图像表示为I_t，样本x中剩下的图像为I_s1,...,I_sn，它们分别和I_t配对来计算多视图损失。通过这种方式，网络受到更强的约束，从而得到更好的结果。

在网络训练期间，优化器中的学习率设置为l_r＝0.002，训练簇(batch)大小设置为4，训练损失函数的权重设置为λ_d＝0.01、λ_c＝1.0、λ_s＝0.5。

最终通过求解上述网络结构训练，得到精确的稠密深度预测结果。本发明使用常见错误度量(绝对相对误差、平方相对误差、RMSE、log RMSE等)来评估预测性能。

如图4所示，为本发明多视角图像一致性的无监督深度预测方法一种实施例的输入图像、深度预测结果、真值结果对比图，上面3幅图为输入图像簇，中间3幅图为采用本发明方法获取的深度预测结果图，下面3幅图为输入图像簇对应的真值图，从本发明深度预测结果与真值图比对可知，本发明在无监督情况下，实现了高精度无监督的稠密深度预测。

本发明第二实施例的多视角图像一致性的无监督深度预测系统，该深度预测系统包括输入模块、深度预测模块和输出模块；

所述输出模块，配置为输出获取的输入图像的预测深度；

为了更清晰地对本发明多视角图像一致性的无监督深度预测方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的多视角图像一致性的无监督深度预测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的多视角图像一致性的无监督深度预测方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的多视角图像一致性的无监督深度预测方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。