CN111739077A

CN111739077A - 基于深度神经网络单目水下图像深度估计和颜色矫正方法

Info

Publication number: CN111739077A
Application number: CN202010541535.5A
Authority: CN
Inventors: 叶昕辰; 黄宏威; 徐睿; 樊鑫
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-10-02
Anticipated expiration: 2040-06-15
Also published as: US20210390339A1; US11295168B2; CN111739077B

Abstract

本发明公开了基于深度神经网络单目水下图像深度估计和颜色矫正方法，属于图像处理和计算机视觉领域。该框架包括两个部分：风格转化子网络和任务子网络，其中，风格转化子网络基于生成对抗网络构建，用于将水下图像的表观信息迁移到陆上图像，获取丰富有且有效的合成标注数据，而任务子网络用压栈式网络结构将水下图像深度估计和颜色矫正两任务联合起来，进行协同学习来提高各自的精度，并通过域适应的策略缩小合成水下图像和真实水下图像之间的差距，提高网络对真实水下图像的处理能力。本方法程序简单，易于实现；系统容易构建，用深度神经网络即可端到端的从单张真实水下图像得到对应的高质量的深度图和实现矫正颜色的水下图像。

Description

基于深度神经网络单目水下图像深度估计和颜色矫正方法

技术领域

本发明属于图像处理和计算机视觉领域，具体涉及到一种基于深度神经网络的单目水下图像深度估计和颜色矫正方法。

背景技术

水下图像的深度估计和颜色矫正是水下监测、机器人操作、水下视觉导航等水下作业的重要基础。然而，水下深度估计和颜色矫正一直受到能见度低，几何畸变等水下环境的挑战，使得处理起来比陆上环境更加困难。海水中微粒介质和气泡等因素导致可见光在传播过程中的散射和衰弱，导致采集的图像颜色有偏差。对于深度估计来说，深度信息的获取主要采用立体匹配技术，以及其他一些专业深度传感装置。立体匹配技术利用双目相机采集的两张对应的图片进行相关性匹配和三角测量方法进行深度推断。其他的深度获取方式多数采用深度传感装置，比如时间飞行(Time-of-Flight，TOF)相机，微软的Kinect相机等。这些方法尽管在陆上环境取得了不错的效果，但是在水下环境中，由于成像限制和光学畸变，结果并不理想。随着深度学习的发展，利用深度卷积神经网络可以从单张陆上彩色图片直接获取对应的深度信息，解决了传统方法中有关成像限制的弊端，但仍旧存在问题：相对于陆上的情况，水下图像的有效标注数据集十分稀少，无法获得实际水下场景的深度图和颜色校正后的图像，而现有的方法大多需要有效的深度图等监督信息进行训练，才能构建较为准确的深度估计网络。

基于以上问题，本发明设计了一个基于深度神经网络的单目水下图像深度估计和颜色矫正框架，同时完成两个水下相关的任务。该框架包括两个部分：风格转化子网络和任务子网络。风格转化子网络基于生成对抗网络(I.J.Goodfellow,J.Pouget-Abadie,M.Mirza,B.Xu,D.Warde-Farley,S.Ozair,A.Courville,and Y.Bengio,“Generativeadversarial nets,”in NIPS,2014,pp.2672-2680.)构建，用于将水下图像的表观信息迁移到陆上图像，获取丰富且有效的合成标注数据。任务子网络将水下图像的深度估计和颜色矫正两个任务结合起来，协同学习来提高各自精度。

发明内容

本发明旨在克服现有技术的不足，提供了一种基于图像风格转化子网络和任务子网络的高质量深度预测和颜色矫正方法；设计了一个基于深度神经网络进行高质量深度预测和颜色矫正的框架，该框架包括两个部分：风格转化子网络和任务子网络，其中，风格转化子网络基于生成对抗网络构建，用于将水下图像的表观信息迁移到陆上图像，获取丰富有且有效的合成标注数据，而任务子网络用压栈式网络结构将水下图像深度估计和颜色矫正两任务联合起来，进行协同学习来提高各自的精度，并通过域适应的策略缩小合成水下图像和真实水下图像之间的差距，提高网络对真实水下图像的处理能力。

本发明的具体技术方案为，一种基于风格转化子网络和任务子网络的高质量深度预测和颜色矫正的方法，包括下列步骤：

1)准备初始数据：初始数据为陆上标注数据集，包括用来进行训练的陆上彩色图和对应的深度图；此外，针对实际水下环境采集少量的水下真实彩色图像，用于辅助训练和测试；

2)风格转化子网络的构建：

2-1)采用生成对抗网络模型建立风格转化子网络，其中生成器采用U-Net结构(O.Ronneberger,P.Fischer,and T.Brox,“U-net:Convolutional networks forbiomedical image segmentation,”in MICCAI,2015,pp.234-241.)，由编码器和解码器组成。

2-2)判别器由三部分组成，第一部分是一个由Conv和带泄露修正线性单元(LeakyReLU)组成的模块；第二部分是三组由Conv，BN和Leaky ReLU组成的模块；第三部分是一个sigmoid函数层，用于输出判别结果。

2-3)利用风格损失函数和内容损失函数实现对内容的保留和风格的转换，并构建整个风格转化子网络的总损失函数。

3)任务子网络的构建：

3-1)利用两个生成对抗网络分别实现深度估计和颜色矫正，其中生成器和判别器的结构都和风格转化子网络中的生成器和判别器的结构相同；在此基础上，将深度估计生成器和颜色矫正生成器串联起来，组成压栈式网络结构。

3-2)利用两个判别器来实现合成水下图像和真实水下图像之间的域适应，增强网络对真实水下图像的处理能力，以解决特征层面的域适应问题。

3-3)构建整个任务子网络的总损失函数。

4)基于步骤2)和步骤3)得到两个子网络进行训练。

4-1)首先，利用陆上标注数据及水下真实数据对风格转化子网络进行训练，得到收敛的训练模型，从而获得有效的合成水下标注数据。

4-2)然后，利用风格转化子网络得到的合成水下标注数据集训练任务子网络，同时加入真实水下图像一起训练，从而缩小真实水下域和合成水下域之间的差别，提高网络处理真实水下图像的能力。

4-3)按照风格转化自网络和任务子网络的顺序将两个网络串联在一起，利用总损失函数统一训练并微调整个网络框架。当训练完毕，即可以利用训练好的模型在测试集上进行测试，得到相应输入图像的输出结果。

本发明的有益效果是：

本发明基于深度神经网络，首先搭建一个基于生成对抗网络的风格转化子网络，得到有效的合成标注数据，然后再搭建一个任务子网络用于实现深度估计和颜色矫正。该系统具有以下特点：

1、系统容易构建，用深度神经网络即可端到端的从单张水下彩色图得到对应的高质量的深度图和实现矫正颜色的水下图像；

2、程序简单，易于实现；

3、本方法通过将水下图像的表观信息迁移到陆上图像中，使得网络有充足的数据来学习深度估计和颜色矫正；

4、本方法采用特征域适应方法，有效的减少了陆上图像和水下图像这两个域之间的差距。

附图说明

图1是实际流程图。

图2是网络结构图；其中In-air image和In-air Depth Map是陆上图像与其对应的深度图；L_con是重建损失；G_s是风格转化网络中的生成器；Style Adaptation Network是风格转化子网络；Synthetic Underwater Image是合成水下图像；

是对抗损失；D_s是风格转化子网络中的判别器；L_sty是风格转化损失；Real Underwater Image是真实水下图像；Shared表示共享参数；D_fd是任务子网络中深度估计的域适应判别器；L_fd是任务子网络中深度估计任务的域判别损失函数；G_d是任务子网络中的深度估计生成器；GT Depth是合成水下图像的真实深度图；Predicted depth是预测的合成水下图像的深度图；PredictedReal Depth是预测的真实水下图像的深度图；Task Loss表示任务损失；D_fc表示任务子网络中颜色矫正的域适应判别器；L_fc是任务子网络中颜色矫正任务的域判别损失；G_c是任务子网络中的颜色矫正生成器；Task Network是任务子网络；GT in-air Image和Predictedin-air Image是真实的陆上图像和预测出来的陆上图像；Corrected Image是经过颜色矫正后的水下图像；Target Domain是目标域。

图3是颜色矫正结果与其他方法的比较；其中(a)不同的真实水下图像；(b)FIP方法；(c)CBF方法；(d)R-cycle方法；(e)Pix2Pix方法；(f)本发明的结果。

图4是深度估计的结果与其他方法的比较；其中(a)不同的真实水下图像；(b)Laina方法；(c)本发明的结果。

具体实施方式

下面结合实施例和附图对本发明的基于风格转化和任务子网络的高质量深度估计和颜色矫正方法做出详细说明：

一种基于深度神经网络的单目水下图像深度估计和颜色矫正方法，如图1所示，所述方法包括下列步骤；

1)准备初始数据；

1-1)使用三个具有代表性的真实水下数据集，包括两个视频数据集(R.Liu,X.Fan,M.Zhu,M.Hou,and Z.Luo,“Real-world underwater enhancement:Challenges,benchmarks,and solutions,”arXiv preprint arXiv:1901.05320,2019)和一个图像数据集(C.Li,C.Guo,W.Ren,R.Cong,J.Hou,S.Kwong,and D.Tao,“An underwater imageenhancement benchmark dataset and beyond,”arXiv preprint arXiv:1901.05495,2019)，将两个视频数据集中的视频进行剪切获得大概500帧真实水下图像，后一个图像数据集包含大概100张图像；

1-2)使用NYU RGB-D v2数据集(N.Silberman,D.Hoiem,P.Kohli,and R.Fergus,“Indoor segmentation and support inference from rgbd images,”in ECCV,2012,pp.746-760.)作为本发明的陆上数据集，其中包含1449张陆上彩色图像和其相应的深度图；本发明使用其中795对进行训练，654张进行测试。

2)风格转化子网络的构建：

2-1)采用生成对抗网络模型建立风格转化子网络，其中生成器采用U-Net结构(O.Ronneberger,P.Fischer,and T.Brox,“U-net:Convolutional networks forbiomedical image segmentation,”in MICCAI,2015,pp.234-241.)，编码器由四个相似的模块组成，每个模块都包含一个密集连接层(G.Huang,Z.Liu,L.V.D.Maaten,andK.Q.Weinberger,“Densely connected convolutional networks,”in IEEE CVPR,2017,pp.2261-2269.)和一个过渡层。密集连接层由3个密集块组成，过渡层由批标准化(BN)，激活函数(ReLU)，卷积(Conv)和平均池化组成；解码器由四个对称的模块组成，每个模块都是反卷积(DConv)，BN和ReLU的组合。为了获得多尺度的信息，本发明在整个生成器的结构最后加入了多尺度模块(L.C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,and A.L.Yuille,“Deeplab:Semantic image segmentation with deep convolutional nets,atrousconvolution,and fully connected crfs,”IEEE TPAMI,vol.PP,no.99,pp.1-1,2017.)。

2-3)利用风格损失函数和内容损失函数实现对内容的保留和风格的转换，风格损失函数L_sty的公式如下：

式中G_s表示生成器，L_s表示风格损失函数中需要关注的所有图层，

表示第l层的风格表征，x_t表示真实图像，y_s表示陆上彩色图像，d_s表示相对应的深度图，

表示二范数的平方。

内容损失函数L_con如下：

式中L_c表示内容损失函数中需要关注的所有图层，

表示第l层的特征图。

由此，整个风格转化子网络的总损失函数L_SAN为：

式中

表示风格转换网络部分的生成对抗损失函数，是生成对抗网络中的常用损失函数；λ_a和λ_b表示权重参数，取值均为1。

3)任务子网络的构建：

3-2)利用两个判别器来实现合成水下图像和真实水下图像之间的域适应，增强网络对真实水下图像的处理能力，以解决特征层面的域适应问题。域适应判别器的结构和3-1)中的判别器结构相同。每个判别器有一个特殊的损失函数来解决特征层面的域适应，公式如下：

式中

表示深度估计任务的域判别损失函数，

表示深度估计任务的判别器，

表示期望，f表示从生成器中最后一层转置层得到的特征，x_t和x_s分别表示真实水下图像和合成图像，X_t和X_s分别表示真实水下图像集和合成图像集，

和

分别表示x_t和x_s上的特征，

和

分别表示x_t和x_s满足于X_t和X_s域的期望。

颜色矫正任务的域判别损失函数的公式如下：

式中

表示所要求的损失函数，

表示深度估计任务的判别器。

3-3)构建整个任务子网络的总损失函数。

首先，设计任务损失函数用于促使预测图逼近实际图，促进正确的回归，公式如下：

L_t＝||d_s-G_d(x_s)||₁+||y_s-G_c(G_d(x_s))||₁

式中L_t表示所要求的损失函数，G_d和G_c分别表示深度估计和颜色矫正部分的生成器，x_s表示合成的水下数据，d_s表示合成的水下数据对应的真实深度图，y_s表示合成水下数据对应的真实陆上图像，||·||₁表示1范数。

由此，整个任务网络的总损失L_TN为：

式中

和

分别表示深度估计和颜色矫正部分的生成对抗损失，是生成对抗网络中的常用损失；λ_t、λ_d和λ_c表示平衡系数，分别取值为10，0.1，0.1。整个网络结构如图2所示。

4)基于步骤(2)和步骤(3)得到两个子网络进行训练。

4-1)首先，利用陆上配对数据(NYU RGB-D v2)及水下真实数据对风格转化子网络进行训练，得到收敛的训练模型，从而获得有效的合成水下标注数据。

4-3)按照风格转化自网络和任务子网络的顺序将两个网络串联在一起，利用总损失函数L统一训练并微调整个网络框架,方程如下：

L＝L_SAN+L_TN

训练时设置动量参数为0.9，学习率被初始化为2e-4，学习率每一周期下降0.9。当训练完毕，即可以利用训练好的模型在测试集上进行测试，得到相应输入图像的输出结果。

本实施例中颜色矫正的处理结果及与其它方法的对比如图3所示：(a)不同的真实水下图像；(b)FIP方法(Q.Chen,J.Xu,and V.Koltun,“Fast image processing withfullyconvolutional networks”in IEEE ICCV,Oct 2017,pp.2516-2525)；(c)CBF方法(C.O.Ancuti,C.Ancuti,V.C.De,and P.Bekaert,“Color balance and fusion forunderwater image enhancement,”IEEE TIP,vol.27,no.1,pp.379-393,2018.)；(d)R-cycle方法(C.Li,J.Guo,and C.Guo,“Emerging from water:Underwater image colorcorrection based on weakly supervised color transfer,”IEEE Signal ProcessingLetters,vol.25,no.3,pp.323-327,2018.)；(e)Pix2Pix方法(P.Isola,J.Zhu,T.Zhou,andA.A.Efros,“Image-to-image translation with conditional adversarial networks,”in IEEE CVPR,July 2017,pp.5967-5976.)；(f)本发明的结果。

本实施例中深度估计的处理结果及与其它方法的对比如图4所示：a)不同的真实水下图像；(b)Laina方法(I.Laina,C.Rupprecht,V.Belagiannis,F.Tombari,andN.Navab,“Deeper depth prediction with fully convolutional residual networks,”in Fourth International Conference on 3d Vision,2016,pp.239-248.)；(c)本发明的结果。

结果表明我们在深度估计和颜色矫正任务都取得了最好的效果。