CN108961198B

CN108961198B - 一种多风格生成对抗网络的水下图像合成方法及其应用

Info

Publication number: CN108961198B
Application number: CN201810747615.9A
Authority: CN
Inventors: 俞智斌; 李娜; 郑海永; 郑冰
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2021-06-08
Anticipated expiration: 2038-07-09
Also published as: CN108961198A

Abstract

本发明提供一种多风格生成对抗网络的水下图像合成方法及其应用，采集陆地上的RGB‑D图像，构建陆地RGB‑D图像数据集，采集不同风格的水下图像作为真实的多风格水下域图像，构建基于CycleGAN生成对抗网络模型，将陆地域图像和水下域图像输入到网络模型中，通过训练和迭代反馈，将陆地域图像转换为合成的多风格水下域图像，该合成的多风格水下域图像包含了水下真实图像的纹理和颜色等特征。此外，本发明将合成的多风格水下域图像与RGB‑D图像数据集中的陆地深度图像作为水下RGB‑D训练数据集输入到有监督的深度估计网络中，得到水下场景深度估计，为水域环境的进一步地研究提供了基础。

Description

一种多风格生成对抗网络的水下图像合成方法及其应用

技术领域

本发明涉及水下计算机视觉技术领域，特别涉及一种多风格生成对抗网络的水下图像合成方法及其应用。

背景技术

水下视觉是海洋、湖泊等水域研究的基础。在复杂的水域环境中，用设备获取具有水域信息的图像数据集比较困难。由于强烈的吸收和散射的影响，水下成像和分析都有一定的限制，制约了水下视觉深度估计等技术的发展。

根据匹配有深度信息的陆地数据集合成特定水质参数的水下数据集在水下视觉研究中起着至关重要的作用。然而，当前水下图像合成的方法较少，合成水下图像的条件需要对应的水质参数且仅能合成单一风格水下图像。

发明内容

本发明提供一种多风格生成对抗网络的水下图像合成方法及其应用，以解决现有的水下图像合成方法少，且对合成图像的条件要求较高，无法合成多风格水下图像等技术问题，该合成方法将陆地图像转换为多种不同风格的水下图像，并对水下场景进行深度估计，为水域环境的进一步地研究提供了基础，比如基于对水下场景的深度估计，进而对水下机器人路径导航以及水下场景三维重建的研究提供基础。

一种多风格生成对抗网络的水下图像合成方法，包括如下步骤：

采集陆地上的RGB-D图像，构建陆地RGB-D图像数据集，其中，所述RGB-D图像数据集中的彩色图像作为陆地域图像；

采集不同风格的水下图像作为真实的多风格水下域图像；

构建基于CycleGAN生成对抗网络模型，将所述陆地域图像和所述水下域图像输入到所述网络模型中，通过训练和迭代反馈，将所述陆地域图像转换为合成的多风格水下域图像：

其中，所述网络模型包括第一生成器、第一判别器、第二判别器以及比较器；

将所述陆地域图像转换为合成的多风格水下域图像的具体步骤为：

将所述陆地域图像与特征图相加后输入所述第一生成器，所述第一生成器输出合成的多风格水下域图像；

将所述合成的多风格水下域图像以及所述真实的多风格水下域图像输入到所述第一判别器，用以判别输入到所述第一判别器的图像的真假；

同时将所述合成的多风格水下域图像输入到所述第二判别器，用以估计输入到所述第二判别器的图像的风格标签；

所述比较器对所述估计的风格标签与所述真实的多风格水下域图像的实际风格标签进行比较，用以判别所述多风格水下图像所属的风格；

通过损失函数优化所述网络模型，得到合成的多风格水下域图像。

进一步地，所述网络模型还包括地第二生成器和第三判别器，所述合成的多风格水下域图像输入到所述第二生成器中，得到复原的陆地域图像，所述陆地域图像和所述复原的陆地域图像输入到所述第三判别器，用以判别输入到所述第三判别器的图像的真假。

进一步地，所述的损失函数包括：在所述陆地域图像与所述合成的多风格水下域图像之间添加ssim损失函数，用以保持所述陆地域图像转换为所述合成的多风格水下域图像的结构不变性；在所述复原的陆地域图像与所述陆地域图像之间添加cycle-consistancy损失函数，用以使得所述复原的陆地域图像与所述陆地域图像趋于一致；在所述真实的多风格水下域图像与所述合成的多风格水下域图像之间添加color损失函数，用以保持颜色的相似性；在所述真实的多风格水下域图像与所述合成的多风格水下域图像之间添加style损失函数，用以提高不同风格的水下图像分类的准确率。

进一步地，所述ssim损失函数具体为：

式中，

X为陆地图像合成水下图像的过程，G(x|c)为合成的多风格水下域图像，x为陆地域图像，y为真实的多风格水下域图像，c为特征向量，(x,G(x|c))为合成数据对，N为像素p的总数目μ_x为x的均值，μ_y为y的均值，σ_x为x的标准差，σ_y为y的标准差，σ_xy为x和y的协方差，c₁、c₂为常数，为了避免分母为0而维持稳定，这里取c₁＝0.01²、c₂＝0.03²。

进一步地，所述特征图为特征向量c通过全连接层后输出的特征图，其中，特征向量c为n*1特征向量，n为风格的种类数。

一种多风格生成对抗网络的水下图像合成方法的应用，将所述合成的多风格水下域图像与所述RGB-D图像数据集中的陆地深度图像作为水下RGB-D训练数据集输入到有监督的深度估计网络中，得到水下场景深度估计。

本发明提供了一种多风格生成对抗网络的水下图像合成方法及其应用，具有以下优点：

1)利用少量不配对的陆地域图像和不同风格的真实的多风格水下域图像，通过无监督深度学习方法将陆地域图像转换为合成的多风格水下域图像；

2)提出了多种损失函数，如ssim loss,style loss,color loss等，使得合成的多风格水下域图像具有水下真实图像的纹理和颜色等特征；

3)利用合成的水下域图像去估计真实水下图像的深度为水域环境的进一步地研究提供了基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图来获得其他的附图。

图1(a)为水下图像转换为陆地图像的流程图；

图1(b)为陆地图像转换为水下图像的流程图；

图2为多风格生成对抗网络的水下图像合成方法流程图；

图3为添加不同损失函数后的合成的多风格水下域图像对比图；

图4为在对抗网络中不同位置添加偏置项的示意图；

图5为不同位置添加偏置项时合成的多风格水下域图像对比图；

图6为不同合成方法合成的多风格水下域图像对比图；

图7为不同合成方法在深度估计上的有效性的对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的组件或具有相同或类似功能的组件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

需要说明的是在本发明中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

实施例：

本申请实施例为本申请的优选实施例。

一种多风格生成对抗网络的水下图像合成方法，利用少量不配对的陆地域图像和不同风格的真实的多风格水下域图像(这里所说的不配对是指数张陆地图像对应数张水下图像，但是不需要它们之间满足图像结构内容以及数量一一对应的关系)，通过无监督深度学习方法将陆地域图像转换为合成的多风格水下域图像，并且合成的多风格水下域图像包含了水下真实图像的纹理和颜色等特征，该方法包括如下步骤：

首先，利用可以获取深度信息图像的设备，如Kinect units(体感游戏设备)或者binocular stereo cameras(双目立体摄像机)采集清晰地陆地上的RGB-D图像(RGB-D图像包括彩色图像以及相关的陆地深度图像)，构建陆地RGB-D图像数据集，其中，RGB-D图像数据集中的彩色图像作为陆地域图像。采集不同风格的水下图像作为真实的多风格水下域图像，在本实施例中，不同风格包括不同的颜色风格：蓝、绿、白、黄(水域的颜色)以及不同的浑浊度：轻、中、浑。

然后，构建基于CycleGAN生成对抗网络模型，将所述陆地域图像和所述水下域图像输入到所述网络模型中，通过训练和迭代反馈，将所述陆地域图像转换为合成的多风格水下域图像，需要说明的是该网络模型是一个循环的过程，即陆地图像转换为水下图像以及水下图像转换为陆地图像，本发明中关注于陆地图像转换为水下图像的环节。其中，所述网络模型包括第一生成器、第二生成器、第一判别器、第二判别器、第三判别器以及比较器。图1(a)所示为陆地图像转换为水下图像再复原为陆地的流程图，图中，x为陆地域图像，

为复原的陆地域图像，G为第一生成器，F为第二生成器，y为真实的多风格水下域图像，

为合成的多风格水下域图像，D_G为第一判别器，D_S为第二判别器，其工作原理为：将陆地域图像x通过第一生成器G得到合成的多风格水下域图像

合成的多风格水下域图像

通过第二生成器F得到复原的陆地域图像

将合成的多风格水下域图像

和真实的多风格水下域图像y分别输入到第一判别器D_G和第二判别器D_S，其中，第一判别器D_G用以判别输入到第一判别器D_G的图像的真假，第二判别器D_S用以判别合成的多风格水下图像

所属的风格。

图1(b)所示为水下图像转换为陆地图像再复原为水下图像的流程图，图中，D_F为第三判别器，其工作原理为：将真实的多风格水下域图像y输入到与图1(b)共享权值的第二生成器F得到转换的陆地域图像

将合成的陆地域图像

输入到与图1(b)共享权值的第一生成器G得到复原真实的多风格水下域图像y，将陆地域图像x和复原的陆地域图像

输入到第三判别器D_F中用以判别输入到第三判别器D_F的图像的真假。

如图2所示，下面将详细介绍所述陆地域图像转换为合成的多风格水下域图像的具体步骤为：

将陆地域图像x与特征图M相加后输入第一生成器G，第一生成器G输出合成的多风格水下域图像

为了能够合成多风格的图像，在本实施例中，网络模型的起始端加入了一个偏置项——特征图M，特征图M是特征向量c通过全连接层resize成的一张特征图，特征向量c为n*1特征向量，n为风格的种类数，在本实施例中n＝7，即：1-蓝、2-绿、3-白、4-黄、5-轻、6-中、7-浑，那么特征向量c代表的每一个种类可以表示为(1,0,0,0,0,0,0)、(0,1,0,0,0,0,0)、(0,0,1,0,0,0,0)、(0,0,0,1,0,0,0)……以此类推。第一生成器G由编码器、残差网络和解码器构成，编码器的卷积网络将图像经过不同大小的卷积核，在图像上移动获取原图像中的特征，其主要作用是提取图像特征，组合不同相近特征，并保留原始图像特征。残差网络将输入部分直接添加到输出，以确保网络输入内容直接作用到后面的网络层，保留图像低级特征，以减小输入输出的偏差。解码器主要利用了转置卷积，与上面的编码器呈对称结构，从特征向量中还原出低级特征，从而恢复图片。

将合成的多风格水下域图像

以及真实的多风格水下域图像y输入到第一判别器D_G，用以判别输入到第一判别器D_G的图像的真假；第一判别器D_G主要为卷积网络，将合成的多风格水下域图像

以及真实的多风格水下域图像y一起输入到第一判别器D_G，经过卷积神经网络后，提取特征后返回预测的概率值，范围是0～1之间的数字，其中，1表示真，0表示假。

同时将合成的多风格水下域图像

输入到第二判别器D_S，用以估计输入到第二判别器D_S的图像的风格标签；第二判别器D_S主要是一个AlexNet分类网络结构，输出估计的风格标签的概率值。

所述比较器对所述估计的风格标签与所述真实的多风格水下域图像的实际风格标签进行比较，用以判别所述多风格水下图像所属的风格；在对抗训练中为第一生成器G生成准确的多风格水下域图像提供一个有利的引导。举例说明，如1-蓝，2-绿，3-白，4-黄，5-轻，6-中，7-浑，那么风格标签分别是(1,0,0,0,0,0,0)、(0,1,0,0,0,0,0)、(0,0,1,0,0,0,0)、(0,0,0,1,0,0，0)……以此类推。

整个网络为生成对抗网络的损失，通过损失函数优化所述网络模型，得到合成的多风格水下域图像。具体为：

在本实施例中为网络添加的损失函数包括：

1)在所述陆地域图像与所述合成的多风格水下域图像之间添加ssim损失函数，用以保持所述陆地域图像转换为所述合成的多风格水下域图像的结构不变性；

2)在所述复原的陆地域图像与所述陆地域图像之间添加cycle-consistancy损失函数，用以使得所述复原的陆地域图像与所述陆地域图像趋于一致；

3)在所述真实的多风格水下域图像与所述合成的多风格水下域图像之间添加color损失函数，用以保持颜色的相似性；

4)在所述真实的多风格水下域图像与所述合成的多风格水下域图像之间添加style损失函数，用以提高合成的不同风格的水下图像分类的准确率。

对该对抗网络模型进行前向传输和后向反馈，使得网络根据输入的陆地域图像和真实的多风格水下域图像进行训练和学习；

输出损失函数的loss值，其中，X为陆地图像合成水下图像的过程，G(x|c)为合成的多风格水下域图像，x为陆地域图像，y为真实的水下域图像，c为特征向量，(x,G(x|c))为合成数据对，Y为水下图像转换为陆地图像的过程，需要说明的是在本发明中只关注陆地图像合成水下图像的过程，但为了保持网络的对称性，仍需要将网络结构设计为双向的对称结构。

cGAN loss，使得合成图像更接近于真实图像，采用最小二乘损失函数：

式中，D_Y为判别器，

表示随机变量x,y服从P_data概率分布的期望值。

cycle-consistancy loss，参考CycleGAN网络结构：

color loss，对合成的多风格水下域图像和真实地水下域图像作L1损失：

Style loss，用第二分类器对合成的多风格水下域图像与真实地水下域图像标签做分类以提高分类准确率，优化其准确率组成的损失函数：

ssim loss，用陆地域图像和合成的多风格水下域图像做ssim损失计算，称为结构相似性loss，保持多风格转换的同时，物体内容和结构没有太大的变化，只改变颜色和纹理特性：

式中，

N为像素p的总数目μ_x为x的均值，μ_y为y的均值，σ_x为x的标准差，σ_y为y的标准差，σ_xy为x和y的协方差，c₁、c₂为常数，为了避免分母为0而维持稳定，这里取c₁＝0.01²、c₂＝0.03²。

综上，陆地图像合成水下图像过程总的损失函数为：

L(G,D_Y,D_S)＝L_cGAN(G,D_Y,X,Y)+αL_cyc(G)+βL_color+γL_ssim+δL_style(G,D_S)

式中，α、β、γ、δ为超参数，根据经验设置它们的比例为：10：2：1：1。

通过降低损失函数loss值和观察合成的多风格水下域图像的质量来评价整个对抗网络的性能。

在水下图像转换为陆地图像的过程中，所述网络模型还包括第二生成器和第三判别器，所述合成的多风格水下域图像输入到所述第二生成器中，得到复原的陆地域图像，所述陆地域图像和所述复原的陆地域图像输入到所述第三判别器，用以判别输入到所述第三判别器的图像的真假。

本发明的实施例还介绍了一种多风格生成对抗网络的水下图像合成方法的应用，即将所述合成的多风格水下域图像与所述RGB-D图像数据集中的陆地深度图像作为水下RGB-D训练数据集输入到有监督的深度估计网络中，通过迭代训练模型，在网络收敛的情况下，对真实的多风格水下域图像进行深度估计预测，得到水下场景深度估计，为水域环境的进一步研究提供了基础。

下面将通过实验进一步验证本发明的有效性，包括在对抗网络中添加loss的有效性、在对抗网络中添加偏置项的位置的有效性、采用不同方法合成的水下域图像的效果对比以及与其他方法相比本发明方法在深度估计上的有效性。

1、在对抗网络中添加loss的有效性：

如图3所示，在添加了本实施例中所述的总的损失函数时，合成的图像更加逼真形象(第一行所示图片)，UMGAN是指本发明设计的网络模型Underwater MultistyleGenerative Adversarial Network的简称。第二行所示图片为仅添加生成对抗损失时不能保持住图片原有的结构信息。第三行所示图片为总的损失函数去掉cycle-consistancyloss时生成的图片发生了很大的形变。第四行所示图片为总的损失函数去掉style loss时生成的图片有些区分度不够。第五行所示图片为总的损失函数去掉ssim loss时生成的图片，可以看出有些家具发生了扭曲。第六行所示图片为总的损失函数去掉color loss时生成的图片，对于颜色区分度不准确。

如表1、表2所示为，在去掉不同部分损失函数之后，用真实的多风格水下域图像训练AlexNet分类器和Inception v3分类器得到的风格分类的准确率：

表1不同分类器对七种风格分类的准确率

Table 10：Accuracy of the classifiers with seven color styles.

表1中的七种风格为：蓝、绿、白、黄、轻、中、浑。

表2不同分类器对四种风格分类的准确率

Table 9：Accuracy of the classifiers with four color styles.

表2中的四种风格为：蓝、绿、白、黄。

2、在对抗网络中添加偏置项的位置的有效性

图4所示为在对抗网络中不同位置添加偏置项的示意图，分别为方式一在对抗网络的输入端添加偏置项，方式二在对抗网络的中部添加偏置项以及方式三在对抗网络的中部以及尾部添加偏置项。图5所示为不同方式下合成的水下域图像，从图中可以看出，方式二和方式三合成的水下域图像会有些阴影或真实的多风格水下域图像的物体信息遗留。因此，在对抗网络的输入端添加偏置项更有利于对抗网络对真实的多风格水下域图像的学习和合成。

3、采用不同方法合成的水下域图像的效果对比

表3不同方法的优缺点对比情况表

模型	不配对的数据集	不需要水质参数	多风格
				UMGAN	√	√	√
Pix2pix		√
				Neural style	√	√
CycleGAN	√	√
				WaterGAN	√

如图6所示，本发明的合成图像方法与pix2pix，Neural Style，CycleGAN和WaterGAN方法进行比较，Pix2pix在不配对的图像上合成效果很差，它的训练需要成对的数据，合成效果看出图片完全失去了图像物品的结构信息。Neural Style方法在合成图像上只能单张进行合成，每张图片合成速度都需要几秒钟，不能一次性合成大量图片，合成图片颜色不均匀和有些形变。CycleGAN合成图像效果略好，但是有时候会发生颜色失真现象和反色现象，背景颜色会发生变化一些。WaterGAN合成水下图像时，需要指定真实水域的水质参数，需要陆地深度图一并作为输入条件输入网络，如果没有这些参数，无法合成具有准确颜色的水下图像。本发明提供的模型不但不需要水质参数，可以一次性合成多种风格的水下图像，也不需要成对的陆地水下数据集。

表4使用不同模型获得的Inception Scores

表5使用不同模型获得的水下彩色图像质量评价(UCIQE)得分

表6使用不同模型获得的水下图像质量测量(UIQM)得分

4、与其他方法相比本发明方法在深度估计上的有效性

主观评价上：如图7所示，第一行是真实的水下图像(无真实深度信息)，第二到七行是深度估计网络Pix2pix用不同方法的RGB-D数据集训练后，真实水下场景测试的结果。第二行是使用陆地RGB-D数据集，第三行是使用的WaterGAN方法合成的蓝色RGB-D数据集，第四行是使用的CycleGAN方法合成的蓝色RGB-D数据集，第五行是CycleGAN方法合成的蓝绿黄白RGB-D数据集，第六行是本发明方法合成的蓝色RGB-D数据集，第七行是本发明方法合成的蓝绿黄白RGB-D数据集。可以通过图片看出，本发明方法在蓝色(单类)图像训练后测试结果效果较好，在四类水下图片训练后测试结果也是比较好的。具体在人的头部以及珊瑚边缘和鱼等细节的部分明显可以很容易的看出更多深度信息。

客观评价：采用不同评价指标，用合成的图像进行测试，对于δ(深度阈值)越高越好，rmse(均方根误差),rmsle(均方根对数误差),abs_rel(绝对相关误差),sq_rel(平方相关误差)越低越好，VIF(视觉信息保真度)，SSIM(结构相似性)，PSNR(峰值信噪比)越高越好，从表7、表8中可以看出本发明提供的图像合成方法优于其它方法。

表7采用Pix2pix网络进行深度估计的客观评价指标

表8采用FCRN网络进行深度估计的客观评价指标

以上具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多风格生成对抗网络的水下图像合成方法，其特征在于，包括如下步骤：

采集不同风格的水下图像作为真实的多风格水下域图像；

将所述陆地域图像与特征图相加后输入所述第一生成器，所述第一生成器输出合成的多风格水下域图像；所述特征图为特征向量c通过全连接层后输出的特征图，其中，特征向量c为n*1特征向量，n为风格的种类数；

2.根据权利要求1所述的多风格生成对抗网络的水下图像合成方法，其特征在于，所述网络模型还包括地第二生成器和第三判别器，所述合成的多风格水下域图像输入到所述第二生成器中，得到复原的陆地域图像，所述陆地域图像和所述复原的陆地域图像输入到所述第三判别器，用以判别输入到所述第三判别器的图像的真假。

3.根据权利要求2所述的多风格生成对抗网络的水下图像合成方法，其特征在于，所述的损失函数包括：在所述陆地域图像与所述合成的多风格水下域图像之间添加ssim损失函数，用以保持所述陆地域图像转换为所述合成的多风格水下域图像的结构不变性；在所述复原的陆地域图像与所述陆地域图像之间添加cycle-consistancy损失函数，用以使得所述复原的陆地域图像与所述陆地域图像趋于一致；在所述真实的多风格水下域图像与所述合成的多风格水下域图像之间添加color损失函数，用以保持颜色的相似性；在所述真实的多风格水下域图像与所述合成的多风格水下域图像之间添加style损失函数，用以提高不同风格的水下图像分类的准确率。

4.根据权利要求3所述的多风格生成对抗网络的水下图像合成方法，其特征在于，所述ssim损失函数具体为：

式中，

G(x|c)为合成的多风格水下域图像，x为陆地域图像，y为真实的多风格水下域图像，c为特征向量，(x,G(x|c))为合成数据对，N为像素p的总数目μ_x为x的均值，μ_y为y的均值，σ_x为x的标准差，σ_y为y的标准差，σ_xy为x和y的协方差，c₁、c₂为常数。