CN108961198B - 一种多风格生成对抗网络的水下图像合成方法及其应用 - Google Patents
一种多风格生成对抗网络的水下图像合成方法及其应用 Download PDFInfo
- Publication number
- CN108961198B CN108961198B CN201810747615.9A CN201810747615A CN108961198B CN 108961198 B CN108961198 B CN 108961198B CN 201810747615 A CN201810747615 A CN 201810747615A CN 108961198 B CN108961198 B CN 108961198B
- Authority
- CN
- China
- Prior art keywords
- underwater
- image
- land
- images
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 13
- 239000003086 colorant Substances 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 abstract description 13
- 238000011160 research Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 27
- 239000008186 active pharmaceutical agent Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000002194 synthesizing effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000014653 Carica parviflora Nutrition 0.000 description 1
- 241000243321 Cnidaria Species 0.000 description 1
- 101150050927 Fcgrt gene Proteins 0.000 description 1
- 102100026120 IgG receptor FcRn large subunit p51 Human genes 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种多风格生成对抗网络的水下图像合成方法及其应用,采集陆地上的RGB‑D图像,构建陆地RGB‑D图像数据集,采集不同风格的水下图像作为真实的多风格水下域图像,构建基于CycleGAN生成对抗网络模型,将陆地域图像和水下域图像输入到网络模型中,通过训练和迭代反馈,将陆地域图像转换为合成的多风格水下域图像,该合成的多风格水下域图像包含了水下真实图像的纹理和颜色等特征。此外,本发明将合成的多风格水下域图像与RGB‑D图像数据集中的陆地深度图像作为水下RGB‑D训练数据集输入到有监督的深度估计网络中,得到水下场景深度估计,为水域环境的进一步地研究提供了基础。
Description
技术领域
本发明涉及水下计算机视觉技术领域,特别涉及一种多风格生成对抗网络的水下图像合成方法及其应用。
背景技术
水下视觉是海洋、湖泊等水域研究的基础。在复杂的水域环境中,用设备获取具有水域信息的图像数据集比较困难。由于强烈的吸收和散射的影响,水下成像和分析都有一定的限制,制约了水下视觉深度估计等技术的发展。
根据匹配有深度信息的陆地数据集合成特定水质参数的水下数据集在水下视觉研究中起着至关重要的作用。然而,当前水下图像合成的方法较少,合成水下图像的条件需要对应的水质参数且仅能合成单一风格水下图像。
发明内容
本发明提供一种多风格生成对抗网络的水下图像合成方法及其应用,以解决现有的水下图像合成方法少,且对合成图像的条件要求较高,无法合成多风格水下图像等技术问题,该合成方法将陆地图像转换为多种不同风格的水下图像,并对水下场景进行深度估计,为水域环境的进一步地研究提供了基础,比如基于对水下场景的深度估计,进而对水下机器人路径导航以及水下场景三维重建的研究提供基础。
一种多风格生成对抗网络的水下图像合成方法,包括如下步骤:
采集陆地上的RGB-D图像,构建陆地RGB-D图像数据集,其中,所述RGB-D图像数据集中的彩色图像作为陆地域图像;
采集不同风格的水下图像作为真实的多风格水下域图像;
构建基于CycleGAN生成对抗网络模型,将所述陆地域图像和所述水下域图像输入到所述网络模型中,通过训练和迭代反馈,将所述陆地域图像转换为合成的多风格水下域图像:
其中,所述网络模型包括第一生成器、第一判别器、第二判别器以及比较器;
将所述陆地域图像转换为合成的多风格水下域图像的具体步骤为:
将所述陆地域图像与特征图相加后输入所述第一生成器,所述第一生成器输出合成的多风格水下域图像;
将所述合成的多风格水下域图像以及所述真实的多风格水下域图像输入到所述第一判别器,用以判别输入到所述第一判别器的图像的真假;
同时将所述合成的多风格水下域图像输入到所述第二判别器,用以估计输入到所述第二判别器的图像的风格标签;
所述比较器对所述估计的风格标签与所述真实的多风格水下域图像的实际风格标签进行比较,用以判别所述多风格水下图像所属的风格;
通过损失函数优化所述网络模型,得到合成的多风格水下域图像。
进一步地,所述网络模型还包括地第二生成器和第三判别器,所述合成的多风格水下域图像输入到所述第二生成器中,得到复原的陆地域图像,所述陆地域图像和所述复原的陆地域图像输入到所述第三判别器,用以判别输入到所述第三判别器的图像的真假。
进一步地,所述的损失函数包括:在所述陆地域图像与所述合成的多风格水下域图像之间添加ssim损失函数,用以保持所述陆地域图像转换为所述合成的多风格水下域图像的结构不变性;在所述复原的陆地域图像与所述陆地域图像之间添加cycle-consistancy损失函数,用以使得所述复原的陆地域图像与所述陆地域图像趋于一致;在所述真实的多风格水下域图像与所述合成的多风格水下域图像之间添加color损失函数,用以保持颜色的相似性;在所述真实的多风格水下域图像与所述合成的多风格水下域图像之间添加style损失函数,用以提高不同风格的水下图像分类的准确率。
进一步地,所述ssim损失函数具体为:
式中,X为陆地图像合成水下图像的过程,G(x|c)为合成的多风格水下域图像,x为陆地域图像,y为真实的多风格水下域图像,c为特征向量,(x,G(x|c))为合成数据对,N为像素p的总数目μx为x的均值,μy为y的均值,σx为x的标准差,σy为y的标准差,σxy为x和y的协方差,c1、c2为常数,为了避免分母为0而维持稳定,这里取c1=0.012、c2=0.032。
进一步地,所述特征图为特征向量c通过全连接层后输出的特征图,其中,特征向量c为n*1特征向量,n为风格的种类数。
一种多风格生成对抗网络的水下图像合成方法的应用,将所述合成的多风格水下域图像与所述RGB-D图像数据集中的陆地深度图像作为水下RGB-D训练数据集输入到有监督的深度估计网络中,得到水下场景深度估计。
本发明提供了一种多风格生成对抗网络的水下图像合成方法及其应用,具有以下优点:
1)利用少量不配对的陆地域图像和不同风格的真实的多风格水下域图像,通过无监督深度学习方法将陆地域图像转换为合成的多风格水下域图像;
2)提出了多种损失函数,如ssim loss,style loss,color loss等,使得合成的多风格水下域图像具有水下真实图像的纹理和颜色等特征;
3)利用合成的水下域图像去估计真实水下图像的深度为水域环境的进一步地研究提供了基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图来获得其他的附图。
图1(a)为水下图像转换为陆地图像的流程图;
图1(b)为陆地图像转换为水下图像的流程图;
图2为多风格生成对抗网络的水下图像合成方法流程图;
图3为添加不同损失函数后的合成的多风格水下域图像对比图;
图4为在对抗网络中不同位置添加偏置项的示意图;
图5为不同位置添加偏置项时合成的多风格水下域图像对比图;
图6为不同合成方法合成的多风格水下域图像对比图;
图7为不同合成方法在深度估计上的有效性的对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的组件或具有相同或类似功能的组件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
需要说明的是在本发明中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例:
本申请实施例为本申请的优选实施例。
一种多风格生成对抗网络的水下图像合成方法,利用少量不配对的陆地域图像和不同风格的真实的多风格水下域图像(这里所说的不配对是指数张陆地图像对应数张水下图像,但是不需要它们之间满足图像结构内容以及数量一一对应的关系),通过无监督深度学习方法将陆地域图像转换为合成的多风格水下域图像,并且合成的多风格水下域图像包含了水下真实图像的纹理和颜色等特征,该方法包括如下步骤:
首先,利用可以获取深度信息图像的设备,如Kinect units(体感游戏设备)或者binocular stereo cameras(双目立体摄像机)采集清晰地陆地上的RGB-D图像(RGB-D图像包括彩色图像以及相关的陆地深度图像),构建陆地RGB-D图像数据集,其中,RGB-D图像数据集中的彩色图像作为陆地域图像。采集不同风格的水下图像作为真实的多风格水下域图像,在本实施例中,不同风格包括不同的颜色风格:蓝、绿、白、黄(水域的颜色)以及不同的浑浊度:轻、中、浑。
然后,构建基于CycleGAN生成对抗网络模型,将所述陆地域图像和所述水下域图像输入到所述网络模型中,通过训练和迭代反馈,将所述陆地域图像转换为合成的多风格水下域图像,需要说明的是该网络模型是一个循环的过程,即陆地图像转换为水下图像以及水下图像转换为陆地图像,本发明中关注于陆地图像转换为水下图像的环节。其中,所述网络模型包括第一生成器、第二生成器、第一判别器、第二判别器、第三判别器以及比较器。图1(a)所示为陆地图像转换为水下图像再复原为陆地的流程图,图中,x为陆地域图像,为复原的陆地域图像,G为第一生成器,F为第二生成器,y为真实的多风格水下域图像,为合成的多风格水下域图像,DG为第一判别器,DS为第二判别器,其工作原理为:将陆地域图像x通过第一生成器G得到合成的多风格水下域图像合成的多风格水下域图像通过第二生成器F得到复原的陆地域图像将合成的多风格水下域图像和真实的多风格水下域图像y分别输入到第一判别器DG和第二判别器DS,其中,第一判别器DG用以判别输入到第一判别器DG的图像的真假,第二判别器DS用以判别合成的多风格水下图像所属的风格。
图1(b)所示为水下图像转换为陆地图像再复原为水下图像的流程图,图中,DF为第三判别器,其工作原理为:将真实的多风格水下域图像y输入到与图1(b)共享权值的第二生成器F得到转换的陆地域图像将合成的陆地域图像输入到与图1(b)共享权值的第一生成器G得到复原真实的多风格水下域图像y,将陆地域图像x和复原的陆地域图像输入到第三判别器DF中用以判别输入到第三判别器DF的图像的真假。
如图2所示,下面将详细介绍所述陆地域图像转换为合成的多风格水下域图像的具体步骤为:
将陆地域图像x与特征图M相加后输入第一生成器G,第一生成器G输出合成的多风格水下域图像为了能够合成多风格的图像,在本实施例中,网络模型的起始端加入了一个偏置项——特征图M,特征图M是特征向量c通过全连接层resize成的一张特征图,特征向量c为n*1特征向量,n为风格的种类数,在本实施例中n=7,即:1-蓝、2-绿、3-白、4-黄、5-轻、6-中、7-浑,那么特征向量c代表的每一个种类可以表示为(1,0,0,0,0,0,0)、(0,1,0,0,0,0,0)、(0,0,1,0,0,0,0)、(0,0,0,1,0,0,0)……以此类推。第一生成器G由编码器、残差网络和解码器构成,编码器的卷积网络将图像经过不同大小的卷积核,在图像上移动获取原图像中的特征,其主要作用是提取图像特征,组合不同相近特征,并保留原始图像特征。残差网络将输入部分直接添加到输出,以确保网络输入内容直接作用到后面的网络层,保留图像低级特征,以减小输入输出的偏差。解码器主要利用了转置卷积,与上面的编码器呈对称结构,从特征向量中还原出低级特征,从而恢复图片。
将合成的多风格水下域图像以及真实的多风格水下域图像y输入到第一判别器DG,用以判别输入到第一判别器DG的图像的真假;第一判别器DG主要为卷积网络,将合成的多风格水下域图像以及真实的多风格水下域图像y一起输入到第一判别器DG,经过卷积神经网络后,提取特征后返回预测的概率值,范围是0~1之间的数字,其中,1表示真,0表示假。
所述比较器对所述估计的风格标签与所述真实的多风格水下域图像的实际风格标签进行比较,用以判别所述多风格水下图像所属的风格;在对抗训练中为第一生成器G生成准确的多风格水下域图像提供一个有利的引导。举例说明,如1-蓝,2-绿,3-白,4-黄,5-轻,6-中,7-浑,那么风格标签分别是(1,0,0,0,0,0,0)、(0,1,0,0,0,0,0)、(0,0,1,0,0,0,0)、(0,0,0,1,0,0,0)……以此类推。
整个网络为生成对抗网络的损失,通过损失函数优化所述网络模型,得到合成的多风格水下域图像。具体为:
在本实施例中为网络添加的损失函数包括:
1)在所述陆地域图像与所述合成的多风格水下域图像之间添加ssim损失函数,用以保持所述陆地域图像转换为所述合成的多风格水下域图像的结构不变性;
2)在所述复原的陆地域图像与所述陆地域图像之间添加cycle-consistancy损失函数,用以使得所述复原的陆地域图像与所述陆地域图像趋于一致;
3)在所述真实的多风格水下域图像与所述合成的多风格水下域图像之间添加color损失函数,用以保持颜色的相似性;
4)在所述真实的多风格水下域图像与所述合成的多风格水下域图像之间添加style损失函数,用以提高合成的不同风格的水下图像分类的准确率。
对该对抗网络模型进行前向传输和后向反馈,使得网络根据输入的陆地域图像和真实的多风格水下域图像进行训练和学习;
输出损失函数的loss值,其中,X为陆地图像合成水下图像的过程,G(x|c)为合成的多风格水下域图像,x为陆地域图像,y为真实的水下域图像,c为特征向量,(x,G(x|c))为合成数据对,Y为水下图像转换为陆地图像的过程,需要说明的是在本发明中只关注陆地图像合成水下图像的过程,但为了保持网络的对称性,仍需要将网络结构设计为双向的对称结构。
cGAN loss,使得合成图像更接近于真实图像,采用最小二乘损失函数:
cycle-consistancy loss,参考CycleGAN网络结构:
color loss,对合成的多风格水下域图像和真实地水下域图像作L1损失:
Style loss,用第二分类器对合成的多风格水下域图像与真实地水下域图像标签做分类以提高分类准确率,优化其准确率组成的损失函数:
ssim loss,用陆地域图像和合成的多风格水下域图像做ssim损失计算,称为结构相似性loss,保持多风格转换的同时,物体内容和结构没有太大的变化,只改变颜色和纹理特性:式中,N为像素p的总数目μx为x的均值,μy为y的均值,σx为x的标准差,σy为y的标准差,σxy为x和y的协方差,c1、c2为常数,为了避免分母为0而维持稳定,这里取c1=0.012、c2=0.032。
综上,陆地图像合成水下图像过程总的损失函数为:
L(G,DY,DS)=LcGAN(G,DY,X,Y)+αLcyc(G)+βLcolor+γLssim+δLstyle(G,DS)
式中,α、β、γ、δ为超参数,根据经验设置它们的比例为:10:2:1:1。
通过降低损失函数loss值和观察合成的多风格水下域图像的质量来评价整个对抗网络的性能。
在水下图像转换为陆地图像的过程中,所述网络模型还包括第二生成器和第三判别器,所述合成的多风格水下域图像输入到所述第二生成器中,得到复原的陆地域图像,所述陆地域图像和所述复原的陆地域图像输入到所述第三判别器,用以判别输入到所述第三判别器的图像的真假。
本发明的实施例还介绍了一种多风格生成对抗网络的水下图像合成方法的应用,即将所述合成的多风格水下域图像与所述RGB-D图像数据集中的陆地深度图像作为水下RGB-D训练数据集输入到有监督的深度估计网络中,通过迭代训练模型,在网络收敛的情况下,对真实的多风格水下域图像进行深度估计预测,得到水下场景深度估计,为水域环境的进一步研究提供了基础。
下面将通过实验进一步验证本发明的有效性,包括在对抗网络中添加loss的有效性、在对抗网络中添加偏置项的位置的有效性、采用不同方法合成的水下域图像的效果对比以及与其他方法相比本发明方法在深度估计上的有效性。
1、在对抗网络中添加loss的有效性:
如图3所示,在添加了本实施例中所述的总的损失函数时,合成的图像更加逼真形象(第一行所示图片),UMGAN是指本发明设计的网络模型Underwater MultistyleGenerative Adversarial Network的简称。第二行所示图片为仅添加生成对抗损失时不能保持住图片原有的结构信息。第三行所示图片为总的损失函数去掉cycle-consistancyloss时生成的图片发生了很大的形变。第四行所示图片为总的损失函数去掉style loss时生成的图片有些区分度不够。第五行所示图片为总的损失函数去掉ssim loss时生成的图片,可以看出有些家具发生了扭曲。第六行所示图片为总的损失函数去掉color loss时生成的图片,对于颜色区分度不准确。
如表1、表2所示为,在去掉不同部分损失函数之后,用真实的多风格水下域图像训练AlexNet分类器和Inception v3分类器得到的风格分类的准确率:
表1不同分类器对七种风格分类的准确率
Table 10:Accuracy of the classifiers with seven color styles.
表1中的七种风格为:蓝、绿、白、黄、轻、中、浑。
表2不同分类器对四种风格分类的准确率
Table 9:Accuracy of the classifiers with four color styles.
表2中的四种风格为:蓝、绿、白、黄。
2、在对抗网络中添加偏置项的位置的有效性
图4所示为在对抗网络中不同位置添加偏置项的示意图,分别为方式一在对抗网络的输入端添加偏置项,方式二在对抗网络的中部添加偏置项以及方式三在对抗网络的中部以及尾部添加偏置项。图5所示为不同方式下合成的水下域图像,从图中可以看出,方式二和方式三合成的水下域图像会有些阴影或真实的多风格水下域图像的物体信息遗留。因此,在对抗网络的输入端添加偏置项更有利于对抗网络对真实的多风格水下域图像的学习和合成。
3、采用不同方法合成的水下域图像的效果对比
表3不同方法的优缺点对比情况表
模型 | 不配对的数据集 | 不需要水质参数 | 多风格 |
UMGAN | √ | √ | √ |
Pix2pix | √ | ||
Neural style | √ | √ | |
CycleGAN | √ | √ | |
WaterGAN | √ |
如图6所示,本发明的合成图像方法与pix2pix,Neural Style,CycleGAN和WaterGAN方法进行比较,Pix2pix在不配对的图像上合成效果很差,它的训练需要成对的数据,合成效果看出图片完全失去了图像物品的结构信息。Neural Style方法在合成图像上只能单张进行合成,每张图片合成速度都需要几秒钟,不能一次性合成大量图片,合成图片颜色不均匀和有些形变。CycleGAN合成图像效果略好,但是有时候会发生颜色失真现象和反色现象,背景颜色会发生变化一些。WaterGAN合成水下图像时,需要指定真实水域的水质参数,需要陆地深度图一并作为输入条件输入网络,如果没有这些参数,无法合成具有准确颜色的水下图像。本发明提供的模型不但不需要水质参数,可以一次性合成多种风格的水下图像,也不需要成对的陆地水下数据集。
表4使用不同模型获得的Inception Scores
表5使用不同模型获得的水下彩色图像质量评价(UCIQE)得分
表6使用不同模型获得的水下图像质量测量(UIQM)得分
4、与其他方法相比本发明方法在深度估计上的有效性
主观评价上:如图7所示,第一行是真实的水下图像(无真实深度信息),第二到七行是深度估计网络Pix2pix用不同方法的RGB-D数据集训练后,真实水下场景测试的结果。第二行是使用陆地RGB-D数据集,第三行是使用的WaterGAN方法合成的蓝色RGB-D数据集,第四行是使用的CycleGAN方法合成的蓝色RGB-D数据集,第五行是CycleGAN方法合成的蓝绿黄白RGB-D数据集,第六行是本发明方法合成的蓝色RGB-D数据集,第七行是本发明方法合成的蓝绿黄白RGB-D数据集。可以通过图片看出,本发明方法在蓝色(单类)图像训练后测试结果效果较好,在四类水下图片训练后测试结果也是比较好的。具体在人的头部以及珊瑚边缘和鱼等细节的部分明显可以很容易的看出更多深度信息。
客观评价:采用不同评价指标,用合成的图像进行测试,对于δ(深度阈值)越高越好,rmse(均方根误差),rmsle(均方根对数误差),abs_rel(绝对相关误差),sq_rel(平方相关误差)越低越好,VIF(视觉信息保真度),SSIM(结构相似性),PSNR(峰值信噪比)越高越好,从表7、表8中可以看出本发明提供的图像合成方法优于其它方法。
表7采用Pix2pix网络进行深度估计的客观评价指标
表8采用FCRN网络进行深度估计的客观评价指标
以上具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种多风格生成对抗网络的水下图像合成方法,其特征在于,包括如下步骤:
采集陆地上的RGB-D图像,构建陆地RGB-D图像数据集,其中,所述RGB-D图像数据集中的彩色图像作为陆地域图像;
采集不同风格的水下图像作为真实的多风格水下域图像;
构建基于CycleGAN生成对抗网络模型,将所述陆地域图像和所述水下域图像输入到所述网络模型中,通过训练和迭代反馈,将所述陆地域图像转换为合成的多风格水下域图像:
其中,所述网络模型包括第一生成器、第一判别器、第二判别器以及比较器;
将所述陆地域图像转换为合成的多风格水下域图像的具体步骤为:
将所述陆地域图像与特征图相加后输入所述第一生成器,所述第一生成器输出合成的多风格水下域图像;所述特征图为特征向量c通过全连接层后输出的特征图,其中,特征向量c为n*1特征向量,n为风格的种类数;
将所述合成的多风格水下域图像以及所述真实的多风格水下域图像输入到所述第一判别器,用以判别输入到所述第一判别器的图像的真假;
同时将所述合成的多风格水下域图像输入到所述第二判别器,用以估计输入到所述第二判别器的图像的风格标签;
所述比较器对所述估计的风格标签与所述真实的多风格水下域图像的实际风格标签进行比较,用以判别所述多风格水下图像所属的风格;
通过损失函数优化所述网络模型,得到合成的多风格水下域图像。
2.根据权利要求1所述的多风格生成对抗网络的水下图像合成方法,其特征在于,所述网络模型还包括地第二生成器和第三判别器,所述合成的多风格水下域图像输入到所述第二生成器中,得到复原的陆地域图像,所述陆地域图像和所述复原的陆地域图像输入到所述第三判别器,用以判别输入到所述第三判别器的图像的真假。
3.根据权利要求2所述的多风格生成对抗网络的水下图像合成方法,其特征在于,所述的损失函数包括:在所述陆地域图像与所述合成的多风格水下域图像之间添加ssim损失函数,用以保持所述陆地域图像转换为所述合成的多风格水下域图像的结构不变性;在所述复原的陆地域图像与所述陆地域图像之间添加cycle-consistancy损失函数,用以使得所述复原的陆地域图像与所述陆地域图像趋于一致;在所述真实的多风格水下域图像与所述合成的多风格水下域图像之间添加color损失函数,用以保持颜色的相似性;在所述真实的多风格水下域图像与所述合成的多风格水下域图像之间添加style损失函数,用以提高不同风格的水下图像分类的准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810747615.9A CN108961198B (zh) | 2018-07-09 | 2018-07-09 | 一种多风格生成对抗网络的水下图像合成方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810747615.9A CN108961198B (zh) | 2018-07-09 | 2018-07-09 | 一种多风格生成对抗网络的水下图像合成方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108961198A CN108961198A (zh) | 2018-12-07 |
CN108961198B true CN108961198B (zh) | 2021-06-08 |
Family
ID=64482642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810747615.9A Active CN108961198B (zh) | 2018-07-09 | 2018-07-09 | 一种多风格生成对抗网络的水下图像合成方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108961198B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111383165B (zh) * | 2018-12-29 | 2024-04-16 | Tcl科技集团股份有限公司 | 一种图像处理方法、系统及存储介质 |
CN111612861B (zh) * | 2019-02-22 | 2023-04-07 | 清华大学 | 一种图像合成方法及装置 |
CN111724331B (zh) * | 2019-03-22 | 2023-05-09 | 四川大学 | 一种基于生成网络的多孔介质图像重建方法 |
CN110084863B (zh) * | 2019-04-25 | 2020-12-25 | 中山大学 | 一种基于生成对抗网络的多域图像转换方法与系统 |
CN110147830B (zh) * | 2019-05-07 | 2022-02-11 | 东软集团股份有限公司 | 训练影像数据生成网络的方法、影像数据分类方法及装置 |
CN110363215B (zh) * | 2019-05-31 | 2020-07-28 | 中国矿业大学 | 基于生成式对抗网络的sar图像转化为光学图像的方法 |
CN110991516A (zh) * | 2019-11-28 | 2020-04-10 | 哈尔滨工程大学 | 一种基于风格迁移的侧扫声呐图像目标分类方法 |
CN111337929A (zh) * | 2020-03-26 | 2020-06-26 | 上海眼控科技股份有限公司 | 气象云图预测方法、装置、计算机设备和存储介质 |
CN111738910A (zh) * | 2020-06-12 | 2020-10-02 | 北京百度网讯科技有限公司 | 一种图像处理方法、装置、电子设备和存储介质 |
CN111739077B (zh) * | 2020-06-15 | 2022-11-18 | 大连理工大学 | 基于深度神经网络单目水下图像深度估计和颜色矫正方法 |
CN112258381B (zh) * | 2020-09-29 | 2024-02-09 | 北京达佳互联信息技术有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
CN112232425B (zh) * | 2020-10-21 | 2023-11-28 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN113191962B (zh) * | 2021-03-30 | 2024-09-06 | 大连智慧渔业科技有限公司 | 基于环境背景光的水下图像颜色恢复方法、装置及存储介质 |
CN113538216B (zh) * | 2021-06-16 | 2022-03-01 | 电子科技大学 | 一种基于属性分解的图像风格迁移方法 |
CN113920222A (zh) * | 2021-09-13 | 2022-01-11 | 北京三快在线科技有限公司 | 获取地图建图数据的方法、装置、设备及可读存储介质 |
CN114049422B (zh) * | 2021-11-11 | 2024-10-18 | 上海交通大学 | 基于数字孪生与图像转换的数据增强方法及系统 |
CN114331820A (zh) * | 2021-12-29 | 2022-04-12 | 北京字跳网络技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951919A (zh) * | 2017-03-02 | 2017-07-14 | 浙江工业大学 | 一种基于对抗生成网络的流速监测实现方法 |
CN107464210A (zh) * | 2017-07-06 | 2017-12-12 | 浙江工业大学 | 一种基于生成式对抗网络的图像风格迁移方法 |
-
2018
- 2018-07-09 CN CN201810747615.9A patent/CN108961198B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951919A (zh) * | 2017-03-02 | 2017-07-14 | 浙江工业大学 | 一种基于对抗生成网络的流速监测实现方法 |
CN107464210A (zh) * | 2017-07-06 | 2017-12-12 | 浙江工业大学 | 一种基于生成式对抗网络的图像风格迁移方法 |
Non-Patent Citations (3)
Title |
---|
VOICE IMPERSONATION USING GENERATIVE ADVERSARIAL NETWORKS;Yang Gao 等;《arXiv》;20180219;正文第1-5页 * |
WaterGAN: Unsupervised Generative Network toEnable Real-time Color Correction of Monocular Underwater Images;Jie Li 等;《IEEE ROBOTICS AND AUTOMATION LETTERS. PREPRINT VERSION》;20170630;正文第1-8页 * |
基于改进的CycleGAN模型非配对的图像到图像转换;何剑华 等;《玉林师范学院学报(自然科学)》;20180401;第122-126页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108961198A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108961198B (zh) | 一种多风格生成对抗网络的水下图像合成方法及其应用 | |
CN110378844B (zh) | 基于循环多尺度生成对抗网络的图像盲去运动模糊方法 | |
CN107767413B (zh) | 一种基于卷积神经网络的图像深度估计方法 | |
Zhou et al. | Underwater vision enhancement technologies: A comprehensive review, challenges, and recent trends | |
CN112184577B (zh) | 基于多尺度自注意生成对抗网络的单幅图像去雾方法 | |
Fan et al. | Two-layer Gaussian process regression with example selection for image dehazing | |
CN111046967A (zh) | 一种基于卷积神经网络和注意力机制的水下图像分类方法 | |
CN108765414B (zh) | 基于小波分解和自然场景统计的无参考立体图像质量评价方法 | |
CN101610425B (zh) | 一种评测立体图像质量的方法和装置 | |
CN110288550B (zh) | 基于先验知识引导条件生成对抗网络的单张图像去雾方法 | |
CN114049434B (zh) | 一种基于全卷积神经网络的3d建模方法及系统 | |
CN112967178B (zh) | 一种图像转换方法、装置、设备及存储介质 | |
CN103077506A (zh) | 结合局部和非局部的自适应图像去噪方法 | |
CN111986108A (zh) | 一种基于生成对抗网络的复杂海空场景图像去雾方法 | |
CN112541865A (zh) | 基于生成对抗网络的水下图像增强方法 | |
CN107635136A (zh) | 基于视觉感知和双目竞争的无参考立体图像质量评价方法 | |
CN111709888A (zh) | 一种基于改进的生成对抗网络的航拍图像去雾方法 | |
Jia et al. | Effective meta-attention dehazing networks for vision-based outdoor industrial systems | |
CN111160229A (zh) | 基于ssd网络的视频目标检测方法及装置 | |
CN108830829B (zh) | 联合多种边缘检测算子的无参考质量评价算法 | |
CN113191962B (zh) | 基于环境背景光的水下图像颜色恢复方法、装置及存储介质 | |
CN112329662A (zh) | 基于无监督学习的多视角显著性估计方法 | |
Yan et al. | UW-CycleGAN: Model-driven CycleGAN for underwater image restoration | |
Liu et al. | Boths: Super lightweight network-enabled underwater image enhancement | |
CN118172283A (zh) | 基于改进gUNet模型的海上目标图像去雾方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |