CN112053303A - 一种用于水下auv的视频图像实时增强方法 - Google Patents

一种用于水下auv的视频图像实时增强方法 Download PDF

Info

Publication number
CN112053303A
CN112053303A CN202010933693.5A CN202010933693A CN112053303A CN 112053303 A CN112053303 A CN 112053303A CN 202010933693 A CN202010933693 A CN 202010933693A CN 112053303 A CN112053303 A CN 112053303A
Authority
CN
China
Prior art keywords
image
network
underwater
real
discriminator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010933693.5A
Other languages
English (en)
Other versions
CN112053303B (zh
Inventor
史朋飞
韩松
辛元雪
范新南
杨鑫
倪建军
许亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202010933693.5A priority Critical patent/CN112053303B/zh
Publication of CN112053303A publication Critical patent/CN112053303A/zh
Application granted granted Critical
Publication of CN112053303B publication Critical patent/CN112053303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10141Special mode during image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/30Assessment of water resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种用于水下AUV的视频图像实时增强方法,包括:获取样本;构建生成对抗网络并训练生成对抗网络;采集水下图像数据作为生成对抗网络的输入,利用训练完成的生成对抗网络生成水下畸变图像对应的清晰图像,再输出为视频流,实现对水下图像的实时增强。解决了水下图像畸变问题,并实现实时图像增强,提高了水下机器人的视觉感知能力。

Description

一种用于水下AUV的视频图像实时增强方法
技术领域
本发明涉及图像处理和深度学习技术领域,尤其涉及一种用于水下AUV的视频图像实时增强方法。
背景技术
水下图像的实时增强任务是当前图像处理领域的研究热门之一。随着人类对海洋资源和生物的不断发掘,视觉引导的自主式水下机器人和遥控式水下机器人应用越来越广泛,例如在海洋物种迁徙和珊瑚礁监测、海底电缆和残骸检查、海底测绘等重要应用中都离不开水下机器人。而这些水下机器人即便使用了高端相机,其在水下的视觉感知仍会因水质浑浊、光线散射折射、光线衰减等干扰而感知受限,从而严重影响基于视觉图像的任务效果。
发明内容
本发明的目的是提供一种用于水下AUV的视频图像实时增强方法,解决了水下图像畸变问题,并实现实时图像增强,提高了水下机器人的视觉感知能力。
本发明为实现上述发明目的采用如下技术方案:
本发明提供了一种用于水下AUV的视频图像实时增强方法,包括:
构建生成对抗网络并训练生成对抗网络;
采集水下图像数据作为生成对抗网络的输入,利用训练完成的生成对抗网络生成水下畸变图像对应的清晰图像,再输出为视频流,实现对水下图像的实时增强。
进一步地,生成对抗网络的构建方法包括:
采用生成器网络和判别器网络构建生成对抗网络,其中,所述生成器网络用于生成水下畸变图像的增强图像,所述判别器网络用于判别生成器生成的图像是真实图像还是生成图像。
进一步地,所述生成器网络由编码器和解码器构成,所述编码器和解码器每层由一个ResInBlock构成,所述编码器和解码器镜像连接。
进一步地,所述ResInBlock是由多个卷积层构成的拓扑结构,前向通道由n个3x3卷积层串联并使用多次残差结构组成,其中n由ResInBlock所在层的深度决定,最终输出由ResInBlock的输入经1x1卷积后与前向通道的输出结果相加形成。
进一步地,所述判别器网络采用马尔科夫判别器,所述马尔科夫判别器使用4个步长为2的4x4卷积层串联,所述马尔科夫判别器输出矩阵的均值作为real/fake的输出。
进一步地,生成对抗网络的训练方法包括:
固定生成器网络的参数,先训练判别器网络,让判别器网络能够分辨生成对抗网络的输入数据是来自于真实数据还是生成数据;
当判别器网络训练完成后,固定判别器网络的参数,训练生成器网络,让生成器网络生成的图像能够最小化真实数据和生成数据的差异;
经过多次迭代,直到生成器网络和判别器网络达到纳什均衡。
进一步地,采集水下图像数据作为生成对抗网络的输入,利用训练完成的生成对抗网络生成水下畸变图像对应的清晰图像,再输出为视频流,实现对水下图像的实时增强的方法包括:
在Jetson Nano平台上利用外设摄像头采集水下图像数据,将摄像头采集的数据流中的每一帧作为生成对抗网络的输入,利用训练完成的生成器网络生成水下畸变图像对应的清晰图像,再输出为视频流,实现对水下图像的实时增强。
本发明的有益效果如下:
解决了水下图像畸变问题,并实现实时图像增强,提高了水下机器人的视觉感知能力。
附图说明
图1为根据本发明实施例提供的整体结构流程图;
图2为根据本发明实施例提供的编码器-解码器网络结构示意图;
图3为根据本发明实施例提供的ResInBlock结构示意图;
图4为根据本发明实施例提供的马尔可夫判别器示意图。
具体实施方式
参照图1至图4,本发明公开了一种基于Jetson Nano平台和生成对抗网络的水下图像实时增强方法,属于图像处理技术领域,包括建立了一个生成对抗网络,通过遵循U-Net原理建立了生成器网络用于生成增强图像,并通过马尔可夫patch-GAN判别器网络来判断图像是真实图像还是生成图像,以一个基于图像全局相似性、图像纹理内容和WGAN-gp的损失函数来评估生成图像质量,解决了水下图像畸变问题,并在Jetson Nano平台实现实时图像增强,提高了水下机器人的视觉感知能力。具体包括如下步骤:
(1)、生成对抗网络的构建:本方法的网络架构由一个生成器网络和一个判别器网络组成。其中,生成器G用于生成水下畸变图像的增强图像,判别器D用于判别生成器G生成的图像是真实图像还是生成图像;
(2)、生成对抗网络训练:首先固定生成器G的参数,先训练判别器,让判别器能够最大化地判别出样本是来自于真实数据还是生成数据。当判别器训练得比较完善后,固定判别器D的参数,训练生成器G,让生成器G生成的图像能够最小化真实样本和生成样本的差异。如此迭代多次,直到生成器和判别器达到纳什均衡;
(3)、水下图像实时增强:在Jetson Nano平台上利用外设摄像头采集水下图像数据,将摄像头的数据流中的每一帧作为生成对抗网络的输入,利用训练完成的生成器G生成水下畸变图像对应的清晰图像,再输出为视频流,从而实现对水下图像的实时增强。
步骤(1)中的网络架构遵循U-net的设计原理构建。生成器由编码器和解码器构成,其中编码器和解码器每层由一个ResInBlock构成。编码器和解码器有着镜像连接的关系。
ResInBlock是由多个卷积层构成的拓扑结构,前向通道由n个3x3卷积层串联并使用多次残差结构组成,其中n由ResInBlock所在层的深度决定,最终输出由ResInBlock的输入经1x1卷积后与前向通道的输出结果相加形成。
判别器网络采用马尔科夫判别器,使用4个步长为2的4x4卷积层串联,判别器最后的输出矩阵的均值作为real/fake的输出。
所述步骤(1)中的网络架构的损失函数为:
Figure BDA0002671161920000031
其中λ1和λ2是超参数,损失函数可以分为三部分:
(3a)、WGAN-gp
Figure BDA0002671161920000032
Figure BDA0002671161920000033
其中,
Figure BDA0002671161920000034
是WGAN-gp基于WGAN用Wasserstein距离代替JS散度改进后的损失函数,x是输入样本,E代表期望,Pz是随机噪声样本分布,Pdata是真实样本分布,D(x)和D(G(z))是取值范围在0-1的概率,λ为超参数,
Figure BDA0002671161920000035
是在xr和xg连线上的随机插值采样:
Figure BDA0002671161920000036
其中xr~Pdata,xg~pz,ε~Uniform[0,1];
(3b)、图像内容损失Lcon
Lcon(G)=EX,Y,Z[||φ(Y)-φ(G(X,Z))||1]
在损失函数中添加一个内容损失惩罚项,用来估计生成器G生成与真实图像具有相似内容的增强图像。其中,φ为预先训练好的VGG-19网络的block5_conv2层提取的高级语义特征。
(3c)、全局相似性损失L2(G)
L2(G)=EX,Y,Z[||Y-G(X,Z)||2]
现有方法可以证明,在损失函数中添加L1或者L2惩罚项可以让生成器G从L1或L2意义上的全局相似空间进行采样。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种用于水下AUV的视频图像实时增强方法,其特征在于,包括:
构建生成对抗网络并训练生成对抗网络;
采集水下图像数据作为生成对抗网络的输入,利用训练完成的生成对抗网络生成水下畸变图像对应的清晰图像,再输出为视频流,实现对水下图像的实时增强。
2.根据权利要求1所述的一种用于水下AUV的视频图像实时增强方法,其特征在于,生成对抗网络的构建方法包括:
采用生成器网络和判别器网络构建生成对抗网络,其中,所述生成器网络用于生成水下畸变图像的增强图像,所述判别器网络用于判别生成器生成的图像是真实图像还是生成图像。
3.根据权利要求2所述的一种用于水下AUV的视频图像实时增强方法,其特征在于,所述生成器网络由编码器和解码器构成,所述编码器和解码器每层由一个ResInBlock构成,所述编码器和解码器镜像连接。
4.根据权利要求3所述的一种用于水下AUV的视频图像实时增强方法,其特征在于,所述ResInBlock是由多个卷积层构成的拓扑结构,前向通道由n个3x3卷积层串联并使用多次残差结构组成,其中n由ResInBlock所在层的深度决定,最终输出由ResInBlock的输入经1x1卷积后与前向通道的输出结果相加形成。
5.根据权利要求2所述的一种用于水下AUV的视频图像实时增强方法,其特征在于,所述判别器网络采用马尔科夫判别器,所述马尔科夫判别器使用4个步长为2的4x4卷积层串联,所述马尔科夫判别器输出矩阵的均值作为real/fake的输出。
6.根据权利要求1所述的一种用于水下AUV的视频图像实时增强方法,其特征在于,生成对抗网络的训练方法包括:
固定生成器网络的参数,先训练判别器网络,让判别器网络能够分辨生成对抗网络的输入数据是来自于真实数据还是生成数据;
当判别器网络训练完成后,固定判别器网络的参数,训练生成器网络,让生成器网络生成的图像能够最小化真实数据和生成数据的差异;
经过多次迭代,直到生成器网络和判别器网络达到纳什均衡。
7.根据权利要求6所述的一种用于水下AUV的视频图像实时增强方法,其特征在于,采集水下图像数据作为生成对抗网络的输入,利用训练完成的生成对抗网络生成水下畸变图像对应的清晰图像,再输出为视频流,实现对水下图像的实时增强的方法包括:
在Jetson Nano平台上利用外设摄像头采集水下图像数据,将摄像头采集的数据流中的每一帧作为生成对抗网络的输入,利用训练完成的生成器网络生成水下畸变图像对应的清晰图像,再输出为视频流,实现对水下图像的实时增强。
CN202010933693.5A 2020-09-08 2020-09-08 一种用于水下auv的视频图像实时增强方法 Active CN112053303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010933693.5A CN112053303B (zh) 2020-09-08 2020-09-08 一种用于水下auv的视频图像实时增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010933693.5A CN112053303B (zh) 2020-09-08 2020-09-08 一种用于水下auv的视频图像实时增强方法

Publications (2)

Publication Number Publication Date
CN112053303A true CN112053303A (zh) 2020-12-08
CN112053303B CN112053303B (zh) 2024-04-05

Family

ID=73610350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010933693.5A Active CN112053303B (zh) 2020-09-08 2020-09-08 一种用于水下auv的视频图像实时增强方法

Country Status (1)

Country Link
CN (1) CN112053303B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117250970A (zh) * 2023-11-13 2023-12-19 青岛澎湃海洋探索技术有限公司 基于模型嵌入生成对抗网络实现auv故障检测的方法
CN117808717A (zh) * 2024-01-05 2024-04-02 武汉工程大学 基于生成对抗网络的星载tdi ccd相机平台震颤成像几何畸变校正方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146989A (zh) * 2018-07-10 2019-01-04 华南理工大学 一种通过搭建神经网络生成花鸟艺术字图像的方法
WO2019015466A1 (zh) * 2017-07-17 2019-01-24 广州广电运通金融电子股份有限公司 人证核实的方法及装置
CN111062880A (zh) * 2019-11-15 2020-04-24 南京工程学院 一种基于条件生成对抗网络的水下图像实时增强方法
CN111199522A (zh) * 2019-12-24 2020-05-26 重庆邮电大学 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法
CN111260584A (zh) * 2020-01-17 2020-06-09 北京工业大学 基于gan网络的水下退化图像增强的方法
CN111275647A (zh) * 2020-01-21 2020-06-12 南京信息工程大学 一种基于循环生成对抗网络的水下图像复原方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019015466A1 (zh) * 2017-07-17 2019-01-24 广州广电运通金融电子股份有限公司 人证核实的方法及装置
CN109146989A (zh) * 2018-07-10 2019-01-04 华南理工大学 一种通过搭建神经网络生成花鸟艺术字图像的方法
CN111062880A (zh) * 2019-11-15 2020-04-24 南京工程学院 一种基于条件生成对抗网络的水下图像实时增强方法
CN111199522A (zh) * 2019-12-24 2020-05-26 重庆邮电大学 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法
CN111260584A (zh) * 2020-01-17 2020-06-09 北京工业大学 基于gan网络的水下退化图像增强的方法
CN111275647A (zh) * 2020-01-21 2020-06-12 南京信息工程大学 一种基于循环生成对抗网络的水下图像复原方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋娅菲 等: "基于改进残差网络的水下图像重建方法", 计算机科学, 15 June 2020 (2020-06-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117250970A (zh) * 2023-11-13 2023-12-19 青岛澎湃海洋探索技术有限公司 基于模型嵌入生成对抗网络实现auv故障检测的方法
CN117250970B (zh) * 2023-11-13 2024-02-02 青岛澎湃海洋探索技术有限公司 基于模型嵌入生成对抗网络实现auv故障检测的方法
CN117808717A (zh) * 2024-01-05 2024-04-02 武汉工程大学 基于生成对抗网络的星载tdi ccd相机平台震颤成像几何畸变校正方法

Also Published As

Publication number Publication date
CN112053303B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN111062880B (zh) 一种基于条件生成对抗网络的水下图像实时增强方法
CN108604369B (zh) 一种去除图像噪声的方法、装置、设备及卷积神经网络
Jiang et al. Underwater image enhancement with lightweight cascaded network
Alwon Generative adversarial networks in seismic data processing
Kim et al. Denoising auto-encoder based image enhancement for high resolution sonar image
CN112884671B (zh) 一种基于无监督生成对抗网络的模糊图像复原方法
CN112053303A (zh) 一种用于水下auv的视频图像实时增强方法
CN116863320B (zh) 基于物理模型的水下图像增强方法及系统
Roberts et al. Multiview, broadband acoustic classification of marine fish: a machine learning framework and comparative analysis
US20220414838A1 (en) Image dehazing method and system based on cyclegan
CN112541865A (zh) 基于生成对抗网络的水下图像增强方法
JP2022067858A (ja) 学習済みモデル及びデータ処理装置
Chen et al. Dehrformer: Real-time transformer for depth estimation and haze removal from varicolored haze scenes
Li et al. Human perceptual quality driven underwater image enhancement framework
Wu et al. Multiple-operation image anti-forensics with WGAN-GP framework
Yan et al. UW-CycleGAN: Model-driven CycleGAN for underwater image restoration
CN117670687A (zh) 一种基于CNN和Transformer混合结构的水下图像增强方法
KR102057395B1 (ko) 기계학습 기반 비디오 보외법을 이용한 영상 생성 방법
Badran et al. DAUT: Underwater Image Enhancement Using Depth Aware U-shape Transformer
US20230325982A1 (en) Methods, systems and computer programs for processing image data for generating a filter
KR102115928B1 (ko) 스테레오 매칭 기법과 딥러닝 알고리즘을 이용한 안개 제거 방법 및 장치
CN113284150A (zh) 基于不成对工业数据的工业质检方法、工业质检装置
Shah et al. A Study of Generative Adversarial Networks in 3D Modelling
Kim et al. Deep Learning Based Gray Image Generation from 3D LiDAR Reflection Intensity
Bakht et al. MuLA-GAN: Multi-Level Attention GAN for Enhanced Underwater Visibility

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant