CN117522718B - 基于深度学习的水下图像增强方法 - Google Patents

基于深度学习的水下图像增强方法 Download PDF

Info

Publication number
CN117522718B
CN117522718B CN202311546164.XA CN202311546164A CN117522718B CN 117522718 B CN117522718 B CN 117522718B CN 202311546164 A CN202311546164 A CN 202311546164A CN 117522718 B CN117522718 B CN 117522718B
Authority
CN
China
Prior art keywords
image
image block
network
enhancement
block sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311546164.XA
Other languages
English (en)
Other versions
CN117522718A (zh
Inventor
陈春亮
龙黎飞
陈虹虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ocean University
Original Assignee
Guangdong Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ocean University filed Critical Guangdong Ocean University
Priority to CN202311546164.XA priority Critical patent/CN117522718B/zh
Publication of CN117522718A publication Critical patent/CN117522718A/zh
Application granted granted Critical
Publication of CN117522718B publication Critical patent/CN117522718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/30Assessment of water resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种基于深度学习的水下图像增强方法,提供依据无监督调试的待增强目标预训练方法,在建立积极‑消极训练样例集后,从积极‑消极训练样例集中各自确定第一增强目标和第二增强目标,然后依据该两类增强目标的增强目标语义描述对第一初始调试网络进行无监督调试,相当于无监督调试后获得的第二初始调试网络是对图像增强特地调试得到的,令在执行水下图像增强操作时,可以增加水下图像增强的精度。

Description

基于深度学习的水下图像增强方法
技术领域
本申请涉及图像处理领域,尤其涉及人工智能领域,具体涉及一种基于深度学习的水下图像增强方法。
背景技术
水下图像是指在水下环境中获取的图像数据。拍摄水下图像有着广泛的应用领域,包括海洋勘探、水下考古、海底资源开发、海洋生态环境研究等。通过获取水下图像,人们可以深入了解海洋的物理、化学、生物等方面,探测水下资源和文化遗产,保护海洋生态环境等。水下环境与陆地环境存在许多差异,如光传播特性、颜色失真、模糊等问题,这些因素都会影响水下图像的质量和可视化效果。因此,对水下图像进行增强处理是十分必要的。现有的水下图像增强方法主要可以分为颜色校正、对比度增强、滤波等。此外,近年来,深度学习方法如CNN(Convolutional Neural Network)、GAN(Generative AdversarialNetwork)等也得到应用,可以从大量的水下图像数据中学习并生成更加逼真的水下图像。但是,由于水下图像中的内容大多时候并非都需要增强,全局增强会增加额外的计算消耗,有时候得到的增强效果也并不理想,目前,如何确定水下图像中需要增强的区域并没有合适的解决方案,换言之,现有方式中,水下图像的增强有待完善。
发明内容
本申请提供了一种基于深度学习的水下图像增强方法。
根据本申请的一方面,提供了一种基于深度学习的水下图像增强方法,应用于计算机设备,所述方法包括:
在获得包括v个图像块序列的初始水下图像时,依据每个图像块序列的重要性评分以及重要性评分临界值,对所述v个图像块序列分别进行分类,得到所述初始水下图像对应的积极训练样例集和消极训练样例集;
获取第一初始调试网络;所述第一初始调试网络用于确定每个图像块序列分别对应的训练样例语义描述;所述初始水下图像对应的图像语义描述为基于所述每个图像块序列分别对应的训练样例语义描述确定得到;
从所述积极训练样例集中选取与预设增强范围匹配的图像块序列作为第一增强目标,依据所述第一增强目标中的图像块序列对应的训练样例语义描述,确定所述第一增强目标对应的第一增强目标语义描述;
从所述消极训练样例集中选取与所述预设增强范围匹配的图像块序列作为第二增强目标,依据所述第二增强目标中的图像块序列对应的训练样例语义描述,确定所述第二增强目标对应的第二增强目标语义描述;
依据所述第一增强目标语义描述、所述第二增强目标语义描述以及所述图像语义描述,对所述第一初始调试网络进行无监督调试,得到第二初始调试网络;所述第二初始调试网络用于执行水下图像增强操作。
可选地,所述在获得包括v个图像块序列的初始水下图像时,依据每个图像块序列的重要性评分以及重要性评分临界值,对所述v个图像块序列分别进行分类,得到所述初始水下图像对应的积极训练样例集和消极训练样例集,包括:
在获得包括v个图像块序列的初始水下图像时,获取第一图像增强网络;
将所述v个图像块序列加载到所述第一图像增强网络,基于所述第一图像增强网络分别对每个图像块序列进行增强目标推理,得到每个图像块序列的重要性评分;
依据所述每个图像块序列的重要性评分以及重要性评分临界值,对所述v个图像块序列分别进行分类,得到所述初始水下图像对应的积极训练样例集和消极训练样例集。
可选地,所述将所述v个图像块序列加载到所述第一图像增强网络,基于所述第一图像增强网络分别对每个图像块序列进行增强目标推理,得到每个图像块序列的重要性评分,包括:
将所述v个图像块序列加载到所述第一图像增强网络,获取每个图像块序列分别对应的第一图像块序列嵌入,得到v个第一图像块序列嵌入;所述第一图像增强网络包括图像嵌入映射层以及图像生成映射层;
基于所述图像嵌入映射层以及所述v个第一图像块序列嵌入,对每个图像块序列分别进行嵌入映射,得到每个图像块序列分别对应的第二图像块序列嵌入;
将v个第二图像块序列嵌入加载到所述图像生成映射层,基于所述图像生成映射层以及所述v个第二图像块序列嵌入,对所述v个图像块序列分别进行生成映射,得到每个图像块序列的重要性评分。
可选地,所述v个图像块序列包括图像块序列Dm;其中,m≤v;所述v个第一图像块序列嵌入包括所述图像块序列Dm对应的第一图像块序列嵌入Em;所述图像嵌入映射层包括第一图像嵌入映射层和第二图像嵌入映射层;所述基于所述图像嵌入映射层以及所述v个第一图像块序列嵌入,对每个图像块序列分别进行嵌入映射,得到每个图像块序列分别对应的第二图像块序列嵌入,包括:
基于所述第一图像嵌入映射层和所述第一图像块序列嵌入Em,对所述图像块序列Dm进行第一嵌入映射,得到所述图像块序列Dm对应的第一嵌入描述数组;
在得到v个图像块序列分别对应的第一嵌入描述数组时,将v个第一嵌入描述数组加载到所述第二图像嵌入映射层,基于所述第二图像嵌入映射层和所述v个第一嵌入描述数组,对所述图像块序列Dm进行第二嵌入映射,得到所述图像块序列Dm对应的第二嵌入描述数组;
将所述图像块序列Dm对应的第二嵌入描述数组作为所述图像块序列Dm对应的第二图像块序列嵌入Fm。
可选地,所述重要性评分临界值包括第一临界值;所述依据所述每个图像块序列的重要性评分以及重要性评分临界值,对所述v个图像块序列分别进行分类,得到所述初始水下图像对应的积极训练样例集和消极训练样例集,包括:
对所述v个图像块序列进行全局游走,将游走到的图像块序列确定为拟分类图像块序列;
如果所述拟分类图像块序列的重要性评分不小于所述第一临界值,则将所述拟分类图像块序列加入所述初始水下图像对应的积极训练样例集;
如果所述拟分类图像块序列的重要性评分小于所述第一临界值,则将所述拟分类图像块序列加入所述初始水下图像对应的消极训练样例集;
所述重要性评分临界值还包括第二临界值和第三临界值;所述第二临界值大于所述第三临界值;所述依据所述每个图像块序列的重要性评分以及重要性评分临界值,对所述v个图像块序列分别进行分类,得到所述初始水下图像对应的积极训练样例集和消极训练样例集,包括:
对所述v个图像块序列进行全局游走,将游走到的图像块序列确定为拟分类图像块序列;
如果所述拟分类图像块序列的重要性评分不小于所述第二临界值,则将所述拟分类图像块序列加入所述初始水下图像对应的积极训练样例集;
如果所述拟分类图像块序列的重要性评分小于所述第二临界值,且大于所述第三临界值,则将所述拟分类图像块序列进行筛除;
如果所述拟分类图像块序列的重要性评分小于或者等于所述第三临界值,则将所述拟分类图像块序列加入所述初始水下图像对应的消极训练样例集。
可选地,所述v个图像块序列包括图像块序列Dm;其中,m≤v;所述方法还包括:
将所述图像块序列Dm加载到所述第一初始调试网络;
依据所述图像块序列Dm中的每个图像块的图像块嵌入,确定所述图像块序列Dm对应的初始样例描述数组;一个图像块的图像块嵌入为基于所述一个图像块对应的自向嵌入、序列嵌入和图像块位置嵌入联合确定得到;
基于所述第一初始调试网络和所述图像块序列Dm对应的初始样例描述数组,对所述图像块序列Dm进行嵌入映射,得到所述图像块序列Dm对应的训练样例语义描述;
所述第一增强目标语义描述和所述第二增强目标语义描述均为均分增强目标语义描述,其中,所述均分增强目标语义描述是对图像块序列集合中,每个图像块序列的训练样例语义描述进行均值计算后获得的;所述图像块序列集合包括所述第一增强目标和所述第二增强目标。
可选地,所述依据所述第一增强目标语义描述、所述第二增强目标语义描述以及所述图像语义描述,对所述第一初始调试网络进行无监督调试,得到第二初始调试网络,包括:
获取无监督调试的网络误差函数;
依据所述第一增强目标语义描述、所述第二增强目标语义描述以及所述图像语义描述,确定所述网络误差函数对应的网络误差;
依据所述网络误差,对所述第一初始调试网络进行调试,得到网络调试结果;
如果所述网络调试结果表征调试完成的第一初始调试网络符合调试截止要求,则将符合所述调试截止要求的第一初始调试网络作为第二初始调试网络;
如果所述网络调试结果表征调试完成的第一初始调试网络未符合调试截止要求,则依据未符合所述调试截止要求的所述网络误差函数,对所述第一初始调试网络的网络可学习变量进行优化;
将优化网络可学习变量后的第一初始调试网络作为中间网络,对所述中间网络进行调试,当调试后的中间网络符合所述调试截止要求时,将符合所述调试截止要求的中间网络作为第二初始调试网络。
可选地,所述方法还包括:
依据所述第二初始调试网络,建立用于执行水下图像增强操作的基础图像增强网络;
获取针对所述基础图像增强网络的水下图像训练样例和所述水下图像训练样例对应的训练监督信息,所述训练监督信息用于指示所述水下图像训练样例的实际增强目标;
将所述水下图像训练样例加载到所述基础图像增强网络,基于所述基础图像增强网络对所述水下图像训练样例进行增强目标推理,得到所述水下图像训练样例对应的推理增强目标;
依据所述实际增强目标和所述推理增强目标,对所述基础图像增强网络进行细节优化,得到第二图像增强网络;所述第二图像增强网络用于确定水下图像的待增强目标。
可选地,所述预设增强范围为u,其中,1≤u;所述方法还包括:
依据所述第二初始调试网络,建立用于执行水下图像增强操作的基础图像增强网络;
获取针对所述基础图像增强网络的水下图像训练样例,基于所述基础图像增强网络对所述水下图像训练样例中的w个图像块序列分别进行嵌入映射,得到w个语义嵌入描述数组,其中,1≤w;
依据u个初始聚类中心,对所述w个语义嵌入描述数组进行划簇,得到u个数据簇;
依据所述u个数据簇对所述基础图像增强网络进行调试,得到第二图像增强网络,所述第二图像增强网络用于确定水下图像的待增强目标。
根据本申请的另一方面,提供了一种计算机设备,包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上所述的方法。
本申请至少包括如下有益效果:
在本申请实施例提供的基于深度学习的水下图像增强方法,在获得包括v个图像块序列的初始水下图像时,依据每个图像块序列的重要性评分以及重要性评分临界值,对v个图像块序列分别进行分类,得到初始水下图像对应的积极训练样例集和消极训练样例集。然后获取第一初始调试网络,确定每个图像块序列分别对应的训练样例语义描述。其中,初始水下图像的图像语义描述是依据每个图像块序列分别对应的训练样例语义描述确定得到。从积极训练样例集中选取与预设增强范围匹配的图像块序列作为第一增强目标,依据第一增强目标中的图像块序列对应的训练样例语义描述,确定第一增强目标对应的增强目标语义描述,也即第一增强目标语义描述。相应的,从消极训练样例集中选取与预设增强范围匹配的图像块序列作为第二增强目标,依据第二增强目标中的图像块序列对应的训练样例语义描述,确定第二增强目标对应的增强目标语义描述,也即第二增强目标语义描述。此时,依据第一增强目标语义描述、第二增强目标语义描述以及图像语义描述,对第一初始调试网络进行无监督调试,得到第二初始调试网络,第二初始调试网络用于执行水下图像增强操作。可以理解,本申请实施例提供依据无监督调试的待增强目标预训练方法,在建立积极-消极训练样例集后,从积极-消极训练样例集中各自确定第一增强目标和第二增强目标,然后依据该两类增强目标的增强目标语义描述对第一初始调试网络进行无监督调试,相当于无监督调试后获得的第二初始调试网络是对图像增强特地调试得到的,令在执行水下图像增强操作时,可以增加水下图像增强的精度。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1示出了根据本申请的实施例的基于深度学习的水下图像增强方法的应用场景示意图。
图2示出了根据本申请的实施例的一种基于深度学习的水下图像增强方法的流程图。
图3示出了根据本申请的实施例的水下图像增强装置的功能模块架构示意图。
图4示出了根据本申请的实施例的一种计算机设备的组成示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本申请中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个要素与另一要素区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本申请中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本申请中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
图1示出了根据本申请的实施例提供的一种应用场景100的示意图。该应用场景100包括一个或多个水下图像获取设备101、计算机设备120以及将一个或多个水下图像获取设备101耦接到计算机设备120的一个或多个通信网络110。水下图像获取设备101可以被配置为执行一个或多个应用程序。在本申请的实施例中,计算机设备120可以运行使得能够执行基于深度学习的水下图像增强方法的一个或多个服务或软件应用。
在图1所示的配置中,计算机设备120可以包括实现由计算机设备120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作水下图像获取设备101的用户可以依次利用一个或多个应用程序来与计算机设备120进行交互以利用这些组件提供的服务。应当理解,各种不同的系统配置是可能的,其可以与应用场景100不同。因此,图1是用于实施本文所描述的各种方法的系统的一个示例,并且不旨在进行限制。
水下图像获取设备101可以包括各种类型的计算机设备,例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、智能屏设备、自助服务终端设备、服务机器人、游戏系统、瘦客户端、各种消息收发设备、传感器或其他感测设备等,用于将拍摄到的水下图像进行预先存储,并发送给计算机设备进行后续处理。网络110可以是本领域技术人员熟知的任何类型的网络,其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例,一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、区块链网络、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。
计算机设备120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。计算机设备120可以包括运行虚拟操作系统的一个或多个虚拟机,或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中,计算机设备120可以运行提供下文所描述的功能的一个或多个服务或软件应用。在一些实施方式中,计算机设备120可以为分布式系统的服务器,或者是结合了区块链的服务器。计算机设备120也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中存在的管理难度大、业务扩展性弱的缺陷。
应用场景100还可以包括一个或多个数据库130。在某些实施例中,这些数据库可以用于存储数据和其他信息。例如,数据库130中的一个或多个可用于存储诸如音频文件和视频文件(水下视频)的信息。数据库130可以驻留在各种位置。例如,由计算机设备120使用的数据库可以在计算机设备120本地,或者可以远离计算机设备120且可以经由基于网络或专用的连接与计算机设备120通信。数据库130可以是不同的类型。在某些实施例中,由计算机设备120使用的数据库例如可以是关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。
在某些实施例中,数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库,例如键值存储库,对象存储库或由文件系统支持的常规存储库。
请参照图2,是本申请实施例提供的基于深度学习的水下图像增强方法的流程图,该方法应用于计算机设备120,具体可以包括以下步骤:
步骤S110,在获得包括v个图像块序列的初始水下图像时,依据每个图像块序列的重要性评分以及重要性评分临界值,对v个图像块序列分别进行分类,得到初始水下图像对应的积极训练样例集和消极训练样例集。
本申请实施例中,初始水下图像是通过水下摄像设备拍摄的水下图像,该初始水下图像包括多个图像块,划分图像块的方式不做限定,例如按照固定尺寸划分的若干个图像块,当然,还可以是采用其他划分方式得到的多个图像块,如采用自适应划分,根据图像的纹理、边缘或颜色等信息来划分图像块,使得每个图像块内部具有更相似的特征。这种方式能够更好地适应不同图像的特点,提高处理的质量。或者,可以采用图像块重叠,让图像块之间存在一定的重叠区域,减少边界效应(Boundary Effect),避免图像块之间的明显过渡边界,提高处理的连续性和一致性。多个图像块可以组成一个图像块序列,而多个图像块序列构成初始水下图像,每个图像块序列包含的图像块的数量可以相等或者不等,一个图像块序列中的所有图像块组合起来,能表达一个完整的图像对象,如基于边缘检测得到的完整边缘对象,如海洋生物、海底地貌等。
获得包括v个图像块序列的初始水下图像时,分别获取每个图像块序列的重要性评分。其中,一个图像块序列的重要性评分可以是基于专家对该图像块序列进行标注的,或者依据图像增强网络(第一图像增强网络)对图像块序列自动生成。一个图像块序列的重要性评分用于指示图像块序列成为增强目标的置信度,置信度越大,当前图像块序列越重要,越需要被增强。然后依据每个图像块序列的重要性评分和重要性评分临界值对v个图像块序列分别进行分类,得到初始水下图像对应的积极训练样例集和消极训练样例集。其中,积极训练样例集是用于训练任务的正样例(positive samples),消极训练样例集是用于训练任务的负样例(negative samples)。其中,第一图像增强网络为已经完成预训练的有监督图像增强网络,第一图像增强网络用于推理各个图像块序列的重要性评分,通过衡量各图像块序列在初始水下图像中的周围环境信息(contextual information),从而准确推理得到各个图像块序列的重要性评分。第一图像增强网络的网络架构可以是任意可行的深度学习网络架构,例如Vision Transformer (ViT)、卷积神经网络。
需要说明的是,在获得包括v个图像块序列的初始水下图像时,可以获取第一图像增强网络,然后将v个图像块序列同时加载到第一图像增强网络,基于第一图像增强网络对每个图像块序列分别进行增强目标推理,得到每个图像块序列的重要性评分,然后依据每个图像块序列的重要性评分以及重要性评分临界值(预先设置,根据实际需要进行数值设定),对v个图像块序列分别进行分类,得到初始水下图像对应的积极训练样例集和消极训练样例集。
第一图像增强网络可以包括图像嵌入映射层(Embedding Mapper,或者称为encoder)和图像生成映射层(Generation Mapper,或者称为decoder),在将v个图像块序列加载到第一图像增强网络时,可以分别获取每个图像块序列对应的第一图像块序列嵌入(即对图像块序列进行编码后的结果),得到v个第一图像块序列嵌入,然后基于图像嵌入映射层以及v个第一图像块序列嵌入,对每个图像块序列分别进行嵌入映射,得到每个图像块序列分别对应的第二图像块序列嵌入。
v个图像块序列包括图像块序列Dm,其中,m≤v。v个第一图像块序列嵌入包括图像块序列Dm对应的第一图像块序列嵌入Em。则在图像嵌入映射层包括第一图像嵌入映射层和第二图像嵌入映射层时,基于第一图像嵌入映射层和第一图像块序列嵌入Em对图像块序列Dm进行第一嵌入映射,得到图像块序列Dm对应的第一嵌入描述数组。得到v个图像块序列分别对应的第一嵌入描述数组时,将v个第一嵌入描述数组加载到第二图像嵌入映射层,基于第二图像嵌入映射层和v个第一嵌入描述数组,对图像块序列Dm进行第二嵌入映射,得到图像块序列Dm对应的第二嵌入描述数组,将图像块序列Dm对应的第二嵌入描述数组作为图像块序列Dm对应的第二图像块序列嵌入Fm。然后,将v个第二图像块序列嵌入加载到图像生成映射层,基于图像生成映射层以及v个第二图像块序列嵌入,对v个图像块序列分别进行生成映射,完成解码,得到每个图像块序列的重要性评分。
在依据第一图像增强网络进行重要性评分时,设图像增强网络(即第一图像增强网络)为Vision Transformer (ViT),图像增强网络可以包括图像嵌入映射层和图像生成映射层。其中,图像嵌入映射层包括图像嵌入映射层1和图像嵌入映射层2。其中,图像嵌入映射层1属于图像块序列层面的网络层,用于对图像块进行嵌入映射,图像嵌入映射层2属于图像层面的网络层,用于对图像块序列进行嵌入映射,图像生成映射层用于结合环境信息判断各图像块序列是否为需要增强的图像块序列,也即,确定各图像块序列的重要性评分。
可选地,图像块序列重要性评分的确定,可以采用如下公式实现:
G(Dm)=softmax(pEm)
其中,G(Dm)表示图像块序列Dm的置信度分布,也即图像块序列重要性评分),表征图像块序列Dm为初始水下图像的待增强目标的置信度;Dm为初始水下图像中的第m个图像块序列,其中,m≤v,v为初始水下图像中的图像块序列数量;Em为基于图像嵌入映射层输出的图像块序列Dm的图像块序列嵌入,也即第二图像块序列嵌入,即图像嵌入映射层2输出的图像块序列Dm的图像块序列嵌入;p为图像增强网络的网络可学习变量(如各种权重、偏置、学习率等参数)。
将v个图像块序列同时加载到图像增强网络中,基于图像增强网络中的图像嵌入映射层和图像生成映射层对每个图像块序列分别进行增强目标推理。其中,在基于图像嵌入映射层对v个图像块序列进行嵌入映射时,可以获取该v个图像块序列分别对应的第一图像块序列嵌入。比如,一个图像块序列包括多个图像块,第一图像块序列嵌入是依据该图像块序列中的每个图像块的图像块嵌入确定得到。一个图像块的图像块嵌入可以通过图像块对应的自向嵌入、序列嵌入以及图像块位置嵌入联合确定得到。
由于图像嵌入映射层1衡量到每个图像块在图像块序列中的环境信息,则在将第一图像块序列嵌入加载到图像嵌入映射层1时,基于该图像嵌入映射层1和第一图像块序列嵌入对图像块序列进行嵌入映射,得到图像块序列对应的第一嵌入描述数组(即描述嵌入信息的特征,可以为一个一维数组)。相应地,在将其他第一图像块序列嵌入加载到图像嵌入映射层1之后,得到其他图像块序列对应的其他第一嵌入描述数组。
然后,将该v个第一嵌入描述数组作为图像嵌入映射层2的输入,基于图像嵌入映射层2衡量每个图像块序列在初始水下图像中的环境信息。在将v个第一嵌入描述数组加载到图像嵌入映射层2时,可以基于图像嵌入映射层2和v个第一嵌入描述数组,对图像块序列进行第二嵌入映射,得到图像块序列对应的第二嵌入描述数组。此时,将图像块序列对应的第二嵌入描述数组作为图像块序列对应的第二图像块序列嵌入。第二图像块序列嵌入可以更准确表达图像块序列的语义,相应地,基于图像嵌入映射层2和v个第一嵌入描述数组,依次对其他图像块序列进行第二嵌入映射,得到其他图像块序列各自对应的其他第二图像块序列嵌入,该v个第二图像块序列嵌入即图像嵌入映射层的输出。
接着,将v个第二图像块序列嵌入加载到图像生成映射层,基于图像生成映射层、v个第二图像块序列嵌入和以上公式对v个图像块序列中的每个图像块序列分别进行生成映射,得到每个图像块序列的重要性评分。
然后获取用于鉴别积极-消极训练样例的重要性评分临界值,依据每个图像块序列的重要性评分和重要性评分临界值对v个图像块序列分别进行分类,得到初始水下图像对应的积极训练样例集和消极训练样例集。重要性评分临界值可以与初始水下图像的图像块序列数量v关联。如果初始水下图像的图像块序列数量v小于图像块序列数量临界值,则认为初始水下图像的图像块序列数量较少,此时需将全部图像块序列都划分到初始水下图像对应的积极-消极训练样例集中,对该初始水下图像获得的重要性评分临界值包括一个临界值,即第一临界值,第一临界值的具体数值根据具体需要进行调节,不做限定。例如,对v个图像块序列进行全局游走(即遍历所有的图像块序列),将游走到的图像块序列确定为拟分类图像块序列。如果拟分类图像块序列的重要性评分不小于第一临界值,则将该拟分类图像块序列确定为重要图像块序列(即积极训练样例图像块序列),然后将拟分类图像块序列加入初始水下图像对应的积极训练样例集。如果拟分类图像块序列的重要性评分小于第一临界值,则将拟分类图像块序列确定为无关图像块序列(即消极训练样例图像块序列),然后将拟分类图像块序列加入初始水下图像对应的消极训练样例集。
如果初始水下图像的图像块序列数量v不小于图像块序列数量临界值,则该初始水下图像的图像块序列数量较多,出于效率考虑,不用将初始水下图像的全部图像块序列都作为图像块序列样例,此时可以筛除不太重要的一些图像块序列,将筛除后,剩下的图像块序列划分到初始水下图像对应的积极-消极训练样例集中。相当于说,对初始水下图像获得的重要性评分临界值包括两个临界值,即第二临界值和第三临界值。其中,第二临界值大于第三临界值,且第二临界值和第三临界值的数值是可以自由调节的。例如,对v个图像块序列进行全局游走,将游走到的图像块序列确定为拟分类图像块序列。如果拟分类图像块序列的重要性评分不小于第二临界值,则将该拟分类图像块序列确定为重要图像块序列(即积极训练样例图像块序列),然后将拟分类图像块序列加入初始水下图像对应的积极训练样例集。如果拟分类图像块序列的重要性评分小于第二临界值,且大于第三临界值,则将拟分类图像块序列确定为不重要的图像块序列(即拟筛除的图像块序列),然后将拟分类图像块序列进行筛除。如果拟分类图像块序列的重要性评分小于或者等于第三临界值,则将该拟分类图像块序列确定为无关图像块序列(即消极训练样例图像块序列),然后将拟分类图像块序列加入初始水下图像对应的消极训练样例集。
步骤S120,获取第一初始调试网络。
在将v个图像块序列划分为积极-消极训练样例集后,选取图像表征网络对图像数据进行嵌入映射,然后将未进行调试的该图像表征网络视为第一初始调试网络。第一初始调试网络例如是可以为ViT,第一初始调试网络用于分别确定各图像块序列对应的训练样例语义描述,即语义特征的矢量表达,如表现为一个特征向量。初始水下图像对应的图像语义描述为基于每个图像块序列分别对应的训练样例语义描述确定得到。其中,v个图像块序列包括图像块序列Dm,m≤v。在获得第一初始调试网络时,将图像块序列Dm加载到第一初始调试网络,然后依据图像块序列Dm中的各图像块的图像块嵌入,确定图像块序列Dm对应的初始样例描述数组。其中,一个图像块的图像块嵌入为基于一个图像块对应的自向嵌入、序列嵌入和图像块位置嵌入联合确定得到。然后基于第一初始调试网络和图像块序列Dm对应的初始样例描述数组对图像块序列Dm进行嵌入映射,得到图像块序列Dm对应的训练样例语义描述。
图像块序列Dm是获得的初始水下图像中的第m个图像块序列,图像块序列Dm包括x个图像块,那么对于图像块序列Dm中的任一图像块n,获取图像块n的自向嵌入、图像块n的序列嵌入以及图像块n的图像块位置嵌入,然后对三个嵌入进行相加得到图像块n的图像块嵌入。其中,n≤x。
需要说明的是,自向嵌入为图像块本身的矢量表达,序列嵌入用于鉴别两个图像块序列的矢量表达,即一个图像块序列中的每个图像块的序列嵌入相同,图像块位置嵌入是将图像块的位置信息进行编码,得到对应的特征矢量。
在得到x个图像块各自对应的图像块嵌入时,将x个图像块嵌入组成的数组视为图像块序列Dm的初始样例描述数组,然后将其确定为用于加载到ViT的输入,基于ViT中的多个MHSA(Multi-head self-attention layer,多头自注意力)、NL(Normalization Layer,标准化层)、FFN(Position-wise Feedforward Layer,前向传播层)分别对图像块序列Dm中的每个图像块进行嵌入映射,得到每个图像块的嵌入描述数组,然后将x个图像块分别对应的嵌入描述数组确定为图像块序列Dm对应的训练样例语义描述。基于此,依次获取初始水下图像中的v个图像块序列各自对应的训练样例语义描述。依据该v个训练样例语义描述确定初始水下图像对应的图像语义描述。例如,图像语义描述通过对v个训练样例语义描述进行均值计算获得,或者图像语义描述通过对v个训练样例语义描述进行相加获得。
步骤S130,从积极训练样例集中选取与预设增强范围匹配的图像块序列作为第一增强目标,依据第一增强目标中的图像块序列对应的训练样例语义描述,确定第一增强目标对应的第一增强目标语义描述。
例如,在积极训练样例集中确定与预设增强范围(例如哪些位置的序列,或者序列的数量)匹配的图像块序列作为第一增强目标(即积极训练样例增强目标),再在v个训练样例语义描述中获取第一增强目标中的图像块序列的训练样例语义描述,然后对获得的训练样例语义描述进行均值计算或求和计算,得到第一增强目标对应的第一增强目标语义描述。
步骤S140,从消极训练样例集中选取与预设增强范围匹配的图像块序列作为第二增强目标,依据第二增强目标中的图像块序列对应的训练样例语义描述,确定第二增强目标对应的第二增强目标语义描述。
例如,在消极训练样例集中确定出和预设增强范围匹配的图像块序列作为第二增强目标(即消极训练样例增强目标),再在v个训练样例语义描述中获取第二增强目标中的图像块序列的训练样例语义描述,然后对获得的训练样例语义描述进行均值计算或求和计算,得到第二增强目标对应的第二增强目标语义描述。其中,获取增强目标语义描述(即第一增强目标语义描述和第二增强目标语义描述)的过程和获取图像语义描述的过程一致,例如,如果图像语义描述是对v个训练样例语义描述进行均值计算后获得的,则第一增强目标语义描述是对第一增强目标中的图像块序列的训练样例语义描述进行均值计算后获得的,第二增强目标语义描述也是对第二增强目标中的图像块序列的训练样例语义描述进行均值计算后获得的。也即,第一增强目标语义描述和第二增强目标语义描述都可以为均分增强目标语义描述,均分增强目标语义描述是对图像块序列集合中的每个图像块序列的训练样例语义描述进行均值计算后获得的,图像块序列集合包括第一增强目标和第二增强目标。
步骤S150,依据第一增强目标语义描述、第二增强目标语义描述以及图像语义描述,对第一初始调试网络进行无监督调试,得到第二初始调试网络。
例如,获取无监督调试的网络误差函数,然后依据第一增强目标语义描述、第二增强目标语义描述以及图像语义描述,确定网络误差函数对应的网络误差。然后,依据网络误差对第一初始调试网络进行调试,得到网络调试结果,然后依据网络调试结果,得到第二初始调试网络。其中,该第二初始调试网络可以用于执行水下图像增强操作。无监督调试的方式可以为相似性度量学习。
其中,获得的网络误差函数可以为温度缩放对比损失函数,其具体的公式由于为现有技术,此处不再列举。在获取与第一初始调试网络关联的调试截止要求时,调试截止要求可以为网络误差保持多轮均为减少,即达到了最小误差,或者调试截止要求还可以是网络误差小于调试截止要求中的误差临界值,又或者,调试的次数达到了预设的最大次数,此时,不再进行调试。
如果网络调试结果表征调试完成的第一初始调试网络符合调试截止要求,则将符合调试截止要求的第一初始调试网络作为第二初始调试网络。如果网络调试结果表征调试完成的第一初始调试网络不符合调试截止要求,则依据不符合调试截止要求的网络误差函数,对第一初始调试网络的网络可学习变量进行优化,然后将优化网络可学习变量后的第一初始调试网络作为中间网络,对中间网络进行调试,当调试后的中间网络符合调试截止要求时,将符合调试截止要求的中间网络作为第二初始调试网络。例如,基于中间网络重新对v个图像块序列进行嵌入映射,将新获得的每个图像块序列分别映射为对应的嵌入描述数组,然后将得到的v个嵌入描述数组作为v个图像块序列各自对应的新的训练样例语义描述,依据该v个新的训练样例语义描述再次确定第一增强目标对应的第一增强目标语义描述,以及第二增强目标对应的第二增强目标语义描述、以及初始水下图像对应的图像语义描述,依据温度缩放对比损失函数、第一增强目标语义描述、第二增强目标语义描述以及图像语义描述确定中间网络的网络误差,对中间网络进行调试,当调试后的中间网络符合调试截止要求时,将符合调试截止要求的中间网络作为第二初始调试网络。
本申请实施例基于初始水下图像中的每个图像块序列的重要性评分,将v个图像块序列划分到积极-消极训练样例集,有利于从积极-消极训练样例集中各自确定第一增强目标和第二增强目标。在确定该两类增强目标的增强目标语义描述和图像语义描述时,基于度量学习等无监督调试方式调试第一初始调试网络,在没有监督信息(标签)的前提下,基于令第一初始调试网络学习数据的相似性和差异性,获知图像集的特征信息,如此可以使得执行水下图像增强操作时增加准确性。
本申请实施例还提供一种基于深度学习的水下图像增强方法,具体包括如下步骤:
步骤S210,在获得包括v个图像块序列的初始水下图像时,依据每个图像块序列的重要性评分以及重要性评分临界值,对v个图像块序列分别进行分类,得到初始水下图像对应的积极训练样例集和消极训练样例集。
在获得包括v个图像块序列的初始水下图像时,分别获取每个图像块序列的重要性评分,一个图像块序列的重要性评分可以是专家事先注释,或者是依据图像增强网络(即第一图像增强网络)对图像块序列自动生成。一个图像块序列的重要性评分代表图像块序列被增强的置信度,置信度越大,当前图像块序列越重要,依据每个图像块序列的重要性评分以及重要性评分临界值,对v个图像块序列分别进行分类,得到初始水下图像对应的积极训练样例集和消极训练样例集。
步骤S220,获取第一初始调试网络。
步骤S230,从积极训练样例集中选取与预设增强范围匹配的图像块序列作为第一增强目标,依据第一增强目标中的图像块序列对应的训练样例语义描述,确定第一增强目标对应的第一增强目标语义描述。
例如,从积极训练样例集中确定与预设增强范围匹配的图像块序列作为第一增强目标(即积极训练样例增强目标),再在v个训练样例语义描述中获取第一增强目标中的图像块序列的训练样例语义描述,然后对获得的训练样例语义描述进行均值计算或求和,得到第一增强目标对应的第一增强目标语义描述。
步骤S240,从消极训练样例集中选取与预设增强范围匹配的图像块序列作为第二增强目标,依据第二增强目标中的图像块序列对应的训练样例语义描述,确定第二增强目标对应的第二增强目标语义描述。
例如,在消极训练样例集中确定与预设增强范围匹配的图像块序列作为第二增强目标(即消极训练样例增强目标),再在v个训练样例语义描述中获取第二增强目标中的图像块序列的训练样例语义描述,然后对获得的训练样例语义描述进行均值计算或求和,得到第二增强目标对应的第二增强目标语义描述。其中,获取增强目标语义描述(即第一增强目标语义描述和第二增强目标语义描述)的过程与获取图像语义描述的过程一致,比如,如果图像语义描述是对v个训练样例语义描述进行均值计算后获得的,则第一增强目标语义描述是对第一增强目标中的图像块序列的训练样例语义描述进行均值计算后获得的,第二增强目标语义描述也是对第二增强目标中的图像块序列的训练样例语义描述进行均值计算后获得的。也即,第一增强目标语义描述和第二增强目标语义描述都可以为均分增强目标语义描述,均分增强目标语义描述是对图像块序列集合中的每个图像块序列的训练样例语义描述进行均值计算后获得的,该图像块序列集合可以包括第一增强目标和第二增强目标。
步骤S250,依据第一增强目标语义描述、第二增强目标语义描述以及图像语义描述,对第一初始调试网络进行无监督调试,得到第二初始调试网络。
例如,获取无监督调试的网络误差函数,然后依据第一增强目标语义描述、第二增强目标语义描述以及图像语义描述,确定网络误差函数对应的网络误差。然后,依据网络误差,对第一初始调试网络进行调试,得到网络调试结果,然后依据网络调试结果,得到第二初始调试网络。
其中,该步骤S210~S250的事先过程可以参考以上步骤S110~步骤S150的内容。
步骤S260,依据第二初始调试网络,建立用于执行水下图像增强操作的基础图像增强网络。
在具体实现时,在第二初始调试网络的基础上建立其他模块,以建立用于执行水下图像增强操作的基础图像增强网络。例如在第二初始调试网络增加用于预测图像块序列重要性评分的生成映射层,得到一基础图像增强网络,或者,为了能表征图像块序列向量,在第二初始调试网络后增加一个第二初始调试网络,接着再添加一个推理图像块序列重要性评分的生成映射层,得到另一基础图像增强网络。换言之,基础图像增强网络的架构可以包含一个或多个第二初始调试网络。
步骤S270,获取针对基础图像增强网络的水下图像训练样例,依据水下图像训练样例对基础图像增强网络进行调试,得到第二图像增强网络。
由于待增强目标包括有监督待增强目标和无监督待增强目标,那么在对基础图像增强网络进行调试时,可以分为有监督调试和无监督调试。
对于有监督调试,依据少量标签高效调试得到用于进行增强目标推理的第二图像增强网络。比如在获得水下图像训练样例时,获得水下图像训练样例对应的训练监督信息,训练监督信息用于指示水下图像训练样例的实际增强目标。然后,将水下图像训练样例加载到基础图像增强网络,基于基础图像增强网络对水下图像训练样例进行增强目标推理,得到水下图像训练样例对应的推理增强目标。然后,依据实际增强目标和推理增强目标,对基础图像增强网络进行细节优化,得到第二图像增强网络。其中,在将水下图像训练样例加载到基础图像增强网络时,可以依据该基础图像增强网络中的第二初始调试网络对水下图像训练样例中的每个图像块序列进行嵌入映射,得到每个图像块序列对应的训练样例语义描述,然后依据基础图像增强网络中的其余网络结构对每个训练样例语义描述分别进行激活,得到每个图像块序列对应的重要性评分,然后对依据每个图像块序列对应的重要性评分对每个图像块序列进行排序,获取与预设增强范围匹配的图像块序列作为推理增强目标。对于无监督调试而言,通过划簇(即聚类)建立进行调试,例如,设预设增强范围为覆盖u个序列,其中,1≤u。在获得对基础图像增强网络的水下图像训练样例时,基于基础图像增强网络对水下图像训练样例中的w个图像块序列分别进行嵌入映射,得到w个语义嵌入描述数组,1≤w。接着依据u个初始聚类中心对w个语义嵌入描述数组进行划簇,得到u个数据簇。然后依据u个数据簇对基础图像增强网络进行调试,得到第二图像增强网络,该第二图像增强网络用于确定水下图像的待增强目标。
在得到u个数据簇时,可基于k-means算法实现,例如,任意生成u个初始聚类中心,将w个语义嵌入描述数组中的每个语义嵌入描述数组分别确定拟划簇数组,然后确定拟划簇数组分别和u个初始聚类中心的距离,将拟划簇数组归类到距离最小的初始聚类中心,将w个语义嵌入描述数组划分好后,得到u个初始数据簇,然后依据这u个初始数据簇的质心对u个初始聚类中心进行优化迭代,当聚类中心不发生明显变化时,得到u个数据簇。
综上,本申请实施例提供的基于深度学习的水下图像增强方法,在获得包括v个图像块序列的初始水下图像时,依据每个图像块序列的重要性评分以及重要性评分临界值,对v个图像块序列分别进行分类,得到初始水下图像对应的积极训练样例集和消极训练样例集。然后获取第一初始调试网络,确定每个图像块序列分别对应的训练样例语义描述。其中,初始水下图像的图像语义描述是依据每个图像块序列分别对应的训练样例语义描述确定得到。从积极训练样例集中选取与预设增强范围匹配的图像块序列作为第一增强目标,依据第一增强目标中的图像块序列对应的训练样例语义描述,确定第一增强目标对应的增强目标语义描述,也即第一增强目标语义描述。相应的,从消极训练样例集中选取与预设增强范围匹配的图像块序列作为第二增强目标,依据第二增强目标中的图像块序列对应的训练样例语义描述,确定第二增强目标对应的增强目标语义描述,也即第二增强目标语义描述。此时,依据第一增强目标语义描述、第二增强目标语义描述以及图像语义描述,对第一初始调试网络进行无监督调试,得到第二初始调试网络,第二初始调试网络用于执行水下图像增强操作。可以理解,本申请实施例提供依据无监督调试的待增强目标预训练方法,在建立积极-消极训练样例集后,从积极-消极训练样例集中各自确定第一增强目标和第二增强目标,然后依据该两类增强目标的增强目标语义描述对第一初始调试网络进行无监督调试,相当于无监督调试后获得的第二初始调试网络是对图像增强特地调试得到的,令在执行水下图像增强操作时,可以增加水下图像增强的精度。
根据本申请的另一方面,还提供一种水下图像增强装置,请参图3,装置900包括:
图像序列分类模块910,用于在获得包括v个图像块序列的初始水下图像时,依据每个图像块序列的重要性评分以及重要性评分临界值,对所述v个图像块序列分别进行分类,得到所述初始水下图像对应的积极训练样例集和消极训练样例集;
调试网络调取模块920,用于获取第一初始调试网络;所述第一初始调试网络用于确定每个图像块序列分别对应的训练样例语义描述;所述初始水下图像对应的图像语义描述为基于所述每个图像块序列分别对应的训练样例语义描述确定得到;
第一语义表征模块930,用于从所述积极训练样例集中选取与预设增强范围匹配的图像块序列作为第一增强目标,依据所述第一增强目标中的图像块序列对应的训练样例语义描述,确定所述第一增强目标对应的第一增强目标语义描述;
第二语义表征模块940,用于从所述消极训练样例集中选取与所述预设增强范围匹配的图像块序列作为第二增强目标,依据所述第二增强目标中的图像块序列对应的训练样例语义描述,确定所述第二增强目标对应的第二增强目标语义描述;
初始网络调试模块950,用于依据所述第一增强目标语义描述、所述第二增强目标语义描述以及所述图像语义描述,对所述第一初始调试网络进行无监督调试,得到第二初始调试网络;所述第二初始调试网络用于执行水下图像增强操作。
根据本申请的实施例,还提供了一种计算机设备、一种可读存储介质和一种计算机程序产品。
请参考图4,为本申请的服务器或客户端的计算机设备1000的结构框图,计算机设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储计算机设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
计算机设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006、输出单元1007、存储单元1008以及通信单元1009。输入单元1006可以是能向计算机设备1000输入信息的任何类型的设备,输入单元1006可以接收输入的数字或字符信息,以及产生与计算机设备的用户设置和/或功能控制有关的键信号输入,并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元1007可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1008可以包括但不限于磁盘、光盘。通信单元1009允许计算机设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如方法200。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到计算机设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的方法200的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
虽然已经参照附图描述了本申请的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本申请中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本申请之后出现的等同要素进行替换。

Claims (10)

1.一种基于深度学习的水下图像增强方法,其特征在于,应用于计算机设备,所述方法包括:
在获得包括v个图像块序列的初始水下图像时,依据每个图像块序列的重要性评分以及重要性评分临界值,对所述v个图像块序列分别进行分类,得到所述初始水下图像对应的积极训练样例集和消极训练样例集;
获取第一初始调试网络;所述第一初始调试网络用于确定每个图像块序列分别对应的训练样例语义描述;所述初始水下图像对应的图像语义描述为基于所述每个图像块序列分别对应的训练样例语义描述确定得到;
从所述积极训练样例集中选取与预设增强范围匹配的图像块序列作为第一增强目标,依据所述第一增强目标中的图像块序列对应的训练样例语义描述,确定所述第一增强目标对应的第一增强目标语义描述;
从所述消极训练样例集中选取与所述预设增强范围匹配的图像块序列作为第二增强目标,依据所述第二增强目标中的图像块序列对应的训练样例语义描述,确定所述第二增强目标对应的第二增强目标语义描述;
依据所述第一增强目标语义描述、所述第二增强目标语义描述以及所述图像语义描述,对所述第一初始调试网络进行无监督调试,得到第二初始调试网络;所述第二初始调试网络用于执行水下图像增强操作。
2.根据权利要求1所述的方法,其特征在于,所述在获得包括v个图像块序列的初始水下图像时,在所述依据每个图像块序列的重要性评分以及重要性评分临界值,对所述v个图像块序列分别进行分类,得到所述初始水下图像对应的积极训练样例集和消极训练样例集之前,还包括:
获取第一图像增强网络;
将所述v个图像块序列加载到所述第一图像增强网络,基于所述第一图像增强网络分别对每个图像块序列进行增强目标推理,得到每个图像块序列的重要性评分;
依据所述每个图像块序列的重要性评分以及重要性评分临界值,对所述v个图像块序列分别进行分类,得到所述初始水下图像对应的积极训练样例集和消极训练样例集。
3.根据权利要求2所述的方法,其特征在于,所述将所述v个图像块序列加载到所述第一图像增强网络,基于所述第一图像增强网络分别对每个图像块序列进行增强目标推理,得到每个图像块序列的重要性评分,包括:
将所述v个图像块序列加载到所述第一图像增强网络,获取每个图像块序列分别对应的第一图像块序列嵌入,得到v个第一图像块序列嵌入;所述第一图像增强网络包括图像嵌入映射层以及图像生成映射层;
基于所述图像嵌入映射层以及所述v个第一图像块序列嵌入,对每个图像块序列分别进行嵌入映射,得到每个图像块序列分别对应的第二图像块序列嵌入;
将v个第二图像块序列嵌入加载到所述图像生成映射层,基于所述图像生成映射层以及所述v个第二图像块序列嵌入,对所述v个图像块序列分别进行生成映射,得到每个图像块序列的重要性评分。
4.根据权利要求3所述的方法,其特征在于,所述v个图像块序列包括图像块序列Dm;其中,m≤v;所述v个第一图像块序列嵌入包括所述图像块序列Dm对应的第一图像块序列嵌入Em;所述图像嵌入映射层包括第一图像嵌入映射层和第二图像嵌入映射层;所述基于所述图像嵌入映射层以及所述v个第一图像块序列嵌入,对每个图像块序列分别进行嵌入映射,得到每个图像块序列分别对应的第二图像块序列嵌入,包括:
基于所述第一图像嵌入映射层和所述第一图像块序列嵌入Em,对所述图像块序列Dm进行第一嵌入映射,得到所述图像块序列Dm对应的第一嵌入描述数组;
在得到v个图像块序列分别对应的第一嵌入描述数组时,将v个第一嵌入描述数组加载到所述第二图像嵌入映射层,基于所述第二图像嵌入映射层和所述v个第一嵌入描述数组,对所述图像块序列Dm进行第二嵌入映射,得到所述图像块序列Dm对应的第二嵌入描述数组;
将所述图像块序列Dm对应的第二嵌入描述数组作为所述图像块序列Dm对应的第二图像块序列嵌入Fm。
5.根据权利要求2所述的方法,其特征在于,所述重要性评分临界值包括第一临界值;所述依据所述每个图像块序列的重要性评分以及重要性评分临界值,对所述v个图像块序列分别进行分类,得到所述初始水下图像对应的积极训练样例集和消极训练样例集,包括:
对所述v个图像块序列进行全局游走,将游走到的图像块序列确定为拟分类图像块序列;
如果所述拟分类图像块序列的重要性评分不小于所述第一临界值,则将所述拟分类图像块序列加入所述初始水下图像对应的积极训练样例集;
如果所述拟分类图像块序列的重要性评分小于所述第一临界值,则将所述拟分类图像块序列加入所述初始水下图像对应的消极训练样例集;
或者;
所述重要性评分临界值包括第二临界值和第三临界值;所述第二临界值大于所述第三临界值;所述依据所述每个图像块序列的重要性评分以及重要性评分临界值,对所述v个图像块序列分别进行分类,得到所述初始水下图像对应的积极训练样例集和消极训练样例集,包括:
对所述v个图像块序列进行全局游走,将游走到的图像块序列确定为拟分类图像块序列;
如果所述拟分类图像块序列的重要性评分不小于所述第二临界值,则将所述拟分类图像块序列加入所述初始水下图像对应的积极训练样例集;
如果所述拟分类图像块序列的重要性评分小于所述第二临界值,且大于所述第三临界值,则将所述拟分类图像块序列进行筛除;
如果所述拟分类图像块序列的重要性评分小于或者等于所述第三临界值,则将所述拟分类图像块序列加入所述初始水下图像对应的消极训练样例集。
6.根据权利要求1所述的方法,其特征在于,所述v个图像块序列包括图像块序列Dm;其中,m≤v;所述方法还包括:
将所述图像块序列Dm加载到所述第一初始调试网络;
依据所述图像块序列Dm中的每个图像块的图像块嵌入,确定所述图像块序列Dm对应的初始样例描述数组;一个图像块的图像块嵌入为基于所述一个图像块对应的自向嵌入、序列嵌入和图像块位置嵌入联合确定得到;
基于所述第一初始调试网络和所述图像块序列Dm对应的初始样例描述数组,对所述图像块序列Dm进行嵌入映射,得到所述图像块序列Dm对应的训练样例语义描述;
所述第一增强目标语义描述和所述第二增强目标语义描述均为均分增强目标语义描述,其中,所述均分增强目标语义描述是对图像块序列集合中,每个图像块序列的训练样例语义描述进行均值计算后获得的;所述图像块序列集合包括所述第一增强目标和所述第二增强目标。
7.根据权利要求1所述的方法,其特征在于,所述依据所述第一增强目标语义描述、所述第二增强目标语义描述以及所述图像语义描述,对所述第一初始调试网络进行无监督调试,得到第二初始调试网络,包括:
获取无监督调试的网络误差函数;
依据所述第一增强目标语义描述、所述第二增强目标语义描述以及所述图像语义描述,确定所述网络误差函数对应的网络误差;
依据所述网络误差,对所述第一初始调试网络进行调试,得到网络调试结果;
如果所述网络调试结果表征调试完成的第一初始调试网络符合调试截止要求,则将符合所述调试截止要求的第一初始调试网络作为第二初始调试网络;
如果所述网络调试结果表征调试完成的第一初始调试网络未符合调试截止要求,则依据未符合所述调试截止要求的所述网络误差函数,对所述第一初始调试网络的网络可学习变量进行优化;
将优化网络可学习变量后的第一初始调试网络作为中间网络,对所述中间网络进行调试,当调试后的中间网络符合所述调试截止要求时,将符合所述调试截止要求的中间网络作为第二初始调试网络。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
依据所述第二初始调试网络,建立用于执行水下图像增强操作的基础图像增强网络;
获取针对所述基础图像增强网络的水下图像训练样例和所述水下图像训练样例对应的训练监督信息,所述训练监督信息用于指示所述水下图像训练样例的实际增强目标;
将所述水下图像训练样例加载到所述基础图像增强网络,基于所述基础图像增强网络对所述水下图像训练样例进行增强目标推理,得到所述水下图像训练样例对应的推理增强目标;
依据所述实际增强目标和所述推理增强目标,对所述基础图像增强网络进行细节优化,得到第二图像增强网络;所述第二图像增强网络用于确定水下图像的待增强目标。
9.根据权利要求1所述的方法,其特征在于,所述预设增强范围为u,其中,1≤u;所述方法还包括:
依据所述第二初始调试网络,建立用于执行水下图像增强操作的基础图像增强网络;
获取针对所述基础图像增强网络的水下图像训练样例,基于所述基础图像增强网络对所述水下图像训练样例中的w个图像块序列分别进行嵌入映射,得到w个语义嵌入描述数组,其中,1≤w;
依据u个初始聚类中心,对所述w个语义嵌入描述数组进行划簇,得到u个数据簇;
依据所述u个数据簇对所述基础图像增强网络进行调试,得到第二图像增强网络,所述第二图像增强网络用于确定水下图像的待增强目标。
10.一种计算机设备,其特征在于,包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~9中任一项所述的方法。
CN202311546164.XA 2023-11-20 2023-11-20 基于深度学习的水下图像增强方法 Active CN117522718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311546164.XA CN117522718B (zh) 2023-11-20 2023-11-20 基于深度学习的水下图像增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311546164.XA CN117522718B (zh) 2023-11-20 2023-11-20 基于深度学习的水下图像增强方法

Publications (2)

Publication Number Publication Date
CN117522718A CN117522718A (zh) 2024-02-06
CN117522718B true CN117522718B (zh) 2024-04-30

Family

ID=89764030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311546164.XA Active CN117522718B (zh) 2023-11-20 2023-11-20 基于深度学习的水下图像增强方法

Country Status (1)

Country Link
CN (1) CN117522718B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019019695A1 (zh) * 2017-07-27 2019-01-31 北京大学深圳研究生院 一种基于Retinex模型的水下图像增强方法
CN115660980A (zh) * 2022-10-21 2023-01-31 中国科学院深圳先进技术研究院 一种无监督的水下图像增强方法及相关设备
CN116402709A (zh) * 2023-03-22 2023-07-07 大连海事大学 一种基于水下注意力生成对抗网络的图像增强方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310862A1 (en) * 2014-04-24 2015-10-29 Microsoft Corporation Deep learning for semantic parsing including semantic utterance classification
US9836839B2 (en) * 2015-05-28 2017-12-05 Tokitae Llc Image analysis systems and related methods
US11593945B2 (en) * 2021-03-15 2023-02-28 Huawei Cloud Computing Technologies Co., Ltd. Methods and systems for semantic augmentation of images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019019695A1 (zh) * 2017-07-27 2019-01-31 北京大学深圳研究生院 一种基于Retinex模型的水下图像增强方法
CN115660980A (zh) * 2022-10-21 2023-01-31 中国科学院深圳先进技术研究院 一种无监督的水下图像增强方法及相关设备
CN116402709A (zh) * 2023-03-22 2023-07-07 大连海事大学 一种基于水下注意力生成对抗网络的图像增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度学习驱动的水下图像增强与复原研究进展;丛润民;张禹墨;张晨;李重仪;赵耀;;信号处理;20200930(09);全文 *

Also Published As

Publication number Publication date
CN117522718A (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN113033537B (zh) 用于训练模型的方法、装置、设备、介质和程序产品
JP2020501238A (ja) 顔検出トレーニング方法、装置及び電子機器
CN111598164B (zh) 识别目标对象的属性的方法、装置、电子设备和存储介质
JP2018528521A (ja) メディア分類
CN112857268B (zh) 对象面积测量方法、装置、电子设备和存储介质
JP2008262331A (ja) オブジェクト追跡装置およびオブジェクト追跡方法
CN115082740B (zh) 目标检测模型训练方法、目标检测方法、装置、电子设备
CN113642740A (zh) 模型训练方法及装置、电子设备和介质
CN114091594A (zh) 模型训练方法及装置、设备、存储介质
WO2022100607A1 (zh) 一种神经网络结构确定方法及其装置
CN117522718B (zh) 基于深度学习的水下图像增强方法
WO2023143498A1 (zh) 火焰检测方法、装置、设备和存储介质
CN115482436B (zh) 图像筛选模型的训练方法、装置以及图像筛选方法
CN116977271A (zh) 缺陷检测方法、模型训练方法、装置及电子设备
US20220284260A1 (en) Variable quantization for neural networks
CN116710974A (zh) 在合成数据系统和应用程序中使用域对抗学习的域适应
CN116777814A (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
CN114462526A (zh) 一种分类模型训练方法、装置、计算机设备及存储介质
CN114821233B (zh) 目标检测模型的训练方法及装置、设备和介质
CN115511779B (zh) 图像检测方法、装置、电子设备和存储介质
CN116824609B (zh) 文档版式检测方法、装置和电子设备
CN117437496B (zh) 基于机器视觉的电脑一体机良率检测方法及系统
CN114724090B (zh) 行人再识别模型的训练方法、行人再识别方法及装置
CN115331077B (zh) 特征提取模型的训练方法、目标分类方法、装置、设备
CN116883181B (zh) 基于用户画像的金融服务推送方法、存储介质及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant