CN116405626B - 一种全局匹配的水下运动目标视觉增强方法及系统 - Google Patents

一种全局匹配的水下运动目标视觉增强方法及系统 Download PDF

Info

Publication number
CN116405626B
CN116405626B CN202310650996.XA CN202310650996A CN116405626B CN 116405626 B CN116405626 B CN 116405626B CN 202310650996 A CN202310650996 A CN 202310650996A CN 116405626 B CN116405626 B CN 116405626B
Authority
CN
China
Prior art keywords
features
frames
underwater
module
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310650996.XA
Other languages
English (en)
Other versions
CN116405626A (zh
Inventor
姜宇
张永霁
王跃航
齐红
赵明浩
张凯欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202310650996.XA priority Critical patent/CN116405626B/zh
Publication of CN116405626A publication Critical patent/CN116405626A/zh
Application granted granted Critical
Publication of CN116405626B publication Critical patent/CN116405626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/30Assessment of water resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明是一种全局匹配的水下运动目标视觉增强方法。本发明涉及模式识别技术领域,本发明利用水下摄影设备采集目标的RGB视频序列数据集;利用基于特征金字塔的多级编码器,得到多尺度RGB边界帧特征;利用滑动窗口的分层视觉变换器进行特征增强;对提取的特征进行全局相关性匹配;利用逐级上采样特征解码器,并在上采样的过程中联合优化中间光流和中间帧特征,最终输出清晰视频中间帧;使用图像损失结合约束重建中间帧。通过通过本申请中的技术方案,实现了为水下视频重建清晰的中间帧,增强了运动目标的视觉质量,提高了水下视频的帧率,为水下的检测、识别和追踪等任务提供了鲁棒的视觉表达。

Description

一种全局匹配的水下运动目标视觉增强方法及系统
技术领域
本发明涉及模式识别技术领域,是一种全局匹配的水下运动目标视觉增强方法及系统。
背景技术
水下拍摄设备由于其造价高、拍摄环境要求高的特点,在近年来已经能到了极大的关注,如何有效降低成本、提高效率在计算机视觉领域中已经成为了热门话题,水下视频插帧的目的是为了可以在给定的水下低帧率的视频中,通过前后帧信息合理地还原出中间帧的图像,尽可能地接近真实的运动轨迹,从而提高视频的帧率。水下视频插帧具有极高的应用价值,水下高帧率视频的录制成本极高,而低帧率视频很容易利用各种设备获取。比如水下动物快速移动,水底设备的快速转动,这些快速运动目前的常规设备很难获得完整的视觉图像,主要是因为视频的帧率不够高,导致从视觉角度来看动作不够连贯、不够清晰。视频插帧方法可以有效地通过提高视频的帧率解决这个问题,进而鲁棒地提高水下运动目标的视觉质量。
现有的视频插帧方法在面临大位移运动的情况时,运动估计并不准确,细节并不完整。现有技术主要是基于卷积的方法和核的方法,核的方法主要是使用可变形卷积估计帧间运动,但是基于核的方法的效率往往受限于可变形卷积核的大小。可变形卷积核的大小严重影响算法所占用的计算资源,一旦变化范围超过可变形卷积核的大小,基于核的方法的效率会明显下降。基于卷积的技术是采用估计两个RGB帧之间的光流,采用正向映射或者反向映射的方式获取中间帧,基于卷积的方法受限于运动估计的准确度。卷积受限于局部关系映射,然而水下中大多数运动都是大位移运动。基于卷积的方法受限于卷积本身对局部特征提取的限制,无法非常准确地还原出大位移运动两帧间的中间帧。变形器结构是可以有效的提取图像的全局信息,通过结合全局信息进行全局代价量匹配,再利用卷积神经网络进行图像生成,可以帮助准确估计目标的中间运动状态,最终得到接近真实目标的中间帧运动信息,进而有效地增强水下运动目标的视觉质量。
发明内容
本发明为克服现有技术的不足,本发明利用全局匹配提升水下视频的帧率,进而提高水下运动目标的视觉质量,为水下的目标检测、识别和追踪等任务提供高质量鲁棒的视觉表达。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本发明提供了一种全局匹配的水下运动目标视觉增强方法及系统,本发明提供了以下技术方案:
一种全局匹配的水下运动目标视觉增强方法及系统,所述方法包括以下步骤:
步骤1:通过水下摄影设备采集目标的RGB视频序列;
步骤2:通过特征金字塔的多级编码器,得到多尺度的RGB边界帧特征;
步骤3:通过滑动窗口的分层视觉变换器进行特征增强;
步骤4:对提取的特征进行全局相关性匹配;
步骤5:利用逐级上采样特征解码器,并在上采样的过程中联合优化中间光流和中间帧特征,输出清晰视频中间帧;
步骤6:使用图像损失结合约束重建中间帧。
优选地,所述步骤1具体为:
步骤1.1:将水下弱曝光目标的RGB视频拆解为一组三RGB帧的数据组,根据图像视觉质量过滤,删减具有运动模糊的数据;
步骤1.2:基于步骤1.1所获得的的结果,根据临近帧的结构相似度SSIM对数据过滤,使得临近帧之间0.75<SSIM<0.95,通过下式表示为:
其中,μx是图片x的像素的平均值,μy是图片y的像素的平均值,是x的方差,/>是y的方差,σxy是x和y的协方差,c1=(k1L)2,c2=(k2L)2是两个常数,避免除0,L为像素值的范围,2B-1,B代表灰度图像的位数;k1=0.01,k2=0.03为默认值;
步骤1.3:根据步骤1.1和步骤1.2所获得的结果,构建基准训练集和测试集,比例为5:1。
优选地,所述步骤2具体为:
根据步骤1所记录的数据,使用两个边界帧生成特征,对于两个边界帧和代表真实标签的中间帧,使用参数共享的编码器在四个尺度p(p∈{1,2,3,4})上提取特征,每个尺度提取模块由两个3×3卷积块组成,步长分别为2和1,每个卷积层经过卷积计算后使用PReLU激活函数;
通过逐渐提取空间大小,特征图的通道逐渐增加到32、64、96和128;对于两个边界帧得到的四个尺度的特征 用于后续合成中间帧,对于代表真实标签的中间帧得到的四个尺度的特征/>用来计算步骤7所述的几何结构损失函数。
优选地,所述步骤3具体为:
首先将步骤2得到的128通道的特征图划分割为非重叠的patch,patch是指将输入图像划分成固定大小的小块,经过变换器模块逐级合并patch;每个变换器模块由一个基于位移窗口的MSA模块组成,MSA模块为多头自注意力(Multi-head Self-Attention),是一个中间带有GELU非线性的两层MLP,GELU(Gaussian Error Linear Unit)是一种激活函数,常用于神经网络的非线性变换;每个MSA模块和每个MLP之前应用LayerNorm层,MLP(Multi-Layer Perceptron)是一种前馈神经网络模型,通常由多个全连接层组成。LayerNorm(Layer Normalization)是一种归一化技术,用于神经网络的每个层的输出。它的目的是通过对每个样本的特征进行标准化来增强模型的稳定性和泛化能力。MLP的每个层都由一组神经元组成,每个神经元与前一层的所有神经元相连接。在每个模块之后应用残差连接,通过分层视觉变换器,提取到的图像特征得到增强。
优选地,所述步骤4具体为:
先通过softmax归一化全局相关性的后两个维度,从而得到匹配的概率,然后利用此概率对像素网格点做平均加权,通过计算对应点之间的坐标差得到光流,具体的:
其中,F1,F2是由步骤3得到的增强特征,G∈RH×W×2,是像素网格;R为实数集合,H,W是图像的高和宽度。
优选地,所述步骤5具体为:
网络的解码器逐步细化中间流场,分别在四个尺度p(p∈{1,2,3,4})上根据光流和/>向后扭曲得到中间特征/>然后与边界帧的金字塔特征/>生成复合中间特征/>每个解码器通过在双边流场/>和/>之外输出更高层次的重构中间特征填补缺失的信息以促进运动估计。
优选地,所述步骤6具体为:
使用图像重建损失Lr来衡量网络输出和真实值/>之间的差异:
其中,ρ(x)=(x2+∈2)α,α=0.5,∈=10-3是Charbonnier损失,Lcen是普查损失,计算大小为7×7的普查转换图像块之间的软汉明距离;
根据逐级上采样特征解码器,逐步恢复原始尺度,得到完整清晰的水下视频中间帧输出。
一种全局匹配的水下运动目标视觉增强系统,所述系统包括:
目标采集模块,所述目标采集模块通过水下摄影设备采集目标的RGB视频序列;
特征提取模块,所述特征提取模块通过特征金字塔的多级编码器,得到多尺度的RGB边界帧特征;
特征增强模块,所述特征增强模块通过滑动窗口的分层视觉变换器进行特征增强;
匹配模块,所述匹配模块对提取的特征进行全局相关性匹配;
优化模块,所述优化模块利用逐级上采样特征解码器,并在上采样的过程中联合优化中间光流和中间帧特征,输出清晰视频中间帧;
重建模块,所述重建模块使用图像损失结合约束重建中间帧。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现一种全局匹配的水下运动目标视觉增强方法及系统。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种全局匹配的水下运动目标视觉增强方法及系统。
本发明具有以下有益效果:
本发明与现有技术相比:
本发明通过使用RGB相机在水下场景数据的采集,获取水下视频插帧数据。进而,通过本发明提出的一种全局匹配的水下运动目标视觉增强方法及系统,对水下视频通过基于全局匹配的方式进行插帧,获得高帧率的水下视频,为水下其他视觉应用,如水下的目标检测、识别、跟踪和分类等,提供良好的视觉表达,能够有效提升上述应用的准确率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种全局匹配的水下运动目标视觉增强方法及系统的流程示意图;
图2是特征编解码模块的流程示意图;
图3是全局匹配的流程示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
根据图1至图3所示,本发明为解决上述技术问题采取的具体优化技术方案是:本发明涉及一种全局匹配的水下运动目标视觉增强方法及系统,本发明利用全局匹配提升水下视频的帧率,进而提高水下运动目标的视觉质量,为水下的目标检测、识别和追踪等任务提供高质量鲁棒的视觉表达。
一种全局匹配的水下运动目标视觉增强方法及系统,所述方法包括以下步骤:
步骤1:通过水下摄影设备采集目标的RGB视频序列;
步骤2:通过特征金字塔的多级编码器,得到多尺度的RGB边界帧特征;
步骤3:通过滑动窗口的分层视觉变换器进行特征增强;
步骤4:对提取的特征进行全局相关性匹配;
步骤5:利用逐级上采样特征解码器,并在上采样的过程中联合优化中间光流和中间帧特征,输出清晰视频中间帧;
步骤6:使用图像损失结合约束重建中间帧。
具体实施例二:
本申请实施例二与实施例一的区别仅在于:
所述步骤1具体为:
步骤1.1:将水下弱曝光目标的RGB视频拆解为一组三RGB帧的数据组,根据图像视觉质量过滤,删减具有运动模糊的数据;
步骤1.2:基于步骤1.1所获得的的结果,根据临近帧的结构相似度SSIM对数据过滤,使得临近帧之间0.75<SSIM<0.95,通过下式表示为:
其中,μx是图片x的像素的平均值,μy是图片y的像素的平均值,是x的方差,/>是y的方差,σxy是x和y的协方差,c1=(k1L)2,c2=(k2L)2是两个常数,避免除0,L为像素值的范围,2B-1;k1=0.01,k2=0.03为默认值;
步骤1.3:根据步骤1.1和步骤1.2所获得的结果,构建基准训练集和测试集,比例为5:1。
具体实施例三:
本申请实施例三与实施例二的区别仅在于:
所述步骤2具体为:
根据步骤1所记录的数据,使用两个边界帧生成特征,对于两个边界帧和代表真实标签的中间帧,使用参数共享的编码器在四个尺度p(p∈{1,2,3,4})上提取特征,每个尺度提取模块由两个3×3卷积块组成,步长分别为2和1,每个卷积层经过卷积计算后使用PReLU激活函数;
通过逐渐提取空间大小,特征图的通道逐渐增加到32、64、96和128;对于两个边界帧得到的四个尺度的特征 用于后续合成中间帧,对于代表真实标签的中间帧得到的四个尺度的特征/>用来计算步骤7所述的几何结构损失函数。
具体实施例四:
本申请实施例四与实施例三的区别仅在于:
所述步骤3具体为:
首先将步骤2得到的128通道的特征图划分割为非重叠的patch,经过变换器模块逐级合并patch;每个变换器模块由一个基于位移窗口的MSA模块组成,是一个中间带有GELU非线性的两层MLP,每个MSA模块和每个MLP之前应用LayerNorm层,在每个模块之后应用残差连接,通过分层视觉变换器,提取到的图像特征得到增强。
具体实施例五:
本申请实施例五与实施例四的区别仅在于:
所述步骤4具体为:
先通过softmax归一化全局相关性的后两个维度,从而得到匹配的概率,然后利用此概率对像素网格点做平均加权,通过计算对应点之间的坐标差得到光流,具体的:
其中,F1,F2是由步骤3得到的增强特征,G∈RH×W×2,是像素网格。
具体实施例六:
本申请实施例六与实施例五的区别仅在于:
所述步骤5具体为:
网络的解码器逐步细化中间流场,分别在四个尺度p(p∈{1,2,3,4})上根据光流和/>向后扭曲得到中间特征/>然后与边界帧的金字塔特征/>生成复合中间特征/>每个解码器通过在双边流场/>和/>之外输出更高层次的重构中间特征填补缺失的信息以促进运动估计。
具体实施例七:
本申请实施例七与实施例六的区别仅在于:
所述步骤6具体为:
使用图像重建损失Lr来衡量网络输出和真实值/>之间的差异:
其中,ρ(x)=(x2+∈2)α,α=0.5,∈=10-3是Charbonnier损失,Lcen是普查损失,计算大小为7×7的普查转换图像块之间的软汉明距离;
根据逐级上采样特征解码器,逐步恢复原始尺度,得到完整清晰的水下视频中间帧输出。
具体实施例八:
本申请实施例八与实施例七的区别仅在于:
本发明提供一种全局匹配的水下运动目标视觉增强系统,所述系统包括:
目标采集模块,所述目标采集模块通过水下摄影设备采集目标的RGB视频序列;
特征提取模块,所述特征提取模块通过特征金字塔的多级编码器,得到多尺度的RGB边界帧特征;
特征增强模块,所述特征增强模块通过滑动窗口的分层视觉变换器进行特征增强;
匹配模块,所述匹配模块对提取的特征进行全局相关性匹配;
优化模块,所述优化模块利用逐级上采样特征解码器,并在上采样的过程中联合优化中间光流和中间帧特征,输出清晰视频中间帧;
重建模块,所述重建模块使用图像损失结合约束重建中间帧。
具体实施例九:
本申请实施例九与实施例八的区别仅在于:
本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如一种全局匹配的水下运动目标视觉增强方法及系统。
所述方法包括以下步骤:
步骤1、利用水下摄影设备采集目标的RGB视频序列,首先根据所述的水下弱曝光目标的RGB视频拆解为一组三RGB帧的数据组,并根据图像视觉质量过滤,删减具有明显运动模糊的数据。然后,根据临近帧的结构相似度(SSIM)对数据过滤,要求临近帧之间0.75<SSIM<0.95,具体计算公式为:
其中,μx是图片x的像素的平均值,μy是图片y的像素的平均值,是x的方差,/>是y的方差,σxy是x和y的协方差,c1=(k1L)2,c2=(k2L)2是两个常数,避免除0,L为像素值的范围,2B-1。k1=0.01,k2=0.03为默认值;
步骤2、如图2所示使用两个边界帧生成图像特征。对于两个边界帧和代表真实标签的中间帧,使用参数共享的编码器在四个尺度p(p∈{1,2,3,4})上提取特征,每个尺度提取模块由两个3×3卷积块组成,步长分别为2和1,每个卷积层经过卷积计算后使用PReLU激活函数。通过逐渐提取空间大小,特征图的通道逐渐增加到32、64、96和128。对于两个边界帧得到的四个尺度的特征 用于后续合成中间帧。对于代表真实标签的中间帧得到的四个尺度的特征/>用来计算步骤7所述的几何结构损失函数;
步骤3、首先将步骤2得到的128通道的特征图划分割为非重叠的patch,然后经过变换器模块逐级合并patch。每个变换器模块由一个基于位移窗口的MSA模块组成,然后是一个中间带有GELU非线性的两层MLP。每个MSA模块和每个MLP之前应用LayerNorm层,在每个模块之后应用残差连接。通过分层视觉变换器,提取到的图像特征得到增强;
步骤4、如图3所示,先通过softmax归一化全局相关性的后两个维度,从而得到匹配的概率,然后利用此概率对像素网格点做平均加权。最后通过计算对应点之间的坐标差得到光流,具体的:
其中F1,F2是由步骤3得到的增强特征,G∈RH×W×2,是像素网格。
步骤5、如图2所示,网络的解码器逐步细化中间流场,分别在四个尺度p(p∈{1,2,3,4})上根据光流和/>向后扭曲得到中间特征/>然后与边界帧的金字塔特征生成复合中间特征/>每个解码器通过在双边流场/>和/>之外输出更高层次的重构中间特征/>填补缺失的信息以促进运动估计。解码器每个模块由六个3×3卷积和一个4×4反卷积块组成,步长为1和1/2,每个卷积层经过卷积计算后使用PReLU激活函数;
步骤6、使用图像重建损失Lr来衡量网络输出和真实值/>之间的差异:
其中ρ(x)=(x2+∈2)α,α=0.5,∈=10-3是Charbonnier损失。Lcen是普查损失,它计算大小为7×7的普查转换图像块之间的软汉明距离。
根据所述的逐级上采样特征解码器,逐步恢复原始尺度,得到完整清晰的水下视频中间帧输出。
本实施例的技术方案,通过对RGB数据边界帧的特征提取,特征增强,通过全局匹配进行运动估计,逐步细化光流生成的结果,通过本申请的方法,以端到端的方式实现了水下视频中间帧的清晰生成,为水下的目标检测、识别、追踪等任务提供清晰鲁棒的视觉表达。
具体实施例十:
本申请实施例十与实施例九的区别仅在于:
本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其所述处理器执行所述计算机程序时实现一种全局匹配的水下运动目标视觉增强方法及系统。
方法包括:
步骤1、利用水下摄影设备采集目标的RGB视频序列,首先根据所述的水下弱曝光目标的RGB视频拆解为一组三RGB帧的数据组,并根据图像视觉质量过滤,删减具有明显运动模糊的数据。然后,根据临近帧的结构相似度(SSIM)对数据过滤,要求临近帧之间0.75<SSIM<0.95,具体计算公式为:
其中,μx是图片x的像素的平均值,μy是图片y的像素的平均值,是x的方差,/>是y的方差,σxy是x和y的协方差,c1=(k1L)2,c2=(k2L)2是两个常数,避免除0,L为像素值的范围,2B-1。k1=0.01,k2=0.03为默认值;
步骤2、使用两个边界帧生成图像特征。对于两个边界帧和代表真实标签的中间帧,使用参数共享的编码器在四个尺度p(p∈{1,2,3,4})上提取特征,每个尺度提取模块由两个3×3卷积块组成,步长分别为2和1,每个卷积层经过卷积计算后使用PReLU激活函数。通过逐渐提取空间大小,特征图的通道逐渐增加到32、64、96和128。对于两个边界帧得到的四个尺度的特征用于后续合成中间帧。对于代表真实标签的中间帧得到的四个尺度的特征/>用来计算步骤7所述的几何结构损失函数;
步骤3、首先将步骤2得到的128通道的特征图划分割为非重叠的patch,然后经过变换器模块逐级合并patch。每个变换器模块由一个基于位移窗口的MSA模块组成,然后是一个中间带有GELU非线性的两层MLP。每个MSA模块和每个MLP之前应用LayerNorm层,在每个模块之后应用残差连接。通过分层视觉变换器,提取到的图像特征得到增强;
步骤4、先通过softmax归一化全局相关性的后两个维度,从而得到匹配的概率,然后利用此概率对像素网格点做平均加权。最后通过计算对应点之间的坐标差得到光流,具体的:
其中F1,F2是由步骤3得到的增强特征,G∈RH×W×2,是像素网格。
步骤5、网络的解码器逐步细化中间流场,分别在四个尺度p(p∈{1,2,3,4})上根据光流和/>向后扭曲得到中间特征/>然后与边界帧的金字塔特征/>生成复合中间特征/>每个解码器通过在双边流场/>和/>之外输出更高层次的重构中间特征/>填补缺失的信息以促进运动估计;
步骤6、使用图像重建损失Lr来衡量网络输出和真实值/>之间的差异:
其中ρ(x)=(x2+∈2)α,α=0.5,∈=10-3是Charbonnier损失。Lcen是普查损失,它计算大小为7×7的普查转换图像块之间的软汉明距离。
根据所述的逐级上采样特征解码器,逐步恢复原始尺度,得到完整清晰的水下视频中间帧输出。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
以上所述仅是一种全局匹配的水下运动目标视觉增强方法及系统的优选实施方式,一种全局匹配的水下运动目标视觉增强方法及系统的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。

Claims (4)

1.一种全局匹配的水下运动目标视觉增强方法,其特征是:所述方法包括以下步骤:
步骤1:通过水下摄影设备采集目标的RGB视频序列;
所述步骤1具体为:
步骤1.1:将水下弱曝光目标的RGB视频拆解为一组三RGB帧的数据组,根据图像视觉质量过滤,删减具有运动模糊的数据;
步骤1.2:基于步骤1.1所获得的的结果,根据临近帧的结构相似度SSIM对数据过滤,使得临近帧之间0.75<SSIM<0.95,通过下式表示为:
其中,μx是图片x的像素的平均值,μy是图片y的像素的平均值,是x的方差,/>是y的方差,σxy是x和y的协方差,c1=(k1L)2,c2=(k2L)2是两个常数,避免除0,L为像素值的范围,2B-1;k1=0.01,k2=0.03为默认值;
步骤1.3:根据步骤1.1和步骤1.2所获得的结果,构建基准训练集和测试集,比例为5:1;
步骤2:通过特征金字塔的多级编码器,得到多尺度的RGB边界帧特征;
所述步骤2具体为:
根据步骤1所记录的数据,使用两个边界帧生成特征,对于两个边界帧和代表真实标签的中间帧,使用参数共享的编码器在四个尺度p(p∈{1,2,3,4})上提取特征,每个尺度提取模块由两个3×3卷积块组成,步长分别为2和1,每个卷积层经过卷积计算后使用PReLU激活函数;
通过逐渐提取空间大小,特征图的通道逐渐增加到32、64、96和128;对于两个边界帧得到的四个尺度的特征 用于后续合成中间帧,对于代表真实标签的中间帧得到的四个尺度的特征/>用来计算几何结构损失函数;
步骤3:通过滑动窗口的分层视觉变换器进行特征增强;
所述步骤3具体为:
首先将步骤2得到的128通道的特征图划分割为非重叠的patch,经过变换器模块逐级合并patch;每个变换器模块由一个基于位移窗口的MSA模块组成,是一个中间带有GELU非线性的两层MLP,每个MSA模块和每个MLP之前应用LayerNorm层,在每个模块之后应用残差连接,通过分层视觉变换器,提取到的图像特征得到增强;
步骤4:对提取的特征进行全局相关性匹配;
所述步骤4具体为:
先通过softmax归一化全局相关性的后两个维度,从而得到匹配的概率,然后利用此概率对像素网格点做平均加权,通过计算对应点之间的坐标差得到光流;
步骤5:利用逐级上采样特征解码器,并在上采样的过程中联合优化中间光流和中间帧特征,输出清晰视频中间帧;
所述步骤5具体为:
网络的解码器逐步细化中间流场,分别在四个尺度p(p∈{1,2,3,4})上根据光流和/>向后扭曲得到中间特征/>然后与边界帧的金字塔特征/>生成复合中间特征每个解码器通过在双边流场/>和/>之外输出更高层次的重构中间特征/>填补缺失的信息以促进运动估计;
步骤6:使用图像损失结合约束重建中间帧;
所述步骤6具体为:
使用图像重建损失Lr来衡量网络输出和真实值/>之间的差异:
其中,ρ(x)=(x2+∈2)α,α=0.5,∈=10-3是Charbonnier损失,Lcen是普查损失,计算大小为7×7的普查转换图像块之间的软汉明距离;
根据逐级上采样特征解码器,逐步恢复原始尺度,得到完整清晰的水下视频中间帧输出。
2.一种全局匹配的水下运动目标视觉增强系统,其特征是:所述系统包括:
目标采集模块,所述目标采集模块通过水下摄影设备采集目标的RGB视频序列;
将水下弱曝光目标的RGB视频拆解为一组三RGB帧的数据组,根据图像视觉质量过滤,删减具有运动模糊的数据;
基于所获得的的结果,根据临近帧的结构相似度SSIM对数据过滤,使得临近帧之间0.75<SSIM<0.95,通过下式表示为:
其中,μx是图片x的像素的平均值,μy是图片y的像素的平均值,是x的方差,/>是y的方差,σxy是x和y的协方差,c1=(k1L)2,c2=(k2L)2是两个常数,避免除0,L为像素值的范围,2B-1;k1=0.01,k2=0.03为默认值;
构建基准训练集和测试集,比例为5:1;
特征提取模块,所述特征提取模块通过特征金字塔的多级编码器,得到多尺度的RGB边界帧特征;
根据所记录的数据,使用两个边界帧生成特征,对于两个边界帧和代表真实标签的中间帧,使用参数共享的编码器在四个尺度p(p∈{1,2,3,4})上提取特征,每个尺度提取模块由两个3×3卷积块组成,步长分别为2和1,每个卷积层经过卷积计算后使用PReLU激活函数;
通过逐渐提取空间大小,特征图的通道逐渐增加到32、64、96和128;对于两个边界帧得到的四个尺度的特征 用于后续合成中间帧,对于代表真实标签的中间帧得到的四个尺度的特征/>用来计算几何结构损失函数;
特征增强模块,所述特征增强模块通过滑动窗口的分层视觉变换器进行特征增强;
首先将得到的128通道的特征图划分割为非重叠的patch,经过变换器模块逐级合并patch;每个变换器模块由一个基于位移窗口的MSA模块组成,是一个中间带有GELU非线性的两层MLP,每个MSA模块和每个MLP之前应用LayerNorm层,在每个模块之后应用残差连接,通过分层视觉变换器,提取到的图像特征得到增强;
匹配模块,所述匹配模块对提取的特征进行全局相关性匹配;
先通过softmax归一化全局相关性的后两个维度,从而得到匹配的概率,然后利用此概率对像素网格点做平均加权,通过计算对应点之间的坐标差得到光流;
优化模块,所述优化模块利用逐级上采样特征解码器,并在上采样的过程中联合优化中间光流和中间帧特征,输出清晰视频中间帧;
网络的解码器逐步细化中间流场,分别在四个尺度p(p∈{1,2,3,4})上根据光流和/>向后扭曲得到中间特征/>然后与边界帧的金字塔特征/> 生成复合中间特征每个解码器通过在双边流场/>和/>之外输出更高层次的重构中间特征/>填补缺失的信息以促进运动估计;
重建模块,所述重建模块使用图像损失结合约束重建中间帧;
使用图像重建损失Lr来衡量网络输出和真实值/>之间的差异:
其中,ρ(x)=(x2+∈2)α,α=0.5,∈=10-3是Charbonnier损失,Lcen是普查损失,计算大小为7×7的普查转换图像块之间的软汉明距离;
根据逐级上采样特征解码器,逐步恢复原始尺度,得到完整清晰的水下视频中间帧输出。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1的方法。
4.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征是:所述处理器执行所述计算机程序时实现权利要求1的方法。
CN202310650996.XA 2023-06-05 2023-06-05 一种全局匹配的水下运动目标视觉增强方法及系统 Active CN116405626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310650996.XA CN116405626B (zh) 2023-06-05 2023-06-05 一种全局匹配的水下运动目标视觉增强方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310650996.XA CN116405626B (zh) 2023-06-05 2023-06-05 一种全局匹配的水下运动目标视觉增强方法及系统

Publications (2)

Publication Number Publication Date
CN116405626A CN116405626A (zh) 2023-07-07
CN116405626B true CN116405626B (zh) 2023-09-22

Family

ID=87012649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310650996.XA Active CN116405626B (zh) 2023-06-05 2023-06-05 一种全局匹配的水下运动目标视觉增强方法及系统

Country Status (1)

Country Link
CN (1) CN116405626B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445496A (zh) * 2020-02-26 2020-07-24 沈阳大学 一种水下图像识别跟踪系统及方法
CN114445292A (zh) * 2022-01-18 2022-05-06 中国农业大学 一种多阶段渐进式水下图像增强方法
CN115018888A (zh) * 2022-07-04 2022-09-06 东南大学 一种基于Transformer的光流无监督估计方法
CN115761472A (zh) * 2023-01-09 2023-03-07 吉林大学 一种基于融合事件和rgb数据的水下暗光场景重建方法
CN115883764A (zh) * 2023-02-08 2023-03-31 吉林大学 一种基于数据协同的水下高速视频插帧方法及其系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445496A (zh) * 2020-02-26 2020-07-24 沈阳大学 一种水下图像识别跟踪系统及方法
CN114445292A (zh) * 2022-01-18 2022-05-06 中国农业大学 一种多阶段渐进式水下图像增强方法
CN115018888A (zh) * 2022-07-04 2022-09-06 东南大学 一种基于Transformer的光流无监督估计方法
CN115761472A (zh) * 2023-01-09 2023-03-07 吉林大学 一种基于融合事件和rgb数据的水下暗光场景重建方法
CN115883764A (zh) * 2023-02-08 2023-03-31 吉林大学 一种基于数据协同的水下高速视频插帧方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
An Underwater Human–Robot Interaction Using a Visual–Textual Model for Autonomous Underwater Vehicles;Yongji Zhang 等;Sensors;全文1-14页 *

Also Published As

Publication number Publication date
CN116405626A (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
US10593021B1 (en) Motion deblurring using neural network architectures
Lan et al. MADNet: A fast and lightweight network for single-image super resolution
Jian et al. SEDRFuse: A symmetric encoder–decoder with residual block network for infrared and visible image fusion
Wang et al. UNFusion: A unified multi-scale densely connected network for infrared and visible image fusion
CN115761472B (zh) 一种基于融合事件和rgb数据的水下暗光场景重建方法
CN109948796B (zh) 自编码器学习方法、装置、计算机设备及存储介质
Meng et al. Single-image dehazing based on two-stream convolutional neural network
CN111402310A (zh) 一种基于深度估计网络的单目图像深度估计方法及系统
CN111047548A (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
CN114936605A (zh) 基于知识蒸馏的神经网络训练方法、设备及存储介质
Anvari et al. Dehaze-GLCGAN: unpaired single image de-hazing via adversarial training
CN110363068B (zh) 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法
Shi et al. Low-light image enhancement algorithm based on retinex and generative adversarial network
CN114881871A (zh) 一种融合注意力单幅图像去雨方法
Yu et al. Split-attention multiframe alignment network for image restoration
CN116645598A (zh) 一种基于通道注意力特征融合的遥感图像语义分割方法
CN116757955A (zh) 一种基于全维动态卷积多融合对比网络
Ren et al. A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms
Er et al. Research challenges, recent advances and benchmark datasets in deep-learning-based underwater marine object detection: A review
CN116405626B (zh) 一种全局匹配的水下运动目标视觉增强方法及系统
CN112686830A (zh) 基于图像分解的单一深度图的超分辨率方法
Gupta et al. A robust and efficient image de-fencing approach using conditional generative adversarial networks
CN117011160A (zh) 一种基于密集循环网络融合注意力机制的单图像去雨方法
CN113971826B (zh) 估计连续的效价和唤醒水平的动态情感识别方法和系统
CN112258394B (zh) 数据处理方法、船只跟踪方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant