CN115345785A - 一种基于多尺度时空特征融合的暗光视频增强方法及系统 - Google Patents
一种基于多尺度时空特征融合的暗光视频增强方法及系统 Download PDFInfo
- Publication number
- CN115345785A CN115345785A CN202210775619.4A CN202210775619A CN115345785A CN 115345785 A CN115345785 A CN 115345785A CN 202210775619 A CN202210775619 A CN 202210775619A CN 115345785 A CN115345785 A CN 115345785A
- Authority
- CN
- China
- Prior art keywords
- video
- model
- module
- dim light
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000004927 fusion Effects 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 110
- 238000007781 pre-processing Methods 0.000 claims abstract description 73
- 230000006870 function Effects 0.000 claims abstract description 72
- 230000008569 process Effects 0.000 claims abstract description 43
- 238000011156 evaluation Methods 0.000 claims abstract description 42
- 238000000605 extraction Methods 0.000 claims description 60
- 238000004364 calculation method Methods 0.000 claims description 58
- 238000012545 processing Methods 0.000 claims description 32
- 230000000694 effects Effects 0.000 claims description 25
- 230000003321 amplification Effects 0.000 claims description 19
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 19
- 238000013434 data augmentation Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 230000000295 complement effect Effects 0.000 claims description 7
- 238000013139 quantization Methods 0.000 claims description 7
- 101100269850 Caenorhabditis elegans mask-1 gene Proteins 0.000 claims description 6
- 101500023488 Lithobates catesbeianus GnRH-associated peptide 1 Proteins 0.000 claims description 6
- 101500022510 Lithobates catesbeianus GnRH-associated peptide 2 Proteins 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000001066 destructive effect Effects 0.000 claims description 3
- 230000010365 information processing Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000000750 progressive effect Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000007526 fusion splicing Methods 0.000 claims 1
- 230000026676 system process Effects 0.000 claims 1
- 230000004438 eyesight Effects 0.000 abstract description 3
- 230000016776 visual perception Effects 0.000 abstract 1
- 108091006146 Channels Proteins 0.000 description 34
- 230000006798 recombination Effects 0.000 description 10
- 238000005215 recombination Methods 0.000 description 10
- 238000000354 decomposition reaction Methods 0.000 description 9
- 230000003190 augmentative effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000003416 augmentation Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000003365 glass fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于多尺度时空特征融合的暗光视频增强方法及系统,属于计算机视觉技术领。在训练阶段将暗光视频依照其不同的数据格式进行预处理,使不同像素依照色彩滤镜分离至不同通道,采用暗光视频增强算法根据输入的暗光视频产生一份增强后视频,并将其与真实正常光视频进行比对,计算损失函数并通过反向传播过程更新算法模型中的各参数;当达到预设终止条件后,将模型结构与训练更新后的模型参数进行保存。在使用阶段,根据在训练阶段保存好的模型结构与模型参数构建暗光视频增强模型,将待处理的暗光视频送入模型当中进行暗光增强。本发明可以恢复暗光视频为评价指标优越、主观视觉感受良好的高质量正常光视频。
Description
技术领域
本发明涉及一种暗光视频增强方法及系统,具体涉及一种基于多尺度时空特征融合的暗光视频增强方法及系统,属于计算机视觉技术领域。
背景技术
暗光视频,是指由于不可避免的环境或技术限制(如光照不足或曝光时间有限),在次优照明条件下拍摄所获得的视频。这类视频受背光、光线不均、光线昏暗的影响,存在低对比度、高噪声等缺点,给人带来较差的视觉体验。此外,由于黑暗和噪声隐藏了图像中的细节,图像所携带的信息量大大减少,这对计算机视觉技术一系列下游领域,如目标检测、实例分割等带来了很多不利影响。
暗光视频增强技术,旨在提高暗光视频的感知或可解释性,是一项重要的视频处理技术。通过暗光增强,可以去除视频中的噪声,增大亮度,增强对比度,恢复细节层次,将暗光视频恢复至正常光照视频。随着暗光视频增强技术的不断发展,一些从硬件层面难以解决的问题在暗光增强算法的支持下取得了很大进展,该技术在如手机计算摄影、自动驾驶、夜间监控等领域得到广泛应用,创造了极大的实用价值和经济价值,取得了令人满意的效果。
传统的暗光视频增强技术主要利用先验约束或者统计学原理建立算法模型,提升暗光视频的表现。例如,SSR等方法使用Retinex理论作为先验约束,将暗光图像分解为光照分量和反射分量,并在此基础上矫正标准光照;直方图均衡话的方法则是统计图像当中像素光强的分布,并通过均衡整个图像强度以满足近似均匀分布的形式,实现图像或者视频的提亮。以上方法被广泛应用于图像采集设备的底层处理流程中,或者作为各大视频处理算法的上游算法对数据进行预处理。
然而,传统的算法依赖于模型假设的有效性,并且需要基于特定任务的不同先验条件对算法模型人工进行调整,处理能力被大大限制。此外,大部分传统的暗光增强算法仅限于提高视频亮度和对比度等方面,对噪声的抑制不足,导致了增强后的视觉效果并不理想,更无法作为优秀的输入数据引入至下游视觉算法中。
近年来,随着深度学习技术的快速发展,构建具有高鲁棒性的深度学习网络模型,并用成对监督数据对模型进行训练,实现了具有远超传统方法量化指标和可视化效果的暗光视频增强效果。
然而,受限于卷积操作的局限性,在视频数据信息处理过程当中,当前基于多尺度编解码器结构的网络模型无法使用全局视野范围内的时域和空域信息进行特征信息的重建,并且在特征拼接时无法高效利用时空信息充分融合特征,因此,现有方法在处理暗光视频时,容易产生噪声明显、偏色、伪影等现象,使得模型在暗光视频增强时的表现不够理想,存在较大的改进和提升的空间。
为了克服当前多尺度编解码器结构存在的问题,解决噪声明显、偏色、伪影等现象,亟需一种能够利用全局视野时空特征信息,并能够在特征拼接时高效融合的暗光视频增强方法。
发明内容
本发明的目的是针对现有技术存在的不足和缺陷,为了解决基于多尺度编解码器结构的网络模型在处理暗光视频时无法使用全局视野范围内的时域和空域信息进行特征信息的重建,且在特征拼接时无法高效利用时空信息充分融合特征等技术问题,创造性地提出一种基于多尺度时空特征融合的暗光视频增强方法及系统。本发明能够充分利用暗光视频的空间内部信息与相邻帧间信息,实现高量化指标和高视觉感官效果的暗光视频增强。
本发明的创新点在于:首次采用了将基于多尺度时空特征融合的暗光视频增强分为训练和使用阶段。在训练阶段,在暗光视频-正常光视频配对的训练数据中,将暗光视频依照其不同的数据格式进行预处理,使不同像素依照色彩滤镜分离至不同通道。若已知相机曝光设定,可进一步根据视频昏暗程度的不同,对视频亮度进行初步的线性提升,以该数据作为训练阶段的输入数据。随后,暗光视频增强算法根据输入的暗光视频产生一份增强后视频,并将其与真实正常光视频进行比对,计算损失函数并通过反向传播过程更新算法模型当中的各个参数;经过多次遍历训练数据集当中的成对数据,并重复执行上述步骤,直到达到预设的终止条件后,将模型结构与训练更新后得到的模型参数进行保存。在使用阶段,首先根据在训练阶段保存好的模型结构与模型参数构建暗光视频增强模型,随后,将待处理的暗光视频经过数据预处理后作为输入数据送入模型当中进行暗光增强,最后,将模型输出的增强视频数据进行存储。除此之外,若已有可参考的真实正常光下视频,系统可通过评估方法衡量增强视频与正常光下真实视频的差异度,从而客观、定量地评估增强视频的质量,判断暗光视频增强模型的效果优劣。同时,本发明提出了一种实现上述方法的系统。
为达到以上目的,本发明采用以下技术方案:
一种基于多尺度时空特征融合的暗光视频增强方法,包括训练和使用两个阶段。
步骤1:训练阶段。
使用暗光视频-正常光视频配对数据集迭代更新算法模型的参数字典。
具体地,步骤1包括以下步骤:
步骤1.1:将暗光视频依照其数据格式进行预处理,使不同像素依照色彩滤镜分离至不同通道,并对数据完成数据预处理与数据增广。
优选地,可以采用以下处理方法:
对暗光视频数据,以逐帧图像的形式进行处理:将暗光视频依照其数据格式进行预处理,使不同像素依照色彩滤镜分离至不同通道,形成便于后续模型处理的指定空间分辨率的视频数据。
在视频数据预处理之后,将暗光数据和正常光数据进行数据增广操作(包括旋转、翻转、中心对称变换等)。
如果已知相机曝光设定,可以根据具体的设定值对暗光视频的亮度进行初步线性的增强。
步骤1.2:采用暗光视频增强算法,根据输入的暗光视频产生1份增强后视频,并将其与真实正常光视频进行比对,计算损失函数并通过反向传播过程更新算法模型当中的各个参数。
优选地,可以采用以下处理方法:
从步骤1.1处理后的训练数据集中,随机选取1段指定帧数的暗光视频输入算法模型。算法模型对该数据进行增强处理,输出同样帧数的增强后视频,受数据格式和视频数据预处理过程的影响,输入数据的宽和高是输出数据的一半,或与输出数据相同。
增强后的视频以逐帧形式进行输出。
具体地,所述暗光视频增强算法模型包括编解码器主体结构、特征提取重建模块、时序-通道注意力模块。
当预处理后的暗光视频数据输入算法模型后,首先经过编码器部分进行特征的初步提取。编码器部分包括四个层级,每个层级的构成相同,均是由用于特征提取的卷积操作、跳跃连接卷积操作、降采样卷积操作以及激活函数构成。各层级的编码器部分计算得到的特征张量有两个传递方向,一是经过降采样后传递至下一层级的编码器,作为其输入数据,二是传入特征提取重建模块当中,由特征提取重建模块进行下一步的特征处理过程。对于该部分,参数字典包括各个卷积操作中的参数。
经过初步特征提取后,各个层级特征被传入同层级的特征提取重建模块之中。特征提取重建模块包括特征嵌入模块、连续3D Swin-Transformer块、特征重建模块,其中,特征嵌入模块用于分割来自编码器部分的特征图,特征图压缩转化为特征序列,使得特征序列中包含全局的时空信息。连续3DSwin-Transformer块用于进一步处理具有全局时空信息的特征序列,由于3DSwin-Transformer块的结构特性,该过程不会引入过多的额外计算量。特征重建模块用于参考编码器特征,重建特征序列至指定大小的特征图,该特征图被进一步送至时序-通道注意力模块当中进行处理。
时序-通道注意力模块的输入数据包括两部分:来自特征提取重建模块的重建特征和来自解码器某层级的解码特征。其中,时序-通道注意力模块首先将重建特征和解码特征在空间维度进行全局平均池化操作,产生维度等于通道数的向量GAP1(FR)和向量GAP1(FD)。随后,对两个向量相加取平均,再进行线性映射并通过ReLU引入非线性Sigmoid构建注意力,得到注意力Mask1。然后,对重建特征和解码特征在时间维度进行全局平均池化,产生维度等于帧数的向量GAP2(FR)以及向量GAP2(FD)。随后,同样对两向量相加取平均,再进行线性映射并通过Sigmoid引入非线性,得到注意力Mask2。最后,对重建特征施加Mask1及Mask2注意力,使其在通道维度和时间维度得到不同通道、时间序列的重要性,得到时空互补特征。
解码器部分从整体结构上与编码器部分保持一致,都由四个不同层级的卷积操作和激活函数组成。不同之处在于,解码器部分是采用上采样增大空间分辨率,并且使用来自上一层级的解码特征和来自同一层级的自时序-通道注意力模块的拼接特征作为输入数据。在经过四个层级的特征重建后,解码器部分输出特定维度的特征图至一层像素混洗层,该层使得特征的通道纬度数据以可学习的方式减少至原来的四分之一,并重组至空间维度,实现通道数的缩减和空间维度的扩增。最终,该层输出的数据即为增强后的视频数据。
在上述模型的训练过程中,可以采用渐进式训练方式,因此,模型的训练过程分为两步。
重复步骤第一步训练,直至满足设定的终止条件,保存网络的结构和模型参数;初始化编解码器部分的参数字典为第一步训练保存的结果,重复第二步训练,直至满足设定的终止条件,保存网络的结构和模型参数。
优选地,在训练过程中,不断随机地向模型输入暗光视频片段和正常光视频片段,直到训练达到预设的轮次数量或者评估指标满足的预设值时,训练过程停止,并保存模型结构和模型参数。
步骤2:使用阶段。
利用步骤1训练得到的模型参数初始化暗光视频增强算法模型,使用该模型增强暗光视频并存储。
进一步地,如果存在暗光视频对应的真实正常光下视频,则可以评估增强视频的质量和效果,判断暗光增强模型的效果优劣。
具体地,步骤2包括以下步骤:
步骤2.1:使用步骤1训练得到的模型参数初始化暗光视频增强算法模型,使用该模型增强暗光视频并存储。
优选地,首先将暗光视频依照模型输入数据要求进行预处理,若已知相机曝光设定,根据具体的设定值对暗光视频的亮度进行初步线性的增强。然后,读取步骤1训练得到的模型参数,并依照模型结构进行模型的创建与加载。之后,将已处理的暗光视频数据送入该模型当中,生成增强后的正常光视频。最后,保存该视频。
步骤2.2:如果存在暗光视频对应的真实正常光下视频,则评估增强视频的质量和效果,判断暗光增强模型的效果优劣。
优选地,为了能够客观判定增强视频的质量,可以使用峰值信噪比PSNR(PeakSignal to Noise Ratio)和结构相似性SSIM(Structural Similarity)计算增强视频和真值视频之间的客观差距。
其中,峰值信噪比表示信号的最大功率和破坏性噪声功率之间的比值。峰值信噪比的单位常用分贝(dB)表示,峰值信噪比的数值越高,表示图像、视频质量越高。峰值信噪比PSNR的计算方法为:
其中,n表示单通道单像素点的比特深度。例如,灰度图像单个像素点为8bit,RGB图像每个通道对应的单像素点也为8bit,而一些原始感光RAW图像则为14bit。
MSE表示均方误差,计算方式为:
其中,μI是I的平均值,是的平均值;是I的方差,是的方差,示I与的协方差;c1=(k1L)2,c2=(k2L)2,c1、c2均是用于维持稳定的常数,k1、k2均为常数,用于调整c1、c2数值并使其远小于1,优选地,k1=0.01、k2=0.03;L是像素值的动态范围,L=2n-1,n表示单通道单像素点的比特深度;SSIM的取值范围为[0,1],值越接近1,说明两视频帧结构越相似。
进一步地,基于以上方法,本发明提出一种基于多尺度时空特征融合的暗光视频增强系统,包括数据预处理子系统、暗光增强模型子系统、损失函数计算子系统和结果评价子系统。
其中,数据预处理子系统包括暗光视频预处理模块和数据增广模块。暗光视频预处理模块用于将暗光视频依照其数据格式进行预处理,将不同像素依照色彩滤镜分离至不同通道。数据增广模块用于将暗光视频和正常光视频进行旋转、翻转或中心对称变换,扩增可训练的数据集,从而增强暗光视频增强模型的泛化能力。
暗光增强模型子系统包括编码器模块、解码器模块、特征提取重建模块、时序-通道注意力模块。其中,编解码器模块是暗光增强模型子系统的主体部分,其包括四个层级,每个层级的构成相同,均由用于特征提取的卷积操作、跳跃连接卷积操作、下采样卷积操作以及激活函数构成,该部分用于对暗光视频特征进行初步的提取。具体地,特征提取重建模块包括特征嵌入模块、连续3DSwin-Transformer模块和特征重建模块。具体地,特征提取重建模块使用特征嵌入模块分割来自编码器部分的特征图,将特征图压缩转化为特征序列,随后送入3D Swin-Transformer模块,利用Transformer的非局部信息聚合及全局视野进行时间-空间信息处理,处理后的特征序列由特征重建模块重建特征序列至指定大小的特征图。时序-通道注意力模块在时间和空间维度上构建注意力,从而将来自特征提取重建模块的重建特征和来自解码器模块某层级的解码特征,在通道维度和时间维度得到不同通道、时间序列的重要性,在更细粒度的时空维度上融合拼接,得到时空互补特征。
损失函数计算子系统,包括编解码器损失函数计算模块和完整模型损失函数计算模块。其中,编解码器损失函数计算模块用于训练过程的第一阶段,对编解码器结构增强的到的增强暗光视频和真实暗光视频计算平均绝对误差,该损失将通过反向传播过程以及参数优化器,更新编解码器部分各个参数,从而不断优化编解码器的暗光增强表现。完整模型损失计算模块用于训练过程的第二阶段,对编解码器结构添加特征提取重建模块、时序-通道注意力模块,得到完整暗光视频增强模型,对完整暗光视频增强模型处理得到的增强视频和真实暗光视频计算平均绝对误差,并通过反向传播过程以及参数优化器,更新编解码器部分各个参数,从而不断优化完整模型的暗光增强表现。
结果评价子系统,用于将增强视频和真实正常光下视频进行比对,计算PSNR、SSIM等客观评价指标,从而量化本系统所增强暗光视频的质量。
上述组成系统之间的连接关系为:
数据预处理子系统与暗光增强模块子系统、结果评价子系统分别相连,向暗光增强模块子系统提供经视频预处理和数据增广得到的处理后的、符合模型输入输出格式的暗光视频以及真实正常光下视频,向结果评价子系统提供真实正常光下视频。
在数据预处理子系统中,暗光视频预处理模块和数据增广模块相连。其中,暗光视频预处理模块向数据增广模块提供符合数据增广格式要求的视频数据。
暗光增强模型子系统与数据预处理子系统、损失函数计算子系统和结果评价子系统分别相连,其根据数据预处理子系统输入的暗光视频恢复出增强后的暗光视频至损失函数计算子系统和结果评价子系统。
在暗光增强模型子系统中,编码器模块与解码器模块、特征提取重建模块相连。解码器模块与编码器模块、时序-通道注意力模块相连。
在特征提取重建模块中,特征嵌入模块与3D Swin-Transformer模块相连;3DSwin-Transformer模块与特征嵌入模块以及特征重建模块相连;特征重建模块与3D Swin-Transformer模块相连。
损失函数计算子系统与数据预处理子系统、暗光增强模型子系统相连。其从数据预处理子系统获取数据增广后的真实正常光视频,然后,从暗光增强模型子系统获取编解码器增强视频和完整模型增强结果。解码器增强视频和完整模型增强结果分别与真实正常光视频对比计算损失,并将该损失回传至暗光增强模型子系统,用于更新暗光增强模型子系统中模型的参数。
在损失函数计算子系统中,编解码器损失计算模块与完整模型损失计算模块独立工作,互不连接。
结果评价子系统与数据预处理子系统、暗光增强模型子系统分别相连,其从数据预处理子系统中获取真实正常光下视频,从暗光增强模型子系统中获取增强后视频,通过将二者比对计算评价指标,量化地反映增强后视频的质量。
上述系统的处理过程如下:
步骤1:将暗光视频输入至数据预处理子系统,进行视频数据预处理、数据增广;
步骤2:将暗光视频送入暗光增强模型子系统中的编解码器模块,暗光视频经由该部分处理,生成增强视频待使用;
步骤3:损失函数计算子系统中的编解码器损失函数计算模块接收编解码器模块生成的增强视频以及数据预处理子系统生成的真实正常光下视频,计算损失值,并回传至编解码器模块中用于训练;
步骤4:暗光增强模型子系统中的编解码器模块根据损失函数计算子系统中的编解码器损失函数计算模块传回的损失值,并利用优化器进行参数优化,完成一次训练迭代;
步骤5:重复执行上述步骤1至4,每当对全部训练集遍历一次后,在结果评价子系统上使用验证集数据对当前参数下模型效果进行评估。若计算得到的量化指标已满足预设条件,或当前训练迭代次数达到预设上线,则停止训练,保存当前编解码器模块的参数字典,继续步骤6;
步骤6:;将步骤5当中保存的编解码器模块的参数字典加载至完整模型中的编解码器模块部分,完成完整模型的初始化工作;
步骤7:与步骤1相同,将暗光视频输入至数据预处理子系统,进行预处理、数据增广,处理后的视频数据将被暂存在内存当中;
步骤8:将暗光视频送入暗光增强模型子系统中的完整模型,暗光视频经由该部分处理,生成增强视频待使用;
步骤9:损失函数计算子系统中的完整模型损失函数计算模块接收完整模型生成的增强视频以及数据预处理子系统生成的真实正常光下视频,计算损失值,并回传至完整模型中用于训练;
步骤10:暗光增强模型子系统中的完整模型根据损失函数计算子系统中的完整模型损失函数计算模块传回的损失值,并利用优化器进行参数优化,完成一次训练迭代;
步骤11:重复执行上述步骤7至10,每当对全部训练集遍历一次后,在结果评价子系统上使用验证集数据对当前参数下模型效果进行评估。若计算得到的量化指标已满足预设条件,或当前训练迭代次数达到预设上线,则停止训练,保存当前完整模型的参数字典,继续步骤12;
步骤12:采用步骤11保存的参数字典初始化完整模型,将目标暗光视频数据送入该模型中进行暗光增强,保存输出视频并采用结果评价子系统评估增强后视频的图形质量。
有益效果
本发明方法,与现有技术相比,具有以下优点:
1.本发明设计使用了一个多尺度时空特征融合的暗光视频增强模型,在每个层级编、解码器之间的跳跃连接部分,模型设计并引入了基于3DSwin-Transformer的特征提取重建模块和时序-通道注意力模块。
与其他的暗光视频增强算法以及去噪算法比较,本发明设计使用的模型能够更有效地利用编、解码器信息,实现了更高精度和更高指标的暗光视频增强效果,尤其是恢复视频中物体纹理,去除噪声,维持帧间物体边界等方面均表现更优越。
2.本发明设计使用了基于3D Swin-Transformer的特征提取重建模块,在编解码暗器结构的各个尺度编、解码器跳跃连接之间,该模块通过3D滑动窗口的方式捕获全局上下文信息,对特征图中物体信息在时空域建立长程依赖,进而表达了同时具有空域和时域全局视野的重建特征,在多尺度信息提取重建过程中有效减少编、解码之间特征的差异性。
3.本发明设计使用了时序-通道注意力模块。在解码器特征拼接时,时序-通道注意力模块在时域和空域提取重建特征和解码特征注意力,并先后在特征维度和时空维度进行融合,从而得到同时具有两特征时空特点的时序-通道注意力和时空互补特征。相较于简单拼接特征的方式,时序-通道注意力模块能够将特征在更细粒度上微调融合,从而实现重建特征和解码特征间的时空互补。
附图说明
图1是本发明方法的流程图。
图2是本发明方法所述核心算法模型整体示意图。
图3是本发明方法所述特征提取重建模块及其子模块示意图。
图4是本发明方法所述时序-通道注意力模块示意图。
图5是本发明系统的组成示意图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合附图和实例对发明方法做进一步说明。
实施例
本实施例公开了一种基于多尺度时空特征融合的暗光视频增强方法,包括训练阶段和使用阶段。
在训练阶段,在暗光视频-正常光视频配对的训练数据中,拜尔RAW格式的单通道暗光视频通过分解重组的方式拆分为GRBG四个不同颜色的通道,此外,若已知相机曝光设定,可根据视频昏暗程度的不同,对视频亮度进行初步的线性提升,以该数据作为训练阶段的输入数据。随后,暗光视频增强算法根据输入的暗光视频产生一份增强后视频,并将其与真实的RGB格式正常光视频进行比对,计算损失函数并通过反向传播过程更新算法模型当中的各个参数;经过多次遍历训练数据集当中的成对数据,并重复执行上述步骤,直到达到预设的终止条件后,将模型结构与训练更新后得到的模型参数进行保存。在使用阶段,首先根据在训练阶段保存好的模型结构与模型参数构建暗光视频增强模型,随后将待处理的暗光视频经过分解重组后作为输入数据送入模型当中进行暗光增强,最后将模型输出的增强视频数据进行存储。除此之外,若已有可参考的真实正常光下视频,系统可通过评估方法衡量增强视频与正常光下真实视频的差异度,从而客观、定量地评估增强视频的质量,判断暗光视频增强模型的效果优劣。本实施例的流程图如图1所示。
以往暗光增强算法无法解决编、解码之间的特征差异性问题,并在特征拼接融合时可能产生伪细节纹理。因此,本实施例公开了一种多尺度时空特征融合的暗光视频增强方法,该方法结合跳跃连接特征提取重建模块与时序-通道注意力模块,使得模型在恢复视频中物体纹理,去除噪声,维持帧间物体边界等方面均取得更优的结果。该模型的结构示意图如图2所示。
本实施例公开的一种基于多尺度时空特征融合的暗光视频增强方法,在使用阶段能够直接将输入的暗光视频增强至正常光下效果,无需施加任何先验条件和限制,也不需人工干涉。
本实施例的详细内容如下。
一种基于多尺度时空特征融合的暗光视频增强方法,分为训练和使用两个阶段,包括如下步骤:
步骤1:训练阶段使用暗光视频-正常光视频配对数据集,迭代更新算法模型的参数字典。
步骤1.1:处于拜尔RAW格式的单通道暗光视频通过分解重组的方式拆分为GRBG四个不同颜色的通道,并对数据完成标准化、归一化等数据预处理与图像翻转、对称变换等数据增广。
对视频数据以逐帧图像的形式进行处理。对于每一帧拜尔RAW格式的图像,将单通道的图像按照排列顺序分解各个不同色彩滤波采集到的像素至GRBG四个不同的通道,形成空间分辨率为原本的四分之一,但是通道为之前四倍的图像数据。在拆分重组完毕后,对暗光数据和正常光数据随机进行旋转、翻转或中心对称变换。除此之外,若已知相机曝光设定,可根据具体的设定值对暗光视频的亮度进行初步线性的增强。
步骤1.2:暗光视频增强算法根据输入的暗光视频产生一份增强后视频,并将其与真实的RGB格式正常光视频进行比对,计算损失函数并通过反向传播过程更新算法模型当中的各个参数。
从经步骤1.1处理后的训练数据集当中随机选取一段指定帧数的暗光视频输入算法模型。模型对该数据进行增强处理,输出同样帧数的增强后视频。其中,由于经过了分解重组过程,输入数据的宽和高是输出数据的一半。增强后的视频以逐帧形式进行输出,格式为RGB,其尺寸和分解重组前的RAW格式暗光视频一致。
本实施例中暗光视频增强算法模型包括三部分:编解码器主体结构、特征提取重建模块、时序-通道注意力模块。当分解重组后的暗光视频数据输入算法模型后,首先经过编码器部分进行特征的初步提取。该部分分为四个层级,每个层级的构成相同,都是由用于特征提取的卷积操作、跳跃连接卷积操作、降采样卷积操作以及激活函数构成。各层级编码器部分计算得到的特征张量有两个传递方向,一是经过降采样后传递至下一层级的编码器,作为其输入数据,二是传入特征提取重建模块当中,由特征提取重建模块进行下一步的特征处理过程。对于该部分,参数字典主要包括各个卷积操作中的参数。
在经过编码器部分的初步特征提取后,各个层级特征被传入同层级的特征提取重建模块当中。对于特征提取重建模块,其关键组成为特征嵌入模块、连续3D Swin-Transformer块、特征重建模块。特征嵌入模块作用是分割来自编码器部分的特征图,特征图压缩转化为特征序列,使得特征序列中包含全局的时空信息。连续3D Swin-Transformer块用于进一步处理具有全局时空信息的特征序列,并且,由于3D Swin-Transformer块的结构特性,该过程并不会引入过多的额外计算量。特征重建模块的作用是参考编码器特征,重建特征序列至指定大小的特征图,该特征图被进一步送至下一模块,也就是时序-通道注意力模块当中进行处理。特征提取重建模块及其子模块如图3所示。
时序-通道注意力模块的输入数据共有两部分,分别是来自特征提取重建模块的重建特征和来自解码器某层级的解码特征。时序-通道注意力模块首先将重建特征和解码特征在空间维度进行全局平均池化操作,产生维度等于通道数的向量GAP1(FR)以及向量GAP1(FD)。随后,对两向量相加取平均,再进行线性映射并通过ReLU引入非线性,Sigmoid构建注意力,得到注意力Mask1。然后,对重建特征和解码特征在时间维度进行全局平均池化,产生维度等于帧数的向量GAP2(FR)以及向量GAP2(FD)。随后,同样地,对两向量相加取平均,再进行线性映射并通过Sigmoid引入非线性,得到注意力Mask2。最后,对重建特征施加Mask1及Mask2注意力,使其在通道维度和时间维度得到不同通道、时间序列的重要性,得到时空互补特征。时序-通道注意力模块如图4所示。
解码器部分从整体结构上与编码器部分保持一致,都由四个不同层级的卷积操作以及激活函数组成,在结构上不同的是,解码器部分本实施例采用上采样增大空间分辨率,并且使用来自上一层级的解码特征和来同一层级的自时序-通道注意力模块的拼接特征作为输入数据。在经过四个层级的特征重建后,解码器部分输出特定维度的特征图至一层像素混洗层,该层可以使得特征的通道纬度数据以可学习的方式减少至原来的四分之一,并重组至空间维度,实现通道数的缩减和空间维度的扩增。最终,该层输出的数据即为RGB格式的增强后的视频数据。
在以上模型的训练过程中,采用渐进式训练方式,因此,模型的训练过程被分为两步。
第一步,仅对模型中的编解码器部分进行训练。该过程使用的损失函数为:
第二步,训练包含编解码器主体结构、特征提取重建模块、时序-通道注意力模块的完整暗光增强模型,在训练前,初始化编解码器部分的参数字典为第一步训练保存的结果。该过程使用的损失函数为
步骤1.3:重复步骤1.2当中的第一步训练,直至满足设定的终止条件,将网络的结构和模型参数进行保存。初始化编解码器部分的参数字典为第一步训练保存的结果,重复步骤1.3当中的第二步训练,直至满足设定的终止条件,将网络的结构和模型参数进行保存。
具体地,在训练过程中,不断随机地向模型输入RAW格式暗光视频片段和RGB格式正常光视频片段,直到训练达到预设的轮次数量或者某个评估指标满足一定的预设值,训练过程停止,并将模型结构和模型参数保存。
步骤2.1:步骤1训练得到的模型参数初始化暗光视频增强算法模型,并使用该模型增强暗光视频并存储。
具体地,首先将RAW格式的暗光视频以逐帧处理的形式分解重组为四通道视频数据,若已知相机曝光设定,可根据具体的设定值对暗光视频的亮度进行初步线性的增强。随后,读取步骤1当中训练得到的模型参数,并依照模型结构进行模型的创建与加载。然后,将已处理的暗光视频数据送入该模型当中,生成增强后的RGB格式正常光视频。将该视频保存至本地,完成本步骤。
步骤2.1:如果存在暗光视频对应的真实正常光下视频,则可以评估增强视频的质量和效果,判断暗光增强模型的效果优劣。其中,可以使用峰值信噪比PSNR(Peak Signalto Noise Ratio)和结构相似性SSIM(Structural Similarity)计算增强视频和真值视频之间的客观差距。其中,峰值信噪比表示信号的最大功率和破坏性噪声功率之间的比值。峰值信噪比的单位常用分贝(dB)来表示,数值越高,表示图像、视频质量越高。PSNR的计算方法为:
其中,n表示单通道单像素点的比特深度,例如,灰度图像单个像素点为8bit,RGB图像每个通道对应的单像素点也为8bit,而一些原始感光RAW图像则为14bit。
MSE表示均方误差,计算方式为:
其中,μI是I的平均值,是的平均值;是I的方差,是的方差,表示I与的协方差;c1=(k1L)2,c2=(k2L)2,c1、c2均是用于维持稳定的常数,k1、k2均为常数,用于调整c1、c2数值并使其远小于1,k1=0.01、k2=0.03;L是像素值的动态范围,即L=2n-1,n表示单通道单像素点的比特深度;SSIM的取值范围为[0,1],值越接近1,说明两视频帧结构越相似。
本实施例进一步公开了一种基于多尺度时空特征融合的暗光视频增强系统,包括以下组成系统:数据预处理子系统、暗光增强模型子系统、损失函数计算子系统和结果评价子系统。
其中,所述数据预处理子系统包括暗光视频分解重组子系统和数据增广子系统。暗光视频分解重组子系统用于将暗光视频中单通道的图像按照排列顺序分解各个不同色彩滤波采集到的像素至GRBG四个不同的通道,形成空间分辨率为原本的四分之一,但是通道为之前四倍的图像数据。数据增广子系统则是将暗光视频和正常光视频进行旋转、翻转或中心对称变换,扩增可训练的数据集,从而增强暗光视频增强模型的泛化能力。
所述暗光增强模型子系统包括编码器模块、解码器模块、特征提取重建模块、时序-通道注意力模块。其中,编解码器模块是暗光增强模型子系统的主体部分,分为四个层级,每个层级的构成相同,都是由用于特征提取的卷积操作、跳跃连接卷积操作、下采样卷积操作以及激活函数构成,该部分主要是对暗光视频特征进行初步的提取。特征提取重建模块使用特征嵌入模块分割来自编码器部分的特征图,将特征图压缩转化为特征序列,随后送入3D Swin-Transformer模块,利用Transformer的非局部信息聚合及全局视野进行大范围内的时间-空间信息处理,最后,处理后的特征序列由特征重建模块重建特征序列至指定大小的特征图。时序通道注意力模块在时间和空间维度上构建注意力,从而将来自特征提取重建模块的重建特征和来自解码器某层级的解码特征,在通道维度和时间维度得到不同通道、时间序列的重要性,在更细粒度的时空维度上融合拼接,得到时空互补特征。
所述损失函数计算子系统,包括编解码器损失函数计算模块和完整模型损失函数计算模块。编解码器损失函数计算模块用于训练过程的第一阶段,对编解码器结构增强的到的增强暗光视频和真实暗光视频计算平均绝对误差,该损失将通过反向传播过程以及参数优化器,更新编解码器部分各个参数,从而不断优化编解码器的暗光增强表现。完整模型损失计算模块用于训练过程的第二阶段,对把编解码器结构添加征提取重建模块、时序-通道注意力模块,得到完整暗光视频增强模型,对完整暗光视频增强模型处理得到的增强视频和真实暗光视频计算平均绝对误差,并通过反向传播过程以及参数优化器,更新编解码器部分各个参数,从而不断优化完整模型的暗光增强表现。
所述结果评价子系统,用于将增强视频和真实正常光下视频进行比对,计算PSNR、SSIM等客观评价指标,从而量化本系统所增强暗光视频的质量。
图5为上述系统的组成示意图。
上述组成系统之间的连接关系为:
数据预处理子系统与暗光增强模块子系统、结果评价子系统相连,向暗光增强模块子系统提供经分解重组和数据增广得到的处理后的、符合模型输入输出格式的暗光视频以及真实正常光下视频,向结果评价子系统提供真实正常光下视频。
在数据预处理子系统中,暗光视频预处理模块和数据增广模块相连。其中,暗光视频预处理模块向数据增广模块提供符合数据增广格式要求的视频数据。
暗光增强模型子系统与数据预处理子系统、损失函数计算子系统和结果评价子系统相连接,其根据数据预处理子系统输入的暗光视频恢复出增强后的暗光视频至损失函数计算子系统和结果评价子系统。
在暗光增强模型子系统中,编码器模块与解码器模块、特征提取重建模块相连。解码器模块与编码器模块、时序-通道注意力模块相连。
在特征提取重建模块中,特征嵌入模块与3D Swin-Transformer模块相连;3DSwin-Transformer模块与特征嵌入模块以及特征重建模块相连;特征重建模块与3D Swin-Transformer模块相连。
损失函数计算子系统与数据预处理子系统、暗光增强模型子系统相连。其从数据预处理子系统获取数据增广后的真实正常光视频,然后,从暗光增强模型子系统获取编解码器增强视频和完整模型增强结果。解码器增强视频和完整模型增强结果分别与真实正常光视频对比计算损失,并将该损失回传至暗光增强模型子系统,用于更新暗光增强模型子系统中模型的参数。
在损失函数计算子系统中,编解码器损失计算模块与完整模型损失计算模块独立工作,互不连接。
结果评价子系统与数据预处理子系统、暗光增强模型子系统相连,其从数据预处理子系统中获取真实正常光下视频,从暗光增强模型子系统中获取增强后视频,通过将二者比对计算评价指标,量化地反映增强后视频的质量。
上述系统的使用方法如下:
步骤1:将暗光视频输入至数据预处理子系统,进行分解重组、数据增广,处理后的视频数据将被暂存在内存当中;
步骤2:将暗光视频送入暗光增强模型子系统中的编解码器模块,暗光视频经由该部分处理,生成增强视频待使用;
步骤3:损失函数计算子系统中的编解码器损失函数计算模块接收编解码器模块生成的增强视频以及数据预处理子系统生成的真实正常光下视频,计算损失值,并回传至编解码器模块中用于训练;
步骤4:暗光增强模型子系统中的编解码器模块根据损失函数计算子系统中的编解码器损失函数计算模块传回的损失值,并利用优化器进行参数优化,完成一次训练迭代;
步骤5:重复执行上述步骤1至4,每当对全部训练集遍历一次后,在结果评价子系统上使用验证集数据对当前参数下模型效果进行评估。若计算得到的量化指标已满足预设条件,或者当前训练迭代次数达到预设上线,则停止训练,保存当前编解码器模块的参数字典,继续步骤6;
步骤6:;将步骤5当中保存的编解码器模块的参数字典加载至完整模型中的编解码器模块部分,完成完整模型的初始化工作;
步骤7:与步骤1相同,将暗光视频输入至数据预处理子系统,进行分解重组、数据增广,处理后的视频数据将被暂存在内存当中;
步骤8:将暗光视频送入暗光增强模型子系统中的完整模型,暗光视频经由该部分处理,生成增强视频待使用;
步骤9:损失函数计算子系统中的完整模型损失函数计算模块接收完整模型生成的增强视频以及数据预处理子系统生成的真实正常光下视频,计算损失值,并回传至完整模型中用于训练;
步骤10:暗光增强模型子系统中的完整模型根据损失函数计算子系统中的完整模型损失函数计算模块传回的损失值,并利用优化器进行参数优化,完成一次训练迭代;
步骤11:重复执行上述步骤7至10,每当对全部训练集遍历一次后,在结果评价子系统上使用验证集数据对当前参数下模型效果进行评估。若计算得到的量化指标已满足预设条件,或者当前训练迭代次数达到预设上线,则停止训练,保存当前完整模型的参数字典,继续步骤12;
步骤12:采用步骤11保存的参数字典初始化完整模型,将目标暗光视频数据送入该模型中进行暗光增强,保存输出视频并采用结果评价子系统评估增强后视频的图形质量。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于多尺度时空特征融合的暗光视频增强方法,其特征在于,包括训练和使用阶段;
在训练阶段,使用暗光视频-正常光视频配对数据集迭代更新算法模型的参数字典;
首先,在暗光视频-正常光视频配对的训练数据中,将暗光视频依照其不同的数据格式进行预处理,使不同像素依照色彩滤镜分离至不同通道;若已知相机曝光设定,进一步根据视频昏暗程度的不同,对视频亮度进行初步的线性提升,以该数据作为训练阶段的输入数据;
随后,暗光视频增强算法根据输入的暗光视频产生一份增强后视频,并将其与真实正常光视频进行比对,计算损失函数并通过反向传播过程更新算法模型当中的各个参数;
持续遍历训练数据集当中的成对数据,并重复执行上述步骤,直到达到预设的终止条件;
在使用阶段,根据在训练阶段的模型结构与模型参数,构建暗光视频增强模型,将待处理的暗光视频经过数据预处理后作为输入数据送入模型当中进行暗光增强,最后,将模型输出的增强视频数据进行存储;
若已有可参考的真实正常光下视频,通过评估方法衡量增强视频与正常光下真实视频的差异度,从而实现客观、定量地评估增强视频的质量,判断暗光视频增强模型的效果优劣。
2.如权利要求1所述的一种基于多尺度时空特征融合的暗光视频增强方法,其特征在于,训练阶段具体实现方法如下:
步骤1.1:对暗光视频数据,以逐帧图像的形式进行处理:将暗光视频依照其数据格式进行预处理,使不同像素依照色彩滤镜分离至不同通道,形成便于后续模型处理的指定空间分辨率的视频数据;
在视频数据预处理之后,将暗光数据和正常光数据进行数据增广操作
如果已知相机曝光设定,根据具体的设定值对暗光视频的亮度进行初步线性的增强;
步骤1.2:从步骤1.1处理后的训练数据集中,随机选取一段指定帧数的暗光视频输入算法模型;算法模型对该数据进行增强处理,输出同样帧数的增强后视频,受数据格式和视频数据预处理过程的影响,输入数据的宽和高是输出数据的一半,或与输出数据相同;增强后的视频以逐帧形式进行输出;
暗光视频增强算法模型包括编解码器主体结构、特征提取重建模块、时序-通道注意力模块;
当预处理后的暗光视频数据输入算法模型后,首先经过编码器部分进行特征的初步提取;编码器部分包括四个层级,每个层级的构成相同,均是由用于特征提取的卷积操作、跳跃连接卷积操作、降采样卷积操作以及激活函数构成;各层级的编码器部分计算得到的特征张量有两个传递方向,一是经过降采样后传递至下一层级的编码器,作为其输入数据,二是传入特征提取重建模块当中,由特征提取重建模块进行下一步的特征处理过程;对于该部分,参数字典包括各个卷积操作中的参数;
经过初步特征提取后,各个层级特征被传入同层级的特征提取重建模块之中;特征提取重建模块包括特征嵌入模块、连续3D Swin-Transformer块、特征重建模块,其中,特征嵌入模块用于分割来自编码器部分的特征图,特征图压缩转化为特征序列,使得特征序列中包含全局的时空信息;连续3DSwin-Transformer块用于进一步处理具有全局时空信息的特征序列,由于3DSwin-Transformer块的结构特性,该过程不会引入过多的额外计算量;特征重建模块用于参考编码器特征,重建特征序列至指定大小的特征图,该特征图被进一步送至时序-通道注意力模块当中进行处理;
时序-通道注意力模块的输入数据包括两部分:来自特征提取重建模块的重建特征和来自解码器某层级的解码特征;其中,时序-通道注意力模块首先将重建特征和解码特征在空间维度进行全局平均池化操作,产生维度等于通道数的向量GAP1(FR)和向量GAP1(FD);随后,对两个向量相加取平均,再进行线性映射并通过ReLU引入非线性Sigmoid构建注意力,得到注意力Mask1;然后,对重建特征和解码特征在时间维度进行全局平均池化,产生维度等于帧数的向量GAP2(FR)以及向量GAP2(FD);随后,同样对两向量相加取平均,再进行线性映射并通过Sigmoid引入非线性,得到注意力Mask2;最后,对重建特征施加Mask1及Mask2注意力,使其在通道维度和时间维度得到不同通道、时间序列的重要性,得到时空互补特征;
解码器部分从整体结构上与编码器部分保持一致,都由四个不同层级的卷积操作和激活函数组成;不同之处在于,解码器部分是采用上采样增大空间分辨率,并且使用来自上一层级的解码特征和来自同一层级的自时序-通道注意力模块的拼接特征作为输入数据;
在经过四个层级的特征重建后,解码器部分输出特定维度的特征图至一层像素混洗层,该层使得特征的通道纬度数据以可学习的方式减少至原来的四分之一,并重组至空间维度,实现通道数的缩减和空间维度的扩增;最终,该层输出的数据即为增强后的视频数据。
3.如权利要求2所述的一种基于多尺度时空特征融合的暗光视频增强方法,其特征在于,在模型训练过程中,采用渐进式训练方式,包括以下步骤:
重复步骤1.2中的第一步训练,直至满足设定的终止条件,保存网络的结构和模型参数;初始化编解码器部分的参数字典为第一步训练保存的结果,重复步骤1.2当中的第二步训练,直至满足设定的终止条件,保存网络的结构和模型参数。
4.如权利要求2所述的一种基于多尺度时空特征融合的暗光视频增强方法,其特征在于,在训练过程中,不断随机地向模型输入暗光视频片段和正常光视频片段,直到训练达到预设的轮次数量或者评估指标满足的预设值时,训练过程停止,并保存模型结构和模型参数。
5.如权利要求1所述的一种基于多尺度时空特征融合的暗光视频增强方法,其特征在于,使用阶段的实现方法如下:
首先将暗光视频依照模型输入数据要求进行预处理,若已知相机曝光设定,根据具体的设定值对暗光视频的亮度进行初步线性的增强;然后,读取步骤1训练得到的模型参数,并依照模型结构进行模型的创建与加载;之后,将已处理的暗光视频数据送入该模型当中,生成增强后的正常光视频;最后,保存该视频;
如果存在暗光视频对应的真实正常光下视频,则评估增强视频的质量和效果,判断暗光增强模型的效果优劣。
6.如权利要求5所述的一种基于多尺度时空特征融合的暗光视频增强方法,其特征在于,使用峰值信噪比PSNR和结构相似性SSIM计算增强视频和真值视频之间的客观差距;
其中,峰值信噪比表示信号的最大功率和破坏性噪声功率之间的比值;峰值信噪比的单位常用分贝dB表示,峰值信噪比的数值越高,表示图像、视频质量越高;峰值信噪比PSNR的计算方法为:
其中,n表示单通道单像素点的比特深度;
MSE表示均方误差,计算方式为:
7.如权利要求6所述的一种基于多尺度时空特征融合的暗光视频增强方法,其特征在于,K1=0.01,K2=0.03。
8.一种基于多尺度时空特征融合的暗光视频增强系统,其特征在于,包括数据预处理子系统、暗光增强模型子系统、损失函数计算子系统和结果评价子系统;
其中,数据预处理子系统包括暗光视频预处理模块和数据增广模块;暗光视频预处理模块用于将暗光视频依照其数据格式进行预处理,将不同像素依照色彩滤镜分离至不同通道;数据增广模块用于将暗光视频和正常光视频进行旋转、翻转或中心对称变换,扩增可训练的数据集,从而增强暗光视频增强模型的泛化能力;
暗光增强模型子系统包括编码器模块、解码器模块、特征提取重建模块、时序-通道注意力模块;其中,编解码器模块是暗光增强模型子系统的主体部分,其包括四个层级,每个层级的构成相同,均由用于特征提取的卷积操作、跳跃连接卷积操作、下采样卷积操作以及激活函数构成,该部分用于对暗光视频特征进行初步的提取;具体地,特征提取重建模块包括特征嵌入模块、连续3DSwin-Transformer模块和特征重建模块;
特征提取重建模块使用特征嵌入模块分割来自编码器部分的特征图,将特征图压缩转化为特征序列,随后送入3D Swin-Transformer模块,利用Transformer的非局部信息聚合及全局视野进行时间-空间信息处理,处理后的特征序列由特征重建模块重建特征序列至指定大小的特征图;时序-通道注意力模块在时间和空间维度上构建注意力,从而将来自特征提取重建模块的重建特征和来自解码器模块某层级的解码特征,在通道维度和时间维度得到不同通道、时间序列的重要性,在更细粒度的时空维度上融合拼接,得到时空互补特征;
损失函数计算子系统,包括编解码器损失函数计算模块和完整模型损失函数计算模块;其中,编解码器损失函数计算模块用于训练过程的第一阶段,对编解码器结构增强的到的增强暗光视频和真实暗光视频计算平均绝对误差,该损失将通过反向传播过程以及参数优化器,更新编解码器部分各个参数,从而不断优化编解码器的暗光增强表现;完整模型损失计算模块用于训练过程的第二阶段,对编解码器结构添加特征提取重建模块、时序-通道注意力模块,得到完整暗光视频增强模型,对完整暗光视频增强模型处理得到的增强视频和真实暗光视频计算平均绝对误差,并通过反向传播过程以及参数优化器,更新编解码器部分各个参数,从而不断优化完整模型的暗光增强表现;
结果评价子系统,用于将增强视频和真实正常光下视频进行比对,计算PSNR、SSIM等客观评价指标,从而量化本系统所增强暗光视频的质量;
上述组成系统之间的连接关系为:
数据预处理子系统与暗光增强模块子系统、结果评价子系统分别相连,向暗光增强模块子系统提供经视频预处理和数据增广得到的处理后的、符合模型输入输出格式的暗光视频以及真实正常光下视频,向结果评价子系统提供真实正常光下视频;
在数据预处理子系统中,暗光视频预处理模块和数据增广模块相连;其中,暗光视频预处理模块向数据增广模块提供符合数据增广格式要求的视频数据;
暗光增强模型子系统与数据预处理子系统、损失函数计算子系统和结果评价子系统分别相连,其根据数据预处理子系统输入的暗光视频恢复出增强后的暗光视频至损失函数计算子系统和结果评价子系统;
在暗光增强模型子系统中,编码器模块与解码器模块、特征提取重建模块相连;解码器模块与编码器模块、时序-通道注意力模块相连;
在特征提取重建模块中,特征嵌入模块与3D Swin-Transformer模块相连;3D Swin-Transformer模块与特征嵌入模块以及特征重建模块相连;特征重建模块与3D Swin-Transformer模块相连;
损失函数计算子系统与数据预处理子系统、暗光增强模型子系统相连;其从数据预处理子系统获取数据增广后的真实正常光视频,然后,从暗光增强模型子系统获取编解码器增强视频和完整模型增强结果;解码器增强视频和完整模型增强结果分别与真实正常光视频对比计算损失,并将该损失回传至暗光增强模型子系统,用于更新暗光增强模型子系统中模型的参数;
在损失函数计算子系统中,编解码器损失计算模块与完整模型损失计算模块独立工作,互不连接;
结果评价子系统与数据预处理子系统、暗光增强模型子系统分别相连,其从数据预处理子系统中获取真实正常光下视频,从暗光增强模型子系统中获取增强后视频,通过将二者比对计算评价指标,量化地反映增强后视频的质量。
9.如权利要求8所述的一种基于多尺度时空特征融合的暗光视频增强系统,其特征在于,系统的处理过程如下:
步骤1:将暗光视频输入至数据预处理子系统,进行视频数据预处理、数据增广;
步骤2:将暗光视频送入暗光增强模型子系统中的编解码器模块,暗光视频经由该部分处理,生成增强视频待使用;
步骤3:损失函数计算子系统中的编解码器损失函数计算模块接收编解码器模块生成的增强视频以及数据预处理子系统生成的真实正常光下视频,计算损失值,并回传至编解码器模块中用于训练;
步骤4:暗光增强模型子系统中的编解码器模块根据损失函数计算子系统中的编解码器损失函数计算模块传回的损失值,并利用优化器进行参数优化,完成一次训练迭代;
步骤5:重复执行上述步骤1至4,每当对全部训练集遍历一次后,在结果评价子系统上使用验证集数据对当前参数下模型效果进行评估;若计算得到的量化指标已满足预设条件,或当前训练迭代次数达到预设上线,则停止训练,保存当前编解码器模块的参数字典,继续步骤6;
步骤6:;将步骤5当中保存的编解码器模块的参数字典加载至完整模型中的编解码器模块部分,完成完整模型的初始化工作;
步骤7:与步骤1相同,将暗光视频输入至数据预处理子系统,进行预处理、数据增广,处理后的视频数据将被暂存在内存当中;
步骤8:将暗光视频送入暗光增强模型子系统中的完整模型,暗光视频经由该部分处理,生成增强视频待使用;
步骤9:损失函数计算子系统中的完整模型损失函数计算模块接收完整模型生成的增强视频以及数据预处理子系统生成的真实正常光下视频,计算损失值,并回传至完整模型中用于训练;
步骤10:暗光增强模型子系统中的完整模型根据损失函数计算子系统中的完整模型损失函数计算模块传回的损失值,并利用优化器进行参数优化,完成一次训练迭代;
步骤11:重复执行上述步骤7至10,每当对全部训练集遍历一次后,在结果评价子系统上使用验证集数据对当前参数下模型效果进行评估;若计算得到的量化指标已满足预设条件,或当前训练迭代次数达到预设上线,则停止训练,保存当前完整模型的参数字典,继续步骤12;
步骤12:采用步骤11保存的参数字典初始化完整模型,将目标暗光视频数据送入该模型中进行暗光增强,保存输出视频并采用结果评价子系统评估增强后视频的图形质量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210775619.4A CN115345785A (zh) | 2022-07-01 | 2022-07-01 | 一种基于多尺度时空特征融合的暗光视频增强方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210775619.4A CN115345785A (zh) | 2022-07-01 | 2022-07-01 | 一种基于多尺度时空特征融合的暗光视频增强方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115345785A true CN115345785A (zh) | 2022-11-15 |
Family
ID=83948036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210775619.4A Pending CN115345785A (zh) | 2022-07-01 | 2022-07-01 | 一种基于多尺度时空特征融合的暗光视频增强方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115345785A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115761472A (zh) * | 2023-01-09 | 2023-03-07 | 吉林大学 | 一种基于融合事件和rgb数据的水下暗光场景重建方法 |
CN116137023A (zh) * | 2023-04-20 | 2023-05-19 | 中国民用航空飞行学院 | 基于背景建模和细节增强的低照度图像增强方法 |
CN116596779A (zh) * | 2023-04-24 | 2023-08-15 | 天津大学 | 基于Transformer的Raw视频去噪方法 |
CN117726541A (zh) * | 2024-02-08 | 2024-03-19 | 北京理工大学 | 一种基于二值化神经网络的暗光视频增强方法及装置 |
-
2022
- 2022-07-01 CN CN202210775619.4A patent/CN115345785A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115761472A (zh) * | 2023-01-09 | 2023-03-07 | 吉林大学 | 一种基于融合事件和rgb数据的水下暗光场景重建方法 |
CN116137023A (zh) * | 2023-04-20 | 2023-05-19 | 中国民用航空飞行学院 | 基于背景建模和细节增强的低照度图像增强方法 |
CN116596779A (zh) * | 2023-04-24 | 2023-08-15 | 天津大学 | 基于Transformer的Raw视频去噪方法 |
CN116596779B (zh) * | 2023-04-24 | 2023-12-01 | 天津大学 | 基于Transformer的Raw视频去噪方法 |
CN117726541A (zh) * | 2024-02-08 | 2024-03-19 | 北京理工大学 | 一种基于二值化神经网络的暗光视频增强方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115345785A (zh) | 一种基于多尺度时空特征融合的暗光视频增强方法及系统 | |
CN110163815B (zh) | 基于多阶段变分自编码器的低照度还原方法 | |
CN110717868B (zh) | 视频高动态范围反色调映射模型构建、映射方法及装置 | |
WO2009033119A1 (en) | Learning-based image compression | |
CN112866694A (zh) | 联合非对称卷积块和条件上下文的智能图像压缩优化方法 | |
CN113822147B (zh) | 一种协同机器语义任务的深度压缩方法 | |
CN116152120B (zh) | 一种融合高低频特征信息的低光图像增强方法及装置 | |
CN116012260B (zh) | 一种基于深度Retinex的低光图像增强方法 | |
WO2023130333A1 (zh) | 编解码方法、编码器、解码器以及存储介质 | |
CN110728728A (zh) | 一种基于非局部正则的压缩感知网络图像重建方法 | |
CN115984117A (zh) | 基于通道注意力的变分自编码图像超分辨率方法及系统 | |
CN115035011B (zh) | 一种融合策略下自适应RetinexNet的低照度图像增强方法 | |
CN113379858A (zh) | 一种基于深度学习的图像压缩方法及装置 | |
CN116916036A (zh) | 视频压缩方法、装置及系统 | |
Ranjbar Alvar et al. | Joint image compression and denoising via latent-space scalability | |
Joshua et al. | Comparison of DCT and DWT image compression | |
CN111641825B (zh) | 一种嵌入到hevc编码过程的3d去噪方法及去噪装置 | |
CN113628143A (zh) | 一种基于多尺度卷积的加权融合图像去雾方法及装置 | |
CN117750015A (zh) | 一种基于时域特征增强的神经表示视频压缩方法 | |
Lauga et al. | Segmentation-based optimized tone mapping for high dynamic range image and video coding | |
CN117115411A (zh) | 一种多频双分支水下图像增强方法 | |
CN116416216A (zh) | 基于自监督特征提取的质量评价方法、存储介质及终端 | |
Xie et al. | Just noticeable visual redundancy forecasting: a deep multimodal-driven approach | |
CN115512199A (zh) | 一种基于图注意和非对称卷积网络的图像压缩模型 | |
CN115567712A (zh) | 基于人眼恰可察觉失真的屏幕内容视频编码感知码率控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |