CN116596779A - 基于Transformer的Raw视频去噪方法 - Google Patents
基于Transformer的Raw视频去噪方法 Download PDFInfo
- Publication number
- CN116596779A CN116596779A CN202310446298.8A CN202310446298A CN116596779A CN 116596779 A CN116596779 A CN 116596779A CN 202310446298 A CN202310446298 A CN 202310446298A CN 116596779 A CN116596779 A CN 116596779A
- Authority
- CN
- China
- Prior art keywords
- window
- attention
- self
- branch
- neighborhood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims abstract description 3
- 230000009021 linear effect Effects 0.000 claims description 23
- 230000002123 temporal effect Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000011084 recovery Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000003313 weakening effect Effects 0.000 claims description 2
- 230000004927 fusion Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 2
- 238000013507 mapping Methods 0.000 description 9
- 239000004973 liquid crystal related substance Substances 0.000 description 8
- 230000003993 interaction Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 201000004008 COL4A1-related familial vascular leukoencephalopathy Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 208000024112 brain small vessel disease 1 with or without ocular anomalies Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本发明公开了基于Transformer的Raw视频去噪方法,涉及视频信号处理技术领域。基于Transformer的Raw视频去噪方法,包括如下步骤:S1、基于Transformer设计Raw视频去噪算法;S2、训练模型;S3、将测试集中的带噪声的Raw视频序列输入到模型中,得到相应的去除噪声后的视频序列。本发明通过利用所提出的时空融合重建模块以及空间优化模块,将Raw视频去噪性能提升到了新的高度。
Description
技术领域
本发明涉及视频信号处理技术领域,尤其涉及一种基于Transformer的Raw视频去噪方法。
背景技术
噪声存在于每一个图像传感器中,图像噪声不止影响观感,还影响后续对图像内容的分析。与图像去噪相比,视频去噪旨在利用连续视频帧间的关联信息提高去噪效果。近年多采用数据驱动的深度学习方法进行视频去噪。一些方法使用光流或可变形卷积对相邻帧进行显式或隐式的对齐,以更好的利用时域相关信息;另一些基于Transformer的视频去噪算法,由于其高效的全局时空注意力机制,有效地利用了时间和空间关联信息,取得了较好的去噪效果;除此之外,由于监督训练所使用的视频对数据难以获得,一些工作关注无监督训练策略,提出了许多基于盲点的训练策略,减少了对数据量的需求。
另一方面,利用Raw域数据进行真实场景图像(视频)恢复已成趋势,例如HDR,去噪,去模糊和超分辨率。主要原因是Raw域数据具有较宽的位深度(12或14位),即包含最原始的信息,并且其噪声仅与像素有关。相比于sRGB数据,由于未经过ISP处理,其噪声分布更加简单,在raw域数据上进行噪声去除更加高效。
但是,目前基于Transformer的视频去噪算法多采用移位窗口自注意力的空间信息交互方法。由于仅实现了窗口内的信息交互,限制了空域和时域的信息传递。对于空间信息交互,单张图像内的相似像素信息有利于噪声的去除,但是相似像素信息分布在整个图像内,而远程像素信息无法通过移位窗口自注意力传递;对于时域信息交互,由于帧间运动,不同帧之间相似像素信息的距离不同,导致移位窗口自注意力不能使用不同帧之间的时域相关性信息。
为了解决上述问题,本发明提出一种基于Transformer的Raw视频去噪方法,在多种复杂度下均实现了最优的去噪效果。
发明内容
本发明的目的在于提出一种基于Transformer的Raw视频去噪方法以解决背景技术中所提出的问题,实现对有噪声视频数据的高效去噪。
为了实现上述目的,本发明采用了如下技术方案:
基于Transformer的Raw视频去噪方法,具体包括以下步骤:
S1、设计Raw视频去噪算法:基于Transformer技术,设计一个由时空重建模块和空间优化模块组成的Raw视频去噪算法;
所述时空重建模块由多分支空间自注意力模块(MSSB)和多分支时域互注意力模块(MTSB)交叉级联而成;所述空间优化模块由多个多分支空间自注意力模块(MSSB)级联而成;
S2、搭建、训练模型:基于S1中所设计的Raw视频去噪算法搭建Raw视频去噪模型,利用深度学习框架Pytorch平台训练模型,在整个RECRVD训练数据集上迭代12k次,学习率从1e-4开始,在总epoch的2/6和5/6后下降到5e-5和2e-5;
S3、输出结果:将数据集的测试集中带有噪声的Raw视频序列输入到S2中训练好的Raw视频去噪模型中,输入得到相应的去除噪声的视频序列。
优选地,S1中所述时空重建模块采用与U-net相同的编码器-解码器结构,在经过一对多分支空间自注意力模块(MSSB)和多分支时域互注意力模块(MTSB)后对特征图进行下采样,后续经过上采样恢复,并将恢复后的特征图与编码阶段相同尺寸的特征图拼接。
优选地,S1中所述Raw视频去噪算法具体包括以下内容:
①多分支空间自注意力模块(MSSB):所述多分支空间自注意力模块(MSSB)由若干个多分支空间自注意力层和一个重参数化后的卷积层级联而成,其中,所述多分支空间自注意力层为3分支结构,包括:
1)移位窗口自注意力(SWSA);
2)全局窗口自注意力(GWSA)或邻域窗口自注意力(NWSA);
3)低分辨率窗口自注意力(LWSA);
其中,所述全局窗口自注意力(GWSA)应用于低分辨率的多分支空间自注意力层,所述邻域窗口自注意力(NWSA)应用于原始分辨率的多分支空间自注意力层;
②多分支时域自注意力模块(MTSB):所述多分支时域自注意力模块由若干个时域自注意力层和一个重参数化后的卷积层级联而成,其中,所述时域自注意力层包括:
1)时域互注意力(TMA);
2)全局窗口互注意力(GTMA)或邻域窗口互注意力(NTMA);
3)多分支空间自注意力;
其中,所述全局窗口自注意力(GWSA)应用于低分辨率的多分支时域自注意力层,所述邻域窗口自注意力(NWSA)应用于原始分辨率的多分支时域自注意力层;
所述时域互注意力(TMA)与全局窗口互注意力(GTMA)或邻域窗口互注意力(NTMA)为2分支结构,其输出通过1×1卷积层融合后与多分支空间自注意力的输出拼接,然后通过重参数化后的MLP,最后通过具有残差结构的层归一化和重参数化的MLP;
③重参数化模块:使用多网络层数来训练网络,应用重参数化策略融合不同网络层,减少网格参数。
优选地,所述多分支空间自注意力层为3分支结构具体包括以下内容:
(1)移位窗口自注意力(SWSA):用于计算窗口信息的相关性;通过对窗口像素间计算注意力,利用窗口像素的相关性信息,对噪声进行减弱;
(2)全局窗口自注意力(GWSA)或邻域窗口自注意力(NWSA):
所述全局窗口自注意力(GWSA)用于计算窗口信息和全局信息的相关性;通过对窗口像素和全局像素计算注意力,利用窗口像素和全局像素的相关性信息,对噪声进行减弱;通过下采样整个噪声特征帧至窗口大小来形成全局窗口;
所述邻域窗口自注意力(NWSA)用于计算窗口信息和邻域信息的相关性;通过对窗口像素和邻域像素计算注意力,利用窗口像素和邻域像素的相关性信息,对噪声进行减弱;通过下采样窗口及其邻域至窗口大小来形成邻域窗口;
(3)低分辨率窗口自注意力(LWSA):用于计算窗口信息和低分辨率窗口信息的相关性;通过对窗口像素和低分辨率窗口像素计算注意力,利用窗口像素和低分辨率窗口像素的相关性信息,对噪声进行减弱;通过对窗口进行下采样得到低分辨率窗口。
优选地,所述时域互注意力(TMA)与全局窗口互注意力(GTMA)或邻域窗口互注意力(NTMA)组成的2分支结构具体包括以下内容:
(1)时域互注意力(TMA):用于计算相邻帧间窗口信息的相关性;通过对相邻帧同一窗口像素间计算注意力,利用窗口像素的时域相关性信息,对噪声进行减弱;
(2)全局窗口互注意力(GTMA)或邻域窗口互注意力(NTMA):
所述全局窗口互注意力(GTMA)用于计算当前帧窗口信息和相邻帧全局信息的相关性;通过对当前帧窗口像素和相邻帧全局像素计算注意力,利用当前帧窗口像素和相邻帧全局像素的时域相关性信息,对噪声进行减弱;通过对整个相邻噪声特征帧下采样至窗口大小来形成全局窗口;
所述邻域窗口互注意力(NTMA)用于计算当前帧窗口信息和相邻帧邻域信息的相关性;通过对当前帧窗口像素和相邻帧邻域像素计算注意力,利用当前帧窗口像素和相邻帧邻域像素的相关性信息,对噪声进行减弱;通过对相邻噪声特征帧窗口及其邻域下采样至窗口大小来形成邻域窗口。
优选地,所述重参数化模块具体包括以下内容:
(1)重参数化MLP:对于基于Transformer的网络,在注意力层后级联MLP层;在训练阶段,网络使用两层并行线性层来提高网络的性能;在推理过程中,通过相加将并行的线性层融合为单个线性层,在不改变推理结果的情况下减少计算参数;
(2)重参数化卷积层:在推理阶段,融合存在于每个多分支空间自注意力模块(MSSB)或多分支时域互注意力模块(MTSB)末端的用于对局部空间进行建模的的3×3卷积层和与其相级联的线性层,得到一个重参数化的3×3卷积层。
优选地,S2中所述深度学习框架Pytorch平台在训练模型时所使用的损失函数包括有监督损失和无监督损失,具体包括以下内容:
(1)监督损失:包括raw域和sRGB域的重建损失,具体计算公式如下:
Lsup=Lraw+β1LsRGB
式中,分别表示表示第t帧的raw域和sRGB域的网络输出;/>和/>表示第t帧的GT数据;β1表示平衡两个损失的超参数;
(2)无监督损失:对于第t个噪声帧将/>作为输入,得到网络输出/>分别使用相邻下采样器对噪声帧/>和去噪帧/>进行子采样以获得子帧/>和/>将/>输入网络,得到去噪子帧/>无监督损失计算公式如下:
Lunsup=Lrec+β2Lreg
式中,β2表示平衡两个损失的超参数。
与现有技术相比,本发明提供了基于Transformer的Raw视频去噪方法,具备以下有益效果:
(1)本发明基于Transformer提出了一种raw视频去噪方法,通过所提出的多分支空间自注意力模块和多分支时域互注意力模块,分别用于挖掘时间相关信息和空间相关信息;拓展了移位窗口算法,并提高了性能;并基于两个模块搭建了时空重建和空间优化两个去噪阶段;并且引入重参化,加快了推理速度。
(2)基于本发明所进行的实验表明,所提出的方法优于目前主流有监督或无监督的Raw和sRGB的视频去噪方法,经过本发明的研究探索,希望能够启发更多基于Raw域的视频去噪方法的研究。
附图说明
图1为本发明所提出的基于Transformer的Raw视频去噪方法的流程图。
图2为本发明所提出的基于Transformer的Raw视频去噪方法中的多分支空间自注意力层示意图。
图3为本发明所提出的基于Transformer的Raw视频去噪方法中的多分支时域互注意力层示意图。
图4为本发明所提出的基于Transformer的Raw视频去噪方法中的重参数化机制示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1:
请参阅图1-4,本发明提出基于Transformer的Raw视频去噪方法,包括以下步骤:
S1、基于Transformer设计Raw视频去噪算法:设计一个包括时空重建模块和空间优化模块的Raw视频去噪网络。
时空重建模块由多分支空间自注意力模块(MSSB)和多分支时域互注意力模块(MTSB)交叉级联而成;空间优化模块由多个多分支空间自注意力模块级联而成。
除此之外,时空重建模块采用与U-net相同的编码器-解码器结构,在经过一对多分支空间自注意力模块和多分支时域互注意力模块后对特征图进行下采样,后续经过上采样恢复,并将恢复后的特征图与编码阶段相同尺寸的特征图拼接。
上述多分支空间自注意力模块和多分支时域互注意力模块的细节如下:
(一)多分支空间自注意力模块(MSSB):由多个多分支空间自注意力层和一个重参数化后的卷积层级联而成,以更好的利用空间相关性信息。其中,多分支空间自注意力层为3分支结构,包括移位窗口自注意力、全局窗口自注意力(或邻域窗口自注意力)和低分辨率窗口自注意力。考虑到将全局窗口自注意力应用于原始分辨率的多分支空间自注意力层会损失较多的信息,故将邻域窗口自注意力应用于原始分辨率的多分支空间自注意力层,将全局窗口自注意力应用于低分辨率的多分支空间自注意力层。低分辨率窗口自注意力、全局窗口自注意力和邻域窗口自注意力也应用了移位窗口操作以实现更好的信息交互。三个分支的输出通过1×1卷积层融合,通过调整参数D,Dl和Dn(Dg)来改变各个分支的贡献。
(1.1)移位窗口自注意力:计算窗口内信息的相关性。考虑到一个噪声帧特征F∈RH×W×C,将其分成个窗口,其中,H×W表示视频帧的空间大小;窗口大小为h×w;C表示通道数目。对于第i个窗口Fi∈RN×C(其中N=hw,表示将二维窗口拉成一维大小),通过如下映射将其映射为查询Qi,键Ki,值Vi(定义为线性映射):
Qi=FiPQ,Ki=FiPK,Vi=FiPV
其中,PQ,PK,PV∈RC×D为映射矩阵,D为被映射特征的通道数。使用Qi来查询Ki以生成注意力系数并且Ai用于Vi的加权求和,即SWSA(Qi,Ki,Vi)=AiVi。SoftMax表示行softmax操作。通过这种方式,生成增强特征/>其噪声通过窗口内相似特征的加权平均值来降低。
(1.2)全局窗口自注意力:计算窗口内信息和全局信息的相关性。考虑到一个噪声帧特征F∈RH×W×C,将其分成个窗口,其中,H×W表示视频帧的空间大小;窗口大小为h×w;C表示通道数目。将整个特征帧下采样为窗口大小来构建一个全局窗口Fg∈RN×C。对于第i个窗口Fi∈RN×C,查询/>是通过Fi的线性映射(如1.1中所定义)获得,键Kg和值Vg通过Fg的线性映射获得的;即:
其中,为映射矩阵,Dg为被映射特征的通道数。使用Qi来查询Ki以生成注意力系数/>对值Vg进行融合,得到如此,通过融合全局下采样特征来预测每个局部窗口的特征。
(1.3)邻域窗口自注意力:计算窗口内信息和邻域信息的相关性。考虑到一个噪声帧特征F∈RH×W×C,将其分成个窗口,其中,窗口大小为h×w。对于第i个窗口Fi∈RN×C,下采样Fi及其邻域使得相邻区域大小与Fi相同,生成相邻域窗口/>对于第i个窗口Fi∈RN×C,查询/>通过Fi的线性映射获得,键/>和值/>通过Fg的线性映射获得。即:
其中,为映射矩阵,Dn为被映射特征的通道数。使用/>来查询/>以生成注意力系数/>随后/>被用来对/>进行加权求和。通过融合邻域下采样特征来预测每个局部窗口的特征。
(1.4)低分辨率窗口自注意力:计算窗口内信息和低分辨率窗口信息的相关性。考虑到一个噪声帧特征F∈RH×W×C,将其分成个窗口,其中,H×W表示视频帧的空间大小;窗口大小为h×w;C表示通道数目。对于第i个窗口Fi∈RN×C,对其进行2倍下采样形成低分辨率窗口/> 减少了Fi中的噪声且保留了结构信息。对于第i个窗口Fi∈RN×C,查询/>是通过Fi的线性映获得,而键/>和值/>是通过/>的线性投影获得的。即:
其中,为映射矩阵,Dl为被映射特征的通道数。计算生成注意力系数/>随后使用/>对Vi l进行融合得到/>
(二)多分支时域互注意力模块(MTSB):由多个时域自注意力层和一个重参数化后的卷积层级联而成,以更好的利用不同序列间的相关性信息。其中,时域自注意力层包括时域互注意力和全局窗口互注意力(或邻域窗口互注意力),以及一个多分支空间自注意力来进一步利用空间信息。考虑到将全局窗口互注意力应用于原始分辨率的多分支时域互注意力层会损失较多的信息,故将邻域窗口互注意力应用于原始分辨率的多分支时域互注意力层,将全局窗口互注意力应用于低分辨率的多分支时域互注意力层。
二分支的时域互注意力和全局窗口互注意力(或邻域窗口互注意力)的输出通过1×1卷积层融合后与多分支空间自注意力的输出拼接,接着通过重参数化后的MLP。最终通过具有残差结构的层归一化和重参数化的MLP。
考虑到一个参考噪声帧特征FR∈RH×w×C和与其相邻的噪声特征帧FS∈RH×W×C。对于FR,将其分成个窗口,其中,H×W表示视频帧的空间大小;窗口大小为h×w;C表示通道数目,第i个窗口为/>对于FS,通过三种方式进行窗口划分。第一种方式同FR的划分相同,所以/>第二种方式为全局窗口划分,直接下采样整个特征图至窗口大小,构建全局窗口/>第三种方式为邻域窗口划分,将以第i个窗口为中心的大邻近区域下采样为/>根据对于相邻噪声帧的不同的窗口划分方式,构建三种不同的时域互注意机制,即普通时域互注意力,全局窗口互注意力和邻域窗口互注意力。对于三种不同的互注意力机制,其查询,键,值通过以下计算得到:
其中,为映射矩阵。所有的特征图在进行映射前需改变至维度N×C。然后进行注意力系数的计算:
其中,Ai,分别表示普通时域互注意力,全局窗口互注意力和邻域窗口互注意力所计算得来的注意力系数。最后使用注意力系数对相应的值进行加权融合。
(三)重参数化:训练网络时使用较多的网络层数以增加网络性能,在推理时,应用重参数化策略融合不同网络层,减少网络参数,提升网络效率。应用重参数化策略包括对训练阶段所使用的两层并行线性层进行重参数化,得到推理阶段使用的单一线性层;以及对训练阶段所使用的线性层(可是视作1×1卷积层)和3×3卷积层级联网络重参数化得到单个3×3卷积层。
(3.1)重参数化MLP:在训练阶段,对于输入的含有Cin个通道数的特征图通过两个并行的线性层,分别包含权重/>和偏置单元bL1,bL2∈RD,得到相关的含有Cout个通道数的特征图OL1和/>OL1和OL2相加后通过GELU层,然后经过dropout层和线性层的得到最后的结果。
在推理阶段,基于线性层的线性性质,可将两个并行的线性层融合为带有权重WLf和偏置bLf的单线性层:
WLf=WL1+WL2
bLf=bL1+bL2
(3.2)重参数化卷积层:融合前两个卷积层的权重可表示为偏置可表示为bc1,bc2∈RD。融合后的权重和偏置表示为/>bCf∈RD。通过以下计算得到:
bCf=sum(WC2bC1)+bC2
实施例2:
基于实施例1但有所不同之处在于:
本发明选取了有监督和无监督两种训练策略,并基于不同的训练策略与不同的先进方法进行对比(请参阅表1、表2)。
表1
表2
如表1-2所示,对于有监督训练,对比方法包括VBM4D,EMVD,BSVD,FastDVDnet,RVRT,VRT,RViDeNet以及FloRNN。根据模型不同的GMACs将不同的模型分为2组,反应不同计算复杂度下的去噪性能。本方法在最低GMACs情况下实现了最好的客观评价指标。
对于无监督训练,对比方法包括F2F,MF2F,UDVD。本方法在最低GMACs情况下实现了最好的客观评价指标。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.基于Transformer的Raw视频去噪方法,其特征在于,具体包括以下步骤:
S1、设计Raw视频去噪算法:基于Transformer技术,设计一个由时空重建模块和空间优化模块组成的Raw视频去噪算法;
所述时空重建模块由多分支空间自注意力模块和多分支时域互注意力模块交叉级联而成;所述空间优化模块由多个多分支空间自注意力模块级联而成;
S2、搭建、训练模型:基于S1中所设计的Raw视频去噪算法搭建Raw视频去噪模型,利用深度学习框架Pytorch平台训练模型,在整个RECRVD训练数据集上迭代12k次,学习率从1e-4开始,在总epoch的2/6和5/6后下降到5e-5和2e-5;
S3、输出结果:将数据集的测试集中带有噪声的Raw视频序列输入到S2中训练好的Raw视频去噪模型中,输入得到相应的去除噪声的视频序列。
2.根据权利要求1所述的基于Transformer的Raw视频去噪方法,其特征在于,S1中所述时空重建模块采用与U-net相同的编码器-解码器结构,在经过一对多分支空间自注意力模块和多分支时域互注意力模块后对特征图进行下采样,后续经过上采样恢复,并将恢复后的特征图与编码阶段相同尺寸的特征图拼接。
3.根据权利要求1所述的基于Transformer的Raw视频去噪方法,其特征在于,S1中所述Raw视频去噪算法具体包括以下内容:
①多分支空间自注意力模块:所述多分支空间自注意力模块由若干个多分支空间自注意力层和一个重参数化后的卷积层级联而成,其中,所述多分支空间自注意力层为3分支结构,包括:
1)移位窗口自注意力;
2)全局窗口自注意力或邻域窗口自注意力;
3)低分辨率窗口自注意力;
其中,所述全局窗口自注意力应用于低分辨率的多分支空间自注意力层,所述邻域窗口自注意力应用于原始分辨率的多分支空间自注意力层;
②多分支时域自注意力模块:所述多分支时域自注意力模块由若干个时域自注意力层和一个重参数化后的卷积层级联而成,其中,所述时域自注意力层包括:
1)时域互注意力;
2)全局窗口互注意力或邻域窗口互注意力;
3)多分支空间自注意力;
其中,所述全局窗口自注意力应用于低分辨率的多分支时域自注意力层,所述邻域窗口自注意力应用于原始分辨率的多分支时域自注意力层;
所述时域互注意力与全局窗口互注意力或邻域窗口互注意力为2分支结构,其输出通过1×1卷积层融合后与多分支空间自注意力的输出拼接,然后通过重参数化后的MLP,最后通过具有残差结构的层归一化和重参数化的MLP;
③重参数化模块:使用多网络层数来训练网络,应用重参数化策略融合不同网络层,减少网格参数。
4.根据权利要求3所述的基于Transformer的Raw视频去噪方法,其特征在于,所述多分支空间自注意力层为3分支结构具体包括以下内容:
(1)移位窗口自注意力:用于计算窗口信息的相关性;通过对窗口像素间计算注意力,利用窗口像素的相关性信息,对噪声进行减弱;
(2)全局窗口自注意力或邻域窗口自注意力:
所述全局窗口自注意力用于计算窗口信息和全局信息的相关性;通过对窗口像素和全局像素计算注意力,利用窗口像素和全局像素的相关性信息,对噪声进行减弱;通过下采样整个噪声特征帧至窗口大小来形成全局窗口;
所述邻域窗口自注意力用于计算窗口信息和邻域信息的相关性;通过对窗口像素和邻域像素计算注意力,利用窗口像素和邻域像素的相关性信息,对噪声进行减弱;通过下采样窗口及其邻域至窗口大小来形成邻域窗口;
(3)低分辨率窗口自注意力:用于计算窗口信息和低分辨率窗口信息的相关性;通过对窗口像素和低分辨率窗口像素计算注意力,利用窗口像素和低分辨率窗口像素的相关性信息,对噪声进行减弱;通过对窗口进行下采样得到低分辨率窗口。
5.根据权利要求3所述的基于Transformer的Raw视频去噪方法,其特征在于,所述时域互注意力与全局窗口互注意力或邻域窗口互注意力组成的2分支结构具体包括以下内容:
(1)普通时域互注意力:用于计算相邻帧间窗口信息的相关性;通过对相邻帧同一窗口像素间计算注意力,利用窗口像素的时域相关性信息,对噪声进行减弱;
(2)全局窗口互注意力或邻域窗口互注意力:
所述全局窗口互注意力用于计算当前帧窗口信息和相邻帧全局信息的相关性;通过对当前帧窗口像素和相邻帧全局像素计算注意力,利用当前帧窗口像素和相邻帧全局像素的时域相关性信息,对噪声进行减弱;通过对整个相邻噪声特征帧下采样至窗口大小来形成全局窗口;
所述邻域窗口互注意力用于计算当前帧窗口信息和相邻帧邻域信息的相关性;通过对当前帧窗口像素和相邻帧邻域像素计算注意力,利用当前帧窗口像素和相邻帧邻域像素的相关性信息,对噪声进行减弱;通过对相邻噪声特征帧窗口及其邻域下采样至窗口大小来形成邻域窗口。
6.根据权利要求3所述的基于Transformer的Raw视频去噪方法,其特征在于,所述重参数化模块具体包括以下内容:
(1)重参数化MLP:对于基于Transformer的网络,在注意力层后级联MLP层;在训练阶段,网络使用两层并行线性层来提高网络的性能;在推理过程中,通过相加将并行的线性层融合为单个线性层,在不改变推理结果的情况下减少计算参数;
(2)重参数化卷积层:在推理阶段,融合存在于每个多分支空间自注意力模块或多分支时域互注意力模块末端的用于对局部空间进行建模的的3×3卷积层和与其相级联的线性层,得到一个重参数化的3×3卷积层。
7.根据权利要求1所述的基于Transformer的Raw视频去噪方法,其特征在于,S2中所述深度学习框架Pytorch平台在训练模型时所使用的损失函数包括有监督损失和无监督损失,具体包括以下内容:
(1)监督损失:包括raw域和sRGB域的重建损失,具体计算公式如下:
Lsup=Lraw+β1LsRGB
式中,分别表示表示第t帧的raw域和sRGB域的网络输出;/>和/>表示第t帧的GT数据;β1表示平衡两个损失的超参数;
(2)无监督损失:对于第t个噪声帧将/>作为输入,得到网络输出/>分别使用相邻下采样器对噪声帧/>和去噪帧/>进行子采样以获得子帧/>和/>将输入网络,得到去噪子帧/>无监督损失计算公式如下:
Lunsup=Lrec+β2Lreg
式中,β2表示平衡两个损失的超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310446298.8A CN116596779B (zh) | 2023-04-24 | 2023-04-24 | 基于Transformer的Raw视频去噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310446298.8A CN116596779B (zh) | 2023-04-24 | 2023-04-24 | 基于Transformer的Raw视频去噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116596779A true CN116596779A (zh) | 2023-08-15 |
CN116596779B CN116596779B (zh) | 2023-12-01 |
Family
ID=87599875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310446298.8A Active CN116596779B (zh) | 2023-04-24 | 2023-04-24 | 基于Transformer的Raw视频去噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116596779B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861902A (zh) * | 2020-06-10 | 2020-10-30 | 天津大学 | 基于深度学习的Raw域视频去噪方法 |
CN113870129A (zh) * | 2021-09-15 | 2021-12-31 | 大连理工大学 | 基于空间感知与时间差异学习的视频去雨方法 |
CN114757828A (zh) * | 2022-04-02 | 2022-07-15 | 华南理工大学 | 基于Transformer的视频时空超分辨率方法 |
CN114881888A (zh) * | 2022-06-10 | 2022-08-09 | 福州大学 | 基于线性稀疏注意力Transformer的视频去摩尔纹方法 |
US20220261959A1 (en) * | 2021-02-08 | 2022-08-18 | Nanjing University Of Posts And Telecommunications | Method of reconstruction of super-resolution of video frame |
CN114972061A (zh) * | 2022-04-04 | 2022-08-30 | 北京理工大学 | 一种暗光视频去噪增强方法及系统 |
CN115082308A (zh) * | 2022-05-23 | 2022-09-20 | 华南理工大学 | 基于多尺度局部自注意力的视频超分辨率重建方法及系统 |
CN115100090A (zh) * | 2022-06-09 | 2022-09-23 | 北京邮电大学 | 一种基于时空注意的单目图像深度估计系统 |
CN115115516A (zh) * | 2022-06-27 | 2022-09-27 | 天津大学 | 基于Raw域的真实世界视频超分辨率算法 |
WO2022231643A1 (en) * | 2021-04-26 | 2022-11-03 | Google Llc | Compression-informed video super-resolution |
CN115345785A (zh) * | 2022-07-01 | 2022-11-15 | 北京理工大学 | 一种基于多尺度时空特征融合的暗光视频增强方法及系统 |
CN115841523A (zh) * | 2022-09-14 | 2023-03-24 | 天津大学 | 一种基于Raw域的双支路HDR视频重建算法 |
CN115861068A (zh) * | 2022-12-12 | 2023-03-28 | 浙江大学 | 基于可变形注意力的时空混合视频超分辨率方法 |
-
2023
- 2023-04-24 CN CN202310446298.8A patent/CN116596779B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861902A (zh) * | 2020-06-10 | 2020-10-30 | 天津大学 | 基于深度学习的Raw域视频去噪方法 |
US20220261959A1 (en) * | 2021-02-08 | 2022-08-18 | Nanjing University Of Posts And Telecommunications | Method of reconstruction of super-resolution of video frame |
WO2022231643A1 (en) * | 2021-04-26 | 2022-11-03 | Google Llc | Compression-informed video super-resolution |
CN113870129A (zh) * | 2021-09-15 | 2021-12-31 | 大连理工大学 | 基于空间感知与时间差异学习的视频去雨方法 |
CN114757828A (zh) * | 2022-04-02 | 2022-07-15 | 华南理工大学 | 基于Transformer的视频时空超分辨率方法 |
CN114972061A (zh) * | 2022-04-04 | 2022-08-30 | 北京理工大学 | 一种暗光视频去噪增强方法及系统 |
CN115082308A (zh) * | 2022-05-23 | 2022-09-20 | 华南理工大学 | 基于多尺度局部自注意力的视频超分辨率重建方法及系统 |
CN115100090A (zh) * | 2022-06-09 | 2022-09-23 | 北京邮电大学 | 一种基于时空注意的单目图像深度估计系统 |
CN114881888A (zh) * | 2022-06-10 | 2022-08-09 | 福州大学 | 基于线性稀疏注意力Transformer的视频去摩尔纹方法 |
CN115115516A (zh) * | 2022-06-27 | 2022-09-27 | 天津大学 | 基于Raw域的真实世界视频超分辨率算法 |
CN115345785A (zh) * | 2022-07-01 | 2022-11-15 | 北京理工大学 | 一种基于多尺度时空特征融合的暗光视频增强方法及系统 |
CN115841523A (zh) * | 2022-09-14 | 2023-03-24 | 天津大学 | 一种基于Raw域的双支路HDR视频重建算法 |
CN115861068A (zh) * | 2022-12-12 | 2023-03-28 | 浙江大学 | 基于可变形注意力的时空混合视频超分辨率方法 |
Non-Patent Citations (1)
Title |
---|
ZHENDONG WANG ET AL: "Uformer: A General U-Shaped Transformer for Image Restoration", ARXIV * |
Also Published As
Publication number | Publication date |
---|---|
CN116596779B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN113905391B (zh) | 集成学习网络流量预测方法、系统、设备、终端、介质 | |
CN112863180B (zh) | 交通速度预测方法、装置、电子设备及计算机可读介质 | |
CN112435282B (zh) | 一种基于自适应候选视差预测网络的实时双目立体匹配方法 | |
CN111787187B (zh) | 利用深度卷积神经网络进行视频修复的方法、系统、终端 | |
CN114283120B (zh) | 一种基于领域自适应的端到端多源异质遥感影像变化检测方法 | |
CN110992414B (zh) | 一种基于卷积神经网络的室内单目场景深度估计的方法 | |
CN113378775B (zh) | 一种基于深度学习的视频阴影检测与消除方法 | |
CN113362242B (zh) | 基于多特征融合网络的图像修复方法 | |
CN114022506B (zh) | 一种边缘先验融合多头注意力机制的图像修复方法 | |
CN112991350A (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN115484410B (zh) | 基于深度学习的事件相机视频重建方法 | |
CN116612396A (zh) | 基于时空双流非平稳感知的海洋表面温度序列预测方法 | |
CN113888399B (zh) | 一种基于风格融合与域选结构的人脸年龄合成方法 | |
CN113393435B (zh) | 一种基于动态上下文感知滤波网络的视频显著性检测方法 | |
CN114998373A (zh) | 基于多尺度损失函数的改进型U-Net云图分割方法 | |
Zhang et al. | Spatial-information Guided Adaptive Context-aware Network for Efficient RGB-D Semantic Segmentation | |
CN116596779B (zh) | 基于Transformer的Raw视频去噪方法 | |
US20240062347A1 (en) | Multi-scale fusion defogging method based on stacked hourglass network | |
CN116307224A (zh) | 基于递归门控卷积和注意力机制改进的enso时空预测方法 | |
CN114022356A (zh) | 基于小波域的河道流量水位遥感图像超分辨率方法与系统 | |
CN116129646B (zh) | 一种基于特征交叉的图卷积神经网络的交通预测方法 | |
Yu et al. | A review of single image super-resolution reconstruction based on deep learning | |
CN116012230B (zh) | 一种时空视频超分辨率方法、装置、设备及存储介质 | |
CN117114994A (zh) | 基于层次特征融合的矿井图像超分辨率重建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |