CN116596779A

CN116596779A - 基于Transformer的Raw视频去噪方法

Info

Publication number: CN116596779A
Application number: CN202310446298.8A
Authority: CN
Inventors: 岳焕景; 曹聪; 廖磊; 杨敬钰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-08-15
Anticipated expiration: 2043-04-24
Also published as: CN116596779B

Abstract

本发明公开了基于Transformer的Raw视频去噪方法，涉及视频信号处理技术领域。基于Transformer的Raw视频去噪方法，包括如下步骤：S1、基于Transformer设计Raw视频去噪算法；S2、训练模型；S3、将测试集中的带噪声的Raw视频序列输入到模型中，得到相应的去除噪声后的视频序列。本发明通过利用所提出的时空融合重建模块以及空间优化模块，将Raw视频去噪性能提升到了新的高度。

Description

基于Transformer的Raw视频去噪方法

技术领域

本发明涉及视频信号处理技术领域，尤其涉及一种基于Transformer的Raw视频去噪方法。

背景技术

噪声存在于每一个图像传感器中，图像噪声不止影响观感，还影响后续对图像内容的分析。与图像去噪相比，视频去噪旨在利用连续视频帧间的关联信息提高去噪效果。近年多采用数据驱动的深度学习方法进行视频去噪。一些方法使用光流或可变形卷积对相邻帧进行显式或隐式的对齐，以更好的利用时域相关信息；另一些基于Transformer的视频去噪算法，由于其高效的全局时空注意力机制，有效地利用了时间和空间关联信息，取得了较好的去噪效果；除此之外，由于监督训练所使用的视频对数据难以获得，一些工作关注无监督训练策略，提出了许多基于盲点的训练策略，减少了对数据量的需求。

另一方面，利用Raw域数据进行真实场景图像(视频)恢复已成趋势，例如HDR，去噪，去模糊和超分辨率。主要原因是Raw域数据具有较宽的位深度(12或14位)，即包含最原始的信息，并且其噪声仅与像素有关。相比于sRGB数据，由于未经过ISP处理，其噪声分布更加简单，在raw域数据上进行噪声去除更加高效。

但是，目前基于Transformer的视频去噪算法多采用移位窗口自注意力的空间信息交互方法。由于仅实现了窗口内的信息交互，限制了空域和时域的信息传递。对于空间信息交互，单张图像内的相似像素信息有利于噪声的去除，但是相似像素信息分布在整个图像内，而远程像素信息无法通过移位窗口自注意力传递；对于时域信息交互，由于帧间运动，不同帧之间相似像素信息的距离不同，导致移位窗口自注意力不能使用不同帧之间的时域相关性信息。

为了解决上述问题，本发明提出一种基于Transformer的Raw视频去噪方法，在多种复杂度下均实现了最优的去噪效果。

发明内容

本发明的目的在于提出一种基于Transformer的Raw视频去噪方法以解决背景技术中所提出的问题，实现对有噪声视频数据的高效去噪。

为了实现上述目的，本发明采用了如下技术方案：

基于Transformer的Raw视频去噪方法，具体包括以下步骤：

S1、设计Raw视频去噪算法：基于Transformer技术，设计一个由时空重建模块和空间优化模块组成的Raw视频去噪算法；

所述时空重建模块由多分支空间自注意力模块(MSSB)和多分支时域互注意力模块(MTSB)交叉级联而成；所述空间优化模块由多个多分支空间自注意力模块(MSSB)级联而成；

S2、搭建、训练模型：基于S1中所设计的Raw视频去噪算法搭建Raw视频去噪模型，利用深度学习框架Pytorch平台训练模型，在整个RECRVD训练数据集上迭代12k次，学习率从1e-4开始，在总epoch的2/6和5/6后下降到5e-5和2e-5；

S3、输出结果：将数据集的测试集中带有噪声的Raw视频序列输入到S2中训练好的Raw视频去噪模型中，输入得到相应的去除噪声的视频序列。

优选地，S1中所述时空重建模块采用与U-net相同的编码器-解码器结构，在经过一对多分支空间自注意力模块(MSSB)和多分支时域互注意力模块(MTSB)后对特征图进行下采样，后续经过上采样恢复，并将恢复后的特征图与编码阶段相同尺寸的特征图拼接。

优选地，S1中所述Raw视频去噪算法具体包括以下内容：

①多分支空间自注意力模块(MSSB)：所述多分支空间自注意力模块(MSSB)由若干个多分支空间自注意力层和一个重参数化后的卷积层级联而成，其中，所述多分支空间自注意力层为3分支结构，包括：

1)移位窗口自注意力(SWSA)；

2)全局窗口自注意力(GWSA)或邻域窗口自注意力(NWSA)；

3)低分辨率窗口自注意力(LWSA)；

其中，所述全局窗口自注意力(GWSA)应用于低分辨率的多分支空间自注意力层，所述邻域窗口自注意力(NWSA)应用于原始分辨率的多分支空间自注意力层；

②多分支时域自注意力模块(MTSB)：所述多分支时域自注意力模块由若干个时域自注意力层和一个重参数化后的卷积层级联而成，其中，所述时域自注意力层包括：

1)时域互注意力(TMA)；

2)全局窗口互注意力(GTMA)或邻域窗口互注意力(NTMA)；

3)多分支空间自注意力；

其中，所述全局窗口自注意力(GWSA)应用于低分辨率的多分支时域自注意力层，所述邻域窗口自注意力(NWSA)应用于原始分辨率的多分支时域自注意力层；

所述时域互注意力(TMA)与全局窗口互注意力(GTMA)或邻域窗口互注意力(NTMA)为2分支结构，其输出通过1×1卷积层融合后与多分支空间自注意力的输出拼接，然后通过重参数化后的MLP，最后通过具有残差结构的层归一化和重参数化的MLP；

③重参数化模块：使用多网络层数来训练网络，应用重参数化策略融合不同网络层，减少网格参数。

优选地，所述多分支空间自注意力层为3分支结构具体包括以下内容：

(1)移位窗口自注意力(SWSA)：用于计算窗口信息的相关性；通过对窗口像素间计算注意力，利用窗口像素的相关性信息，对噪声进行减弱；

(2)全局窗口自注意力(GWSA)或邻域窗口自注意力(NWSA)：

所述全局窗口自注意力(GWSA)用于计算窗口信息和全局信息的相关性；通过对窗口像素和全局像素计算注意力，利用窗口像素和全局像素的相关性信息，对噪声进行减弱；通过下采样整个噪声特征帧至窗口大小来形成全局窗口；

所述邻域窗口自注意力(NWSA)用于计算窗口信息和邻域信息的相关性；通过对窗口像素和邻域像素计算注意力，利用窗口像素和邻域像素的相关性信息，对噪声进行减弱；通过下采样窗口及其邻域至窗口大小来形成邻域窗口；

(3)低分辨率窗口自注意力(LWSA)：用于计算窗口信息和低分辨率窗口信息的相关性；通过对窗口像素和低分辨率窗口像素计算注意力，利用窗口像素和低分辨率窗口像素的相关性信息，对噪声进行减弱；通过对窗口进行下采样得到低分辨率窗口。

优选地，所述时域互注意力(TMA)与全局窗口互注意力(GTMA)或邻域窗口互注意力(NTMA)组成的2分支结构具体包括以下内容：

(1)时域互注意力(TMA)：用于计算相邻帧间窗口信息的相关性；通过对相邻帧同一窗口像素间计算注意力，利用窗口像素的时域相关性信息，对噪声进行减弱；

(2)全局窗口互注意力(GTMA)或邻域窗口互注意力(NTMA)：

所述全局窗口互注意力(GTMA)用于计算当前帧窗口信息和相邻帧全局信息的相关性；通过对当前帧窗口像素和相邻帧全局像素计算注意力，利用当前帧窗口像素和相邻帧全局像素的时域相关性信息，对噪声进行减弱；通过对整个相邻噪声特征帧下采样至窗口大小来形成全局窗口；

所述邻域窗口互注意力(NTMA)用于计算当前帧窗口信息和相邻帧邻域信息的相关性；通过对当前帧窗口像素和相邻帧邻域像素计算注意力，利用当前帧窗口像素和相邻帧邻域像素的相关性信息，对噪声进行减弱；通过对相邻噪声特征帧窗口及其邻域下采样至窗口大小来形成邻域窗口。

优选地，所述重参数化模块具体包括以下内容：

(1)重参数化MLP：对于基于Transformer的网络，在注意力层后级联MLP层；在训练阶段，网络使用两层并行线性层来提高网络的性能；在推理过程中，通过相加将并行的线性层融合为单个线性层，在不改变推理结果的情况下减少计算参数；

(2)重参数化卷积层：在推理阶段，融合存在于每个多分支空间自注意力模块(MSSB)或多分支时域互注意力模块(MTSB)末端的用于对局部空间进行建模的的3×3卷积层和与其相级联的线性层，得到一个重参数化的3×3卷积层。

优选地，S2中所述深度学习框架Pytorch平台在训练模型时所使用的损失函数包括有监督损失和无监督损失，具体包括以下内容：

(1)监督损失：包括raw域和sRGB域的重建损失，具体计算公式如下：

L_sup＝L_raw+β₁L_sRGB

式中，分别表示表示第t帧的raw域和sRGB域的网络输出；/>和/>表示第t帧的GT数据；β₁表示平衡两个损失的超参数；

(2)无监督损失：对于第t个噪声帧将/>作为输入，得到网络输出/>分别使用相邻下采样器对噪声帧/>和去噪帧/>进行子采样以获得子帧/>和/>将/>输入网络，得到去噪子帧/>无监督损失计算公式如下：

L_unsup＝L_rec+β₂L_reg

式中，β₂表示平衡两个损失的超参数。

与现有技术相比，本发明提供了基于Transformer的Raw视频去噪方法，具备以下有益效果：

(1)本发明基于Transformer提出了一种raw视频去噪方法，通过所提出的多分支空间自注意力模块和多分支时域互注意力模块，分别用于挖掘时间相关信息和空间相关信息；拓展了移位窗口算法，并提高了性能；并基于两个模块搭建了时空重建和空间优化两个去噪阶段；并且引入重参化，加快了推理速度。

(2)基于本发明所进行的实验表明，所提出的方法优于目前主流有监督或无监督的Raw和sRGB的视频去噪方法，经过本发明的研究探索，希望能够启发更多基于Raw域的视频去噪方法的研究。

附图说明

图1为本发明所提出的基于Transformer的Raw视频去噪方法的流程图。

图2为本发明所提出的基于Transformer的Raw视频去噪方法中的多分支空间自注意力层示意图。

图3为本发明所提出的基于Transformer的Raw视频去噪方法中的多分支时域互注意力层示意图。

图4为本发明所提出的基于Transformer的Raw视频去噪方法中的重参数化机制示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1：

请参阅图1-4，本发明提出基于Transformer的Raw视频去噪方法，包括以下步骤：

S1、基于Transformer设计Raw视频去噪算法：设计一个包括时空重建模块和空间优化模块的Raw视频去噪网络。

时空重建模块由多分支空间自注意力模块(MSSB)和多分支时域互注意力模块(MTSB)交叉级联而成；空间优化模块由多个多分支空间自注意力模块级联而成。

除此之外，时空重建模块采用与U-net相同的编码器-解码器结构，在经过一对多分支空间自注意力模块和多分支时域互注意力模块后对特征图进行下采样，后续经过上采样恢复，并将恢复后的特征图与编码阶段相同尺寸的特征图拼接。

上述多分支空间自注意力模块和多分支时域互注意力模块的细节如下：

(一)多分支空间自注意力模块(MSSB)：由多个多分支空间自注意力层和一个重参数化后的卷积层级联而成，以更好的利用空间相关性信息。其中，多分支空间自注意力层为3分支结构，包括移位窗口自注意力、全局窗口自注意力(或邻域窗口自注意力)和低分辨率窗口自注意力。考虑到将全局窗口自注意力应用于原始分辨率的多分支空间自注意力层会损失较多的信息，故将邻域窗口自注意力应用于原始分辨率的多分支空间自注意力层，将全局窗口自注意力应用于低分辨率的多分支空间自注意力层。低分辨率窗口自注意力、全局窗口自注意力和邻域窗口自注意力也应用了移位窗口操作以实现更好的信息交互。三个分支的输出通过1×1卷积层融合，通过调整参数D，D^l和Dⁿ(D^g)来改变各个分支的贡献。

(1.1)移位窗口自注意力：计算窗口内信息的相关性。考虑到一个噪声帧特征F∈R^H×W×C，将其分成个窗口，其中，H×W表示视频帧的空间大小；窗口大小为h×w；C表示通道数目。对于第i个窗口F_i∈R^N×C(其中N＝hw，表示将二维窗口拉成一维大小)，通过如下映射将其映射为查询Q_i，键K_i，值V_i(定义为线性映射)：

Q_i＝F_iP^Q，K_i＝F_iP^K，V_i＝F_iP^V

其中，P^Q，P^K，P^V∈R^C×D为映射矩阵，D为被映射特征的通道数。使用Q_i来查询K_i以生成注意力系数并且A_i用于V_i的加权求和，即SWSA(Q_i,K_i,V_i)＝A_iV_i。SoftMax表示行softmax操作。通过这种方式，生成增强特征/>其噪声通过窗口内相似特征的加权平均值来降低。

(1.2)全局窗口自注意力：计算窗口内信息和全局信息的相关性。考虑到一个噪声帧特征F∈R^H×W×C,将其分成个窗口，其中，H×W表示视频帧的空间大小；窗口大小为h×w；C表示通道数目。将整个特征帧下采样为窗口大小来构建一个全局窗口F^g∈R^N×C。对于第i个窗口F_i∈R^N×C，查询/>是通过F_i的线性映射(如1.1中所定义)获得，键K^g和值V^g通过F^g的线性映射获得的；即：

其中，为映射矩阵，D^g为被映射特征的通道数。使用Q_i来查询K_i以生成注意力系数/>对值V^g进行融合，得到如此，通过融合全局下采样特征来预测每个局部窗口的特征。

(1.3)邻域窗口自注意力：计算窗口内信息和邻域信息的相关性。考虑到一个噪声帧特征F∈R^H×W×C,将其分成个窗口，其中，窗口大小为h×w。对于第i个窗口F_i∈R^N×C，下采样F_i及其邻域使得相邻区域大小与F_i相同，生成相邻域窗口/>对于第i个窗口F_i∈R^N×C，查询/>通过F_i的线性映射获得，键/>和值/>通过F^g的线性映射获得。即:

其中，为映射矩阵，Dⁿ为被映射特征的通道数。使用/>来查询/>以生成注意力系数/>随后/>被用来对/>进行加权求和。通过融合邻域下采样特征来预测每个局部窗口的特征。

(1.4)低分辨率窗口自注意力：计算窗口内信息和低分辨率窗口信息的相关性。考虑到一个噪声帧特征F∈R^H×W×C,将其分成个窗口，其中，H×W表示视频帧的空间大小；窗口大小为h×w；C表示通道数目。对于第i个窗口F_i∈R^N×C，对其进行2倍下采样形成低分辨率窗口/> 减少了F_i中的噪声且保留了结构信息。对于第i个窗口F_i∈R^N×C，查询/>是通过F_i的线性映获得，而键/>和值/>是通过/>的线性投影获得的。即：

其中，为映射矩阵，D^l为被映射特征的通道数。计算生成注意力系数/>随后使用/>对V_i ^l进行融合得到/>

(二)多分支时域互注意力模块(MTSB)：由多个时域自注意力层和一个重参数化后的卷积层级联而成，以更好的利用不同序列间的相关性信息。其中，时域自注意力层包括时域互注意力和全局窗口互注意力(或邻域窗口互注意力)，以及一个多分支空间自注意力来进一步利用空间信息。考虑到将全局窗口互注意力应用于原始分辨率的多分支时域互注意力层会损失较多的信息，故将邻域窗口互注意力应用于原始分辨率的多分支时域互注意力层，将全局窗口互注意力应用于低分辨率的多分支时域互注意力层。

二分支的时域互注意力和全局窗口互注意力(或邻域窗口互注意力)的输出通过1×1卷积层融合后与多分支空间自注意力的输出拼接，接着通过重参数化后的MLP。最终通过具有残差结构的层归一化和重参数化的MLP。

考虑到一个参考噪声帧特征F^R∈R^H×w×C和与其相邻的噪声特征帧FS∈R^H×W×C。对于F^R，将其分成个窗口，其中，H×W表示视频帧的空间大小；窗口大小为h×w；C表示通道数目，第i个窗口为/>对于F^S，通过三种方式进行窗口划分。第一种方式同F^R的划分相同，所以/>第二种方式为全局窗口划分，直接下采样整个特征图至窗口大小，构建全局窗口/>第三种方式为邻域窗口划分，将以第i个窗口为中心的大邻近区域下采样为/>根据对于相邻噪声帧的不同的窗口划分方式，构建三种不同的时域互注意机制，即普通时域互注意力,全局窗口互注意力和邻域窗口互注意力。对于三种不同的互注意力机制，其查询，键，值通过以下计算得到：

其中，为映射矩阵。所有的特征图在进行映射前需改变至维度N×C。然后进行注意力系数的计算：

其中，A_i，分别表示普通时域互注意力，全局窗口互注意力和邻域窗口互注意力所计算得来的注意力系数。最后使用注意力系数对相应的值进行加权融合。

(三)重参数化：训练网络时使用较多的网络层数以增加网络性能，在推理时，应用重参数化策略融合不同网络层，减少网络参数，提升网络效率。应用重参数化策略包括对训练阶段所使用的两层并行线性层进行重参数化，得到推理阶段使用的单一线性层；以及对训练阶段所使用的线性层(可是视作1×1卷积层)和3×3卷积层级联网络重参数化得到单个3×3卷积层。

(3.1)重参数化MLP：在训练阶段，对于输入的含有C_in个通道数的特征图通过两个并行的线性层，分别包含权重/>和偏置单元b_L1,b_L2∈R^D,得到相关的含有C_out个通道数的特征图O_L1和/>O_L1和O_L2相加后通过GELU层，然后经过dropout层和线性层的得到最后的结果。

在推理阶段，基于线性层的线性性质，可将两个并行的线性层融合为带有权重W_Lf和偏置b_Lf的单线性层：

W_Lf＝W_L1+W_L2

b_Lf＝b_L1+b_L2

(3.2)重参数化卷积层：融合前两个卷积层的权重可表示为偏置可表示为b_c1,b_c2∈R^D。融合后的权重和偏置表示为/>b_Cf∈R^D。通过以下计算得到：

b_Cf＝sum(W_C2b_C1)+b_C2

实施例2：

基于实施例1但有所不同之处在于：

本发明选取了有监督和无监督两种训练策略，并基于不同的训练策略与不同的先进方法进行对比(请参阅表1、表2)。

表1

表2

如表1-2所示，对于有监督训练，对比方法包括VBM4D，EMVD，BSVD，FastDVDnet，RVRT，VRT，RViDeNet以及FloRNN。根据模型不同的GMACs将不同的模型分为2组，反应不同计算复杂度下的去噪性能。本方法在最低GMACs情况下实现了最好的客观评价指标。

对于无监督训练，对比方法包括F2F，MF2F，UDVD。本方法在最低GMACs情况下实现了最好的客观评价指标。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于Transformer的Raw视频去噪方法，其特征在于，具体包括以下步骤：

所述时空重建模块由多分支空间自注意力模块和多分支时域互注意力模块交叉级联而成；所述空间优化模块由多个多分支空间自注意力模块级联而成；

2.根据权利要求1所述的基于Transformer的Raw视频去噪方法，其特征在于，S1中所述时空重建模块采用与U-net相同的编码器-解码器结构，在经过一对多分支空间自注意力模块和多分支时域互注意力模块后对特征图进行下采样，后续经过上采样恢复，并将恢复后的特征图与编码阶段相同尺寸的特征图拼接。

3.根据权利要求1所述的基于Transformer的Raw视频去噪方法，其特征在于，S1中所述Raw视频去噪算法具体包括以下内容：

①多分支空间自注意力模块：所述多分支空间自注意力模块由若干个多分支空间自注意力层和一个重参数化后的卷积层级联而成，其中，所述多分支空间自注意力层为3分支结构，包括：

1)移位窗口自注意力；

2)全局窗口自注意力或邻域窗口自注意力；

3)低分辨率窗口自注意力；

其中，所述全局窗口自注意力应用于低分辨率的多分支空间自注意力层，所述邻域窗口自注意力应用于原始分辨率的多分支空间自注意力层；

②多分支时域自注意力模块：所述多分支时域自注意力模块由若干个时域自注意力层和一个重参数化后的卷积层级联而成，其中，所述时域自注意力层包括：

1)时域互注意力；

2)全局窗口互注意力或邻域窗口互注意力；

3)多分支空间自注意力；

其中，所述全局窗口自注意力应用于低分辨率的多分支时域自注意力层，所述邻域窗口自注意力应用于原始分辨率的多分支时域自注意力层；

所述时域互注意力与全局窗口互注意力或邻域窗口互注意力为2分支结构，其输出通过1×1卷积层融合后与多分支空间自注意力的输出拼接，然后通过重参数化后的MLP，最后通过具有残差结构的层归一化和重参数化的MLP；

4.根据权利要求3所述的基于Transformer的Raw视频去噪方法，其特征在于，所述多分支空间自注意力层为3分支结构具体包括以下内容：

(1)移位窗口自注意力：用于计算窗口信息的相关性；通过对窗口像素间计算注意力，利用窗口像素的相关性信息，对噪声进行减弱；

(2)全局窗口自注意力或邻域窗口自注意力：

所述全局窗口自注意力用于计算窗口信息和全局信息的相关性；通过对窗口像素和全局像素计算注意力，利用窗口像素和全局像素的相关性信息，对噪声进行减弱；通过下采样整个噪声特征帧至窗口大小来形成全局窗口；

所述邻域窗口自注意力用于计算窗口信息和邻域信息的相关性；通过对窗口像素和邻域像素计算注意力，利用窗口像素和邻域像素的相关性信息，对噪声进行减弱；通过下采样窗口及其邻域至窗口大小来形成邻域窗口；

(3)低分辨率窗口自注意力：用于计算窗口信息和低分辨率窗口信息的相关性；通过对窗口像素和低分辨率窗口像素计算注意力，利用窗口像素和低分辨率窗口像素的相关性信息，对噪声进行减弱；通过对窗口进行下采样得到低分辨率窗口。

5.根据权利要求3所述的基于Transformer的Raw视频去噪方法，其特征在于，所述时域互注意力与全局窗口互注意力或邻域窗口互注意力组成的2分支结构具体包括以下内容：

(1)普通时域互注意力：用于计算相邻帧间窗口信息的相关性；通过对相邻帧同一窗口像素间计算注意力，利用窗口像素的时域相关性信息，对噪声进行减弱；

(2)全局窗口互注意力或邻域窗口互注意力：

所述全局窗口互注意力用于计算当前帧窗口信息和相邻帧全局信息的相关性；通过对当前帧窗口像素和相邻帧全局像素计算注意力，利用当前帧窗口像素和相邻帧全局像素的时域相关性信息，对噪声进行减弱；通过对整个相邻噪声特征帧下采样至窗口大小来形成全局窗口；

所述邻域窗口互注意力用于计算当前帧窗口信息和相邻帧邻域信息的相关性；通过对当前帧窗口像素和相邻帧邻域像素计算注意力，利用当前帧窗口像素和相邻帧邻域像素的相关性信息，对噪声进行减弱；通过对相邻噪声特征帧窗口及其邻域下采样至窗口大小来形成邻域窗口。

6.根据权利要求3所述的基于Transformer的Raw视频去噪方法，其特征在于，所述重参数化模块具体包括以下内容：

(2)重参数化卷积层：在推理阶段，融合存在于每个多分支空间自注意力模块或多分支时域互注意力模块末端的用于对局部空间进行建模的的3×3卷积层和与其相级联的线性层，得到一个重参数化的3×3卷积层。

7.根据权利要求1所述的基于Transformer的Raw视频去噪方法，其特征在于，S2中所述深度学习框架Pytorch平台在训练模型时所使用的损失函数包括有监督损失和无监督损失，具体包括以下内容：

L_sup＝L_raw+β₁L_sRGB

(2)无监督损失：对于第t个噪声帧将/>作为输入，得到网络输出/>分别使用相邻下采样器对噪声帧/>和去噪帧/>进行子采样以获得子帧/>和/>将输入网络，得到去噪子帧/>无监督损失计算公式如下：

L_unsup＝L_rec+β₂L_reg

式中，β₂表示平衡两个损失的超参数。