CN113034401B

CN113034401B - 视频去噪方法及装置、存储介质及电子设备

Info

Publication number: CN113034401B
Application number: CN202110378423.7A
Authority: CN
Inventors: 金�一; 陈怀安; 陈林; 陈宇璇; 谭晓; 陈恩红; 竺长安
Original assignee: University of Science and Technology of China USTC
Current assignee: Jin Yi; Zhu Changan; University of Science and Technology of China USTC
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2022-09-06
Anticipated expiration: 2041-04-08
Also published as: CN113034401A

Abstract

本发明提供了一种视频去噪方法及装置、存储介质及电子设备，该方法包括：获取连续的多个视频帧，该多个视频帧包括待去噪视频帧；将该多个视频帧输入至视频去噪模型，以通过视频去噪模型获得待去噪视频帧的残差噪声图，通过视频去噪模型基于待去噪视频帧的残差噪声图对待去噪视频帧进行去噪，获得待去噪视频帧的恢复帧；其中，待去噪视频帧的残差噪声图由待去噪视频帧的空间特征以及时空特征融合得到，空间特征强调帧内信息，时空特征强调帧间信息。在此基础上，根据残差噪声图对待去噪视频帧进行去噪，能够考虑视频的时间冗余，提高视频去噪的质量。

Description

视频去噪方法及装置、存储介质及电子设备

技术领域

本发明涉及数据处理技术领域，特别涉及一种视频去噪方法及装置、存储介质及电子设备。

背景技术

在日常生活中，由于拍摄条件的限制以及发送设备、传输设备、接收设备的影响，视频经常受到噪声干扰，使视频质量下降，从而影响视频的视觉效果，妨碍视频的进一步处理。因此，需要对视频去噪以提升视频的质量。

相关技术中，通常是利用视频的自相似性等先验知识对视频进行去噪，最为典型的方法如VBM3D，VBM4D，BM4D等，它们将图像去噪方法BM3D拓展到视频去噪，首先寻找视频序列中具有自相似性的图像块，然后对所有图像块进行协同滤波，最后聚合所有去噪后的图像块获得去噪后的视频恢复帧。

然而，相关技术主要依赖于先验知识，受限于认知的局限性，无法完全考虑到各种噪声情况，因此，采用现有的相关技术进行去噪所得到的视频质量依然不够高。

发明内容

本发明所要解决的技术问题是提供一种视频去噪方法，能够提升视频去噪的质量。

本发明还提供了一种视频去噪装置，用以保证上述方法在实际中的实现及应用。

一种视频去噪方法，包括：

获取视频帧序列，所述视频帧序列包括连续的多个视频帧，所述多个视频帧包括待去噪视频帧；

通过预先构建的视频去噪模型中的帧内去噪模块对所述待去噪视频帧进行空间卷积，获得所述待去噪视频帧的第一空间特征；

通过所述视频去噪模型中的帧间去噪模块对所述多个视频帧进行时空卷积，获得所述待去噪视频帧的时空特征；所述时空特征包含所述待去噪视频帧的第二空间特征，以及所述待去噪视频帧在所述视频帧序列中的时间特征；

通过所述视频去噪模型中的特征融合模块将所述第一空间特征以及所述时空特征进行融合，获得所述待去噪视频帧的噪声残差图，并通过所述噪声残差图对所述待去噪视频帧进行去噪，获得所述待去噪视频帧的恢复帧。

上述的方法，可选的，构建所述视频去噪模型的过程，包括：

获取训练数据集，所述训练数据集包含多个训练数据，每个所述训练数据包括原始视频序列以及所述原始视频序列的噪声视频序列，所述噪声视频序列包括噪声视频帧；所述原始视频序列包括所述噪声视频帧相对应的干净视频帧；

将每个所述训练数据中的噪声视频序列输入至初始视频去噪模型，获得该噪声视频序列的噪声视频帧的测试恢复帧，并依据所述初始视频去噪模型的损失函数、所述测试恢复帧以及该噪声视频帧对应的干净视频帧，训练所述初始视频去噪模型；

在所述初始视频去噪模型的满足预设的训练完成条件的情况下，将已满足所述训练完成条件的所述初始视频去噪模型作为视频去噪模型。

上述的方法，可选的，所述依据所述初始视频去噪模型的损失函数、所述测试恢复帧以及该噪声视频帧对应的干净视频帧，训练所述初始视频去噪模型，包括：

将所述噪声视频帧的测试恢复帧以及所述噪声视频帧对应的干净视频帧代入所述损失函数，获得所述初始去噪模型的损失值；所述损失值包括时间损失以及空间损失；

利用所述损失值训练所述初始视频去噪模型。

上述的方法，可选的，所述获取训练数据集，包括：

获取多个原始视频序列；

对每个所述原始视频序列中的每一干净视频帧添加噪声，获得所述原始视频序列的噪声视频序列；

将每个所述原始视频序列以及每个所述原始视频序列的噪声视频序列组成一个训练数据，并由各个所述训练数据构成所述训练数据集。

一种视频去噪装置，包括：

获取单元，用于获取视频帧序列，所述视频帧序列包括连续的多个视频帧，所述多个视频帧包括待去噪视频帧；

第一特征处理单元，用于通过预先构建的视频去噪模型中的帧内去噪模块对所述待去噪视频帧进行空间卷积，获得所述待去噪视频帧的空间特征；

第二特征处理单元，用于通过所述视频去噪模型中的帧间去噪模块对所述多个视频帧进行时空卷积，获得所述待去噪视频帧的时空特征；所述时空特征包含所述待去噪视频帧的第二空间特征，以及所述待去噪视频帧在所述视频帧序列中的时间特征；

去噪单元，用于通过所述视频去噪模型中的特征融合模块将所述第一空间特征以及所述时空特征进行融合，获得所述待去噪视频帧的噪声残差图，并通过所述噪声残差图对所述待去噪视频帧进行去噪，获得所述待去噪视频帧的恢复帧。

上述的装置，可选的，还包括训练单元，所述训练单元，包括：

获取子单元，用于获取训练数据集，所述训练数据集包含多个训练数据，每个所述训练数据包括原始视频序列以及所述原始视频序列的噪声视频序列，所述噪声视频序列包括噪声视频帧；所述原始视频序列包括所述噪声视频帧相对应的干净视频帧；

训练子单元，用于将每个所述训练数据中的噪声视频序列输入至初始视频去噪模型，获得该噪声视频序列的噪声视频帧的测试恢复帧，并依据所述初始视频去噪模型的损失函数、所述测试恢复帧以及该噪声视频帧对应的干净视频帧，训练所述初始视频去噪模型；

执行子单元，用于在所述初始视频去噪模型的满足预设的训练完成条件的情况下，将已满足所述训练完成条件的所述初始视频去噪模型作为视频去噪模型。

上述的装置，可选的，所述训练子单元，包括：

第一执行子模块，用于将所述噪声视频帧的测试恢复帧以及所述噪声视频帧对应的干净视频帧代入所述损失函数，获得所述初始去噪模型的损失值；所述损失值包括时间损失以及空间损失；

训练子模块，用于利用所述损失值训练所述初始视频去噪模型。

上述的装置，可选的，所述获取子单元，包括：

获取子模块，用于获取多个原始视频序列；

噪声处理子模块，用于对每个所述原始视频序列中的每一干净视频帧添加噪声，获得所述原始视频序列的噪声视频序列；

第二执行子模块，用于将每个所述原始视频序列以及每个所述原始视频序列对应的噪声视频序列组成一个训练数据，并由各个所述训练数据构成所述训练数据集。

一种存储介质，所述存储介质包括存储指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的视频去噪方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上述的视频去噪方法。

与现有技术相比，本发明包括以下优点：

本发明提供了一种视频去噪方法及装置、存储介质及电子设备，能够获取连续的多个视频帧，该多个视频帧包括待去噪视频帧，然后，将已获取的多个视频帧输入至预先构建的视频去噪模型，以通过视频去噪模型获得待去噪视频帧的残差噪声图，并通过视频去噪模型基于所述待去噪视频帧的残差噪声图对所述待去噪视频帧进行去噪，获得待去噪视频帧的恢复帧；其中，该待去噪视频帧的残差噪声图是由待去噪视频帧的第一空间特征以及时空特征融合得到的，该时空特征包含待去噪视频帧的第二空间特征以及时间特征，利用由第一空间特征与时空特征融合得到的噪声残差图对待去噪视频帧进行去噪，能够充分考虑到视频帧之间的时间冗余信息，同时，能够通过第一空间特征对时空特征中的空间信息做补充，从而减少时间特征对空间特征的干扰，有效的提升去噪所得的恢复帧的质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种视频去噪模型的结构示例图；

图2为本发明提供的一种视频去噪方法的方法流程图；

图3为本发明提供的一种构建视频去噪模型的过程的流程图；

图4为本发明提供的一种训练视频去噪模型的过程的流程图；

图5为本发明提供的一种获取训练数据集的过程的流程图；

图6为本发明提供的又一种构建视频去噪模型的过程的流程图；

图7为本发明提供的一种视频去噪装置的结构示意图；

图8为本发明提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

现有传统技术是通过先验知识对待去噪视频帧进行去噪，然而，受限于认知的局限性，无法完全考虑到各种噪声情况，因此，采用现有的相关技术进行去噪所得到的视频质量依然不够高。现有基于深度学习的技术采用多帧到单帧或单帧到单帧的技术，这些技术并行程度低，去噪效率慢。

为了解决现有技术中的问题，本发明实施例通过视频去噪模型对待去噪视频帧进行去噪，参见图1，为本发明实施例提供的一种视频去噪模块的结构示例图，该视频去噪模型可以包括：帧内去噪模块、帧间去噪模块以及特征融合模块，可以通过帧内去噪模块提取待去噪视频帧的第一空间特征，通过帧间去噪模块提取待去噪视频帧的第二空间特征，通过特征融合模块融合待去噪视频帧的第一空间特征以及时空特征，得到待去噪视频帧的噪声残差图，进而根据噪声残差图对待去噪视频帧进行去噪，获得待去噪视频帧的恢复帧，能够提升视频去噪的质量。

其中，帧间去噪模块可以为编码器-解码器结构，从而可以对提取的特征进行空间维度和通道维度的转换，同时，可以利用时空卷积(spatio-temporal convolution)对由输入的连续多个视频帧帧构成的三维矩形块进行三维卷积，从而从时空维度提取时空特征，具体可以分别使用大小为1×3×3,3×1×1,3×3×3的卷积核提取第二空间特征以及时间特征，并对提取到的第二空间特征以及时间特征进行聚合，获得待去噪视频帧的时空特征。

具体的，该帧间去噪模块可以设置激活函数层和归一化层，该激活函数层所采用的激活函数可以为LeaklyReLU激活函数，该归一化层可以采用Batch Normalization，该编码器-解码器结构中的下采样和上采用操作可以分别使用Pixelshuffle和Pixelunshuffle策略。

帧间去噪模块能够利用连续帧内的时间冗余，然而，如果只使用时空特征在表示每一帧时，每一帧的空间表示都可能会受到物体运动的影响，从而可能会让噪声结果受到运动伪影的影响，因此，可以通过帧内去噪模块提取待去噪视频帧的第一空间特征。

其中，该帧内去噪模块可以探索待去噪视频帧的帧内特征，帧内去噪模块设置有二维卷积核，通过二维卷积核对待去噪视频帧进行二维卷积，能够独立的提取待去噪视频帧的第一空间特征，该第一空间特征可以是对该待去噪视频帧的第二空间特征补充，有助于为该待去噪视频帧生成更准确的空间表示。

具体的，该帧内去噪模块可以设置激活函数层和归一化层，该激活函数层所采用的激活函数可以为LeaklyReLU激活函数，该归一化层可以采用Batch Normalization，该编码器-解码器结构中的下采样和上采用操作可以分别使用Pixelshuffle和Pixelunshuffle策略。

在本发明实施例中，该特征融合模块通过对帧间去噪模块提取的时空特征和帧内去噪模块提取的空间特征进行融合，获得待去噪视频帧的残差噪声图，从而根据残差噪声图恢复待去噪视频帧，空间特征强调帧内信息，时空特征强调帧间信息；具体的，该特征融合模块可以将待去噪视频帧的时空特征以及第一空间特征联系起来，然后，利用空间卷积对时空特征以及第一空间特征进行整合，生成残差噪声图(residual noisy maps)，通过残差噪声图去除待去噪视频帧中的噪声，获得待去噪视频帧的恢复帧。

应用待去噪视频帧的时空特征以及第一空间特征进行去噪，能通过时空特征来充分考虑多帧之间相似冗余信息的同时，还能够通过第一空间特征来避免仅使用时空特征而造成的运动伪影的影响，有效的提高了视频去噪的质量。

基于上述的方案，本发明实施例提供了一种视频去噪方法，该方法可以应用于电子设备，所述方法的方法流程图如图2所示，具体包括：

S201：获取视频帧序列，所述视频帧序列包括连续的多个视频帧，所述多个视频帧包括待去噪视频帧。

其中，可以在视频或视频流中获取连续的多个视频帧，由该连续的多个视频帧组成视频帧序列，获取到的视频帧的数量可以为任意数量，例如可以为2帧、3帧或7帧等。

具体的，视频帧序列中的待去噪视频帧可以为一个或多个，该待去噪视频帧可以为包含噪声的视频帧。

S202：通过预先构建的视频去噪模型中的帧内去噪模块对所述待去噪视频帧进行空间卷积，获得所述待去噪视频帧的第一空间特征。

其中，该视频去噪模型包含帧内去噪模块、帧间去噪模块以及特征融合模块，该帧内去噪模块可以包含多个二维卷积核。

S203：通过所述视频去噪模型中的帧间去噪模块对所述多个视频帧进行时空卷积，获得所述待去噪视频帧的时空特征；所述时空特征包含所述待去噪视频帧的第二空间特征，以及所述待去噪视频帧在所述视频帧序列中的时间特征。

在本发明实施例中，该帧间去噪模块可以包含至少一个二维卷积核以及至少一个三维卷积核。

可选的，对于每个待去噪视频帧，该视频帧序列中除该待去噪视频帧以外的各个视频帧可以作为该待去噪视频帧的辅助帧，可以用于辅助该待去噪视频帧提取时空特征，从而可以获得各个视频帧之间的视频冗余信息，能够高质量的去噪。

S204：通过所述视频去噪模型中的特征融合模块将所述第一空间特征以及所述时空特征进行融合，获得所述待去噪视频帧的噪声残差图，并通过所述噪声残差图对所述待去噪视频帧进行去噪，获得所述待去噪视频帧的恢复帧。

在本发明实施例中，通过将多个视频帧输入至预先构建的视频去噪模型，使得视频去噪模型可以提取出待去噪视频帧的第一空间特征以及时空特征；该时空特征包含第二空间特征以及时间特征，该第一空间特征可以作为第二空间特征的补充，能够避免在提取多个视频帧的时空特征过程中受到物体运动的影响，获得完整的空间特征。

其中，将多个视频帧输入至视频去噪模型，可以获得每个待去噪视频帧的残差噪声图，该残差噪声图包含待去噪视频帧的噪声，可以通过每个待去噪视频帧的残差噪声图对每个待去噪视频帧进行去噪，从而可以获得待去噪视频帧的恢复帧，本发明实施例中，可以实现同时对多个待去噪视频帧进行去噪，获得多个待去噪视频帧的恢复帧，能够实现对多个待去噪视频帧并行去噪处理，提高了视频去噪的效率，该恢复帧即为去除噪声后的视频帧。

应用本发明实施例提供的方法，利用由第一空间特征与时空特征融合得到的噪声残差图对待去噪视频帧进行去噪，充分考虑到视频帧之间的时间冗余信息，同时，能够通过第一空间特征对时空特征中的空间信息做补充，从而减少时间特征对空间特征的干扰，有效的提升去噪所得的恢复帧的质量。

本发明实施例提供的方法中，基于上述的实施过程，具体的，构建所述视频去噪模型的过程，如图3所示，可以包括：

S301：获取训练数据集，所述训练数据集包含多个训练数据，每个所述训练数据包括原始视频序列以及所述原始视频序列的噪声视频序列，所述噪声视频序列包括噪声视频帧；所述原始视频序列包括所述噪声视频帧相对应的干净视频帧。

其中，原始视频序列可以包含每个噪声视频帧对应的干净视频帧，该干净视频帧可以为原始的视频帧，即，未包含噪声的视频帧。

S302：将每个所述训练数据中的噪声视频序列输入至初始视频去噪模型，获得该噪声视频序列的噪声视频帧的测试恢复帧，并依据所述初始视频去噪模型的损失函数、所述测试恢复帧以及该噪声视频帧对应的干净视频帧，训练所述初始视频去噪模型。

本发明实施例提供的方法中，通过将每个训练数据中的噪声视频序列输入至初始视频去噪模型，从而可以利用每个噪声视频帧的测试恢复帧对该初始去噪模型进行迭代训练。

S303：在所述初始视频去噪模型的满足预设的训练完成条件的情况下，将已满足所述训练完成条件的所述初始视频去噪模型作为视频去噪模型。

其中，该损失函数可以包含时间损失项和空间损失项。

具体的，该训练条件可以为该初始视频去噪模型的损失函数收敛，并且该初始视频去噪模型的评估得分大于已设定的评分阈值，或者初始视频去噪模型的训练次数满足已设定的训练次数。

在一种可行的方式中，当初始视频去噪模型的损失函数收敛时，对该损失函数已收敛的初始视频去噪模型进行模型评估，在该初始视频去噪模型满足已设定的模型评估条件的情况下，将该初始去噪模型确定为视频去噪模型。

可选的，可以通过测试集评估该初始去噪模型，在该初始去噪模型的评估得分大于预先设置的评分阈值的情况下，可以将该损失函数已收敛的初始去噪模型作为视频去噪模型，否则，重新对该初始去噪模型进行训练。

应用本发明实施例提供的方法，能够应用损失函数、干净视频帧以及噪声视频帧的测试恢复帧训练初始视频去噪模型，以获得视频去噪模型，使得视频去噪模型具有对噪声视频帧进行去噪的能力。

本发明实施例提供的方法中，基于上述的实施过程，具体的，所述依据所述初始视频去噪模型的损失函数、所述测试恢复帧以及该噪声视频帧对应的干净视频帧，训练所述初始视频去噪模型的过程，如图4所示，可以包括：

S401：将所述噪声视频帧的测试恢复帧以及所述噪声视频帧对应的干净视频帧代入所述损失函数，获得所述初始去噪模型的损失值；所述损失值包括时间损失以及空间损失；

可选的，该损失函数的表达式，如下：

其中，

为损失值，

为空间损失，

为时间损失，λ为超参数，用于平衡空间损失和时间损失，该空间损失可以包括均方损失、总变分损失以及感知损失等以上至少一种。

可选的，该空间损失可以包含均分损失项，表达式如下：

其中，B可以表示输入初始视频去噪模型的每批数据batchsize的大小，

表示输出的连续帧中相对恢复视频帧之前和/或之后辅助帧的数目，n表示输入网络的连续帧中相对噪声视频帧之前和/或之后辅助帧的数目，X表示视频帧的空间维度，t表示当前是哪一时刻的视频帧，z_i(X,t)表示输入的在t时刻的噪声视频帧，r_i(X,t)表示在t时刻的噪声视频帧对应的干净视频帧，

表示在t时刻被由Θ参数确定的去噪网络D(·)对噪声视频帧z_i(X,t)进行去噪得到的测试恢复帧。

可选的，该时间损失的表达式如下：

其中，r_w可以为被光流包裹后的干净视频帧，

可以为被光流包裹后的测试恢复帧，符号⊙表示逐元素的乘积。

具体的，m为遮挡掩模，m(X,t)∈[0,1]，即，m取0或1，在遮挡区域和运动边界取0，在其余的区域取1，m可以由光流计算得到。

可以通过光流包裹公式对视频帧进行计算，得到被光流包裹后的视频帧，该光流包裹公式如下：

r′_w(X,t)＝W(r′(X,t-1),f_O(X,t))

其中，r′(X,t-1)表示给定时刻的某一帧，f_O表示获得的光流，r′_w(X,t)对应的被光流包裹后的帧，可以为被光流包裹后的干净视频帧，也可以为被光流包裹后的测试恢复帧，W(·)是一个函数，它根据计算的光流把t-1时刻的帧包裹到t时刻。

可选的，f_O(X,t)＝F(r(X,t),r(X,t-1))，r(X,t)表示当前的干净视频帧，r(X,t-1)表示当前的干净视频帧的前一帧，F(·)是一个光流估计函数。

S402：利用所述损失值训练所述初始视频去噪模型。

在本发明实施例中，可以利用损失值通过梯度下降和反向传播的方式更新该初始去噪模型的网络参数。

应用本发明实施例提供的方法，初始视频去噪模型的损失值包括时间损失和空间损失，基于该损失值调整初始视频去噪模型的网络参数，使得初始视频去噪模型能够准确的提取待去噪视频帧的空间特征以及时空特征，强化视频去噪模型的视频去噪能力。

本发明实施例提供的方法中，基于上述的实施过程，具体的，所述获取训练数据集的过程，如图5所示，可以包括：

S501：获取多个原始视频序列。

在本发明实施例中，每个原始视频序列中可以包含预设数量的干净视频帧。

S502：对每个所述原始视频序列中的每一干净视频帧添加噪声，获得所述原始视频序列的噪声视频序列。

在本发明实施例中，可以为每一个干净视频帧添加噪声，该噪声可以为标准差δ∈[0,55]的加性高斯白噪声。

S503：将每个所述原始视频序列以及每个所述原始视频序列的噪声视频序列组成一个训练数据，并由各个所述训练数据构成所述训练数据集。

应用本发明实施例提供的方法，通过为干净视频帧添加噪声来获得噪声视频帧，进而获得成对的训练数据，能够提高的训练样本的生成效率。

在本发明提供的一实施例中，该视频去噪方法可以应用于各个领域中，例如，可以应用于在线视频去噪。

对在线视频进行去噪之前，可以先构建用于在线视频去噪的视频去噪模型，具体过程参见图6，可以包括：

S601：准备数据集，收集无噪的视频帧序列或成对的无噪-有噪视频序列，针对无噪的视频帧序列，通过添加合成噪声的方式构建成对的无噪-有噪视频序列，通过剪裁，旋转等方式，扩充训练数据集。

在本发明实施例中，针对合成噪声和真实噪声两种不同的视频去噪场景可以采用两个不同的数据集，首先针对合成噪声的视频去噪场景，采用Vimeo-90K数据集，这个数据集是由互联网上收集到的5846个视频组成的，包含了各种各样的场景和运动方式，具有一定的泛化性。可以把这个原始数据集当作干净的视频序列，也就是Ground Truth。然后为了训练所提出的模型，我们将标准差的加性高斯白噪声添加到干净的视频序列中，得到成对的训练数据。

S602：构建多帧视频图像到多帧视频图像视频去噪网络，基于多帧视频图像到多帧视频图像视频去噪策略，构建多帧视频图像到多帧视频图像的并行去噪网络，网络输入给定帧数的噪声序列，并输出给定帧数的去噪序列。

在本发明实施例中，该视频去噪网络即为初始视频去噪模型，该初始视频去噪模型包括帧间去噪模块、帧内去噪模块以及特征融合模块。

在初始视频去噪模型涉及到的子模块如下：下采样和上采样分别使用Pixelshuffle和Pixelunshuffle策略，其中该策略对提取的特征进行空间维度和通道维度的转换；使用不同的(k_t,k_w,k_h)为1×1×1,1×3×3,3×1×1,3×3×3的卷积核做卷积操作，其中第一个维度为1的就是二维卷积核，不为1的就是三维卷积核；激活层统一使用LeaklyReLU激活函数；归一化层统一采用BatchNormalization(BN)；使用了两个不同复杂度的残差块R₁,R₂。

R₁流入的特征图先经过一个1×1×1卷积得到初始特征，再分别经过1×3×3卷积、BN层、LeaklyReLU激活函数、1×3×3卷积、BN层、LeaklyReLU激活函数得到残差特征，最后将初始特征与残差特征相加进行接下来的特征图数据的流动。

R₂结构同理，R₂流入的特征图先经过一个1×1×1得到初始特征，再分别经过1×3×3卷积、LeaklyReLU激活函数、3×1×1卷积、BN层、LeaklyReLU激活函数、1×3×3卷积、LeaklyReLU激活函数、3×3×3卷积、LeaklyReLU激活函数、BN层得到残差特征，最后将初始特征与残差特征相加进行接下来的特征图数据的流动。

其中，帧间去噪模块，采用的是编码器-解码器结构，编码器-解码器结构中的下采样和上采样操作这里分别使用Pixelshuffle和Pixelunshuffle策略，该策略对提取的特征进行空间维度和通道维度的转换，同时，利用时空卷积(spatio-temporal convolution)对由连续输入帧构成的三维矩形块进行三维卷积，从而从时空维度提取时空特征，分别使用大小为的卷积核提取空间特征，时间特征，并对提取到的时空信息进行聚合，此外，还采用了LeaklyReLU激活函数和BN层用于模型的训练。通过以上这些方式构建出的模块能够有效利用输入连续帧内的帧间相似性。

帧间去噪模块能够利用连续帧内的时间冗余，然而如果只使用时空特征来表示每一帧时，每一帧的空间表示都可能会受到物体运动的影响，从而可能会让去噪声结果受到运动伪影的影响，因此，可以通过帧内去噪模块来探索单帧的帧内特征。

帧内去噪模型，可以对每一帧的特征进行细化，从而提高网络的空间表示的能力，帧内去噪模块的主干部分与帧间去噪模块的主干部分十分相似，二者区别在于帧内去噪模块可以不涉及到三维卷积核，而是采用二维卷积核，通过对每一个独立输入帧进行逐个图像块patch的二维卷积，这样做能够独立地提取每个输入帧的空间特征，因此，帧内去噪模型可以关注每个输入帧的空间维度，有助于避免物体的运动给每一帧的空间表示带来的影响，单帧的空间特征可以是对时空特征的补充，有助于为每一帧生成更准确的空间表示。

特征融合模块，可以通过对帧间去噪模块提取的时空特征和帧内去噪模块提取的空间特征进行聚合来恢复连续的帧，具体可以先将时空特征和空间特征联系起来，然后再一次的利用空间卷积对提取到特征进行整合，生成残差噪声图(residual noisy maps)，最后再采用残差学习的策略来辅助估计最终去除了噪声的连续帧。

S603：训练优化多帧视频图像到多帧图像的初始视频去噪模型。

S604：应用视频去噪模型去除测试集有噪声视频中的噪声，以对该初始视频去噪模型进行评估。

其中，在该初始视频去噪模型满足已设定的评估条件后，可以将该初始视频去噪模型确定为视频去噪模型，并将该视频去噪模型用于在线视频去噪。

本方案的视频去噪模型与相关技术中的视频去噪方案相比，具有显著的技术效果，参见表1，给出了本方案的视频去噪模型与相关技术中的DnCNN、VBM4D、TOFlow、KPN、VNLNet、DVDnet和FastDVDnet方案的测试集比较结果。

表1

表1示出了在PSNR、SSIM以及ST-RRED指标下，本发明实施例中的视频去噪模型相比于相关技术方案具有明显的改进。

本发明实施例提供的视频去噪模型处理256×448和540×960大小的视频帧所采用的时间，与现有的相关技术中的比较结果，如表2所示：

表2

其中，DnCNN、TOFlow、KPN、FastDVDnet和视频去噪模型是在GPU(Titan RTX)上运行；VBM4D在CPU(Intel Xeon Gold CPU)上运行；DVDnet在GPU和CPU上一起运行，由表2可以看出，本发明提出的视频去噪模块与相关技术相比，能够比DnCNN和FastDVDnet快10倍以上，比VNLnet将近快了150倍，比DVDNet将近快了1500倍，比VBM4D将近快了4000倍，这种巨大的效率改进可以归功于底层的并行机制和MMNet隐式地处理运动的能力。

与图1所述的方法相对应，本发明实施例还提供了一种视频去噪装置，用于对图1中方法的具体实现，本发明实施例提供的视频去噪装置可以应用于电子设备中，其结构示意图如图7所示，具体包括：

获取单元701，用于获取视频帧序列，所述视频帧序列包括连续的多个视频帧，所述多个视频帧包括待去噪视频帧；

第一特征处理单元702，用于通过预先构建的视频去噪模型中的帧内去噪模块对所述待去噪视频帧进行空间卷积，获得所述待去噪视频帧的空间特征；

第二特征处理单元703，用于通过所述视频去噪模型中的帧间去噪模块对所述多个视频帧进行时空卷积，获得所述待去噪视频帧的时空特征；所述时空特征包含所述待去噪视频帧的第二空间特征，以及所述待去噪视频帧在所述视频帧序列中的时间特征；

去噪单元704，用于通过所述视频去噪模型中的特征融合模块将所述第一空间特征以及所述时空特征进行融合，获得所述待去噪视频帧的噪声残差图，并通过所述噪声残差图对所述待去噪视频帧进行去噪，获得所述待去噪视频帧的恢复帧。

在本发明提供的一实施例中，基于上述的方案，可选的，所述视频去噪装置还包括训练单元，所述训练单元，包括：

在本发明提供的一实施例中，基于上述的方案，可选的，所述训练子单元，包括：

在本发明提供的一实施例中，基于上述的方案，可选的，所述获取子单元，包括：

获取子模块，用于获取多个原始视频序列；

第二执行子模块，用于将每个所述原始视频序列以及每个所述原始视频序列的噪声视频序列组成一个训练数据，并由各个所述训练数据构成所述训练数据集。

上述本发明实施例公开的视频去噪装置中的各个单元和模块具体的原理和执行过程，与上述本发明实施例公开的视频去噪方法相同，可参见上述本发明实施例提供的视频去噪方法中相应的部分，这里不再进行赘述。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述视频去噪方法。

本发明实施例还提供了一种电子设备，其结构示意图如图8所示，具体包括存储器801，以及一个或者一个以上的指令802，其中一个或者一个以上指令802存储于存储器801中，且经配置以由一个或者一个以上处理器803执行所述一个或者一个以上指令802进行以下操作：

获取连续的多个视频帧，所述多个视频帧包括待去噪视频帧；

将所述多个视频帧输入至预先构建的视频去噪模型，以通过所述视频去噪模型获得所述待去噪视频帧的残差噪声图，通过所述视频去噪模型基于所述待去噪视频帧的残差噪声图对所述待去噪视频帧进行去噪，获得所述待去噪视频帧的恢复帧；

其中，所述待去噪视频帧的残差噪声图由所述待去噪视频帧的第一空间特征以及时空特征融合得到，所述时空特征包含所述待去噪视频帧的第二空间特征以及时间特征。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种视频去噪方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频去噪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，构建所述视频去噪模型的过程，包括：

3.根据权利要求2所述的方法，其特征在于，所述依据所述初始视频去噪模型的损失函数、所述测试恢复帧以及该噪声视频帧对应的干净视频帧，训练所述初始视频去噪模型，包括：

将所述噪声视频帧的测试恢复帧以及所述噪声视频帧对应的干净视频帧代入所述损失函数，获得所述初始视频去噪模型的损失值；所述损失值包括时间损失以及空间损失；

利用所述损失值训练所述初始视频去噪模型。

4.根据权利要求2所述的方法，其特征在于，所述获取训练数据集，包括：

获取多个原始视频序列；

5.一种视频去噪装置，其特征在于，包括：

第一特征处理单元，用于通过预先构建的视频去噪模型中的帧内去噪模块对所述待去噪视频帧进行空间卷积，获得所述待去噪视频帧的第一空间特征；

6.根据权利要求5所述的装置，其特征在于，还包括训练单元，所述训练单元，包括：

7.根据权利要求6所述的装置，其特征在于，所述训练子单元，包括：

第一执行子模块，用于将所述噪声视频帧的测试恢复帧以及所述噪声视频帧对应的干净视频帧代入所述损失函数，获得所述初始视频去噪模型的损失值；所述损失值包括时间损失以及空间损失；

8.根据权利要求6所述的装置，其特征在于，所述获取子单元，包括：

获取子模块，用于获取多个原始视频序列；

9.一种存储介质，其特征在于，所述存储介质包括存储指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1～4任意一项所述的视频去噪方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1～4任意一项所述的视频去噪方法。