CN113628134A

CN113628134A - 图像降噪方法及装置、电子设备及存储介质

Info

Publication number: CN113628134A
Application number: CN202110856729.9A
Authority: CN
Inventors: 郑嘉亮; 范娜; 欧阳豪; 罗家隆; 张祎; 陈启峰
Original assignee: Sensetime Group Ltd
Current assignee: Sensetime Group Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-11-09

Abstract

本申请实施例提供一种图像降噪方法及装置、电子设备及存储介质，其中，获取同一场景的参考帧图像和至少两帧第一图像；基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征；将所述至少两帧第一图像在同一分辨率下的空间特征进行时间融合，得到每一分辨率下的时间融合特征；将所述不同分辨率下的所述时间融合特征进行特征融合，得到降噪后的第二图像。

Description

图像降噪方法及装置、电子设备及存储介质

技术领域

本申请实施例涉及图像降噪技术领域，涉及但不限于一种图像降噪方法及装置、电子设备及存储介质。

背景技术

夜景拍摄中的极暗降噪技术，广泛应用于手机数字摄影和计算机视觉中。在暗光环境中，由于光子数目本来就少，加上手机相机本身传感器大小有限，导致进入感光模块的光子数量有限，从而使照片因巨大的噪声而质量不尽人意，存在诸如噪点、模糊不清、丢失细节以及鬼影等问题。

发明内容

本申请实施例提供一种图像降噪技术方案。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种图像降噪方法，所述方法包括：

获取同一场景的参考帧图像和至少两帧第一图像；

基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征；

将所述至少两帧第一图像在同一分辨率下的空间特征进行时间融合，得到每一分辨率下的时间融合特征；

将所述不同分辨率下的所述时间融合特征进行特征融合，得到降噪后的第二图像。如此，采用该自注意力特征和第一图像的图像特征，确定第一图像在不同分辨率下的空间特征，提高了得到的空间特征的感受野；而且通过将同一分辨率下的空间特征，在时间上进行融合，得到每一分辨率下的时间融合特征，提高了第一图像与参考帧图像之间的对齐度，进而通过对不同分辨率的时间融合特征进行跨尺度特征融合，通过结合多尺度的特征，能够提高降噪效果。

在一些实施例中，所述基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征之前，所述方法还包括：对所述参考帧图像中的像素点进行噪声估计，得到所述参考帧图像的第一噪声估计图；采用自注意力机制，基于所述第一噪声估计图，确定所述参考帧图像的自注意力特征。如此，通过采用该参考帧图像和该参考帧图像的第一噪声估计图作为自注意力模块的输入，能够有效提高提取的自注意力特征的准确度。

在一些实施例中，所述获取同一场景的参考帧图像和至少两帧第一图像，包括：获取所述同一场景的至少两帧未配准图像；从所述至少两帧未配准图像中，将图像参数满足预设条件的第一未配准图像，确定为所述参考帧图像；基于所述参考帧图像，对第二未配准图像进行预配准，得到所述至少两帧第一图像；其中，所述第二未配准图像为所述至少两帧未配准图像中除所述参考帧图像之外的剩余未配准图像。如此，在实际采集的图像中选择合适的参考帧图像，对参考帧图像之外的图像进行预配准，从而使得到的第一图像是与参考帧图像对齐的。

在一些实施例中，所述不同分辨率包括J个分辨率，J为大于1的整数；所述获取同一场景的参考帧图像和至少两帧第一图像之后，以及所述基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征之前，所述方法还包括：对每一所述第一图像中的像素点进行噪声估计，得到每一所述第一图像的第二噪声估计图；在所述J个分辨率下，基于每一所述第一图像的第二噪声估计图，对每一所述第一图像进行特征提取，得到每一所述第一图像的图像特征集合。如此，通过采用图像降噪网络中的另一特征提取分支对第一图像进行特征提取，得到多个分辨率下的图像特征，能够提高特征提取的效率。

在一些实施例中，所述基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征，包括：基于每一所述第一图像的图像特征集合中的第J图像特征和所述参考帧图像在第J分辨率下的图像特征，确定表征每一所述第一图像与所述参考帧图像的相关性的相关嵌入矩阵；其中，所述第J图像特征为每一所述图像在所述第J分辨率下的图像特征；所述第J分辨率为所述J个分辨率中最小的分辨率；基于所述第J分辨率下的相关嵌入矩阵，确定每一所述第一图像的硬性注意力图和所述不同分辨率下的软性注意力图；基于所述自注意力特征、每一所述第一图像的硬性注意力图和所述不同分辨率下的软性注意力图，确定每一所述第一图像在所述不同分辨率下的空间特征。如此，实现了在空间上融合不同空间下的特征，从而使得到的空间特征的信息更加丰富。

在一些实施例中，所述基于每一所述第一图像的图像特征集合中的第J图像特征和所述参考帧图像在第J分辨率下的图像特征，确定表征每一所述第一图像与所述参考帧图像的相关性的相关嵌入矩阵，包括：基于所述参考帧图像在所述第J分辨率下的图像特征，确定所述第J分辨率下的查询值；确定每一所述第一图像的所述第J图像特征，在所述第J分辨率下的键值；基于所述第J分辨率下的查询值和每一所述第一图像的所述第J分辨率下的键值，确定所述第J分辨率下的所述相关嵌入矩阵。如此，如此，通过将不同像素块下的查询值和键值进行点乘，可以得到融合了像素块的空间信息的空间特征。

在一些实施例中，所述基于所述第J分辨率下的相关嵌入矩阵，确定硬性注意力图和所述不同分辨率下的软性注意力图，包括：基于所述第J分辨率下的相关嵌入矩阵中每一行的最大值，确定每一所述第一图像在所述第J分辨率下的软性注意力图；基于所述第J分辨率下的软性注意力图，确定每一所述第一图像在所述不同分辨率下的软性注意力图；基于所述最大值对应的索引，确定每一所述第一图像在所述第J分辨率下的硬性注意力图。如此，以二维矩阵形式，融合不同空间的特征得到软性注意力图和硬性注意力图，便于将多个空间特征融合到每一第一图像在不同分辨率下的空间特征中。

在一些实施例中，所述基于所述自注意力特征、同一分辨率下的所述软性注意力图和所述硬性注意力图，确定每一所述第一图像在所述同一分辨率下的空间特征，包括：在所述同一分辨率为第j分辨率的情况下，基于每一所述第一图像的在第(j-1)分辨率下的第(j-1)空间特征、所述硬性注意力图和在所述第j分辨率下的所述软性注意力图，确定每一所述第一图像在所述第j分辨率下的空间特征；其中，j＝2，…，J；在j为2的情况下，所述第(j-1)空间特征为基于所述自注意力特征、每一所述第一图像的所述硬性注意力图和所述软性注意力图确定的。如此，通过结合参考帧图像的自注意力特征，基于前一分辨率的空间特征，可以确定出后一分辨率的空间特征，从而能够提高第一图像在任一分辨率下的空间特征的细节信息。

在一些实施例中，所述在所述同一分辨率为第j分辨率的情况下，基于每一所述第一图像在第(j-1)分辨率下的第(j-1)空间特征、所述硬性注意力图和在所述第j分辨率下的所述软性注意力图，确定每一所述第一图像在所述第j分辨率下的空间特征，包括：基于每一所述第一图像在所述第j分辨率下的图像特征和所述硬性注意力图，确定所述第j分辨率下的对齐噪声特征；采用第一卷积操作，对所述第(j-1)空间特征和所述第j分辨率下的对齐噪声特征进行处理，得到第一卷积结果；基于每一所述第一图像在所述第j分辨率下的所述软性注意力图和所述第一卷积结果，确定每一所述第一图像在所述第(j-1)分辨率下和所述第j分辨率下的空间特征差值；将所述第(j-1)空间特征与所述空间特征差值进行融合，得到每一所述第一图像在所述第j分辨率下的空间特征。如此，能够更加准确地得到第一图像在任一分辨率下的空间特征，使得该空间特征具有更加丰富的细节信息。

在一些实施例中，所述将所述至少两帧第一图像在同一分辨率下的空间特征进行时间融合，得到每一分辨率下的时间融合特征，包括：采用第二卷积操作，对所述至少两帧第一图像在所述同一分辨率下的空间特征进行处理，得到第一卷积特征集合；基于所述第一卷积特征集合，确定所述同一分辨率下的时间方向注意力图；采用第三卷积操作，对所述同一分辨率下的空间特征进行处理，得到第二卷积特征集合；将所述同一分辨率下的所述时间方向注意力图与所述第二卷积特征集合进行融合，得到所述每一分辨率下的时间融合特征。如此，将不同采集时间采集到的多帧第一图像的空间特征融合在一起，能够得到在时间维度上对第一图像降噪后的时间融合特征。

在一些实施例中，所述基于所述第一卷积特征集合，确定所述同一分辨率下的时间方向注意力图，包括：将所述第一卷积特征集合中的第一卷积特征进行堆叠，得到第一张量特征；在所述第一张量特征的预设维度上，对所述第一张量进行归一化，得到所述第一张量特征在所述同一分辨率下的时间方向注意力图；所述将所述同一分辨率下的所述时间方向注意力图与所述第二卷积特征集合进行融合，得到所述每一分辨率下的时间融合特征，包括：将所述第二卷积特征集合中的第二卷积特征进行堆叠，得到第二张量特征；将所述同一分辨率下的所述时间方向注意力图与所述第二张量特征，在所述预设维度上进行融合，得到所述同一分辨率下的时间融合特征。如此，通过对不同分辨率下的空间特征进行卷积操作，能够在时间维度上实现对多帧第一图像的降噪。

在一些实施例中，所述将所述不同分辨率下的时间融合特征进行特征融合，得到降噪后的第二图像，包括：基于所述J个分辨率中的第j分辨率与第一分辨率之间的倍数关系，对所述第j分辨率下的时间融合特征进行调整，得到所述第j分辨率下的已调整融合特征；将所述第j分辨率下的已调整融合特征和所述第一分辨率下的时间融合特征进行堆叠，得到堆叠时间融合特征；采用第四卷积操作，对所述堆叠时间融合特征进行处理，得到所述第二图像。如此，能够使得第二图像中不会有鬼影的出现，提高了降噪图像的质量。

在一些实施例中，所述将不同分辨率下的时间融合特征进行交换，得到降噪后的第二图像之后，所述方法还包括：对所述第二图像进行图像信号处理，得到并输出所述第二图像对应的彩色图像。如此，基于高质量的第二图像进行图像信号处理，使得到的sRGB图像的质量较高。

在一些实施例中，所述图像降噪方法是通过所述图像降噪网络实现的，所述图像降噪网络包括：自注意力模块、独立特征提取模块、多尺度空间注意力模块、时间融合模块、跨尺度特征融合模块；所述方法还包括：采用所述自注意力模块对参考帧图像进行特征提取，得到所述参考帧图像的自注意力特征；采用所述独立特征提取模块分别对所述参考帧图像和所述至少两帧第一图像进行特征提取，得到所述参考帧图像的图像特征和每一所述第一图像的图像特征集合；采用所述多尺度空间注意力模块基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征；采用所述时间融合模块将所述至少两帧第一图像在同一分辨率下的空间特征进行时间融合，得到每一分辨率下的时间融合特征；所述跨尺度特征融合模块，用于将所述不同分辨率下的所述时间融合特征进行特征融合，得到降噪后的第二图像。如此，采用图像降噪网络对第一图像进行降噪能够得到降噪效果较佳的第二图像。

在一些实施例中，所述图像降噪网络的训练过程，包括：获取包括参考帧训练图像、噪声帧训练图像和真值图像的训练数据；采用所述训练数据，对待训练图像降噪网络进行训练，得到所述图像降噪网络。如此，采用获取的训练数据对待训练的图像降噪网络进行训练，能够得到降噪的效果较好且鲁棒性强的图像降噪网络。

在一些实施例中，所述获取包括参考帧训练图像、噪声帧训练图像和真值图像的训练数据，包括：在预设场景下，获取固定采集设备采集的第一组图像和非固定采集设备采集的第二组图像；将所述第一组图像中与所述第二组图像相匹配的图像，作为所述参考帧训练图像；对所述第一组图像中除所述参考帧训练图像之外的图像进行平均处理，得到所述真值图像；将所述第二组图像作为所述噪声帧训练图像。如此，以在暗光环境中捕获具有真实世界的噪声，运动和运动模糊的静态场景的两组图像，从该两组图像中获得对应的真值图像，使得训练数据集更加丰富，从而能够提高已训练的图像降噪网络的降噪性能。

本申请实施例提供一种图像降噪装置，所述装置包括：

第一获取模块，用于获取同一场景的参考帧图像和至少两帧第一图像；

第一确定模块，用于基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征；

第一融合模块，用于将所述至少两帧第一图像在同一分辨率下的空间特征进行时间融合，得到每一分辨率下的时间融合特征；

第二融合模块，用于将所述不同分辨率下的所述时间融合特征进行特征融合，得到降噪后的第二图像。

对应地，本申请实施例提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现上述图像降噪方法。

本申请实施例提供一种电子设备，所述电子设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时能够实现上述图像降噪方法。

附图说明

图1为本申请实施例提供的图像降噪方法的实现流程示意图；

图2为本申请实施例提供的图像降噪方法的另一实现流程示意图；

图3为本申请实施例提供的自注意力模块的网络架构示意图；

图4为本申请实施例提供的数据采集装置的组成结构示意图；

图5为本申请实施例提供多帧真实原始数据收集处理方法流程图；

图6为本申请实施例提供的多尺度空间注意力模块的组成结构示意图；

图7为本申请实施例提供的时间融合模块的组成结构示意图；

图8为本申请实施例提供的多帧噪声图像处理的流程示意图；

图9为本申请实施例图像降噪装置的结构组成示意图；

图10为本申请实施例电子设备的组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的实例，不代表针对实例的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks，FNN)；卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。

2)图像信号处理(Image Signal Processin，ISP)，主要包括黑电平、白平衡、线性亮度矫正、去马赛克、颜色校正和伽马校正等。

3)注意力机制，是人类认知功能的重要组成部分，当面对海量的信息时，人类可以在关注一些信息的同时，忽略另一些信息。当使用神经网络来处理大量的输入信息时，也可以借鉴人脑的注意力机制，只选择一些关键的信息输入进行处理，来提高神经网络的效率。在神经网络模型中，可以将最大汇聚(max pooling)、门控(gating)机制来近似地看作是自下而上的基于显著性的注意力机制。

下面说明本申请实施例提供的图像降噪的设备的示例性应用，本申请实施例提供的设备可以实施为笔记本电脑，平板电脑，台式计算机，相机，移动设备(例如，个人数字助理，专用消息设备，手机)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为终端或服务器时示例性应用。

该方法可以应用于计算机设备，该方法所实现的功能可以通过计算机设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该计算机设备至少包括处理器和存储介质。

在一些实施例中，夜景拍摄中的极暗降噪是一类在手机数字摄影和计算机视觉中广受关注的问题。在暗光环境中，光子数目本来就少，加上手机相机本身传感器大小有限，导致进入感光模块的光子数量有限；从而使照片因巨大的噪声而质量不尽人意，存在诸如噪点、模糊不清、丢失细节、鬼影等等问题。因此，在暗光环境下对图像进行降噪的目的是从嘈杂的图像中重建出无噪点的图像。在相关技术中，通过连续拍摄多帧图像并进行配准(registration alignment)和融合(fuse)，从而在提高曝光时间的同时减少运动模糊，从不同帧的信息恢复重建原图。然而，由于在弱光条件下的高噪声水平，对多帧的配准是有困难的：用来进行配准的特征通常被噪声覆盖，可能模糊并伴有鬼影，从而导致错误的特征检测和不正确的光流估计，使最终降噪效果有限。

在暗光环境下对多帧图像进行降噪的主要问题在于有效地将带有噪声的多帧图像进行配准与融合。虽然基于深度神经网络的方法已经取得了重大进展，但是由于难以获得具有高水平噪声，真实世界运动和高质量真值(ground truth)的暗光降噪数据集，是基于合成数据或真实的静态数据，而缺乏对带有真实运动的图像的处理能力。这些方法往往会造成配准失败，且难以解决真实存在的运动模糊、鬼影等问题。

相关技术中，基于多帧的图像块来做一些简单的降噪操作，比如，分解配准、融合等步骤，让多帧图像经过一个冗长的流程，其中，包括很多参数的手动调节，使恢复过程繁复漫长。随着深度学习技术的不断发展，将多帧图像输入神经网络，并输出最终图像恢复结果。在一些实施例中，通过对像素级别降噪“核”的预测来做降噪。但是由于设计的“核”的感受野较小，一般难以对存在较大错位的多帧图进行很好的配准后降噪，所以常常伴有鬼影的现象。

基于此，本申请实施例提出了一种图像降噪方法，采用一个多尺度下空间-时间维度的注意力机制进行暗场景的多帧联合降噪，通过根据参考帧图像从其他帧图像中仅选取有用的信息而过滤掉无用的信息，实现的对图像的降噪。

如图1所示，图1为本申请实施例提供的图像降噪方法的实现流程示意图，结合如图1所示步骤进行说明：

步骤S101，获取同一场景的参考帧图像和至少两帧第一图像。

在一些实施例中，第一图像和参考帧图像来源于同一场景下采集到的多帧未配准图像，其中，参考帧图像为该多帧未配准图像中的第一帧图像或者该图像集合中清晰度较高的图像，第一图像即为该多帧未配准图像中除参考帧图像之外的图像。在一个具体例子中，参考帧图像为多帧未配准图像中噪声较小的图像或无噪声的图像，第一图像为多帧未配准图像中具有噪声的图像；或者，参考帧图像为多帧未配准图像中在采集时序上第一帧采集的图像，第一图像为多帧未配准图像中除第一帧采集的图像之外的图像。第一图像可以是基于参考帧图像进行粗略配准后得到。同一场景为光线强度小于一定阈值的场景，比如，夜晚场景，或者白天的暗光场景等。

在一些可能的实现方式中，第一图像和参考帧图像可以通过以下步骤S111至113(图示未示出)获得：

步骤S111，获取所述同一场景的至少两帧未配准图像。

在一些可能的实现方式中，未配准图像可以是采集到的原始(raw)图像，比如，具有四通道的拜耳(Bayer)图像，四通道包括：一个红色通道、两个绿色通道和一个蓝色通道。在一个场景下采集多帧原始图像，即得到该多帧未配准图像。第一图像可以是包括多个或者一个对象的图像或视频帧，可以是外观复杂的图像还可以是外观简单的图像。第一图像可以是在暗光场景下采集到的图像。第一图像和参考帧图像可以是任意采集设备在相同场景下采集到的图像，或者接收到的其他设备发送的图像。比如，参考帧图像和第一图像均是在夜景下采集的同一位置的图像。其中，参考帧图像和至少两帧第一图像可以是同一位置采集的多帧未配准图像中的第一帧图像或者图像清晰度最高的图像，该多帧未配准图像中除参考帧图像之外的图像即为第一图像。在其他实施例中，参考帧图像还可以为在第一图像所在场景下，重新采集的清晰度较高的图像。

步骤S112，从所述至少两帧未配准图像中，将图像参数满足预设条件的第一未配准图像，确定为所述参考帧图像。

在一些可能的实现方式中，图像参数包括图像采集时间和图像清晰度等参数；比如，选择未配准图像中的第一帧图像作为参考帧图像，或者选择未配准图像中的最清晰的图像作为参考帧图像。在其他实施例中，参考帧图像还可以是通过调整采集设备的采集参数直接采集得到的。

步骤S113，基于所述参考帧图像，对第二未配准图像进行预配准，得到所述至少两帧第一图像。

在一些可能的实现方式中，所述第二未配准图像为所述至少两帧未配准图像中除所述参考帧图像之外的剩余未配准图像。按照参考帧图像对第二未配准图像进行粗略配准，比如，对第二未配准图像进行上下左右平移等，得到粗略配准的第一图像。如此，在实际采集的图像中选择合适的参考帧图像，对参考帧图像之外的图像进行预配准，从而使得到的第一图像是与参考帧图像对齐的。

步骤S102，基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征。

在一些实施例中，该不同分辨率中的相邻分辨率之间具有倍数关系，至少包括三个分辨率，其中，第一分辨率与第一图像的分辨率相同，第二分辨率为第一图像的分辨率的二分之一，第三分辨率为第一图像的分辨率的四分之一。在图像降噪网络中，采用自注意力模块确定所述参考帧图像的自注意力特征，比如，采用多头自注意力机制对参考帧图像进行特征提取，得到该参考帧图像的自注意力特征。将获取的参考帧图像和第一图像输入到训练好的图像降噪网络中，采用该图像降噪网络中的自注意力模块确定参考帧图像的自注意力特征。该自注意力特征为采用自注意力模块通过对自身输入进行变换，得到参考帧图像的自注意力特征，不依赖于外部图像，能够表征参考帧图像中不同特征之间的相关性。采用该图像降噪网络中的另一特征提取模块分别在不同分辨率下提取每一第一图像的图像特征，得到每一第一图像的图像特征集合。采用该特征提取模块在特定分辨率下(比如，第三分辨率)对参考帧图像进行特征提取，得到该参考帧图像的图像特征。参考帧图像的图像特征用于表征图像的全局特征，包括颜色特征、纹理特征、形状特征和空间关系特征等。比如，采用卷积神经网络在第三分辨率下对参考帧图像进行特征提取，得到该参考帧图像的图像特征。

在一些可能的实现方式中，通过首先，对参考帧图像中的像素点进行噪声估计，得到所述参考帧图像的第一噪声估计图。

这里，对于参考帧图像中的任一像素点，其像素值在[0，1]之间，该像素点的噪声估计值服从独立高斯分布。对参考帧图像中的每一像素点进行噪声估计，可得到该参考帧图像的噪声估计图，即第一噪声估计图。

在参考帧图像中，对于某个像素点p，其像素值在[0，1]的区间内，该点的噪声估计值服从独立高斯分布，该像素点的噪声估计图

如公式(1)所示：

其中，σ_s是对传感器放大级别建模的标量散粒噪声参数，σ_r是对相机传感器的输出噪声级别建模的偏移参数。

然后，采用自注意力机制，基于所述第一噪声估计图，确定所述参考帧图像的自注意力特征。

这里，将该参考帧图像和该参考帧图像的第一噪声估计图，输入到图像降噪网络中的自注意力模块中；比如，以参考帧图像和第一噪声估计图组成的二维数组的形式输入到自注意力模块中，依次经过卷积、下采样自注意力、上采样自注意力以及反卷积的方式，得到该参考帧图像的自注意力特征。如此，通过采用该参考帧图像和该参考帧图像的第一噪声估计图作为自注意力模块的输入，能够有效提高提取的自注意力特征的准确度。

不同分辨率至少包括三个分辨率，第一分辨率为与第一图像的分辨率相同，第二分辨率为第一在图像的分辨率的二分之一，第三分辨率为第一图像的分辨率的四分之一。在图像降噪网络中，通过自注意力模块提取参考帧图像的自注意力特征的同时，采用图像降噪网络中的另一分支对每一第一图像进行特征提取；之后，通过结合参考帧图像的自注意力特征和每一第一图像的图像特征，可以得到该第一图像在每一分辨率下的空间特征。其中，对于任一第一图像，在第j分辨率下的空间特征，作为确定该第一图像在第(j+1)分辨率下的空间特征的输入。即在确定第二分辨率下的该第一图像的空间特征的情况下，需要将第一分辨率下的该第一图像的空间特征作为输入。

在一些可能的实现方式中，采用如图3所示的自注意力模块的网络架构，将参考帧图像x₁与其噪声估图

输入到自注意力模块F_self中，得到参考帧图像的自注意力特征s_ref，如公式(2)所示：

在图3中，首先，将参考帧图像x₁与其第一噪声估图

，以二维

的方式301输入到自注意力模块中，进行两次卷积得到，得到64维的特征；其次，采用自注意力机制对64维的特征进行处理，得到128维的特征，采用自注意力机制对对128维的特征进行处理，得到256维的特征，采用自注意力机制对对256维的特征进行处理，得到512维的特征；再次，采用上采样的自注意力机制处理，对512维的特征进行处理，得到256维特征，将该256维的特征与256维的特征进行拼接，得到拼接特征；采用上采样的自注意力机制处理，对拼接特征进行处理，得到128维的特征，将该128维的特征与128维的特征进行拼接，得到拼接特征；采用上采样的自注意力机制处理，对拼接特征进行处理，得到64维的特征，将该64维的特征与64维的特征进行拼接，得到拼接特征；最后，对该拼接特征进行两次卷积，得到与输入参考帧图像分辨率大小相同的自注意力特征302。

步骤S103，将同一分辨率下的空间特征进行时间融合，得到每一分辨率下的时间融合特征。

在一些实施例中，对于步骤S102中确定的每一第一图像在不同分辨率下的空间特征，采用图像降噪网络的时间融合模块，确定出在每一分辨率下，融合所有该分辨率下空间特征得到的时间融合特征。

在一些可能的实现方式中，首先，从这些空间特征中，选择属于同一分辨率的空间特征；然后，将属于同一分辨率的空间特征进行融合，得到该第一图像在该分辨率下的时间融合特征。比如，通过对第一分辨率下的空间特征进行卷积操作，并在图像帧数维度上，对卷积操作的结果进行堆叠，得到第一分辨率下的时间融合特征。

步骤S104，将所述不同分辨率下的时间融合特征进行特征融合，得到降噪后的第二图像。

在一些实施例中，将得到的每一分辨率下的时间融合特征，输入到图像降噪网络的跨尺度特征融合模块中，将不同分辨率下的时间融合特征跨尺度进行融合，实现不同分辨率下时间融合特征之间的交换，从而实现对多帧第一图像的降噪，得到降噪后的单帧图像，即第二图像。

在本申请实施例中，获取同一场景下的参考帧图像和多帧第一图像之后，首先，确定参考帧图像中的自注意力特征，然后，采用该自注意力特征和第一图像的图像特征，确定第一图像在不同分辨率下的空间特征，提高了得到的空间特征的感受野使；最后，通过将同一分辨率下的空间特征，在时间上进行融合，得到每一分辨率下的时间融合特征，提高了第一图像与参考帧图像之间的对齐度，进而通过对不同分辨率的时间融合特征进行跨尺度特征融合，通过结合多尺度的特征，能够提高降噪效果。

在一些实施例中，在图像降噪网络中，采用独立的网络分支对包含噪声的第一图像和参考帧图像在各个分辨率下进行特征提取，可以通过以下步骤实现：

第一步，对每一所述第一图像中的像素点进行噪声估计，得到每一所述第一图像的第二噪声估计图。

在一些实施例中，对于第一图像中的任一像素点，其像素值在[0，1]之间，该像素点的噪声估计值服从独立高斯分布。对第一图像中的每一像素点进行噪声估计，可得到该第一图像图像的噪声估计图，即第二噪声估计图。这样，对于N帧第一图像即可得到N个第二噪声估计图。

第二步，在所述J个分辨率下，基于每一所述第一图像的第二噪声估计图，对每一所述第一图像进行特征提取，得到每一所述第一图像的图像特征集合。

在一些实施例中，在J个分辨率下，将每一所述第一图像的第二噪声估计图输入图像降噪网络的另一特征提取网络分支中，进行特征提取。这样，每一帧第一图像均会得到J个分辨率下的图像特征，从而得到该第一图像的图像特征集合。比如，J个分辨率为3个分辨率为例，将参考帧图像，以及N-1帧第一图像x_i与其第二噪声估计图

独立地输入到图像降噪网络的特征提取模块F_vgg以实现每一帧的特征提取。这样，对于每一帧图像，均得到三个尺度的图像特征

如公式(3)所示：

其中，i＝1，···，N，并且

表示图像中第i帧的一至三个分辨率下的图像特征。其中，

表示参考帧图像在第一至散分辨率下的图像特征。

的分辨率与第i帧第一图像一致，

的分辨率为第i帧第一图像的

的分辨率为第i帧第一图像的

第一分辨率为与第一图像的尺寸一致，均为H×W；第二分辨率为第一图像的维度的二分之一，即为

通过对该第一图像进行特征提取，得到第二分辨率下的图像特征的的分辨率为

第三分辨率为第一图像的维度的四分之一，即为

通过对该第一图像进行特征提取，得到第三分辨率下的图像特征的的分辨率为

如此，通过采用图像降噪网络中的另一特征提取分支对第一图像进行特征提取，得到多个分辨率下的图像特征，能够提高特征提取的效率。

在一些实施例中，通过图像降噪网络中的多尺度空间模块，基于参考帧图像从每一帧第一图像中，得到与参考帧相关的信息，即上述步骤S102可以通过图2所示的步骤实现，图2为本申请实施例提供的图像降噪方法的另一实现流程示意图，结合图1和2进行以下说明：

步骤S201，基于所述图像特征集合中的第J图像特征和所述参考帧图像在第J分辨率下的图像特征，确定表征每一所述第一图像与所述参考帧图像的相关性的相关嵌入矩阵。

在一些实施例中，所述第J图像特征为每一所述图像在所述第J分辨率下的图像特征。所述第J分辨率为所述J个分辨率中最小的分辨率；即第J分辨率为这多个不同分辨率中的最后一个分辨率，比如，有三个分辨率，那么第J分辨率为第三分辨率。以第J分辨率为第三分辨率为例，对于任意一个第一图像，通过将参考帧图像在第三分辨率下的图像特征和该第一图像在第三分辨率下的第三图像特征，作为图像降噪网络中多尺度空间注意力模块的输入，从而得到第三分辨率下的相关嵌入矩阵。该相关嵌入矩阵能够表征每一所述第一图像与所述参考帧图像的相关性，即第一图像相对于参考帧图像的重要信息；比如，参考帧图像为在暗光场景下，针对某一建筑物采集的图像；第一图像是在暗光场景下，针对某一建筑物采集的有噪声的图像，其中建筑物的画面即为重要信息；该相关性即为第一图像相对应参考帧图像来说包含了多少建筑物的画面。

在一些可能的实现方式中，通过参考帧图像的图像特征和第一图像的第J图像特征，得到第J分辨率下的查询值和键值，基于此，得到第J分辨率下的相关嵌入矩阵，即上述步骤S201可以通过步骤S211至213(图示未示出)实现：

步骤S211，基于所述参考帧图像在所述第J分辨率下的图像特征，确定所述第J分辨率下的查询值。

这里，将参考帧图像在第J分辨率下的图像特征

经过1×1卷积，得到第J分辨率下的查询值Q^(J)。

步骤S212，确定每一所述第一图像的所述第J图像特征，在所述第J分辨率下的键值。

以第i帧第一图像为例，将第i帧第一图像的第J图像特征

(i＝2，···，N，N为第一图像的帧数)经过1×1卷积，得到第J分辨率下的键值

以第J分辨率为第三分辨率为例，Q⁽³⁾和

的形状均为

其中256为特征数。

步骤S213，基于所述第J分辨率下的查询值和每一所述第一图像的所述第J分辨率下的键值，确定所述第J分辨率下的所述相关嵌入矩阵。

这里，在第J分辨率下，将查询值和每一所述第一图像的键值进行点乘，得到第J分辨率下的所述相关嵌入矩阵。以第J分辨率为第三分辨率为例，首先，首先对

与Q⁽³⁾提取展开后的图像块，即对

与Q⁽³⁾进行边缘填充1个像素，再以1个步长取3×3的小正方形得到

个3×3×256图像块。最终Q⁽³⁾展开后的总图的图像块经过变形得到二维矩阵

展开后的总图的图像块经过变形得到二维矩阵

利用

的总图像块矩阵与Q⁽³⁾的总图像块矩阵做点乘积，可以得到在第三尺度下的相关嵌入矩阵

是一个

的二维矩阵。其中，

中的每一元素

如公式(4)所示：

其中，

的每个值

表示为Q⁽³⁾展开后的第α个图像块

与

展开后的第β个图像块

的点乘。如此，通过将不同像素块下的查询值和键值进行点乘，可以得到融合了像素块的空间信息的空间特征。

步骤S202，基于所述第J分辨率下的相关嵌入矩阵，确定每一所述第一图像的硬性注意力图和所述不同分辨率下的软性注意力图。

在一些实施例中，除参考帧图像以外的每一第一图像对应一个J分辨率下的相关嵌入矩阵，对于该第一图像来说，通过对相关嵌入矩阵中每一行取最大值，得到该第一图像在第J分辨率下的软性注意力图，通过对该第J分辨率下的软性注意力图进行上采样差值，可以得到分辨率大于第J分辨率的软性注意力图；比如，对第J分辨率的软性注意力图进行一次插值可以得到第(j-1)分辨率下的软性注意力图等；对第J分辨率的软性注意力图进行两次插值可以得到第(J-2)分辨率下的软性注意力图等。通过采用argmax对相关嵌入矩阵进行处理，从而得到相关嵌入矩阵中每一行的最大值的索引，进而由这些索引组成硬性注意力图。该硬性注意力图的分辨率为第J分辨率。

在一些可能的实现方式中，通过采用不同的函数对相关嵌入矩阵进行处理，得到第J分辨率下的软性注意力图和硬性注意力图，即上述步骤S202可以通过步骤S221至223(图示未示出)实现：

步骤S221，基于所述第J分辨率下的相关嵌入矩阵中每一行的最大值，确定每一所述第一图像在所述第J分辨率下的软性注意力图。

以第J分辨率为第三分辨率为例，通过对

中的元素对元素

取max得到该第三分辨率下的软性注意力图

如公式(5)所示：

其中，

表示

内的第α个位置值。

由于

是一个

的二维矩阵，通过上述公式(5)可以得到长度为

的一维向量

再对

进行形状变换得到

的二维矩阵。

步骤S222，基于所述第J分辨率下的软性注意力图，确定每一所述第一图像在所述不同分辨率下的软性注意力图。

这里，通过对第J分辨率下的软性注意力图

按照分辨率对应的倍数进行上采样得到任一第j分辨率下的软性注意力图。以第J分辨率为第三分辨率为例，通过对

进行2倍上采样得到第二分辨率下软性注意力图

对

进行4倍上采样得到第一分辨率下软性注意力图

步骤S223，基于所述最大值对应的索引，确定每一所述第一图像在所述第J分辨率下的硬性注意力图。

这里，以第J分辨率为第三分辨率为例，通过对

中的元素

取argmax得到该第三分辨率下的硬性注意力图

如公式(6)所示，

其中，

表示

内的第α个位置值。由于

是一个

的二维矩阵，通过上述公式(6)可以得到长度为

的一维向量

再对

进行形状变换得到

的二维矩阵。这样，通过对相关嵌入矩阵进行不同方式的处理，可以二维矩阵形式，融合不同空间的特征得到软性注意力图和硬性注意力图，最后便于将多个空间特征融合到每一第一图像在不同分辨率下的空间特征中。

步骤S203，基于所述自注意力特征、每一所述第一图像的硬性注意力图和所述不同分辨率下的软性注意力图，确定每一所述第一图像在所述不同分辨率下的空间特征。

在一些实施例中，将提取到的参考帧图像的自注意力特征、第J分辨率的硬性注意力图以及每一个分辨率下的软性注意力图，作为图像降噪网络中多尺度空间注意力模块的输入，从而得到该第一图像在J个分辨率下的J个空间特征。

在一些可能的实现方式中，通过图像降噪网络的多尺度空间注意力模块得到第一图像在J个分辨率下的空间特征之后，采用时间融合模块，将同一分辨率下的空间特征进行融合，得到该分辨率下的时间融合特征；即上述步骤S203可以通过步骤S231和232(图示未示出)实现：

步骤S231，在所述同一分辨率为第一分辨率的情况下，基于所述自注意力特征、每一所述第一图像的所述硬性注意力图和所述软性注意力图，确定每一所述第一图像的第一空间特征。

这里，第一分辨率与第一图像的分辨率相同，第j分辨率小于所述第一分辨率，且与所述第一分辨率具有倍数关系，j＝2，…，J。在同一分辨率为第一分辨率的情况下，将参考帧图像的自注意力特征、每一第一图像的硬性注意力图和第一分辨率下的软性注意力图作为图像降噪网络的时间融合模块中，以得到该第一图像在第一分辨率下的第一空间特征。

步骤S232，在所述同一分辨率为第j分辨率的情况下，基于每一所述第一图像的第(j-1)空间特征、所述硬性注意力图和在所述第j分辨率下的所述软性注意力图，确定每一所述第一图像在所述第j分辨率下的空间特征。

这里，由于j＝2……J，第(j-1)空间特征为每一所述第一图像在第(j-1)分辨率下的空间特征，那么当j＝2时，第(j-1)分辨率下的空间特征，即第(j-1)空间特征为第一空间特征。在同一分辨率为第j分辨率的情况下，基于前一分辨率下的空间特征、该第一图像在第j分辨率下的软性注意力图，以及硬性注意力图，可以确定该第一图像在第j分辨率下的第j空间特征；如此，通过结合参考帧图像的自注意力特征，基于前一分辨率的空间特征，可以确定出后一分辨率的空间特征，从而能够提高第一图像在任一分辨率下的空间特征的细节信息。

在本申请实施例中，通过将每一分辨率下的软性注意力图应用于自注意力特征和第J分辨率下的硬性注意力图中，实现了在空间上融合不同空间下的特征，从而使得到的空间特征的信息更加丰富。

在一些实施例中，为提高确定第一图像的空间特征的准确度，通过结合前一分辨率下第一图像的空间特征以及当前分辨率下软性注意力图，确定后一分辨率下的第一图像的空间特征，即上述步骤S232可以通过以下步骤实现：

第一步，基于每一所述第一图像在所述第j分辨率下的图像特征和所述硬性注意力图，确定所述第j分辨率下的对齐噪声特征。

这里，首先对该第一图像在第j分辨率下的图像特征进行1×1卷积，得到卷积特征

通过将卷积特征

与硬性注意力图

按照硬性注意力机制，实现对该卷积特征

与参考帧图像的图像特征之间的对齐，从而得到第j分辨率下的对齐噪声特征

在一个具体例子中，以J为3为例，通过对三个分辨率下的图像特征

进行1×1卷积，得到三个分辨率下的卷积特征

的维度为H×W×64，

的维度为

的维度为

通过将

与硬性注意力图

进行结合，可以得到对第一图像的图像特征与参考帧图像的图像特征进行对齐后的对齐噪声特征

第二步，基于每一所述第一图像在所述第j分辨率下的所述软性注意力图和所述第一卷积结果，确定每一所述第一图像在所述第(j-1)分辨率下和所述第j分辨率下的空间特征差值。

这里，将第j分辨率下的第一卷积结果与第j分辨率下的所述软性注意力图进行逐元素相乘，得到该空间特征差值，能够表示第一图像在所述第(j-1)分辨率下和所述第j分辨率下的空间特征之间的差值。

第三步，将所述第(j-1)空间特征与所述空间特征差值进行融合，得到每一所述第一图像在所述第j分辨率下的空间特征。

这里，将第(j-1)空间特征与该空间特征差值进行逐元素求和，得到初步空间特征；通过对初步空间特征进行残差处理，最终得到优化后的第一图像在第j分辨率下的空间特征。以J个分辨率为三个分辨率为例，第i帧第一图像在第j分辨率下的初步空间特征如公式(7)所示，最终的空间特征如公式(8)所示：

其中，

通过上述第一步至第三步，能够更加准确地得到第一图像在任一分辨率下的空间特征，使得该空间特征具有更加丰富的细节信息。

如图6所示，图6为本申请实施例提供的多尺度空间注意力模块的组成结构示意图，以第J分辨率为第三分辨率为例，通过图像降噪网络中的多尺度空间注意力模块，可得到每一所述第一图像在不同分辨率下的空间特征，过程如下：

利用1x1卷积，根据参考帧图像在第三分辨率下的图像特征

61，得到参考帧图像在第三分辨率下的查询Q⁽³⁾，即将参考帧图像在第三分辨率下的图像特征

61经过1x1卷积得到查询Q⁽³⁾；根据

62得到第i噪声帧在第三分辨率下的键

即将

621经过1x1卷积得到第i噪声帧在第三分辨率下的键

将

分别经过1×1卷积，得到

其中，i＝2,…,N，利用

与Q⁽³⁾的点乘积，可以得到在第三分辨率下的相关嵌入矩阵

63。

根据上述过程，首先，可以得到在第三分辨率下的相关嵌入矩阵

然后，可以通过对

取argmax得到对应的第三分辨率下的硬性注意力图

601和通过对

取最大值(max)得到软性注意力图

使用相关嵌入矩阵

计算第三分辨率下的硬性注意力图

601和软性注意力图

这样，通过软性注意力图

进行插值分别得到第二和第一分辨率下软性注意力图

和

根据

的硬性注意力机制结合

可以得到不同分辨率下对噪声帧对齐后的特征

再根据

和之前提取的参考帧图像的自注意力特征s_ref，最终得到多尺度空间注意力模块在不同分辨率下噪声帧的特征

从第一分辨率开始，将软注意力图

应用于

和

(j＝1，2，3)的连接特征，以获得第j尺度的空间融合特征；将该空间融合特征进一步经过一个残差模块结合参考帧图像的自注意力特征s_ref 65，得到第i帧第一图像在三个分辨率下的空间特征

从图6可以看出，从第一分辨率开始，对于第i帧第一图像，首先，将自注意力特征、对第一分辨率下的第i帧第一图像对齐后特征

和第i帧第一图像对应的软性注意力图

输入公式(7)，得到第i帧第一图像在第一分辨率下的空间特征

然后，将

对第二分辨率下的第i帧第一图像对齐后特征

和第i帧第一图像对应的软性注意力图

输入公式(7)，得到第i帧第一图像在第二分辨率下的空间特征

最后，将

对第三分辨率下的第i帧第一图像对齐后特征

和第i帧第一图像对应的软性注意力图

输入公式(7)，得到第i帧第一图像在第三分辨率下的空间特征

在一些实施例中，通过采用不同的卷积核，融合同一分辨率下的空间特征，实现跨时间的特征融合，即上述步骤S103可以通过以下步骤S131至134(图示未示出)实现：

步骤S131，采用第二卷积操作，对所述至少两帧第一图像在所述同一分辨率下的空间特征进行处理，得到第一卷积特征集合。

在一些可能的实现方式中，将多帧第一图像在同一分辨率下的空间特征分别输入1×1的卷积中，得到每一帧第一图像卷积后的第一卷积特征，从而得到第一卷积特征集合。

步骤S132，基于所述第一卷积特征集合，对所述至少两帧第一图像的像素点进行融合，得到时间方向注意力图。

在一些实施例中，基于第一卷积特征集合，按照第一图像的采集时间，融合多帧第一图像的像素点，得到在第j分辨率下的时间方向注意力图T^(j)，第i帧第一图像在第j分辨率下的时间方向注意力图

将N帧的第一图像在第j分辨率下的

进行拼接，形成第j分辨率下的时间方向注意力图T^(j)；其中，

如公式(9)所示：

其中，p的取值为2，···N；N表示特征数，

F_c1表示1×1卷积；F_c3表示3×3卷积。

在一些可能的实现方式中，首先，将所述第一卷积特征集合中的第一卷积特征进行堆叠，得到第一张量特征。这里，在第一分辨率下，将1x1卷积输出的N-1个特征堆叠起来，得到第一张量维度为(N-1，1，H，W)的特征；如果在第二分辨率下将将1x1卷积输出的N-1个特征堆叠起来，得到第一张量维度为(N-1，1，H/2，W/2)的特征；如果在第三分辨率下将将1x1卷积输出的N-1个特征堆叠起来，得到第一张量维度为(N-1，1，H/4，W/4)的特征。

然后，在所述第一张量特征的预设维度上，对所述第一张量进行归一化，得到所述第一张量特征在所述同一分辨率下的时间方向注意力图。比如，对第一张量特征在第一维度(N-1)上进行归一化处理，得到第一张量特征的时间方向注意力图T^(j)。如此，能够在像素级别上将不同时间采集的第一图像的空间特征融合在一起，得到时间融合特征，从而提高了对多帧图像降噪的感受野。

步骤S133，采用第三卷积操作，对所述同一分辨率下的空间特征进行处理，得到第二卷积特征集合。

在一些实施例中，将多帧第一图像在同一分辨率下的空间特征分别输入3×3的卷积中，得到每一帧第一图像卷积后的第二卷积特征，从而得到第二卷积特征集合。

步骤S134，将所述同一分辨率下的所述时间方向注意力图与所述第二卷积特征集合进行融合，得到所述每一分辨率下的时间融合特征。

在一些实施例中，将同一分辨率下的时间方向注意力图与第二卷积特征集合进行逐元素相乘，得到该分辨率下的时间融合特征。

在一些可能的实现方式中，首先，将所述第二卷积特征集合中的第二卷积特征进行堆叠，得到第二张量特征；比如，如果将第一分辨率下的空间特征输入3×3卷积，将3×3卷积输出的N-1个特征堆叠起来，得到第一分辨率下张量维度为(N-1，64，H，W)的第二张量特征。如果将第二分辨率下的空间特征输入3×3卷积，将3×3卷积输出的N-1个特征堆叠起来，得到第二分辨率下张量维度为(N-1，64，H/2，W/2)的第二张量特征。如果将第三分辨率下的空间特征输入3×3卷积，将3×3卷积输出的N-1个特征堆叠起来，得到第三分辨率下张量维度为(N-1，64，H/4，W/4)的第二张量特征。

然后，将所述同一分辨率下的所述时间方向注意力图与所述第二张量特征，在所述预设维度上进行融合，得到所述同一分辨率下的时间融合特征。

这里，将第二张量特征与之前得到的像素级别上的时间方向注意力图T^(j)在第一维度上求加权平均和，得到第j分辨率下的时间融合特征

其中，

的张量维度为(64，H，W)，

的张量维度为(64，H/2，W/2)，

的张量维度为(64，H/4，W/4)；

如公式(10)所示：

其中，(o)表示元素乘法。

如图7所示，图7为本申请实施例提供的时间融合模块的组成结构示意图，结合图7进行以下说明：

对于每个尺度j，其N-1个特征

700分别经过一个3x3卷积和一个1x1卷积。其中，3x3卷积F_c3 701输出的特征维度为64，1x1卷积F_c1 702输出的特征维度为1。首先，将1×1卷积输出的N-1个特征进行堆叠703，得到第一张量特征；然后，在第一张量特征的第一个维度上进行逐像素的归一化(softmax)704，从而得到在像素级别上的时间方向注意力图T^(j)705。同时将3×3卷积输出的N-1个特征进行堆叠706，得到张量维度为(N-1，64，H/(2^j ^-1)，W/(2^j-1))的特征707(即，在第一分辨率下特征的张量维度为(N-1，64，H，W))；与时间方向注意力图T^(j)在第一维度上计算加权平均和708，最终得到第j分辨率下的张量维度为(64，H/(2^j-1)，W/(2^j-1))的特征

709。

在本申请实施例中，通过采用不同大小的卷积核，融合同一分辨率下的空间特征，从而将不同采集时间采集到的多帧第一图像的空间特征融合在一起，得到在时间维度上对第一图像降噪后的时间融合特征。

在一些实施例中，通过将同一分辨率下的时间融合特征输入到图像降噪网络的跨尺度特征融合模块中，实现跨分辨率融合J个分辨率下的时间融合特征，从而得到降噪后的第二图像；即上述步骤S104可以通过以下步骤S141至143(图示未示出)实现：

步骤S141，基于所述J个分辨率中的第j分辨率与第一分辨率之间的倍数关系，对所述第j分辨率下的时间融合特征进行调整，得到所述第j分辨率下的已调整融合特征。

在一些实施例中，基于第j分辨率与第一分辨率之间的倍数关系，将所述第j分辨率下的时间融合特征调整为第一分辨率下的时间融合特征，得到所述第一分辨率下的多个融合特征。基于第j分辨率与第一分辨率之间的倍数关系，对该第j分辨率下的时间融合特征进行该倍数的上采样，从而得到第一分辨率下的时间融合特征。以J个分辨率为3个分辨率为例，3个分辨率下的时间融合特征为

通过分别对

进行2倍和4倍的上采样得到f⁽²⁾和f⁽³⁾对应于第一分辨率下的时间融合特征。

步骤S142，将所述第j分辨率下的已调整融合特征和所述第一分辨率下的时间融合特征进行堆叠，得到堆叠时间融合特征。

在一些实施例中，将多个第j分辨率下的已调整融合特征与第一分辨率下的时间融合特征进行堆叠，得到堆叠时间融合特征。以J个分辨率为3个分辨率为例，将第一分辨率下的时间融合特征

对

进行2倍的上采样得到特征与对

进行4倍的上采样得到特征拼接在一起，得到堆叠时间融合特征。

步骤S143，采用第四卷积操作，对所述堆叠时间融合特征进行处理，得到所述第二图像。

在一些实施例中，第四卷积操作可以是一个简单的卷积神经网络；通过将堆叠时间融合特征输入到该神经网络中，得到对多帧第一图像进行降噪后的单帧图像。如果第一图像为原始图像，那么降噪后的第二图像为但是原始图像

以J个分辨率为3个分辨率为例，在本申请实施例中，采用跨尺度融合模块F_csm来交换和合并跨时间融合特征

的多分辨率下的信息，以实现降噪预测，得到第二图像

如公式(11)所示：

在本申请实施例中，通过采用跨尺度融合模块实现对不同分辨率下的时间融合特征的信息交换，从而得到降噪后的第二图像；如此，能够使得第二图像中不会有鬼影的出现，提高了降噪图像的质量。

在一些实施例中，由于第一图像为原始图像，降噪后的第二图像也是原始图像，通过对第二图像进行图像信号处理，即可得到该第二图像对应的三通道的彩色(standardRed Green Blue，sRGB)图像；如此，基于高质量的第二图像进行图像信号处理，使得到的sRGB图像的质量较高。

在一些实施例中，通过获取真实暗场景多帧图像训练图像降噪网络，能够提高图像降噪网络的降噪性能，所述图像降噪网络包括：自注意力模块、独立特征提取模块、多尺度空间注意力模块、时间融合模块、跨尺度特征融合模块；其中，采用该图像降噪网络对第一图像进行降噪的过程如下：

第一步，采用自注意力模块对参考帧图像进行特征提取，得到所述参考帧图像的自注意力特征。

这里，在步骤S101之后，将获取到的参考帧图像输入到图像降噪网络的自注意力模块进行特征提取，得到自注意力特征。

第二步，采用独立特征提取模块分别对所述参考帧图像和所述至少两帧第一图像进行特征提取，得到所述参考帧图像的图像特征和每一所述第一图像的图像特征集合。

这里，在上述步骤S102中采用独立特征提取模块分别对参考帧图像和第一图像进行特征提取，得到参考帧图像的图像特征和每一第一图像的图像特征集合。

第三步，采用多尺度空间注意力模块基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征。

这里，将独立特征提取模块的输出作为多尺度空间注意力模块的输入，实现上述步骤S102，得到第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征。

第四步，采用时间融合模块将所述至少两帧第一图像在同一分辨率下的空间特征进行时间融合，得到每一分辨率下的时间融合特征。

这里，将多尺度空间注意力模块的输出作为时间融合模块的输入，实现上述步骤S103，得到每一分辨率下的时间融合特征。

第五步，采用跨尺度特征融合模块将所述不同分辨率下的所述时间融合特征进行特征融合，得到降噪后的第二图像。

这里，将时间融合模块的输出作为跨尺度特征融合模块的输入，实现上述步骤S104，得到对第一图像进行降噪后的第二图像，以较佳的降噪效果实现了对第一图像的降噪。

在一些可能的实现方式中，该图像降噪网络是基于获取的训练数据对待训练的图像降噪网络进行训练得到的，可以通过以下步骤S11至S18(图示未示出)实现：

步骤S11，获取包括参考帧训练图像、噪声帧训练图像和真值图像的训练数据。

作为训练数据集的多帧图像可以通过以下步骤采集：

第一步，在预设场景下，获取固定采集设备采集的第一组图像和非固定采集设备采集的第二组图像。

在一些实施例中，预设场景为暗光场景。固定采集设备可以是将图像采集装置固定在某一位置，使得该采集设备在进行图像采集的过程中是固定的；非固定采集设备可以是未固定在某一位置的，使得该采集设备在进行图像采集的过程中是可能发生晃动的。比如，将具有拍照功能的手机固定在三角架上，作为固定采集设备进行图像采集，得到第一组图像；然后，手持该手机作为非固定采集设备进行图像采集，得到第二组图像。第一组图像和第二组图像均为通一场景进行采集的图像。但是由于采集第二组图像是非固定采集设备，所以第一组图像和第二组图像是不对齐的。

第二步，将所述第一组图像中与所述第二组图像相匹配的图像，作为所述参考帧训练图像。

在一些实施例中，将第一组图像中与第二组图像的匹配度最高的图像作为参考帧训练图像；所谓匹配度最高可以理解为是该图像的画面与第二组图像的画面最为接近。或者，将第一组图像中最后采集的一帧图像作为参考帧训练图像。

第三步，对所述第一组图像中除所述参考帧训练图像之外的图像进行平均处理，得到所述真值图像。

在一些实施例中，如果参考帧训练图像为第一组图像中的最后一帧图像，那么在第一组图像中，选取第一帧至倒数第二帧图像，对这多帧图像求平均，将得到的平均后的图像进行坏点矫正，比如，对液晶萤幕面板上的某些萤幕画素全部或部分丧失其作用，而造成变成永久性的亮点、暗点与色点等，像素点进行平滑处理，或者去掉该像素点，以得到真值图像。

第四步，将所述第二组图像作为所述噪声帧训练图像。

在一些实施例中，将通过非固定采集设备采集到的第二组图像作为有噪声的训练图像，即噪声帧训练图像。

在一些可能的实现方式中，通过以下方式获取对网络进行训练的样本数据集，所需要的工具包括：用于固定手机的三脚架，用于需获取原始数据的拍摄手机，手机快拍快门蓝牙遥控器；其中：

首先，通过蓝牙将手机与快门遥控器对接，同时将手机固定于三脚架上。通过遥控器按下快门，拍取一组“固定相机多帧图像”(对应于上述实施例中的第一组图像)。

如图4所示，图4为本申请实施例提供的数据采集装置的组成结构示意图，从图4(a)可以看出，通过将手机固定在三脚架上，拍摄一组固定相机多帧图像。

其次，转动三脚架让固定的手机可以活动，手持手机、用手按下快门，模拟用户的拍照中真实的手抖的情况，拍取一组“手持相机多帧图像”(对应于上述实施例中的第二组图像)。

从图4(b)可以看出，转动三脚架401让固定的手机可以活动，从而通过用户手部手持手机进行图像采集，拍取一组手持相机多帧图像。

再次，每个数据样本存在两组图像。在后期处理中选取第一组图像的第一帧至倒数第二帧，并做平均处理作为真值。再选取第一组图像的最后一帧作为参考帧训练图像和第二组图像的所有帧作为噪声帧，组成为“噪声多帧图像”。

最后，对平均处理后的值做坏点矫正，得到真值。

如图5所示，图5为本申请实施例提供多帧真实原始数据收集处理方法流程图，首先，在固定相机多帧图像501中选择最后一帧作为参考帧502；其次，将参考帧502结合全部的64帧手持相机多帧图像503，组成噪声多帧图像504；再次，将固定相机多帧图像501中的第1帧至第63帧的前63帧图像507，进行平均处理505；再次，对平均处理505后的值进行坏点矫正处理506；最后，将坏点矫正处理后的图像帧作为真值508。

步骤S12，采用所述自注意力模块对所述参考帧训练图像进行特征提取，得到所述参考帧图像的自注意力训练特征。

步骤S13，采用所述独立特征提取模块分别对所述参考帧训练图像和噪声帧训练图像进行特征提取，得到所述参考帧训练图像的图像特征和所述噪声帧训练图像的图像特征集合。

步骤S14，采用所述多尺度空间注意力模块基于所述自注意力训练特征、所述参考帧训练图像的图像特征和所述噪声帧训练图像的图像特征集合，确定所述噪声帧训练图像在不同分辨率下与所述参考帧训练图像的图像特征对齐后的空间训练特征。

步骤S15，采用所述时间融合模块将所述噪声帧训练图像在同一分辨率下的空间训练特征进行时间融合，得到每一分辨率下的时间融合训练特征。

步骤S16，采用所述跨尺度特征融合模块将所述不同分辨率下的所述时间融合训练特征进行特征融合，得到对所述噪声帧训练图像降噪后的训练图像。

步骤S17，基于所述真值图像，确定所述降噪后的训练图像的损失。

这里，基于真值图像和降噪后的训练图像，确定降噪后的训练图像的损失。

步骤S18，基于所述降噪后的训练图像的损失，对待训练的图像降噪网络的网络参数进行调整，以使调整后的图像降噪网络输出的降噪后的训练图像的损失满足收敛条件，并获得训练好的图像降噪网络。

这里，采用该损失调整待训练的图像降噪网络的网络权重，得到降噪效果较佳的已训练的图像降噪网络，用于实现对任一第一图像进行降噪。

在本申请实施例中，以在暗光环境中捕获具有真实世界的噪声，运动和运动模糊的静态场景的两组图像，从该两组图像中获得对应的真值图像，基于此数据集对图像降噪网络进行训练，从而能够提高已训练的图像降噪网络的降噪性能。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用，以利用多尺度下空间-时间维度的注意力机制进行暗场景的多帧联合降噪为例，进行说明。

本申请实施例提出了一套极暗多帧原始数据集收集处理方法，以在暗光环境中捕获具有真实世界的噪声，运动和运动模糊的静态场景，并计算获得对应的真值。借助这套数据，本申请实施例提出了一种新的独立空间注意力机制和时间融合模块的多帧降噪方法。采用基于多维度查询(query，Q)、键(key，K)、值(value，V)的空间对齐注意力机制，配合上时间融合模块，该网络具有强大的对齐能力，从而更有效解决配准与融合中的问题。模型强大的配准能力使得从现实世界静态数据建立的这套方法能很好地推广到动态场景。该方法在合成和真实数据集上，在去噪、配准和去鬼影方向上均具有显著的效果。

通过图3和图4所示的方式获取到训练图像数据集之后，待训练的图像降噪网络架构如图5所示，采用该训练图像数据集图8所示的网络架构进行训练，以使得图像降噪网络能够对图像数据进行降噪处理。如图8所示，图8为本申请实施例提供的多帧噪声图像处理的流程示意图，从图8可以看出，将给定N帧噪声原始图像801

噪声估计图

和相应的真值图像，输入图8所示的网络中，以预测降噪后的图像，其中，

具有高度H、宽度W和通道C。首先，将N帧噪声原始图像801中的第一帧图像作为参考帧图像804；其次，采用预配准模块802对N帧噪声原始图像801进行预配准，得到已配准图像803；再次，采用自注意力模块805基于参考帧图像的噪声估计图，确定参考帧图像的自注意力特征；再次，将自注意力特征和已配准图像803输入多尺度空间注意力806中，得到每一已配准图像在不同分辨率下的特征；其中，每一已配准图像在第一分辨率下的空间特征为第一空间特征811，每一已配准图像在第二分辨率下的空间特征为第二空间特征812，每一已配准图像在第三分辨率下的空间特征为第三空间特征813；再次，将同一分辨率下的不同已配准图像的特征输入到时间融合模块中，得到不同分辨率下的时间融合特征；即将第一分辨率下的不同已配准图像的特征输入到时间融合模块821中得到第一分辨率下的第一时间融合特征831；将第二分辨率下的不同已配准图像的特征输入到时间融合模块822中得到第二分辨率下的第二时间融合特征832；将第三分辨率下的不同已配准图像的特征输入到时间融合模块823中得到第三分辨率下的第三时间融合特征833；再次，将时间融合特征831、832和833输入跨尺度特征融合模块807中，得到降噪后的原始图像808；最后，采用ISP模块809对降噪后的原始图像808进行图像信号处理，得到降噪的sRGB图像810。

对图8所示的图像降噪网络进行训练的步骤包括：

第一步，对N帧噪声原始图像进行预配准，得到对噪声帧进行粗略配准的图像(对应于上述实施例中的第一图像)。

在一些可能的实现方式中，N帧噪声原始图像

其中，x₁为参考帧图像x_ref，其余为噪声帧。以参考帧图像为基准，对噪声帧进行粗略的配准。比如，执行粗略的平移图像配准以从参考帧图像中去除大的抖动。因此，该网络逐像素处理剩余复杂的非对齐的每一像素，处理过程包括平移和旋转变换。在实际实现中，对图像执行粗预对齐，分别对四个原始拜耳通道中的每一个通道应用相同的变换。

第二步，基于粗略配准的图像，生成噪声估计图。

通过对N帧噪声原始图像的每个像素点进行噪声估计，分别得到N帧噪声估计图

第三步，将得到的N张噪声估计图

输入网络模块中，得到降噪后的单帧原始图像

在一些实施例中，该网络模块包括：自注意力模块(self-attention module)、独立特征提取模块(feature extraction module)、多尺度空间注意力模块(MultiscaleSpatial Attention)、时间融合模块(temporal fusion module)和跨尺度特征融合模块(cross-scale feature exchange module)；其中：

独立特征提取模块，用于将N帧噪声原始图像中的每一帧与噪声估计图输入到特征提取模块以进行每一帧的特征提取，得到每一图像对应的三个分辨率的图像特征。

多尺度空间注意力模块，用于采用多尺度空间注意力机制根据参考帧图像，从每一帧噪声帧x_i中提取有用的相关信息。通过图6所示的过程得到每一原始噪声图像在三个分辨率下的空间特征

时间融合模块，用于将多尺度空间注意力模块的输出作为该时间融模块的输入，将同一分辨率下的不同图像的空间特征进行融合，得到时间融合特征。

跨尺度特征融合模块，用于融合三个尺度下的特征

得到降噪后的单帧原始图像

第四步，对第三步得到的降噪后的单帧原始图像，进行图像信号处理得到最终的sRGB图像

在一些可能的实现方式中，图像信号处理主要包括黑电平、白平衡、线性亮度矫正、去马赛克、颜色校正和伽马校正。即对第三步得到的降噪后的单帧原始图像进行黑电平、白平衡、线性亮度矫正、去马赛克、颜色校正和伽马校正等处理得到sRGB图像

本申请实施例提供的图像处理方法，在满足端到端的基础下，引入了多尺度下的注意力机制模块，大大提高了对多帧图像降噪的感受野。所以可以做到更好的配准和融合，从而解决了动态场景中的鬼影现象。

本申请实施例提供一种图像降噪装置，图9为本申请实施例图像降噪装置的结构组成示意图，如图9所示，所述图像降噪装置900包括：

第一获取模块901，用于获取同一场景的参考帧图像和至少两帧第一图像；

第一确定模块902，用于基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征；

第一融合模块903，用于将所述至少两帧第一图像在同一分辨率下的空间特征进行时间融合，得到每一分辨率下的时间融合特征；

第二融合模块904，用于将所述不同分辨率下的所述时间融合特征进行特征融合，得到降噪后的第二图像。

在一些实施例中，所述装置还包括：

第一估计模块，用于对所述参考帧图像中的像素点进行噪声估计，得到所述参考帧图像的第一噪声估计图；

第二确定模块，用于采用自注意力机制，基于所述第一噪声估计图，确定所述参考帧图像的自注意力特征。

在一些实施例中，所述第一获取模块901，包括：

第一获取子模块，用于获取所述同一场景的至少两帧未配准图像；

第一确定子模块，用于从所述至少两帧未配准图像中，将图像参数满足预设条件的第一未配准图像，确定为所述参考帧图像；

第一预配准子模块，用于基于所述参考帧图像，对第二未配准图像进行预配准，得到所述至少两帧第一图像；其中，所述第二未配准图像为所述至少两帧未配准图像中除所述参考帧图像之外的剩余未配准图像。

在一些实施例中，所述不同分辨率包括J个分辨率，J为大于1的整数；所述装置还包括：

第二估计模块，用于对每一所述第一图像中的像素点进行噪声估计，得到每一所述第一图像的第二噪声估计图；

第一提取模块，用于在所述J个分辨率下，基于每一所述第一图像的第二噪声估计图，对每一所述第一图像进行特征提取，得到每一所述第一图像的图像特征集合。

在一些实施例中，所述第一确定模块902，包括：

第二确定子模块，用于基于所述图像特征集合中的第J图像特征和所述参考帧图像在第J分辨率下的图像特征，确定表征每一所述第一图像与所述参考帧图像的相关性的相关嵌入矩阵；其中，所述第J图像特征为每一所述图像在所述第J分辨率下的图像特征；所述第J分辨率为所述J个分辨率中最小的分辨率；

第三确定子模块，用于基于所述第J分辨率下的相关嵌入矩阵，确定每一所述第一图像的硬性注意力图和所述不同分辨率下的软性注意力图；

第四确定子模块，用于基于所述自注意力特征、每一所述第一图像的硬性注意力图和所述不同分辨率下的软性注意力图，确定每一所述第一图像在所述不同分辨率下的空间特征。

在一些实施例中，所述第四确定子模块，包括：

第一确定单元，用于基于所述参考帧图像在所述第J分辨率下的图像特征，确定所述第J分辨率下的查询值；

第二确定单元，用于确定每一所述第一图像的所述第J图像特征，在所述第J分辨率下的键值；

第三确定单元，用于基于所述第J分辨率下的查询值和每一所述第一图像的所述第J分辨率下的键值，确定所述第J分辨率下的所述相关嵌入矩阵。

在一些实施例中，所述第五确定子模块，包括：

第四确定单元，用于基于所述第J分辨率下的相关嵌入矩阵中每一行的最大值，确定每一所述第一图像在所述第J分辨率下的软性注意力图；

第五确定单元，用于基于所述第J分辨率下的软性注意力图，确定每一所述第一图像在所述不同分辨率下的软性注意力图；

第六确定单元，用于基于所述最大值对应的索引，确定每一所述第一图像在所述第J分辨率下的硬性注意力图。

在一些实施例中，所述第六确定子模块，包括：

第七确定单元，用于在所述同一分辨率为第j分辨率的情况下，基于每一所述第一图像在第(j-1)分辨率下的第(j-1)空间特征、所述硬性注意力图和在所述第j分辨率下的所述软性注意力图，确定每一所述第一图像在所述第j分辨率下的空间特征；其中，j＝2，…，J；在j为2的情况下，所述第(j-1)空间特征为基于所述自注意力特征、每一所述第一图像的所述硬性注意力图和所述软性注意力图确定的。

在一些实施例中，所述第八确定单元，包括：

第一确定子单元，用于基于每一所述第一图像在所述第j分辨率下的图像特征和所述硬性注意力图，确定所述第j分辨率下的对齐噪声特征；

第一处理子单元，用于采用第一卷积操作，对所述第(j-1)空间特征和所述第j分辨率下的对齐噪声特征进行处理，得到第一卷积结果；

第二确定子单元，用于基于每一所述第一图像在所述第j分辨率下的所述软性注意力图和所述第一卷积结果，确定每一所述第一图像在所述第(j-1)分辨率下和所述第j分辨率下的空间特征差值；

第一融合子单元，用于将所述第(j-1)空间特征与所述空间特征差值进行融合，得到每一所述第一图像在所述第j分辨率下的空间特征。

在一些实施例中，所述第一融合模块903，包括：

第二处理子模块，用于采用第二卷积操作，对所述至少两帧第一图像在所述同一分辨率下的空间特征进行处理，得到第一卷积特征集合；

第一融合子模块，用于基于所述第一卷积特征集合，确定所述同一分辨率下的时间方向注意力图；

第三处理子模块，用于采用第三卷积操作，对所述同一分辨率下的空间特征进行处理，得到第二卷积特征集合；

第二融合子模块，用于将所述同一分辨率下的所述时间方向注意力图与所述第二卷积特征集合进行融合，得到所述每一分辨率下的时间融合特征。

在一些实施例中，所述第一融合子模块，包括：

第一堆叠单元，用于将所述第一卷积特征集合中的第一卷积特征进行堆叠，得到第一张量特征；

第一归一化单元，用于在所述第一张量特征的预设维度上，对所述第一张量进行归一化，得到所述第一张量特征在所述同一分辨率下的时间方向注意力图；

所述第二融合子模块，包括：

第二堆叠单元，用于将所述第二卷积特征集合中的第二卷积特征进行堆叠，得到第二张量特征；

第一融合单元，用于将所述同一分辨率下的所述时间方向注意力图与所述第二张量特征，在所述预设维度上进行融合，得到所述同一分辨率下的时间融合特征。

在一些实施例中，所述第二融合模块904，包括：

第一调整子模块，用于基于所述J个分辨率中的第j分辨率与第一分辨率之间的倍数关系，对所述第j分辨率下的时间融合特征进行调整，得到所述第j分辨率下的已调整融合特征；

第一堆叠子模块，用于将所述第j分辨率下的已调整融合特征和所述第一分辨率下的时间融合特征进行堆叠，得到堆叠时间融合特征；

第四处理子模块，用于采用第四卷积操作，对所述堆叠时间融合特征进行处理，得到所述第二图像。

在一些实施例中，所述装置还包括：

处理模块，用于对所述第二图像进行图像信号处理，得到并输出所述第二图像对应的彩色图像。

在一些实施例中，所述图像降噪方法是通过所述图像降噪网络实现的，所述图像降噪网络包括：自注意力模块、独立特征提取模块、多尺度空间注意力模块、时间融合模块、跨尺度特征融合模块；所述第一确定模块，还用于采用所述自注意力模块对参考帧图像进行特征提取，得到所述参考帧图像的自注意力特征；采用所述独立特征提取模块分别对所述参考帧图像和所述至少两帧第一图像进行特征提取，得到所述参考帧图像的图像特征和每一所述第一图像的图像特征集合；采用所述多尺度空间注意力模块基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征；

第一融合模块，还用于采用所述时间融合模块将所述至少两帧第一图像在同一分辨率下的空间特征进行时间融合，得到每一分辨率下的时间融合特征；

第二融合模块，还用于采用所述跨尺度特征融合模块将所述不同分辨率下的所述时间融合特征进行特征融合，得到降噪后的第二图像。

在一些实施例中，所述装置还包括：训练模块，用于对待训练的图像降噪网络进行训练，得到所述图像降噪网络；所述训练模块，包括：

第二获取子模块，用于获取包括参考帧训练图像、噪声帧训练图像和真值图像的训练数据；

第一训练子模块，用于采用所述训练数据，对待训练图像降噪网络进行训练，得到所述图像降噪网络。

在一些实施例中，所述第二获取子模块，包括：

第一采集单元，用于在预设场景下，获取固定采集设备采集的第一组图像和非固定采集设备采集的第二组图像；

第九确定单元，用于将所述第一组图像中与所述第二组图像相匹配的图像，作为所述参考帧训练图像；

第一处理单元，用于对所述第一组图像中除所述参考帧训练图像之外的图像进行平均处理，得到所述真值图像；

第十确定单元，用于将所述第二组图像作为所述噪声帧训练图像。

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的图像降噪方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、运动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现本申请实施例提供的图像降噪方法。

相应的，本申请实施例再提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，所述该计算机可执行指令被处理器执行时实现上述实施例提供的图像降噪方法。

相应的，本申请实施例提供一种电子设备，图10为本申请实施例电子设备的组成结构示意图，如图10所示，所述电子设备1000包括：一个处理器1001、至少一个通信总线、通信接口702、至少一个外部通信接口和存储器1003。其中，通信接口1002配置为实现这些组件之间的连接通信。其中，通信接口1002可以包括显示屏，外部通信接口可以包括标准的有线接口和无线接口。其中所述处理器1001，配置为执行存储器中图像处理程序，以实现上述实施例提供的图像降噪方法。

以上图像降噪装置、计算机设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同相应方法实施例相似的技术描述和有益效果，限于篇幅，可案件上述方法实施例的记载，故在此不再赘述。对于本申请图像降噪装置、计算机设备和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列特征的过程、方法、物品或者装置不仅包括那些特征，而且还包括没有明确列出的其他特征，或者是还包括为这种过程、方法、物品或者装置所固有的特征。在没有更多限制的情况下，由语句“包括一个……”限定的特征，并不排除在包括该特征的过程、方法、物品或者装置中还存在另外的相同特征。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像降噪方法，其特征在于，所述方法包括：

获取同一场景的参考帧图像和至少两帧第一图像；

将所述不同分辨率下的所述时间融合特征进行特征融合，得到降噪后的第二图像。

2.根据权利要求1所述的方法，其特征在于，所述基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征之前，所述方法还包括：

对所述参考帧图像中的像素点进行噪声估计，得到所述参考帧图像的第一噪声估计图；

采用自注意力机制，基于所述第一噪声估计图，确定所述参考帧图像的自注意力特征。

3.根据权利要求1或2所述的方法，其特征在于，所述获取同一场景的参考帧图像和至少两帧第一图像，包括：

获取所述同一场景的至少两帧未配准图像；

从所述至少两帧未配准图像中，将图像参数满足预设条件的第一未配准图像，确定为所述参考帧图像；

基于所述参考帧图像，对第二未配准图像进行预配准，得到所述至少两帧第一图像；其中，所述第二未配准图像为所述至少两帧未配准图像中除所述参考帧图像之外的剩余未配准图像。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述不同分辨率包括J个分辨率，J为大于1的整数；所述获取同一场景的参考帧图像和至少两帧第一图像之后，以及所述基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征之前，所述方法还包括：

对每一所述第一图像中的像素点进行噪声估计，得到每一所述第一图像的第二噪声估计图；

在所述J个分辨率下，基于每一所述第一图像的第二噪声估计图，对每一所述第一图像进行特征提取，得到每一所述第一图像的图像特征集合。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征，包括：

基于每一所述第一图像的图像特征集合中的第J图像特征和所述参考帧图像在第J分辨率下的图像特征，确定表征每一所述第一图像与所述参考帧图像的相关性的相关嵌入矩阵；其中，所述第J图像特征为每一所述图像在所述第J分辨率下的图像特征；所述第J分辨率为所述J个分辨率中最小的分辨率；

基于所述第J分辨率下的相关嵌入矩阵，确定每一所述第一图像的硬性注意力图和所述不同分辨率下的软性注意力图；

基于所述自注意力特征、每一所述第一图像的硬性注意力图和所述不同分辨率下的软性注意力图，确定每一所述第一图像在所述不同分辨率下的空间特征。

6.根据权利要求5所述的方法，其特征在于，所述基于每一所述第一图像的图像特征集合中的第J图像特征和所述参考帧图像在第J分辨率下的图像特征，确定表征每一所述第一图像与所述参考帧图像的相关性的相关嵌入矩阵，包括：

基于所述参考帧图像在所述第J分辨率下的图像特征，确定所述第J分辨率下的查询值；

确定每一所述第一图像的所述第J图像特征，在所述第J分辨率下的键值；

基于所述第J分辨率下的查询值和每一所述第一图像的所述第J分辨率下的键值，确定所述第J分辨率下的所述相关嵌入矩阵。

7.根据权利要求5或6所述的方法，其特征在于，所述基于所述第J分辨率下的相关嵌入矩阵，确定硬性注意力图和所述不同分辨率下的软性注意力图，包括：

基于所述第J分辨率下的相关嵌入矩阵中每一行的最大值，确定每一所述第一图像在所述第J分辨率下的软性注意力图；

基于所述第J分辨率下的软性注意力图，确定每一所述第一图像在所述不同分辨率下的软性注意力图；

基于所述最大值对应的索引，确定每一所述第一图像在所述第J分辨率下的硬性注意力图。

8.根据权利要求5至7任一项所述的方法，其特征在于，所述基于所述自注意力特征、同一分辨率下的所述软性注意力图和所述硬性注意力图，确定每一所述第一图像在所述同一分辨率下的空间特征，包括：

在所述同一分辨率为第j分辨率的情况下，基于每一所述第一图像在第(j-1)分辨率下的第(j-1)空间特征、所述硬性注意力图和在所述第j分辨率下的所述软性注意力图，确定每一所述第一图像在所述第j分辨率下的空间特征；其中，j＝2，…，J；在j为2的情况下，所述第(j-1)空间特征为基于所述自注意力特征、每一所述第一图像的所述硬性注意力图和所述软性注意力图确定的。

9.根据权利要求8所述的方法，其特征在于，所述在所述同一分辨率为第j分辨率的情况下，基于每一所述第一图像在第(j-1)分辨率下的第(j-1)空间特征、所述硬性注意力图和在所述第j分辨率下的所述软性注意力图，确定每一所述第一图像在所述第j分辨率下的空间特征，包括：

基于每一所述第一图像在所述第j分辨率下的图像特征和所述硬性注意力图，确定所述第j分辨率下的对齐噪声特征；

采用第一卷积操作，对所述第(j-1)空间特征和所述第j分辨率下的对齐噪声特征进行处理，得到第一卷积结果；

基于每一所述第一图像在所述第j分辨率下的所述软性注意力图和所述第一卷积结果，确定每一所述第一图像在所述第(j-1)分辨率下和所述第j分辨率下的空间特征差值；

将所述第(j-1)空间特征与所述空间特征差值进行融合，得到每一所述第一图像在所述第j分辨率下的空间特征。

10.根据权利要求1至9任一项所述的方法，其特征在于，所述将所述至少两帧第一图像在同一分辨率下的空间特征进行时间融合，得到每一分辨率下的时间融合特征，包括：

采用第二卷积操作，对所述至少两帧第一图像在所述同一分辨率下的空间特征进行处理，得到第一卷积特征集合；

基于所述第一卷积特征集合，确定所述同一分辨率下的时间方向注意力图；

采用第三卷积操作，对所述同一分辨率下的空间特征进行处理，得到第二卷积特征集合；

将所述同一分辨率下的所述时间方向注意力图与所述第二卷积特征集合进行融合，得到所述每一分辨率下的时间融合特征。

11.根据权利要求10任一项所述的方法，其特征在于，所述基于所述第一卷积特征集合，确定所述同一分辨率下的时间方向注意力图，包括：

将所述第一卷积特征集合中的第一卷积特征进行堆叠，得到第一张量特征；

在所述第一张量特征的预设维度上，对所述第一张量进行归一化，得到所述第一张量特征在所述同一分辨率下的时间方向注意力图；

所述将所述同一分辨率下的所述时间方向注意力图与所述第二卷积特征集合进行融合，得到所述每一分辨率下的时间融合特征，包括：

将所述第二卷积特征集合中的第二卷积特征进行堆叠，得到第二张量特征；

将所述同一分辨率下的所述时间方向注意力图与所述第二张量特征，在所述预设维度上进行融合，得到所述同一分辨率下的时间融合特征。

12.根据权利要求4至11任一项所述的方法，其特征在于，所述将所述不同分辨率下的时间融合特征进行特征融合，得到降噪后的第二图像，包括：

基于所述J个分辨率中的第j分辨率与第一分辨率之间的倍数关系，对所述第j分辨率下的时间融合特征进行调整，得到所述第j分辨率下的已调整融合特征；

将所述第j分辨率下的已调整融合特征和所述第一分辨率下的时间融合特征进行堆叠，得到堆叠时间融合特征；

采用第四卷积操作，对所述堆叠时间融合特征进行处理，得到所述第二图像。

13.根据权利要求1至12任一项所述的方法，其特征在于，所述将不同分辨率下的时间融合特征进行特征融合，得到降噪后的第二图像之后，所述方法还包括：

对所述第二图像进行图像信号处理，得到并输出所述第二图像对应的彩色图像。

14.根据权利要求1至13任一项所述的方法，其特征在于，所述图像降噪方法是通过所述图像降噪网络实现的，所述图像降噪网络包括：自注意力模块、独立特征提取模块、多尺度空间注意力模块、时间融合模块、跨尺度特征融合模块；所述基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征，包括：

采用所述自注意力模块对所述参考帧图像进行特征提取，得到所述参考帧图像的自注意力特征；

采用所述独立特征提取模块分别对所述参考帧图像和所述至少两帧第一图像进行特征提取，得到所述参考帧图像的图像特征和每一所述第一图像的图像特征集合；

采用所述多尺度空间注意力模块基于所述参考帧图像的自注意力特征、所述参考帧图像的图像特征和每一所述第一图像的图像特征集合，确定每一所述第一图像在不同分辨率下与所述参考帧图像的图像特征对齐后的空间特征；

所述将所述至少两帧第一图像在同一分辨率下的空间特征进行时间融合，得到每一分辨率下的时间融合特征，包括：

采用所述时间融合模块将所述至少两帧第一图像在同一分辨率下的空间特征进行时间融合，得到每一分辨率下的时间融合特征；

所述将所述不同分辨率下的所述时间融合特征进行特征融合，得到降噪后的第二图像，包括：

采用所述跨尺度特征融合模块将所述不同分辨率下的所述时间融合特征进行特征融合，得到降噪后的第二图像。

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

获取包括参考帧训练图像、噪声帧训练图像和真值图像的训练数据；

采用所述训练数据，对待训练图像降噪网络进行训练，得到所述图像降噪网络。

16.根据权利要求15所述的方法，其特征在于，所述获取包括参考帧训练图像、噪声帧训练图像和真值图像的训练数据，包括：

在预设场景下，获取固定采集设备采集的第一组图像和非固定采集设备采集的第二组图像；

将所述第一组图像中与所述第二组图像相匹配的图像，作为所述参考帧训练图像；

对所述第一组图像中除所述参考帧训练图像之外的图像进行平均处理，得到所述真值图像；

将所述第二组图像作为所述噪声帧训练图像。

17.一种图像降噪装置，其特征在于，所述装置包括：

18.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后能够实现权利要求1至16任一项所述的图像降噪方法。

19.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时能够实现权利要求1至16任一项所述的图像降噪方法。