CN117333399B

CN117333399B - 基于通道和空间调制的Raw域图像及视频去摩尔纹方法

Info

Publication number: CN117333399B
Application number: CN202311405552.6A
Authority: CN
Inventors: 岳焕景; 成一佳; 刘鑫; 杨敬钰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-04-23
Anticipated expiration: 2043-10-27
Also published as: CN117333399A

Abstract

本发明公开了基于通道和空间调制的Raw域图像及视频去摩尔纹方法，涉及图像信号处理技术领域。基于通道调制和空间调制的Raw域图像及视频去摩尔纹方法，包括如下步骤：S1、建立Raw域视频去摩尔纹数据集；S2、构建网络架构；S3、设计Raw域去摩尔纹方案，并依据所设计的方案搭建去摩尔纹模型；S4、利用深度学习Pytorch框架训练模型；S5、向模型中输入Raw域图像或视频去摩尔纹数据集中的测试数据对，获得Raw域图像及视频去摩尔纹结果；本发明利用提出的通道调制和空间调制模块、结合多阶段的网络训练策略，将Raw域图像及视频去摩尔纹性能提升到了新的高度。

Description

基于通道和空间调制的Raw域图像及视频去摩尔纹方法

技术领域

本发明涉及图像信号处理技术领域，尤其涉及一种基于通道调制和空间调制的Raw域视频去摩尔纹方法。

背景技术

摄影技术已有近两个世纪的历史，见证了摄影领域和人类文明的长足发展。从笨重的大型暗箱，摄影设备逐渐演化为轻便的微型摄像机，同时图像质量也从模糊的黑白影像逐渐升级到高质量的彩色图像和视频。随着移动手机摄像头的广泛普及，信息传递方式已经逐渐从文字为主转向了广泛使用图像和视频。

然而，当使用手机摄像头拍摄电子屏幕上的内容时，摩尔纹问题因频率混叠而显著存在，导致拍摄的图像和视频受到明显的干扰，表现为彩色条纹。同时，摩尔纹还会影响图像和视频的视觉特性，包括色彩饱和度、对比度和亮度。因此，图像和视频去除摩尔纹的任务逐渐备受研究者的关注，以应对摩尔纹对图像质量的不利影响。

近年来，随着深度学习网络的发展和去摩尔纹数据集的完善，图像去摩尔纹问题引起了广泛的研究兴趣。随着研究不断进展，去摩尔纹方法的性能也显著提升。这些方法通常在标准RGB色彩空间(sRGB域)中进行去摩尔纹处理，但摩尔纹问题不仅受到相机的彩色滤光阵列与显示屏网格之间的频率混叠影响，还与图像信号处理(Image SignalProcessing，ISP)中的去马赛克算法相关。在此背景下，一些研究者开始专注于像感(Raw)域的去摩纹方法。

与图像去摩纹相比，视频去摩纹的研究相对较少。最近，一些学者提出了具有时间一致性损失的视频去摩纹网络，并创建了视频去摩纹数据集。然而，该数据集受到了单一相机和屏幕组合的限制，限制了摩尔纹形态的多样性。同时，该数据集仅包含sRGB域的数据，而没有Raw域视频。因此，对Raw域视频去摩纹的研究变得尤为重要。

发明内容

本发明的目的在于去除屏摄图像及视频中的摩尔纹，并在此基础上提出一个基于通道调制和空间调制的Raw域图像及视频去摩尔纹方法。

为了实现上述目的，本发明采用了如下技术方案：

基于通道调制和空间调制的Raw域图像及视频去摩尔纹方法，具体包括以下步骤：

S1、建立Raw域视频去摩尔纹数据集：给定原始视频V_gt，将其以10fps帧率播放于显示屏上，用手机以30fps的帧率拍摄播放内容V_m，并通过时域对齐和空域对齐算法获得完全成对的输入数据对(V_m，V_gt)，进而获得Raw域视频去摩尔纹数据集；

S2、构建网络框架：设计一个基于通道调制和空间调制的Raw域图像及视频去摩尔纹网络。该网络包括基线网络(Baseline)、分支网络(Branch)、通道调制(CMod)和空间调制(SMod)模块。其中，通道调制和空间调制是本文方法的核心，与摩尔纹的数据分布特征紧密相关；

S3、设计方案、搭建模型：基于Raw域摩尔纹的通道分布特性，结合S1～S2中所述Raw域去摩尔纹数据集和网络框架设计图像及视频去摩尔纹方案，并依据所设计的方案搭建去摩尔纹模型，所述方案具体包括如下内容：

①视频去摩尔纹基线网络：将S1中所得的数据对(V_m，V_gt)输入Baseline。Baseline包括数据预处理、多帧特征提取、多帧对齐、多帧融合、图像重建等模块。本方法在训练阶段输入3帧相邻的视频帧。数据预处理将Bayer模式的Raw域输入数据(H×W)重组为通道顺序为RGGB的数据(4×H/2×W/2)，并对其进行黑电平校正和白平衡校正。多帧特征提取将3帧输入数据通过卷积运算处理为高维特征。多帧对齐将第1和第3帧特征向第2帧对齐以消除位移差。多帧融合将对齐后的3帧特征融合为1帧。图像重建模块将融合后的特征进行多尺度的去摩尔纹和重建，最终得到一帧输出图像V_dm。基线网络中的特征是颜色混合特征；

②视频去摩尔纹分支网络：分支网络包含多帧特征提取、多帧对齐、多帧融合和重建模块，特征提取和重建使用分组卷积。①中预处理后的数据经过分支网络的上述模块后，生成多个尺度的颜色分离特征；

③通道调制与空间调制：将②中生成的颜色分离特征通过通道调制和空间调制模块与①中基线网络的颜色混合特征进行融合；

④图像去摩尔纹网络：与①②③中的过程类似地，图像去摩尔纹网络包含基线网络、分支网络和调制模块，但基线和分支网络中不包含多帧对齐和多帧融合模块；

⑤损失函数设计：将V_dm和V_gt求损失函数，损失函数包括L1损失、感知损失和颜色校正损失；

S4、训练模型：对于视频去摩尔纹，利用深度学习Pytorch框架训练模型，遍历S1中所构建的视频去摩尔纹数据集，先训练S3①中的基线网络直到收敛，再加入S3中的②中的分支网络二次训练直到收敛，得到最终的稳定模型。对于图像去摩尔纹，遍历RDNet提出的图像数据集，同样进行两阶段的训练，得到最终的稳定模型；

S5、输出结果：将S1中获得的数据集中的数据对输入到稳定模型中，获得视频去摩尔纹或图像去摩尔纹结果。

优选地，所述方案S1进一步包括以下内容：

Raw域视频数据集制作方法包含数据采集、时域对齐和空域对齐等步骤。首先，利用多组设备采集多样化的摩尔纹数据，利用扩展图案识别斜线的方式完成视频帧的时域对齐，利用单应性矩阵和稠密光流相结合的方式完成单帧空域对齐。

最终，共获取到300组视频，每组视频包含60帧，每帧分辨率720p。所获得的数据对(V_m，V_gt)均包含Raw域和sRGB域两种类型。

优选地，S3中所述①具体包括以下内容：

A1、网络中的多帧对齐模块采用PCD(Pyramid,Cascading,Deformableconvolution)对齐模块，用于提高视频恢复的性能。这一模块的目标是在处理视频帧时，解决帧与帧之间的错位问题。Pyramid(金字塔)用于处理不同尺度下的图像信息，Cascading(级联)表示将多个卷积层连接在一起，以便更好地对齐相邻的视频帧，Deformableconvolution(可变卷积)允许卷积核的位置在图像上进行调整，以适应图像内容的变化，用于根据相邻帧的内容进行空间对齐，以减少错位问题；

A2、网络中的多帧融合模块采用通道注意力的方式，对多帧特征逐通道计算权重，并融合为单帧尺度的特征；

A3、网络中特征提取模块采用残差块提取特征；

A4、网络中重建模块采用三个尺度的网络结构重建图像，每个尺度采用残差块级联实现，多尺度之间加入连接以加强特征融合。

优选地，S3中所述③具体包括以下内容：

B1、通道调制模块采用可学习参数对特征进行调制。分支网络中共包含64个通道，其中R、G1、G2和B特征各包括16个通道，利用一个64维的一维数组构成可学习参数，与分支网络的特征逐通道相乘，并加入基线网络的特征中。

B2、空间调制模块采用较大感受野的特征来调制较小感受野的特征。该模块首先使用线性运算(通过1×1的普通卷积实现)来重组通道调制后的特征，然后通过大卷积核(11×11)的深度可分离卷积层生成的特征调制原始特征。调制后的特征进一步通过线性层进行处理，并引入了特征连接加深信息的交互和补充。

优选地，S3中所述⑤具体包括以下内容：

基线网络使用L1损失和感知损失进行训练，所述的损失函数如下：

其中是目标图像(GT)；/>表示网络输出图像；i代表尺度索引，输出图像包含三个尺度，训练过程对这三个尺度都添加了约束。ψ_j代表在第j层提取的VGG特征，实验使用VGG网络的conv1_2层。λ₁和λ₂是权重参数，分别控制L1损失和感知损失的权重。

分支网络进一步加入颜色校正损失进行训练，所述的损失函数如下：

其中，k是像素索引，N是像素数量。λ₃、λ₄和λ₅是权重参数，分别控制第二阶段的L1损失、感知损失和颜色校正损失的权重。

与现有技术相比，本发明提供了基于通道调制和空间调制的Raw域图像及视频去摩尔纹方法，具备以下有益效果：

(1)考虑到传统的跨通道卷积会增强不同通道中的共享摩尔纹模式，本发明提出了利用两个分支的方法。其中一个分支是用于共享特征增强的跨通道卷积，另一个是带有可学习参数的颜色组卷积，用于调制不同颜色组。将这两个分支的特征融合在一起有助于去除摩尔纹模式并恢复共享的视觉结构。

(2)摩尔纹模式通常具有较大的空间周期。因此，本发明提出利用具有较大感受野的特征(通过深度卷积实现)来调制具有较小感受野的特征。通过这种方式，可以利用较小的计算成本充分利用大感受野中的相关性。

(3)本发明构建了第一个真正的原始视频去摩尔纹数据集，其中包括具有时域和空域对齐的成对数据。由于原始视频采集的帧率不稳定，本发明提出了一种有效的时域对齐方法，通过插入交替图案来实现。实验结果表明，本发明的方法在原始视频和图像去摩尔纹数据集上均取得了最佳结果。

附图说明

图1为本发明实施例1中提出的Raw域视频去摩尔纹数据集的构建方法；

图2为本发明实施例1中提出的基于通道调制和空间调制的Raw域视频去摩尔纹方法的整体框架图；

图3为本发明实施例1中提出的基于通道调制和空间调制的Raw域图像去摩尔纹方法的整体框架图；

图4为本发明实施例1中提出的通道调制和空间调制模块结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1：

本发明提出一种基于通道调制和空间调制的Raw域图像及视频去摩尔纹方法，具体包括以下步骤：

S1、建立Raw域视频去摩尔纹数据集：请参阅图1，给定原始视频T_ori，将其以10fps帧率播放于显示屏上，获得显示视频用手机以30fps的帧率拍摄播放内容V_raw和V_sRGB，获得采样视频V_raw和V_sRGB，并通过时域对齐和空域对齐算法获得完全成对的输入数据对(V_raw，T_sRGB)，进而获得Raw域视频去摩尔纹数据集。此外，该数据集还包含V_raw对应的sRGB域图像V_sRGB，以及T_sRGB经过CycleISP处理的Raw域目标图像T_raw。

最终，共获取到300组视频，每组视频包含60帧，每帧分辨率720p。所获得的数据对均包含Raw域和sRGB域两种类型(V_raw，V_sRGB，T_raw，T_sRGB)。

S3、设计方案、搭建模型：基于Raw域摩尔纹的通道分布特性，结合S1～S2中所述Raw域去摩尔纹数据集和网络框架设计图像及视频去摩尔纹方案，并依据所设计的方案搭建去摩尔纹模型。

S4、训练模型：对于视频去摩尔纹，利用深度学习Pytorch框架训练模型，遍历S1中所构建的视频去摩尔纹数据集，先训练S3①中的基线网络直到收敛，再加入S3②中的分支网络二次训练直到收敛，得到最终的稳定模型。对于图像去摩尔纹，遍历RDNet提出的图像数据集，同样进行两阶段的训练，得到最终的稳定模型；

针对上述方法，更进一步包括如下内容：

请参阅图2-3，视频及图像去摩尔纹方法具体包括如下内容：

(1)视频去摩尔纹基线网络

将S1中所得的数据对(V_raw，V_gt)输入Baseline。Baseline包括数据预处理、多帧特征提取、多帧对齐、多帧融合、图像重建等模块。本方法在训练阶段输入3帧相邻的视频帧。数据预处理将Bayer模式的Raw域输入数据(H×W)重组为通道顺序为RGGB的数据(4×H/2×W/2)，并对其进行黑电平校正和白平衡校正。多帧特征提取将3帧输入数据通过卷积运算处理为高维特征。多帧对齐将第1和第3帧特征向第2帧对齐以消除位移差。多帧融合将对齐后的3帧特征融合为1帧。图像重建模块将融合后的特征进行多尺度的去摩尔纹和重建，最终得到一帧输出图像V_dm。基线网络中的特征是颜色混合特征。

网络中特征提取模块采用残差块提取特征

网络中的多帧对齐模块采用PCD(Pyramid,Cascading,Deformable convolution)对齐模块，用于提高视频恢复的性能。这一模块的目标是在处理视频帧时，解决帧与帧之间的错位问题。Pyramid(金字塔)用于处理不同尺度下的图像信息，Cascading(级联)表示将多个卷积层连接在一起，以便更好地对齐相邻的视频帧，Deformable convolution(可变卷积)允许卷积核的位置在图像上进行调整，以适应图像内容的变化，用于根据相邻帧的内容进行空间对齐，以减少错位问题。

网络中的多帧融合模块采用通道注意力的方式，对多帧特征逐通道计算权重，并融合为单帧尺度的特征；

网络中重建模块采用三个尺度的网络结构重建图像，每个尺度采用残差块级联实现，多尺度之间加入连接以加强特征融合。

(2)视频去摩尔纹分支网络

视频去摩尔纹分支网络包含多帧特征提取、多帧对齐、多帧融合和重建模块，特征提取和重建使用分组卷积。基线网络中预处理后的数据经过分支网络的上述模块后，生成多个尺度的颜色分离特征。

(3)通道调制与空间调制

请参阅图4，通道调制与空间调制模块将分支网络中生成的颜色分离特征通过通道调制和空间调制模块与基线网络的颜色混合特征进行融合。

通道调制模块采用可学习参数对特征进行调制。分支网络中共包含64个通道，其中R、G1、G2和B特征各包括16个通道，利用一个64维的一维数组构成可学习参数，与分支网络的特征逐通道相乘，并加入基线网络的特征中。

空间调制模块采用较大感受野的特征来调制较小感受野的特征。该模块首先使用线性运算(通过1×1的普通卷积实现)来重组通道调制后的特征，然后通过大卷积核(11×11)的深度可分离卷积层生成的特征调制原始特征。调制后的特征进一步通过线性层进行处理，并引入了特征连接加深信息的交互和补充。

(4)图像去摩尔纹网络

图像去摩尔纹网络与上述视频去摩尔纹过程类似，包含基线网络、分支网络和调制模块，但基线和分支网络中不包含多帧对齐和多帧融合模块。

(5)损失函数设计

将V_dm和V_gt求损失函数，损失函数包括L1损失、感知损失和颜色校正损失。

其中是目标图像(GT)，/>表示网络输出图像；i代表尺度索引，输出图像包含三个尺度，训练过程对这三个尺度都添加了约束。ψ_j代表在第j层提取的VGG特征，实验使用VGG网络的conv1_2层。λ₁和λ₂是权重参数，分别控制L1损失和感知损失的权重。

实施例2：

基于实施例1但有所不同之处在于：

本发明选取MBCNN、UHDM、VDMoiré等方法作对比。

表1：视频去摩尔纹实验结果对比

表1展示了视频去摩尔纹数据集上的所有方法的实验结果对比。除本发明外，其余所有对比方法都是sRGB域方法，表1为每个对比方法都补充了Raw域的对应实验。具体实现方式为，改变数据预处理和图像重建部分，使网络适配Raw域数据，数据预处理部分，将Raw域数据重组为4通道的输入，并将网络的首个卷积层的输入通道数由3改为4，图像重建部分，将网络结尾处添加一次上采样，以恢复图像原始的分辨率。Raw域对应的实验用*标注其名称，例如MBCNN*为MBCNN的Raw域版本。本发明在PSNR、SSIM和LPIPS三个指标上都取得了最优结果。

表2展示了本发明的图像去摩尔纹方法在RDNet图像数据集上的实验结果。PSNR受重建的色调影响较大，在观察实验结果数据时，SSIM和LPIPS是综合评估的良好补充指标，更能反映图像摩尔纹的去除情况。实验数据表明，本发明在所有三个指标上都取得了最佳结果。FHDe²Net的各项指标相对较低。RDNet虽然是Raw域方法，但其网络的设计不够高效，存在许多冗余，其对于摩尔纹的处理能力也相对较弱，各项指标都低于MBCNN。对于最有竞争力的MBCNN和UHDM，本发明提出的方法依然优于二者。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于通道和空间调制的Raw域图像及视频去摩尔纹方法，其特征在于，具体包括以下步骤：

S1、建立Raw域视频去摩尔纹数据集：给定原始视频V _gt，将其以10 fps帧率播放于显示屏上，用手机以30 fps的帧率拍摄播放内容V _m，并通过时域对齐和空域对齐算法获得完全成对的输入数据对（V _m，V _gt），进而获得Raw域视频去摩尔纹数据集；

S2、构建网络框架：设计一个基于通道调制和空间调制的Raw域图像及视频去摩尔纹网络，所述网络包括基线网络模块、分支网络模块、通道调制模块和空间调制模块；

S3、设计方案、搭建模型：基于Raw域摩尔纹的通道分布特性，结合S1～S2中所述Raw域视频去摩尔纹数据集和Raw域图像及视频去摩尔纹网络，搭建去摩尔纹模型，所述去摩尔纹模型具体包括如下内容：

①视频去摩尔纹基线网络：将S1中所得的数据对（V _m，V _gt）输入Baseline；所述Baseline包括数据预处理模块、多帧特征提取模块、多帧对齐模块、多帧融合模块和图像重建模块；在训练阶段输入3帧相邻的视频帧；所述数据预处理模块将Bayer模式的Raw域输入数据重组为通道顺序为RGGB的数据，并对其进行黑电平校正和白平衡校正；所述多帧特征提取模块将3帧输入数据通过卷积运算处理为高维特征；所述多帧对齐模块将第1和第3帧特征向第2帧对齐以消除位移差；所述多帧融合模块将对齐后的3帧特征融合为1帧；所述图像重建模块将融合后的特征进行多尺度的去摩尔纹和重建，最终得到一帧输出图像V _dm；所述基线网络中的特征为颜色混合特征；

②视频去摩尔纹分支网络：所述分支网络包含多帧特征提取模块、多帧对齐模块、多帧融合模块及多帧重建模块，所述多帧特征提取模块和多帧重建模块使用分组卷积；所述①中预处理后的数据经过分支网络的各模块处理后，生成多个尺度的颜色分离特征；

③通道调制与空间调制模块：将②中生成的颜色分离特征通过通道调制和空间调制模块与①中基线网络的颜色混合特征进行融合；

④图像去摩尔纹网络：所述图像去摩尔纹网络包含类似于①、②、③中的基线网络、分支网络和调制模块，但基线网络和分支网络中不包含多帧对齐和多帧融合模块；

⑤损失函数设计：将V _dm和V _gt求损失函数，所述损失函数包括L1损失、感知损失和颜色校正损失，其中，基线网络使用L1损失和感知损失进行训练，所述损失函数如下：

其中，表示目标图像（GT）；/>表示网络输出图像；i表示尺度索引，输出图像包含三个尺度，训练过程所述三个尺度均添加了约束；/>表示在第j层提取的VGG特征；/>和/>表示权重参数，分别控制L1损失和感知损失的权重；

分支网络进一步加入颜色校正损失进行训练，所述损失函数如下：

其中，k表示像素索引，N表示像素数量；、/>和/>表示权重参数，分别控制第二阶段的L1损失、感知损失和颜色校正损失的权重；

S4、训练模型：对于视频去摩尔纹，利用深度学习Pytorch框架训练模型，遍历S1中所构建的视频去摩尔纹数据集，先训练S3中的①中的基线网络直到收敛，再加入S3中的②中的分支网络二次训练直到收敛，得到最终的稳定模型；

对于图像去摩尔纹，遍历RDNet提出的图像数据集，重复上述两阶段训练，得到最终的稳定模型；

S5、输出结果：将S1中获得的数据集中的数据对输入到S4中所得的稳定模型中，获得视频去摩尔纹或图像去摩尔纹结果。

2.根据权利要求1所述的基于通道和空间调制的Raw域图像及视频去摩尔纹方法，其特征在于，所述S1进一步包括以下内容：

Raw域视频数据集制作方法包含数据采集、时域对齐和空域对齐步骤，具体内容如下：

S1.1、利用多组设备采集多样化的摩尔纹数据；

S1.2、利用扩展图案识别斜线的方式完成视频帧的时域对齐；

S1.3、利用单应性矩阵和稠密光流相结合的方式完成单帧空域对齐；

基于S1.1-S1.3操作，共获取到300组视频，每组视频包含60帧，每帧分辨率720p；所获得的数据对（V _m，V _gt）均包含Raw域和sRGB域两种类型。

3.根据权利要求1所述的基于通道和空间调制的Raw域图像及视频去摩尔纹方法，其特征在于，S3中所述①具体包括以下内容：

A1、网络中的多帧对齐模块采用PCD对齐模块，具体指（Pyramid, Cascading,Deformable convolution）对齐模块，其中，所述Pyramid用于处理不同尺度下的图像信息；所述Cascading表示将多个卷积层连接在一起，以更好地对齐相邻的视频帧；所述Deformable convolution允许卷积核的位置在图像上进行调整，以适应图像内容的变化，用于根据相邻帧的内容进行空间对齐，减少错位问题；

A3、网络中特征提取模块采用残差块提取特征；

4.根据权利要求1所述的基于通道和空间调制的Raw域图像及视频去摩尔纹方法，其特征在于，S3中所述③具体包括以下内容：

B1、通道调制模块采用可学习参数对特征进行调制；②中所述分支网络中共包含64个通道，其中R、G1、G2和B特征各包括16个通道，利用一个64维的一维数组构成可学习参数，与分支网络的特征逐通道相乘，并加入基线网络的特征中；

B2、空间调制模块采用较大感受野的特征来调制较小感受野的特征；所述空间调制模块首先使用线性运算来重组通道调制后的特征，然后通过大卷积核的深度可分离卷积层生成的特征调制原始特征；调制后的特征进一步通过线性层进行处理，并引入特征连接加深信息的交互和补充。