CN113691792A

CN113691792A - 基于3d卷积的视频比特位深扩展方法、装置及介质

Info

Publication number: CN113691792A
Application number: CN202110885354.9A
Authority: CN
Inventors: 宋利; 温葛英杰; 解蓉; 李琳; 冯亚楠
Original assignee: Migu Cultural Technology Co Ltd; Shanghai Jiaotong University
Current assignee: Migu Cultural Technology Co Ltd; Shanghai Jiaotong University
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-11-23
Anticipated expiration: 2041-08-03
Also published as: CN113691792B

Abstract

本发明提供一种基于3D卷积的视频比特位深扩展方法、装置及介质，包括：S1：建立由低比特图像与对应的高比特图像组成有监督的数据集；S2：建立视频位深扩展网络，视频位深扩展网络以3D卷积为基本单元，以编码器‑解码器为主要结构；S3：以最小化损失函数为目标，优化更新视频位深扩展网络中的参数，每轮训练完成后使用测试集对视频位深扩展网络的学习效果和泛化能力进行测试；S4：训练完成后，将测试集中的低比特图像序列输入到网络中，重建出高比特图像序列。本发明保留了图像位深扩展方法性能的同时，改善了现有图像位深扩展方法在处理视频时由于同一区域前后处理结果不一致，易出现闪烁、抖动和假边缘移动等的问题。

Description

基于3D卷积的视频比特位深扩展方法、装置及介质

技术领域

本发明涉及一种视频图像处理技术领域的方法，具体是一种基于3D卷积的针对视频图像位宽扩展方法、装置及介质。

背景技术

图像位宽是指用来表示每个像素单通道颜色数量的比特数，比特数越大，像素单通道可以表示的颜色和亮度范围就越大，高比特图像意味着更大的颜色空间，更丰富的细节信息，更好的视觉质量，但同时也对存储和传输技术提出了更高的要求。所以在图像位宽的选择上通常存在微妙的效率权衡：一方面，为了减小存储空间，节省传输带宽，提高传输速度，在存储和传输过程中倾向于使用低比特的数据；另一方面，为了尽可能多地获取原始图像信息，充分利用显示设备的能力，满足用户不断提高的对视觉质量的要求，在处理和显示过程中倾向于使用高比特的数据。为了满足上述两方面的差异化需求，需要有从低比特图像重建出高比特图像的技术，这种重建过程叫做图像位宽扩展。

此外，现在越来越多的显示设备开始支持显示10比特的内容，然而现有的图像和视频内容大多都是8比特，为了使现有的图像和视频内容能够适应更高位宽的显示设备，同样需要进行图像位宽扩展。

视频位深扩展方法的目标是根据低位深的输入视频，恢复出具有更高视觉质量的高位深视频。与图像处理相比，视频位深扩展任务具有以下特点：(1)连续帧之间有可参考的冗余信息；(2)帧间一致性会影响视频的视觉质量；(3)对方法的时间和空间开销要求更严格。

目前存在一些传统的图像位宽扩展方法，这些方法主要依赖于手工设计的方法，要求使用者具有较深的先验知识和参数调节能力，可操作性不足，此外这些方法独立于数据，单纯是对问题的抽象，无法充分利用现有的大数据资源。近些年出现的一些基于学习的方法，没有充分考虑位宽扩展问题的特性，在网络结构设计上缺乏针对性，重建结果存在较多伪像。而在应用于视频时，这些方法均未考虑到帧间一致性，重建结果易出现抖动、闪烁等问题。

发明内容

针对现有的视频图像位宽扩展技术的缺陷，本发明提供一种基于3D卷积的视频比特位深扩展方法、装置及介质。

本发明的第一目的，提供一种基于3D卷积的视频比特位深扩展方法，包括：

S1：对于原始高比特视频，读取连续图像序列并切割成图像块，再量化为低比特图像，所述低比特图像与对应的高比特图像组成有监督的数据集，作为后续的训练集和测试集；

S2：建立视频位深扩展网络，所述视频位深扩展网络以3D卷积为基本单元，以编码器-解码器为主要结构，以视频连续多帧低比特图像序列作为输入，输出对应中间帧的高比特图像；

S3：以最小化损失函数为目标，使用所述训练集优化更新所述视频位深扩展网络中的参数，每轮训练完成后使用所述测试集对所述视频位深扩展网络的学习效果和泛化能力进行测试，保留期间量化指标最好的视频位深扩展网络；

S4：训练完成后，将所述测试集中的低比特图像序列输入到保留的所述视频位深扩展网络中，重建出高比特图像序列。

可选地，所述S1，包括：

获取原始高比特视频，去除所述原始高比特视频首尾的全黑帧，然后按比例将原始高比特视频图像序列划分为训练和测试用；其中：

对训练用的高比特图像序列，以设定步长的滑动窗口将训练图像切分成图像块，再用去尾法量化高比特图像得到对应的低比特图像，组成高比特-低比特图像对作为训练集；

对测试用的高比特图像序列，读取图像，经过去尾法量化得到低比特图像，组成高比特-低比特图像对作为测试集。

可选地，所述用去尾法量化高比特图像，具体为：

其中h与l分别代表高位深图像I_HBD与低位深图像I_LBD的位深度。

可选地，所述视频位深扩展网络，接收连续三帧作为输入，按照特征提取、特征对齐、特征融合和参考帧重建的处理顺序，完成对高位深参考帧的估计。

可选地，所述特征提取，使用一个3D卷积和3个3D ResBlock来完成特征提取操作，所述3D ResBlock包含2个有相同输出通道数的3D卷积层，每个卷积层后接一个ReLU激活函数，然后将输入跳过这2个卷积运算后直接加在最后的ReLU激活函数前。

可选地，所述特征对齐，使用多尺度结构进行隐式对齐，在2个尺度上对齐特征，共进行2次下采样操作，每次下采样由1个3D卷积完成，得到的特征经过3个3D ResBlock进一步对齐。

可选地，所述特征融合，使用与特征对齐部分对称的网络结构，首先用3个3DResBlock在1/16分辨率空间融合对齐后的特征，然后用1个3D转置卷积将特征图上采样到1/4分辨率空间，在1/4分辨率空间的融合操作由3个3DResBlock完成，最后用1个3D转置卷积将特征图恢复到与输入图像相同的分辨率；特征融合部分每次上采样操作的输出通过跳跃连接和特征对齐部分每次下采样操作的输入相连，二者求和的结果作为后续操作的输入。

可选地，所述参考帧重建，将融合后的特征图经过3个3D ResBlock处理，再由1个3D卷积层完成重建。

可选地，所述特征融合，采用了注意力机制，使得所述视频位深扩展网络更关注于想要的内容与位置，并通过将位置信息嵌入到通道注意力中，使得轻量级网络能够在更大的区域上进行注意力。

可选地，所述S3中，采用的损失函数为图像的L1损失函数，作为端到端网络的损失函数对所述视频位深扩展网络进行优化。

本发明的第二目的，提供一种视频比特位深扩展装置，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的视频比特位深扩展方法。

本发明的第三目的，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的视频比特位深扩展方法。

本发明充分考虑视频图像位宽扩展过程中需要利用连续帧包含的空域和时域信息的特性，使用训练卷积神经网络的方法和编码器-解码器结构来提取空域特征，其中卷积网络使用3D卷积作为基本单元来做到同时提取时域特征，并通过最小化评估图像位宽扩展效果的损失函数，训练网络获得了更好的客观评价指标和主观视觉效果。

与现有技术相比，本发明具有如下至少一种有益效果：

本发明上述视频比特位深扩展方法，在设计网络结构时，充分考虑了视频图像位宽扩展技术的特性，为重建细节和维持时间一致性设计了不同的分支，重建结果取得了更好的客观评价指标和主观视觉效果。

与广泛使用的非学习方法相比，本发明上述视频比特位深扩展方法，能更充分地利用数据，并且不需要使用者具有先验知识和参数调节能力，有利于实际应用；此外，本发明在重建效果和处理时间上取得了较好的平衡。

与图像位深扩展方法相比，本发明上述视频比特位深扩展方法能更充分地利用时域信息，维持了前后图像时间一致性，避免了闪烁、抖动现象的发生，在视频图像处理任务中取得了大幅优于单纯图像位深扩展方法的结果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其他特征、目的和优点将会变得更明显：

图1是本发明一实施例方法的流程图；

图2是本发明一实施例中深度学习网络的网络结构图；

图3是本发明一实施例中生成结果与现有方法的效果对比；

图4是本发明一实施例中添加注意力机制的效果对比。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

参照图1所示，本发明实施例中基于3D卷积的视频比特位深扩展方法的流程图，其包括：

S1：对于原始高比特视频，读取连续图像序列并切割成图像块，再量化为低比特图像，低比特图像与对应的高比特图像组成有监督的数据集，作为后续的训练集和测试集；

S2：建立视频位深扩展网络，视频位深扩展网络以3D卷积为基本单元来提取时域特征，以编码器-解码器为主要结构来提取空域特征；

S3：以最小化损失函数为目标，使用训练集优化更新视频位深扩展网络中的参数，每轮训练完成后使用测试集对视频位深扩展网络的学习效果和泛化能力进行测试，保留期间量化指标最好的视频位深扩展网络；

S4：训练完成后，将测试集中的低比特图像序列输入到保留的视频位深扩展网络中，重建出高比特图像序列。

本实施例中，S1、S2建立数据集和深度学习网络，S3通过优化设定的目标损失函数，更新视频位深扩展网络的参数，训练得到能完成视频图像位宽扩展任务的深度学习网络模型即视频位深扩展网络。视频位深扩展网络经过S3的训练学习从低比特图像重建高比特图像，在训练过程中，通过S4验证其泛化能力，训练结束后测试效果。在S3训练过程中，验证视频位深扩展网络在非训练数据上的泛化能力，并根据验证结果调整训练参数。S4对训练得到的深度学习网络模型(视频位深扩展网络)重建出高比特图像序列，并可以进行客观和主观评价。

本发明将图像位深扩展问题延伸到视频领域，上述实施例保留了图像位深扩展方法性能的同时，改善了现有图像位深扩展方法在处理视频时由于同一区域前后处理结果不一致，易出现闪烁、抖动和假边缘移动等的问题，也避免了非学习方法需要手动调节参数的弊端，更好地完成视频图像位深扩展任务。

下面结合预选实施例，详细介绍视频位深扩展网络的建立过程，以及对上述各个步骤中涉及的详细技术操作进行说明，应当理解的是，以下仅仅是本发明部分实施例。

1.高比特-低比特视频图像对应的数据集的建立

建立数据集时，对于原始高比特视频，读取连续图像序列并切割成图像块，再量化为低比特图像，与对应的高比特图像组成有监督的数据集，用于后续的训练和测试。

在本发明部分实施例中，为了能够得到高质量的高比特视频图像，选用现有的高质量高比特视频数据集，其具有如下特征：连续的图像帧，每帧均为16比特的png格式文件，像素取值范围为0-65535，颜色空间为RGB。对训练用的高比特图像序列，以设定步长的滑动窗口将训练图像切分成设定大小的图像块，再量化高比特图像得到对应的低比特图像，组成高比特-低比特图像对作为训练集；对测试用的高比特图像序列，读取设定分辨率的图像，经过量化得到低比特图像，组成高比特-低比特图像对作为测试集。

进一步的，使用去尾法量化得到对应的低比特图像，具体的，去尾法量化高位深图像过程为：

量化得到的低比特图像具有如下特征：连续的图像帧，每帧均为4比特的png格式文件，像素取值范围为0-16，颜色空间为RGB。

本实施例所得到的数据集中，训练数据集由16000组连续视频图像构成，测试数据集由800组连续视频图像构成。当然，在其他实施例中也可以是其他的数据集。

在其他优选实施例中：建立数据集时，首先去除视频数据集首尾的全黑帧，然后按照20：1的比例将原始高比特视频图像序列划分为训练和测试用。对训练用的高比特图像序列，以步长为90×90的滑动窗口将训练图像切分成大小为180×180的图像块，再用去尾法量化高比特图像得到对应的低比特图像，组成高比特-低比特图像对作为训练集；对测试用的高比特图像序列，读取分辨率为1024×436的图像，经过去尾法量化得到低比特图像，组成高比特-低比特图像对作为测试集。其中高比特图像是16比特的png格式文件，像素值范围是0-65535；低比特图像是4比特的png格式文件，像素值范围是0-15。以上数据集为本发明部分实施例时使用，也可选取其它高比特视频帧序列与其对应的低比特视频帧序列构成数据集，并不局限于上述16比特、4比特，但是需要使用同样的量化位数。

2.深度学习网络的建立

视频位深扩展网络以3D卷积为基本单元、编码器-解码器为主要结构。网络接收连续三帧作为输入，按照基于深度学习的视频恢复方法的基本流程，完成对高位深参考帧的估计。

视频恢复方法包含特征提取、对齐、融合以及图像重建四个步骤。

特征提取的目标是从输入的连续图像序列中提取特征。在特征提取步骤使用一个形状为3×3×3，步长为1的3D卷积和3个3D ResBlock来完成特征提取操作。3D ResBlock包含2个有相同输出通道数的3D卷积层，每个卷积层后接一个ReLU激活函数，然后将输入跳过这2个卷积运算后直接加在最后的ReLU激活函数前。由于3D卷积核成倍地增加了卷积核的参数数量，为了防止过拟合，使用残差结构是必要的。

特征对齐的目的是在特征融合之前将相邻帧的特征在空间位置上与参考帧对齐，使相同的部分得到增强，缺少的部分得到补充。在对齐步骤本发明使用编码器-解码器的多尺度结构进行隐式对齐，该模块在2个尺度上对齐特征，共进行2次下采样操作，可以减少高尺度上运动带来的偏移，并扩大3D卷积核的空间感受野。每次下采样由1个卷积核形状为3×3×3，步长为[1,2,2]的3D卷积完成，得到的特征经过3个3D ResBlock进一步对齐。

特征融合的目的是充分利用对齐后的多帧特征。在特征融合步骤使用与特征对齐部分对称的网络结构，首先用3个3D ResBlock在1/16分辨率空间融合对齐后的特征，然后用1个卷积核形状为3×3×3，步长为[1,2,2]的3D转置卷积将特征图上采样到1/4分辨率空间。在1/4分辨率空间的融合操作仍然由3个3DResBlock完成，最后用1个卷积核形状为3×3×3，步长为[1,2,2]的3D转置卷积将特征图恢复到与输入图像相同的分辨率。特征融合部分每次上采样操作的输出通过跳跃连接和特征对齐部分每次下采样操作的输入相连，二者求和的结果作为后续操作的输入，可以更多地保留视频的高分辨率信息。进一步的，作为优选方式，在特征融合步骤中，使用了注意力机制使得网络能够更关注于想要的内容与位置，并通过将位置信息嵌入到通道注意力中，使得轻量级网络能够在更大的区域上进行注意力，同时避免了产生大量的计算开销。

图像重建的目的是为了重建获取高位深参考帧结果。特征融合后的特征图首先经过3个3D ResBlock进一步处理，最后由1个形状为3×3×3，步长为[3,1,1]的3D卷积层完成重建。

当然，也可以根据其他需要调整上述的各层参数，并不局限于上述实施例记载。

3.以最小化损失函数为目标，并训练视频位深扩展网络。其中，损失函数由图像的像素特征决定，使用图像的L1损失作为目标损失函数，使用训练集不断优化模型参数，使得网络通过学习获得完成图像位宽扩展任务的能力。

以上训练完成后，得到可以完成图像位宽扩展任务的深度学习网络模型(视频位深扩展网络)，可以用于对输入图像进行图像位宽扩展。

4.实施条件与结果评估

本发明部分实施例用Python实现，使用的深度学习框架为Pytorch。训练过程中，批大小为8，使用Adam优化器，β₁＝0.9，β₂＝0.999，共训练25个epoch，初始学习率被设置为1×10^-4，训练20个epoch后，减小为1×10^-5再训练5个epoch。

选用PSNR和SSIM作为客观评价指标。PSNR反映了生成结果像素级别的质量，SSIM反映了生成结果的结构相关性。

表1本发明实施例与图像位深扩展方法的效果对比

表1中比较了本发明实施例与直接用图像位深扩展方法处理视频帧，得到的客观评价指标结果。所有图像位宽扩展方法的参数设定均采取默认值。其中MIG与IPAD为传统方法，BE-RTCNN和BitNet为基于深度学习的方法。从结果来看，传统方法中MIG方法具有较低的PSNR和SSIM值，但是计算速度很快；IPAD的PSNR和SSIM值较高，但是非常耗时，单帧处理时间超过了20s。基于深度学习的BE-RTCNN与BitNet在指标上均优于传统方法，同时也具有相对快的执行时间。本发明实施例的结果取得了最高的PSNR和SSIM值，执行时间也控制在可以接受的范围，可以认为本发明提出的方法相对于现有的传统以及基于深度学习的图像位宽扩展方法均在重建质量上有提升，结果实例可以参照图4。

表2本发明实施例与视频位深扩展方法的效果对比

表2中比较了本发明实施例与部分视频位宽扩展方法。其中Liu的方法先用传统方法对相邻帧进行自适应的运动补偿，然后用一个时空对称的视频位深扩展网络完成融合和重建，网络将对齐后的5帧作为输入，输出高位深的参考帧。CDVD-TSP是为视频去模糊任务设计的深度神经网络，该网络首先用PWC-Net预测光流，然后根据预测出的光流对齐相邻帧和参考帧，对齐后的结果被送入重建网络，得到去除模糊后的输出，使用与本发明相同的方法训练CDVD-TSP来完成视频位深扩展任务。从结果来看，本发明实施例相比于现有的视频位宽扩展方法在重建质量与效率上均有提升，结果实例可以参照图3。

图3是本发明实施例与现有视频图像位宽扩展方法的结果对比，可以看出，本发明实施例的结果更好地消除了重建结果中的假边缘和颜色失真等伪像。

图4是本发明实施例使用注意力机制的结果对比，可以看出，使用注意力机制后本发明实施例的结果能够更好地还原图像细节。

本发明还提供一种基于3D卷积的视频比特位深扩展系统的实施例，包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器用于调取程序指令以执行图1、图2所述的基于3D卷积的视频比特位深扩展方法。

基于相同的技术构思，本发明另一实施例中还提供一种视频比特位深扩展装置，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的视频比特位深扩展方法。

基于相同的技术构思，本发明另一实施例中还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的视频比特位深扩展方法。

本发明上述实施例的方法和装置、介质充分利用训练数据，考虑了视频图像位宽扩展技术的特性，避免了复杂的参数设计，减短了执行时间，并且考虑了图像的高层非线性特征，改善了现有的方法的重建效果。本发明考虑到帧间一致性，解决了重建结果易出现抖动、闪烁等问题，在重建效果和处理时间上取得了较好的平衡。

以上对本发明的具体实施例进行的描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于3D卷积的视频比特位深扩展方法，其特征在于，包括：

2.根据权利要求1所述的基于3D卷积的视频比特位深扩展方法，其特征在于：所述S1，包括：

3.根据权利要求2所述的基于3D卷积的视频比特位深扩展方法，其特征在于：所述用去尾法量化高比特图像，具体为：

4.根据权利要求2所述的基于3D卷积的视频比特位深扩展方法，其特征在于：所述高比特-低比特图像对，其中：

高比特图像是16比特的png格式文件，像素值范围是0-65535；

低比特图像是4比特的png格式文件，像素值范围是0-15。

5.根据权利要求1所述的基于3D卷积的视频比特位深扩展方法，其特征在于：所述视频位深扩展网络，接收连续三帧作为输入，按照特征提取、特征对齐、特征融合和参考帧重建的处理顺序，完成对高位深参考帧的估计。

6.根据权利要求5所述的基于3D卷积的视频比特位深扩展方法，其特征在于：所述视频位深扩展网络，其中：

所述特征提取，使用一个3D卷积和3个3D ResBlock来完成特征提取操作，所述3DResBlock包含2个有相同输出通道数的3D卷积层，每个卷积层后接一个ReLU激活函数，然后将输入跳过这2个卷积运算后直接加在最后的ReLU激活函数前；

所述特征对齐，使用多尺度结构进行隐式对齐，在2个尺度上对齐特征，共进行2次下采样操作，每次下采样由1个3D卷积完成，得到的特征经过3个3DResBlock进一步对齐；

所述特征融合，使用与特征对齐部分对称的网络结构，首先用3个3DResBlock在1/16分辨率空间融合对齐后的特征，然后用1个3D转置卷积将特征图上采样到1/4分辨率空间，在1/4分辨率空间的融合操作由3个3D ResBlock完成，最后用1个3D转置卷积将特征图恢复到与输入图像相同的分辨率；特征融合部分每次上采样操作的输出通过跳跃连接和特征对齐部分每次下采样操作的输入相连，二者求和的结果作为后续操作的输入；

参考帧重建，将融合后的特征图经过3个3D ResBlock处理，再由1个3D卷积层完成重建。

7.根据权利要求6所述的基于3D卷积的视频比特位深扩展方法，其特征在于：所述特征融合，其中：采用注意力机制，使得所述视频位深扩展网络更关注于想要的内容与位置，并通过将位置信息嵌入到通道注意力中，使得轻量级网络能够在更大的区域上进行注意力。

8.根据权利要求1所述的基于3D卷积的视频比特位深扩展方法，其特征在于：所述S3中，采用的损失函数为图像的L1损失函数，作为端到端网络的损失函数对所述视频位深扩展网络进行优化。

9.一种视频比特位深扩展装置，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的视频比特位深扩展方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的视频比特位深扩展方法。