CN113205456A

CN113205456A - 一种面向实时视频会话业务的超分辨率重建方法

Info

Publication number: CN113205456A
Application number: CN202110481479.5A
Authority: CN
Inventors: 雷为民; 张璐; 张紫薇; 王玉; 张伟; 李�浩
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-03
Anticipated expiration: 2041-04-30
Also published as: CN113205456B

Abstract

本发明提供一种面向实时视频会话业务的超分辨率重建方法，涉及数字图像处理技术领域。该方法重新设计超分的各个模块，首先特征提取模块采用由粗到精的特征提取，采用残差的思想，加快特征提取的速度，将可变形卷积引入到视频超分辨率重建方法之中，通过循环神经网络的思想，对帧差学习模块进行动态调优从而获得一个最优对齐参数，用最优参数指导可变形卷积进行对齐操作，然后设计一个增强相关性的特征融合网络，进行相邻帧的特征融合，最后采用信息蒸馏的思想对重建模块进行设计，设计出上采样重建模块，利用信息蒸馏块提取更多边缘及纹理特征，与上采样的参考帧进行加和，生成最后的高分辨率视频帧。本发明的方法重建速度快，且重建质量好。

Description

一种面向实时视频会话业务的超分辨率重建方法

技术领域

本发明涉及数字图像处理技术领域，尤其涉及一种面向实时视频会话业务的超分辨率重建方法。

背景技术

近年来，随着移动通信和智能设备的快速发展，尤其是今年疫情下，实时视频会议、远程教育等应用已经成为大部分人们生活之中必不可少的一部分。正是由于人与人之间通过视频进行交互，所以人们对视频质量的要求也就变得越来越高。那么如何获取、传输及显示质量更好的高分辨率视频就变得越来越重要。然而在既满足视频业务需求又满足视频质量的前提下，存在两方面的挑战。

一方面，从硬件角度来说，目前视频捕获设备已经发展的很完备了，市场上也有各种分辨率的视频捕获设备，如720P、1080P等。对于捕获高分辨率视频，是一件容易的事。然而，对于交互式的视频业务，如视频会议来说，就会存在一种捕获与显示设备分辨率不适配进而导致视频质量下降的问题。例如视频的捕获设备的分辨率为720P，而显示设备的分辨率为1080P，这种不适配，就会导致视频的质量下降。

另一方面，从传输角度来说，在视频编码格式H.265标准下，1080P的高清视频序列需要的码率为5Mbps,4K视频序列需要的码率为20Mbps,8K视频序列则需要的码率为85Mbps。然而前几年M-Lab及其他机构的报告表示中国的平均带宽速度还不到2.5Mbps，在这种传输条件有限的情况下，传输实时的高分辨率视频，这种做法是不可靠的。解决这一问题最好的办法就是降低分辨率来调节码率。具体做法为编码前对视频帧进行连续的下采样，在解码后对视频进行上采样，提高视频分辨率。但上采样并不能恢复出更好的视频效果，恢复的视频质量仍然很差。

综上，对于实时视频会话来说，无论是硬件角度的分辨率适配问题还是传输角度的码率调控引起的分辨率下降的问题，使用超分辨率重建技术都会使其被更快和更有效的解决。但是，目前大多数视频超分辨率重建技术都是基于流媒体视频业务的，由于其计算量大，无法应用于实时会话类视频业务。

实时超分方法一般要满足以下两个要素：网络计算量小，网络重建质量好。但是将现有的视频超分方法应用于实时视频会话业务之上，会遇到两方面问题，一方面是方法可以达到实时性，但是重建质量非常差，例如VESPCN，虽然速度很快，但由于光流估计的准确性不能保证，所以重建质量很差。另一方面是方法重建质量比较好，但是不能达到实时性的要求，例如STVSR、FRVSR等网络，为了取得更好的重建效果，STVSR、FRVSR等网络将剧烈运动及严重模糊考虑在内，设计了非常复杂的网络架构，需要大量的运算，进而花费大量的时间用于视频的超分辨率重建，不能满足视频会话实时性的要求。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种面向实时视频会话业务的超分辨率重建方法，来解决适配问题及传输导致的视频质量下降问题，重建速度快，在速度上满足实时性，且重建质量好。

为解决上述技术问题，本发明所采取的技术方案是：

一种面向实时视频会话业务的超分辨率重建方法，具体步骤如下：

步骤1：训练与测试数据的准备；

采取两种训练数据同时进行训练，即公共数据训练集和以视频会话为场景的数据训练集；并选取两种数据集进行测试，分别是公共数据测试集和以视频会话为场景的数据测试集；

步骤2：数据增强；

将整个训练集使用双三次插值的方法将所有视频帧进行下采样，对训练集进行平移、旋转、加噪的操作；

步骤3：设计网络结构；

首先，将连续3帧视频帧送入到基于帧差参数对齐的超分辨率重建网络，提取出参考帧和相邻帧的特征，然后通过帧差参数对齐模块将相邻帧特征进行对齐，将对齐后的特征帧送入到融合模块进行特征融合操作，最后将融合后的特征及参考帧送入到上采样重建模块重建出最后的高分辨率视频帧；

步骤4：训练；

采用mini-batch的训练策略，对于网络权重的设置，采用高斯随机初始化来为超分网络权重赋予初值；使用Adam优化器对超分网络进行训练，最后使用PSNR和SSIM作为整个网络输出视频帧的评估指标；

步骤6：测试；

对公共数据测试集和以视频会话为场景的数据测试集分别进行测试，输入连续低分辨率图像进入卷积神经网络输出即为重建后的视频帧；

步骤7：将得到的连续超分辨率视频帧合成视频。

采用上述技术方案所产生的有益效果在于：本发明提供的面向实时视频会话业务的超分辨率重建方法，重新设计了超分的各个模块，首先特征提取模块采用由粗到精的特征提取，采用残差的思想，加快特征提取的速度，接着将可变形卷积引入到视频超分辨率重建方法之中，通过循环神经网络的思想，对帧差学习模块进行动态调优从而获得一个最优对齐参数，用最优参数指导可变形卷积进行对齐操作，然后，设计一个增强相关性的特征融合网络，更好的进行相邻帧的特征融合，最后采用信息蒸馏的思想对重建模块进行设计，设计出上采样重建模块，该模块利用信息蒸馏块提取更多边缘及纹理特征，将其与上采样的参考帧进行加和，生成最后的高分辨率视频帧。与目前视频超分方法相比，本发明的方法重建速度快，且重建质量好。

附图说明

图1为本发明实施例提供的面向实时视频会话业务的超分辨率重建方法网络流程图

图2为本发明实施例提供的帧差参数对齐模块；

图3为本发明实施例提供的时空特征融合模块；

图4为本发明实施例提供的上采样重建模块；

图5为本发明实施例提供的重建效果图；其中，(a)为低分辨率视频帧；(b)为重建后的高分辨率视频帧；

图6为本发明实施例提供的处理每一视频帧所用的时间展示图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例的面向实时视频会话业务的超分辨率重建方法如下所述。

步骤1：训练与测试数据的准备。

(1)训练数据：为了增强方法的泛化能力，本实施例采取两种训练数据同时进行训练，即公共数据训练集和以视频会话为场景的数据训练集。对于公共数据训练集来说，本实施例使用Vimeo-90K的9231个视频序列，由于目前以视频会话为场景的数据集并没有开源，所以本实施例自制100段，时长为5s，帧率为25FPS的不同类型会话场景下的视频，包括单人、多人、近距离、远距离、像头固定等。

(2)测试数据：仍然选取两种数据集进行测试，分别是公共数据测试集和以视频会话为场景的数据测试集，对于公共数据测试集，本实施例采用Vid4中的4个视频序列。对于以视频会话为场景的数据测试集来说，还是由于没有公开数据集，所以仍是以自制的数据集作为测试集，本实施例录制了4组包含4类会话场景的数据集，每组包含5个视频序列，每个视频序列时长为5s帧率为25FPS。

步骤2：数据增强。

将整个训练集使用双三次插值的方法将所有视频帧进行下采样，为了提升样本时间与空间分辨率的多样性及进一步增强整个超分网络的泛化能力，本实施例从训练数据中提取了接近35000组3*64*64大小的视频组块，对其进行平移、旋转、加噪等操作，最后产生了约85000个训练样本。

步骤3：设计网络结构。

本实施例所提出的网络模型的体系结构是以连续3帧作为输入，在送入网络之前，对输入视频帧进行标记，为了更好地进行后续的对齐操作，本实施例以中间帧作为参考帧，即I_t，其余帧作为相邻帧，即I_t-1、I_t+1；提取参考帧的特征F_t，和相邻帧的特征F_t-1、F_t+1，其目的就是提取有用特征，减少整个网络的计算量；接着将参考帧特征F_t及相邻帧特征F_t-1、F_t+1送入到两块帧差参数学习模块学习帧差参数θ₁、θ₂，同时将θ₁送入θ₂的帧差参数学习模块，将θ₂送入到θ₁的帧差参数学习模块，从而使两个帧差参数学习模块互相约束，得到最优帧差参数θ；将参考帧特征F_t及对齐后的相邻帧特征F`_t-1、F`_t+1分别送入一层卷积神经网络进行降维操作；将降维后的参考帧特征f_t及降维后的对齐帧特征f`_t-1、f`_t+1进行点积运算，得到低维空间帧间距离特征图f₁、f₂；使用一个卷积层对相关性增强的特征图f`₁、f`₂进行特征融合操作，得到融合的视频帧特征f；将融合特征送入到两个信息蒸馏块提取融合帧的高频细节信息；将高频细节信息进行上采样放大至目标高分辨率的大小；将上采样后的参考帧及上采样后的高频细节信息进行加和得到最后的高分辨率视频帧I_SR。

(3a)帧差参数对齐模块：如图2所示，它的提出主要是针对现有超分方法对齐模块的缺点进行改进，采用光流法的对齐操作由于光流及扭曲策略的不准确，导致整个网络的重建质量差，所以本实施例将可变形卷积引入到对齐操作中，利用卷积层估计出运动偏移，通过运动偏移指导可变形卷积完成对齐操作，值得注意的示帧差参数对齐模块之间采用循环网络的思想，即让两个帧差参数对齐模块的输出互相约束，进而得到一个最优的帧差参数。

帧差参数对齐的具体运算公式如下：

θ₁＝f_θ(F_i-1，F_i) (1)

θ₂＝f_θ(F_i+1，F_i) (2)

公式(1)、公式(2)分别表示计算相邻帧特征F_i-1、F_i+1与参考帧特征F_i之间的帧差参数，其中f_θ表示帧差参数生成函数。

θ＝F_θ(θ₁，θ₂) (3)

公式(3)表示采用循环网络的思想，利用输出的θ₁、θ₂互相约束，求取最优的帧差参数θ。F_θ表示帧差参数优化函数。

F`_i-1＝f_dc(F_i-1，θ) (4)

F`_i+1＝f_dc(F_i+1，θ) (5)

公式(4)、公式(5)分别表示对相邻帧特征F_i-1、F_i+1进行对齐操作，分别得到对齐的相邻帧F`_i-1、F`_i+1。其中f_dc表示可变形卷积对齐操作。

(3b)时空特征融合模块：如图3所示，首先将对齐后的相邻帧特征及参考帧特征送入到Embedding层进行降维，然后将降维后的参考帧及对齐相邻帧特征进行向量点积(DP)运算，从而得到低维空间帧间距离图像，再将该图像进行Sigmoid处理，去除值为负的部分，增强帧间的相关性。即相关性越强，得到的数值就越大，所包含的信息就越多。再将参考帧、经过Sigmoid处理的低维特征图及相邻帧进行向量元素积的运算。增强相关性强的部分，降低相关性弱的部分。然后使用一个卷积层将包含更多信息的相邻帧特征图像进行融合。

融合的具体运算公式如下：

公式(6)及公式(7)表示计算相邻帧与参考帧之间的距离h，其中θ和

是简单的基于卷积的滤波器实现的嵌入操作。

公式(8)及公式(9)表示帧间距离特征图与特征图像进行强化计算。

公式(10)表示对强化后的相邻帧进行特征融合。

(3c)上采样重建模块：如图4所示，将融合后的特征帧送入到信息蒸馏块1的增强单元中，尽可能多的提取及收集边缘纹理信息，之后将收集到的信息送入压缩单元进有效信息筛选，再将其送入到信息蒸馏块2的增强单元中在对特征进行更精细的提取，最后再提取有效特征信息，即由粗到精的提取信息。与此同时，将提取到的有效残差信息及低分辨率参考帧进行上采样操作，放大为目标高分辨率视频帧的大小，最后将有效残差信息与上采样的低分辨率视频帧进行加和，得到最后的高分辨率视频帧。

步骤4：训练。

本实施例使用pytorch框架实现的，采用mini-batch的训练策略,batch-size大小设置为64,对于网络权重的设置，本实施例采用高斯随机初始化来为超分网络权重赋予初值。通过设置β₁＝0.9，β₂＝0.999，使用Adam优化器对超分网络进行训练，初始学习率为1e-4，迭代次数为600，考虑到下采样尺度太大会导致感知质量下降，所以在数据集上均以×2尺度进行实验，最后使用PSNR和SSIM作为整个网络输出视频帧的评估指标。

在训练阶段，本实施例将RGB图像转换为等价的YCbCr色彩空间表示，其中Y是亮度分量，Cb和Cr是两个色度分量。因为人眼对图像的亮度最敏感，对其他颜色的敏感度较低。所以为了加快训练速度，本实施例只在YCbCr色彩空间的Y(亮度)通道上进行训练。

(4a)损失函数：本实施例利用两个损失函数去训练上采样重建模块以及帧差参数对齐模块，为了优化帧差参数对齐模块，使用参考帧特征作为ground-truth，让对齐的低分辨率相邻帧特征接近参考帧特征：

式(11)中F`_t表示对齐的相邻帧特征，F_i表示参考帧特征。

上采样重建模块的损失函数，同理，使用高分辨率参考帧作为ground-truth，通过L₁损失进行定义：

式(12)中x_SR表示重建后的高分辨率视频帧，x_HR表示原始的高分辨率视频帧。

结合这两个损失，整个基于帧差参数对齐的超分辨率重建方法的损失函数为：

L＝L_FDPA+L_UR (13)

本实施例对所提出的网络进行训练时，这两个损失可以被同时优化，所以，该网络是端到端可训练的，除此之外，本实施例所提出的超分网络还可以进行自我监督训练。

步骤6：测试。

分别对公共数据测试集和自制的以视频会话为场景的数据测试集进行测试，同样为了进一步提升重建速度，本实施例只在Y通道上使用本发明提出的重建方法对低分辨率视频进行超分辨率重建。对于Cb和Cr两个色度通道，选择使用双立方插值(Bicubic)对低分辨率图像上采样。RGB转换成YCbCr只需要很小的计算成本，这样只使用了近三分之一的重建时间，仍能大幅度提升重建图像的质量。最后将这三个通道的图像结合后转换成最终的RGB彩色图像。

步骤7：将得到的连续超分辨率视频帧合成视频。

本发明对视频图像重建的效果如图5所示，(a)为低分辨率视频帧，(b)为重建后的高分辨率视频帧。可以看到图5(a)中的画面质量很模糊，大多数细节是不可见的，经过重建后细节变得清楚了许多。图6为每一个视频帧的重建时间，对于低分辨率的视频进行重建，可以看到最慢为0.8秒，最快速度可达0.0072秒，基本满足实时重建的需求。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种面向实时视频会话业务的超分辨率重建方法，其特征在于：该方法包括如下步骤：

步骤1：训练与测试数据的准备；

步骤2：数据增强；

步骤3：设计网络结构；

步骤4：训练；

步骤6：测试；

步骤7：将得到的连续超分辨率视频帧合成视频。

2.根据权利要求1所述的面向实时视频会话业务的超分辨率重建方法，其特征在于：所述视频会话的场景的多种可能性包括摄像头位置、摄像头内人数，分别以单人近距离、单人中距离、单人远距离、多人近距离、多人中距离、多人远距离、多角度单人、多角度多人、像头固定的场景进行数据集的制作。

3.根据权利要求1或2所述的面向实时视频会话业务的超分辨率重建方法，其特征在于：所述步骤3的具体方法为：

帧差参数对齐模块中帧差参数对齐的具体运算公式如下：

θ₁＝f_θ(F_i-1，F_i) (1)

θ₂＝f_θ(F_i+1，F_i) (2)

公式(1)、公式(2)分别表示计算相邻帧特征F_i-1、F_i+1与参考帧特征F_i之间的帧差参数，其中，f_θ表示帧差参数生成函数；

θ＝F_θ(θ₁，θ₂) (3)

公式(3)表示采用循环网络的思想，利用输出的θ₁、θ₂互相约束，求取最优的帧差参数θ；F_θ表示帧差参数优化函数；

F`_i-1＝f_dc(F_i-1，θ) (4)

F`_i+1＝f_dc(F_i+1，θ) (5)

公式(4)、公式(5)分别表示对相邻帧特征F_i-1、F_i+1进行对齐操作，分别得到对齐的相邻帧F`_i-1、F`_i+1；其中，f_dc表示可变形卷积对齐操作；

融合模块进行特征融合的具体运算公式如下：

是简单的基于卷积的滤波器实现的嵌入操作；

公式(8)及公式(9)表示帧间距离特征图与特征图像进行强化计算；

公式(10)表示对强化后的相邻帧进行特征融合；

将融合后的特征帧送入到信息蒸馏块1的增强单元中，尽可能多的提取及收集边缘纹理信息，之后将收集到的信息送入压缩单元进有效信息筛选，再将其送入到信息蒸馏块2的增强单元中在对特征进行更精细的提取，最后再提取有效特征信息，即由粗到精的提取信息；与此同时，将提取到的有效残差信息及低分辨率参考帧进行上采样操作，放大为目标高分辨率视频帧的大小，最后将有效残差信息与上采样的低分辨率视频帧进行加和，得到最后的高分辨率视频帧。