CN112584158B

CN112584158B - 视频质量增强方法和系统

Info

Publication number: CN112584158B
Application number: CN201910945672.2A
Authority: CN
Inventors: 许燚; 高龙文; 田凯; 周水庚; 孙胡杨
Original assignee: Fudan University; Shanghai Bilibili Technology Co Ltd
Current assignee: Fudan University; Shanghai Bilibili Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-10-15
Anticipated expiration: 2039-09-30
Also published as: CN112584158A

Abstract

本申请实施例提供了一种视频质量增强方法，该方法包括：获取待处理的帧序列，所述帧序列包括目标帧以及与所述目标帧邻近的多个邻近帧；提取所述帧序列中各个帧的特征信息；根据所述各个帧的特征信息获取用于增强所述目标帧的参考特征信息；根据所述参考特征信息和所述目标帧，获取对应于所述目标帧的目标增强帧。本申请实施例可以有效地将有损视频恢复为高质量视频。

Description

视频质量增强方法和系统

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种视频质量增强方法、系统、计算机设备及计算机可读存储介质。

背景技术

随着视频业务在各个领域的应用和发展，视频编解码成为各方关注和发展的关键技术之一。所谓视频编码是指通过特定的压缩技术，将某个视频格式的文件转换成另一种视频格式文件的方式，从而可以降低传输过程中的带宽成本和在存储介质中的占用空间。

然而，视频压缩通常是基于某种视频压缩算法进行有损压缩，所得到的有损视频往往伴随各种压缩伪像，例如阻塞，边缘/纹理浮动，蚊子噪声和急动等。如上所述，视频压缩产生的噪声会不可避免地会降低视频的画面质量，进而降低视频观看者的视觉体验。因此，如何将这些有损视频恢复为高质量视频，成为了各方研究的重点课题。

发明内容

本申请实施例的目的是提供一种视频质量增强方法、系统、计算机设备及计算机可读存储介质，可以用于解决如何提取视频质量的技术问题。

本申请实施例的一个方面提供了一种视频质量增强方法，所述方法包括：获取待处理的帧序列，所述帧序列包括目标帧以及与所述目标帧邻近的多个邻近帧；提取所述帧序列中各个帧的特征信息；根据所述各个帧的特征信息获取用于增强所述目标帧的参考特征信息；根据所述参考特征信息和所述目标帧，获取对应于所述目标帧的目标增强帧。

可选的，所述多个邻近帧包括多个前邻近帧和多个后邻近帧；其中，所述多个前邻近帧包括与所述目标帧相邻并位于所述目标帧前面的多个连续的帧，所述多个后邻近帧包括与所述目标帧相邻并位于所述目标帧后面的多个连续的帧。

可选的，提取所述帧序列中各个帧的特征信息，包括：通过编码器提取所述各个帧的特征信息，其中，所述编码器包括多个卷积层。

可选的，根据所述各个帧的特征信息获取用于增强所述目标帧的参考特征信息，包括：根据所述各个帧的特征信息、所述帧序列的时序关系和相邻的两个帧之间的帧间相似度，获取所述参考特征信息。

可选的，根据所述各个帧的特征信息、所述帧序列的时序关系和相邻的两个帧之间的帧间相似度，获取所述参考特征信息，包括：根据所述帧序列的时序关系，将所述各个帧的特征信息输入到非局部卷积长短期记忆网络中，通过所述非局部卷积长短期记忆网络获取所述参考特征信息，所述参考特征信息包括对应于所述目标帧的隐藏状态信息和/或单元状态信息；其中，所述非局部卷积长短期记忆网络包括前向非局部卷积长短期记忆网络和后向非局部卷积长短期记忆网络，所述前向非局部卷积长短期记忆网络包括第一非局部模块和前向LSTM模块，所述后向非局部卷积长短期记忆网络包括第二非局部模块和后向LSTM模块，所述第一非局部模块用于根据相邻的两个帧之间的帧间相似度来确定这两个帧中前一帧输出的隐藏状态信息的权重和前一帧输出的单元状态信息的权重，所述第二非局部模块用于根据相邻的两个帧之间的帧间相似度来确定这两个帧中后一帧输出的隐藏状态信息的权重和后一帧输出的单元状态信息的权重。

可选的，根据所述帧序列的时序关系，将所述各个帧的特征信息输入到非局部卷积长短期记忆网络中，通过所述非局部卷积长短期记忆网络获取所述参考特征信息，包括：接收t时刻对应的第t帧的特征信息，其中t时刻为当前时刻；通过所述第一非局部模块接收t-1时刻输出的隐藏状态信息和单元状态信息，并根据第t帧与所述t-1时刻的第t-1帧之间的帧间相似度，将所述t-1时刻输出的隐藏状态信息和单元状态信息转换为所述t-1时刻的目标隐藏状态信息和目标单元状态信息；将第t帧的特征信息、t-1时刻的目标隐藏状态信息和目标单元状态信息输入到所述前向LSTM模块中，通过所述前向LSTM模块输出t时刻的隐藏状态信息；通过所述第二非局部模块接收t+1时刻输出的隐藏状态信息和单元状态信息，并根据第t帧与所述t+1时刻的第t+1帧之间的帧间相似度，将所述t+1时刻输出的隐藏状态信息和单元状态信息转换为所述t+1时刻的目标隐藏状态信息和目标单元状态信息；将第t帧的特征信息、t+1时刻的目标隐藏状态信息和目标单元状态信息输入到所述后向LSTM模块中，通过所述后向LSTM模块输出t时刻的隐藏状态信息；根据所述前向LSTM模块输出的t时刻的隐藏状态信息和所述后向LSTM模块输出的t时刻的隐藏状态信息，得到所述非局部卷积长短期记忆网络t时刻的隐藏状态信息；其中，所述t时刻对应的第t帧为所述目标帧时，所述非局部卷积长短期记忆网络t时刻的隐藏状态信息则为所述参考特征信息。

可选的，计算第t帧与所述t-1时刻的第t-1帧之间的帧间相似度，包括：通过相似度矩阵表示所述第t帧和第t-1帧之间的帧间相似度；其中，所述相似度矩阵中包括多个元素，每个元素表示第t帧的其中一个特征值与第t-1帧的其中一个特征值之间的相似度。

可选的，根据所述参考特征信息和所述目标帧，获取对应于所述目标帧的目标增强帧，包括：将所述参考特征信息输入到解码器中，通过所述解码器输出残差；及根据所述残差和所述目标帧，得到所述目标增强帧。

本申请实施例的另一个方面还提供了一种视频质量增强系统，所述系统包括：第一获取模块，用于获取待处理的帧序列，所述帧序列包括目标帧以及与所述目标帧邻近的多个邻近帧；提取模块，用于提取所述帧序列中各个帧的特征信息；第二获取模块，用于根据所述各个帧的特征信息获取用于增强所述目标帧的参考特征信息；第三获取模块，用于根据所述参考特征信息和所述目标帧，获取对应于所述目标帧的目标增强帧。

本申请实施例的再一个方面提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，上述处理器执行上述计算机程序时用于实现如上任一项所述的视频质量增强方法的步骤。

本申请实施例的又一个方面提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时用于实现如上任一项所述的视频质量增强方法的步骤。

本申请实施例提供的视频质量增强方法、系统、计算机设备及计算机可读存储介质，考虑到视频片段作为帧序列，对于帧序列中的每一帧，其与相邻的多个邻近帧之间均可能存在一定时序关联性，比如纹理、颜色、动作轨迹等。以目标帧为例，与其相邻的多个邻近帧中可能存在该目标帧在压缩过程中丢失的信息，因此可以藉由这些邻近帧的信息来修复该目标帧，以得到该目标帧对应的高质量的增强帧，有效提升画面质量。

附图说明

图1示意性示出了根据本申请实施例一的视频质量增强方法的流程图；

图2示意性示出了根据本申请实施例一的视频质量增强方法的另一流程图；

图3示意性示出了根据本申请实施例一的视频质量增强方法的另一流程图；

图4示意性示出了非局部卷积长短期记忆网络的操作架构图；

图5示意性示出了图3中步骤S104”的子流程图；

图6示意性示出了视频质量增强方法的操作架构图；

图7示意性示出了根据本申请实施例中步骤S106的子流程图；

图8示意性示出了PSNR和SSIM曲线对比图；

图9示意性示出了根据本申请实施例二的视频质量增强系统的框图；以及

图10示意性示出了根据本申请实施例三的适于实现视频质量增强方法的计算机设备的硬件架构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

下面以将有损视频的目标帧X_t进行增强操作得到增强帧

为例，进行示例性的描述。

实施例一

图1示意性示出了根据本申请实施例一的视频质量增强方法的流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。

如图1所示，该视频质量增强方法可以包括步骤S100～步骤S106，其中：

步骤S100，获取待处理的帧序列，所述帧序列包括目标帧以及与所述目标帧邻近的多个邻近帧。

所述帧序列为χ_t＝{X_t-T,...,X_t+T}，可以是一个有损视频的一个视频片段的帧序列，该有损视频可以基于各类编码压缩后的视频，如基于H.264/AVC或H.265/HEVC等压缩算法压缩后的视频。不难理解，经由压缩后得到的有损视频可能丢失了诸多信息从而造成各种压缩伪像。

在本实施例中，旨在：根据各个帧的邻近帧，对各个帧实施图像增强操作，以提升各个帧的图像质量。为了便于描述，本文以将目标帧X_t进行增强操作得到增强帧

为例进行描述。

考虑到视频片段作为帧序列，对于帧序列中的每一帧，其与前后相邻的多个邻近帧之间具有较多的时序关联性，比如纹理、颜色、动作轨迹等。例如，相邻的两个帧中，前一帧中存在物体A，后一帧也存在物体A，则这个物体A即是这两个帧之间的时空依赖信息，基于这种时空依赖信息可以尝试用细节好的帧来修复细节差的帧。因此，对于目标帧X_t而言，其在压缩过程中丢失的信息可能存在于这些邻近帧中，因此可以从这些邻近帧中提取这些信息，并将提取的这些信息用于修复所述目标帧X_t，以实现目标帧X_t的图像增强操作，减少图像伪影。在本实施例中，所述目标帧X_t多个邻近帧包括多个前邻近帧和多个后邻近帧。其中，所述多个前邻近帧包括与所述目标帧X_t相邻并位于所述目标帧X_t前面的多个连续的帧，如，X_t-1、X_t-2、…X_t-T。所述多个后邻近帧包括与所述目标帧X_t相邻并位于所述目标帧X_t后面的多个连续的帧，如，X_t+1、X_t+2、…X_t+T。T为≥3的自然数，T优选为7，当然多个后邻近帧的数量和多个前邻近帧的数量也可以不同。本发明人发现，如果利用前后一帧或前后两帧或两个最近的PQF(peak-quality frame，峰值质量帧)作为参考帧对目标帧X_t进行优化，优化效果可能不高。其中，利用前后一帧或前后两帧作为参考帧非常容易错过其他相邻帧的一些重要信息，利用峰值质量帧作为参考帧容易错过对目标帧X_t来说很重要的信息，例如，本发明人发现目标帧X_t附近的低质量帧中可能也会存在远高于目标帧X_t甚至是峰值质量帧的局部块。

因此，为确保目标帧X_t的优化质量，所述帧序列为{X_t-T,...,X_t+T}中的每个帧均可以作为参考帧，用于目标帧X_t的图像增强操作。

步骤S102，提取所述帧序列中各个帧的特征信息。

可以采用HOG(Histogram of Oriented Gradient，方向梯度直方图)、SIFT(Scale-invariant feature transform，尺度不变特征变换)等方式提取各个帧的特征信息，也可以采用深度神经网络提取各个帧的特征信息。

在示例性的实施例中，计算机设备2可以配置编码器，其中，所述编码器包括卷积神经网络和非线性激活函数，其中，所述卷积神经网络包括多个卷积层。通过所述编码器可以从所述各个帧中提取出相应的特征信息，例如，从目标帧X_t提取出相应的特征信息F_t，从其中一个邻近帧X_t-1提取出相应的特征信息F_t-1，…以得到与帧序列{X_t-T,...,X_t+T}对应的特征信息序列{F_t-T...F_t-2,F_t-1,F_t,F_t+1,F_t+2,...F_t+T}。

步骤S104，根据所述各个帧的特征信息获取用于增强所述目标帧X_t的参考特征信息。

所述参考特征信息可以是所述帧序列中的高频信息。

在示例性的实施例中，如图2所示，所述步骤S104可以包括：步骤S104'，根据所述各个帧的特征信息、所述帧序列的时序关系和相邻的两个帧之间的帧间相似度，获取所述参考特征信息。

为了能够基于所述帧序列

的时序关系来提取对所述目标帧X_t有用的参考特征信息：可以引入一种记忆依赖机制，用于捕捉帧序列的时空依赖信息(spatiotemporalinformation)，如能够记忆其接收到的重要信息的递归神经网络，即可以很好的；同时，还可以引入非局部机制，用于处理不同帧之间的运动轨迹(motion patterns)，如大运动或模糊运动轨迹。

在示例性的实施例中，根据记忆依赖机制和非局部机制提供了一种示例性的神经网络结构，即非局部卷积长短期记忆网络(NL-ConvLSTM，Non-local Convolutional LongShort Term Memory)，以通过所述非局部卷积长短期记忆网络获取所述参考特征信息，如图3所示，具体包括如下步骤：步骤S104”，将所述各个帧的特征信息输入到非局部卷积长短期记忆网络中，通过所述非局部卷积长短期记忆网络获取所述参考特征信息，所述参考特征信息包括对应所述目标帧X_t的隐藏状态信息和/或单元状态信息。

其中，所述非局部卷积长短期记忆网络包括前向非局部卷积长短期记忆网络和后向非局部卷积长短期记忆网络，所述前向非局部卷积长短期记忆网络包括第一非局部模块和前向LSTM模块，所述后向非局部卷积长短期记忆网络包括第二非局部模块和后向LSTM模块，所述第一非局部模块用于根据相邻的两个帧之间的帧间相似度来确定这两个帧中前一帧输出的隐藏状态信息的权重和前一帧输出的单元状态信息的权重，所述第二非局部模块用于根据相邻的两个帧之间的帧间相似度来确定这两个帧中后一帧输出的隐藏状态信息的权重和后一帧输出的单元状态信息的权重。

以前向非局部卷积长短期记忆网络在t时刻的工作流程为例：

如图4所示，不同于传统LSTM结构，t时刻仅输入特征信息F_t；前向非局部卷积长短期记忆网络，t时刻需要输入特征信息F_t和t-1时刻的特征信息F_t-1，并且，并不是直接输入t-1时刻输出的隐藏状态信息H_t-1和单元状态信息C_t-1，而是：计算t时刻对应的第t帧和t-1时刻对应的第t-1帧之间的帧间相似度S_t，并以帧间相似度S_t作为用于转换隐藏状态信息H_t-1和单元状态信息C_t-1的权重，以得到可以在t时刻输入到前向非局部卷积长短期记忆网络的目标隐藏状态信息

和目标单元状态信息

在示例性的实施例中，如图5所示，所述步骤S104”可以进一步包括以下步骤：步骤S500，接收t时刻对应的第t帧的特征信息，其中t时刻为当前时刻；步骤S502，通过所述第一非局部模块接收t-1时刻输出的隐藏状态信息H_t-1和单元状态信息C_t-1，并根据第t帧与所述t-1时刻的第t-1帧之间的帧间相似度，将所述t-1时刻输出的隐藏状态信息H_t-1和单元状态信息C_t-1转换为所述t-1时刻的目标隐藏状态信息

和目标单元状态信息

步骤S504，将第t帧的特征信息、t-1时刻的目标隐藏状态信息

和目标单元状态信息

输入到所述前向LSTM模块中，通过所述前向LSTM模块输出t时刻的隐藏状态信息H_t；步骤S506，通过所述第二非局部模块接收t+1时刻输出的隐藏状态信息

和单元状态信息

并根据第t帧与所述t+1时刻的第t+1帧之间的帧间相似度，将所述t+1时刻输出的隐藏状态信息

和单元状态信息

转换为所述t+1时刻的目标隐藏状态信息

和目标单元状态信息

步骤S508，将第t帧的特征信息、t+1时刻的目标隐藏状态信息

和目标单元状态信息

输入到所述后向LSTM模块中，通过所述后向LSTM模块输出t时刻的隐藏状态信息

步骤S510，根据所述前向LSTM模块输出的t时刻的隐藏状态信息H_t和所述后向LSTM模块输出的t时刻的隐藏状态信息

得到所述非局部卷积长短期记忆网络t时刻的隐藏状态信息。其中，所述t时刻对应的第t帧为所述目标帧X_t时，所述非局部卷积长短期记忆网络t时刻的隐藏状态信息则可以作为所述参考特征信息。

其中，计算第t帧与所述t-1时刻的第t-1帧之间的帧间相似度，包括：通过相似度矩阵表示所述第t帧和第t-1帧之间的帧间相似度；其中，所述相似度矩阵中包括多个元素，每个元素表示第t帧的其中一个特征值与第t-1帧的其中一个特征值之间的相似度。计算第t帧与所述t+1时刻的第t+1帧之间的帧间相似度，亦同。

所述前向非局部卷积长短期记忆网络和所述后向非局部卷积长短期记忆网络类似，二者区别在于时序相反。为了方便理解，现在以前向非局部卷积长短期记忆网络为例，进一步介绍非局部卷积长短期记忆网络的工作原理。

步骤一：计算第t-1帧和第t帧之间的相似度矩阵，例如通过公式①：

①：S_t＝NL(F_t-1,F_t)其中，S_t∈R^N*N，F_t-1为第t-1帧的特征信息，F_t为第t帧的特征信息，S_t为第t-1帧和第t帧之间的相似度矩阵。特征信息是以特征图的形式存在的，每个特征图可以包括N个特征值，因此，所述相似度矩阵则对应有N*N个元素，相似度矩阵的每个元素等于第t-1帧的特征图中的其中一个特征值和第t帧的特征图中的其中一个特征值之间的相似度，以相似度矩阵中的元素S_t(i，j)为例，其通过第t-1帧的特征图中的特征值i和第t帧的特征图中特征值j得到，具体如以下公式②和③：

②：D_t(i,j)＝||F_t-1(i)-F_t(j)||₂

③：

其中，i,j∈{1,2,3,...N}，D_t(i,j)为第t-1帧的特征图中的特征值i与第t帧的特征图中的特征值j之间的距离，如欧式距离；S_t(i,j)为第t-1帧中的特征图中的特征值i与第t帧的特征图中的特征值j之间的相似度，其中，1≤i≤N，1≤j≤N，∑_iS_t(i，j)＝1，β为常量；

其中，为了提升计算速度，可以将F_t-1和F_t向量化，以在计算欧式距离时实施并行计算操作，并行计算公式如下：

其中，1∈R^N*¹。

步骤二：根据第t-1帧和第t帧之间的相似度矩阵，将t-1时刻输出的隐藏状态信息和单元状态信息进行转换操作，以得到目标隐藏状态信息和目标单元状态信息，具体可以通过公式④：

④：

其中，H_t-1为t-1时刻输出的隐藏状态信息，C_t-1为t-1时刻输出的单元状态信息，

是通过第一非局部模块转换后的目标隐藏状态信息，

是通过第一非局部模块转换后的目标单元状态信息，

和

作为t时刻的前向LSTM模块的输入数据；

步骤①和②是在第一非局部模块中实施的。

第一非局部模块用于帮助捕获帧序列

中的轨迹趋势，可以被看着为是一种注意力机制。与运动补偿(motion compensation)相比，所述第一非局部模块可以更有效地捕捉到全局运动轨迹(global motion patterns)。另外，在所述第一非局部模块的处理过程中，帧间相似度可以根据相应的两个帧的特征信息直接确定，而，诸如运动补偿还需要通过训练用于生成运动矢量场(motion field)的额外网络层(additional layer)。

步骤三：将F_t、

和

输入到前向LSTM模块中，通过前向LSTM输出t时刻的隐藏状态信息H_t和单元状态信息C_t，具体可以通过公式⑤：

⑤：

示例性的，所述前向LSTM模块工作原理可以如下：

H_t＝o_t⊙tanh(C_t)

遗忘门，用于接受一个记忆信息并决定要保留和遗忘记忆的哪个部分；

其中，遗忘因子为f_t，f_t∈[0,1]，f_t表示t时刻对t-1时刻输出的目标单元状态信息

的选择权重，用于决定是否让t-1时刻学到的记忆信息(即t-1时刻输出并经转换得到的目标单元状态信息

)通过或部分通过。

输入门，用于选择要记忆的信息；

i_t∈[0,1]，i_t表示t时刻对临时单元状态信息g_t的选择权重，g_t为t时刻的临时单元状态信息；

可以表示希望删除的信息，i_t⊙g_t可以表示新增的信息，经由这两部分可以得到t时刻的单元状态信息C_t。

输出门，用于输出t时刻的隐藏状态信息H_t，其中，o_t∈[0,1]，o_t为示t时刻的单元状态信息的选择权重。

需要说明的是，W_xf、W_hf、W_xg、W_hg、W_xi、W_hi、W_xo、W_ho均为前向LSTM模块中的权重参数；b_f、b_g、b_i、b_o均为前向LSTM模块中的偏置项；这些参数通过模型训练得到的。

需要说明的是，上述前向LSTM模块的示例性结构，并不用限制本发明专利保护范围。

步骤S106，根据所述参考特征信息和所述目标帧X_t，获取对应于所述目标帧X_t的目标增强帧

所述参考特征信息包括目标帧X_t的隐藏状态信息，即非局部卷积长短期记忆网络在t时刻输出的隐藏状态信息。通过对隐藏状态信息进行解码操作，可以得到目标帧X_t的残差(Residual)，所述残差可视作为在视频压缩过程中所述目标帧X_t损失的信息。

计算机设备可以配置解码器，其中，所述解码器包括卷积神经网络和非线性激活函数，其中，所述卷积神经网络包括多个卷积层。通过所述解码器和所述编码器的结构对称。参阅图6和图7，在示例性的实施例中，所述步骤S106可以步骤S700～S702：步骤S700，将所述参考特征信息输入到解码器中，通过所述解码器输出残差；步骤S702，根据所述残差和所述目标帧X_t，得到所述目标增强帧。

上述引入的非局部卷积长短期记忆网络为训练后的非局部卷积长短期记忆网络，其训练步骤可以如下：

步骤1，将视频数据集中的无损视频文件通过HEVC或H.264等标准进行编码压缩操作，得到质量受损的有损视频文件，并对有损视频文件进行数据预处理，如数据标准化处理，将预处理后的这些数据作为样本划分到训练集或测试集中；

步骤2，随机选取训练集中的一个视频片段

(截取样本中的连续2t-1帧)，对选择的这个视频片段通过编码器进行编码和特征提取操作。

步骤3，根据这个视频片段提取出的特征信息，通过非局部卷积长短期记忆网络输出这个视频片段中对应于t时刻的隐藏状态信息。

步骤4，将t时刻的隐藏状态信息输入的解码器中，解码得到这个视频片段中第t帧的残差，将得到的残差加到第t帧上，生成第t帧的增强帧。

步骤5，基于这个视频片段的第t帧和第t帧的增强帧，对所述编码器、非局部卷积长短期记忆网络及解码器进行优化，用于优化的损失函数可以如下：

其中，

为选取的视频片段，Y_t为选取的视频片段中第t帧对应的未经压缩的原始帧，

为选取的视频片段中第t帧对应的增强帧，对该损失函数计算关于模型参数的导数，并进行反向传播更新参数；其中，参数更新的优化算法优选为ADAM算法；

步骤6，重复步骤2～5直到训练收敛，得到最终训练完毕的模型，即训练后的非局部卷积长短期记忆网络。

上述步骤可以利用深度学习端到端训练的优点，通过已有的高质量视频，利用视频压缩算法生成用于训练的有损视频。

基于非局部卷积长短期记忆网络的架构优势，利用一个小卷积核既可捕捉到各个帧的全局动作信息，例如，所述非局部卷积长短期记忆网络的卷积核尺寸优选为3*3。

训练完毕得到的模型可用于测试集或者其余有损视频的质量增强，将待增强的视频序列从前往后，以滑动窗口的形式，一次生成一个增强帧直至生成完整的增强视频。

本实施例提供的视频质量增强方法具有优势的性能，其性能测试与分析，可以通过如下实验实现：

(1)选取两个视频数据集：第一视频数据集和第二视频数据集；

第一视频数据集，可以是一个较大规模的用于底层的视频处理的数据集，例如从视频网络上收集的4279个高质量的视频，89800个分辨率为448x256的视频片段，本实验使用了64612个视频片段用作训练，7824个视频用于测试；所有的压缩视频均是在使用ffmpeg(编解码器)中的x265，编码量化参数qp值为32和37，并且关闭环形滤波和自适应样点补偿的情况下生成的。

第二视频数据集，包括：用于压缩算法测试的70个不同场景和内容的视频，其中60个用作训练，10个用于测试，并且这些视频的分辨率从352x240到2560x1600不等，所有的压缩视频都是由HM 16.0中在HEVC LDP(local derivative pattern)模式下qp参数为37和42的情况下生成的。

(2)训练设置及超参数设置；

本实施例提供的视频质量增强方法，所采用的非局部卷积长短期记忆网络的卷积核大小为3*3。在所有的数据集上，本实验均采用ADAM优化算法，并且初始的学习率可以设置为1e-4，mini-batch(每批次的样本数量)的大小设置为32。在训练阶段，本实验将视频中截取的80x80的小块作为单挑数据。编码器和解码器中的非线性激活函数均为PReLU(Parametric Rectified Linear Unit，带参数的ReLU)。在本实验中，为了平衡效率和有效性，设置k＝4，p＝10，其中，k表示块的数量，p表示降采样倍率。

(3)对比方法；

为了比较本视频质量增强方法(下面简称为NL-ConvLSTM)的性能，可以选择其他视频质量增强方法进行对比，例如，噪声去除卷积网络(ARCNN)，去噪卷积网络(DnCNN)，解码器端可扩展卷积网络(DSCNN)，多帧质量增强的方法(MFQE)，3维卷积(3D CNN)和深度卡尔曼滤波网络(DKFN)。

(4)性能测试结果；

其一，质量增强：

评价指标：PSNR(Peak Signal to Noise Ratio，峰值信噪比)和SSIM(structuralsimilarity index，结构相似性指数)。

具体的，可以对第一视频数据集和第二视频数据集内的所有视频计算出相应的评价指标，并对所有视频的指标取平均值作为最终的性能指标，具体见表1、2。

表1

表2

其中，表1是在第一视频数据集上的PSNR和SSIM的对比，表2是在第二视频数据集上提升的PSNR(dB)和SSIM的对比，综合表1和表2可知，NL-ConvLSTM在上述两个数据集中均取得最优效果。

在表1中，NL-ConvLSTM比次优的视频质量增强方法(DKFN和3D CNN)有0.14dB的提高，在SSIM指标上比次优的视频质量增强方法也具有提升。

在表2中，NL-ConvLSTM相对于MFQE在PSNR和SSIM上有17.8％和21.6％的提升。值得注意的是，在该第二视频数据集的第二个视频上，在QP＝37时，NL-ConvLSTM取得了相较于MFQE60.7％和46％的提升。在QP＝42时，NL-ConvLSTM分别取得了33.19％和68.68％的PSNR增长，相较于MFQE、DSCNN。

其二，质量波动：

质量波动是视频质量的指标之一，剧烈的质量波动通常会导致严重的时间不一致和QoE降低。

评价指标：每个视频的PSNR/SSIM曲线的标准偏差(Standard Deviation，STD)和峰谷差异(Peak-Valley Difference，PVD)。

图8为MFQE和NL-ConvLSTM在第二视频数据集的第二个视频上在QP参数为37时的PSNR和SSIM曲线。为了简单起见，图中仅提供了HEVC基准、MFQE、NL-ConvLSTM的STD和PVD。对于PSNR，HEVC基准、MFQE和NL-ConvLSTM的STD值分别为1.130dB、1.055dB和1.036dB，它们的PVD值分别为1.558dB、1.109dB和1.038dB。和MFQE相比，NL-ConvLSTM在PQFs上具有类似的提升，并在非PQFs上具有更高的PSNR和SSIM。可以看出，NL-ConvLSTM的质量波动比HEVC基准、MFQE更加平稳。

通过NL-ConvLSTM增强后的视频，不仅单帧的质量提升相较于MFQE更大，而且提升后的视频质量波动更好，表现出更好的观看体验。

本实施例提供的技术方案，通过同时对空间变形和时间变化进行建模，提出了一种新端到端非局部ConvLSTM，用于以减少视频压缩伪像。具有框架简单、使用方便，可扩展性强、可解释性强等优势，另外，根据上述两个数据集的实验表明，NL-ConvLSTM可以显着提高压缩视频的视频质量，有效去除伪影。

实施例二

图9示出了根据本申请实施例二的视频质量增强系统的框图，该视频质量增强系统可以被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，以下描述将具体介绍本实施例中各程序模块的功能。

如图9所示，所述视频质量增强系统900可以包括以下组成部分：

第一获取模块910，用于获取待处理的帧序列，所述帧序列包括目标帧以及与所述目标帧邻近的多个邻近帧。

提取模块920，用于提取所述帧序列中各个帧的特征信息。

第二获取模块930，用于根据所述各个帧的特征信息获取用于增强所述目标帧的参考特征信息。

第三获取模块940，用于根据所述参考特征信息和所述目标帧，获取对应于所述目标帧的目标增强帧。

在示例性的实施例中，第二获取模块930，还用于：根据所述各个帧的特征信息、所述帧序列的时序关系和相邻的两个帧之间的帧间相似度，获取所述参考特征信息。

在示例性的实施例中，第二获取模块930，还用于：根据所述帧序列的时序关系，将所述各个帧的特征信息输入到非局部卷积长短期记忆网络中，通过所述非局部卷积长短期记忆网络获取所述参考特征信息，所述参考特征信息包括对应于所述目标帧的隐藏状态信息；其中，所述非局部卷积长短期记忆网络包括前向非局部卷积长短期记忆网络中和后向非局部卷积长短期记忆网络中，所述前向非局部卷积长短期记忆网络包括第一非局部模块和前向LSTM模块，所述后向非局部卷积长短期记忆网络包括第二非局部模块和后向LSTM模块，所述第一非局部模块用于根据相邻的两个帧之间的帧间相似度来确定这两个帧中前一帧输出的隐藏状态信息的权重和前一帧输出的单元状态信息的权重，所述第二非局部模块用于相邻的两个帧之间的帧间相似度来确定这两个帧中后一帧输出的隐藏状态信息的权重和后一帧输出的单元状态信息的权重。

在示例性的实施例中，第二获取模块930，还用于：接收t时刻对应的第t帧的特征信息，其中t时刻为当前时刻；通过所述第一非局部模块接收t-1时刻输出的隐藏状态信息和单元状态信息，并根据第t帧与所述t-1时刻的第t-1帧之间的帧间相似度，将所述t-1时刻输出的隐藏状态信息和单元状态信息转换为所述t-1时刻的目标隐藏状态信息和目标单元状态信息；将第t帧的特征信息、t-1时刻的目标隐藏状态信息和目标单元状态信息输入到所述前向LSTM模块中，通过所述前向LSTM模块输出t时刻的隐藏状态信息；通过所述第二非局部模块接收t+1时刻输出的隐藏状态信息和单元状态信息，并根据第t帧与所述t+1时刻的第t+1帧之间的帧间相似度，将所述t+1时刻输出的隐藏状态信息和单元状态信息转换为所述t+1时刻的目标隐藏状态信息和目标单元状态信息；将第t帧的特征信息、t+1时刻的目标隐藏状态信息和目标单元状态信息输入到所述后向LSTM模块中，通过所述后向LSTM模块输出t时刻的隐藏状态信息；根据所述前向LSTM模块输出的t时刻的隐藏状态信息和所述后向LSTM模块输出的t时刻的隐藏状态信息，得到所述非局部卷积长短期记忆网络t时刻的隐藏状态信息；其中，所述t时刻对应的第t帧为所述目标帧时，所述非局部卷积长短期记忆网络t时刻的隐藏状态信息则为所述参考特征信息。

在示例性的实施例中，计算第t帧与所述t-1时刻的第t-1帧之间的帧间相似度，包括：通过相似度矩阵表示所述第t帧和第t-1帧之间的帧间相似度；其中，所述相似度矩阵中包括多个元素，每个元素表示第t帧的其中一个特征值与第t-1帧的其中一个特征值之间的相似度。

第三获取模块940，还用于：将所述参考特征信息输入到解码器中，通过所述解码器输出残差；及根据所述残差和所述目标帧，得到所述目标增强帧。

实施例三

图10示意性示出了根据本申请实施例三的适于实现视频质量增强方法的计算机设备的硬件架构示意图。本实施例中，计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是智能手机、平板电脑、笔记本电脑、台式计算机、监控设备、视频会议系统、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图10所示，计算机设备2至少包括但不限于：可通过系统总线相互通信连接存储器21、处理器22、网络接口23。其中：

存储器21至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储模块，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(SmartMedia Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储模块也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如视频质量增强方法的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作，例如执行与计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据。

网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在计算机设备2与其他计算机设备之间建立通信连接。例如，网络接口23用于通过网络将计算机设备2与外部终端相连，在计算机设备2与外部终端之间的建立数据传输通道和通信连接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(GlobalSystem of Mobile communication，简称为GSM)、宽带码分多址(Wideband Code DivisionMultiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图10仅示出了具有部件21-23的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的视频质量增强方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。

实施例四

本实施例还提供一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的视频质量增强方法的步骤。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中的视频质量增强方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频质量增强方法，其特征在于，所述方法包括：

获取待处理的帧序列，所述帧序列包括目标帧以及与所述目标帧邻近的多个邻近帧；

提取所述帧序列中各个帧的特征信息；

根据所述各个帧的特征信息获取用于增强所述目标帧的参考特征信息；及

根据所述参考特征信息和所述目标帧，获取对应于所述目标帧的目标增强帧；

其中，所述根据所述各个帧的特征信息获取用于增强所述目标帧的参考特征信息，包括：

根据所述帧序列的时序关系，将所述各个帧的特征信息输入到非局部卷积长短期记忆网络中，通过所述非局部卷积长短期记忆网络获取所述参考特征信息，所述参考特征信息包括对应于所述目标帧的隐藏状态信息和/或单元状态信息；其中，所述非局部卷积长短期记忆网络包括前向非局部卷积长短期记忆网络和后向非局部卷积长短期记忆网络，所述前向非局部卷积长短期记忆网络包括第一非局部模块和前向LSTM模块，所述后向非局部卷积长短期记忆网络包括第二非局部模块和后向LSTM模块，所述第一非局部模块用于根据相邻的两个帧之间的帧间相似度来确定这两个帧中前一帧输出的隐藏状态信息的权重和单元状态信息的权重，所述第二非局部模块用于根据相邻的两个帧之间的帧间相似度来确定这两个帧中后一帧输出的隐藏状态信息的权重和单元状态信息的权重。

2.根据权利要求1所述的视频质量增强方法，其特征在于，所述多个邻近帧包括多个前邻近帧和多个后邻近帧；

其中，所述多个前邻近帧包括与所述目标帧相邻并位于所述目标帧前面的多个连续的帧，所述多个后邻近帧包括与所述目标帧相邻并位于所述目标帧后面的多个连续的帧。

3.根据权利要求1所述的视频质量增强方法，其特征在于，提取所述帧序列中各个帧的特征信息，包括：

通过编码器提取所述各个帧的特征信息，其中，所述编码器包括多个卷积层。

4.根据权利要求1所述的视频质量增强方法，其特征在于，根据所述帧序列的时序关系，将所述各个帧的特征信息输入到非局部卷积长短期记忆网络中，通过所述非局部卷积长短期记忆网络获取所述参考特征信息，包括：

接收t时刻对应的第t帧的特征信息，其中t时刻为当前时刻；

通过所述第一非局部模块接收t-1时刻输出的隐藏状态信息和单元状态信息，并根据所述第t帧与所述t-1时刻的第t-1帧之间的帧间相似度，将所述t-1时刻输出的隐藏状态信息和单元状态信息转换为所述t-1时刻的目标隐藏状态信息和目标单元状态信息；

将第t帧的特征信息、t-1时刻的目标隐藏状态信息和目标单元状态信息输入到所述前向LSTM模块中，通过所述前向LSTM模块输出t时刻的隐藏状态信息；

通过所述第二非局部模块接收t+1时刻输出的隐藏状态信息和单元状态信息，并根据所述第t帧与所述t+1时刻的第t+1帧之间的帧间相似度，将所述t+1时刻输出的隐藏状态信息和单元状态信息转换为所述t+1时刻的目标隐藏状态信息和目标单元状态信息；

将第t帧的特征信息、t+1时刻的目标隐藏状态信息和目标单元状态信息输入到所述后向LSTM模块中，通过所述后向LSTM模块输出t时刻的隐藏状态信息；

根据所述前向LSTM模块输出的t时刻的隐藏状态信息和所述后向LSTM模块输出的t时刻的隐藏状态信息，得到所述非局部卷积长短期记忆网络t时刻的隐藏状态信息；

其中，所述第t帧为所述目标帧时，所述非局部卷积长短期记忆网络t时刻的隐藏状态信息则为所述参考特征信息。

5.根据权利要求4所述的视频质量增强方法，其特征在于，计算第t帧与所述t-1时刻的第t-1帧之间的帧间相似度，包括：

通过相似度矩阵表示所述第t帧和第t-1帧之间的帧间相似度；

其中，所述相似度矩阵中包括多个元素，每个元素表示第t帧的其中一个特征值与第t-1帧的其中一个特征值之间的相似度。

6.根据权利要求4所述的视频质量增强方法，其特征在于，根据所述参考特征信息和所述目标帧，获取对应于所述目标帧的目标增强帧，包括：

将所述参考特征信息输入到解码器中，通过所述解码器输出残差；及

根据所述残差和所述目标帧，得到所述目标增强帧。

7.一种视频质量增强系统，其特征在于，所述系统包括：

第一获取模块，用于获取待处理的帧序列，所述帧序列包括目标帧以及与所述目标帧邻近的多个邻近帧；

提取模块，用于提取所述帧序列中各个帧的特征信息；

第二获取模块，用于根据所述各个帧的特征信息获取用于增强所述目标帧的参考特征信息；及

第三获取模块，用于根据所述参考特征信息和所述目标帧，获取对应于所述目标帧的目标增强帧；

8.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时用于实现权利要求1至6任一项所述视频质量增强方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时用于实现权利要求1至6任一项所述视频质量增强方法的步骤。