CN114202463A

CN114202463A - 面向云端融合的视频超分辨率方法及系统

Info

Publication number: CN114202463A
Application number: CN202111536269.8A
Authority: CN
Inventors: 任杰; 贾晨鸽; 王煜华; 朱晓奥
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-18
Anticipated expiration: 2041-12-15
Also published as: CN114202463B

Abstract

本发明提供了一种面向云端融合的视频超分辨率方法及系统，属于视频处理领域，包括还原效果预测模块、任务动态调度模块、移动端处理模块、云端处理模块和帧融合模块；方法包括：采集当前低分辨率视频帧特征，将其输入还原效果预测模块，预测当前视频帧经过双立方插值方法后及经过基于增强可变卷积网络的视频恢复模型后的超分辨率效果；通过任务动态调度模块决定是否将当前低分辨率视频帧卸载至云端处理模块进行超分辨率还原；将云端超分完成后的视频帧同本地处理完成后的视频帧输入到帧融合模块得到超分辨率还原后的高清视频。该方法在利用云端资源的前提下，实现对低分辨率视频的超分辨率处理，具有实时快速、精准还原、内存资源占用低的优点。

Description

面向云端融合的视频超分辨率方法及系统

技术领域

本发明属于视频处理技术领域，具体涉及一种面向云端融合的视频超分辨率方法及系统。

背景技术

图像和视频通常包含着大量的视觉信息，且视觉信息本身具有直观高效的描述能力，所以随着信息技术的高速发展，图像和视频的应用逐渐遍布人类社会的各个领域。近些年来，在计算机图像处理、计算机视觉和机器学习等领域中，来自工业界和学术界的许多学者和专家都持续关注着视频图像的超分辨率技术这个基础热点问题。

视频超分辨率是指采用信号处理的方法通过对低分辨率视频的退化图像通过处理以获得一幅或者多幅高分辨率复原图像，该技术可以弥补硬件实现的局限并且成本低，在视频、遥感等领域有着重要的应用前景。近几年来，视频超分辨率的方法被大量提出。其中，基于深度学习的视频超分辨率方式以其强大的性能、可观的输出结果，成为视频超分辨率之主流以及众人才研究与发展的方向。

在视频超分辨率方面，目前有包括运动估计和补偿方法(MEMC)、可变形卷积方法(DC)、3D卷积方法(3D Conv)、循环卷积神经网络方法(RCNN)在内的许多可供选择的模型。基于深度学习的视频超分辨率方法虽然具有很高的性能，但由于模型参数庞大，需要大量的计算和存储资源，训练时间长，在实际问题中难以有效部署。故设计和实现一种高性能、轻量级的超分方法，以满足实际应用的需要是一个挑战。

目前，现有技术针对视频超分辨率还原存在：内存资源消耗过大、计算延时高的问题。因此，本发明提出一种面向云端融合的视频超分辨率方法及系统。

发明内容

为了克服上述现有技术存在的不足，本发明提供了一种面向云端融合的视频超分辨率方法及系统，该方法根据视频帧的峰值信噪比(PSNR)和视频多方法评估融合(VMAF)参数差异，动态决定其在本地还是卸载至云端进行超分辨率还原处理。

为了实现上述目的，本发明提供如下技术方案：

一种面向云端融合的视频超分辨率方法及系统，包括：

还原效果预测模块，用于在移动端抽取采集到的低分辨率视频帧特征，并将低分辨率视频帧特征输入到训练好的深度神经网络模型中进行超分辨率还原效果预测，通过深度神经网络模型可以预测出该帧视频在双立方插值(Bicubic interpolation)和基于增强可变卷积网络的视频恢复(Video Restoration with Enhanced DeformableConvolutional Networks)两种方式下每一帧的峰值信噪比(PSNR)和视频多方法评估融合(VMAF)参数指标；

本发明中的深度神经网络模型将低分辨率视频输入到基于增强可变卷积网络的视频恢复模型(EDVR)，将输出结果同高清原始视频(如4K分辨率)进行对比，获得峰值信噪比(PSNR)值，并作为深度神经网络训练集预测值，同时抽取该低分辨率视频特征作为深度神经网络输入特征，基于此训练面向EDVR的深度神经网络模型，该模型可通过抽取当前视频特征预测出EDVR输出结果。

同时深度神经网络模型将低分辨率视频通过双立方插值进行处理，将输出结果同高清原始视频(如4K分辨率)进行对比，获得峰值信噪比(PSNR)值，并作为深度神经网络训练集预测值，同时抽取该低分辨率视频特征作为深度神经网络输入特征，基于此训练面向EDVR的深度神经网络模型，该模型可通过抽取当前视频特征预测出双立方插值后的输出结果。

任务动态调度模块，为之前得到的PSNR和VMAF参数设置相应的权重系数，计算得到双立方插值和基于增强可变卷积网络的视频恢复方式下的参数差异，将性能差异大于10％的帧卸载至云端进行EDVR处理，否则在移动端本地进行视频帧处理；

移动端处理模块，基于双立方插值实现视频超分后采用高效率视频编码(HighEfficiency Video Coding)方法压缩视频；

云端处理模块，用于采用EDVR方法在云服务器上进行超分辨率处理；

帧融合模块，用云端处理完毕的帧替换移动端处理后的HEVC中的关键帧，利用HECV的帧间预测技术，实现后续帧的高清便可得到完整的高分辨率视频。

优选地，所述还原效果预测模块的具体操作步骤包括：

采集当前时刻视频帧特征；

将该视频帧的特征输入至预测模型中，分别预测出双立方插值方法和EDVR方法进行超分辨率还原下该帧的PSNR和VMAF参数。

优选地，所述移动端处理模块的核心为采用双立方插值方法对视频帧进行超分辨率处理，具体处理步骤为：

获得视频帧超分后图像像素在原图像中的位置，并找到距该像素点最近的16个像素点的位置；

利用选择的基函数求出对应每个像素的权值；

利用求和公式得到该帧目标图片的像素值；

并通过此步骤顺序处理每一个视频帧，直至得到全部插值后的连续视频帧；最后，将双立方插值得到的较高分辨率的视频采用高效视频压缩标准(HEVC)方法进行压缩存储，并将上传至云端的帧设为关键帧。

优选地，所述云端处理模块，其核心为采用EDVR方法对视频帧进行超分辨率处理，具体处理步骤为：

对视频帧进行特征提取；

采用金字塔级联变形对齐模块处理大的运动，使用形变卷积以由粗到细的方式在特征级别进行帧对齐；

在融合模块引入时空注意力机制，以强调后续重建的重要特征；

在重建模块中进行帧重建，得到高分辨率的视频帧。

本发明的另一目的在于提供一种面向云端融合的视频超分辨率方法，包括以下步骤：

采集视频帧的信息，分别预测双立方插值方法和EDVR方法进行超分辨率还原下视频帧的PSNR和VMAF参数；

根据PSNR和VMAF参数，采用相应的权重计算公式得到双立方插值和EDVR两种方法下该视频帧的性能差异，动态地决定是否将该帧卸载至云端进行处理；

采用双立方插值的方法，对视频帧进行超分辨率还原处理，处理完成后使用HEVC方法进行高效视频压缩；

采用可变卷积方法的EDVR方法对视频帧进行超分辨率还原处理，并将得到的高分辨率帧存储在输出帧数组的相应位置中；

用高分辨率帧直接替换HEVC压缩后相应位置的帧。

优选地，所述分别预测双立方插值方法和EDVR方法进行超分辨率还原下视频帧的PSNR和VMAF参数，具体包括：

获取视频特征，进行视频分帧，建立输入视频帧数组，将视频的每一帧顺序存储在该结构体数组中，并建立索引；

遍历视频帧，采集视频帧的特征，并将每一帧的特征输入至预测模型中；

预测出双立方插值和EDVR两种超分方法下该帧视频的PSNR和VMAF参数。

优选地，所述根据PSNR和VMAF参数，采用相应的权重计算公式得到双立方插值和EDVR两种方法下该视频帧的性能差异，动态地决定是否将该帧卸载至云端进行处理，具体包括：

采用公式(1)对PSNR和VMAF参数进行计算得到双立方插值和EDVR两种超分辨率方法下该视频帧的性能参数；

U_t＝α₁PSNR+α₂VMAF (1)

其中，U_t表示为该帧视频的性能，α₁为PSNR的权重系数取0.8，α₂为VMAF参数的权重系数取0.2；

采用公式(2)对公式(1)得到的性能参数进行绝对值求差，得到两方法下该帧视频的性能参数差异；

ΔU_t＝|U_t1-U_t2| (2)

其中ΔU_t为视频帧性能参数差异，U_t1表示为双立方插值方法下视频帧的性能，U_t2表示为EDVR方法下视频帧的性能；

对比公式(2)得到的ΔU_t的大小，若ΔU_t大于10％，则标记该帧并卸载至云服务器上进行处理。

优选地，所述采用双立方插值的方法，对视频帧进行超分辨率还原处理，处理完成后使用HEVC方法进行高效视频压缩，具体包括：

将视频所有帧采用双立方插值的方法进行超分辨率还原；

将超分放大后的视频帧采用HEVC方法进行压缩；

将压缩后的视频存贮在结构体数组中。

优选地，所述采用可变卷积方法的EDVR方法对视频帧进行超分辨率还原处理，并将得到的高分辨率帧存储在输出帧数组的相应位置中，具体包括：

特征提取，每层通过若干个残差块提取特征；

进行帧对齐，用金字塔级联变形对齐模块处理大的运动，使用形变卷积以由粗到细的方式在特征级别进行帧对齐；

引入时空注意力机制进行帧融合；

通过若干个残差块对融合后的特征进一步进行重建，得到超分视频帧后将其存储在输出帧数组的相应位置上。

本发明提供的面向云端融合的视频超分辨率方法及系统具有以下有益效果：

该系统包含还原效果预测模块、任务动态调度模块、移动端处理模块、云端处理模块和帧融合模块；基于深度神经网络设计视频帧预测模型，接受视频帧特征，预测性能参数差异，从而动态决定在本地还是云端进行视频超分辨率还原，实现视频的精准还原以及高效超分。

该方法基于预测视频帧的参数信息，动态地决定将该帧在本地模型上处理还是部署到云服务器上进行处理，以此来实现视频超分辨率还原。其中，关于本地部署的超分模型采用双立方插值方法，因为立方插值在图像放大过程可以保留更多的图像细节，放大以后的图像带有反锯齿的功能，同时图像和源图像相比效果更加真实，具有较优的性能。关于云服务器上部署的模型采用EDVR模型，该模型设计了金字塔级联变形对齐模块处理大的运动，其中使用形变卷积以由粗到细的方式在特征级别进行帧对齐，同时加入了时空注意力融合模块，使得时间和空间的注意力都被应用，通过此模型可以得到较高质量的结果。实验结果表明，相对于原始的基于一种视频超分方法来连续处理视频帧，本发明提出的面向云端融合的视频超分辨率方法，在显著提高视频帧分辨率的同时大幅降低内存资源消耗，且缓解了计算压力，显著提高了视频超分的处理速度。

通常情况下，视频超分辨率还原技术需要极大的计算复杂度及内存资源的消耗，且在非理想网络条件下，连续卸载视频帧会导致巨大的网络带宽消耗和显著的网络延迟。本发明通过对视频帧性能参数的比较，动态地选择视频帧在本地模型进行超分还是在云端模型进行超分，可以在一定程度上避免了内存资源占用过多的情况，缓解了计算压力，获得高分辨率视频帧的同时也加快了处理速度。

附图说明

为了更清楚地说明本发明实施例及其设计方案，下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的还原效果预测模块结构示意图；

图2为本发明的任务动态调度模块结构示意图；

图3为本发明的移动端处理模块结构示意图；

图4为本发明的云端处理模块结构示意图；

图5为本发明的帧融合模块结构示意图；

图6为本发明的面向云端融合的视频超分辨率还原方法流程示意图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方案并能予以实施，下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明提供了一种面向云端融合的视频超分辨率方法及系统，具体如图1所示，包括有还原效果预测模块、任务动态调度模块、移动端处理模块、云端处理模块和帧融合模块。

还原效果预测模块基于DNN模型来实现预测，使其输入视频特征后，能预测出该帧视频在双立方插值和EDVR两种方式下每一帧的PSNR和VMAF参数指标，以便之后的任务动态调度模块进行下一步的操作。

还原效果预测模块的核心在于提取视频帧的特征，将特征传入预测模型中，预测出双立方插值方法下和EDVR方法下该视频帧的PSNR和VMAF参数。该预测模型基于深度神经网络实现，模型训练过程包括：首先进行视频分帧，选定视频帧部分特征作为训练模型的输入；然后将双立方插值和EDVR方法加入预测模型框架中，通过迭代训练模型神经元的权重，最终得到可预测双立方插值和EDVR方法下视频帧PSNR参数和VMAF参数的预测模型，最后将训练好的模型部署到服务器上。

1)数据采集：获取输入视频，对视频进行分帧，将每一视频帧加入到输入帧数组中，并建立相应的索引，同时采集视频帧的特征作为预测模型的输入；

2)训练预测器：将大量视频帧的特征传入模型中，选择合适的参数，训练得到可预测双立方插值和EDVR方法下视频帧性能参数的模型，不断迭代，得到合适的神经元权重。

3)部署预测器：将训练好的模型部署到服务器上。

任务动态调度模块：依据还原效果预测模块的预测结果，将还原效果预测模块的结果代入公式(1)，

求得两种方法下的效用帧数值。之后采用公式(2)计算出视频帧的性能差异。

U_t＝α₁PSNR+α₂VMAF (1)

ΔU_t＝|U_t1-U_t2| (2)

其中，U_t表示为该帧视频的性能，α₁为PSNR的权重系数取0.8，α₂为VMAF参数的权重系数取0.2。ΔU_t为视频帧性能参数差异，U_t1表示为双立方插值方法下视频帧的性能，U_t2表示为EDVR方法下视频帧的性能。

通过计算得到ΔU_t的大小后进行判断，若ΔU_t大于10％，则标记该帧并卸载至云服务器上进行处理。

任务动态调度模块为之前得到的PSNR和VMAF参数设置相应的权重系数，计算得到两种模型下的参数差异，将参数差异大于10％的帧卸载至云端进行EDVR处理。

移动端处理模块基于双立方插值实现视频超分后采用HEVC方法压缩视频。其核心在于对视频帧进行双立方插值超分放大操作，并将超分放大后的视频采用HEVC方法进行压缩，最后将压缩后的视频帧存储在输出帧数组中。

云端处理模块采用EDVR模型在服务器上进行超分辨率处理。云端处理模块基于任务动态调度模块选择的结果，将满足要求的视频帧进行标记并卸载至云端进行EDVR超分。EDVR超分过程包括：首先，提取视频帧的相关特征；其次，采用形变卷积的方法在PCD对齐模块将相邻帧与参考帧对齐，使用一种金字塔级联结构，先将较低比例的特征与粗略估计对齐，然后将偏移和对齐特征传播到更高的比例，以便于精确的运动补偿；再次，采用TSA融合模块帮助融合多个对齐特征的信息；最后，将融合后的特征传到重建模块进行重建，并执行上采样操作在网络的末端增加图像的空间尺寸大小，最终得到高分辨率的视频帧。

帧融合模块，直接将云端处理完毕的帧替换原HEVC中的帧，便可得到完整的高分辨率视频，具体为将在云服务器上进行超分处理完成后的帧替换掉本地处理后相应位置的帧。

本发明基于同一个发明构思，还提供了一种利用面向云端融合的视频超分辨率方法实现进一步优化视频超分性能的方法，如图6所示，包括以下步骤：

步骤S1，还原效果预测模块采集视频帧的信息，分别预测双立方插值方法和EDVR方法进行超分辨率还原下视频帧的PSNR和VMAF参数。

如图1所示为步骤S1的具体步骤，包括：

步骤S11，采集视频帧的特征信息。

步骤S12，将采集的特征加入预测模型中进行预测。

步骤S13，通过预测模型直接可以输出双立方插值方法下和EDVR方法下该帧的PSNR参数和VMAF参数。

步骤S2，任务动态调度模块根据步骤S1获取的参数，采用相应的权重计算公式得到S1两种方法下该视频帧的性能差异，动态地决定是否将该帧卸载至云端进行处理。

如图2所示为步骤S2的具体步骤，包括：

步骤S21、获取步骤S1中预测出的双立方插值和EDVR两种超分方法下的性能参数；步骤S21中，根据预先设置的PSNR和VMAF权重参数，计算两种方法下该帧的效用帧。

步骤S22，计算两种方法下效用帧的差异。

步骤S23，基于S22的计算结果，对比参数差异，判断性能参数差异是否大于10％，如果大于10％，则将该帧卸载至云服务器上采用EDVR方法进行超分，反之在本地执行。

步骤S3，移动端处理模块基于步骤S2的选择结果，采用双立方插值的方法，对视频帧进行超分辨率还原处理，处理完成后使用HEVC方法进行高效视频压缩。

如图3所示为步骤S3的具体步骤，包括：

步骤S31，将视频帧在本地全部进行双立方插值超分放大操作。

步骤S32，将超分放大后的视频采用HEVC方法进行压缩。

步骤S33，将压缩后的视频存储在相应的输出帧数组中，便于帧融合模块直接根据帧数组下标进行视频帧的替换，将满足要求的视频帧进行标记并卸载至云端进行EDVR超分。

步骤S4，云端处理模块同样也基于步骤S2的选择结果，采用可变卷积方法的EDVR方法对视频帧进行超分辨率还原处理，并将得到的高分辨率帧存储在输出帧数组的相应位置中。

如图4所示为步骤S4的具体步骤，包括：

步骤S41，提取视频帧的相关特征。

步骤S42，采用形变卷积的方法在PCD对齐模块将相邻帧与参考帧对齐，使用一种金字塔级联结构，首先将较低比例的特征与粗略估计对齐，然后将偏移和对齐特征传播到更高的比例，以便于精确的运动补偿。

步骤S43，采用TSA融合模块帮助融合多个对齐特征的信息。

步骤S44，将S43融合后的特征传到重建模块进行重建，并执行上采样操作在网络的末端增加图像的空间尺寸大小，最终得到高分辨率的视频帧。

步骤S5，帧融合模块基于步骤S3本地超分处理的结果，将步骤S4处理完成后的高分辨率帧直接替换HEVC压缩后相应位置的帧。

如图5所示为步骤S4的具体步骤，具体为将云端EDVR超分处理完成后的高分辨率视频帧替换掉本地处理后相应位置的视频帧，最终得到高分辨率的视频。

综上所示，首先，基于深度神经网络训练预测模型，得到所需模型，随后将视频帧的特征传入模型中进行预测，得到视频相应特征。其次，基于预测特征，动态判断视频帧是否需要卸载至云端执行。再次，将视频帧在本地进行超分处理。与此同时，云端将接受到的帧进行超分处理并存储。最后，云端处理完成的帧直接替换本地处理后相应位置的视频帧，最终得到完整且高分辨率的视频。

本发明提供的面向云端融合的视频超分辨率方法及系统解决了现有技术在视频超分辨率处理时内存资源消耗过大、计算延时高的问题。本发明提供的面向云端融合的视频超分辨率还原方案，有效地实现了视频帧的超分辨率还原，具有实时快速、精准还原、内存资源占用低的优点。

以上实施例仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换，均属于本发明的保护范围。

Claims

1.一种面向云端融合的视频超分辨率系统，其特征在于，包括：

还原效果预测模块，用于在移动端抽取采集到的低分辨率视频帧特征，并将低分辨率视频帧特征输入到训练好的深度神经网络模型中进行超分辨率还原效果预测，通过深度神经网络模型预测出该帧视频在双立方插值和基于增强可变卷积网络的视频恢复两种方式下每一帧的峰值信噪比和视频多方法评估融合参数指标；

任务动态调度模块，为所述峰值信噪比和视频多方法评估融合参数指标设置相应的权重系数，计算得到双立方插值和基于增强可变卷积网络的视频恢复方式下的参数差异，将性能差异大于10％的帧卸载至云端进行基于增强可变卷积网络的视频恢复EDVR处理，否则在移动端本地进行视频帧处理；

移动端处理模块，基于双立方插值实现视频超分后采用高效率视频编码方法压缩视频；

帧融合模块，用云端处理完毕的帧替换移动端处理后的高效视频压缩标准HEVC中的关键帧，利用HECV的帧间预测技术，实现后续帧的高清便可得到完整的高分辨率视频。

2.根据权利要求1所述的面向云端融合的视频超分辨率系统，其特征在于，所述还原效果预测模块的具体操作步骤包括：

采集当前时刻视频帧特征；

将该视频帧的特征输入至预测模型中，分别预测出双立方插值方法和EDVR方法进行超分辨率还原下该帧的峰值信噪比PSNR和视频多方法评估融合VMAF参数。

3.根据权利要求2所述的面向云端融合的视频超分辨率系统，其特征在于，所述移动端处理模块的核心为采用双立方插值方法对视频帧进行超分辨率处理，具体处理步骤为：

利用选择的基函数求出对应每个像素的权值；

利用求和公式得到该帧目标图片的像素值；

通过此步骤顺序处理每一个视频帧，直至得到全部插值后的连续视频帧；最后，将双立方插值得到的较高分辨率的视频采用HEVC方法进行压缩存储，并将上传至云端的帧设为关键帧。

4.根据权利要求3所述的面向云端融合的视频超分辨率系统，其特征在于，所述云端处理模块采用EDVR方法对视频帧进行超分辨率处理，具体处理步骤为：

对视频帧进行特征提取；

在重建模块中进行帧重建，得到高分辨率的视频帧。

5.一种根据权利要求1至4任一项所述的面向云端融合的视频超分辨率系统的还原方法，其特征在于，包括以下步骤：

用高分辨率帧直接替换HEVC压缩后相应位置的帧。

6.根据权利要求5所述的面向云端融合的视频超分辨率方法，其特征在于，所述分别预测双立方插值方法和EDVR方法进行超分辨率还原下视频帧的PSNR和VMAF参数，具体包括：

7.根据权利要求6所述的面向云端融合的视频超分辨率方法，其特征在于，所述根据PSNR和VMAF参数，采用相应的权重计算公式得到双立方插值和EDVR两种方法下该视频帧的性能差异，动态地决定是否将该帧卸载至云端进行处理，具体包括：

U_t＝α₁PSNR+α₂VMAF (1)

ΔU_t＝|U_t1-U_t2| (2)

8.根据权利要求7所述的面向云端融合的视频超分辨率方法，其特征在于，所述采用双立方插值的方法，对视频帧进行超分辨率还原处理，处理完成后使用HEVC方法进行高效视频压缩，具体包括：

将视频所有帧采用双立方插值的方法进行超分辨率还原；

将超分放大后的视频帧采用HEVC方法进行压缩；

将压缩后的视频存贮在结构体数组中。

9.根据权利要求8所述的面向云端融合的视频超分辨率方法，其特征在于，所述采用可变卷积方法的EDVR方法对视频帧进行超分辨率还原处理，并将得到的高分辨率帧存储在输出帧数组的相应位置中，具体包括：

特征提取，每层通过若干个残差块提取特征；

引入时空注意力机制进行帧融合；