CN115272082A

CN115272082A - 模型训练、视频质量提升方法、装置和计算机设备

Info

Publication number: CN115272082A
Application number: CN202210964910.6A
Authority: CN
Inventors: 徐雪; 杨洁琼; 张楚熠; 张驰
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-01

Abstract

本申请涉及一种模型训练、视频质量提升方法、装置和计算机设备，涉及人工智能技术领域。所述方法包括：获取待训练的视频质量提升模型的第一视频样本和第二视频样本；根据第一视频样本和第二视频样本，对待训练的退化模型进行训练，得到训练后的退化模型；将待训练的视频质量提升模型中的待训练的退化模型，更新为训练后的退化模型，得到更新后的视频质量提升模型；根据第一视频样本和第二视频样本，对更新后的视频质量提升模型中的待训练的超分辨率模型进行训练，得到训练后的超分辨率模型；将更新后的视频质量提升模型中的待训练的超分辨率模型，更新为训练后的超分辨率模型，得到训练后的视频质量提升模型。采用本方法能够有效提升视频质量。

Description

模型训练、视频质量提升方法、装置和计算机设备

技术领域

本申请涉及人工智能技术领域，特别是涉及一种模型训练、视频质量提升方法、装置和计算机设备。

背景技术

随着视频处理技术的发展，出现了真实世界视频超分辨率技术，通过研究退化模型，模拟真实世界的视频退化过程，可以利用退化得到的低分辨率视频来构造训练数据集，改善视频超分变率处理的效果。

现有技术中，采用深度学习网络对真实的高分辨率视频数据进行模拟退化，生成低分辨率视频，例如，双三次下采样、核估计和RealBASICVSR(真实视频超分辨率模型)等处理方法。其中，双三次下采样属于比较粗糙的线性退化，退化性能较差；核估计方法能够模拟退化方式有限，通常受限于已知退化方式；卷积网络通常聚焦于局部信息，长距离特征提取能力不足，无法充分利用视频帧的有效信息，准确性不足。

因此，目前的视频质量提升技术存在视频质量提升受限的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升视频质量的模型训练、视频质量提升方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种用于视频质量提升的模型训练方法。所述方法包括：

获取待训练的视频质量提升模型的第一视频样本和第二视频样本；所述待训练的视频质量提升模型包含待训练的退化模型和待训练的超分辨率模型；所述第二视频样本的视频分辨率高于所述第一视频样本的视频分辨率；

根据所述第一视频样本和所述第二视频样本，对所述待训练的退化模型进行训练，得到训练后的退化模型；

将所述待训练的视频质量提升模型中的待训练的退化模型，更新为所述训练后的退化模型，得到更新后的视频质量提升模型；

根据所述第一视频样本和所述第二视频样本，对所述更新后的视频质量提升模型中的待训练的超分辨率模型进行训练，得到训练后的超分辨率模型；

将所述更新后的视频质量提升模型中的待训练的超分辨率模型，更新为所述训练后的超分辨率模型，得到训练后的视频质量提升模型。

在其中一个实施例中，所述根据所述第一视频样本和所述第二视频样本，对所述更新后的视频质量提升模型中的待训练的超分辨率模型进行训练，得到训练后的超分辨率模型，包括：

将所述第一视频样本从第一方向输入至所述更新后的视频质量提升模型，依次得到所述待训练的超分辨率模型输出的第一超分辨率视频和所述训练后的退化模型输出的第一退化视频，根据所述第一视频样本、所述第一超分辨率视频和所述第一退化视频，确定第一损失值；

将所述第二视频样本从第二方向输入至所述更新后的视频质量提升模型，依次得到所述训练后的退化模型输出的第二退化视频和所述待训练的超分辨率模型输出的第二超分辨率视频，根据所述第二视频样本、所述第二退化视频和所述第二超分辨率视频，确定第二损失值；

根据所述第一损失值和所述第二损失值，对所述更新后的视频质量提升模型进行训练，得到所述训练后的超分辨率模型。

在其中一个实施例中，所述根据所述第一视频样本、所述第一超分辨率视频和所述第一退化视频，确定第一损失值，包括：

根据所述第一视频样本和所述第一退化视频，确定循环一致性损失值；

根据所述第一视频样本和所述第一超分辨率视频，确定结构感知损失值；

根据所述第一超分辨率视频和所述第二视频样本，确定联合对抗损失值；

根据所述循环一致性损失值、所述结构感知损失值和所述联合对抗损失值，得到所述第一损失值。

在其中一个实施例中，所述根据所述第一视频样本和所述第二视频样本，对所述待训练的退化模型进行训练，得到训练后的退化模型，包括：

将所述第二视频样本输入至所述待训练的退化模型，得到所述第二视频样本对应的第三退化视频；

根据所述第二视频样本、所述第三退化视频和所述第一视频样本，确定第三损失值；

根据所述第三损失值，对所述待训练的退化模型进行训练，得到所述训练后的退化模型。

在其中一个实施例中，所述将所述第二视频样本输入至所述待训练的退化模型，得到所述第二视频样本对应的第三退化视频，包括：

对所述第二视频样本对应的视频帧序列进行分组，得到至少一组视频帧；

将每组所述视频帧并行输入至所述待训练的退化模型，通过所述待训练的退化模型对所述视频帧进行特征融合，得到视频帧融合特征；

根据所述视频帧融合特征进行视频重建，得到所述第三退化视频。

第二方面，本申请提供了一种视频质量提升方法。所述方法包括：

对第一视频对应的视频帧序列进行分组，得到至少一组第一视频帧；

将每组所述第一视频帧输入至训练后的视频质量提升模型，得到所述训练后的视频质量提升模型输出的第二视频帧；所述训练后的视频质量提升模型根据用于视频质量提升的模型训练方法训练得到；

对所述第二视频帧进行组合，得到第二视频；所述第二视频的视频分辨率高于所述第一视频的视频分辨率；

根据预设的视频显示参数，对所述第二视频进行参数调整，得到目标第二视频。

第三方面，本申请还提供了一种用于视频质量提升的模型训练装置。所述装置包括：

样本获取模块，用于获取待训练的视频质量提升模型的第一视频样本和第二视频样本；所述待训练的视频质量提升模型包含待训练的退化模型和待训练的超分辨率模型；所述第二视频样本的视频分辨率高于所述第一视频样本的视频分辨率；

第一训练模块，用于根据所述第一视频样本和所述第二视频样本，对所述待训练的退化模型进行训练，得到训练后的退化模型；

第一更新模块，用于将所述待训练的视频质量提升模型中的待训练的退化模型，更新为所述训练后的退化模型，得到更新后的视频质量提升模型；

第二训练模块，用于根据所述第一视频样本和所述第二视频样本，对所述更新后的视频质量提升模型中的待训练的超分辨率模型进行训练，得到训练后的超分辨率模型；

第二更新模块，用于将所述更新后的视频质量提升模型中的待训练的超分辨率模型，更新为所述训练后的超分辨率模型，得到训练后的视频质量提升模型。

第四方面，本申请还提供了一种视频质量提升装置。所述装置包括：

视频分组模块，用于对第一视频对应的视频帧序列进行分组，得到至少一组第一视频帧；

质量提升模块，用于将每组所述第一视频帧输入至训练后的视频质量提升模型，得到所述训练后的视频质量提升模型输出的第二视频帧；所述训练后的视频质量提升模型根据用于视频质量提升的模型训练方法训练得到；

视频组合模块，用于对所述第二视频帧进行组合，得到第二视频；所述第二视频的视频分辨率高于所述第一视频的视频分辨率；

参数调整模块，用于根据预设的视频显示参数，对所述第二视频进行参数调整，得到目标第二视频。

第五方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第六方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第七方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第八方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第九方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

第十方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述模型训练、视频质量提升方法、装置、计算机设备、存储介质和计算机程序产品，通过先获取待训练的视频质量提升模型的第一视频样本和第二视频样本，根据第一视频样本和第二视频样本，对待训练的退化模型进行训练，得到训练后的退化模型，再将待训练的视频质量提升模型中待训练的退化模型，更新为训练后的退化模型，得到更新后的视频质量提升模型，然后根据第一视频样本和第二视频样本，对更新后的视频质量提升模型中待训练的超分辨率模型进行训练，得到训练后的超分辨率模型，最后将更新后的视频质量提升模型中待训练的超分辨率模型，更新为训练后的超分辨率模型，得到训练后的视频质量提升模型；可以将退化模型和超分辨率模型结合起来，形成双向转换，在模型训练过程中对退化模型和超分辨率模型进行联合训练，实现视频质量提升模型的持续优化，有效提升视频质量。

附图说明

图1为一个实施例中用于视频质量提升的模型训练方法的流程示意图；

图2为一个实施例中视频质量提升模型的结构框图；

图3为一个实施例中退化模型生成器的结构框图；

图4为一个实施例中超分辨率模型生成器的结构框图；

图5为一个实施例中视频质量提升方法的流程示意图；

图6为一个实施例中基于transformer生成器的双向视频感知质量提升系统的结构框图；

图7为一个实施例中低分辨率模型获取的流程示意图；

图8为一个实施例中双向视频感知转换的流程示意图；

图9为一个实施例中视频感知质量提升的流程示意图；

图10为一个实施例中用于视频质量提升的模型训练装置的结构框图；

图11为一个实施例中视频质量提升装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的模型训练方法和视频质量提升方法，可以应用于终端或者服务器。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图1所示，提供了一种用于视频质量提升的模型训练方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤S110，获取待训练的视频质量提升模型的第一视频样本和第二视频样本；待训练的视频质量提升模型包含待训练的退化模型和待训练的超分辨率模型；第二视频样本的视频分辨率高于第一视频样本的视频分辨率。

其中，第一视频样本可以为低分辨率视频样本。第二视频样本可以为高分辨率视频样本。

其中，退化模型可以是将高分辨率视频转化为低分辨率视频的模型。超分辨率模型可以是将低分辨率视频转化为高分辨率视频的模型。

具体实现中，可以将待训练的退化模型和待训练的超分辨率模型组成待训练的视频质量提升模型，采集低分辨率视频和高分辨率视频，并输入终端，终端可以将获取到的低分辨率视频作为第一视频样本，将获取到的高分辨率视频作为第二视频样本。其中，第一视频样本和第二视频样本可以不匹配。

实际应用中，可以采集真实世界的多个低分辨率视频和多个高分辨率视频，输入终端，终端可以将获取到的多个低分辨率视频作为低分辨率视频样本集合，将获取到的多个高分辨率视频作为高分辨率视频样本集合。其中，允许低分辨率视频样本对应的高分辨率视频不出现在高分辨率视频样本集合中，也允许高分辨率视频样本对应的低分辨率视频不出现在低分辨率视频样本集合中。

图2提供了一个视频质量提升模型的结构框图。根据图2，视频质量提升模型可以采用由退化模型和超分辨率模型组成的循环转换结构。其中，退化模型可以由基于Transformer(基于注意力机制的神经网络)的生成器和基于卷积神经网络的判别器组成，超分辨率模型也可以由基于Transformer的生成器和基于卷积神经网络的判别器组成。视频质量提升模型可以设置有两个输入端，分别与退化模型和超分辨率模型相连接，通过其中一个输入端，可以将原始低分辨率视频帧序列输入至超分辨率模型，得到超分辨率模型输出的中间高分辨率视频帧序列，然后可以将中间高分辨率视频帧序列输入至退化模型，得到退化模型输出的目标低分辨率视频帧序列；通过另一个输入端，可以将原始高分辨率视频帧序列输入至退化模型，得到退化模型输出的中间低分辨率视频帧序列，然后可以将中间低分辨率视频帧序列输入至超分辨率模型，得到超分辨率模型输出的目标高分辨率视频帧序列。

图3提供了一个退化模型生成器的结构框图。根据图3，在输入退化模型前，可以将高分辨率视频转化为高分辨视频帧序列，对高分辨视频帧序列进行分组，得到至少一组高分辨率视频帧，将每组高分辨率视频帧作为原始高分辨率视频帧，输入至退化模型。退化模型可以对原始高分辨率视频帧进行特征提取，将提取后的特征依次输入至并行Transformer块、Concatenate层(连接层)，以及多个Transformer块、PixelShuffle(像素重组)下采样层和PixelShuffle上采样层，实现对原始高分辨率视频帧空间信息、时间信息和尺度信息的特征融合，之后可以根据融合的特征进行视频帧的重建，得到初始重建视频帧。还可以对原始高分辨率视频帧分别进行前向光流估计、后向光流估计和双三次下采样，将得到的前向光流估计结果、后向光流估计结果、双三次下采样结果与初始重建视频帧相叠加，输出一组低分辨率的目标重建视频帧。

图4提供了一个超分辨率模型生成器的结构框图。根据图4，在输入超分辨率模型前，可以将低分辨率视频转化为低分辨视频帧序列，对低分辨视频帧序列进行分组，得到至少一组低分辨率视频帧，将每组低分辨率视频帧作为原始低分辨率视频帧，输入至超分辨率模型。超分辨率模型可以对原始低分辨率视频帧进行特征提取，将提取后的特征依次输入至并行Transformer块、Concatenate层(连接层)，以及多个Transformer块、PixelShuffle(像素重组)下采样层和PixelShuffle上采样层，实现对原始低分辨率视频帧空间信息、时间信息和尺度信息的特征融合，之后可以根据融合的特征进行视频帧的重建，得到初始重建视频帧。还可以对原始低分辨率视频帧分别进行前向光流估计、后向光流估计和双三次上采样，将得到的前向光流估计结果、后向光流估计结果、双三次上采样结果与初始重建视频帧相叠加，输出一组高分辨率的目标重建视频帧。

步骤S120，根据第一视频样本和第二视频样本，对待训练的退化模型进行训练，得到训练后的退化模型。

具体实现中，可以将第二视频样本作为训练样本，将第一视频样本作为样本标签，将第二视频样本输入至待训练的退化模型，得到待训练的退化模型输出的退化视频，还可以根据第二视频样本、第一视频样本和退化视频计算得到损失值，根据损失值对待训练的退化模型的参数进行调整，重复步骤S120的训练过程，直至损失值收敛，得到训练后的退化模型。

步骤S130，将待训练的视频质量提升模型中的待训练的退化模型，更新为训练后的退化模型，得到更新后的视频质量提升模型。

具体实现中，可以利用步骤S120得到的训练后的退化模型，代替待训练的视频质量提升模型中的待训练的退化模型，得到更新后的视频质量提升模型。

步骤S140，根据第一视频样本和第二视频样本，对更新后的视频质量提升模型中的待训练的超分辨率模型进行训练，得到训练后的超分辨率模型。

具体实现中，可以将第一视频样本从第一方向输入至更新后的视频质量提升模型，依次得到待训练的超分辨率模型输出的中间高分辨率视频，和训练后的退化模型输出的目标低分辨率视频，根据第一视频样本、中间高分辨率视频和目标低分辨率视频计算得到一组损失值。还可以将第二视频样本从第二方向输入至更新后的视频质量提升模型，依次得到训练后的退化模型输出的中间低分辨率视频，和待训练的超分辨率模型输出的目标高分辨率视频，根据第二视频样本、中间低分辨率视频和目标高分辨率视频计算得到另一组损失值。根据两组损失值对待训练的超分辨率模型的参数进行调整，重复步骤S140的训练过程，直至损失值收敛，得到训练后的超分辨率模型。

步骤S150，将更新后的视频质量提升模型中的待训练的超分辨率模型，更新为训练后的超分辨率模型，得到训练后的视频质量提升模型。

具体实现中，可以利用步骤S140得到的训练后的超分辨率模型，代替更新后的视频质量提升模型中的待训练的超分辨率模型，得到训练后的超分辨率模型。

上述模型训练方法，通过先获取待训练的视频质量提升模型的第一视频样本和第二视频样本，根据第一视频样本和第二视频样本，对待训练的退化模型进行训练，得到训练后的退化模型，再将待训练的视频质量提升模型中待训练的退化模型，更新为训练后的退化模型，得到更新后的视频质量提升模型，然后根据第一视频样本和第二视频样本，对更新后的视频质量提升模型中待训练的超分辨率模型进行训练，得到训练后的超分辨率模型，最后将更新后的视频质量提升模型中待训练的超分辨率模型，更新为训练后的超分辨率模型，得到训练后的视频质量提升模型；可以将退化模型和超分辨率模型结合起来，形成双向转换，在模型训练过程中对退化模型和超分辨率模型进行联合训练，实现视频质量提升模型的持续优化，有效提升视频质量。

在一个实施例中，上述步骤S140，可以具体包括：将第一视频样本从第一方向输入至更新后的视频质量提升模型，依次得到待训练的超分辨率模型输出的第一超分辨率视频和训练后的退化模型输出的第一退化视频，根据第一视频样本、第一超分辨率视频和第一退化视频，确定第一损失值；将第二视频样本从第二方向输入至更新后的视频质量提升模型，依次得到训练后的退化模型输出的第二退化视频和待训练的超分辨率模型输出的第二超分辨率视频，根据第二视频样本、第二退化视频和第二超分辨率视频，确定第二损失值；根据第一损失值和第二损失值，对更新后的视频质量提升模型进行训练，得到训练后的超分辨率模型。

其中，第一方向可以是先输入超分辨率模型再输入退化模型的输入方向。第二方向可以是先输入退化模型再输入超分辨率模型的输入方向。

其中，第一损失值可以包括循环一致性损失值、结构感知损失值和联合对抗损失值中的至少一种。第二损失值也可以包括循环一致性损失值、结构感知损失值和联合对抗损失值中的至少一种。

具体实现中，可以将低分辨率视频样本的每组低分辨率视频帧从第一方向输入至更新后的视频质量提升模型，先后得到待训练的超分辨率模型输出的中间高分辨率视频帧，和训练后的退化模型输出的目标低分辨率视频帧，根据原始低分辨率视频帧、中间高分辨率视频帧、目标低分辨率视频帧可以计算得到一组损失值。还可以将高分辨率视频样本的每组高分辨率视频帧从第二方向输入至更新后的视频质量提升模型，先后得到训练后的退化模型输出的中间低分辨率视频帧，和待训练的超分辨率模型输出的目标高分辨率视频帧，根据原始高分辨率视频帧、中间低分辨率视频帧、目标高分辨率视频帧可以计算得到另一组损失值。根据两组损失值对待训练的超分辨率模型的参数进行调整，重复该训练过程，直至损失值收敛，得到训练后的超分辨率模型。

本实施例中，通过将第一视频样本从第一方向输入至更新后的视频质量提升模型，依次得到待训练的超分辨率模型输出的第一超分辨率视频和训练后的退化模型输出的第一退化视频，根据第一视频样本、第一超分辨率视频和第一退化视频，确定第一损失值，将第二视频样本从第二方向输入至更新后的视频质量提升模型，依次得到训练后的退化模型输出的第二退化视频和待训练的超分辨率模型输出的第二超分辨率视频，根据第二视频样本、第二退化视频和第二超分辨率视频，确定第二损失值，根据第一损失值和第二损失值，对更新后的视频质量提升模型进行训练，得到训练后的超分辨率模型；可以使用高低分辨率视频帧循环转换的结构进行循环转换，联合训练退化模型和超分辨率模型，持续优化网络，使得训练得到的超分辨率模型的视频处理质量得到提高。

在一个实施例中，上述根据第一视频样本、第一超分辨率视频和第一退化视频，确定第一损失值的步骤，可以具体包括：根据第一视频样本和第一退化视频，确定循环一致性损失值；根据第一视频样本和第一超分辨率视频，确定结构感知损失值；根据第一超分辨率视频和第二视频样本，确定联合对抗损失值；根据循环一致性损失值、结构感知损失值和联合对抗损失值，得到第一损失值。

具体实现中，对于从第一方向输入的一组原始低分辨率视频帧，可以计算原始低分辨率视频帧与退化模型输出的目标低分辨率视频帧之间的像素损失，得到循环一致性损失；还可以对原始低分辨率视频帧进行双三次采样，得到双三次采样后的视频帧，将中间高分辨率视频帧和双三次采样后的视频帧输入VGG(Visual Geometry Group，超分辨率测试序列)网络，计算得到结构感知损失值；还可以将中间高分辨率视频帧与第二方向输入的原始高分辨率视频帧进行特征提取和融合，并输入判别器，计算得到联合对抗损失。将计算得到循环一致性损失值、结构感知损失值和联合对抗损失值作为第一损失值。

需要说明的是，对于从第二方向输入的一组原始高分辨率视频帧，可以计算原始高分辨率视频帧与超分辨率模型输出的目标高分辨率视频帧之间的像素损失，得到循环一致性损失；还可以对原始高分辨率视频帧进行双三次采样，得到双三次采样后的视频帧，将中间低分辨率视频帧和双三次采样后的视频帧输入VGG(Visual Geometry Group，超分辨率测试序列)网络，计算得到结构感知损失值；还可以将中间低分辨率视频帧与第一方向输入的原始低分辨率视频帧进行特征提取和融合，并输入判别器，计算得到联合对抗损失。将计算得到循环一致性损失值、结构感知损失值和联合对抗损失值作为第二损失值。

本实施例中，通过根据第一视频样本和第一退化视频，确定循环一致性损失值，根据第一视频样本和第一超分辨率视频，确定结构感知损失值；根据第一超分辨率视频和第二视频样本，确定联合对抗损失值，根据循环一致性损失值、结构感知损失值和联合对抗损失值，得到第一损失值，可以通过循环转换的视频帧的结构感知损失、对抗损失和循环一致性进行训练，提升视频帧的感知质量。

在一个实施例中，上述步骤S120，可以具体包括：将第二视频样本输入至待训练的退化模型，得到第二视频样本对应的第三退化视频；根据第二视频样本、第三退化视频和第一视频样本，确定第三损失值；根据第三损失值，对待训练的退化模型进行训练，得到训练后的退化模型。

具体实现中，可以将高分辨率视频样本的每组高分辨率视频帧输入至待训练的退化模型，得到待训练的退化模型输出的低分辨率视频帧，根据高分辨率视频帧、待训练的退化模型输出的低分辨率视频帧，以及低分辨率视频样本，可以计算得到一组损失值，根据损失值对待训练的退化模型的参数进行调整，重复该训练过程，直至损失值收敛，得到训练后的退化模型。

实际应用中，损失值可以包括下采样像素损失值、结构感知损失值和联合对抗损失值中的至少一种。其中，可以对高分辨率视频帧进行双三次下采样，计算双三次下采样后的视频帧与待训练退化模型输出的低分辨率视频帧之间的像素损失，得到下采样像素损失值；还可以将双三次下采样后的视频帧输入VGG网络，计算得到结构感知损失值；还可以将待训练退化模型输出的低分辨率视频帧与低分辨率视频样本中的低分辨率视频帧进行特征提取和融合，并输入判别器，计算得到联合对抗损失值。

本实施例中，通过将第二视频样本输入至待训练的退化模型，得到第二视频样本对应的第三退化视频，根据第二视频样本、第三退化视频和第一视频样本，确定第三损失值，根据第三损失值，对待训练的退化模型进行训练，得到训练后的退化模型，可以根据下采样像素损失、结构感知损失和联合对抗损失进行退化模型训练，提升退化模型视频帧的感知质量。

在一个实施例中，上述将第二视频样本输入至待训练的退化模型，得到第二视频样本对应的第三退化视频的步骤，可以具体包括：对第二视频样本对应的视频帧序列进行分组，得到至少一组视频帧；将每组视频帧并行输入至待训练的退化模型，通过待训练的退化模型对视频帧进行特征融合，得到视频帧融合特征；根据视频帧融合特征进行视频重建，得到第三退化视频。

具体实现中，可以将高分辨率视频样本转化为高分辨视频帧序列，对高分辨视频帧序列进行分组，得到至少一组高分辨率视频帧，将每组高分辨率视频帧并行输入至待训练的退化模型。待训练的退化模型可以对高分辨率视频帧进行特征提取，将提取后的特征依次输入至并行Transformer块、Concatenate层，以及多个Transformer块、PixelShuffle下采样层和PixelShuffle上采样层，实现对高分辨率视频帧空间信息、时间信息和尺度信息的特征融合，之后可以根据融合的特征进行视频帧的重建，得到初始重建视频帧。还可以对原始高分辨率视频帧分别进行前向光流估计、后向光流估计和双三次下采样，将得到的前向光流估计结果、后向光流估计结果、双三次下采样结果与初始重建视频帧相叠加，输出一组低分辨率的重建视频帧。采用上述方法依次对每组高分辨视频帧进行处理，将处理后得到的低分辨率重建视频帧进行连接，可以得到退化视频。

本实施例中，通过对第二视频样本对应的视频帧序列进行分组，得到至少一组视频帧，将每组视频帧并行输入至待训练的退化模型，通过待训练的退化模型对视频帧进行特征融合，得到视频帧融合特征，根据视频帧融合特征进行视频重建，得到第三退化视频，可以使用具有注意力机制的Transformer结构对视频帧的空间、时间和尺度信息进行特征细化，健全视频帧的全局依赖关系，以及使用卷积判别器提升视频帧的局部高频信息，而且，还可以结合视频帧之间的双向光流，同时恢复一组图像帧，结合了视频帧之间的双向光流，充分利用了帧与帧之间的信息，并且能够高效处理多张图像帧，具有较好的并行性。

在一个实施例中，如图5所示，提供了一种视频质量提升方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤S210，对第一视频对应的视频帧序列进行分组，得到至少一组第一视频帧。

步骤S220，将每组第一视频帧输入至训练后的视频质量提升模型，得到训练后的视频质量提升模型输出的第二视频帧；训练后的视频质量提升模型根据用于视频质量提升的模型训练方法训练得到。

步骤S230，对第二视频帧进行组合，得到第二视频；第二视频的视频分辨率高于第一视频的视频分辨率。

步骤S240，根据预设的视频显示参数，对第二视频进行参数调整，得到目标第二视频。

其中，视频显示参数可以但不限于是视频的尺寸、亮度和色调。

具体实现中，对于需要进行视频质量提升的低分辨率视频，可以转化为低分辨率视频帧序列，对低分辨率视频帧序列进行分组，得到至少一组低分辨率视频帧，将每组低分辨率视频帧并行输入至训练后的视频质量提升模型，得到训练后的视频质量提升模型输出的高分辨率视频帧，将得到的多组高分辨率视频帧进行组合，得到高分辨率视频，根据预先设置的视频显示参数，对高分辨率视频进行调整，可以得到适于显示的高感知质量的高分辨率视频。

本实施例中，通过对第一视频对应的视频帧序列进行分组，得到至少一组第一视频帧，将每组第一视频帧输入至训练后的视频质量提升模型，得到训练后的视频质量提升模型输出的第二视频帧，对第二视频帧进行组合，得到第二视频，根据预设的视频显示参数，对第二视频进行参数调整，得到目标第二视频，可以利用对退化模型和超分辨率模型进行联合训练得到的视频质量提升模型，对视频质量的提升进行持续优化，有效提升视频质量。

为了便于本领域技术人员深入理解本申请实施例，以下将结合一个具体示例进行说明。

本申请提出一种基于transformer生成器的双向视频感知质量提升方法和系统克服了现有单独通过卷积网络模拟退化，获取训练视频数据的方法的缺点。使用transformer网络作为生成器，结合卷积神经网络判别器，并使用了双向的光流信息，融合了transformer网络在全局依赖方面的优点，以及卷积神经网络在局部细节特征处理方面的优点，充分利用视频帧之间的信息，有效的生成低分辨率转换模型，而不直接使用生成的低分辨率数据，并且将退化网络和超分辨率网络结合起来，形成双向转换，进行联合训练，持续优化。此外，本申请还采取结构感知损失、对抗损失和循环一致性损失同时对退化网络和超分辨率网络进行训练，并且对输入的所有帧进行统一处理，具有较好的性能，充分利用资源。

图6为一个基于transformer生成器的双向视频感知质量提升系统的结构框图。根据图6，基于transformer生成器的双向视频感知质量提升系统包括低分辨率模型获取模块300、双向视频感知转换模块400和视频感知质量提升模块500，其中：

低分辨率模型获取模块300，负责处理不匹配的真实高/低分辨率视频数据，并接收用户选取的一小段视频数据作为样例。将视频提取为视频序列，每组7张视频帧进行处理。使用transformer生成器网络，融合前向和后向的双向光流信息，获取细化特征，并使用基于PixelShuffle的下采样的重建层获取低分辨率视频帧。将生成的低分辨率视频帧和不匹配的真实低分辨率视频帧分别进行concat(连接)，使用卷积判别器对两组concat后的特征向量进行判别，提高退化视频帧的感知真实性。借助双三次下采样的像素损失，结构感知损失和对抗损失对网络进行训练。最终输出退化transformer网络生成模型和样例数据。

双向视频感知转换模块400，构建了双向转化网络，循环将匹配的低分辨率视频帧和高分辨率视频帧进行转化，其中退化生成器网络为低分辨率模型获取模块，而超分辨率生成器网络具有和退化网络一致的结构，其中重建层的PixelShuffle的下采样层变为上采样层。本模块将生成的高/低分辨率视频帧和匹配的输入高/低分辨率视频帧分别进行concat，使用高/低分辨率卷积判别器分别对高分辨率域和低分辨率域的生成/输入特征向量进行判别，提高循环转化后的视频帧的感知真实性。借助循环一致性损失，结构感知损失和对抗损失对网络进行训练。最终输出得到良好训练的超分辨率transformer网络生成模型，和从低分辨率模型获取模块获取的样例数据。

视频感知质量提升模块500，集成了训练过的网络模型，负责处理需要进行超分辨率的视频。该模块展示样例数据，每个样例数据都是训练数据中用户选取的真实低分辨率视频片段，代表一个训练过的网络模型。该模块接收在展示界面的用户选择、低分辨率视频和目标视频参数，提取相应的超分辨率模型，并将用户输入的需要进行超分辨率的视频，转化为图片序列，7张为一组，结合选取的模型，通过超分辨率网络，进行超分辨，最后将细节信息得到充分重建的超分辨率图片序列进行组合，转化为视频，并根据目标视频参数进行尺寸等方面的调整，最终输出高感知质量的清晰视频。

图7为一个低分辨率模型获取的流程示意图。根据图7，低分辨率模型获取模块300，负责处理不匹配的真实高/低分辨率视频数据，并传递样例视频片段，具体步骤如下：

步骤S301，获取用户上送的不匹配的真实高/低分辨率视频数据，获取用户截取的样例低分辨率视频片段。

步骤S302，处理视频数据，将高/低分辨率视频数据都转化为视频序列，每7帧为一组，其中高分辨率视频帧数据作为输入数据，而不匹配的低分辨率视频帧数据作为标签数据。

步骤S303，使用transformer生成器和卷积神经网络判别器进行退化建模，训练直至收敛。其中，训练目标为7帧图像的下采样像素损失、结构感知损失和不匹配图像的联合对抗损失。

其中，下采样像素损失是将高分辨率视频帧进行双三次下采样，与生成的低分辨率视频帧进行7个L1 pixel loss(像素损失)的计算；结构感知损失是将7对生成/双三次下采样视频帧输入VGG网络，计算7个VGG损失；联合对抗损失是分别将生成的低分辨率视频帧组与对应数量的不匹配的真实低分辨率视频帧进行特征提取和融合，并将两组特征输入判别器，计算对抗损失。

步骤S304，输出训练好的退化transformer网络生成模型和样例数据。

图8为一个双向视频感知转换的流程示意图。根据图8，双向视频感知转换模块400，构建了双向转化网络，循环将匹配的低分辨率视频帧和高分辨率视频帧进行转化，最终输出视频感知质量提升模型，具体步骤如下：

步骤S401，获取数据，包括不匹配的真实高/低分辨率视频数据、退化transformer网络生成模型、样例视频片段。

步骤S402，循环转换高低分辨率视频帧，训练直至收敛。其中，每次迭代的训练目标有两组，每组包含为7帧图像的循环一致性损失、结构感知损失和不匹配图像的联合对抗损失。

其中，循环一致性损失是将视频帧进行两次转换后生成的视频帧与原本的视频帧进行7个L1 pixel loss的计算；结构感知损失是将经过一次转换生成的视频帧，与原本的视频帧经过双三次采样调整尺寸的数据输入VGG网络，计算7个VGG损失；联合对抗损失是分别将经过一次转换生成的视频帧组与对应数量的不匹配的真实视频帧组进行特征提取和融合，并将两组特征输入判别器，计算对抗损失。

步骤S403，挑选训练好的超分辨率transformer网络生成模型，作为视频感知质量提升模型，将样例数据作为标签，将模型和标签输出。

图9为一个视频感知质量提升的流程示意图。根据图9，视频感知质量提升模块500，负责对目标低分辨率视频进行感知质量提升，具体步骤如下：

步骤S501，获取数据，包括用户输入的低分辨率视频、选择的视频感知质量提升模型和目标视频参数。

步骤S502，处理视频数据，将低分辨率视频数据转化为视频图片序列，每7帧为一组，其中作为输入数据。

步骤S503，调用用户选择的视频感知质量提升模型，通过超分辨率transformer生成器，将提升每组输入数据的分辨率，增加图片序列细节，提高质量。

步骤S504，将超分辨率图片序列进行组合，转化为视频，并根据目标视频参数进行尺寸等方面的调整，最终输出高感知质量的清晰视频。

图3和图4为transformer生成器的网络结构，其中退化生成器的重建层中的PixelShuffle层为下采样层，相应的resize层为双三次下采样层，而超分辨率生成器的PixelShuffle层为上采样层相应的resize层为双三次上采样层。transformer基础块为通用基础模块，判别器为卷积神经网络判别器。

图2为循环转换结构，整体结构思路为真实低分辨率图像序列(视频帧)先经过一次超分辨率transformer网络转化，然后进行一次退化transformer网络转化；真实高分辨率图像序列(视频帧)先经过transformer网络转化，然后进行一次超分辨率transformer网络转化。

上述基于transformer生成器的双向视频感知质量提升方法，使用了能够具有注意力机制的transformer结构对视频帧的空间、时间和尺度信息进行了特征细化，建立健全了视频帧的全局依赖关系，并使用卷积判别器提升了视频帧的局部高频信息。

而且，由于使用高低分辨率视频帧循环转换的结构进行循环转换，联合训练退化和超分辨率网络，能够持续优化网络。

另外，通过循环转换的视频帧的结构感知损失、对抗损失和循环一致性进行训练，提升了视频帧的感知质量。

最后，结合了视频帧之间的双向光流，同时恢复一组图像帧，结合了视频帧之间的双向光流，充分利用帧与帧之间的信息，并且能够高效处理多张图像帧，具有较好的并行性。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的模型训练和视频质量提升方法的模型训练和视频质量提升装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个模型训练和视频质量提升装置实施例中的具体限定可以参见上文中对于模型训练和视频质量提升方法的限定，在此不再赘述。

在一个实施例中，如图10所示，提供了一种用于视频质量提升的模型训练装置，包括：样本获取模块610、第一训练模块620、第一更新模块630、第二训练模块640和第二更新模块650，其中：

样本获取模块610，用于获取待训练的视频质量提升模型的第一视频样本和第二视频样本；所述待训练的视频质量提升模型包含待训练的退化模型和待训练的超分辨率模型；所述第二视频样本的视频分辨率高于所述第一视频样本的视频分辨率；

第一训练模块620，用于根据所述第一视频样本和所述第二视频样本，对所述待训练的退化模型进行训练，得到训练后的退化模型；

第一更新模块630，用于将所述待训练的视频质量提升模型中的待训练的退化模型，更新为所述训练后的退化模型，得到更新后的视频质量提升模型；

第二训练模块640，用于根据所述第一视频样本和所述第二视频样本，对所述更新后的视频质量提升模型中的待训练的超分辨率模型进行训练，得到训练后的超分辨率模型；

第二更新模块650，用于将所述更新后的视频质量提升模型中的待训练的超分辨率模型，更新为所述训练后的超分辨率模型，得到训练后的视频质量提升模型。

在一个实施例中，上述第二训练模块640，还包括：

第一损失值模块，用于将所述第一视频样本从第一方向输入至所述更新后的视频质量提升模型，依次得到所述待训练的超分辨率模型输出的第一超分辨率视频和所述训练后的退化模型输出的第一退化视频，根据所述第一视频样本、所述第一超分辨率视频和所述第一退化视频，确定第一损失值；

第二损失值模块，用于将所述第二视频样本从第二方向输入至所述更新后的视频质量提升模型，依次得到所述训练后的退化模型输出的第二退化视频和所述待训练的超分辨率模型输出的第二超分辨率视频，根据所述第二视频样本、所述第二退化视频和所述第二超分辨率视频，确定第二损失值；

视频质量提升模型训练过程，用于根据所述第一损失值和所述第二损失值，对所述更新后的视频质量提升模型进行训练，得到所述训练后的超分辨率模型。

在一个实施例中，上述第一损失值模块，还用于根据所述第一视频样本和所述第一退化视频，确定循环一致性损失值；根据所述第一视频样本和所述第一超分辨率视频，确定结构感知损失值；根据所述第一超分辨率视频和所述第二视频样本，确定联合对抗损失值；根据所述循环一致性损失值、所述结构感知损失值和所述联合对抗损失值，得到所述第一损失值。

在一个实施例中，上述第一训练模块620，还包括：

模型退化模块，用于将所述第二视频样本输入至所述待训练的退化模型，得到所述第二视频样本对应的第三退化视频；

第三损失值模块，用于根据所述第二视频样本、所述第三退化视频和所述第一视频样本，确定第三损失值；

模型训练模块，用于根据所述第三损失值，对所述待训练的退化模型进行训练，得到所述训练后的退化模型。

在一个实施例中，上述模型退化模块，还用于对所述第二视频样本对应的视频帧序列进行分组，得到至少一组视频帧；将每组所述视频帧并行输入至所述待训练的退化模型，通过所述待训练的退化模型对所述视频帧进行特征融合，得到视频帧融合特征；根据所述视频帧融合特征进行视频重建，得到所述第三退化视频。

在一个实施例中，如图11所示，提供了一种视频质量提升装置，包括：视频分组模块710、质量提升模块720、视频组合模块730和参数调整模块740，其中：

视频分组模块710，用于对第一视频对应的视频帧序列进行分组，得到至少一组第一视频帧；

质量提升模块720，用于将每组所述第一视频帧输入至训练后的视频质量提升模型，得到所述训练后的视频质量提升模型输出的第二视频帧；所述训练后的视频质量提升模型根据权利要求1至5中任一项所述的模型训练方法训练得到；

视频组合模块730，用于对所述第二视频帧进行组合，得到第二视频；所述第二视频的视频分辨率高于所述第一视频的视频分辨率；

参数调整模块740，用于根据预设的视频显示参数，对所述第二视频进行参数调整，得到目标第二视频。

上述模型训练和视频质量提升装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种模型训练和视频质量提升方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种用于视频质量提升的模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一视频样本和所述第二视频样本，对所述更新后的视频质量提升模型中的待训练的超分辨率模型进行训练，得到训练后的超分辨率模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一视频样本、所述第一超分辨率视频和所述第一退化视频，确定第一损失值，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一视频样本和所述第二视频样本，对所述待训练的退化模型进行训练，得到训练后的退化模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述第二视频样本输入至所述待训练的退化模型，得到所述第二视频样本对应的第三退化视频，包括：

6.一种视频质量提升方法，其特征在于，所述方法包括：

将每组所述第一视频帧输入至训练后的视频质量提升模型，得到所述训练后的视频质量提升模型输出的第二视频帧；所述训练后的视频质量提升模型根据权利要求1至5中任一项所述的模型训练方法训练得到；

7.一种用于视频质量提升的模型训练装置，其特征在于，所述装置包括：

8.一种视频质量提升装置，其特征在于，所述装置包括：

质量提升模块，用于将每组所述第一视频帧输入至训练后的视频质量提升模型，得到所述训练后的视频质量提升模型输出的第二视频帧；所述训练后的视频质量提升模型根据权利要求1至5中任一项所述的模型训练方法训练得到；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。