CN113780252B

CN113780252B - 视频处理模型的训练方法、视频处理方法和装置

Info

Publication number: CN113780252B
Application number: CN202111331030.7A
Authority: CN
Inventors: 蔡金妙; 蒋念娟; 陈杰; 沈小勇; 吕江波; 贾佳亚
Original assignee: Shenzhen Smartmore Technology Co Ltd; Shanghai Smartmore Technology Co Ltd
Current assignee: Shenzhen Smartmore Technology Co Ltd; Shanghai Smartmore Technology Co Ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-02-18
Anticipated expiration: 2041-11-11
Also published as: CN113780252A

Abstract

本申请涉及一种视频处理模型的训练方法、视频处理方法、装置、计算机设备和存储介质。所述视频处理模型的训练方法包括：获取样本视频；将样本视频的帧图像输入预先训练的第一视频处理模型，得到样本视频的目标处理视频的帧图像；预先训练的第一视频处理模型为教师模型，由至少两种类型的视频画质增强算法组合而成；根据样本视频的帧图像和样本视频对应的目标处理视频的帧图像，对待训练的神经网络进行训练，得到训练完成的第二视频处理模型；第二视频处理模型为学生模型，用于对输入的视频的帧图像进行至少两种类型的视频画质增强处理。采用本方法，使得部署有第二视频处理模型的终端也能够快速实现对视频的多任务复合处理。

Description

视频处理模型的训练方法、视频处理方法和装置

技术领域

本申请涉及视频处理技术领域，特别是涉及一种视频处理模型的训练方法、视频处理方法、装置、计算机设备和存储介质。

背景技术

随着网络传输速度的提高和屏幕显示技术的发展，高清视频在生活娱乐和工作应用中的需求逐步增加，因而人们对视频画质的要求也显著提高；其中，视频画质增强是提高视频画质的常用手段。

实际应用中，往往需要对视频进行多项视频画质增强处理，但一般来说，单种算法只能执行一项视频画质增强效果，因此需要将多种算法组合为视频处理系统，才能实现多任务复合处理的效果；但是，运行多项视频画质增强算法所需要的算力较大，耗时较长，导致这样的多项任务的处理流程难以部署在处理能力有限的终端上，且难以到达实时处理的耗时要求。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在处理能力有限的终端上快速实现对视频的多任务复合处理的视频处理模型的训练方法、视频处理方法、装置、计算机设备和存储介质。

一种视频处理模型的训练方法，所述方法包括：

获取样本视频；

将所述样本视频的帧图像输入预先训练的第一视频处理模型，得到所述样本视频的目标处理视频的帧图像；所述预先训练的第一视频处理模型为教师模型，由至少两种类型的视频画质增强算法组合而成；

根据所述样本视频的帧图像和所述样本视频对应的目标处理视频的帧图像，对待训练的神经网络进行训练，得到训练完成的第二视频处理模型；所述训练完成的第二视频处理模型为学生模型，用于对输入的视频的帧图像进行至少两种类型的视频画质增强处理。

在其中一个实施例中，根据所述样本视频的帧图像和所述样本视频对应的目标处理视频的帧图像，对待训练的神经网络进行训练，得到训练完成的第二视频处理模型，包括：

将所述样本视频的帧图像输入待训练的神经网络，得到所述样本视频的预测处理视频的帧图像；

根据所述预测处理视频的帧图像和所述目标处理视频的帧图像之间的差值，得到损失值；

根据所述损失值调整所述待训练的神经网络的网络参数；对网络参数调整后的神经网络进行反复训练，直到达到训练结束条件，则将达到所述训练结束条件的训练后的神经网络，作为所述训练完成的第二视频处理模型。

在其中一个实施例中，所述将所述样本视频的帧图像输入预先训练的第一视频处理模型，得到所述样本视频的目标处理视频的帧图像，包括：

通过所述预先训练的第一视频处理模型中除最后一种类型的视频画质增强算法之外的其余类型的视频画质增强算法，对所述样本视频的帧图像进行对应的视频画质增强处理，得到所述样本视频的初始处理视频的帧图像；

对各个所述初始处理视频的帧图像和所述样本视频的帧图像进行加权求和，得到加权求和后的视频的帧图像；

通过所述最后一种类型的视频画质增强算法，对所述加权求和后的视频的帧图像进行对应的视频画质增强处理，得到所述样本视频的目标处理视频的帧图像。

在其中一个实施例中，所述将所述样本视频的帧图像输入预先训练的第一视频处理模型，得到所述样本视频的目标处理视频的帧图像，还包括：

通过预先训练的第一视频处理模型中的各种类型的视频画质增强算法，对所述样本视频的帧图像进行对应的视频画质增强处理，得到所述样本视频的初始处理视频的帧图像；

对各个所述初始处理视频的帧图像和所述样本视频的帧图像进行加权求和，得到所述样本视频的目标处理视频的帧图像。

在其中一个实施例中，所述预先训练的第一视频处理模型通过下述方式得到：

根据所述待训练的神经网络的部署场景信息，确定至少两种类型的视频画质增强算法，以及所述至少两种类型的视频画质增强算法的组合方式；

按照所述组合方式，对所述至少两种类型的视频画质增强算法进行组合，得到所述预先训练的第一视频处理模型。

一种视频处理方法，所述方法包括：

获取待处理视频；

将所述待处理视频的帧图像输入训练完成的第二视频处理模型，得到所述待处理视频的画质增强处理视频的帧图像；所述画质增强处理视频的帧图像通过所述训练完成的第二视频处理模型，对所述待处理视频的帧图像进行至少两种类型的视频画质增强处理得到；所述训练完成的第二视频处理模型根据视频处理模型的训练方法训练得到；

根据所述画质增强处理视频的帧图像，得到所述待处理视频的画质增强处理视频。

一种视频处理模型的训练装置，所述装置包括：

视频获取模块，用于获取样本视频；

视频处理模块，用于将所述样本视频的帧图像输入预先训练的第一视频处理模型，得到所述样本视频的目标处理视频的帧图像；所述预先训练的第一视频处理模型为教师模型，由至少两种类型的视频画质增强算法组合而成；

模型训练模块，用于根据所述样本视频的帧图像和所述样本视频对应的目标处理视频的帧图像，对待训练的神经网络进行训练，得到训练完成的第二视频处理模型；所述训练完成的第二视频处理模型为学生模型，用于对输入的视频的帧图像进行至少两种类型的视频画质增强处理。

一种视频处理装置，所述装置包括：

获取模块，用于获取待处理视频；

处理模块，用于将所述待处理视频的帧图像输入训练完成的第二视频处理模型，得到所述待处理视频的画质增强处理视频的帧图像；所述画质增强处理视频的帧图像通过所述训练完成的第二视频处理模型，对所述待处理视频的帧图像进行至少两种类型的视频画质增强处理得到；所述训练完成的第二视频处理模型根据视频处理模型的训练方法训练得到；

处理模块，用于根据所述画质增强处理视频的帧图像，得到所述待处理视频的画质增强处理视频。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取样本视频；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取样本视频；

上述视频处理模型的训练方法、视频处理方法、装置、计算机设备和存储介质，通过获取样本视频，然后将样本视频的帧图像输入预先训练的第一视频处理模型，得到样本视频的目标处理视频的帧图像；预先训练的第一视频处理模型为教师模型，由至少两种类型的视频画质增强算法组合而成；最后根据样本视频的帧图像和样本视频对应的目标处理视频的帧图像，对待训练的神经网络进行训练，得到训练完成的第二视频处理模型；这样，通过知识蒸馏的方式，训练得到用于对输入的视频的帧图像进行至少两种类型的视频画质增强处理的第二视频处理模型，且第二视频处理模型无需由多种类型的视频画质增强算法组合而成，从而降低了对视频的多任务复合处理所需要的算力和耗时，从而使得部署有第二视频处理模型的终端也能够快速实现对视频的多任务复合处理。

附图说明

图1为一个实施例中视频处理模型的训练方法的流程示意图；

图2A为一个实施例中多任务画质增强“教师”流程的耦合方式；

图2B为另一个实施例中多任务画质增强“教师”流程的耦合方式；

图3为一个实施例中对待训练的神经网络进行训练，得到训练完成的第二视频处理模型的步骤的流程示意图；

图4为一个实施例中视频处理方法的流程示意图；

图5为一个实施例中基于知识蒸馏和多任务处理的视频画质增强方法的流程示意图；

图6为一个实施例中视频处理模型的训练装置的结构框图；

图7为一个实施例中视频处理装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种视频处理模型的训练方法，以该方法应用于终端为例进行说明，可以理解的是，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。本实施例中，该方法包括以下步骤：

步骤S101，获取样本视频。

其中，样本视频是指用于训练的原始视频，比如短视频、微电影、某一个视频片段、某一集电视剧等；可以是网络上的视频，也可以是本地数据库存储的视频。

步骤S102，将样本视频的帧图像输入预先训练的第一视频处理模型，得到样本视频的目标处理视频的帧图像；预先训练的第一视频处理模型为教师模型，由至少两种类型的视频画质增强算法组合而成。

其中，样本视频的帧图像是指从样本视频中解码出来的帧，目标处理视频的帧图像是指从目标处理视频中解码出来的帧。

其中，第一视频处理模型是指由至少两种类型的视频画质增强算法组合而成的教师模型，用于对输入的视频的帧图像进行至少两种类型的视频画质增强处理。需要说明的是，第一视频处理模型可以使用多种不同类型的视频画质增强算法和通过不同方式进行耦合得到，在此不做具体限定。

例如，在图2A中，第一视频处理模型由算法模块１和算法模块２耦合而成；在图2B中，第一视频处理模型由算法模块１、算法模块２和算法模块３耦合而成。需要说明的是，算法模块中的算法具体是指视频画质增强算法。

其中，视频画质增强算法是指用于对输入的视频的帧图像进行对应的视频画质增强处理的深度学习模型或者传统算法，比如视频去噪算法、视频去模糊算法、视频去压缩效应算法、视频超分算法、暗光增强算法、视频颜色增强算法等。

其中，目标处理视频是指由第一视频处理模型对样本视频的帧图像进行至少两种类型的视频画质增强处理后得到的帧图像所对应的视频。

具体地，终端从本地数据库中获取样本视频，然后对样本视频进行视频解码处理，得到样本视频的帧图像，接着将样本视频的帧图像输入预先训练的第一视频处理模型，通过预先训练的第一视频处理模型对样本视频的帧图像进行至少两种类型的视频画质增强处理，得到样本视频的目标处理视频的帧图像。

举例说明，通过对第一视频处理模型对样本视频的帧图像进行视频去噪处理、视频去模糊处理、视频去压缩效应处理、视频超分处理、暗光增强处理、视频颜色增强处理，得到样本视频的目标处理视频的帧图像。

步骤S103，根据样本视频的帧图像和样本视频对应的目标处理视频的帧图像，对待训练的神经网络进行训练，得到训练完成的第二视频处理模型；训练完成的第二视频处理模型为学生模型，用于对输入的视频的帧图像进行至少两种类型的视频画质增强处理。

其中，待训练的神经网络可以是各种类型的神经网络，比如卷积神经网络、深度学习神经网络等，具体神经网络结构根据实际场景需求确定，本申请在此不做具体限定。

其中，训练完成的第二视频处理模型，是指用于对输入的视频的帧图像进行至少两种类型的视频画质增强处理的学生模型，其模型结构比第一视频处理模型的模型结构简单，且对算力要求较低，处理耗时较短，可以部署在处理能力有限的终端上，比如手机、笔记本电脑、嵌入式边缘设备、FPGA（Field-Programmable Gate Array，现场可编程门阵列）等。

具体地，终端使用样本视频的帧图像作为输入，使用样本视频对应的目标处理视频的帧图像作为监督信号，对待训练的神经网络进行反复训练，以不断调整神经网络的网络参数，直到训练结束，并将训练结束时的神经网络，作为第二视频处理模型。

上述视频处理模型的训练方法中，通过获取样本视频，然后将样本视频的帧图像输入预先训练的第一视频处理模型，得到样本视频的目标处理视频的帧图像；预先训练的第一视频处理模型为教师模型，由至少两种类型的视频画质增强算法组合而成；最后根据样本视频的帧图像和样本视频对应的目标处理视频的帧图像，对待训练的神经网络进行训练，得到训练完成的第二视频处理模型；这样，通过知识蒸馏的方式，训练得到用于对输入的视频的帧图像进行至少两种类型的视频画质增强处理的第二视频处理模型，且第二视频处理模型无需由多种类型的视频画质增强模型组合而成，从而降低了对视频的多任务复合处理所需要的算力和耗时，从而使得部署有第二视频处理模型的终端也能够快速实现对视频的多任务复合处理。

在一个实施例中，如图3所示，上述步骤S103，根据样本视频的帧图像和样本视频对应的目标处理视频的帧图像，对待训练的神经网络进行训练，得到训练完成的第二视频处理模型，具体包括如下步骤：

步骤S301，将样本视频的帧图像输入待训练的神经网络，得到样本视频的预测处理视频的帧图像。

步骤S302，根据预测处理视频的帧图像和目标处理视频的帧图像之间的差值，得到损失值。

步骤S303，根据损失值调整待训练的神经网络的网络参数；对网络参数调整后的神经网络进行反复训练，直到达到训练结束条件，则将达到训练结束条件的训练后的神经网络，作为训练完成的第二视频处理模型。

其中，预测处理视频，是指通过待训练的神经网络对样本视频的帧图像进行处理后得到的帧图像所对应的视频。

其中，预测处理视频的帧图像，是从预测处理视频中解码出来的帧。

其中，训练结束条件是指损失函数达到收敛、达到预设训练次数等。

具体地，终端将样本视频的帧图像输入待训练的神经网络，通过待训练的神经网络对样本视频的帧图像进行处理，得到样本视频的预测处理视频的帧图像；根据预测处理视频的帧图像和目标处理视频的帧图像之间的差值，结合损失函数，计算得到损失值；当损失函数未达到收敛或者未达到预设训练次数时，根据损失值调整待训练的神经网络的网络参数，得到网络参数调整后的神经网络，并重复执行步骤S301至步骤S303，直到损失函数达到收敛或者达到预设训练次数，并将损失函数达到收敛或者达到预设训练次数时的训练后的神经网络，作为训练完成的第二视频处理模型。

在本实施例中，通过对待训练的神经网络进行反复训练，可以提高训练完成的第二视频处理模型输出的画质增强处理视频的准确率，同时通过知识蒸馏的方式训练得到第二视频处理模型，降低了对视频的多任务复合处理所需要的算力和耗时，从而使得部署有第二视频处理模型的终端也能够快速实现对视频的多任务复合处理。

在一个实施例中，上述步骤S102，将样本视频的帧图像输入预先训练的第一视频处理模型，得到样本视频的目标处理视频的帧图像，具体包括：通过预先训练的第一视频处理模型中除最后一种类型的视频画质增强算法之外的其余类型的视频画质增强算法，对样本视频的帧图像进行对应的视频画质增强处理，得到样本视频的初始处理视频的帧图像；对各个初始处理视频的帧图像和样本视频的帧图像进行加权求和，得到加权求和后的视频的帧图像；通过最后一种类型的视频画质增强算法，对加权求和后的视频的帧图像进行对应的视频画质增强处理，得到样本视频的目标处理视频的帧图像。

其中，在加权求和过程中，各个权重不是固定的，可以根据实际情况进行调整。

其中，在加权求和的阶段引入输入的样本视频的帧图像，当出现失真的情况时，可以通过加权的方式，减少算法处理过度或者失真的影响，从而保持画质的真实性。举例说明，参考图2A，终端将样本视频的帧图像作为输入数据输入到预先训练的第一视频处理模型中，通过第一视频处理模型中的算法模块1对样本视频的帧图像进行对应的视频画质增强处理，得到样本视频的初始处理视频的帧图像；对样本视频的初始处理视频的帧图像和样本视频的帧图像进行加权求和处理，得到加权求和后的视频的帧图像；通过第一视频处理模型中的算法模块2，对加权求和后的视频的帧图像进行对应的视频画质增强处理，得到样本视频的目标处理视频的帧图像，并将其作为输出数据。

举例说明，参考图2B，终端将样本视频的帧图像作为输入数据输入到预先训练的第一视频处理模型中，通过第一视频处理模型中的算法模块1和算法模块2对样本视频的帧图像进行对应的视频画质增强处理，得到样本视频的两个初始处理视频的帧图像；对样本视频的两个初始处理视频的帧图像和样本视频的帧图像进行加权求和处理，得到加权求和后的视频的帧图像；通过第一视频处理模型中的算法模块3，对加权求和后的视频的帧图像进行对应的视频画质增强处理，得到样本视频的目标处理视频的帧图像，并将其作为输出数据。

在本实施例中，将样本视频的帧图像输入预先训练的第一视频处理模型，得到样本视频的目标处理视频的帧图像，有利于后续根据样本视频的帧图像和样本视频对应的目标处理视频的帧图像，训练得到用于对输入的视频进行至少两种类型的视频画质增强处理的学生模型，从而降低了对视频的多任务复合处理所需要的算力和耗时。

在一个实施例中，上述步骤S102，将样本视频的帧图像输入预先训练的第一视频处理模型，得到样本视频的目标处理视频的帧图像，还包括：通过预先训练的第一视频处理模型中的各种类型的视频画质增强算法，对样本视频的帧图像进行对应的视频画质增强处理，得到样本视频的初始处理视频的帧图像；对各个初始处理视频的帧图像和样本视频的帧图像进行加权求和，得到样本视频的目标处理视频的帧图像。

举例说明，预先训练的第一视频处理模型中包括算法模块1、算法模块2和算法模块3，终端将样本视频的帧图像作为输入数据输入到预先训练的第一视频处理模型中，通过第一视频处理模型中的算法模块1、算法模块2和算法模块3对样本视频的帧图像进行对应的视频画质增强处理，得到样本视频的三个初始处理视频的帧图像；对样本视频的三个初始处理视频的帧图像和样本视频的帧图像进行加权求和处理，得到样本视频的目标处理视频的帧图像，并将其作为输出数据。

在本实施例中，将样本视频的帧图像输入预先训练的第一视频处理模型，得到样本视频的目标处理视频的帧图像，有利于后续根据样本视频的帧图像和样本视频对应的目标处理视频的帧图像，训练得到用于对输入的视频的帧图像进行至少两种类型的视频画质增强处理的第二视频处理模型，对算力要求较低，且处理耗时较短，从而使得部署有第二视频处理模型的终端也能够快速实现对视频的多任务复合处理。

在一个实施例中，预先训练的第一视频处理模型通过下述方式得到：根据待训练的神经网络的部署场景信息，确定至少两种类型的视频画质增强算法，以及至少两种类型的视频画质增强算法的组合方式；按照组合方式，对至少两种类型的视频画质增强算法进行组合，得到预先训练的第一视频处理模型。

其中，部署场景信息，是指待训练的神经网络的使用场景；不同使用场景，对视频画质增强算法的类型和组合方式的要求不一样。需要说明的是，视频画质增强算法是已经经过训练的模型或者传统算法。

举例说明，假设需要的视频画质增强算法包括视频画质增强算法1和视频画质增强算法2，则可以将视频画质增强算法1作为算法模块1，以及将视频画质增强算法2作为算法模块2，并按照图2A中的组方式，组合得到第一视频处理模型。

举例说明，假设需要的视频画质增强算法包括视频画质增强算法1、视频画质增强算法2和视频画质增强算法3，则可以将视频画质增强算法1作为算法模块1，将视频画质增强算法2作为算法模块2，以及将视频画质增强算法3作为算法模块3，并按照图2B中的组方式，组合得到第一视频处理模型。

需要说明的是，除了按照图2A和图2B组合得到第一视频处理模型，还可以按照其他方式组合得到第一视频处理模型，具体本申请在此不一一列举。

在本实施例中，通过获取预先训练的第一视频处理模型，有利于后续将样本视频的帧图像输入预先训练的第一视频处理模型，得到样本视频的目标处理视频的帧图像，并根据样本视频的帧图像和样本视频的目标处理视频的帧图像，训练得到用于对输入的视频的帧图像进行至少两种类型的视频画质增强处理的第二视频处理模型。

在一个实施例中，如图4所示，提供了一种视频处理方法，以该方法应用于第一终端为例进行说明，包括以下步骤：

步骤S401，获取待处理视频。

步骤S402，将待处理视频的帧图像输入训练完成的第二视频处理模型，得到待处理视频的画质增强处理视频的帧图像；画质增强处理视频的帧图像通过训练完成的第二视频处理模型，对待处理视频的帧图像进行至少两种类型的视频画质增强处理得到；训练完成的第二视频处理模型根据视频处理模型的训练方法训练得到。

步骤S403，根据画质增强处理视频的帧图像，得到待处理视频的画质增强处理视频。

其中，待处理视频是指需要进行视频画质增强处理的原始视频，比如短视频、微电影、某一个视频片段、某一集电视剧等；可以是网络上的视频，也可以是本地数据库存储的视频。

具体地，第一终端获取待处理视频，然后对待处理视频进行视频解码处理，得到待处理视频的帧图像，接着将待处理视频的帧图像输入训练完成的第二视频处理模型，通过训练完成的第二视频处理模型，对待处理视频的帧图像进行至少两种类型的视频画质增强处理，得到待处理视频的画质增强处理视频的帧图像；最后将画质增强处理视频的帧图像进行视频编码处理，得到待处理视频的画质增强处理视频。

举例说明，通过第二视频处理模型对待处理视频的帧图像进行视频去噪处理、视频去模糊处理、视频去压缩效应处理、视频超分处理、暗光增强处理、视频颜色增强处理，得到待处理视频的画质增强处理视频的帧图像，并对待处理视频的画质增强处理视频的帧图像进行视频编码处理，得到待处理视频的画质增强处理视频。

上述视频处理方法，通过训练完成的第二视频处理模型，对待处理视频的帧图像进行至少两种类型的视频画质增强处理，得到待处理视频的画质增强处理视频，有利于降低对视频的多任务复合处理所需要的算力和耗时，从而使得部署有第二视频处理模型的终端也能够快速实现对视频的多任务复合处理。

为了更清晰阐明本申请实施例提供的视频处理模型的训练方法，以下以一个具体的实施例对该视频处理模型的训练方法进行具体说明。在一个实施例中，如图5 所示，本申请还提供了一种基于知识蒸馏和多任务处理的视频画质增强方法，首次提出基于深度学习技术，采用“教师-学生”知识蒸馏的方式，利用多任务的画质增强处理的“教师”流程，监督训练单个“学生”神经网络来实现多任务复合处理的画质增强效果；另外，当在具体硬件平台上所部署的深度模型结构（“学生网络”）确定之后，可以针对不同使用场景，灵活地调整“教师”网络中的多任务处理流程，以训练“学生”网络快速收敛到目标效果。上述基于知识蒸馏和多任务处理的视频画质增强方法，具体包括以下内容：

（1）搭建画质增强-多任务“教师”流程。此步骤根据目标场景所需，使用多种不同画质增强算法耦合而成一个完整的流程。

根据在画质增强上的不同算法需求，“教师流程”可使用多种不同算法和通过不同方式进行耦合得到；比如，图2A和图2B中给出了两种多任务画质增强“教师”流程的耦合方式；图2A与图2B中的算法流程，可以耦合两种或者三种不同画质增强算法，如视频去噪，视频去模糊，视频去压缩效应，视频超分，暗光增强，视频SDR转HDR颜色增强等；在加权求和模块中，对输入数据流的权重或可为零。此外，对于两种或者三种不同画质增强算法的耦合方式，还可以是多个模型并行处理之后，通过加权平均计算出一个最终结果。

（2）搭建画质增强-“学生”神经网络。此步骤根据实际部署的硬件的算力条件和目标场景的耗时要求，自由设计神经网络结构。

（3）如图5所示，通过知识蒸馏方式，训练“学生”网络。如图5所示，使用“教师”流程产生监督信号，如流程处理结果、“教师”流程中产生的中间结果或者图像特征。使用这些监督信号对“学生”网络进行中间监督或全监督。另外，中间监督或可省略。

上述基于知识蒸馏和多任务处理的视频画质增强方法，可以达到以下技术效果：（1）对比通过耦合多个神经网络的多任务画质增强系统，此方法降低了达到目标所需的系统复杂度和算力需求；（2）当在具体硬件平台上所部署的深度模型结构（“学生网络”）确定后，可以针对不同使用场景，灵活地调整“教师”网络中的多任务处理流程，以训练“学生”网络快速收敛到目标效果，能够减少画质增强算法在实际商业应用中算法研究时间和开发成本。

应该理解的是，虽然图1、3、4、5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1、3、4、5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种视频处理模型的训练装置，包括：视频获取模块601、视频处理模块602和模型训练模块603，其中：

视频获取模块601，用于获取样本视频。

视频处理模块602，用于将样本视频的帧图像输入预先训练的第一视频处理模型，得到样本视频的目标处理视频的帧图像；预先训练的第一视频处理模型为教师模型，由至少两种类型的视频画质增强算法组合而成。

模型训练模块603，用于根据样本视频的帧图像和样本视频对应的目标处理视频的帧图像，对待训练的神经网络进行训练，得到训练完成的第二视频处理模型；训练完成的第二视频处理模型为学生模型，用于对输入的视频的帧图像进行至少两种类型的视频画质增强处理。

在一个实施例中，模型训练模块603，还用于将样本视频的帧图像输入待训练的神经网络，得到样本视频的预测处理视频的帧图像；根据预测处理视频的帧图像和目标处理视频的帧图像之间的差值，得到损失值；根据损失值调整待训练的神经网络的网络参数；对网络参数调整后的神经网络进行反复训练，直到达到训练结束条件，则将达到训练结束条件的训练后的神经网络，作为训练完成的第二视频处理模型。

在一个实施例中，视频处理模块602，还用于通过预先训练的第一视频处理模型中除最后一种类型的视频画质增强算法之外的其余类型的视频画质增强算法，对样本视频的帧图像进行对应的视频画质增强处理，得到样本视频的初始处理视频的帧图像；对各个初始处理视频的帧图像和样本视频的帧图像进行加权求和，得到加权求和后的视频的帧图像；通过最后一种类型的视频画质增强算法，对加权求和后的视频的帧图像进行对应的视频画质增强处理，得到样本视频的目标处理视频的帧图像。

在一个实施例中，视频处理模块602，还用于通过预先训练的第一视频处理模型中的各种类型的视频画质增强算法，对样本视频的帧图像进行对应的视频画质增强处理，得到样本视频的初始处理视频的帧图像；对各个初始处理视频的帧图像和样本视频的帧图像进行加权求和，得到样本视频的目标处理视频的帧图像。

在一个实施例中，视频处理模型的训练装置还包括模型获取模块，用于根据待训练的神经网络的部署场景信息，确定至少两种类型的视频画质增强算法，以及至少两种类型的视频画质增强算法的组合方式；按照组合方式，对至少两种类型的视频画质增强算法进行组合，得到预先训练的第一视频处理模型。

在一个实施例中，如图7所示，提供了一种视频处理装置，包括：获取模块701、输入模块702和处理模块703，其中：

获取模块701，用于获取待处理视频。

输入模块702，用于将待处理视频的帧图像输入训练完成的第二视频处理模型，得到待处理视频的画质增强处理视频的帧图像；画质增强处理视频的帧图像通过训练完成的第二视频处理模型，对待处理视频的帧图像进行至少两种类型的视频画质增强处理得到；训练完成的第二视频处理模型根据视频处理模型的训练方法训练得到。

处理模块703，用于根据画质增强处理视频的帧图像，得到待处理视频的画质增强处理视频。

关于视频处理模型的训练装置或者视频处理装置的具体限定可以参见上文中对于视频处理模型的训练方法或者视频处理方法的限定，在此不再赘述。上述视频处理模型的训练装置或者视频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种视频处理模型的训练方法或者视频处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取样本视频；

将样本视频的帧图像输入预先训练的第一视频处理模型，得到样本视频的目标处理视频的帧图像；预先训练的第一视频处理模型为教师模型，由至少两种类型的视频画质增强算法组合而成；

根据样本视频的帧图像和样本视频对应的目标处理视频的帧图像，对待训练的神经网络进行训练，得到训练完成的第二视频处理模型；训练完成的第二视频处理模型为学生模型，用于对输入的视频的帧图像进行至少两种类型的视频画质增强处理。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将样本视频的帧图像输入待训练的神经网络，得到样本视频的预测处理视频的帧图像；根据预测处理视频的帧图像和目标处理视频的帧图像之间的差值，得到损失值；根据损失值调整待训练的神经网络的网络参数；对网络参数调整后的神经网络进行反复训练，直到达到训练结束条件，则将达到训练结束条件的训练后的神经网络，作为训练完成的第二视频处理模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过预先训练的第一视频处理模型中除最后一种类型的视频画质增强算法之外的其余类型的视频画质增强算法，对样本视频的帧图像进行对应的视频画质增强处理，得到样本视频的初始处理视频的帧图像；对各个初始处理视频的帧图像和样本视频的帧图像进行加权求和，得到加权求和后的视频的帧图像；通过最后一种类型的视频画质增强算法，对加权求和后的视频的帧图像进行对应的视频画质增强处理，得到样本视频的目标处理视频的帧图像。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过预先训练的第一视频处理模型中的各种类型的视频画质增强算法，对样本视频的帧图像进行对应的视频画质增强处理，得到样本视频的初始处理视频的帧图像；对各个初始处理视频的帧图像和样本视频的帧图像进行加权求和，得到样本视频的目标处理视频的帧图像。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据待训练的神经网络的部署场景信息，确定至少两种类型的视频画质增强算法，以及至少两种类型的视频画质增强算法的组合方式；按照组合方式，对至少两种类型的视频画质增强算法进行组合，得到预先训练的第一视频处理模型。

在一个实施例中，提供了另一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待处理视频；

将待处理视频的帧图像输入训练完成的第二视频处理模型，得到待处理视频的画质增强处理视频的帧图像；画质增强处理视频的帧图像通过训练完成的第二视频处理模型，对待处理视频的帧图像进行至少两种类型的视频画质增强处理得到；训练完成的第二视频处理模型根据视频处理模型的训练方法训练得到；

根据画质增强处理视频的帧图像，得到待处理视频的画质增强处理视频。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取样本视频；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将样本视频的帧图像输入待训练的神经网络，得到样本视频的预测处理视频的帧图像；根据预测处理视频的帧图像和目标处理视频的帧图像之间的差值，得到损失值；根据损失值调整待训练的神经网络的网络参数；对网络参数调整后的神经网络进行反复训练，直到达到训练结束条件，则将达到训练结束条件的训练后的神经网络，作为训练完成的第二视频处理模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过预先训练的第一视频处理模型中除最后一种类型的视频画质增强算法之外的其余类型的视频画质增强算法，对样本视频的帧图像进行对应的视频画质增强处理，得到样本视频的初始处理视频的帧图像；对各个初始处理视频的帧图像和样本视频的帧图像进行加权求和，得到加权求和后的视频的帧图像；通过最后一种类型的视频画质增强算法，对加权求和后的视频的帧图像进行对应的视频画质增强处理，得到样本视频的目标处理视频的帧图像。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过预先训练的第一视频处理模型中的各种类型的视频画质增强算法，对样本视频的帧图像进行对应的视频画质增强处理，得到样本视频的初始处理视频的帧图像；对各个初始处理视频和样本视频的帧图像进行加权求和，得到样本视频的目标处理视频。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据待训练的神经网络的部署场景信息，确定至少两种类型的视频画质增强算法，以及至少两种类型的视频画质增强算法的组合方式；按照组合方式，对至少两种类型的视频画质增强算法进行组合，得到预先训练的第一视频处理模型。

在一个实施例中，提供了另一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待处理视频；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频处理模型的训练方法，其特征在于，所述方法包括：

获取样本视频；

根据所述样本视频的帧图像和所述样本视频对应的目标处理视频的帧图像，对待训练的神经网络进行训练，得到训练完成的第二视频处理模型；所述训练完成的第二视频处理模型为学生模型，用于对输入的视频的帧图像进行至少两种类型的视频画质增强处理；

所述将所述样本视频的帧图像输入预先训练的第一视频处理模型，得到所述样本视频的目标处理视频的帧图像，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述样本视频的帧图像和所述样本视频对应的目标处理视频的帧图像，对待训练的神经网络进行训练，得到训练完成的第二视频处理模型，包括：

将所述样本视频的帧图像输入待训练的神经网络，得到所述样本视频对应的预测处理视频的帧图像；

3.根据权利要求1所述的方法，其特征在于，所述将所述样本视频的帧图像输入预先训练的第一视频处理模型，得到所述样本视频的目标处理视频的帧图像，还包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述预先训练的第一视频处理模型通过下述方式得到：

5.一种视频处理方法，其特征在于，所述方法包括：

获取待处理视频；

将所述待处理视频的帧图像输入训练完成的第二视频处理模型，得到所述待处理视频的画质增强处理视频的帧图像；所述画质增强处理视频的帧图像通过所述训练完成的第二视频处理模型，对所述待处理视频的帧图像进行至少两种类型的视频画质增强处理得到；所述训练完成的第二视频处理模型根据权利要求1至4任一项所述的视频处理模型的训练方法训练得到；

6.一种视频处理模型的训练装置，其特征在于，所述装置包括：

视频获取模块，用于获取样本视频；

模型训练模块，用于根据所述样本视频的帧图像和所述样本视频对应的目标处理视频的帧图像，对待训练的神经网络进行训练，得到训练完成的第二视频处理模型；所述训练完成的第二视频处理模型为学生模型，用于对输入的视频的帧图像进行至少两种类型的视频画质增强处理；

所述视频处理模块，还用于通过所述预先训练的第一视频处理模型中除最后一种类型的视频画质增强算法之外的其余类型的视频画质增强算法，对所述样本视频的帧图像进行对应的视频画质增强处理，得到所述样本视频的初始处理视频的帧图像；对各个所述初始处理视频的帧图像和所述样本视频的帧图像进行加权求和，得到加权求和后的视频的帧图像；通过所述最后一种类型的视频画质增强算法，对所述加权求和后的视频的帧图像进行对应的视频画质增强处理，得到所述样本视频的目标处理视频的帧图像。

7.根据权利要求6所述的装置，其特征在于，所述模型训练模块，还用于将所述样本视频的帧图像输入待训练的神经网络，得到所述样本视频对应的预测处理视频的帧图像；根据所述预测处理视频的帧图像和所述目标处理视频的帧图像之间的差值，得到损失值；根据所述损失值调整所述待训练的神经网络的网络参数；对网络参数调整后的神经网络进行反复训练，直到达到训练结束条件，则将达到所述训练结束条件的训练后的神经网络，作为所述训练完成的第二视频处理模型。

8.一种视频处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理视频；

输入模块，用于将所述待处理视频的帧图像输入训练完成的第二视频处理模型，得到所述待处理视频的画质增强处理视频的帧图像；所述画质增强处理视频的帧图像通过所述训练完成的第二视频处理模型，对所述待处理视频的帧图像进行至少两种类型的视频画质增强处理得到；所述训练完成的第二视频处理模型根据权利要求1至4任一项所述的视频处理模型的训练方法训练得到；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。