CN114332561A

CN114332561A - 超分辨率模型的训练方法、装置、设备及介质

Info

Publication number: CN114332561A
Application number: CN202111596501.7A
Authority: CN
Inventors: 林丽健; 王鑫涛; 单瀛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-12

Abstract

本申请公开了一种超分辨率模型的训练方法、装置、设备及介质，涉及机器学习领域。该方法包括：将训练视频拆分为p种训练样本，所述p种训练样本包括至少f个图像尺寸相同和视频帧数量相同的训练样本，所述p种训练样本中每种训练样本的视频帧数量不大于所述训练视频的视频帧数量，所述p种训练样本中每种训练样本的图像尺寸不大于所述训练视频的图像尺寸，p为大于1的正整数，f为正整数；按照所述视频帧数量和所述图像尺寸中的至少一种排列标准，将所述p种训练样本从小到大进行排列；按照所述p种训练样本的排列顺序，从所述p种训练样本中依次提取训练样本对所述超分辨率模型进行训练。本申请可以加快超分辨率模型的训练速度。

Description

超分辨率模型的训练方法、装置、设备及介质

技术领域

本申请涉及机器学习领域，特别涉及一种超分辨率模型的训练方法、装置、设备及介质。

背景技术

超分辨率用于通过硬件或软件的方法提高原有图像的分辨率，超分辨率模型就是通过低分辨率的图像来得到高分辨率的图像的模型。

相关技术在训练超分辨率模型时，会提取训练视频的所有视频帧，将所有视频帧逐帧输入到超分辨率模型中，对超分辨率模型进行训练。

但是训练视频包含较多的信息，超分辨率模型的训练速度较慢。

发明内容

本申请提供了一种超分辨率模型的训练方法、装置、设备及介质，该方法可以提高超分辨率模型的训练速度，所述技术方案如下：

根据本申请的一个方面，提供了一种超分辨率模型的训练方法，该方法包括：

将训练视频拆分为p种训练样本，每种训练样本包括至少f个图像尺寸相同和视频帧数量相同的训练样本，所述p种训练样本中每种训练样本的视频帧数量不大于所述训练视频的视频帧数量，所述p种训练样本中每种训练样本的图像尺寸不大于所述训练视频的图像尺寸，p为大于1的正整数，f为正整数；

按照所述视频帧数量和所述图像尺寸中的至少一种排列标准，将所述p种训练样本从小到大进行排列；

按照所述p种训练样本的排列顺序，从所述p种训练样本中依次提取训练样本对所述超分辨率模型进行训练。

根据本申请的一个方面，提供了一种超分辨率模型的训练装置，该装置包括：

拆分模块，用于将训练视频拆分为p种训练样本，每种训练样本包括至少f个图像尺寸相同和视频帧数量相同的训练样本，所述p种训练样本中每种训练样本的视频帧数量不大于所述训练视频的视频帧数量，所述p种训练样本中每种训练样本的图像尺寸不大于所述训练视频的图像尺寸，p为大于1的正整数，f为正整数；

所述拆分模块，还用于按照所述视频帧数量和所述图像尺寸中的至少一种排列标准，将所述p种训练样本从小到大进行排列；

训练模块，用于按照所述p种训练样本的排列顺序，从所述p种训练样本中依次提取训练样本对所述超分辨率模型进行训练。

根据本申请的另一方面，提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上方面所述的超分辨率模型的训练方法。

根据本申请的另一方面，提供了一种计算机存储介质，计算机可读存储介质中存储有至少一条程序代码，程序代码由处理器加载并执行以实现如上方面所述的超分辨率模型的训练方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，上述计算机程序产品或计算机程序包括计算机指令，上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令，上述处理器执行上述计算机指令，使得上述计算机设备执行如上方面所述的超分辨率模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

将训练视频进行拆分，得到训练样本，按照视频帧数量和图像尺寸将训练样本从小到大排列，并根据排列顺序，使用不同的训练样本对超分辨率模型进行分阶段的训练。由于视频帧数量或图像尺寸越小，训练样本包含的信息就越少，有助于提高训练速度。而且，上一阶段对超分辨率模型的训练具有引导作用，可以引导当前阶段对超分辨率模型的训练，来让超分辨率模型从简单到难地学习，在保持模型精度的同时，有效提高训练速度。

附图说明

附图说明为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的计算机系统的结构示意图；

图2是本申请一个示例性实施例提供的超分辨率模型的训练方法的示意图；

图3是本申请一个示例性实施例提供的超分辨率模型的训练方法的流程示意图；

图4是本申请一个示例性实施例提供的超分辨率模型的训练方法的流程示意图；

图5是本申请一个示例性实施例提供的训练样本的示意图；

图6是本申请一个示例性实施例提供的超分辨率模型的训练方法的流程示意图；

图7是本申请一个示例性实施例提供的超分辨率模型的训练方法的流程示意图；

图8是本申请一个示例性实施例提供的超分辨率模型的训练阶段的示意图；

图9是本申请一个示例性实施例提供的超分辨率模型的训练装置的模型示意图；

图10是本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行介绍：

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)：一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

超分辨率模型：用于提高图像或视频的分辨率。可选地，超分辨率模型包括基于循环网络的超分辨率模型和基于滑动窗口的超分辨率模型。本申请实施例中对超分辨率模型的种类不做限定。

图1示出了本申请一个示例性实施例提供的计算机系统的结构示意图。计算机系统100包括：终端120和服务器140。

终端120上安装有与超分辨率模型相关的应用程序。该应用程序可以是app(application，应用程序)中的小程序，也可以是专门的应用程序，也可以是网页客户端。终端120是智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。可选地，超分辨率模型部署在终端120上。

终端120通过无线网络或有线网络与服务器140相连。

服务器140可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，超分辨率模型部署在服务器140上。可选地，服务器140承担主要计算工作，终端120承担次要计算工作；或者，服务器140承担次要计算工作，终端120承担主要计算工作；或者，服务器140和终端120两者采用分布式计算架构进行协同计算。

可选地，在本申请实施例中，可以只有终端120，也可以只有服务器140。

本申请会将训练视频拆分成包括不同视频帧数量和不同图像尺寸的训练样本，并使用前述的训练样本对超分辨率模型进行分阶段的训练。

示例性的，为方便理解，请参考图2，为方便说明，这里将每种训练样本的数量设置为1(每种训练样本的数量可由技术人员根据实际情况进行修改)。这里假设训练视频201包括4个视频帧，图像尺寸为2*2。将训练视频201拆分为训练样本202、训练样本203、训练样本204和训练样本205，其中，训练样本202包括2个视频帧，图像尺寸为1*1；训练样本203包括2个视频帧，图像尺寸为2*2；训练样本204包括4个视频帧，图像尺寸为1*1；训练样本205包括4个视频帧，图像尺寸为2*2。

将训练样本202输入到超分辨率模型206中，以完成超分辨率模型206在OA训练阶段的训练。然后，当超分辨率模型206完成OA训练阶段的训练后，将训练样本203输入到超分辨率模型206中，以完成超分辨率模型206在AB训练阶段的训练。然后，当超分辨率模型206完成AB训练阶段的训练后，将训练样本204输入到超分辨率模型206中，以完成超分辨率模型206在BC训练阶段的训练。然后，当超分辨率模型206完成BC训练阶段的训练后，将训练样本205输入到超分辨率模型206中，以完成超分辨率模型206在CD训练阶段的训练。然后，当超分辨率模型206完成CD训练阶段的训练后，认为完成了训练视频201对超分辨率模型206的训练。

综上所述，该方法将训练视频进行拆分，得到训练样本，按照视频帧数量和图像尺寸将训练样本从小到大排列，并根据排列顺序，使用不同的训练样本对超分辨率模型进行分阶段的训练。由于视频帧数量或图像尺寸越小，训练样本包含的信息就越少，有助于提高训练速度。而且，上一阶段对超分辨率模型的训练具有引导作用，可以引导当前阶段对超分辨率模型的训练，来让超分辨率模型从简单到难地学习，在保持模型精度的同时，有效提高训练速度。

图3示出了本申请实施例提供的一种超分辨率模型的训练方法。该方法可由图1所示的终端120或服务器140执行，该方法包括：

步骤302：将训练视频拆分为p种训练样本，每种训练样本包括至少f个图像尺寸相同和视频帧数量相同的训练样本，p种训练样本的视频帧数量不大于训练视频的视频帧数量，p种训练样本的图像尺寸不大于训练视频的图像尺寸。

其中，p为大于1的正整数。

训练视频包括一段或多段视频。训练视频可以是存储在本地的视频，也可以是从网络上下载的视频，也可以是其它计算机设备提供的视频。

在本申请的一种可选实施方式中，先对训练视频的视频帧进行处理，后对图像尺寸进行处理。示例性的，按照m种抽帧策略，从训练视频中抽取出m种视频帧序列；按照n种裁剪策略，将m种视频帧序列中的至少一种视频帧序列裁剪为n种图像尺寸的样本，得到p种训练样本，n和m为正整数。其中，抽帧策略用于从训练视频中抽取具有不同视频帧数量的视频帧序列，裁剪策略用于裁剪至少一种视频帧序列的图像。示例性的，若图2所示，按照2种抽帧策略，对训练视频201进行抽帧处理，得到两种视频帧序列，一种视频帧序列包括2个视频帧，另一种视频帧包括4个视频帧。按照2种裁剪策略，对包括2个视频帧的视频帧序列进行剪裁，得到训练样本202和训练样本203。按照2种裁剪策略，对包括4个视频帧的视频帧序列进行剪裁，得到训练样本204和训练样本205。

在本申请的另一种可选实施方式中，先对训练视频的图像尺寸进行处理，后对视频帧进行处理。示例性的，按照n种裁剪策略，将训练视频裁剪为n种图像尺寸的裁剪视频；按照m种抽帧策略，对视频集合中的至少一段视频进行抽帧处理，得到p种训练样本，每种训练样本具有不同的视频帧数量和图像尺寸。

可选地，p＝m*n，即对上述n种视频帧序列均经过裁剪处理。

步骤304：按照视频帧数量和图像尺寸中的至少一种排列标准，将p种训练样本从小到大进行排列。

示例性的，若图2所示，已知训练样本202包括2个视频帧，图像尺寸为1*1；训练样本203包括2个视频帧，图像尺寸为2*2；训练样本204包括4个视频帧，图像尺寸为1*1；训练样本205包括4个视频帧，图像尺寸为2*2。则将视频帧数量和图像尺寸作为排列标准，将这4个训练样本进行排列，得到的排列顺序是“训练样本202-训练样本203-训练样本204-训练样本205”。

可选地，若p种训练样本中存在第一训练样本和第二训练样本的视频帧数量和图像尺寸均相同，则随机排列第一训练样本和第二训练样本之间的顺序。

步骤306：按照p种训练样本的排列顺序，从p种训练样本中依次提取训练样本对超分辨率模型进行训练。

可选地，当所述p种训练样本中的第i种训练样本完成对超分辨率模型的训练后，取第i+1种训练样本对超分辨率模型进行训练。

示例性的，若图2所示，按照“训练样本202-训练样本203-训练样本204-训练样本205”的排列顺序，从4个训练样本中依次提取训练样本对超分辨率模型进行训练。

本申请实施例对超分辨率模型的种类和训练方法不做具体限定。示例性的，超分辨率模型是基于循环网络的超分辨率模型和基于滑动窗口的超分辨率模型中的任意一种。示例性的，训练方法是误差反向传播算法。

在本申请的其它可选方式中，该方法还可以应用在其它需要用到视频内容作为训练样本的模型中，例如，基于视频内容的视频分类模型。

综上所述，本实施例将训练视频进行拆分，得到训练样本，按照视频帧数量和图像尺寸将训练样本从小到大排列，并根据排列顺序，使用不同的训练样本对超分辨率模型进行分阶段的训练。由于视频帧数量或图像尺寸越小，训练样本包含的信息就越少，有助于提高训练速度。而且，上一阶段对超分辨率模型的训练具有引导作用，可以引导当前阶段对超分辨率模型的训练，来让超分辨率模型从简单到难地学习，在保持模型精度的同时，有效提高训练速度。

在接下来的实施例中，提供了一种可选的抽帧策略和裁剪策略，通过不同的抽帧策略和裁剪策略从训练视频中提取包括不同视频帧数量和不同图像尺寸的训练样本。以先进行抽帧处理，后进行裁剪处理为例进行说明。

图4示出了本申请实施例提供的一种超分辨率模型的训练方法。该方法可由图1所示的终端120或服务器140执行，该方法包括：

步骤401：按照第i种抽帧策略，从训练视频中抽取出k_i个视频帧，得到第i种视频帧序列对应的一个视频帧序列。

m种视频帧序列中的第i种视频帧序列中的每一个视频帧序列包括k_i个视频帧，i为小于m+1的正整数，i的初始值为1，k_i为正整数，k_i不大于训练视频的视频帧总数。可选地，k_i与i之间成正比。示例性的，k_i＝f(i)，f表示一次函数。

示例性的，将训练视频的视频帧总数设为T(T为正整数)，则按照第1种抽帧策略，从训练视频中抽取出T/2个视频帧，得到第1种视频帧序列对应的一个视频帧序列。按照第2种抽帧策略，从训练视频中抽取出3*T/4个视频帧，得到第2种视频帧序列对应的一个视频帧序列。按照第3种抽帧策略，从训练视频中抽取出T个视频帧，得到第3种视频帧序列对应的一个视频帧序列。

需要说明的是，由于在超分辨率模型的训练过程中，需要保证输入的训练样本可以提供足够的信息，因此，需要为视频帧序列设置视频帧数量下限，以防止因视频帧序列包括的视频帧过少而影响超分辨率模型的训练的情况出现。可选地，第i个视频帧序列的视频帧数量不小于视频帧数量下限，视频帧数量下限可以是常数，也可以是基于训练视频的视频帧总数确定的数值。示例性的，视频帧数量下限是常数3。示例性的，视频帧数量下限是0.5*T。视频帧数量下限可由技术人员根据实际需要进行设置。

这里抽取k_i个视频帧包括但不限于以下三种方式：

(1)从训练视频中随机抽取出连续的k_i个视频帧，得到第i种视频帧序列对应的一个视频帧序列。

示例性的，训练视频包括16个视频帧，从训练视频中抽取第5帧到12帧的视频帧，得到视频帧序列。

(2)确定与第i种抽帧策略对应的k_i个视频帧的排列规则；根据排列规则，从训练视频中抽取出k_i个视频帧，得到第i种视频帧序列对应的一个视频帧序列。

k_i个视频帧的排列规则用于表示k_i个视频帧在训练视频中的排列规则。示例性的，k_i个视频帧在训练视频中连续排列，又或者，k_i个视频帧在训练视频中间隔排列。

示例性的，训练视频包括16个视频帧，确定第2种抽帧策略对应的4个视频帧的排列规则是间隔排列，则随机从训练视频中抽取出间隔排列的4个视频帧，比如，取出训练视频中的第1个视频帧、第3个视频帧、第5个视频帧和第7个视频帧。又比如，取出训练视频中的第1个视频帧、第4个视频帧、第7个视频帧和第10个视频帧。

可选地，m种抽帧策略对应的排列规则相同。

(3)从训练视频中随机抽取出k_i个视频帧，得到第i种视频帧序列对应的一个视频帧序列。

以上3种抽取视频帧序列的方法仅用作举例说明，技术人员可以根据实际需求和超分辨率模型的种类自行修改抽取方法。

步骤402：重复上述步骤，获得所第i种视频帧序列对应的多个视频帧序列。

第i种视频帧序列包括多个视频帧序列，每个视频帧序列的视频帧数量相同。

重复上述步骤的次数，可由技术人员根据实际需求进行调整。

步骤403：将i更新为i+1，重复上述两个步骤，得到m种视频帧序列。

需要将步骤401至步骤403重复m次，以得到m种视频帧序列，每种视频帧序列包括不同数量的视频帧。示例性的，将训练视频的视频帧总数设为T(T为正整数)，将m设为3，第1种视频帧序列包括T/2个视频帧，第2种视频帧序列包括3*T/4个视频帧，第3种视频帧序列包括T个视频帧。

步骤404：按照第a种裁剪策略，将m种视频帧序列中的第i种视频帧序列裁剪为第a种图像尺寸，得到p种训练样本中的第b种训练样本。

其中，a为小于m+1的正整数，i为小于n+1的正整数，a，i的初始值为1，b为小于p+1的正整数。

示例性的，训练视频的图像尺寸是H×W，H表示训练视频的高度，W表示训练视频的宽度，则第i种视频帧序列的图像尺寸也是H×W，按照第1种裁剪策略，将第i种视频帧序列的图像尺寸裁剪为

按照第2种裁剪策略，将第i种视频帧序列的图像尺寸裁剪为H×W。

可选地，若训练视频的高度是H，宽度是W，则第a种图像尺寸是

需要说明的是，由于在超分辨率模型的训练过程中，需要保证输入的训练样本可以提供足够的信息，因此，需要为图像尺寸设置图像尺寸下限，以防止因视频帧序列包括的图像尺寸过小而影响超分辨率模型的训练的情况出现。可选地，第b种训练样本的图像尺寸不小于图像尺寸下限，图像尺寸下限可以是常数，也可以是基于训练视频的图像尺寸确定的数值。示例性的，图像尺寸下限是常数256×192。示例性的，训练样本的图像尺寸是H×W，图像尺寸下限是

图像尺寸下限可由技术人员根据实际需要进行设置。

这里裁剪第i种视频帧序列的方法包括但不限于以下两种方式：

(1)确定与第a种裁剪策略对应的裁剪区域，裁剪区域的尺寸与第a种图像尺寸相同；根据裁剪区域，对m种视频帧序列中的第i种视频帧序列进行裁剪，得到p种训练样本中的第b种训练样本。

示例性的，第1种裁剪策略对应的裁剪区域位于图像的左下角，第2种裁剪策略对应的裁剪区域位于图像的右上角。则需要根据不同的裁剪区域对第i种视频帧序列进行裁剪，以得到训练样本。

(2)将m种视频帧序列中的第i种视频帧序列随机裁剪为第a种图像尺寸，得到p种训练样本中的第b种训练样本。

以上2种裁剪视频帧序列的方法仅用作举例说明，技术人员可以根据实际需求和超分辨率模型的种类自行修改裁剪方法。

步骤405：将a更新为a+1，重复上述步骤，直至得到第i种视频帧序列对应的n种训练样本。

需要将步骤403重复n次，才能得到第i种视频帧序列对应的n种训练样本。示例性的，训练视频的图像尺寸是H×W，则第i种视频帧序列的图像尺寸也是H×W，第i种视频帧序列对应有2个训练样本，其中一个训练样本的图像尺寸为

另一个训练样本的图像尺寸为H×W。

步骤406：将i更新为i+1，初始化a，重复上述两个步骤，得到p种训练样本。

在步骤403和步骤404中，仅得到了第i种视频帧序列对应的n种训练样本，但是总共有m种视频帧序列，为得到所有m种视频帧序列对应的训练样本，需要将步骤403和步骤404重复n遍，以得到p种训练样本，p＝m*n。

步骤407：按照视频帧数量和图像尺寸中的至少一种排列标准，将p种训练样本从小到大进行排列。

步骤408：按照p种训练样本的排列顺序，从p种训练样本中依次提取训练样本对超分辨率模型进行训练。

示例性的，如图5所示，在对超分辨率模型进行训练时，用到的训练样本按照视频帧数量和图像尺寸逐渐增大。从图像尺寸上来看，随着超分辨率模型的迭代训练，训练样本的图像尺寸会随着迭代次数增大，训练样本集合501的图像尺寸小于训练样本集合502的图像尺寸，训练样本集合502的图像尺寸小于训练样本集合503的图像尺寸。从视频帧数量上来看，随着超分辨率模型的迭代训练，训练样本的视频帧数量会随着迭代次数增加，训练样本集合504的视频帧数量小于训练样本集合505的视频帧数量，训练样本集合505的视频帧数量小于训练样本集合506的视频帧数量。

在本申请的另一种实现方式中，可以先裁剪训练视频的图像尺寸，后进行抽帧处理。

图6示出了本申请实施例提供的一种超分辨率模型的训练方法。该方法可由图1所示的终端120或服务器140执行，该方法包括：

步骤601：按照第a种裁剪策略，将训练视频裁剪为第a种图像尺寸，得到第a种裁剪视频对应的一个裁剪视频。

其中，a为小于n+1的正整数，a的初始值为1。

需要说明的是，由于在超分辨率模型的训练过程中，需要保证输入的训练样本可以提供足够的信息，因此，需要为图像尺寸设置图像尺寸下限，以防止因视频帧序列包括的图像尺寸过小而影响超分辨率模型的训练的情况出现。可选地，第b种训练样本的图像尺寸不小于图像尺寸下限，图像尺寸下限可以是常数，也可以是基于训练视频的图像尺寸确定的数值。

这里裁剪训练视频的方法包括但不限于以下两种方式：

(1)确定与第a种裁剪策略对应的裁剪区域，裁剪区域的尺寸与第a种图像尺寸相同；根据裁剪区域，对训练视频进行裁剪，得到第a种裁剪视频。

(2)将训练视频随机裁剪为第a种图像尺寸，得到第a种裁剪视频。

以上2种裁剪训练视频的方法仅用作举例说明，技术人员可以根据实际需求和超分辨率模型的种类自行修改裁剪方法。

步骤602：重复上述步骤，得到第a种裁剪视频对应的多个裁剪视频。

每种裁剪视频包括多个裁剪视频，每个裁剪视频的图像尺寸相同。

步骤603：将a更新为a+1，重复上述两个步骤，得到n种裁剪视频。

需要将步骤601和步骤602重复n次，才能得到n种训练样本。示例性的，第1种裁剪视频的图像尺寸为

第2种裁剪视频的图像尺寸为H×W。

步骤604：按照第i种抽帧策略，从n种裁剪视频中的第c种裁剪视频中抽取出k_i个视频帧，得到p种训练样本中的第b种训练样本。

i为小于m+1的正整数，i的初始值为1，k_i为正整数，k_i不大于训练视频的视频帧总数，b为小于p的正整数，c为小于n的正整数。可选地，k_i与i之间成正比。示例性的，k_i＝f(i)，f表示一次函数。

需要说明的是，由于在超分辨率模型的训练过程中，需要保证输入的训练样本可以提供足够的信息，因此，需要为训练样本设置视频帧数量下限，以防止因训练样本包括的视频帧过少而影响超分辨率模型的训练的情况出现。可选地，第b种训练样本的视频帧数量不小于视频帧数量下限，视频帧数量下限可以是常数，也可以是基于训练视频的视频帧总数确定的数值。

这里抽取k_i个视频帧包括但不限于以下三种方式：

(1)从训练视频中随机抽取出连续的k_i个视频帧，得到第b种训练视频帧序列对应的一个训练样本。

(2)确定与第i种抽帧策略对应的k_i个视频帧的排列规则；根据排列规则，从训练视频中抽取出k_i个视频帧，得到第b种视频帧序列对应的一个训练样本。

(3)从训练视频中随机抽取出k_i个视频帧，得到第b种视频帧序列对应的一个训练样本。

步骤605：将i更新为i+1，重复上述步骤，得到第i种裁剪视频对应的m种训练样本。

需要将步骤604重复m次，以得到m种训练样本，每种训练样本括不同数量的视频帧。示例性的，将训练视频的视频帧总数设为T(T为正整数)，则按照第1种抽帧策略，从第c种裁剪视频中抽取出T/2个视频帧，得到第1种训练样本。按照第2种抽帧策略，从第c种裁剪视频中抽取出3*T/4个视频帧，得到第2种训练样本。按照第3种抽帧策略，从第c种裁剪视频中抽取出T个视频帧，得到第3种训练样本。

步骤606：将c更新为c+1，初始化i，重复上述两个步骤，得到p种训练样本。

在步骤603和步骤604中，仅得到了第c种裁剪视频对应的m种训练样本，但是总共有n种裁剪视频，为得到所有n种裁剪视频对应的训练样本，需要将步骤603和步骤604重复m遍，以得到p种训练样本，p＝m*n。

步骤607：按照视频帧数量和图像尺寸中的至少一种排列标准，将p种训练样本从小到大进行排列。

步骤608：按照p种训练样本的排列顺序，从p种训练样本中依次提取训练样本对超分辨率模型进行训练。

在接下来的实施例中，随着对超分辨率模型训练的进行，超分辨率模型的学习率会不断衰减，这造成了当切换到大的图像尺寸和视频帧数量的时候，学习率相对较小，阻碍了超分辨率模型训练的学习能力，因此，需要对超分辨率模型的学习率进行更新。

图7示出了本申请实施例提供的一种超分辨率模型的训练方法。该方法可由图1所示的终端120或服务器140执行，该方法包括：

步骤701：按照p种训练样本的排列顺序，从p种训练样本中确定第j种训练样本。

j为小于p的正整数，j的初始值为1。

p种训练样本是按照视频帧数量和图像尺寸中的至少一种排列标准进行排列的。

步骤702：使用第j种训练样本对超分辨率模型进行训练，直至完成第j个训练阶段的训练。

可选地，第j种训练样本包括多个训练样本，第j训练阶段的训练包括与第j种训练样本对应的训练样本的训练过程。

可选地，第j个训练阶段的训练，需要使用第j种训练样本对超分辨率模型进行P_j次的迭代训练，P_j用于表示在第j个训练阶段上的训练迭代次数。

由于训练样本总共有p种，因此在本申请实施例中，将超分辨率模型的训练过程也分为p个阶段，每个阶段使用不同视频帧数量和图像尺寸的训练样本进行训练。

步骤703：将j更新为j+1，重复上述两个步骤，直至使用p种训练样本完成对超分辨率模型的训练。

需要说明的是，在j更新为j+1的情况下，更新超分辨率模型的学习率。

其中，更新后的第j+1个训练阶段的学习率大于更新前的第j个训练阶段的学习率。

可选地，学习率η_t的公式如下：

其中，η_t代表第t次迭代中使用的学习率，η代表了基准训练方法中使用的初始学习率。s_t指的是第t次迭代所处的训练阶段，s_t∈[1,2,…,p]。P_j用于表示在第j个训练阶段上的训练迭代次数。I_total表示用于训练超分辨率模型所需的总的迭代次数，因此，

示例性的，如图8所示，总的训练次数I_total＝P₁+P₂+…+P_p，对于第t次迭代，其所属的训练阶段s_t满足：

从上式中可以得出，对于训练阶段P₁,P₂,…,P_p-1，当

的时候，即当刚切换到第t个训练阶段的时候，

也就是说η_t＝η，学习率被重新初始化成相对大的值。由于总的迭代次数I_total总是比

大，所以对于训练阶段P₁,P₂,…,P_p-1，学习率不会降到零，避免了太小的学习率会浪费训练时间。

综上所述，本申请在训练超分辨率模型时，会动态调整超分辨率模型的学习率，在每一次切换训练阶段时，使用一个比较大的值来重新初始化学习率，以提高超分辨率模型的训练速度。

以BasicVSR(BasicVisual Super Resolution，基本视频超分辨率)模型和EDVR-M(Enhanced Deformable Video Restoration-Middle，增强的可变形视频恢复)模型为例进行说明，本申请实施例提供的方法可以在加速视频超分辨率模型的训练速度的同时，不损失输出结果的精度。使用PSNR(Peak Signal to Noise Ratio，峰值信噪比)和SSIM(Structural Similarity，结构相似性)作为测试的参量。将REDS4(一种现有的测试集)作为测试集。其中，由于EDVR模型是基于滑动窗口的模型，其输入的视频帧数量是固定的，所以本申请只改变了它的图像尺寸，得到表1：

表1基于不同视频超分辨率的训练方法的对比表

“*”表示超分辨率模型在原始文献中的数据。还引入了大批量处理(Large-Batch)去更好的利用GPU(Graphics Processing Unit，图形处理器)的并行化来加速训练。

根据表1可以得到，使用本申请提供的超分辨率模型的训练方法在应用到BasicVSR模型和EDVR-M模型后，输出结果的精度与相关技术的输出结果的精度相当。而本申请实施例提供的超分辨率模型地训练方法，可以有效减少训练时间，提高训练效率。

图9示出了本申请一个示例性实施例提供的超分辨率的训练装置的框图。该装置900可以用于实现上述超分辨率的训练方法的功能。该装置包括：

拆分模块901，用于将训练视频拆分为p种训练样本，每种训练样本包括至少f个图像尺寸相同和视频帧数量相同的训练样本，所述p种训练样本中每种训练样本的视频帧数量不大于所述训练视频的视频帧数量，所述p种训练样本中每种训练样本的图像尺寸不大于所述训练视频的图像尺寸，p为大于1的正整数，f为正整数；

所述拆分模块901，还用于按照所述视频帧数量和所述图像尺寸中的至少一种排列标准，将所述p种训练样本从小到大进行排列；

训练模块902，用于按照所述p种训练样本的排列顺序，从所述p种训练样本中依次提取训练样本对所述超分辨率模型进行训练。

在本申请的一个可选设计中，所述拆分模块901，还用于按照m种抽帧策略，从所述训练视频中抽取出m种视频帧序列，所述抽帧策略用于从所述训练视频中抽取具有不同视频帧数量的视频帧序列，m种训练样本与m种视频帧数量一一对应；按照n种裁剪策略，将所述m种视频帧序列中的至少一种视频帧序列裁剪为n种图像尺寸的样本，得到所述p种训练样本，所述裁剪策略用于裁剪所述至少一种视频帧序列的图像，n和m为正整数。

在本申请的一个可选设计中，所述m种视频帧序列中的第i种视频帧序列包括k_i个视频帧，所述i为小于m+1的正整数，所述i的初始值为1，k_i为正整数，k_i不大于所述训练视频的视频帧总数；所述拆分模块901，还用于按照第i种抽帧策略，从所述训练视频中抽取出所述k_i个视频帧，得到第i种视频帧序列对应的一个视频帧序列；重复上述步骤，获得所述第i种视频帧序列对应的多个视频帧序列；将所述i更新为i+1，重复上述两个步骤，得到所述m种视频帧序列。

在本申请的一个可选设计中，所述拆分模块901，还用于从所述训练视频中随机抽取出连续的所述k_i个视频帧，得到所述第i种视频帧序列对应的一个视频帧序列；或者，确定与所述第i种抽帧策略对应的所述k_i个视频帧的排列规则；根据所述排列规则，从所述训练视频中抽取出所述k_i个视频帧，得到所述第i种视频帧序列对应的一个视频帧序列；或者，从所述训练视频中随机抽取出所述k_i个视频帧，得到所述第i种视频帧序列对应的一个视频帧序列。

在本申请的一个可选设计中，所述拆分模块901，还用于按照第a种裁剪策略，将所述m种视频帧序列中的第i种视频帧序列裁剪为第a种图像尺寸，得到所述p个训练样本中的第b个训练样本，a为小于m+1的正整数，a为小于n+1的正整数，所述a，i的初始值为1，b为小于p+1的正整数；将所述a更新为a+1，重复上述步骤，直至得到所述第i个视频帧序列对应的n个训练样本；将所述i更新为i+1，初始化所述a，重复上述两个步骤，得到所述p个训练样本。

在本申请的一个可选设计中，所述拆分模块901，还用于确定与所述第a种裁剪策略对应的裁剪区域，所述裁剪区域的尺寸与所述第a种图像尺寸相同；根据所述裁剪区域，对所述m种视频帧序列中的第i种视频帧序列进行裁剪，得到所述p种训练样本中的第b种训练样本；或者，将所述m种视频帧序列中的第i种视频帧序列随机裁剪为所述第a种图像尺寸，得到所述p种训练样本中的第b种训练样本。

在本申请的一个可选设计中，所述训练模块902，还用于按照所述p种训练样本的排列顺序，从所述p种训练样本中确定第j种训练样本，j为小于p的正整数，j的初始值为1；使用所述第j种训练样本对所述超分辨率模型进行训练，直至完成第j个训练阶段的训练；将所述j更新为j+1，重复上述两个步骤，直至使用所述p种训练样本完成对所述超分辨率模型的训练。

在本申请的一个可选设计中，所述训练模块902，还用于在所述j更新为所述j+1的情况下，更新所述超分辨率模型的学习率；其中，更新后的第j+1个训练阶段的学习率大于更新前的所述第j个训练阶段的学习率。

图10是根据一示例性实施例示出的一种服务器的结构示意图。所述计算机设备1000包括中央处理单元(Central Processing Unit，CPU)1001、包括随机存取存储器(Random Access Memory，RAM)1002和只读存储器(Read-Only Memory，ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机设备可读介质为计算机设备1000提供非易失性存储。也就是说，所述大容量存储设备1007可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机设备可读介质(未示出)。

不失一般性，所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory，EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，EEPROM)，CD-ROM、数字视频光盘(Digital Video Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本公开的各种实施例，所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1012连接到网络1011，或者说，也可以使用网络接口单元1012来连接到其他类型的网络或远程计算机设备系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1001通过执行该一个或一个以上程序来实现上述超分辨率模型的训练方法的全部或者部分步骤。

本申请还提供一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述方法实施例提供的超分辨率模型的训练方法。

本申请还提供一种计算机程序产品或计算机程序，上述计算机程序产品或计算机程序包括计算机指令，上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令，上述处理器执行上述计算机指令，使得上述计算机设备执行如上方面实施例提供的超分辨率模型的训练方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种超分辨率模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将训练视频拆分为p种训练样本，包括：

按照m种抽帧策略，从所述训练视频中抽取出m种视频帧序列，所述抽帧策略用于从所述训练视频中抽取具有不同视频帧数量的视频帧序列，m种训练样本与m种视频帧数量一一对应；

按照n种裁剪策略，将所述m种视频帧序列中的至少一种视频帧序列裁剪为n种图像尺寸的样本，得到所述p种训练样本，所述裁剪策略用于裁剪所述至少一种视频帧序列的图像，n和m为正整数。

3.根据权利要求2所述的方法，其特征在于，所述m种视频帧序列中的第i种视频帧序列包括k_i个视频帧，所述i为小于m+1的正整数，所述i的初始值为1，k_i为正整数，k_i不大于所述训练视频的视频帧总数；

所述按照m种抽帧策略，从所述训练视频中抽取出m种视频帧序列，包括：

按照第i种抽帧策略，从所述训练视频中抽取出所述k_i个视频帧，得到第i种视频帧序列对应的一个视频帧序列；

重复上述步骤，获得所述第i种视频帧序列对应的多个视频帧序列；

将所述i更新为i+1，重复上述两个步骤，得到所述m种视频帧序列。

4.根据权利要求3所述的方法，其特征在于，所述按照第i种抽帧策略，从所述训练视频中抽取出所述k_i个视频帧，得到第i种视频帧序列对应的一个视频帧序列，包括：

从所述训练视频中随机抽取出连续的所述k_i个视频帧，得到所述第i种视频帧序列对应的一个视频帧序列；

或者，确定与所述第i种抽帧策略对应的所述k_i个视频帧的排列规则；根据所述排列规则，从所述训练视频中抽取出所述k_i个视频帧，得到所述第i种视频帧序列对应的一个视频帧序列；

或者，从所述训练视频中随机抽取出所述k_i个视频帧，得到所述第i种视频帧序列对应的一个视频帧序列。

5.根据权利要求2所述的方法，其特征在于，所述按照n种裁剪策略，将所述m种视频帧序列中的至少一种视频帧序列裁剪为n种图像尺寸的样本，得到所述p种训练样本，包括：

按照第a种裁剪策略，将所述m种视频帧序列中的第i种视频帧序列裁剪为第a种图像尺寸，得到所述p种训练样本中的第b种训练样本，a为小于m+1的正整数，a为小于n+1的正整数，所述a，i的初始值为1，b为小于p+1的正整数；

将所述a更新为a+1，重复上述步骤，直至得到所述第i个视频帧序列对应的训练样本；

将所述i更新为i+1，初始化所述a，重复上述两个步骤，得到所述p种训练样本。

6.根据权利要求5所述的方法，其特征在于，所述按照第a种裁剪策略，将所述m种视频帧序列中的第i种视频帧序列种所对应的视频序列裁剪为第a种图像尺寸，得到所述p种训练样本中的第b种训练样本，包括：

确定与所述第a种裁剪策略对应的裁剪区域，所述裁剪区域的尺寸与所述第a种图像尺寸相同；根据所述裁剪区域，对所述m种视频帧序列中的第i种视频帧序列进行裁剪，得到所述p种训练样本中的第b种训练样本；

或者，将所述m种视频帧序列中的第i种视频帧序列随机裁剪为所述第a种图像尺寸，得到所述p种训练样本中的第b种训练样本。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述按照所述p种训练样本的排列顺序，从所述p种训练样本中依次提取训练样本对所述超分辨率模型进行训练，包括：

按照所述p种训练样本的排列顺序，从所述p种训练样本中确定第j种训练样本，j为小于p的正整数，j的初始值为1；

使用所述第j种训练样本对所述超分辨率模型进行训练，直至完成第j个训练阶段的训练；

将所述j更新为j+1，重复上述两个步骤，直至使用所述p种训练样本完成对所述超分辨率模型的训练。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

在所述j更新为所述j+1的情况下，更新所述超分辨率模型的学习率；

其中，更新后的第j+1个训练阶段的学习率大于更新前的所述第j个训练阶段的学习率。

9.一种超分辨率模型的训练装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，

所述拆分模块，还用于按照m种抽帧策略，从所述训练视频中抽取出m种视频帧序列，所述抽帧策略用于从所述训练视频中抽取具有不同视频帧数量的视频帧序列，m种训练样本与m种视频帧数量一一对应；按照n种裁剪策略，将所述m种视频帧序列中的至少一种视频帧序列裁剪为n种图像尺寸的样本，得到所述p种训练样本，所述裁剪策略用于裁剪所述至少一种视频帧序列的图像，n和m为正整数。

11.根据权利要求10所述的装置，其特征在于，所述m种视频帧序列中的第i种视频帧序列包括k_i个视频帧，所述i为小于m+1的正整数，所述i的初始值为1，k_i为正整数，k_i不大于所述训练视频的视频帧总数；

所述拆分模块，还用于按照第i种抽帧策略，从所述训练视频中抽取出所述k_i个视频帧，得到第i种视频帧序列对应的一个视频帧序列；重复上述步骤，获得所述第i种视频帧序列对应的多个视频帧序列；将所述i更新为i+1，重复上述两个步骤，得到所述m种视频帧序列。

12.根据权利要求10所述的装置，其特征在于，

所述拆分模块，还用于按照第a种裁剪策略，将所述m种视频帧序列中的第i种视频帧序列裁剪为第a种图像尺寸，得到所述p种训练样本中的第b种训练样本，a为小于m+1的正整数，a为小于n+1的正整数，所述a，i的初始值为1，b为小于p+1的正整数；将所述a更新为a+1，重复上述步骤，直至得到所述第i个视频帧序列对应的训练样本；将所述i更新为i+1，初始化所述a，重复上述两个步骤，得到所述p种训练样本。

13.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8中任一项所述的超分辨率模型的训练方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至8中任一项所述的超分辨率模型的训练方法。

15.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至8中任一项所述的超分辨率模型的训练方法。