CN110267098A

CN110267098A - 一种视频处理方法及终端

Info

Publication number: CN110267098A
Application number: CN201910578666.8A
Authority: CN
Inventors: 陈文涛
Original assignee: Lianshang Xinchang Network Technology Co Ltd
Current assignee: Lianshang Xinchang Network Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-09-20
Anticipated expiration: 2039-06-28
Also published as: CN110267098B

Abstract

本申请的目的是提供一种视频处理方法及终端，本申请通过终端获取待处理的目标视频并确定目标视频中的每一帧视频帧的原始序号；确定所述目标视频对应的目标帧率，并获取所述目标帧率对应的综合预测模型；基于目标帧率对应的综合预测模型分别生成目标视频中的任意相邻的两帧视频帧之间的目标数量的目标中间帧，并确定每一帧目标中间帧的插入序号，目标数量基于目标帧率确定；基于原始序号和插入序号将所有视频帧和所有目标中间帧进行按序合成得到目标视频对应的合成视频，实现对目标视频进行增加中间帧的方式，提升目标视频的连贯性，以提升目标视频的帧率，从而提高用户观看该高帧率的合成视频的用户体验度。

Description

一种视频处理方法及终端

技术领域

本申请涉及计算机领域，尤其涉及一种视频处理方法及终端。

背景技术

现在随着设备的发展和生活水平的不断提升，通过流媒体播放视频已经成为一个非常普遍的行为，但流媒体会受限于网络带宽，单位时间传输的数据量是有限的。其中，视频在传输过程中的质量通常由分辨率和帧率两个因素决定，其中的分辨率影响清晰度，其中的帧率影响流畅性。现有技术中，在视频传输的过程中的视频普遍都只有根据传输带宽选择能承载的最大分辨率，帧率普遍为固定不变30fps。对于用户而言，比较好的体验普遍需要60fps以上，若低于60fps的话，则会遇到动作幅度比较大或者快速移动镜头，导致出现视频不流畅、动态模糊的体验。因此，如何提升视频传输过程中视频的视频帧率和用户体验成为亟需解决的问题。

发明内容

本申请的一个目的是提供一种视频处理方法及终端，以在视频的接收端提升视频的视频帧率，从而提升用户体验。

根据本申请的一个方面，提供了一种视频处理方法，应用于终端，其特征在于，所述方法包括：获取待处理的目标视频，并确定所述目标视频中的每一帧视频帧的原始序号；确定所述目标视频对应的目标帧率，并获取所述目标帧率对应的综合预测模型；基于所述目标帧率对应的综合预测模型，分别生成所述目标视频中的任意相邻的两帧所述视频帧之间的目标数量的目标中间帧，并确定每一帧所述目标中间帧的插入序号；其中，所述目标数量基于所述目标帧率确定；基于所述原始序号和所述插入序号，将所有所述视频帧和所有所述目标中间帧进行按序合成，得到所述目标视频对应的合成视频。

在一个可能的设计中，所述获取所述目标帧率对应的综合预测模型之前，本申请提供的一种视频处理方法还包括：确定不同预设帧率对应的综合预测模型，其中，所述综合预测模型用于生成待处理视频中任意相邻的两帧视频帧之间的第一预设数量的中间帧，所述第一预设数量基于所述预设帧率确定。

在一个可能的设计中，所述确定不同预设帧率对应的综合预测模型，其中，所述综合预测模型用于生成待处理视频中任意相邻的两帧视频帧之间的第一预设数量的中间帧，所述第一预设数量基于所述预设帧率确定，可以通过如下方式实现：获取至少一个训练视频，将每一个所述训练视频按帧进行分解，得到每一个所述训练视频对应的训练帧及其帧序号；将所有所述训练视频中的每一连续的所述第二预设数量的训练帧作为一个训练样本，得到训练样本集，并确定所述训练样本集中的每个所述训练样本中的每一帧所述训练帧的帧序号；其中，所述训练样本中的所述第二预设数量的所述训练帧属于同一个训练视频；对所述训练样本集中的所有所述训练样本进行神经网络学习并拟合，得到用于生成待处理视频中的任意相邻的两帧视频帧之间的所述第一预设数量的中间帧的综合预测模型；根据不同的预设帧率，重复上述步骤，直至得到不同预设帧率对应的综合预测模型。

在一个可能的设计中，所述对所述训练样本集中的所有所述训练样本进行神经网络学习并拟合，得到用于生成待处理视频中的任意相邻的两帧视频帧之间的所述第一预设数量的中间帧的综合预测模型，可以通过如下方式实现：对于所述训练样本集中的训练样本，计算该训练样本中的连续的第二预设数量的训练帧中的第一帧训练帧分别与所述第二预设数量的训练帧中除所述第一帧训练帧和所述最后一帧训练帧外的训练中间帧中的每一帧所述训练中间帧之间的第一光流值，以及该训练样本中的连续的第二预设数量的训练帧中的最后一帧训练帧分别与所述第二预设数量的训练帧中除所述第一帧训练帧和所述最后一帧训练帧外的训练中间帧中的每一帧所述训练中间帧之间的第二光流值，得到每一帧所述训练中间帧分别与所述第一帧训练帧和所述最后一帧训练帧之间的第一光流值和第二光流值；对所述训练样本集中的所有所述训练样本进行上述步骤，得到所有所述训练样本中的每一帧所述训练中间帧分别与所述第一帧训练帧和所述最后一帧训练帧之间的第一光流值和第二光流值；对所有所述训练样本中的每一帧所述训练中间帧分别与所述第一帧训练帧和所述最后一帧训练帧之间的第一光流值和第二光流值进行神经网络学习并拟合，得到用于生成待处理视频中的任意相邻的两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的光流值预测模型；对所有所述训练样本中的每一帧所述训练中间帧及其分别与所述第一帧训练帧和所述最后一帧训练帧之间的第一光流值和第二光流值进行神经网络学习并拟合，得到用于生成待处理视频中的任意相邻的两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的中间帧预测模型；将所述中间帧的光流值预测模型与对应的所述中间帧预测模型进行先后串联，得到用于生成待处理数据中的任意相邻的两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的综合预测模型。

在一个可能的设计中，所述基于所述目标帧率对应的综合预测模型，分别生成所述目标视频中的任意相邻的两帧所述视频帧之间的目标数量的目标中间帧，并确定每一帧所述目标中间帧的插入序号；其中，所述目标数量基于所述目标帧率确定，可以通过如下方式实现：基于所述目标帧率对应的综合预测模型中的每一帧中间帧的光流值预测模型，分别对应计算所述目标视频中的任意相邻的两帧所述视频帧之间的目标数量的目标中间帧中的每一帧所述目标中间帧的目标光流值，所述目标中间帧的目标光流值包括所述目标中间帧与所述相邻的两帧视频帧中的第一帧视频帧之间的第一目标光流值和所述目标中间帧与所述相邻的两帧图像中的最后一帧视频帧之间的第二目标光流值；分别将所述目标视频中的任意相邻的两帧视频帧及其之间的目标数量的目标中间帧中的每一帧所述目标中间帧的目标光流值，输入所述目标帧率对应的综合预测模型中的、与所述目标中间帧对应的中间帧预测模型以生成所述目标中间帧并确定所述目标中间帧的插入序号，以得到所述目标视频中的任意相邻的两帧视频帧之间的目标数量的目标中间帧中的每一帧所述目标中间帧及其插入序号。

在一个可能的设计中，所述确定每一帧所述目标中间帧的插入序号，可以通过如下方式实现：分别根据所述目标视频中的任意相邻的两帧视频帧的原始序号及所述相邻的两帧视频帧之间的目标数量的目标中间帧中的每一帧所述目标中间帧的生成顺序，确定每一帧所述目标中间帧的插入序号。

在一个可能的设计中，所述确定所述目标视频对应的目标帧率并获取所述目标帧率对应的综合预测模型，可以通过如下方式实现：响应于用户对视频处理帧率的选择，确定所述目标帧率并获取所述目标帧率对应的综合预测模型。

在一个可能的设计中，所述获取待处理的目标视频，可以通过如下方式实现：获取所述目标视频以及所述目标视频的原始播放帧率；其中，所述方法还包括：将所述合成视频按照所述目标视频的原始播放帧率进行匀速视频播放。

在一个可能的设计中，所述获取待处理的目标视频，可以通过如下方式实现：获取所述目标视频以及所述目标视频的原始播放帧率；其中，所述方法还包括：响应于用户对视频播放帧率的选择确定所述目标视频对应的合成视频的播放倍数，并基于所述播放倍数和所述原始播放帧率，确定所述目标视频对应的合成视频的修正播放帧率；将所述合成视频按照所述合成视频的修正播放帧率进行匀速视频播放。

在一个可能的设计中，本申请提供的一种视频处理方法还包括：将所述目标视频对应的合成视频进行本地缓存。

根据本申请的另一方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如上述视频处理方法。

根据本申请的另一方面，还提供了一种终端，其特征在于，该终端包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述视频处理方法。

与现有技术相比，本申请通过在处理视频的实际应用场景中，所述终端获取待处理的目标视频，并确定所述目标视频中的每一帧视频帧的原始序号；接着，为了便于对该目标视频进行中间帧的插入，确定所述目标视频对应的目标帧率，并获取所述目标帧率对应的综合预测模型；所述终端基于所述目标帧率对应的综合预测模型，分别生成所述目标视频中的任意相邻的两帧所述视频帧之间的目标数量的目标中间帧，并确定每一帧所述目标中间帧的插入序号；其中，所述目标数量基于所述目标帧率确定；所述终端基于所述原始序号和所述插入序号，将所有所述视频帧和所有所述目标中间帧按照所述目标帧率进行按序合成，得到所述目标视频对应的合成视频，实现对目标视频进行增加中间帧的方式，提升目标视频的连贯性，以提升目标视频的帧率，使得通过增加中间帧的目标视频成为高帧率的合成视频，从而提高用户观看该高帧率的合成视频的用户体验度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种视频处理方法的流程示意图；

图2示出根据本申请一个方面的一种视频处理方法在实际应用场景中的模型训练的流程示意图；

图3示出根据本申请一个方面的一种视频处理方法在实际应用场景中的合成目标视频的流程示意图；

图4示出根据本申请一个方面的一种用于视频处理的终端的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit，CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change RAM，PRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能光盘(Digital Versatile Disk，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

现有技术中对视频进行压缩的方式主要通过抽帧来实现，把最初的动图或者视频的帧率按照一定比例减少，导致用户在查看被抽帧后的视频的时产生视频不连贯且动态模糊的视觉效果。为了解决上述技术问题，本申请一个方面的实施例提出了一种数据处理方法，该数据处理方法应用于终端，用于处理在终端接收的被抽帧处理后的目标数据或在终端接收的显示不连贯、动态模糊的目标数据。在终端接收到这样的待处理的目标数据后，为了便于后续在终端显示或播放的目标数据连贯性好且清晰度高的话，所述终端会对待处理的目标数据进行逐帧处理，以得到该目标数据中的每一帧图像帧的原始序号；之后，为了便于对目标数据进行中间帧的有效插入，终端还需要确定该目标数据对应的目标帧率，并获取与该目标帧率对应的综合预测模型，用于预测插入该目标数据的任意相邻的两帧图像帧之间的目标中间帧，在此，插入任意相邻的两帧图像帧之间的目标中间帧的目标数量基于该目标数据的目标帧率确定；接着，所述终端基于所述目标帧率对应的综合预测模型，对该目标数据中的任意相邻的两帧图像帧之间的目标数量的中间帧进行补入，以生成该目标数据中的任意相邻的两帧图像帧之间的目标数量的目标中间帧，同时确定每一帧该目标中间帧的插入序号；最后，终端根据接收的该目标数据中的每一帧图像帧的原始序号及任意相邻的两帧图像帧之间的目标数量的目标中间帧中的每一帧目标中间帧的插入序号，将目标数据中的所有图像帧和生成的所有目标中间帧进行按序合成，生成该目标数据对应的合成数据。本申请一实施例通过对目标数据进行添加中间帧的方式，以便后续在该终端将插入了目标数量的目标中间帧的合成数据显示或播放给用户，使得显示或播放的合成数据的清晰度更高且在视觉效果上更具有连贯性，从而提升用户在终端接收目标数据后查看该目标数据对应的合成数据时的视觉体验。

在此，所述目标数据包括但不限于动图和小视频等具有动态图像帧的数据，若该目标数据为视频时，对视频进行逐帧独立分割后，得到的是该视频对应的每一帧视频帧(对应目标数据的图像帧)。下面以视频为例，对本申请一个方面的一些实施例提供的一种数据处理方法进行进一步解释说明。

如图1所示，本申请一个方面的一些实施例提供了一种视频处理方法，该方法应用于视频传输过程中的接收视频的终端端。该方法包括步骤S11、步骤S12、步骤S13及步骤S14。

为了便于快速有效地生成对所有待处理数据中的任意相邻的两帧视频帧之间的中间帧，所述终端会预先训练并确定不同帧率对应的综合预测模型Model。在实际处理数据的应用场景中，步骤S11，所述终端获取待处理的目标视频，并确定所述目标视频中的每一帧视频帧的原始序号。在此，所述目标视频中的每一帧视频帧的原始序号用于指示所述终端获取到该目标视频时对应的每一帧视频帧按序进行排列形成该目标视频的序号。比如，若所述终端在获取所述目标视频之前，该目标视频并没有经过任何数据压缩等处理，该目标视频的包括20帧视频帧，则该目标视频中的每一帧视频帧的原始序号为按序形成该目标视频的排列序号；若所述终端获取到的目标视频经过抽帧等压缩处理，该目标视频抽帧之前包括20帧视频帧，若抽帧处理均抽取的是偶数帧的视频帧，则终端获取的经过抽帧处理后的目标视频包括10帧视频帧，且每帧该目标视频帧的原始序号分别为：视频帧1(对应抽帧前的视频帧1)、视频帧2(对应抽帧前的视频帧3)、视频帧3(对应抽帧前的视频帧5)、视频帧4(对应抽帧前的视频帧7)、视频帧5(对应抽帧前的视频帧9)、视频帧6(对应抽帧前的视频帧11)、视频帧7(对应抽帧前的视频帧13)、视频帧8(对应抽帧前的视频帧15)、视频帧9(对应抽帧前的视频帧17)及视频帧10(对应抽帧前的视频帧19)，以反映所述终端获取到该目标视频时对应的按序形成该目标视频的每一帧视频帧的排列序号。

为了便于对该目标视频进行目标数量对应的目标中间帧的插入，步骤S12，终端会确定待处理的该目标视频的目标帧率，并获取与该目标帧率对应的综合预测模型，以便后续根据该目标帧率对应的综合预测模型生成待处理的目标视频的任意相邻两帧视频帧之间的目标数量的中间帧。

为了提升终端获取到的目标视频在用户视觉上的连贯性和提高接收到的该目标视频的帧率，步骤S13，所述终端基于所述目标帧率对应的综合预测模型，分别生成所述目标视频中的任意相邻的两帧所述视频帧之间的目标数量的目标中间帧，并确定每一帧所述目标中间帧的插入序号，以便后续将生成的目标中间帧按序插入该目标视频中的对应的相邻两帧视频帧之间；其中，所述目标数量由所述目标帧率确定。在此，呈现目标视频时的目标帧率包括但不限于两倍帧率、三倍帧率、四倍帧率、……、及多倍帧率，以满足用户对呈现目标视频时的不同帧率的需求；比如，若用户需要在呈现目标视频时的目标帧率为两倍帧率，则对应的目标数量为1帧，即所述终端会分别生成所述目标视频中的任意相邻两帧视频帧之间的一帧目标中间帧，若用户需要在呈现目标视频时的目标帧率为三倍帧率，则对应的目标数量为2帧，即所述终端会分别生成所述目标视频中的任意相邻两帧视频帧之间的两帧目标中间帧，若用户需要在呈现目标视频时的目标帧率为4倍帧率，则对应的目标数量为3帧，即所述终端会分别生成所述目标视频中的任意相邻两帧视频帧之间的三帧目标中间帧，依此类推，若用户需要在呈现目标视频时的目标帧率为W倍帧率，其中W为大于等于2的正整数，则对应的目标数量为(W-1)帧，即所述终端会分别生成所述目标视频中的任意相邻两帧视频帧之间的(W-1)帧目标中间帧，以实现对不同目标帧率下的目标视频中的任意相邻两帧视频帧之间的目标中间帧的生成。

步骤S14，所述终端基于所述原始序号和所述插入序号，将所有所述视频帧和所有所述目标中间帧按照所述目标帧率进行按序合成，得到所述目标视频对应的合成视频，实现对目标视频进行插入中间帧的处理，使得目标视频插入中间帧后的合成视频为高帧率的合成视频，以提升后续呈现给用户的该目标视频对应的合成视频在视觉效果上更具有连贯性，从而提高用户观看该高帧率的合成视频的用户视觉体验。

例如，当需要对待处理的目标视频进行处理之前，步骤S11先确定呈现该目标视频时的目标帧率，若呈现该目标视频时的目标帧率为两倍帧率，在对目标视频进行处理之前，需要获取与该两倍帧率对应的、用于生成待处理数据中的任意相邻两帧视频帧之间的一帧中间帧的综合预测模型Model(2)；在处理目标视频的实际处理过程中，若终端在步骤S12中获取的待处理的目标视频包括10帧视频帧，且每一帧视频帧的原始序号分别为：视频帧1、视频帧2、视频帧3、视频帧4、视频帧5、视频帧6、视频帧7、视频帧8、视频帧9及视频帧10；所述步骤S13分别生成该目标视频中的每一相邻的两帧视频帧之间的目标中间帧，得到目标中间帧(1，2)、目标中间帧(2，3)、目标中间帧(3，4)、目标中间帧(4，5)、目标中间帧(5，6)、目标中间帧(6，7)、目标中间帧(7，8)、目标中间帧(8，9)及目标中间帧(9，10)，其中，目标中间帧(3，4)的用于指示在相邻的视频帧3与视频帧4之间的生成的一帧中间帧，以便后续根据该插入序号(3，4)插入该视频帧3与视频帧4之间；所述步骤S14，终端按照目标视频的视频帧帧的原始序号和需要插入的目标中间帧的插入序号，将目标视频的所有视频帧和所有目标中间帧按序进行合成，即将生成的目标中间帧按照所述插入序号插入目标视频中的对应的两帧视频帧之间，以形成合成视频帧序列，实现对目标视频进行插入视频帧的处理，以便后续呈现给用户的该目标视频对应的合成视频具有更高的帧率，保证所呈现的合成视频在视觉效果上更具有连贯性，从而提升用户的视觉体验。

本实施例中，所述终端在执行步骤S12获取所述目标帧率对应的综合预测模型之前，所述方法还包括：

确定不同预设帧率对应的综合预测模型，其中，所述综合预测模型用于生成待处理数据中任意相邻的两帧视频帧之间的第一预设数量的中间帧，所述第一预设数量基于所述预设帧率确定。

例如，所述预设帧率可以包括但不限于两倍帧率、三倍帧率、四倍帧率、……、及多倍帧率，以满足用户对呈现目标视频时的不同帧率的需求。为了便于快速有效地生成对所有待处理数据中的任意相邻的两帧视频帧之间的中间帧，所述终端会预先基于深度学习等学习算法来训练满足不同预设帧率下的、用于生成待处理数据中任意相邻的两帧视频帧之间的第一预设数量的中间帧的综合预测模型Model；比如，若所述预设帧率为两倍帧率，则所述两倍帧率对应的综合预测模型Model(2)用于生成待处理数据中任意相邻的两帧视频帧之间的一帧的中间帧，若所述预设帧率为三倍帧率，则所述三倍帧率对应的综合预测模型Model(3)用于生成待处理数据中任意相邻的两帧视频帧之间的两帧的中间帧，若所述预设帧率为四倍帧率，则所述四倍帧率对应的综合预测模型Model(4)用于生成待处理数据中任意相邻的两帧视频帧之间的三帧的中间帧，依此类推，若所述预设帧率为W倍帧率，则所述W倍帧率对应的综合预测模型Model(W)用于生成待处理数据中任意相邻的两帧视频帧之间的(W-1)帧的中间帧，以实现满足不同预设帧率下的呈现需求所对应的、用于生成待处理数据中任意相邻的两帧视频帧之间的第一预设数量的中间帧的综合预测模型Model的确定，以便后续在实际视频处理过程中，对不同呈现帧率要求下的目标视频进行中间帧的生成及插入处理，进而合成目标视频对应的高帧率的合成视频。

接着本申请的上述实施例，所述终端确定不同预设帧率对应的综合预测模型，其中，所述综合预测模型用于生成待处理数据中任意相邻的两帧视频帧之间的第一预设数量的中间帧，所述第一预设数量基于所述预设帧率确定，具体包括：

所述终端获取至少一个训练视频，将每一个所述训练视频按帧进行分解，得到每一个所述训练视频对应的训练帧及其帧序号；在此，所述训练视频包括但不限于动图或小视频等，且一个所述训练视频对应一独立的动图或小视频等，为了提高后续训练得到的综合预测模型的准确度，在训练综合预测模型时，采用至少一个训练视频来进行模型训练，以保证综合预测模型的准确度。

所述终端将所有所述训练视频中的每一连续的所述第二预设数量的训练帧作为一个训练样本，得到训练样本集，并确定所述训练样本集中的每个所述训练样本中的每一帧所述训练帧的帧序号；其中，所述训练样本中的所述第二预设数量的所述训练帧属于同一个训练视频；

所述终端对所述训练样本集中的所有所述训练样本进行神经网络学习并拟合，得到用于生成待处理数据中的任意相邻的两帧视频帧之间的所述第一预设数量的中间帧的综合预测模型；

所述终端根据不同的预设帧率，重复上述步骤，直至得到不同预设帧率对应的综合预测模型。

例如，在训练所述综合预测模型的过程中，先获取至少一个训练视频，比如训练视频的数量为M条，M为大于等于一的正整数；接着，将每一个训练视频按帧分解成独立有序的视频帧序列，以得到每一个所述训练视频对应的视频帧，并确定每一帧视频帧的原始序号Xi，其中，i为大于等于一的正整数，i的上限值为M条训练视频按序分解成的所有视频帧的总数量N。在此，每一个训练视频按帧分解后得到的视频帧的数量大于等于3帧，以满足后续对综合预测模型的训练的需求。在确定用于训练所述综合预测模型的视频帧序列后，将所述训练视频中的每一连续的第二预设数量的所述训练帧作为一个训练样本，比如，若训练的综合预测模型为二倍帧率(预设帧率)对应的综合预测模型时，该第二预设数据量为3，若训练的综合预测模型为三倍帧率(预设帧率)对应的综合预测模型时，该第二预设数据量为4，若训练的综合预测模型为四倍帧率(预设帧率)对应的综合预测模型时，该第二预设数据量为5，依此类推，若训练的综合预测模型为W倍帧率(预设帧率)对应的综合预测模型时，该第二预设数据量为(W+1)。

在本申请一优选实施例中，若训练的综合预测模型为二倍帧率(预设帧率)对应的综合预测模型，则终端将视频帧X1、X2及X3作为一个训练样本V1，将视频帧X2、X3及X4作为又一个训练样本V2，将视频帧X3、X4及X5作为又一个训练样本V3，……，及将X(N-2)、X(N-1)及X(N)作为又一个训练样本V(N-2)，使得将N帧训练帧中的每一连续的三帧(即预设帧率为两倍帧率时对应的每一训练样本中的训练帧为三帧)训练帧分别作为一个训练样本后，可以得到(N-2)个训练样本，以得到所述至少一个训练视频对应的训练样本集，该训练样本集中包括(N-2)个训练样本，同时，在每个训练样本中，根据每一帧所述视频帧的原始序号确定该训练样本中的三帧视频帧中的每一帧所述视频帧的帧序号，比如，训练样本V2中的三帧视频帧的原始序号分别为：视频帧X2、X3及X4，则该训练样本V2中的视频帧X2、X3及X4中的每一帧视频帧的帧序号依然保持原始的顺序不变。在此，所述训练样本中的三帧所述训练帧属于同一个训练视频，避免同一训练样本中包括不同训练视频对应的训练帧而导致训练得到的综合预测模型的准确度降低。最后，所述终端对所述训练样本集中的所有所述训练样本V1、V2、V3、……、V(N-3)及V(N-2)进行神经网络学习并拟合，得到用于生成待处理数据中的任意相邻的两帧视频帧之间的一帧中间帧的综合预测模型Model(2)，使得通过对至少一个训练视频进行分析和训练，来实现对所述综合预测模型Model(2)的训练和确定，以便后续基于该综合预测模型Model(2)实现对待处理数据的任意相邻的两帧视频帧之间的一帧中间帧的预测。

在本申请又一优选实施例中，若训练的综合预测模型为三倍帧率(预设帧率)对应的综合预测模型，则终端将视频帧X1、X2、X3及X4作为一个训练样本V1，将视频帧X2、X3、X4及X5作为又一个训练样本V2，将视频帧X3、X4、X5及X6作为又一个训练样本V3，……，及将X(N-3)、X(N-2)、X(N-1)及X(N)作为又一个训练样本V(N-3)，使得将N帧训练帧中的每一连续的四帧(即预设帧率为三倍帧率时对应的每一训练样本中的训练帧为四帧)训练帧分别作为一个训练样本后，可以得到(N-3)个训练样本，以得到所述至少一个训练视频对应的训练样本集，该训练样本集中包括(N-3)个训练样本，同时，在每个训练样本中，根据每一帧所述视频帧的原始序号确定该训练样本中的三帧视频帧中的每一帧所述视频帧的帧序号，比如，训练样本V2中的三帧视频帧的原始序号分别为：视频帧X2、X3、X4及X5，则该训练样本V2中的视频帧X2、X3、X4及X5中的每一帧视频帧的帧序号依然保持原始的顺序不变。在此，所述训练样本中的四帧所述训练帧属于同一个训练视频，避免同一训练样本中包括不同训练视频对应的训练帧而导致训练得到的综合预测模型的准确度降低。最后，所述终端对所述训练样本集中的所有所述训练样本V1、V2、V3、……、V(N-4)及V(N-3)进行神经网络学习并拟合，得到用于生成待处理数据中的任意相邻的两帧视频帧之间的两帧中间帧的综合预测模型Model(3)，使得通过对至少一个训练视频进行分析和训练，来实现对所述综合预测模型Model(3)的训练和确定，以便后续基于该综合预测模型Model(3)实现对待处理数据的任意相邻的两帧视频帧之间的两帧帧中间帧的预测。

所述终端重复上述基于获取的至少一个训练视频进行训练得到用于生成待处理数据中任意相邻的两帧视频帧之间的一帧中间帧的综合预测模型Model(2)，即两倍帧率对应的综合预测模型Model(2)，或，基于获取的至少一个训练视频进行训练得到用于生成待处理数据中任意相邻的两帧视频帧之间的两帧帧中间帧的综合预测模型Model(3)，即三倍帧率对应的综合预测模型Model(3)的训练方法，来对获取的至少一个训练视频继续进行训练以得到不同的预设帧率对应的综合预测模型Model，以满足在不同的预设帧率的数据呈现需求下，能够基于不同的预设帧率对应的综合预测模型Model来对待处理数据进行对应的视频处理，从而得到高帧率的合成视频。

接着本申请的上述实施例，所述终端对所述训练样本集中的所有所述训练样本进行神经网络学习并拟合，得到用于生成待处理数据中的任意相邻的两帧视频帧之间的所述第一预设数量的中间帧的综合预测模型，具体包括：

所述终端对于所述训练样本集中的训练样本，计算所述训练样本中的连续的第二预设数量的训练帧中的第一帧训练帧，分别与所述第二预设数量的训练帧中除所述第一帧训练帧和所述最后一帧训练帧外的训练中间帧中的每一帧所述训练中间帧之间的第一光流值，以及该训练样本中的连续的第二预设数量的训练帧中的最后一帧训练帧分别与所述第二预设数量的训练帧中除所述第一帧训练帧和所述最后一帧训练帧外的训练中间帧中的每一帧所述训练中间帧之间的第二光流值，得到每一帧所述训练中间帧分别与所述第一帧训练帧和所述最后一帧训练帧之间的第一光流值和第二光流值；所述终端对所述训练样本集中的所有所述训练样本进行上述步骤，得到所有所述训练样本中的每一帧所述训练中间帧分别与所述第一帧训练帧和所述最后一帧训练帧之间的第一光流值和第二光流值；在此，第一光流值用于指示训练样本中的第一帧训练帧与所述训练样本中除第一帧训练帧和最后一帧训练帧外的训练中间帧之间的光流值，第二光流值用于指示训练样本中的最后一帧训练帧与所述训练样本中除第一帧训练帧和最后一帧训练帧外的训练中间帧之间的光流值，比如，训练样本中包括四帧连续的训练帧X1、X2、X3及X4，训练中间帧X2与第一帧训练帧X1之间的第一光流值为F21，训练中间帧X2与最后训练帧X4之间的第二光流值为F24，及训练中间帧X3与第一帧训练帧X1之间的第一光流值为F31，训练中间帧X3与最后训练帧X4之间的第二光流值为F34，以实现对所有训练样本中的每一训练中间帧分别与第一帧训练帧和最后一帧训练帧之间的第一光流值和第二光流值的计算。

所述终端对所有所述训练样本中的每一帧所述训练中间帧分别与所述第一帧训练帧和所述最后一帧训练帧之间的第一光流值和第二光流值进行神经网络学习并拟合，得到用于生成待处理视频中的任意相邻的两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的光流值预测模型；在此，所述第一预设数量用于指示可以生成任意相邻的两帧视频帧之间的中间帧的数量。

所述终端对所有所述训练样本中的每一帧所述训练中间帧及其分别与所述第一帧训练帧和所述最后一帧训练帧之间的第一光流值和第二光流值进行神经网络学习并拟合，得到用于生成待处理视频中的任意相邻的两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的中间帧预测模型；

所述终端将所述中间帧的光流值预测模型与对应的所述中间帧预测模型进行先后串联，得到用于生成待处理视频中的任意相邻的两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的综合预测模型。

例如，若训练预设帧率对应的综合预测模型为三倍帧率对应的综合预测模型Model时，所述终端计算训练样本V1中的连续四帧训练视频帧中的第一帧训练帧X1与第四帧训练帧X4，分别与训练样本V1中的除第一帧训练帧X1与第四帧训练帧X4外的第二帧训练帧X2之间的第一光流值F21和第二光流值F24，及分别与第三帧训练帧X3之间的第一光流值F31和第二光流值F34，计算训练样本V2中的连续四帧训练视频帧中的第一帧训练帧X2与第四帧训练帧X5分别与训练样本V2中的第二帧训练帧X3之间的第一光流值F32和第二光流值F35，及分别与训练样本V2中的第三帧训练帧X4之间的第一光流值F41和第二光流值F45，依照上述计算训练样本V1和V2中的连续四帧训练视频帧中的第一帧训练帧和最后一帧训练帧分别与所述连续四帧视频帧中的除所述第一帧视频帧和所述最后一帧视频帧外的每一帧训练中间帧之间的第一光流值和第二光流值的方法，继续分别计算训练样本V3、……、V(N-3)及V(N-2)中的连续四帧训练视频帧中的第一帧训练帧与第四帧训练帧，分别与所述连续四帧训练帧中的除第一帧训练帧与第四帧训练帧外的每一帧训练中间帧之间的第一光流值和第二光流值，比如，计算得到算训练样本V(N-3)中的连续四帧训练视频帧中的第一帧训练帧X(N-3)与最后一帧训练帧X(N)，分别与训练样本V(N-3)中的连续四帧训练视频帧中除第一帧训练帧X(N-3)与最后一帧训练帧X(N)外的每一帧训练中间帧之间的第一光流值和第二光流值，即训练样本V(N-3)中的连续四帧训练视频帧中的第一帧训练帧X(N-3)与最后一帧训练帧X(N)，分别与训练中间帧X(N-2)之间的第一光流值F((N-2)(N-3))和第二光流值F((N-2)(N))，及分别与训练中间帧X(N-1)之间的第一光流值F((N-1)(N-3))和第二光流值F((N-1)(N))，以实现对所有所述训练样本中的每一帧所述训练中间帧分别与所述第一帧训练帧和所述最后一帧训练帧之间的第一光流值和第二光流值的计算。

接着，所述终端分别对所有训练样本中的训练样本V1中的第二帧训练帧X2与第一帧训练帧X1之间的第一光流值F21，即(X2-X1、F21)和第二帧训练帧X2与最后帧训练帧X4之间的第二光流值F24，即(X2-X4、F24)，对所有训练样本中的训练样本V2中的第二帧训练帧X3与第一帧训练帧X2之间的第一光流值F32，即(X3-X2、F32)和第二帧训练帧X3与最后帧训练帧X5之间的第二光流值F35，即(X3-X5、F35)，……，及训练样本V(N-3)中的训练中间帧X(N-2)与第一帧训练帧X(N-3)之间的第一光流值F((N-2)(N-3))和训练中间帧X(N-2)与最后一帧训练帧X(N)之间的第二光流值F((N-2)(N))，即(X(N-2)-X(N-3)、F((N-2)(N-3)))，(X(N-2)-X(N)、F((N-2)(N)))进行神经网络学习，以得到用于生成待处理数据中的任意相邻的两帧视频帧之间的第一预设数量(此时三倍帧率对应的第一预设数量为2)中间帧中的第一帧中间帧的光流值预测模型NNf(1)；同时，所述终端分别对所有训练样本中的训练样本V1中的第三帧训练帧X3与第一帧训练帧X1之间的第一光流值F31，即(X3-X1、F31)和第三帧训练帧X3与最后帧训练帧X4之间的第二光流值F34，即(X3-X4、F34)，对所有训练样本中的训练样本V2中的第三帧训练帧X4与第一帧训练帧X2之间的第一光流值F42，即(X4-X2、F42)和第三帧训练帧X4与最后帧训练帧X5之间的第二光流值F45，即(X4-X5、F45)，……，及训练样本V(N-3)中的训练中间帧X(N-1)与第一帧训练帧X(N-3)之间的第一光流值F((N-1)(N-3))和训练中间帧X(N-1)与最后一帧训练帧X(N)之间的第二光流值F((N-1)(N))进行神经网络学习，以得到用于生成待处理数据中的任意相邻的两帧视频帧之间的第一预设数量(此时三倍帧率对应的第一预设数量为2)中间帧中的第二帧中间帧的光流值预测模型NNf(2)，实现对用于生成待处理视频中的任意相邻两帧视频帧之间的第一帧中间帧的光流值预测模型NNf(1)和第二帧中间帧的光流值预测模型NNf(2)的训练和确定。

之后，所述终端将每一帧中间帧的所述中间帧的光流值预测模型NNf与对应的所述中间帧预测模型NNm进行先后串联，得到用于生成待处理视频中的任意相邻的两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的综合预测模型Model，即所述综合预测模型＝NNf+NNm，以便后续能够根据该先后顺序串联得到的模型来形成对应的中间帧，比如，所述终端将用于生成第一帧中间帧的光流值预测模型NNf(1)与对应的所述中间帧预测模型NNm(1)进行先后串联，即得到用于生成待处理视频中的任意相邻的两帧视频帧之间的两帧中间帧中的第一帧中间帧的综合预测模型Model(1)＝NNf(1)+NNm(1)；同时，所述终端将用于生成第二帧中间帧的光流值预测模型NNf(2)与对应的所述中间帧预测模型NNm(2)进行先后串联，即得到用于生成待处理数据中的任意相邻的两帧视频帧之间的两帧中间帧中的第二帧中间帧的综合预测模型Model(2)＝NNf(2)+NNm(2)，进而实现对用于生成待处理视频中的任意相邻的两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的综合预测模型的训练。

在此，在使用所述综合预测模型Model在进行待处理视频的任意相邻两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的生成时，并不是将每一帧所述中间帧的光流值预测模型NNf与所述中间帧预测模型NNm进行简单的相加，而是分别先使用第一预设中间帧中的每一中间帧对应的光流值预测模型NNf计算任意相邻两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的光流值，再使用每一帧中间帧各自对应的中间帧预测模型NNm分别生成对应的任意相邻两帧视频帧之间的第一预设数量中间帧中的每一帧中间帧，以通过对至少一个训练视频进行分析、训练和深度学习，达到确定用于生成待处理数据中的任一相邻的两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的综合预测模型的目的，便于后续直接基于已训练好的该综合预测模型Model分别实现对任一待处理视频的任意相邻的两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的预测。

接着本申请的上述实施例，在实际的应用场景中，所述终端执行的步骤S13基于所述目标帧率对应的综合预测模型，分别生成所述目标视频中的任意相邻的两帧所述视频帧之间的目标数量的目标中间帧，并确定每一帧所述目标中间帧的插入序号；其中，所述目标数量基于所述目标帧率确定，具体包括：

所述终端基于所述目标帧率对应的综合预测模型中的每一帧中间帧的光流值预测模型，分别对应计算所述目标视频中的每一相邻的两帧所述视频帧之间的目标数量的目标中间帧中的每一帧所述目标中间帧的目标光流值，所述目标中间帧的目标光流值包括所述目标中间帧与所述相邻的两帧视频帧中的第一帧视频帧之间的第一目标光流值和所述目标中间帧与所述相邻的两帧图像中的最后一帧视频帧之间的第二目标光流值；

所述终端分别将所述目标视频中的任意相邻的两帧视频帧及其之间的目标数量的目标中间帧中的每一帧所述目标中间帧的目标光流值，输入所述目标帧率对应的综合预测模型中的、与所述目标中间帧对应的中间帧预测模型生成所述目标中间帧并确定所述目标中间帧的插入序号，得到所述目标视频中的任意相邻的两帧视频帧之间的目标数量的目标中间帧中的每一帧所述目标中间帧及其插入序号。

例如，若所述终端获取的目标视频包括10帧视频帧，分别为：视频帧A1、视频帧A2、视频帧A3、视频帧A4、视频帧A5、视频帧A6、视频帧A7、视频帧A8、视频帧A9及视频帧A10，且每帧视频帧的原始序号为获取到该目标视频时对应的顺序号，且该目标帧率为三倍帧率，则在该目标视频中生成的任意相邻的两帧所述视频帧之间的目标中间帧的目标数量为2帧；接着，所述终端先根据所述中间帧的光流值预测模型NNf，分别计算所述目标视频中的任意相邻的两帧视频帧之间的目标中间帧的目标光流值，比如，所述终端根据第一帧中间帧的光流值预测模型NNf(1)计算出相邻的视频帧A1和视频帧A2分别与对应预测的第一帧目标中间帧Y1之间的目标光流值F’11和F’12，即(A1，F’11)和(A2，F’12)，同时，根据第一帧中间帧的光流值预测模型NNf(1)计算相邻的视频帧A2和视频帧A3分别与对应预测的第一帧目标中间帧Y2之间的目标光流值F’22和F’23，即(A2，F’22)和(A3，F’23)，根据第一帧中间帧的光流值预测模型NNf(1)计算相邻的视频帧A3和视频帧A4分别与对应预测的第一帧目标中间帧Y3之间的目标光流值F’33和F’34，即(A3，F’33)和(A4，F’34)，依此类推，直至根据第一帧中间帧的光流值预测模型NNf(1)计算到相邻的视频帧A9和视频帧A10分别与对应预测的第一帧目标中间帧Y9之间的目标光流值F’99和F’9(10)，即(A9，F’99)和(A10，F’9(10))，使得将目标视频中的任意相邻的两帧视频帧分别输入用于生成第一帧中间帧的所述中间帧的光流值预测模型NNf(1)中，以计算得到所述目标视频中的每一相邻的两帧视频帧之间的目标数量(2帧)的目标中间帧中的第一帧目标中间帧的目标光流值，其中，所述目标光流值包括所述相邻的两帧视频帧分别与所述第一帧目标中间帧之间的光流值；之后，所述终端将(A1，F’11)和(A2，F’12)，(A2，F’22)和(A3，F’23)，(A3，F’33)和(A4，F’34)，……，及(A9，F’99)和(A10，F’9(10))分别输入目标数量的目标中间帧中的第一帧目标中间帧对应的所述中间帧预测模型NNm(1)，对应生成所述目标视频中的相邻的视频帧A1和视频帧A2之间的第一帧目标中间帧Y1、相邻的视频帧A2和视频帧A3之间的第一帧目标中间帧Y2、相邻的视频帧A3和视频帧A4之间的第一帧目标中间帧Y3、……、及相邻的视频帧A9和视频帧A10之间的第一帧目标中间帧Y9，以得到所述目标视频中的任意相邻的两帧视频帧之间的目标数量的目标中间帧中的第一帧目标中间帧，同时，确定每一帧所述第一帧目标中间帧的插入序号，以便后续根据该插入序号将对应的第一帧目标中间帧插入目标视频中对应的相邻两帧视频帧之间，以作为对应的相邻两帧视频帧之间的第一帧目标中间帧。通过上述生成任意相邻两帧视频帧之间的目标数量的目标中间帧中的第一帧目标中间帧的所述中间帧的光流值预测模型NNf(1)和所述中间帧预测模型NNm(1)，实现了对所述目标视频中的每一相邻的两帧视频帧之间的目标数量的目标中间帧中的第一帧目标中间帧的预测，并确定了每一帧所述第一帧目标中间帧的插入序号，以便后续精确有效地将需要插入的第一帧目标中间帧按序插入目标视频中对应的相邻两帧视频帧之间以作为所述对应的相邻两帧视频帧之间的第一帧目标中间帧。

同时地，所述终端还根据用于生成任意相邻的两帧视频帧之间的预设数量(两帧)的中间帧中的第二帧中间帧的光流值预测模型NNf(2)计算出相邻的视频帧A1和视频帧A2分别与对应预测的第二帧目标中间帧Y11之间的目标光流值F’101和F’102，即(A1，F’101)和(A2，F’102)，同时，根据第二帧中间帧的光流值预测模型NNf(2)计算相邻的视频帧A2和视频帧A3分别与对应预测的第二帧目标中间帧Y22之间的目标光流值F’202和F’203，即(A2，F’202)和(A3，F’203)，根据第二帧中间帧的光流值预测模型NNf(2)计算相邻的视频帧A3和视频帧A4分别与对应预测的第二帧目标中间帧Y3之间的目标光流值F’303和F’304，即(A3，F’303)和(A4，F’304)，依此类推，直至根据第二帧中间帧的光流值预测模型NNf(2)计算到相邻的视频帧A9和视频帧A10分别与对应预测的第二帧目标中间帧Y9之间的目标光流值F’909和F’90(10)，即(A9，F’909)和(A10，F’90(10))，使得将目标视频中的任意相邻的两帧视频帧分别输入用于生成第二帧中间帧的所述中间帧的光流值预测模型NNf(2)中，以计算得到所述目标视频中的任意相邻的两帧视频帧之间的目标数量(2帧)的目标中间帧中的第二帧目标中间帧的目标光流值，其中，所述目标光流值包括所述相邻的两帧视频帧分别与所述第二帧目标中间帧之间的光流值；之后，所述终端将(A1，F’11)和(A2，F’12)，(A2，F’22)和(A3，F’23)，(A3，F’33)和(A4，F’34)，……，及(A9，F’99)和(A10，F’9(10))分别输入目标数量的目标中间帧中的第二帧目标中间帧对应的所述中间帧预测模型NNm(2)，对应生成所述目标视频中的相邻的视频帧A1和视频帧A2之间的第二帧目标中间帧Y11、相邻的视频帧A2和视频帧A3之间的第二帧目标中间帧Y22、相邻的视频帧A3和视频帧A4之间的第二帧目标中间帧Y33、……、及相邻的视频帧A9和视频帧A10之间的第二帧目标中间帧Y99，以得到所述目标视频中的每一相邻的两帧视频帧之间的目标数量的目标中间帧中的第二帧目标中间帧，同时，确定每一帧所述第二帧目标中间帧的插入序号，以便后续根据该插入序号将对应的第二帧目标中间帧插入目标视频中对应的相邻两帧视频帧之间，以作为对应的相邻两帧视频帧之间的第二帧目标中间帧。通过上述生成任意相邻两帧视频帧之间的目标数量的目标中间帧中的第二帧目标中间帧的所述中间帧的光流值预测模型NNf(2)和所述中间帧预测模型NNm(2)，实现了对所述目标视频中的任意相邻的两帧视频帧之间的目标数量的目标中间帧中的第二帧目标中间帧的预测，并确定了每一帧所述第二帧目标中间帧的插入序号，以便后续精确有效地将需要插入的第二帧目标中间帧按序插入目标视频中对应的相邻两帧视频帧之间以作为所述对应的相邻两帧视频帧之间的第二帧目标中间帧，进一步实现对目标视频中的任意相邻两帧视频帧之间的目标数量的目标中间帧中的每一帧目标中间帧及其插入序号的预测与确定。

接着本申请的上述实施例，所述用户在确定每一帧所述目标中间帧的插入序号时，具体包括：

所述终端分别根据所述目标视频中的任意相邻的两帧视频帧的原始序号及所述相邻的两帧视频帧之间的目标数量的目标中间帧中的每一帧所述目标中间帧的生成顺序，确定每一帧所述目标中间帧的插入序号。

例如，生成目标视频中相邻的两帧视频帧A1和视频帧A2之间的两帧目标中间帧分别为Y1和Y11，那么第一帧目标中间帧Y1的插入序号需要由该相邻的两帧视频帧A1的原始序号：A1和视频帧A2的原始序号：A2及该第一帧目标中间帧Y1为该相邻的两帧视频帧A1和视频帧A2之间的目标数量(两帧)的目标中间帧中的第一帧目标中间帧Y1的生成顺序(比如，第一帧)，来确定第一帧目标中间帧的插入序号为Y1，用于指示在目标视频中的第一个相邻两帧视频帧之间插入第一帧目标中间帧，接着，第二帧目标中间帧Y11的插入序号需要由该相邻的两帧视频帧A1的原始序号：A1和视频帧A2的原始序号：A2及该第二帧目标中间帧Y11为该相邻的两帧视频帧A1和视频帧A2之间的目标数量(两帧)的目标中间帧中的第二帧目标中间帧Y11的生成顺序(比如，第二帧)，来确定第一帧目标中间帧的插入序号为Y11，用于指示在目标视频中的第一个相邻两帧视频帧之间插入第二帧目标中间帧(即在第一帧目标中间帧后接着插入一第二帧目标中间帧)，依此类推，以实现对目标视频中的任意相邻两帧视频帧之间的每一帧目标中间帧的插入序号的确定，确保了每一帧目标中间帧的插入序号的唯一性，使得能够精确有效地将每一帧目标中间帧对应的插入至对应的相邻两帧视频帧之间的对应位置，以达到每一相邻的两帧视频帧之间的目标视频的目标中间帧中的每一帧目标中间帧的精确插入的目标视频中目的。

接着本申请的上述实施例，所述终端在执行步骤S11确定目标帧率并获取所述目标帧率对应的综合预测模型，具体包括：

终端响应于用户对视频处理帧率的选择，确定目标帧率并获取所述目标帧率对应的综合预测模型。

例如，若用户需要对待处理的目标视频进行呈现时的呈现帧率为三倍帧率，则所述终端在响应于用户对视频处理帧率的选择，确定该目标帧率为三倍帧率，同时，获取所述三倍帧率对应的综合预测模型Model(3)，以便后续基于该三倍帧率对应的综合预测模型Model(3)生成待处理的目标视频中的任意相邻的两帧视频帧之间的两帧目标中间帧；若用户需要对待处理的目标视频进行呈现时的呈现帧率为四倍帧率，则所述终端在响应于用户对视频处理帧率的选择，确定该目标帧率为四倍帧率，同时，获取所述四倍帧率对应的综合预测模型Model(4)，以便后续基于该四倍帧率对应的综合预测模型Model(4)生成待处理的目标视频中的任意相邻的两帧视频帧之间的三帧目标中间帧；再比如，若用户需要对待处理的目标视频进行呈现时的呈现帧率为W倍帧率，则所述终端在响应于用户对视频处理帧率的选择，确定该目标帧率为W倍帧率，同时，获取所述W倍帧率对应的综合预测模型Model(W)，以便后续基于该三倍帧率对应的综合预测模型Model(W)生成待处理的目标视频中的任意相邻的两帧视频帧之间的(W-1)帧目标中间帧，以满足用户对不同目标帧率下的目标视频中的任意相邻两帧视频帧之间的目标中间帧的生成的需求。

本申请又一实施例提供的一种视频处理方法中，所述获取待处理的目标视频，包括：

获取所述目标视频以及所述目标视频的原始播放帧率；

其中，所述方法还包括：

将所述合成视频按照所述目标视频的原始播放帧率进行匀速视频播放。

例如，所述终端在生成目标视频中的任意相邻两帧视频帧之间的目标数量对应的目标中间帧后，所述终端根据目标视频中的每一帧视频帧的原始序号和生成的每一帧目标中间帧的插入序号，将所有的视频帧和生成的所有的目标中间帧，按照进行按序合成，以得到所述目标视频对应的合成视频后；该终端可以按照所述目标视频的原始播放帧率对合成的该目标视频对应的合成视频进行匀速视频播放，即终端在播放插入了目标中间帧的合成视频时，仍然按照该目标视频的原始播放帧率进行匀速视频播放，使得目标视频对应的合成视频在播放时具有目标视频的原始播放速度的一半的速度且以一样流畅速度进行视频播放，实现对目标视频对应的合成视频的慢动作播放，给用户以目标视频进行慢动作播放的视觉效果。

获取所述目标视频以及所述目标视频的原始播放帧率；

其中，所述方法还包括：响应于用户对视频播放帧率的选择确定所述目标视频对应的合成视频的播放倍数，并基于所述播放倍数和所述原始播放帧率，确定所述目标视频对应的合成视频的修正播放帧率；

将所述合成视频按照所述合成视频的修正播放帧率进行匀速视频播放。

在此，响应于用户对视频播放帧率的选择确定的所述目标视频对应的合成视频的播放倍数n，该播放倍数n大于0，可以为整数，比如1倍、2倍、3倍或甚至是更多的倍数，也可以不为整数，以实现对合成视频进行不同帧率的播放，给用户不同的动图视觉效果。即，该合成视频的修正播放帧率可以是该目标视频的原始播放帧率的两倍、三倍甚至是更多倍。

例如，为了在接收目标视频的终端呈现该目标视频的清晰度和连贯性的实际应用场景中，所述终端在获取待处理的目标视频的同时，还获取该目标视频的原始播放帧率，在此，帧率用于指示以帧称为单位的位图图像连续出现在显示器上的频率(速率)，该目标视频的原始播放帧率用于指示终端在接收到该目标视频且未对该目标视频进行中间帧插入时，该目标视频原有的播放帧率；接着，所述终端在生成该目标视频任意相邻的两帧视频帧之间的一帧目标视频帧及其插入序号后，所述终端根据目标视频中的每一帧视频帧的原始序号和生成的每一帧目标中间帧的插入序号，将目标视频中的所有的视频帧和生成的所有的目标中间帧按序合成，得到该目标视频对应的合成视频后，终端设备可以将该目标视频对应的合成视频按照该目标视频的原始播放帧率的两倍进行匀速视频播放，使得目标视频对应的合成视频在播放时具有一样的播放速度且以双倍流畅速度进行视频展示，不仅实现了对目标视频进行按帧插入，还提供了目标视频在播放时的清晰度、连贯性和流畅性，进一步提升用户的高清且流畅的视觉体验。

再例如，在终端将接收的目标视频通过插入中间帧的方式得到对应的合成视频后，终端也可以按照所述目标视频的原始播放帧率的0.5倍对该目标视频对应的合成视频进行匀速视频播放，即终端在播放插入了中间帧的合成视频时，仍然按照该目标视频的帧率进行匀速视频播放，使得目标视频对应的合成视频在播放时具有目标视频的播放速度的四分之一的速度进行视频播放，实现对目标视频对应的合成视频的超慢动作播放，给用户以目标视频进行超慢动作播放的视觉效果，以便用户更进一步了解视频中的每一个慢动作对应的视频帧，可应用于对视频进行按帧追溯的场景中。

又例如，在终端将接收的目标视频通过插入中间帧的方式得到对应的合成视频后，终端也可以按照所述目标视频的原始播放帧率的3倍甚至是更多倍对该目标视频对应的合成视频进行匀速动图播放，即终端在播放插入了中间帧的合成视频时，可以按照该目标视频的帧率的3倍甚至是更多倍进行匀速视频播放，使得目标视频对应的合成视频在播放时具有目标视频的一样的播放速度进行视频播放，但该目标视频对应的合成视频播放时的流畅度和清晰度更高，给用户以高清且流畅的视频视觉体验。

本申请又一实施例提供的一种视频处理方法还包括：所述终端将所述目标视频对应的合成视频进行本地缓存。例如，所述终端在播放所述目标视频中的当前段目标视频对应的当前段合成视频时，所述终端可以马上载入该当前段目标视频对应的下一段目标视频进行对应的下一段合成视频的生成，若该当前段目标视频对应的下一段目标视频已经生成好对应的下一段合成视频时，所述终端还未将当前段目标视频对应的当前段合成视频播放完成，则所述终端可以将该当前段目标视频对应的下一段目标视频进行对应的下一段合成视频进行本地缓存，以便后续在所述终端播放完所述当前段目标视频对应的当前段合成视频后，继续播放本地缓存的下一段合成视频，实现对目标视频对应的合成视频的流畅播放，从而提高用户观看体验。

在实际应用场景中，如图2所示，若训练视频可以为动图图片或视频，且实际用于处理的动态图形也为目标视频，为了便于对目标视频进行精确有效地插入中间帧，若终端获取的目标视频为固定时长的目标视频，则所述终端需要先根据历史的至少一段视频作为训练视频，来训练用于生成待处理的动图图形或一段视频中的任意相邻的两帧视频帧之间的第一预设数量的中间帧的综合预测模型Model。在开始进行综合预测模型Model的模型训练时，步骤S21收集至少一段视频，并将每一段视频按顺序进行按帧分解，得到每一段视频对应的至少一帧训练视频帧(即对应为一张图片)及其帧序号；在本申请一优选的实际应用场景中，若需要训练的综合预测模型为两倍帧率(预设帧率)对应的综合预测模型Model(2)，则步骤S22，将所有视频中的每3帧连续顺序的训练视频帧组成一个训练样本，在此，每个训练样本中的3帧连续的训练视频帧均属于同一视频；步骤S23，将所有训练样本输入神经网络进行训练，得到用于生成待处理的视频中的任意相邻两帧视频帧之间的中间帧的光流值预测模型NNf；步骤S24，将所有训练样本中每一所述相邻的两帧视频帧之间的中间帧分别与前后帧视频帧之间的光流值来训练得到用于生成待处理的视频中的任意相邻的两帧视频帧之间的中间帧的中间帧预测模型NNm；步骤S25，将所述中间帧的光流值预测模型NNf与所述中间帧预测模型NNm进行先后串联，得到用于生成待处理的视频中的任意相邻的两帧视频帧之间的中间帧的综合预测模型Model(2)，即两倍帧率对应的综合预测模型，实现对两倍帧率对应的所述综合预测模型Model(2)的训练和确定，以便后续基于该综合预测模型Model实现对任意待处理的视频的任意相邻的两帧视频帧之间的中间帧的预测；步骤S26，依照上述步骤S21步骤S25中训练两倍帧率对应的综合预测模型Model(2)的训练方法，分别训练三倍帧率对应的综合预测模型Model(3)、四倍帧率对应的综合预测模型Model(4)、……、及W倍帧率对应的综合预测模型Model(W)，以实现对不同预设帧率对应的综合预测模型的训练和确定。

如图3所示，在实际应用场景中，利用通过图2训练得到的综合预测模型Model来对实际需要进行处理的目标视频进行如图3中所示的视频处理，步骤S31，开始生成一高帧率目标视频的流程；步骤S32，将不同预设帧率对应的综合预测模型嵌入至用户客户端(即用户对应的终端)中，以便后续根据用户选择的目标帧率调用要该目标帧率对应的综合预测模型进行中间帧的生成；步骤S33，用户从预置的不同预设帧率中选择对待处理的目标视频进行播放的目标帧率，以便终端获取目标帧率并调用该目标帧率对应的综合预测模型；步骤S34，用户对应的终端接收或获取到一段具有固定时长的目标视频作为待处理的目标视频，并将所述目标视频按帧切割成按顺序独立的目标视频帧并确定每一帧所述目标视频帧的原始序号；步骤S35，所述终端将所述目标视频中的每一帧目标视频帧按顺序输入所述目标帧率对应的综合预测模型中；步骤S36，所述终端按照用户选择的目标帧率对应的综合预测模型，生成所述目标视频中的任意相邻的两帧目标视频帧之间的目标数量的目标中间帧，并确定每一帧所述目标中间帧的插入序号，在此，所述目标数量由用户选择的目标帧率确定；步骤S37，客户端(即终端)基于每一帧目标视频帧的原始序号和每一帧目标中间帧的插入序号，将所有目标视频帧和所有的目标数量的目标中间帧按照所述目标帧率进行按序合成，得到所述目标视频对应的合成视频并进行播放；步骤S38，判断目标视频对应的合成视频是否播放完成，若播放完成，则结束对目标视频进行视频处理，若为播放完成，则重复步骤S34至步骤S37直至将目标视频全部合成完毕并进行播放，以达到对目标视频进行的图像处理的目的，实现对目标是进行增加中间帧的方式，提升目标视频在客户端进行显示的过程中的播放连贯性，以提高用户查看处理后的合成视频的用户体验度。

图4示出根据本申请的另一个方面提供的一种终端的结构示意图，该终端包括确定装置11、获取装置12、生成装置13及合成装置14，其中，

获取装置11，用于获取待处理的目标视频，并确定所述目标视频中的每一帧视频帧的原始序号；

确定装置12，用于确定所述目标视频对应的目标帧率，并获取所述目标帧率对应的综合预测模型；

生成装置13，用于基于所述目标帧率对应的综合预测模型，分别生成所述目标视频中的任意相邻的两帧所述视频帧之间的目标数量的目标中间帧，并确定每一帧所述目标中间帧的插入序号；其中，所述目标数量基于所述目标帧率确定；

合成装置14，用于基于所述原始序号和所述插入序号，将所有所述视频帧和所有所述目标中间帧进行按序合成，得到所述目标视频对应的合成视频。

通过上述终端端的获取装置11、确定装置12、生成装置13及合成装置14，实现对目标视频进行增加中间帧的方式，提升目标视频的连贯性，以提升目标视频的帧率，使得通过增加中间帧的目标视频成为高帧率的合成视频，从而提高用户观看该高帧率的合成视频的用户体验度。

需要说明的是，所述获取装置11、确定装置12、生成装置13及合成装置14执行的内容分别与上述步骤S11、S12、S13及S14中的内容相同或相应相同，为简明起见，在此不再赘述。

根据本申请的另一面，还提供一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如上述终端端的视频处理方法。

根据本申请的另一面，还提供一种终端，其特征在于，该终端包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述终端端的视频处理方法。

在此，所述终端的各实施例的详细内容，具体可参见上述终端端的视频处理方法实施例的对应部分，在此，不再赘述。

综上所述，本申请在处理视频的实际应用场景中，通过所述终端获取待处理的目标视频，并确定所述目标视频中的每一帧视频帧的原始序号；接着，为了便于对该目标视频进行中间帧的插入，确定所述目标视频对应的目标帧率，并获取所述目标帧率对应的综合预测模型；所述终端基于所述目标帧率对应的综合预测模型，分别生成所述目标视频中的任意相邻的两帧所述视频帧之间的目标数量的目标中间帧，并确定每一帧所述目标中间帧的插入序号；其中，所述目标数量基于所述目标帧率确定；所述终端基于所述原始序号和所述插入序号，将所有所述视频帧和所有所述目标中间帧按照所述目标帧率进行按序合成，得到所述目标视频对应的合成视频，实现对目标视频进行增加中间帧的方式，提升目标视频的连贯性，以提升目标视频的帧率，使得通过增加中间帧的目标视频成为高帧率的合成视频，从而提高用户观看该高帧率的合成视频的用户体验度。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种视频处理方法，应用于终端，其特征在于，所述方法包括：

获取待处理的目标视频，并确定所述目标视频中的每一帧视频帧的原始序号；

确定所述目标视频对应的目标帧率，并获取所述目标帧率对应的综合预测模型；

基于所述目标帧率对应的综合预测模型，分别生成所述目标视频中的任意相邻的两帧所述视频帧之间的目标数量的目标中间帧，并确定每一帧所述目标中间帧的插入序号；其中，所述目标数量基于所述目标帧率确定；

基于所述原始序号和所述插入序号，将所有所述视频帧和所有所述目标中间帧进行按序合成，得到所述目标视频对应的合成视频。

2.根据权利要求1所述的方法，其特征在于，获取所述目标帧率对应的综合预测模型之前，所述方法还包括：

确定不同预设帧率对应的综合预测模型，其中，所述综合预测模型用于生成待处理视频中任意相邻的两帧视频帧之间的第一预设数量的中间帧，所述第一预设数量基于所述预设帧率确定。

3.根据权利要求2所述的方法，其特征在于，所述确定不同预设帧率对应的综合预测模型，其中，所述综合预测模型用于生成待处理视频中任意相邻的两帧视频帧之间的第一预设数量的中间帧，所述第一预设数量基于所述预设帧率确定，包括：

获取至少一个训练视频，将每一个所述训练视频按帧进行分解，得到每一个所述训练视频对应的训练帧及其帧序号；

将所有所述训练视频中的每一连续的所述第二预设数量的训练帧作为一个训练样本，得到训练样本集，并确定所述训练样本集中的每个所述训练样本中的每一帧所述训练帧的帧序号；其中，所述训练样本中的所述第二预设数量的所述训练帧属于同一个训练视频；

对所述训练样本集中的所有所述训练样本进行神经网络学习并拟合，得到用于生成待处理视频中的任意相邻的两帧视频帧之间的所述第一预设数量的中间帧的综合预测模型；

根据不同的预设帧率，重复上述步骤，直至得到不同预设帧率对应的综合预测模型。

4.根据权利要求3所述的方法，其特征在于，所述对所述训练样本集中的所有所述训练样本进行神经网络学习并拟合，得到用于生成待处理视频中的任意相邻的两帧视频帧之间的所述第一预设数量的中间帧的综合预测模型，包括：

对于所述训练样本集中的训练样本，计算该训练样本中的连续的第二预设数量的训练帧中的第一帧训练帧分别与所述第二预设数量的训练帧中除所述第一帧训练帧和所述最后一帧训练帧外的训练中间帧中的每一帧所述训练中间帧之间的第一光流值，以及该训练样本中的连续的第二预设数量的训练帧中的最后一帧训练帧分别与所述第二预设数量的训练帧中除所述第一帧训练帧和所述最后一帧训练帧外的训练中间帧中的每一帧所述训练中间帧之间的第二光流值，得到每一帧所述训练中间帧分别与所述第一帧训练帧和所述最后一帧训练帧之间的第一光流值和第二光流值；

对所述训练样本集中的所有所述训练样本进行上述步骤，得到所有所述训练样本中的每一帧所述训练中间帧分别与所述第一帧训练帧和所述最后一帧训练帧之间的第一光流值和第二光流值；

对所有所述训练样本中的每一帧所述训练中间帧分别与所述第一帧训练帧和所述最后一帧训练帧之间的第一光流值和第二光流值进行神经网络学习并拟合，得到用于生成待处理视频中的任意相邻的两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的光流值预测模型；

对所有所述训练样本中的每一帧所述训练中间帧及其分别与所述第一帧训练帧和所述最后一帧训练帧之间的第一光流值和第二光流值进行神经网络学习并拟合，得到用于生成待处理视频中的任意相邻的两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的中间帧预测模型；

将所述中间帧的光流值预测模型与对应的所述中间帧预测模型进行先后串联，得到用于生成待处理视频中的任意相邻的两帧视频帧之间的第一预设数量的中间帧中的每一帧中间帧的综合预测模型。

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标帧率对应的综合预测模型，分别生成所述目标视频中的任意相邻的两帧所述视频帧之间的目标数量的目标中间帧，并确定每一帧所述目标中间帧的插入序号；其中，所述目标数量基于所述目标帧率确定，包括：

基于所述目标帧率对应的综合预测模型中的每一帧中间帧的光流值预测模型，分别对应计算所述目标视频中的任意相邻的两帧所述视频帧之间的目标数量的目标中间帧中的每一帧所述目标中间帧的目标光流值，所述目标中间帧的目标光流值包括所述目标中间帧与所述相邻的两帧视频帧中的第一帧视频帧之间的第一目标光流值和所述目标中间帧与所述相邻的两帧图像中的最后一帧视频帧之间的第二目标光流值；

分别将所述目标视频中的任意相邻的两帧视频帧及其之间的目标数量的目标中间帧中的每一帧所述目标中间帧的目标光流值，输入所述目标帧率对应的综合预测模型中的、与所述目标中间帧对应的中间帧预测模型以生成所述目标中间帧并确定所述目标中间帧的插入序号，以得到所述目标视频中的任意相邻的两帧视频帧之间的目标数量的目标中间帧中的每一帧所述目标中间帧及其插入序号。

6.根据权利要求5所述的方法，其特征在于，所述确定每一帧所述目标中间帧的插入序号，包括：

分别根据所述目标视频中的任意相邻的两帧视频帧的原始序号及所述相邻的两帧视频帧之间的目标数量的目标中间帧中的每一帧所述目标中间帧的生成顺序，确定每一帧所述目标中间帧的插入序号。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述确定所述目标视频对应的目标帧率并获取所述目标帧率对应的综合预测模型，包括：

响应于用户对视频处理帧率的选择，确定所述目标帧率并获取所述目标帧率对应的综合预测模型。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述获取待处理的目标视频，包括：

获取所述目标视频以及所述目标视频的原始播放帧率；

其中，所述方法还包括：

9.根据权利要求1至7中任一项所述的方法，其特征在于，所述获取待处理的目标视频，包括：

获取所述目标视频以及所述目标视频的原始播放帧率；

10.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

将所述目标视频对应的合成视频进行本地缓存。

11.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如权利要求1至10中任一项所述的方法。

12.一种终端，其特征在于，所述终端包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至10中任一项所述的方法。