CN112565653B

CN112565653B - 一种视频插帧方法、系统、电子设备及存储介质

Info

Publication number: CN112565653B
Application number: CN202011387839.7A
Authority: CN
Inventors: 韩笑尘
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2023-04-07
Anticipated expiration: 2040-12-01
Also published as: CN112565653A

Abstract

本发明实施例提供一种视频插帧方法、系统、电子设备及存储介质，其先按照视频流顺序，提取每个图片帧的光流特征与姿态特征；提取的光流特征将判断前后两帧之间的逻辑，连接到最终的连结层；同时，提取的光流特征与姿态特征将进行双向信息融合，根据时序变化预测出合成信息流，此外，还会根据前后两帧的图片内容，融合得出相应的内容预测与特征预测；最后，上述模型接入最终连结层，得到输出的中间帧作为插帧图片帧；采用多个分类器和多个训练参数得到多模型，将图片输入不同模型进行计算、判别、预测，最后再融合到一起，形成最终的插帧图像，大幅改善视频插帧中出现问题帧的情况。

Description

一种视频插帧方法、系统、电子设备及存储介质

技术领域

本申请实施例涉及视频处理技术领域，特别涉及一种视频插帧方法、系统、电子设备及存储介质。

背景技术

视频的帧率(Frame rate)是指是以帧称为单位的位图图像连续出现在显示器上的频率，常见的视频帧率有24帧、30帧与60帧。其中，电影和早期的影视作品，由于受到设备的限制，往往帧数都比较低。游戏作品与动漫作品因为由计算机生成，帧率可以达到60帧甚至以上。高帧率的视频直接提升画面的流畅程度，给观众更接近真实的感受；帧率过低则会造成视频不流畅、有卡顿感。

视频插帧是有实际意义和商业价值的。影视领域有许多经典老片，其商业价值是不言而喻的。但受限于拍摄年限，其分辨率和帧率远远落后于现代设备拍摄的作品。这些从前的作品要想重新搬上荧幕，必要的视频修复和增强是必须的。插帧就是老视频修复中的一步。此外，插帧还可以用在动漫创作领域。当前画师在将关键的帧做完后，将关键帧复制2-3份，使其填满30帧，如图1中所示。然而用户的实际观感就会有卡顿的感觉。如果由机器对其补足，可以大大减少劳动力，并显著提升帧率。因此，在老片修复、动画补帧、视频超高清领域，如何能自动化地对原片进行插帧处理，来提升效果和释放劳动力，成为了视频处理领域的一个重要研究方向。

现有技术中的视频插帧技术主要包括电视插帧、家用机显卡插帧和光流法插帧三种，其中电视插帧技术较为成熟，其在家用电视机上比较常见，其优点是能够使插帧后的视频实时显示，但缺点也较为明显，仅限动态场景，在细节方面存在不足，仅增强显示效果，不修改片源，且不同电视机的显示效果也有差异；家用机显卡插帧技术，则由AMD显卡提供服务，可对片源本身进行修改，速度较电视插帧快，但是其插帧效果与电视插帧类似，也存在局限性；光流法插帧技术的插帧效果明显，任意两帧图片都可做插帧处理，但是其缺点是计算慢，无法处理遮挡镜头，显示时容易出现画面撕裂，以及果冻效应。

目前主流的插帧方法中，光流法插帧作为主要手段被广泛采用。NVidia推出的NGXSDK与新版Adobe Premiere Pro中都提供了基于光流法的插帧功能。后者被广泛应用到UGC(User Generated Content，用户原创内容)领域作为视频超高清手段，其将深度学习与传统光流法结合，在一定程度上弥补到了传统光流法的缺点，达到视频插帧的目的，具有泛用性，只需要给出前后两帧图片即可补出中间帧，从而在绝大部分场景都适用切有良好效果。然而，该光流算法也有其局限性，其在计算时仅考虑前后两帧信息，因此，在实际处理插帧任务时，若出现遮挡与不连贯镜头时，光流算法无法准确计算出前后两帧的相关性，导致像素点无法对齐，如图2(a)和图2(b)中所示，最终会导致插帧后视频显示时出现画面撕裂、频闪、鬼影等现象。

发明内容

本申请实施例的主要目的在于提出一种视频插帧方法、系统、电子设备及存储介质，解决了现有技术中若出现遮挡与不连贯镜头时，光流算法无法准确计算出前后两帧的相关性，导致像素点无法对齐，最终会导致插帧后视频显示时出现画面撕裂、频闪、鬼影等现象的问题。

第一方面，本发明实施例提供一种视频插帧方法，包括：

按顺序提取视频流中每个图片帧的姿态特征和光流特征；

将前后图片帧的所述光流特征判断前后图片帧之间的逻辑关系；

将前后图片帧的所述光流特征和所述姿态特征按照前向和后向两个方向进行信息融合，得到合成信息流；

对前后图片帧进行融合得到相应的内容预测项和特征预测项；

基于前后图片帧的逻辑关系、所述合成信息流、所述内容预测项和所述特征预测项进行帧合成，得到插帧图片帧。

可选地，所述根据前后图片帧的所述光流特征的对应关系判断前后图片帧之间的逻辑关系，具体包括：

前后图片帧的所述光流特征输入至训练好的光流判别器中，基于所述光流判别器判断前后图片帧之间的逻辑关系，其中，所述光流判别器是由转场图片帧和转场图片帧的前图片帧的光流特征为样本训练得到的。

可选地，根据前后图片帧的所述光流特征的对应关系判断前后图片帧之间的逻辑关系前，还包括：

提取训练视频流中的转场图片帧；其中，所述视频流中的转场图片帧与非转场图片帧的比例大于预设比例阈值；

将所述转场图片帧和转场图片帧的前图片帧的光流特征作为样本，构建训练集；

基于ResNet和分类器构建训练网络模型，并进行深度学习，得到用于判断前后图片帧之间逻辑关系的光流判别器。

可选地，所述提取训练视频流中的转场图片帧，还包括：

提取训练视频流中的转场图片帧；其中，所述训练视频流中的转场图片帧与非转场图片帧的比例大于预设比例阈值；

可选地，所述提取训练视频流中的转场图片帧，具体包括：

对训练视频流进行切片处理，得到视频帧序列；

基于视频帧序列中的图片内容计算每前后两个图片帧的结构相似度SSIM；

若判断获知任一前后两个图片帧的SSIM小于预设结构相似度阈值，则将该前后两个图片帧中的后图片帧标记为转场图片帧。

可选地，所述将前后图片帧的所述光流特征和所述姿态特征按照前向和后向两个方向进行信息融合，具体包括：

将前后多个图片帧进行组合，组成一个图片帧序列；

将所述图片帧序列输入至已训练好的BiLSTM模型，基于所述BiLSTM模型将前后图片帧的所述光流特征和所述姿态特征按照前向和后向两个方向进行信息融合。

可选地，将所述图片帧序列输入至已训练好的BiLSTM模型前，还包括：

将图片帧进行组合，每连续多个图片帧组成一个图片帧序列，除去含有转场图片帧的图片帧序列；

提取所述图片帧序列中不在首尾的任意连续三个图片帧，将该三个图片帧的光流特征和姿态特征按照前向和后向两个方向分别输入至BiLSTM模型的前向LSTM和后向LSTM中进行训练，得到用于对前向和后向两个方向进行信息融合的BiLSTM模型。

可选地，对前后图片帧的逻辑关系、所述合成信息流、所述内容预测项和所述特征预测项进行帧合成，具体包括：

构建帧合成网络；

以前后图片帧的逻辑关系、所述合成信息流、所述内容预测项和所述特征预测项作为帧合成网络的输入，并设定损失函数，进行深度学习，得到训练好的帧合成网络；

基于训练好的帧合成网络进行帧合成。

第二方面，本发明实施例提供了一种视频插帧系统，包括：

图片帧提取模块，按顺序提取视频流中每个图片帧的姿态特征和光流特征；

逻辑关系判别模块，将前后图片帧的所述光流特征输入至已训练好的光流判别器，基于所述光流判别器判断前后图片帧之间的逻辑关系；

合成信息流融合模块，将前后图片帧的所述光流特征和所述姿态特征按照前向和后向两个方向进行信息融合，得到合成信息流；

内容和特征预测模块，对前后图片帧进行融合得到相应的内容预测项和特征预测项；

帧合成网络，基于前后图片帧的逻辑关系、所述合成信息流、所述内容预测项和所述特征预测项帧合成，得到插帧图片帧。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明第一方面实施例所述视频插帧方法的步骤。

第四方面，本发明实施例提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述视频插帧方法的步骤。

本发明实施例提供的一种视频插帧方法、系统、电子设备及存储介质，先按照视频流顺序，提取每个图片帧的光流特征与姿态特征；提取的光流特征将通过光流判别器，判断前后两帧之间的逻辑，连接到最终的连结层；同时，提取的光流特征与姿态特征将输入双向融合，根据时序变化预测出合成信息流，此外，还会根据前后两帧的图片内容，融合得出相应的内容预测与特征预测；最后，上述模型接入最终连结层，得到进行帧合成，输出的中间帧作为插帧图片帧。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据现有技术中自动插帧代替简单复制的插帧示意图；

图2(a)为帧率过低造成的画面不流畅的显示原画；

图2(b)为根据现有技术的光流法插帧后的显示图；

图3为根据本发明实施例的视频插帧方法流程框图；

图4为根据本发明实施例的视频插帧方法流程示意图；

图5为根据本发明实施例的Hourglass architecture模型结构示意图；

图6为根据本发明实施例的BiLSTM模型单次训练过程示意图；

图7为根据本发明实施例的芭蕾人物旋转的前帧与后帧示意图；

图8为根据本发明实施例的方法插帧与Super-Slomo插帧对比图；

图9为根据本发明又一种实施例的视频插帧系统结构框图；

图10为根据本发明又一种实施例的服务器示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本申请的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本申请实施例中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列部件或单元的系统、产品或设备没有限定于已列出的部件或单元，而是可选地还包括没有列出的部件或单元，或可选地还包括对于这些产品或设备固有的其它部件或单元。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

随着机器学习和深度学习在计算机视觉领域的大力发展，目前已经有将深度学习与传统光流法结合，达到视频插帧的目的。其中最著名的就是Nvidia提供的Super-Slomo技术，可以通过计算前后两帧的双向光流，补充中间帧的细节。另外，最近兴起的DAIN插帧模型，在插帧细节方面也有着优异的表现。

然而现有的结合深度学习的插帧模型，虽然都在一定程度上弥补到了传统光流法的缺点，对细节处理做了优化。但是它们都基于传统光流算法，在计算时仅考虑前后两帧信息，对于两帧之间的逻辑关系没有做判断，对于两帧之外的视频流信息也没有更多的参考。因此，在实际处理插帧任务时，这些方法会出现画面“撕裂、频闪、鬼影”等现象。

因此，本发明实施例提供一种视频插帧方法、系统、电子设备及存储介质，先按照视频流顺序，提取每帧的光流特征与姿态特征。提取的光流特征将通过光流判别器，判断前后两帧之间的逻辑，连接到最终的连结层；同时，提取的光流特征与姿态特征将输入双向LSTM网络，根据时序变化预测出融合信息流，此外，还会根据前后两帧的图片内容，融合得出相应的内容预测与特征预测；最后，上述模型接入最终连结层，得到输出的中间帧；采用多个分类器和多个训练参数得到多模型，最终多模型融合，大幅改善视频插帧中出现问题帧的情况。以下将通过多个实施例进行展开说明和介绍。

图3和图4为根据本发明实施例提供的一种视频插帧方法，包括：

S1、按顺序提取视频流中每个图片帧的姿态特征和光流特征；

S2、将前后图片帧的所述光流特征判断前后图片帧之间的逻辑关系；

S3、将前后图片帧的所述光流特征和所述姿态特征按照前向和后向两个方向进行信息融合，以得到合成信息流；

S4、对前后图片帧进行融合得到相应的内容预测项和特征预测项；

S5、基于前后图片帧的逻辑关系、所述合成信息流、所述内容预测项和所述特征预测项进行帧合成，得到插帧图片帧。

具体地，在本实施例中，光流表达了图像的变化，由于它包含了目标运动的信息，因此可被用来确定目标的运动情况。

光流(optical flow)法是运动图像分析的重要方法，是指时变图像中模式运动速度。因为当物体在运动时，它在图像上对应点的亮度模式也在运动。这种图像亮度模式的表观运动(apparent motion)就是光流。光流特征中包含了视频帧图像中的物体实例(如天空、树木、车辆等)在关键帧图像和非关键帧图像之间的相对位移，也即对应关系，同时这种对应关系同样表现在两视频帧图像的高层语义特征图之间。可以通过该光流特征和关键帧图像的高层语义特征图获得判定为非关键帧图像的当前视频帧图像的高层语义特征图。本实施例中，通过预先训练好光流判别器，能够根据前后图片帧的光流特征迅速判断得到前后图片帧的逻辑关系，因此，在插帧预测是能够保证像素点插帧图片帧与前后图片帧的像素点对齐，避免插帧后出现画面撕裂。

姿态特征能够体现图片帧的局部细节及相对位置的信息，如手、脸的局部信息，以及他们的相对位置关系，因此本实施例中也引入姿态特征作为参考特征之一。

提取姿态特征与光流特征后，就需要分别对中间帧进行预测。现有技术中的方法都是输入图像前后帧进行计算，但是这些方法没有考虑到图像帧的前后顺序，缺乏参考视频流中的信息。在本实施例中，考虑到了图像帧的前后顺序，对前后图像帧通过前向和后向两个方向进行融合，实现了前后图片帧和预测的插帧图片帧之间的双向连接，有助于前后图片帧的语义信息的融合，使用双向信息融合可以更好的捕捉到较长距离的依赖关系。

此外，本实施例还会根据前后两帧的图像内容，融合得出相应的内容预测项与特征预测项。

最后，基于上述步骤中提取的信息，将上述前后图片帧的逻辑关系、所述合成信息流、所述内容预测项和所述特征预测项进行帧合成，输出得到中间帧，即插帧图片帧，该插帧图片帧融合了前后图片帧的逻辑关系，避免插帧后出现画面撕裂融合了前后图片帧两个方向的融合信息流，消除了画面“撕裂、频闪、鬼影”等现象。

在上述实施例的基础上，作为一种优选的实施方式，按顺序提取视频流中每个图片帧的姿态特征和光流特征，如图4中所示，具体包括：

基于训练好的Hourglass architecture模型提取视频流中每个图片帧的姿态特征，即图中的深感序列；基于训练好的PWC-Net网络提取视频流中每个图片帧光流特征，即图中的光流序列。

具体地，在姿态特征提取时，本实施例采用的是hourglass architecture模型(如图5中所示)。该hourglass architecture模型能将图片下采样到一个很小的分辨率，再上采样，并将统一尺寸的特征结合起来。经过模型的姿态特征提取，图片帧的局部细节及相对位置的信息将被保留(例如手、脸的局部信息，以及他们相对应的位置关系)。Hourglassarchitecture能够捕捉全部的特征信息并做出像素级别的预测，从而对遮挡以及变形场景有较好的鲁棒性。因此，本实施例在本模型中选择引入姿态特征来作为参考特征之一。

在光流特征提取时，本实施例采用的是PWC-Net网络。PWC-Net是一种紧凑而有效的光流估计CNN模型，其计算性能优异，且在多个数据集表现良好。

在本实施例中，上述hourglass architecture模型和PWC-Net网络都是预先训练好的。也可以选用官方预训练好的，其通用、鲁棒性强，预训练质量高，往往在通用场景下下达到接近最优解，所以选择官方预训练模型也可。

在上述各实施例的基础上，所述根据前后图片帧的所述光流特征的对应关系判断前后图片帧之间的逻辑关系，具体包括：

在上述各实施例的基础上，作为一种优选的实施方式，根据前后图片帧的所述光流特征的对应关系判断前后图片帧之间的逻辑关系前，还包括：

提取视频流中的转场图片帧；其中，所述训练视频流中的转场图片帧与非转场图片帧的比例大于预设比例阈值；

具体地，在本实施例中，需要预先训练一个光流判别器，用于判断前后两帧之间的逻辑关系。

光流判别器本实施例采用ResNet+分类器的网络结构，通过上述各实施例的步骤标注的光流/姿态特征作为训练集，最后将判别结果输出到自适应变形层与连结层。

本实施例先按照视频流顺序，提取每帧图片帧的光流特征和姿态特征，以及转场图片帧，提取的光流特征可以用来训练光流判别器；用于判断前后两帧之间的逻辑关系。由于采用的是转场图片帧与非转场图片帧的光流特征作为样本，因此，即使是非转场镜头，如果前后图片帧光流值差异过大以至于不适合做插帧处理的场合，深度学习模型也可以一定程度识别并作出判断。

训练集选择通过上述各实施例标注后的转场图片帧与其前图片帧的光流/姿态特征。通过上述各实施例中的方法标注的转场图片帧与非转场图片帧的比例大约在1：1000，严重失衡，需做样本均衡到1:1，即本实施例中预设比例阈值为1:1。在挑选训练视频时可以选择短视频，因为短视频中剪辑痕迹较多，转场镜头也多，适合作为样本，可以通过剪辑痕迹和或转场镜头和总帧数来选择训练视频流。

由于样本采用的是光流特征值，模型训练基于前后光流特征值。因此，即使是非转场镜头，如果前后帧光流值差异过大以至于不适合做插帧处理的场合，深度学习模型也可以一定程度识别并作出判断。

在本实施例中，经过1e⁶次训练后，通过验证集的检验准确率可以达到98％以上。

在上述各实施例的基础上，作为一种优选的实施方式，提取视频流中的转场图片帧，具体包括：

对视频流进行切片处理，得到视频帧序列；

具体地，在本实施例中，先要将视频切片成图像帧。然后要找出其中的转场图片帧。本实施例中使用Tensorflow中的image.ssim方法，基于图片内容计算前后帧的结构相似度。该方法可以准确找出前后差异过大的转场帧。SSIM表达式为：

x，y分别表示图像帧；μ_x，μ_y为图像块所有像素；δ_x,δ_y为图像像素值的标准差；δ_xy为x与y的协方差。本实施例将SSIM阈值设定为0.1，将比对结果小于阈值的后帧标记为转场帧。经测试，该方法准确率达到97％以上。

在上述各实施例的基础上，作为一种优选的实施方式，将前后图片帧的所述光流特征和所述姿态特征按照前向和后向两个方向进行信息融合，具体包括：

将前后多个图片帧进行组合，组成一个图片帧序列；

具体地，在本实施例中，提取的光流特征与姿态特征将输入双向LSTM模型，根据时序变化预测出融合信息流。

在上述各实施例的基础上，作为一种优选的实施方式，将所述图片帧序列输入至已训练好的BiLSTM模型前，还包括：

提取所述图片帧序列中不在首尾的任意连续三个图片帧，将该三个图片帧的光流特征和姿态特征按照前向和后向两个方向分别输入至BiLSTM模型中进行训练，得到用于对前向和后向两个方向进行信息融合的BiLSTM模型。

具体地，在本实施例中，将图片帧进行组合，每七个图片帧组成一个图片帧序列{t-3，t-2，t-1，t，t+1，t+2，t+3}，除去含有转场图片帧的图片帧序列；

基于所述图片帧序列进行BiLSTM模型训练：

向前向的LSTM_L依次输入t-1、t、t+1个图片帧的光流特征或姿态特征的矩阵，得到第一隐向量集{h_L0，h_L1，h_L2}；

向后向的LSTM_R依次输入t+1、t、t-1个图片帧的光流特征或姿态特征的矩阵，得到第二隐向量集{h_R0，h_R1，h_R2}；

将第一隐向量集和第二隐向量集拼接得到{[h_L0，h_R2]，[h_L1，h_R1]，[h_L2，h_R0]}；

基于训练后的BiLSTM模型预测得到合成信息流。

具体地，将视频序列组合，每七帧组成一个序列，除去含有标记为转场图片帧的组合。转场图片帧和其前图片帧将作为训练光流判别器的训练集。单次训练过程如图6中所示，将前向的LSTM_L依次输入t-1,t,t+1帧的光流(或姿态)矩阵，得到三个隐藏向量{h_L0，h_L1，h_L2}。后向的LSTM_R依次输入t+1,t,t-1帧的光流(或姿态)矩阵，得到三个向量{h_R0，h_R1，h_R2}。最后将前向和后向的隐向量进行拼接得到{[h_L0，h_R2]，[h_L1，h_R1]，[h_L2，h_R0]}，即{h₀，h₁，h₂}。

具体地，本实施例采用的BiLSTM模型的参数设置如下：

输入压缩后的光流/姿态图片矩阵:32x32

输出大小：32x32

隐藏层：128x128

学习率：1e^-5

损失函数为：

本实施例中的最终预测结果会输入至连结层。

在上述各实施例的基础上，作为一种优选的实施方式，对前后图片帧进行融合得到相应的内容预测和特征预测，具体包括：

基于预先训练得到的ResNet模型对前后图片帧进行融合，得到特征预测项；

基于预先训练得到的U-Net模型和ResNet模型对前后图片帧进行融合，得到内容预测项。

具体地，在本实施例中，如图2中所示，通过ResNet模型对前后帧(t-1，t+1)进行特征预测，通过U-Net模型+ResNet模型对前后帧(t-1，t+1)进行内容预测，最终预测结果输入至连结层。

在上述各实施例的基础上，作为一种优选的实施方式，对前后图片帧的逻辑关系、所述合成信息流、所述内容预测项和所述特征预测项进行帧合成，具体包括：

构建帧合成网络，并设定损失函数；

以前后图片帧的逻辑关系、所述合成信息流、所述内容预测项和所述特征预测项作为帧合成网络的输入，进行深度学习，得到训练好的帧合成网络；

基于训练好的帧合成网络进行帧合成。

具体地，为了生成最终的输出帧，本实施例中还构建了一个帧合成网络，并进行训练。本实施例中，该帧合成网络由3个残差块组成，并综合上述各实施例中各模型的输入信息，融合信息流、融合特征预测项、融合内容预测项和光流判别器连结起来作为帧合成网络的输入，设定损失函数，损失函数为真实帧Ground Truth和混合帧之间的残差，并强制网络预测Ground Truth和混合帧之间的残差。

其中，损失函数如下：

该损失函数名为Charbonnier Loss，是一种L1 loss的变种，加了一个正则项。

在上述各实施例的基础上，本实施例中采用训练数据集是Vimeo90K，其有51312个三元组用于训练，其中每个三元组包含3个连续的视频帧，分辨率为256×448像素。具体在训练过程，本实施例中，用上述训练好的网络来预测每个三元组的中间帧(即，t＝0.5)。在测试时，模型能生成任意中间帧。另外，还通过水平和垂直翻转以及颠倒三元组的时间顺序来增加训练数据。

为了验证上述各实施例中各方法的有效性，本实施例截选了一段芭蕾人物旋转的视频，在前帧与后帧中，用两种插帧模型得出中间帧。得到的结果显示如图7和图8中所示，图7中左侧为前图像帧，右侧为后图像帧，图8中左侧为根据本发明上述各实施例视频插帧方法插帧后的示意图，右侧为Super-Slomo插帧后的示意图，可以明显看出，通过本方案得出的任务面部细节清楚，与拍摄帧质量相符；由Super-slomo生成的帧，人物面部细节模糊，画面出现局部撕裂，导致最终成像的视频有“鬼影”。

本发明实施例还提供了一种视频插帧系统，基于上述各实施例中的视频插帧方法，如图9中所示，包括图片帧提取模块10、逻辑关系判别模块20、合成信息流融合模块30、内容和特征预测模块40和帧合成网络50，其中：

图片帧提取模块10，按顺序提取视频流中每个图片帧的姿态特征和光流特征，并提取视频流中的转场图片帧；

逻辑关系判别模块20，基于所述转场图片帧和转场图片帧的前图片帧的所述光流特征进行深度学习，得到光流判别器，基于所述光流判别器判断前后图片帧之间的逻辑关系；

合成信息流融合模块30，将前后图片帧的所述光流特征和所述姿态特征按照前向和后向两个方向进行信息融合，以根据时序变化融合得到合成信息流；

内容和特征预测模块40，对前后图片帧进行融合得到相应的内容预测项和特征预测项；

帧合成网络50，对前后图片帧的逻辑关系、所述合成信息流、所述内容预测项和所述特征预测项帧合成，得到插帧图片帧。

基于相同的构思，本发明实施例还提供了一种服务器结构示意图，如图10所示，该服务器可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行如上述各实施例所述视频插帧方法的步骤。例如包括：

S2、将前后图片帧的所述光流特征输入至已训练好的光流判别器，基于所述光流判别器判断前后图片帧之间的逻辑关系；

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

基于相同的构思，本发明实施例还提供一种非暂态计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包含至少一段代码，该至少一段代码可由主控设备执行，以控制主控设备用以实现如上述各实施例所述视频插帧方法的步骤。例如包括：

基于相同的技术构思，本申请实施例还提供一种计算机程序，当该计算机程序被主控设备执行时，用以实现上述方法实施例。

所述程序可以全部或者部分存储在与处理器封装在一起的存储介质上，也可以部分或者全部存储在不与处理器封装在一起的存储器上。

基于相同的技术构思，本申请实施例还提供一种处理器，该处理器用以实现上述方法实施例。上述处理器可以为芯片。

综上所述，本发明实施例提供的一种视频插帧方法、系统、电子设备及存储介质，先按照视频流顺序，提取每个图片帧的光流特征与姿态特征；提取的光流特征将通过光流判别器，判断前后两帧之间的逻辑，连接到最终的连结层；同时，提取的光流特征与姿态特征将输入双向LSTM网络，根据时序变化预测出融合信息流，此外，还会根据前后两帧的图片内容，融合得出相应的内容预测与特征预测；最后，上述模型接入最终连结层，得到输出的中间帧作为插帧图片帧；采用多个分类器和多个训练参数得到多模型，将图片输入不同模型进行计算、判别、预测，最后再融合到一起，形成最终的插帧图像，大幅改善视频插帧中出现问题帧的情况。

本发明的各实施方式可以任意进行组合，以实现不同的技术效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频插帧方法，其特征在于，包括：

按顺序提取视频流中每个图片帧的姿态特征和光流特征；

根据前后图片帧的所述光流特征判断前后图片帧之间的逻辑关系；

基于前后图片帧的逻辑关系、所述合成信息流、所述内容预测项和所述特征预测项进行帧合成，得到插帧图片帧；

其中，所述根据前后图片帧的所述光流特征判断前后图片帧之间的逻辑关系，具体包括：

将前后图片帧的所述光流特征输入至训练好的光流判别器中，基于所述光流判别器判断前后图片帧之间的逻辑关系，所述光流判别器是由转场图片帧和转场图片帧的前图片帧的光流特征为样本训练得到的。

2.根据权利要求1所述的视频插帧方法，其特征在于，根据前后图片帧的所述光流特征的对应关系判断前后图片帧之间的逻辑关系前，还包括：

3.根据权利要求2所述的视频插帧方法，其特征在于，所述提取训练视频流中的转场图片帧，具体包括：

对训练视频流进行切片处理，得到视频帧序列；

4.根据权利要求1所述的视频插帧方法，其特征在于，所述将前后图片帧的所述光流特征和所述姿态特征按照前向和后向两个方向进行信息融合，具体包括：

将前后多个图片帧进行组合，组成一个图片帧序列；

5.根据权利要求1所述的视频插帧方法，其特征在于，将所述图片帧序列输入至已训练好的BiLSTM模型前，还包括：

提取所述图片帧序列中不在首尾的任意连续三个图片帧，将该三个图片帧的光流特征和姿态特征按照前向和后向两个方向分别输入至BiLSTM模型中的前向LSTM和后向LSTM进行训练，得到用于对前向和后向两个方向进行信息融合的BiLSTM模型。

6.根据权利要求1所述的视频插帧方法，其特征在于，对前后图片帧的逻辑关系、所述合成信息流、所述内容预测项和所述特征预测项进行帧合成，具体包括：

构建帧合成网络，并设定损失函数；

基于训练好的帧合成网络进行帧合成。

7.一种视频插帧系统，其特征在于，包括：

逻辑关系判别模块，根据前后图片帧的所述光流特征的对应关系判断前后图片帧之间的逻辑关系，其中，将前后图片帧的所述光流特征输入至训练好的光流判别器中，基于所述光流判别器判断前后图片帧之间的逻辑关系，所述光流判别器是由转场图片帧和转场图片帧的前图片帧的光流特征为样本训练得到的；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述视频插帧方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述视频插帧方法的步骤。