CN112055249A

CN112055249A - 一种视频插帧方法及装置

Info

Publication number: CN112055249A
Application number: CN202010978094.5A
Authority: CN
Inventors: 张文浩
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2020-12-08
Anticipated expiration: 2040-09-17
Also published as: CN112055249B

Abstract

本发明公开了一种视频插帧方法及装置，涉及视频处理技术领域，主要目的在于针对视频中的运动对象生成清晰的视频插帧。本发明主要的技术方案为：获取视频中相邻的至少两帧图像，确定所述图像中的运动对象；利用光流信息确定所述运动对象在目标时间点时的图像位置；基于预训练模型以及所述图像位置生成所述目标时间点对应的插帧图像，所述预训练模型为设置指定损失函数的模型，所述指定损失函数用于增加所述运动对象在所述插帧图像中的清晰度。本发明用于生成视频插帧。

Description

一种视频插帧方法及装置

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频插帧方法及装置。

背景技术

随着显示技术的发展，电子消费市场中出现了各种尺寸、分辨率的高性能终端设备，而目前所使用的视频编解码与传输技术并不能满足这些设备的显示需求，因此，需要在显示时进行时域和空域分辨率增强的后处理过程来满足设备的视频显示。从时域角度看，可以在解码端通过插帧实现视频帧率的转换，以提高图像显示的流畅性。

然而，通过帧重复、帧平均得到的内插帧在图像清晰度上会有所降低，特别是对于视频图像中存在有运动对象时，其得到的视频插帧就会产生明显的运动抖动与模糊。

发明内容

鉴于上述问题，本发明提出了一种视频插帧方法及装置，主要目的在于针对视频中的运动对象生成清晰的视频插帧。

为达到上述目的，本发明主要提供如下技术方案：

第一方面，本发明提供一种视频插帧方法，包括：

获取视频中相邻的至少两帧图像，确定所述图像中的运动对象；

利用光流信息确定所述运动对象在目标时间点时的图像位置；

基于预训练模型以及所述图像位置生成所述目标时间点对应的插帧图像，所述预训练模型为设置指定损失函数的模型，所述指定损失函数用于增加所述运动对象在所述插帧图像中的清晰度。

优选的，所述方法还包括：

设置所述预训练模型的指定损失函数，所述指定损失函数至少包括两部分，其中，第一分部用于评价插帧图像与标准图像的差异，第二部分用于加所述运动对象在所述插帧图像中的清晰度。

优选的，所述第一部分采用L2范数损失函数；所述第二部分采用基于全变分正则化项设置的损失函数，其中，所述第二部分的取值是全变分正则化项的相反数。

优选的，所述指定损失函数的表达式为：

L(I)＝∑_j∑_i||I(i,j)-I'(i,j)||₂-∑_j∑_i(||I(i+1,j)-I(i,j)||+||I(i,j+1)-I(i,j)||)

其中，L(I)表示插帧图像I的损失函数，I’表示标准图像，i、j表示图像中像素点的坐标。

优选的，所述第二部分采用基于Laplacian算子或能量梯度的损失函数，所述第二部分的取值为所述Laplacian算子或能量梯度的损失函数的相反数。

优选的，确定所述图像中的运动对象，包括：

识别所述两帧图像中位于不同位置的同一对象，将所述对象确定为运动对象。

第二方面，本发明提供一种视频插帧装置，所述装置包括：

获取单元，用于获取视频中相邻的至少两帧图像，确定所述图像中的运动对象；

确定单元，用于利用光流信息确定所述获取单元确定的运动对象在目标时间点时的图像位置；

生成单元，用于基于预训练模型以及所述确定单元得到的图像位置生成所述目标时间点对应的插帧图像，所述预训练模型为设置指定损失函数的模型，所述指定损失函数用于增加所述运动对象在所述插帧图像中的清晰度。

优选的，所述装置还包括：

设置单元，用于设置所述预训练模型的指定损失函数，所述指定损失函数至少包括两部分，其中，第一分部用于评价插帧图像与标准图像的差异，第二部分用于加所述运动对象在所述插帧图像中的清晰度。

优选的，所述设置单元设置的指定损失函数的所述第一部分采用L2范数损失函数；所述第二部分采用基于全变分正则化项设置的损失函数，其中，所述第二部分的取值是全变分正则化项的相反数。

优选的，所述设置单元设置的指定损失函数的表达式为：

优选的，所述设置单元设置的指定损失函数的所述第二部分采用基于Laplacian算子或能量梯度的损失函数，所述第二部分的取值为所述Laplacian算子或能量梯度的损失函数的相反数。

优选的，所述获取单元还用于，识别所述两帧图像中位于不同位置的同一对象，将所述对象确定为运动对象。

另一方面，本发明还提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述第一方面的视频插帧方法。

另一方面，本发明还提供一种存储介质，所述存储介质用于存储计算机程序，其中，所述计算机程序运行时控制所述存储介质所在设备执行上述第一方面的视频插帧方法。

借由上述技术方案，本发明提供的一种视频插帧方法及装置，通过对视频中连续多帧图像的识别，确定出图像中的运动对象，利用光流信息来预估运动对象在相邻两帧图像之间任意指定时间所对应的图像位置，基于该图像位置结合预训练模型生成对应指定时间的插帧图像。在生成插帧图像过程中，所应用的预训练模型是预先设置指定损失函数的模型，该指定损失函数是针对图像清晰度而设置的，用于提高所生成插帧图像的清晰度，提高视频的展示品质。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提出的一种视频插帧方法的流程图；

图2示出了本发明实施例中基于光流信息合成插帧图像的流程示意图；

图3示出了本发明实施例提出的一种视频插帧装置的结构示意图；

图4示出了本发明实施例提出的另一种视频插帧装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种视频插帧方法，该方法用于对视频图像进行插帧处理，以使得视频图像具有更加流畅的播放效果，而本发明实施例所生成的插帧图像相对于现有的图像插帧方法，能够提高生成图像的清晰度，保证视频播放的质量。其具体执行步骤如图1所示，包括：

101、获取视频中相邻的至少两帧图像，确定图像中的运动对象。

本步骤是通过图像识别技术对连续且相邻的各个视频帧中的对象进行识别，并确定不同图像帧中对应的对象。一般地，对于图像帧中的对象可以分为两种，一种是静止对象，一种是运动对象。在相邻的两帧图像中，同一对象在这两帧图像中的位置如果是相同的，则可以确定该对象为静止对象，反之，如果在图像中的位置不同，则认为该对象为运动对象，在图像中位置的差异越大，说明该对象的运动就越剧烈。

此外，本步骤中需要获取视频中相邻的至少两帧图像，是因为所生成的插帧图像是插入这两帧图像之间的，将这至少两帧图像作为原始图像，根据所选定的目标时间点而生成对应的插帧图像，即，在两帧原始图像之间可以根据需求而生成多帧插帧图像。

102、利用光流信息确定运动对象在目标时间点时的图像位置。

本步骤中，目标时间点是根据所要插入视频帧的需求而确定的，该目标时间点可以是一个，也可以是多个。

光流是空间运动物体在观察成像平面上的像素运动的瞬时速度，是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。一般而言，光流是由于场景中前景目标本身的移动、相机的运动，或者两者的共同运动所产生的。根据运动对象的光流信息，以及视频相邻图像帧中该运动对象的位置，就可以预估出该运动对象在相邻两帧图像之间的运动轨迹，进而可以确定该运动对象在任意时间点的位置，当然，提供含有该运动对象的视频帧越多，对于该运动对象的运动轨迹的预估也就会越准确。因此，在上一步骤中，获取的至少两帧图像在预估运动物体在目标时间点对应的图像位置时，图像帧数越多，该图像位置的精度也就越高，但是，其数据计算量就越大，响应速度将会降低，因此，计算图像位置需要根据实际应用的需要而确定所需参与计算的图像帧数量。

103、基于预训练模型以及图像位置生成目标时间点对应的插帧图像。

在确定了目标时间点以及运动对象的图像位置后，本步骤是利用预训练模型生成对应的插帧图像，该预训练模型是基于相邻的至少两帧图像而生成新的插帧图像。

在实际应用中，现有针对运动对象的视频插帧的生成主要是利用视频帧的光流信息预估运动对象在前后帧图像之间的相对位置，但是基于光流信息的插帧模型在生成视频插帧时，其模型的损失函数是基于像素粒度的差异损失，对运动对象的运动程度以及图像平滑性无法评价，导致生成的插帧图像的分辨率减低，清晰度下降。对此，本发明中所采用的预训练模型设置有针对图像清晰度的指定损失函数，该指定损失函数用于增加运动对象在所生成的插帧图像中的清晰度。

基于上述图1的实现方式可以看出，本发明实施例所提出的视频插帧方法，提出了对生成插帧图像的预训练模型设置一个指定损失函数，该指定损失函数用于提高运动对象在插帧图像中的清晰度。而经过训练，该预训练模型就可以通过对相邻的至少两帧图像进行融合，从而得到稿清晰度的插帧图像，解决了运动对象因为剧烈运动导致的插帧图像模糊的问题。

进一步的，本发明的优选实施例是在上述图1的基础上，详细说明预训练模型所设置的指定损失函数，在本发明实施例中，该指定损失函数至少包括两个组成部分，第一部分用于评价插帧图像与标准图像的差异，其中，标准图像是指在模型训练过程中样本中给出的图像，在实际应用中，则是指对应视频的实际图像。第二部分用于加所述运动对象在所述插帧图像中的清晰度。将第一部分与第二部分相结合得到的指定损失函数，在确保生成的插帧图像与实际图像相似的同时，还进一步提高了插帧图像中运动对象的清晰度。

在可行的实施例中，上述的第一部分采用L2范数损失函数，通过该L2范数损失函数可以让生成的图像更加接近实际图像，而上述的第二部分采用的是基于全变分正则化项设置的损失函数。全变分模型是一个依靠梯度下降流对图像进行平滑的各向异性的模型，希望在图像内部尽可能对图像进行平滑(相邻像素的差值较小)，而在图像边缘(图像轮廓)尽可能不去平滑。可见，基于全变分正则化的目的在于对图像进行平滑处理，而平滑处理的结果时让图像变得模糊，而非清晰。因此，本实施例中对第二部分的取值为全变分正则化项的相反数，其对应的公式如下：

Reg_tv(I)＝-∑_j∑_i(||I(i+1,j)-I(i,j)||+||I(i,j+1)-I(i,j)||)

其中，I表示正则的图像，Reg_tv(I)表示全变分正则化项，i、j表示图像中像素点的坐标。

通过设置的全变分正则化项的相反数就使得指定损失函数对图像中平滑性进行评价，从而得到更加锐化的图像，即提高图像的清晰度。

根据上述的说明，对于本实施例中指定损失函数可具体表示为：

基于上述设置有指定损失函数的预训练模型，其在训练或实际应用生成插帧图像的过程以图2所示流程为例：

输入连续四帧相邻的视频图像{I_-1,I₀,I₁,I₂}，对中间两帧图像{I₀,I₁}生成处于任意时间位置t的内插帧I_interp。其中，光流预测是用于确定中间两帧{I₀,I₁}到相邻视频帧之间的光流估计图，然后，通过二次方光流估计和光流反转得到相邻帧中间{I₀,I₁}的光流估计图，最后由合成模块结合前后帧图像生成新的插帧图像I_interp。

在图2所示的示例中，利用二次方光流估计是基于四帧视频图像对运动对象的运动轨迹进行估计，确定其在目标时间点的图像位置，进而利用设置指定损失函数的预训练模型合成具有高清晰度的插帧图像。

进一步的，上述图2所示的实施例中，预训练模型所设置的指定损失函数是基于L2范数与全变分正则化项所构成的损失函数，其中，通过对全变分正则化项的值取相反数，以实现提高图像清晰度的目的，对此，本发明实施例中对指定损失函数中的第二部分，除了采用基于全变分正则化项设置的损失函数，还可以使用其他基于清晰度的损失函数，比如，基于Laplacian算子、能量梯度的损失函数等。使用这些损失函数替换上述第二部分的基于全变分正则化项设置的损失函数，对于第二部分的取值同样是Laplacian算子、能量梯度的损失函数的相反数。

此外，对于本发明实施例中的预训练模型，由于其设置的指定损失函数中含有提高图像清晰度的部分，在实际的模型训练过程中发现，该模型的训练速度相对于不含有提高图像清晰度的部分(第二部分)的模型，其训练速度得到了较大提高，因此，本发明实施例所提出的指定损失函数也可以有效提高预训练模型的训练速度。

进一步的，作为对上述图1所示方法实施例的实现，本发明实施例提供了一种视频插帧装置，该装置用于对视频中的运动对象生成清晰的视频插帧。该装置的实施例与前述方法实施例对应，为便于阅读，本实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。具体如图3所示，该装置包括：

获取单元31，用于获取视频中相邻的至少两帧图像，确定所述图像中的运动对象；

确定单元32，用于利用光流信息确定所述获取单元31确定的运动对象在目标时间点时的图像位置；

生成单元33，用于基于预训练模型以及所述确定单元32得到的图像位置生成所述目标时间点对应的插帧图像，所述预训练模型为设置指定损失函数的模型，所述指定损失函数用于增加所述运动对象在所述插帧图像中的清晰度。

进一步的，如图4所示，所述装置还包括：

设置单元34，用于设置所述预训练模型的指定损失函数，所述指定损失函数至少包括两部分，其中，第一分部用于评价插帧图像与标准图像的差异，第二部分用于加所述运动对象在所述插帧图像中的清晰度。

进一步的，所述设置单元34设置的指定损失函数的所述第一部分采用L2范数损失函数；所述第二部分采用基于全变分正则化项设置的损失函数，其中，所述第二部分的取值是全变分正则化项的相反数。

进一步的，所述设置单元34设置的指定损失函数的表达式为：

进一步的，所述设置单元34设置的指定损失函数的所述第二部分采用基于Laplacian算子或能量梯度的损失函数，所述第二部分的取值为所述Laplacian算子或能量梯度的损失函数的相反数。

进一步的，所述获取单元31还用于，识别所述两帧图像中位于不同位置的同一对象，将所述对象确定为运动对象。

进一步的，本发明实施例还提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述图1-2中所述的视频插帧方法。

进一步的，本发明实施例还提供一种存储介质，所述存储介质用于存储计算机程序，其中，所述计算机程序运行时控制所述存储介质所在设备执行上述图1-2中所述的视频插帧方法。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种视频插帧方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述第一部分采用L2范数损失函数；所述第二部分采用基于全变分正则化项设置的损失函数，其中，所述第二部分的取值是全变分正则化项的相反数。

4.根据权利要求3所述的方法，其特征在于，所述指定损失函数的表达式为：

5.根据权利要求2所述的方法，其特征在于，所述第二部分采用基于Laplacian算子或能量梯度的损失函数，所述第二部分的取值为所述Laplacian算子或能量梯度的损失函数的相反数。

6.根据权利要求1所述的方法，其特征在于，确定所述图像中的运动对象，包括：

7.一种视频插帧装置，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-6中任意一项所述的视频插帧方法。

10.一种存储介质，其特征在于，所述存储介质用于存储计算机程序，其中，所述计算机程序运行时控制所述存储介质所在设备执行权利要求1-6中任意一项所述的视频插帧方法。