CN116170650A

CN116170650A - 视频插帧方法及装置

Info

Publication number: CN116170650A
Application number: CN202211648871.5A
Authority: CN
Inventors: 邱慎杰
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-05-26

Abstract

本申请提供视频插帧方法及装置，其中视频插帧方法包括：从待插帧视频中获取连续的第一视频帧和第二视频帧；基于待插帧视频中的字幕位置参数，确定第一视频帧中的第一字幕区域，并确定第二视频帧中的第二字幕区域；确定第一视频帧和第二视频帧之间的第一相似性，并确定第一字幕区域和第二字幕区域之间的第二相似性；基于第一相似性和第二相似性，确定目标待插帧，并将目标待插帧插入第一视频帧和第二视频帧之间。如此，同时考虑了两帧视频帧的相似性，以及两帧视频帧中字幕区域的相似性，综合确定出目标待插帧，避免了字幕出现伪影，提高了插帧质量和插帧效果。

Description

视频插帧方法及装置

技术领域

本申请涉及视频处理技术领域，特别涉及一种视频插帧方法。本申请同时涉及一种视频插帧装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着计算机技术和网络技术的快速发展，各种各样的视频层出不穷，观看视频已成为人们工作、休闲、娱乐的重要方式。为了提高视频的帧率和流畅度，可以在视频中连续的两视频帧之间插入合成帧，缩短帧间显示时间。通常在对连续两视频帧进行插帧前，需要判断待插帧的两视频帧是属于同一个镜头的连续帧，还是属于场景切换中的前后两帧，如果是同一镜头中的连续帧则可以直接进行插帧；如果不是，则不能进行插帧。

现有技术中，往往是获取连续的两帧视频帧，然后确定该两帧视频帧的相似性，以确定该两帧视频帧是否切换镜头，从而确定是否进行插帧。然而，上述方法中，考虑的是两帧视频帧的相似性，如果该两帧视频帧包括字幕，即使二者的整体画面和内容是连续的，若字幕部分不同，此时进行插帧，可能会导致字幕出现伪影，进而导致插帧质量和插帧效果差。

发明内容

有鉴于此，本申请实施例提供了一种视频插帧方法。本申请同时涉及一种视频插帧装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的字幕出现伪影、插帧质量和插帧效果差的技术问题。

根据本申请实施例的第一方面，提供了一种视频插帧方法，包括：

从待插帧视频中获取连续的第一视频帧和第二视频帧；

基于待插帧视频中的字幕位置参数，确定第一视频帧中的第一字幕区域，并确定第二视频帧中的第二字幕区域；

确定第一视频帧和第二视频帧之间的第一相似性，并确定第一字幕区域和第二字幕区域之间的第二相似性；

基于第一相似性和第二相似性，确定目标待插帧，并将目标待插帧插入第一视频帧和第二视频帧之间。

根据本申请实施例的第二方面，提供了一种视频插帧装置，包括：

获取模块，被配置为从待插帧视频中获取连续的第一视频帧和第二视频帧；

第一确定模块，被配置为基于待插帧视频中的字幕位置参数，确定第一视频帧中的第一字幕区域，并确定第二视频帧中的第二字幕区域；

第二确定模块，被配置为确定第一视频帧和第二视频帧之间的第一相似性，并确定第一字幕区域和第二字幕区域之间的第二相似性；

第三确定模块，被配置为基于第一相似性和第二相似性，确定目标待插帧，并将目标待插帧插入第一视频帧和第二视频帧之间。

根据本申请实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令，以实现下述方法：

从待插帧视频中获取连续的第一视频帧和第二视频帧；

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现任意视频插帧方法的步骤。

本申请提供的视频插帧方法，从待插帧视频中获取连续的第一视频帧和第二视频帧；基于待插帧视频中的字幕位置参数，确定第一视频帧中的第一字幕区域，并确定第二视频帧中的第二字幕区域；确定第一视频帧和第二视频帧之间的第一相似性，并确定第一字幕区域和第二字幕区域之间的第二相似性；基于第一相似性和第二相似性，确定目标待插帧，并将目标待插帧插入第一视频帧和第二视频帧之间。

这种情况下，可以基于获取到的字幕位置参数，确定第一视频帧和第二视频帧的字幕区域，在第一视频帧和第二视频帧之间插帧时，可以计算第一视频帧和第二视频帧之间的第一相似性，并计算第一字幕区域和第二字幕区域之间的第二相似性，基于上述两个相似性，确定对应的目标待插帧，再将目标待插帧插入第一视频帧和第二视频帧之间。如此，同时考虑了两帧视频帧的相似性，以及两帧视频帧中字幕区域的相似性，即使两帧视频帧的整体画面和内容是连续的，还进一步考虑了字幕区域的相似性，综合确定出目标待插帧，避免了字幕出现伪影，提高了插帧质量和插帧效果。

附图说明

图1a是本申请一实施例提供的一种视频帧的示意图；

图1b是本申请一实施例提供的另一种视频帧的示意图；

图1c是本申请一实施例提供的一种合成帧的示意图；

图2是本申请一实施例提供的一种视频插帧方法的流程图；

图3是本申请一实施例提供的一种交互界面示意图；

图4是本申请一实施例提供的一种应用于线下视频处理工具的视频插帧方法的处理流程图；

图5是本申请一实施例提供的一种视频插帧装置的结构示意图；

图6是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

视频插帧：在视频的时序上连续的每两帧画面中增加若干帧，缩短视频帧之间的显示时间，提高视频的帧率和流畅度，本申请实施例中主要针对的是在连续的两视频帧之间增加1帧，即2倍插帧。

光流：空间运动物体在观察成像平面上的像素运动的瞬时速度。

伪影：合成帧中，不自然的、反常的、能让人看出是人为处理过的痕迹、区域、瑕疵等。

图像相似性：structual similarity，简称SSIM，一种评价指标，分别从亮度、对比度、结构三个方面度量两个图像的相似度。

场景切换：指的是画面由一个镜头切换至另一个镜头，同一个镜头在视频帧中表现为一系列连续的帧。

需要说明的是，目前插帧方法普遍有三种：第一种方法，可以复制前一帧或后一帧的画面作为合成帧，插入至连续的两视频帧之间，即复制帧；第二种方法，还可以将前后两视频帧进行类似双重曝光的模糊处理来得到合成帧，即混合帧；第三种方法，可以基于深度学习模型进行插帧，通过对前后两帧画面进行分析建模生成光流从而得到帧间线性映射关系，最终结合出合成帧。

视频插帧功能除了经常部署于云端供任务调用进行一次性全自动插帧外，常常也会作为一个单独的功能模块嵌入离线工具平台(如视频处理工具中)，相比线上调用，用户在使用线下工具进行插帧时能够根据实际情况调整功能参数，因此有更大的自由度。

不论是线上还是线下，通常在对连续两视频帧进行插帧前，都有着必不可少的一步，就是判断待插帧的两视频帧是属于同一个镜头的连续帧，还是属于场景切换中的前后两帧。如果是同一镜头中的连续帧，则可以直接进行插帧；如果不是，则不能进行插帧，因为处于场景切换前后的两视频帧往往在内容及画面上不连续，并且存在着巨大的差异，此时通过插帧模型合成出来的合成帧会出现十分严重的伪影。为了规避这种情况，可以在插帧前计算两视频帧的图像相似性(也可以是其他的指标)，以判断两视频帧是否处于场景切换时刻，如果是，则复制其中一帧作为目标待插帧而不是通过插帧模型确定合成出的目标待插帧。

上述方法中，若视频帧存在局部区域的场景切换，例如电影、动漫的字幕连续播放时，上下两句字幕切换了，但背景的内容没有切换，直接判断两视频帧的图像相似性就失效了，因为字幕区域一般只占整个视频帧画面的很小一部分，对计算两视频帧的相似性不会有太大影响，因此即使连续两视频帧显示的字幕是不同的，但字幕背后的两视频帧画面属于同一个镜头，通常会使两视频帧满足相似性的要求，导致字幕后的画面能够正常通过插帧合成得到，而字幕区域由于在字幕切换时前后差距过大而导致严重伪影。

示例的，图1a是本申请一实施例提供的一种视频帧的示意图，图1b是本申请一实施例提供的另一种视频帧的示意图，图1c是本申请一实施例提供的一种合成帧的示意图。图1a和图1b所示为需被插帧的、连续的两帧视频帧，如图1a和图1b所示，该两视频帧的整体画面和内容是连续的，但歌词部分却是不同的两句，图1a中的字幕为“不是烟斗的烟斗”，图1b中的字幕为“脸上的鸽子没有飞走”，在计算整个视频帧的图像相似性时，二者相似性较高，大于插帧所需的阈值，直接进行插帧得到的合成帧如图1c所示，如图1c可以看出，字幕区域出现明显伪影，而字幕后面的内容则为正常的插帧结果。

因而，本申请实施例中，可以在进行视频插帧之前，嵌入一个交互式操作，使得用户框选待插帧视频中的字幕区域，基于用户的框选，在后续实际的插帧过程提供字幕位置参数，后续可以基于该字幕位置参数识别出字幕区域，结合字幕区域计算相似性，只需要用户操作一次而不是每一次插帧前都操作，即可提高字幕区域的插帧效果。如此，可以将字幕位置参数作为一个先验信息，输入视频处理平台，视频处理平台在进行插帧前，不仅要计算一遍整张视频帧的画面相似性，同时还要计算字幕区域的相似性，若二者之一不满足条件，都会触发复制帧的操作而不进行模型插帧的操作。

在本申请中，提供了一种视频插帧方法，本申请同时涉及一种视频插帧装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

需要说明的是，用户在通过视频处理平台对视频进行编辑工作时，有时需要通过插帧来提高视频流畅度，或者在不引起视频卡顿的前提下对视频进行慢放操作等等，这些功能都需要通过视频插帧方法来实现，而提高插帧质量对用户体验有着至关重要的作用。其中，视频处理平台可以为线上的视频处理网页，也可以为线下的视频处理工具。

图2示出了根据本申请一实施例提供的一种视频插帧方法的流程图，具体包括以下步骤：

步骤202：从待插帧视频中获取连续的第一视频帧和第二视频帧。

需要说明的是，待插帧视频为需要在视频的时序上连续的两帧视频帧之间插入中间合成帧的视频，待插帧视频为包括字幕的视频。第一视频帧和第二视频帧是待插帧视频中连续的两帧，且时序上第一视频帧位于第二视频帧之前。

实际应用中，视频处理平台可以按照设定频率截取待插帧视频，获得待插帧视频包括的各个视频帧，选取连续的两帧视频帧，时序上靠前的作为第一视频帧，时序上靠后的作为第二视频帧。

示例的，假设截取待插帧视频，获得视频帧1、视频帧2、视频帧3、……、视频帧N-1、视频帧N，且视频帧1、视频帧2、视频帧3、……、视频帧N-1、视频帧N按照时序依次排列，此时视频帧1和视频帧2连续，视频帧1为第一视频帧，视频帧2为第二视频帧；视频帧2和视频帧3连续，视频帧2为第一视频帧，视频帧3为第二视频帧；……；视频帧N-1和视频帧N连续，视频帧N-1为第一视频帧，视频帧N为第二视频帧。

本实施例一个可选的实施方式中，在从待插帧视频中获取连续的第一视频帧和第二视频帧，进行实际的插帧过程之前，还可以先获取到待插帧视频对应的字幕位置参数，以在后续的实际插帧过程，指示视频帧中字幕对应的区域，也即从待插帧视频中获取连续的第一视频帧和第二视频帧之前，还包括：

获取待插帧视频，其中，待插帧视频为带有字幕的视频；

接收用户针对待插帧视频的框选操作，基于框选操作确定字幕位置参数，其中，框选操作用于框选待插帧视频中的字幕区域。

实际应用中，用户将带有字幕的待插帧视频导入视频处理平台，视频处理平台可以获取用户导入的待插帧视频，并向该用户展示该待插帧视频，用户可以基于待插帧视频的进度条，选中某一帧视频帧，然后在该视频帧中框选出字幕所在的区域，此时视频处理平台可以接收到该用户针对待插帧视频的框选操作，基于该框选操作确定用户框选的字幕区域对应的字幕位置参数。

当然，实际应用中，视频处理平台向用户展示该待插帧视频时，可以展示默认帧(如第一帧)，用户直接在该默认帧中框选出字幕所在的区域，本申请对此不进行限制。

其中，字幕位置参数可以是指用户框选的字幕区域的位置参数，如字幕位置参数可以为框选操作框选出的选择框的顶点坐标，或者字幕位置参数也可以为框选操作框选出的选择框的中心点坐标及选择框尺寸等。

需要说明的是，用户通过交互在待插帧视频中划分出一个包含字幕的选择框，此时视频处理平台可以确定出该选择框的左上角及右下角在视频画面的具体坐标值，该具体坐标值即为字幕位置参数，视频处理平台后续在调用插帧模块实现具体的插帧过程时，会将该字幕位置参数传递给该插帧模块。同理，当待插帧视频多处都存在字幕时，可以通过多次选中传递多个选择框的位置参数。

再者，视频处理平台向用户展示该待插帧视频时，还可以展示提示信息，以提示用户在待插帧视频中框选字幕区域，且框选的区域可以稍微大一点，避免有些视频帧中的字幕较长，无法全部包括。

示例的，图3是本申请一实施例提供的一种交互界面示意图，如图3所示，视频处理平台中可以展示有待插帧视频，以及待插帧视频对应的进度条，用户基于进度条选择某一帧视频画面，然后通过选择框框选该视频画面中的字幕区域，之后，视频处理平台可以确定该选择框的位置参数，作为字幕位置参数。

本申请实施例中，利用与用户的交互性特点，通过在视频处理平台中嵌入一个交互式操作，使得用户可以框选待插帧视频中的字幕区域，基于用户的框选，在后续实际的插帧过程提供字幕位置参数，后续可以基于该字幕位置参数识别出字幕区域，结合字幕区域计算相似性，只需要用户操作一次而不是每一次插帧前都需要操作，即可提高字幕区域的插帧效果，且用户可以自由框选，提高了处理效率和自由度，节省了处理资源。

本实施例一个可选的实施方式中，除了由用户手动框选字幕区域之外，还可以由视频处理平台自动识别待插帧视频中的字幕区域，也即从待插帧视频中获取连续的第一视频帧和第二视频帧之前，还包括：

获取待插帧视频，其中，待插帧视频为带有字幕的视频；

确定待插帧视频包括的各个视频帧，并识别各个视频帧中的字幕区域；

确定各个字幕区域中区域范围最大的目标字幕区域，将目标字幕区域的位置参数作为字幕位置参数。

实际应用中，视频处理平台获取待插帧视频之后，可以确定待插帧视频包括的各个视频帧，并通过图像识别算法识别各个视频帧中的字幕区域，确定各个字幕区域中区域范围最大的目标字幕区域，并将目标字幕区域的位置参数作为字幕位置参数，提供给后续的实际插帧过程。如此，无需人工标识字幕区域，避免了与用户交互，视频处理平台可以自动识别出字幕区域，从而确定出待插帧视频对应的字幕位置参数，传递给后续的实际插帧过程，识别效率高，减少了用户操作。

步骤204：基于待插帧视频中的字幕位置参数，确定第一视频帧中的第一字幕区域，并确定第二视频帧中的第二字幕区域。

需要说明的是，该字幕位置参数可以是视频处理平台预先基于用户的框选操作确定出的参数，也可以是视频处理平台通过图像识别算法自动确定出的参数，该字幕位置参数可以指示待插帧视频中字幕所在的位置，因而可以基于待插帧视频中的字幕位置参数，确定第一视频帧中的第一字幕区域，并确定第二视频帧中的第二字幕区域。

实际应用中，若字幕位置参数为选择框的顶点坐标，即字幕区域的顶点坐标，此时可以基于该顶点坐标，截取第一视频帧中对应的区域图像，作为该第一字幕区域，并且可以基于该顶点坐标，截取第二视频帧中对应的区域图像，作为该第二字幕区域。也即是，第一字幕区域和第二字幕区域分别是指第一视频帧和第二视频帧中字幕子图像。

步骤206：确定第一视频帧和第二视频帧之间的第一相似性，并确定第一字幕区域和第二字幕区域之间的第二相似性。

需要说明的是，确定出第一视频帧中的第一字幕区域，并确定第二视频帧中的第二字幕区域之后，可以计算一视频帧和第二视频帧之间的第一相似性，并同时计算第一字幕区域和第二字幕区域之间的第二相似性。也就是说，每次插帧前，都会分别计算两视频帧的整个画面和字幕区域的相似性，基于该两个相似性，确定第一视频帧和第二视频帧是否相似，以确定两视频帧是否切换场景，从而确定对应的插帧策略。

本实施例一个可选的实施方式中，确定第一视频帧和第二视频帧之间的第一相似性，具体实现过程可以如下：

分别确定第一视频帧和第二视频帧之间的第一亮度相似度、第一对比度相似度和第一结构相似度，并基于第一亮度相似度、第一对比度相似度和第一结构相似度，确定第一视频帧和第二视频帧之间的第一相似性；

相应地，确定第一字幕区域和第二字幕区域之间的第二相似性，包括：

分别确定第一字幕区域和第二字幕区域之间的第二亮度相似度、第二对比度相似度和第二结构相似度，并基于第二亮度相似度、第二对比度相似度和第二结构相似度，确定第一字幕区域和第二字幕区域之间的第二相似性。

需要说明的是，图像相似性有亮度、对比度、结构等三个度量维度，因而可以结合该三个维度确定两图像之间的相似性。

实际应用中，可以分别确定第一视频帧和第二视频帧之间的第一亮度相似度、第一对比度相似度和第一结构相似度，然后可以综合第一亮度相似度、第一对比度相似度和第一结构相似度，确定第一视频帧和第二视频帧之间的第一相似性。同理，可以分别确定第一字幕区域和第二字幕区域之间的第二亮度相似度、第二对比度相似度和第二结构相似度，并综合第二亮度相似度、第二对比度相似度和第二结构相似度，确定第一字幕区域和第二字幕区域之间的第二相似性。

本申请实施例中，可以综合亮度、对比度、结构等三个度量维度，计算第一视频帧和第二视频帧之间的第一相似性，以及第一字幕区域和第二字幕区域之间的第二相似性，计算出的第一相似性和第二相似性准确度较高，从而保证了后续插帧的质量。

本实施例一个可选的实施方式中，分别确定第一视频帧和第二视频帧之间的第一亮度相似度、第一对比度相似度和第一结构相似度，包括：

基于第一视频帧中各个像素点的像素值，确定第一视频帧的第一平均亮度，并基于第二视频帧中各个像素点的像素值，确定第二视频帧的第二平均亮度；根据第一平均亮度和第二平均亮度，确定第一亮度相似度；

基于第一视频帧中各个像素点的像素值和第一平均亮度，确定第一视频帧中像素值的第一标准差，并基于第二视频帧中各个像素点的像素值和第二平均亮度，确定第二视频帧中像素值的第二标准差；根据第一标准差和第二标准差，确定第一对比度相似度；

基于第一视频帧和第二视频帧中各个像素点的像素值，以及第一平均亮度、第一标准差、第二平均亮度和第二标准差，确定第一结构相似度。

需要说明的是，本申请实施例中的相似性是指两图像之间的相似性，即SSIM，SSIM是一种评价指标，具体的可以将两张图像x和y按三个维度进行比较，亮度I(x，y)、对比度c(x，y)和结构s(x，y)，最终x和y的图像相似性为这三者的函数。

实际应用中，基于第一视频帧中各个像素点的像素值，确定第一视频帧的第一平均亮度，并基于第二视频帧中各个像素点的像素值，确定第二视频帧的第二平均亮度，具体可以通过如下公式(1)和公式(2)实现：

其中，μ_x为第一视频帧的第一平均亮度；N为第一视频帧或第二视频帧中的像素点数目，也即第一视频帧和第二视频帧中像素点数目相同，均为N；x_i是指第一视频帧中第i个像素点的像素值；μ_y为第二平均亮度，y_i是指第二视频帧中第i个像素点的像素值。

另外，根据第一平均亮度和第二平均亮度，确定第一亮度相似度，具体可以通过如下公式(3)实现：

其中，l(x,y)表示第一亮度相似度；μ_x表示第一平均亮度，μ_y表示第二平均亮度；C₁为防止分母为0的常数。

再者，基于第一视频帧中各个像素点的像素值和第一平均亮度，确定第一视频帧中像素值的第一标准差，并基于第二视频帧中各个像素点的像素值和第二平均亮度，确定第二视频帧中像素值的第二标准差，具体实现过程可以通过如下公式(4)和公式(5)实现：

其中，σ_x为第一标准差，N为第一视频帧或第二视频帧中的像素点数目，x_i是指第一视频帧中第i个像素点的像素值，μ_x为第一视频帧的第一平均亮度；σ_y为第二标准差，y_i是指第二视频帧中第i个像素点的像素值，μ_y为第二平均亮度。

根据第一标准差和第二标准差，确定第一对比度相似度，具体实现过程可以通过如下公式(6)实现：

其中，c(x,y)是指第一对比度相似度，σ_x为第一标准差，σ_y为第二标准差，C₂也为防止分母为0的常数。

具体实现时，基于第一视频帧和第二视频帧中各个像素点的像素值，以及第一平均亮度、第一标准差、第二平均亮度和第二标准差，确定第一结构相似度，具体实现过程可以通过如下公式(7)和公式(8)实现：

其中，s(x,y)为第一结构相似度，N为第一视频帧或第二视频帧中的像素点数目，x表示第一视频帧，μ_x为第一视频帧的第一平均亮度，σ_x为第一标准差；y表示第二视频帧，μ_y表示第二平均亮度，σ_y为第二标准差；C₃也为防止分母为0的常数。

需要说明的是，确定出第一亮度相似度、第一对比度相似度和第一结构相似度后，可以通过如下公式(9)，确定第一视频帧和第二视频帧之间的第一相似性：

SSIM(x,y)＝[l(x,y)]^α·[c(x,y)]^β·[s(x,y)]^γ (9)

其中，SSIM(x,y)表示第一相似性，l(x,y)表示第一亮度相似度，c(x,y)表示第一对比度相似度，s(x,y)表示第一结构相似度，α、β、γ为设定常数。

具体实现时，一般可以设定α＝β＝γ＝1，

此时，可以将上述公式(9)简化为如下公式(10)：

需要说明的，SSIM的取值区间为0～1，两图越相似，图像越相近，当两幅图完全相同时，SSIM(x,y)＝1。

另外，分别确定第一字幕区域和第二字幕区域之间的第二亮度相似度、第二对比度相似度和第二结构相似度，并基于第二亮度相似度、第二对比度相似度和第二结构相似度，确定第一字幕区域和第二字幕区域之间的第二相似性，具体实现过程与上述确定第一相似性的具体实现过程相同，本申请在此不再赘述。

本申请实施例中，分别计算了第一视频帧和第二视频帧之间的第一亮度相似度、第一对比度相似度、第一结构相似度等三个度量，之后可以结合该三个度量维度计算第一视频帧和第二视频帧之间的第一相似性，采用同样的方法可以计算出第一字幕区域和第二字幕区域之间的第二相似性，计算出的第一相似性和第二相似性准确度较高，从而保证了后续插帧的质量。

步骤208：基于第一相似性和第二相似性，确定目标待插帧，并将目标待插帧插入第一视频帧和第二视频帧之间。

需要说明的是，确定出第一视频帧和第二视频帧之间的第一相似性，并确定第一字幕区域和第二字幕区域之间的第二相似性之后，可以结合该两个相似性，确定第一视频帧和第二视频帧是否满足相似性要求，从而确定第一视频帧和第二视频帧是否相似，基于确定结果，采用对应的策略确定出目标待插帧，实现视频插帧。

本实施例一个可选的实施方式中，基于第一相似性和第二相似性，确定目标待插帧，具体实现过程可以如下：

在第一相似性和第二相似性均满足相似性条件的情况下，根据第一视频帧和第二视频帧，生成对应的合成帧，将合成帧作为目标待插帧；

在第一相似性或第二相似性不满足相似性条件的情况下，复制第一视频帧或第二视频帧，获得复制视频帧，将复制视频帧作为目标待插帧。

具体的，相似性条件可以是指预先设置的、用于指示两个图像相似的条件，如相似性条件为第一相似性大于第一阈值，第二相似性大于第二阈值，第一阈值和第二阈值可以相同，也可以不同。

实际应用中，在第一相似性和第二相似性均满足相似性条件的情况下，即第一相似性大于第一阈值，且第二相似性大于第二阈值，说明第一视频帧和第二视频帧的整体画面和结构相似，不存在镜头切换，并且第一字幕区域和第二字幕区域也相似，此时可以确定第一视频帧和第二视频帧为连续的两帧视频帧，且不存在镜头切换和字幕变化，此时可以混合第一视频帧和第二视频帧，生成合成帧，作为目标待插帧，插入第一视频帧和第二视频帧之间。

在第一相似性或第二相似性不满足相似性条件的情况下，即第一相似性不大于第一阈值，或第二相似性不大于第二阈值，说明第一视频帧和第二视频帧的整体画面和结构不相似，或者第一字幕区域和第二字幕区域不相似，此时可以确定第一视频帧和第二视频帧之间存在镜头切换，或者存在字幕变化，此时不能混合第一视频帧和第二视频帧，会导致视频画面或者字幕出现伪影，因而此时可以直接复制第一视频帧或第二视频帧，获得复制视频帧，作为目标待插帧，插入第一视频帧和第二视频帧之间。

示例的，可以判断前后两帧视频帧的图像相似性(SSIM_t)以及两帧视频帧中被选中的字幕区域的相似性(SSIM_s)，假设两个相似性阈值均为0.6，那么当前后两帧视频帧的图像相似性SSIM_t大于0.6，且字幕区域的相似性SSIM_s大于0.6，即表示两视频帧的整体画面和结构相似，且第一字幕区域和第二字幕区域也相似，进行模型混合插帧，否则，复制前一帧或后一帧作为插帧结果。

需要说明的是，可以将字幕位置参数作为一个先验信息，输入视频处理平台，视频处理平台在每次进行插帧前，不仅要计算一遍整张视频帧的画面相似性，同时还要计算字幕区域的相似性，若二者之一不满足条件，都会触发复制帧的操作而不进行模型混合插帧的操作，避免了字幕出现伪影，提高了插帧质量和插帧效果。

本实施例一个可选的实施方式中，可以基于预先训练好的插帧模型，混合第一视频帧和第二视频帧，确定出对应的合成帧，也即根据第一视频帧和第二视频帧，生成对应的合成帧，具体实现过程可以如下：

根据第一视频帧和第一视频帧，确定目标插帧时刻；

将第一视频帧、第二视频帧和目标插帧时刻输入训练好的插帧模型中，获得插帧模型输出的合成帧，其中，合成帧为目标插帧时刻对应的合成帧。

实际应用中，可以先将第一视频帧和第二视频帧输入至训练完成的光流估计模型中，获得光流估计模型输出的帧间光流图，然后再基于帧间光流图，确定第一视频帧和第二视频帧之间的光流强度指标，并根据光流强度范围和插帧时刻之间的对应关系，确定光流强度指标对应的目标插帧时刻。其中，该光流估计模型可以是任意基于深度学习的光流估计模型(例如：RAFT(RecurrentAll Pairs Field Transforms for Optical Flow，光流场的递归全对场变换)，一种新的光流深度神经架构；FlowNet(Learning Optical FlowwithConvolutional Networks，神经光流网络)，用卷积网络实现光流预测；……等)或者是传统光流估计算法(例如：Lucas-Kanade，一种两帧差分的光流估计算法)。

本实施例一个可选的实施方式中，基于帧间光流图，确定第一视频帧和第二视频帧之间的光流强度指标，包括：

确定目标像素点在横轴方向上的横轴分量，以及在纵轴方向上的纵轴分量，其中，目标像素点为帧间光流图中的任一像素点；

基于帧间光流图中各像素点的横轴分量，确定平均横轴分量，并基于帧间光流图中各像素点的纵轴分量，确定平均纵轴分量；

基于横轴分量、纵轴分量、平均横轴分量和平均纵轴分量，确定第一视频帧和第二视频帧之间的光流强度指标。

具体实现时，可以通过如下公式(11)确定第一视频帧和第二视频帧之间的光流强度指标：

Ind＝max(max₉₉(F_x)/max(1.0，mean(abs(F_x)))，max₉₉(F_y)/max(1.0，mean(abs(F_y)))) (11)

其中，Ind表示光流强度指标；max为最大值函数，min为最小值函数，mean为平均值函数，abs为绝对值函数。F_x为目标像素点的光流F在横轴方向上的横轴分量，F_y为目标像素点的光流F在纵轴方向上的纵轴分量；max₉₉表示最大值，取各像素点的光流中99分位的值作为最大光流值，其目的是为了排除异常大值对最终结果的影响。

由上述公式(1)可知，分别计算两个分量上最大光流值和平均光流值的比值，而不直接采用光流的最大值作为最终的光流强度指标，可以减少帧间光流图中运动幅度的作用。另外，mean(abs(Fx))的值有可能小于1，因而上述公式(1)中将平均光流值的下限设置为1，可以防止平均光流值小于1时所求的光流强度指标结果被放大，也是防止异常小值对结果的影响，然后再取两个分量中最大的一个比值作为最终的光流强度指标。

需要说明的是，光流是一个矢量，一般得到的帧间光流图是一个(h,w,2)的两通道、尺寸和原始视频帧相同的图像数据，假如两帧视频帧中的同一个物体在运动过程中都只是一个像素点的大小，那么此物体在两视频帧之间运动的距离和方向则是此物体或者是此像素点的光流，在水平方向的移动距离和方向就是光流在横轴方向上的横轴分量，在垂直方向上的移动距离和方向就是光流在纵轴方向上的纵轴分量，两个矢量组成最终的光流矢量。

实际应用中，光流强度指标越小，说明运动越小，可以选择中间时刻作为目标插帧时刻；光流强度指标越大，说明运动越大，应该尽量向前靠近第一视频帧或者向后靠近第二视频，因而光流强度范围和插帧时刻之间的对应关系中，一个光流强度范围可能对应有两个插帧时刻，一个插帧时刻向前偏移靠近第一视频帧，另一个插帧时刻向后偏移靠近第二视频帧，且向前偏移的数值和向后偏移的数值对称。在基于光流强度范围和插帧时刻之间的对应关系，确定光流强度指标对应的目标插帧时刻时，可以任意选择向前偏移的插帧时刻，或者向后偏移的插帧时刻，但是针对一个待插帧视频，选择规则应当一致，也即针对一个待插帧视频，在光流强度指标较大时，每次插帧均向前偏移，或者均向后偏移。

作为一种示例，预先设置的光流强度范围和插帧时刻之间的对应关系表如下表1所示，假设基于帧间光流图，确定出的第一视频帧和第二视频帧之间的光流强度指标为30，且假设光流强度指标较大时，插帧时刻向左偏移，基于如下表1，可以确定出对应的目标插帧时刻t＝0.25。

表1 光流强度范围和插帧时刻之间的对应关系表

光流强度范围	插帧时刻
		小于等于15	0.5
大于15小于等于20	0.4(或者0.6)
		大于20小于等于25	0.3(或者0.7)
大于25	0.25(或者0.75)

另外，确定出目标插帧时刻之后，可以将第一视频帧、第二视频帧和目标插帧时刻输入训练好的插帧模型中，获得插帧模型输出的合成帧，其中，合成帧为目标插帧时刻对应的合成帧。

其中，该插帧模型可以是任何一种基于深度学习并支持任意时刻插帧的模型(例如：RIFE(Real-Time Intermediate Flow Estimation for Video Frame Interpolation，一种实时中间流估计算法)，IFRNet(Intermediate Feature Refine Network forEfficient Frame Interpolation，只包含一个编解码结构的视频插帧网络)，……等等)，采用此插帧模型是因为其推理速度快，同时能够在两视频帧之间的任意时刻位置进行插帧。

需要说明的是，可以将第一视频帧、第二视频帧和插帧时刻信息输入训练完成的插帧模型，获得插帧模型针对目标插帧时刻输出的目标合成帧，利用基于光流的插帧模型可以在两帧之间任意时刻位置进行插帧、并且时间越靠近任一输入帧其插帧伪影越少的特点，借助额外的光流估计模型判断帧间光流大小来决定插帧时刻位置，从而规避模型直接在中间时刻插帧可能出现严重伪影的问题，大大提高了最终的插帧结果的感官效果。

本实施例一个可选的实施方式中，将第一视频帧、第二视频帧和插帧时刻信息输入训练完成的插帧模型，获得插帧模型输出的目标合成帧，具体实现过程可以如下：

将第一视频帧、第二视频帧和插帧时刻信息输入插帧模型的光流分析层，通过光流分析层确定第一时间戳至目标插帧时刻的第一光流，以及目标插帧时刻至第二时间戳的第二光流，其中，第一时间戳为第一视频帧的时间戳，第二时间戳为第二视频帧的时间戳；

通过插帧模型的采样层基于第一光流从第一视频帧中采样，获得第一采样结果，并基于第二光流从第二视频帧中采样，获得第二采样结果；

通过插帧模型的融合层基于设定融合权重，对第一采样结果和第二采样结果进行融合，获得并输出目标合成帧。

实际应用中，向插帧模型输入两帧连续视频帧以及需要插帧的目标插帧时刻，插帧模型的光流分析层会先生成第一时间戳至目标插帧时刻的第一光流和目标插帧时刻至第二时间戳的第二光流，再通过采用层的映射操作(warp操作)分别从两张输入的视频帧中采样，获得第一采样结果和第二采样结果，并通过插帧模型的融合层，按插帧模型生成的融合权重对两次采样结果融合，生成最终目标插帧时刻对应的目标合成帧。

需要说明的是，从获得的光流中可以知道第一视频帧中某一像素点在两视频帧之间的运动方向和大小，然后通过映射操作(warp操作)将对应像素点根据获得的两个光流可以映射回对应的坐标位置，实现对输入的两视频帧进行采样。另外，设定融合权重是插帧模型的一个中间输出结果，插帧模型可自行计算出前后两视频帧的每个像素点的权重。例如，第一视频帧的像素点a和第二视频帧的像素点b都被映射到中间的合成帧的某一位置C，但一个位置只能放一个像素点，此时需要权衡a、b两个像素点在C中的比重，此时可以使用上述设定融合权重来平衡。

本申请实施例中，可以借助额外的光流估计模型得到两帧之间的光流，并作为一种先验信息自适应地指导插帧模型的插帧时刻往前或者往后移动。往前移动，目标合成帧会更接近第一视频帧，此时第一时间戳至目标插帧时刻的光流会相对较小，虽然目标插帧时刻至第二时间戳的光流会很大，但即使目标插帧时刻至第二时间戳的光流估计不准确，在融合过程中由于插帧模型机制使得目标插帧时刻至第二时间戳的光流的融合权重会很小，因此不会对最终结果造成实质性的影响，最终较小的融合权重会降低目标插帧时刻至第二时间戳的光流对结果的影响程度，保证了不会造成与前后两帧都不像的局面，而是更接近第一视频帧；同理，如果将目标合成帧时刻往后移，能够使得目标合成帧与第二视频帧更像。如此，利用了任意时刻插帧及插帧越靠近任一输入帧，其插帧伪影越少的特点，大幅改善大运动导致的中间时刻插帧出现伪影的问题。

本实施例一个可选的实施方式中，将目标待插帧插入第一视频帧和第二视频帧之间之后，还包括：

确定当前是否满足插帧结束条件；

若满足插帧结束条件，则将插入目标待插帧后的视频作为获得的插帧视频；

若不满足插帧结束条件，则继续执行从待插帧视频中获取连续的第一视频帧和第二视频帧的操作步骤。

具体的，插帧结束条件是预先设置的、待插帧视频完成插帧所需满足的条件，如插帧结束条件可以为待插帧视频中任意连续的两视频帧之间均完成了插入目标合成帧；或者，如插帧结束条件还可以为待插帧视频中指定得连续两视频帧之间完成了插入目标合成帧。

实际应用中，将目标待插帧插入第一视频帧和第二视频帧之间之后，可以确定当前是否满足插帧结束条件；若满足插帧结束条件，则说明插帧完成，此时可以将插入目标待插帧后的视频作为获得的插帧视频；若不满足插帧结束条件，则继续执行从待插帧视频中确定连续的第一视频帧和第二视频帧的操作步骤，继续在两视频帧之间的目标插帧时刻插入目标待插帧，直至满足插帧结束条件。

需要说明的是，本申请实施例提供的视频插帧方法，可以作为一个即插即用的扩展模块，可用于任何一种支持任意时刻插帧的插帧模型。

本申请提供的视频插帧方法，可以基于获取到的字幕位置参数，确定第一视频帧和第二视频帧的字幕区域，在第一视频帧和第二视频帧之间插帧时，可以计算第一视频帧和第二视频帧之间的第一相似性，并计算第一字幕区域和第二字幕区域之间的第二相似性，基于上述两个相似性，确定对应的目标待插帧，再将目标待插帧插入第一视频帧和第二视频帧之间。如此，同时考虑了两帧视频帧的相似性，以及两帧视频帧中字幕区域的相似性，即使两帧视频帧的整体画面和内容是连续的，还进一步考虑了字幕区域的相似性，综合确定出目标待插帧，避免了字幕出现伪影，提高了插帧质量和插帧效果。

下述结合附图4，以本申请提供的视频插帧方法在线下视频处理工具中的应用为例，对视频插帧方法进行进一步说明。其中，图4示出了本申请一实施例提供的一种应用于线下视频处理工具的视频插帧方法的处理流程图，具体包括以下步骤：

步骤402：用户将带有字幕的视频导入视频处理工具中，并且用户将视频中的字幕区域大致选中，视频处理工具确定用户选中的字幕区域的字幕位置参数。

步骤404：视频处理工具从待插帧视频中获取连续的第一视频帧和第二视频帧，基于该字幕位置参数，确定第一视频帧中的第一字幕区域，并确定第二视频帧中的第二字幕区域。

步骤406：确定第一视频帧和第二视频帧之间的第一相似性，并确定第一字幕区域和第二字幕区域之间的第二相似性。

步骤408：在第一相似性和第二相似性均满足相似性条件的情况下，根据第一视频帧和第二视频帧，通过插帧模型生成对应的合成帧，将合成帧作为目标待插帧。

步骤410：在第一相似性或第二相似性不满足相似性条件的情况下，复制第一视频帧或第二视频帧，获得复制视频帧，将复制视频帧作为目标待插帧。

步骤412：将目标待插帧插入第一视频帧和第二视频帧之间，视频处理平台循环执行步骤404，直至插帧完成。

与上述方法实施例相对应，本申请还提供了视频插帧装置实施例，图5示出了本申请一实施例提供的一种视频插帧装置的结构示意图。如图5所示，该装置包括：

获取模块502，被配置为从待插帧视频中获取连续的第一视频帧和第二视频帧；

第一确定模块504，被配置为基于待插帧视频中的字幕位置参数，确定第一视频帧中的第一字幕区域，并确定第二视频帧中的第二字幕区域；

第二确定模块506，被配置为确定第一视频帧和第二视频帧之间的第一相似性，并确定第一字幕区域和第二字幕区域之间的第二相似性；

第三确定模块508，被配置为基于第一相似性和第二相似性，确定目标待插帧，并将目标待插帧插入第一视频帧和第二视频帧之间。

可选地，该装置还包括第四确定模块，被配置为：

获取待插帧视频，其中，待插帧视频为带有字幕的视频；

可选地，该装置还包括第五确定模块，被配置为：

获取待插帧视频，其中，待插帧视频为带有字幕的视频；

可选地，第三确定模块508，进一步被配置为：

根据第一视频帧和第一视频帧，确定目标插帧时刻；

可选地，第二确定模块506，进一步被配置为：

可选地，该装置还包括第六确定模块，被配置为：

确定当前是否满足插帧结束条件；

若不满足插帧结束条件，则继续返回运行上述获取模块502。

本申请提供的视频插帧装置，可以基于获取到的字幕位置参数，确定第一视频帧和第二视频帧的字幕区域，在第一视频帧和第二视频帧之间插帧时，可以计算第一视频帧和第二视频帧之间的第一相似性，并计算第一字幕区域和第二字幕区域之间的第二相似性，基于上述两个相似性，确定对应的目标待插帧，再将目标待插帧插入第一视频帧和第二视频帧之间。如此，同时考虑了两帧视频帧的相似性，以及两帧视频帧中字幕区域的相似性，即使两帧视频帧的整体画面和内容是连续的，还进一步考虑了字幕区域的相似性，综合确定出目标待插帧，避免了字幕出现伪影，提高了插帧质量和插帧效果。

上述为本实施例的一种视频插帧装置的示意性方案。需要说明的是，该视频插帧装置的技术方案与上述的视频插帧方法的技术方案属于同一构思，视频插帧装置的技术方案未详细描述的细节内容，均可以参见上述视频插帧方法的技术方案的描述。

图6示出了根据本申请一实施例提供的一种计算设备的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，LocalAreaNetwork)、广域网(WAN，WideAreaNetwork)、个域网(PAN，PersonalAreaNetwork)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，Network InterfaceController))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocalAreaNetworks)无线接口、全球微波互联接入(Wi-MAX，Worldwide Interoperabilityfor Microwave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，NearField Communication)接口，等等。

在本申请的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行如下计算机可执行指令，以实现下述方法：

从待插帧视频中获取连续的第一视频帧和第二视频帧；

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的视频插帧方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述视频插帧方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时以用于实现任意视频插帧方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频插帧方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频插帧方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

计算机指令包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种视频插帧方法，其特征在于，包括：

从待插帧视频中获取连续的第一视频帧和第二视频帧；

基于所述待插帧视频中的字幕位置参数，确定所述第一视频帧中的第一字幕区域，并确定所述第二视频帧中的第二字幕区域；

确定所述第一视频帧和所述第二视频帧之间的第一相似性，并确定所述第一字幕区域和所述第二字幕区域之间的第二相似性；

基于所述第一相似性和所述第二相似性，确定目标待插帧，并将所述目标待插帧插入所述第一视频帧和第二视频帧之间。

2.根据权利要求1所述的视频插帧方法，其特征在于，所述从待插帧视频中获取连续的第一视频帧和第二视频帧之前，还包括：

获取待插帧视频，其中，所述待插帧视频为带有字幕的视频；

接收用户针对所述待插帧视频的框选操作，基于所述框选操作确定所述字幕位置参数，其中，所述框选操作用于框选所述待插帧视频中的字幕区域。

3.根据权利要求1所述的视频插帧方法，其特征在于，所述从待插帧视频中获取连续的第一视频帧和第二视频帧之前，还包括：

确定所述待插帧视频包括的各个视频帧，并识别所述各个视频帧中的字幕区域；

确定所述各个字幕区域中区域范围最大的目标字幕区域，将所述目标字幕区域的位置参数作为所述字幕位置参数。

4.根据权利要求1所述的视频插帧方法，其特征在于，所述基于所述第一相似性和所述第二相似性，确定目标待插帧，包括：

在所述第一相似性和所述第二相似性均满足相似性条件的情况下，根据所述第一视频帧和所述第二视频帧，生成对应的合成帧，将所述合成帧作为所述目标待插帧；

在所述第一相似性或所述第二相似性不满足相似性条件的情况下，复制所述第一视频帧或第二视频帧，获得复制视频帧，将所述复制视频帧作为所述目标待插帧。

5.根据权利要求4所述的视频插帧方法，其特征在于，所述根据所述第一视频帧和所述第二视频帧，生成对应的合成帧，包括：

根据所述第一视频帧和所述第一视频帧，确定目标插帧时刻；

将所述第一视频帧、所述第二视频帧和所述目标插帧时刻输入训练好的插帧模型中，获得所述插帧模型输出的合成帧，其中，所述合成帧为所述目标插帧时刻对应的合成帧。

6.根据权利要求1-5任一项所述的视频插帧方法，其特征在于，所述确定所述第一视频帧和所述第二视频帧之间的第一相似性，包括：

分别确定所述第一视频帧和所述第二视频帧之间的第一亮度相似度、第一对比度相似度和第一结构相似度，并基于所述第一亮度相似度、所述第一对比度相似度和所述第一结构相似度，确定所述第一视频帧和所述第二视频帧之间的第一相似性；

相应地，所述确定所述第一字幕区域和所述第二字幕区域之间的第二相似性，包括：

分别确定所述第一字幕区域和所述第二字幕区域之间的第二亮度相似度、第二对比度相似度和第二结构相似度，并基于所述第二亮度相似度、所述第二对比度相似度和所述第二结构相似度，确定所述第一字幕区域和所述第二字幕区域之间的第二相似性。

7.根据权利要求6所述的视频插帧方法，其特征在于，所述分别确定所述第一视频帧和所述第二视频帧之间的第一亮度相似度、第一对比度相似度和第一结构相似度，包括：

基于所述第一视频帧中各个像素点的像素值，确定所述第一视频帧的第一平均亮度，并基于所述第二视频帧中各个像素点的像素值，确定所述第二视频帧的第二平均亮度；根据所述第一平均亮度和所述第二平均亮度，确定所述第一亮度相似度；

基于所述第一视频帧中各个像素点的像素值和所述第一平均亮度，确定所述第一视频帧中像素值的第一标准差，并基于所述第二视频帧中各个像素点的像素值和所述第二平均亮度，确定所述第二视频帧中像素值的第二标准差；根据所述第一标准差和所述第二标准差，确定所述第一对比度相似度；

基于所述第一视频帧和所述第二视频帧中各个像素点的像素值，以及所述第一平均亮度、所述第一标准差、所述第二平均亮度和所述第二标准差，确定所述第一结构相似度。

8.根据权利要求1-5任一项所述的视频插帧方法，其特征在于，所述将所述目标待插帧插入所述第一视频帧和第二视频帧之间之后，还包括：

确定当前是否满足插帧结束条件；

若满足所述插帧结束条件，则将插入所述目标待插帧后的视频作为获得的插帧视频；

若不满足所述插帧结束条件，则继续执行从待插帧视频中获取连续的第一视频帧和第二视频帧的操作步骤。

9.一种视频插帧装置，其特征在于，包括：

第一确定模块，被配置为基于所述待插帧视频中的字幕位置参数，确定所述第一视频帧中的第一字幕区域，并确定所述第二视频帧中的第二字幕区域；

第二确定模块，被配置为确定所述第一视频帧和所述第二视频帧之间的第一相似性，并确定所述第一字幕区域和所述第二字幕区域之间的第二相似性；

第三确定模块，被配置为基于所述第一相似性和所述第二相似性，确定目标待插帧，并将所述目标待插帧插入所述第一视频帧和第二视频帧之间。

10.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现下述方法：

从待插帧视频中获取连续的第一视频帧和第二视频帧；

11.一种计算机可读存储介质，其特征在于，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至8任意一项所述视频插帧方法的步骤。