CN115334334B

CN115334334B - 视频插帧方法及装置

Info

Publication number: CN115334334B
Application number: CN202210821118.5A
Authority: CN
Inventors: 罗浩; 梅大为
Original assignee: Beijing Youku Technology Co Ltd
Current assignee: Beijing Youku Technology Co Ltd
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2024-01-09
Anticipated expiration: 2042-07-13
Also published as: CN115334334A

Abstract

本申请实施例公开了一种视频插帧方法及装置。其中主要方法包括：获取待处理的第一帧率视频帧序列；对所述第一帧率视频帧序列中的各视频帧分别进行字幕去除，得到去除字幕后的视频帧序列；以及对所述第一帧率视频帧序列中的各视频帧分别进行字幕抠取，得到各视频帧的字幕区域；对所述去除字幕后的视频帧序列进行插帧处理；将所述字幕区域对应增加至所述插帧处理后得到的视频帧序列中的各视频帧上，且使得相同字幕区域在不同视频帧中的空间位置一致，得到第二帧率视频帧序列；其中，所述第二帧率大于所述第一帧率。本申请能够解决视频插帧后导致的字幕抖动现象。

Description

视频插帧方法及装置

技术领域

本申请涉及图像处理技术领域，特别是涉及一种视频插帧方法及装置。

背景技术

随着硬件和软件的快速发展，网络上视频资源呈现爆发式的增长，视频已日渐成为生活中信息的主要载体之一。视频插帧技术通过对视频的帧率进行提升，可以带来更流畅的观看体验，是目前超高清视频的核心技术之一。

例如，目前主流电影帧率仅为24帧，无法匹配主流60Hz刷新率的电视屏幕，会造成一些高速移动场景出现不连贯、模糊等现象，影响观看体验。视频插帧技术可以根据两个相邻帧的关系，估算物体运动，插入一张中间帧，提升视频帧率，从而让视频中的画面更加流畅、运动细节展示更加清晰。

然而，传统视频插帧技术中，并未对字幕问题进行优化处理，导致得到的高帧率视频中经常出现字幕抖动现象，严重影响了用户观看视频的体验。

发明内容

有鉴于此，本申请提供了一种视频插帧方法及装置，用以减少视频插帧后导致的字幕抖动现象。

本申请提供了如下方案：

第一方面，提供了一种视频插帧方法，该方法包括：

获取待处理的第一帧率视频帧序列；

对所述第一帧率视频帧序列中的各视频帧分别进行字幕去除，得到去除字幕后的视频帧序列；以及对所述第一帧率视频帧序列中的各视频帧分别进行字幕抠取，得到各视频帧的字幕区域；

对所述去除字幕后的视频帧序列进行插帧处理；

将所述字幕区域对应增加至所述插帧处理后得到的视频帧序列中的各视频帧上，且使得相同字幕区域在不同视频帧中的空间位置一致，得到第二帧率视频帧序列；

其中，所述第二帧率大于所述第一帧率。

根据本申请实施例中一可实现的方式，对所述第一帧率视频帧序列中的各视频帧分别进行字幕去除包括：

将所述第一帧率视频帧序列中的各视频帧分别输入字幕修补模型，获取所述字幕修补模型输出的去除字幕后的各视频帧，其中所述字幕修补模型是基于卷积神经网络的端到端模型；或者，

分别对所述第一帧率视频帧序列中的各视频帧进行字幕区域识别，得到字幕区域和非字幕区域，利用非字幕区域的像素对所述字幕区域的像素进行插值处理，得到去除字幕后的各视频帧。

根据本申请实施例中一可实现的方式，所述字幕修补模型采用如下方式预先训练得到：

获取第一训练数据，所述第一训练数据包括多个帧对，各帧对包括不包含字幕的第一视频帧以及包含字幕的第二视频帧；

将所述第二视频帧作为基于卷积神经网络的端到端模型的输入，将所述第一视频帧作为所述端到端模型的目标输出，训练所述端到端模型以作为字幕修补模型。

根据本申请实施例中一可实现的方式，对所述第一帧率视频帧序列中的各视频帧分别进行字幕抠取得到各视频帧的字幕区域包括以下方式：

第一种方式：对比所述第一帧率视频帧序列中去除字幕前后的各视频帧，得到各视频帧的字幕区域；或者，

第二种方式：将所述第一帧率视频帧序列中的各视频帧分别输入字幕区域识别模型，获取所述字幕区域识别模型输出的各视频帧的字幕区域，其中所述字幕区域识别模型为基于卷积神经网络的端到端模型；或者，

第三种方式：对比所述第一帧率视频帧序列中去除字幕前后的各视频帧，得到各视频帧的初始字幕区域，对连续视频帧具有的相同初始字幕区域融合为一个字幕区域，得到该连续视频帧的字幕区域；或者，

第四种方式：将所述第一帧率视频帧序列中的各视频帧分别输入字幕区域识别模型，获取所述字幕区域识别模型输出的各视频帧的字幕区域作为初始字幕区域，将具有相同初始字幕区域的连续视频帧融合为一个视频帧，将融合得到的视频帧输入所述字幕区域识别模型，得到所述字幕区域识别模型输出的字幕区域作为所述连续视频帧的字幕区域。

根据本申请实施例中一可实现的方式，所述字幕区域识别模型采用如下方式预先训练得到：

获取第二训练数据，所述第二训练数据包括多个包含字幕的第三视频帧以及对所述第三视频帧标注的字幕区域；

将所述第三视频帧作为基于卷积神经网络的端到端模型的输入，将对所述第三视频帧标注的字幕区域作为所述端到端模型的目标输出，训练所述端到端模型以作为字幕区域识别模型。

根据本申请实施例中一可实现的方式，若采用所述第一种方式或第二种方式，则该方法还包括：记录抠取得到的字幕区域对应的视频帧；

将所述字幕区域对应增加至所述插帧处理后得到的视频帧序列中的各视频帧上包括：将字幕区域增加至所述插帧处理后得到的视频帧序列中该字幕区域对应的视频帧，在插入帧中增加与其前一视频帧相同的字幕区域。

根据本申请实施例中一可实现的方式，若采用所述第三种方式或第四种方式，则在得到所述连续视频帧的字幕区域之后，还包括：记录字幕区域在所述连续视频帧中对应的起始视频帧和结束视频帧；

将所述字幕区域对应增加至所述插帧处理后得到的视频帧序列中的各视频帧上包括：将各字幕区域分别增加至所述插帧处理后得到的视频帧序列中该字幕区域对应的起始视频帧至结束视频帧之间的各视频帧。

第二方面，提供了一种视频插帧装置，该装置包括：

视频获取单元，被配置为获取待处理的第一帧率视频帧序列；

字幕去除单元，被配置为对所述第一帧率视频帧序列中的各视频帧分别进行字幕去除，得到去除字幕后的视频帧序列；

字幕抠取单元，被配置为对所述第一帧率视频帧序列中的各视频帧分别进行字幕抠取，得到各视频帧的字幕区域；

插帧处理单元，被配置为对所述去除字幕后的视频帧序列进行插帧处理；

字幕增加单元，被配置为将所述字幕区域对应增加至所述插帧处理后得到的视频帧序列中的各视频帧上，且使得相同字幕区域在不同视频帧中的空间位置一致，得到第二帧率视频帧序列；

其中，所述第二帧率大于所述第一帧率。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

根据第四方面，提供了一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1)本申请分别对第一帧率视频帧序列进行字幕去除和抠取后，对去除字幕后的视频帧序列进行插帧处理，将从各视频帧抠取出的字幕区域增加至插帧处理后得到的各视频帧上且使得相同字幕区域在不同视频帧中的空间位置一致，从而避免得到的第二帧率视频帧序列的字幕区域的抖动现象。

2)本申请在进行字幕抠取时，采用融合处理的方式对字幕区域进行优化处理，从而提高所抠取字幕区域的准确性，更进一步提高视频插帧的效果。

3)本申请所提供的视频插帧方式中对字幕的处理简洁、高效，不会对设备的计算性能产生压力。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本申请实施例的示例性系统架构图；

图2为本申请实施例提供的视频插帧方法的流程图；

图3a和图3b为本申请实施例提供的两种增加字幕区域的示意图；

图4示出根据一个实施例的视频插帧装置的示意性框图；

图5示例性的展示出了电子设备的架构。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

为了方便对本申请的理解，首先对本申请能够适用的系统进行详细描述。图1示出了可以应用本申请实施例的示例性系统架构，如图1中所示，该系统可以包括终端设备、媒体服务器、存储设备和视频插帧装置。

其中，终端设备可以是任意的能够播放视频的有屏设备，包括但不限于：智能移动终端、智能家居设备、可穿戴式设备、PC(个人计算机)等。其中智能移动设备可以包括诸如手机、平板电脑、笔记本电脑、PDA(个人数字助理)、互联网汽车等。智能家居设备可以包括智能电视、智能冰箱等。可穿戴式设备可以包括诸如智能手表、智能眼镜、智能手环、虚拟现实设备、增强现实设备、混合现实设备(即可以支持虚拟现实和增强现实的设备)等等。

由于终端设备的播放能力的差异，不同终端设备能够支持不同帧率的视频播放。例如有些终端设备仅支持低帧率的视频，有些终端设备能够支持高帧率的视频。用户也可以通过终端设备选择并请求播放不同帧率的视频。

媒体服务器接收到来自终端设备的视频播放请求后，可以从存储设备中选择对应帧率的视频进行播放。

在存储设备中存储有多种帧率的视频。在一些场景下，存储设备仅具有第一帧率的某视频，但若为了得到更高帧率的视频，可以由图1所示系统中的视频插帧装置采用本申请实施例中所提供的方式将第一帧率的视频进行插帧处理，得到第二帧率视频并存储于存储设备。其中第二帧率大于第一帧率。

这样当终端设备通过网络向媒体服务器请求第一帧率的视频或者第二帧率的视频时，都能够从存储设备中获取到并返回给终端设备进行播放。

视频插帧装置为位于服务器端的应用，或者还可以为位于服务器端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者，还可以位于具有较强计算能力的计算机终端。

上述媒体服务器以及视频插帧装置所在的服务器端可以是单一服务器，也可以是多个服务器构成的服务器群组，还可以是云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPs，Virtual Private Server)服务中存在的管理难度大，服务扩展性弱的缺陷。

上述网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络、服务器和存储设备的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、服务器和存储设备。需要说明的是，图1所示系统仅仅是本申请所适用的其中一种，还可以适用于其他系统。例如，视频插帧装置获取一个计算机终端上传的第一帧率的视频，将其进行插帧处理得到第二帧率的视频后回传给计算机终端或存储于存储空间，等等。

传统视频插帧技术中字幕通常作为视频帧的一部分来进行插入帧的预测，无论是采用将前后帧进行插值或者求平均等方式，还是进行运动估计的方式，都可能会造成字幕区域的抖动。而本申请则提出了一种全新的视频插帧方式，对其中的字幕进行特殊的处理来避免字幕区域的抖动现象。

图2为本申请实施例提供的视频插帧方法的流程图，该方法可以由图1所示系统中的视频插帧装置执行。如图2中所示，该方法可以包括以下步骤：

步骤202：获取待处理的第一帧率视频帧序列。

步骤204：对第一帧率视频帧序列中的各视频帧分别进行字幕去除，得到去除字幕后的视频帧序列。

步骤206：对第一帧率视频帧序列中的各视频帧分别进行字幕抠取，得到各视频帧的字幕区域。

需要说明的是，上述步骤204和步骤206没有严格的先后顺序，可以先后执行，也可以同时执行。

步骤208：对去除字幕后的视频帧序列进行插帧处理。

步骤210：将字幕区域对应增加至插帧处理后得到的视频帧序列中的各视频帧上，且使得相同字幕区域在不同视频帧中的空间位置一致，得到第二帧率视频帧序列，其中，第二帧率大于第一帧率。

由上面的流程可以看出，本申请分别对第一帧率视频帧序列进行字幕去除和抠取后，对去除字幕后的视频帧序列进行插帧处理，将从各视频帧抠取出的字幕区域增加至插帧处理后得到的各视频帧上且使得相同字幕区域在不同视频帧中的空间位置一致，从而避免得到的第二帧率视频帧序列的字幕区域的抖动现象。

在此需要说明的是，本申请实施例中所涉及的字幕可以是以文字形式显示视频中的对话、旁白、唱词、说明词等非影像内容，还可以是人物介绍、片名、演职员表等视频后期加工的文字。字幕的位置一般出现在屏幕下方，也可能出现在屏幕右侧靠边缘的位置，或者屏幕顶部，等等，通常是尽量减少对视频帧中主要的背景内容遮挡的位置。

下面对上述各步骤展开进行详细描述。首先结合实施例对上述步骤202即“获取待处理的第一帧率视频帧序列”进行详细描述。

本步骤中可以从诸如数据仓库、媒体服务器、甚至是其他计算机终端获取待处理的第一帧率的视频，由于视频是由一系列视频帧构成的，即以帧为单位的一系列为图图像。因此可以获取待处理的第一帧率视频帧序列，序列中的各视频帧存在时间上的顺序和固定间隔。以帧率为每秒24帧为例，那么在一秒钟对应有等间距顺序排列的24个视频帧。对于一段10分钟的视频，其对应的序列中包含14400个等间距图像帧构成的序列。各视频帧可以采用标志、帧号或者时间戳等进行标识。

这里的第一帧率并不一定是低帧率，本申请实施例中所涉及的“高”和“低”仅仅是相对概念，即基于第一帧率的视频进行插帧处理，得到提高了帧率的第二帧率的视频。

需要说明的是，本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制，仅仅用以在名称上加以区分，例如“第一帧率”和“第二帧率”用以区分两种帧率。

下面结合实施例对上述步骤204即“对第一帧率视频帧序列中的各视频帧分别进行字幕去除，得到去除字幕后的视频帧序列”进行详细描述。

本步骤中所涉及的字幕去除除了将各视频帧中字幕的部分去掉之外，还需要将其“修补”成融合了背景内容的部分。也就是说，并非将字幕从视频帧中简单地挖掉，而是将字幕部分替换成能与背景内容相融合的部分，即字幕消失并且看不出来有字幕留存的痕迹。

作为其中一种可实现的方式，本步骤可以采用基于图像结构的处理方式。例如针对第一帧率视频帧序列中的每一个视频帧，分别对视频帧进行字幕区域识别，得到字幕区域和非字幕区域；然后利用非字幕区域的像素对字幕区域的像素进行插值处理，得到去除字幕后的视频帧。

其中，字幕区域识别可以采用一些传统的识别方式，也可以基于CNN(Convolutional Neural Networks，卷积神经网络)的端到端模型。

列举其中一种传统的识别方法，首先对视频帧的灰度图像进行边缘检测，得到边缘图；然后在边缘图上分别进行水平和竖直方向的投影分析，通过投影直方图的分布确定出字幕的候选区域。如果存在多个候选区域，则可以根据字幕区域的尺寸和宽高比例范围过滤掉不合理的候选区域；然后通过将多个视频帧的候选区域进行对比，基本就能够得到字幕区域。

在采用基于CNN的端到端模型时，可以将视频帧输入字幕区域识别模型，获取字幕区域识别模型输出的该视频帧的字幕区域。该字幕区域识别模型基于CNN的端到端模型实现，实质上是一种分割模型。字幕区域识别模型可以采用如下方式预先训练得到：

首先获取第二训练数据，第二训练数据中包括多个包含字幕的第三视频帧以及对第三视频帧标注的字幕区域。其中可以获取一些已经明确其中的字幕区域的视频帧(本申请实施例中称为第三视频帧)作为训练样本。例如可以获取一些包含字幕的视频帧作为训练样本，采用人工标注的方式标注其中的字幕区域。

然后将第三视频帧作为基于卷积神经网络的端到端模型的输入，将对第三视频帧标注的字幕区域作为端到端模型的目标输出，训练端到端模型以作为字幕区域识别模型。其中，字幕区域识别模型可以从输入的第三视频帧中提取各像素的特征，然后基于各像素的特征进行分类映射，以确定各像素是否属于字幕区域，最终属于字幕区域的像素构成了字幕区域。其中训练目标为最小化字幕区域识别模型输出的字幕区域与标注的字幕区域之间的差异，可以依据上述训练目标构造损失函数，在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

在得到字幕区域和非字幕区域(即视频帧中除了字幕区域之外的其他区域)之后，可以利用非字幕区域对字幕区域进行插值处理，利用插值处理得到的结果替换原字幕区域的内容，就得到去除字幕后的“修补”结果。

作为另一种可实现的方式，本步骤可以直接采用基于CNN的端到端模型直接对各视频帧进行字幕区域的“修补”，输出去除字幕后的“修补”结果。即将第一帧率视频帧序列中的各视频帧分别输入字幕修补模型，获取字幕修补模型输出的去除字幕后的各视频帧。

其中字幕修补模型可以采用如下方式预先训练得到：

首先获取第一训练数据，第一训练数据包括多个帧对，各帧对包括不包含字幕的第一视频帧以及包含字幕的第二视频帧。其中可以构造一些针对来作为训练字幕修补模型所采用的训练数据(在此称为第一训练数据)。例如，可以将不包含字幕的第一视频帧添加上字幕后，得到第二视频帧，然后将第一视频帧和第二视频帧组成一个帧对添加入第一训练数据中。

然后将第二视频帧作为基于卷积神经网络的端到端模型的输入，将第一视频帧作为端到端模型的目标输出，训练端到端模型以作为字幕修补模型。其中，字幕修补模型可以从输入的第二视频帧中提取各像素的特征，然后基于各像素的特征进行全连接处理，再经过解码器对视频帧进行重建，就能够得到将字幕区域进行重建(即“修补”)后的视频帧。其中训练目标为最小化字幕修补模型输出的视频帧与对应的第一视频帧之间的差异，可以依据上述训练目标构造损失函数，在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

下面结合实施例对上述步骤206即“对第一帧率视频帧序列中的各视频帧分别进行字幕抠取，得到各视频帧的字幕区域”进行详细描述。

本步骤实际上是从各视频帧中将字幕区域抠取出来，可以采用多种方式是实现，在此列举以下几种方式：

第一种方式：若先执行了步骤204得到去除字幕后的各视频帧，则在本步骤中可以通过对比第一帧率视频帧序列中去除字幕前后的视频帧，得到该视频帧的字幕区域。

例如，对于同一个视频帧，将经过步骤204去除字幕后的该视频帧与原视频帧进行比对，确定出差异的像素，这些像素就构成了该视频帧的字幕区域。

第二种方式：若先执行了步骤204得到去除字幕后的各视频帧，则在本步骤中可以通过对比第一帧率视频帧序列中去除字幕前后的视频帧，得到该视频帧的初始字幕区域，对连续视频帧具有的相同初始字幕区域融合为一个字幕区域，得到该连续视频帧的字幕区域。

这种方式可以看做是第一种方式基础上的优化方法，由于各帧的字幕区域可能会存在一定的偏差，因此可以将按照上述方式是进行比对后得到的字幕区域在本方式中作为初始字幕区域。经验上一个字幕通常会停留大概至少1秒钟，因此会存在连续多个视频帧具有相同的字幕区域。具体在判断哪些连续的视频帧具有相同的字幕区域时，可以通过将视频帧的初始字幕区域之间进行相似度的计算，若相似度大于或等于预设的相似度阈值(例如95％)，则认为具有相同初始字幕区域。然后将连续视频帧具有的相同初始字幕区域进行融合处理，例如对其中的每个像素进行灰度值的求平均处理，得到一个字幕区域，将该字幕区域作为上述连续视频帧的字幕区域。在此可以对字幕区域对应的连续视频帧进行记录，例如记录对应的连续视频帧的标识、帧号或者时间戳等，也可以仅对应记录起始视频帧和结束视频帧，即字幕区域在时序上对应的位置。

第三种方式：将第一帧率视频帧序列中的各视频帧分别输入字幕区域识别模型，获取字幕区域识别模型输出的各视频帧的字幕区域，其中字幕区域识别模型为基于卷积神经网络的端到端模型。

关于字幕区域识别模型以及字幕区域识别模型的训练方式在之前的实施例中已经详细描述，在此不做赘述。

第四种方式：将第一帧率视频帧序列中的各视频帧分别输入字幕区域识别模型，获取字幕区域识别模型输出的各视频帧的字幕区域作为初始字幕区域，将具有相同初始字幕区域的连续视频帧融合为一个视频帧，将融合得到的视频帧输入字幕区域识别模型，获取字幕区域识别模型输出的字幕区域作为连续视频帧的字幕区域。

这种方式是第三种方式基础上的优化，将字幕区域识别模型得到的字幕区域作为初始字幕区域。本方式中进行的融合处理是对视频帧的融合处理，例如对具有相同初始字幕区域的连续多个视频帧中的每个像素进行灰度值的求平均处理，得到融合后的视频帧。融合后的视频帧中，由于初始字幕区域是相同的，因此经过融合这部分的改变不大。但由于连续多个视频帧的背景内容相比较字幕区域是改变较大的，因此经过求平均处理后，非字幕区域部分变得更加“模糊”，因此将融合处理后得到的视频再次输入字幕区域识别模型后，更加容易区分出字幕区域和非字幕区域，因此识别得到的字幕区域更加准确。

对于上述第一种方式和第三种方式得到各视频帧的字幕区域后，可以记录各字幕区域对应的视频帧，例如记录字幕区域对应的视频帧的标志、帧号和时间戳等。对于上述第二种方式和第四种方式得到连续视频帧的字幕区域之后，可以记录字幕区域在该连续视频帧中对应的起始视频帧和结束视频帧。

经过上述步骤204和步骤206的处理，对于每一个视频帧而言，都被分成了两个内容：第一个内容是从视频帧中抠出来的字幕区域；另一个内容是去除了字幕的视频帧，该视频帧中已经没有了字幕的痕迹，得到的都是背景部分，原来字幕部分也被修补成了背景部分内容。

下面结合实施例对上述步骤208即“对去除字幕后的视频帧序列进行插帧处理”进行详细描述。

本步骤中进行插帧处理的对象是去除字幕后的视频帧序列，在视频帧之间预测待插相位视频帧时，针对各像素分别进行预测，实际上均是针对背景内容的预测。

关于插帧处理的具体方式可以采用目前已有的技术。目前已有的技术主要分为两类：一类是没有考虑相邻帧间运动状态的方式，比如帧间重复方法和帧间平均方法。帧间重复方法是指直接对待插相位视频帧的前一帧进行复制作为插入帧。帧间平均方法是指通过对待插相位视频帧的前后帧求平均得到插入帧。这一类方式容易产生图像运动突变的现象或运动物体边缘模糊的现象。因此大多数采用第二类方式。第二类是考虑了相邻帧间运动物体的运动状态，其中以运动估计与运动补偿的方法为代表。鉴于具体的插帧处理是目前已有的技术，在此不做详述。

下面结合实施例对上述步骤210即“将字幕区域对应增加至插帧处理后得到的视频帧序列中的各视频帧上，且使得相同字幕区域在不同视频帧中的空间位置一致，得到第二帧率视频帧序列”进行详细描述。

本步骤可以理解为将字幕区域重新“贴回”插帧处理后得到的无字幕区域的各视频帧上。具体可以采用但不限于以下两种方式：

第一种方式：若在步骤206中采用了第二种和第四种方式进行字幕区域抠取，则可以将各字幕区域分别增加至插帧处理后得到的视频帧序列中该字幕区域对应的起始视频帧至结束视频帧之间的各视频帧，且使得相同字幕区域在不同视频帧中的空间位置一致，得到第二帧率视频帧序列”。

以图3a示意性的举个例子，假设在第一帧率视频序列中第1～10帧对应相同的字幕区域，相同的字幕区域融合后得到字幕区域a。即该字幕区域a对应的起始视频帧为第1帧，结束视频帧为第10帧。假设进行插帧处理是在每一帧中间都插入了一个新的帧，图3a中插入帧用虚线框表示，从而将帧率提高了2倍。这就意味着插帧处理后得到的视频帧序列中，起始视频帧是第1帧，结束视频帧为第19帧，那么将字幕区域a增加至插帧处理后得到的视频帧序列中第1帧至第19帧之间的每一帧(包含第1帧和第19帧)。并且在每一帧中字幕区域a的空间位置(即在视频帧中的像素位置)是一致的。这样，在播放视频的过程中字幕区域a不会发生字幕抖动。

第二种方式：若在步骤206中采用了第一种或第三种方式进行字幕区域抠取，通常情况下原本第一帧率视频帧序列中，相同字幕在连续视频帧中的空间位置本身就是一致的。因此可以将字幕区域增加至插帧处理后得到的视频帧序列中该字幕区域对应的视频帧，在插入帧中增加与其前一视频帧相同的字幕区域。也就是说，将字幕区域贴回原本对应的视频帧，对于插入帧则直接填上其前一视频帧的字幕区域。

以图3b示意性的举个例子，假设第1～10帧去除字幕后的视频帧经过差值处理后，在每一帧中间都插入了一个新的帧，图3b中插入帧用虚线框表示，从而将帧率提高了2倍。插帧处理后原本第1帧还是第1帧，原本第10帧成为第19帧。在增加字幕区域时，将第1帧视频帧原本的字幕区域增加至插帧后得到的第1帧，将原本第2帧视频帧的字幕区域增加至插帧处理后得到的第3帧，将原本第3帧视频帧的字幕区域增加至插帧处理后得到的第5帧，以此类推，将原本第10帧视频帧的字幕区域增加至插帧处理后得到的第19帧。对于插帧处理后的插入帧第2帧，则增加与插帧处理后第1帧相同的字幕区域，空间位置也相同。对于插帧处理后的插入帧第4帧，则增加与插帧处理后第2帧相同的字幕区域，空间位置也相同。以此类推。

完成对插帧处理后得到的各视频帧增加字幕区域后，得到的第二帧率视频帧序列实际上就是第二帧率视频的数据。也就是说，在第一帧率视频的基础上生成了更高帧率的视频。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种视频插帧装置。图4示出根据一个实施例的视频插帧装置的示意性框图。如图4所示，该装置400可以包括：视频获取单元401、字幕去除单元402、字幕抠取单元403、插帧处理单元404和字幕增加单元405。其中各组成单元的主要功能如下：

视频获取单元401，被配置为获取待处理的第一帧率视频帧序列。

字幕去除单元402，被配置为对所述第一帧率视频帧序列中的各视频帧分别进行字幕去除，得到去除字幕后的视频帧序列。

字幕抠取单元403，被配置为对所述第一帧率视频帧序列中的各视频帧分别进行字幕抠取，得到各视频帧的字幕区域。

插帧处理单元404，被配置为对所述去除字幕后的视频帧序列进行插帧处理；

字幕增加单元405，被配置为将所述字幕区域对应增加至所述插帧处理后得到的视频帧序列中的各视频帧上，且使得相同字幕区域在不同视频帧中的空间位置一致，得到第二帧率视频帧序列；其中，所述第二帧率大于所述第一帧率。

作为其中一种可实现的方式，上述字幕去除单元402可以具体被配置为：将所述第一帧率视频帧序列中的各视频帧分别输入字幕修补模型，获取所述字幕修补模型输出的去除字幕后的各视频帧，其中所述字幕修补模型是基于卷积神经网络的端到端模型；或者，分别对所述第一帧率视频帧序列中的各视频帧进行字幕区域识别，得到字幕区域和非字幕区域，利用非字幕区域的像素对所述字幕区域的像素进行插值处理，得到去除字幕后的各视频帧。

上述字幕修补模型可以由第一训练单元(图中未示出)采用如下方式预先训练得到：

获取第一训练数据，所述第一训练数据包括多个帧对，各帧对包括不包含字幕的第一视频帧以及包含字幕的第二视频帧；将所述第二视频帧作为基于卷积神经网络的端到端模型的输入，将所述第一视频帧作为所述端到端模型的目标输出，训练所述端到端模型以作为字幕修补模型。

作为其中一种可实现的方式，字幕抠取单元403可以具体被配置为：

对比所述第一帧率视频帧序列中去除字幕前后的各视频帧，得到各视频帧的字幕区域；或者，

对比所述第一帧率视频帧序列中去除字幕前后的各视频帧，得到各视频帧的初始字幕区域，对连续视频帧具有的相同初始字幕区域融合为一个字幕区域，得到该连续视频帧的字幕区域；或者，

将所述第一帧率视频帧序列中的各视频帧分别输入字幕区域识别模型，获取所述字幕区域识别模型输出的各视频帧的字幕区域，其中所述字幕区域识别模型为基于卷积神经网络的端到端模型；或者，

将所述第一帧率视频帧序列中的各视频帧分别输入字幕区域识别模型，获取所述字幕区域识别模型输出的各视频帧的字幕区域作为初始字幕区域，将具有相同初始字幕区域的连续视频帧融合为一个视频帧，将融合得到的视频帧输入所述字幕区域识别模型，获取所述字幕区域识别模型输出的字幕区域作为所述连续视频帧的字幕区域。

上述字幕区域识别模型可以由第二训练单元(图中未示出)采用如下方式预先训练得到：

作为其中一种可实现的方式，字幕抠取单元403，还可以基于所述各视频帧的字幕区域，将连续视频帧具有的相同字幕区域融合为一个字幕区域，并确定融合后得到的各字幕区域对应的起始视频帧和结束视频帧。

相应地，字幕增加单元405将融合后得到的各字幕区域分别增加至所述插帧处理后得到的视频帧序列中该字幕区域对应的起始视频帧至结束视频帧之间的各视频帧。

作为另一种可实现的方式，字幕增加单元405可以将字幕区域增加至所述插帧处理后得到的视频帧序列中该字幕区域对应的视频帧，在插入帧中增加与其前一视频帧相同的字幕区域。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

其中，图5示例性的展示出了电子设备的架构，具体可以包括处理器510，视频显示适配器511，磁盘驱动器512，输入/输出接口513，网络接口514，以及存储器520。上述处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514，与存储器520之间可以通过通信总线530进行通信连接。

其中，处理器510可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器520可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器520可以存储用于控制电子设备500运行的操作系统521，用于控制电子设备500的低级别操作的基本输入输出系统(BIOS)522。另外，还可以存储网页浏览器523，数据存储管理系统524，以及视频插帧装置525等等。上述视频插帧装置525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器520中，并由处理器510来调用执行。

输入/输出接口513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口514用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线530包括一通路，在设备的各个组件(例如处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514，与存储器520)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514，存储器520，总线530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频插帧方法，其特征在于，该方法包括：

获取待处理的第一帧率视频帧序列；

对所述去除字幕后的视频帧序列进行插帧处理；

将所述字幕区域对应增加至所述插帧处理后得到的视频帧序列中的各视频帧上，且使得相同字幕区域在不同视频帧中的空间位置一致，得到第二帧率视频帧序列；其中，所述第二帧率大于所述第一帧率；

其中，对所述第一帧率视频帧序列中的各视频帧分别进行字幕抠取，得到各视频帧的字幕区域包括：将所述第一帧率视频帧序列中的各视频帧分别输入字幕区域识别模型，获取所述字幕区域识别模型输出的各视频帧的字幕区域作为初始字幕区域，将具有相同初始字幕区域的连续视频帧融合为一个视频帧，将融合得到的视频帧输入所述字幕区域识别模型，得到所述字幕区域识别模型输出的字幕区域作为所述连续视频帧的字幕区域。

2.根据权利要求1所述的方法，其特征在于，对所述第一帧率视频帧序列中的各视频帧分别进行字幕去除包括：

3.根据权利要求2所述的方法，其特征在于，所述字幕修补模型采用如下方式预先训练得到：

4.根据权利要求1所述的方法，其特征在于，所述字幕区域识别模型采用如下方式预先训练得到：

5.根据权利要求1所述的方法，其特征在于，在得到所述连续视频帧的字幕区域之后，还包括：记录字幕区域在所述连续视频帧中对应的起始视频帧和结束视频帧；

6.一种视频插帧装置，其特征在于，该装置包括：

字幕抠取单元，被配置为对所述第一帧率视频帧序列中的各视频帧分别进行字幕抠取，得到各视频帧的字幕区域，具体包括：将所述第一帧率视频帧序列中的各视频帧分别输入字幕区域识别模型，获取所述字幕区域识别模型输出的各视频帧的字幕区域作为初始字幕区域，将具有相同初始字幕区域的连续视频帧融合为一个视频帧，将融合得到的视频帧输入所述字幕区域识别模型，得到所述字幕区域识别模型输出的字幕区域作为所述连续视频帧的字幕区域；

其中，所述第二帧率大于所述第一帧率。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至5任一项所述的方法的步骤。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至5任一项所述的方法的步骤。