CN109816011B

CN109816011B - 视频关键帧提取方法

Info

Publication number: CN109816011B
Application number: CN201910055748.4A
Authority: CN
Inventors: 刘挺; 王鹏飞; 姜浩; 张伟; 许清泉
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2021-09-07
Anticipated expiration: 2039-01-21
Also published as: CN109816011A

Abstract

本发明公开了一种生成人像分割模型的方法和视频关键帧提取方法，生成人像分割模型的方法包括：获取训练集，其中训练集包括若干个由当前帧图像、上一帧掩膜图像、人工标注的当前帧掩膜图像组成的图像组；将由当前帧图像和上一帧掩膜图像组成的数组输入预训练的人像分割模型，人像分割模型为端对端模型，包括编码模型和解码模型，编码模型适于从数组中提取当前帧图像的特征，解码模型适于基于所提取的特征，输出当前帧掩膜图像；基于人工标注的当前帧掩膜图像和输出的当前帧掩膜图像，训练人像分割模型，以得到生成的人像分割模型。该方案能够基于人像掩模图像，提取出人像运动差异较大的视频帧作为关键帧，从而很好地表达人物的运动行为。

Description

视频关键帧提取方法

技术领域

本发明涉及图像处理技术领域，尤其是生成图像人像分割模型的方法和视频关键帧提取方法。

背景技术

视频关键帧是指镜头中最重要、具有代表性的一帧或多帧图像。随着网络基础设施的不断完善、新的网络技术应用及视频拍摄设备的普及，视频资源总量以及人们对视频资源的需求量也随之增加。尤其是对视频信息进行智能标注、自动分类、视频内容自动检测、过滤及视频内容检索等需求不断增加。视频关键帧提取作为视频信息处理的基础技术，直接影响高级视频处理的结果。

当前视频关键帧提取方法主要有：基于颜色(直方图)的帧差方法、基于运动分析方法及基于视频帧聚类方法。基于颜色的帧差法存在对光线变化敏感，不能体现全局特征或不能体现局部细节变化的缺点。基于运动分析的关键帧提取方法使用光流分析计算视频帧的运动量，存在算法复杂、计算量大的问题。基于聚类的关键帧提取方法可有效获取镜头显著变化的视觉内容，但聚类的方法不能保持视频帧所具有的时序关系和动态信息。

鉴于此，需要一种视频关键帧提取方法，能够解决传统关键帧提取技术中不能很好地表达人像特征的问题。

发明内容

为此，本发明提供了方法，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种生成人像分割模型的方法，该方法适于在计算设备中执行。在该方法中，首先获取训练集，其中训练集可以包括若干数量的由当前帧图像、上一帧掩膜图像、人工标注的当前帧掩膜图像组成的图像组。然后，将由当前帧图像和上一帧掩膜图像组成的数组输入预训练的人像分割模型。该人像分割模型为端对端模型，其中包括编码模型和解码模型，编码模型适于从数组中提取当前帧图像的特征，解码模型适于基于所提取的特征，输出当前帧掩膜图像。最后，基于人工标注的当前帧掩膜图像和输出的当前帧掩膜图像，训练人像分割模型，以得到生成的人像分割模型。

可选地，在上述方法中，由当前帧图像和上一帧掩膜图像组成的数组为当前帧图像的RGB三通道图像信息和上一帧掩膜图像的单通道掩膜信息连接成一个四通道数组。

可选地，在上述方法中，编码模型包括卷积处理层和下采样层，卷积处理层包括卷积层、激活层、归一化层。卷积层适于将卷积参数作用于编码模型的输入，以得到特征图。激活层适于将特征图进行非线性映射。归一化层适于调整特征图的数据分布。下采样层适于对特征图进行降采样。

可选地，在上述方法中，卷积层包括四个膨胀卷积，膨胀系数分别是2、 4、6、8。

可选地，在上述方法中，下采样层包括多个并列连接的池化层和卷积层，池化层的卷积核的大小为2×2，卷积层的卷积核大小为3×3。

可选地，在上述方法中，解码模型包括上采样层、卷积处理层和集连层。上采样层适于将输入解码模型的特征图的分辨率放大。集连层适于将不同层的特征图进行合并。

可选地，在上述方法中，上采样层包括多个反卷积层，反卷积层的卷积核大小为4×4。

可选地，在上述方法中，可以基于编码模型和解码模型的损失函数，使用反向传播算法调整人像分割模型的参数，以得到训练后的人像分割模型。

可选地，在上述方法中，人像分割模型可以从包含人像特征的图像中分割出人像特征，其中，掩模图像为人像掩模图像。

根据本发明的另一方面，提供了一种视频关键帧提取方法，该方法适于在计算设备中执行。在该方法中，首先将人像视频帧序列输入人像分割模型，以输出对应的人像掩膜图像序列帧。然后，从人像掩膜图像序列帧中过滤掉人像面积小于第一预定阈值的图像。最后，从过滤后的人像掩膜图像中提取形状特征差异大于第二阈值的图像，以作为关键帧。其中，人像分割模型基于上述的生成人像分割模型的方法生成。

可选地，在该方法中，可以对人像视频帧序列进行预处理，以将预处理后的人像视频帧序列作为人像分割模型的输入，预处理可以包括解码、缩放。

可选地，在该方法中，可以将人像视频帧序列的第一帧图像的掩膜图像设置为全黑。

可选地，在该方法中，可以首先从预定数量的人像掩膜图像序列帧中统计人像面积均值，以便确定人像掩膜图像的初始过滤阈值。然后，基于上一帧的过滤阈值、当前帧人像面积，确定当前帧的过滤阈值。最后，过滤掉人像面积低于初始过滤阈值或当前帧的过滤阈值的人像掩膜图像。

可选地，在该方法中，当前帧的过滤阈值通过下述公式计算：

w＝(y*0.25)*0.1+x*0.9

其中，x为上一帧过滤阈值，y为当前帧人像面积，w为当前帧的过滤阈值。

可选地，在该方法中，可以从过滤后的人像掩膜图像中提取形状特征，其中形状特征包括体态比、偏心率、主轴方向、代数不变矩中的任意一项或多项。然后，将当前帧的形状特征与已提取的所有关键帧的形状特征进行比较，将形状特征的差异大于第二预定阈值的图像作为关键帧。

可选地，在该方法中，体态比为人像掩模图像中人像轮廓的最小外接矩形的长轴与短轴的比值。

根据本发明的又一方面，提供了一种计算设备，包括：一个或多个处理器；和存储器；一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行如上所述方法中的任一方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当计算设备执行时，使得计算设备执行如上所述的方法中的任一方法。

根据本发明的方案，能够基于人像人像分割模型分割出人像掩模图像，在掩模图像的基础上进行特征提取和聚类，能够剔除掉不能表达人物行为特征的纯背景图像。并且抽取出人像运动差异较大的视频帧作为关键帧，提取的关键帧以人为主体，能够很好地表达人物的运动行为。本方案提供的视频关键帧提取方法可以用于人像视频内容索引、人像视频中的人物运动分析、人像视频生成动漫图片等多种应用场景。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的构造示意图；

图2示出了根据本发明一个实施例的生成人像分割模型的方法200的流程示意图；

图3示出了根据本发明的一个实施例的人像分割模型示意图；

图4示出了根据本发明的一个实施例的人像分割模型的网络结构示意图；

图5示出了根据本发明的一个实施例的卷积处理层的结构示意图；

图6示出了根据本发明的一个实施例的下采样层的结构示意图；

图7示出了根据本发明实施例的视频关键帧提取方法700的示意性流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

摄像头在一个场景下拍摄的各帧图像会有相当多的重复信息，通常选取能够描述主要内容的帧作为关键帧。对于人像视频，其关键帧一般从视频流中选取人像行为运动差异较大的若干帧作为人像视频关键帧。本方案将基于深度学习的图像人像分割模型应用于视频关键帧提取。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100 典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理器，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112 之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118 可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中，计算设备100被配置为执行生成人像分割模型的方法200或视频关键帧提取方法700，程序数据124中就包含了用于执行上述各方法的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备 162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中以编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外 (IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中，计算机可读介质中存储一个或多个程序，这一个或多个程序中包括执行某些方法的指令。

计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。当然，计算设备100也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机，或者是具有上述配置的服务器。本发明的实施方式对此均不作限制。

通过在计算设备100的程序数据124中存储用于执行根据本发明一个实施例的生成人像分割模型的方法200的指令，使得计算设备100执行方法200。图2示出了根据本发明一个实施例的生成人像分割模型的方法200的示意性流程图。该人像分割模型可以从包含人像特征的图像中分割出人像特征。需要说明的是，本发明提供的人像分割模型并不仅仅局限于人像特征的分割，还可以适用于对图像中任意感兴趣特征的分割。

如图2所示，方法200始于步骤S210，获取训练集，其中训练集可以包括多个由当前帧图像、上一帧掩膜图像、人工标注的当前帧掩膜图像组成的图像组。

其中，与目标检测需要准备的数据集不同，图像分割是图像中实体的整个轮廓，所以标注的内容就是物体的掩膜。可以有两种标注方式：一种是提供单个物体的掩膜、一种是提供物体轮廓的标点。

以人像分割为例具体阐述本发明方案：首先收集用于训练人像分割模型的训练集。训练集可以以图像组的方式构成，每个图像组包括三张图像：当前帧图像、上一帧图像的掩膜图像、人工标注的当前帧的掩膜图像。其中当前帧图像和上一帧掩膜图像作为人像分割模型的输入，当前帧掩膜图像作为人像分割模型的学习目标。可以预先对训练集进行处理，使训练集中的图像统一缩放到同一尺寸。需要说明的是，训练集对人像所占的面积不做限定，可以包含纯背景图像，即人像面积为0的图像。

随后在步骤S220中，将由当前帧图像和上一帧掩膜图像组成的数组输入预训练的人像分割模型。

其中，用于覆盖的特定图像或物体成为掩模，掩模图像为二维数组。将原图像的每个像素和掩模中每个对应像素进行与运算，就可以得到对应的掩模图像。根据本发明的一个实施例，掩模图像可以是人像掩模图像。由当前帧图像和上一帧掩膜图像组成的数组可以是当前帧图像的RGB三通道图像信息和上一帧掩膜图像的单通道掩膜信息连接成一个四通道数组。例如，在图像处理中，灰度通道用来衡量一个像素或图像的透明度。在非压缩的RGB图像中，每个像素是由四个部分组成：一个灰度通道和三个颜色分量(R、G、 B)。当灰度值为0时，该像素是完全透明的，而当灰度值为255时，则该像素是完全不透明。可以将包含颜色信息和灰度值信息的四通道数组作为人像分割模型的输入。

根据本发明的一个实施例，人像分割模型为端对端模型。端对端模型不仅能改进模型的性能，也能带来更好的开发速度和简洁性。从模型输入端到输出端会得到一个预测结果，与真实结果相比较会得到一个误差，这个误差会在模型中的每一层传递(反向传播)，每一层的表示都会根据这个误差来做调整，直到模型收敛或达到预期的效果才结束训练。为了解决像素定位的问题，一种是使用编码-解码架构，编码过程通过池化层逐渐减少位置信息、提取抽象信息，解码过程通过上采样层逐渐恢复位置信息，编码和解码之间有直接的连接。一种是Dilation膨胀卷积，又称空洞卷积。它是解决像素级输出模型的一种常用的卷积方式。由于下采样操作导致的信息丢失是不可逆的，为了解决池化导致损失图像细节信息的问题，可以使用空洞卷积代替池化的作用。

图3示出了根据本发明的一个实施例的人像分割模型示意图。如图3所示，人像分割模型可以包括编码部分和解码部分，也就是一个包含下采样和上采样的网络结构。具体地，编码部分用来从输入的当前帧图像信息和上一帧掩膜图像的时序信息中提取有判别力的语义特征，作为解码部分的输入。解码部分根据输入的语义特征，输出为当前帧的人像掩膜图像。图3所示的人像分割模型仅仅是示例性的，根据本发明的一个实现方式，整个网络可以包括二百多层。

图4示出了根据本发明的一个实施例的人像分割模型的网络结构示意图。其中，编码模型包括卷积处理层和下采样层，卷积处理层包括卷积层、激活层、归一化层。卷积层可以将卷积参数作用于编码模型的输入，以得到特征图。激活层可以将特征图进行非线性映射，以将特征图映射到更高维度的特征空间。归一化层可以调整特征图的数据分布。由于网络每一层的输入数据分布是一直在发生变化的，前面层训练参数的更新将导致后面层输入数据分布的变化，因此会引起后面每一层输入数据分布的改变。批量归一化层可以解决中间层数据分布发生改变的情况。下采样层适于对特征图进行降采样。下采样层也叫池化层，其具体操作与卷积层的操作基本相同，只是其卷积核为只取对应位置的最大值、平均值等(最大池化、平均池化)，并且不经过反向传播的修改。

在根据本发明的实施例中，结合图4，编码部分按照“【卷积层→归一化层→激活层】→下采样层→【卷积层→归一化层→激活层】→下采样层→【卷积层→归一化层→激活层】”的顺序依次连接。解码部分连接到编码部分的输出层，按照“上采样层→【卷积层→归一化层→激活层】→上采样层→【卷积层→归一化层→激活层】→上采样层→【卷积层→归一化层→激活层】”最后接一个集连层作为整个模型的输出。本发明的实施例对各层的数量不做限制。

图5示出了根据本发明的一个实施例的卷积处理层的结构示意图。其中，包括卷积、激活和归一化处理。表1示出了根据本发明一个实施例的人像分割模型中卷积处理层的部分网络结构。

表1人像分割模型中卷积处理层的部分网络结构

其中，BN表示批量归一化，ReLU表示非线性激活，kh表示卷积核高，kw 表示卷积核宽，pading表示填充，stride表示卷积核步长，group表示分组卷积。卷积处理层可以包括四个膨胀卷积，膨胀系数分别是2、4、6、8。

图6示出了根据本发明的一个实施例的下采样层的结构示意图。其中，下采样层包括多个并列连接的池化层和卷积层。表2示出了根据本发明一个实施例的人像分割模型中下采样层的部分网络结构。

表2人像分割模型中下采样层的部分网络结构

其中，Maxpooling表示最大池化层，池化层的卷积核的大小为2×2，所述卷积层的卷积核大小为3×3。

根据本发明的一个实施例，解码模型可以包括上采样层、卷积处理层和集连层。其中，上采样层适于将输入解码模型的特征图的分辨率放大。集连层适于将不同层的特征图进行合并。上采样层包括多个反卷积层，所述反卷积层的卷积核大小为4×4。

随后在步骤S230中，可以基于人工标注的当前帧掩膜图像和输出的当前帧掩膜图像，训练人像分割模型，以得到生成的人像分割模型。

上述人像分割模型的训练以端到端的方式进行，通过反向传播算法调整其参数，调整的参数可以包括学习率、批量化尺寸等。其本质上是通过迭代的方式逐步降低上述定义的各模型的损失函数，最终损失函数收敛到一个较低的水平。训练后的模型可以较好地得到和人工标注的人像掩膜相同的结果，即得到生成的人像分割模型。

在完成人像分割模型的训练后，就可以基于上述生成的人像分割模型进行视频关键帧提取。图7示出了根据本发明实施例的视频关键帧提取方法的示意性流程图。

如图7所示，方法700始于步骤S710，将人像视频帧序列输入人像分割模型，以输出对应的人像掩膜图像序列帧。

例如，实际使用时输入的人像视频序列帧是直接从手机前置或后置摄像头捕捉的视频流。可以首先对视频流进行解码并缩小成256*256的图像输入到网络模型中。由于视频流第一帧的图像没有“前一帧掩膜图像”，第一帧图像的掩膜图像可以置为全黑。之后网络输入的两个参数为当前帧图像和模型输出的上一帧掩膜图像。由于视频流的开始十帧网络输出较差(因为前一帧的掩膜图像有较多错误)，所以视频流的前几帧不计入关键帧选择。

随后在步骤S720中，从人像掩膜图像序列帧中过滤掉人像面积小于第一预定阈值的图像。

根据本发明的一个实施例，可以从预定数量的人像掩膜图像序列帧中统计人像面积均值，以便确定人像掩膜图像的初始过滤阈值。然后，基于上一帧的过滤阈值、当前帧人像面积，确定当前帧的过滤阈值。最后，过滤掉人像面积低于初始过滤阈值或当前帧的过滤阈值的人像掩膜图像。

例如，可以基于视频流的第十帧到第二十帧图像，统计出人像面积均值。这个均值可以反映这段视频人物在图像中的尺度等信息。从第十帧到第二十帧是初始阈值的确定，将人像面积的25％作为阈值，小于阈值的图像帧可以被认为人物出镜或者被遮挡。用阈值可以过滤掉纯背景图像帧和人物不占主导的图像帧。若第十帧到第二十帧这11帧中，人像面积均占比较少，此时初始阈值可能会较小。例如，如果人像占比小，说明人的尺度小，既拍的是远处的人物。随后的阈值会进行动态调整，设当前阈值为x，上一帧图像的人像面积为y，当前帧的过滤阈值为w，则w＝(y*0.25)*0.1+x*0.9。

对于前二十帧可以不进入关键帧提取，一个十秒的视频大约3-4百帧，关键帧可能最后只留几帧，前二十帧不加入计算不影响最终效果。

最后在步骤S730中，从过滤后的人像掩膜图像中提取形状特征差异大于第二阈值的图像，以作为关键帧。

根据本发明的一个实施例，可以从过滤后的人像掩膜图像中提取形状特征，形状特征可以包括体态比、偏心率、主轴方向、代数不变矩中的任意一项或多项。然后，将当前帧的形状特征与已提取的所有关键帧的形状特征进行比较，将形状特征的差异大于第二预定阈值的图像作为关键帧。其中，体态比为所述人像掩模图像中人像轮廓的最小外接矩形的长轴与短轴的比值。

例如，形状特征描述计算出的是上述4个特征描述值，这四个值是从不同维度描述人像形状的变化。视频帧序列中的每一个元素包含关键帧图像和其形态特征数据，新的一帧到来时只用形态数据比较，不需要重复计算之前的特征。在提取关键帧过程中，将当前帧与之前提取的所有关键帧形状特征比较，如果与提取的关键帧中的每一帧特征中有任意两项差异超过37％，则认为当前帧人像形态发生了较大变化，算入关键帧。否则跳过当前帧。

根据本发明的一种实现方式，计算人像形状特征过程中计算长轴、短轴和体态比的部分代码如下：

通过上述方法，随着视频流的录制，可以实时产生关键帧。视频流经过解码缩放后，基于人像语义人像分割模型得到人像掩膜图像。然后计算基于掩膜图像的人像形状特征，并与之前存储的关键帧比较判断是否保存该帧为关键帧。如果判断当前帧为关键帧，则保存当前帧，并将计算出的人像形态数据存入关键帧序列，等待新的关键帧的比较。

例如，手机的摄像头正在拍摄视频，则首先对获取到的视频流进行解码并缩小成256*256的图像输入到人像人像分割模型中。假设经过一段时间的处理，保存了3个关键帧，记为Z1、Z2和Z3。对新输入的图像帧A来说，将图像帧A输入到人像人像分割模型后，得到了人像掩膜图像B。判断图像 B是否超过阈值，若超过则提取其形状特征。将提取到的形状特征与关键帧 Z1、Z2和Z3的形状特征分别比较，如果与Z1、Z2和Z3中各帧的形状特征中有任意两项差异超过37％，则判断图像帧A为关键帧，此时就有4个关键帧，分别是Z1、Z2、Z3和Z4。整个处理过程在手机端在可以达到实时性。

综上，根据本发明的方案，首先使用人像分割网络模型对人像视频进行逐帧分割，然后根据每一帧的分割结果，剔除掉不包含人像的视频帧和只包含部分人像的视频帧。最后对人像掩膜图像快速提取传统图像特征，包括人像所占面积和轮廓特征。按照这些特征进行实时分析，将与之前提取的关键帧差别较大的帧作为关键帧。这样可以剔除掉纯背景图像等不重要的信息，以人像为主体，用少数几个关键帧刻画出人像视频中人物运动状态的变化。

A5、如A4所述的方法，其中，所述卷积层包括四个膨胀卷积，膨胀系数分别是2、4、6、8。A6、如A4所述的方法，其中，所述下采样层包括多个并列连接的池化层和卷积层，所述池化层的卷积核的大小为2×2，所述卷积层的卷积核大小为3×3。A7、如A4所述的方法，其中，所述解码模型包括上采样层、卷积处理层和集连层，所述上采样层适于将输入解码模型的特征图的分辨率放大；所述集连层适于将不同层的特征图进行合并。A8、如A7所述的方法，其中，所述上采样层包括多个反卷积层，所述反卷积层的卷积核大小为4×4。

B12、如B10所述的方法，其中，所述从所述人像掩膜图像序列帧中过滤掉人像面积小于第一预定阈值的图像的步骤包括：从预定数量的人像掩膜图像序列帧中统计人像面积均值，以便确定人像掩膜图像的初始过滤阈值；基于上一帧的过滤阈值、当前帧人像面积，确定当前帧的过滤阈值；以及过滤掉人像面积低于初始过滤阈值或当前帧的过滤阈值的人像掩膜图像。B13、如 B12所述的方法，其中，所述当前帧的过滤阈值通过下述公式计算：w＝(y*0.25)*0.1+x*0.9其中，x为上一帧过滤阈值，y为当前帧人像面积，w为当前帧的过滤阈值。B14、如B10所述的方法，其中，所述从过滤后的人像掩膜图像中提取形状特征差异大于第二阈值的图像的步骤包括：从过滤后的人像掩膜图像中提取形状特征，所述形状特征包括体态比、偏心率、主轴方向、代数不变矩中的任意一项或多项；将当前帧的形状特征与已提取的所有关键帧的形状特征进行比较，将所述形状特征的差异大于第二预定阈值的图像作为关键帧。B15、如B14所述的方法，其中，所述体态比为所述人像掩模图像中人像轮廓的最小外接矩形的长轴与短轴的比值。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种视频关键帧提取方法，该方法适于在计算设备中执行，所述方法包括：

获取训练集，所述训练集包括多个由当前帧图像、上一帧掩膜图像、人工标注的当前帧掩膜图像组成的图像组；

将由当前帧图像和上一帧掩膜图像组成的数组输入预训练的人像分割模型，所述数组为当前帧图像的RGB三通道图像信息和上一帧掩膜图像的单通道掩膜信息连接成的一个四通道数组，所述掩膜信息为上一帧掩膜图像的灰度通道的灰度值信息，所述人像分割模型为端对端模型，其中包括编码模型和解码模型，所述编码模型包括下采样层，所述下采样层包括多个并列连接的池化层和卷积层；

所述编码模型适于从所述数组中提取当前帧图像的特征，所述解码模型适于基于所提取的特征，输出当前帧掩膜图像；

基于所述人工标注的当前帧掩膜图像和输出的当前帧掩膜图像，训练所述人像分割模型，以得到生成的人像分割模型；

将人像视频帧序列输入人像分割模型，以输出对应的人像掩膜图像序列帧；

从所述人像掩膜图像序列帧中过滤掉人像面积小于第一预定阈值的图像；

从过滤后的人像掩膜图像中提取形状特征差异大于第二阈值的图像，以作为关键帧；

所述从所述人像掩膜图像序列帧中过滤掉人像面积小于第一预定阈值的图像的步骤包括：

从预定数量的人像掩膜图像序列帧中统计人像面积均值，以便确定人像掩膜图像的初始过滤阈值；

基于上一帧的过滤阈值、当前帧人像面积，确定当前帧的过滤阈值；以及

过滤掉人像面积低于初始过滤阈值或当前帧的过滤阈值的人像掩膜图像。

2.如权利要求1所述的方法，所述人像分割模型适于从包含人像特征的图像中分割出人像特征，其中，所述掩模图像为人像掩膜图像。

3.如权利要求1所述的方法，其中，所述编码模型还包括卷积处理层，所述卷积处理层包括卷积层、激活层、归一化层，

所述卷积层适于将卷积参数作用于所述编码模型的输入，以得到特征图；

所述激活层适于将特征图进行非线性映射；

所述归一化层适于调整特征图的数据分布；

所述下采样层适于对特征图进行降采样。

4.如权利要求3所述的方法，其中，所述卷积层包括四个膨胀卷积，膨胀系数分别是2、4、6、8。

5.如权利要求1所述的方法，其中，

所述池化层的卷积核的大小为2×2，所述卷积层的卷积核大小为3×3。

6.如权利要求3所述的方法，其中，所述解码模型包括上采样层、卷积处理层和集连层，

所述上采样层适于将输入解码模型的特征图的分辨率放大；

所述集连层适于将不同层的特征图进行合并。

7.如权利要求6所述的方法，其中，所述上采样层包括多个反卷积层，所述反卷积层的卷积核大小为4×4。

8.如权利要求1所述的方法，其中，所述训练人像分割模型的步骤包括：

基于编码模型和解码模型的损失函数，使用反向传播算法调整人像分割模型的参数，以得到训练后的人像分割模型。

9.如权利要求1所述的方法，其中，所述方法包括：

将所述人像视频帧序列的第一帧图像的掩膜图像设置为全黑。

10.如权利要求1所述的方法，其中，所述当前帧的过滤阈值通过下述公式计算：

w＝(y*0.25)*0.1+x*0.9

11.如权利要求1所述的方法，其中，所述从过滤后的人像掩膜图像中提取形状特征差异大于第二阈值的图像的步骤包括：

从过滤后的人像掩膜图像中提取形状特征，所述形状特征包括体态比、偏心率、主轴方向、代数不变矩中的任意一项或多项；

将当前帧的形状特征与已提取的所有关键帧的形状特征进行比较，将所述形状特征的差异大于第二预定阈值的图像作为关键帧。

12.如权利要求11所述的方法，其中，所述体态比为所述人像掩模图像中人像轮廓的最小外接矩形的长轴与短轴的比值。

13.如权利要求1所述的方法，其中，所述方法还包括：

对所述人像视频帧序列进行预处理，以将预处理后的人像视频帧序列作为人像分割模型的输入，所述预处理包括解码、缩放。

14.一种计算设备，包括：

一个或多个处理器；和

存储器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-13所述方法中的任一方法的指令。

15.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-13所述的方法中的任一方法的指令。