CN107832724A

CN107832724A - 从视频文件中提取人物关键帧的方法及装置

Info

Publication number: CN107832724A
Application number: CN201711147669.3A
Authority: CN
Inventors: 余道明; 陈强; 黄君实; 李东亮; 张康
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-11-17
Filing date: 2017-11-17
Publication date: 2018-03-23

Abstract

本发明提供从视频文件中提取人物关键帧的方法及装置，该方法包括：以预设周期抽取视频文件中的视频帧，并提取所述视频文件标题中的人物标签；从各视频帧中提取其中所包含的对应至少一个人脸的人脸特征；基于人脸分类模型对所述人脸特征进行分类，确定各视频帧中至少一个人脸对应的人物分类；依据各视频帧中至少一个人脸对应的人物分类、以及所述人物标签，从各视频帧中确定出仅包括人物分类与所述人物标签一致的人脸的视频帧，作为人物关键帧。该方法实现智能、快速地从视频文件中提取人物关键帧，进而满足平台每日视频处理的庞大需求；且所提取的人物关键帧与视频文件标题或内容相关度很高，能够很好地吸引用户注意，进而显著提高视频的点击率。

Description

从视频文件中提取人物关键帧的方法及装置

技术领域

本发明涉及图像识别技术领域，具体而言，本发明涉及一种从视频文件中提取人物关键帧的方法及装置。

背景技术

随着互联网技术的发展，通过网络在各平台观看视频成为了越来越多人娱乐消遣的方式。为了提高视频的点击率，各平台往往会将与视频标题或内容相关的人物图片作为该视频的封面或缩略图，以吸引更多的用户观看视频。

对于如何获取视频的封面图片或缩略图，现有技术通常以人工截取视频画面或直接采用现有剧照的方法来实现。尽管上述方法可以给视频附上与之相关的图片，其局限性在于：通过人工编译来选取图片的方法效率很低，难以满足平台每日视频处理的庞大需求；且人工编译往往无法截取到与视频标题或内容相关度最高的图片，和直接采用现有剧照的方式一样难以快速吸引用户的注意，从而难以显著提高视频的点击率。

发明内容

为克服以上技术问题或者至少部分地解决以上技术问题，特提出以下技术方案：

本发明的实施例根据一个方面，提供了从视频文件中提取人物关键帧的方法，包括：

以预设周期抽取视频文件中的视频帧，并提取所述视频文件标题中的人物标签；

从各视频帧中提取其中所包含的对应至少一个人脸的人脸特征；

基于人脸分类模型对所述人脸特征进行分类，确定各视频帧中至少一个人脸对应的人物分类；

依据各视频帧中至少一个人脸对应的人物分类、以及所述人物标签，从各视频帧中确定出仅包括人物分类与所述人物标签一致的人脸的视频帧，作为人物关键帧。

进一步地，所述基于人脸分类模型对所述人脸特征进行分类之前，还包括：

从人脸数据库中提取样本数据，所述样本数据为人脸图像及相应人物分类；

通过所述样本数据训练得到所述人脸分类模型；

所述基于人脸分类模型对所述人脸特征进行分类，确定各视频帧中至少一个人脸对应的人物分类，包括：

通过所述人脸分类模型计算所述人脸特征与各所述人物分类的匹配概率；

根据所述匹配概率确定各视频帧中至少一个人脸对应的人物分类。

具体地，所述人脸分类模型为基于卷积神经网络CNN或深度神经网络DNN训练得到的人脸分类模型。

进一步地，所述依据各视频帧中至少一个人脸对应的人物分类、以及所述人物标签，从各视频帧中确定出仅包括人物分类与所述人物标签一致的人脸的视频帧，作为人物关键帧的步骤之后，还包括：

基于预设的图像质量评估策略，对确定得到的人物关键帧进行评估，得到各个人物关键帧的分值；

将所述分值按从大到小的顺序进行排序，并提取前预设数量的人物关键帧。

具体地，所述图像质量评估策略基于以下至少一项来对人物关键帧进行评估：

视频帧的清晰度、视频帧的亮度、视频帧的色度、视频帧中是否包含负面信息。

具体地，所述从各视频帧中提取其中所包含的对应至少一个人脸的人脸特征的步骤，包括：

通过预设的人脸检测模型对各视频帧进行人脸特征检测，并将检测到的对应至少一个人脸的人脸特征从各视频帧中提取出来；

其中，所述人脸检测模型为基于卷积神经网络CNN或深度神经网络DNN训练得到的人脸检测模型。

本发明的实施例根据另一个方面，还提供了一种从视频文件中提取人物关键帧的装置，包括：

视频信息获取模块，用于以预设周期抽取视频文件中的视频帧，并提取所述视频文件标题中的人物标签；

人脸特征提取模块，用于从各视频帧中提取其中所包含的对应至少一个人脸的人脸特征；

人物分类确定模块，用于基于人脸分类模型对所述人脸特征进行分类，确定各个视频帧中至少一个人脸对应的人物分类；

人物关键帧确定模块，用于依据各视频帧中至少一个人脸对应的人物分类、以及所述人物标签，从各视频帧中确定出仅包括人物分类与所述人物标签一致的人脸的视频帧，作为人物关键帧。

进一步地，所述装置还包括：人脸分类模型训练模块；

所述人脸分类模型训练模块，用于从人脸数据库中提取样本数据，所述样本数据为人脸图像及相应人物分类；通过所述样本数据训练得到所述人脸分类模型；

所述人脸分类确定模块，具体用于通过所述人脸分类模型计算所述人脸特征与各所述人物分类的匹配概率；根据所述匹配概率确定各视频帧中至少一个人脸对应的人物分类。

进一步地，所述装置还包括：

图像质量评估模块，用于基于预设的图像质量评估策略，对确定得到的人物关键帧进行评估，得到各个人物关键帧的分值；

分值排序模块，用于将所述分值按从大到小的顺序进行排序；

人物关键帧提取模块，用于提取前预设数量的人物关键帧。

具体地，所述人脸特征提取模块，具体用于通过预设的人脸检测模型对各视频帧进行人脸特征检测，并将检测到的对应至少一个人脸的人脸特征从各视频帧中提取出来；

本发明的实施例根据又一个方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述从视频文件中提取人物关键帧的方法。

本发明的实施例根据又一个方面，还提供了一种终端，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行上述从视频文件中提取人物关键帧的方法。

本发明提供了一种从视频文件中提取人物关键帧的方法及装置，与现有技术相比，本发明实施例提供了一种从视频文件中提取人物关键帧的方法，本发明实施例首先从视频文件标题中提取人物标签，从而确定所要提取的人物关键帧所对应的人物，并从视频文件中抽取视频帧，通过人脸分类模型对各视频帧中包含的对应至少一个人脸的人脸特征进行分类，得到各视频帧所对应的人物分类，再将各视频帧中其人物分类与上述人物标签一致的视频帧作为人物关键帧。即本发明实施例通过从视频文件标题获取人物标签以及采用人脸分类模型对各视频帧按人物分类进行分类，实现了智能、快速地从视频文件中提取人物关键帧，进而能够满足平台每日视频处理的庞大需求；且所提取的人物关键帧中的人物即为视频文件标题中所指的人物，为将所提取的人物关键帧输出作为视频文件的封面或缩略图提供了有力的支持，由于图像画面与视频文件标题或内容相关度很高，其能够很好地吸引用户的注意，进而显著地提高视频的点击率。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的一种从视频文件中提取人物关键帧的方法流程图；

图2为本发明实施例的一种从视频文件中提取人物关键帧的装置结构示意图；

图3为本发明实施例的另一种从视频文件中提取人物关键帧的装置结果示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通讯链路上，执行双向通讯的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通讯设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通讯设备；PCS(Personal Communications Service，个人通讯系统)，其可以组合语音、数据处理、传真和/或数据通讯能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通讯终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

实施例一

本发明实施例提供了一种从视频文件中提取人物关键帧的方法，如图1所示，该方法包括：

步骤S101、以预设周期抽取视频文件中的视频帧，并提取所述视频文件标题中的人物标签。

对于本发明实施例，视频文件为待提取人物关键帧作为其封面或缩略图的视频文件，其可以为电视剧、电影、娱乐资讯、预告片等。在本发明实施例中不做限定。

对于本发明实施例，由于视频由多个连续的画面组构成，一组连续的视频帧的图像内容变化不大，仅需要以预先设定的周期从视频文件中抽取部分视频帧，以保证从视频文件中提取人物关键帧的处理效率。

例如，每隔1秒从视频文件中抽取一个视频帧，对于一段2分钟的视频，共需要抽取120帧。

对于本发明实施例，从视频文件标题所提取的人物标签的个数与标题中所包含的人物个数一致，其可以是一个也可以是一个以上。

例如，视频文件标题中包含人物A和人物B两个人物，则从该视频文件标题所提取的人物标签包括人物A和人物B的两个人物标签。

步骤S102、从各视频帧中提取其中所包含的对应至少一个人脸的人脸特征。

对于本发明实施例，人脸特征为人物的全部面部特征。

其中，面部特征包括：眉毛、眼睛、鼻子、嘴、耳朵、脸颊、额头、牙齿、头发等。在本发明实施例中不做限定。

进一步地，将人物的全部面部特征从包含人脸的各视频帧中提取出来，其中，各视频帧所包含的人脸可以是一个也可以是一个以上。

步骤S103、基于人脸分类模型对所述人脸特征进行分类，确定各视频帧中至少一个人脸对应的人物分类。

其中，所述人脸分类模型为基于卷积神经网络CNN或深层神经网络DNN训练得到的人脸分类模型。

例如，通过2千万的素材图像，共1500个人物分类对卷积神经网络CNN或深度神经网络DNN进行训练，得到人脸分类模型。

对于本发明实施例，将从各视频帧中提取的对应至少一个人脸的人脸特征输入训练后的卷积神经网络CNN或深度神经网络DNN，得到各人脸特征所属1500个人物分类中每类的概率。根据人脸特征所属每类的概率，确定各视频帧中至少一个人脸对应的人物分类，其中，一个视频帧中所对应的人物分类的数量可以是一个也可以是多个。

步骤S104、依据各视频帧中至少一个人脸对应的人物分类、以及所述人物标签，从各视频帧中确定出仅包括人物分类与所述人物标签一致的人脸的视频帧，作为人物关键帧。

对于本发明实施例，仅包括人物分类与所述人物标签一致的人脸的视频帧为视频帧中包含的至少一个人脸对应的人物分类、人物分类数量与人物标签中所指的人物、标签数量完成相同。

例如，一个视频帧中人脸对应的人物分类数量为2，其对应的人物分类为人物分类A和人物分类B；从该视频文件标题提取的人物标签数量同为2，提取的是人物A和人物B的人物标签，其中，人物分类A和人物A、人物分类B和人物B分别所指的为同一个人物，由此确定该视频帧为该视频文件的人物关键帧。

本发明实施例提供了一种从视频文件中提取人物关键帧的方法，本发明实施例首先从视频文件标题中提取人物标签，从而确定所要提取的人物关键帧所对应的人物，并从视频文件中抽取视频帧，通过人脸分类模型对各视频帧中包含的对应至少一个人脸的人脸特征进行分类，得到各视频帧所对应的人物分类，再将各视频帧中其人物分类与上述人物标签一致的视频帧作为人物关键帧。即本发明实施例通过从视频文件标题获取人物标签以及采用人脸分类模型对各视频帧按人物分类进行分类，实现了智能、快速地从视频文件中提取人物关键帧，进而能够满足平台每日视频处理的庞大需求；且所提取的人物关键帧中的人物即为视频文件标题中所指的人物，为将所提取的人物关键帧输出作为视频文件的封面或缩略图提供了有力的支持，由于图像画面与视频文件标题或内容相关度很高，其能够很好地吸引用户的注意，进而显著地提高视频的点击率。

实施例二

本发明实施例的另一种可能的实现方式，在实施例一所示的基础上，还包括实施例二所示的步骤，其中，

步骤S102包括：通过预设的人脸检测模型对各视频帧进行人脸特征检测，并将检测到的对应至少一个人脸的人脸特征从各视频帧中提取出来。

例如，通过2千万的素材图像，以包括人脸和不包括人脸两个类别对卷积神经网络CNN或深度神经网络DNN进行训练，得到人脸检测模型。

对于本发明实施例，通过基于卷积神经网络CNN或深度神经网络DNN训练得到的人脸检测模型对各视频帧进行人脸特征检测，具体地，将各视频帧输入训练后的卷积神经网络CNN或深度神经网络DNN，得到各视频帧属于上述两个类别中每类的概率，其中，两个类别中属于包括人脸类别的概率较高的视频帧即为包含至少一个人脸的人脸特征的视频帧，且将得到的包含至少一个人脸的人脸特征的各视频帧输入训练后的人脸检测模型后，可将对应至少一个人脸的人脸特征从上述包含人脸的各视频帧中提取出来。通过采用预设的人脸检测模型，可实现智能、快速地检测出包含人脸特征的视频帧。

实施例三

本发明实施例的另一种可能的实现方式，在实施例一所示的基础上，还包括实施例三所示的步骤，其中，

步骤S103之前还包括：

通过所述样本数据训练得到所述人脸分类模型。

对于本发明实施例，人脸数据库中的样本数据包含预设数量的人物分类及其各人物分类对应的人脸图像。

例如，人脸数据库中的样本数据包含1500个人物分类，且每个人物分类中都有20张与其相对应的人脸图像。

对于本发明实施例，通过人脸数据库中样本数据包含的人脸图像，共预设数量的人物分类对卷积神经网络CNN或深度神经网络DNN进行训练，得到人脸分类模型，通过该人脸分类模型可将人脸特征按人脸数据库中样本数据的人物分类进行分类。

步骤S103包括：通过所述人脸分类模型计算所述人脸特征与各所述人物分类的匹配概率；根据所述匹配概率确定各个视频帧中至少一个人脸对应的人物分类。

对于本发明实施例，通过将从各视频帧中提取的对应至少一个人脸的人脸特征输入至经人脸数据库的样本数据训练后的卷积神经网络CNN或深度神经网络DNN，得到各人脸特征所属1500个人物分类中每类的概率。根据人脸特征所属每类的概率，确定各视频帧中至少一个人脸对应的人物分类，其中，一个视频帧中所对应的人物分类的数量可以是一个也可以是多个。

实施例四

本发明实施例的另一种可能的实现方式，在实施例一所示的基础上，还包括实施例四所示的步骤，其中，

步骤S104之后还包括：

其中，所述图像质量评估策略基于以下至少一项来对人物关键帧进行评估：

对于本发明实施例，通过上述方法步骤得到的人物关键帧与视频文件标题或内容相关度较高，但图像画面可能存在亮度异常、色度异常、清晰度低或包含负面信息等问题。通过预设的图像质量评估策略，针对上述图像画面可能存的问题对各人物关键帧进行图像质量评估，即从图像画面的亮度、色度、清晰度以及是否包含暴力、色情等负面信息等评估维度对各人物关键帧进行打分，得到各个人物关键帧的分值，其中，存在上述问题较少的人物关键帧所得分值较高，存在上述问题较多的人物关键帧所得分值较低。

对于本发明实施例，在获得各人物关键帧的分值后，将各人物关键帧按其分值从大到小的顺序进行排序，得到排序后的各人物关键帧。根据实际应用需求，可以提取出预设数量的人物关键帧用于展示。通过对所提取的各人物关键帧进行质量评估以及将各人物关键帧按质量评估结果进行排序，可以进一步分类出图像质量较好、更能满足展示需求的人物关键帧。

例如，提取视频文件中所述排序排在第一位，即经图像质量评估策略评估得图像质量最好的人物关键帧作为该视频文件的封面或缩略图。

又例如，提取视频文件中排在首位或前三位的人物关键帧作为平台首页的视频推荐栏或海报中的图像元素，所述平台首页的视频推荐栏或海报中还可以包含从多个视频文件中提取的多个人物关键帧。

又例如，提取视频文件中排在前五位的人物关键帧作为该视频文件简介中的图像集。

本发明实施例提供了一种从视频文件中提取人物关键帧的装置，如图2所示，该装置包括：视频信息获取模块21、人脸特征提取模块22、人物分类确定模块23、人物关键帧确定模块24；其中，

视频信息获取模块21，用于以预设周期抽取视频文件中的视频帧，并提取所述视频文件标题中的人物标签。

人脸特征提取模块22，用于从各视频帧中提取其中所包含的对应至少一个人脸的人脸特征。

其中，所述人脸特征提取模块，具体用于通过预设的人脸检测模型对各视频帧进行人脸特征检测，并将检测到的对应至少一个人脸的人脸特征从各视频帧中提取出来；

人物分类确定模块23，用于基于人脸分类模型对所述人脸特征进行分类，确定各个视频帧中至少一个人脸对应的人物分类。

其中，所述人脸分类模型为基于卷积神经网络CNN或深度神经网络DNN训练得到的人脸分类模型。

人物关键帧确定模块24，用于依据各视频帧中至少一个人脸对应的人物分类、以及所述人物标签，从各视频帧中确定出仅包括人物分类与所述人物标签一致的人脸的视频帧，作为人物关键帧。

进一步地，如图3所示，该装置还包括：人脸分类模型训练模块31；其中，

人脸分类模型训练模块31，用于从人脸数据库中提取样本数据，所述样本数据为人脸图像及相应人物分类；通过所述样本数据训练得到所述人脸分类模型；

人脸分类确定模块23，具体用于通过所述人脸分类模型计算所述人脸特征与各所述人物分类的匹配概率；根据所述匹配概率确定各视频帧中至少一个人脸对应的人物分类。

进一步地，如图3所示，所述装置还包括：图像质量评估模块32、分值排序模块33、人物关键帧提取模块34；其中，

图像质量评估模块32，用于基于预设的图像质量评估策略，对确定得到的人物关键帧进行评估，得到各个人物关键帧的分值；

分值排序模块33，用于将所述分值按从大到小的顺序进行排序；

人物关键帧提取模块34，用于提取前预设数量的人物关键帧。

本发明实施例提供了一种从视频文件中提取人物关键帧的装置，本发明实施例首先从视频文件标题中提取人物标签，从而确定所要提取的人物关键帧所对应的人物，并从视频文件中抽取视频帧，通过人脸分类模型对各视频帧中包含的对应至少一个人脸的人脸特征进行分类，得到各视频帧所对应的人物分类，再将各视频帧中其人物分类与上述人物标签一致的视频帧作为人物关键帧。即本发明实施例通过从视频文件标题获取人物标签以及采用人脸分类模型对各视频帧按人物分类进行分类，实现了智能、快速地从视频文件中提取人物关键帧，进而能够满足平台每日视频处理的庞大需求；且所提取的人物关键帧中的人物即为视频文件标题中所指的人物，为将所提取的人物关键帧输出作为视频文件的封面或缩略图提供了有力的支持，由于图像画面与视频文件标题或内容相关度很高，其能够很好地吸引用户的注意，进而显著地提高视频的点击率。

本发明实施例提供的从视频文件中提取人物关键帧的装置可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述从视频文件中提取人物关键帧的方法。

本发明实施例提供了一种计算机可读存储介质，本发明实施例首先从视频文件标题中提取人物标签，从而确定所要提取的人物关键帧所对应的人物，并从视频文件中抽取视频帧，通过人脸分类模型对各视频帧中包含的对应至少一个人脸的人脸特征进行分类，得到各视频帧所对应的人物分类，再将各视频帧中其人物分类与上述人物标签一致的视频帧作为人物关键帧。即本发明实施例通过从视频文件标题获取人物标签以及采用人脸分类模型对各视频帧按人物分类进行分类，实现了智能、快速地从视频文件中提取人物关键帧，进而能够满足平台每日视频处理的庞大需求；且所提取的人物关键帧中的人物即为视频文件标题中所指的人物，为将所提取的人物关键帧输出作为视频文件的封面或缩略图提供了有力的支持，由于图像画面与视频文件标题或内容相关度很高，其能够很好地吸引用户的注意，进而显著地提高视频的点击率。

本发明实施例提供的计算机可读存储介质可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

本发明实施例提供了一种终端，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行上述从视频文件中提取人物关键帧的方法。

本发明实施例提供了一种终端，本发明实施例首先从视频文件标题中提取人物标签，从而确定所要提取的人物关键帧所对应的人物，并从视频文件中抽取视频帧，通过人脸分类模型对各视频帧中包含的对应至少一个人脸的人脸特征进行分类，得到各视频帧所对应的人物分类，再将各视频帧中其人物分类与上述人物标签一致的视频帧作为人物关键帧。即本发明实施例通过从视频文件标题获取人物标签以及采用人脸分类模型对各视频帧按人物分类进行分类，实现了智能、快速地从视频文件中提取人物关键帧，进而能够满足平台每日视频处理的庞大需求；且所提取的人物关键帧中的人物即为视频文件标题中所指的人物，为将所提取的人物关键帧输出作为视频文件的封面或缩略图提供了有力的支持，由于图像画面与视频文件标题或内容相关度很高，其能够很好地吸引用户的注意，进而显著地提高视频的点击率。

本发明实施例提供的终端可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种从视频文件中提取人物关键帧的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述基于人脸分类模型对所述人脸特征进行分类之前，还包括：

通过所述样本数据训练得到所述人脸分类模型；

根据所述匹配概率确定各个视频帧中至少一个人脸对应的人物分类。

3.根据权利要求1所述的方法，其特征在于，所述人脸分类模型为基于卷积神经网络CNN或深度神经网络DNN训练得到的人脸分类模型。

4.根据权利要求1所述的方法，其特征在于，所述依据各视频帧中至少一个人脸对应的人物分类、以及所述人物标签，从各视频帧中确定出仅包括人物分类与所述人物标签一致的人脸的视频帧，作为人物关键帧的步骤之后，还包括：

5.根据权利要求4所述的方法，其特征在于，所述图像质量评估策略基于以下至少一项来对人物关键帧进行评估：

6.根据权利要求1所述的方法，其特征在于，所述从各视频帧中提取其中所包含的对应至少一个人脸的人脸特征的步骤，包括：

7.一种从视频文件中提取人物关键帧的装置，其特征在于，包括：

人物分类确定模块，用于基于人脸分类模型对所述人脸特征进行分类，确定各视频帧中至少一个人脸对应的人物分类；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：人脸分类模型训练模块；

9.根据权利要求7所述的装置，其特征在于，所述人脸分类模型为基于卷积神经网络CNN或深度神经网络DNN训练得到的人脸分类模型。

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

人物关键帧提取模块，用于提取前预设数量的人物关键帧。

11.根据权利要求10所述的装置，其特征在于，所述图像质量评估策略基于以下至少一项来对人物关键帧进行评估：

12.根据权利要求7所述的装置，其特征在于，

所述人脸特征提取模块，具体用于通过预设的人脸检测模型对各视频帧进行人脸特征检测，并将检测到的对应至少一个人脸的人脸特征从各视频帧中提取出来；

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-6任一项所述的方法。

14.一种终端，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1至6任一项所述的从视频文件中提取人物关键帧的方法。