CN114140850A

CN114140850A - 人脸识别方法、装置和电子设备

Info

Publication number: CN114140850A
Application number: CN202111446924.0A
Authority: CN
Inventors: 刘冠廷
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-04

Abstract

本申请公开了人脸识别方法、装置和电子设备，涉及生物识别技术领域，用以解决人脸识别过程中无法精确并安全地识别到清晰的人脸视频的问题。首先，获取目标视频中视频帧的指示信息，该指示信息用于指示视频帧是否适用于人脸识别，若基于指示信息确定该视频帧适用于人脸识别，则采用该视频帧执行人脸识别操作。综上，本申请实施例能够就目前的技术条件下，对目标视频的视频帧进行标记处理，通过所标记的指示信息判断该视频帧是否可以用于人脸识别，节省了宝贵的时间和资源，提高了人脸识别过程中准确率和安全性。

Description

人脸识别方法、装置和电子设备

技术领域

本申请属于生物识别技术领域，尤其涉及一种人脸识别方法、装置和电子设备。

背景技术

随着互联网应用越来越多地使用实名认证功能，活体人脸识别技术越来越受到用户的高度重视。

现有技术中，人脸识别系统成功的关键在于是否拥有尖端的核心算法，并使识别结果具有实用化的识别率和识别速度。目前方案里，客户端采集人脸视频后，上传至服务端，由服务端来检测此人脸视频。服务端检测过程中，需要对视频中的图像进行抽帧并分析。在抽帧过程中，因无法获取到清晰的视频图像导致服务端无法准确识别和检测。

因此，如何在人脸识别过程中更精确并安全地识别到清晰的人脸视频图像称为业界关心的问题。

发明内容

本申请的目的是提供一种人脸识别方法、装置和电子设备，用以解决人脸识别过程中无法精确并安全地识别到清晰的人脸视频的问题。

第一方面，本申请提供一种人脸识别方法，所述方法包括：

获取目标视频中视频帧的指示信息，所述指示信息用于指示所述视频帧是否适用于人脸识别；

若基于所述指示信息确定所述视频帧适用于人脸识别，则采用所述视频帧执行人脸识别操作。

在一些实施例中，所述指示信息携带在所述视频帧对应的音频帧中。

在一些实施例中，所述指示信息中包括人脸标记信息和/或所述视频帧的图像清晰度，所述人脸标记信息用于指示所述图像帧中是否含有人脸；

基于所述指示信息确定所述视频帧是否适用于人脸识别，具体包括：

若所述指示信息中包括所述人脸标记信息，且所述人脸标记信息指示所述视频帧中含有人脸则确定所述视频帧适用于人脸识别，否则确定所述视频帧不适用于人脸识别；

若所述指示信息中包括所述图像清晰度，则若所述图像清晰度满足预设条件，则确定所述视频帧适用于人脸识别，否则确定所述视频帧不适用于人脸识别；

若所述指示信息中包括所述人脸标记信息和所述图像清晰度，则若所述人脸标记信息指示所述视频帧含有人脸且所述图像清晰度满足预设条件，则确定所述视频帧适用于人脸识别，否则确定所述视频帧不适用于人脸识别。

在一些实施例中，所述获取目标视频中视频帧的指示信息之前，所述方法还包括：

对所述目标视频和/或所述指示信息进行格式检测；

若检测结果为符合预设格式要求，则执行所述获取目标视频中视频帧的指示信息的操作。

在一些实施例中，所述方法还包括：

若检测结果为不符合预设格式要求，则输出提示信息。

在一些实施例中，所述方法还包括：

基于以下方法生成携带所述指示信息的所述音频帧：

对视频帧执行是否适用于人脸识别的检测，基于检测结果生成所述视频帧的指示信息；

筛选出所述视频帧对应的音频帧；其中，若所述目标视频的音频的帧率高于所述目标视频的帧率，则从所述音频中筛选掉多余的音频帧，并从剩余的音频帧中筛选出所述视频帧对应的所述音频帧；

将所述视频帧的指示信息写入与所述视频帧对应的所述音频帧中。

在一些实施例中，所述从剩余的音频帧中筛选出所述视频帧对应的所述音频帧，具体包括：

筛选出与所述视频帧的播放时间点最近的一帧音频作为所述视频帧对应的所述音频帧。

第二方面，本申请提供一种视频帧标记方法，所述方法包括：

对视频帧执行是否适用于人脸识别的检测，基于检测结果生成所述视频帧的指示信息，所述指示信息用于指示所述视频帧是否适用于人脸识别；

在一些实施例中，所述指示信息中包括人脸标记信息和/或所述视频帧的图像清晰度，所述人脸标记信息用于指示所述图像帧中是否含有人脸。

在一些实施例中，所述将所述视频帧的指示信息写入与所述视频帧对应的所述音频帧中，具体包括：

基于所述视频帧的指示信息按照预设格式要求写入与所述视频帧对应的所述音频帧中。

第三方面，本申请提供一种人脸识别装置，所述装置包括：

获取模块，被配置为执行获取目标视频中视频帧的指示信息，所述指示信息用于指示所述视频帧是否适用于人脸识别；

识别模块，被配置为若基于所述指示信息确定所述视频帧适用于人脸识别，则采用所述视频帧执行人脸识别操作。

可选的，所述指示信息携带在所述视频帧对应的音频帧中。

可选的，所述指示信息中包括人脸标记信息和/或所述视频帧的图像清晰度，所述人脸标记信息用于指示所述图像帧中是否含有人脸；

基于所述指示信息确定所述视频帧是否适用于人脸识别，所述识别模块具体被配置为：

若所述指示信息中包括所述人脸标记信息，则基于所述人脸标记信息确定所述视频帧中含有人脸则确定所述视频帧适用于人脸识别，否则确定所述视频帧不适用于人脸识别；

可选的，所述获取目标视频中视频帧的指示信息之前，所述装置还包括：

检测模块，被配置为对所述目标视频和/或所述描述信息进行格式检测；

可选的，所述检测模块还被配置为：

若检测结果为不符合预设格式要求，则输出告警提示信息。

可选的，所述装置还包括：

基于以下生成模块，被配置为执行生成携带所述指示信息的所述音频帧：

可选的，所述从剩余的音频帧中筛选出所述视频帧对应的所述音频帧，所述识别模块具体被配置为：

可选的，所述指示信息中包括人脸标记信息和/或所述视频帧的图像清晰度，所述人脸标记信息用于指示所述图像帧中是否含有人脸。

可选的，所述将所述视频帧的指示信息写入与所述视频帧对应的所述音频帧中，所述写入模块具体被配置为：

第四方面，本申请还提供了一种视频帧标记装置，所述装置包括：

检测模块，被配置为执行对视频帧执行是否适用于人脸识别的检测，基于检测结果生成所述视频帧的指示信息，所述指示信息用于指示所述视频帧是否适用于人脸识别；

筛选模块，被配置为执行筛选出所述视频帧对应的音频帧；其中，若所述目标视频的音频的帧率高于所述目标视频的帧率，则从所述音频中筛选掉多余的音频帧，并从剩余的音频帧中筛选出所述视频帧对应的所述音频帧；

写入模块，被配置为执行将所述视频帧的指示信息写入与所述视频帧对应的所述音频帧中。

可选的，所述从剩余的音频帧中筛选出所述视频帧对应的所述音频帧，所述筛选模块具体被配置为：

第五方面，本申请还提供了一种电子设备，包括：

显示器，用于显示录制人脸视频的用户界面；

存储器，用于存储处理器的可执行指令；

处理器，用于执行所述可执行指令，以实现如本申请第一方面和第二方面提供的任一方法。

第六方面，本申请一实施例还提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本申请第一方面和第二方面中提供的任一方法。

第七方面，本申请一实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如本申请第一方面和第二方面中提供的任一方法。

本申请的实施例提供的技术方案至少带来以下有益效果：

本申请对目标视频进行标记，同时标记视频中清晰的视频帧在哪里和标记视频中人脸的视频帧在哪里，方便服务端回溯时精准找到并抽帧使用；并且通过特定的格式赋予目标视频更高的安全性，防攻击并防篡改。综上所述，用户使用本申请提供的方案时，节省了时间和资源，提高了人脸识别过程中的准确率和安全性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本申请各较佳实施例。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种人脸识别方法的应用场景示意图；

图2为本申请实施例提供的人脸识别方法的流程示意图；

图3为本申请实施例提供的生成携带指示信息的音频帧的流程示意图；

图4为本申请实施例提供的筛选出视频帧对应的音频帧的举例示意图；

图5为本申请实施例提供的筛选出视频帧对应的音频帧的另一举例示意图；

图6为本申请实施例提供的一种视频帧标记方法的流程示意图；

图7为本申请实施例提供的人脸识别装置的结构示意图；

图8为本申请实施例提供的视频帧标记装置的结构示意图；

图9为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。其中，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

并且，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、的特征可以明示或者隐含地包括一个或者更多个该特征。

下面将结合实施例对本申请提供的人脸识别方法进行介绍。

本申请的发明构思可概括为：首先，获取目标视频中视频帧的指示信息，该指示信息用于指示视频帧是否适用于人脸识别，若基于指示信息确定该视频帧适用于人脸识别，则采用该视频帧执行人脸识别操作。综上，本申请实施例能够就目前的技术条件下，对目标视频的视频帧进行标记处理，通过所标记的指示信息判断该视频帧是否可以用于人脸识别，节省了宝贵的时间和资源，提高了人脸识别过程中准确率和安全性。

在介绍完本申请实施例的主要发明思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

参考图1，其为本申请实施例提供的人脸识别方法的应用场景示意图。该应用场景包括多个终端设备101(包括终端设备101-1、终端设备101-2、……终端设备101-n)、还包括服务器102。其中，终端设备101、服务器102之间通过无线或有线网络连接，终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视等电子设备，还包括特定用于人脸识别的设备。服务器102可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101可以执行视频帧的标记并执行人脸识别，也可以由终端设备101执行视频帧的标记，然后将标记好的目标视频交由服务器进行人脸识别。

当然，本申请实施例提供的方法并不限于图1所示的应用场景，还可以用于其它可能的应用场景，本申请实施例并不进行限制。

基于上述描述，本申请实施例提供的一种人脸识别方法，该方法的关键工作流程图如下图2，可包括以下内容：

在步骤201中，获取目标视频中视频帧的指示信息，指示信息用于指示视频帧是否适用于人脸识别。

在一些实施例中，指示信息中包括人脸标记信息和/或所述视频帧的图像清晰度，人脸标记信息用于指示图像帧中是否含有人脸，基于该指示信息确定视频帧是否适用于人脸识别，具体可分为以下三种情况：

1.若指示信息中包括人脸标记信息，则基于人脸标记信息确定视频帧中含有人脸则确定视频帧适用于人脸识别，否则确定视频帧不适用于人脸识别。

2.若指示信息中包括图像清晰度，则若图像清晰度满足预设条件，则确定视频帧适用于人脸识别，否则确定视频帧不适用于人脸识别。

3.若指示信息中包括人脸标记信息和图像清晰度，则若人脸标记信息指示视频帧含有人脸且图像清晰度满足预设条件，则确定视频帧适用于人脸识别，否则确定视频帧不适用于人脸识别。

其中，指示信息与目标视频的格式可以通过人为自定义标定，以提高人脸识别的安全性。例如，对于第三种情况，指示信息中包括人脸标记信息和图像清晰度，即将指示信息[人脸标志+模糊度]，写入音频帧的帧数据里，音频帧头格式不改变，其他信息不改变。其中指示信息[人脸标志+模糊度]，可以自定义格式规则，如人脸标志位中，1标志有人像，0标志没有人像；模糊度，可以自定义0-100，也可以是二进制规则定义0-15，即0000-1111，此规则自定义设定。根据音频数据帧长度，结构可能是：0000000…111111。前面用0补位。在此人为定义的规则中，如果攻击者或者冒用者上传为其他格式，比如音频数据帧长度总共为100位，其他格式非100位，例如99位，则不符合当前要求，则可认为是无效视频，不予人脸检测通过；或者指示信息为10位，且人脸标志位和模糊度各为5位，同时模糊度的范围是20-80，但是攻击者或者冒用者所上传的其他格式中模糊度为10，则不符合当前要求，则可认为是无效视频，不予人脸检测通过，达到了防伪、防攻击的作用。

所以，在获取目标视频中视频帧的指示信息之前，对目标视频和/或指示信息进行格式检测，若检测结果为符合预设格式要求，则执行获取目标视频中视频帧的指示信息的操作；若检测结果为不符合预设格式要求，则输出告警提示信息，比如提示目标视频已经被篡改或替换，提醒用户注意信息安全。

在步骤202中，若基于指示信息确定视频帧适用于人脸识别，则采用视频帧执行人脸识别操作。

需要补充的是，如下图3所示，基于以下方法生成携带指示信息的音频帧：

在步骤301中，对视频帧执行是否适用于人脸识别的检测，基于检测结果生成视频帧的指示信息。

在步骤302中，筛选出视频帧对应的音频帧；其中，若目标视频的音频的帧率高于目标视频的帧率，则从音频中筛选掉多余的音频帧，并从剩余的音频帧中筛选出视频帧对应的音频帧。

在一些实施例中，从剩余的音频帧中筛选出视频帧对应的音频帧，具体包括：筛选出与视频帧的播放时间点最近的一帧音频作为视频帧对应的音频帧。例如：

视频为帧计算，如一个视频帧率为25fps，则该视频每秒有24个视频帧，每帧时长为1000/24＝40ms。

音频为采样点计算，如一个音频采样率为32k，则每音频采样点时长为1024/32000*1000＝32ms，此例子中音频格式采用AAC，根据AAC音频格式的采样点[音频帧]的时长计算公式，计算得出。

根据上述视频和音频的情况，无法做到帧对应，所以需要进行时间同步处理。如每多帧音频帧中可丢弃一帧实现音频帧和视频帧一一对应。如图4所示，4个视频帧时间为160ms，5个音频采样点(音频帧)时长为160ms，4帧视频帧和5帧音频帧时长相等，若要视频帧与音频帧一一对应，则用音频采样点中4个音频帧去标记视频帧的4个画面，标记时，使用4帧音频帧标记4帧视频帧，同时舍弃1帧音频帧，标记过程示意图如图5所示，其中128-160ms以及288-320ms所对应的音频帧被舍弃，从而筛选出视频帧对应的音频帧；需要补充的是，在标记时也可以从5个音频帧中任选4帧进行标记，并不局限于图5所示的舍弃5个音频帧的最后1帧，例如可以舍弃第1帧，即0-32ms以及160-192ms所对应的音频帧，或者也可以舍弃中间的某1帧，如32-64ms以及192-224ms所对应的音频帧。

完成上述筛选后，在步骤303中，将视频帧的指示信息写入与视频帧对应的音频帧中。

需要说明的是，在获取目标视频中视频帧的指示信息之前，本申请还提供一种视频帧标记方法，该方法流程如图6，包括以下内容：

在步骤601中，对视频帧执行是否适用于人脸识别的检测，基于检测结果生成视频帧的指示信息，该指示信息用于指示视频帧是否适用于人脸识别。

在步骤602中，筛选出视频帧对应的音频帧；其中，若目标视频的音频的帧率高于目标视频的帧率，则从音频中筛选掉多余的音频帧，并从剩余的音频帧中筛选出视频帧对应的音频帧。

在一些实施例中，从剩余的音频帧中筛选出视频帧对应的音频帧，具体包括：筛选出与视频帧的播放时间点最近的一帧音频作为视频帧对应的音频帧。

在步骤603中，将视频帧的指示信息写入与视频帧对应的音频帧中。

在一些实施例中，在进行人脸目标视频录制时，实时判断图像的清晰度与人脸信息，即分析目标视频，获取该目标视频的视频帧信息；然后把检测到的信息同步写入在音频帧信息里，即视频帧信息，该视频帧信息也为上述目标视频中视频帧的指示信息，将该指示信息按照预设的格式写入到同步的音频采样点上，如上文所述，在此人为定义的规则中，如果攻击者或者冒用者上传为其他格式，比如音频数据帧长度总共为100位，其他格式非100位，例如99位，则不符合当前要求，则可认为是无效视频，不予人脸检测通过；或者指示信息为10位，且人脸标志位和模糊度各为5位，同时模糊度的范围是20-80，但是攻击者或者冒用者所上传的其他格式中模糊度为10，则不符合当前要求，则可认为是无效视频，不予人脸检测通过；最终，使得指示信息携带在视频帧对应的音频帧中。由于在活体人脸检测场景，音频没有什么用处，所以用此方式替换原有音频数据并起到辅助检测作用。

上述步骤真正实现了人脸识别，由此一来，可快速定位人脸在视频哪一帧，避免随机抽样带来无用信息，也可迅速精准定位可用的视频帧；可快速识别视频帧的模糊度，避免随机抽样带来大量模糊度计算，浪费资源，可迅速精准定位可用的视频帧；根据自身定义的[人脸标志+模糊度]值，来进行防伪识别。如用户篡改视频后上传，即无法满足此视频中音频格式要求(值的范围或者数据数量)，即可判断为攻击行为，操作简便快速，节省了时间和资源，实现了更好的人脸识别效率及安全性。

基于相同的发明构思，本申请还提供一种人脸识别装置，如图7所示，所述装置700包括：

获取模块701，被配置为执行获取目标视频中视频帧的指示信息，所述指示信息用于指示所述视频帧是否适用于人脸识别；

识别模块702，被配置为若基于所述指示信息确定所述视频帧适用于人脸识别，则采用所述视频帧执行人脸识别操作。

可选的，所述指示信息携带在所述视频帧对应的音频帧中。

基于所述指示信息确定所述视频帧是否适用于人脸识别，所述识别模块702具体被配置为：

检测模块703，被配置为对所述目标视频和/或所述描述信息进行格式检测；

可选的，所述检测模块704还被配置为：

若检测结果为不符合预设格式要求，则输出告警提示信息。

可选的，所述装置还包括：

基于以下生成模块704，被配置为执行生成携带所述指示信息的所述音频帧：

基于相同的发明构思，本申请还提供一种视频帧标记装置，如图8所示，所述装置800包括：

检测模块801，被配置为执行对视频帧执行是否适用于人脸识别的检测，基于检测结果生成所述视频帧的指示信息，所述指示信息用于指示所述视频帧是否适用于人脸识别；

筛选模块802，被配置为执行筛选出所述视频帧对应的音频帧；其中，若所述目标视频的音频的帧率高于所述目标视频的帧率，则从所述音频中筛选掉多余的音频帧，并从剩余的音频帧中筛选出所述视频帧对应的所述音频帧；

写入模块803，被配置为执行将所述视频帧的指示信息写入与所述视频帧对应的所述音频帧中。

可选的，所述从剩余的音频帧中筛选出所述视频帧对应的所述音频帧，所述筛选模块802具体被配置为：

可选的，所述将所述视频帧的指示信息写入与所述视频帧对应的所述音频帧中，所述写入模块803具体被配置为：

在介绍了本申请示例性实施方式的人脸识别方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的人脸识别方法。例如，处理器可以执行如人脸识别方法中的步骤。

下面参照图9来描述根据本申请的这种实施方式的电子设备130。图9显示的电子设备130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器132，上述指令可由处理器131执行以完成上述人脸识别方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器131执行时实现如本申请提供的人脸识别方法的任一方法。

在示例性实施例中，本申请提供的一种交通信息处理方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的人脸识别方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于人脸识别方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程图像缩放设备的处理器以产生一个机器，使得通过计算机或其他可编程图像缩放设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程图像缩放设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程图像缩放设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种人脸识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述指示信息携带在所述视频帧对应的音频帧中。

3.根据权利要求1或2所述的方法，其特征在于，所述指示信息中包括人脸标记信息和/或所述视频帧的图像清晰度，所述人脸标记信息用于指示所述图像帧中是否含有人脸；

4.根据权利要求1或2所述的方法，其特征在于，所述获取目标视频中视频帧的指示信息之前，所述方法还包括：

对所述目标视频和/或所述指示信息进行格式检测；

5.一种视频帧标记方法，其特征在于，所述方法包括：

6.一种人脸识别装置，其特征在于，所述装置包括：

7.一种视频帧标记装置，其特征在于，所述装置包括：

8.一种电子设备，其特征在于，包括：

显示器，用于显示录制人脸视频的用户界面；

存储器，用于存储处理器的可执行指令；

处理器，用于执行所述可执行指令，以实现如权利要求1-4中任一项所述的人脸识别方法和/或权利要求5中所述的视频帧标记方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由终端设备的处理器执行时，使得所述终端设备能够执行如权利要求1-4中任一项所述的人脸识别方法和/或权利要求5中所述的视频帧标记方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的人脸识别方法和/或权利要求5中所述的视频帧标记方法。