CN105518708B

CN105518708B - 用于验证活体人脸的方法、设备和计算机程序产品

Info

Publication number: CN105518708B
Application number: CN201580000312.5A
Authority: CN
Inventors: 张弛
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2015-04-29
Filing date: 2015-04-29
Publication date: 2018-06-12
Anticipated expiration: 2035-04-29
Also published as: US20160350611A1; CN105518708A; WO2016172872A1; US10275672B2

Abstract

提供了一种用于验证活体人脸的方法、用于验证活体人脸的设备、以及计算机程序产品。所述用于验证活体人脸的方法包括：随机地生成字符串并呈现给待验证对象；识别所述待验证对象的面部动作；确定所述面部动作是否与所述字符串的发音相匹配，得到第一确定结果；基于所述第一确定结果判断所述待验证对象是否是活体人脸。在根据本公开实施例的用于验证活体人脸的技术方案中，通过确定待验证对象的面部动作是否与随机地生成的字符串的发音相匹配，能够有效地识别出不具有活体人脸的待验证对象，从而有效地防范攻击者借助于非人体工具进行的攻击。

Description

用于验证活体人脸的方法、设备和计算机程序产品

技术领域

本公开涉及人脸识别技术领域，更具体地涉及一种用于验证活体人脸的方法、设备和计算机程序产品。

背景技术

人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。人脸识别使用通用的摄像机作为识别信息获取装置，以非接触的方式获取识别对象的人脸图像，然后通过对所获取的图像与数据库图像进行比对来完成识别过程。目前，人脸识别技术已用于政府、军队、银行、社会福利保障、电子商务、安全防务等领域。例如，可以将人脸识别系统应用于银行远程开户、门禁系统、远程交易操作验证等。

在基于人脸识别来进行身份识别的应用中，衍生出一些恶意欺骗人脸身份验证的方法。例如，攻击者使用假面具、或者播放视频、动画等来仿冒特定人的人脸的动作来欺骗人脸身份验证。这使得基于人脸的身份验证方法很可能对这些攻击失效。为了提高身份识别的准确性，可以首先验证待验证对象是一个生物活体，然后通过比对待验证对象的面部特征与数据库中已存的各个用户的面部特征来识别待验证对象的身份。人脸识别系统的所述验证生物活体的过程能够防范攻击者使用照片、视频、动画、3D人脸模型、或者面具等方式进行攻击。因此，期望提供一种有效的验证活体人脸的技术方案，来有效地防范攻击者借助于非活体工具进行的攻击。

发明内容

本公开实施例提供了一种用于验证活体人脸的方法、设备和计算机程序产品，其使得能够有效地识别出不具有活体人脸的待验证对象，从而有效地防范攻击者借助于非活体工具进行的攻击。

第一方面，提供了一种用于验证活体人脸的方法。该用于验证活体人脸的方法可包括：随机地生成字符串并呈现给待验证对象；识别所述待验证对

结合第一方面，在第一方面的一种实现方式中，所述识别所述待验证对象的面部动作可包括：获取待验证对象的面部图像；分析所述面部图像而获得人脸属性；基于所获得的人脸属性确定所述面部动作。

结合第一方面及其上述实现方式，在第一方面的另一实现方式中，所述分析所述面部图像而获得人脸属性可包括通过分析每帧面部图像获得人脸的关键点位置作为人脸属性；所述基于所获得的人脸属性确定所述面部动作可包括基于所述关键点位置在各帧面部图像中的变化来确定所述面部动作。

结合第一方面及其上述实现方式，在第一方面的另一实现方式中，所述确定所述面部动作是否与所述字符串的发音相匹配可包括：利用已训练的神经元网络确定所述面部动作是否与所述字符串的发音相匹配。

结合第一方面及其上述实现方式，在第一方面的另一实现方式中，所述已训练的神经元网络通过如下的操作来获得：获取与所述字符串对应的多个训练图像，各个训练图像包括不同的人在说出所述字符串时的面部图像；确定在人脸的关键点之中的易于被面具覆盖的指定关键点；生成与每个训练图像中的人脸的包含所述指定关键点的多个关键点对应的特征向量序列；利用所生成的各个特征向量序列来训练所述神经元网络。

结合第一方面及其上述实现方式，在第一方面的另一实现方式中，利用该已训练的神经元网络确定所述面部动作是否与所述字符串的发音相匹配可包括：该已训练的神经元网络基于所述面部动作确定待验证对象说出所述字符串的概率；当所确定的概率大于预定概率时，确定所述面部动作与所述字符串的发音相匹配。

结合第一方面及其上述实现方式，在第一方面的另一实现方式中，用于验证活体人脸的方法还可包括：获取待验证对象在预定时间段期间的音频信息；确定所述音频信息是否与所述字符串的发音相匹配，得到第二确定结果。

结合第一方面及其上述实现方式，在第一方面的另一实现方式中，所述基于所述第一确定结果判断所述待验证对象是否是活体人脸包括：基于第一确定结果和第二确定结果判断所述待验证对象是否是活体人脸。

结合第一方面及其上述实现方式，在第一方面的另一实现方式中，基于第一确定结果和第二确定结果判断所述待验证对象是否是活体人脸可包括：如果第二确定结果指明所述音频信息与所述字符串的发音不匹配，判断所述待验证对象不是活体人脸；在第二确定结果指明所述音频信息与所述字符串的发音相匹配的情况下，如果第一确定结果指明所述面部动作与所述字符串的发音相匹配，判断所述待验证对象是活体人脸，如果第一确定结果指明所述面部动作与所述字符串的发音不匹配，判断所述待验证对象不是活体人脸。

第二方面，提供了一种用于验证活体人脸的设备。该用于验证活体人脸的设备可包括：处理器；存储器；和存储在所述存储器中的计算机程序指令。在所述计算机程序指令被所述处理器运行时可以执行以下步骤：随机地生成字符串并呈现给待验证对象；识别所述待验证对象的面部动作；确定所述面部动作是否与所述字符串的发音相匹配，得到第一确定结果；基于所述第一确定结果判断所述待验证对象是否是活体人脸。

结合第二方面，在第二方面的一种实现方式中，所述识别待验证对象的面部动作可包括：获取待验证对象的面部图像；分析所述面部图像而获得人脸属性；基于所获得的人脸属性确定所述面部动作。

结合第二方面及其上述实现方式，在第二方面的另一实现方式中，所述分析所述面部图像而获得人脸属性可包括通过分析每帧面部图像获得人脸的关键点位置作为人脸属性；所述基于所获得的人脸属性确定所述面部动作可包括基于所述关键点位置在各帧面部图像中的变化来确定所述面部动作。

结合第二方面及其上述实现方式，在第二方面的另一实现方式中，所述确定所述面部动作是否与所述字符串的发音相匹配可包括：利用已训练的神经元网络确定所述面部动作是否与所述字符串的发音相匹配。

结合第二方面及其上述实现方式，在第二方面的另一实现方式中，所述已训练的神经元网络通过如下的操作来获得：获取与所述字符串对应的多个训练图像，各个训练图像包括不同的人在说出所述字符串时的面部图像；确定在人脸的关键点之中的易于被面具覆盖的指定关键点；生成与每个训练图像中的人脸的包含所述指定关键点的多个关键点对应的特征向量序列；利用所生成的各个特征向量序列来训练所述神经元网络。

结合第二方面及其上述实现方式，在第二方面的另一实现方式中，利用该已训练的神经元网络确定所述面部动作是否与所述字符串的发音相匹配可包括：该已训练的神经元网络基于所述面部动作确定待验证对象说出所述字符串的概率；当所确定的概率大于预定概率时，确定所述面部动作与所述字符串的发音相匹配。

结合第二方面及其上述实现方式，在第二方面的另一实现方式中，用于验证活体人脸的设备还可包括音频采集器件，在所述计算机程序指令被所述处理器运行时还执行以下步骤：利用所述音频采集器件获取待验证对象在预定时间段期间的音频信息；确定所述音频信息是否与所述字符串的发音相匹配，得到第二确定结果。

结合第二方面及其上述实现方式，在第二方面的另一实现方式中，所述基于所述第一确定结果判断所述待验证对象是否是活体人脸可包括：基于第一确定结果和第二确定结果判断所述待验证对象是否是活体人脸。

结合第二方面及其上述实现方式，在第二方面的另一实现方式中，基于第一确定结果和第二确定结果判断所述待验证对象是否是活体人脸可包括：如果第二确定结果指明所述音频信息与所述字符串的发音不匹配，判断所述待验证对象不是活体人脸；在第二确定结果指明所述音频信息与所述字符串的发音相匹配的情况下，如果第一确定结果指明所述面部动作与所述字符串的发音相匹配，判断所述待验证对象是活体人脸，如果第一确定结果指明所述面部动作与所述字符串的发音不匹配，判断所述待验证对象不是活体人脸。

第三方面，提供了一种用于验证活体人脸的计算机程序产品，包括计算机可读存储介质。在所述计算机可读存储介质上存储了计算机程序指令。所述计算机程序指令由处理器执行以使得所述处理器：随机地生成字符串并呈现给待验证对象；识别所述待验证对象的面部动作；确定所述面部动作是否与所述字符串的发音相匹配，得到第一确定结果；基于所述第一确定结果判断所述待验证对象是否是活体人脸。

第三方面，提供了一种用于验证活体人脸的设备。该用于验证活体人脸的设备可包括：字符发生器，随机地生成字符串并呈现给待验证对象；动作识别单元，用于识别所述待验证对象的面部动作；第一匹配单元，用于确定所述面部动作是否与所述字符串的发音相匹配，得到第一确定结果；判断单元，用于基于所述第一确定结果判断所述待验证对象是否是活体人脸。

在根据本公开实施例的上述用于验证活体人脸的方法、设备和计算机程序产品的技术方案中，通过确定待验证对象的面部动作是否与随机地生成的字符串的发音相匹配，能够有效地识别出不具有活体人脸的待验证对象，从而有效地防范攻击者借助于非活体工具进行的攻击。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是图示了根据本公开实施例的验证活体人脸的场景架构；

图2是示意性图示了根据本公开实施例的用于验证活体人脸的方法的流程图；

图3是示意性图示了图2的用于验证活体人脸的方法中的识别面部动作的流程图；

图4是示意性图示了图2的用于验证活体人脸的方法中的将面部动作与字符串发音相匹配的流程图；

图5是示意性图示了根据本公开实施例的另一用于验证活体人脸的方法的流程图；

图6是示意性图示了根据本公开实施例的用于验证活体人脸的设备的框图；

图7是示意性图示了图6中的动作识别单元的框图；

图8是示意性图示了图6中的第一匹配单元的框图；

图9是示意性图示了根据本公开实施例的另一用于验证活体人脸的设备的框图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

图1是图示了根据本公开实施例的验证活体人脸的场景架构。如图1所示，待验证对象面向验证设备，验证设备随机地生成一字符串。验证设备在待验证对象阅读所述字符串时识别其面部动作，然后判断所识别的面部动作与字符串的发音是否匹配。当所识别的面部动作与字符串的发音匹配时，待验证对象是活体人脸。当所识别的面部动作与字符串的发音不相匹配时，待验证对象不是活体人脸。

所述字符串例如可以是“你好”、“12345”、“Hello World”等。由于所述字符串是随机地生成的，诸如照片、视频、动画、3D人脸模型、或者面具的非活体不能呈现与所述字符串发音对应的面部动作。这样，有效地识别出不具有活体人脸的待验证对象，从而有效地防范攻击者借助于非活体工具进行的攻击。所述字符串可以是文字、数字等，其具有非常明确的含义、不会产生歧义。不同的待验证对象能够相同地理解其含义，从而进行相同的反映。而且，字符的组合理论上是无穷的，因此攻击者完全无法预测随机生成的字符串的内容，不容易被攻击者事先准备。

图2是示意性图示了根据本公开实施例的用于验证活体人脸的方法200的流程图。该用于验证活体人脸的方法200被应用于图1所示的验证设备。如图2所示，用于验证活体人脸的方法200可包括：随机地生成字符串并呈现给待验证对象(S210)；识别所述待验证对象的面部动作(S220)；确定所述面部动作是否与所述字符串的发音相匹配，得到第一确定结果(S230)；基于所述第一确定结果判断所述待验证对象是否是活体人脸(S240)。

在S210中，可以从事先准备好的多个字符串中随机地选择一个字符串，并向待验证对象呈现该字符串。或者，可以从字符库中选择多个字符数字并随机地组合所选择的字符数字作为所述字符串。此外，还可以利用算法来随机地生成字符串。由于所述字符串是随机地生成的，攻击者不能预先获知其内容，从而不能用预先准备的照片、视频、动画、3D人脸模型、或者面具来读出所述字符串。这样，有效地识别出不具有活体人脸的待验证对象，从而有效地防范攻击者借助于非人脸工具进行的攻击。

所述字符串可以被显示在诸如液晶屏、投影屏、LED屏之类的显示屏幕上，也可以利用扬声器播放出来。所述字符串的具体呈现方式不构成对本公开实施例的限制，只要待验证对象能够获取到即可。除了呈现所述字符串之外还可以为所述待验证对象呈现提示信息。该提示信息用于引导用户配合验证，以提高验证的准确度。例如，该提示信息可以为用于提示用户大声读出所述字符串的信息，并具体地可以为“请大声读出所显示的字符串”。或者，该提示信息还可以是“不要做鬼脸”等。人脸可以有不同的表情。人脸在不同表情阅读字符串时的动作是有差异的。因此，所述提示信息可以用到用户配合验证，从而提高验证的准确度。

在S220中，识别所述待验证对象的面部动作。当待验证对象阅读所述字符串时，其面部会有动作变化，特别是在口部附近。而且，面部动作会随着字符串的内容的不同而改变。也就是说，在面部动作与字符串的发音之间具有一一对应关系。相应地，可以根据面部动作确定其发音内容。此外，还可以限制待验证对象读取字符串的时间。即，识别所述待验证对象在预定时间段内的面部动作。该预定时间段是所述该字符串被呈现之后的特定时间段。设置该时间段能够提高验证效率、并且防止攻击者采取进一步的攻击措施。如果待验证对象在所述预定时间段内没有面部动作、或者其面部动作不对应于所呈现的字符串的发音，则可以确定待验证对象不是活体人脸。

在S220中，可以定位人脸的诸如嘴角、下巴、唇部等位置，并根据所定位的位置的运动轨迹来识别待验证对象的面部动作；或者还可以利用图像采集器采集所述待验证对象的面部图像，并通过分析图像来识别所述待验证对象的面部动作。图3是示意性图示了图2的用于验证活体人脸的方法中的识别面部动作S220的流程图。如图3所示，获取待验证对象的面部图像(S221)；分析所述面部图像而获得人脸属性(S222)；基于所获得的人脸属性确定所述面部动作(S223)。

在S221中，可利用图像采集器连续地采集待验证对象在读出所述字符串过程中的面部图像。所采集的面部图像典型地是多帧图像。图像采集器可以是普通的基于可见光的彩色或灰度摄像机，例如网络摄像头、手机的前置摄像头等。

在S222中，可通过分析所采集的多帧图像而获得人脸属性。作为示例，可以首先确定所获取的图像中是否包含人脸，在检测到人脸的情况下定位出人脸关键点作为人脸属性。人脸关键点是脸部一些表征能力强的关键点，例如眼睛、眼角、眼睛中心、眉毛、鼻子、鼻尖、嘴巴、嘴角和脸部轮廓等。也就是说，在该S222中通过分析每帧面部图像获得人脸的关键点位置作为人脸属性。作为示例，可以基于参数形状模型，根据关键点附近的表现特征，学习出一个参数模型，在使用时迭代地优化出关键点的位置，最后得到关键点坐标。或者，可以采用级联回归方式定位关键点，其能够根据输入的人脸图像，实时定位出精准的人脸关键点。具体的获取人脸的关键点位置的方式不构成对本公开实施例的限制。该人脸属性除了可以是人脸的关键点位置之外，还可以是人脸动作轨迹等。

在S223中，基于所获得的人脸属性确定所述面部动作。在所述人脸属性仅包括人脸关键点的情况下，可以基于所述关键点位置在各帧面部图像中的变化来确定所述面部动作。作为示例，在所计算的人脸关键点与所述人脸动作模型库中的人脸关键点模型的基础上，通过迭代计算、模糊计算等各种计算手段来识别人脸动作。或者，可以预先获得多种预先规定的人脸动作(例如，与所述字符串的发音对应的人脸动作)的人脸图片，人工标记出具体人脸动作，通过机器学习方法预先建立人脸动作模型库，并基于人脸动作模型库确定所述面部动作。

在图2的步骤S230中，确定在S220中识别的面部动作是否与所述字符串的发音相匹配。可以预先建立不同字符的发音的动作模型，并在生成字符串后基于各个字符的发音的动作模型生成所述字符串的发音的基准动作模型，然后将在S220中识别的面部动作与所述基准动作模型进行比对，以确定所识别的面部动作是否与所述字符串的发音相匹配。或者，还可以利用已训练的神经元网络来执行S230。将结合图4进行描述。

图4是示意性图示了图2的用于验证活体人脸的方法中的将面部动作与字符串发音相匹配S230的流程图。如图所示，所述确定所述面部动作是否与所述字符串的发音相匹配可包括：获取与所述字符串对应的多个训练图像，各个训练图像包括不同的人在说出所述字符串时的面部图像(S231)；利用每个训练图像中的人脸的关键点信息来训练一神经元网络(S232)；利用该已训练的神经元网络确定所述面部动作是否与所述字符串的发音相匹配(S233)。

在S231中，例如可以从因特网网络、有线电视网络等收集大量人物的说话视频，并标记与说话视频对应的说话内容，即字符的内容。

在S232中可以如下地训练神经元网络：确定每个训练图像中的人脸的关键点信息；生成与每个训练图像中的人脸的多个关键点对应的特征向量序列；利用所生成的各个特征向量序列来训练所述神经元网络。此外，在攻击者使用面具的情况中，人脸的部分关键点可能容易被面具覆盖，可以增强对所述容易覆盖的关键点的训练。相应地，在S232中可以确定在人脸的关键点之中的易于被面具覆盖的指定关键点；生成与每个训练图像中的人脸的包含所述指定关键点的多个关键点对应的特征向量序列；利用所生成的各个特征向量序列来训练所述神经元网络。人工标记的说话内容作为对应的训练目标。所述神经元网络可以具有但不限于以下结构：输入层，接收特征向量序列；卷积层，对输入向量进行平滑和提取特征；反馈层，通过联系之前和之后的输入特征，对当前输入特征进行提取，该反馈层可以但不限于通过长短时间记忆(LSTM，Long Short Term Memory)来实现；全连接层，用于对特征进行进一步抽象；输出层，输出最终的判断结果，该输出层可以但不限于使用序列标注(CTC，Connectionist Temporal Classification)来实现。

在S233中，利用该已训练的神经元网络确定所述面部动作是否与所述字符串的发音相匹配。作为示例，该已训练的神经元网络基于所述面部动作确定待验证对象说出所述字符串的概率；当所确定的概率大于预定概率时，确定所述面部动作与所述字符串的发音相匹配；当所确定的概率小于等于预定概率时，确定所述面部动作与所述字符串的发音不匹配。

在某些实例中，步骤S231和步骤S232通常在具体的验证流程之前已经完成，即，在用于验证活体人脸的方法中通常采用事先训练的神经元网络来确定面部动作是否与字符串的发音相匹配。

在图2的S240中，基于所述第一确定结果判断所述待验证对象是否是活体人脸。当第一确定结果指明所述面部动作与所述字符串的发音相匹配时，判断所述待验证对象是活体人脸。当第一确定结果指明所述面部动作与所述字符串的发音不匹配时，判断所述待验证对象不是活体人脸。例如，在攻击者使用面具、照片进行攻击的情况中，不能识别出面部动作，可以判断出待验证对象不是活体人脸；在攻击者使用视频进行攻击的情况中，由于攻击者不能预先判断随机生成的字符串内容，所以视频中的人脸的面部动作并不对应于字符串的发音，可以判断出待验证对象不是活体人脸。

作为验证活体人脸的应用示例，在基于人脸识别的身份识别系统中，通常在确定了所述待验证对象是活体人脸之后，再进一步比对待验证对象的面部特征与数据库中已存的各个用户的面部特征，以识别待验证对象的身份。此外，还可以将验证活体人脸应用于任何其它的系统，其具体应用不构成对本公开实施例的限制。

在根据本公开实施例的上述用于验证活体人脸的方法的技术方案中，通过确定待验证对象的面部动作是否与随机地生成的字符串的发音相匹配，能够有效地识别出不具有活体人脸的待验证对象，从而有效地防范攻击者借助于非活体工具进行的攻击。

图5是示意性图示了根据本公开实施例的另一用于验证活体人脸的方法500的流程图。在图5中，与图2相同的步骤采用相同的附图标记来指示，并可以参见上面结合图2－4进行描述。具体地，图5中的步骤S210、S220和S230与图2中的相应步骤相同。图5与图2的不同之处在于增加了步骤S250、S260，并相应地调整了S240中的操作。

如图5所示，用于验证活体人脸的方法500除了包括步骤S210、S220和S230之外，还包括：获取待验证对象在预定时间段期间的音频信息(S250)；确定所述音频信息是否与所述字符串的发音相匹配，得到第二确定结果(S260)。在指定所述待验证对象在预定时间段内读出随机生成的字符串的过程，在记录其图像信息以识别其面部动作的同时，还可以利用麦克风记录待验证对象的音频信息(即S250)。然后，在S260中可以对所记录的音频信息进行语音识别而获取对应的文本，然后将文本与随机生成的字符串进行比较，以确定所述音频信息是否与所述字符串的发音相匹配。

在S240中，可以基于S230中的第一确定结果和S260中的第二确定结果而来判断所述待验证对象是否是活体人脸。如果所述音频信息与所述字符串的发音不匹配，则可以判断所述待验证对象不是活体人脸。例如，在攻击者采用视频和动画进行攻击的情况中，视频或动画中的音频信息通常与随机生成的字符串的内容不一致，所以通过步骤S250和S260可以确定所述音频信息与所述字符串的发音不匹配，从而识别出仿冒者的攻击。音频信息的处理相对简单迅速，因此可以初步筛选攻击者。在所述音频信息与所述字符串的发音相匹配时，再执行步骤S220和S230以确定面部动作是否与字符串的发音相匹配。此外，为了加强处理速度，也可以在执行步骤S250和S260的同时执行步骤S220和S230。

在第二确定结果指明所述音频信息与所述字符串的发音相匹配的情况下，再根据第一确定结果进一步识别攻击者。具体地，如果第一确定结果指明所述面部动作与所述字符串的发音相匹配，则判断所述待验证对象是活体人脸；如果第一确定结果指明所述面部动作与所述字符串的发音不匹配，则判断所述待验证对象不是活体人脸。因此，在图5的用于验证活体人脸的方法500的技术方案中，可以进一步增强验证活体人脸的准确度和效率。

图6是示意性图示了根据本公开实施例的用于验证活体人脸的设备600的框图。用于验证活体人脸的设备600对应于图1所示的验证设备，并可包括于其中。该用于验证活体人脸的设备600可以执行上述的用于验证活体人脸的方法。由于该设备600执行的各个操作的细节与在上文中针对图2－5描述的方法基本相同，因此为了避免重复，在下文中仅对所述设备进行简要的描述，而省略对相同细节的描述。

如图6所示，该用于验证活体人脸的设备600可包括：字符发生器610，随机地生成字符串并呈现给待验证对象；动作识别单元620，用于识别所述待验证对象的面部动作；第一匹配单元630，用于确定所述面部动作是否与所述字符串的发音相匹配，得到第一确定结果；判断单元640，用于基于所述第一确定结果判断所述待验证对象是否是活体人脸。字符发生器610、动作识别单元620、第一匹配单元630、判断单元640中的部分或全部操作可以利用处理器和存储器来实现。

字符发生器610可以从事先准备好的多个字符串中随机地选择一个字符串，并向待验证对象呈现该字符串。或者，字符发生器610可以从字符库中选择多个字符数字并随机地组合所选择的字符数字作为所述字符串。由于所述字符串是随机地生成的，攻击者不能预先获知其内容，从而不能用预先准备的照片、视频、动画、3D人脸模型、或者面具来读出所述字符串。所述字符串可以配备有显示屏幕或扬声器、或者连接到显示屏幕或扬声器，以呈现所述字符串。显示屏幕诸如为液晶屏、投影屏、LED屏。所述字符串的具体呈现方式不构成对本公开实施例的限制，只要待验证对象能够获取到即可。

字符发生器610除了呈现所述字符串之外还可以为所述待验证对象呈现提示信息。该提示信息用于引导用户配合验证，以提高验证的准确度。例如，该提示信息可以为用于提示用户大声读出所述字符串的信息，并具体地可以为“请大声读出所显示的字符串”。或者，该提示信息还可以是“不要做鬼脸”等。人脸可以有不同的表情。人脸在不同表情阅读字符串时的动作是有差异的。因此，所述提示信息可以用到用户配合验证，从而提高验证的准确度。

动作识别单元620识别所述待验证对象的面部动作。当待验证对象阅读所述字符串时，其面部会有动作变化，特别是在口部附近。而且，面部动作会随着字符串的内容的不同而改变。也就是说，在面部动作与字符串的发音之间具有一一对应关系。相应地，可以根据面部动作确定其发音内容。此外，动作识别单元620可以限制待验证对象读取字符串的时间，即识别所述待验证对象在预定时间段内的面部动作。该预定时间段是所述该字符串被呈现之后的特定时间段。相应地，动作识别单元620可以包括一计时器、或者连接到一计时器，以仅仅在所述预定时间段期间识别面部动作。设置该时间段能够提高验证效率、并且防止攻击者采取进一步的攻击措施。如果待验证对象在所述预定时间段内没有面部动作、或者其面部动作不对应于所呈现的字符串的发音，则可以确定待验证对象不是活体人脸。

动作识别单元620可以首先定位人脸的诸如嘴角、下巴、唇部等位置，并根据所定位的位置的运动轨迹来识别待验证对象的面部动作。或者，动作识别单元620可以利用图像采集器采集所述待验证对象的面部图像，并通过分析图像来识别所述待验证对象的面部动作。图7是示意性图示了图6中的动作识别单元620的框图。动作识别单元620包括图像采集模块621、属性分析模块622和动作确定模块623。

图像采集模块621获取待验证对象的面部图像。例如，图像采集模块621可以是图像采集器，其连续地采集待验证对象在读出所述字符串过程中的面部图像。所采集的面部图像典型地是多帧图像。图像采集器可以是普通的基于可见光的彩色或灰度摄像机，例如网络摄像头、手机的前置摄像头等。

属性分析模块622分析所述面部图像而获得人脸属性。作为示例，属性分析模块622可以首先确定所获取的图像中是否包含人脸，在检测到人脸的情况下定位出人脸关键点作为人脸属性。人脸关键点是脸部一些表征能力强的关键点，例如眼睛、眼角、眼睛中心、眉毛、鼻子、鼻尖、嘴巴、嘴角和脸部轮廓等。也就是说，属性分析模块622通过分析每帧面部图像获得人脸的关键点位置作为人脸属性。作为示例，属性分析模块622可以基于参数形状模型，根据关键点附近的表现特征，学习出一个参数模型，在使用时迭代地优化出关键点的位置，最后得到关键点坐标。或者，属性分析模块622可以采用级联回归方式定位关键点。具体的获取人脸的关键点位置的方式不构成对本公开实施例的限制。该人脸属性除了可以是人脸的关键点位置之外，还可以是人脸动作轨迹等。

动作确定模块623基于所获得的人脸属性确定所述面部动作。在所述人脸属性仅包括人脸关键点的情况下，动作确定模块623可以基于所述关键点位置在各帧面部图像中的变化来确定所述面部动作。作为示例，利用所计算的人脸关键点与所述人脸动作模型库中的人脸关键点模型，动作确定模块623通过迭代计算、模糊计算等各种计算手段来识别人脸动作。或者，动作确定模块623可以预先获得多种预先规定的人脸动作(例如，与所述字符串的发音对应的人脸动作)的人脸图片，人工标记出具体人脸动作，通过机器学习方法预先建立人脸动作模型库，并基于人脸动作模型库确定所述面部动作。

图6中的第一匹配单元630确定动作识别单元620所识别的面部动作是否与所述字符串的发音相匹配。第一匹配单元630可以预先建立不同字符的发音的动作模型执行所述确定操作。例如，第一匹配单元630在生成字符串后基于各个字符的发音的动作模型生成所述字符串的发音的基准动作模型，然后将动作识别单元620所识别的面部动作与所述基准动作模型进行比对，以确定所识别的面部动作是否与所述字符串的发音相匹配。或者，第一匹配单元630还可以利用神经元网络技术来实现，这将结合图8进行描述。

图8是示意性图示了图6中的第一匹配单元630的框图。如图所示，第一匹配单元630可包括训练图像获取模块631、训练模块632和动作匹配模块633。

训练图像获取模块631获取与所述字符串对应的多个训练图像，各个训练图像包括不同的人在说出所述字符串时的面部图像。训练图像获取模块631例如可以从因特网网络、有线电视网络等收集大量人物的说话视频，并标记与说话视频对应的说话内容，即字符的内容。或者，训练图像获取模块631还可以从视频内容数据库中获取多个训练图像。

训练模块632利用每个训练图像中的人脸的关键点信息来训练一神经元网络。例如，训练模块632可确定每个训练图像中的人脸的关键点信息；生成与每个训练图像中的人脸的多个关键点对应的特征向量序列；利用所生成的各个特征向量序列来训练所述神经元网络。此外，在攻击者使用面具的情况中，人脸的部分关键点可能容易被面具覆盖，可以增强对所述容易覆盖的关键点的训练。相应地，训练模块632可以确定在人脸的关键点之中的易于被面具覆盖的指定关键点；生成与每个训练图像中的人脸的包含所述指定关键点的多个关键点对应的特征向量序列；利用所生成的各个特征向量序列来训练所述神经元网络。人工标记的说话内容作为对应的训练目标。所述神经元网络可以如上所述具有输入层、卷积层、反馈层、全连接层、输出层，其具体结构不构成对本公开实施例的限制。

动作匹配模块633利用该已训练的神经元网络确定所述面部动作是否与所述字符串的发音相匹配。作为示例，动作匹配模块633经由已训练的神经元网络基于所述面部动作确定待验证对象说出所述字符串的概率；当所确定的概率大于预定概率时，动作匹配模块633确定所述面部动作与所述字符串的发音相匹配；当所确定的概率小于等于预定概率时，动作匹配模块633确定所述面部动作与所述字符串的发音不匹配。在应用中，第一匹配单元630可以不包括训练图像获取模块631和训练模块632，而直接耦接到已训练的神经元网络来确定所述面部动作是否与所述字符串的发音相匹配。

在某些实例中，第一匹配单元630可以采用事先训练的神经元网络来确定面部动作是否与字符串的发音相匹配。此时，第一匹配单元630可以仅包括动作匹配模块633，而不包括训练图像获取模块631和训练模块632。

图6中的判断单元640基于通过第一匹配单元630所确定的第一确定结果判断所述待验证对象是否是活体人脸基于所述第一确定结果判断所述待验证对象是否是活体人脸。当第一确定结果指明所述面部动作与所述字符串的发音相匹配时，判断单元640判断所述待验证对象是活体人脸。当第一确定结果指明所述面部动作与所述字符串的发音不匹配时，判断单元640判断所述待验证对象不是活体人脸。

例如，在攻击者使用面具、照片进行攻击的情况中，所述用于验证活体人脸的设备600不能识别出面部动作，可以判断出待验证对象不是活体人脸；在攻击者使用视频进行攻击的情况中，由于攻击者不能预先判断随机生成的字符串内容，所述用于验证活体人脸的设备600会发现视频中的人脸的面部动作并不对应于字符串的发音，可以判断出待验证对象不是活体人脸。作为验证活体人脸的应用示例，在基于人脸识别的身份识别系统中，通常在确定了所述待验证对象是活体人脸之后，再进一步比对待验证对象的面部特征与数据库中已存的各个用户的面部特征，以识别待验证对象的身份。此外，还可以将所述用于验证活体人脸的设备600应用于任何其它的系统，其具体应用不构成对本公开实施例的限制。

在根据本公开实施例的上述用于验证活体人脸的设备的技术方案中，通过确定待验证对象的面部动作是否与随机地生成的字符串的发音相匹配，能够有效地识别出不具有活体人脸的待验证对象，从而有效地防范攻击者借助于非活体工具进行的攻击。

此外，用于验证活体人脸的设备600还可以包括音频获取单元650和第二匹配单元660，如图6的虚线所示。音频获取单元650和第二匹配单元660 中的部分或全部操作可以利用处理器和存储器来实现。

音频获取单元650获取待验证对象在预定时间段期间的音频信息(S250)，并例如可以为麦克风。在所述待验证对象在预定时间段内读出随机生成的字符串的过程，在动作识别单元620采集图像信息并识别其面部动作的同时，音频获取单元650利用麦克风记录待验证对象的音频信息。

第二匹配单元660确定所述音频信息是否与所述字符串的发音相匹配，得到第二确定结果。例如，第二匹配单元660可以对所记录的音频信息进行语音识别而获取对应的文本，然后将文本与随机生成的字符串进行比较，以确定所述音频信息是否与所述字符串的发音相匹配。

判断单元640可以基于第一确定结果和第二确定结果二者而来判断所述待验证对象是否是活体人脸。如果第一确定结果指明所述音频信息与所述字符串的发音不匹配，则判断单元640可以判断所述待验证对象不是活体人脸。例如，在攻击者采用视频和动画进行攻击的情况中，视频或动画中的音频信息通常与随机生成的字符串的内容不一致，所以音频获取单元650和第二匹配单元可以确定所述音频信息与所述字符串的发音不匹配，从而识别出仿冒者的攻击。音频信息的处理相对简单迅速，因此可以初步筛选攻击者。在所述音频信息与所述字符串的发音相匹配时，动作识别单元620和第一匹配单元630操作以确定面部动作是否与字符串的发音相匹配。此外，为了加强处理速度，动作识别单元620和第一匹配单元630操作也可以与音频获取单元650和第二匹配单元同时地操作。

在第二确定结果指明所述音频信息与所述字符串的发音相匹配的情况下，判断单元640再根据第一确定结果进一步识别待验证对象是否为活体人脸。具体地，如果第一确定结果指明所述面部动作与所述字符串的发音相匹配，则判断单元640判断所述待验证对象是活体人脸；如果第一确定结果指明所述面部动作与所述字符串的发音不匹配，则判断单元640判断所述待验证对象不是活体人脸。因此，进一步增强了验证活体人脸的准确度和效率。

图9是示意性图示了根据本公开实施例的另一用于验证活体人脸的设备900的框图。如图9所示，用于验证活体人脸的设备900可包括存储器910、处理器920。存储器910上存储有计算机程序代码。处理器920执行所述程序代码以实现结合图2至图4描述的用于验证活体人脸的方法。

存储器910可以包括只读存储器和随机存取存储器中的至少一个，并向处理器920提供指令和数据。存储器910的数量可以为一个或多个，其例如可以为易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。该存储器910还可以存储所采集的图像信息、音频信息等。

处理器920可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者任何常规的处理器等。

尽管未示出，用于验证活体人脸的设备900还可以包括输入装置、输出装置、通信装置和图像采集器，这些组件通过总线系统和/或其它形式的连接机构互连。输入装置可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述指令例如是使用下述摄像头拍摄图像的指令。输出装置可以向外部(例如用户)输出各种信息，其例如向待验证对象呈现所生成的字符串，并且可以包括显示器、扬声器等中的一个或多个。通信装置可以通过网络或其它技术与其它装置(例如个人计算机、服务器、移动台、基站等)通信，所述网络可以是因特网、无线局域网、移动通信网络等，所述其它技术例如可以包括蓝牙通信、红外通信等。图像采集器可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在存储器910中以供其它组件使用。输入装置、输出装置、通信装置和图像采集器可以根据需要适当地进行选择和组合。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，用于验证活体人脸。该计算机程序产品包括计算机可读存储介质，在所述计算机可读存储介质上存储了计算机程序指令，所述计算机程序指令可由处理器执行以使得所述处理器执行如下操作：随机地生成字符串并呈现给待验证对象；识别所述待验证对象的面部动作；确定所述面部动作是否与所述字符串的发音相匹配，得到第一确定结果；基于所述第一确定结果判断所述待验证对象是否是活体人脸。具体的操作可以参见上面结合图2－4进行的描述。

此外，所述计算机程序指令还使得所述处理器执行如下操作：获取待验证对象在预定时间段期间的音频信息；确定所述音频信息是否与所述字符串的发音相匹配，得到第二确定结果。相应地，在第二确定结果指明所述音频信息与所述字符串的发音相匹配的情况下，如果第一确定结果指明所述面部动作与所述字符串的发音相匹配，判断所述待验证对象是活体人脸；如果第一确定结果指明所述面部动作与所述字符串的发音不匹配，判断所述待验证对象不是活体人脸。具体可以参见上面结合图5进行的描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种用于验证活体人脸的方法，包括：

随机地生成字符串并呈现给待验证对象；

识别所述待验证对象阅读所述字符串时的面部动作；

确定所述面部动作是否与所述字符串的发音相匹配，得到第一确定结果；

基于所述第一确定结果判断所述待验证对象是否是活体人脸；

其中，所述确定所述面部动作是否与所述字符串的发音相匹配包括：

经由已训练的神经元网络基于所述面部动作确定所述待验证对象说出所述字符串的概率；

当所确定的概率大于预定概率时，确定所述面部动作与所述字符串的发音相匹配；

当所确定的概率小于等于预定概率时，确定所述面部动作与所述字符串的发音不匹配；

所述已训练的神经元网络通过如下的操作来获得：

获取与所述字符串对应的多个训练图像，各个训练图像包括不同的人在说出所述字符串时的面部图像；

确定在人脸的关键点之中的易于被面具覆盖的指定关键点；

生成与每个训练图像中的人脸的包含所述指定关键点的多个关键点对应的特征向量序列；

利用所生成的各个特征向量序列来训练所述神经元网络。

2.根据权利要求1的用于验证活体人脸的方法，其中，所述识别所述待验证对象的面部动作包括：

获取待验证对象的面部图像；

分析所述面部图像而获得人脸属性；

基于所获得的人脸属性确定所述面部动作。

3.根据权利要求2的用于验证活体人脸的方法，其中，

所述分析所述面部图像而获得人脸属性包括通过分析每帧面部图像获得人脸的关键点位置作为人脸属性，

所述基于所获得的人脸属性确定所述面部动作包括基于所述关键点位置在各帧面部图像中的变化来确定所述面部动作。

4.根据权利要求1的用于验证活体人脸的方法，还包括：

获取待验证对象在预定时间段期间的音频信息；

确定所述音频信息是否与所述字符串的发音相匹配，得到第二确定结果。

5.根据权利要求4的用于验证活体人脸的方法，其中，所述基于所述第一确定结果判断所述待验证对象是否是活体人脸包括：基于第一确定结果和第二确定结果判断所述待验证对象是否是活体人脸。

6.根据权利要求5的用于验证活体人脸的方法，其中，基于第一确定结果和第二确定结果判断所述待验证对象是否是活体人脸包括：

如果第二确定结果指明所述音频信息与所述字符串的发音不匹配，判断所述待验证对象不是活体人脸；

在第二确定结果指明所述音频信息与所述字符串的发音相匹配的情况下，如果第一确定结果指明所述面部动作与所述字符串的发音相匹配，判断所述待验证对象是活体人脸，如果第一确定结果指明所述面部动作与所述字符串的发音不匹配，判断所述待验证对象不是活体人脸。

7.一种用于验证活体人脸的设备，包括：

处理器；

存储器；和

存储在所述存储器中的计算机程序指令，在所述计算机程序指令被所述处理器运行时执行以下步骤：

随机地生成字符串并呈现给待验证对象；

识别所述待验证对象阅读所述字符串时的面部动作；

所述已训练的神经元网络通过如下的操作来获得：

确定在人脸的关键点之中的易于被面具覆盖的指定关键点；

利用所生成的各个特征向量序列来训练所述神经元网络。

8.根据权利要求7的用于验证活体人脸的设备，其中，所述识别待验证对象的面部动作包括：

获取待验证对象的面部图像；

分析所述面部图像而获得人脸属性；

基于所获得的人脸属性确定所述面部动作。

9.根据权利要求8的用于验证活体人脸的设备，其中，

10.根据权利要求7的用于验证活体人脸的设备，还包括音频采集器件，在所述计算机程序指令被所述处理器运行时还执行以下步骤：

利用所述音频采集器件获取待验证对象在预定时间段期间的音频信息；

11.根据权利要求10的用于验证活体人脸的设备，其中，所述基于所述第一确定结果判断所述待验证对象是否是活体人脸包括：基于第一确定结果和第二确定结果判断所述待验证对象是否是活体人脸。

12.根据权利要求11的用于验证活体人脸的设备，其中，基于第一确定结果和第二确定结果判断所述待验证对象是否是活体人脸包括：

13.一种用于验证活体人脸的设备，包括：

字符发生器，随机地生成字符串并呈现给待验证对象；

动作识别单元，用于识别所述待验证对象阅读所述字符串时的面部动作；

第一匹配单元，用于确定所述面部动作是否与所述字符串的发音相匹配，得到第一确定结果；

判断单元，用于基于所述第一确定结果判断所述待验证对象是否是活体人脸；

所述第一匹配单元包括动作匹配模块，所述动作匹配模块用于经由已训练的神经元网络基于所述面部动作确定所述待验证对象说出所述字符串的概率；并且

其中，当所确定的概率大于预定概率时，所述动作匹配模块确定所述面部动作与所述字符串的发音相匹配；当所确定的概率小于等于预定概率时，所述动作匹配模块确定所述面部动作与所述字符串的发音不匹配；

所述第一匹配单元还包括：

训练图像获取模块，用于获取与所述字符串对应的多个训练图像，各个训练图像包括不同的人在说出所述字符串时的面部图像；

训练模块，用于确定在人脸的关键点之中的易于被面具覆盖的指定关键点，生成与每个训练图像中的人脸的包含所述指定关键点的多个关键点对应的特征向量序列，以及利用所生成的各个特征向量序列来训练所述神经元网络。

14.根据权利要求13的用于验证活体人脸的设备，其中，所述动作识别单元包括：

图像采集模块，用于获取待验证对象的面部图像；

属性分析模块，用于分析所述面部图像而获得人脸属性；

动作确定模块，用于基于所获得的人脸属性确定所述面部动作。

15.根据权利要求14的用于验证活体人脸的设备，其中，

所述属性分析模块通过分析每帧面部图像获得人脸的关键点位置作为人脸属性，

所述动作确定模块基于所述关键点位置在各帧面部图像中的变化来确定所述面部动作。

16.根据权利要求13的用于验证活体人脸的设备，还包括：

音频获取单元，用于获取待验证对象在预定时间段期间的音频信息；

第二匹配单元，用于确定所述音频信息是否与所述字符串的发音相匹配，得到第二确定结果。

17.根据权利要求16的用于验证活体人脸的设备，其中，所述判断单元基于第一确定结果和第二确定结果判断所述待验证对象是否是活体人脸。

18.根据权利要求17的用于验证活体人脸的设备，其中，

如果第二确定结果指明所述音频信息与所述字符串的发音不匹配，则所述判断单元判断所述待验证对象不是活体人脸；

在第二确定结果指明所述音频信息与所述字符串的发音相匹配的情况下，如果第一确定结果指明所述面部动作与所述字符串的发音相匹配，则所述判断单元判断所述待验证对象是活体人脸，如果第一确定结果指明所述面部动作与所述字符串的发音不匹配，则所述判断单元判断所述待验证对象不是活体人脸。