CN112395907A

CN112395907A - 人脸活体检测方法和装置、人脸活体检测设备及介质

Info

Publication number: CN112395907A
Application number: CN201910741753.0A
Authority: CN
Inventors: 李念
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2021-02-23

Abstract

本发明公开了一种人脸活体检测方法和装置、人脸活体检测设备及介质。该方法包括：以第一显示方式显示对准图案，所述对准图案用于使得用户鼻尖的位置与该对准图案上的特定位置对准；从所述对准图案上的当前特定位置依次生成多个特定位置之一的下一特定位置，并以第二显示方式依次显示对准图案上的多个特定位置，同时控制捕获装置来录制针对用户的视频；从录制的视频中提取用户鼻尖的位置构成用户鼻尖位置序列，并与所述对准图案上的依次显示的所述多个特定位置构成的特定位置序列进行比对，得到第一人脸活体检测结果。本发明通过使得用户鼻尖的位置与显示的图案的特定位置的对准，提高了视频活体检测的安全性。

Description

人脸活体检测方法和装置、人脸活体检测设备及介质

技术领域

本发明涉及检测技术，尤其涉及人脸活体检测方法和装置、人脸活体检测设备及介质。

背景技术

人脸活体检测是指判断给定图像或视频中的人脸是来自真实的人还是来自于欺骗人脸(面具、打印照片、屏幕上显示的照片或播放的视频片段等)的技术。人脸活体判断是一种重要的防攻击、防欺诈的技术手段，在银行、保险、互联网金融、电子商务等涉及到远程身份认证的行业和场合存在广泛的应用。

现有的人脸活体检测方法按照输入方式，主要分为两大类：图片活体检测方法与视频活体检测方法。

对于图片活体方法，其输入一般为一张或几张图片，信息量比视频少得多，同时时序信息也不足，只能通过图片上的一些例如颜色、形状等的信息来尽可能判断是否活体。

对于视频活体方法，其输入一般为一段视频，视频比图片信息量大，同时具有时序信息。从安全的角度讲，输入所包含的信息越多，攻击伪造数据的难度和成本就越高，因此图片活体方法不如视频活体方法的安全性更高。

其中，视频活体方法主要有两个分支：

1)动作活体：需要用户按照提示做若干指定的动作，指定的动作可以包括点头、摇头、眨眼、张嘴等。动作比较简单，而且检测一种动作相对比较耗时。例如，如果一次交互有3秒左右，则这3秒内最多只能做3-4个动作。并且，攻击者可以提前录制好各个动作，那么如果依次播放录制好的动作视频，则动作活体检测方法有可能被攻破。

2)静默活体：优点是不需要用户过多的交互，只需要盯着摄像头看2-3秒左右，期间可以保持静止也可以有正常的动作，用户体验优于动作活体检测方法。

现有的动作活体检测方法和静默活体检测方法通常都存在安全隐患，即摄像头劫持攻击。摄像头劫持攻击的原理如下：例如，用户A提前录制好一段用户B的正脸视频，之后用户A要以用户B的身份通过视频活体检测时，在拍摄终端比如手机上，用户A通过破解而拥有了最高权限，那么在检测拍摄时，用户A可以通过修改系统摄像头的输入源，将提前录制好的用户B的视频送入摄像头输入流，这样即可实现摄像头劫持攻击而不被服务器察觉，而服务器端还以为是用户B自己完成的本次视频活体检测。

综上可知，当前亟需一种能够有效提高视频活体检测方法的安全性的解决方案。

发明内容

为解决以上问题之一，本发明提出一种人脸活体检测方法和装置、人脸活体检测设备及介质。

根据本发明的一个实施例，提供一种人脸活体检测方法，包括：以第一显示方式显示对准图案，所述对准图案用于使得用户鼻尖的位置与该对准图案上的特定位置对准；从所述对准图案上的当前特定位置依次生成多个特定位置之一的下一特定位置，并以第二显示方式依次显示对准图案上的多个特定位置，同时控制捕获装置来录制针对用户的视频；从录制的视频中提取用户鼻尖的位置构成用户鼻尖位置序列，并与所述对准图案上的依次显示的所述多个特定位置构成的特定位置序列进行比对，得到第一人脸活体检测结果。

根据本发明的一个实施例，提供一种人脸活体检测装置，该装置包括：显示单元，用于以第一显示方式显示对准图案，所述对准图案用于使得用户鼻尖的位置与该对准图案上的特定位置对准，并且还用于以第二显示方式依次显示所述对准图案上的多个特定位置；控制单元，用于控制捕获装置来录制针对用户的视频；特定位置生成单元，用于从所述对准图案上的当前特定位置依次生成作为所述多个特定位置之一的下一特定位置；第一检测单元，用于从录制的视频中提取用户鼻尖的位置构成用户鼻尖位置序列，并与所述对准图案上的依次显示的所述多个特定位置构成的特定位置序列进行比对，得到第一人脸活体检测结果。

根据本发明的再一个实施例，提供一种人脸活体检测设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行上面描述的方法之一。

根据本发明的又一个实施例，提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被处理器执行时，使所述处理器执行上面描述的方法之一。

本发明通过使得用户鼻尖的位置与显示的图案的特定位置的对准，提高了视频活体检测方法的安全性。

具体地，本发明中提出的基于鼻尖位置估计的人脸活体检测方法，属于动态活体方法。下一特定位置的生成可以是随机多变的，因此，难以提前录制真人攻击视频。同时该方法对于摄像头劫持攻击有很好的防御效果。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的附图标记通常代表相同部件。

图1给出了给出了根据本发明的一个示例性实施例的人脸活体检测方法的示意性流程图。

图2给出了一个作为对准图案的示例的九宫格图案的编号图。

图3给出了用于引导用户鼻尖对准特定位置的示例性提示。

图4给出了一个确定邻域点集合的示例。

图5给出了一个特定位置序列的示例。

图6给出了根据本发明的一个示例性实施例的人脸活体检测装置的示意性框图。

图7给出了给出了根据本发明的一个示例性实施例的人脸活体检测设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以按各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。这里需要说明的是，本申请中的数字、序号以及附图标记仅是为了方便描述而出现的，对于本发明的步骤、顺序等等均不构成任何限制，除非在说明书中明确指出了步骤的执行有特定的先后顺序。

本发明提出一种基于鼻尖位置估计来判断人脸活体的人脸活体检测方法。

图1给出了根据本发明的一个示例性实施例的人脸活体检测方法的示意性流程图。

如图1所示，在步骤S110，以第一显示方式显示对准图案。

上述的“对准图案”用于使得用户鼻尖的位置与图案中的特定位置对准。在下面的例子中，为了便于理解和描述起见，用九宫格图案作为上述的对准图案。这里，九宫格图案相当于田字格，用于对准的特定位置比如为田字格的交点位置。但是，实际上，本发明对于对准图案的具体形状、尺寸等等无需做特别的限制。

这里，在本发明中的“显示”，可以是显示在例如显示器、摄像头等显示单元的屏幕上，也可以是显示在某些合适的物体(比如较平的物体)上，本发明对此不作任何限制。另外，上述的屏幕可以是录制视频的捕获装置(例如手机、平板电脑、摄像装置等)的屏幕，也可以是捕获装置之外的另外的显示单元的屏幕，本发明对此不做任何限制。不过，无论是在哪里显示对准图案，都需要能够获取到对准图案的坐标与用户鼻尖的位置对准时的坐标，本发明对于坐标的获取方式也不做任何限制。例如，在屏幕上显示的情况下，可以通过与捕获装置(在捕获装置的屏幕上显示对准图案时)或显示装置(在另外的显示装置的屏幕上显示对准图案时)的通信(无线或有线通信)来获取所需的坐标，当然也可以通过任何其他能够想到的方式来获取所需的坐标。

另外，这里的“第一显示方式”可以是任何方式的显示，例如可以是常规显示的方式，也可以包括隐藏显示的方式。请注意，这里的第一显示方式主要是为了与后续要描述的第二显示方式相区分。

在步骤S120，以第二显示方式依次显示对准图案上的多个特定位置，并且控制捕获装置来录制针对用户的视频，其中，从所述对准图案上的当前特定位置依次生成作为所述多个特定位置之一的下一特定位置。

这里，第二显示方式可以是突出显示，例如采用颜色、图案、文字等等显示方式，以使得上述的特定位置从上面描述的以第一显示方式显示的对准图案上突显出来，有助于引导用户发现和对准特定位置。

另外，对准图案上的多个特定位置依次进行显示，以使得用户鼻尖的位置依次对准每个特定位置。另外，特定位置的显示方式可以一样，也可以有区别，本发明对此不做任何限制。

在依次显示特定位置的过程中，捕获装置可以录制针对用户的视频，以记录用户鼻尖的位置与特定位置对准的画面。

为了检测人脸活体，在本发明的该实施例中，可以在显示特定位置时，录制针对用户的视频，以捕获用户鼻尖的位置与显示的对准图案的当前特定位置对准的画面，以此来识破摄像头劫持攻击，提高人脸活体检测的安全性。

另外，也可以在预览画面中看到用户鼻尖的位置与显示的对准图案的当前特定位置对准时，开始录制针对用户的视频以捕获对准的画面。

这里，对准图案的初始的当前特定位置(也可称为“第一特定位置”)可以是预先设定的，例如以该图案的中心点为当前特定位置，这样能够方便用户鼻尖的初始对准。

不过，对准图案的初始的当前特定位置也可以是动态生成的，例如，可以在视频开始拍摄之前或者在开始拍摄的同时生成该对准图案上的一个事先未知的位置作为当前特定位置，这样可以防止仿冒者事先知道当前特定位置而预先制作出虚假的初始对准视频。

在初始的当前特定位置之后，从对准图案上的初始的当前特定位置(第一特定位置)生成下一特定位置(第二特定位置)。

这里，生成第二特定位置的方式优选地是动态的，以同样可以类似地防止仿冒者事先知道第二特定位置而预先制作出虚假的对准视频。

另外，在被依次显示的多个特定位置之中，如上所述，从对准图案上的当前特定位置生成下一特定位置，然后可以在用户鼻尖的位置对准该下一特定位置之后，再以该下一特定位置作为当前特定位置，继续生成下一特定位置。即，可以将下一特定位置作为当前特定位置，重复下一特定位置生成操作。具体地，可以将第二特定位置作为当前特定位置，继续生成第三特定位置作为下一特定位置，并且用户鼻尖的位置与第三特定位置对准。然后，再将第三特定位置作为当前特定位置，继续生成第四特定位置，并且用户鼻尖的位置与第四特定位置对准。以此类推。直到重复下一特定位置生成操作达特定的次数。

这里，本发明对于重复的次数不加限制。不过，重复的次数越多，得到的检测结果越准确，但是代价是用户的交互时间和检测所花的时间变长。在实践中，可以根据实际需要来调整重复的次数。不过，即便不重复进行下一特定位置生成和对准操作，即，只进行一次下一特定位置生成和对准操作，也能实现本发明的目的，解决摄像头劫持攻击的问题。

可选地，可以从对准图案上的当前特定位置的周边区域生成下一特定位置。

其中，对于上述的“当前特定位置的周边区域”，可以基于与当前特定位置相距的距离来确定该周边区域。本发明对于该周边区域的形状或尺寸不加任何限制。

然后，在步骤S130，从录制的视频中提取用户鼻尖的位置构成用户鼻尖位置序列，并与对准图案上的依次显示的多个特定位置构成的特定位置序列进行比对，得到第一人脸活体检测结果。

这里，对录制的视频的真实性进行初步判断，判断的方法可以包括例如上面所述的“从录制的视频中提取用户鼻尖的位置构成用户鼻尖位置序列，并与所述对准图案上的依次显示的所述多个特定位置构成的特定位置序列进行比对，得到第一人脸活体检测结果”。

这里，从录制的视频中提取用户鼻尖的位置可以采用关键点提取算法等，在此不再赘述。

这里，上述的特定位置序列包括当前特定位置和下一特定位置。在下一特定位置生成的操作只执行一次，而不重复执行的情况下，该特定位置序列包括作为初始的当前特定位置的第一特定位置和作为第一个也是唯一一个的下一特定位置的第二特定位置。而在重复执行下一特定位置生成的操作的情况下，该特定位置序列包括第一特定位置、第二特定位置、......第N+1特定位置(其中N是执行下一特定位置生成的操作的次数)。

另外，上述的用户鼻尖位置序列的长度可以与特定位置序列不同或相同。因为用户鼻尖位置序列中的用户鼻尖的位置是从录制的视频中计算的，可能会有重复的数据。对于重复的数据，可以采取去重处理。

通过序列中的数据的比对，可以得到第一人脸活体检测结果。如果是仿冒的视频，则从仿冒的视频中提取的用户鼻尖的位置与对准图案的特定位置序列很难达到一致，因此会无法通过人脸活体检测。

可选地，在步骤S140，针对上述的录制的视频，通过静默活体检测模型来得到第二人脸活体检测结果。

在本步骤中，静默活体检测的目的包括鉴别录制的视频中的用户是否真的是人脸活体，比如，如果与特定位置进行对准的所谓的用户其实是一个剪纸，所谓的用户的鼻尖其实是剪纸上的假鼻子，此时采用静默活体检测方式，可以检测出来不是真实的人脸活体。

在步骤S150，基于第一人脸活体检测结果和第二人脸活体检测结果，确定录制的视频是否通过人脸活体检测。

这里，基于鼻尖位置检测的结果与静默活体检测的结果两者，来综合判断录制的视频是否能通过人脸活体检测，由此使得检测结果更准确。

例如，即使使用剪纸攻击等方式模拟真人鼻尖位置，但是由于本发明中可以采用鼻尖位置与静默活体检测相结合的方式，因此能够对攻击有很好的防御性。

这里，上面提到的用户鼻尖的位置与该图案上的各特定位置的对准可以通过用户移动鼻尖或者捕获装置移动来实现。

可选地，可以通过文字提示或者突出要对准的特定位置的方式，帮助实施用户鼻尖的位置与该图案上的各特定位置的对准过程。

以下将通过一个具体实例来说明根据本发明的一个示例性实施例的人脸活体检测方法。

首先，显示用于对准的图案(例如在屏幕上显示)。在本例中，该图案是图2所示的九宫格编号图。其中，对该九宫格中的九个点，按照特定的顺序(例如从上到下、从左到右)进行编号，由此得到图2所示的每个格对应的编号1～9。其中，作为本例的初始的当前对准位置的第一特定位置P的中心点的编号为5。

然后，如图3所示，可以提示用户(例如可以通过在屏幕上显示提示信息，比如显示提示文字、图形扥或者突出显示要对准的特定位置)，使用户的鼻尖对准九宫格的中心点(即初始特定位置，也称为“第一特定位置”)，此时可以开始录制该对准过程(初始对准)的视频。

在本发明中，术语“对准”可以指用户鼻尖在用于显示对准图案的屏幕像素空间上的坐标与相应的特定位置在屏幕像素空间上的坐标之间的对准。

例如，在本例中，初始对准的判断标准可以为用户鼻尖的位置在屏幕上的坐标(a,b)与第一特定位置的坐标P(x,y)之间满足一定的关系。

比如，在本例中对准图案为九宫格图案的情况下，可以是它们的坐标之间的距离满足以下关系：

在本例中，坐标值按像素来计量，因此，k可以为大于0的整数，并且k值越大，对准标准越宽松，反之越严格。

这里，k的取值可以为例如1～5像素，当然也可以取其它值，本发明对此不做任何特别的限制。

在用户对准九宫格的第一特定位置即中心点后，生成要对准的下一特定位置P-next(第二特定位置)并记录该下一特定位置。

其中，下一特定位置可以按照以下规则来确定：从与当前特定位置的距离在预定范围内的位置(可称为“邻域位置”)来选取。

即，在通过以上规则得到的所有位置所构成的邻域位置集合中，可以选一个位置作为下一特定位置P-next。

在选出下一特定位置P-next之后，通过例如提供提示信息(比如在屏幕上显示提示文字、图形、突出显示特定位置等，或者通过音频或视频播放等其他形式)，使用户鼻尖靠近该下一特定位置P-next，实现对准。请注意，在该次对准的过程中，仍然继续在录制视频。

在该次对准之后，可以停止录制，并可以对录制的视频进行用户鼻尖检测和静默活体检测，以判断该视频是否能最终通过人脸活体检测。

另外，也可以在实现用户鼻尖与下一特定位置P-next的对准之后，再继续进行对准。即，可以将该下一特定位置P-next作为当前特定位置，即，将第二特定位置P-next代替第一特定位置来作为当前特定位置P，再次生成下一特定位置(第三特定位置)，并且使得用户鼻尖的位置与新生成的下一特定位置(第三特定位置)对准。请注意，在该次对准时，视频的录制仍然可以在继续进行。

如上所述，可以重复执行上述的“下一特定位置的生成”的操作若干次。

另外，如上所述，可以在每次将当前特定位置突出标记进行显示(第二显示方式)，例如可以将其标记为红色，以便能够起到提示用户的作用。

可选地，对于九宫格图案来说，可以按照以下规则来确定作为上述的邻域位置集合的邻域点集合：

1)与当前特定位置的距离为1步的邻域点；

2)沿水平或者垂直方向与当前特定位置相邻，不可以斜向相邻。

通过该规则，得到的邻域点集合如图4所示。

这里，如上所述，可以执行下一特定位置生成的操作N次，N为大于大于等于2的整数，例如可以执行5次，由此可以得到一个N+1(包含起始位置)位长的特定位置序列T，该特定位置序列的第1位上是第一特定位置，序列第i+1位代表第i次生成的下一位置编号。例如序列“589652”，代表一次有效的位置生成，如图5所示。

接下来，可以采用用户鼻尖检测方式来检测视频中的对象是否属于人脸活体。

例如，可以从录制的视频中，逐帧提取用户鼻尖的位置，构成用户鼻尖位置序列M(第一用户鼻尖位置序列)。然后，针对第一用户鼻尖位置序列M中的每个元素，计算得到对准图案上的所有标记位置(例如图中示出的九宫格图案中的9个点(例如，九宫格的各格子的中心点位置)作为所述“标记位置”，上述的特定位置属于标记位置的一种)中的与该元素距离最近的标记位置，由此得到与鼻尖位置序列对应的、由各最近的标记位置组成的最近位置序列。接着，对最近位置序列进行去重处理，得到处理后的最近位置序列，并将该处理后的最近位置序列与所述特定位置序列进行比对，以确定该视频是否能通过人脸活体检测。

另外，也可以从录制的视频中，筛选出视频中用户鼻尖的位置更靠近对准图案上的标记位置之一的视频帧，并得到筛选出的视频帧中的用户鼻尖的位置，构成第二用户鼻尖位置序列M’，将该第二用户鼻尖位置序列M’与所述特定位置序列进行比对，以得到第一人脸活体检测结果(是否通过人脸活体检测)。

下面，将以九宫格图案作为对准图案为例，进行更详细的描述。

首先，可以从录制的视频中，提取出用户鼻尖的位置(使用例如关键点提取算法)，生成用户鼻尖位置序列。具体的提取方式将在稍后进行详细介绍。

另外，九宫格图案中的9个点(即上述的“标记位置”)的中心坐标可以记为：

C_k＝(x_k，y_k)，k∈[1，9]。

可针对鼻尖位置序列N_pos中的每个元素(a_i,b_i)，计算与该元素距离(例如可以采用欧几里得距离等)最近的九宫格点编号(即上述的“最近位置”，本例中可称为“最近点编号”)m_i。

具体地，例如，假设(x_k,y_k)(k＝1,2.....,9)是上面提到的九宫格的每个点的中心坐标。针对鼻尖位置(a_i,b_i)，可以得到九宫格的每个点与该位置的距离，然后可以如下所示，得到这些距离中最短的距离。

则由该最短距离，可知该最短距离所对应的九宫格点编号即为元素(a_i,b_i)的最近点编号m_i。

按照上述方式，可以为用户鼻尖位置序列N_pos中的各元素(a₁,b₁)、......、(a_n,b_n)，得到各自的最近点编号m₁、......、m_n，然后可以将这些最近点编号m₁、......、m_n存入最近点编号序列M，如下所示：

M＝[m₁，m₂，...，m_n]。

这里将举例详细介绍从录制的视频中提取用户鼻尖的位置的方式。例如，可以从录制的视频中(从全部帧中)逐帧提取出用户鼻尖的位置坐标。假如视频共录制了n帧，则可提取出一个长度为n的用户鼻尖位置序列N_pos：[(a₁，b₁)，(a₂，b₂)...(a_n，b_n)]。该序列中的每个元素(a_i,b_i)代表相应视频帧中的鼻尖位置屏幕坐标。

由于采用这种方式会得到比较多的坐标数据，相应地在后续会得到比较多的最近点，其数量比相应的特定位置序列中的数据的数量大得多，因此，在与特定位置序列中的数据进行比对之前，可以先进行去重操作，即，可以将得到的相同的多个最近点只保留1个。

具体地，在将上述的最近点编号序列M中的编号做去重处理，使得相同的编号只保留1个之后，得到的处理后最近点编号序列(处理后最近位置序列)U如下:

U＝[u₁，u₂，...，u_d]。

或者，如上所述，也可以先筛选录制的视频帧，从中选取更(最)靠近对准图案上的特定位置的视频帧，然后再针对选取的视频帧，得到其对应的最近点编号，由此得到用户鼻尖的位置的最近点编号序列M’。

检查上述的处理后最近点编号序列U或者最近点编号序列M’是否与特定位置序列T一致，如一致，则此阶段的作为第一人脸活体检测结果的得分S1＝1，即可以判断此视频可以通过人脸活体检测。若不一致，则作为第一人脸活体检测结果的得分S1＝0，则可以判断此视频无法通过人脸活体检测。

这里，所说的“一致”可以是完全一致，也可以是比较高比例的一致(考虑到各种误差的影响，即便视频中是真实的人脸活体，也有可能无法完全一致)。这里的一致的“比例值”可以根据实际情况来确定或预设。

另外，处理后最近点编号序列U或最近点编号序列M’中的编号的数量不一定与相特定位置序列T中的编号的数量相同，即，可能会大于或少于最近点编号序列中的编号的数量。在这种情况下，可以规定，如果处理后最近点编号序列U或最近点编号序列M’中的编号的数量超出或者少于预定个数，则直接判定为不通过。如果处理后最近点编号序列U或最近点编号序列M’中的编号的数量没有超出或者少于该预定个数，则可以结合序列中的编号的顺序与编号的值来判断其与特定位置序列的一致程度，并且在得到的一致程度高于或等于预定的阈值的情况下，判定为通过该人脸活体测试。否则，判定为不通过。

另外，录制的视频还可以与用户鼻尖检测同时或者在其之后做静默活体检测，得到作为第二人脸活体检测结果的分数S2。

然后，可以结合第一人脸活体检测结果和第二人脸活体检测结果，确定录制的视频是否通过人脸活体检测。

可选地，例如，可以采用用户鼻尖检测结果的S1分数“一票否决”方案，即，若S1分数为0，则直接判为活体攻击，即不通过人脸活体检测。若S1分数为1，即鼻尖位置匹配通过，然后以静默视频活体检测结果的分数S2作为最终活体判断依据。

另外，还可以将第一人脸活体检测结果与第二人脸活体检测结果进行综合考量，例如对二者进行加权处理，将最终的综合靠量后的结果(例如加权后的值)作为最终检测结果，判断录制的视频是否通过人脸活体检测。

总之，第一人脸活体检测结果与第二人脸活体检测结果的结合方式不限于以上这些，本发明对此不做任何限制。

综上可知，本发明通过使得用户鼻尖的位置与屏幕上图案的特定位置的对准，提高了人脸活体检测的安全性。

具体地，本发明中提出的基于鼻尖位置估计的人脸活体检测方法，属于动态活体方法。下一特定位置的生成可以是随机多变的，因此，难以提前录制真人攻击视频。

而且，进一步地，即使使用剪纸攻击等方式模拟真人鼻尖位置，因为该方法使用鼻尖位置加上视频静默活体算法的组合方式，也能对攻击有很好的防御性。同时该方法对于摄像头劫持攻击有很好的防御效果。

如图6所示，根据本发明的一个示例性实施例的人脸活体检测装置100可以包括显示单元105、控制单元115、特定位置生成单元125、第一检测单元135。

其中，显示单元105用于以第一显示方式显示对准图案，所述对准图案用于使得用户鼻尖的位置与该对准图案上的特定位置对准，并且还用于以第二显示方式依次显示所述对准图案上的多个特定位置。

控制单元115用于控制捕获装置来录制针对用户的视频。

特定位置生成单元125用于从所述对准图案上的当前特定位置依次生成作为所述多个特定位置之一的下一特定位置。

第一检测单元135用于从录制的视频中提取用户鼻尖的位置构成用户鼻尖位置序列，并与所述对准图案上的依次显示的所述多个特定位置构成的特定位置序列进行比对，得到第一人脸活体检测结果。

其中，上述的显示单元105与捕获装置可以是分立的或者集成在一起的。

另外，用户鼻尖的位置与相应的特定位置的对准包括用户鼻尖的位置在所述屏幕的像素空间上的坐标与相应的特定位置在所述屏幕的像素空间上的坐标之间的对准。

另外，上述的对准能够通过用户移动鼻尖来实现，或者在显示单元105与捕获装置集成在一起的情况下，通过捕获装置自身的移动来实现。例如，集成在一起的情况可以是比如配备有前/后端摄像头(作为显示单元)以供用户摄像的手机等。

可选地，上述的特定位置生成单元125可以将下一特定位置作为当前特定位置，重复上述的生成下一特定位置的操作达预定次数。

可选地，还可以通过显示提示信息，用于引导用户实施用户鼻尖的位置与相应的特定位置的对准。

可选地，上述的对准图案可以为九宫格图案。这里，九宫格图案相当于田字格，用于对准的特定位置比如为田字格的交点位置。

其中，特定位置为该九宫格图案的每个格子的中心点位置。

另外，其中，所述下一特定位置从与当前特定位置在水平方向或垂直方向上相邻的特定位置中随机选取。

所述从录制的视频中提取用户鼻尖的位置构成用户鼻尖位置序列，并与所述对准图案上的相应特定位置构成的特定位置序列进行比对包括以下两种方式之一：

从录制的视频中，逐帧提取用户鼻尖的位置，构成第一用户鼻尖位置序列，针对第一用户鼻尖位置序列中的每个元素，计算得到对准图案上的所有标记位置中的与该元素距离最近的标记位置，由此得到与第一用户鼻尖位置序列对应的、由各最近的标记位置组成的最近位置序列，其中，所述特定位置属于标记位置的一种，对所述最近位置序列进行去重处理，得到处理后的最近位置序列，并将该处理后的最近位置序列与所述特定位置序列进行比对，得到第一人脸活体检测结果；

从录制的视频中，筛选出各视频帧中用户鼻尖的位置更靠近对准图案上的标记位置之一的视频帧，并得到筛选出的视频帧中的用户鼻尖的位置，构成第二用户鼻尖位置序列，将该第二用户鼻尖位置序列与所述特定位置序列进行比对，得到第二人脸活体检测结果。

另外，根据本发明的另一个示例性实施例的人脸活体检测装置100还可以包括第二检测单元145，用于通过静默活体检测模型，得到第二人脸活体检测结果。

再另外，根据本发明的另一个示例性实施例的人脸活体检测装置100还可以包括判定单元155，用于基于第一人脸活体检测结果和第二人脸活体检测结果，确定所述视频是否通过人脸活体检测。

这里，根据本发明的示例性实施例的人脸活体检测装置的操作与上述的人脸活体检测方法的操作类似，在此不再赘述。

本发明通过使得用户鼻尖的位置与屏幕上图案的特定位置的对准，提高了人脸活体检测的安全性。

本发明通过使得用户鼻尖的位置与显示的图案的特定位置的对准，提高了人脸活体检测的安全性。具体地，本发明中提出的基于鼻尖位置估计的人脸活体检测方法，属于动态活体方法。下一特定位置的生成可以是随机多变的，因此，难以提前录制真人攻击视频。

另外，进一步地，即使使用剪纸攻击等方式模拟真人鼻尖位置，因为该方法使用鼻尖位置加上视频静默活体算法的组合方式，也能对攻击有很好的防御性。同时该方法对于摄像头劫持攻击有很好的防御效果。

图7给出了根据本发明的一个示例性实施例的人脸活体检测设备的示意性框图。

参见图7，该人脸活体检测设备1包括存储器10和处理器20。

处理器20可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器20可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器20可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器10上存储有可执行代码，当所述可执行代码被所述处理器20执行时，使所述处理器20执行上面描述的方法之一。其中，存储器10可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器20或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器10可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器10可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图等等显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种人脸活体检测方法，其特征在于，该方法包括：

以第一显示方式显示对准图案，所述对准图案用于使得用户鼻尖的位置与该对准图案上的特定位置对准；

从所述对准图案上的当前特定位置依次生成多个特定位置之一的下一特定位置，并以第二显示方式依次显示对准图案上的多个特定位置，同时控制捕获装置来录制针对用户的视频；

从录制的视频中提取用户鼻尖的位置构成用户鼻尖位置序列，并与所述对准图案上的依次显示的所述多个特定位置构成的特定位置序列进行比对，得到第一人脸活体检测结果。

2.如权利要求1所述的人脸活体检测方法，其特征在于，还包括：

针对所述视频，通过静默活体检测模型，得到第二人脸活体检测结果；

基于第一人脸活体检测结果和第二人脸活体检测结果，确定所述视频是否通过人脸活体检测。

3.如权利要求1所述的人脸活体检测方法，其特征在于，

用户鼻尖的位置与特定位置的对准包括用户鼻尖的位置在用于显示对准图案的屏幕的像素空间上的坐标与特定位置在所述屏幕的像素空间上的坐标之间的对准，

其中，该对准通过用户移动鼻尖来实现，或者在所述屏幕与所述捕获装置集成在一起的情况下，通过捕获装置自身的移动来实现。

4.如权利要求1所述的人脸活体检测方法，其特征在于，从所述对准图案上的当前特定位置依次生成多个特定位置之一的下一特定位置包括：

将所述下一特定位置作为当前特定位置，重复所述生成下一特定位置的操作达预定次数。

5.如权利要求1～4中的任何一项所述的人脸活体检测方法，其特征在于，

通过显示提示信息，用于引导用户实施用户鼻尖的位置与相应的特定位置的对准。

6.如权利要求1～4中的任何一项所述的人脸活体检测方法，其特征在于，

从所述对准图案上的当前特定位置依次生成多个特定位置之一的下一特定位置的规则包括：所述下一特定位置从与当前特定位置的距离在预定范围内的位置来选取。

7.如权利要求1～4中的任何一项所述的人脸活体检测方法，其特征在于，

所述对准图案为以隐藏方式显示的九宫格图案，

其中，所述特定位置为所述九宫格图案的每个格子的中心点位置，

其中，所述下一特定位置从与当前特定位置在水平方向或垂直方向上相邻的特定位置中随机选取。

8.如权利要求1～4中的任何一项所述的人脸活体检测方法，其特征在于，

9.一种人脸活体检测装置，其特征在于，该设备包括：

显示单元，用于以第一显示方式显示对准图案，所述对准图案用于使得用户鼻尖的位置与该对准图案上的特定位置对准，并且还用于以第二显示方式依次显示所述对准图案上的多个特定位置；

控制单元，用于控制捕获装置来录制针对用户的视频；

特定位置生成单元，用于从所述对准图案上的当前特定位置依次生成作为所述多个特定位置之一的下一特定位置；

第一检测单元，用于从录制的视频中提取用户鼻尖的位置构成用户鼻尖位置序列，并与所述对准图案上的依次显示的所述多个特定位置构成的特定位置序列进行比对，得到第一人脸活体检测结果。

10.一种人脸活体检测设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1～8中任何一项所述的方法。

11.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被处理器执行时，使所述处理器执行如权利要求1～8中任何一项所述的方法。