CN112149610A

CN112149610A - 一种目标对象的识别的方法和系统

Info

Publication number: CN112149610A
Application number: CN202011075201.XA
Authority: CN
Inventors: 曹佳炯; 丁菁汀
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2020-12-29

Abstract

本说明书实施例提供了一种目标对象的识别方法和系统，所述方法包括：向目标对象输出目标刺激信号，其中所述目标刺激信号是基于预设规则从若干预设刺激信号中选取的；根据所述目标刺激信号的输出，获取目标对象的面部图像信息；基于所述面部图像信息，确定对应的目标表情类别；基于所述目标表情类别与所述目标刺激信号，确定所述目标对象是否属于活体。

Description

一种目标对象的识别的方法和系统

技术领域

本申请涉及计算机技术领域，特别涉及一种目标对象的识别的方法和系统。

背景技术

近年来，人脸识别技术在支付、安防、考勤等领域的应用越来越广。但是，伪装人脸的攻击方式也随之产生，例如，以高清屏幕、照片、裁剪纸张、面具、头模、录制视频等伪装成人脸。这样的问题在很多时候会造成巨大的安全隐患。

因此，亟需一种高效防伪的人脸识别方法和系统。

发明内容

本说明书一个方面提供一种目标对象的识别方法，所述方法包括：向目标对象输出目标刺激信号，其中所述目标刺激信号是基于预设规则从若干预设刺激信号中选取的；根据所述目标刺激信号的输出，获取目标对象的面部图像信息；基于所述面部图像信息，确定对应的目标表情类别；基于所述目标表情类别与所述目标刺激信号，确定所述目标对象是否属于活体。

本说明书另一个方面提供一种目标对象的识别系统，所述系统包括：目标刺激信号输出模块，用于向目标对象输出目标刺激信号，其中所述目标刺激信号是基于预设规则从若干预设刺激信号中选取的；面部图像信息获取模块，用于根据所述目标刺激信号的输出，获取目标对象的面部图像信息；目标表情类型确定模块，用于基于所述面部图像信息，确定对应的目标表情类别；活体确定模块，用于基于所述目标表情类别与所述目标刺激信号，确定所述目标对象是否属于活体。

本说明书另一个方面提供一种目标对象的识别的装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现目标对象的识别的方法。

本说明书另一个方面提供一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行目标对象的识别的方法。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的目标对象的识别的系统的应用场景示意图：

图2是根据本说明书的一些实施例所示的示例性目标对象的识别的系统的模块图。

图3是根据本说明书一些实施例所示的目标对象的识别的方法的示例性流程图；

图4是根据本说明书一些实施例所示的获取目标刺激信号的方法的示例性流程图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

人脸识别技术已经应用于诸多领域，例如，支付领域、安防领域等。人们可以通过人脸识别系统刷脸支付或消费，刷脸进入安防系统、考勤系统、执法系统等。当人脸识别系统识别检测对象为本人且真人时，可以对其开放对应的权限。在一些实施例中，伪装人脸的攻击方式也随之产生，例如，以高清屏幕、照片、裁剪纸张、面具、头模、录制视频等伪装成人脸的方式来试图打开人脸识别系统。因此，在人脸识别系统中比较重要的一个环节就是判断检测对象是真人，还是用打印照片或高清视频伪装人脸的攻击对象，即判断检测对象是否属于活体。

在一些实施例中，人脸识别系统的检测方法主要包括无交互检测和交互式检测。其中，无交互检测指的是在检测过程中，人脸识别系统直接识别检测对象的面部信息，无需与检测对象进行交互。相应的，交互式检测指的是在检测过程中，人脸识别系统与检测对象之间有一些互动，引导检测对象做出指定的动作(例如，眨眼，摇头等)或表情(例如，请微笑等)，根据检测对象的执行结果来识别检测对象是否属于活体。在一些实施例中，无交互检测对于简单的屏幕攻击、打印照片具有较好的防护作用，但是对于高等级的高清视频、纸张等，防护作用较弱。交互式检测，会引导检测对象做比如眨眼、摇头等动作，此方法往往只有一种或者几种固定的动作模式，容易被提前录制的视频绕过。在一些实施例中，可能会出现检测对象不愿意执行交互动作的情形，不具有很好的用户体验。

在一些实施例中，可以利用人的微表情变化，来识别检测对象是否属于活体。微表情是指不受人们主观意识控制的短暂表情，通常甚至清醒的作表情的人和观察者都察觉不到。心理学研究认为，比起人们有意识做出的表情，微表情的变化更能体现人们真实的感受和动机。微表情包括开心、害怕、紧张、愤怒、厌恶、惊讶、轻蔑、惊喜、悲伤、惬意等。每一种微表情对应特定的面部特征，例如，“开心”对应的面部特征是嘴角翘起，面颊上抬起皱，眼睑收缩，眼睛尾部会形成“鱼尾纹”。又例如，“害怕”对应的面部特征是嘴巴和眼睛张开，眉毛上扬，鼻孔张大。另外，心理学研究认为，对于不同的外界刺激，人会展现出不同的微表情。例如，听到欢快旋律的歌曲，大多数人的反映是开心，对应的微表情变化是嘴角翘起，面颊上抬等。例如，看到线条密集的图像时，大多数人的反映是紧张，对应的微表情变化是眉间距离减小，眼睛张开等。

在一些实施例中，可以向检测对象输出刺激信号，检测检测对象对刺激信号做出的微表情反应，基于微表情反应识别检测对象是否为活体。其中，照片、面具等攻击显然不会对外界刺激信号做出对应的微表情变化。本方法属于交互式检测的一种，相比于无交互检测，安全等级更高，对高清屏幕、剪裁纸张等可以稳定防护。相比引导用户执行指定的动作或表情的交互式检测，通过刺激和微表情分析进行检测，一方面对于用户的交互要求更低，打扰更轻微，用户体验更好；另一方面，微表情很难提前进行录制和绕过，安全等级更高。

图1是根据本说明书的一些实施例所示的目标对象的识别的系统的应用场景示意图。

如图1所示，目标对象的识别系统的应用场景100中可以包括服务器110、终端设备120、存储设备130、网络140、摄像设备150等。

服务器110可以用于处理分析与目标对象的面部图像信息相关的信息和/或数据。在一些实施例中，服务器110通过终端设备120向目标对象输出目标刺激信号。例如，服务器110可以获取在目标对象的面部图像信息。又例如，服务器110可以对目标对象的面部图像信息进行处理分析，确定对应的目标表情类别。在一些实施例中，服务器110可以通过网络140以及终端设备120获取目标对象的选择结果。

在一些实施例中，服务器110可以是独立的服务器或者服务器组。该服务器组可以是集中式的或者分布式的(如：服务器110可以是分布系统)。在一些实施例中，该服务器110可以是区域的或者远程的。例如，服务器110可通过网络140访问存储于终端设备120、存储设备130中的信息和/或资料。在一些实施例中，服务器110可直接与终端设备120、存储设备130连接以访问存储于其中的信息和/或资料。在一些实施例中，服务器110可在云平台上执行。例如，该云平台可包括私有云、公共云、混合云等中的一种或其任意组合。

在一些实施例中，服务器110可包含处理器112。该处理器112可处理与执行一个或多个本申请中描述的功能。例如，处理器112可以将目标表情类别与目标刺激信号对应的表情类别进行比对，并确定目标对象是否属于活体。在一些实施例中，处理器112可包含一个或多个子处理器(例如，单芯处理设备或多核多芯处理设备)。仅仅作为范例，处理器112可包含中央处理器(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或以上任意组合。

终端设备120可以是各类具有信息接收和/或发送功能的设备，例如，可以通过终端设备120向目标对象发送刺激信号。又例如，终端设备120可以接收目标对象输入的基于类型选择提示信息的选择结果。在一些实施例中，终端设备20可以是具有指定功能的设备，并且要想使用该指定功能，需要进行身份验证，即在人脸识别系统确认身份后，可以执行该指定功能。例如，终端设备120可以包括具有线上支付功能的手机、平板电脑、个人电脑、以及其他电子设备等。又例如，终端设备120可以包括ATM机。又例如，终端设备120可以包括智能安防设备。

存储设备130可以用于存储数据和/或指令。例如，存储设备130可以存储若干预设刺激信号、预设规则等。又例如，存储设备130可以存储执行一个或多个功能的算法指令。存储设备130可以包括一个或多个存储组件，每个存储组件可以是一个独立的设备，也可以是其他设备的一部分。在一些实施例中，存储设备130可包括随机存取存储器(RAM)、只读存储器(ROM)、大容量存储器、可移动存储器、易失性读写存储器等或其任意组合。示例性的，大容量储存器可以包括磁盘、光盘、固态磁盘等。在一些实施例中，所述存储设备130可在云平台上实现。仅作为示例，所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。数据指对信息的数字化表示，可以包括各种类型，比如二进制数据、文本数据、图像数据、视频数据等。指令指可控制设备或器件执行特定功能的程序。

在一些实施例中，存储设备130可与网络140连接以与系统100的一个或多个组件(例如，服务器110、终端设备120等)通讯。系统100的一个或多个组件可通过网络140访问存储于存储设备130中的资料或指令。在一些实施例中，存储设备130可直接与系统100中的一个或多个组件(如，服务器110、终端设备120)连接或通讯。在一些实施例中，存储设备130可以是服务器110的一部分。

网络140可促进数据和/或信息的交换。在一些实施例中，系统100中的一个或多个组件(例如，服务器110、终端设备120、存储设备130)可通过网络140发送数据和/或信息给系统100中的其他组件。例如，终端设备120可以通过网络140将目标对象的选择结果发送给服务器110。在一些实施例中，网络140可是任意类型的有线或无线网络。例如，网络140可包括缆线网络、有线网络、光纤网络、电信网络、内部网络、网际网络、区域网络(LAN)、广域网络(WAN)、无线区域网络(WLAN)、都会区域网络(MAN)、公共电话交换网络(PSTN)、蓝牙网络、ZigBee网络、近场通讯(NFC)网络等或以上任意组合。在一些实施例中，网络140可包括一个或多个网络进出点。例如，网络140可包含有线或无线网络进出点，如基站和/或网际网络交换点，通过这些进出点，系统100的一个或多个组件可连接到网络140上以交换数据和/或信息。

摄像设备150用于采集目标对象的面部图像信息。在一些实施例中，摄像设备150可以包括可见光摄像机、红外线摄像机、X光摄像机、3D摄像机、单反摄像机、针孔摄像机、防水摄像机、高清摄像机、黑白摄像机、彩色摄像机等中的一种或多种。在一些实施例中，摄像设备150可以是终端设备120的一部分。例如，摄像设备150可以包括手机、个人电脑、平板电脑、ATM上的摄像头。在一些实施例中，摄像设备150中可以包括存储介质，存储介质可以存储指令，也可以存储数据。存储介质可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。

在一些实施例中，服务器110可以指示终端设备120向目标对象发出刺激信号；服务器110可以启动摄像设备150，获取目标对象的图像；摄像设备150可以将该图像发送给服务器110；服务器110可以判别该图像的微表情类别。在一些实施例中，服务器110可以指示终端设备120可以向目标对象发送刺激信号的类型(例如，图片、文本、语音等)选择提示信息；获取目标对象的选择结果(例如，语音)，并将该选择结果发送给服务器110；服务器110可以基于该选择结果从存储设备130获取对应类型的刺激信号，并指示终端设备120向目标对象发出该刺激信号。

在一些实施例中，目标对象的识别的系统200可以包括目标刺激信号输出模块210、面部图像信息获取模块220、目标表情类型确定模块230、活体确定模块240。

在一些实施例中，目标刺激信号输出模块210可以用于向目标对象输出目标刺激信号，其中所述目标刺激信号是基于预设规则从若干预设刺激信号中选取的。在一些实施例中，目标刺激信号输出模块210还用于：向目标对象发送刺激信号的类型选择提示信息；接收与所述类型选择提示信息对应的选择结果；基于所述选择结果获取对应类型的刺激信号。

在一些实施例中，面部图像信息获取模块220可以用于根据所述目标刺激信号的输出，获取目标对象的面部图像信息。在一些实施例中，当所述预设刺激信号包括音频信号时，所述面部图像信息获取模块220还用于：基于所述音频信号播放的中间时段，获取所述面部图像信息。在一些实施例中，所述面部图像信息获取模块220还用于：开始输出所述目标刺激信号的时间阈值后，获取所述目标对象的面部图像信息。

在一些实施例中，目标表情类型确定模块230可以基于所述面部图像信息，确定对应的目标表情类别。在一些实施例中，所述目标表情类型确定模块230还用于：从所述面部图像信息中选取若干帧目标面部图像，使用预设算法处理所述若干帧目标面部图像，确定所述对应的目标表情类别。在一些实施例中，所述目标表情类型确定模块230还用于：从所述面部图像信息选取5帧～25帧目标面部图像。在一些实施例中，所述预设算法包括第一机器学习模型，所述目标表情类型确定模块230还用于：使用所述第一机器学习模型分别处理所述若干帧目标面部图像中的每一帧目标面部图像，确定所述每一帧目标面部图像的子表情类别；基于所述每一帧目标面部图像的子表情类别，确定所述目标表情类别。在一些实施例中，所述预设算法包括第二机器学习模型，所述目标表情类型确定模块230还用于：将所述若干帧目标面部图像输入所述第二机器学习模型，所述第二机器学习模型的输出数据包括所述目标表情类别。在一些实施例中，所述目标表情类型确定模块230还用于：基于所述音频信号的中间时段，从所述面部图像信息中确定若干帧目标面部图像。

在一些实施例中，活体确定模块240可以用于基于所述目标表情类别与所述目标刺激信号，确定所述目标对象是否属于活体。

应当理解，所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于目标对象的识别系统200及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，目标刺激信号输出模块210、面部图像信息获取模块220和活体确定模块240可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本申请的保护范围之内。

图3是根据本说明书一些实施例所示的目标对象的识别的方法的示例性流程图。

如图3所示，该识别方法300可以包括：

步骤310，向目标对象输出目标刺激信号，其中目标刺激信号是基于预设规则从若干预设刺激信号中选取的。

具体的，该步骤310可以由目标刺激信号输出模块210执行。

在一些实施例中，目标对象是人脸识别系统中待识别的对象。在一些实施例中，待识别的对象可以包括活体(例如，支持刷脸支付/消费/账户操作对应的本人或真实的人)，也可以包括非活体，即伪装人脸的攻击对象(例如，本人面部的打印照片、本人面部的高清视屏以及伪装面具等)。

在一些实施例中，目标刺激信号是指确定向目标对象输出的刺激信号。目标刺激信号能够使人产生对应的微表情变化，从而能够根据目标对象的面部表情的变化情况还判断目标对象是否是活体。具体地说，对活体发送目标刺激信号，活体会做出对应的微表情。例如，向活体对象展示视野开阔的自然风景图像，活体对象会做出愉悦的微表情。又例如，向活体对象展示线条密集的图像，活体会做出紧张的微表情。反之，非活体的攻击对象在接收到目标刺激信号时，面部表情不会做出变化，或者不会做出正确的微表情变化。

在一些实施例中，目标刺激信号可以基于预设规则，从若干预设刺激信号中选取。在一些实施例中，预设刺激信号是指预先存储在存储设备130中的刺激信号。

在一些实施例中，从输出的类型上看，预设刺激信号可以包括音频信号、图像信息或文本信息中的至少一种。在一些实施例中，预测刺激信号可以包括一种类型，也可以包括多种类型。在一些实施例中，预设刺激信号的个数可以两个及以上，例如，3个、4个、5个或8个等。其中，存储在存储设备130中的预设刺激信号可以包括一种类型，其中该类型中刺激信号的数量为多个。在一些实施例中，存储在存储设备130中的预设刺激信号也可以包括多种类型。其中，每一种类型的预设刺激信息的数量至少为1个。在一些实施例中，预设刺激信号设为多个时，在人脸识别过程中，每次人脸识别时可以从预设刺激信息号中进行选取不同的刺激信号，不至于若干次人脸识别系统中输出的刺激信息都是一致，降低攻击对象获取下次人脸识别系统输出目标刺激信号的概率，从而降低了攻击对象预先伪装表情的风险。

在一些实施例中，音频信号的刺激信号可以包括旋律式音频、语音式音频等多种内容形式。其中，旋律式音频中仅包括音律，没有歌词内容。语音式音频中既包括旋律，也包括歌词内容。在一些实施例中，图像信息的刺激信号可以包括黑白图像、彩色图像等。在一些实施例中，文本信息的刺激信号可以包括中文字体、英文字体或象形字体等。

在一些实施例中，预设规则可以包括随机选取或按照预设顺序选取。其中，随机选取是指在若干预设刺激信号中，以随机方式进行选取。按预设顺序选取是指在当前的若干预设刺激信号中按照一定的顺序进行选取。其中，一定的顺序也是预先设置的，即为预设顺序。在一些实施例中，预设顺序可以是按照预设刺激信号的当前排列从前到后依次选取。在一些实施例中，预设顺序也可以是按照音频刺激信号、图像刺激信号以及文本刺激信号的顺序交替地进行选择。在一些实施例中，预设规则还以采用随机与预设顺序相结合的方式，例如，可以按照预设交替式的顺序进行类型选择，其中，在每一种类型选择刺激信号时，可以采用随机的方式进行。

在一些实施例中，预设规则还可以包括根据目标对象的属性信息选取对应的刺激信号。在一些实施例中，目标对象的属性信息可以包括但不限于目标对象的性别、目标对象的国籍、目标对象的年龄等中的至少一个。例如，如果目标对象是女性，则可以选取较为舒缓的刺激信号作为目标刺激信号。例如，如果目标对象的国籍是美国，则可以选取带有英文歌曲，或英文文本信息的刺激信号作为目标刺激信号。例如，如果目标对象的年龄显示其为老年人，则可以选取对应年代的老歌作为目标刺激信号。在一些实施例中，预设规则中还可以根据目标对象的喜好信息，来选取对应的刺激信号作为目标刺激信号。例如，如果目标对象的喜好为欢快旋律的音乐，则可以选取对应的刺激信号作为目标刺激信号。通过目标对象的属性信息和/或喜好信息，可以进一步判断目标对象的偏好，从而输出对应的刺激信号，一方面可以具有较好的用户体验，另一方面目标对象对于自己符合自己喜好的刺激信号的微表情反应也会更加强烈，从而可以具有较准确的识别结果。

在一些实施例中，每个预设刺激信号可以对应一种微表情类别。在一些实施例中，也可以多个预设刺激信号对应一种微表情类别。在一些实施例中，预设刺激信号对应的微表情类别的数量可以包括四种，也可以包括五种或更多，还可以包括两种或三种。为了提高防攻击的可能性，预设刺激信号对应的微表情类别的数量可以设置在四种以上。为了提高检测对象的用户体验，预设刺激信号的微表情类别可以包括较多积极的或中性的微表情类别，较少消极的微表情类别。

在一些实施例中，预设刺激信号的微表情类别可以包括：开心、惊喜、悲伤、惬意、无表情、紧张、害怕等中的一种或多种。其中，开心、惊喜、惬意属于积极的微表情类别，无表情、无表情属于中性的微表情类别，悲伤、害怕属于消极的微表情类别。

在一些实施例中，微表情类别与预设刺激信号之间的对应关系，可以根据心理学研究结论确定。例如，根据心理学研究结论，自然风景图像能够使人放松或心情愉悦，密集的线条图像能够使人紧张等。在一些实施例中，也可以根据大数据统计来确定微表情类别与预设刺激信号之间的对应关系。例如，可以根据某一音乐平台上的统计数据来获取欢快歌曲的名称，并把该歌曲作为“开心”这一微表情类别对应的刺激信号。

在一些实施例中，目标刺激信号也可以不是从预设刺激信号中选取。在一些实施例中，目标刺激信号可以是服务器110自动生成的。例如，当服务器110识别到终端设备120(如ATM机)周围有人靠近时，可以临时生成刺激信号。又例如，当服务器110识别到终端设备120上的某个需要人脸识别的应用程序被启动时，可以生成刺激信号。其中，服务器110也可以根据目标对象的属性信息(例如，年龄、性别、国籍等)以及喜好信息(例如，喜欢轻柔音乐、欢快音乐等)来生成与之匹配的刺激信号。

在一些实施例中，目标刺激信号输出模块210可以通过终端设备120向目标对象输出选取的目标刺激信号。例如，利用终端设备120的屏幕/显示器，输出文字/图像形式的目标刺激信号。例如，利用终端设备120的音响/扬声器，输出音频形式的目标刺激信号。

步骤320，基于目标刺激信号的输出，获取目标对象的面部图像信息。

具体的，该步骤320可以由面部图像信息获取模块220执行。

面部图像信息是指能够反映目标对象面部表情变化的图像信息。在一些实施例中，面部图像信息包括视频图像或多帧静态图像。在一些实施例中，可以使用摄像设备150获取目标对象的面部图像信息。摄像设备150可以包括可见光摄像头(获取RGB图像)、红外线摄像头(获取红外图像)、3D摄像头(获取3D图像)等。

在一些实施例中，在目标对象的获取面部图像信息时，可以根据目标刺激信号的输出情况来获取面部图像信息(例如，可以在目标刺激信号的开始输出时获取，也可以在开始输出的时间阈值之后再获取)；在一些实施例中，也可以根据目标刺激信号的类型，来获取面部图像信息(例如，音频信息以及图像信息对应的获取面部图像信息的方式有所不同)；在一些实施例中，还可以根据目标刺激信号的类型以及目标刺激信号的输出情况的结合来获取面部图像信息。详细描述如下。

在一些实施例中，可以在开始输出目标刺激信息的同时，获取目标对象的面部图像信息。在一些实施例中，考虑到人大脑的反映延迟，可以在开始输出目标刺激信号的时间阈值后，获取目标对象的面部图像信息。在一些实施例中，时间阈值可以基于人的反应延迟时间来确定。在一些实施例中，时间阈值的取值范围可以包括20毫秒～40毫秒。在一些实施例中，时间阈值的取值范围可以包括25毫秒～35毫秒。优选的，时间阈值可以为30毫秒。

在一些实施例中，当目标刺激信号为图像信息或文本信息时，可以获取一定时间段内的视频图像，也可以在一定时间段内获取多帧静态图像。在一些实施例中，该一定时间段的取值范围可以包括6秒～10秒；在一些实施例中，该一定时间段的取值范围也可以包括为7秒～9秒；在一些实施例中，该一定时间段的取值可以为8秒。

在一些实施例中，当目标刺激信号为音频信号时，可以根据音频信号的播放时间来获取。在一些实施例中，可以在音频信号播放的时间段内获取对应的视频图像，或者多帧静态图像。例如，音频刺激信号的播放时间为10秒时，可以从音频播放的0.5秒到第10秒内，获取目标对象的面部图像信息。

在一些实施例中，当目标刺激信号包括音频信号时，可以基于音频信号播放的中间时段，获取目标对象的面部图像信息。在一些实施例中，中间时段是指音频信号播放的时间段的中间部分。在一些实施例中，中间时段相对播放总时间段的占比可以是1/2～1/3。优选的，音频信号的中间时段相对音频信号的播放总时间段的占比可以是1/2。例如，音频信号播放时长为10秒，可以在2.5秒时启动摄像设备150，在7.5秒时关闭摄像设备150，以在音频信号播放的第2.5秒-7.5秒内的采集到目标对象的面部图像信息。

在一些实施例中，在获取目标对象的面部图像信息时，也可以不考虑目标刺激信号的类型以及目标刺激信号的输出情况，直接采用默认的获取方式来获取面部图像信息。例如，服务器110识别到有人靠近终端设备120，或者识别到终端设备120上的某个需要人脸识别的应用程序被启动时，则启动摄像设备150获取面部图像信息。

步骤330，基于面部图像信息，确定对应的目标表情类别。

具体的，该步骤330可以由目标表情类型确定模块230执行。

在一些实施例中，获取目标对象的面部图像信息后，可以对面部图像信息进行处理分析，确定对应的目标表情类别，从而确定目标对象接收到目标刺激信号的面部表情变化，即微表情变化。在一些实施例中，目标表情类别是指面部图像信息中反映出来的面部微表情的类别。例如，经过微表情分析，确定该段视频图像中对应的微表情变化类别为：开心。

在一些实施例中，基于面部图像信息，确定对应的目标表情类别时，可以从面部图像信息中选取若干帧目标面部图像，使用预设算法处理若干帧目标面部图像，从而确定对应的目标表情类别。其中，目标面部图像是指从面部图像信息中提取出来，用于微表情分析的静态图像。

在一些实施例中，可以使用预设算法对每一帧目标面部图像进行处理分析，以确定该帧目标面部图像的微表情类别，可以称之为子表情类别，进而确定若干帧目标面部图像对应的若干子表情类别。然后基于若干子表情类别，确定目标表情类别。在一些实施例中，可以将若干子表情类别中，出现此处较多的子表情类别作为目标表情类别。在一些实施例中，预设算法可以包括机器学习模型，也可以包括其他微表情处理算法。

在一些实施例中，预设算法包括机器学习模型，此处可称之为第一机器学习模型，可以分别把每一帧目标面部图像输入第一机器学习模型，第一机器学习模型的输出数据可以为该帧目标面部图像对应的子表情类别。用同样的方法，获取若干目标面部图像对应的若干子表情类别，预算算法将若干子表情类别中出现次数最多的子表情类别作为目标表情类别。在一些实施例中，预设算法可以采用若干个第一机器学习模型，同时对若干帧目标面部图像分别进行处理分析，也可以采用一个第一机器学习模型先后对若干帧目标面部图像进行处理分析。

在一些实施例中，预设算法也可以采用机器学习模型对若干帧目标面部图像进行处理，直接获得对应的目标表情类别。在一些实施例中，预设算法包括第二机器学习模型，将若干帧目标面部图像输入第二机器学习模型，第二机器学习模型的输出数据包括目标表情类别。在一些实施例中，第二机器学习模型的输出数据可以包括目标表情类别及其概率值。其中，概率值可以反映若干帧目标面部图像中确定为目标表情类别的比例。例如，第二机器学习模型的输出数据包括目标表情类别为开心，目标表情类别的概率值为90％，则表示若干帧目标面部图像中，有90％的目标面部图像是开心。

在一些实施例中，第一机器学习模型和/或第二机器学习模型可以包括K最邻近(K-NearestNeighbor，KNN)模型、贝叶斯(Bayesian)模型、决策树(Decision Tree)模型、随机森林(random forest)模型、对数几率回归(logistic regression)模型、神经网络(Neural Network，NN)模型、集成学习(Ensemble Learning)模型等或其组合。

在一些实施例中，第一机器学习模型的获取过程可以包括：获取训练样本，训练数据可以包括历史面部图像，对若干历史面部图像对应的面部表情的类别进行标记。然后把历史面部图像作为输入数据，所述标记作为输出数据或参考标准，输入初始的机器学习模型进行训练，以得到训练好的机器学习模型。在一些实施例中，为了提高标记结果的准确度，可以通过表情专家的经验来对历史面部图像进行标记。

在一些实施例中，第二机器学习模型的获取过程可以包括：获取连续变化的多帧历史面部图像作为训练样本，对多帧历史面部图像进行标记，确定一个与多帧历史面部图像对应的面部表情类别。然后把多帧历史面部图像以及标记结果作为参考标准，输入初始的机器学习模型进行训练，以获得训练好的机器学习模型。在一些实施例中，为了提高标记结果的准确度，可以通过表情专家的经验来对多帧历史面部图像进行标记。

在一些实施例中，从面部图像信息中选取目标面部图像的帧数的取值范围可以为5帧～25帧。在一些实施例中，从面部图像信息中选取目标面部图像的帧数的取值范围可以为10帧～20帧。在一些实施例中，从面部图像信息中选取目标面部图像的帧数可以为15帧。

在一些实施例中，当目标刺激信号包括音频信号时，可以基于音频信号的中间时段，从面部图像信息中确定若干帧目标面部图像。在一些实施例中，可以从面部图像信息中对应于音频信号中间时段的那部分图像信息中，选取若干帧目标面部图像。在一些实施例中，当面部图像信息包括视频图像时，可以先确定该视频图像对应于音频刺激信号的中间时段的那部分面部视频图像，然后在该部分视频图像的时间段内获取对应的多帧图像中选取若干帧目标面部图像。在一些实施例中，当面部图像信息包括多帧静态图像时，可以选取对应于音频刺激信号的中间时段对应的那部分静态图像，作为目标面部图像。

在一些实施例中，从面部图像信息中选取目标面部图像时，可以选择连续帧数的若干帧图像，或者挑选时间间隔或帧数间隔相等的若干帧图像；还可以选择选择质量较高的图像(例如，清晰度或分辨率大于某一阈值)。

步骤340，基于目标表情类别与目标刺激信号，确定目标对象是否属于活体。

具体的，该步骤340可以由活体确定模块240执行。

在一些实施例中，活体确定模块240可以基于步骤330确定的目标表情类别与目标刺激信号对应的表情类别是否相同，确定目标对象是否属于活体。具体的，如果目标表情类别与目标刺激信号对应的表情类别相同，则可以确定目标对象属于活体。例如，步骤330确定的目标表情类别为“开心”，目标刺激信号对应的表情类别也是“开心”，则目标对象属于活体。反之，如果目标表情类别与目标刺激信号对应的表情类别不同，则确定目标对象不属于活体。例如，步骤330确定的目标表情类别为“开心”，目标刺激信号对应的表情类别是“紧张”，则目标对象不属于活体。

在一些实施例中，目标刺激信号对应的表情类别可以预先存储在存储设备130中。在一些实施例中，存储设备130中预先存储有若干预设刺激信号，以及每个预设刺激信号对应的表情类别。在一些实施例中，服务器110确定目标刺激信号时，可以一起确定目标刺激信号对应的表情类别，等到目标表情类别确定后，再将目标刺激信号对应的表情类别与目标表情类别进行比较。在一些实施例中，服务器110确定目标刺激信号时，也可以先不确定目标刺激信号时对应的表情类别，等到目标表情类别确定后，服务器110再从存储设备130中查找目标刺激信息对应的表情类别。

应当注意的是，上述有关流程300的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本申请的指导下可以对流程300进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。例如，步骤320和步骤330可以合并为一个步骤；例如步骤330和步骤340合并为一个步骤。

在一些实施例中，刺激信号的类型可以包括音频信号、图像信息以及文本信息中的一种或几种。在一些实施例中，可以将预设刺激信号设置为多种类型，并设置为可以让用户根据需求选择想要的刺激信息的类型。例如，如果用户带着耳机或者用户听觉不太灵敏，不方便接收音频信号时，可以选取其他不需要听的刺激信息(图像信息以及文本信息)。

在一些实施例中，在获取目标刺激信号时，可以参照如下示例性流程400进行。

在一些实施例中，流程400可以由目标刺激信号输出模块210执行。具体地，流程400可以包括：步骤410，向目标对象发送刺激信号的类型选择提示信息。

在一些实施例中，目标刺激信号输出模块210可以通过终端设备120向目标对象发送刺激信号的类型选择提示信息。其中，类型选择提示信息用于提示目标对象可以选择的刺激信号的类型。

在一些实施例中，类型选择提示信息可以包括目标对象可以选择的刺激信号的类型列表，例如，类型列表可以包括“文本”、“音频”、“图像”。目标对象可以从类型列表选择目标刺激信号的类型，例如，目标对象可以从类型列表选择“音频”。

在一些实施例中，类型选择提示信息还可以包括对同一类型刺激信号的细化分类。当目标对象从刺激信号的类型列表中选择其中一个类型后，可以通过终端设备120再次向目标对象发送该类型中的细化分类。其中，同一类型刺激信号的细化分类的分类标准可以是多个维度，本说明书一个或多个实施例不做限定。在一些实施例中，音频类型的刺激信号的细化分类可以包括：对话；旋律；歌曲等，也可以包括：中文语音；英文语音。在一些实施例中，文本类型的刺激信号的细化分类可以包括：中文文本；英文文本。在一些实施例中，图像类型的刺激信号可以包括：黑白图像；彩色图像等。

步骤420，接收与类型选择提示信息对应的选择结果。

在一些实施例中，目标对象可以通过在终端设备120的操作，对类型选择提示信息做出选择，目标刺激信号输出模块210可以通过网络140接收目标对象的选择结果。

在一些实施例中，目标对象在终端设备120的操作可以包括滑动、触摸、按键、点击、手势、手写输入、语音输入、眼神指令等中的至少一种。

步骤430，基于选择结果获取对应类型的刺激信号。

在一些实施例中，基于目标对象的选择结果，从预设刺激信号中选取对应类型的刺激信号，作为目标刺激信号。

在一些实施例中，预设刺激信号以预先分类的形式存储在存储设备130中。例如，文字刺激信号包括：文字1、文字2……文字N。又例如，语音刺激信号包括：语音1、语音2……语音M。再例如，图像刺激信号：图像1、图像2……图像K。

在一些实施例中，存储设备130中的同一类型的预设刺激信号还可以包括进一步细化分类。例如，音频刺激信号包括“旋律”、“对话”、“歌曲”，“旋律”包括旋律1、旋律2……旋律L。

在一些实施例中，目标对象的选择结果对应的刺激信号包括一个刺激信号时，可以直接把该刺激信号作为目标刺激信号。在一些实施例中，目标对象的选择结果对应的刺激信号包括多个，则可以按照随机方式或按照预设的方式从中选择出一个刺激信号作为目标刺激信号。例如，目标对象选择了“音频”-＞“旋律”，旋律对应的预设刺激信号包括旋律1、旋律2……旋律L，目标刺激信号输出模块210可以通过随机方式从中选取目标刺激信号。

本说明书实施例可能带来的有益效果包括但不限于：(1)相比无交互检测，安全等级更高，可以稳定防护高清屏幕、纸张、面具、头模等。(2)相比引导用户执行指定动作或表情的交互式检测，对于用户的交互要求更低，打扰更轻微，用户体验较好。(3)微表情很难提前进行录制和绕过，可以有效防护录制视频等。(4)用户可以根据需求/偏好，选择刺激信号类型，更好的满足用户需求，提升用户体验。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种目标对象的识别方法，所述方法包括：

向目标对象输出目标刺激信号，其中所述目标刺激信号是基于预设规则从若干预设刺激信号中选取的；

根据所述目标刺激信号的输出，获取目标对象的面部图像信息；

基于所述面部图像信息，确定对应的目标表情类别；

基于所述目标表情类别与所述目标刺激信号，确定所述目标对象是否属于活体。

2.根据权利要求1所述的方法，所述根据所述面部图像信息，确定对应的目标表情类别包括：从所述面部图像信息中选取若干帧目标面部图像，使用预设算法处理所述若干帧目标面部图像，确定所述对应的目标表情类别。

3.根据权利要求2所述的方法，所述从所述面部图像信息中选取若干帧目标面部图像包括：从所述面部图像信息选取5帧～25帧目标面部图像。

4.根据权利要求2所述的方法，所述预设算法包括第一机器学习模型，所述使用预设算法处理所述若干帧目标面部图像，确定所述对应的目标表情类别包括：

使用所述第一机器学习模型分别处理所述若干帧目标面部图像中的每一帧目标面部图像，确定所述每一帧目标面部图像的子表情类别；

基于所述每一帧目标面部图像的子表情类别，确定所述目标表情类别。

5.根据权利要求2所述的方法，所述预设算法包括第二机器学习模型，所述使用预设算法处理所述若干帧目标面部图像，确定所述对应的目标表情类别包括：

将所述若干帧目标面部图像输入所述第二机器学习模型，所述第二机器学习模型的输出数据包括所述目标表情类别。

6.根据权利要求1所述的方法，所述预设刺激信号包括音频信号、图像信息、或文本信息中的至少一种。

7.根据权利要求6所述的方法，当所述目标刺激信号包括音频信号时，

所述根据所述目标刺激信号的输出，获取目标对象的面部图像信息包括：基于所述音频信号播放的中间时段，获取所述面部图像信息；或者，

所述基于所述面部图像信息确定对应的目标表情类别包括：基于所述音频信号的中间时段，从所述面部图像信息中确定若干帧目标面部图像。

8.根据权利要求1所述的方法，所述预设规则包括随机选取或按照预设顺序选取。

9.根据权利要求1所述的方法，所述根据所述目标刺激信号的输出，获取目标对象的面部图像信息包括：

开始输出所述目标刺激信号的时间阈值后，获取所述目标对象的面部图像信息。

10.根据权利要求1所述的方法，所述基于预设规则从若干预设刺激信号中获取目标刺激信号包括：

向目标对象发送刺激信号的类型选择提示信息；

接收与所述类型选择提示信息对应的选择结果；

基于所述选择结果获取对应类型的刺激信号。

11.一种目标对象的识别系统，所述系统包括：

目标刺激信号输出模块，用于向目标对象输出目标刺激信号，其中所述目标刺激信号是基于预设规则从若干预设刺激信号中选取的；

面部图像信息获取模块，用于根据所述目标刺激信号的输出，获取目标对象的面部图像信息；

目标表情类型确定模块，用于基于所述面部图像信息，确定对应的目标表情类别；

活体确定模块，用于基于所述目标表情类别与所述目标刺激信号，确定所述目标对象是否属于活体。

12.根据权利要求11所述的系统，所述目标表情类型确定模块还用于：从所述面部图像信息中选取若干帧目标面部图像，使用预设算法处理所述若干帧目标面部图像，确定所述对应的目标表情类别。

13.根据权利要求12所述的方法，所述目标表情类型确定模块还用于：从所述面部图像信息选取5帧～25帧目标面部图像。

14.根据权利要求12所述的系统，所述预设算法包括第一机器学习模型，所述目标表情类型确定模块还用于：

15.根据权利要求12所述的系统，所述预设算法包括第二机器学习模型，所述目标表情类型确定模块还用于：

16.根据权利要求11所述的系统，所述预设刺激信号包括音频信号、图像信息、或文本信息中的至少一种。

17.根据权利要求16所述的系统，当所述目标刺激信号包括音频信号时，

所述面部图像信息获取模块还用于：基于所述音频信号播放的中间时段，获取所述面部图像信息；或者，

所述目标表情类型确定模块还用于：基于所述音频信号的中间时段，从所述面部图像信息中确定若干帧目标面部图像。

18.根据权利要求11所述的系统，所述预设规则包括随机选取或按照预设顺序选取。

19.根据权利要求11所述的系统，所述面部图像信息获取模块还用于：

20.根据权利要求11所述的系统，所述目标刺激信号输出模块还用于：

向目标对象发送刺激信号的类型选择提示信息；

接收与所述类型选择提示信息对应的选择结果；

基于所述选择结果获取对应类型的刺激信号。

21.一种目标对象的识别的装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如权利要求1～10任一项所述的方法。

22.一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行如权利要求1～10任一项所述的方法。