CN114360073A

CN114360073A - 一种图像识别方法及相关装置

Info

Publication number: CN114360073A
Application number: CN202210005751.7A
Authority: CN
Inventors: 陈观钦; 陈远; 王摘星; 陈斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-04-15

Abstract

本申请实施例公开了一种人工智能领域的图像识别方法及相关装置，其中该方法包括：获取包括目标对象面部的目标视频，对目标视频进行分帧处理得到按序排列的多帧视频图像；对多帧视频图像进行特征提取处理，得到按序排列的多个目标特征图；对多个目标特征图先进行空间压缩处理，后进行时间压缩处理，得到后融合全局特征向量；对多个目标特征图先进行时间压缩处理，后进行空间压缩处理，得到前融合全局特征向量；根据后融合全局特征向量和前融合全局特征向量，确定面部检测结果。该方法能够提高对于视频中的对象面部的检测准确性。

Description

一种图像识别方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像识别方法及相关装置。

背景技术

随着人脸识别技术的逐渐成熟，人脸验证系统如今在各种应用场景中被广泛应用。例如，在电子支付场景中，可以利用人脸验证系统验证支付用户的身份，从而保证线上电子支付的安全性；又例如，在账户登录场景中，也可以利用人脸验证系统校验请求登录某账户的用户是否为该账户的合法用户，从而保证账户登录的安全性，等等。

在实际应用中，为了避免不法分子使用录制的视频或者伪造的面具绕过人脸验证系统，人脸验证系统除了需要识别所验证的人脸是否为特定的人脸外，还需要识别所验证的人脸是否为真实的人脸，即识别在验证过程中采集的图像中的对象面部是否为活体面部。

然而，经本申请发明人研究发现，相关技术中用于验证活体面部的方法的实现效果普遍不够理想，即这些方法难以准确地验证图像中的对象面部是否为活体面部，容易发生将图像中的非活体面部误识别为活体面部的情况，使得不法分子有机可乘。

发明内容

本申请实施例提供了一种图像识别方法及相关装置，能够针对视频中的对象面部，更准确地验证其是否为活体面部。

有鉴于此，本申请第一方面提供了一种图像识别方法，所述方法包括：

获取目标视频，所述目标视频中包括待验证的目标对象的面部；对所述目标视频进行分帧处理，得到所述目标视频中按序排列的多帧视频图像；

对所述多帧视频图像进行特征提取处理，得到与所述多帧视频图像对应的按序排列的多个目标特征图；

针对所述多个目标特征图分别进行空间维度的特征提取处理，得到所述多个目标特征图各自对应的特征向量；基于所述多个目标特征图各自对应的特征向量，进行时间维度的特征提取处理，得到后融合全局特征向量；

基于所述多个目标特征图进行时间维度的特征提取处理，得到时间压缩特征图；对所述时间压缩特征图进行空间维度的特征提取处理，得到前融合全局特征向量；

根据所述后融合全局特征向量和所述前融合全局特征向量，确定所述目标对象对应的面部检测结果。

本申请第二方面提供了一种图像识别装置，所述装置包括：

视频拆分模块，用于获取目标视频，所述目标视频中包括待验证的目标对象的面部；对所述目标视频进行分帧处理，得到所述目标视频中按序排列的多帧视频图像；

初级特征提取模块，用于对所述多帧视频图像进行特征提取处理，得到与所述多帧视频图像对应的按序排列的多个目标特征图；

后融合特征提取模块，用于针对所述多个目标特征图分别进行空间维度的特征提取处理，得到所述多个目标特征图各自对应的特征向量；基于所述多个目标特征图各自对应的特征向量，进行时间维度的特征提取处理，得到后融合全局特征向量；

前融合特征提取模块，用于基于所述多个目标特征图进行时间维度的特征提取处理，得到时间压缩特征图；对所述时间压缩特征图进行空间维度的特征提取处理，得到前融合全局特征向量；

验证模块，用于根据所述后融合全局特征向量和所述前融合全局特征向量，确定所述目标对象对应的面部检测结果。

本申请第三方面提供了一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的图像识别方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的图像识别方法的步骤。

本申请第五方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的图像识别方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种图像识别方法，该方法提出了一种新的用于检测视频中的对象是否为活体对象的模型，该模型包括浅层特征提取模块、后时空特征融合模块和前时空特征融合模块。基于该模型验证目标视频(其中包括目标对象的面部)中的目标对象是否为活体对象时，可以先对目标视频进行分帧处理，得到该目标视频中按序排列的多帧视频图像。然后，通过该模型中的浅层特征提取模块，对多帧视频图像进行特征提取处理，得到多帧视频图像对应的按序排列的多个目标特征图。进而，通过该模型中的后时空特征融合模块，对多个目标特征图先进行空间维度的特征提取处理，再基于空间特征提取结果进行时间维度的特征提取处理，得到后融合全局特征向量；如此对多个目标特征图进行先空间压缩、后时间压缩的处理，能够更细致地描述单帧视频图像中目标对象的面部轮廓和纹理，即更好地刻画目标对象的面部特征。同时，通过该模型中的前时空特征融合模块，基于多个目标特征图先进行时间维度的特征提取处理，再基于时间特征提取结果进行空间维度的特征提取处理，得到前融合全局特征向量；如此对多个目标特征图进行先时间压缩、后空间压缩的处理，能够更好地描述目标视频中的多帧视频图像中每个位置的状态变化，即更好地描述目标视频中目标对象面部的位置变化情况。最终，综合上述后融合全局特征向量以及前融合全局特征向量，验证目标视频中目标对象是否为活体对象，实现了对于所刻画的目标对象面部的静态特征和动态特征的综合考量，从而保证据此确定的验证结果的准确性。

附图说明

图1为本申请实施例提供的图像识别方法的应用场景示意图；

图2为本申请实施例提供的图像识别方法的流程示意图；

图3为本申请实施例提供的面部活体检测模型的工作原理示意图；

图4为本申请实施例提供的浅层特征提取模块的工作原理示意图；

图5为本申请实施例提供的运动补充结构的工作原理示意图；

图6为本申请实施例提供的后时空特征融合模块的工作原理示意图；

图7为本申请实施例提供的前时空特征融合模块的工作原理示意图；

图8为本申请实施例提供的残差结构的工作原理示意图；

图9为本申请实施例提供的图像识别方法的实现架构示意图；

图10为本申请实施例提供的图像识别装置的结构示意图；

图11为本申请实施例提供的终端设备的结构示意图；

图12为本申请实施例提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术，具体通过如下实施例进行说明：

为了针对包括人脸的视频更准确地检测其中的人脸是否为活体人脸，本申请实施例提供了一种图像识别方法，该方法创新性地提出了一种基于前后向时空融合双塔结构的面部活体检测模型，以通过该模型基于包括人物面部的视频检测其中的人物是否为真实的人物，而非所合成的视频中的人物或者佩戴伪造面具的人物。

具体的，在本申请实施例提供的图像识别方法中，先获取目标视频(其中包括待验证的目标对象的面部)，并对该目标视频进行分帧处理，得到目标视频中按序排列的多帧视频图像。然后，将这多帧视频图像输入本申请实施例提供的面部活体检测模型中，以通过该模型检测目标视频中的目标对象是否为活体对象。该模型具体工作时，先通过浅层特征提取模块，对多帧视频图像进行特征提取处理，得到与这多帧视频图像对应的按序排列的多个目标特征图；然后，通过后时空特征融合模块，对多个目标特征图分别进行空间维度的特征提取处理，得到多个目标特征图各自对应的特征向量，并基于这多个目标特征图各自对应的特征向量，进行时间维度的特征提取处理，得到后融合全局特征向量；同时，通过前时空特征融合模块，基于多个目标特征图进行时间维度的特征提取处理，得到时间压缩特征图，并对该时间压缩特征图进行空间维度的特征提取处理，得到前融合全局特征向量；最终，根据该后融合全局特征向量和该前融合全局特征向量，确定目标对象对应的面部活体检测结果。

上述图像识别方法利用面部活体检测模型，检测目标视频中的目标对象是否为活体对象时，通过该模型中的后时空特征融合模块，对多个目标特征图进行先空间压缩、后时间压缩的处理，如此更细致地描述单帧视频图像中目标对象的面部轮廓和纹理，更好地刻画目标对象的面部特征。此外，通过该模型中的前时空特征融合模块，对多个目标特征图进行先时间压缩、后空间压缩的处理，能够更好地描述目标视频中多帧视频图像中每个位置的状态变化，即更好地描述目标视频中目标对象面部的位置变化信息。最终，综合上述后融合全局特征向量和前融合全局特征向量，验证目标视频中目标对象是否为活体对象，实现了对于所刻画的目标对象面部的静态特征和动态特征的综合考量，从而保证据此确定的验证结果的准确性。

应理解，本申请实施例提供的图像识别方法可以由具备图像处理能力的计算机设备执行，该计算机设备可以是终端设备或服务器。其中，终端设备具体可以为计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)等；服务器具体可以为应用服务器或Web服务器，在实际部署时，可以为独立服务器，也可以为由多个物理服务器构成的集群服务器或云服务器。本申请实施例涉及的数据可以保存于区块链上。

为了便于理解本申请实施例提供的图像识别方法，下面以该图像识别方法的执行主体为服务器为例，对该图像识别方法的应用场景进行示例性介绍。

参见图1，图1为本申请实施例提供的图像识别方法的应用场景示意图。如图1所示，该应用场景中包括终端设备110、服务器120以及服务器130，终端设备110与服务器120之间可以通过网络通信，服务器120与服务器130之间也可以通过网络通信。其中，终端设备110用于在进行人脸验证操作时采集包括人脸的视频；服务器120上运行有通用的人脸验证系统，用于针对终端设备110采集的视频检测其中的人脸是否为特定的人脸，以及对其中的人脸进行初步的活体检测；服务器130用于执行本申请实施例提供的图像识别方法，其上运行有本申请实施例提供的面部活体检测模型。

在实际应用中，当用户需要使用终端设备110提供的某项需要通过人脸验证实现的功能(如人脸识别支付功能、人脸识别账户登录功能等等)时，终端设备110可以采集包括用户面部的视频，并将所采集的视频实时地通过网络传输给服务器120。

服务器120接收到终端设备110传输过来的视频后，可以通过其上运行的人脸验证系统121对所接收的视频进行验证。一方面，服务器120需要通过该人脸验证系统121，验证视频中的人脸是否为特定的人脸；例如，假设用户当前使用的是终端设备110提供的人脸识别支付功能，那么服务器120可以确定触发支付操作的账户下的合法用户，并获取该合法用户对应的标准面部图像，进而，验证所接收的视频中人脸的特征与该标准面部图像中的人脸特征是否匹配。另一方面，服务器120还需要通过该人脸验证系统121，验证视频中的人脸是否为活体人脸，即验证终端设备110所采集的视频中的人脸是否为真实人物的人脸，以避免出现利用包括人脸的合成视频或者佩戴伪造面具的方式蒙混过关的情况。

作为一种示例，上述人脸验证系统121验证视频中的人脸是否为活体人脸时，可以采用基于人机交互的人脸活体检测方法；即，服务器120可以控制终端设备110引导其当前使用用户做出指定动作(如眨眼、摇头、张嘴等)，或者引导其当前使用用户读出指定文本(如指定数字等)，然后，人脸验证系统121可以基于终端设备110采集的视频，检测视频中的人物是否做出了指定的动作，或者是否读出了指定的文本，进而，根据该检测结果确定视频中的人脸是否为活体人脸。作为另一种示例，上述人脸验证系统121验证视频中的人脸是否为活体人脸时，也可以采用基于闪光皮肤反射特性的人脸活体检测方法；即，服务器120可以控制终端设备110在采集视频的过程中通过屏幕闪烁不同颜色的光，然后，人脸验证系统121可以基于终端设备110采集的视频，检测视频中人脸的纹理变化情况，进而，根据该检测结果确定视频中的人脸是否为活体人脸。

应理解，在实际应用中，运行在服务器120上的人脸验证系统121也可以采用其它方式，对视频中的人脸进行活体人脸检测，本申请在此不做任何限定。但是部署在服务器120上的人脸检测系统121存在以下缺陷，即由于终端设备110的使用用户与服务器120上运行的人脸检测系统可以进行直接互动，因此，为不法分子对该人脸检测系统121进行对抗测试提供了可乘之机，即，不法分子可以使用软件合成大量的包括人脸的视频，进而，利用所合成的视频对人脸验证系统121进行不断地对抗测试，以寻找能够绕过该人脸验证系统121的合成视频及视频合成方式，这样将会使人脸验证系统121存在安全漏洞。

为了避免发生上述情况，本申请实施例在服务器120的后端进一步部署了服务器130，该服务器130可以通过执行本申请实施例提供的图像识别方法，对服务器120验证通过的视频进行二次人脸活体检测，从而进一步提高人脸验证的安全性，完善人脸验证机制。

具体的，服务器130可以将服务器120验证通过的视频视为目标视频，此处服务器120验证通过的视频是指，服务器120上的人脸验证系统已检测确认其中的人脸为特定的人脸、且其中的人脸为活体人脸的视频；此外，服务器130可以在目标视频中包括的人物视为待验证的目标对象。服务器130检测目标视频中的目标对象的面部是否为活体面部之前，需要对该目标视频进行分帧处理，以得到该目标视频中按序排列的多帧视频图像。

进而，服务器130可以将通过分帧处理得到的多帧视频图像，输入预先训练好的面部活体检测模型131，以通过该面部活体检测模型131检测目标视频中的目标对象的面部是否为活体对象的面部。面部活体检测模型131具体工作时，可以先通过其中的浅层特征提取模块1311，对输入的多帧视频图像进行特征提取处理，得到与这多帧视频图像对应的按序排列的多个目标特征图。然后，通过其中的后时空特征融合模块1312，对这多个目标特征图分别进行空间维度的特征提取处理，得到这多个目标特征图各自对应的特征向量；再基于这多个目标特征图各自对应的特征向量进行时间维度的特征提取处理，得到后融合全局特征向量。并且，通过其中的前时空特征融合模块1313，基于这多个目标特征图进行时间维度的特征提取处理，得到时间压缩特征图；并对该时间压缩特征图进行空间维度的特征提取处理，得到前融合全局特征向量。最终，该模型可以根据上述后融合全局特征向量和前融合全局特征向量，确定目标对象对应的面部活体检测结果，即确定该目标对象的面部是否为活体面部。

应理解，图1所示的应用场景仅为示例，在实际应用中，本申请实施例提供的图像识别方法还可以应用于其它场景；例如，可以直接在服务器120中部署本申请实施例提供的面部活体检测模型131，利用该面部活体检测模型131执行人脸验证系统中的人脸活体检测任务。在此不对本申请实施例提供的图像识别方法的应用场景做任何限定。

下面通过方法实施例对本申请提供的图像识别方法进行详细介绍。

参见图2，图2为本申请实施例提供的图像识别方法的流程示意图。为了便于描述，下述实施例仍以该图像识别方法的执行主体为服务器为例进行介绍。如图2所示，该图像识别方法包括以下步骤：

步骤201：获取目标视频，所述目标视频中包括待验证的目标对象的面部；对所述目标视频进行分帧处理，得到所述目标视频中按序排列的多帧视频图像(此处的多帧视频图像包括至少两帧视频图像)。

服务器执行人脸活体检测任务之前，先获取执行该人脸活体检测任务所依据的目标视频，该目标视频中包括待验证的目标对象的面部。然后，对该目标视频进行分帧处理，得到该目标视频中按时间顺序(如时间从前至后的顺序)排列的多帧视频图像。

需要说明的是，上述目标视频是执行人脸活体检测任务所依据的视频，本申请实施例旨在检测该目标视频中目标对象的面部是否为活体面部；所谓活体面部(又可称为活体人脸)是指真实人物的真实面部，即在采集目标视频的过程中，摄像头所面对的人物面部是真实人物自身的面部，而并非合成视频中的人物面部或者佩戴有伪造面具的面部等。上述目标视频例如可以是用户通过终端设备使用某项需要通过人脸验证实现的功能(下文简称为人脸验证功能，该人脸验证功能例如包括人脸识别支付功能、人脸识别账户登录功能等)时，终端设备相应采集的视频。

作为一种示例，服务器可以直接获取终端设备在用户使用人脸验证功能时采集的视频作为目标视频。具体的，终端设备检测到用户触发使用某人脸验证功能时，可以启动其摄像头采集视频，并将所采集的视频实时地传输给服务器；服务器接收到该视频后，可以相应地将其作为待检测的目标视频。

作为另一种示例，服务器可以获取通用的人脸验证系统初步验证通过的视频作为目标视频。具体的，终端设备可以将其在用户使用人脸验证功能时采集的视频，先传输至通用的人脸验证系统，由该人脸验证系统验证该视频中的人脸是否为特定的人脸；例如，当用户使用的人脸验证功能为人脸识别支付功能时，可以验证该视频中的人脸是否为触发支付操作的账户下的合法用户人脸；并且由该人脸验证系统验证初步验证该视频中的人脸是否为活体人脸；在人脸验证系统验证确认视频中的人脸为特定的人脸、且为活体人脸的情况下，服务器可以将该视频作为目标视频，基于该目标视频进行二次的活体人脸验证。

应理解，在实际应用中，服务器也可以采用其它方式获取目标视频，本申请在此不对目标视频的获取方式做任何限定。

服务器获取到目标视频后，需要对该目标视频进行分帧处理，以将视频流数据转换为视频帧序列数据；示例性的，服务器可以采用视频处理软件(如OpenCV)提供的分帧工具，对目标视频进行分帧处理，以得到该目标视频中按时间先后顺序排列的各帧视频图像。在人脸验证场景中，所采集的视频的长度通常在8秒以内，平均5秒左右，视频每秒由10至15帧视频图像组成；为了便于后续模型的处理，服务器可以对分帧处理后得到的视频帧序列数据进行截断处理，以保留固定长度的视频帧序列数据(如包括60帧视频图像的视频帧序列数据)；即服务器对目标视频进行分帧处理，得到该目标视频中按时间顺序排列的各帧视频图像后，服务器可以对该视频图像序列进行截断处理，仅保留特定帧数的视频图像。服务器具体截断处理视频图像序列时，可以直接保留该视频图像序列中排序靠前的特定帧数的视频图像，删除该视频图像序列中其余的视频图像；或者，也可以从该视频图像序列中选出参考价值较高的特定帧数的视频图像，删除该视频图像序列中其余的视频图像，本申请在此不对服务器截断视频图像序列的处理方式做任何限定。

此外，不同的视频录制设备录制的视频画面的尺寸不尽相同，同样为了便于后续模型的处理，服务器可以将所需处理的视频插值映射为特定的尺寸，即将所需处理的视频图像插值映射为特定的长宽比例；示例性的，服务器可以使用视频处理软件(如OpenCV)提供的画面尺寸调节工具，对各帧视频图像进行插值映射处理，使得视频图像的长宽比例达到特定的长宽比例。同时，为了保证视频图像中的人脸形状不变形，服务器可以采用先填充、再恢复尺寸(resize)的处理方式，对视频图像进行处理。

步骤202：对所述多帧视频图像进行特征提取处理，得到与所述多帧视频图像对应的按序排列的多个目标特征图(此处的多个目标特征图包括至少两个目标特征图)。

服务器完成对于目标视频的分帧处理，得到该目标视频中按序排列的多帧视频图像后，可以利用预先训练好的面部活体检测模型，处理这多帧视频图像，从而得到该目标视频中目标对象对应的面部活体检测结果。即，服务器可以将分帧处理得到的按序排列的多帧视频图像输入面部活体检测模型，该面部活体检测模型通过对这多帧视频图像进行分析处理，将相应地输出该目标视频中目标对象对应的面部活体检测结果。

需要说明的是，本申请实施例中的面部活体检测模型是用于根据输入的按序排列的多帧视频图像，检测视频图像中目标对象的面部是否为活体面部的模型；在本申请实施例中可以预先训练该面部活体检测模型。

训练该面部活体检测模型之前，可以通过模板匹配、聚类、人工标记、外网反馈等方式，积累负训练样本(即包括非活体人脸的视频)。通常情况下，对于包括非活体人脸的视频，其中人脸的面部纹理、面部光照明暗度和自然度等特征与活体人脸均有所差异，并且其中人物做出的特定动作(如眨眼、张嘴、摇头等)相对于真实人物做出的特定动作也更僵硬，再者，由于部分黑产用户会批量合成包括非活体人脸的视频，因此很多包括非活体人脸的视频存在视频背景或人物动作基本相似的情况；鉴于包括非活体人脸的视频存在上述特点，因此可以依据这些特点筛选积累负训练样本。此外，还可以从真实业务数据中随机抽取部分包括活体人脸的视频作为正训练样本；进而，利用上述负训练样本和正训练样本构建用于训练面部活体检测模型的二分类样本集。训练该面部活体检测模型时，可以基于上述二分类样本集中的正训练样本和负训练样本，对所需训练的面部活体检测模型进行反复迭代训练，直至该面部活体检测模型收敛为止。

需要说明的是，本申请实施例提供的面部活体检测模型主要包括浅层特征提取模块、后时空特征融合模块和前时空特征融合模块，本申请实施例中的步骤202、步骤203和步骤204分别用于介绍浅层特征提取模块、后时空特征融合模块和前时空特征融合模块的处理过程，图3所示即为本申请实施例提供的面部活体检测模型的工作原理示意图。下面先对该面部活体检测模型中浅层特征提取模块的处理过程进行介绍。

面部活体检测模型中的浅层特征提取模块，用于对输入至面部活体检测模型中的多帧视频图像分别进行特征提取处理，从而得到与这多帧视频图像对应的按序排列的多个目标特征图。即，服务器将对目标视频分帧处理得到的按序排列的多帧视频图像输入面部活体检测模型中后，面部活体检测模型中的浅层特征提取模块将对多帧视频图像分别进行特征提取处理，得到与这多帧视频图像对应的多个目标特征图，以供后续的后时空特征融合模块以及前时空特征融合模块基于这多个目标特征图做进一步处理。

在一种可能的实现方式中，浅层特征提取模块具体工作时，可以先通过二维卷积结构(2D Convolutional Neural Network，2D CNN)对多帧视频图像分别进行特征提取处理，得到这多帧视频图像各自对应的一级特征图；然后，针对每帧视频图像，根据该视频图像对应的一级特征图、以及与该视频图像相邻的视频图像对应的一级特征图，确定该视频图像对应的运动特征；根据该视频图像对应的一级特征图和运动特征，确定该视频图像对应的二级特征图；进而，根据多帧视频图像各自对应的二级特征图，确定多个目标特征图。

需要说明的是，视频图像对应的一级特征图是通过2DCNN对视频图像本身进行特征提取处理得到的多通道特征图，其中携带有视频图像自身原始的特征信息。视频图像对应的运动特征是根据视频图像自身对应的一级特征图、以及与其排列顺序相邻的视频图像对应的一级特征图之间的差异确定的，由于该运动特征是基于相邻帧视频图像各自对应的一级特征图间的差异确定的，因此该运动特征能够在一定程度上反映视频图像中各位置的空间变化信息，也即反映运动信息。视频图像对应的二级特征图是融合视频图像对应的一级特征图和运动特征得到的多通道特征图，其中既携带有视频图像自身的原始特征信息，又携带有该视频图像的运动信息。

图4为本申请实施例提供的示例性的浅层特征提取模块的工作原理示意图。如图4所示，浅层特征提取模块具体工作时，可以先通过至少一层2D CNN(例如可以为两层2DCNN)，对所输入的按序排列的多帧视频图像分别进行特征转换和通道扩张处理，得到多帧视频图像各自对应的多通道特征图(即一级特征图)，由于所输入的多帧视频图像是按顺序排列的，相应地通过2DCNN处理得到的多通道特征图也应按照对应的顺序排列，即通过2DCNN处理得到的多个一级特征图可以构成一级特征图序列，该一级特征图序列中各一级特征图的排列顺序与各一级特征图各自对应的视频图像的排列顺序相同。如此，通过2D CNN对各帧视频图像进行特征提取处理，再基于通过该特征提取处理得到的一级特征图进行后续的运动补充处理，可以避免发生直接在原始视频图像信息上作差后使得输出的数值范围不稳定的情况。

如图4所示，通过2D CNN的特征提取处理得到多帧视频图像各自对应的一级特征图后，可以进一步通过运动补充结构，在各帧视频图像各自对应的一级特征图的基础上补充运动特征，生成携带有运动特征的二级特征图。具体的，针对每帧视频图像，运动补充结构可以根据该视频图像对应的一级特征图、以及与该视频图像相邻的视频图像对应的一级特征图，确定该视频图像相对于其相邻的视频图像存在的运动特征，也即确定该视频图像对应的运动特征。进而，运动补充结构可以将该视频图像对应的一级特征图和运动特征融合起来，得到该视频图像对应的二级特征图；例如，该运动补充结构可以对一级特征图和运动特征中相同位置的元素进行相加处理，得到对应的二级特征图；如此生成的二级特征图既能反映该视频图像自身携带的信息，又能反映该视频图像相对于其相邻的视频图像存在的运动信息。

作为一种示例，上述运动补充结构具体可以通过以下方式确定视频图像对应的运动特征：确定排列在视频图像前、且与该视频图像相邻的视频图像，作为该视频图像的相邻视频图像；然后，基于通道门控机制，利用该视频图像对应的一级特征图中的各个元素与其相邻视频图像对应的一级特征图中的各个元素做差，得到运动特征权重；进而，基于该运动特征权重，对该视频图像对应的一级特征图中的各个元素进行加权处理，从而得到该视频图像对应的运动特征。

图5为本申请实施例提供的示例性的运动补充结构的工作原理示意图。如图5所示，对于第n-1(n为大于1的整数)帧视频图像Xn-1、第n帧视频图像Xn和第n+1帧视频图像Xn+1，可以先通过2D CNN对其进行特征提取处理，得到第n-1帧视频图像Xn-1对应的一级特征图Xn-1’、第n帧视频图像Xn对应的一级特征图Xn’、以及第n+1帧视频图像Xn+1对应的一级特征图Xn+1’。对于第n帧视频图像Xn，可以确定第n-1帧视频图像Xn-1作为其相邻视频图像，对于第n+1帧视频图像Xn+1，可以确定第n帧视频图像X作为其相邻视频图像；运动补充结构针对第n帧视频图像Xn对应的一级特征图Xn’进行运动补充处理时，可以利用通道门控机制对一级特征图Xn-1’和一级特征图Xn’中各处于相同位置的元素做差，并利用最大池化结构Max_Pooling和全连接结构FC+Sigmoid依次对该做差结果进行处理，得到一级特征图Xn’对应的运动特征权重；进而，可以利用该运动特征权重，对一级特征图Xn’中的各个元素进行相应地加权处理，得到第n帧视频图像Xn对应的运动特征；进而，可以将第n帧视频图像Xn对应的运动特征与第n帧视频图像Xn对应的一级特征图Xn’相加，即，将运动特征和一级特征图Xn’中处于相同位置的元素相加，从而得到该视频图像Xn对应的二级特征图Xn”。相类似地，针对第n+1帧视频图像Xn+1，也可以采用类似的方式得到其对应的二级特征图Xn+1”。

需要说明的是，采样上述方式确定各帧视频图像各自对应的二级特征图时，对于视频图像序列中的第一帧视频图像，由于不存在与其相邻的视频图像(即不存在排列在其之前的视频图像)，因此无法采用上述方式确定该第一帧视频图像对应的二级特征图。此时，可以直接将该第一帧视频图像对应的一级特征图作为二级特征图；或者，也可以放弃针对第一帧视频图像确定其对应的二级特征图，即使最终产生的二级特征图的数量比所输入的视频图像的数量少一个。

运动补充结构通过上述方式在视频图像对应的特征图中融入运动特征，相当于模拟目标视频中的光流，使得生成的各视频图像各自对应的二级特征图能够相应地表达视频图像本身的信息、以及其与相邻视频图像之间的运动信息，即使得所生成的二级特征图中携带的信息更丰富。

在一种可能的实现方式中，浅层特征提取模块针对输入的多帧视频图像执行上述处理，得到多帧视频图像各自对应的二级特征图后，可以进一步通过三维卷积结构(3DConvolutional Neural Network，3D CNN)，对多帧视频图像各自对应的二级特征图进行短时时空特征融合处理。即，可以针对每帧视频图像，根据该帧视频图像的排列位置和预设窗口范围，在多帧视频图像中确定与该视频图像相关的参考视频图像；然后，针对每帧视频图像，通过3D CNN基于该视频图像对应的二级特征图、以及与该视频图像相关的各参考视频图像各自对应的二级特征图，进行短时时空特征融合，得到该视频图像对应的三级特征图；进而，根据多帧视频图像各自对应的三级特征图，确定多个目标特征图。

需要说明的是，视频图像对应的三级特征图，是对多帧相邻的视频图像各自对应的二级特征图进行短时时空特征融合处理得到的多通道特征图，即对多帧相邻的视频图像中同一位置处的特征融合起来，从而使得三级特征图中各位置处的特征既融合有视频图像自身的特征信息，又融合有与其相邻的多帧视频图像的特征信息。

如图4所示，浅层特征提取模块通过运动补充结构，得到各帧视频图像各自对应的二级特征图后，可以通过3D CNN对各融合有运动信息的二级特征图进行短时时空特征融合处理。具体实现时，针对每帧视频图像，3D CNN可以对该帧视频图像对应的二级特征图、以及与该帧视频图像相关的各参考视频图像各自对应的二级特征图进行短时时空特征融合处理，得到该帧视频图像对应的三级特征图。所谓短时时空特征融合处理是指，将视频图像对应的二级特征图与各参考视频图像各自对应的二级特征图中相同位置处的特征融合起来。此处与视频图像相关的各参考视频图像，是在该视频图像在视频图像序列中的排列位置的基础上、位于预设窗口范围内的视频图像；例如，假设预设窗口范围为前后相邻的一帧，那么对于视频图像序列中的第2帧视频图像而言，该视频图像序列中的第1帧视频图像和第3帧视频图像即为与该第2帧视频图像相关的参考视频图像。

为了进一步提升特征提取效果，可以在浅层特征提取模块中部署多层3DCNN，以增加非线性的能力并且扩大感受野，从而对底层特征做进一步抽象化处理，更好地提取视频图像中的重要特征。

此外，对于所输入的尺寸较大的视频图像，还可以在3D CNN的基础上进一步部署最大池化层，以对3D CNN的处理结果进行最大池化处理，实现对于特征图的压缩，减少其中的冗余信息，同时减少计算量和降低显存使用，节约计算资源。例如，对于60*320*200的二级特征图，可以通过两层3D CNN(两层依次是大小为2*3*3和2*3*3的24个卷积核)的处理，从时间和空间两个维度同时挖掘相邻的视频图像之间的联系和变化；进而，再通过窗口和步长均为1*2*2的最大池化层，将3D CNN处理得到的特征图的大小缩减为60*160*100。

如此，通过上述3D CNN对各帧视频图像各自对应的二级特征图，进行短时时空特征融合处理，得到各帧视频图像各自对应的三级特征图，可以使得所得到的三级特征图中携带有相邻的视频图像之间的时间和空间依赖关系，即使得所生成的三级特征图中携带的信息更丰富。

在一种可能的实现方式中，浅层特征提取模块针对输入的多帧视频图像执行上述处理，得到多帧视频图像各自对应的三级特征图后，可以进一步通过循环神经网络结构(Rerrent Neural Network，RNN)，对多帧视频图像各自对应的三级特征图进行长时时空特征融合处理。具体的，当视频图像为第一帧视频图像时，通过其对应的循环神经网络结构，基于视频图像对应的三级特征图进行多次特征提取处理，得到该视频图像对应的目标特征图；在多次特征提取处理的过程中会产生视频图像对应的空间积累信息和时间积累信息。当视频图像并非第一帧视频图像时，确定位于该视频图像前、且与该视频图像相邻的视频图像，作为相邻视频图像；并通过其对应的循环神经网络结构，基于该视频图像对应的三级特征图、以及其相邻视频图像对应的空间积累信息、时间积累信息和目标特征图，进行多次特征提取处理，得到该视频图像对应的目标特征图。

需要说明的是，视频图像对应的目标特征图，是对视频图像对应的三级特征图、以及位于该视频图像之前的各帧视频图像各自对应的三级特征图进行长时时空特征融合处理得到的，其能够反映视频图像中的对象面部的静态特征、行为动作、以及目标视频中背景画面变化等特征。

示例性的，如图4所示，可以使用STLSTM(SpatiotemporalLong short-termmemory)作为上述循环神经网络结构，该STLSTM可以对短时时空特征融合处理得到的三级特征图序列，使用包括时间和空间两种门控机制的循环神经网络做进一步的长时时空特征融合处理，基于三级特征图序列实现全局的时间融合和空间融合处理，同时保留原始的视频图像中的空间位置信息。所谓长时时空特征融合处理是指，对所输入的各帧视频图像各自对应的三级特征图进行时间维度和空间维度的特征融合处理。

具体工作时，对于第一帧视频图像对应的三级特征图，第一帧视频图像对应的STLSTM可以对该三级特征图进行多次特征提取处理，并在多次特征提取处理的过程中不断地积累该视频图像中的空间信息和时间信息；第一帧视频图像对应的STLSTM通过对第一帧视频图像对应的三级特征图进行多次特征提取处理，最终将得到该第一帧视频图像对应的目标特征图、以及多次特征提取过程中积累得到的空间积累信息和时间积累信息。对于第二帧视频图像对应的STLSTM，可以将第二帧视频图像对应的三级特征图、第一帧视频图像对应的目标特征图、以及第一帧视频图像对应的STLSTM在多次特征提取过程中积累得到的空间积累信息和时间积累信息输入其中，该第二帧视频图像对应的STLSTM通过对所输入的信息进行多次特征提取处理，将得到该第二帧视频图像对应的目标特征图，该第二帧视频图像对应的STLSTM在多次特征提取过程中也会积累得到空间积累信息和时间积累信息。以此类推，对于此后的每帧视频图像，均通过其对应的STLSTM按照上述方式进行多次特征提取处理，从而得到各帧视频图像各自对应的目标特征图。需要说明的是，上述STLSTM执行的时空融合操作不会改变输入特征图的大小，即完成每次特征提取处理后，均会输出大小相同的特征图。

应理解，在实际应用中，除了可以使用STLSTM作为浅层特征提取模块中的循环神经网络结构外，也可以选取ConvLSTM(ConvolutionalLong short-term memory)作为该循环神经网络。但是经实验研究发现STLSTM相比于ConvLSTM能够取得更好的效果，即相比ConvLSTM的单存储单元，STLSTM中结合时间和空间的双存储单元能够更好地融合时空信息。当然，在实际应用中，也可以采用其它结构作为浅层特征提取模块中的循环神经网络结构，本申请在此不做任何限定。

面部活体检测模块通过上述浅层特征提取模块，将输入的原始视频图像序列数据，转换为含有人脸局部特征、动作状态特征、时间和空间依赖关系等特征的目标特征图序列，该目标特征图序列能够准确地反映目标视频中的目标对象面部的静态特征、行为动作、以及目标视频中背景画面变化等特征，这些特征对于检测目标视频中的目标对象面部是否为活体面部，具有很大的参考价值。

步骤203：针对所述多个目标特征图分别进行空间维度的特征提取处理，得到所述多个目标特征图各自对应的特征向量；基于所述多个目标特征图各自对应的特征向量，进行时间维度的特征提取处理，得到后融合全局特征向量。

面部活体检测模型通过其中的浅层特征提取模块，完成对于输入的视频图像序列的特征提取处理，得到对应的目标特征图序列(即按时间顺序排列的多个目标特征图)后，可以进一步通过后时空特征融合模块对目标特征图序列中的多个目标特征图进行先空间压缩、后时间压缩的处理，从而得到后融合全局特征向量。即，后时空特征融合模块可以先对目标特征图序列中的多个目标特征图分别进行空间维度的特征提取处理，得到这多个目标特征图各自对应的特征向量；然后，再基于这多个目标特征图各自对应的特征向量，进行时间维度的特征提取处理，得到后融合全局特征向量。

需要说明的是，上述后时空特征融合模块是用于对目标特征图序列进行先空间压缩、后时间压缩的处理结构。在浅层特征提取模块已针对视频图像序列中每帧视频图像均进行了相邻帧时空信息提取处理的基础上，该后时空特征融合模块通过对目标特征图序列进行先空间压缩、后时间压缩的处理，可以更细致地刻画目标视频中目标对象面部的特征。

在一种可能的实现方式中，后时空特征融合模块具体工作时，可以先通过通过2DCNN和池化结构，对每个目标特征图进行空间维度的特征提取处理，得到每个目标特征图对应的特征向量；然后，根据多个目标特征图各自对应的特征向量构建特征矩阵；进而，通过多个一维卷积结构，分别对特征矩阵进行时间维度的特征提取处理，得到多个时间压缩特征向量；此处的多个一维卷积结构分别对应不同的窗口宽度；最终，根据多个时间压缩特征向量，确定后融合全局特征向量。

图6为本申请实施例提供的示例性的后时空特征融合模块的工作原理示意图。如图6所示，后时空特征融合模块具体工作时，针对目标特征图序列中每个目标特征图，可以先通过其对应的2D CNN和池化层对该目标特征图在空间维度进行更深层次的特征提取处理，以从空间维度抽取视频图像中目标对象面部的纹理、光照明暗自然度、人脸和背景边缘自然度等特征。在空间维度，使用2D CNN和池化层对目标特征图做进一步的特征抽象，能够对每帧视频图像进行更加细致的状态刻画，从而能够更好地学习活体人脸与非活体人脸之间的多种区别特征信息，减少因人物静止、图像细节变化、以及背景变化等因素而导致的漏判情况。2D CNN和池化层能够压缩空间信息，从而将具有多通道的目标特征图转换为对应的特征向量。此处各目标特征图各自对应的2D CNN和池化层可以共享参数。

如图6所示，后时空特征融合模块针对每个目标特征图，通过其对应的2D CNN和池化层完成特征提取处理得到其对应的特征向量后，后时空特征融合模块可以利用各目标特征图各自对应的特征向量构建特征矩阵，具体的，后时空特征融合模块可以利用特征矩阵的第一行承载第一个目标特征图对应的特征向量，利用特征矩阵的第二行承载第二个目标特征图对应的特征向量，以此类推。

如图6所示，后时空特征融合模块构建出特征矩阵后，可以通过多个对应于不同窗口宽度的一维卷积结构(1D Convolutional NeuralNetwork，1DCNN)、以及多个1D CNN各自对应的最大池化层，分别对特征矩阵进行时间维度的特征提取处理，从而得到各1D CNN各自对应的时间压缩特征向量。后时空特征融合模块除了可以通过2D CNN从空间上刻画视频图像的特征外，还可以进一步地通过对应于不同窗口宽度的多个1D CNN(又可以称为多尺度1D CNN)刻画帧与帧之间的面部状态变化，通过多尺度1D CNN可以有效地防止多帧之间的抖动引起的误判，同时还可以刻画多帧之间眼睛、嘴等面部部位有规律假动的状态特征。

作为一种示例，上述多尺度1D CNN具体对特征矩阵进行时间维度的特征提取处理时，可以针对每个1D CNN，基于该1D CNN对应的窗口宽度，组合特征矩阵中各特征向量得到该1D CNN对应的待处理特征向量组合；然后，通过每个1D CNN对该1D CNN对应的各待处理特征向量组合分别进行特征提取处理，得到各待处理特征向量组合各自对应的时间特征向量；进而，对各待处理特征向量组合各自对应的时间特征向量进行最大池化处理，得到时间压缩特征向量。

示例性的，假设后时空特征融合模块中的多尺度1D CNN包括conv1、conv3、conv5、conv7和conv9，conv1、conv3、conv5、conv7和conv9各自对应的窗口宽度分别为1、3、5、7和9；所对应的窗口宽度为1的conv1用于对特征矩阵中每个特征向量分别进行卷积处理，所对应的窗口宽度为3的conv3用于对特征矩阵中每三个特征向量(即特征矩阵中三个相邻的特征向量)分别进行卷积处理，所对应的窗口宽度为5的conv5用于对特征矩阵中每五个特征向量(即特征矩阵中五个相邻的特征向量)分别进行卷积处理，所对应的窗口宽度为7的conv7用于对特征矩阵中每七个特征向量(即特征矩阵中七个相邻的特征向量)分别进行卷积处理，所对应的窗口宽度为9的conv9用于对特征矩阵中每九个特征向量(即特征矩阵中九个相邻的特征向量)分别进行卷积处理。

以conv3的处理过程为例进行介绍，conv3对特征矩阵进行时间维度的特征提取处理是，可以将特征矩阵中每三个相邻的特征向量组合起来，得到该conv3对应的各待处理向量组合；例如，将特征矩阵中第一行、第二行和第三行各自承载的特征向量组合为一个待处理向量组合，将特征矩阵中第二行、第三行和第四行各自承载的特征向量组合为一个待处理向量组合，以此类推，在特征矩阵中承载有n个特征向量的情况下，后时空特征融合模块将按照上述方式组合得到(n-2)个conv3对应的待处理向量组合。假设conv3中包括级联的K个卷积核，其中，第i(i为大于1、且小于等于K的整数)个卷积核叠加在第i-1个卷积核上，用于处理该第i-1个卷积核的输出结果；conv3针对其对应的每个待处理向量组合进行特征提取处理时，可以通过K个卷积核依次对该待处理向量组合进行特征提取处理，在处理过程中，每个卷积核均会输出一个对应的时间特征向量，如此针对一个待处理向量组合将得到对应的K个时间特征向量。得到(n-2)个待处理向量组合各自对应的K个时间特征向量，可以组合(n-2)个待处理向量组合各自对应的K个时间特征向量，并通过conv3对应的最大池化层对该组合结果进行最大池化处理，得到特定维度的时间压缩特征向量，例如得到包括K个值的时间压缩特征向量。类似地，对于conv1、conv5、conv7和conv9，也可以采用上述方式，得到其各自对应的时间压缩特征向量。

如此，通过上述多尺度1D CNN进行时间维度的特征提取处理，可以提取出多种不同窗口范围内的时间特征信息，即实现了在不同窗口范围内对于时间维度的特征进行融合处理，从而保证所得到的时间压缩特征向量携带有丰富的信息。

通过上述多尺度1D CNN确定出各1D CNN各自对应的时间压缩特征向量后，可以将多个1D CNN各自对应的时间压缩特征向量拼接起来，得到拼接时间压缩特征向量，进而，基于该拼接时间压缩特征向量确定后融合全局特征向量。

在一种可能的实现方式中，后时空特征融合模块可以通过以下方式基于拼接时间压缩特征向量确定后融合全局特征向量：根据门控机制和拼接时间压缩特征向量，确定门控参数；通过全连接层处理该拼接时间压缩特征向量，得到参考时间压缩特征向量；进而，根据该门控参数、该拼接时间压缩特征向量、以及该参考时间压缩特征向量，确定所述后融合全局特征向量。

由于上述多尺度1D CNN中每个1D CNN执行的卷积操作均是单独进行的，简单地将通过每个1D CNN产生的时间压缩特征向量拼接起来所得到的拼接时间压缩特征向量，难以有针对性地反映对于识别面部活体较有参考价值的信息。为了使该拼接时间压缩特征向量所携带的信息能够更有针对性地体现对于识别面部活体较有价值的信息，后时空特征融合模块进一步通过Highway网络结构，对该拼接时间压缩特征向量进行进一步的处理；Highway网络结构具体用于，对拼接时间压缩特征向量进行元素级别的门控过滤、以及全局的特征融合，本质上相当于对多尺度1DCNN中每个卷积核的输出结果做进一步的门控过滤和特征转换；由于各个1D CNN的卷积窗口宽度均是超参数，因此，通过上述Highway结构执行上述处理，能够进一步自适应地融合多尺度的特征和每一维的特征元素，使得最终得到的后融合全局特征向量更稳健。

Highway结构的具体工作原理如下式(1)至式(3)：

output＝trans⊙gate+Input⊙(1-gate) (3)

其中，

和

均表示拼接时间压缩特征向量中的时间压缩特征向量；gate为基于门控机制确定的门控参数；trans为经过全连接层处理得到的参考时间压缩特征向量；output为Highway结构的输出结果。

对于Highway结构的输出结果，后时空特征融合模块可以再利用一层全连接层Dense Layer对其做进一步处理，从而得到后融合全局特征向量。

上文介绍的图6所示的后时空特征融合模块，是对目标特征图序列数据采用先空间压缩、后时间压缩的后融合结构，在浅层特征提取模块已基于视频图像序列提取出携带有相邻帧时空信息的目标特征图序列的基础上，该后时空特征融合模块通过深层次的2DCNN进一步刻画人脸的空间特征，进而再采用1D CNN进行时间压缩，得到目标视频的后融合时空特征向量表示。

应理解，图6所示的后时空特征融合模块的工作方式仅为示例，在实际应用中，也可以设计其它结构的后时空特征融合模块完成对于多个目标特征图的先空间压缩、后时间压缩的处理，本申请在此不对该后时空特征融合模块的具体工作原理做任何限定。

步骤204：基于所述多个目标特征图进行时间维度的特征提取处理，得到时间压缩特征图；对所述时间压缩特征图进行空间维度的特征提取处理，得到前融合全局特征向量。

面部活体检测模型通过其中的浅层特征提取模块，完成对于输入的视频图像序列的特征提取处理，得到对应的目标特征图序列(即按时间顺序排列的多个目标特征图)后，可以进一步通过前时空特征融合模块基于目标特征图序列中的多个目标特征图进行先时间压缩、后空间压缩的处理，从而得到前融合全局特征向量。即，前时空特征融合模块可以先基于目标特征图序列中的多个目标特征图进行时间维度的特征提取处理，得到时间压缩特征图；然后，再对该时间压缩特征图进行空间维度的特征提取处理，得到前融合全局特征向量。

需要说明的是，上述前时空特征融合模块是用于对目标特征图序列进行先时间压缩、后空间压缩的处理结构。在浅层特征提取模块已针对视频图像序列中每帧视频图像均进行了相邻帧时空信息提取处理的基础上，该前时空特征融合模块通过基于目标特征图序列进行先时间压缩、后空间压缩的处理，可以更好地刻画目标视频中的空间位置随时间的变化信息，对于只有局部区域突变的非活体人脸行为特征(例如，人脸的其它位置不动，只有眼睛进行快速眨眼的动作)能够有效地抓取。

在一种可能的实现方式中，目标特征图可以是通过循环神经网络结构对视频图像各自对应的浅层特征图进行多次特征提取处理得到的，此时，前时空特征融合模块可以通过以下方式基于目标特征图序列进行先时间压缩、后空间压缩的处理：针对每帧视频图像，获取该视频图像对应的多个中层特征图，此处的多个中层特征图是在对该视频图像对应的浅层特征图进行多次特征提取处理的过程中产生的，这多个中层特征图分别对应不同的特征提取层级；然后，基于多帧视频图像各自对应的多个中间特征图以及多个目标特征图，进行时间维度的特征提取处理，得到时间压缩特征图；进而，通过2D CNN和最大池化结构，对该时间压缩特征图进行空间维度的特征提取处理，得到前融合全局特征向量。

正如上文步骤202所介绍的，面部活体检测模型中的浅层特征提取模块针对每帧视频图像，可以先通过2D CNN对该帧视频图像进行特征提取处理，得到该帧视频图像对应的一级特征图；然后，通过运动补充结构，根据视频图像对应的一级特征图、以及与该视频图像相邻的视频图像对应的一级特征图，对视频图像对应的一级特征图进行运动补充处理，得到视频图像对应的二级特征图；接着，再通过3D CNN对多个视频图像对应的二级特征图进行短时时空特征融合处理，得到视频图像对应的三级特征图；进而，再通过循环神经网络结构，对视频图像对应的三级特征图进行多次特征提取处理，得到视频图像对应的目标特征图，在循环神经网络每次进行特征提取处理时，均会产生一个与所输入的三级特征图尺寸相同的中间特征图。

在上述浅层特征提取模块的处理过程中，所得到的视频图像对应的三级特征图即可被视为视频图像对应的浅层特征图；在通过循环神经网络结构对视频图像对应的三级特征图进行多次特征提取处理的过程中，每次特征提取处理产生的特征图即可被视为视频图像对应的中间特征图，并且不同的中间特征图对应于不同的特征提取层级，例如，通过第一次特征提取处理得到的中间特征图对应的特征提取层级为1，通过第二次特征提取处理得到的中间特征图对应的特征提取层级为2，以此类推。

图7为本申请实施例提供的示例性的前时空特征融合模块的工作原理示意图。如图7所示，针对每个目标特征图，前时空特征融合模块可以相应地从浅层特征提取模块中的循环神经网络结构处，获取在产生该目标特征图的过程中生成的各中间特征图；进而，基于所获取的各中间特征图以及各目标特征图，进行时间维度的特征提取处理，也即时间压缩处理，从而得到时间压缩特征图。

作为一种示例，前时空特征融合模块可以通过以下方式，得到上述时间压缩特征图：针对每种特征提取层级，在多帧视频图像各自对应的多个中间特征图中，确定该特征提取层级对应的各中间特征图；针对每种特征提取层级，对该特征提取层级对应的各中间特征图，沿时间维度进行最大池化处理，得到该特征提取层级对应的时间特征图；进而，拼接各种特征提取层级各自对应的时间特征图、以及最后一个目标特征图，得到拼接特征图；并根据该拼接特征图确定时间压缩特征图。

具体的，假设用于处理各帧视频图像各自对应的浅层特征图的循环神经网络结构为STLSTM，前时空特征融合模块可以获取该STLSTM的最后输出状态，即最后一帧视频图像对应的目标特征图，也即目标特征图序列中最后一个目标特征图，原因在于，该最后一个目标特征图融合有所有视频图像的时空特征信息，其更着重于表示时序依赖变化的特征。

由于STLSTM对视频图像对应的浅层特征图进行每次特征提取处理时，均会输出尺寸相同的中间特征图，基于此，前时空特征融合模块可以对对应于相同特征提取层级的各中间特征图，沿时间维度进行最大池化处理，得到该特征提取层级对应的时间特征图。例如，假设STLSTM对于视频图像1、视频图像2、……、视频图像n各自对应的浅层特征图均进行了四次特征提取处理，在对于视频图像1对应的浅层特征图进行四次特征提取处理的过程中，依次得到了中间特征图11、中间特征图12、中间特征图13、以及视频图像1对应的目标特征图，在对于视频图像2对应的浅层特征图进行四次特征提取处理的过程中，依次得到了中间特征图21、中间特征图22、中间特征图23、以及视频图像2对应的目标特征图，……，在对于视频图像n对应的浅层特征图进行四次特征提取处理的过程中，依次得到了中间特征图n1、中间特征图n2、中间特征图n3、以及视频图像n对应的目标特征图；前时空特征融合模块具体工作时，可以对对应于第一个特征提取层级的中间特征图11、中间特征图21、……、中间特征图n1，沿时间维度进行最大池化处理，得到第一个特征提取层级对应的时间特征图1，相类似地，按照上述方式对对应于其它特征提取层级的各中间特征图沿时间维度进行最大池化处理，可以得到其它特征提取层级各自对应的时间特征图。如此，得到的各特征提取层级各自对应的时间特征图，能够相应地表示同一空间位置的最大变化点特征。

进而，前时空特征融合模块可以将各特征提取层级各自对应的时间特征图、以及所获取的最后一个目标特征图拼接起来，得到拼接特征图；并根据该拼接特征图，确定时间压缩特征图。由于上述拼接特征图是携带有多维度信息的视频片段特征图，相应地，基于该拼接特征图确定的时间压缩特征图，也能够反映该拼接特征图所携带的多维度信息。

考虑到简单拼接的方式得到的拼接特征图，难以较好地突出哪些特征更重要，并且存在一定的信息冗余，为了使所确定的时间压缩特征图能够更好地反映对于面部活体检测更重要的信息，前时空特征融合模块可以通过特征图重标定结构，进一步融合拼接特征图中各通道的信息，根据整体全局信息对各通道的权重进行重标定，以基于重标定的权重，强化拼接特征图中对于面部活体识别来说更重要的信息，同时减少冗余信息。

具体的，前时空特征融合模块可以采用残差结构作为上述特征图重标定结构；即，前时空特征融合模块可以先对拼接特征图进行平均池化处理以及全连接处理，得到参考权重；然后，基于该参考权重，对拼接特征图中各个元素进行加权处理，得到参考特征图；进而，将该参考特征图中的各个元素与拼接特征图中的各个元素对应相加，得到时间压缩特征图。

图8为上述残差结构的工作原理示意图。如图8所示，前时空特征融合模块可以将尺寸为H*W*C(H为拼接特征图的高、W为拼接特征图的宽、C为拼接特征图中包括的通道数)的拼接特征图输入残差结构，残差结构可以通过对该拼接特征图依次进行平均池化处理和全连接处理，得到参考权重，该参考权重能够反映拼接特征图中各通道各自携带的信息的重要程度。然后，残差结构可以将所得到的参考权重与拼接特征图中对应通道承载的元素相乘，得到参考特征图；利用参考权重对拼接特征图中对应通道承载的元素进行相应地加权处理，能够有效地强化拼接特征图中对于识别面部活体比较具有参考价值的信息，同时弱化拼接特征图中的冗余信息。为了避免对原始输入的信息造成过多的损失，残差结构可以将参考特征图与原始的拼接特征图融合，即将参考特征图中的各个元素与拼接特征图中的各个元素对应相加，从而得到时间压缩特征图，该时间压缩特征图能够更突出地反映对于面部活体识别具有参考价值的信息，同时减少冗余信息。

如此，通过残差结构对拼接特征图做进一步处理，得到时间压缩特征图，有利于强化对于面部活体识别具有参考价值的信息，减少冗余信息；同时，该残差结构将原始输入的拼接特征图与参考特征图融合起来，也有利于更好地训练优化网络参数。

前时空特征融合模块通过上述处理得到时间压缩特征图后，可以进一步通过若干层(如5层)2D CNN和池化层(最大池化层或平均池化层)，对所得到的时间压缩特征图做空间位置的压缩处理，得到前融合全局特征向量。通过多层标准的二维卷积操作以及池化操作，对保留有空间结构的时间压缩特征图进行更深层次的特征提取，将多通道的时间压缩特征图进一步压缩为固定大小的高层语义向量，利用该高层语义向量代表前融合全局特征向量。

上文介绍的图7所示的前时空特征融合模块，是对目标特征图序列数据采用先时间压缩、后空间压缩的前融合结构，在浅层特征提取模块已基于视频图像序列提取出携带有相邻帧时空信息的目标特征图序列的基础上，该前时空特征融合模块通过对目标特征图序列先进行时间压缩和融合处理，更好地刻画目标视频中的空间位置随时间的变化信息，对于只有局部区域突变的非活体人脸行为的抓取更有利，然后，再通过深层次的2D CNN从空间上刻画人脸的静态特征和动态特征的整体情况，得到目标视频的前融合时空特征向量表示。

应理解，图7所示的前时空特征融合模块的工作方式仅为示例，在实际应用中，也可以设计其它结构的前时空特征融合模块完成对于多个目标特征图的先时间压缩、后空间压缩的处理，本申请在此不对该前时空特征融合模块的具体工作原理做任何限定。

需要说明的是，在实际应用中，面部活体检测模型可以先运行后时空特征融合模块、后运行前时空特征融合模块，也可以先运行前时空特征融合模块、后运行前时空特征融合模块，还可以同时运行后时空特征融合模块和前时空特征融合模块，本申请在此不对该后时空特征融合模块和前时空特征融合模块的运行工作顺序做任何限定，即本申请在此不对步骤203和步骤204的执行顺序做任何限定。

步骤205：根据所述后融合全局特征向量和所述前融合全局特征向量，确定所述目标对象对应的面部检测结果。

面部活体检测模型通过其中的后时空特征融合模块以及前时空特征融合模块，分别得到后融合全局特征向量和前融合全局特征向量后，可以进一步根据该后融合全局特征向量和前融合全局特征向量，确定目标视频中的目标对象面部是否为活体面部。

示例性的，如图3所示，面部活体检测模型可以拼接合并该后融合全局特征向量和该前融合全局特征向量，得到面部语义特征向量；然后，通过全连接层Dense Layer，对该面部语义特征向量进行非线性处理和维度转换处理；最终，通过全连接分类层输出预测得分，该预测得分能够反映目标视频中的目标对象面部是否为活体面部，例如，当该预测得分低于预设的得分阈值时，可以确定该目标对象面部并非活体面部。

在实际应用中，训练上述面部活体检测模型时，可以基于Softmax的二分类交叉熵目标函数进行优化，具体可以采用Adam算法优化该模型中的各层结构的参数，并将学习速率设置为0.0001；同时，为了避免过拟合，可以对最后的全连接层权重参数增加L1和L2正则化，和一些dropout操作。

为了便于进一步理解本申请实施例提供的图像识别方法，下面以该图像识别方法应用在通过人脸验证解封冻结的游戏账户的场景中为例，结合图9所示的实现架构示意图，对该图像识别方法进行整体示例性介绍。

在实际应用中，游戏后台服务器可以基于游戏安全策略检测玩家是否在游戏过程中产生非法行为，若检测到玩家在游戏过程中产生非法行为，游戏后台服务器可以暂时冻结该玩家的游戏账户，玩家的游戏账户被冻结后，需要玩家通过人脸验证来解封该被冻结的游戏账户。对于上述情况，非法用户通常会使用软件合成大量的假人视频，并利用所合成的假人视频不断地测试游戏后台服务器上的通用人脸验证系统，以寻找能够绕过通用人脸验证系统的假人视频制作方式，从而达到批量解封冻结的游戏账户的目的。

为了防止发生上述情况，本申请实施例对通过通用人脸验证系统的视频，部署了进一步的后过滤处理，即利用预先训练好的面部活体检测模型，对已通过通用人脸验证系统的视频再次进行活体面部检测处理，从而覆盖检测出更多的假人视频，同时可以对通用人脸验证系统进行补漏和反例(BadCase)反馈。

具体的，如图9所示，对于每个通过通用人脸验证系统的视频，服务器可以对该视频进行分帧处理，得到对应的视频图像序列。然后，将视频图像序列输入预先训练好的面部活体检测模型，该面部活体检测模型即为上文图2所示实施例中介绍的基于前后时空融合双塔结构的模型，该面部活体检测模型对输入的视频图像序列进行分析处理，将相应地输出面部活体检测结果，该面部活体检测结果用于反映视频中的面部是否为活体面部。对于被模型识别为所包括的面部并非活体面部的视频(即模型判黑的人脸视频)，服务器可以进一步将该视频发送给相关的审核人员进行人工审核处理。若人工审核的结果同样为视频中包括的面部并非活体面部，则可以进一步对上传该视频的游戏账户进行降低信用等级、减少信用积分、追封账户等操作；并且，还可以将该视频作为对于通用人脸检测系统的反例反馈，以利用该视频对通用人脸检测系统进行后续训练优化。对于人工审核结果与面部活体检测模型的检测结果不同的视频，可以将该视频作为对于面部活体检测模型的反例反馈，以利用该视频对该面部活体检测模型进行后续训练优化。如此，定期对通用人脸检测系统和面部活体检测模型进行优化训练，增强通用人脸检测系统和面部活体检测模型整体的安全性和可靠性。

下面对利用本申请实施例提供的面部活体检测模型，对通过通用人脸验证系统的视频(下文称为目标视频)进行检测的具体实现过程进行介绍。

服务器获取到通过通用人脸验证系统的目标视频后，可以先采用OpenCV提供的分帧工具，对该目标视频进行分帧处理，以将该目标视频转换为视频图像序列。在人脸验证场景中，所采集的视频的长度通常在8秒以内，平均5秒左右，视频每秒由10至15帧视频图像组成；为了便于后续模型的处理，服务器可以对分帧处理得到的视频图像序列数据进行截断处理，以保留固定长度的视频图像序列数据(如包括60帧视频图像的视频图像序列)。再者，由于不同的视频录制设备录制的视频画面的尺寸不尽相同，因此，服务器还可以使用OpenCV提供的画面尺寸调节工具，对各帧视频图像进行插值映射处理，使得视频图像的长宽比例达到特定的长宽比例。同时，为了保证视频图像中人脸形状不变形，服务器可以采用先填充再resize成相同大小的方式，对各帧视频图像进行处理。

对于经上述处理得到的视频图像序列，服务器可以将其输入至本申请实施例提供的面部活体检测模型，该面部活体检测模型的结构具体如图3所示，其中主要包括浅层特征提取模块、后时空特征融合模块、前时空特征融合模块和分类模块；其中，浅层特征提取模块用于将输入的视频图像序列转换为目标特征图序列，后时空特征融合模块和前时空特征融合模块用于建模人脸图像状态、行为动作等融合特征，分类模块用于对后时空特征融合模块和前时空特征融合模块各自输出的特征向量进行融合，并根据融合后的特征确定面部活体检测结果。

浅层特征提取模块具体工作时，可以先通过两层2D CNN对视频图像序列中的每帧视频图像进行特征转换和通道扩张处理，得到各帧视频图像各自对应的一级特征图，也即得到一级特征图序列，如此可以避免直接在原始图像信息上作差后输出的数据范围不稳定。然后，通过运动补充结构基于通道门控机制对相邻的视频图像对应的一级特征图进行两两做差，得到视频图像对应的运动权重，利用视频图像对应的运动权重与一级特征图中的对应元素进行相乘处理，得到视频图像对应的运动特征；如此提取运动信息相当于模拟光流。进而，将视频图像对应的一级特征图和运动特征中对应元素相加，得到视频图像对应的二级特征图。

然后，浅层特征提取模块可以通过3D CNN，对融合有运动信息的各视频图像各自对应的二级特征图进行短时时空特征融合处理，得到各帧视频图像各自对应的三级特征图；此处部署多层3D CNN可以增加非线性的能力并且扩大感受野，从而将底层的特征进一步抽象画，更有利于重要特征的提取。再者，对于所输入的尺寸较大的视频图像，还可以通过最大池化层对图像进行压缩处理，从而减少冗余信息，并且减少计算量和降低显存使用，节约计算资源。例如，对于60*320*200的二级特征图，可以通过两层3D CNN(两层依次是大小为2*3*3和2*3*3的24个卷积核)的处理，从时间和空间两个维度同时挖掘相邻的视频图像之间的联系和变化；进而，再通过窗口和步长均为1*2*2的最大池化层，将3D CNN处理得到的特征图的大小缩减为60*160*100。

对于经3D CNN的短时时空特征融合处理后得到的三级特征图序列，浅层特征提取模块可以进一步通过STLSTM对每帧视频图像对应的三级特征图进行进一步的特征提取处理，即通过STLSTM使用含有时间和空间两种门控机制的循环神经网络结构做进一步的长时时空融合处理，基于整个二级特征图序列做全局的时间融合和局部的空间融合，同时保留空间位置信息，得到各帧视频图像各自对应的目标特征图。相比于ConvLSTM的单存储单元，结合时间和空间双存储单元的STLSTM结构能更好地融合时空信息，同时在消融实验中也发现STLSTM的预测效果优于ConvLSTM。针对STLSTM设置的参数例如可以是基于卷积核大小3*3的48个STLSTM单元的时空循环神经网络，由于STLSTM的时空融合操作不会改变输入特征图的大小，因此经过每次特征提取提到的特征图的大小均相同，均是大小为160*100的48通道特征图。

上述浅层特征提取模块将原始输入的视频图像序列数据转换为目标特征图序列，经2D CNN、运动补充模块、3DCNN和STLSTM处理得到的目标特征图序列，包含有人脸静态特征、动作状态特征、时间和空间依赖关系、背景画面变化特征等丰富的特征信息，基于该目标特征图序列进行面部活体检测，可以保证检测所依据的特征充足且可靠。

对于浅层特征提取模块输出的目标特征图序列，后时空特征融合模块可以先通过2D CNN和池化层，对每个目标特征图进行空间维度的特征提取处理，通过2D CNN可以深层次地从空间维度抽取出每帧视频图像中对象面部的纹理、光照明暗自然度、人脸和背景边缘自然度等特征。在空间上对每帧目标特征图使用多层2D CNN和池化操作可以实现进一步的特征抽取，能够对每帧视频图像中的对象面部做更细致的状态刻画，能够更好且更丰富地学习到活体人脸与非活体人脸之间的区别特征信息，减少因静止、图片细节变化(例如头部中额外添加装饰物等)以及背景变化等因素而导致的人脸视频的误判。2D CNN压缩了空间信息，将多通道的目标特征图序列转换为特征向量序列。

后时空特征融合模块经2D CNN和池化层完成对于各目标特征图的空间压缩处理后，得到各目标特征图各自对应的特征向量后，后时空特征融合模块可以进一步通过多尺度1D CNN刻画帧与帧之间的人脸状态变化；多尺度1D CNN能够防止多帧之间的抖动引起的误判，同时能够刻画多帧之间的眼睛、嘴等部位有规律的假动的状态特征。具体实现时，后时空特征融合模块可以先按照各目标特征图各自对应的视频图像的时间顺序，将2D CNN输出的各目标特征图各自对应的特征向量逐行组成特征矩阵(即利用第一行承载第一个目标特征图对应的特征向量，利用第二行承载第二个目标特征图对应的特征向量，以此类推)，然后通过多尺度的一维连续卷积操作分别提取不同序列长度的n-gram特征。如图3所示，图3中的conv1、conv3、conv5、conv7和conv9分别代表不同宽度窗口的一维连续卷积操作；同时，每种宽度的卷积是单独操作的，而且每种宽度的卷积核也有多个，表示不同参数的卷积核能够提取不同方面的特征；然后，卷积操作可以叠加多层，例如，第二层卷积是叠加在第一层卷积的输出之上，第三层卷积是叠加在第二层卷积的输出之上；多层卷积层的叠加能够逐层扩大感受野和层次化地提取高层抽象特征；最后，对每种宽度的卷积输出结果分别通过最大池化操作，保留每种宽度卷积的各个卷积的最重要特征。假设有M种宽度的卷积核，每种卷积有K个卷积核，其输出M*K维度的特征向量。上述多尺度1D CNN把特征向量序列压缩为固定维度的特征向量，也即实现了时间维度上的特征融合。

由于多尺度1D CNN每种宽度的卷积操作均是单独进行的，因此，需要进一步融合多种卷积核的输出特征，即相当于n-gram特征的融合。具体实现时，后时空特征融合模块可以对多尺度1D CNN输出的特征向量做元素级别的门控过滤和全局的特征融合，即相当于对每一个卷积核的输出结果做进一步的门控过滤和特征转换处理。多尺度1D CNN的卷积窗口宽度均是超参数，通过上述处理，能够进一步自适应地融合多尺度的特征和每一维的特征元素，使结果更稳健些。此处借鉴了HighWay网络结构，其运算公式具体如下，其中是输入Input向量，HighWay层不改变输入向量的维度，其输出结果表示人脸序列的全局特征向量。

output＝trans⊙gate+Input⊙(1-gate)

上述后时空特征融合模块，是对目标特征图序列数据采用先空间压缩、后时间压缩的后融合结构，在浅层特征提取模块已基于视频图像序列提取出携带有相邻帧时空信息的目标特征图序列的基础上，该后时空特征融合模块通过深层次的2D CNN进一步刻画人脸的空间特征，进而再采用1D CNN进行时间压缩，得到目标视频的后融合时空特征向量表示。

对于浅层特征提取模块输出的目标特征图序列，前时空特征融合模块可以基于前融合时空信息的方式，消除多通道的目标特征图序列的时间维度，将其压缩为只保留空间信息的多通道特征图。具体的，前时空特征融合模块可以先获取STLSTM的最后输出状态(其更着重表示时序依赖变化的特征)，并且对STLSTM每次特征提取处理得到的中间特征图(相同特征提取位置处按顺序排列的中间特征图)，沿时间维度做最大池化操作，得到全局时间维度池化的特征图(其更着重表示同一空间位置的最大变化点特征)；然后，将两种操作得到的特征图拼接起来得到拼接特征图，该拼接特征图是代表多维度信息的视频片段特征图。

由于简单拼接难以更好地突出哪些特征图更重要，并且存在一定的信息冗余，因此，前时空特征融合模块可以进一步利用特征图重标定模块融合拼接特征图中各通道的信息，根据整体全局信息对各通道的权重做重标定，强化重要特征图的信息，降低冗余的特征图的信息。同时，还需要加上原始的拼接特征图，从而得到时间压缩特征图。如此，采用残差连接的形式，可以避免因原始输入信息存在过多损失，而不利于后续结构的特征学习，并且残差结构也有利于更好地训练优化网络的参数。

前时空特征融合模块得到时间压缩特征图后，可以通过2D CNN对该时间压缩特征图进一步做空间位置的压缩，具体通过多层标准的二维卷积操作以及池化操作，对保留有空间结构的时间压缩特征图进行更深层次的特征提取，将多通道的时间压缩特征图进一步压缩为固定大小的高层语义向量，从而得到前融合全局特征向量。

上述前时空特征融合模块，是对目标特征图序列数据采用先时间压缩、后空间压缩的前融合结构，在浅层特征提取模块已基于视频图像序列提取出携带有相邻帧时空信息的目标特征图序列的基础上，该前时空特征融合模块通过对目标特征图序列先进行时间压缩和融合处理，更好地刻画目标视频中的空间位置随时间的变化信息，对于只有局部区域突变的非活体人脸行为的抓取更有利，然后，再通过深层次的2D CNN从空间上刻画人脸的静态特征和动态特征的整体情况，得到目标视频的前融合时空特征向量表示。

最后，分类模块可以拼接合并该后融合全局特征向量和该前融合全局特征向量，得到面部语义特征向量；然后，通过全连接层，对该面部语义特征向量进行非线性处理和维度转换处理；最终，通过全连接分类层输出预测得分，该预测得分能够反映目标视频中的人物面部是否为活体面部。

训练上述面部活体检测模型时，可以基于Softmax的二分类交叉熵目标函数进行优化，具体可以采用Adam算法优化该模型中的各层结构的参数，并将学习速率设置为0.0001；同时，为了避免过拟合，可以对最后的全连接层权重参数增加L1和L2正则化，和一些dropout操作。

为了验证本申请实施例提供的面部活体检测模型的效果，本申请发明人在包括2.6万人脸视频的测试样本集上进行了效果评估，该测试样本集中包括63个假人视频。各个模型的预测效果如下表1所示，其中，“NOME_STLSTM_B”表示不包括运动补充结构、但是包括STLSTM和后时空特征融合模块的模型，“ME_STLSTM_B”表示包括运动补充结构、STLSTM和后时空特征融合模块的模型，“NOME_STLSTM_FB”表示不包括运动补充结构、但包括STLSTM、后时空特征融合模块和前时空特征融合模块的模型，“ME_STLSTM_FB”表示同时包括运动补充结构、STLSTM、后时空特征融合模块和前时空特征融合模块的模型，即图3所示的模型结构，“ME_CONVLTSM_FB”表示同时包括运动补充结构、ConvLSTM、后时空特征融合模块和前时空特征融合模块的模型。

表1

模型	判黑数/审核黑	精确率	召回率	F1值
					NOME_STLSTM_B	71/57	80.2％	90.4％	85％
ME_STLSTM_B	67/59	88％	93.6％	90.7％
					NOME_STLSTM_FB	71/60	84.5％	95.2％	89.5％
ME_STLSTM_FB	66/60	90.9％	95.2％	93％
					ME_CONVLTSM_FB	71/58	81.6％	92％	86.4％

通过表1所示的效果评估结果可以看出，无论是仅包括后时空特征融合模块的模型结构，还是同时包括后时空特征融合模块和前时空特征融合模块的双塔模型结构，包括有运动补充结构的模型效果优于仅包括3D CNN和STLSTM的模型结构。此外，同时包括后时空特征融合模块和前时空特征融合模块的双塔模型结构，优于仅包括后时空特征融合模块的模型结构。再者，在同时包括后时空特征融合模块和前时空特征融合模块的双塔模型结构下，包括STLSTM的模型效果优于包括ConvLSTM的模型。总而言之，本申请实施例提供的图3所示的模型在实验对比中，表现出最优的效果。

针对上文描述的图像识别方法，本申请还提供了对应的图像识别装置，以使上述图像识别方法在实际中得以应用及实现。

参见图10，图10是与上文图2所示的图像识别方法对应的一种图像识别装置1000的结构示意图。如图10所示，该图像识别装置1000包括：

视频拆分模块1001，用于获取目标视频，所述目标视频中包括待验证的目标对象的面部；对所述目标视频进行分帧处理，得到所述目标视频中按序排列的多帧视频图像；

初级特征提取模块1002，用于对所述多帧视频图像进行特征提取处理，得到与所述多帧视频图像对应的按序排列的多个目标特征图；

后融合特征提取模块1003，用于针对所述多个目标特征图分别进行空间维度的特征提取处理，得到所述多个目标特征图各自对应的特征向量；基于所述多个目标特征图各自对应的特征向量，进行时间维度的特征提取处理，得到后融合全局特征向量；

前融合特征提取模块1004，用于基于所述多个目标特征图进行时间维度的特征提取处理，得到时间压缩特征图；对所述时间压缩特征图进行空间维度的特征提取处理，得到前融合全局特征向量；

验证模块1005，用于根据所述后融合全局特征向量和所述前融合全局特征向量，确定所述目标对象对应的面部检测结果。

可选的，在图10所示的图像识别装置的基础上，所述初级特征提取模块1002包括：

特征提取子模块，用于通过二维卷积结构，对所述多帧视频图像分别进行特征提取处理，得到所述多帧视频图像各自对应的一级特征图；

运动补充子模块，用于针对每帧所述视频图像，根据所述视频图像对应的一级特征图、以及与所述视频图像相邻的视频图像对应的一级特征图，确定所述视频图像对应的运动特征；根据所述视频图像对应的一级特征图和运动特征，确定所述视频图像对应的二级特征图；

特征图确定子模块，用于根据所述多帧视频图像各自对应的二级特征图，确定所述多个目标特征图。

可选的，所述运动补充子模块具体用于：

确定排列在所述视频图像前、且与所述视频图像相邻的视频图像，作为所述视频图像的相邻视频图像；

基于通道门控机制，利用所述视频图像对应的一级特征图中的各个元素与其相邻视频图像对应的一级特征图中的各个元素做差，得到运动特征权重；

基于所述运动特征权重，对所述视频图像对应的一级特征图中的各个元素进行加权处理，得到所述视频图像对应的运动特征。

可选的，所述特征图确定子模块具体用于：

针对每帧所述视频图像，根据所述视频图像的排列位置和预设窗口范围，在所述多帧视频图像中确定与所述视频图像相关的参考视频图像；

针对每帧所述视频图像，通过三维卷积结构，基于所述视频图像对应的二级特征图、以及与所述视频图像相关的各参考视频图像各自对应的二级特征图，进行短时时空特征融合，得到所述视频图像对应的三级特征图；

根据所述多帧视频图像各自对应的三级特征图，确定所述多个目标特征图。

可选的，所述特征图确定子模块具体用于：

当所述视频图像为第一帧视频图像时，通过对应的循环神经网络结构，基于所述视频图像对应的三级特征图进行多次特征提取处理，得到所述视频图像对应的目标特征图；在所述多次特征提取处理的过程中，产生所述视频图像对应的空间积累信息和时间积累信息；

当所述视频图像并非第一帧视频图像时，确定位于所述视频图像前、且与所述视频图像相邻的视频图像，作为相邻视频图像；通过对应的循环神经网络结构，基于所述视频图像对应的三级特征图、以及所述相邻视频图像对应的空间积累信息、时间积累信息和目标特征图，进行多次特征提取处理，得到所述视频图像对应的目标特征图。

可选的，在图10所示的图像识别装置的基础上，所述后融合特征提取模块1003包括：

空间压缩子模块，用于通过二维卷积结构和池化结构，对每个所述目标特征图进行空间维度的特征提取处理，得到每个所述目标特征图对应的特征向量；

时间压缩子模块，用于根据所述多个目标特征图各自对应的特征向量，构建特征矩阵；通过多个一维卷积结构，分别对所述特征矩阵进行时间维度的特征提取处理，得到多个时间压缩特征向量；所述多个一维卷积结构分别对应不同的窗口宽度；

后融合向量确定子模块，用于根据所述多个时间压缩特征向量，确定所述后融合全局特征向量。

可选的，所述空间压缩子模块具体用于：

针对每个所述一维卷积结构，基于所述一维卷积结构对应的窗口宽度，组合所述特征矩阵中各特征向量，得到所述一维卷积结构对应的待处理特征向量组合；

针对每个所述一维卷积结构，通过所述一维卷积结构，对所述一维卷积结构对应的各待处理特征向量组合分别进行特征提取处理，得到各待处理特征向量组合各自对应的时间特征向量；对各待处理特征向量组合各自对应的时间特征向量进行最大池化处理，得到所述时间压缩特征向量。

可选的，所述后融合向量确定子模块具体用于：

拼接所述多个时间压缩特征向量，得到拼接时间压缩特征向量；

根据门控机制和所述拼接时间压缩特征向量，确定门控参数；

通过全连接层处理所述拼接时间压缩特征向量，得到参考时间压缩特征向量；

根据所述门控参数、所述拼接时间压缩特征向量、以及所述参考时间压缩特征向量，确定所述后融合全局特征向量。

可选的，在图10所示的图像识别装置的基础上，所述目标特征图是通过循环神经网络结构，对所述视频图像各自对应的浅层特征图进行多次特征提取处理得到的；所述前融合特征提取模块1004包括：

时间压缩子模块，用于针对每帧所述视频图像，获取所述视频图像对应的多个中层特征图；所述多个中层特征图是在对所述视频图像对应的浅层特征图进行多次特征提取处理的过程中产生的，所述多个中层特征图分别对应不同的特征提取层级；基于所述多帧视频图像各自对应的多个中间特征图、以及所述多个目标特征图，进行时间维度的特征提取处理，得到所述时间压缩特征图；

空间压缩子模块，用于通过二维卷积结构和池化结构，对所述时间压缩特征图进行空间维度的特征提取处理，得到所述前融合全局特征向量。

可选的，所述时间压缩子模块具体用于：

针对每种特征提取层级，在所述多帧视频图像各自对应的多个中间特征图中，确定所述特征提取层级对应的各中间特征图；

针对每种特征提取层级，对所述特征提取层级对应的各中间特征图，沿时间维度进行最大池化处理，得到所述特征提取层级对应的时间特征图；

拼接各种特征提取层级各自对应的时间特征图、以及最后一个目标特征图，得到拼接特征图；

根据所述拼接特征图，确定所述时间压缩特征图。

可选的，所述时间压缩子模块具体用于：

对所述拼接特征图进行平均池化处理和全连接处理，得到参考权重；

基于所述参考权重，对所述拼接特征图中各个元素进行加权处理，得到参考特征图；

将所述参考特征图中的各个元素与所述拼接特征图中的各个元素对应相加，得到所述时间压缩特征图。

上述图像识别装置利用面部活体检测模型，检测目标视频中的目标对象是否为活体对象时，通过该模型中的后时空特征融合模块，对多个目标特征图进行先空间压缩、后时间压缩的处理，如此更细致地描述单帧视频图像中目标对象的面部轮廓和纹理，更好地刻画目标对象的面部特征。此外，通过该模型中的前时空特征融合模块，对多个目标特征图进行先时间压缩、后空间压缩的处理，能够更好地描述目标视频中多帧视频图像中每个位置的状态变化，即更好地描述目标视频中目标对象面部的位置变化信息。最终，综合上述后融合全局特征向量和前融合全局特征向量，验证目标视频中目标对象是否为活体对象，实现了对于所刻画的目标对象面部的静态特征和动态特征的综合考量，从而保证据此确定的验证结果的准确性。

本申请实施例还提供了一种用于识别图像的计算机设备，该设备具体可以是终端设备或者服务器，下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。

参见图11，图11是本申请实施例提供的终端设备的结构示意图。如图11所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理、销售终端(Point ofSales，POS)、车载电脑等任意终端设备，以终端为计算机为例：

图11示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图11，计算机包括：射频(Radio Frequency，RF)电路1110、存储器1120、输入单元1130(其中包括触控面板1131和其他输入设备1132)、显示单元1140(其中包括显示面板1141)、传感器1150、音频电路1160(其可以连接扬声器1161和传声器1162)、无线保真(wirelessfidelity，WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解，图11中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1180是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行计算机的各种功能和处理数据。可选的，处理器1180可包括一个或多个处理单元；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

在本申请实施例中，该终端所包括的处理器1180还具有以下功能：

可选的，所述处理器1180还用于执行本申请实施例提供的图像识别方法的任意一种实现方式的步骤。

参见图12，图12为本申请实施例提供的一种服务器1200的结构示意图。该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器1200上执行存储介质1230中的一系列指令操作。

服务器1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。

其中，CPU 1222用于执行如下步骤：

可选的，CPU 1222还可以用于执行本申请实施例提供的图像识别方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种图像识别方法中的任意一种实施方式。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述各个实施例所述的一种图像识别方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述多帧视频图像进行特征提取处理，得到与所述多帧视频图像对应的按序排列的多个目标特征图，包括：

通过二维卷积结构，对所述多帧视频图像分别进行特征提取处理，得到所述多帧视频图像各自对应的一级特征图；

针对每帧所述视频图像，根据所述视频图像对应的一级特征图、以及与所述视频图像相邻的视频图像对应的一级特征图，确定所述视频图像对应的运动特征；根据所述视频图像对应的一级特征图和运动特征，确定所述视频图像对应的二级特征图；

根据所述多帧视频图像各自对应的二级特征图，确定所述多个目标特征图。

3.根据权利要求2所述的方法，其特征在于，所述根据所述视频图像对应的一级特征图、以及与所述视频图像相邻的视频图像对应的一级特征图，确定所述视频图像对应的运动特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述多帧视频图像各自对应的二级特征图，确定所述多个目标特征图，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述多帧视频图像各自对应的三级特征图，确定所述多个目标特征图，包括：

6.根据权利要求1所述的方法，其特征在于，所述针对所述多个目标特征图分别进行空间维度的特征提取处理，得到所述多个目标特征图各自对应的特征向量；基于所述多个目标特征图各自对应的特征向量，进行时间维度的特征提取处理，得到后融合全局特征向量，包括：

通过二维卷积结构和池化结构，对每个所述目标特征图进行空间维度的特征提取处理，得到每个所述目标特征图对应的特征向量；

根据所述多个目标特征图各自对应的特征向量，构建特征矩阵；

通过多个一维卷积结构，分别对所述特征矩阵进行时间维度的特征提取处理，得到多个时间压缩特征向量；所述多个一维卷积结构分别对应不同的窗口宽度；

根据所述多个时间压缩特征向量，确定所述后融合全局特征向量。

7.根据权利要求6所述的方法，其特征在于，所述通过多个一维卷积结构，分别对所述特征矩阵进行时间维度的特征提取处理，得到多个时间压缩特征向量，包括：

8.根据权利要求6所述的方法，其特征在于，所述根据所述多个时间压缩特征向量，确定所述后融合全局特征向量，包括：

9.根据权利要求1所述的方法，其特征在于，所述目标特征图是通过循环神经网络结构，对所述视频图像各自对应的浅层特征图进行多次特征提取处理得到的；

所述基于所述多个目标特征图进行时间维度的特征提取处理，得到时间压缩特征图；对所述时间压缩特征图进行空间维度的特征提取处理，得到前融合全局特征向量，包括：

针对每帧所述视频图像，获取所述视频图像对应的多个中层特征图；所述多个中层特征图是在对所述视频图像对应的浅层特征图进行多次特征提取处理的过程中产生的，所述多个中层特征图分别对应不同的特征提取层级；

基于所述多帧视频图像各自对应的多个中间特征图、以及所述多个目标特征图，进行时间维度的特征提取处理，得到所述时间压缩特征图；

通过二维卷积结构和池化结构，对所述时间压缩特征图进行空间维度的特征提取处理，得到所述前融合全局特征向量。

10.根据权利要求9所述的方法，其特征在于，所述基于所述多帧视频图像各自对应的多个中间特征图、以及所述多个目标特征图，进行时间维度的特征提取处理，得到所述时间压缩特征图，包括：

根据所述拼接特征图，确定所述时间压缩特征图。

11.根据权利要求10所述的方法，其特征在于，所述根据所述拼接特征图，确定所述时间压缩特征图，包括：

12.一种图像识别装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述设备包括处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至11中任一项所述的图像识别方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至11中任一项所述的图像识别方法。

15.一种计算机程序产品，包括计算机程序或者指令，其特征在于，所述计算机程序或者所述指令被处理器执行时，实现权利要求1至11中任一项所述的图像识别方法。