CN116152908A

CN116152908A - 动作识别、活体检测和模型训练方法及装置、电子设备

Info

Publication number: CN116152908A
Application number: CN202211048327.7A
Authority: CN
Inventors: 陈圣; 曾定衡; 蒋宁; 周迅溢; 吴海英
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2023-05-23

Abstract

本申请披露了一种动作识别方法、活体检测方法、模型训练方法、动作识别装置、活体检测装置、模型训练装置、电子设备及计算机可读存储介质，涉及图片处理技术领域。该动作识别方法用于识别目标图像的面部的动作类别，该方法包括：对目标图像进行结合通道自关注机制的类别识别操作，得到目标图像对应的N个预测动作类别，N为正整数；基于N个预测动作类别，确定目标图像的面部的动作类别。借助于注意力机制能够模拟人类视觉，聚焦重要信息、以及忽略次要信息的特性，过结合通道自关注机制的类别识别操作，在每个通道上聚焦自身关键信息，凸显并提取明显特征，并且结合不同空域的不同细节，扩充感受野，实现提高预测动作类别准确性的目的。

Description

动作识别、活体检测和模型训练方法及装置、电子设备

技术领域

本申请涉及图片处理技术领域，具体涉及一种动作识别方法、活体检测方法、模型训练方法、动作识别装置、活体检测装置、模型训练装置、电子设备及计算机可读存储介质。

背景技术

随着生物识别技术的发展，人脸识别技术被广泛应用于各个领域，活体检测是人脸识别技术能否有效应用的前提。活体检测方法通过识别用户是否做随机指定动作(比如，点头、摇头、眨眼和张嘴等)来鉴别是否是活体。因此，快速且准确地识别出用户面部的动作类别至关重要。然而，传统的动作识别方法存在准确率低的技术问题。

发明内容

有鉴于此，本申请提供一种动作识别方法、活体检测方法、模型训练方法、动作识别装置、活体检测装置、模型训练装置、电子设备及计算机可读存储介质，以解决传统技术中识别面部的动作类别准确率低的技术问题。

第一方面，提供一种动作识别方法，用于识别目标图像的面部的动作类别，该方法包括：对目标图像进行结合通道自关注机制的类别识别操作，得到目标图像对应的N个预测动作类别，N为正整数，结合通道自关注机制的类别识别操作为，在N个通道上，分别结合注意力机制提取目标图像明显的特征，并利用明显的特征进行类别预测的操作；基于N个预测动作类别，确定目标图像的面部的动作类别。

第二方面，提供一种活体检测方法，该方法包括：获取目标用户响应于预设动作指令的目标图像集，目标图像集包括连续的M帧目标图像，M为大于或者等于3的正整数；基于上述第一方面所提及的动作识别方法，确定每帧目标图像的面部的动作类别；基于每帧目标图像的面部的动作类别，确定目标图像集的面部的动作类别；若目标图像集的面部的动作类别和预设动作指令匹配，则确定目标用户为活体。

第三方面，提供一种模型训练方法，用于训练初始神经网络模型，生成动作识别模型，动作识别模型用于执行上述第一方面所提及的动作识别方法。该方法包括：确定训练样本和训练样本的动作类别标签，动作类别标签用于表征训练样本的面部的动作类别；将训练样本输入初始神经网络模型，得到初始神经网络模型中结合通道自关注机制的N个通道输出的N个预测动作类别、和初始神经网络模型输出的预测动作类别，N为正整数；基于N个预测动作类别、初始神经网络模型输出的预测动作类别和动作类别标签，确定损失函数值，以调整初始神经网络模型的参数，得到动作识别模型。

第四方面，提供一种动作识别装置，用于识别目标图像的面部的动作类别，该装置包括：第一得到模块，配置为对目标图像进行结合通道自关注机制的类别识别操作，得到目标图像对应的N个预测动作类别，N为正整数，结合通道自关注机制的类别识别操作为，在N个通道上，分别结合注意力机制提取目标图像明显的特征，并利用明显的特征进行类别预测的操作；第一确定模块，配置为基于N个预测动作类别，确定目标图像的面部的动作类别。

第五方面，提供一种活体检测装置，该装置包括：第一获取模块，配置为获取目标用户响应于预设动作指令的目标图像集，目标图像集包括连续的M帧目标图像，M为大于或者等于3的正整数；第二确定模块，配置为基于上述第一方面所提及的动作识别方法，确定每帧目标图像的面部的动作类别；第三确定模块，配置为基于每帧目标图像的面部的动作类别，确定目标图像集的面部的动作类别；第四确定模块，配置为若目标图像集的面部的动作类别和预设动作指令匹配，则确定目标用户为活体。

第六方面，提供一种模型训练装置，用于训练初始神经网络模型，生成动作识别模型，动作识别模型用于执行上述第一方面所提及的动作识别方法，该装置包括：第五确定模块，配置为确定训练样本和训练样本的动作类别标签，动作类别标签用于表征训练样本中的面部的动作类别；第二得到模块，配置为将训练样本输入初始神经网络模型，得到初始神经网络模型中结合通道自关注机制的N个通道输出的N个预测动作类别、和初始神经网络模型输出的预测动作类别，N为正整数；第三得到模块，配置为基于N个预测动作类别、初始神经网络模型输出的预测动作类别和动作类别标签，确定损失函数值，以调整初始神经网络模型的参数，得到动作识别模型。

第七方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，在存储器中存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行第一方面至第三方面中的任一方面所提及的方法。

第八方面，提供一种计算机可读存储介质，该存储介质存储有指令，当该指令被执行时，能够实现上述第一方面至第三方面中的任一方面所提及的方法。

本申请实施例提供的动作识别方法，借助于注意力机制在特征提取时能够模拟人类视觉，聚焦重要信息、以及忽略次要信息的特性，通过结合通道自关注机制的类别识别操作，在每个通道上聚焦目标图像自身关键信息，在通道上凸显并提取目标图像明显特征，并且在多个通道上结合不同空域的不同细节，以扩充感受野，从而实现提高预测动作类别准确性的目的。此外，由于N个预测动作类别是结合凸显不同维度的明显特征得到的预测数据，利用N个预测动作类别，能够更准确地确定目标图像的面部的动作类别，也就是说，进一步提高识别面部的动作类别的准确率。

附图说明

图1所示为本申请一实施例提供的动作识别方法的应用场景的系统架构示意图。

图2所示为本申请一实施例提供的动作识别方法的流程示意图。

图3所示为本申请一实施例提供的对目标图像进行结合通道自关注机制的类别识别操作，得到目标图像对应的N个预测动作类别的流程示意图。

图4所示为本申请一实施例提供的基于利用注意力卷积分别对所述N个上采样特征图进行通道池化操作和第一激活函数处理，得到N个通道池化特征图的流程示意图。

图5所示为本申请一实施例提供的动作识别模型的结构框图。

图6a所示为本申请一实施例提供的模型训练方法的流程示意图。

图6b所示为基于图6a所示的模型训练方法训练Unet初始神经网络模型的示意图。

图7所示为本申请一实施例提供的活体检测方法的流程示意图。

图8所示为本申请一实施例提供的动作识别装置的结构示意图。

图9所示为本申请又一实施例提供的动作识别装置的结构示意图。

图10所示为本申请一实施例提供的活体检测装置的结构示意图。

图11所示为本申请一实施例提供的模型训练装置的结构示意图。

图12所示为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

人脸识别作为一项成熟的生物识别技术，目前已被广泛应用于金融、公安、社会服务和电子商务等领域。然而，人脸识别过程中也面临着被不法分子利用欺骗手段恶意攻击的风险，比如使用打印的人脸照片，提前录制的人脸视频，甚至3D的人脸模型，这些欺骗手段给人脸识别的安全性带来隐患。人脸防欺诈的方法也叫做活体检测，主要是判断人脸是否为活体，从而减轻人脸识别的安全隐患，也就是说，活体检测是人脸识别技术能否有效应用的前提。

活体检测方法通过识别用户是否做随机指定动作来鉴别是否是活体，即，随机指定用户进行摇头、点头、眨眼或张嘴等动作，根据用户的这些动作来判断是否为活体。因此，快速且准确地识别出用户面部的动作类别至关重要。传统技术中，利用多个复杂的模型分别对摇头、点头、眨眼和张嘴等动作进行识别，比如，采用姿态估计PSECNN模型估计出用户的俯角、偏角和转角，对用户做摇头和点头进行识别，采用MCNN模型和ECNN模型分别对眨眼和张嘴进行识别。由于每个模型在识别过程中对所有信息进行等同的特征提取，关键信息和次要信息无差别提取，明显特征和非明显特征无差别提取，从而无法聚焦清晰区域，使得图像的模糊区域影响识别，进而导致识别的准确率低，无法满足快速且准确地进行活体检测的要求。

为了解决上述问题，本申请实施例提供一种动作识别方法，借助于注意力机制在特征提取时能够模拟人类视觉，聚焦重要信息、以及忽略次要信息的特性，通过结合通道自关注机制的类别识别操作，在每个通道上聚焦目标图像自身关键信息，在通道上凸显并提取目标图像明显特征，并且在多个通道上结合不同空域的不同细节，以扩充感受野，从而实现提高预测动作类别准确性的目的。此外，由于N个预测动作类别是结合凸显不同维度的明显特征得到的预测数据，利用N个预测动作类别，能够更准确地确定目标图像的面部的动作类别，也就是说，进一步提高识别面部的动作类别的准确率。

下面结合图1详细介绍本申请实施例提及的动作识别方法的应用场景的系统架构。如图1所示，本申请实施例提供的应用场景涉及图像采集设备110、与图像采集设备110通信连接的动作识别设备120、与动作识别设备120通讯连接的活体检测结果确定设备130。

在实际应用过程中，图像采集设备110用于采集包含目标用户的面部的动作的目标图像，并将采集的目标图像发送给动作识别设备120，动作识别设备120对目标图像进行结合通道自关注机制的类别识别操作，得到目标图像对应的N个预测动作类别，N为正整数；基于N个预测动作类别，确定目标图像的面部的动作类别，并发送目标图像的面部的动作类别至活体检测结果确定设备130，活体检测结果确定设备130基于目标图像的面部的动作类别，确定活体检测结果。

本申请实施例中，由于动作识别设备120在进行面部的动作类别识别过程中，结合了通道自关注机制，能够借助于注意力机制在特征提取时能够模拟人类视觉，聚焦重要信息、以及忽略次要信息的特性，在每个通道上聚焦目标图像自身关键信息，在通道上凸显并提取目标图像明显特征，并且在多个通道上结合不同空域的不同细节，以扩充感受野，从而提高面部的动作类别识别的准确性，为实现精准活体检测和保障人脸识别的安全性提供基础。

下面结合图2至图5详细介绍本申请实施例提及的动作识别方法。

图2所示为本申请一实施例提供的动作识别方法的流程示意图。如图2所示，本申请实施例提供的动作识别方法包括如下步骤。

步骤S210，对目标图像进行结合通道自关注机制的类别识别操作，得到目标图像对应的N个预测动作类别。

示例性地，N为正整数。

示例性地，上述提及的结合通道自关注机制类别识别操作指的是，在N个通道上，分别结合注意力机制提取目标图像自身明显的特征，并利用明显的特征进行类别预测的操作。其中，注意力(Attention)机制的本质是忽略无关信息、关注重点信息，对于权重最大(即，最明显)的特征进行关注。

需要说明的是，上述提及的明显的特征指的是，目标图像中的面部的清晰区域在特征提取过程中对应的特征。

步骤S220，基于N个预测动作类别，确定目标图像的面部的动作类别。

示例性地，上述提及的基于N个预测动作类别，确定目标图像的面部的动作类别的具体实现方式可以为，将N个预测动作类别中的出现次数最多的预测动作类别，确定为目标图像的面部的动作类别。N个预测动作类别结合各自凸显的明显特征得到的预测数据，出现次数最多的预测动作类别能够最大程度地贴近目标图像的面部的动作类别，将其作为目标图像的面部的动作类别是严谨且准确的。

举例说明，N等于4，4个预测动作类别分别是，点头、眨眼、张嘴、眨眼，则确定目标图像的面部的动作类别是眨眼。

下面结合图3举例说明对目标图像进行结合通道自关注机制的类别识别操作，得到目标图像对应的N个预测动作类别的具体实现方式。

如图3所示，对目标图像进行结合通道自关注机制的类别识别操作，得到目标图像对应的N个预测动作类别步骤，包括下列步骤。

步骤S310，基于在N个通道上分别对目标图像进行上采样特征提取操作，确定目标图像的N个上采样特征图。

示例性地，上述提及的基于在N个通道上分别对目标图像进行上采样特征提取操作，确定目标图像的N个上采样特征图，可以被执行为：对目标图像进行特征提取操作，得到轮廓特征图；利用连续的转置卷积和上卷积，在N个通道分别对轮廓特征图进行特征提取，得到N个上采样特征图。

举例说明，首先利用2层3*3的卷积对目标图像进行浅层特征提取，主要提取人脸的轮廓信息，得到轮廓特征图，在N个通道的每个通道上，再利用转置卷积(Deconv)和上卷积(Upconv)进行特征提取，得到N个上采样特征图。

需要说明的是，卷积，又称为卷积核、亦称为滤波器，主要利用核与图像之间进行卷积运算来实现图像处理，能做出模糊、锐化、凹凸、边缘检测等效果。卷积核3*3表示卷积计算过程中窗口是长3个像素、宽3个像素。

步骤S320，基于利用注意力卷积分别对N个上采样特征图进行通道池化操作和第一激活函数处理，得到N个通道池化特征图。

示例性地，通道池化操作用于对待处理的特征图在不同通道上的像素进行池化。有别于非传统的最大池化或者平局池化，通道池化操作有助于突出明显的特征。

上述提及的注意力(Self-conv)卷积指的是，卷积运算过程中合结合了注意力机制的卷积。示例性地，Self-conv卷积的结构包括通道池化操作(Channel-wise pooling)层和激活函数层。由于Self-conv卷积特定的结构，能够实现对N个上采样特征图进行通道池化操作和第一激活函数处理。

示例性地，下面结合图4详细说明基于利用注意力卷积分别对N个上采样特征图进行通道池化操作和第一激活函数处理，得到N个通道池化特征图的具体实现方式。

步骤S410，针对每个上采样特征图，对上采样特征图进行特征平滑处理，得到平滑特征图。

举例说明，利用3*3的卷积对上采样特征图进行特征平滑处理，得到平滑特征图。

步骤S420，利用注意力卷积，将平滑特征图在不同通道上的像素相加，得到第一中间特征图。

步骤S430，利用第一激活函数，对第一中间特征图中每个像素进行函数运算，得到通道池化特征图。

示例性地，通道池化特征图中的每个像素的像素值均是利用第一激活函数运算后得到的概率值。

在一些实施例中，在利用第一激活函数，对第一中间特征图中每个像素进行函数运算之后，将平滑特征图和第一激活函数运算后的第一中间特征图进行特征融合，得到通道池化特征图。

举例说明，利用注意力(Self-conv)卷积对平滑特征图进行卷积操作，由于Self-conv卷积的结构特性，将平滑特征图在不同通道上的像素相加，实现通道池化操作，以及利用Sigmoid激活函数对第一中间特征图中每个像素进行函数运算，使得每个像素是一个0至1之间的概率值，并将平滑特征图和第一激活函数运算后的第一中间特征图进行相乘，补充模糊特征的信息，从而得到通道池化特征图。

上述提及的对N个上采样特征图进行结合注意力机制的通道池化操作和第一激活函数处理的目的在于，由于传统的最大池化或者平局池化容易导致明显特征和不明显特征之间的模糊，无法突出最明显的特征，结合注意力机制的通道池化是基于对像素相加而进行的池化方式，能够区分明显特征和不明显特征，从而突出最明显的特征，为动作类别预测提供充足信息和良好基础。在此基础上，利用第一激活函数处理，使每个像素是一个0至1之间的概率值，为后续与上采样特征图进行特征融合，得到突出明显特征的通道池化特征图提供基础。

在利用上述示例性举例方式得到N个通道池化特征图之后，执行步骤S330，对N个通道池化特征图进行最大池化操作和第二激活函数处理，得到N个类别预测数据。

示例性地，每个类别预测数据包括N个概率值，N个概率值用于表征分别属于N个预设的动作类别的概率。

示例性地，上述提及的对N个通道池化特征图进行最大池化操作和第二激活函数处理，得到N个类别预测数据可以被执行为，针对每个通道池化特征图，对通道池化特征图进行最大池化操作和降维操作，得到第二中间特征图；利用第二激活函数，对第二中间特征图进行函数运算，得到类别预测数据。

举例说明，利用最大池化操作对通道池化特征图进行池化，并利用1*1*4的卷积(即，卷积核大小为1*1，输出通道为4)进行空间维度压缩，得到第二中间特征图(第二中间特征图本质上是个一行向量)，并利用Softmax激活函数对一行向量进行函数运算，使一行向量转化为N个概率值。

上述分别对N个通道池化特征图进行最大池化操作和第二激活函数处理的目的在于，在进行结合注意力机制的通道池化操作和第一激活函数处理之后，利用最大池化操作和进行空间维度压缩，在通过第二激活函数处理，得到N个类别预测数据，为后续确定预测动作类别提供基础。

步骤S340，基于N个类别预测数据，确定N个预测动作类别。

示例性地，上述提及的基于N个类别预测数据，确定N个预测动作类别的具体实现方式可以为，针对每个类别预测数据，将类别预测数据中的最大概率值对应的预设的动作类别，作为类别预测数据对应的预测动作类别。

举例说明，若预设的动作类别分别为点头、摇头、眨眼和张嘴，将上述一行向量转化为类别预测数据后，类别预测数据为{0.2，0.2，0.1，0.5}，其表明在该通道上，目标图像的面部的动作类别可能为点头的概率为20％，可能为摇头的概率为20％，可能为眨眼的概率为10％，可能为张嘴的概率为50％，则选择张嘴为预测动作类别。

由于类别预测数据能够表征分别属于N个预设的动作类别的概率，将大概率值对应的预设的动作类别，作为类别预测数据对应的预测动作类别，能够为准确识别目标图像的面部的动作类别提供良好基础。

本申请实施例中，在对目标图像进行结合通道自关注机制的类别识别操作的过程中，采用了与传统池化方式完全不同的结合注意力机制的通道池化的方式，使得在类别识别操作的过程中，明显特征能够被准确提取，重要信息得以被充分保留，从而实现得到更准确的N个预测动作类别的目的。

示例性地，上述任一实施例提及的动作识别方法，可借助预先训练好的神经网络模型(即，动作识别模型)实现，也就是说，动作识别模型对目标图像进行结合通道自关注机制的类别识别操作，得到目标图像对应的N个预测动作类别，N为正整数，结合通道自关注机制的类别识别操作为，在N个通道上，分别结合注意力机制提取目标图像明显的特征，并利用明显的特征进行类别预测的操作；基于N个预测动作类别，确定目标图像的面部的动作类别。

图5所示为本申请一实施例提供的动作识别模型的结构框图，该动作识别模型为训练Unet初始神经网络模型得到。下面结合图5详细阐述对目标图像进行结合通道自关注机制的类别识别操作，得到目标图像对应的N个预测动作类别的具体流程。

首先利用第一卷积Conv 3*3和第二卷积Conv 3*3的对目标图像进行浅层特征提取，主要提取人脸的轮廓信息，得到轮廓特征图，4个通道上(即，Unet的4个上采样层中)，再利用转置卷积(Deconv)和上卷积(Upconv)进行上采样特征提取，得到4个上采样特征图。

其次，对每一个上采样特征图，利用第三卷积Conv 3*3的卷积对上采样特征图进行特征平滑处理，得到平滑特征图，利用注意力(Self-conv)卷积对平滑特征图进行卷积操作，使得平滑特征图在不同通道上的像素相加，实现通道池化，得到第一中间特征图，以及利用Sigmoid激活函数对第一中间特征图中每个像素进行函数运算，使得每个像素是一个0至1之间的概率值，并将平滑特征图和第一激活函数运算后的第一中间特征图进行相乘，以得到通道池化特征图。利用最大池化操作对通道池化特征图进行池化，并利用第四卷积Conv 1*1*4的卷积进行空间维度压缩成一行向量。并利用Softmax激活函数对一行向量进行函数运算，使一行向量转化为4个概率值，从而得到4个类别预测数据，进位得到4个预测动作类别。

最后，将4个预测动作类别中的出现次数最多的预测动作类别，确定为目标图像的面部的动作类别。

本申请实施例中能够借助动作识别模型准确识别面部动作类别，与传统技术中利用多个模型分别对不同面部动作类别进行识别相比，流程简单，复杂程度低，不仅提高面部动作类别识别的准确性，还能降低复杂程度以提高识别效率。

示例性地，上述提及的用于执行上述实施例提供的动作识别方法的动作识别模型，是通训练初始神经网络模型而得到的。其中，初始神经网络模型的模型架构包括、但不限于Unet。

下面结合图6a和图6b详细介绍本申请实施例提及的模型训练方法。如图6a所示，本申请实施例提供的模型训练方法包括如下步骤。

步骤S610，确定训练样本和训练样本的动作类别标签，动作类别标签用于表征训练样本的面部的动作类别。

具体而言，确定训练样本的具体实现方式可以为从图像库中获取，或者实时采集。确定训练样本的动作类别标签的具体实现方式可以为人工标注。

步骤S620，将训练样本输入初始神经网络模型，得到初始神经网络模型中结合通道自关注机制的N个通道输出的N个预测动作类别、和初始神经网络模型输出的预测动作类别。

示例性地，N为正整数，N与提前预设的动作类别的数量相同。

举例说明，若预设的动作类别为点头、摇头、眨眼和张嘴，则结合图6b所示，初始神经网络模型中具有4个结合通道自关注机制的通道，并且4个通道输出4个预测动作类别，初始神经网络模型输出的预测动作类别，共得到5个预测结果。

步骤S630，基于N个预测动作类别、初始神经网络模型输出的预测动作类别和动作类别标签，确定损失函数值，以调整初始神经网络模型的参数，得到动作识别模型。

具体而言，通过得到的损失函数值调整初始神经网络模型的参数，直到得到的损失函数值满足预设条件，则得到动作识别模型。

示例性地，结合图6b所示，动作识别模型的训练过程中的损失函数包括：自关注机制的通道损失函数单元和输出结果损失函数单元，输出结果损失函数单元的值是基于动作识别模型输出的预测动作类别和训练样本的动作类别标签确定的。自关注机制的通道损失函数单元是基于N个预测动作类别和训练样本的动作类别标签确定的。

由于4个通道输出的4个预测动作类别结合了不同空域的不同细节，并且结合了通道关注机制关注的明显特征，利用4个预测动作类别和动作类别标签进行通道损失函数单元的值的计算，在利用损失函数值调整初始神经网络模型的参数的过程中，能够使初始神经网络模型的参数向更加关注明显的类别的方向优化，以提到动作识别模型的准确性。

在一些实施例中，结合图6b所示，上述提及的基于动作识别模型输出的预测动作类别和训练样本的动作类别标签确定输出结果损失函数单元的值可以被执行为，将第二卷积Conv 3*3输出的轮廓特征图和最后一个上卷积Upconv输出的上采样特征图进行残差学习，补充丢失的中高频细节信息，再通过第五卷积Conv 1*1的进行通道降维，得到动作识别模型输出的预测动作类别。由于动作识别模型输出的预测动作类别补充了丢失的中高频细节信息，利用动作识别模型输出的预测动作类别和动作类别标签进行输出结果损失函数单元的值的计算，在利用损失函数值调整初始神经网络模型的参数的过程中，能够使初始神经网络模型的参数向学习到真实的人脸细节信息方向优化，以进一步提到动作识别模型的准确性。

本申请实施例中，利用上述方式，使初始神经网络模型的参数向更加关注明显的类别的方向，以及向学习到真实的人脸细节信息方向优化，从而有效提高得到的动作识别网络模型的准确性。

下面结合图7详细介绍本申请实施例提及的活体检测方法。如图7所示，本申请实施例提供的活体检测方法包括如下步骤。

步骤S710，获取目标用户响应于预设动作指令的目标图像集，目标图像集包括连续的M帧目标图像。

示例性地，M为大于或者等于3的正整数。

示例性地，目标图像集包括、但不限于视频。同时视频采集装置采集视频，该视频中包括连续的M帧目标图像。

步骤S720，基于上述任一实施例提供的动作识别方法，确定每帧目标图像的面部的动作类别。

示例性地，将M帧目标图像输入到上述提及的动作识别模型中，得到每帧目标图像的面部的动作类别。本申请实施例中，借助动作识别模型识别面部动作类别从而进行后续活体检测，与传统技术中利用多个模型分别对不同面部动作进行识别来进行后续活体检测相比，利用一个模型能够实现端对端的检测，能够有效降低活体检测的复杂程度，提高活体检测效率。

步骤S730，基于每帧目标图像的面部的动作类别，确定目标图像集的面部的动作类别。

示例性地，上述提及的基于每帧目标图像的面部的动作类别，确定目标图像集的面部的动作类别可以被执行为，若M帧目标图像中存在连续K帧目标图像的面部的动作类别相同，则确定连续K帧目标图像的面部的动作类别，为目标图像集的面部的动作类别，其中，K为大于1且小于或者等于M的正整数。

步骤S740，若目标图像集的面部的动作类别和预设动作指令匹配，则确定目标用户为活体。

也就是说，若目标图像集的面部的动作类别和预设动作指令不匹配，则确定目标用户不是活体，可能是人脸照片，人脸视频，3D的人脸模型等。

举例说明，当手机向目标用户发送张嘴动作指令后，手机摄像头采集10秒的视频，10秒的视频中包括多帧目标图像，将10秒的视频输入到上述提及的动作识别模型中，得到每帧目标图像的面部的动作类别，基于每帧目标图像的面部的动作类别，确定10秒的视频的面部的动作类别，若10秒的视频的面部的动作类别和预设动作指令匹配，则确定目标用户为活体。

本申请实施例中，借助上述提及的动作识别方法识别每帧目标图像的面部的动作类别，由于上述提及的动作识别方法的准确率高，基于此，提高活体检测的准确率，从而实现提高脸识别安全性的目的。

结合图2至7，详细描述了本申请的方法实施例，下面结合图8至图11，详细描述本申请的装置实施例。此外，应理解，方法实施例的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

图8所示为本申请一实施例提供的动作识别装置的结构示意图。如图8所示，本申请实施例提供的动作识别装置用于识别目标图像的面部的动作类，如图8所示，本申请实施例提供的动作识别装置800包括第一得到模块810、和第一确定模块820。具体地，第一得到模块810被配置为，对目标图像进行结合通道自关注机制的类别识别操作，得到目标图像对应的N个预测动作类别，N为正整数，结合通道自关注机制的类别识别操作为，在N个通道上，分别结合注意力机制提取目标图像明显的特征，并利用明显的特征进行类别预测的操作。第一确定模块820被配置为，基于N个预测动作类别，确定目标图像的面部的动作类别。

图9所示为本申请又一实施例提供的动作识别装置的结构示意图。在图8所示实施例基础上延伸出图9所示实施例，下面着重叙述图9所示实施例与图8所示实施例的不同之处，相同之处不再赘述。

如图9所示，在本申请实施例中，第一确定模块820进一步包括上采样特征图确定单元910、通道池化特征图确定单元920、类别预测数据得到单元930和预测动作类别确定单元940。具体地，上采样特征图确定单元910被配置为，基于在N个通道上分别对目标图像进行上采样特征提取操作，确定目标图像的N个上采样特征图。通道池化特征图确定单元920被配置为，基于利用注意力卷积分别对N个上采样特征图进行通道池化操作和第一激活函数处理，得到N个通道池化特征图，通道池化操作用于对待处理的特征图在不同通道上的像素进行池化。类别预测数据得到单元930被配置为，对N个通道池化特征图进行最大池化操作和第二激活函数处理，得到N个类别预测数据，其中，每个类别预测数据包括N个概率值，N个概率值用于表征分别属于N个预设的动作类别的概率。预测动作类别确定单元940被配置为，基于N个类别预测数据，确定N个预测动作类别。

在一些实施例中，上采样特征图确定单元910进一步被配置为，对目标图像进行特征提取操作，得到轮廓特征图；利用连续的转置卷积和上卷积，在N个通道分别对轮廓特征图进行特征提取，得到N个上采样特征图。

在一些实施例中，通道池化特征图确定单元920进一步被配置为，针对每个上采样特征图，对上采样特征图进行特征平滑处理，得到平滑特征图；利用注意力卷积，将平滑特征图在不同通道上的像素相加，得到第一中间特征图；利用第一激活函数，对第一中间特征图中每个像素进行函数运算，得到通道池化特征图，其中，通道池化特征图中的每个像素的像素值均是利用第一激活函数运算后得到的概率值。

在一些实施例中，类别预测数据得到单元930进一步被配置为，针对每个通道池化特征图，对通道池化特征图进行最大池化操作和降维操作，得到第二中间特征图；利用第二激活函数，对第二中间特征图进行函数运算，得到类别预测数据。

在一些实施例中，预测动作类别确定单元940进一步被配置为，针对每个类别预测数据，将类别预测数据中的最大概率值对应的预设的动作类别，作为类别预测数据对应的预测动作类别。

在一些实施例中，第一确定模块820进一步被配置为，将N个预测动作类别中的出现次数最多的预测动作类别，确定为目标图像的面部的动作类别。

图10所示为本申请一实施例提供的活体检测装置的结构示意图。如图10所示，本申请实施例提供的活体检测装置1000包括第一获取模块1010、第二确定模块1020、第三确定模块1030、和第四确定模块1040。具体地，第一获取模块1010被配置为，获取目标用户响应于预设动作指令的目标图像集，目标图像集包括连续的M帧目标图像，M为大于或者等于3的正整数。第二确定模块1020被配置为，基于上述任一实施例提供的动作识别方法，确定每帧目标图像的面部的动作类别。第三确定模块1030被配置为，基于每帧目标图像的面部的动作类别，确定目标图像集的面部的动作类别。第四确定模块1040被配置为，若目标图像集的面部的动作类别和预设动作指令匹配，则确定目标用户为活体。

图11所示为本申请一实施例提供的模型训练装置的结构示意图。本申请实施例提供的模型训练装置用于训练初始神经网络模型，生成动作识别模型，动作识别模型用于执行上述任一实施例提供的动作识别方法。如图11所示，本申请实施例提供的模型训练装置1100包括第五确定模块1110、第二得到模块1120、和第三得到模块1130。具体地，第五确定模块1110被配置为，确定训练样本和所述训练样本的动作类别标签，所述动作类别标签用于表征所述训练样本的面部的动作类别。第二得到模块1120被配置为，将所述训练样本输入所述初始神经网络模型，得到所述初始神经网络模型中结合通道自关注机制的N个通道输出的N个预测动作类别、和所述初始神经网络模型输出的预测动作类别，N为正整数。第三得到模块1130被配置为，基于所述N个预测动作类别、所述初始神经网络模型输出的预测动作类别和所述动作类别标签，确定损失函数值，以调整所述初始神经网络模型的参数，得到所述动作识别模型。

在一些实施例中，动作识别模型的训练过程中的损失函数包括：自关注机制的通道损失函数单元和输出结果损失函数单元，输出结果损失函数单元的值是基于动作识别模型输出的预测动作类别和训练样本的动作类别标签确定的。第三得到模块1130进一步被配置为基于N个预测动作类别和动作类别标签，确定自关注机制的通道损失函数单元的值，初始神经网络模型输出的预测动作类别和动作类别标签，确定输出结果损失函数单元的值。

图12所示为本申请一实施例提供的电子设备的结构示意图。图12所示的电子设备1200(该装置1200具体可以是一种计算机设备)包括存储器1201、处理器1202、通信接口1203以及总线1204。其中，存储器1201、处理器1202、通信接口1203通过总线1204实现彼此之间的通信连接。

存储器1201可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器1201可以存储程序，当存储器1201中存储的程序被处理器1202执行时，处理器1202和通信接口1203用于执行本申请实施例的动作识别方法、活体检测方法或和模型训练方法。

处理器1202可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(Graphics Processing Unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的动作识别装置、活体检测装置或模型训练装置中的单元所需执行的功能。

处理器1202还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的代码生成方法的各个步骤可以通过处理器1202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1202还可以是通用处理器、数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(ASIC)、现场可编程门阵列(Field ProgrammableGate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1201，处理器1202读取存储器1201中的信息，结合其硬件完成本申请实施例的动作识别装置、活体检测装置或模型训练装置中包括的单元所需执行的功能，或者执行本申请方法实施例的动作识别方法、活体检测方法或和模型训练方法。

通信接口1203使用例如但不限于收发器一类的收发装置，来实现装置1200与其他设备或通信网络之间的通信。例如，可以通过通信接口1203获取目标图像。

总线1204可包括在装置1200各个部件(例如，存储器1201、处理器1202、通信接口1203)之间传送信息的通路。

应注意，尽管图12所示的装置1200仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置1200还包括实现正常运行所必需的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置1200还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置1200也可仅仅包括实现本申请实施例所必需的器件，而不必包括图12中所示的全部器件。

除了上述方法、装置和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本申请各个实施例提供的动作识别方法、活体检测方法或和模型训练方法的各个步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的步骤式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本申请各个实施例提供的动作识别方法、活体检测方法或和模型训练方法的各个步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种动作识别方法，其特征在于，用于识别目标图像的面部的动作类别，所述方法包括：

对所述目标图像进行结合通道自关注机制的类别识别操作，得到所述目标图像对应的N个预测动作类别，N为正整数，所述结合通道自关注机制的类别识别操作为，在N个通道上，分别结合注意力机制提取所述目标图像明显的特征，并利用所述明显的特征进行类别预测的操作；

基于所述N个预测动作类别，确定所述目标图像的面部的动作类别。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标图像进行结合通道自关注机制的类别识别操作，得到所述目标图像对应的N个预测动作类别，包括：

基于在所述N个通道上分别对所述目标图像进行上采样特征提取操作，确定所述目标图像的N个上采样特征图；

基于利用注意力卷积分别对所述N个上采样特征图进行通道池化操作和第一激活函数处理，得到N个通道池化特征图，所述通道池化操作用于对待处理的特征图在不同通道上的像素进行池化；

对所述N个通道池化特征图进行最大池化操作和第二激活函数处理，得到N个类别预测数据，其中，每个所述类别预测数据包括N个概率值，所述N个概率值用于表征分别属于N个预设的动作类别的概率；

基于所述N个类别预测数据，确定所述N个预测动作类别。

3.根据权利要求2所述的方法，其特征在于，所述基于利用注意力卷积分别对所述N个上采样特征图进行通道池化操作和第一激活函数处理，得到N个通道池化特征图，包括：

针对每个所述上采样特征图，对所述上采样特征图进行特征平滑处理，得到平滑特征图；

利用所述注意力卷积，将所述平滑特征图在不同通道上的像素相加，得到第一中间特征图；

利用第一激活函数，对所述第一中间特征图中每个像素进行函数运算，得到所述通道池化特征图，其中，所述通道池化特征图中的每个像素的像素值均是利用所述第一激活函数运算后得到的概率值。

4.根据权利要求2所述的方法，其特征在于，所述对所述N个通道池化特征图进行最大池化操作和第二激活函数处理，得到N个类别预测数据，包括：

针对每个所述通道池化特征图，对所述通道池化特征图进行最大池化操作和降维操作，得到第二中间特征图；

利用第二激活函数，对所述第二中间特征图进行函数运算，得到所述类别预测数据。

5.根据权利要求2所述的方法，其特征在于，所述基于在所述N个通道上分别对所述目标图像进行上采样特征提取操作，确定所述目标图像的N个上采样特征图，包括：

对所述目标图像进行特征提取操作，得到轮廓特征图；

利用连续的转置卷积和上卷积，在所述N个通道分别对所述轮廓特征图进行特征提取，得到所述N个上采样特征图。

6.根据权利要求2所述的方法，其特征在于，所述基于所述N个类别预测数据，确定所述N个预测动作类别，包括：

针对每个所述类别预测数据，将所述类别预测数据中的最大概率值对应的预设的动作类别，作为所述类别预测数据对应的预测动作类别。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述基于所述N个预测动作类别，确定所述目标图像的面部的动作类别，包括：

将所述N个预测动作类别中的出现次数最多的预测动作类别，确定为所述目标图像的面部的动作类别。

8.一种活体检测方法，其特征在于，包括：

获取目标用户响应于预设动作指令的目标图像集，所述目标图像集包括连续的M帧目标图像，M为大于或者等于3的正整数；

基于权利要求1至7中任一项所述的动作识别方法，确定每帧目标图像的面部的动作类别；

基于所述每帧目标图像的面部的动作类别，确定所述目标图像集的面部的动作类别；

若所述目标图像集的面部的动作类别和所述预设动作指令匹配，则确定所述目标用户为活体。

9.一种模型训练方法，其特征在于，用于训练初始神经网络模型，生成动作识别模型，所述动作识别模型用于执行权利要求1至7中任一项所述的动作识别方法，所述方法包括：

确定训练样本和所述训练样本的动作类别标签，所述动作类别标签用于表征所述训练样本的面部的动作类别；

将所述训练样本输入所述初始神经网络模型，得到所述初始神经网络模型中结合通道自关注机制的N个通道输出的N个预测动作类别、和所述初始神经网络模型输出的预测动作类别，N为正整数；

基于所述N个预测动作类别、所述初始神经网络模型输出的预测动作类别和所述动作类别标签，确定损失函数值，以调整所述初始神经网络模型的参数，得到所述动作识别模型。

10.一种动作识别装置，其特征在于，用于识别目标图像的面部的动作类别，所述装置包括：

第一得到模块，配置为对所述目标图像进行结合通道自关注机制的类别识别操作，得到所述目标图像对应的N个预测动作类别，N为正整数，所述结合通道自关注机制的类别识别操作为，在N个通道上，分别结合注意力机制提取所述目标图像明显的特征，并利用所述明显的特征进行类别预测的操作；

第一确定模块，配置为基于所述N个预测动作类别，确定所述目标图像的面部的动作类别。

11.一种活体检测装置，其特征在于，包括：

第一获取模块，配置为获取目标用户响应于预设动作指令的目标图像集，所述目标图像集包括连续的M帧目标图像，M为大于或者等于3的正整数；

第二确定模块，配置为基于权利要求1至7中任一项所述的动作识别方法，确定每帧目标图像的面部的动作类别；

第三确定模块，配置为基于所述每帧目标图像的面部的动作类别，确定所述目标图像集的面部的动作类别；

第四确定模块，配置为若所述目标图像集的面部的动作类别和所述预设动作指令匹配，则确定所述目标用户为活体。

12.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1至9任一项所述的方法。

13.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1至9中任一所述的方法。