CN110688957A

CN110688957A - 应用于人脸识别的活体检测方法、装置及存储介质

Info

Publication number: CN110688957A
Application number: CN201910926834.8A
Authority: CN
Inventors: 黄伟旭; 白琨; 梁健; 黄泽丰; 庄灿杰; 王庆; 徐森圣; 倪晓臻; 陈奋; 徐亚兵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-14
Anticipated expiration: 2039-09-27
Also published as: CN110688957B

Abstract

本申请实施例公开了一种应用于人脸识别的活体检测方法、装置及存储介质，属于人脸识别技术领域。该方法包括：获取第一声波信号和第二声波信号，第二声波信号用于表示第一声波信号发射后经目标人脸反射得到的声波信号；根据第一声波信号和第二声波信号，获取时域特征和频域特征；将时域特征与频域特征进行融合，得到融合特征；基于活体检测模型，获取融合特征对应的检测标签。通过声波信号进行活体检测，无需用户执行指定动作，操作简便，且声波信号不易受到光线的干扰，应用环境广泛。且对于假冒的面具或视频，由于面具与人脸皮肤的材质不同，视频不具有三维结构，通过该方法可以识别出面具或视频不是活体人脸，提高了安全性。

Description

应用于人脸识别的活体检测方法、装置及存储介质

技术领域

本申请实施例涉及人脸识别技术领域，特别涉及一种应用于人脸识别的活体检测方法、装置及存储介质。

背景技术

活体检测是用于验证真实生理特征的方法，通过活体检测能够验证用户是否为活体，从而有效抵御照片、面具等攻击手段，帮助用户甄别欺诈行为，保障用户的利益。

相关技术中提供了一种活体检测方法，要求用户人脸执行指定动作，并通过摄像头拍摄用户人脸的视频，该视频中包括人脸执行指定动作的图像，该指定动作包括眨眼、摇头、张嘴等，则根据视频中包括指定动作的图像确定人脸是否为活体人脸，从而确定拍摄的用户为真实用户。

但是，上述活体检测方法需要用户人脸执行指定动作，用户操作繁琐，且拍摄的视频易受到光线的干扰，导致活体检测失败。且如果某些人利用假冒的视频也可以通过活体检测，因此安全性差。

发明内容

本申请实施例提供了一种应用于人脸识别的活体检测方法、装置及存储介质，能够识别出面具或视频不是活体人脸，提高了安全性。所述技术方案如下：

一方面，提供了一种应用于人脸识别的活体检测方法，所述方法包括：

获取第一声波信号和第二声波信号，所述第二声波信号用于表示所述第一声波信号发射后经目标人脸反射得到的声波信号；

根据所述第一声波信号和所述第二声波信号，获取时域特征和频域特征，所述时域特征用于表示所述第一声波信号与所述第二声波信号在时域上的相似程度，所述频域特征用于表示所述第一声波信号与所述第二声波信号在频域上的相似程度；

将所述时域特征与所述频域特征进行融合，得到融合特征；

基于活体检测模型，获取所述融合特征对应的检测标签，所述检测标签用于指示所述目标人脸是否为活体人脸。

另一方面，提供了一种应用于人脸识别的活体检测装置，所述装置包括：

声波信号获取模块，用于获取第一声波信号和第二声波信号，所述第二声波信号用于表示所述第一声波信号发射后经目标人脸反射得到的声波信号；

特征获取模块，用于根据所述第一声波信号和所述第二声波信号，获取时域特征和频域特征，所述时域特征用于表示所述第一声波信号与所述第二声波信号在时域上的相似程度，所述频域特征用于表示所述第一声波信号与所述第二声波信号在频域上的相似程度；

第一融合模块，用于将所述时域特征与所述频域特征进行融合，得到融合特征；

检测标签获取模块，用于基于活体检测模型，获取所述融合特征对应的检测标签，所述检测标签用于指示所述目标人脸是否为活体人脸。

可选地，所述装置包括：

样本信息获取模块，用于获取多组第一样本信息，所述第一样本信息包括第一样本声波信号和第二样本声波信号以及对应的检测标签，所述第二样本声波信号用于表示所述第一样本声波信号经样本人脸反射得到的声波信号，所述检测标签用于指示所述样本人脸是否为活体人脸；

第二融合模块，用于对于每组第一样本信息，根据所述第一样本声波信号和所述第二样本声波信号，获取时域特征和频域特征；将所述时域特征和所述频域特征进行融合，得到融合特征；

训练模块，用于根据所述每组第一样本信息的融合特征和检测标签，对所述活体检测模型进行训练。

可选地，所述第一样本声波信号为第一样本时域声波信号，所述第一样本声波信号为第一样本时域声波信号，所述融合模块，包括：

第三卷积处理单元，用于将所述第一样本时域声波信号和所述第二样本时域声波信号进行卷积处理，得到所述时域特征。

第三变换单元，用于对所述第一样本时域声波信号进行变换，得到第一样本频域声波信号；

第四变换单元，用于对所述第二样本时域声波信号进行变换，得到第二样本频域声波信号；

第四卷积处理单元，用于将所述第一样本频域声波信号与所述第二样本频域声波信号进行卷积处理，得到所述频域特征。

可选地，所述样本信息获取模块，包括：

获取单元，用于获取多组第二样本信息，所述第二样本信息包括第一样本声波信号和第三样本声波信号以及对应的检测标签，所述第三样本声波信号是所述第一样本声波信号经所述样本人脸反射得到的声波信号；

第二处理单元，用于分别对所述多组第二样本信息中的第三样本声波信号进行滤波处理和归一化处理，得到所述多组第一样本信息，每组第一样本信息中的第二样本声波信号由对应的第二样本信息中的第三样本声波信号进行滤波处理和归一化处理后得到。

可选地，所述训练模块，还用于：

分别根据所述每组第一样本信息的融合特征和检测标签，对所述活体检测模型进行迭代训练，直至迭代训练次数达到预设次数时为止；或者，

分别根据所述每组第一样本信息的融合特征和检测标签，对所述活体检测模型进行迭代训练，直至所述活体检测模型所确定的检测标签的准确率达到预设阈值时为止。

另一方面，提供了一种应用于人脸识别的活体检测装置，所述装置包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现如所述应用于人脸识别的活体检测方法。

再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并具有以实现如所述应用于人脸识别的活体检测方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的方法、装置及存储介质，获取第一声波信号和第二声波信号，根据该第一声波信号和第二声波信号，获取时域特征和频域特征，将时域特征与频域特征进行融合，得到融合特征，基于活体检测模型，获取融合特征对应的检测标签，确定目标人脸是否为活体人脸。通过声波信号进行活体检测，无需用户执行指定动作，操作简便，且声波信号不易受到光线的干扰，应用环境广泛。且对于假冒的面具或视频，由于面具与人脸皮肤的材质不同，视频不具有三维结构，通过该方法可以识别出面具或视频不是活体人脸，因此本申请实施例提供的方法可抵御假冒的面具或视频等，提高了安全性。

并且，终端发射第一声波信号，接收到经目标人脸反射得到的第三声波信号，对第三声波信号进行滤波处理和归一化处理，得到第二声波信号。通过对接收到的声波信号进行滤波处理和归一化处理，减小了环境噪声对声波信号的影响，消除不同终端的性能对声波信号的影响，从而提高了检测的准确性。

并且，通过在时域和频域上对声波信号进行分析，使得到的融合特征更加准确，提高了活体检测的准确率。

并且，获取多组第一样本信息，对于每组第一样本信息，根据第一样本声波信号和第二样本声波信号，获取时域特征和频域特征；将时域特征和频域特征进行融合，得到融合特征，根据每组第一样本信息的融合特征和检测标签，对活体检测模型进行训练。通过在时域和频域上对声波信号进行分析，使得到的融合特征更加准确，提高了活体检测模型的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种应用于人脸识别的活体检测方法的流程图；

图3是本申请实施例提供的一种线性调频波的示意图；

图4是本申请实施例提供的一种第二声波信号的示意图；

图5是本申请实施例提供的一种第三声波信号的示意图；

图6是本申请实施例提供的一种终端拍摄用户人脸的示意图；

图7是本申请实施例提供的一种身份验证的流程图；

图8是本申请实施例提供的一种应用于人脸识别的活体检测方法的流程图；

图9是本申请实施例提供的一种获取时域特征和频域特征的流程图；

图10是本申请实施例提供的一种活体检测模型训练方法的流程图；

图11是本申请实施例提供的一种活体检测模型的架构示意图；

图12是本申请实施例提供的一种应用于人脸识别的活体检测装置的结构示意图；

图13是本申请实施例提供的另一种应用于人脸识别的活体检测装置的结构示意图；

图14是本申请实施例提供的一种终端的结构示意图；

图15是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的应用于人脸识别的活体检测方法可应用于计算机设备中。

在一种可能实现方式中，计算机设备可以为手机、电脑、平板电脑等终端。终端用户在使用终端时可能会需要进行人脸识别，在终端上存储有活体检测模型，基于活体检测模型，根据终端发射的声波信号和由用户人脸返回的声波信号，可以验证该人脸是否为活体人脸。

在另一种可能实现方式中，计算机设备还可以为服务器。图1是本申请实施例提供了的一种实施环境的结构示意图，如图1所示，该实施环境包括终端101和服务器102，终端101可以与服务器102进行交互。

其中，终端101可以为手机、计算机、平板电脑等多种类型的设备。服务器102可以是一台服务器102，或者由若干台服务器102组成的服务器102集群，或者是一个云计算服务中心。

本申请实施例中，终端与服务器建立通信连接，服务器存储有活体检测模型，终端用户在使用终端时可能会需要进行人脸识别，终端将发射的声波信号和由用户人脸返回的声波信号发送至服务器，服务器基于活体检测模型，根据终端发射的声波信号和由用户人脸返回的声波信号，可以验证该人脸是否为活体人脸。

本申请实施例提供的应用于人脸识别的活体检测方法，可应用于人脸识别的场景下。

例如，人脸识别支付场景：

用户通过终端进行支付时，终端拍摄用户人脸，对获取到的人脸图像进行识别，确定该人脸图像是否为指定用户的人脸图像，终端发射第一声波信号，获取经人脸反射的第二声波信号，根据该第一声波信号和该第二声波信号，获取时域特征和频域特征，将该时域特征和频域特征进行融合，得到融合特征，将该融合特征输入至终端中的活体检测模型，获取该融合特征对应的检测标签，确定拍摄到的用户人脸是否为活体人脸。确定获取到的人脸图像是指定用户的人脸图像，且该用户人脸是活体人脸，则完成支付。

或者，终端解锁的场景：

用户对终端解锁时，终端拍摄用户人脸，对获取到的人脸图像进行识别，确定该人脸图像是否为指定用户的人脸图像，终端发射第一声波信号，获取经人脸反射的第二声波信号，根据该第一声波信号和该第二声波信号，获取时域特征和频域特征，将该时域特征和频域特征进行融合，得到融合特征，将该融合特征输入至终端中的活体检测模型，获取该融合特征对应的检测标签，确定拍摄到的用户人脸是否为活体人脸，确定获取到的人脸图像是指定用户的人脸图像，且该用户人脸是活体人脸，则完成验证，终端解锁。

图2是本申请实施例提供的一种应用于人脸识别的活体检测方法的流程图，应用于终端中，如图2所示，该方法包括：

201、终端发射第一时域声波信号。

本申请提供的活体检测方法应用于人脸识别中，终端对用户进行人脸识别时，获取该用户的人脸图像，确定是否为指定用户的人脸图像，从而确定该用户是否为指定用户，基于本申请提供的活体检测方法，确定该用户人脸是否为活体人脸，从而确定该用户是否为真实用户。通过人脸图像识别与本申请提供的活体检测方法结合，提高了人脸识别的安全性。

其中，在对用户进行人脸识别时，终端可以先对用户人脸进行人脸图像识别，在确定用户人脸为指定用户人脸后，再对用户人脸进行活体检测；或者，终端可以先对用户人脸进行活体检测，在确定用户人脸为活体人脸后，再对用户人脸进行人脸图像识别；或者，在对用户人脸进行人脸图像识别时，对用户人脸进行活体检测。

在本申请实施例中，不同材质的反射物对时域声波信号的反射率不同，且不同三维结构反射的时域声波信号会具有不同的时延信息，因此，终端通过对比分析发射的时域声波信号和返回的时域声波信号，能够将活体人脸与其他反射物区别开。为此，终端发射第一时域声波信号，以便后续能够根据第一时域声波信号确定所拍摄的目标人脸是否为活体人脸。

由于时域是唯一实际存在的域，能够传播的声波信号为时域声波信号，则终端发射的声波信号为时域声波信号。

为了避免环境中的噪声对时域声波信号的干扰，在一种可能实现方式中，第一时域声波信号可以为超声波信号。由于人体无法感知到超声波信号，所以采用超声波信号不易对用户产生影响。且超声波信号频率较大，不易受到环境中其他噪声的干扰。

在另一种可能实现方式中，第一时域声波信号可以为调频波，如线性调频波、二次曲线调频波或非线性调频波等。由于外界的噪声对频率的干扰小，所以采用调频波携带的人脸信息质量高，从而能够更好地实现活体检测。

例如，第一时域声波信号为线性调频波，如图3中左图所示，在频域中第一时域声波信号的频率随时间线性变化，如图3中右图所示，在时域中第一时域声波信号的波长随时间变化，且具有较大的频谱宽度，能够更好的区别不同材质的反射物，对距离的分辨率较高，能够更好的区分人脸不同部位的距离。

对于终端发射第一时域声波信号的时机，在一种可能实现方式中，终端接收到活体检测指令时，发射第一时域声波信号。

例如，用户使用终端进行支付时，需要进行人脸识别，用户点击支付按钮，终端接收到支付指令，此时默认接收到活体检测指令，则发射第一时域声波信号。

202、终端接收第二时域声波信号，该第二时域声波信号是由第一时域声波信号投射在目标人脸上，经目标人脸反射得到的。

由于终端发射的是时域声波信号，则经目标人脸反射得到的也是时域声波信号。

终端接收到的第二时域声波信号如图4所示，随着时间的变化，该第二时域声波信号的幅值也在改变。

在上述步骤202中，终端接收到的第二时域声波信号是经人脸反射得到的，而第二时域声波信号还可以为经过处理得到的。在一种可能实现方式中，步骤202可以包括：终端接收第一时域声波信号经目标人脸反射得到的第三时域声波信号，对第三时域声波信号进行滤波处理和归一化处理，得到第二时域声波信号。

其中，第三时域声波信号是第一时域声波信号投射在人脸上，由人脸反射回来的时域声波信号。

滤波处理是对时域声波信号进行处理，屏蔽时域声波信号中的噪声和干扰信号。例如，限幅滤波处理、中位值滤波法处理或匹配滤波处理等。第三时域声波信号在传输过程中会受到环境中噪声的干扰，通过滤波处理，滤除第三时域声波信号中的环境噪声，减小环境噪声对第三时域声波信号的影响。

归一化处理是将时域声波信号的幅值限制在需要的范围内。例如，min-max标准化或者Z-score标准化方法。对于多个终端，不同终端的性能不同，会导致不同终端发射的时域声波信号的幅值范围不同，则得到的人脸反射的时域声波信号的幅值范围也不同，通过对接收到的第三时域声波信号进行归一化处理，将第三时域声波信号的幅值限制在需要的范围内，消除不同终端的性能对时域声波信号的影响。

如图5所示，终端接收到的第三时域声波信号后，对第三时域声波信号进行滤波处理，以选出图中方框内所示时间段内的时域声波信号，并对方框中的时域声波信号进行归一化处理，将归一化处理后的时域声波信号确定为第二时域声波信号，第二时域声波信号的幅值位于需要的某一特定范围内。

对于终端发射时域声波信号和接收时域声波信号的方式，在一种可能实现方式中，终端包括发射模块和接收模块，该发射模块用于发射时域声波信号，该接收模块用于接收时域声波信号。例如，该发射模块可以为扬声器，该接收模块可以为麦克风。该发射模块和该接收模块可以位于终端上的任一位置。例如，该发射模块和该接收模块可以与终端的拍摄模块位置相邻。

例如，如图6所示，在终端对用户进行人脸识别时，终端通过拍摄模块对用户人脸进行拍摄时，通过发射模块发射第一时域声波信号投射在用户人脸上，则接收模块能够接收到用户人脸反射后的时域声波信号。

203、终端将第一时域声波信号与第二时域声波信号进行卷积处理，得到时域特征。

其中，时域特征用于表示第一时域声波信号与第二时域声波信号在时域上的相似程度。

由于人脸是三维的，人脸不同部位与终端之间的距离不同，则终端发射声波信号投射在人脸上的不同部位后，接收到人脸上不同部位反射的时域声波信号的时间不同。对于与人脸结构不同的反射物，终端发射时域声波信号投射在反射物上，接收到反射物反射的时域声波信号的时间与人脸反射的时域声波信号的时间不同。基于上述特点，终端将第一时域声波信号和第二时域声波信号进行卷积处理，得到时域特征，以该时域特征来表示目标人脸反射得到的时域声波信号与发射的时域声波信号在时域上的相似度，从而能够区分人脸和与人脸结构不同的反射物。

其中，卷积处理是将第一时域声波信号与第二时域声波信号进行对比，得到对比结果。通过对第一时域声波信号和第二时域声波信号进行卷积处理，能够放大第一时域声波信号和第二时域声波信号在时域上的差异，能够使得到的时域特征更准确。

204、终端对第一时域声波信号进行变换，得到第一频域声波信号。

205、终端对第二时域声波信号进行变换，得到第二频域声波信号。

终端发射的声波信号和接收到的声波信号均是时域声波信号，为了便于后续能够根据得到的频域声波信号在频域上进行处理，需将对时域声波信号进行变换，得到对应的频域声波信号。

其中，对时域声波信号进行变换的方式，可以为傅里叶变换或小波变换等。

206、终端将第一频域声波信号与第二频域声波信号进行卷积处理，得到频域特征。

其中，频域特征用于表示第一频域声波信号与第二频域声波信号在频域上的相似程度，也即是第一时域声波信号与第二时域声波信号在频域上的相似程度。

由于不同材质的反射物对声波信号的反射率不同，人脸的皮肤与其他反射物的材质不同，则当终端接收到的经人脸反射的时域声波信号的信号强度，与经其他反射物反射的时域声波信号的信号强度不同。基于上述特点，终端对第一频域声波信号和第二频域声波信号进行卷积处理，得到频域特征，以该频域特征来表示目标人脸反射得到的时域声波信号与发射的时域声波信号在频域上的相似度，从而与其他材质的反射物对应的相似度区别开。

其中，卷积处理是将第一频域声波信号与第二频域声波信号进行对比，得到对比结果。通过对第一频域声波信号和第二频域声波信号进行卷积处理，能够放大第一频域声波信号和第二频域声波信号之间的差异，能够使得到的频域特征更精确。

通过第一时域声波信号和第二时域声波信号，在时域上得到时域特征，区分与人脸结构不同的反射物，通过第一频域声波信号和第二频域声波信号，在频域上得到频域特征，区分与人脸皮肤材质不同的反射物，从多个角度分析声波信号，能够体现出目标人脸的特性，从而能够准确地检测目标人脸是否为活体人脸。

207、终端将时域特征与频域特征进行融合，得到融合特征。

其中，对时域特征与频域特征的融合方式可以为特征交叉或者其他融合的方式。融合特征用于表示第二时域声波信号与第一时域声波信号在时域和频域上融合后的相似度。

时域特征是在时域上对第一时域声波信号和第二时域声波信号进行对比得到的，频域特征是在频域上对第一时域声波信号和第二时域声波信号进行对比得到的，对该时域特征和频域特征进行融合，得到一个融合特征，该融合特征能够同时表示第一时域声波信号与第二时域声波信号在时域上和频域上融合后的相似度，通过该融合特征，能够区分与人脸结构不同的反射物，且能够区分与人脸皮肤材质不同的反射物，从而体现出目标人脸的特性，能够准确地检测目标人脸是否为活体人脸。

208、终端基于活体检测模型，获取融合特征对应的检测标签，检测标签用于指示目标人脸是否为活体人脸。

其中，活体检测模型用于通过时域声波信号的融合特征，检测目标人脸是否为活体人脸。将融合特征输入至活体检测模型，该活体检测模型输出用于表示目标人脸是否为活体人脸的检测标签。

可选地，检测标签包括第一检测标签和第二检测标签。其中，第一检测标签用于指示目标人脸是活体人脸，第二检测标签用于指示目标人脸不是活体人脸。

例如，终端发射第一时域声波信号投射在面具或视频上，获取经面具或视频反射得到的第二时域声波信号，根据该第一时域声波信号和该第二时域声波信号，得到该面具或视频对应的融合特征，将该融合特征输入至活体检测模型，该活体检测模型输出第二检测标签，识别出面具或视频不是活体人脸。

本申请实施例提供的活体检测方法，在进行人脸识别时，获取第一声波信号和第二声波信号，根据该第一声波信号和第二声波信号，获取时域特征和频域特征，将时域特征与频域特征进行融合，得到融合特征，基于活体检测模型，获取融合特征对应的检测标签，确定目标人脸是否为活体人脸。通过声波信号进行活体检测，无需用户执行指定动作，操作简便，且声波信号不易受到光线的干扰，应用环境广泛。且对于假冒的面具或视频，由于面具与人脸皮肤的材质不同，视频不具有三维结构，通过该方法可以识别出面具或视频不是活体人脸，因此本申请实施例提供的方法可抵御假冒的面具或视频等，提高了安全性。

并且，终端发射第一时域声波信号，接收到经目标人脸反射得到的第三时域声波信号，对第三时域声波信号进行滤波处理和归一化处理，得到第二时域声波信号。通过对接收到的声波信号进行滤波处理和归一化处理，减小了环境噪声对声波信号的影响，消除不同终端的性能对声波信号的影响，从而提高了检测的准确性。

另外，相关技术中还可以采用双摄像头或者3D(3Dimensions，三维)摄像头拍摄包含深度信息的图像，根据包含深度信息的图像进行活体检测，该方案虽然可以防御二维图像的攻击，如手机播放的视频或打印出来的照片等。但是配置双摄像头或者3D摄像头耗费的成本较高，并且该方案无法抵御具有三维结构的面具或人脸模型的攻击。而本申请实施例提供的方法，无需配置双摄像头或者3D摄像头，节省了成本，并且可以抵御面具、视频或人脸模型，提高了活体检测的准确率。

另外，相关技术中还可以采用红外摄像头拍摄红外图像，根据红外图像进行活体检测，但是配置红外摄像头耗费的成本较高。而本申请实施例提供的方法，无需配置红外摄像头，节省了成本。

在一种可能实现方式中，如图7所示，用户使用终端进行人脸识别时，终端开启相机，对用户人脸进行拍摄，获取用户人脸图像，对用户人脸图像进行识别，确定该用户人脸是否为指定用户人脸；并且终端发射第一时域声波信号投射在用户人脸上，接收经该用户人脸反射的第三时域声波信号，对该第三时域声波信号进行滤波处理和归一化处理，得到第二时域声波信号，对该第一时域声波信号和该第二时域声波信号进行卷积处理，得到时域特征，将该第一时域声波信号进行变换，得到第一频域声波信号，将该第二时域声波信号进行变换，得到第二频域声波信号，对该第一频域声波信号和该第二频域声波信号进行卷积处理，得到频域特征，将时域特征与频域特征进行特征融合，将得到的融合特征输入活体检测模型，确定该用户人脸是否为活体人脸；在确定该用户人脸是指定用户人脸，且该用户人脸是活体人脸时，则该用户通过人脸识别；否则，该用户未通过人脸识别。

需要说明的是，上述实施例提供了活体检测方法的一种示例性流程，而在另一实施例中，如图8所示，终端发射第一声波信号，获取第二声波信号，根据第一声波信号和第二声波信号，获取时域特征和频域特征，将时域特征和频域特征进行融合，得到融合特征，基于活体检测模型，获取融合特征对应的检测标签。其中，第二声波信号用于表示第一声波信号发射后经目标人脸反射得到的声波信号

对于获取时域特征和频域特征的处理流程，在一种可能实现方式中，如图9所示，终端发射第一声波信号，接收到第三声波信号，对接收到的第三声波信号进行滤波处理后，对第三声波信号的幅值进行归一化处理，得到第二声波信号，将第一声波信号与第二声波信号求卷积，得到时域特征；将第一声波信号和第二声波信号进行小波变换后，将第一声波信号与第二声波信号求卷积，得到频域特征。

需要说明的是，上述实施例将应用于人脸识别的活体检测方法应用于终端中，而在另一实施例中，将应用于人脸识别的活体检测方法应用于终端和服务器中。在一种可能实现方式中，在终端执行步骤201-207后，终端将融合特征发送至服务器，服务器接收该融合特征，执行步骤208。

在另一种可能实现方式中，终端执行步骤201-202后，终端将第一声波信号和第二声波信号发送至服务器，服务器接收该第一声波信号和该第二声波信号后，执行步骤203-208。

需要说明的是，在步骤208之前，需要先对活体检测模型进行训练，将训练完成的活体检测模型应用于步骤208中，对于活体检测模型的训练过程详见下一个实施例。

图10是本申请实施例提供的一种活体检测模型训练方法的流程图，应用于终端中，如图10所示，该方法包括：

1001、获取多组第二样本信息。

本申请提供的活体检测模型训练方法，根据多组样本信息中的声波信号和检测标签对活体检测模型进行训练，使训练的活体检测模型更加准确。

其中，第二样本信息包括第一样本声波信号和第三样本声波信号以及对应的检测标签，第三样本声波信号是由第一样本声波信号经样本人脸反射得到的，该检测标签用于指示该样本人脸是否为活体人脸。

为了能够丰富第二样本信息，在一种可能实现方式中，在该多组第二样本信息中，包括正样本信息和负样本信息，该正样本信息包括第一样本声波信号和第三样本声波信号以及对应的检测标签，第三样本声波信号是由第一样本声波信号经活体人脸反射得到的，该负样本信息包括第一样本声波信号和第三样本声波信号以及对应的检测标签，第三样本声波信号是由第一样本声波信号经不是活体人脸的反射物反射得到的。

其中，正样本信息和负样本信息中包括的检测标签不同。

可选地，检测标签包括第一检测标签和第二检测标签。其中，第一检测标签用于指示样本人脸是活体人脸，第二检测标签用于指示样本人脸不是活体人脸。

例如，对于每组样本信息，第三样本声波信号是由第一样本声波信号经人脸反射得到的，则对应的检测标签为第一检测标签。或者第三样本声波信号是由第一样本声波信号经其他反射物反射得到的，则对应的检测标签为第二检测标签。

可选地，由于正样本信息和负样本信息的数量不均衡会导致训练的活体检测模型不准确，因此，在多组第二样本信息中，正样本信息的数量与负样本信息的数量差值占第二样本信息的数量的比例小于预设阈值。

例如，预设阈值为10％，第二样本信息的数量为1000，其中第三样本信息的数量为600，正样本信息的数量为400，则正样本信息的数量与负样本信息的数量差值，占第二样本信息的数量的比例为20％，大于10％，则需要补充正样本信息的数量，直到该正样本信息的数量与负样本信息的数量的差值，占第二样本信息的数量的比例小于10％。

1002、分别对该多组第二样本信息中的第三样本声波信号进行滤波处理和归一化处理，得到多组第一样本信息。

其中，第一样本信息包括第一样本声波信号和第二样本声波信号以及对应的检测标签，第二样本声波信号由对应的第二样本信息中的第三样本声波信号进行滤波处理和归一化处理后得到。

对于每个第二样本信息，通过对该第二样本信息中的第三样本声波信号进行滤波处理和归一化处理，得到第二声波信号，将该第二样本信息中的第三样本声波信号替换对应的第二样本声波信号，得到第一样本信息。

由于不同采样终端的性能不同，发射和接收声波信号会产生差异，且第一声波信号在传输过程中受到环境中噪声的干扰，所以需要对第三样本声波信号进行滤波处理和归一化处理。

其中，滤波处理是对声波信号进行处理，屏蔽声波信号中的噪声和干扰信号。例如，限幅滤波处理、中位值滤波法处理或匹配滤波处理等。第三样本声波信号在传输过程中会受到环境中噪声的干扰，通过滤波处理，滤除第三样本声波信号中的环境噪声，减小环境噪声对第三样本声波信号的影响。

归一化处理是把声波信号经过处理，限制在需要的范围内。例如，min-max标准化或者Z-score标准化方法。对于多个采样终端，不同采样终端的性能不同，会导致不同采样终端发射的声波信号的幅值范围不同，则得到的人脸反射的声波信号的幅值范围也不同，通过对接收到的第三样本声波信号做归一化处理，将第三样本声波信号的幅值限制在需要的范围内，消除不同采样终端的性能对声波信号的影响，使训练的活体检测模型更加准确。

1003、对于每组第一样本信息，根据第一样本声波信号和第二样本声波信号，获取时域特征和频域特征；将时域特征和频域特征进行融合，得到融合特征。

该步骤1003与上述步骤202-207类似，在此不再赘述。

1004、根据每组第一样本信息的融合特征和检测标签，对活体检测模型进行训练。

终端获取初始化的活体检测模型，该活体检测模型中的模型参数为初始化的参数值，可以随机确定，后续根据多组第一样本信息对活体检测模型进行训练，可以对该活体检测模型中的模型参数进行调整。

其中，该活体检测模型可以为卷积神经网络模型、深度学习网络模型、循环神经网络模型等。

为了减少模型训练的时间和降低对训练设备的要求，初始化的活体检测模型可以采用轻量化的深度学习网络模型，该活体检测模型的架构如图11所示，该活体检测模型采用1个输入层、3个卷积层、3个全连接层和1个归一化层，分别在卷积层1与卷积层2之间和卷积层2与卷积层3之间设置有池化层，并且在卷积层3与全连接层1之间也设置有池化层，通过该活体检测模型，实现对该活体检测模型的训练。

对活体检测模型的训练过程中，会根据每组第一样本信息的融合特征和检测标签对活体检测进行训练，在训练多次后，得到训练完成的活体检测模型。

对活体检测模型的训练的过程，在一种可能实现方式中，步骤904可以包括：

分别根据每组第一样本信息的融合特征和检测标签，对活体检测模型进行迭代训练，直至迭代训练次数达到预设次数时为止。

对活体检测模型的训练时，将每组第一样本信息对活体检测模型训练一次，则完成一次迭代训练。在完成一次迭代训练后，可以根据该多组第一样本信息进行再一次的迭代训练。当根据该多组第一样本信息对活体检测模型迭代训练次数达到预设次数时，则完成对活体检测模型的训练。

例如，预设次数为30次，则根据该多组第一样本信息对活体检测模型进行迭代训练30次，完成对活体检测模型的训练。

在另一种可能实现方式中，步骤1004还可以包括：

分别根据每组第一样本信息的融合特征和检测标签，对活体检测模型进行迭代训练，直至活体检测模型所确定的检测标签的准确率达到预设阈值时为止。

每次将第一样本信息的融合特征输入到活体检测模型中，基于活体检测模型会获取到测试检测标签，将该测试检测标签与第一样本信息中的检测标签进行对比，即可确定活体检测模型是否检测正确。因此，当根据该多组第一样本信息对活体检测模型进行训练时，可以根据多组第一样本信息的检测结果确定准确率，当该准确率达到预设阈值时，可以确定活体检测模型的准确率满足要求，则完成对活体检测模型的训练。

例如，预设阈值为95％，第一样本信息的组数为1000，根据该1000组第一样本信息对活体检测模型进行训练，依次将每组第一样本信息的融合特征输入到活体检测模型中，基于活体检测模型获取到测试检测标签，如果测试检测标签与对应的第一样本信息中的检测标签相同时，则活体检测模型检测正确，如果检测正确的组数为900个，即活体检测模型的准确率为90％，小于95％，则需要继续根据第一样本信息对活体检测模型进行训练。如果检测正确的组数为970个，及活体检测模型的准确率为97％，则完成对活体检测模型的训练。

本申请实施例提供的方法，获取多组第一样本信息，对于每组第一样本信息，根据第一样本声波信号和第二样本声波信号，获取时域特征和频域特征；将时域特征和频域特征进行融合，得到融合特征，根据每组第一样本信息的融合特征和检测标签，对活体检测模型进行训练。通过在时域和频域上对声波信号进行分析，使得到的融合特征更加准确，提高了活体检测模型的准确率。

并且，获取多组第二样本信息，分别对该多组第二样本信息中的第三样本声波信号进行滤波处理和归一化处理，得到多组第一样本信息。通过对样本信息进行滤波处理和归一化处理，避免了环境中的噪声和采样终端的影响，提高了活体检测模型的准确率。

需要说明的是，需要说明的是，上述实施例将活体检测模型训练方法应用于终端中，而在另一实施例中，该活体检测模型训练方法应用于服务器中，则服务器执行上述步骤1001-1004。

图12是本申请实施例提供的一种应用于人脸识别的活体检测装置的结构示意图，如图12所示，该装置包括：

声波信号获取模块1201，用于获取第一声波信号和第二声波信号，第二声波信号用于表示第一声波信号发射后经目标人脸反射得到的声波信号；

特征获取模块1202，用于根据第一声波信号和第二声波信号，获取时域特征和频域特征，时域特征用于表示第一声波信号与第二声波信号在时域上的相似程度，频域特征用于表示第一声波信号与第二声波信号在频域上的相似程度；

第一融合模块1203，用于将时域特征与频域特征进行融合，得到融合特征；

检测标签获取模块1204，用于基于活体检测模型，获取融合特征对应的检测标签，检测标签用于指示目标人脸是否为活体人脸。

可选地，第一声波信号为第一时域声波信号，第二声波信号为第二时域声波信号，如图13所示，特征获取模块1202，包括：

第一卷积处理单元1221，用于将第一时域声波信号与第二时域声波信号进行卷积处理，得到时域特征。

第一变换单元1222，用于对第一时域声波信号进行变换，得到第一频域声波信号；

第二变换单元1223，用于对第二时域声波信号进行变换，得到第二频域声波信号；

第二卷积处理单元1224，用于将第一频域声波信号与第二频域声波信号进行卷积处理，得到频域特征。

可选地，如图13所示，声波信号获取模块1201，包括：

接收单元1211，用于接收第一声波信号经目标人脸反射得到的第三声波信号；

第一处理单元1212，用于对第三声波信号进行滤波处理和归一化处理，得到第二声波信号。

可选地，如图13所示，装置包括：

样本信息获取模块1205，用于获取多组第一样本信息，第一样本信息包括第一样本声波信号和第二样本声波信号以及对应的检测标签，第二样本声波信号用于表示第一样本声波信号经样本人脸反射得到的声波信号，检测标签用于指示样本人脸是否为活体人脸；

第二融合模块1206，用于对于每组第一样本信息，根据第一样本声波信号和第二样本声波信号，获取时域特征和频域特征；将时域特征和频域特征进行融合，得到融合特征；

训练模块1207，用于根据每组第一样本信息的融合特征和检测标签，对活体检测模型进行训练。

可选地，如图13所示，第一样本声波信号为第一样本时域声波信号，第一样本声波信号为第一样本时域声波信号，第二融合模块1206，包括：

第三卷积处理单元1261，用于将第一样本时域声波信号和第二样本时域声波信号进行卷积处理，得到时域特征。

第三变换单元1262，用于对第一样本时域声波信号进行变换，得到第一样本频域声波信号；

第四变换单元1263，用于对第二样本时域声波信号进行变换，得到第二样本频域声波信号；

第四卷积处理单元1264，用于将第一样本频域声波信号与第二样本频域声波信号进行卷积处理，得到频域特征。

可选地，如图13所示，样本信息获取模块1205，包括：

获取单元1251，用于获取多组第二样本信息，第二样本信息包括第一样本声波信号和第三样本声波信号以及对应的检测标签，第三样本声波信号是第一样本声波信号经样本人脸反射得到的声波信号；

第二处理单元1252，用于分别对多组第二样本信息中的第三样本声波信号进行滤波处理和归一化处理，得到多组第一样本信息，每组第一样本信息中的第二样本声波信号由对应的第二样本信息中的第三样本声波信号进行滤波处理和归一化处理后得到。

可选地，训练模块1207，还用于：

分别根据每组第一样本信息的融合特征和检测标签，对活体检测模型进行迭代训练，直至迭代训练次数达到预设次数时为止；或者，

本申请实施例提供的活体检测装置，声波信号获取模块获取第一声波信号和第二声波信号，特征获取模块根据该第一声波信号和第二声波信号，获取时域特征和频域特征，第一融合模块将时域特征与频域特征进行融合，得到融合特征，检测标签获取模块基于活体检测模型，获取融合特征对应的检测标签，确定目标人脸是否为活体人脸。通过声波信号进行活体检测，无需用户执行指定动作，操作简便，且声波信号不易受到光线的干扰，应用环境广泛。且对于假冒的面具或视频，由于面具与人脸皮肤的材质不同，视频不具有三维结构，通过该方法可以识别出面具或视频不是活体人脸，因此本申请实施例提供的方法可抵御假冒的面具或视频等，提高了安全性。

并且，第一处理单元对第三声波信号进行滤波处理和归一化处理，得到第二声波信号。通过对接收到的声波信号进行滤波处理和归一化处理，减小了环境噪声对声波信号的影响，消除不同终端的性能对声波信号的影响，从而提高了检测的准确性。

图14是本申请实施例提供的一种终端的结构示意图。该终端1400可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备、智能电视、智能音箱、智能遥控器、智能话筒，或其他任意智能终端。终端1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1400包括有：处理器1401和存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的，用于存储至少一个指令，该至少一个指令用于被处理器1401所具有以实现本申请中方法实施例提供的应用于人脸识别的活体检测方法。

在一些实施例中，终端1400还可选包括有：外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地，外围设备包括：射频电路1404、显示屏1405和音频电路1406中的至少一种。

射频电路1404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。

显示屏1405用于显示UI(UserInterface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。该显示屏1405可以是触摸显示屏，还可以用于提供虚拟按钮和/或虚拟键盘。

音频电路1406可以包括麦克风和扬声器。麦克风用于采集用户及环境的音频信号，并将音频信号转换为电信号输入至处理器1401进行处理，或者输入至射频电路1404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1401或射频电路1404的电信号转换为音频信号。

本领域技术人员可以理解，图14中示出的结构并不构成对终端1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图15是本申请实施例提供的一种服务器的结构示意图，该服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central ProcessingUnits，CPU)1501和一个或一个以上的存储器1502，其中，存储器1502中存储有至少一条指令，至少一条指令由处理器1501加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器1500可以用于执行上述应用于人脸识别的活体检测方法。

本申请实施例还提供了一种应用于人脸识别的活体检测装置，该装置包括处理器和存储器，存储器中存储有至少一条程序代码，该至少一条程序代码由处理器加载并具有以实现上述实施例的应用于人脸识别的活体检测方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并具有以实现上述实施例的应用于人脸识别的活体检测方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的较佳实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种应用于人脸识别的活体检测方法，其特征在于，所述方法包括：

将所述时域特征与所述频域特征进行融合，得到融合特征；

2.根据权利要求1所述的方法，其特征在于，所述第一声波信号为第一时域声波信号，所述第二声波信号为第二时域声波信号，所述根据所述第一声波信号和所述第二声波信号，获取时域特征，包括：

将所述第一时域声波信号与所述第二时域声波信号进行卷积处理，得到所述时域特征。

3.根据权利要求1所述的方法，其特征在于，所述第一声波信号为第一时域声波信号，所述第二声波信号为第二时域声波信号，所述根据所述第一声波信号和所述第二声波信号，获取频域特征，包括：

对所述第一时域声波信号进行变换，得到第一频域声波信号；

对所述第二时域声波信号进行变换，得到第二频域声波信号；

将所述第一频域声波信号与所述第二频域声波信号进行卷积处理，得到所述频域特征。

4.根据权利要求1所述的方法，其特征在于，所述获取第二声波信号，包括：

接收所述第一声波信号经所述目标人脸反射得到的第三声波信号；

对所述第三声波信号进行滤波处理和归一化处理，得到所述第二声波信号。

5.根据权利要求1所述的方法，其特征在于，所述方法包括：

获取多组第一样本信息，所述第一样本信息包括第一样本声波信号和第二样本声波信号以及对应的检测标签，所述第二样本声波信号用于表示所述第一样本声波信号经样本人脸反射得到的声波信号，所述检测标签用于指示所述样本人脸是否为活体人脸；

对于每组第一样本信息，根据所述第一样本声波信号和所述第二样本声波信号，获取时域特征和频域特征；将所述时域特征和所述频域特征进行融合，得到融合特征；

根据所述每组第一样本信息的融合特征和检测标签，对所述活体检测模型进行训练。

6.根据权利要求5所述的方法，其特征在于，所述第一样本声波信号为第一样本时域声波信号，所述第一样本声波信号为第一样本时域声波信号，所述根据所述第一样本声波信号和所述第二样本声波信号，获取时域特征，包括：

将所述第一样本时域声波信号和所述第二样本时域声波信号进行卷积处理，得到所述时域特征。

7.根据权利要求5所述的方法，其特征在于，所述第一样本声波信号为第一样本时域声波信号，所述第一样本声波信号为第一样本时域声波信号，所述根据所述第一样本声波信号和所述第二样本声波信号，获取频域特征，包括：

对所述第一样本时域声波信号进行变换，得到第一样本频域声波信号；

对所述第二样本时域声波信号进行变换，得到第二样本频域声波信号；

将所述第一样本频域声波信号与所述第二样本频域声波信号进行卷积处理，得到所述频域特征。

8.根据权利要求5所述的方法，其特征在于，所述获取多组第一样本信息，包括：

获取多组第二样本信息，所述第二样本信息包括第一样本声波信号和第三样本声波信号以及对应的检测标签，所述第三样本声波信号是所述第一样本声波信号经所述样本人脸反射得到的声波信号；

分别对所述多组第二样本信息中的第三样本声波信号进行滤波处理和归一化处理，得到所述多组第一样本信息，每组第一样本信息中的第二样本声波信号由对应的第二样本信息中的第三样本声波信号进行滤波处理和归一化处理后得到。

9.根据权利要求5所述的方法，其特征在于，所述根据所述每组第一样本信息的融合特征和检测标签，对所述活体检测模型进行训练，包括：

10.一种应用于人脸识别的活体检测装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述第一声波信号为第一时域声波信号，所述第二声波信号为第二时域声波信号，所述特征获取模块，包括：

第一卷积处理单元，用于将所述第一时域声波信号与所述第二时域声波信号进行卷积处理，得到所述时域特征。

12.根据权利要求10所述的装置，其特征在于，所述第一声波信号为第一时域声波信号，所述第二声波信号为第二时域声波信号，所述特征获取模块，包括：

第一变换单元，用于对所述第一时域声波信号进行变换，得到第一频域声波信号；

第二变换单元，用于对所述第二时域声波信号进行变换，得到第二频域声波信号；

第二卷积处理单元，用于将所述第一频域声波信号与所述第二频域声波信号进行卷积处理，得到所述频域特征。

13.根据权利要求10所述的装置，其特征在于，所述声波信号获取模块，包括：

接收单元，用于接收所述第一声波信号经所述目标人脸反射得到的第三声波信号；

第一处理单元，用于对所述第三声波信号进行滤波处理和归一化处理，得到所述第二声波信号。

14.一种应用于人脸识别的活体检测装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至9任一权利要求所述的应用于人脸识别的活体检测方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至9任一权利要求所述的应用于人脸识别的活体检测方法。