CN116524612B

CN116524612B - 一种基于rPPG的人脸活体检测系统及方法

Info

Publication number: CN116524612B
Application number: CN202310737596.2A
Authority: CN
Inventors: 隋雅茹; 嵇晓强; 孙运杰; 饶治; 郝颢; 陶雪; 马艳蓉; 曹国华; 马丽华
Original assignee: Changchun Gauss Vision Technology Co ltd; Changchun University of Science and Technology
Current assignee: Changchun Gauss Vision Technology Co ltd; Changchun University of Science and Technology
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-09-12
Anticipated expiration: 2043-06-21
Also published as: CN116524612A

Abstract

本发明公开了一种基于rPPG的人脸活体检测系统及方法，属于生物识别技术领域。本发明包括：S10：获取面部感兴趣区域帧序列；S20：基于面部感兴趣区域帧序列，通过时空卷积网络模型预测人体面部脉搏波信号；S30：对预测的人体面部脉搏波信号进行频域转换并提取多尺度长期频谱统计特征；S40：通过支持向量机模型分辨目标人脸的真伪。本发明设计了一种轻量级的时空卷积网络，并设计一种新的学习方式来训练模型，设计并改进一种蕴含丰富生理信息的频谱特征，大大提高了活体检测的准确率和检测速率，本发明在面对打印、视频、面具等多种欺诈攻击时，只需普通摄像头采集的RGB视频就能够高效、快速地区分人脸的真伪。

Description

一种基于rPPG的人脸活体检测系统及方法

技术领域

本发明涉及生物识别技术领域，具体为一种基于rPPG的人脸活体检测系统及方法。

背景技术

如今，人脸识别技术在人们的日常生活中得到了广泛的应用，如手机解锁、账户验证、门禁系统、金融支付和公安追逃等。然而，现有的人脸识别系统仍存在诸多安全隐患。由于人脸信息的易获取性,冒名顶替者可以伪装合法用户来期骗人脸识别系统,该行为称为人脸欺诈攻击或者人脸伪装。如何区分真实人脸与伪造人脸，称为人脸活体检测，又称为人脸反欺诈。人脸活体检测作为人脸识别系统的前置环节，不仅能够保护用户的财产和隐私，还可以维护公共安全，已经成为人脸识别系统不可缺少的一部分。

在日常生活中，人脸识别系统往往面临多种攻击手段却只能采集RGB视频实现活体检测。目前传统的人脸活体检测方法可以有效地针对平面照片、重播视频攻击，不能有效地针对弯曲照片攻击、剪裁照片攻击、3D面具攻击以及虚拟视频攻击等。远程光体积描记术（remote photo plethysmography，rPPG）是一种新的生物医学技术，可以通过普通 RGB 摄像机远程测量人类的心跳，进而通过模拟心跳引起的肤色变化来测量人体的血液脉搏流量。将测量的信号作为区分真实人脸和伪造人脸的依据，能够有效地应对弯曲照片攻击、剪裁照片攻击、3D面具攻击以及虚拟视频攻击等。这是由于伪造人脸的材料具有低透射率的特性，rPPG信号只能从真实人脸上检测到。现有的基于rPPG的活体检测方法存在以下两点不足，从而影响检测的效率和准确度。在提取rPPG信号方面，传统算法提取的信号对光照条件的鲁棒性不强且目前使用的网络模型的参数量大导致检测的效率低。在提取区别真实人脸和伪造人脸的特征方面，提取的频谱特征单一且蕴含的生理信息不丰富。

发明内容

本发明的目的在于提供一种基于rPPG的人脸活体检测系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于rPPG的人脸活体检测方法，所述方法包括：

S10：对普通摄像头采集的人脸视频进行预处理，获取面部感兴趣区域帧序列；

S20：基于S10中获取的面部感兴趣区域帧序列，结合时空卷积网络模型对人体面部脉搏波信号进行预测；

S30：对S20中预测的人体面部脉搏波信号进行频域转换并提取多尺度长期频谱统计特征；

S40：基于S30中提取的多尺度长期频谱统计特征，通过支持向量机模型分辨目标人物的真伪。

进一步的，所述S10包括：

S101：使用多任务卷积神经网络对RGB视频进行处理，在处理过程中，对RGB视频中的人脸进行检测，根据检测结果获取人脸帧序列，多任务卷积神经网络算法可以同时完成人脸检测和人脸对齐的任务，相比于传统的算法，性能更好，检测速度更快；

S102：采用人脸对齐网络，对S101中获取的人脸图像中二维面部的68个特征点进行检测，并选取人脸鼻子和左右脸颊作为感兴趣区域，获取感兴趣区域帧序列，人脸对齐网络算法可以精准地检测二维和三维面部坐标点。

进一步的，所述S20包括：

S201：构建时空卷积网络，时空卷积网络结构包括：一层自适应平均池化、一层2D残差卷积、五个时空卷积模块和一层聚合，其中，自适应平均池化的通道数为3，自适应平均池化用于滤除图像中大部分无用的外观信息，同时对图像的尺寸进行归一化处理，解决由采集设备以及摄像距离导致人脸图像不匹配的问题，2D残差卷积的内核大小为1×1，通道数为16，2D残差卷积用于增加通道，使得时空卷积网络从多通道特征图中学习关键特征，且采用残差结构能够有效避免时空卷积网络的过拟合问题，单个时空卷积模块包括(2+1)D卷积层、批标准化层和ReLU激活函数层，五个时空卷积模块中对应的(2+1)D卷积层的通道数分别为32、32、64、64、64，保证(2+1)D卷积层中间与最后输出的通道相同，减少了时空卷积网络参数的数量，且在保障时空卷积网络充分学习的同时，减轻时空卷积网络训练的样本量，提高了时空卷积网络预测人体面部脉搏波信号的速度，(2+1)D卷积层采用(2+1)D的结构相较于标准的3D卷积计算量更少，(2+1)D卷积层的卷积核大小设置为1×1×T，在空间上可以避免时空卷积网络提取剩余的外观信息，在时间上迫使时空卷积网络完整地提取强健的活性信息，批标准化层和ReLU激活函数层解决了时空卷积网络训练中梯度消失的问题，加快了时空卷积网络的收敛速度，聚合的通道数为1，聚合用于使通道数归一，以及通过sigmoid函数输出预测的人体面部脉搏波信号；

提出一种新的分监督学习方式，使用rPPG数据库（带有真实标签PPG信号）和活体检测数据库（带有真实标签“真”或“假”）分别监督时空卷积网络模型学习从真实人脸视频中估计脉搏波信号的能力，增强了时空卷积网络模型从人脸视频中估计信号的鲁棒性，提高了时空卷积网络模型的泛化性和准确性；

S202：对S201中构建的时空卷积网络进行训练，具体的训练方法为：

a. 从各欺诈类型的活体检测数据库中随机抽取若干样本组成活体检测数据集，活体检测数据集包括标签为真的活体检测数据集和标签为假的活体检测数据集（标签为假的活体检测数据集用于扩展训练数据集，增强时空卷积网络的泛化能力）并将活体检测数据集和记录PPG信号的rPPG数据库进行预处理（此处预处理方法与S10中对人脸视频进行预处理的方法一致，均是为了获取面部感兴趣区域帧序列），将预处理后得到的感兴趣区域帧序列输入时空卷积网络模型进行训练，训练后得到具有准确预测面部脉搏波信号能力的时空卷积网络模型；

b.通过带有PPG信号的rPPG数据库和带有标签为真的活体检测数据样本，分别监督时空卷积网络模型学习从真实人脸图像中拟合PPG信号的能力；

c. 根据b中的时空卷积网络模型预测的rPPG信号以及a中活体检测数据集和rPPG数据库对应的真实标签，对时空卷积网络模型的总损失值进行计算，基于计算结果，对时空卷积网络模型的参数进行优化，最终得到训练后的时空卷积网络模型，总损失值的具体计算公式为：

L=βL_r+(1-β)L₁；

其中，L表示时空卷积网络模型的总损失值，β表示权重参数，L₁表示支持向量机预测分类的损失值，L_r表示rPPG回归损失值；

L_r=1-Cov(S_ppg,S^f)/(σ_Sppgσ_Sf)；

其中，S_ppg表示rPPG数据库中带有的PPG信号，S^f表示根据真实人脸的感兴趣区域序列预测的人体面部脉搏波信号，Cov(S_ppg,S^f)表示计算的rPPG数据库中带有的PPG信号与预测的人体面部脉搏波信号的协标准差，σ_Sppg表示rPPG数据库中带有的PPG信号的标准差，σ_Sf表示预测的人体面部脉搏波信号的标准差；

S203：将S102中获取的面部感兴趣区域帧序列输入最终训练后的时空卷积网络模型中，对人体面部脉搏波信号进行预测。

进一步的，所述S30包括：

S301：通过滑动窗口对S203中预测的人体面部脉搏波信号进行顺序提取，使用N点离散傅里叶变换将每个窗口内的信号从时域转换为频域，得到系数向量[X₁(k),…,X_W(k)]，其中，k=0,1,…,N/2-1，N表示离散时域信号的采样点数，k表示频域中的离散频率点，W表示单个系数向量中元素的个数，X(k)表示系数值，当|X_W(k)|＜1时，令|X_W(k)|=1，在使用傅里叶变换将信号从时域转换为频域时，得到的系数向量表示了信号在不同频率上的分量强度，这些系数的幅值通常与信号的能量或幅度相关，在某些情况下，信号的某些频率分量可能非常弱，幅值可能接近于零或非常小，取自然对数后，这些小的幅值会产生负无穷大或负数的结果，因此要保证系数向量取对数的值始终为正；

S302：通过设置不同的滑动窗口长度和滑动窗口重叠大小，求取各系数向量中的系数值取自然对数的均值和标准差，将计算的均值和标准差连接起来，得到多尺度长期频谱统计特征向量，则：

；

F=[μ₁,σ₁,…,μ_n,σ_n]；

其中，i=1,2,…,W，表示系数向量中各元素对应的编号，n表示滑动窗口总数，X_i(k)表示系数向量中编号为i的元素对应的系数值，F表示多尺度长期频谱统计特征向量，μ(k)表示求系数值取自然对数的均值的函数，σ(k)表示求系数值取自然对数的标准差的函数；

通过利用可变的滑动窗口长度和滑动窗口重叠大小，对各滑动窗口系数向量的均值和标准差取自然对数后进行计算，基于计算结果，获取多尺度长期频谱统计特征向量，相较于目前的频域特征向量而言，能够杜绝一些关键信息的遗漏，提高了系统的检测效果。

进一步的，所述S40包括：

S401：采用支持向量机作为分类器，选择线性核函数作为分类器的核函数，支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器，线性核函数用于减小支持向量机模型的计算量；

S402：从活体检测数据集中提取特征向量对支持向量机进行训练得到支持向量机模型，当输入支持向量机的标签为1时，表示其对应的人脸为真实人脸，当输入支持向量机的标签为-1时，表示其对应的人脸为伪造人脸；

S403：将合页损失函数作为支持向量机模型的损失函数，根据损失函数计算的支持向量机模型的损失值，基于计算的损失值，对支持向量机模型进行优化处理，最终得到训练后的支持向量机模型，合页损失函数的具体公式为：

L₁=max（0，1-y(ex+b)）；

其中，e表示权重参数，x表示输入的特征向量，b表示偏置项，y表示活体检测数据样本的真实标签（y=1：表示活体检测数据样本对应的人脸为真实人脸或y=-1：表示活体检测数据样本对应的人脸为伪造人脸），y(ex+b)表示预测结果与真实标签之间的差异值，当活体检测数据样本被正确分类时，y(ex+b)为负数或零，此时L₁=0，当活体检测数据样本被错误分类时，y(ex+b)为正数，此时L₁＞0；

S404：将S302中提取的多尺度长期频谱统计特征向量输入训练后的支持向量机模型中，支持向量机模型输出预测值，若预测值为1，则判定为真实人脸，若预测值为0，则判定为伪造人脸。

一种基于rPPG的人脸活体检测系统，所述系统包括ROI序列获取模块、rPPG信号预测模块、MS-LTSS特征提取模块和目标人物判定模块；

所述ROI序列获取模块用于对普通摄像头采集的人脸视频进行预处理，获取ROI序列，并将获取的ROI序列传输至rPPG信号预测模块；

所述rPPG信号预测模块用于对ROI序列获取模块传输的ROI序列进行接收，基于接收信息，结合时空卷积网络模型对rPPG信号进行预测，并将预测的rPPG信号传输至MS-LTSS特征提取模块；

所述MS-LTSS特征提取模块用于对rPPG信号预测模块传输的rPPG信号进行接收，将接收的rPPG信号进行频域转换并提取MS-LTSS特征，将提取的MS-LTSS特征传输至目标人物判定模块；

所述目标人物判定模块用于对MS-LTSS特征提取模块传输的MS-LTSS特征进行接收，结合支持向量机模型，分辨目标人物的真伪。

进一步的，所述ROI序列获取模块包括人脸帧序列获取单元和ROI序列获取单元；

所述人脸帧序列获取单元使用多任务卷积神经网络对RGB视频进行处理，在处理过程中，对RGB视频中的人脸进行检测，根据检测结果获取人脸帧序列，并将获取的人脸帧序列传输至ROI序列获取单元；

所述ROI序列获取单元对人脸帧序列获取单元传输的人脸帧序列进行接收，采用人脸对齐网络对接收的人脸图像中二维面部的68个特征点进行检测，并选取人脸鼻子和左右脸颊作为感兴趣区域，获取感兴趣区域帧序列，并将获取的感兴趣区域帧序列传输至rPPG信号预测模块。

进一步的，所述rPPG信号预测模块包括时空卷积网络构建单元、时空卷积网络模型训练单元和rPPG信号预测单元；

所述时空卷积网络构建单元从上到下依次架设一层自适应平均池化、一层2D残差卷积、5个时空卷积模块和一层聚合，单个所述时空卷积模块包括(2+1)D卷积层、批标准化层和激活函数层，所述自适应平均池化作为时空卷积网络的输入端，聚合作为时空卷积网络的输出端，并将构建的时空卷积网络传输至时空卷积网络模型训练单元；

所述时空卷积网络模型训练单元对时空卷积网络构建单元传输的时空卷积网络进行接收，从各欺诈类型的活体检测数据库中随机抽取若干样本组成活体检测数据集，并将活体检测数据集和记录PPG信号的rPPG数据库进行预处理，将预处理后得到感兴趣区域帧序列输入时空卷积网络，对时空卷积网络进行训练得到具有准确预测面部脉搏波信号能力的时空卷积网络模型，通过带有PPG信号的rPPG数据库和带有标签为真的活体检测数据样本，分别监督时空卷积网络模型学习从真实人脸图像中拟合PPG信号的能力，根据时空卷积网络模型预测的rPPG信号，以及活体检测数据集和rPPG数据库对应的真实标签，对时空卷积网络模型的总损失值进行计算，基于计算结果，对时空卷积网络模型的参数进行优化，最终得到训练后的时空卷积网络模型，并将最终训练后的时空卷积网络模型传输至rPPG信号预测单元；

所述rPPG信号预测单元对时空卷积网络模型训练单元传输的最终训练后的时空卷积网络模型，以及ROI序列获取单元传输的ROI序列进行接收，将接收的ROI序列输入最终训练后的时空卷积网络模型中，对rPPG信号进行预测，并将预测的rPPG信号传输至MS-LTSS特征提取模块。

进一步的，所述MS-LTSS特征提取模块包括频域转换单元和MS-LTSS特征向量获取单元；

所述频域转换单元对rPPG信号预测单元传输的rPPG信号进行接收，以变化的滑动窗口长度和滑动窗口重叠大小对获取的rPPG信号进行顺序提取，使用N点离散傅里叶变换将提取的信号从时域转换为频域，得到各滑动窗口的系数向量，并将得到的各滑动窗口的系数向量传输至MS-LTSS特征向量获取单元；

所述MS-LTSS特征向量获取单元对频域转换单元传输的各滑动窗口的系数向量进行接收，求取接收的各系数向量中的系数值取自然对数的均值和标准差，将计算的均值和标准差连接起来，得到MS-LTSS特征向量，并将得到的MS-LTSS特征向量传输至目标人物判定模块。

进一步的，所述目标人物判定模块包括SVM构建单元、SVM模型训练单元和目标人物判定单元；

所述SVM构建单元采用支持向量机作为分类器，选择线性核函数作为分类器的核函数，构建SVM，并将构建的SVM传输至SVM模型训练单元；

所述SVM模型训练单元对SVM构建单元传输的SVM进行接收，利用活体检测数据集中提取的特征向量对SVM进行训练得到SVM模型，当输入SVM的标签为1时，表示其对应的人脸为真实人脸，当输入SVM的标签为-1时，表示其对应的人脸为伪造人脸，利用合页损失函数对SVM模型的损失值进行计算，根据计算结果，对SVM模型的参数进行优化处理，最终得到训练后的SVM模型，并将训练后的SVM模型传输至目标人物判定单元；

所述目标人物判定单元对SVM模型训练单元传输的训练后的SVM模型，以及MS-LTSS特征向量获取单元传输的MS-LTSS特征向量进行接收，将接收的MS-LTSS特征向量输入训练后的SVM模型中，SVM模型输出预测值，若预测值为1，则判定为真实人脸，若预测值为0，则判定为伪造人脸。

与现有技术相比，本发明所达到的有益效果是：

1.本发明通过人脸识别系统采集的RGB视频中提取生理特征，以此区分真实人脸和伪造人脸，从人体面部的脉搏波信号中提取泛化能力强的生理特征，一方面可以针对平面照片、弯曲照片、剪裁照片覆盖人脸的打印攻击，另一方面也能应对在电子屏幕上展示人脸照片、真实人脸视频、虚假人脸视频、头部3 维模型的屏显攻击，且还能同时针对刚性、柔性的3D面具攻击，设计一种轻量级的时空卷积网络高效地提取出鲁棒性强的rPPG信号，进一步提取蕴含丰富信息的频谱特征，提高基于rPPG的人脸活体检测的性能。

2.本发明设计的时空卷积网络模型在训练过程中，可以使用更少的数据训练，避免过拟合问题，而且，解决了梯度消失的问题，加快模型收敛，同时，减少了时空卷积网络模型参数的数量，缩短了从人脸视频中估计rPPG信号的时间，提高了活体检测的速率。

3.本发明采用分监督的方式来训练时空卷积网络模型，达到利用rPPG信号实现人脸活体检测的目的。对于改进的频谱特征，其蕴含了丰富的生理信息，增加了判别伪造人脸的准确率，本发明有效地克服了现有技术中的多种问题，综合考虑了各方面的现实因素，具有高度的使用价值。

4.本发明可以同时高效地应对三种主要攻击类型，且不需要多种传感器设备进行数据采集。在实际应用中，相对于基于传统特征的方法安全性更强，和基于多模态的算法相比成本更低、应用范围更广，与基于交互动作的人脸活体检测方法相比提高了用户体验。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种基于rPPG的人脸活体检测方法的流程图；

图2是本发明一种基于rPPG的人脸活体检测方法的时空卷积网络结构示意图；

图3是本发明一种基于rPPG的人脸活体检测方法的模型训练流程图；

图4是本发明一种基于rPPG的人脸活体检测方法的分监督学习流程图；

图5是本发明一种基于rPPG的人脸活体检测系统的结构原理示意图。

实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图5，本发明提供技术方案：一种基于rPPG的人脸活体检测方法，方法包括：

S10包括：

S20包括：

S201：构建时空卷积网络，时空卷积网络结构包括：一层自适应平均池化、一层2D残差卷积、五个时空卷积模块和一层聚合，其中，自适应平均池化的通道数为3，2D残差卷积的内核大小为1×1，通道数为16，单个时空卷积模块包括(2+1)D卷积层、批标准化层和ReLU激活函数层，五个时空卷积模块中对应的(2+1)D卷积层的通道数分别为32、32、64、64、64，(2+1)D卷积层的卷积核大小设置为1×1×T，聚合的通道数为1；

a. 从各欺诈类型的活体检测数据库中随机抽取若干样本组成活体检测数据集，活体检测数据集包括标签为真的活体检测数据集和标签为假的活体检测数据集，并将活体检测数据集和记录PPG信号的rPPG数据库进行预处理（此处预处理方法与S10中对人脸视频进行预处理的方法一致，均是为了获取面部感兴趣区域帧序列），将预处理后得到的感兴趣区域帧序列输入时空卷积网络模型进行训练，训练后得到具有准确预测面部脉搏波信号能力的时空卷积网络模型；

c.根据b中的时空卷积网络模型预测的rPPG信号以及a中活体检测数据集和rPPG数据库对应的真实标签，对时空卷积网络模型的总损失值进行计算，基于计算结果，对时空卷积网络模型的参数进行优化，最终得到训练后的时空卷积网络模型，总损失值的具体计算公式为：

L=βL_r+(1-β)L₁；

其中，β表示权重参数，L₁表示支持向量机预测分类的损失值，L表示时空卷积网络模型的总损失值，L_r表示rPPG回归损失值；

L_r=1-Cov(S_ppg,S^f)/(σ_Sppgσ_Sf)；

S30包括：

；

F=[μ₁,σ₁,…,μ_n,σ_n]；

通过利用可变的滑动窗口长度和滑动窗口重叠大小，对各滑动窗口系数向量的均值和标准差取对数之后进行计算，基于计算结果，获取多尺度长期频谱统计特征向量，相较于目前的频域特征向量而言，能够杜绝一些关键信息的遗漏，提高了系统的检测效果。

S40：基于S30中提取的多尺度长期频谱统计特征，通过支持向量机模型分辨目标人物的真伪；

S40包括：

S401：采用支持向量机作为分类器，选择线性核函数作为分类器的核函数；

S402：从活体检测数据集中提取特征向量对支持向量机进行训练得到支持向量机模型，当输入支持向量机的标签为1时，表示其对应的人脸为真实人脸，当输入支持向量机的标签为-1时，表示其对应的人脸为伪造人脸。

S403：将合页损失函数作为支持向量机进行二分类任务的损失函数，根据损失函数计算的支持向量机模型的损失值，基于计算的损失值，对支持向量机模型进行优化处理，最终得到训练后的支持向量机模型，损失函数的具体公式为：

L₁=max（0，1-y(ex+b)）；

其中，e表示权重参数，x表示输入的特征向量，b表示偏置项，y表示活体检测数据样本的真实标签（y=1：表示活体检测数据样本对应的人脸为真实人脸或y=-1：表示活体检测数据样本对应的人脸为伪造人脸），y(ex+b)表示预测结果与真实标签之间的差异值，当活体检测数据样本被正确分类时，y(ex+b)为负数或零，此时L₁=0，当活体检测数据样本被错误分类时，y(ex+b)为正数，此时L₁＞0。

一种基于rPPG的人脸活体检测系统，系统包括ROI序列获取模块、rPPG信号预测模块、MS-LTSS特征提取模块和目标人物判定模块；

ROI序列获取模块用于通过对普通摄像头采集的人脸视频进行预处理，获取ROI序列，并将获取的ROI序列传输至rPPG信号预测模块；

ROI序列获取模块包括人脸帧序列获取单元和ROI序列获取单元；

人脸帧序列获取单元使用多任务卷积神经网络对RGB视频进行处理，在处理过程中，对RGB视频中的人脸进行检测，根据检测结果获取人脸帧序列，并将获取的人脸帧序列传输至ROI序列获取单元；

ROI序列获取单元对人脸帧序列获取单元传输的人脸帧序列进行接收，采用人脸对齐网络对接收的人脸图像中二维面部的68个特征点进行检测，并选取人脸鼻子和左右脸颊作为感兴趣区域，获取感兴趣区域帧序列，并将获取的感兴趣区域帧序列传输至rPPG信号预测模块；

rPPG信号预测模块用于对ROI序列获取模块传输的ROI序列进行接收，基于接收信息，结合时空卷积网络模型对rPPG信号进行预测，并将预测的rPPG信号传输至MS-LTSS特征提取模块；

rPPG信号预测模块包括时空卷积网络构建单元、时空卷积网络模型训练单元和rPPG信号预测单元；

时空卷积网络构建单元从上到下依次架设一层自适应平均池化、一层2D残差卷积、5个时空卷积模块和一层聚合，单个时空卷积模块包括(2+1)D卷积层、批标准化层和激活函数层，自适应平均池化作为时空卷积网络的输入端，聚合作为时空卷积网络的输出端，并将构建的时空卷积网络传输至时空卷积网络模型训练单元；

时空卷积网络模型训练单元对时空卷积网络构建单元传输的时空卷积网络进行接收，从各欺诈类型的活体检测数据库中随机抽取若干样本组成活体检测数据集，并将活体检测数据集和记录PPG信号的rPPG数据库进行预处理，将预处理后得到感兴趣区域帧序列输入时空卷积网络，对时空卷积网络进行训练得到具有准确预测面部脉搏波信号能力的时空卷积网络模型，通过带有PPG信号的rPPG数据库和带有标签为真的活体检测数据样本，分别监督时空卷积网络模型学习从真实人脸图像中拟合PPG信号的能力，根据时空卷积网络模型预测的rPPG信号，以及活体检测数据集和rPPG数据库对应的真实标签，对时空卷积网络模型的总损失值进行计算，基于计算结果，对时空卷积网络模型的参数进行优化，最终得到训练后的时空卷积网络模型，并将最终训练后的时空卷积网络模型传输至rPPG信号预测单元；

rPPG信号预测单元对时空卷积网络模型训练单元传输的最终训练后的时空卷积网络模型，以及ROI序列获取单元传输的ROI序列进行接收，将接收的ROI序列输入最终训练后的时空卷积网络模型中，对rPPG信号进行预测，并将预测的rPPG信号传输至MS-LTSS特征提取模块；

MS-LTSS特征提取模块用于对rPPG信号预测模块传输的rPPG信号进行接收，将接收的rPPG信号进行频域转换并提取MS-LTSS特征，将提取的MS-LTSS特征传输至目标人物判定模块；

MS-LTSS特征提取模块包括频域转换单元和MS-LTSS特征向量获取单元；

频域转换单元对rPPG信号预测单元传输的rPPG信号进行接收，以变化的滑动窗口长度和滑动窗口重叠大小对获取的rPPG信号进行顺序提取，使用N点离散傅里叶变换将提取的信号从时域转换为频域，得到各滑动窗口的系数向量，并将得到的各滑动窗口的系数向量传输至MS-LTSS特征向量获取单元；

MS-LTSS特征向量获取单元对频域转换单元传输的各滑动窗口的系数向量进行接收，求取接收的各系数向量中的系数值取自然对数的均值和标准差，将计算的均值和标准差连接起来，得到MS-LTSS特征向量，并将得到的MS-LTSS特征向量传输至目标人物判定模块；

目标人物判定模块用于对MS-LTSS特征提取模块传输的MS-LTSS特征进行接收，结合支持向量机模型，分辨目标人物的真伪；

目标人物判定模块包括SVM构建单元、SVM模型训练单元和目标人物判定单元；

SVM构建单元采用支持向量机作为分类器，选择线性核函数作为分类器的核函数，构建SVM，并将构建的SVM传输至SVM模型训练单元；

SVM模型训练单元对SVM构建单元传输的SVM进行接收，利用活体检测数据集中提取的特征向量对SVM进行训练得到SVM模型，当输入SVM的标签为1时，表示其对应的人脸为真实人脸，当输入SVM的标签为-1时，表示其对应的人脸为伪造人脸，利用合页损失函数对SVM模型的损失值进行计算，根据计算结果，对SVM模型的参数进行优化处理，最终得到训练后的SVM模型，并将训练后的SVM模型传输至目标人物判定单元；

目标人物判定单元对SVM模型训练单元传输的训练后的SVM模型，以及MS-LTSS特征向量获取单元传输的MS-LTSS特征向量进行接收，将接收的MS-LTSS特征向量输入训练后的SVM模型中，SVM模型输出预测值，若预测值为1，则判定为真实人脸，若预测值为0，则判定为伪造人脸。

实施例1：PPG信号：表示通过光电传感器来检测血液在皮肤组织中的变化而得到的脉搏波信号；

ROI：表示感兴趣区域；

rPPG信号：表示利用rPPG技术从人体视频中提取的脉搏波信号；

SVM：表示支持向量机；

MS-LTSS特征：表示多尺度长期频谱统计特征；

RGB视频：普通摄像头拍摄的彩色视频。

实施例2：根据时空卷积网络模型的总损失值对时空卷积网络模型的参数进行修优化的具体流程为：

通过总损失函数L=βL_r+(1-β)L₁对时空卷积网络模型的总损失值进行计算；

通过总损失函数的梯度，计算时空卷积网络模型参数对总损失函数的影响程度，通过反向传播，将梯度从总损失函数传递回时空卷积网络模型的每个参数，对每个参数的梯度值进行计算；

基于计算的参数梯度值使用梯度下降法，以一定的学习率对时空卷积网络模型的参数进行更新，直至总损失函数计算的总损失值最小；

支持向量机模型参数的优化流程，与根据时空卷积网络模型的总损失值对时空卷积网络模型的参数进行优化的基本原理相同，不同点在于支持向量机模型利用合页损失函数L₁=max（0，1-y(ex+b)）对支持向量机模型的损失值进行计算。

实施例3：设说明书附图-图4中的数据1为rPPG数据库的人脸视频，标签1为数据1同时对应的PPG信号，数据2为活体检测数据库的人脸视频，标签2为“+1”或者“-1”，其中，“+1”表示活体检测数据样本为真实人脸，“-1”表示活体检测数据样本为伪造人脸；

将rPPG数据库的人脸视频数据样本和标签为“+1”的活体检测数据库的人脸视频数据样本输入时空卷积网络模型中进行迭代训练，每次迭代预测的人体面部脉搏波信号和PPG信号输入损失函数L_r=1-Cov(S_ppg,S^f)/(σ_Sppgσ_Sf)对rPPG回归损失值进行计算；

根据时空卷积网络模型预测的人体面部脉搏波信号对多尺度长期频谱统计特征向量进行确定，将确定的多尺度长期频谱统计特征向量和标签2输入损失函数L₁=max（0，1-y(ex+b)），对支持向量机预测分类的损失值进行计算；

将计算的rPPG回归损失值和支持向量机预测分类的损失值输入总损失函数L=βL_r+(1-β)L₁，根据计算的总损失值对时空卷积网络模型的参数进行优化，迭代完成后获得时空卷积网络模型。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于rPPG的人脸活体检测方法，其特征在于：所述方法包括：

所述S20包括：

a. 从各欺诈类型的活体检测数据库中随机抽取若干样本组成活体检测数据集，活体检测数据集包括标签为真的活体检测数据集和标签为假的活体检测数据集，并将活体检测数据集和记录PPG信号的rPPG数据库进行预处理，将预处理后得到的感兴趣区域帧序列输入时空卷积网络模型进行训练，训练后得到具有准确预测面部脉搏波信号能力的时空卷积网络模型；

L=βL_r+(1-β)L₁；

L_r=1-Cov(S_ppg,S^f)/(σ_Sppgσ_Sf)；

S203：将S102中获取的面部感兴趣区域帧序列输入最终训练后的时空卷积网络模型中，对人体面部脉搏波信号进行预测；

2.根据权利要求1所述的一种基于rPPG的人脸活体检测方法，其特征在于：所述S10包括：

S101：使用多任务卷积神经网络对RGB视频进行处理，在处理过程中，对RGB视频中的人脸进行检测，根据检测结果获取人脸帧序列；

S102：采用人脸对齐网络，对S101中获取的人脸图像中二维面部的68个特征点进行检测，并选取人脸鼻子和左右脸颊作为感兴趣区域，获取感兴趣区域帧序列。

3.根据权利要求2所述的一种基于rPPG的人脸活体检测方法，其特征在于：所述S30包括：

S301：通过滑动窗口对S203中预测的人体面部脉搏波信号进行顺序提取，使用N点离散傅里叶变换将每个窗口内的信号从时域转换为频域，得到系数向量[X₁(k),…,X_W(k)]，其中，k=0,1,…,N/2-1，N表示离散时域信号的采样点数，k表示频域中的离散频率点，W表示单个系数向量中元素的个数，X(k)表示系数值，当|X_W(k)|＜1时，令|X_W(k)|=1；

；；

F=[μ₁,σ₁,…,μ_n,σ_n]；

其中，i=1,2,…,W，表示系数向量中各元素对应的编号，n表示滑动窗口总数，X_i(k)表示系数向量中编号为i的元素对应的系数值，F表示多尺度长期频谱统计特征向量，μ(k)表示求系数值取自然对数的均值的函数，σ(k)表示求系数值取自然对数的标准差的函数。

4.根据权利要求3所述的一种基于rPPG的人脸活体检测方法，其特征在于：所述S40包括：

S403：将合页损失函数作为支持向量机模型的损失函数，根据损失函数计算的支持向量机模型的损失值，对支持向量机模型进行优化处理，最终得到训练后的支持向量机模型，损失函数的具体公式为：

L₁=max（0，1-y(ex+b)）；

其中，e表示权重参数，x表示输入的特征向量，b表示偏置项，y表示活体检测数据样本的真实标签，y(ex+b)表示预测结果与真实标签之间的差异值，当活体检测数据样本被正确分类时，y(ex+b)为负数或零，此时L₁=0，当活体检测数据样本被错误分类时，y(ex+b)为正数，此时L₁＞0；

5.一种应用于权利要求1-4任一项所述基于rPPG的人脸活体检测方法的基于rPPG的人脸活体检测系统，其特征在于：所述系统包括ROI序列获取模块、rPPG信号预测模块、MS-LTSS特征提取模块和目标人物判定模块；

所述ROI序列获取模块包括人脸帧序列获取单元和ROI序列获取单元；

所述ROI序列获取单元对人脸帧序列获取单元传输的人脸帧序列进行接收，采用人脸对齐网络对接收的人脸图像中二维面部的68个特征点进行检测，并选取人脸鼻子和左右脸颊作为感兴趣区域，获取感兴趣区域帧序列，并将获取的感兴趣区域帧序列传输至rPPG信号预测模块；

所述rPPG信号预测模块包括时空卷积网络构建单元、时空卷积网络模型训练单元和rPPG信号预测单元；

所述时空卷积网络构建单元从上到下依次架设一层自适应平均池化、一层2D残差卷积、5个时空卷积模块和一层聚合，单个所述时空卷积模块包括(2+1)D卷积层、批标准化层和ReLU激活函数层，所述自适应平均池化作为时空卷积网络的输入端，聚合作为时空卷积网络的输出端，并将构建的时空卷积网络传输至时空卷积网络模型训练单元；

所述rPPG信号预测单元对时空卷积网络模型训练单元传输的最终训练后的时空卷积网络模型，以及ROI序列获取单元传输的ROI序列进行接收，将接收的ROI序列输入最终最终训练后的时空卷积网络模型中，对rPPG信号进行预测，并将预测的rPPG信号传输至MS-LTSS特征提取模块；

6.根据权利要求5所述的一种基于rPPG的人脸活体检测系统，其特征在于：所述MS-LTSS特征提取模块包括频域转换单元和MS-LTSS特征向量获取单元；

7.根据权利要求6所述的一种基于rPPG的人脸活体检测系统，其特征在于：所述目标人物判定模块包括SVM构建单元、SVM模型训练单元和目标人物判定单元；