CN114821439A

CN114821439A - 一种基于令牌学习的人脸视频心率估计系统及方法

Info

Publication number: CN114821439A
Application number: CN202210506179.2A
Authority: CN
Inventors: 郭丹; 钱威; 张习伟; 刘学亮; 王方兵; 汪萌
Original assignee: Hefei Zhongjuyuan Intelligent Technology Co ltd
Current assignee: Hefei Zhongjuyuan Intelligent Technology Co ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-07-29

Abstract

本发明公开了一种基于令牌学习的人脸视频心率估计系统及方法，该方法包括：1输入人脸视频，对视频每一帧进行面部关键点检测；2使用所述面部关键点获取面部感兴趣区域，并通过色彩空间转换和像素平均池化操作提取人脸视频的多尺度时空图；3构建基于令牌学习的神经网络模型对所述多尺度时空图进行学习，并使用训练好的所述基于令牌学习的神经网络模型预测人脸视频的rPPG信号；4、对所述人脸视频的rPPG信号进行峰值点检测，并计算出相应的平均心率值。本发明使用基于令牌学习的神经网络模型实现人脸视频心率估计，从而提高了人脸视频心率估计的准确性和鲁棒性。

Description

一种基于令牌学习的人脸视频心率估计系统及方法

技术领域

本发明属于生理信号处理领域，涉及到计算机视觉、深度学习和信号处理等技术，具体地说是一种基于令牌学习的人脸视频心率估计系统及方法。

背景技术

早期的心率估计方法主要基于心电图技术和接触式光体积描记术信号，这些方法需要专业的设备通过接触患者的皮肤来收集心率数据，然而使用这些接触式传感器可能会使患者很不舒服，尤其对那些皮肤敏感的人群如皮肤烧伤的患者和新生婴儿，因此，基于非接触式的人脸视频心率估计吸引了越来越多的关注。

近些年来，基于远程光体积描记术(rPPG)信号的心率测量技术发展迅速，该技术可以通过普通摄像机在不需要任何皮肤接触的情况下从人脸视频中获取心率，其原理是皮肤对光的吸收随着心跳引起的血容量的周期性变化而变化。因此，可以通过捕捉周期性的肤色变化来估计心率。然而，这种皮肤颜色的变化十分微弱，而且很容易受到光照和头部运动等各种噪声的影响。

早期的基于rPPG的心率测量方法主要使用色彩空间转换和信号分解的方法从视频中提取生理信号，然后这些方法受限于某种确切的假设，如特定的皮肤反射模型和线性组合，不能适用于其它复杂的场景。随着深度学习的快速发展，一些方法开始使用具有强大建模能力的深度学习来解决人脸视频中各种噪音的影响，但这些方法主要利用传统的卷积神经网络对视频或手工提取的特征图进行处理，存在着很多弊端，尤其卷积神经网络受限于有限的时空感受野，常常忽略了长范围的时空感受野之间的相互作用，从而导致人脸视频的心率估计结果精确度较差，且泛化性较弱，难以适应各种复杂的现实场景。

发明内容

本发明针对现有技术中存在的不足之处，提供一种基于令牌学习的人脸视频心率估计系统及方法，以期能实现人脸视频心率的准确估计，并能提高人脸视频心率估计的准确性和鲁棒性。

本发明为解决技术问题采用如下的方法方案：

本发明一种基于令牌学习的人脸视频心率估计系统的特点在于，包括：面部关键点检测模块、特征提取模块、rPPG信号预测模块和心率计算模块；

所述面部关键点检测模块采用基于深度学习的人脸检测器OpenFace检测人脸视频中每一帧的面部关键点位置；

所述特征提取模块通过所述面部关键点位置选取面部感兴趣区域，再对所述面部感兴趣区域进行色彩空间转换后，再采用像素平均池化操作对转换后的面部感兴趣区域进行去噪处理，从而生成人脸视频的多尺度时空图；

所述rPPG信号预测模块基于所述人脸视频的多尺度时空图，采用深度学习的方法搭建并训练基于令牌学习的神经网络模型，并使用训练好的基于令牌学习的神经网络模型对待预测的多尺度时空图进行转换，得到相应的rPPG信号；

所述心率计算模块对所述rPPG信号进行峰值点检测以获得心跳的频率，从而输出所述人脸视频的平均心率值。

本发明所述的基于令牌学习的人脸视频心率估计系统的特点也在于，所述rPPG信号预测模块是按如下过程进行神经网络模型的训练：

步骤a：构建基于令牌学习的神经网络模型，包括：令牌提取器、Transformer编码器和rPPG信号预测器，其中，所述令牌提取器由线性映射层、额外的可学习令牌和位置编码嵌入层构成，所述Transformer编码器包含L层结构，每一层均由第一层标准化层、多头注意力层、第一残差连接层、第二层标准化层、第一多层感知机和第二残差连接层顺序构成，所述rPPG信号预测器由第三层标准化层和第二多层感知机构成；

步骤b：所述人脸视频的多尺度时空图输入所述令牌提取器中，先将所述人脸视频的多尺度时空图切分成不同的图像块，然后，所述图像块经过线性映射层的处理后得到令牌，所述令牌和额外的可学习令牌输入位置编码嵌入层中进行处理，从而获取令牌特征；

所述令牌特征依次经过Transformer编码器的L层结构处理后，由最后一层结构输出的令牌特征，并从中获取rPPG信号的特征表示；

所述rPPG信号的特征表示依次经过所述rPPG信号预测器的第三层标准化和第二多层感知机的处理后，得到所述多尺度时空图对应的rPPG信号；

步骤c：利用负皮尔逊相关系数计算所述多尺度时空图对应的rPPG信号和标签PPG信号之间的误差，并作为所述基于令牌学习的神经网络模型的损失函数，再采用Adam优化器更新神经网络模型的参数，并在损失函数停止下降时停止训练，从而得到训练好的基于令牌学习的神经网络模型。

本发明一种基于令牌学习的人脸视频心率估计方法的特点是按如下步骤进行：

步骤1、数据预处理：

步骤1.1、获取心率估计数据集，令所述心率估计数据集中的任意一个人脸视频为V_i，令第i个人脸视频V_i对应的标签PPG信号为S_i，令所述第i个人脸视频V_i对应的标签心率值序列为HR_i，1≤i≤N_vid，N_vid为所述心率估计数据集中的视频总数量；

步骤1.2、使用基于深度学习的人脸检测器OpenFace检测所述人脸视频V_i中第t帧人脸图像f_t ⁱ的面部关键点位置，并标定所述面部关键点位置的坐标集合为

其中，

表示第i个人脸视频V_i中第t帧人脸图像f_t ⁱ的第j个面部关键点位置坐标，T_i表示第i个人脸视频V_i的总帧数，W表示所述基于深度学习的人脸检测器OpenFace所识别的面部关键点个数；

步骤1.3、使用所述第i个人脸视频V_i中第t帧人脸图像f_t ⁱ的面部关键点位置的坐标集合

定义面部感兴趣区域

其中，

表示所述第i个人脸视频V_i中第t帧人脸图像f_t ⁱ的第n个面部感兴趣区，n表示面部感兴趣区域个数；

步骤1.4、将所述面部感兴趣区域

由RGB三通道转换成YUV三通道，得到色彩空间转换后的感兴趣区域

步骤1.5、计算所述色彩空间转换后的感兴趣区域

的所有非空子集；令任意一个非空子集中的(2ⁿ-1)个元素分别表示不同组合的感兴趣区域，并对每种组合的感兴趣区域的每个色彩通道进行像素平均池化操作，从而得到(2ⁿ-1)×C个长度为T_i帧的信号序列，对所述信号序列按行堆叠后获得所述第i个人脸视频V_i的多尺度时空图

其中，C＝3表示色彩通道数；

步骤1.6、使用长度为T帧、步长为st帧的滑动窗口将所述多尺度时空图M_i切分成定长的多尺度时空图集合

同时将标签PPG信号S_i切分成同样定长的PPG信号集合

将标签心率值序列HR_i也切分成同样定长的心率集合

其中，

表示第i个人脸视频V_i生成的第k个定长多尺度时空图，

表示所述第k个定长多尺度时空图

对应的PPG信号，

表示所述第k个定长多尺度时空图

对应的心率值序列，

表示第i个人脸视频V_i生成的定长多尺度时空图数量，从而对所述心率估计数据集中所有人脸视频及其对应的标签数据进行预处理操作，并构成训练数据集

其中，I^p为所述训练数据集中第p个定长多尺度时空图，

为第p个定长多尺度时空图I^p对应的标签PPG信号，

为第p个定长多尺度时空图I^p对应的标签心率值序列，N为训练数据集中定尺多尺度时空图的总个数；

步骤2、基于令牌学习的神经网络模型的训练：

建立基于令牌学习的神经网络模型F(I^p,ζ)，包括：令牌提取器、Transformer编码器和rPPG信号预测器，其中，ξ为所述基于令牌学习的神经网络模型F(I^p,ζ)的参数；

令当前训练次数为e，并初始化e＝1，令第e次训练时神经网络模型F(I^p,ζ)的参数为ξ_e；

步骤2.1、令牌提取器的处理：

步骤2.1.1、将所述第p个定长多尺度时空图I^p按行切分成(2ⁿ-1)个图像块

其中，

为第p个定长多尺度时空图I^p的第q个图像块，P_h表示图像块的高，P_w表示图像块的宽；

步骤2.1.2、所述令牌提取器利用式(1)提取(2ⁿ-1)个图像块

中第0层令牌特征

并作为所述第p个定长多尺度时空图I^p的第0层令牌特征：

式(1)中，

为线性映射层，用于将所述(2ⁿ-1)个图像块

映射到D维令牌向量空间中，

为额外的可学习令牌，用于预测rPPG信号，

为额外的可学习位置嵌入向量，表示令牌

的位置信息；

步骤2.2、Transformer编码器的处理：

所述Transformer编码器利用式(2)对第l-1层令牌特征Z_l-1进行编码，并输出第l层的令牌特征

从而得到第L层的令牌特征

式(2)中，MSA为多头注意力层，LN为层标准化；MLP为多层感知机层，Z_l′为第l层经过多头注意力处理后的令牌特征，L为Transformer编码器的层数；

步骤2.3、rPPG信号预测器的处理；

rPPG信号预测器利用式(3)获得所述第p个定长多尺度时空图I^p对应的的rPPG信号

式(3)中，

为额外的可学习令牌X_rPPG经过所述Transformer编码器后输出的令牌特征；步骤2.4、利用式(4)构建第e次训练时神经网络模型的损失函数Loss(ξ_e)：

式(4)中，

为所述训练数据集中第p个定长多尺度时空图I^p经过基于令牌学习的神经网络模型预测后的rPPG信号，

为训练数据集中第p个定长多尺度时空图I^p的标签PPG信号，Con(·,·)表示协方差；

步骤2.5、判断所述第e次训练时的误差Loss(ξ_e)是否收敛，如果收敛，则表示所述第e次训练时的神经网络模型参数ξ_e为最优参数，并以最优参数作为最终神经网络模型的参数，得到训练好的基于令牌学习的神经网络模型；否则，则对所述神经网络模型进行反向传播，从而更新神经网络模型的参数，再执行步骤2.1；

步骤3、心率计算；

利用峰值点检测计算所述训练好的基于令牌学习的神经网络模型预测的rPPG信号的各个峰值点位置，并通过所述峰值点位置计算出心跳频率，从而计算出所述rPPG信号对应的平均心率值。

与现有技术相比，本发明的有益效果体现在：

1、本发明利用先进的深度学习技术，提出了基于令牌学习的人脸视频心率估计系统，该系统由面部关键点检测模块、特征提取模块、rPPG信号预测模块和心率计算模块组成，可以适用于估计包含各种光照强度和头部运动噪音的人脸视频的心率值，并提高了人脸视频心率估计的准确性和鲁棒性。

2、本发明提出的特征提取模块中，利用面部关键点获取面部生理信号最丰富的感兴趣区域，并通过色彩空间转换和像素平均池化操作将视频转换成多尺度时空图，较好地抑制了背景区域的噪音，同时还增强了微弱的心率信号。

3、本发明提出的rPPG信号预测模块中，使用基于令牌学习的神经网络模型自适应地整合多尺度时空图的全局特征，而不再受限于卷积神经网络有限的时空感受野，从而降低了误差，提高了预测准确度。

4、本发明提出一种基于令牌学习的人脸视频心率估计方法，该方法提取不同组合感兴趣区域全局时间上的令牌特征，再通过Transformer编码器学习不同令牌特征之间的全局相关性，从而充分挖掘人脸视频中微弱的心率信号，有利于进一步提高该方法的鲁棒性。

附图说明

图1为本发明基于令牌学习的人脸视频心率估计系统的结构示意图；

图2为本发明基于令牌学习的人脸视频心率估计系统的特征提取模块的结构框图；

图3为本发明基于令牌学习的人脸视频心率估计系统的rPPG信号预测模块的结构框图。

具体实施方式

下面将结合附图，对本发明的具体实施技术方案进行详细说明。

本实施例中，一种基于令牌学习的人脸视频心率估计系统，如图1所示，包括：面部关键点检测模块，特征提取模块，rPPG信号预测模块和心率计算模块。

其中，面部关键点检测模块，是从输入的人脸视频每一帧人脸图像中检测面部关键点位置；

具体实施中，是输入一段人脸视频，使用基于深度学习的人脸检测器OpenFace检测人脸视频中每一帧人脸图像的面部关键点位置；

特征提取模块的结构框图如图2所示，通过面部关键点位置选取面部感兴趣区域，再对面部感兴趣区域进行色彩空间转换，并采用像素平均池化操作进行去噪处理，从而生成人脸视频的多尺度时空图；

具体实施中，通过W＝68个面部关键点位置选取n＝6个面部感兴趣区域，再利用n个面部感兴趣区域的非空子集获得(2ⁿ-1)＝63个组合感兴趣区域，再对(2ⁿ-1)个组合感兴趣区域进行色彩空间转换，由RGB色彩空间转换为YUV色彩空间，并采用像素平均池化操作进行去噪处理，从而生成人脸视频的多尺度时空图，再利用长T＝300帧、步长st＝15帧的滑动窗口将多尺度时空图切分成多个定长多尺度时空图；

rPPG信号预测模块的结构框图如图3所示，是采用深度学习的方法搭建并训练基于令牌学习的神经网络模型，并使用训练好的基于令牌学习的神经网络模型对定长多尺度时空图进行转换，得到相应的rPPG信号；

具体实施中，rPPG信号预测模块是按如下过程进行神经网络模型的训练：

步骤a：构建基于令牌学习的神经网络模型，包括：令牌提取器、Transformer编码器和rPPG信号预测器，其中，令牌提取器由线性映射层、额外的可学习令牌和位置编码嵌入构成，Transformer编码器由层标准化、多头注意力、残差连接、层标准化、多层感知机和残差连接顺序构成，rPPG信号预测器由层标准化和多层感知机构成；

步骤b：人脸视频的多尺度时空图输入令牌提取器中，将人脸视频的多尺度时空图切分成不同的图像块，图像块经过线性映射层处理后得到令牌，并增加一个额外的可学习令牌，再对所有令牌增加位置编码嵌入，从而获取令牌特征；

令牌特征依次经过Transformer编码器的层标准化、多头注意力、残差连接、层标准化、多层感知机和残差连接的处理，得到更新后的令牌特征，将更新后的令牌特征依次经过L层Transformer编码器的处理后，从而从最后一层的令牌特征中获得rPPG信号的特征表示；

rPPG信号的特征表示依次经过rPPG信号预测器的层标准化和多层感知机处理后，得到多尺度时空图对应的rPPG信号；

步骤c：利用负皮尔逊相关系数计算多尺度时空图对应的rPPG信号和标签PPG信号之间的误差，并作为基于令牌学习的神经网络模型的损失函数，再采用Adam优化器更新模型参数，并在损失函数停止下降时停止训练，从而得到训练好的基于令牌学习的神经网络模型；

心率计算模块，是使用峰值点检测计算出rPPG信号所有的峰值点位置，并通过峰值点位置计算出平均心跳频率，从而计算出rPPG信号对应的平均心率值。

本实施例中，一种基于令牌学习的人脸视频心率估计方法是先输入人脸视频，检测人脸视频中每一帧的面部关键点位置；再使用面部关键点位置获取面部感兴趣区域，并对面部感兴趣区域进行色彩空间转换和像素平均池化操作，从而生成人脸视频的多尺度时空图；然后，构建基于令牌学习的神经网络模型对多尺度时空图进行学习，并预测相应的rPPG信号；最后对预测的rPPG信号进行峰值点检测，并计算出相应的平均心率值。具体的说，包括如下步骤：

步骤1、获取心率估计数据集，并将数据集中的视频按参与者划分为训练数据集和测试数据集两部分。划分的训练集占总视频的80％，测试数据集占剩下的20％。每条视频同时包含RGB视频、标签PPG信号和标签心率值。

步骤2、数据预处理：

步骤2.1、令心率估计数据集中的任意一个人脸视频为V_i，令第i个人脸视频V_i对应的标签PPG信号为S_i，令第i个人脸视频V_i对应的标签心率值序列为HR_i，1≤i≤N_vid，N_vid为心率估计数据集中的视频总数量；

步骤2.2、使用基于深度学习的人脸检测器OpenFace检测人脸视频V_i中第t帧f_t ⁱ的面部关键点位置，并标定面部关键点位置的坐标集合为

其中，

表示第i个人脸视频V_i中第t帧f_t ⁱ的第j个面部关键点位置坐标，T_i表示第i个人脸视频V_i的总帧数，W＝68表示基于深度学习的人脸检测器OpenFace所识别的面部关键点个数；

步骤2.3、使用第i个人脸视频V_i中第t帧f_t ⁱ的面部关键点位置的坐标集合

定义面部感兴趣区域

其中，

表示第i个人脸视频V_i中第t帧f_t ⁱ的第n个面部感兴趣区，n＝6表示面部感兴趣区域个数；

步骤2.4、将面部感兴趣区域

步骤2.5、计算色彩空间转换后的感兴趣区域

的所有非空子集；令任意一个非空子集中的(2ⁿ-1)个元素分别表示不同组合的感兴趣区域，并对每种组合的感兴趣区域的每个色彩通道进行像素平均池化操作，从而得到(2ⁿ-1)×C个长度为T_i帧的信号序列，对信号序列按行堆叠后获得第i个人脸视频V_i的多尺度时空图

其中，C＝3表示色彩通道数；

步骤2.6、使用长度为T＝300帧、步长为st＝15帧的滑动窗口将多尺度时空图M_i切分成定长的多尺度时空图集合

实现数据增广，同时将标签PPG信号S_i切分成同样定长的PPG信号集合

将标签心率值序列HR_i也切分成同样定长的心率集合

其中，

表示第i个人脸视频生成的第k个定长多尺度时空图，

表示定长多尺度时空图

对应的PPG信号，

表示定长多尺度时空图

对应的心率值序列，

表示第i个人脸视频生成的定长多尺度时空图数量，从而对心率估计数据集中所有人脸视频及其对应的标签数据进行预处理操作，并构成训练数据集

其中，I^p为训练集中第p个定长多尺度时空图，

为I^p对应的标签PPG信号，

为I^p对应的标签心率值序列，N为训练数据集中定尺多尺度时空图的总个数；

步骤3、神经网络模型训练：

建立基于令牌学习的神经网络模型F(I^p,ζ)，包括：令牌提取器、Transformer编码器和rPPG信号预测器，其中，I^p为训练集中第p个定长多尺度时空图，ξ为基于令牌学习的神经网络模型F(I^p,ζ)的参数；

步骤3.1、令牌提取器：

步骤3.1.1、将定长多尺度时空图I^p按行切分成(2ⁿ-1)个图像块

其中，

为训练集中第p个定长多尺度时空图的第q个图像块，P_h＝1表示图像块的高，P_w＝T＝300表示图像块的宽；

步骤3.1.2、利用式(1)所示的令牌提取器提取第0层令牌特征，从而得到定长多尺度时空图I^p的第0层令牌特征

其中，

为线性映射层，将(2ⁿ-1)个图像块

映射到D维令牌向量空间中，

为额外的可学习令牌，用来预测rPPG信号，

为额外的可学习位置嵌入向量，表示令牌

的位置信息；

步骤3.2、Transformer编码器：

利用式(2)所示Transformer编码器对各层令牌特征Z_l-1,l∈1,2,...,L进行编码，输出第l层的令牌特征

其中，MSA为多头注意力层，MLP为多层感知机层，L＝6为Transformer编码器的层数；步骤3.3、rPPG信号预测器

利用式(3)所示的rPPG信号预测器获得定长多尺度时空图I^p对应的的rPPG信号

式(3)中，

为额外的可学习令牌X_rPPG经过L层Transformer编码器后输出的令牌特征，LN为层标准化，MLP为多层感知机层；

步骤3.4、利用式(4)构建第e次训练时神经网络模型的损失函数Loss(ξ_e)：

式(4)中，

为训练集中第p个定长多尺度时空图经过模型预测后的rPPG信号，

为训练集中第p个定长多尺度时空图的标签PPG信号，Con(·,·)表示协方差，N为训练集中定尺多尺度时空图的总个数；

步骤3.5、判断第e次训练时的误差Loss(ξ_e)是否收敛，如果收敛则表示第e次训练时的神经网络模型参数ξ_e为最优参数，并以最优参数作为最终神经网络模型的参数；否则，则对神经网络模型进行反向传播，从而更新神经网络模型的参数，再执行步骤2；

步骤4、心率计算

利用峰值点检测计算最优神经网络模型预测的rPPG信号的各个峰值点位置，并通过峰值点位置计算出心跳频率，从而计算出rPPG信号对应的平均心率值。

综上所述，本发明提出的一种基于令牌学习的人脸视频心率估计系统及方法，解决了传统基于卷积神经神经网络的方法受限于有限的时空感受野，同时利用能够抑制噪音和增强心率信号的多尺度时空图表示人脸视频中的心率信号；提取不同组合感兴趣区域全局时间上的令牌特征，再通过Transformer编码器学习不同令牌特征之间的全局相关性，从而充分挖掘人脸视频中微弱的心率信号；该人脸视频心率估计系统及方法有效地提升了人脸视频心率估计的准确性，同时能够克服复杂的场景噪音，增加了心率估计的鲁棒性。