CN114821439A - 一种基于令牌学习的人脸视频心率估计系统及方法 - Google Patents

一种基于令牌学习的人脸视频心率估计系统及方法 Download PDF

Info

Publication number
CN114821439A
CN114821439A CN202210506179.2A CN202210506179A CN114821439A CN 114821439 A CN114821439 A CN 114821439A CN 202210506179 A CN202210506179 A CN 202210506179A CN 114821439 A CN114821439 A CN 114821439A
Authority
CN
China
Prior art keywords
token
face
heart rate
layer
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210506179.2A
Other languages
English (en)
Inventor
郭丹
钱威
张习伟
刘学亮
王方兵
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Zhongjuyuan Intelligent Technology Co ltd
Original Assignee
Hefei Zhongjuyuan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Zhongjuyuan Intelligent Technology Co ltd filed Critical Hefei Zhongjuyuan Intelligent Technology Co ltd
Priority to CN202210506179.2A priority Critical patent/CN114821439A/zh
Publication of CN114821439A publication Critical patent/CN114821439A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/024Detecting, measuring or recording pulse rate or heart rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Cardiology (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physiology (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于令牌学习的人脸视频心率估计系统及方法,该方法包括:1输入人脸视频,对视频每一帧进行面部关键点检测;2使用所述面部关键点获取面部感兴趣区域,并通过色彩空间转换和像素平均池化操作提取人脸视频的多尺度时空图;3构建基于令牌学习的神经网络模型对所述多尺度时空图进行学习,并使用训练好的所述基于令牌学习的神经网络模型预测人脸视频的rPPG信号;4、对所述人脸视频的rPPG信号进行峰值点检测,并计算出相应的平均心率值。本发明使用基于令牌学习的神经网络模型实现人脸视频心率估计,从而提高了人脸视频心率估计的准确性和鲁棒性。

Description

一种基于令牌学习的人脸视频心率估计系统及方法
技术领域
本发明属于生理信号处理领域,涉及到计算机视觉、深度学习和信号处理等技术,具体地说是一种基于令牌学习的人脸视频心率估计系统及方法。
背景技术
早期的心率估计方法主要基于心电图技术和接触式光体积描记术信号,这些方法需要专业的设备通过接触患者的皮肤来收集心率数据,然而使用这些接触式传感器可能会使患者很不舒服,尤其对那些皮肤敏感的人群如皮肤烧伤的患者和新生婴儿,因此,基于非接触式的人脸视频心率估计吸引了越来越多的关注。
近些年来,基于远程光体积描记术(rPPG)信号的心率测量技术发展迅速,该技术可以通过普通摄像机在不需要任何皮肤接触的情况下从人脸视频中获取心率,其原理是皮肤对光的吸收随着心跳引起的血容量的周期性变化而变化。因此,可以通过捕捉周期性的肤色变化来估计心率。然而,这种皮肤颜色的变化十分微弱,而且很容易受到光照和头部运动等各种噪声的影响。
早期的基于rPPG的心率测量方法主要使用色彩空间转换和信号分解的方法从视频中提取生理信号,然后这些方法受限于某种确切的假设,如特定的皮肤反射模型和线性组合,不能适用于其它复杂的场景。随着深度学习的快速发展,一些方法开始使用具有强大建模能力的深度学习来解决人脸视频中各种噪音的影响,但这些方法主要利用传统的卷积神经网络对视频或手工提取的特征图进行处理,存在着很多弊端,尤其卷积神经网络受限于有限的时空感受野,常常忽略了长范围的时空感受野之间的相互作用,从而导致人脸视频的心率估计结果精确度较差,且泛化性较弱,难以适应各种复杂的现实场景。
发明内容
本发明针对现有技术中存在的不足之处,提供一种基于令牌学习的人脸视频心率估计系统及方法,以期能实现人脸视频心率的准确估计,并能提高人脸视频心率估计的准确性和鲁棒性。
本发明为解决技术问题采用如下的方法方案:
本发明一种基于令牌学习的人脸视频心率估计系统的特点在于,包括:面部关键点检测模块、特征提取模块、rPPG信号预测模块和心率计算模块;
所述面部关键点检测模块采用基于深度学习的人脸检测器OpenFace检测人脸视频中每一帧的面部关键点位置;
所述特征提取模块通过所述面部关键点位置选取面部感兴趣区域,再对所述面部感兴趣区域进行色彩空间转换后,再采用像素平均池化操作对转换后的面部感兴趣区域进行去噪处理,从而生成人脸视频的多尺度时空图;
所述rPPG信号预测模块基于所述人脸视频的多尺度时空图,采用深度学习的方法搭建并训练基于令牌学习的神经网络模型,并使用训练好的基于令牌学习的神经网络模型对待预测的多尺度时空图进行转换,得到相应的rPPG信号;
所述心率计算模块对所述rPPG信号进行峰值点检测以获得心跳的频率,从而输出所述人脸视频的平均心率值。
本发明所述的基于令牌学习的人脸视频心率估计系统的特点也在于,所述rPPG信号预测模块是按如下过程进行神经网络模型的训练:
步骤a:构建基于令牌学习的神经网络模型,包括:令牌提取器、Transformer编码器和rPPG信号预测器,其中,所述令牌提取器由线性映射层、额外的可学习令牌和位置编码嵌入层构成,所述Transformer编码器包含L层结构,每一层均由第一层标准化层、多头注意力层、第一残差连接层、第二层标准化层、第一多层感知机和第二残差连接层顺序构成,所述rPPG信号预测器由第三层标准化层和第二多层感知机构成;
步骤b:所述人脸视频的多尺度时空图输入所述令牌提取器中,先将所述人脸视频的多尺度时空图切分成不同的图像块,然后,所述图像块经过线性映射层的处理后得到令牌,所述令牌和额外的可学习令牌输入位置编码嵌入层中进行处理,从而获取令牌特征;
所述令牌特征依次经过Transformer编码器的L层结构处理后,由最后一层结构输出的令牌特征,并从中获取rPPG信号的特征表示;
所述rPPG信号的特征表示依次经过所述rPPG信号预测器的第三层标准化和第二多层感知机的处理后,得到所述多尺度时空图对应的rPPG信号;
步骤c:利用负皮尔逊相关系数计算所述多尺度时空图对应的rPPG信号和标签PPG信号之间的误差,并作为所述基于令牌学习的神经网络模型的损失函数,再采用Adam优化器更新神经网络模型的参数,并在损失函数停止下降时停止训练,从而得到训练好的基于令牌学习的神经网络模型。
本发明一种基于令牌学习的人脸视频心率估计方法的特点是按如下步骤进行:
步骤1、数据预处理:
步骤1.1、获取心率估计数据集,令所述心率估计数据集中的任意一个人脸视频为Vi,令第i个人脸视频Vi对应的标签PPG信号为Si,令所述第i个人脸视频Vi对应的标签心率值序列为HRi,1≤i≤Nvid,Nvid为所述心率估计数据集中的视频总数量;
步骤1.2、使用基于深度学习的人脸检测器OpenFace检测所述人脸视频Vi中第t帧人脸图像ft i的面部关键点位置,并标定所述面部关键点位置的坐标集合为
Figure BDA0003636254450000031
其中,
Figure BDA0003636254450000032
表示第i个人脸视频Vi中第t帧人脸图像ft i的第j个面部关键点位置坐标,Ti表示第i个人脸视频Vi的总帧数,W表示所述基于深度学习的人脸检测器OpenFace所识别的面部关键点个数;
步骤1.3、使用所述第i个人脸视频Vi中第t帧人脸图像ft i的面部关键点位置的坐标集合
Figure BDA0003636254450000033
定义面部感兴趣区域
Figure BDA0003636254450000034
其中,
Figure BDA0003636254450000035
表示所述第i个人脸视频Vi中第t帧人脸图像ft i的第n个面部感兴趣区,n表示面部感兴趣区域个数;
步骤1.4、将所述面部感兴趣区域
Figure BDA0003636254450000036
由RGB三通道转换成YUV三通道,得到色彩空间转换后的感兴趣区域
Figure BDA0003636254450000037
步骤1.5、计算所述色彩空间转换后的感兴趣区域
Figure BDA0003636254450000038
的所有非空子集;令任意一个非空子集中的(2n-1)个元素分别表示不同组合的感兴趣区域,并对每种组合的感兴趣区域的每个色彩通道进行像素平均池化操作,从而得到(2n-1)×C个长度为Ti帧的信号序列,对所述信号序列按行堆叠后获得所述第i个人脸视频Vi的多尺度时空图
Figure BDA0003636254450000039
其中,C=3表示色彩通道数;
步骤1.6、使用长度为T帧、步长为st帧的滑动窗口将所述多尺度时空图Mi切分成定长的多尺度时空图集合
Figure BDA00036362544500000310
同时将标签PPG信号Si切分成同样定长的PPG信号集合
Figure BDA00036362544500000311
将标签心率值序列HRi也切分成同样定长的心率集合
Figure BDA00036362544500000312
其中,
Figure BDA00036362544500000313
表示第i个人脸视频Vi生成的第k个定长多尺度时空图,
Figure BDA00036362544500000314
表示所述第k个定长多尺度时空图
Figure BDA00036362544500000315
对应的PPG信号,
Figure BDA00036362544500000316
表示所述第k个定长多尺度时空图
Figure BDA00036362544500000317
对应的心率值序列,
Figure BDA0003636254450000041
表示第i个人脸视频Vi生成的定长多尺度时空图数量,从而对所述心率估计数据集中所有人脸视频及其对应的标签数据进行预处理操作,并构成训练数据集
Figure BDA0003636254450000042
其中,Ip为所述训练数据集中第p个定长多尺度时空图,
Figure BDA0003636254450000043
为第p个定长多尺度时空图Ip对应的标签PPG信号,
Figure BDA0003636254450000044
为第p个定长多尺度时空图Ip对应的标签心率值序列,N为训练数据集中定尺多尺度时空图的总个数;
步骤2、基于令牌学习的神经网络模型的训练:
建立基于令牌学习的神经网络模型F(Ip,ζ),包括:令牌提取器、Transformer编码器和rPPG信号预测器,其中,ξ为所述基于令牌学习的神经网络模型F(Ip,ζ)的参数;
令当前训练次数为e,并初始化e=1,令第e次训练时神经网络模型F(Ip,ζ)的参数为ξe
步骤2.1、令牌提取器的处理:
步骤2.1.1、将所述第p个定长多尺度时空图Ip按行切分成(2n-1)个图像块
Figure BDA0003636254450000045
其中,
Figure BDA0003636254450000046
为第p个定长多尺度时空图Ip的第q个图像块,Ph表示图像块的高,Pw表示图像块的宽;
步骤2.1.2、所述令牌提取器利用式(1)提取(2n-1)个图像块
Figure BDA0003636254450000047
中第0层令牌特征
Figure BDA0003636254450000048
并作为所述第p个定长多尺度时空图Ip的第0层令牌特征:
Figure BDA0003636254450000049
式(1)中,
Figure BDA00036362544500000410
为线性映射层,用于将所述(2n-1)个图像块
Figure BDA00036362544500000411
映射到D维令牌向量空间中,
Figure BDA00036362544500000412
为额外的可学习令牌,用于预测rPPG信号,
Figure BDA00036362544500000413
为额外的可学习位置嵌入向量,表示令牌
Figure BDA00036362544500000414
的位置信息;
步骤2.2、Transformer编码器的处理:
所述Transformer编码器利用式(2)对第l-1层令牌特征Zl-1进行编码,并输出第l层的令牌特征
Figure BDA00036362544500000415
从而得到第L层的令牌特征
Figure BDA00036362544500000416
Figure BDA00036362544500000417
式(2)中,MSA为多头注意力层,LN为层标准化;MLP为多层感知机层,Zl′为第l层经过多头注意力处理后的令牌特征,L为Transformer编码器的层数;
步骤2.3、rPPG信号预测器的处理;
rPPG信号预测器利用式(3)获得所述第p个定长多尺度时空图Ip对应的的rPPG信号
Figure BDA0003636254450000051
Figure BDA0003636254450000052
式(3)中,
Figure BDA0003636254450000053
为额外的可学习令牌XrPPG经过所述Transformer编码器后输出的令牌特征;步骤2.4、利用式(4)构建第e次训练时神经网络模型的损失函数Loss(ξe):
Figure BDA0003636254450000054
式(4)中,
Figure BDA0003636254450000055
为所述训练数据集中第p个定长多尺度时空图Ip经过基于令牌学习的神经网络模型预测后的rPPG信号,
Figure BDA0003636254450000056
为训练数据集中第p个定长多尺度时空图Ip的标签PPG信号,Con(·,·)表示协方差;
步骤2.5、判断所述第e次训练时的误差Loss(ξe)是否收敛,如果收敛,则表示所述第e次训练时的神经网络模型参数ξe为最优参数,并以最优参数作为最终神经网络模型的参数,得到训练好的基于令牌学习的神经网络模型;否则,则对所述神经网络模型进行反向传播,从而更新神经网络模型的参数,再执行步骤2.1;
步骤3、心率计算;
利用峰值点检测计算所述训练好的基于令牌学习的神经网络模型预测的rPPG信号的各个峰值点位置,并通过所述峰值点位置计算出心跳频率,从而计算出所述rPPG信号对应的平均心率值。
与现有技术相比,本发明的有益效果体现在:
1、本发明利用先进的深度学习技术,提出了基于令牌学习的人脸视频心率估计系统,该系统由面部关键点检测模块、特征提取模块、rPPG信号预测模块和心率计算模块组成,可以适用于估计包含各种光照强度和头部运动噪音的人脸视频的心率值,并提高了人脸视频心率估计的准确性和鲁棒性。
2、本发明提出的特征提取模块中,利用面部关键点获取面部生理信号最丰富的感兴趣区域,并通过色彩空间转换和像素平均池化操作将视频转换成多尺度时空图,较好地抑制了背景区域的噪音,同时还增强了微弱的心率信号。
3、本发明提出的rPPG信号预测模块中,使用基于令牌学习的神经网络模型自适应地整合多尺度时空图的全局特征,而不再受限于卷积神经网络有限的时空感受野,从而降低了误差,提高了预测准确度。
4、本发明提出一种基于令牌学习的人脸视频心率估计方法,该方法提取不同组合感兴趣区域全局时间上的令牌特征,再通过Transformer编码器学习不同令牌特征之间的全局相关性,从而充分挖掘人脸视频中微弱的心率信号,有利于进一步提高该方法的鲁棒性。
附图说明
图1为本发明基于令牌学习的人脸视频心率估计系统的结构示意图;
图2为本发明基于令牌学习的人脸视频心率估计系统的特征提取模块的结构框图;
图3为本发明基于令牌学习的人脸视频心率估计系统的rPPG信号预测模块的结构框图。
具体实施方式
下面将结合附图,对本发明的具体实施技术方案进行详细说明。
本实施例中,一种基于令牌学习的人脸视频心率估计系统,如图1所示,包括:面部关键点检测模块,特征提取模块,rPPG信号预测模块和心率计算模块。
其中,面部关键点检测模块,是从输入的人脸视频每一帧人脸图像中检测面部关键点位置;
具体实施中,是输入一段人脸视频,使用基于深度学习的人脸检测器OpenFace检测人脸视频中每一帧人脸图像的面部关键点位置;
特征提取模块的结构框图如图2所示,通过面部关键点位置选取面部感兴趣区域,再对面部感兴趣区域进行色彩空间转换,并采用像素平均池化操作进行去噪处理,从而生成人脸视频的多尺度时空图;
具体实施中,通过W=68个面部关键点位置选取n=6个面部感兴趣区域,再利用n个面部感兴趣区域的非空子集获得(2n-1)=63个组合感兴趣区域,再对(2n-1)个组合感兴趣区域进行色彩空间转换,由RGB色彩空间转换为YUV色彩空间,并采用像素平均池化操作进行去噪处理,从而生成人脸视频的多尺度时空图,再利用长T=300帧、步长st=15帧的滑动窗口将多尺度时空图切分成多个定长多尺度时空图;
rPPG信号预测模块的结构框图如图3所示,是采用深度学习的方法搭建并训练基于令牌学习的神经网络模型,并使用训练好的基于令牌学习的神经网络模型对定长多尺度时空图进行转换,得到相应的rPPG信号;
具体实施中,rPPG信号预测模块是按如下过程进行神经网络模型的训练:
步骤a:构建基于令牌学习的神经网络模型,包括:令牌提取器、Transformer编码器和rPPG信号预测器,其中,令牌提取器由线性映射层、额外的可学习令牌和位置编码嵌入构成,Transformer编码器由层标准化、多头注意力、残差连接、层标准化、多层感知机和残差连接顺序构成,rPPG信号预测器由层标准化和多层感知机构成;
步骤b:人脸视频的多尺度时空图输入令牌提取器中,将人脸视频的多尺度时空图切分成不同的图像块,图像块经过线性映射层处理后得到令牌,并增加一个额外的可学习令牌,再对所有令牌增加位置编码嵌入,从而获取令牌特征;
令牌特征依次经过Transformer编码器的层标准化、多头注意力、残差连接、层标准化、多层感知机和残差连接的处理,得到更新后的令牌特征,将更新后的令牌特征依次经过L层Transformer编码器的处理后,从而从最后一层的令牌特征中获得rPPG信号的特征表示;
rPPG信号的特征表示依次经过rPPG信号预测器的层标准化和多层感知机处理后,得到多尺度时空图对应的rPPG信号;
步骤c:利用负皮尔逊相关系数计算多尺度时空图对应的rPPG信号和标签PPG信号之间的误差,并作为基于令牌学习的神经网络模型的损失函数,再采用Adam优化器更新模型参数,并在损失函数停止下降时停止训练,从而得到训练好的基于令牌学习的神经网络模型;
心率计算模块,是使用峰值点检测计算出rPPG信号所有的峰值点位置,并通过峰值点位置计算出平均心跳频率,从而计算出rPPG信号对应的平均心率值。
本实施例中,一种基于令牌学习的人脸视频心率估计方法是先输入人脸视频,检测人脸视频中每一帧的面部关键点位置;再使用面部关键点位置获取面部感兴趣区域,并对面部感兴趣区域进行色彩空间转换和像素平均池化操作,从而生成人脸视频的多尺度时空图;然后,构建基于令牌学习的神经网络模型对多尺度时空图进行学习,并预测相应的rPPG信号;最后对预测的rPPG信号进行峰值点检测,并计算出相应的平均心率值。具体的说,包括如下步骤:
步骤1、获取心率估计数据集,并将数据集中的视频按参与者划分为训练数据集和测试数据集两部分。划分的训练集占总视频的80%,测试数据集占剩下的20%。每条视频同时包含RGB视频、标签PPG信号和标签心率值。
步骤2、数据预处理:
步骤2.1、令心率估计数据集中的任意一个人脸视频为Vi,令第i个人脸视频Vi对应的标签PPG信号为Si,令第i个人脸视频Vi对应的标签心率值序列为HRi,1≤i≤Nvid,Nvid为心率估计数据集中的视频总数量;
步骤2.2、使用基于深度学习的人脸检测器OpenFace检测人脸视频Vi中第t帧ft i的面部关键点位置,并标定面部关键点位置的坐标集合为
Figure BDA0003636254450000081
其中,
Figure BDA0003636254450000082
表示第i个人脸视频Vi中第t帧ft i的第j个面部关键点位置坐标,Ti表示第i个人脸视频Vi的总帧数,W=68表示基于深度学习的人脸检测器OpenFace所识别的面部关键点个数;
步骤2.3、使用第i个人脸视频Vi中第t帧ft i的面部关键点位置的坐标集合
Figure BDA0003636254450000083
定义面部感兴趣区域
Figure BDA0003636254450000084
其中,
Figure BDA0003636254450000085
表示第i个人脸视频Vi中第t帧ft i的第n个面部感兴趣区,n=6表示面部感兴趣区域个数;
步骤2.4、将面部感兴趣区域
Figure BDA0003636254450000086
由RGB三通道转换成YUV三通道,得到色彩空间转换后的感兴趣区域
Figure BDA0003636254450000087
步骤2.5、计算色彩空间转换后的感兴趣区域
Figure BDA0003636254450000088
的所有非空子集;令任意一个非空子集中的(2n-1)个元素分别表示不同组合的感兴趣区域,并对每种组合的感兴趣区域的每个色彩通道进行像素平均池化操作,从而得到(2n-1)×C个长度为Ti帧的信号序列,对信号序列按行堆叠后获得第i个人脸视频Vi的多尺度时空图
Figure BDA0003636254450000089
其中,C=3表示色彩通道数;
步骤2.6、使用长度为T=300帧、步长为st=15帧的滑动窗口将多尺度时空图Mi切分成定长的多尺度时空图集合
Figure BDA00036362544500000810
实现数据增广,同时将标签PPG信号Si切分成同样定长的PPG信号集合
Figure BDA00036362544500000811
将标签心率值序列HRi也切分成同样定长的心率集合
Figure BDA00036362544500000812
其中,
Figure BDA00036362544500000813
表示第i个人脸视频生成的第k个定长多尺度时空图,
Figure BDA00036362544500000814
表示定长多尺度时空图
Figure BDA00036362544500000815
对应的PPG信号,
Figure BDA00036362544500000816
表示定长多尺度时空图
Figure BDA00036362544500000817
对应的心率值序列,
Figure BDA00036362544500000818
表示第i个人脸视频生成的定长多尺度时空图数量,从而对心率估计数据集中所有人脸视频及其对应的标签数据进行预处理操作,并构成训练数据集
Figure BDA00036362544500000819
其中,Ip为训练集中第p个定长多尺度时空图,
Figure BDA00036362544500000820
为Ip对应的标签PPG信号,
Figure BDA0003636254450000091
为Ip对应的标签心率值序列,N为训练数据集中定尺多尺度时空图的总个数;
步骤3、神经网络模型训练:
建立基于令牌学习的神经网络模型F(Ip,ζ),包括:令牌提取器、Transformer编码器和rPPG信号预测器,其中,Ip为训练集中第p个定长多尺度时空图,ξ为基于令牌学习的神经网络模型F(Ip,ζ)的参数;
令当前训练次数为e,并初始化e=1,令第e次训练时神经网络模型F(Ip,ζ)的参数为ξe
步骤3.1、令牌提取器:
步骤3.1.1、将定长多尺度时空图Ip按行切分成(2n-1)个图像块
Figure BDA0003636254450000092
其中,
Figure BDA0003636254450000093
为训练集中第p个定长多尺度时空图的第q个图像块,Ph=1表示图像块的高,Pw=T=300表示图像块的宽;
步骤3.1.2、利用式(1)所示的令牌提取器提取第0层令牌特征,从而得到定长多尺度时空图Ip的第0层令牌特征
Figure BDA0003636254450000094
Figure BDA0003636254450000095
其中,
Figure BDA0003636254450000096
为线性映射层,将(2n-1)个图像块
Figure BDA0003636254450000097
映射到D维令牌向量空间中,
Figure BDA0003636254450000098
为额外的可学习令牌,用来预测rPPG信号,
Figure BDA0003636254450000099
为额外的可学习位置嵌入向量,表示令牌
Figure BDA00036362544500000910
的位置信息;
步骤3.2、Transformer编码器:
利用式(2)所示Transformer编码器对各层令牌特征Zl-1,l∈1,2,...,L进行编码,输出第l层的令牌特征
Figure BDA00036362544500000911
Figure BDA00036362544500000912
其中,MSA为多头注意力层,MLP为多层感知机层,L=6为Transformer编码器的层数;步骤3.3、rPPG信号预测器
利用式(3)所示的rPPG信号预测器获得定长多尺度时空图Ip对应的的rPPG信号
Figure BDA0003636254450000101
Figure BDA0003636254450000102
式(3)中,
Figure BDA0003636254450000103
为额外的可学习令牌XrPPG经过L层Transformer编码器后输出的令牌特征,LN为层标准化,MLP为多层感知机层;
步骤3.4、利用式(4)构建第e次训练时神经网络模型的损失函数Loss(ξe):
Figure BDA0003636254450000104
式(4)中,
Figure BDA0003636254450000105
为训练集中第p个定长多尺度时空图经过模型预测后的rPPG信号,
Figure BDA0003636254450000106
为训练集中第p个定长多尺度时空图的标签PPG信号,Con(·,·)表示协方差,N为训练集中定尺多尺度时空图的总个数;
步骤3.5、判断第e次训练时的误差Loss(ξe)是否收敛,如果收敛则表示第e次训练时的神经网络模型参数ξe为最优参数,并以最优参数作为最终神经网络模型的参数;否则,则对神经网络模型进行反向传播,从而更新神经网络模型的参数,再执行步骤2;
步骤4、心率计算
利用峰值点检测计算最优神经网络模型预测的rPPG信号的各个峰值点位置,并通过峰值点位置计算出心跳频率,从而计算出rPPG信号对应的平均心率值。
综上所述,本发明提出的一种基于令牌学习的人脸视频心率估计系统及方法,解决了传统基于卷积神经神经网络的方法受限于有限的时空感受野,同时利用能够抑制噪音和增强心率信号的多尺度时空图表示人脸视频中的心率信号;提取不同组合感兴趣区域全局时间上的令牌特征,再通过Transformer编码器学习不同令牌特征之间的全局相关性,从而充分挖掘人脸视频中微弱的心率信号;该人脸视频心率估计系统及方法有效地提升了人脸视频心率估计的准确性,同时能够克服复杂的场景噪音,增加了心率估计的鲁棒性。

Claims (3)

1.一种基于令牌学习的人脸视频心率估计系统,其特征在于,包括:面部关键点检测模块、特征提取模块、rPPG信号预测模块和心率计算模块;
所述面部关键点检测模块采用基于深度学习的人脸检测器OpenFace检测人脸视频中每一帧的面部关键点位置;
所述特征提取模块通过所述面部关键点位置选取面部感兴趣区域,再对所述面部感兴趣区域进行色彩空间转换后,再采用像素平均池化操作对转换后的面部感兴趣区域进行去噪处理,从而生成人脸视频的多尺度时空图;
所述rPPG信号预测模块基于所述人脸视频的多尺度时空图,采用深度学习的方法搭建并训练基于令牌学习的神经网络模型,并使用训练好的基于令牌学习的神经网络模型对待预测的多尺度时空图进行转换,得到相应的rPPG信号;
所述心率计算模块对所述rPPG信号进行峰值点检测以获得心跳的频率,从而输出所述人脸视频的平均心率值。
2.根据权利要求1所述的基于令牌学习的人脸视频心率估计系统,其特征在于,所述rPPG信号预测模块是按如下过程进行神经网络模型的训练:
步骤a:构建基于令牌学习的神经网络模型,包括:令牌提取器、Transformer编码器和rPPG信号预测器,其中,所述令牌提取器由线性映射层、额外的可学习令牌和位置编码嵌入层构成,所述Transformer编码器包含L层结构,每一层均由第一层标准化层、多头注意力层、第一残差连接层、第二层标准化层、第一多层感知机和第二残差连接层顺序构成,所述rPPG信号预测器由第三层标准化层和第二多层感知机构成;
步骤b:所述人脸视频的多尺度时空图输入所述令牌提取器中,先将所述人脸视频的多尺度时空图切分成不同的图像块,然后,所述图像块经过线性映射层的处理后得到令牌,所述令牌和额外的可学习令牌输入位置编码嵌入层中进行处理,从而获取令牌特征;
所述令牌特征依次经过Transformer编码器的L层结构处理后,由最后一层结构输出的令牌特征,并从中获取rPPG信号的特征表示;
所述rPPG信号的特征表示依次经过所述rPPG信号预测器的第三层标准化和第二多层感知机的处理后,得到所述多尺度时空图对应的rPPG信号;
步骤c:利用负皮尔逊相关系数计算所述多尺度时空图对应的rPPG信号和标签PPG信号之间的误差,并作为所述基于令牌学习的神经网络模型的损失函数,再采用Adam优化器更新神经网络模型的参数,并在损失函数停止下降时停止训练,从而得到训练好的基于令牌学习的神经网络模型。
3.一种基于令牌学习的人脸视频心率估计方法,其特征是按如下步骤进行:
步骤1、数据预处理:
步骤1.1、获取心率估计数据集,令所述心率估计数据集中的任意一个人脸视频为Vi,令第i个人脸视频Vi对应的标签PPG信号为Si,令所述第i个人脸视频Vi对应的标签心率值序列为HRi,1≤i≤Nvid,Nvid为所述心率估计数据集中的视频总数量;
步骤1.2、使用基于深度学习的人脸检测器OpenFace检测所述人脸视频Vi中第t帧人脸图像ft i的面部关键点位置,并标定所述面部关键点位置的坐标集合为
Figure FDA0003636254440000021
其中,
Figure FDA0003636254440000022
表示第i个人脸视频Vi中第t帧人脸图像ft i的第j个面部关键点位置坐标,Ti表示第i个人脸视频Vi的总帧数,W表示所述基于深度学习的人脸检测器OpenFace所识别的面部关键点个数;
步骤1.3、使用所述第i个人脸视频Vi中第t帧人脸图像ft i的面部关键点位置的坐标集合
Figure FDA0003636254440000023
定义面部感兴趣区域
Figure FDA0003636254440000024
其中,
Figure FDA0003636254440000025
表示所述第i个人脸视频Vi中第t帧人脸图像ft i的第n个面部感兴趣区,n表示面部感兴趣区域个数;
步骤1.4、将所述面部感兴趣区域
Figure FDA0003636254440000026
由RGB三通道转换成YUV三通道,得到色彩空间转换后的感兴趣区域
Figure FDA0003636254440000027
步骤1.5、计算所述色彩空间转换后的感兴趣区域
Figure FDA0003636254440000028
的所有非空子集;令任意一个非空子集中的(2n-1)个元素分别表示不同组合的感兴趣区域,并对每种组合的感兴趣区域的每个色彩通道进行像素平均池化操作,从而得到(2n-1)×C个长度为Ti帧的信号序列,对所述信号序列按行堆叠后获得所述第i个人脸视频Vi的多尺度时空图
Figure FDA0003636254440000029
其中,C=3表示色彩通道数;
步骤1.6、使用长度为T帧、步长为st帧的滑动窗口将所述多尺度时空图Mi切分成定长的多尺度时空图集合
Figure FDA00036362544400000210
同时将标签PPG信号Si切分成同样定长的PPG信号集合
Figure FDA00036362544400000211
将标签心率值序列HRi也切分成同样定长的心率集合
Figure FDA0003636254440000031
其中,
Figure FDA0003636254440000032
表示第i个人脸视频Vi生成的第k个定长多尺度时空图,
Figure FDA0003636254440000033
表示所述第k个定长多尺度时空图
Figure FDA0003636254440000034
对应的PPG信号,
Figure FDA0003636254440000035
表示所述第k个定长多尺度时空图
Figure FDA0003636254440000036
对应的心率值序列,
Figure FDA0003636254440000037
表示第i个人脸视频Vi生成的定长多尺度时空图数量,从而对所述心率估计数据集中所有人脸视频及其对应的标签数据进行预处理操作,并构成训练数据集
Figure FDA0003636254440000038
其中,Ip为所述训练数据集中第p个定长多尺度时空图,
Figure FDA0003636254440000039
为第p个定长多尺度时空图Ip对应的标签PPG信号,
Figure FDA00036362544400000310
为第p个定长多尺度时空图Ip对应的标签心率值序列,N为训练数据集中定尺多尺度时空图的总个数;
步骤2、基于令牌学习的神经网络模型的训练:
建立基于令牌学习的神经网络模型F(Ip,ζ),包括:令牌提取器、Transformer编码器和rPPG信号预测器,其中,ξ为所述基于令牌学习的神经网络模型F(Ip,ζ)的参数;
令当前训练次数为e,并初始化e=1,令第e次训练时神经网络模型F(Ip,ζ)的参数为ξe
步骤2.1、令牌提取器的处理:
步骤2.1.1、将所述第p个定长多尺度时空图Ip按行切分成(2n-1)个图像块
Figure FDA00036362544400000311
其中,
Figure FDA00036362544400000312
为第p个定长多尺度时空图Ip的第q个图像块,Ph表示图像块的高,Pw表示图像块的宽;
步骤2.1.2、所述令牌提取器利用式(1)提取(2n-1)个图像块
Figure FDA00036362544400000313
中第0层令牌特征
Figure FDA00036362544400000314
并作为所述第p个定长多尺度时空图Ip的第0层令牌特征:
Figure FDA00036362544400000315
式(1)中,
Figure FDA00036362544400000316
为线性映射层,用于将所述(2n-1)个图像块
Figure FDA00036362544400000317
映射到D维令牌向量空间中,
Figure FDA00036362544400000318
为额外的可学习令牌,用于预测rPPG信号,
Figure FDA00036362544400000319
为额外的可学习位置嵌入向量,表示令牌
Figure FDA00036362544400000320
的位置信息;
步骤2.2、Transformer编码器的处理:
所述Transformer编码器利用式(2)对第l-1层令牌特征Zl-1进行编码,并输出第l层的令牌特征
Figure FDA0003636254440000041
从而得到第L层的令牌特征
Figure FDA0003636254440000042
Figure FDA0003636254440000043
式(2)中,MSA为多头注意力层,LN为层标准化;MLP为多层感知机层,Zl′为第l层经过多头注意力处理后的令牌特征,L为Transformer编码器的层数;
步骤2.3、rPPG信号预测器的处理;
rPPG信号预测器利用式(3)获得所述第p个定长多尺度时空图Ip对应的的rPPG信号
Figure FDA0003636254440000044
Figure FDA0003636254440000045
式(3)中,
Figure FDA0003636254440000046
为额外的可学习令牌XrPPG经过所述Transformer编码器后输出的令牌特征;
步骤2.4、利用式(4)构建第e次训练时神经网络模型的损失函数Loss(ξe):
Figure FDA0003636254440000047
式(4)中,
Figure FDA0003636254440000048
为所述训练数据集中第p个定长多尺度时空图Ip经过基于令牌学习的神经网络模型预测后的rPPG信号,
Figure FDA0003636254440000049
为训练数据集中第p个定长多尺度时空图Ip的标签PPG信号,Con(·,·)表示协方差;
步骤2.5、判断所述第e次训练时的误差Loss(ξe)是否收敛,如果收敛,则表示所述第e次训练时的神经网络模型参数ξe为最优参数,并以最优参数作为最终神经网络模型的参数,得到训练好的基于令牌学习的神经网络模型;否则,则对所述神经网络模型进行反向传播,从而更新神经网络模型的参数,再执行步骤2.1;
步骤3、心率计算;
利用峰值点检测计算所述训练好的基于令牌学习的神经网络模型预测的rPPG信号的各个峰值点位置,并通过所述峰值点位置计算出心跳频率,从而计算出所述rPPG信号对应的平均心率值。
CN202210506179.2A 2022-05-10 2022-05-10 一种基于令牌学习的人脸视频心率估计系统及方法 Pending CN114821439A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210506179.2A CN114821439A (zh) 2022-05-10 2022-05-10 一种基于令牌学习的人脸视频心率估计系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210506179.2A CN114821439A (zh) 2022-05-10 2022-05-10 一种基于令牌学习的人脸视频心率估计系统及方法

Publications (1)

Publication Number Publication Date
CN114821439A true CN114821439A (zh) 2022-07-29

Family

ID=82513493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210506179.2A Pending CN114821439A (zh) 2022-05-10 2022-05-10 一种基于令牌学习的人脸视频心率估计系统及方法

Country Status (1)

Country Link
CN (1) CN114821439A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385837A (zh) * 2023-04-24 2023-07-04 天津大学 基于掩码自编码器进行远程生理测量的自监督预训练方法
CN116383617A (zh) * 2023-04-21 2023-07-04 复旦大学 一种基于脉搏波波形特征的智能血压检测方法及系统
CN116831581A (zh) * 2023-06-15 2023-10-03 中南大学 一种基于远程生理体征提取的驾驶员状态监测方法及系统
CN116994310A (zh) * 2023-06-28 2023-11-03 齐鲁工业大学(山东省科学院) 一种基于rPPG信号的远程心率检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383617A (zh) * 2023-04-21 2023-07-04 复旦大学 一种基于脉搏波波形特征的智能血压检测方法及系统
CN116383617B (zh) * 2023-04-21 2023-09-22 复旦大学 一种基于脉搏波波形特征的智能血压检测方法及系统
CN116385837A (zh) * 2023-04-24 2023-07-04 天津大学 基于掩码自编码器进行远程生理测量的自监督预训练方法
CN116385837B (zh) * 2023-04-24 2023-09-08 天津大学 基于掩码自编码器进行远程生理测量的自监督预训练方法
CN116831581A (zh) * 2023-06-15 2023-10-03 中南大学 一种基于远程生理体征提取的驾驶员状态监测方法及系统
CN116994310A (zh) * 2023-06-28 2023-11-03 齐鲁工业大学(山东省科学院) 一种基于rPPG信号的远程心率检测方法
CN116994310B (zh) * 2023-06-28 2024-02-23 齐鲁工业大学(山东省科学院) 一种基于rPPG信号的远程心率检测方法

Similar Documents

Publication Publication Date Title
CN114821439A (zh) 一种基于令牌学习的人脸视频心率估计系统及方法
Niu et al. Video-based remote physiological measurement via cross-verified feature disentangling
Hu et al. Robust heart rate estimation with spatial–temporal attention network from facial videos
CN114912487B (zh) 基于通道增强时空注意力网络的端到端远程心率检测方法
US20220218218A1 (en) Video-based method and system for accurately estimating human body heart rate and facial blood volume distribution
WO2021057423A1 (zh) 图像处理方法、图像处理装置以及存储介质
CN115024706A (zh) 一种融合ConvLSTM和CBAM注意力机制的非接触式心率测量方法
Park et al. Self-supervised rgb-nir fusion video vision transformer framework for rppg estimation
CN113223697A (zh) 远程体积描记信号检测模型构建、检测方法、装置及应用
Wu et al. A compensation network with error mapping for robust remote photoplethysmography in noise-heavy conditions
Hu et al. A novel spatial-temporal convolutional neural network for remote photoplethysmography
CN116012916A (zh) 远程光体积描记信号和心率检测模型构建方法及检测方法
Wang et al. Transphys: Transformer-based unsupervised contrastive learning for remote heart rate measurement
Ouzar et al. Lcoms lab's approach to the vision for vitals (v4v) challenge
Liu et al. rPPG-MAE: Self-supervised Pretraining with Masked Autoencoders for Remote Physiological Measurements
Xiao et al. Remote photoplethysmography for heart rate measurement: A review
CN116994310B (zh) 一种基于rPPG信号的远程心率检测方法
CN117542103A (zh) 一种基于多尺度时空特征图的非接触式心率检测方法
Slapnicar et al. Contact-free monitoring of physiological parameters in people with profound intellectual and multiple disabilities
CN113920387B (zh) 一种短时rPPG信号检测模型的构建方法及检测方法
Tran et al. Intelligent non-invasive vital signs estimation from image analysis
CN113598742B (zh) 房颤分类模型训练方法、房颤识别方法及系统
Peng et al. MVPD: A multimodal video physiology database for rPPG
Akamatsu et al. Heart rate and oxygen saturation estimation from facial video with multimodal physiological data generation
Wang et al. Hierarchical Style-Aware Domain Generalization for Remote Physiological Measurement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination