CN117877099B

CN117877099B - 一种基于时空特征增强的无监督对比远程生理测量方法

Info

Publication number: CN117877099B
Application number: CN202410271004.7A
Authority: CN
Inventors: 曹明月; 程旭
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2024-03-11
Filing date: 2024-03-11
Publication date: 2024-05-14
Anticipated expiration: 2044-03-11
Also published as: CN117877099A

Abstract

本发明公开了一种基于时空特征增强的无监督对比远程生理测量方法，包括1、获取人脸视频并进行预处理；2、建立低光和时空特征增强模型ST‑Phys，输入预处理数据，输出时空注意力特征P；3、在时间维度上对时空注意力特征P进行采样，得到rPPG信号样本，根据rPPG信号样本，计算目标人员的心率；4、对模型进行优化，并应用优化后时空增强模型对人脸视频中rPPG信号进行提取。本发明利用深度学习技术，提出了一种无监督对比学习的远程心率检测方法，通过对人脸视频进行简单预处理即可输入网络中完成rPPG信号估计并计算心率，减少了对标注数据的依赖，提高了rPPG的通用性。

Description

一种基于时空特征增强的无监督对比远程生理测量方法

技术领域

本发明属于生理信号检测领域，尤其涉及一种基于时空特征增强的无监督对比远程生理测量方法。

背景技术

监测心率(HR)、呼吸频率(RF)和心率变化率(HRV)等生理变化对于医疗保健和情绪分析以及犯罪侦查等特殊目的非常重要。与面部表情或言语等明确的行为相比，这些测量提供了更可靠、更不易操纵的人类反应洞察。传统的生理测量可以通过接触设备，如心电图(ECG)和光电体积脉搏图(PPG)来实现。ECG通过电极感应人体心脏电流提取HR。但是对于运动来说，它不是很健壮，并且应用场景有限。PPG是一种简单、低成本的HR采集方法，它使用光学技术来检测毛细血管的血容量变化。然而，这些PPG方法需要与人体接触，长期监测可能导致皮肤刺激或不适。近年来，远程光电容积脉搏波(rPPG)提供了一种创新的替代方法来获取rPPG信号。这项技术使用一个摄像头来检测人体皮肤表面的细微颜色变化，消除了对专门的生物医学传感器的需求，并克服了物理距离的限制。rPPG已广泛应用于远程医疗、情感计算、深度伪造检测和欺骗检测。

在rPPG研究的早期阶段，研究人员严重依赖于手工制作的特征来从面部视频中提取脉冲信号。这些方法大多利用经典的信号处理技术来分析面部感兴趣区域(ROI)内的细微颜色变化。此外，采用一些颜色子空间变换方法对rPPG信号进行全皮肤像素测量。然而，这些方法不可避免地会对被检测对象及其环境(例如，静止的物体或稳定的光源)进行假设，从而导致使用场景的局限性。后来，深度学习(DL)方法通过引入具有各种网络架构的监督方法，用于rPPG信号测量。DL方法通常从计算时空图(STMap)或帧差(DOF)开始，然后应用卷积神经网络(CNN)来学习生理信号的特征。然而，这些有监督的rPPG方法严重依赖于大量的标记数据，限制了它们的实际应用。为了解决标签依赖问题，开发了基于对比学习(CL)的无监督方法，通过学习数据中的相似性和不相似性来提取有用的特征。无监督rPPG方法被提出来缓解昂贵的注释问题。

尽管无监督学习可以有效地学习视频中的时空表征，但目前rPPG中的时空框架基于监督学习，无监督rPPG方法尚未与时空框架相结合。此外，目前主流的时空框架是3DCNN，但是由于卷积核有限，3DCNN的时空接受场受到约束，可能导致模型无法有效处理长期依赖关系。且以往的研究关注的是理想照明条件的表现，而忽略了实际环境中低光场景的影响，特别是面对现实世界的可变性。相机捕捉到的生理信号非常微妙，这个问题在弱光条件下更加明显。

发明内容

发明目的：本发明的目的在于提供一种基于时空特征增强的无监督对比远程生理测量方法。提高测量心率的鲁棒性和准确性，保证在低光照条件下也能测量心率。

技术方案：本发明的一种基于时空特征增强的无监督对比远程生理测量方法，包括如下步骤：

步骤1、获取若干目标人员的人脸视频并进行预处理，得到预处理后的人脸视频序列；

步骤2、建立低光和时空特征增强模型ST-Phys，模型包括：低光增强模块、时间扩张模块和空间注意力模块；将预处理后的人脸视频序列输入低光和时空特征增强模型ST-Phys，输出时空注意力特征；

步骤3、在时间维度上对时空注意力特征进行采样，得到远程光电容积脉搏波rPPG信号样本，对远程光电容积脉搏波rPPG信号样本进行带通滤波后，通过傅里叶变化计算滤波后信号的最大频率，从而计算的目标人员的心率；

步骤4、采用圆边损失作为损失函数，并采用优化器对损失函数进行最小化求解，从而优化低光和时空特征增强模型ST-Phys的参数，得到优化后时空增强模型，并应用优化后时空增强模型对人脸视频中远程光电容积脉搏波rPPG信号进行提取。

进一步的，步骤1具体为：使用OpenFace生成面部地标，首先得到地标的最小和最大水平和垂直坐标来定位每一帧的中心面部点，边界框的大小为第一帧开始的地标垂直坐标范围的1.2倍，并在随后的帧中固定，在得到每一帧的中心人脸点和边界框的大小后，从每一帧裁剪人脸；裁剪的人脸被调整为128×128，从而得到一段帧数为T的视频序列X＝{X¹,X²,...,Xⁱ,...,X^T}∈R^{B×C×T×H×W}，其中，Xⁱ表示第i帧人脸图像，B，C，H和W分别表示一次迭代中使用的训练样例的数量，每帧的通道数，高度和宽度。

进一步的，步骤2具体为：所述低光增强模块以此包括卷积层和LeakyReLU激活函数；所述时间扩张模块依次包括卷积块、膨胀块、下采样块和上采样块；所述空间注意力模块依次包括自适应平均池化层、卷积层和空间注意力机制层；具体包括如下步骤：

步骤2.1、将视频序列X输入低光增强模块，得到低光增强后的图像序列X’＝{X1 ,X2 ,...,Xi ,...,XN }∈R^{B×C×T×H×W}，X和X’之间使用了结构相似指数损失L_s来衡量图像的相似度，通过最小化L_s生成更亮更清晰的图像；

步骤2.2、将低光增强后的图像序列X’输入时间扩张模块中，依次经过卷积块、膨胀块、2个下采样块、膨胀块和2个上采样块得到时间膨胀的特征T∈R^{B×C’×T×H’×W’}，其中，C'=64,H'＝H/16和W'＝W/16；使用3×3×3核和2×1×1的扩展速率的膨胀卷积，使得沿时间维度的2像素扩展，增加接受域，而高度和宽度保持不变；

步骤2.3、将时间膨胀的特征T输入空间注意力模块中，使用自适应平均池化和1x1x1卷积核的卷积层将通道减少到1得到映射的特征T’∈R^{B×1×T×H’’×W’’}，其中，H''=W''＝S，S是时空rPPG块的空间维度，时空rPPG块是rPPG信号在时空维度上的集合；时间膨胀特征T输入所述空间注意力机制层进行处理后得到增强的空间注意力特征A∈R^{B×1×T×H’’×W’’}；将空间维度上的所有时间序列和平均时间序列沿通道维度进行串联得到时空注意力特征P∈R^B×N×T，其中，N=S×S+1。

进一步的，步骤2.1中，低光增强模块由四层3×3×3卷积层和三层LeakyReLU激活层组成，卷积层1：采用3×3×3的卷积核，输入通道数为3，输出通道数为64，使用步幅为1和填充为1的设置，实现对输入视频序列X的特征提取；

LeakyReLU激活层1：使用LeakyReLU激活函数，通过引入非线性变换，增强网络的表达能力，提高对低光照条件下图像的适应性；

卷积层2：采用3×3×3的卷积核，输入和输出通道数均为64，同样使用步幅为1和填充为1的设置；

LeakyReLU激活层2：再次使用LeakyReLU激活函数，引入非线性变换；

卷积层3：采用3×3×3的卷积核，输入和输出通道数均为64，步幅为1，填充为1；

LeakyReLU激活层3：同样使用LeakyReLU激活函数，引入非线性元素；

卷积层4：最后一层卷积层采用3×3×3的卷积核，输入通道数为64，输出通道数为3，步幅为1，填充为1，实现最终的特征映射；

将视频序列X输入低光增强模块，得到低光增强后的图像序列，X和X’之间使用了结构相似指数损失Ls来衡量图像的相似度，通过最小化Ls生成更亮更清晰的图像；

结构相似指数损失L_s的计算公式如下：

其中和/>是x和y图像的亮度平均值，/>和/>是x和y图像亮度的标准差，/>表示x和y图像之间的亮度协方差，c₁和c₂是用来稳定计算的常数。

进一步的，步骤2.2中，卷积块由卷积层1×5×5卷积层、BatchNorm层和ELU激活层组成，用于提取时空特征；膨胀块由平均池化层、3×3×3核和2×1×1的扩展速率的膨胀卷积层、BatchNorm层和ELU激活层组成，用于增加时域感受野；下采样块由平均池化层、3×3×3卷积层、BatchNorm层和ELU激活层组成，用于下采样；上采样块由3×1×1卷积层、BatchNorm层和ELU激活层组成，用于上采样。

进一步的，步骤3中，对时空注意力特征P进行时空采样，在时间维度上进行采样，得到rPPG样本P’=[P’₁,…,P’_N]；对每个样本，计算归一化的功率谱密度PSDs[f₁,…,f_N]，然后添加到列表中，最后得到的是采样rPPG列表F∈R^T×1；将rPPG列表 F∈R^T×1进行带通滤波，滤除信号中超过阈值范围的信号，再用快速傅里叶变化计算滤波后的信号的最大频率f，从而计算目标人员的心率。

进一步的，步骤4具体为：采用圆边损失作为损失函数，并采用ADAMW优化器对损失函数L进行最小化求解，从而对时空增强模型中的所有参数进行优化；

式中，d为两个样本之间的欧几里得距离，m为相似样本与不相似样本之间的距离，γ表示相似和不相似样本之间的差异程度；

式中， f_i为第i个 rPPG样本的PSD，N为PSD样品总数，表示第i个PSD与第j个PSD之间的欧氏距离，对应于Lc中的变量d；

其中表示第i个PSD和另一个视频的第j个PSD之间计算的欧氏距离；

总的损失函数为上述损失之和：；其中，/>为步骤2.1中的结构相似指数损失；

训练得到最优时空增强模型，以最优时空增强模型实现对人脸视频中rPPG信号的提取。

有益效果：与现有技术相比，本发明具有如下显著优点：

1、本发明利用深度学习技术，提出了一种无监督对比学习的远程心率检测方法，通过对人脸视频进行简单预处理即可输入网络中完成rPPG信号估计并计算心率，减少了对标注数据的依赖，提高了rPPG的通用性。

2、本发明使用的网络框架是基于时间膨胀和空间注意力结构对视频序列进行时序信息建模，相比其他基于复杂卷积操作和transformer架构的深度学习方法，本发明具有参数量低的特点，属于轻量级模型方法。

3、本发明提出的低光和时空增强网络，通过低光图像的增强和时间空间特征的增强，能有效进行提取视频序列中rPPG信号相关的时空特征信息，提高了远程心率检测的准确度和鲁棒性。

附图说明

图1为本发明方法流程示意图；

图2为本发明低光增强结构图；

图3为本发明时间膨胀结构图；

图4为本发明空间注意力结构图；

图5为本发明时空特征增强模型结构图；

图6为rPPG波形与相应的地真BVP信号对比图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

本实施例中，一种基于时空特征增强的无监督对比远程生理测量方法主要是利用低光增强模块、时间膨胀模块和空间注意力模块来提取视频序列中的时空特征，并通过时空采样得到rPPG样本，最后将rPPG信号经过滤波并使用快速傅里叶变换计算相应的心率值，如图1所示，是按如下步骤进行：

步骤1、获取一段人脸视频数据，本实例中使用的是公共数据集UBFC-rPPG生理信号检测数据集，该数据集包含42个在阳光和室内照明条件下拍摄的RGB人脸视频。这些视频是用罗技C920 HD Pro网络摄像头拍摄的，分辨率为640×480，帧速率为每秒30帧，视频长度在1分钟左右。使用CMS50E设备以30 Hz的帧率采集地真BVP信号；

对人脸视频数据进行预处理包括：利用人脸检测方法提取每一帧的人脸区域并进行裁剪，得到裁剪后的人脸区域图像，具体实施中，对视频的第一帧使用公开人脸识别算法得到包含整个人脸的矩形框的坐标，再使用矩形框裁剪出人脸区域并使用矩形框的坐标对视频其余帧进行人脸区域裁剪，为了减少计算量，对裁剪后的每帧的分辨率进行下采样到128×128，得到最终的视频序列V＝{V1 ,V2 ,...,Vi ,...,VN }，其中N是视频总帧数；

时空rPPG块中的每个空间位置设为4，即随机选择4个rPPG样本，时空rPPG块的空间分辨率为2×2，时间长度为10秒，每个rPPG样本的时间间隔∆t为时空rPPG块时间长度的一半，得到最终训练样本数据集；

从而得到一段帧数为T的视频帧序列X＝{X1 ,X2 ,...,Xi ,...,XT }∈RB×C×T×H×W，其中，Xi表示第i帧人脸图像，B，C，H和W分别表示一次迭代中使用的训练样例的数量，每帧的通道数，高度和宽度；在实施例中，B,C,T,H,W分别是2，3，300，128，128；

步骤2、建立低光和时空特征增强模型ST-Phys，如图5所示，包括：低光增强模块、时间扩张模块和空间注意力模块；其中，所述低光增强模块以此包括卷积层和LeakyReLU激活函数；所述时间扩张模块依次包括卷积块、膨胀块、下采样块和上采样块；所述空间注意力模块依次包括自适应平均池化层、卷积层和空间注意力机制层；

步骤2.1、如图2所示，低光增强模块由四层3×3×3卷积层和三层LeakyReLU激活层组成；利用简单的卷积层和激活层以及结构相似指数损失，得到增强的人脸图像；

卷积层1：采用3×3×3的卷积核，输入通道数为3，输出通道数为64，使用步幅为1和填充为1的设置，实现对输入视频序列X的特征提取；

卷积层2：采用3×3×3的卷积核，输入和输出通道数均为64，同样使用步幅为1和填充为1的设置，进一步提取图像的特征信息；

LeakyReLU激活层2：再次使用LeakyReLU激活函数，引入非线性变换，有助于网络更好地学习输入图像的复杂特征；

卷积层3：采用3×3×3的卷积核，输入和输出通道数均为64，步幅为1，填充为1，进一步强化对图像的特征提取；

LeakyReLU激活层3：同样使用LeakyReLU激活函数，引入非线性元素，有助于网络更好地适应输入图像的低光条件；

将视频序列X输入低光增强模块，得到低光增强后的图像序列X’＝{X1 ,X2 ,...,Xi ,...,XN }∈RB×C×T×H×W，X和X’之间使用了结构相似指数损失（Ls）来衡量图像的相似度，通过最小化Ls生成更亮更清晰的图像；结构相似指数损失（Ls）的计算公式如下：

在此实例中低光增强的人脸特征X’ ∈R2×3×300×128×128；

步骤2.2、如图3所示，时空扩张模块由卷积块、膨胀块、2个下采样块、膨胀块和2个上采样块组成；卷积块由卷积层1×5×5卷积层、BatchNorm层和ELU激活层组成，用于提取时空特征；膨胀块由平均池化层、3×3×3核和2×1×1的扩展速率的膨胀卷积层、BatchNorm层和ELU激活层组成，用于增加时域感受野；下采样块由平均池化层、3×3×3卷积层、BatchNorm层和ELU激活层组成，用于下采样；上采样块由3×1×1卷积层、BatchNorm层和ELU激活层组成，用于上采样；

低光增强的特征X’输入时间扩张模块中，使用膨胀卷积，对输入特征沿时间维度的2像素扩展，从而增加接受域，而高度和宽度保持不变，得到时间膨胀的特征T∈RB×C’×T×H’×W’，其中，C'=64,H'＝H/16和W'＝W/16；在本实例中，时间膨胀特征T∈R2×64×300×8×8；

步骤2.3、如图4所示，空间注意力模块由自适应平均池化层和1x1x1卷积层得到的映射特征和卷积层、Softmax操作以及维度转换得到的空间权重逐元素相乘，之后所有时间序列和平均时间序列串联组成；

时间膨胀特征T输入空间注意力模块中，使用自适应平均池化和1x1x1卷积核的卷积层将通道减少到1得到映射的特征T’∈RB×1×T×H’’×W’’，其中，H''=W''＝S，S是时空rPPG块的空间维度，时空rPPG块是rPPG信号在时空维度上的集合；本实例中S为2；

对映射特征进行Softmax操作，得到空间权重，用于对时空膨胀特征进行加权；将Softmax操作后的空间权重逐元素与时空膨胀特征相乘，得到增强的空间注意力特征A∈RB×1×T×H’’×W’’；在本实例中，空间注意力特征A∈R2×1×300×2×2；

将空间维度上的所有时间序列和平均时间序列沿通道维度进行串联得到时空注意力特征P∈RB×N×T，其中，N=S×S+1；在此实例中时空注意力特征P∈R2×5×300；

空间注意力模块如下：

S_i(x) = W_i(x) * F_i(x)，W_i(x) = Softmax(Conv3d(x))；

式中x表示输入的人脸图像;W_i(.)为一个分支获得的特征图第i个位置的关注权值，取值范围为0 ～ 1;F_i(.)是另一个分支的输出;“*”表示逐元素的乘法；

最后的输出是时空注意力特征P：

；

其中“Concat”表示沿着通道尺寸进行连接；

步骤3、对时空注意力特征P进行时空采样，在时间维度上进行采样，得到rPPG样本P’=[P’1,…,P’N]；

对每个样本，计算归一化的功率谱密度PSDs[f1,…,fN]，然后添加到列表中，最后得到的是采样rPPG列表F∈RT×1；

将rPPG列表 F∈RT×1 进行带通滤波，滤除信号中超过阈值范围的信号，再用快速傅里叶变化计算滤波后的信号的最大频率f，从而计算相应的心率；

步骤4、离线训练：

采用圆边损失作为损失函数，并采用ADAMW优化器对损失函数L进行最小化求解，从而对时空增强模型中的所有参数进行优化；

式中d为两个样本之间的欧几里得距离，m为相似样本与不相似样本之间的距离，γ表示相似和不相似样本之间的差异程度；

式中P为通过网络获得的时空rPPG块，fi为第i个 rPPG样本的PSD，N为PSD样品总数，表示第i个PSD与第j个PSD之间的欧氏距离，对应于Lc中的变量d；

选择一个测试视频，并将其中心20秒的rPPG波形与相应的地真BVP信号进行比较，如图6所示，两个信号之间的波形高度相似。

Claims

1.一种基于时空特征增强的无监督对比远程生理测量方法，其特征在于，包括如下步骤：

步骤3、在时间维度上对时空注意力特征进行采样，得到远程光电容积脉搏波rPPG信号样本，对远程光电容积脉搏波rPPG信号样本进行带通滤波后，通过傅里叶变化计算滤波后信号的最大频率，从而计算目标人员的心率；

步骤4、采用圆边损失作为损失函数，并采用优化器对损失函数进行最小化求解，从而优化低光和时空特征增强模型ST-Phys的参数，得到优化后时空特征增强模型，并应用优化后时空特征增强模型对人脸视频中远程光电容积脉搏波rPPG信号进行提取；

步骤4具体为：采用圆边损失作为损失函数，并采用ADAMW优化器对损失函数L进行最小化求解，从而对时空特征增强模型中的所有参数进行优化；

结构相似指数损失L_s的计算公式如下：

其中和/>是x和y图像的亮度平均值，/>和/>是x和y图像亮度的标准差，/>表示x和y图像之间的亮度协方差，c₁和c₂是用来稳定计算的常数；

训练得到最优时空特征增强模型，以最优时空特征增强模型实现对人脸视频中rPPG信号的提取。

2.根据权利要求1所述的一种基于时空特征增强的无监督对比远程生理测量方法，其特征在于，步骤1具体为：使用OpenFace生成面部地标，首先得到地标的最小和最大水平和垂直坐标来定位每一帧的中心面部点，边界框的大小为第一帧开始的地标垂直坐标范围的1.2倍，并在随后的帧中固定，在得到每一帧的中心人脸点和边界框的大小后，从每一帧裁剪人脸；裁剪的人脸被调整为128×128，从而得到一段帧数为T的视频序列X＝{X¹ ,X²,...,Xⁱ ,...,X^T }∈R^{B×C×T×H×W}，其中，Xⁱ表示第i帧人脸图像，B，C，H和W分别表示一次迭代中使用的训练样例的数量，每帧的通道数，高度和宽度。

3.根据权利要求1所述的一种基于时空特征增强的无监督对比远程生理测量方法，其特征在于，步骤2具体为：所述低光增强模块包括卷积层和LeakyReLU激活函数；所述时间扩张模块依次包括卷积块、膨胀块、下采样块和上采样块；所述空间注意力模块依次包括自适应平均池化层、卷积层和空间注意力机制层；具体包括如下步骤：

步骤2.1、将视频序列X输入低光增强模块，得到低光增强后的图像序列X’＝{X1 ,X2,...,Xi ,...,XN }∈R^{B×C×T×H×W}，X和X’之间使用了结构相似指数损失L_s来衡量图像的相似度，通过最小化L_s生成更亮更清晰的图像；

步骤2.2、将低光增强后的图像序列X’输入时间扩张模块中，依次经过卷积块、膨胀块、2个下采样块、膨胀块和2个上采样块得到时间膨胀特征Z∈R^{B×C’×T×H’×W’}，其中，C'=64,H'＝H/16和W'＝W/16；使用3×3×3核和2×1×1的扩展速率的膨胀卷积，使得沿时间维度的2像素扩展，增加接受域，而高度和宽度保持不变；

步骤2.3、将时间膨胀特征Z输入空间注意力模块中，使用自适应平均池化和1x1x1卷积核的卷积层将通道减少到1得到映射的特征Z’∈R^{B×1×T×H’’×W’’}，其中，H''=W''＝S，S是时空rPPG块的空间维度，时空rPPG块是rPPG信号在时空维度上的集合；时间膨胀特征T输入所述空间注意力机制层进行处理后得到增强的空间注意力特征A∈R^{B×1×T×H’’×W’’}；将空间维度上的所有时间序列和平均时间序列沿通道维度进行串联得到时空注意力特征P∈R^B×N×T，其中，N=S×S+1。

4.根据权利要求3所述的一种基于时空特征增强的无监督对比远程生理测量方法，其特征在于，步骤2.1中，低光增强模块由四层3×3×3卷积层和三层LeakyReLU激活层组成，卷积层1：采用3×3×3的卷积核，输入通道数为3，输出通道数为64，使用步幅为1和填充为1的设置，实现对输入视频序列X的特征提取；

卷积层4：最后一层卷积层采用3×3×3的卷积核，输入通道数为64，输出通道数为3，步幅为1，填充为1，实现最终的特征映射。

5.根据权利要求3所述的一种基于时空特征增强的无监督对比远程生理测量方法，其特征在于，步骤2.2中，卷积块由卷积层1×5×5卷积层、BatchNorm层和ELU激活层组成，用于提取时空特征；膨胀块由平均池化层、3×3×3核和2×1×1的扩展速率的膨胀卷积层、BatchNorm层和ELU激活层组成，用于增加时域感受野；下采样块由平均池化层、3×3×3卷积层、BatchNorm层和ELU激活层组成，用于下采样；上采样块由3×1×1卷积层、BatchNorm层和ELU激活层组成，用于上采样。

6.根据权利要求1所述的一种基于时空特征增强的无监督对比远程生理测量方法，其特征在于，步骤3中，对时空注意力特征P进行时空采样，在时间维度上进行采样，得到rPPG样本P’=[P’₁,…,P’_N]；对每个样本，计算归一化的功率谱密度PSDs[f₁,…,f_N]，然后添加到列表中，最后得到的是采样rPPG列表F∈R^T×1；将rPPG列表 F∈R^T×1 进行带通滤波，滤除信号中超过阈值范围的信号，再用快速傅里叶变化计算滤波后的信号的最大频率f，从而计算目标人员的心率。