CN116138756A

CN116138756A - 基于人脸特征点检测的非接触式心率检测方法、系统及介质

Info

Publication number: CN116138756A
Application number: CN202310043229.2A
Authority: CN
Inventors: 张浪文; 陈璟; 谢巍
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-01-29
Filing date: 2023-01-29
Publication date: 2023-05-23

Abstract

本发明公开了一种基于人脸特征点检测的非接触式心率检测方法、系统及介质，所述方法包括：获取人脸视频图像，根据人脸视频图像确定人脸区域；将人脸区域输入人脸特征点检测网络模型，得到人脸特征点；人脸特征点检测网络模型包括特征提取部分和多尺度融合预测部分，特征提取部分包括标准卷积层和多个Block层，Block层为MobileNetV3提出的深度可分离卷积模块；多尺度融合预测部分通过对多个不同尺度图像进行融合增强模型的表达力；根据人脸特征点确定感兴趣区域，进而得到观测信号；利用脉搏波提取算法从观测信号中分离出血液容积脉搏波信号，进而计算心率值。本发明利用人脸特征点检测确定感兴趣区域，提高了检测精度。

Description

基于人脸特征点检测的非接触式心率检测方法、系统及介质

技术领域

本发明涉及计算机视觉、信号处理领域，具体涉及一种基于人脸特征点检测的非接触式心率检测方法、系统、计算机设备及存储介质。

背景技术

心率是一种重要的生命特征信息，监测心率可以帮助预防心脏疾病。传统心率检测方法是接触式的，比如心电图(Electrocardiogram,ECG)，它需要用多个体表电极与检查者身体表面进行直接接触，会给检测者带来不便。此外，ECG设备的价格昂贵，操作复杂。而像多普勒雷达等非接触式心率检测方法也一样需要特殊的设备，成本较高。因此这些方法都不适合日常的心率监测。

近几年来，成像式光电容积脉搏波描记法(imaging Photoplethysmography,iPPG)的研究发展迅速。这种方法拥有非接触、低成本和易携带的特点，得到研究者们的关注。iPPG利用一个摄像头传感器采集人体表面皮肤的视频信号，通过信号处理技术探测环境光吸收率差异导致的表皮色彩强度微弱变化，从而估计出心率值。这种方式无需直接接触，不会对测量对象造成不便，而且硬件成本低，便于携带和使用，将对日常心率检测和远程医疗的发展具有巨大的推动作用；但存在的缺点是易受背景光线和面部运动伪影影响导致检测精度不高。

发明内容

为了解决上述现有技术的不足，本发明提供了一种基于人脸特征点检测的非接触式心率检测方法、系统、计算机设备及存储介质，该方法在眼部和嘴唇动作明显时，依旧可以保持高精度的检测结果，并且可以避免背景带来的噪声干扰，检测速度更快，非常适用于实际场景。

本发明的第一个目的在于提供一种基于人脸特征点检测的非接触式心率检测方法。

本发明的第二个目的在于提供一种基于人脸特征点检测的非接触式心率检测系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种基于人脸特征点检测的非接触式心率检测方法，所述方法包括：

获取人脸视频图像，根据人脸视频图像确定人脸区域；

将所述人脸区域输入人脸特征点检测网络模型，得到人脸特征点；所述人脸特征点检测网络模型包括特征提取部分和多尺度融合预测部分，其中，所述特征提取部分包括标准卷积层和多个Block层，所述Block层为MobileNetV3提出的深度可分离卷积模块；所述多尺度融合预测部分通过对多个不同尺度图像进行融合增强模型的表达力；

根据所述人脸特征点确定感兴趣区域，分离所述感兴趣区域中的通道信号作为观测信号；

利用脉搏波提取算法从所述观测信号中分离出血液容积脉搏波信号；

根据所述血液容积脉搏波信号计算心率值。

进一步的，所述Block层共有11个；

所述多尺度融合预测部分包括多个平均池化层、卷积层和全连接层；

所述将所述人脸区域输入人脸特征点检测网络模型，得到人脸特征点，包括：

将所述将所述人脸区域输入所述标准卷积层中，输出的图像经过11个Block层处理；

将第一个、第三个、第六个、第九个Block层的输出分别作为S1、S2、S3和S4；

最后一个Block层的输出经过卷积层处理后输出S5；

S1、S2、S3和S4分别经过平均池化层处理后，将池化后的S1、S2、S3、S4和S5进行拼接，将拼接的结果输入全连接层，输出人脸特征点坐标；且每个池化层的核尺寸和步长为输入图像尺寸的长。

进一步的，所述Block层包括扩展层、深度可分离卷积、投影层、残差连接和SE注意力模块，其中，所述扩展层用于将低维空间映射到高维空间；所述深度可分离卷积用于完成卷积功能，降低计算量、参数量；所述投影层用于将高维特征映射到低维空间去；所述残差连接用于降低模型复杂度以减少过拟合，防止梯度消失；所述SE注意力模块用于对输入特征图进行通道特征加强；在Block层中只有步长等于1且输入通道数等于输出通道数时，才使用残差连接。

进一步的，所述分离所述感兴趣区域中的通道信号作为观测信号，包括：

依次对于单个感兴趣区域ROI，分离出红、绿、蓝三通道信号，并分别取平均值得到：r(t),g(t),b(t)；

对于单个视频，得到三组长度为视频帧数的原始信号：R(t),G(t),B(t)作为观测信号。

进一步的，所述利用脉搏波提取算法从所述观测信号中分离出血液容积脉搏波信号，包括：

脉搏波提取算法定义如下：

其中，σ(·)表示标准偏差，X_x和Y_s是由RGB三通道信号组合得到的，单个光源的情况下，它们通常表示为：

X_s＝G_n-B_n

Y_s＝G_n+B_n-2R_n

其中，R_n,G_n,B_n分别表示R(t),G(t),B(t)归一化后的结果；

对于帧数为N的视频序列，脉搏波提取算法使用大小为T的滑动窗口获得窗口输出值，并使用重叠相加的方法获取最终的脉搏信号输出作为血液容积脉搏波信号；其中，T＝1.6*fps，fps为摄像头采样频率。

进一步的，所述根据所述血液容积脉搏波信号计算心率值，包括：

对所述血液容积脉搏波信号进行带通滤波，对滤波后的信号进行快速傅里叶变换得到功率谱密度图，根据功率谱密度图计算心率值，具体包括：

对血液容积脉搏波信号使用带通滤波用以消除指定频率范围以外的频率，然后对滤波后的血液容积脉搏波信号进行快速傅里叶变换，得到功率谱密度图；

检测功率谱密度图的峰值，找到峰值对应的频率f_hr，计算心率值HR：

HR＝60*f_hr。

进一步的，采用人脸检测器BlaceFace对人脸视频图像进行检测，确定人脸区域。

进一步的，在将所述人脸区域输入人脸特征点检测网络模型前，对所述人脸特征点检测网络模型进行训练，将所述人脸区域输入训练好的人脸特征点检测网络模型中；

所述对所述人脸特征点检测网络模型进行训练，包括：

使用公开数据集WFLW训练人脸特征点检测网络模型，其中，损失函数为L2Loss：

其中，y_gt表示真实的特征点坐标值，y_pred表示模型预测的特征点坐标值，

表示第i个真实特征点坐标值，

表示第i个预测特征点坐标值；

人脸特征点评估指标标准化平均误差(Normalized Mean Error，NME)定义为：

其中，x_i为预测第i个特征点的坐标，

为第i个坐标的真实值，d为两眼瞳孔间距离。

本发明的第二个目的可以通过采取如下技术方案达到：

一种基于人脸特征点检测的非接触式心率检测系统，所述系统包括：

图像获取模块，用于获取人脸视频图像，根据人脸视频图像确定人脸区域；

人脸特征点检测模块，用于将所述人脸区域输入人脸特征点检测网络模型，得到人脸特征点；所述人脸特征点检测网络模型包括特征提取部分和多尺度融合预测部分，其中，所述特征提取部分包括标准卷积层和多个Block层，所述Block层为MobileNetV3提出的深度可分离卷积模块；所述多尺度融合预测部分通过对多个不同尺度图像进行融合增强模型的表达力；

通道信号分离模块，用于根据所述人脸特征点确定感兴趣区域，分离所述感兴趣区域中的通道信号作为观测信号；

血液容积脉搏波信号分离模块，用于利用脉搏波提取算法从所述观测信号中分离出血液容积脉搏波信号；

心率值计算模块，用于根据所述血液容积脉搏波信号计算心率值。

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的非接触式心率检测方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的非接触式心率检测方法。

本发明相对于现有技术具有如下的有益效果：

1、本发明通过构建人脸特征点检测网络模型，模型包括特征提取部分和多尺度融合预测部分，特征提取部分包括标准卷积层和多个Block层，Block层为MobileNetV3提出的深度可分离卷积模块；多尺度融合预测部分通过对多个不同尺度图像进行融合增强模型的表达力。通过构建的人脸特征点检测网络模型，可以有效减少模型计算量和参数量，提高检测速度，并且精度和推理时间满足非接触式心率检测任务的要求。

2、本发明利用人脸特征点检测确定感兴趣区域，克服了面部表情、背景噪声等因素对检测精度的影响，保留较多的皮肤区域用于提取BVP信号；在人脸检测中使用的BlazeFace是一个非常轻量级的人脸检测器，在许多嵌入式设备可以达到超实时的效率；而且使用的脉搏波提取算法POS是一个高性能，计算量较小的简化算法。通过采用上述手段，不仅提高了非接触式心率检测方法的准备性和可靠性，还可以保证较快的运算速度，可以移植到嵌入式设备，用于居民日常心率检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的基于人脸特征点检测的非接触式心率检测方法的流程图。

图2为本发明实施例1的Block模块为MobileNetV3提出的深度可分离卷积模块的结构示意图。

图3为本发明实施例1的提取感兴趣区域的效果示意图。

图4为本发明实施例2的基于人脸特征点检测的非接触式心率检测系统的结构框图。

图5为本发明实施例3的计算机设备的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。应当理解，描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

实施例1：

人脸反射光的强度时刻因为心脏活动而发生变化，这些变化非常微小，人眼很难察觉到，但是摄像头可以捕捉到这些微小的变化，因此通过对皮肤颜色的变化进行分析就可以得到脉搏信息。

如图1所示，本实施例提供的基于人脸特征点检测的非接触式心率检测方法，包括以下步骤：

S101、获取人脸视频图像，根据人脸视频图像确定人脸区域。

使用摄像头获取人脸视频图像，对获取到的图像进行人脸检测，提取人脸区域。

在自然光照的情况下，使用普通彩色摄像头，以30帧每秒的采样频率获取实验者的人脸视频图像，工作时要求摄像头与实验者距离为0.5-1米之间，并且要求实验者保持静止，采集20秒共600帧的人脸视频图像，并使用人脸检测器BlaceFace检测人脸，确定人脸区域。

S102、根据人脸区域，利用人脸特征点确定感兴趣区域，分离感兴趣区域红绿蓝通道信号作为观测信号。

根据人脸区域确定人脸特征点，根据人脸特征点确定感兴趣区域，分离感兴趣区域红绿蓝通道信号作为观测信号。

进一步的，步骤S102包括：

(1)将人脸区域输入人脸特征点检测网络模型，得到人脸特征点。

(1-1)构建人脸特征点检测网络模型。

基于深度可分离卷积的人脸特征点检测网络模型，模型输出为98个特征点坐标，该模型结构如表1所示。

表1人脸特征点检测网络模型的结构

整个网络结构由两个部分组成，第一个是基于深度可分离卷积Block模块的特征提取部分，包括表1中第一个标准卷积层和全部11个Block层。其中，标准卷积层输入尺寸为112ⅹ112ⅹ3，输出通道数为16，卷积核为3ⅹ3，步长为2，卷积后输出的特征图尺寸为56ⅹ56ⅹ16，后接批量标准化BN层，再使用激活函数hardswich激活，使用到的参数与表1各参数对应，未提供的其他参数为默认值，之后该输出作为下一个Block层的输入。Block层为MobileNetV3提出的深度可分离卷积模块，用来代替标准卷积，其结构如图2所示。Block层包括五个部分：(1)扩展层(Expansion)使用1ⅹ1卷积，将低维空间映射到高维空间；(2)深度可分离卷积(Depthwise Convolution)，用于完成卷积功能，降低计算量、参数量；(3)投影层(Projection)1ⅹ1卷积，将高维特征映射到低维空间去；(4)残差连接(ResidualConnection)，用于降低模型复杂度以减少过拟合，防止梯度消失；(5)SE注意力模块，用于对输入特征图进行通道特征加强。只有在步长等于1且输入通道数等于输出通道数，才使用残差连接(residual connection)。其中，表1中的升维尺寸表示Block模块中扩展层升维，是扩展层卷积的输出通道数，通道输出表示该Block层输出的通道数，激活函数表示该Block层中使用的激活函数(图2中的NoLinenear)，表1中的步长表示Block模块中深度可分离卷积的步长。

每一个Block层使用到的参数与表格1对应，以第二个Block层为例，输入特征图尺寸为56ⅹ56ⅹ16，Block中扩展层升维到32，深度可分离卷积使用的步长为2，卷积核为3ⅹ3，组数(groups)默认为升维尺寸32，padding默认为卷积核尺寸//2，投影层输出为24，经过该Block层得到的特征图尺寸为28ⅹ28ⅹ24，即第3个Block层的输入尺寸，只有表1中的第一个Block层没有使用到扩展层，所以第一个Block层升维尺寸和通道输出一致，经过特征提取骨干网络部分得到的特征图尺寸为7ⅹ7ⅹ192。每一个Block层都使用了SE注意力模块，SE模块的输入为该层的升维尺寸，第二个Block层的SE模块输入为升维尺寸32。

网络结构第二个部分是多尺度融合预测，用于从输入图像中提取特征，在五个尺度上进行融合来增加模型的表达能力，分别是第一个Block层后的输出S1(56ⅹ56ⅹ16)，第三个Block层后的输出S2(28ⅹ28ⅹ24)，第六个Block层后的输出S3(14ⅹ14ⅹ48)，第九个Block层后的输出S4(7ⅹ7ⅹ192)，特征提取骨干网络的输出再经过一个7ⅹ7卷积得到的输出S5(1ⅹ1ⅹ192)，S1、S2、S3、S4各自接一个平均池化层，池化层的核尺寸和步长为输入尺寸的长，以S1为例，输入尺寸为56ⅹ56ⅹ16，平均池化层核尺寸为56，步长为56，输出尺寸为1ⅹ1ⅹ16，之后将五个输入展开为1维并拼接，使用一个输入为376，输出为196的全连接层预测，输出98个特征点坐标。

其中，(1-2)使用公开数据集WFLW训练人脸特征点检测网络模型，WFLW包含了10000张人脸，其中7500张用于训练，2500张用于测试。

其中，使用的损失函数为L2Loss：

表示第i个真实特征点坐标值，

表示第i个预测特征点坐标值；

训练使用的优化器为Adam，批次为256，学习率为0.0001，迭代次数为120，训练完成后模型的测试结果如表2所示。

表2人脸特征点检测网络模型测试结构

NME	模型大小	推理时间
			0.0727	1.5M	3.6ms

其中，人脸特征点评估指标标准化平均误差(Normalized Mean Error，NME)定义为：

其中，x_i为预测第i个特征点的坐标，

为第i个坐标的真实值，d为两眼瞳孔间距离。

根据人脸特征点检测网络模型测试结果可知，本发明采用的模型结构可以有效减少模型计算量和参数量，整个模型大小只有1.5M，在CPU(i5-12400)上的推理时间为3.3ms，并且可以保证检测精度(NME为0.0727)，精度和推理时间满足非接触式心率检测任务的要求。

(1-3)将人脸区域输入人脸特征点检测网络模型中，得到人脸特征点。

将人脸区域输入人脸特征点检测网络模型中，输出98个特征点坐标。

(2)根据人脸特征点，确定感兴趣区域。

根据得到的特征点坐标，剔除背景区域、眼部和嘴唇的像素，剩余的皮肤区域作为感兴趣区域(ROI)，如图3所示。

(3)分离感兴趣区域中的红、绿、蓝三通道信号，作为观测信号。

依次对于单个ROI，分离红、绿、蓝三通道信号，分别取平均值得到：

对于单个视频，可得到三组长度为视频帧数的原始信号：R(t),G(t),B(t)。

S103、使用脉搏波提取算法POS从观测信号中分离出血液容积脉搏波信号。

平面正交贴面法POS算法的定义如下：

其中，σ(·)表示标准偏差，X_x和Y_s是由RGB三通道信号组合得到的。单个光源的情况下，它们通常表示为：

Y_s＝G_n+B_n-2R_n

其中，R_n,G_n,B_n分别表示R(t),G(t),B(t)归一化后的结果。

对于帧数为N的视频序列，POS算法使用大小为T的滑动窗口，应用上述算法获得窗口输出值，并使用重叠相加的方法获取最终的脉搏信号输出；其中，T通常为：

T＝1.6*fps

其中fps为摄像头采样频率。

S104、对血液容积脉搏波信号进行带通滤波，对滤波后的信号进行快速傅里叶变换得到功率谱密度图，根据功率谱密度图计算心率值。

进一步的，步骤S104包括：

(1)对血液容积脉搏波信号(BVP信号)使用带通滤波用以消除[0.75,4]HZ以外的频率，然后对滤波后的BVP信号进行快速傅里叶变换得到功率谱密度图；

(2)检测功率谱密度图的峰值，找到峰值对应的频率f_hr，计算心率值。

其中，心率值计算公式为：

HR＝60*f_hr。

本领域技术人员可以理解，实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读存储介质中。

应当注意，尽管在附图中以特定顺序描述了上述实施例的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2：

如图4所示，本实施例提供了一种基于人脸特征点检测的非接触式心率检测系统，该系统包括图像获取模块401、人脸特征点检测模块402、通道信号分离模块403、血液容积脉搏波信号分离模块404和心率值计算模块405，其中：

图像获取模块401，用于获取人脸视频图像，根据人脸视频图像确定人脸区域；

人脸特征点检测模块402，用于将所述人脸区域输入人脸特征点检测网络模型，得到人脸特征点；所述人脸特征点检测网络模型包括特征提取部分和多尺度融合预测部分，其中，所述特征提取部分包括标准卷积层和多个Block层，所述Block层为MobileNetV3提出的深度可分离卷积模块；所述多尺度融合预测部分通过对多个不同尺度图像进行融合增强模型的表达力；

通道信号分离模块403，用于根据所述人脸特征点确定感兴趣区域，分离所述感兴趣区域中的通道信号作为观测信号；

血液容积脉搏波信号分离模块404，用于利用脉搏波提取算法从所述观测信号中分离出血液容积脉搏波信号；

心率值计算模块405，用于根据所述血液容积脉搏波信号计算心率值。

本实施例中各个模块的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例3：

本实施例提供了一种计算机设备，该计算机设备可以为计算机，如图5所示，其通过系统总线501连接的处理器502、存储器、输入装置503、显示器504和网络接口505，该处理器用于提供计算和控制能力，该存储器包括非易失性存储介质506和内存储器507，该非易失性存储介质506存储有操作系统、计算机程序和数据库，该内存储器507为非易失性存储介质中的操作系统和计算机程序的运行提供环境，处理器502执行存储器存储的计算机程序时，实现上述实施例1的非接触式心率检测方法，如下：

获取人脸视频图像，根据人脸视频图像确定人脸区域；

根据所述血液容积脉搏波信号计算心率值。

实施例4：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例1的非接触式心率检测方法，如下：

获取人脸视频图像，根据人脸视频图像确定人脸区域；

根据所述血液容积脉搏波信号计算心率值。

需要说明的是，本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于人脸特征点检测的非接触式心率检测方法，其特征在于，所述方法包括：

获取人脸视频图像，根据人脸视频图像确定人脸区域；

根据所述血液容积脉搏波信号计算心率值。

2.根据权利要求1所述的非接触式心率检测方法，其特征在于，所述Block层共有11个；

最后一个Block层的输出经过卷积层处理后输出S5；

3.根据权利要求2所述的非接触式心率检测方法，其特征在于，所述Block层包括扩展层、深度可分离卷积、投影层、残差连接和SE注意力模块，其中，所述扩展层用于将低维空间映射到高维空间；所述深度可分离卷积用于完成卷积功能，降低计算量、参数量；所述投影层用于将高维特征映射到低维空间去；所述残差连接用于降低模型复杂度以减少过拟合，防止梯度消失；所述SE注意力模块用于对输入特征图进行通道特征加强；在Block层中只有步长等于1且输入通道数等于输出通道数时，才使用残差连接。

4.根据权利要求1所述的非接触式心率检测方法，其特征在于，所述分离所述感兴趣区域中的通道信号作为观测信号，包括：

依次对于单个感兴趣区域ROI，分离出红、绿、蓝三通道信号，并分别取平均值得到：