CN111839490B

CN111839490B - 非接触式心率监测方法及系统

Info

Publication number: CN111839490B
Application number: CN202010457699.XA
Authority: CN
Inventors: 丁帅; 岳子杰; 柯震; 杨善林; 李霄剑; 欧阳波; 顾东晓
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2021-04-13
Anticipated expiration: 2040-05-26
Also published as: CN111839490A

Abstract

本发明提供了一种非接触式心率监测方法及系统，涉及心率监测技术领域。通过面部特征点定位和人脸监测算法从面部视频中监测人脸并确定两个ROI区域；再基于ROI区域对应的面部视频获得RGB色域空间中的第n个像素的时域信号，再基于时域信号获得原始面部视频的时空表示块；使用快速傅里叶变换以及带通滤波器得到频域信号；根据频域信号获得原始面部视频的空间频率表示块；并通过多通道特征融合心率监测网络对时空表示块和空间频率表示块提取特征和降维，计算出心率值。解决了现有技术不能充分利用时域信号和频域信号中除频域响应最大值所对应的频率值以外的数据来计算心率的技术问题，能够有效提高心率估计的准确率。

Description

非接触式心率监测方法及系统

技术领域

本发明涉及心率监测技术领域，具体涉及一种非接触式心率监测方法及系统。

背景技术

在为传染病患者监测心率时，采用非接触的监测方法能够有效避免医护人员与病患接触，降低医护人员的感染风险。

现有的非接触式心率监测方法多为基于视觉图像信息技术进行监测，例如专利号为2015107410069的发明专利公开了一种非接触式心率监测方法，该方法步骤包括：先获取被监测者的脸部视频图像数据，对图像数据中的人脸进行识别，并计算人脸的感兴趣区域图像；再通过时域差分颜色变化放大模型计算感兴趣区域图像的红色与绿色分量差分值，计算感兴趣区域图像的差分放大值，根据差分放大值计算感兴趣区域图像的时域变化波形，即时域信号；最后将时域变化波形进行傅立叶变换，即得到频域信号，计算频域响应最大值，根据频域响应最大值所对应的频率值计算得到被监测者的心率值，可以有效避免环境光照对基于视觉的非接触式心率计算方法的影响，从而提供了更鲁棒、更准确的非接触式心率监测结果。

但上述方法在监测心率的过程中，由于只利用了频域信号中频域响应最大值来计算出心率值，存在不能充分利用时域信号和频域信号中除频域响应最大值所对应的频率值以外的数据来计算心率的问题，进而影响心率监测的准确率。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种非接触式心率监测方法及系统，解决了存在不能充分利用时域信号和频域信号中除频域响应最大值所对应的频率值以外的数据来计算心率的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种非接触式心率监测方法，该方法包括如下步骤：

S1、通过面部特征点定位和人脸监测算法从面部视频中监测人脸并确定两个ROI区域；

S2、基于两个所述ROI区域对应的面部视频构建时空表示块和空间频率表示块；

S3、通过一个3D CNN对时空表示块进行特征提取并降维，得到对应时空表示块的一维特征向量，并通过另一个3D CNN对空间频率表示块进行特征提取并降维，得到对应空间频率表示块的一维特征向量；

S4、通过多通道特征融合层将两个所述一维特征向量进行特征融合，得到深层特征描述符Z；

S5、通过两个全连接层对深层特征描述符Z进行降维，最终得到心率值。

优选的，所述S1中通过面部特征点定位和人脸监测算法从面部视频中监测人脸并确定两个ROI区域包括：

通过Dlib库集成的基于集成回归树的面部特征点定位模型，对面部特征点的坐标进行监测，并提取出前额和鼻子对应的区域作为两个ROI区域。

优选的，所述S2、基于两个所述ROI区域对应的面部视频构建时空表示块和空间频率表示块，具体包括如下步骤：

S201、将ROI区域对应的面部视频的分辨率调整为和，获得RGB色域空间中的第n个像素的时域信号:

R_mn＝{P_R(n,1,m),P_R(n,2,m),…,P_R(n,T,m)}，

G_mn＝{P_G(n,1,m),P_G(n,2,m),…,P_G(n,T,m)}，

B_mn＝{P_B(n,1,m),P_B(n,2,m),…,P_B(n,T,m)}，

其中，P_R(n,t,m)表示在第m个视频子片段中第t帧的第n个像素在红色通道中的值；

S202、根据视频子片段个数构造M个时空子块，并将视频子片段中第n个像素的时域信号放置到时空子块的第n行，将M个时空子块堆叠获得原始面部视频的时空表示块；

S203、通过使用快速傅里叶变换将每个时域信号R_mn，G_mn，B_mn变换到频域，通过带通滤波器将频率值在0.75-3.33Hz之间内的数据保留，并将0.75-3.33Hz之外的数据值归零；根据视频子片段个数构造M个空间频率子块，并将视频子片段中第n个像素的频域信号放置到空间频率子块的第n行，将M个空间频率子块堆叠获得原始面部视频的空间频率表示块。

优选的，在执行所述S201前，若ROI区域对应的面部视频的时长超过预设值P，则将其划分为M个包含T帧的视频子片段，若ROI区域对应的面部视频的时长不超过预设值P，则将面部视频作为一个视频子片段。

优选的，所述S3中通过一个3D CNN对时空表示块进行特征提取并降维，得到对应时空表示块的一维特征向量，并通过另一个3D CNN对空间频率表示块进行特征提取并降维，得到对应空间频率表示块的一维特征向量包括：

S301、每个3D CNN的五个3D卷积层之后均进行批正则化和整流线性单元激活，且每个卷积层输出的特征图的计算公式如下：

其中

是3D卷积层l生成的第j个特征图，

是前一个3D卷积层l-1生成的第i个特征图，k_ij表示第i个训练过的3D卷积核，

是偏置，Pooling_max为3D最大池化操作，而*表示3D卷积操作；

S302、每个所述3D CNN中的全连接层将特征图降维，得到一维特征向量，其中，时空表示块对应的3D CNN输出的一维特征向量为：Y₁＝{y₁₁,y₁₂,…,y_1A}，空间频率块对应的3D CNN输出的一维特征向量为：Y₂＝{y₂₁,y₂₂,…,y_2A}，其中，A表示3D CNN中的全连接层中的单元数。

优选的，所述S4中通过多通道特征融合层将两个所述一维特征向量进行特征融合，具体包括：

所述多通道特征融合层通过加性融合运算获得深层特征描述符Z，且计算公式如下：

Z＝{z₁,z₂,…,z_a}；

其中，y_da表示一维特征向量中的Y_d第a个数值，z_a表示深层特征描述符Z中第a个数值。

一种非接触式心率监测系统，包括人脸监测模块、ROI区域筛选模块、时空表示块生成模块、空间频率表示块生成模块、多通道特征融合心率监测网络模块；

所述人脸监测模块用于监测面部视频中的人脸，并对面部特征点的坐标进行监测；

所述ROI区域筛选模块用于从面部特征点的坐标中筛选出两个区域作为ROI区域；

所述时空表示块生成模块包括时域信号提取单元和时空子块构建单元；所述时域信号提取单元用于将ROI区域对应的面部视频的分辨率调整为H_ROI1*W_ROI1和H_ROI2*W_ROI2，获得RGB色域空间中的第n个像素的时域信号：

R_mn＝{P_R(n,1,m),P_R(n,2,m),…,P_R(n,T,m)}，

G_mn＝{P_G(n,1,m),P_G(n,2,m),…,P_G(n,T,m)}，

B_mn＝{P_B(n,1,m),P_B(n,2,m),…,P_B(n,T,m)}，

所述时空子块构建单元用于根据视频子片段个数构造M个时空子块，并将视频子片段中第n个像素的时域信号放置到时空子块的第n行，将M个时空子块堆叠得到时空表示块；

所述空间频率表示块生成模块包括频域转换单元、数据筛选单元、时空间频率子块构建单元；所述频域转换单元用于通过快速傅里叶变换将每个时域信号R_mn，G_mn，B_mn变换到频域；所述数据筛选单元用于将频率值在0.75-3.33Hz之间内的数据保留，并将0.75-3.33Hz之外的数据值归零；所述时空间频率子块构建单元用于根据视频子片段个数构造M个空间频率子块，并将视频子片段中第n个像素的频域信号放置到空间频率子块的第n行，将M个空间频率子块堆叠得到空间频率表示块；

所述多通道特征融合心率监测网络模块包括两个3D CNN、一个多通道特征融合层以及两个全连接层；其中一个所述3D CNN用于对时空表示块进行特征提取并降维，得到对应时空表示块的一维特征向量，另一个所述3D CNN用于对空间频率表示块进行特征提取并降维，得到对应空间频率表示块的一维特征向量；所述多通道特征融合层用于将两个所述一维特征向量进行特征融合，得到深层特征描述符Z；多通道特征融合心率监测网络模块中的两个所述全连接层用于对深层特征描述符Z进行降维，得到心率值。

优选的，所述系统还包括视频分割模块，所述视频分割模块用于在时空表示块生成模块以及空间频率表示块生成模块对ROI区域对应的面部视频进行处理前，将时长大于预设值P的ROI区域对应的面部视频划分为M个包含T帧的视频子片段，将时长不大于预设值P的ROI区域对应的面部视频作为一个视频子片段。

优选的，每个所述3D CNN均包括五个3D卷积层、四个3D最大池化层和一个全连接层；所述3D卷积层之后均进行批正则化和整流线性单元激活，且每个3D卷积层的输出特征图的计算公式如下：

其中

是3D卷积层l生成的第j个特征图，

是偏置，Pooling_max为3D最大池化操作，而*表示3D卷积操作。

优选的，所述深层特征描述符Z的计算公式如下：

Z＝{z₁,z₂,…,z_a}；

(三)有益效果

本发明提供了一种非接触式心率监测方法及系统。与现有技术相比，具备以下有益效果：

本发明通过从面部视频中监测人脸并确定两个ROI区域；再基于ROI区域对应的面部视频获得RGB色域空间中的第n个像素的时域信号，再基于时域信号获得时空表示块；使用快速傅里叶变换以及带通滤波器得到频域信号；根据频域信号获得空间频率表示块；通过构建时空表示块和空间频率表示块能够完整保留时域信号和频域信号，使得后面利用神经网络进行特征提取时，在时域和频域上产生更具有判别性的一维特征向量。通过将时空表示块和空间频率表示块作为多通道特征融合心率监测网络的输入；并通过两个3D CNN分别对时空表示块和空间频率表示块进行特征提取和降维，能够得到更优的时域特征和频域特征，输出分别对应时空表示块和空间频率表示块的两个一维特征向量；再通过多通道特征融合层将两个所述一维特征向量进行特征融合，得到深层特征描述符Z；最终通过两个全连接层对深层特征描述符Z进行降维，得到更加准确的心率值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的流程图；

图2为本发明实施例中多通道特征融合心率监测网络的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种非接触式心率监测方法及系统，解决了现有技术存在不能充分利用时域信号和频域信号中除频域响应最大值所对应的频率值以外的数据来计算心率的技术问题，实现提高心率监测准确率的效果。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

为了充分利用面部视频，获取面部视频中的感兴趣区域(ROI，region ofinterest)在数据预处理阶段构造了时空表示块和空间频率块以在时域和频域中产生更多特征，并且利用3D卷积神经网络(3D CNN)来提取具有判别性的一维特征向量，然后构建多通道特征融合层(Multichannel Feature Fusion Layer)，以从时域、频域这两个通道数据中挖掘数据间的关系，最终实现得到更精准的心率。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例1：

如图1-2所示，本发明提供了一种非接触式心率监测方法，该方法由计算机执行，该方法包括S1-S5：

S5、通过两个全连接层(即图2中的FC3和FC4)对深层特征描述符Z进行降维，最终得到心率值。

本发明实施例通过从面部视频中监测人脸并确定两个ROI区域；再基于ROI区域对应的面部视频获得RGB色域空间中的第n个像素的时域信号，再基于时域信号获得时空表示块；使用快速傅里叶变换以及带通滤波器得到频域信号；根据频域信号获得空间频率表示块；通过构建时空表示块和空间频率表示块能够完整保留时域信号和频域信号，使得后面利用神经网络进行特征提取时，在时域和频域上产生更具有判别性的一维特征向量。通过将时空表示块和空间频率表示块作为多通道特征融合心率监测网络的输入；并通过两个3DCNN分别对时空表示块和空间频率表示块进行特征提取和降维，输出分别对应时空表示块和空间频率表示块的两个一维特征向量；再通过多通道特征融合层将两个所述一维特征向量进行特征融合，得到深层特征描述符Z；最终通过两个全连接层对深层特征描述符Z进行降维，得到心率值。能够有效提高心率估计的准确率。

在本实施里中，所述S1中通过面部特征点定位和人脸监测算法从面部视频中监测人脸并确定两个ROI区域包括：

在本实施里中，所述S2、基于两个所述ROI区域对应的面部视频构建时空表示块和空间频率表示块，具体包括如下步骤：

S201、将ROI区域对应的面部视频的分辨率调整为H_ROI1*W_ROI1和H_ROI2*W_ROI2，获得RGB色域空间中的第n个像素的时域信号:

R_mn＝{P_R(n,1,m),P_R(n,2,m),…,P_R(n,T,m)}，

G_mn＝{P_G(n,1,m),P_G(n,2,m),…,P_G(n,T,m)}，

B_mn＝{P_B(n,1,m),P_B(n,2,m),…,P_B(n,T,m)}，

在本实施里中，在执行所述S201前，若ROI区域对应的面部视频的时长超过预设值P，则将其划分为M个包含T帧的视频子片段，若ROI区域对应的面部视频的时长不超过预设值P，则将面部视频作为一个视频子片段。例如，在应用时，P＝30S,M＝5,T＝180。

在本实施里中，所述S3中通过一个3D CNN对时空表示块进行特征提取并降维，得到对应时空表示块的一维特征向量，并通过另一个3D CNN对空间频率表示块进行特征提取并降维，得到对应空间频率表示块的一维特征向量包括：

S301、每个3D CNN的五个3D卷积层(即图2中3D-conv1-5)之后均进行批正则化(BN)和整流线性单元激活(ReLU)，且每个卷积层输出的特征图的计算公式如下：

其中

是3D卷积层l生成的第j个特征图，

是偏置，Pooling_max为3D最大池化操作，而*表示3D卷积操作；

S302、每个所述3D CNN中的全连接层(即图2中的FC1和FC2)将特征图降维，得到一维特征向量，其中，时空表示块对应的3D CNN输出的一维特征向量为：Y₁＝{y₁₁,y₁₂,…,y_1A}，空间频率块对应的3D CNN输出的一维特征向量为：Y₂＝{y₂₁,y₂₂,…,y_2A}，其中，A表示3D CNN中的全连接层中的单元数。

在本实施里中，所述S4中通过多通道特征融合层将两个所述一维特征向量进行特征融合，具体包括：

Z＝{z₁,z₂,…,z_a}；

下面对本实施例的实现过程进行详细描述：

S1、通过面部特征点定位和人脸监测算法从面部视频中监测人脸并确定两个ROI区域；由于选择整个人脸作为感兴趣区域(ROI)时，部分面部区域，例如眼睛区域无法监测到颜色的变化，例如脸颊、嘴部附近、鼻翼两侧的面部区域受到头部运动和环境光照变化影响较大，因此会产生很大的噪声，进而导致心率监测的准确率下降。且处理整个面部所需的运算量过大，程序运行的效率也更低。考虑到前额和鼻子周围的区域包含更多的心率信息且较少涉及面部动作(眨眼和面部表情等)。通过Dlib库集成的基于集成回归树的面部特征点定位模型，对面部特征点的坐标进行监测，并提取出前额和鼻子对应的区域作为两个ROI区域，即ROI1和ROI2。这两个区域受到头部运动和环境光照变化的干扰较小且数据量较小，能够有效的降低头部运动和环境光照变化导致的干扰，提高心率监测的准确率，同时有助于降低运行负荷。

考虑到心率可能会在很长一段时间内发生多次大幅变化，在执行所述S201前，若ROI区域对应的面部视频的时长超过预设值P，则将其划分为M个包含T帧的视频子片段，若ROI区域对应的面部视频的时长不超过预设值P，则将面部视频作为一个视频子片段。有助于在每个短时间间隔信号中提取更多特征。

S2、基于两个所述ROI区域对应的面部视频构建时空表示块和空间频率表示块；具体包括如下步骤：

S201、将ROI区域对应的面部视频的分辨率调整为H_ROI1*W_ROI1和H_ROI2*W_ROI2，例如额头区域的分辨率为7*9，鼻翼区域的分辨率为15*31，因此对于每一帧图像，提取的像素总数N＝H_ROI1*W_ROI1+H_ROI2*W_ROI2，获得RGB色域空间中的第n个像素的时域信号:

R_mn＝{P_R(n,1,m),P_R(n,2,m),…,P_R(n,T,m)}，

G_mn＝{P_G(n,1,m),P_G(n,2,m),…,P_G(n,T,m)}，

B_mn＝{P_B(n,1,m),P_B(n,2,m),…,P_B(n,T,m)}，

其中，P_R(n,t,m)表示在第m个视频子片段中第t帧的第n个像素在红色通道中的值；蓝色通道和绿色通道以此类推。

S202、为了充分利用时域信息，根据视频子片段个数构造M个时空子块，并将视频子片段中第n个像素的时域信号放置到时空子块的第n行，将M个时空子块堆叠获得原始面部视频的时空表示块，其维度为M×N×T×3，且具有丰富的时间特征。

S203、为了充分利用频域信息，通过使用快速傅里叶变换将每个时域信号R_mn，G_mn，B_mn变换到频域，考虑到人类正常的HR为45-200bpm，相应的频带为0.75-3.33Hz，因此通过带通滤波器将频率值在0.75-3.33Hz之间内的数据保留，并将0.75-3.33Hz之外的数据值归零；一方面能够消除噪声频率，另一方面可以提取对心率分析有用的频域信息。根据视频子片段个数构造M个空间频率子块，并将视频子片段中第n个像素的频域信号放置到空间频率子块的第n行，将M个空间频率子块堆叠获得原始面部视频的空间频率表示块；其维度为M×N×F×3，其中F表示0.75-3.33Hz之间的采样点数。

S3、考虑与2D CNN相比，3D卷积和3D池化操作具有良好的特征学习能力，选择3D卷积核来执行所构造的时空块和空间频率块的卷积运算；因此通过一个3D CNN对时空表示块进行特征提取并降维，得到对应时空表示块的一维特征向量，并通过另一个3D CNN对空间频率表示块进行特征提取并降维，得到对应空间频率表示块的一维特征向量；包括：

S301、每个3D CNN的五个3D卷积层(3D-CONV)之后均进行批正则化和整流线性单元激活，且每个卷积层输出的特征图的计算公式如下：

其中

是3D卷积层l生成的第j个特征图，

是偏置，Pooling_max为3D最大池化操作，而*表示3D卷积操作；

S4、为了从每个一维特征向量中挖掘数据间的关系，通过多通道特征融合层将两个所述一维特征向量进行特征融合，得到深层特征描述符Z；且深层特征描述符Z计算公式如下：

Z＝{z₁,z₂,…,z_a}；

S5、通过两个全连接层对深层特征描述符Z进行降维，最终得到心率值，即HR。

表1、只提取时域信号、只提取频域信号以及将时域信号和频域信号进行多通道特征融合的心率监测结果对照表

如表1所示，HR-Net-T-Block指的是只提取时域信号的结果，HR-Net-F-Block指的是只提取频域信号的结果，HR-Net是将时域信号和频域信号进行多通道特征融合的结果，MSE为均方误差、MAE为平均绝对误差、MAPE为平均绝对百分比误差、ρ为皮尔逊相关系数，可知，本实施例方法的各项指标均优于其他方案，心率监测准确率更高。

综上所述，与现有技术相比，本发明实施例的有益效果如下：

1、本发明实施例通过从面部视频中监测人脸并确定两个ROI区域；再基于ROI区域对应的面部视频获得RGB色域空间中的第n个像素的时域信号，再基于时域信号获得时空表示块；使用快速傅里叶变换以及带通滤波器得到频域信号；根据频域信号获得空间频率表示块；通过构建时空表示块和空间频率表示块能够完整保留时域信号和频域信号，使得后面利用神经网络进行特征提取时，在时域和频域上产生更具有判别性的一维特征向量。通过将时空表示块和空间频率表示块作为多通道特征融合心率监测网络的输入；并通过两个3D CNN分别对时空表示块和空间频率表示块进行特征提取和降维，能够得到更优的时域特征和频域特征，输出分别对应时空表示块和空间频率表示块的两个一维特征向量；再通过多通道特征融合层将两个所述一维特征向量进行特征融合，得到深层特征描述符Z；最终通过两个全连接层对深层特征描述符Z进行降维，得到更加准确的心率值。

2、本发明实施例直接对时域信号和傅里叶变换后的频域信号进行特征处理，而非将其转换成频谱图，这样做避免了对面部血流信息的二次描记过程，减少关键信息丢失概率。且本发明实施例在对时域和频域特征处理后再融合，就不会在计算过程中丢失某一类特征，而利用频谱图则会存在这种风险。

实施例2

本发明还提供了一种非接触式心率监测系统，包括人脸监测模块、ROI区域筛选模块、时空表示块生成模块、空间频率表示块生成模块、多通道特征融合心率监测网络模块；

R_mn＝{P_R(n,1,m),P_R(n,2,m),…,P_R(n,T,m)}，

G_mn＝{P_G(n,1,m),P_G(n,2,m),…,P_G(n,T,m)}，

B_mn＝{P_B(n,1,m),P_B(n,2,m),…,P_B(n,T,m)}，

如图2所示，所述多通道特征融合心率监测网络模块包括两个3D CNN、一个多通道特征融合层以及两个全连接层(即图2中的FC3和FC4)；两个所述3D CNN用于将空间频率表示块和时空表示块作为输入，并分别对时空表示块和空间频率表示块进行特征提取和降维，输出对应时空表示块和空间频率表示块的两个一维特征向量；所述多通道特征融合层用于将两个所述一维特征向量进行特征融合，得到深层特征描述符Z；

多通道特征融合心率监测网络模块中的两个所述全连接层用于对深层特征描述符Z进行降维，得到心率值。

本实施例中，所述系统还包括视频分割模块，所述视频分割模块用于在时空表示块生成模块以及空间频率表示块生成模块对ROI区域对应的面部视频进行处理前，将时长大于预设值P的ROI区域对应的面部视频划分为M个包含T帧的视频子片段，将时长不大于预设值P的ROI区域对应的面部视频作为一个视频子片段。

本实施例中，每个所述3D CNN均包括五个3D卷积层(即图2中的3D-CONV1～10)、四个3D最大池化层(即图2中的3D-MaxPool1～8)和一个全连接层(即图2中的FC1和FC2)；所述3D卷积层之后均进行批正则化和整流线性单元激活，且每个3D卷积层的输出特征图的计算公式如下：

其中

是3D卷积层l生成的第j个特征图，

是偏置，Pooling_max为3D最大池化操作，而*表示3D卷积操作。

本实施例中，所述深层特征描述符Z的计算公式如下：

Z＝{z₁,z₂,…,z_a}；

可理解的是，本实施例提供的非接触式心率监测系统与上述非接触式心率监测方法相对应，其有关内容的解释、举例、有益效果等部分可以参考非接触式心率监测方法中的相应内容，此处不再赘述。

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种非接触式心率监测方法，其特征在于，该方法包括如下步骤：

R_mn＝{P_R(n,1,m),P_R(n,2,m),…,P_R(n,T,m)}，

G_mn＝{P_G(n,1,m),P_G(n,2,m),…,P_G(n,T,m)}，

B_mn＝{P_B(n,1,m),P_B(n,2,m),…,P_B(n,T,m)}，

其中，P_R(n,t,m)表示在第m个视频子片段中第t帧的第n个像素在红色通道中的值；P_B(n,t,m)表示在第m个视频子片段中第t帧的第n个像素在蓝色通道中的值；P_G(n,t,m)表示在第m个视频子片段中第t帧的第n个像素在绿色通道中的值；

S203、通过使用快速傅里叶变换将每个时域信号R_mn，G_mn，B_mn变换到频域，通过带通滤波器将频率值在0.75-3.33Hz之间内的数据保留，并将0.75-3.33Hz之外的数据值归零；根据视频子片段个数构造M个空间频率子块，并将视频子片段中第n个像素的频域信号放置到空间频率子块的第n行，将M个空间频率子块堆叠获得原始面部视频的空间频率表示块；

2.如权利要求1所述的一种非接触式心率监测方法，其特征在于，所述S1中通过面部特征点定位和人脸监测算法从面部视频中监测人脸并确定两个ROI区域包括：

3.如权利要求1所述的一种非接触式心率监测方法，其特征在于，在执行所述S201前，若ROI区域对应的面部视频的时长超过预设值P，则将其划分为M个包含T帧的视频子片段，若ROI区域对应的面部视频的时长不超过预设值P，则将面部视频作为一个视频子片段。

4.如权利要求1-3中任一所述的一种非接触式心率监测方法，其特征在于，所述S3中通过一个3D CNN对时空表示块进行特征提取并降维，得到对应时空表示块的一维特征向量，并通过另一个3D CNN对空间频率表示块进行特征提取并降维，得到对应空间频率表示块的一维特征向量包括：

其中

是3D卷积层l生成的第j个特征图，

是偏置，Pooling_max为3D最大池化操作，而*表示3D卷积操作；

S302、每个所述3D CNN中的全连接层将特征图降维，得到一维特征向量，其中，时空表示块对应的3D CNN输出的一维特征向量为：Y₁＝{y₁₁,y₁₂,…,y_1A}，空间频率块对应的3DCNN输出的一维特征向量为：Y₂＝{y₂₁,y₂₂,…,y_2A}，其中，A表示3D CNN中的全连接层中的单元数。

5.如权利要求1所述的一种非接触式心率监测方法，其特征在于，所述S4中通过多通道特征融合层将两个所述一维特征向量进行特征融合，具体包括：

Z＝{z₁,z₂,…,z_a}；

6.一种非接触式心率监测系统，其特征在于，包括人脸监测模块、ROI区域筛选模块、时空表示块生成模块、空间频率表示块生成模块、多通道特征融合心率监测网络模块；

R_mn＝{P_R(n,1,m),P_R(n,2,m),…,P_R(n,T,m)}，

G_mn＝{P_G(n,1,m),P_G(n,2,m),…,P_G(n,T,m)}，

B_mn＝{P_B(n,1,m),P_B(n,2,m),…,P_B(n,T,m)}，

7.如权利要求6所述的一种非接触式心率监测系统，其特征在于，所述系统还包括视频分割模块，所述视频分割模块用于在时空表示块生成模块以及空间频率表示块生成模块对ROI区域对应的面部视频进行处理前，将时长大于预设值P的ROI区域对应的面部视频划分为M个包含T帧的视频子片段，将时长不大于预设值P的ROI区域对应的面部视频作为一个视频子片段。

8.如权利要求6-7中任一所述的一种非接触式心率监测系统，其特征在于，每个所述3DCNN均包括五个3D卷积层、四个3D最大池化层和一个全连接层；所述3D卷积层之后均进行批正则化和整流线性单元激活，且每个3D卷积层的输出特征图的计算公式如下：

其中

是3D卷积层l生成的第j个特征图，

是偏置，Pooling_max为3D最大池化操作，而*表示3D卷积操作。

9.如权利要求6所述的一种非接触式心率监测系统，其特征在于，所述深层特征描述符Z的计算公式如下：

Z＝{z₁,z₂,…,z_a}；