CN113449653B

CN113449653B - 心率检测方法、系统、终端设备及存储介质

Info

Publication number: CN113449653B
Application number: CN202110739560.9A
Authority: CN
Inventors: 刘羽中; 李华亮; 范圣平; 沈雅利; 王琪如; 谢庭军; 翟永昌
Original assignee: Guangdong Power Grid Co Ltd; Electric Power Research Institute of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-11-01
Anticipated expiration: 2041-06-30
Also published as: CN113449653A

Abstract

本发明公开了一种心率检测方法、系统、终端设备及存储介质，所述方法包括获取面部视频帧序列，提取面部视频帧序列中的人脸序列；将人脸序列中的人脸区域从RGB颜色空间转换到YUV颜色空间；将转换后的人脸区域的视频帧序列转变为时空特征图，利用深度神经网络模型提取时空特征图的第一特征，及利用POS模型提取转换前的人脸区域的第二特征；将第一特征与第二特征进行拼接，利用心率预测网络提取拼接特征中的心率值。本发明集成了ResNet‑18网络和POS模型的优点，并融合了多视角特征，因此能够增强深度模型在不同应用场景的鲁棒性，解决了复杂场景下传统模型性能不佳或跨场景性能大幅下降的问题。

Description

心率检测方法、系统、终端设备及存储介质

技术领域

本发明涉及心率检测技术领域，具体涉及一种心率检测方法、系统、终端设备及存储介质。

背景技术

人体心率检测技术在人体健康状况监测等领域有着巨大的应用价值。传统的基于面部视频的非接触式的心率检测技术一般是基于盲源分离技术或者基于色差分离模型，但这些技术比较依赖于手工特征设计和预设的信号处理方法，难以应对光照条件差、测试者运动幅度较大的场景，局限性强。

随着深度学习的发展，深度神经网络凭借其在复杂场景下出色的适应能力，在心率检测领域也有了广泛应用。例如，现有技术通过对包含人面部的视频帧图像进行人脸检测，并提取时间维度上的人脸图像序列以及面部关键位置点，得到时间维度上面部总体信号和面部roi信号集合，然后利用基于LSTM和残差卷积神经网络模型构建的多模态心率检测模型预测心率值。但是这种方式需要训练和测试场景基本不变，即光源保持稳定。而在实际应用中，部署好的模型往往要面对来源复杂、场景多样的面部视频，这会导致模型迁移到与训练数据差异较大的应用场景时，性能会大大下降，提取出的特征会含有较多噪声，进而导致心率检测的准确率大幅下降。

发明内容

本发明的目的在于提供一种心率检测方法、系统、终端设备及存储介质，以解决现有基于深度神经网络的心率检测方法中存在的局限性强、适用场景单一、心率检测的准确率较低的技术问题。

为了克服上述现有技术中的缺陷，本发明提供了一种心率检测方法，包括：

获取面部视频帧序列，提取所述面部视频帧序列中的人脸序列；

将人脸序列中的人脸区域从RGB颜色空间转换到YUV颜色空间；

将转换后的人脸区域的视频帧序列转变为时空特征图，利用深度神经网络模型提取时空特征图的第一特征，及利用POS模型提取转换前的人脸区域的第二特征；

将所述第一特征与所述第二特征进行拼接，利用心率预测网络提取拼接特征中的心率值。

进一步地，所述获取面部视频帧序列，提取所述面部视频帧序列中的人脸序列，包括：

利用YOLOv3模型对面部视频的每一帧进行人脸检测，得到至少一个包含人脸区域的矩形框及矩形框的置信度；

获取置信度最高的矩形框的对角所截取的人脸区域，对截取的人脸区域进行组合，得到人脸序列。

进一步地，所述将转换后的人脸区域的视频帧序列转变为时空特征图，包括：

将转换后的人脸区域分块，得到多个子区域；

根据所述子区域，分别取YUV颜色空间中三个颜色通道的平均值，组合得到子区域向量；

将多个子区域向量按划分顺序进行拼接，得到空间特征矩阵；

将每一帧的空间特征矩阵按时间顺序进行拼接，得到时空特征图。

进一步地，所述深度神经网络模型为ResNet-18模型。

进一步地，所述利用POS模型提取转换前的人脸区域的第二特征，包括：

根据转换前的人脸区域，分别取RGB三个通道的平均值，组合得到颜色信号矩阵；

对所述颜色信号矩阵进行归一化处理，将归一化的颜色信号矩阵投影到正交投影方向，经投影分解得到正交投影方向上的投影向量；

对投影向量进行标准差项处理，得到粗粒度心率信号；

利用傅里叶变换将粗粒度心率信号从时域变换到频域，将得到的频域信号作为第二特征。

进一步地，所述心率预测网络包括两层全连接层。

本发明还提供了一种心率检测系统，包括：

人脸序列提取单元，用于获取面部视频帧序列，提取所述面部视频帧序列中的人脸序列；

颜色空间转换单元，用于将人脸序列中的人脸区域从RGB颜色空间转换到YUV颜色空间；

特征提取单元，用于将转换后的人脸区域的视频帧序列转变为时空特征图，利用深度神经网络模型提取时空特征图的第一特征，及利用POS模型提取转换前的人脸区域的第二特征；

心率检测单元，用于将所述第一特征与所述第二特征进行拼接，利用心率预测网络提取拼接特征中的心率值。

进一步地，所述人脸序列提取单元，还用于：

本发明还提供了一种终端设备，包括：处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上任一项所述的心率检测方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行实现如上任一项所述的心率检测方法。

相对于现有技术，本发明的有益效果在于：

本发明公开的一种心率检测方法，包括：获取面部视频帧序列，提取面部视频帧序列中的人脸序列；将人脸序列中的人脸区域从RGB颜色空间转换到YUV颜色空间；将转换后的人脸区域的视频帧序列转变为时空特征图，利用深度神经网络模型提取时空特征图的第一特征，及利用POS模型提取转换前的人脸区域的第二特征；将第一特征与第二特征进行拼接，利用心率预测网络提取拼接特征中的心率值。

本发明集成了ResNet-18网络和POS模型的优点，并融合了多视角特征，因此能够增强深度模型在不同应用场景的鲁棒性，解决了复杂场景下传统模型性能不佳或跨场景性能大幅下降的问题，提高了模型在跨场景下心率检测的准确性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的心率检测方法的流程示意图；

图2是图1中步骤S10的子步骤；

图3是图1中步骤S30的子步骤；

图4是图3中步骤S301的子步骤；

图5是图3中步骤S303的子步骤；

图6是本发明某一实施例提供的心率检测系统的结构示意图；

图7是本发明某一实施例提供的终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

第一方面：

请参阅图1，本发明某一实施例提供了一种心率检测方法，包括：

S10、获取面部视频帧序列，提取所述面部视频帧序列中的人脸序列。

需要说明的是，获取的面部视频帧序列通常为输入的连续T帧面部视频帧序列(每一帧视频中至少包含一个人脸)，但是该信号中往往存在一些干扰信号，因此为了提高数据的质量，需要进行数据信号预处理。

在某一实施例中，步骤S10又包括以下子步骤，如图2所示：

S101、利用YOLOv3模型对面部视频的每一帧进行人脸检测，得到至少一个包含人脸区域的矩形框及矩形框的置信度。

本步骤中，为了去除与人脸无关的背景像素以免背景信息干扰心率值的提取，使用经过WIDER FACE人脸检测数据集训练的目标检测模型YOLOv3对每一帧进行人脸检测，得到的是一个或多个包含人脸区域的矩形框以及每个框的置信度，公式如下：

facebox_i，confidence_i＝YOLO(frame_t)

式中，frame_t代表第t帧视频帧，facebox_i代表该视频帧中标定第i个人脸的矩形框的两个对角坐标，confidence_i代表第i个人脸的置信度，置信度越高代表标定的目标是人脸的概率越大。

S102、获取置信度最高的矩形框的对角所截取的人脸区域，对截取的人脸区域进行组合，得到人脸序列。

本步骤中，在步骤S101获取的矩形框的基础上，在每一帧上根据置信度最高的矩形框两个对角在原视频帧上的坐标截取出当前待检测人员的人脸区域face_t，得到T帧视频的人脸序列face_seq，如下式所示：

face_seq＝{face₁,face₂,…,face_T}

S20、将人脸序列中的人脸区域从RGB颜色空间转换到YUV颜色空间。

需要说明的是，因为在YUV空间能比在RGB空间更精确地还原出心率信号，所以对于步骤S10提取出的人脸区域face_t，将其从RGB颜色空间转换到YUV颜色空间得到转换后的人脸区域face′_t，每个颜色通道的转换公式如下：

式中，R、G、B分别为face_t每个像素在RGB颜色空间的三个颜色值，Y、U、V分别为face′_t每个像素在YUV颜色空间的三个颜色值。

S30、将转换后的人脸区域的视频帧序列转变为时空特征图，利用深度神经网络模型提取时空特征图的第一特征，及利用POS模型提取转换前的人脸区域的第二特征。

需要说明的是，本实施例主要集成了深度卷积模型和POS模型。在模型迁移到与训练场景差异较大的应用场景时，由于POS模型是基于实验假设而不需要提前训练的，所以在新场景POS模型也能保持一定的性能但难以应对复杂场景。虽然，主流的深度神经网络模型在复杂场景下能更精确地检测心率，但跨场景会导致性能下降问题。相较于使用单一模型的方法，本实施例主要通过集成多模型的方法结合了两种模型的优点来解决传统模型性能不佳的问题和纯深度模型的跨场景性能大幅下降的问题。

具体地，步骤S30主要包括三个部分，如图3所示：

S301、将转换后的人脸区域的视频帧序列转变为时空特征图。

S302、利用深度神经网络模型提取时空特征图的第一特征。

S303、利用POS模型提取转换前的人脸区域的第二特征。

在某一实施例中，步骤S301又包括以下子步骤，如图4所示：

S3010、将转换后的人脸区域分块，得到多个子区域。

本步骤中，基于步骤S20转换后的人脸区域face′_i，根据其长和宽分别均分成n段，得到n²个区域分块

j＝1,…,n²，即子区域。

S3011、根据所述子区域，分别取YUV颜色空间中三个颜色通道的平均值，组合得到子区域向量。

本步骤中，对于每个分块，在其三个颜色通道上分别取平均值，得到一个由三个通道平均值组成的1×3的向量

如下式所示：

式中，Y_mean,U_mean,V_mean分别为区域分块

在YUV颜色空间三个通道的平均值。

S3012、将多个子区域向量按划分顺序进行拼接，得到空间特征矩阵。

进一步地，将每帧人脸区域face′_t的分块的

按face′_t中的排列顺序把n²个向量拼接起来，得到n²×3的空间特征矩阵R_t，如下式所示：

S3013、将每一帧的空间特征矩阵按时间顺序进行拼接，得到时空特征图。

最后，在这一步中将T帧面部视频每一帧的R_t按时间顺序拼接在一起，得到T×n²×3的时空特征图M，如下式所示：

M＝{R₁,R₂,…,R_T}

在某一实施例中，步骤S302的主要做法是对步骤S301提取的时空特征图M，将其输入到深度神经网络模型中提取人脸序列的512维的深度特征向量V_deep。其中，深度神经网络模型中主干网络采用ResNet-18网络，将ResNet-18网络在ImageNet数据集上进行预训练，使ResNet-18网络获得理想的初始值。

其中，ResNet-18的网络结构为2d卷积层、最大池化层、残差模块×4、自适应平均池化层。深度特征向量V_deep的提取公式如下：

V_deep＝AdapAvgPool(ResBlock(MaxPool(Conv2d(M))))

式中，Conv2d()代表二维卷积计算，MaxPool()代表最大池化，ResBlock()代表4层残差模块计算，AdapAvgPool()代表自适应平均池化。其中，深度特征向量V_deep即第一特征。

在某一实施例中，步骤S303又包括以下子步骤，如图5所示：

S3030、根据转换前的人脸区域，分别取RGB三个通道的平均值，组合得到颜色信号矩阵。

这一步中，对步骤S10中提取的T帧人脸序列face_seq在RGB三个通道对每一帧分别取平均值，得到3×T的颜色信号矩阵C。

S3031、对所述颜色信号矩阵进行归一化处理，将归一化的颜色信号矩阵投影到正交投影方向，经投影分解得到正交投影方向上的投影向量。

这一步中，对颜色信号矩阵C进行归一化处理，将每帧的平均RGB值除以全部帧在时间维度上的对应通道的平均值，等同于将C的每一行除以该行的平均值，公式如下：

式中，C_n为归一化的皮肤颜色信号，μ(C)为C的行均值。

然后，再将C_n投影到两个正交投影方向，投影方向表示为P，公式如下：

进一步地，通过P将归一化的信号C_n进行投影分解，得到正交投影方向上的两个投影向量SG₁、SG₂，分别为运动干扰信号和脉搏信号，公式如下：

S3032、对投影向量进行标准差项处理，得到粗粒度心率信号。

这一步中通过加上标准差项处理，得到T帧面部视频帧序列对应的粗粒度的心率信号H，公式如下：

式中，σ(SG₁)、σ(SG₂)分别为投影向量SG₁、SG₂的标准差。

S3033、利用傅里叶变换将粗粒度心率信号从时域变换到频域，将得到的频域信号作为第二特征。

本步骤中，当提取出粗粒度心率信号H后，对H使用快速傅里叶变换将该信号从时域变换到频域，得到与时域信号H同等维度的频域信号V_fft，公式如下：

V_fft＝fft(H)

式中，fft()为快速傅里叶变换。

最后取其在频域的前T/2+1个频率值作为该信号的频域特征V_freq，即得到第二特征。

S40、将所述第一特征与所述第二特征进行拼接，利用心率预测网络提取拼接特征中的心率值。

需要说明的是，这一步主要融合了步骤S30中的ResNet-18深度模型和POS模型，构建基于多模型的心率检测方法。

具体地，将步骤S30中提取的深度特征向量V_deep、频域特征V_freq进行拼接，然后使用心率预测网络提取精确心率值。其中，心率预测网络包括两层全连接层，心率值预测公式如下：

HR＝FC(relu(FC(Concat(V_deep,V_freq))))

式中，Concat()为特征拼接，FC()为全连接计算，relu()为线性整流激活函数，公式如下：

本发明实施例提供的心率检测方法，集成了ResNet-18网络和POS模型的优点，并融合了多视角特征，因此能够增强深度模型在不同应用场景的鲁棒性，解决了复杂场景下传统模型性能不佳或跨场景性能大幅下降的问题，提高了模型在跨场景下心率检测的准确性。

第二方面：

请参阅图6，本发明某一实施例还提供了一种心率检测系统，包括：

人脸序列提取单元01，用于获取面部视频帧序列，提取所述面部视频帧序列中的人脸序列；

颜色空间转换单元02，用于将人脸序列中的人脸区域从RGB颜色空间转换到YUV颜色空间；

特征提取单元03，用于将转换后的人脸区域的视频帧序列转变为时空特征图，利用深度神经网络模型提取时空特征图的第一特征，及利用POS模型提取转换前的人脸区域的第二特征；

心率检测单元04，用于将所述第一特征与所述第二特征进行拼接，利用心率预测网络提取拼接特征中的心率值。

在某一实施例中，所述人脸序列提取单元01，还用于：

本发明实施例提供的心率检测系统用于执行如第一方面所述的心率检测方法，该方法集成了ResNet-18网络和POS模型的优点，并融合了多视角特征，因此能够增强深度模型在不同应用场景的鲁棒性，解决了复杂场景下传统模型性能不佳或跨场景性能大幅下降的问题，提高了模型在跨场景下心率检测的准确性。

第三方面：

请参阅图7，本发明某一实施例还提供了一种终端设备，该终端设备包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，可执行指令使处理器执行如本申请的第一方面所示的心率检测方法对应的操作。

在一个可选实施例中提供了一种终端设备，如图7所示，图7所示的终端设备包括：处理器001和存储器003。其中，处理器001和存储器003相连，如通过总线002相连。可选地，终端设备还可以包括收发器004。需要说明的是，实际应用中收发器004不限于一个，该终端设备的结构并不构成对本申请实施例的限定。

处理器001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线002可包括一通路，在上述组件之间传送信息。总线002可以是PCI总线或EISA总线等。总线002可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器003用于存储执行本申请方案的应用程序代码，并由处理器001来控制执行。处理器001用于执行存储器003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

其中，终端设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

本申请的又一实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中的相应内容。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种心率检测方法，其特征在于，包括：

获取面部视频帧序列，利用YOLOv3模型提取所述面部视频帧序列中的人脸序列；

将人脸序列中的人脸区域从RGB颜色空间转换到YUV颜色空间；

将转换后的人脸区域的视频帧序列转变为时空特征图，包括：

将转换后的人脸区域分块，得到多个子区域；

将每一帧的空间特征矩阵按时间顺序进行拼接，得到时空特征图；

利用ResNet-18模型提取时空特征图的第一特征；

利用POS模型提取转换前的人脸区域的第二特征，包括：

对投影向量进行标准差项处理，得到粗粒度心率信号；

利用傅里叶变换将粗粒度心率信号从时域变换到频域，将得到的频域信号作为第二特征；

2.根据权利要求1所述的心率检测方法，其特征在于，所述获取面部视频帧序列，利用YOLOv3模型提取所述面部视频帧序列中的人脸序列，包括：

3.根据权利要求1或2任一项所述的心率检测方法，其特征在于，所述心率预测网络包括两层全连接层。

4.一种心率检测系统，其特征在于，包括：

人脸序列提取单元，用于获取面部视频帧序列，利用YOLOv3模型提取所述面部视频帧序列中的人脸序列；

特征提取单元，用于

将转换后的人脸区域分块，得到多个子区域；

利用ResNet-18模型提取时空特征图的第一特征；

利用POS模型提取转换前的人脸区域的第二特征，包括：

对投影向量进行标准差项处理，得到粗粒度心率信号；

5.根据权利要求4所述的心率检测系统，其特征在于，所述人脸序列提取单元，还用于：

6.一种终端设备，其特征在于，包括：处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的心率检测方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行实现如权利要求1至3任一项所述的心率检测方法。