CN109247923B

CN109247923B - 基于视频的非接触式脉搏实时估计方法及设备

Info

Publication number: CN109247923B
Application number: CN201811362231.1A
Authority: CN
Inventors: 谭铁牛; 董晶; 王伟; 彭勃
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2020-12-15
Anticipated expiration: 2038-11-15
Also published as: CN109247923A

Abstract

本发明属于生物识别技术领域，尤其涉及一种基于视频的非接触式脉搏实时估计方法及设备，旨在增强实时体验与运动鲁棒性。本发明的方法包括：从视频流中获取感兴趣皮肤区域；计算所述视频流每一帧中所述感兴趣皮肤区域内所有像素的原始RGB信号；对所述原始RGB信号进行预处理；使用训练好的深度神经网络滤波器对所述预处理后信号进行滤波，得到脉搏估计信号；对所述脉搏估计信号进行心跳峰值检测；根据所述心跳峰值，采用预设方式计算当前瞬时心率。本发明可以有效地实现脉搏信号估计与瞬时心率计算，且具有较好的实时性、准确性和鲁棒性，适用于刑侦测谎、健康监测、生物识别中活体检测等领域。

Description

基于视频的非接触式脉搏实时估计方法及设备

技术领域

本发明属于生物识别技术领域，尤其涉及一种基于视频的非接触式脉搏实时估计方法及设备。

背景技术

脉搏信号是具有重要参考价值的生理信号，可以反映人的健康状况和心理状态。所以脉搏信号的有效采集在医疗监护、刑侦测谎等领域具有重要价值。传统的脉搏信号采集装置都为接触式仪器，如心电仪、指夹式脉搏血氧仪等。接触式采集手段限制了被监护病人的自由活动，对于刑侦测谎场景也增加了被试者的心理防备，所以该种采集方式有方便性差、隐蔽性弱、成本高等缺陷。为解决这些问题，非接触式的基于视频采集人体脉搏信号的方法具有很高的应用价值。此类方法仅依靠常规摄像头和计算机就能搭建非接触式脉搏测量环境，具有方便易用、隐蔽性强、成本低廉的优势。

基于视频的脉搏采集原理为：心脏跳动引起皮下毛细血管充血量周期性变化，导致皮肤对入射光谱的吸收作用及反射作用出现周期性波动，摄像头可以捕捉皮肤反射光谱强度的微弱波动，从而经过处理、计算得到相应的脉搏信号。已公开的视频脉搏信号估计方法一般离线计算一段视频内的平均心率，且方法对于头部运动、脸部非刚体活动、光照变化等的鲁棒性较差。离线计算平均心率不适合对受试者当前瞬时心理及生理状况做出快速判断，对运动噪声鲁棒性弱则限制了已有方法的有效应用。

鉴于此，本发明提出一种基于视频的非接触式脉搏实时估计方法，以增强实时体验与运动鲁棒性。

发明内容

本发明的主要目的在于提供一种基于视频的非接触式脉搏实时估计方法及设备，旨在提供一种可增强实时体验与运动鲁棒性的非接触式脉搏估计方法。

为实现上述目的，本发明提供的一种基于视频的非接触式脉搏实时估计方法，所述方法包括如下步骤：

步骤S10，从视频流中获取感兴趣皮肤区域；

步骤S20，计算所述视频流每一帧中所述感兴趣皮肤区域内所有像素的原始RGB信号；

步骤S30，对所述原始RGB信号进行预处理，

步骤S40，使用训练好的深度神经网络滤波器对所述预处理后信号进行滤波，得到脉搏估计信号

步骤S50，对所述脉搏估计信号进行心跳峰值检测；

步骤S60：根据所述心跳峰值，采用预设方式计算当前瞬时心率。

优选地，所述步骤S20还具体包括：

分别对R、G、B三个通道，计算所述视频流每一帧中所述感兴趣皮肤区域内所有像素的平均灰度值，从而得到原始RGB信号。

优选地，所述步骤S40中所述训练好的深度神经网络滤波器，其训练方法包括：

步骤S101，收集模拟及真实的带噪声脉搏信号以及模拟及真实的无噪声脉搏信号，构成训练数据集

步骤S102，设计深度神经网络结构作为信号滤波器，以有噪声脉搏信号作为输入，无噪声脉搏信号作为监督信息，进行网络训练。

优选地，所述步骤101中，所述模拟的无噪声脉搏信号通过合成随机的类正弦波信号生成，所述模拟的有噪声脉搏信号通过向所述类正弦波信号中加入随机的白噪声、运动阶跃噪声信号合成，所述真实无噪声脉搏信号在拍摄视频时，同步使用指夹式血氧仪或者心电图仪记录脉搏波形得到，所述真实带噪声脉搏信号通过从拍摄视频中按照所述步骤S10至步骤S30进行处理得到信号。

优选地，所述步骤S10包括：

步骤S11，从视频流中基于人脸关键点检测和跟踪；

步骤S12，根据人脸关键点检测和跟踪获取感兴趣皮肤区域；

其中，所述感兴趣皮肤区域为两个外眼角特征点和两个嘴角特征点构成的四边形区域内部。

优选地，所述步骤S30中的预处理包括：平滑滤波、消除趋势以及归一化。

优选地，所述步骤S50中的进行心跳峰值检测的方法为：

如果宽度为u的滑动窗口中心点是当前窗口内信号幅度最高点，则判断其为一个心跳峰值点；

心跳峰值点集合的数学表达式定义如下：

T＝{t|S_t＞S_i，t-(u-1)/2＜i＜t+(u-1)/2，i≠t}

其中，S_t为t时刻的脉搏估计信号，S_i为i时刻的脉搏估计信号，滑动窗口u的宽度选择满足：0.5f≤u≤f，f为输入视频的帧速率。

优选地，所述步骤S60中采用预设方式计算当前瞬时心率的方法为：

步骤S61，将检测到的所述心跳峰值点集合T按照时间先后顺序，以最近k次峰值点的时间间隔为依据计算瞬时心率，计算公式如下：

hr＝60*k/(t_c-t_c-k)

其中，hr表示当前心率值，t_c为集合T中最近一次心跳峰值点，t_c-k为t_c前第k个峰值点。

为实现上述目的，本发明还提出存储设备，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于视频的非接触式脉搏实时估计方法。

为实现上述目的，本发明还提出一种处理设备，包括处理器、存储设备；处理器适于执行各条程序；存储设备适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于视频的非接触式脉搏实时估计方法。

本发明利用人脸感兴趣区域跟踪、滑窗信号处理、深度神经网络滤波、脉搏波峰检测，可以有效地实现脉搏信号估计与瞬时心率计算，且具有较好的实时性、准确性和鲁棒性，在刑侦测谎、健康监测、生物识别中活体检测等领域具有较大的应用空间。

附图说明

附图作为本发明的一部分，用来提供对本发明的进一步的理解，本发明的示意性实施例及其说明用于解释本发明，但不构成对本发明的不当限定。显然，下面描述中的附图仅仅是一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。在附图中：

图1是本发明基于视频的非接触式脉搏实时估计方法的流程示意图；

图2是本发明实施例中脉搏实时估计界面效果示意图；

图3是本发明实施例的详细流程框架图；

图4是本发明实施例中所抽取的原始RGB信号实例；

图5是本发明实施例中预处理后信号实例；

图6是本发明实施例中深度神经网络滤波器的结构实例。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面结合附图以及具体实施例对本发明实施例解决的技术问题、所采用的技术方案以及实现的技术效果进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请的一部分实施例，并不是全部实施例。基于本申请中的实施例，本领域普通技术人员在不付出创造性劳动的前提下，所获得的所有其它等同或明显变型的实施例均落在本发明的保护范围内。本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。

需要说明的是，在下面的描述中，为了方便理解，给出了许多具体细节。但是很明显，本发明的实现可以没有这些具体细节。

需要说明的是，在没有明确限定或不冲突的情况下，本发明中的各个实施例及其中的技术特征可以相互组合而形成技术方案。

本发明提出一种基于视频的非接触式脉搏实时估计方法及设备，旨在提供一种可增强实时体验与运动鲁棒性的非接触式脉搏估计方法。所述方法可应用在计算机视觉、信号处理、生物识别、刑侦测谎与健康监测等领域中，但是不限于上述领域，凡是应用到本发明方法而实施的应用均属于本发明的保护范围内。

如图1所示，本发明实施例的基于视频的非接触式脉搏实时估计方法，基于训练好的深度神经网络滤波器，通过以下步骤获取心率，具体步骤包括：

步骤S10，从视频流中获取感兴趣皮肤区域；

步骤S30，对所述原始RGB信号进行预处理；

步骤S40，使用训练好的深度神经网络滤波器对所述预处理后信号进行滤波，得到脉搏估计信号；

步骤S50，对所述脉搏估计信号进行心跳峰值检测；

本实施例在步骤S40中所利用的深度神经网络滤波器，其训练方法包括：

步骤S101，收集模拟及真实的带噪声脉搏信号以及模拟及真实的无噪声脉搏信号，构成训练数据集；

以下仅参照示意图对本发明技术方案进行详细说明。图2展示了本发明在具体实施中实时估计脉搏波形与心率的界面效果示意图，图3展示了实施例流程的详细框架图，下面顺次对各步骤进行详细展开性描述。

本发明实施例的一种基于视频的非接触式脉搏实时估计方法包括步骤S10-S60，具体描述如下：

步骤S10：从视频流中获取感兴趣皮肤区域；

本实施例中首先对视频每一帧中人脸关键点位置进行检测和跟踪，可使用的算法工具包括SDM(Supervised Descent Method)、DLib(一个包含机器学习算法的C++开源工具包)等，人脸关键点的定位效果如图2中所示。定位关键点后，感兴趣皮肤区域ROI的选取为两个外眼角与两个嘴角共四个关键点构成的四边形区域内部，可见图2中实例。

步骤S20：计算所述视频流每一帧中所述感兴趣皮肤区域内所有像素的原始RGB信号；

对于ROI区域内所有像素的R、G、B通道分别进行平均，可得到ROI内的原始RGB信号。所得原始RGB信号可表示为O_t，O∈{R，G，B},其中t代表当前时刻。O_t的计算公式如下：

其中x代表像素位置，

代表当前时刻某一通道的像素灰度，n(ROI)代表ROI内像素个数。

步骤S30：对所述原始RGB信号进行预处理，包括平滑滤波、消除趋势、归一化等。

其中平滑滤波的作用可以去除信号中的高频噪声，如帧间关键点抖动所带来的噪声。对原始RGB信号平滑滤波的计算公式如下：

平滑滤波中，窗口宽度w的选择为奇数且一般满足0.1f≤w≤0.2f,其中f代表输入视频的帧速率，满足此条件的窗口宽度可以在不破坏脉搏信号(脉搏频率介于40次/分钟和160次/分钟之间)的条件下去除高频噪声的干扰。

另外一种预处理消除趋势的作用是去除信号幅度的缓慢变化，如头部缓慢动作带来的原始RGB信号中的幅度变化。消除趋势的计算公式如下：

其中，

为消除趋势后的信号。

消除趋势中，窗口宽度w选择为奇数且一般应满足f≤w≤2f，满足此条件的窗口宽度可以在不破坏脉搏信号的条件下滤除信号幅度的缓变成分。图4中实线部分代表原始RGB信号随时间变化的波形，其中的虚线部分代表信号的趋势，即上式中减号后面的部分。

最后一种预处理归一化的作用是将信号变到零均值单位方差的状态，这种处理有利于深度神经网络的训练收敛。归一化的计算公式如下：

其中

为归一化后的信号序列；μ^O、σ^O分别为信号

的均值与标准差。

图4本发明实施例中所抽取的原始RGB信号实例，对应的其经过步骤S30预处理操作后，所得到的蓝通道、绿通道、红通道信号波形如图5所示。可以看到其中还有很多噪声，难以看出清晰的脉搏信号，需要进一步滤波处理。

步骤S40：使用训练好的深度神经网络滤波器对所述预处理后信号进行滤波，得到脉搏估计信号。

本实施例中，深度神经网络滤波器的结构为两层LSTM(Long Short-Term Memory，长短时记忆)网络：LSTM1、LSTM2，其结构如图3中所示，图6则展示了更详细的LSTM沿时间序列展开的结构。每层LSTM的隐含状态(hidden state)h_t与细胞状态(cell state)c_t的维度一般均为128维的向量。LSTM神经网络滤波器的输入为步骤S30预处理后得到的信号序列

输出为脉搏估计信号序列S_t。其输入、输出的示意图分别如图6中的下部、上部的波形图，其中输入为RGB三个通道的预处理后信号，图中简便起见仅画出一个通道。本实施例中使用两层LSTM网络的前馈过程计算公式如下：

c_t＝σ(W_f·[h_t-1，x_t]+b_f)*c_t-1+σ(W_i·[h_t-1，x_t]+b_i)*tanh(W_c·[h_t-1，x_t]+b_c) (5)

h_t＝σ(W_o·[h_t-1，x_t]+b_o)*tanh(c_t) (6)

式中，x_t为当前时刻LSTM网络的输入，对于第一层输入为

即R、G、B三通道的预处理后信号；对于第二层输入为

即第一层的隐含状态输出。上式中σ()、tanh()分别为逻辑函数和双曲函数，[]表示向量的拼接，·表示矩阵乘，*表示向量逐元素相乘。W_f、W_i、W_c、W_o、W_s、b_f、b_i、b_c、b_o、b_s表示神经网络中的可学习权重和偏置参数，该参数通过预设样本进行训练获取。上式中最后得到的信号S_t即为脉搏估计信号，图2中展示了最终得到的脉搏估计信号的波形示意图，可见相较于滤波前信号质量大幅提高。图2中脉搏估计信号波形从画面右侧向左侧移动，是一个实时更新的过程。

LSTM网络的优点是能够有效进行信息的筛选和更新，能够建模较长的时序相关性。需要注意的是可用于此滤波功能的深度神经网络结构不限于LSTM，其他可包括循环神经网络(RNN)、去噪自动编码机(DAE)、卷积神经网络(CNN)等。

步骤S50：对所述脉搏估计信号进行心跳峰值检测。

其中心跳峰值的检测方法为：如果宽度为u的滑动窗口中心点是当前窗口内信号幅度最高点，则判断其为一个心跳峰值点。心跳峰值点集合T的数学表达式定义如下：

T＝{t|S_t＞S_i，t-(u-1)/2＜i＜t+(u-1)/2，i≠t} (8)

其中，S_t为t时刻的脉搏估计信号，S_i为i时刻的脉搏估计信号。

滑动窗口的宽度选择一般应满足：0.5f≤u≤f，满足此条件的窗口宽度一般能确保窗口内只有一个正常心跳波峰(脉搏频率介于40次/分钟和160次/分钟之间)。图2中脉搏估计信号波形上的点标记即为此步检测到的心跳峰值点。

步骤S60：根据所述心跳峰值，使用滑窗方式计算当前瞬时心率。

当前瞬时心率值的计算方法为：将检测到的心跳峰值点集合T按照时间先后排序，以最近k次峰值点的时间间隔为依据计算瞬时心率，具体公式如下：

hr＝60*k/(t_c-t_c-k) (9)

其中hr表示当前心率值，单位为“次/分钟”，t_c为集合T中最近一次心跳峰值点，t_c-k为t_c前第k个峰值点。k值选取依照经验，一般为5次。当k过大时，所计算瞬时心率不敏感，滞后较大；当k过小时，所计算瞬时心率极易受噪声干扰，跳动剧烈，不够准确。图2中画面顶部显示了依据最近k次心跳峰值点所计算的当前瞬时心率值，在图2的测例中为68bpm。

以上步骤为实时使用中的计算过程，使用了训练好的深度神经网络滤波器。本方法的关键部分在于深度神经网络滤波器的使用和训练。其训练阶段包括如下步骤：

步骤101：收集模拟及真实的带噪声脉搏信号以及相应的无噪声纯净脉搏信号，构成训练数据集。

所述模拟的无噪声脉搏信号通过合成随机的类正弦波信号生成，模拟的有噪声脉搏信号通过向所述类正弦波信号加入随机的白噪声、运动阶跃噪声等噪声信号合成；所述真实无噪声脉搏信号在拍摄视频时，同步使用指夹式血氧仪或心电图仪记录脉搏波形得到，所述真实带噪声脉搏信号通过从拍摄视频中按照所述步骤S1至S3进行处理得到信号。有噪声信号和无噪声信号的波形示例可参考图6中LSTM网络的输入端信号和输出端信号。

步骤101：设计深度神经网络结构作为信号滤波器，以有噪声脉搏信号作为输入，相应无噪声脉搏信号作为监督信息，进行网络训练。

深度神经网络的训练需要数以万计的大量训练数据。然而真实数据即人脸视频和相应的真实脉搏波形的采集需要大量的人力物力，收集大规模的训练数据库成本巨大。因此，本方法首先使用大量模拟数据进行模型预训练，模拟数据的生成非常方便，大量模拟数据的辅助训练可以使模型参数对于脉搏信号去噪任务得到充分优化。

仅仅使用模拟数据训练的网络对于真实场景的噪声脉搏信号泛化性能欠佳，因此本方法接下来使用少量真实数据进行模型微调。这样可以有效增强滤波模型在真实数据上的泛化能力。

模型训练时的输入为有噪声脉搏信号序列，训练标签为相应的无噪声脉搏信号序列，损失函数采用预测序列与所述标签序列间的均方差损失，即：

其中θ表示W_f，W_i，W_c，W_o，W_s，b_f，b_i，b_c，b_o，b_s这些神经网络中的可学习权重和偏置参数，

表示无噪声的脉搏信号，即标签序列，N表示时间序列长度。网络模型的优化采用随机梯度下降法。

本发明的各个步骤可以用通用的计算装置来实现，例如，它们可以集中在单个的计算装置上，例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置，也可以分布在多个计算装置所组成的网络上，它们可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此，本发明不限于任何特定的硬件和软件或者其结合。

本发明提供的方法可以使用可编程逻辑器件来实现，也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等)，例如根据本发明的实施例可以是一种计算机程序产品，运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质，该介质上包含计算机程序逻辑或代码部分，用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如：采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器，例如：RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于：光存储介质(例如：CD－ROM和DVD)、磁光存储介质(例如：MO)、磁存储介质(例如：磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如：存储卡)和具有内置ROM的媒体(例如：ROM盒)。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于视频的非接触式脉搏实时估计方法，其特征在于，所述方法包括如下步骤：

步骤S10，从视频流中获取感兴趣皮肤区域；

步骤S30，对所述原始RGB信号进行预处理；

步骤S50，对所述脉搏估计信号进行心跳峰值检测；

步骤S60，根据所述心跳峰值，采用预设方式计算当前瞬时心率；

所述深度神经网络滤波器其基于两层的长短时记忆网络LSTM构建，其获取脉搏估计信号的方法为：

其中，

为

时刻LSTM网络的输入，

表示逻辑函数、双曲函数，[ ]表示向量的拼接，

表示矩阵乘，

表示向量逐元素相乘，

、

表示LSTM网络中的预设的可学习权重，

、

表示LSTM网络中的预设的偏置参数，

表示

时刻LSTM网络的细胞状态，

表示

时刻LSTM网络的细胞状态，

表示脉搏估计信号序列，

、

表示

时刻的隐含状态；

所述深度神经网络滤波器，其训练方法包括：

步骤S101，收集模拟及真实的带噪声脉搏信号以及模拟及真实的无噪声脉搏信号，构成训练数据集；其中，模拟的无噪声脉搏信号通过合成随机的类正弦波信号生成，模拟的带噪声脉搏信号通过向所述类正弦波信号中加入随机的白噪声、运动阶跃噪声信号合成；真实的无噪声脉搏信号为在拍摄视频时，同步使用指夹式血氧仪或者心电图仪记录脉搏波形得到，真实的带噪声脉搏信号通过从拍摄视频中按照所述步骤S10至步骤S30进行处理得到；

步骤S102，设计深度神经网络结构作为信号滤波器，以有噪声脉搏信号作为输入，无噪声脉搏信号作为监督信息，进行网络训练；

所述深度神经网络滤波器其在训练时的损失函数为：