CN112580612B

CN112580612B - 一种生理信号预测方法

Info

Publication number: CN112580612B
Application number: CN202110196564.7A
Authority: CN
Inventors: 陶建华; 何宇; 刘斌; 孙立才
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2021-06-08
Anticipated expiration: 2041-02-22
Also published as: US11227161B1; CN112580612A

Abstract

本申请涉及一种生理信号预测方法，包括：采集视频文件，视频文件中包含有长时视频，视频的文件内容含有单个人的面部和真实生理信号数据；将单个长时视频分割成多段短时视频片段，每段短时视频片段具有固定帧数，并且每段短时视频片段对应一个真实生理信号标签；利用所述短时视频片段的每一帧，提取生理信号识别的感兴趣区域特征，形成单帧感兴趣区域特征；对所述每段短时视频片段对应的所有固定帧的单帧感兴趣区域特征进行拼接，形成多帧视频感兴趣区域特征，将多帧视频感兴趣区域特征由RGB色彩空间转化为YUV色彩空间，形成包含时间和空间信息的时空图；将所述时空图输入到深度学习模型中进行训练，利用训练好的深度学习模型预测生理信号参数。

Description

一种生理信号预测方法

技术领域

本申请涉及数据处理领域，尤其涉及一种生理信号预测方法。

背景技术

近年来兴起的rPPG(Remote Photoplethysmography)是一种无接触的测量方法，正常人体内的毛细血管扩张和收缩会引起的血容量改变，血管内的血红蛋白的数量和血氧含量也随时间变化，考虑到血红蛋白会吸收射入皮肤的光，所以有漫反射光波会随血容量改变发生微小的改变；由上述可知，通过摄像头可以捕捉红、绿、蓝光波随时间的微小周期性数值波动，即脉动信息，达到测量生理信号的目的。

现有基于rPPG测量生理信号的技术主要是独立成分分析（ICA）、快速傅里叶变换（FFT）、小波变换（WT）等传统信号处理方法，本方法是采用数据驱动建模方法，从视频中提取具有生理信号脉动信息的时空图，以时空图作为深度学习模型的输入学习生理信号参数变化，时空图输入可作为不同生理参数通道预测模型的输入。

专利申请公布号CN105100701A公开了用于提高从监控主体的期望生理功能的视频获得的生理信号的准确性的系统和方法。在一个实施例中，接收视频的图像帧。处理连续成批的图像帧。对于每一批，与主体的暴露身体区域关联的像素被分离、处理以获得时间-序列信号。如果在捕获这些图像帧的过程中出现低于预定阈值水平的运动，则预测模型的参数使用这一批的时间-序列信号来更新。否则，最后更新的预测模型被用来生成这一批的预测时间-序列信号。时间-序列信号与预测的时间-序列信号融合，以获得融合的时间-序列信号。每一批时间-序列信号被处理，以获得与生理功能对应的主体的生理信号。

专利申请公布号CN105190691B涉及一种用于在尽管有对象的运动的情况下获得对象的生命体征，尤其是在基于投影的生命体征记录中将诸如呼吸信息信号的生命体征与噪声区别开的设备和方法。所提出的设备包括：接口(124)，其用于接收对象的图像帧的集合；分析单元(128)，其用于确定方向改变的量和/或在所述集合的许多图像帧的图像帧的子集中的感兴趣的区域内的方向改变之间的时间距离，方向改变指示所述感兴趣的区域内出现的运动的所述方向的改变；评估单元(132)，其用于通过使用所确定的方向改变的量和/或所述图像帧的子集的所述时间距离来确定所述图像帧的子集内的所述感兴趣的区域是否包括生命体征信息和/或噪声；以及处理器(136)，其用于在确定所述图像帧的子集内的所述感兴趣的区域包括生命体征信息时确定来自所述图像帧的子集内的所述感兴趣的区域包括期望的生命体征。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种生理信号预测方法，包括：

S1：采集视频文件，所述视频文件中包含有长时视频，所述视频文件内容含有单个人的面部，所述面部有较大幅度、速度旋转和真实生理信号数据；

S2：将单个长时视频分割成多段短时视频片段，每段所述短时视频片段具有固定帧数，并且每段所述短时视频片段对应一个真实生理信号标签；

S3：利用所述短时视频片段的每一帧，提取生理信号识别的感兴趣区域特征，形成单帧感兴趣区域特征；

S4：对所述每段短时视频片段对应的所有固定帧的单帧感兴趣区域特征进行拼接，形成多帧视频感兴趣区域特征，将多帧视频感兴趣区域特征由RGB色彩空间转化为YUV色彩空间，形成包含时间和空间的时空图；

S5：将所述时空图输入到深度学习模型中进行训练，利用训练好的深度学习模型预测生理信号参数。

优选的，所述将单个长时视频分割成多段短时视频片段的具体方法为：

以生理信号标签时间间隔为短时视频片段截取窗口长度，以生理信号标签时间点为窗口中间时间点进行长视频切分。

优选的，所述利用所述短时视频片段的每一帧，提取生理信号识别的感兴趣区域特征的具体方法为：

使用dlib库中68标记点方法确定脸颊两侧矩形框四点坐标，选择这两侧矩形框作为生理信号识别的感兴趣区域。

优选的，对于识别不出感兴趣区域特征的帧进行处理方法为：采用上一个可识别出感兴趣区域特征的帧的数值代替识别不出感兴趣区域特征的帧的数值。

优选的，所述利用所述短时视频片段的每一帧，提取生理信号识别的感兴趣区域特征的具体方法还包括：对所述短时视频片段的每一帧使用dlib库中的函数进行人脸识别、对齐、提取掩码人脸。

优选的，所述对所述每段短时视频片段对应的所有固定帧的单帧感兴趣区域特征进行拼接的具体方法包括：

S41：将单侧单帧感兴趣区域特征均匀划分为多个矩形区域，构成像素值矩阵；

S42：以RGB为标准对像素值矩阵进行重组，构成像素值重组矩阵；

S43：对两侧脸颊像素值矩阵按列拼接，构成单帧感兴趣区域特征矩阵；

S44：对多个单帧感兴趣区域特征矩阵按列拼接，形成多帧视频感兴趣区域特征。

优选的，所述将单侧单帧感兴趣区域特征均匀划分为多个矩形区域，构成像素值矩阵的具体方法为：

所述将单侧单帧感兴趣区域特征均匀划分为m×n个矩形区域，构成像素值矩阵的具体形式为：

其中，

代表单个矩形区像素矩阵，矩阵维度为[p，q，3]；

重新调整

块像素矩阵维度为[p×q，3]，其中3列对应RGB通道。

优选的，所述以RGB为标准对像素值矩阵进行重组的方法为：

把

内像素值分别对R、G、B三通道按列取平均值，矩阵维度[1，3]，记为

；

把

按列拼接成[mn，3]维矩阵，矩阵记为：

。

优选的，所述对两侧脸颊像素值矩阵按列拼接，构成单帧感兴趣区域特征矩阵的具体形式为：

把两侧脸颊像素值矩阵按列拼接成[2mn，3]维矩阵，记为第t帧的特征矩阵Bd[t]；

对多个单帧感兴趣区域特征矩阵按列拼接，形成多帧视频感兴趣区域特征的具体形式为：

把T帧感兴趣区域特征矩阵按列拼接，矩阵记为，

。

优选的，所述深度学习模型是以残差网络为核心的三维卷积神经网络模型或者二维卷积神经网络模型；将所述时空图输入到三维卷积神经网络模型或者二维卷积神经网络模型中进行训练，利用训练好的三维卷积神经网络模型或者二维卷积神经网络模型预测生理信号参数。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，是以具有生理参数标签的视频，截取具有固定帧数的视频片段换为时空图，时空图中包含生理信号脉动信息，把时空图输入深度学习模型进行生理参数预测训练，依据训练好的深度学习模型对个人生理参数进行预测；

同时，头部大幅度快速转动或光照变化等环境噪声可引起生理信号数值在短时间内发生剧烈的上下震荡，通过选择同一视频切分成的多个视频片段所对应时空图作为3D深度学习模型输入的时间维度进行学习，这样，模型考虑了生理信号短时间变化的平稳性——即生理信号数值随时间变化波形上下震荡较小，提高了生理参数预测稳定性和鲁棒性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种生理信号预测方法流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1：

如图1所示，本申请实施例提供的一种生理信号预测方法，包括：

S1：采集视频文件，所述视频文件中包含有长时视频，所述视频文件内容含有单个人的面部，所述面部有较大幅度、速度旋转和真实生理信号数据。

S2：将单个长时视频分割成多段短时视频片段，以生理信号标签时间间隔为短时视频片段截取窗口长度，以生理信号标签时间点为窗口中间时间点进行长视频切分，每段所述短时视频片段具有固定帧数，并且每段所述短时视频片段对应一个真实生理信号标签；每段短视频文件需无压缩保存，格式为.avi。

S3：对所述短时视频片段的每一帧使用dlib库中的函数进行人脸识别、对齐、提取掩码人脸，使用dlib库中68标记点方法确定脸颊两侧矩形框四点坐标，选择这两侧矩形框作为生理信号识别的感兴趣区域，提取生理信号识别的感兴趣区域特征，形成单帧感兴趣区域特征；一是因为脸颊位置不易被遮挡，二是因为脸颊位置血流量丰富，选择此位置作为特征提取区预测效果好。

对于识别不出感兴趣区域特征的帧进行处理方法为：采用上一个可识别出感兴趣区域特征的帧的数值代替识别不出感兴趣区域特征的帧的数值；保证时空图在时间维度上的连续性，由于识别不出的视频帧默认会使用黑色像素代替，而我们采用上一个可识别帧的数值代替识别不出来的帧，相当于在此处插入近似了视频帧数值，避免了较大像素数值差给模型预测带来的不利影响。

S4：对所述每段短时视频片段对应的所有固定帧的单帧感兴趣区域特征进行拼接，形成多帧视频感兴趣区域特征，将多帧视频感兴趣区域特征由RGB色彩空间转化为YUV色彩空间，形成包括时间和空间的时空图。

在一些实施例中，所述对所述多段短时视频片段每帧的单帧感兴趣区域特征进行拼接的具体方法包括：

S41：将单侧单帧感兴趣区域特征均匀划分为多个矩形区域，构成像素值矩阵。

在一些实施例中，所述将单侧单帧感兴趣区域特征均匀划分为矩形区域，构成单侧单帧感兴趣区域特征区域矩阵的具体方法为：

其中，

代表单个矩形区像素矩阵，矩阵维度为[p，q，3]；

重新调整

块像素矩阵维度为[p×q，3]，其中3列对应RGB通道。

S42：以RGB为标准对像素值矩阵进行重组，构成像素值重组矩阵。

把

内像素值分别对R、G、B三通道按列取平均值，矩阵维度

[1，3]，记为

；

把

按列拼接成[mn，3]维矩阵，矩阵记为：

。

S43：把两侧脸颊像素值矩阵按列拼接成[2mn，3]维矩阵，记为第t帧的特征矩阵Bd[t]构成单帧感兴趣区域特征矩阵。

S44：对多个单帧感兴趣区域特征矩阵按列拼接，形成多帧视频感兴趣区域特征的具体形式为：

把T帧感兴趣区域特征矩阵按列拼接，矩阵记为，

。

其中，所述深度学习模型是以残差网络为核心的三维卷积神经网络模型或者二维卷积神经网络模型；将所述时空图输入到三维卷积神经网络模型或者二维卷积神经网络模型中进行训练，利用训练好的三维卷积神经网络模型或者二维卷积神经网络模型预测生理信号参数。

所述三维卷积神经网络模型或者二维卷积神经网络模型以残差网络（ResNet）为骨干构建三维卷积神经网络，在空间维度引入SENet设计思想，加入压缩-激发模块Squeeze-and-Excitation(SE) blocks；三维卷积神经网络引入Depthwise SeparableConvolution和ShuffleNet设计思想，在保证模型一定性能前提下，减小模型复杂度，即channel维度上进行分组卷积，适用于channel数值较大情况，设计模块block；卷积核使用空洞卷积方法dilated convolution，由于受到外界环境噪声影响，所提取的时空图可能有一些连续信息缺失或信息不准确；同时，池化pooling操作也会造成生理信号脉动信息的损失，使用大卷积核，如5*5卷积，也可以与3*3卷积核混合使用，或者使用空洞卷积增大感受野，减少使用大卷积核带来的计算量，即每个卷积输出包含较大范围的信息，提高卷积提取信息有效性；使用具有大卷积核神经网络，如Alexnet，对于头部大幅度快速转动或光照变化等因素带来的时空图特征信息连续段缺失问题有较大改善；Alexnet模型第一层卷积核大小为11，感受野面积大，可以更好地提取时空图中生理信号脉动信息，与小卷积核相比，削弱空图信息缺失带来的影响；使用平均绝对误差MAE和均方根误差RMSE评估生理信号测量结果，绘制标签值-预测值散点图。

实施例2：

Opencv读取视频帧图片；视频帧图片RGB空间转换到灰度空间应用于人脸检测；将图片像素坐标转换为numpy数组；确定第一侧矩形四点坐标shape[12][0]、shape[54][0]、shape[33][1]、shape[29][1]，围城的矩形代表第一个感兴趣区域；确定第二侧矩形四点坐标shape[48][0]、shape[4][0]、shape[33][1]、shape[29][1]，围城的矩形代表第二个感兴趣区域；上述shape[a][b]中，a表示68点标记序号，b为0代表横坐标x，b唯一代表纵坐标y。

受外界环境噪声影响，针对识别不出感兴趣区域域的特定帧的处理方法，如下：

由于帧与帧间隔时间极短，正常情况下的生理信号数值不会发生剧烈的上下剧烈波动，可以采用上一个可识别帧的数值代替识别不出来的帧，提高时空图的鲁棒性；保证时空图在时间维度上的连续性，由于识别不出的视频帧默认会使用黑色像素代替，而我们采用上一个可识别帧的数值代替识别不出来的帧，相当于在此处插入近似视频帧数值，避免了较大像素数值差给模型预测带来的不利影响；

对视频帧单侧感兴趣区域均匀划分为m×n个矩形区域，像素值矩阵记为

其中，

代表单个矩形区像素矩阵，矩阵维度为[p，q，3]；

重新调整

块像素矩阵维度为[p×q，3]，其中3列对应RGB通道；

把

把

按列拼接成[mn，3]维矩阵，矩阵记为

，

把两侧脸颊感兴趣区域按列拼接成[2mn，3]维矩阵，记为第t帧的特征矩阵Bd[t]；

把T帧特征矩阵按列拼接，矩阵记为，

，

把C矩阵由RGB色彩空间转化为YUV色彩空间，生成时空图。

示例地，时空图维度为[128,128,3]，其中，长宽128，通道3；

三维卷积神经网络模型输入维度为(batch，c，L，H，W)，其中c=3；

二维卷积神经网络模型输入维度为(batch，c，H，W)，其中c=3；

batch——模型一批次处理的数据个数；

3——色彩空间RGB通道，即channel个数；

L——代表时间维度，即每个batch输入一个视频片段，其含有的帧数为L；

H——表示空间维度的高，即单张时空图的高；

W——表示空间维度的宽，即单张时空图的宽；

三维卷积神经网络模型预测的输出个数与真实数据标签一致，其维数与输入时间维度L的时空图个数相同；

二维卷积神经网络模型输入单张时空图，模型预测的输出对应时空图的一个真实数据标签；

三维卷积神经网络模型和二维卷积神经网络模型以残差网络（ResNet）为核心构建三维卷积神经网络模型，在空间维度引入SENet设计思想，加入压缩-激发模块Squeeze-and-Excitation(SE) blocks，因为脉动信息对YUV三个通道敏感度不一样，模型通过数据驱动学习到的通道权重决定每个通道信息对生理参数的影响程度，模型在应用SE模块过程中要保持batch、L维度不变。

以下方法也可构建二维卷积神经网络模型，即去掉时间维度L信息，具体实施例如下：

（1）压缩：维持时间维度L不变，对单张时空图的输入特征矩阵

，对每个通道对应的特征矩阵取全局平均池化，公式如下：

其中

为通道平均值数值，下标c代表通道，H、W分别代表高和宽，

代表第i、j像素点矩阵数值。

（2）激发：自适应重新标定通道的数值，相当于计算通道所占权值大小

其中

为ReLu激活函数，W₁、W₂为全连接层权重，

为softmax函数，应用于空间维度H、W，时间维度L不变。

（3）对每个通道特征矩阵加权

其中

代表加权后通道c的特征矩阵数值，

代表通道c对应的加权值。

三维卷积神经网络模型引入Depthwise Separable Convolution和ShuffleNet设计思想，在保证模型一定性能前提下，减小模型复杂度，即channel维度上进行分组卷积，适用于channel数值较大情况，设计模块 block。

以输入的1/2channel数对输入进行分割（channel split），分别作为分支一和分支二的输入；

1、建立分支一，依次经过如下步骤：

（1）分组卷积1×1×1 GConv积，通道可选分为3、4、8组；

（2）批归一化ReLu激活函数或H-Swish激活函数（BN ReLu或BNH-Swish）；

（3）深度可分离卷积，每个channel作为一组，卷积步长为2，

3×3×3DWConv(stride=2)；

（4）批归一化BN；

（5）分组卷积1×1×1 GConv；

（6）批归一化BN。

2、建立分支二，依次经过以下步骤：

全局平均池化3×3×3 AVG Pool(stride=2)。

3、分支一和分支二进行连接Concat之后，进行通道打乱channel shuffle，以上所有步骤构成shuffle块。

卷积核使用空洞卷积方法dilated convolution，由于受到外界环境噪声影响，所提取的时空图可能有一些连续信息缺失或信息不准确；同时，池化pooling操作也会造成生理信号脉动信息的损失，使用空洞卷积增大感受野，即每个卷积输出包含较大范围的信息，提高卷积提取信息有效性。

使用具有大卷积核神经网络，如Alexnet，对于头部大幅度快速转动或光照变化等因素带来的时空图特征信息连续段缺失问题有较大改善；Alexnet模型第一层卷积核大小为11，感受野面积大，可以更好地提取时空图中生理信号脉动信息，与小卷积核相比，削弱空图信息缺失带来的影响。

生理信号预测可以多通道同时进行，选取提取好的时空图作为输入，分别使用二维卷积神经网络模型或三维卷积神经网络模型进行训练，输出预测值。

使用平均绝对误差MAE和均方根误差RMSE评估生理信号测量结果，绘制以标签值-预测值为横坐标-纵坐标的散点图，定义如下：

其中，

表示模型预测值，y表示视频片段对应的标签，m表示生理参数标签总数。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。