CN117694845B

CN117694845B - 基于融合特征增强的非接触式生理信号检测方法及装置

Info

Publication number: CN117694845B
Application number: CN202410168344.7A
Authority: CN
Inventors: 邹博超; 郭子正; 马惠敏
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-04-26
Anticipated expiration: 2044-02-06
Also published as: CN117694845A

Abstract

本发明涉及生理信号检测领域，特别是指一种基于融合特征增强的非接触式生理信号检测方法及装置，方法包括：获取待检测脉搏波的视频数据，对视频数据进行预处理，得到预处理后的视频数据；将预处理后的视频数据输入到非接触式生理信号检测模型，得到脉搏波信号；其中，非接触式生理信号检测模型包括：融合主干模块、时差变换器模块以及预测器模块；根据脉搏波信号对心率、心率变异性等生理信号进行计算，得到非接触式生理信号检测结果。本发明通过将差分帧融合到原始帧中，使帧级表示能够感知BVP波变化，有效增强rPPG表示，进而引导变换器的自注意力机制，加强其对rPPG特征的关注。

Description

基于融合特征增强的非接触式生理信号检测方法及装置

技术领域

本发明涉及生理信号检测技术领域，特别是指一种基于融合特征增强的非接触式生理信号检测方法及装置。

背景技术

随着技术的进步，心率等生理信号的测量方法不断演变。从早期的切脉法和基于压力传感器的测量方法，到如今常用的基于ECG和PPG（Photo Plethysmo Graphy，光电容积脉搏波描记法）的测量方法，心率等生理信号的测量变得更加便捷和精确。这些方法大都是基于ECG和BVP两种重要的生理信号的生物物理机制来测量。

ECG（Electrocardiogram，心电图），是一种常用的测量心脏电活动的方法，通过记录心脏产生的电信号来评估心脏的功能和心律。ECG信号由一系列心电波形组成，其中最明显的是R峰，表示心脏的收缩。基于ECG的生理信号测量方法通过记录心脏电活动来获取生理信号信息。ECG传感器会将心电信号转化为电压波形，然后使用信号处理算法检测R峰的位置，进而计算出心率、心率变异性等生理信号。这种方法具有高精度和可靠性，在医疗领域得到广泛应用。但是其需要在人身上连接复杂的电极，较为不便。

BVP（Blood Volumn Pulse，脉搏波），是血液在血管中传递时产生的脉动波形信号，它对应着心脏的搏动和血液的流动。脉搏波是由心脏的收缩和舒张引起的，脉搏波的特征和形态可以提供有关心血管系统和循环功能的信息。当心脏收缩时，血液被推送进入动脉，形成了一个高压的脉动波。随着心脏舒张，动脉中的压力下降，形成了一个低压的脉动波。这个高压和低压的脉动波构成了完整的脉搏波形。这种脉动波通过动脉系统传播，推动血液流动到全身各个组织和器官。基于PPG技术的测量方法就是测量因心脏跳动产生的血液循环引发的对光照吸收发射量的周期性变化，通过这种周期性变化恢复脉搏波，并进一步计算心率等生理信号。这种方法比基于ECG的测量方法对环境、设备要求低，但仍然是接触式的，存在由于接触这种特性导致的很多局限与不便。

近年来，基于远程PPG的生理信号测量方法迅速发展，越来越受到人们的关注。该技术是在PPG基础上发展起来的一种非接触式生理信号检测技术。它利用普通摄像头在较远距离上进行信号采集，无需专业设备，也无需与被检测者发生接触。这种便携、低成本、非接触、安全、能够连续测量、操作简单的优势使其在各个领域都具有广泛的应用前景，为非接触式生理信号测量及远程医疗监控研究提供了一种新的解决途径和方案。

基于远程光电容积脉搏波描记法技术的生理信号检测方法已经发展了很长时间，主要可分为信号处理方法、数据驱动方法两大类。

Verkruysse等人的研究是早期rPPG(Remote Photo Plethysmo Graphy，远程光电容积脉搏波描记法)领域的一个代表，他们表明在生理特征提取任务中，相比于RGB摄像头的红色通道与蓝色通道，绿色通道分布着最强的rPPG信号。他们通过手动选择面部ROI（Region Of Interest，感兴趣区域）、提取RGB像素均值、使用带通滤波器滤波、功率谱分析四个步骤来得到与心率和呼吸率相对应的峰值。ICA(Independent Component Analysis，独立成分分析)是早期该领域的另一个经典方法。在这项研究中，作者借助由12名在预定照明条件下记录的受试者组成的视频数据集进行了实验，基于ICA的方法被实验证明对运动具有鲁棒性。Haan等人提出了CHROM算法，他们使用颜色间的差异来移除相机所捕获的镜面扭曲，他们还提出了肤色标准化来使算法适用于不同颜色的光源。Wang等人提出了POS算法，该模型解释了光如何与皮肤相互作用，弱化了CHROM算法中对标准化肤色这一先验知识的需求，并用投影矩阵将RGB信号投影到一个最可能含有脉搏信号的范围，该算法对运动具有较好的鲁棒性。与后续的深度学习方法相比，传统的信号处理技术具有以下两个优点：一是它们提供了易于实现且有效的算法来测量生理信号；二是它们通常易于解释且相对透明，因为大多数信号处理方法不需要训练数据(即无监督方法)。

近年来，由于强大的学习能力，基于数据驱动的方法在rPPG测量领域占据主导地位。目前基于数据驱动的方法从模型输入输出的角度可以分为非端到端网络与端到端网络两种类型。

一个非端到端模型的典型框架是牛雪松等人的Synrhythm。他们先将数据处理为一个个基于面部ROI的时空信号图，再从时空信号图中学习鲁棒的rPPG特征。与基于非端到端学习的方法相比，端到端方法较少依赖与任务相关的先验知识和手工工程(例如时空信号图生成)，但依赖于多样化和大规模的数据来缓解过度拟合的问题。

DeepPhys是早期较为经典的一种端到端方法。这个方法第一个提出使用卷积注意力网络架构来进行生理信号检测，该架构使用了双分支结构，通过外观分支和运动分支的组合来进行生理测量。运动分支的目标是提取生理信号，外观分支使用与运动分支前几次特征提取完全相同的结构，旨在为运动分支提供BVP波信号更丰富的区域，通过注意力机制引导运动分支对这些区域的关注。DeepPhys后，PhysNet第一个将三维网络应用到rPPG领域。该方法以64帧作为输入，使用了一种可以最大程度地提高标签波形与预测波形相关性的损失函数。MTTS-CAN（多任务时移卷积注意网络）在体系结构和损失函数上与DeepPhys相似，从以下两方面提出了改进：第一，在多任务学习设置中，使用相同的模型对MTTS-CAN模型进行训练，以同时预测心率和呼吸率。第二，MTTS-CAN模型嵌入了TSM (Temporal ShiftModule，时间移位模块)，该模块有助于在短时间窗口上进行学习，无需向网络添加额外的可训练参数。

由于自注意力机制在序列任务中的卓越表现，Transformer（变换器）已经广泛应用于自然语言处理领域，对序列数据的上下文关系进行建模。Dosovitskiy等人提出了ViT(Vision Transformer，视觉变换器)，将Transformer引入计算机视觉领域。此后，Transformer在计算机视觉领域迅速发展，出现了一系列相关方法与模型。EfficientPhys首次尝试引入Transformer到rPPG领域。它在架构上基于MTTS-CAN，提出了一种基于卷积的网络和一种基于Transformer的网络。相比于TS-CAN，EfficientPhys的作者认为rPPG信号丰富的区域不需要专门通过外观分支来获取，可以通过运动分支本身的自注意力来获取，所以EfficientPhys只使用了一个运动分支，并不是双分支结构。EfficientPhys中基于Transformer的方法使用了Swin Transformer来替换卷积块，但在原文中，Transformer最终的效果并没有优于CNN(Convolutional Neural Networks，卷积神经网络)。这可能是因为Swin Transformer这种基于Vision Transformer的结构能够探索长程的空间关系，但只能探索短期的时间关系，仅考虑来自局部相邻帧的rPPG特征，而忽略了准周期rPPG特征之间的长期关系。余梓彤等人在之前的基础上进一步提出了PhysFormer与PhysFormer++，自适应地聚合局部和全局时空特征以增强rPPG表示，其提出的时间差异Transformer通过时间差异引导的全局关注增强准周期rPPG特征，提升了预测准确度。

总的来说，rPPG的早期研究大都基于传统的信号处理方法分析皮肤（通常是面部）视频来提取其周期性的信号，但rPPG信号太过微弱，环境光、运动等导致的噪声较强，只用信号处理的方法在较复杂环境下很难得到较好的精度。随着机器学习的发展，出现越来越多基于数据驱动的方法，这些方法所使用的骨干网络呈现从二维CNN到三维 CNN再到Transformer的趋势。相对于二维CNN，三维CNN在时序信息上的捕获使其对rPPG这样的时序任务效果更优；而相对于三维CNN，Transformer可以在长距离的空间和时间维度上计算相关性，这对于具有准周期性、同时存在于所有皮肤区域的BVP信号的提取尤其有利。但现有研究在性能上并没有展示出Transformer比传统的CNN有压倒性的优势，在复杂环境下自注意力机制对rPPG信号的注意力效果不理想，这可能是两方面的问题导致。一方面，由于Transformer随序列长度的二次复杂度，并且人工设计的静态稀疏注意不适合动态的rPPG任务，使得过去的工作都是将输入变换成较粗粒度的Token（词元），但由于伪影与头部运动等噪声，较粗粒度的Token难以避免地会同时包含rPPG信息丰富区域及大量的噪声区域，会引入噪声并失去细节信息。另一方面，rPPG信号信噪比低的本质特征使得其本身就不易被关注。

如何处理强大的噪声与微弱的特征之间的冲突是rPPG任务的一个关键问题，基于rPPG的生物物理机制的先验对输入的原始视频进行处理可有效提升输入的信噪比。有一些非端到端的工作基于ROI区域的颜色空间变换来得到时空信号图，但这些方法忽略了预定义的ROI之外的全局上下文线索，并且需要严格的预处理步骤，使它们不太适用于在移动设备上部署。在过去端到端的rPPG研究中，主要有两种处理视频输入的方式。一种是直接使用原始帧作为输入。另一种是输入归一化帧差，同时也输入原始帧以提供注意力，帧差受原始帧引导以专注于皮肤区域。

在理想情况下，相比于原始帧，将归一化帧差作为输入的效果更好，因为其可以有效的去除固定分量噪声（即肤色、相机噪声等）的影响。但由于环境光、运动伪影等各种噪声影响，归一化帧差有着很多局限，很多时候噪声变化完全盖过rPPG信息变化，尤其对于基于自注意力机制的Transformer，这种极低的信噪比导致了注意力的极大偏差。但若将原始帧作为输入，相比于明显的面部特征，自注意力很难关注到极其微弱的肤色变化。自注意力得分中相当大的比例来自面部相似区域，而不是肤色变化表现的rPPG特征，导致每一帧之间相似空间区域的相关度远远高于时间上相位相似的区域，实际关注点与所期望的关注点有较大的偏差。

发明内容

为了解决现有技术存在的rPPG信号信噪比低的本质特征使得其本身不易被关注的技术问题，本发明实施例提供了一种基于融合特征增强的非接触式生理信号检测方法及装置。所述技术方案如下：

一方面，提供了一种基于融合特征增强的非接触式生理信号检测方法，该方法由非接触式生理信号检测设备实现，该方法包括：

S1、获取待检测脉搏波的视频数据，对视频数据进行预处理，得到预处理后的视频数据。

S2、将预处理后的视频数据输入到非接触式生理信号检测模型，得到脉搏波信号。

其中，非接触式生理信号检测模型包括：融合主干模块、时差变换器模块以及预测器模块。

S3、根据脉搏波信号对生理信号进行计算，得到非接触式生理信号检测结果。

可选地，S2 中的将预处理后的视频数据输入到非接触式生理信号检测模型，得到脉搏波信号，包括：

S21、将预处理后的视频数据输入到融合主干模块进行帧差融入，得到融合特征表示。

S22、将融合特征表示输入到时差变换器模块进行特征提取，得到高级特征表示。

S23、将高级特征表示输入到预测器模块进行脉搏波恢复，得到脉搏波信号。

可选地，S21中的融合主干模块包括：第一主干子模块以及第二主干子模块。

将预处理后的视频数据输入到融合主干模块进行帧差融入，得到融合特征表示，包括：

S211、对预处理后的视频数据进行时间移位，得到移位后的视频数据。

S212、对移位后的视频数据按时间顺序依次两两作差，得到视频帧差。

S213、通过第一主干子模块分别对预处理后的视频数据以及视频帧差进行初级特征提取，得到视频数据的初级特征表示以及视频帧差的初级特征表示。

S214、将视频数据的初级特征表示以及视频帧差的初级特征表示进行融合，通过第二主干子模块分别对视频数据的初级特征表示以及融合后的初级特征表示进行强化特征提取，将提取得到的特征相加得到融合特征表示。

可选地，视频帧差的初级特征表示如下式(1)所示：

（1）

所述视频数据的初级特征表示，如下式(2)所示：

（2）

式中，表示视频帧差的初级特征，/>表示视频数据的初级特征，表示连接函数，/>表示视频帧差，/>表示预处理后的视频数据，/>表示所述第一主干子模块。

可选地，融合特征表示，如下式(3)所示：

（3）

式中，表示融合特征，/>表示第一融合系数，/>表示第二融合系数，/>表示视频数据的初级特征，/>表示视频帧差的初级特征，/>表示所述第二主干子模块。

可选地，第一主干子模块包括：第一二维卷积层、第一主干子模块批归一化层、第一整流线性单元ReLU激活层以及最大池化层。

其中，第一二维卷积层的卷积核大小为5×5。

第二主干子模块包括：第二二维卷积层、第二主干子模块批归一化层以及第二整流线性单元ReLU激活层。

其中，第二二维卷积层的卷积核大小为3×3。

可选地，S22中的时差变换器模块包括：块嵌入子模块、时差自注意力子模块以及时空前馈网络子模块。

块嵌入子模块，用于从时间维度、高度维度以及宽度维度进行词元Token提取。

时差自注意力子模块，使用时间差分卷积模块对自注意力机制中的查询Q和键K投影，使用线性投影对自注意力机制中的值V进行投影。

时空前馈子模块包括第一卷积层、第二卷积层以及第三卷积层。

其中，第一卷积层包括：第一三维卷积层与第一时空前馈子模块批归一化层；第二卷积层包括：第二三维卷积层、第二时空前馈子模块批归一化层以及指数线性单元ELU激活层；第三卷积层包括：第三三维卷积层与第三时空前馈子模块批归一化层。

其中，第一三维卷积层的卷积核大小为1×1×1；第二三维卷积层的卷积核大小为3×3×3；第三三维卷积层的卷积核大小为1×1×1。

另一方面，提供了一种基于融合特征增强的非接触式生理信号检测装置，该装置应用于基于融合特征增强的非接触式生理信号检测方法，该装置包括：

获取模块，用于获取待检测脉搏波的视频数据，对视频数据进行预处理，得到预处理后的视频数据。

输入模块，用于将预处理后的视频数据输入到非接触式生理信号检测模型，得到脉搏波信号。

输出模块，用于根据脉搏波信号对生理信号进行计算，得到非接触式生理信号检测结果。

另一方面，提供一种非接触式生理信号检测设备，所述非接触式生理信号检测设备包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上述基于融合特征增强的非接触式生理信号检测方法中的任一项方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于融合特征增强的非接触式生理信号检测方法中的任一项方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，提出了融合主干模块，通过将差分帧融入原始帧，使帧级表示能够感知脉搏波的变化趋势，通过极小的计算量来有效增强rPPG特征。该模块不仅可以有效的引导Transformer的自注意力，增强其对rPPG特征的关注，在所有端到端的方法上都具有卓越的性能表现。

本发明基于融合主干模块，提出了一套非接触式生理信号检测方法，通过充分的实验证明其优于当前最先进的方法，展现出强大的检测能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于融合特征增强的非接触式生理信号检测方法流程图；

图2是本发明实施例提供的数据预处理流程图；

图3是本发明实施例提供的一种基于融合特征增强的非接触式生理信号模型的结构示意图；

图4是本发明实施例提供的融合主干模块的结构示意图；

图5是本发明实施例提供的时差变换器模块的结构示意图；

图6是本发明实施例提供的时差自注意力模块的结构示意图；

图7是本发明实施例提供的时空前馈模块的结构示意图；

图8是本发明实施例提供的一种基于融合特征增强的非接触式生理信号检测装置框图；

图9是本发明实施例提供的一种非接触式生理信号检测设备的结构示意图。

具体实施方式

下面结合附图，对本发明中的技术方案进行描述。

在本发明实施例中，“示例地”、“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。此外，在本发明实施例中，“和/或”所表达的含义可以是两者都有，或者可以是两者任选其一。

本发明实施例中，“图像”，“图片”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。“的(of)”，“相应的（corresponding，relevant）”和“对应的(corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

本发明实施例中，有时候下标如W₁可能会笔误为非下标的形式如W1，在不强调其区别时，其所要表达的含义是一致的。

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种基于融合特征增强的非接触式生理信号检测方法，该方法可以由非接触式生理信号检测设备实现，该非接触式生理信号检测设备可以是终端或服务器。如图1所示的基于融合特征增强的非接触式生理信号检测方法流程图，该方法的处理流程可以包括如下的步骤：

一种可行的实施方式中，通过摄像头对人脸面部视频进行采集。在将摄像头采集的视频数据输入模型前，需要将所有数据集统一预处理为可供模型输入的格式，数据预处理具体流程如图2所示。不论是直接以视频作为输入还是使用摄像头获取数据，输入的数据格式通常是视频流。在处理视频流时，逐帧读取并进行处理。对读取的每一帧图像，会被OpenCV库读取为Mat格式的图像。由于OpenCV默认将图像读取为BGR格式，将其转换为模型输入所需的RGB格式。如果当前帧是每组的第一帧，将进行人脸检测以确定人脸区域裁剪放大，人脸检测通过MTCNN（Multi-task Cascaded Convolutional Networks,多任务卷积神经网络）算法实现。确定人脸区域后，对人脸区域裁剪放大并调整图片尺寸为模型输入所需尺寸。下一步，对图像正则化并调整格式以便于模型的计算。为了保证生理信号的预测精度，预测时的输入时间长度最好与模型训练时输入时间长度相同，即160帧。每当时间长度满足160帧后，将视频打包送入模型对脉搏波进行恢复。

通过以上的预处理步骤，将摄像头采集的图像数据或其他方式得到的视频数据转化为适合模型输入的格式，并保证了数据的一致性和准确性。这样，模型可以在接收到经过预处理的数据后进行有效的处理和推断，从而实现所需的功能和目标。

一种可行的实施方式中，将基于所提出方法训练的模型导出为序列化模型文件（如.pt文件），这样可以将模型及其权重以一种通用的格式进行存储，以供程序调用。存储格式为Torch脚本，该脚本文件将包含模型的定义和权重信息，程序可以加载这个脚本文件，并使用其中定义的模型进行推断或其他操作。

如图3所示，非接触式生理信号检测模型包括：融合主干模块、时差变换器模块以及预测器模块。该模型使用融合主干模块增强局部时间内的时空表征，使用时差变换器模块进行长时间的时空表征。通过融合主干使帧级表示能够感知脉搏波的变化趋势，通过极小的计算量来有效增强rPPG特征，有效的引导Transformer的自注意力，提升模型的鲁棒性与泛化能力。

可选地，上述步骤S2可以包括如下步骤S21- S23：

可选地，第一主干子模块包括：第一二维卷积层、第一主干子模块批归一化层、第一ReLU（Rectified Linear Unit，整流线性单元）激活层以及最大池化层。

其中，第一二维卷积层的卷积核大小为5×5。

第二主干子模块包括：第二二维卷积层、第二主干子模块批归一化层以及第二ReLU激活层。

其中，第二二维卷积层的卷积核大小为3×3。

一种可行的实施方式中，本发明设计了融合主干模块，通过将帧差融入原始帧，使帧级表示能够感知脉搏波的变化趋势，通过极小的计算量有效增强了rPPG特征。该模块不仅可以有效的引导Transformer的自注意力，增强其对rPPG特征的关注，在所有端到端的方法上都具有卓越的性能表现。

具体地，上述步骤S21可以包括如下步骤S211- S214：

一种可行的实施方式中，如图4所示，对于输入视频， T、W、H 分别表示序列长度、宽度和高度。首先通过时间移位得到/>，然后按时间顺序从前到后两两作差得到/>。通过第一主干子模块进行初级特征提取，得到原始视频和视频帧差的初级特征表示，如下式(1)(2)所示：

（1）

所述视频数据的初级特征表示，如下式(2)所示：

（2）

S214、将视频数据的初级特征表示以及视频帧差的初级特征表示进行融合，通过第二主干子模块分别对视频数据的初级特征表示以及融合后的初级特征表示进行强化特征提取，后相加得到融合特征。

可选地，基于以上表示，将二者融合并进一步通过第二主干子模块强化特征表示，融合主干的输出为：

（3）

式中，、/>表示融合系数，均被设置为0.5。/>表示第二主干子模块。

具体的，时差变换器模块的结构如图5所示，由块嵌入子模块、时差自注意力子模块、时空前馈子模块构成。

其中，块嵌入子模块，用于从时间维度、高度维度以及宽度维度进行Token提取。模块的输入，目标Token尺寸/>，输出。该模块通过一个卷积核大小为/>的三维卷积层来实现。该模块将短时时空表征后的输入分割成不重叠的Token，聚合时空相邻位置的语义特征，降低了后续Transformer的计算成本。

如图6所示，时差自注意力子模块使用TDC模块 (Temporal DifferenceConvolution，时间差分卷积)对查询(Q)和键(K)投影，以捕捉细粒度的局部时间差异特征。用线性投影对值(V)进行投影。

自注意力机制的Q、K可以表示为：

（4）

其中，指块嵌入子模块的输出，BN指BatchNorm（批归一化）。第/>个自注意力头的输出/>（Self-Attention，自注意力）可以表示为：

（5）

其中，表示单个头注意力的维度。时差自注意力子模块的输出通过合并所有注意力头的输出，并由权重矩阵/>投影得到，具体表示为：

（6）

如图7所示，时空前馈子模块包括第一卷积层、第二卷积层、第三卷积层。

可选地，第一卷积层包括第一三维卷积层与第一时空前馈子模块批归一化层；第二卷积层包括第二三维卷积层、第二时空前馈子模块批归一化层以及ELU（ExponentialLinear Unit，指数线性单元）激活层；第三卷积层包括第三三维卷积层与第三时空前馈子模块批归一化层。

可选地，第一三维卷积层的卷积核大小为1×1×1；第二三维卷积层的卷积核大小为3×3×3；第三三维卷积层的卷积核大小为1×1×1。

一种可行的实施方式中，经过短时时空表征与长时时空表征的特征提取，网络已经得到了rPPG信号的高级特征表示。最后，网络将通过rPPG预测头对脉搏波进行恢复。rPPG预测头通过一层全连接层来实现。

一种可行的实施方式中，生理信号可以为心率、心率变异性等信号。

应用二阶巴特沃思滤波器（截止频率为0.75和2.5 Hz）对恢复的脉搏波波形进行滤波，然后通过Welch算法计算功率谱以进一步得到心率等生理信号。

融合主干模块的有效性：本发明在MMPD数据集上组织了数据集内实验，对融合主干的有效性进行了验证，数据集按顺序以7：1：2的比例被划分训练集、验证集、测试集。常用的MAE（Mean Absolute Error，平均绝对误差）、RMSE（Root Mean Square Error，均方根误差）、MAPE（Mean Absolute Percentage Error，平均绝对百分比误差）、皮尔逊相关系数ρ、SNR（Signal-to-Noise Ratio，信噪比）五个评价指标被用于评估。

如表1融合主干的消融实验所示，通过不同输入形式的消融实验对比，本发明验证了融合主干的有效性。与原始帧输入和归一化帧差输入相比，融合主干显著提高了性能。通过将差分帧融合到原始帧中，使帧级表示能够感知BVP波变化，有效增强rPPG表示，进而引导变压器的自注意力机制，加强其对rPPG特征的关注。

此外，融合主干可以很容易地应用于其他方法。本发明将融合主干整合到现有方法中。如表2融合主干的有效性所示，将融合主干应用于其他方法可显著提高性能，其他方法包括DeepPhys（深度生理信号检测方法）、PhysNet（生理信号检测网络）、TS-CAN（多任务时移卷积注意网络）、Physformer（生理信号检测变换器）、EfficientPhys（有效生理信号检测方法）。这有力地证明了融合主干的有效性，展示了其在不同方法中增强rPPG表征和提高信噪比的能力。

表1

表2

基于融合特征增强的非接触式生理信号检测方法的有效性：本发明在SCAMPS数据集上组织了数据集内实验。结果如表3 SCAMPS数据集内测试结果所示。从结果中可以看出，本发明优于过去最先进的方法，展现出了出色的rPPG特征提取能力。

表3

为了验证所提出方法的泛化性能，本发明还做了跨数据集测试。在MMPD数据集上训练，并分别在PURE数据集与UBFC数据集上进行了测试。结果如表4跨数据集测试结果（MMPD训练、PURE测试）、5跨数据集测试结果（MMPD训练、UBFC测试）所示。实验结果表明，所提出的rPPG测量方法可以很好的建模域不变rPPG特征，展现了其在不同数据集间强大的泛化能力。

表4

表5

图8是根据一示例性实施例示出的一种基于融合特征增强的非接触式生理信号检测装置框图，该装置用于基于融合特征增强的非接触式生理信号检测方法。参照图8，该装置包括获取模块810、输入模块820以及输出模块830。为了便于说明，图8仅示出了该装置800的主要部件：

获取模块810，用于获取待检测脉搏波的视频数据，对视频数据进行预处理，得到预处理后的视频数据。

输入模块820，用于将预处理后的视频数据输入到非接触式生理信号检测模型，得到脉搏波信号。

输出模块830，用于根据脉搏波信号对生理信号进行计算，得到非接触式生理信号检测结果。

本发明基于融合主干模块，提出了一套非接触式生理信号检测方法，通过实验证明其优于当前最先进的方法，展现出强大的检测能力。

图9是本发明实施例提供的一种非接触式生理信号检测设备的结构示意图，如图9所示，非接触式生理信号检测设备可以包括上述图8所示的基于融合特征增强的非接触式生理信号检测装置。可选地，非接触式生理信号检测设备910可以包括处理器2001。

可选地，非接触式生理信号检测设备910还可以包括存储器2002和收发器2003。

其中，处理器2001与存储器2002以及收发器2003，如可以通过通信总线连接。

下面结合图9对非接触式生理信号检测设备910的各个构成部件进行具体的介绍：

其中，处理器2001是非接触式生理信号检测设备910的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器2001是一个或多个中央处理器（centralprocessing unit，CPU），也可以是特定集成电路（application specific integratedcircuit，ASIC），或者是被配置成实施本发明实施例的一个或多个集成电路，例如：一个或多个微处理器（digital signal processor，DSP），或，一个或者多个现场可编程门阵列（field programmable gate array，FPGA）。

可选地，处理器2001可以通过运行或执行存储在存储器2002内的软件程序，以及调用存储在存储器2002内的数据，执行非接触式生理信号检测设备910的各种功能。

在具体的实现中，作为一种实施例，处理器2001可以包括一个或多个CPU，例如图9中所示出的CPU0和CPU1。

在具体实现中，作为一种实施例，非接触式生理信号检测设备910也可以包括多个处理器，例如图9中所示的处理器2001和处理器2004。这些处理器中的每一个可以是一个单核处理器（single-CPU），也可以是一个多核处理器（multi-CPU）。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据（例如计算机程序指令）的处理核。

其中，所述存储器2002用于存储执行本发明方案的软件程序，并由处理器2001来控制执行，具体实现方式可以参考上述方法实施例，此处不再赘述。

可选地，存储器2002可以是只读存储器（read-only memory，ROM）或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器（random access memory，RAM）或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器（electrically erasable programmable read-only memory，EEPROM）、只读光盘（compactdisc read-only memory，CD-ROM）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器2002可以和处理器2001集成在一起，也可以独立存在，并通过非接触式生理信号检测设备910的接口电路（图9中未示出）与处理器2001耦合，本发明实施例对此不作具体限定。

收发器2003，用于与网络设备通信，或者与终端设备通信。

可选地，收发器2003可以包括接收器和发送器（图9中未单独示出）。其中，接收器用于实现接收功能，发送器用于实现发送功能。

可选地，收发器2003可以和处理器2001集成在一起，也可以独立存在，并通过非接触式生理信号检测设备910的接口电路（图9中未示出）与处理器2001耦合，本发明实施例对此不作具体限定。

需要说明的是，图9中示出的非接触式生理信号检测设备910的结构并不构成对该路由器的限定，实际的知识结构识别设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

此外，非接触式生理信号检测设备910的技术效果可以参考上述方法实施例所述的基于融合特征增强的非接触式生理信号检测方法的技术效果，此处不再赘述。

应理解，在本发明实施例中的处理器2001可以是中央处理单元（centralprocessing unit，CPU），该处理器还可以是其他通用处理器、数字信号处理器（digitalsignal processor，DSP）、专用集成电路（application specific integrated circuit，ASIC）、现成可编程门阵列（field programmable gate array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本发明实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器（read-only memory，ROM）、可编程只读存储器（programmable ROM，PROM）、可擦除可编程只读存储器（erasable PROM，EPROM）、电可擦除可编程只读存储器（electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（random access memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器（random accessmemory，RAM）可用，例如静态随机存取存储器（static RAM，SRAM）、动态随机存取存储器（DRAM）、同步动态随机存取存储器（synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（double data rate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synchlink DRAM，SLDRAM）和直接内存总线随机存取存储器（direct rambus RAM，DR RAM）。

上述实施例，可以全部或部分地通过软件、硬件（如电路）、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质。半导体介质可以是固态硬盘。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系，但也可能表示的是一种“和/或”的关系，具体可参考前后文进行理解。

本发明中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a,b,或c中的至少一项（个），可以表示：a, b, c, a-b, a-c, b-c, 或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于融合特征增强的非接触式生理信号检测方法，其特征在于，所述方法包括：

S1、获取待检测脉搏波的视频数据，对所述视频数据进行预处理，得到预处理后的视频数据；

S2、将所述预处理后的视频数据输入到非接触式生理信号检测模型，得到脉搏波信号；

其中，所述非接触式生理信号检测模型包括：融合主干模块、时差变换器模块以及预测器模块；

S3、根据所述脉搏波信号对生理信号进行计算，得到非接触式生理信号检测结果；

所述S2 中的将所述预处理后的视频数据输入到非接触式生理信号检测模型，得到脉搏波信号，包括：

S21、将所述预处理后的视频数据输入到所述融合主干模块进行帧差融入，得到融合特征表示；

S22、将所述融合特征表示输入到所述时差变换器模块进行特征提取，得到高级特征表示；

S23、将所述高级特征表示输入到所述预测器模块进行脉搏波恢复，得到脉搏波信号；

所述S21中的融合主干模块包括：第一主干子模块以及第二主干子模块；

所述将所述预处理后的视频数据输入到所述融合主干模块进行帧差融入，得到融合特征表示，包括：

S211、对所述预处理后的视频数据进行时间移位，得到移位后的视频数据；

S212、对所述移位后的视频数据按时间顺序依次两两作差，得到视频帧差；

S213、通过所述第一主干子模块分别对所述预处理后的视频数据以及视频帧差进行初级特征提取，得到视频数据的初级特征表示以及视频帧差的初级特征表示；

S214、将所述视频数据的初级特征表示以及视频帧差的初级特征表示进行融合，通过所述第二主干子模块分别对所述视频数据的初级特征表示以及融合后的初级特征表示进行强化特征提取，将提取得到的特征相加得到融合特征表示；

所述S22中的时差变换器模块包括：块嵌入子模块、时差自注意力子模块以及时空前馈子模块；

所述块嵌入子模块，用于从时间维度、高度维度以及宽度维度进行词元Token提取；

所述时差自注意力子模块，使用时间差分卷积模块对自注意力机制中的查询Q和键K投影，使用线性投影对自注意力机制中的值V进行投影；

所述时空前馈子模块，包括第一卷积层、第二卷积层以及第三卷积层；

其中，所述第一卷积层包括：第一三维卷积层与第一时空前馈子模块批归一化层；所述第二卷积层包括：第二三维卷积层、第二时空前馈子模块批归一化层以及指数线性单元ELU激活层；所述第三卷积层包括：第三三维卷积层与第三时空前馈子模块批归一化层；

其中，所述第一三维卷积层的卷积核大小为1×1×1；所述第二三维卷积层的卷积核大小为3×3×3；所述第三三维卷积层的卷积核大小为1×1×1。

2.根据权利要求1所述的方法，其特征在于，所述视频帧差的初级特征表示如下式(1)所示：

（1）

所述视频数据的初级特征表示，如下式(2)所示：

（2）

式中，表示视频帧差的初级特征，/>表示视频数据的初级特征，/>表示连接函数，/>表示视频帧差，/>表示预处理后的视频数据，/>表示所述第一主干子模块。

3.根据权利要求1所述的方法，其特征在于，所述融合特征表示，如下式(3)所示：

（3）

4.根据权利要求1所述的方法，其特征在于，所述第一主干子模块包括：第一二维卷积层、第一主干子模块批归一化层、第一整流线性单元ReLU激活层以及最大池化层；

其中，所述第一二维卷积层的卷积核大小为5×5；

所述第二主干子模块包括：第二二维卷积层、第二主干子模块批归一化层以及第二整流线性单元ReLU激活层；

其中，所述第二二维卷积层的卷积核大小为3×3。

5.一种基于融合特征增强的非接触式生理信号检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测脉搏波的视频数据，对所述视频数据进行预处理，得到预处理后的视频数据；

输入模块，用于将所述预处理后的视频数据输入到非接触式生理信号检测模型，得到脉搏波信号；

输出模块，用于根据所述脉搏波信号对生理信号进行计算，得到非接触式生理信号检测结果；

所述将所述预处理后的视频数据输入到非接触式生理信号检测模型，得到脉搏波信号，包括：

所述融合主干模块包括：第一主干子模块以及第二主干子模块；

所述时差变换器模块包括：块嵌入子模块、时差自注意力子模块以及时空前馈子模块；

6.一种非接触式生理信号检测设备，其特征在于，所述非接触式生理信号检测设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至4中任一项所述的方法。

7.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1至4任一项所述的方法。