CN116758619A

CN116758619A - 基于面部视频的情感分类方法、系统、存储介质及设备

Info

Publication number: CN116758619A
Application number: CN202311033695.9A
Authority: CN
Inventors: 刘治; 聂伟琦; 陶可猛
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2023-09-15
Anticipated expiration: 2043-08-17
Also published as: CN116758619B

Abstract

本发明涉及图像处理技术领域，本发明公开了基于面部视频的情感分类方法、系统、存储介质及设备，包括：获取受试者的面部视频；基于面部视频，采用多任务学习生理信号识别模型，得到血容量脉搏波和呼吸波后，根据血容量脉搏波和呼吸波计算出生理参数，并将血容量脉搏波、呼吸波和生理参数共同作为情感分类模型的输入，得到受试者的情感类别。与使用脑电、心电检测仪等传感器接触式设备的传统生理信号检测和情感识别方式相比，能够无接触地实现生理信号收集计算和情绪分类。

Description

基于面部视频的情感分类方法、系统、存储介质及设备

技术领域

本发明涉及图像处理技术领域，具体的说，是涉及基于面部视频的情感分类方法、系统、存储介质及设备。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在传统的情感分类中，使用的信号源收集仪器大多为接触式的设备，比如脑电、心电检测仪等传感器，这些设备大部分都需要传感器接触到人体头部、手及身体，因此，可能会使被测试者，由于接触造成的压迫或仪器存在，产生身体不适感、或是产生抵触情绪，没有办法展现最自然的状态，从而导致测试结果不够真实。

发明内容

本发明为了解决上述问题，本发明提供基于面部视频的情感分类方法、系统、存储介质及设备，与使用脑电、心电检测仪等传感器接触式设备的传统生理信号检测和情感识别方式相比，能够无接触地实现生理信号收集计算和情绪分类。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于面部视频的情感分类方法，其包括：

获取受试者的面部视频；

基于面部视频，采用多任务学习生理信号识别模型，得到血容量脉搏波和呼吸波后，根据血容量脉搏波和呼吸波计算出生理参数，并将血容量脉搏波、呼吸波和生理参数共同作为情感分类模型的输入，得到受试者的情感类别。

进一步地，所述生理参数包括心率、血氧饱和度、心率变异性、呼吸率和压力指数。

进一步地，所述多任务学习生理信号识别模型对输入的面部视频进行人脸关键点识别，并取额头区域和脸颊区域分别作为感兴趣区域，将两个感兴趣区域的视频帧序列裁切出来，并进行缩放后，分别输入孪生网络，均得到血容量脉搏波和呼吸波。

进一步地，所述孪生网络包括用于处理额头区域视频帧序列的网络分支和用于处理脸颊区域视频帧序列的网络分支，两个网络分支均包括依次连接的特征提取模块、若干个变换器模块和信号预测器，且两个网络分支之间的变换器模块共享参数。

进一步地，将基于额头区域视频帧序列得到的血容量脉搏波和基于脸颊区域视频帧序列得到的血容量脉搏波，进行相加并进行归一化，得到输入情感分类模型的血容量脉搏波。

进一步地，将基于额头区域视频帧序列得到的呼吸波和基于脸颊区域视频帧序列得到的呼吸波，进行相加并进行归一化，得到输入情感分类模型的呼吸波。

进一步地，所述情感分类模型，将血容量脉搏波和呼吸波以及计算得到的生理参数先分别经过一维卷积层后，拼接为一个矩阵，再将矩阵经过一个二维卷积层后，经过线性层和归一化指数函数，得到的情感类别。

本发明的第二个方面提供基于面部视频的情感分类系统，其包括：

数据获取模块，其被配置为：获取受试者的面部视频；

情感分类模块，其被配置为：基于面部视频，采用多任务学习生理信号识别模型，得到血容量脉搏波和呼吸波后，根据血容量脉搏波和呼吸波计算出生理参数，并将血容量脉搏波、呼吸波和生理参数共同作为情感分类模型的输入，得到受试者的情感类别。

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，该程序被处理器执行时实现如上述所述的基于面部视频的情感分类方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于面部视频的情感分类方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明提供了基于面部视频的情感分类方法，其与使用脑电、心电检测仪等传感器接触式设备的传统生理信号检测和情感识别方式相比，能够无接触地实现生理信号收集计算和情绪分类。

本发明提供了基于面部视频的情感分类方法，其将生理信号检测获取的血容量脉搏波和呼吸波结果，以及经过计算得到的心率、血氧饱和度、心率变异性、呼吸率和压力指数生理参数输入情感分类网络，可以在不侵犯个体隐私的情况下，对测试者的情感状态进行准确的识别和评估。

本发明提供了基于面部视频的情感分类方法，其利用多任务网络能够通过利用参数共享节省了模型训练成本，并且能够增强对各类生理信号识别的准确度。

附图说明

构成本发明的一部分说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的限定。

图1为本发明的实施例一的基于面部视频的情感分类方法的流程图；

图2为本发明的实施例一的多任务学习生理信号识别模型的结构图；

图3为本发明的实施例一的视频块通道矩阵的形成流程图；

图4为本发明的实施例一的多头自注意力的结构图；

图5为本发明的实施例一的时空前馈网络的结构图；

图6为本发明的实施例一的情感分类模型的结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合下面结合附图与实施例对本发明作进一步说明。

术语解释：

远程光电容积脉搏波描记法（remote photoplethysmography，rPPG）：是利用摄像头等光学传感器来捕获由心脏跳动造成的皮肤颜色周期性变化的技术。利用该项技术，可以提取心脏脉搏跳动给皮肤带来的细微变化，从而得到相关心率、血氧饱和度、心率变异性（heart rate variability，HRV）、呼吸率和压力指数（Baevsky Stress Index，BSI）等生理信号，能够便捷应用于日常护理、心理和行为检测、远程医疗等领域。随着光学成像技术的发展和智能手机的广泛使用，rPPG技术的进一步和普及具备了良好的条件，因此具有巨大的潜在价值。利用rPPG技术进行生理信号检测，可以了解一个人的生理状态，以及进一步利用多种模态的生理信号进行情感分类，从而更好地了解被测者的情感状态。

实施例一

本实施例一的目的是提供基于面部视频的情感分类方法。

本实施例提供的基于面部视频的情感分类方法，可以无接触地实现收集、计算生理信号和识别情感，能够便捷应用于日常护理、心理和行为检测、远程医疗、教育、游戏等场景。

本实施例提供的基于面部视频的情感分类方法，如图1所示，包括：

步骤1、获取受试者的面部视频；

步骤2、输入面部视频经过训练后的多任务学习生理信号识别模型（即生理信号多任务网络模型）后，得到血容量脉搏波和呼吸波生理信号；随后根据这两种波形结果计算出心率、血氧饱和度、心率变异性（heart rate variability，HRV）、呼吸率和压力指数（Baevsky Stress Index，BSI）生理参数；血容量脉搏波、呼吸波和五种生理参数共同作为情感分类模型的输入，最终得到受试者的情感类别。

其中，多任务学习生理信号识别模型和情感分类模型训练时，采用的训练集的构建方法为：

（1）采集面部视频，并获取标签。

其中，采集面部视频，并获取标签的步骤包括：进行情绪诱发，制作情感分类标签和采集原始生理信号数据标签，即使用选取的影视或音乐片段来对受试者进行情绪诱发，主要包含3种情感类别：积极、中性和消极，并由此制作情感分类的标签，用于对情感分类模型的训练；然后在诱发情绪后的该类情绪持续过程中，用普通摄像头对受试者采集一段面部视频，并同时使用信号采集设备收集脉搏波、呼吸波等生理信号的原始数据，并由此制作生理信号原始标签，用于对多任务生理信号识别模型的训练。

（2）对面部视频和生理信号数据进行预处理后，与情感分类标签一起，作为训练集。

为了得到达到更好的训练效果，对采集的原始数据（面部视频和生理信号数据）进行预处理，包括：对面部角度偏移速度过快、光线变化过大或者与测试无关的原始视频片段进行剪辑删除，同时将对应时间段内的数据进行数据对齐；以及将因为采集设备连接接触不良等导致的脉搏波、呼吸波生理信号的失真数据进行删除，并将对应时间段内面部视频片段进行剪辑处理。

在步骤2中，多任务学习生理信号识别模型如图2所示，整个模型的设计框架为Siamese（孪生）网络框架，以实现权重共享。首先，对输入一段序列长度为T的面部视频序列（3×T×H×W）进行人脸关键点识别，其中T为视频帧序列长度，此处以T=160即160帧为例，H、W分别视频一帧图片的高度、宽度。并取额头区域和鼻翼两侧的脸颊区域作为感兴趣区域（Region of Interest，ROI），其中额头和脸颊分别为ROI1和ROI2；将ROI1和ROI2的视频帧序列裁切出来，缩放至128×128大小后，分别输入Siamese（孪生）网络，得到血容量脉搏波和呼吸波。

孪生网络包括用于处理额头区域视频帧序列的网络分支和用于处理脸颊区域视频帧序列的网络分支，两个网络分支均包括依次连接的特征提取模块、若干个变换器模块和信号预测器，且两个网络分支之间的变换器模块共享参数。

首先，浅层特征提取模块对ROI的视频帧序列进行降维，得到原始特征图。其中，浅层特征提取模块，实际包括了卷积核大小分别为1×5×5、3×3×3和3×3×3的三个卷积块，并且每次卷积都跟随着批量归一化(Batch Norm，BN)、ReLU激活函数和MaxPool最大池化操作，输出特征图，其大小可以为64×160×64×64。然后，如图3所示，将特征图分成非重叠的固定相同大小视频块通道Tube，并经过线性映射的嵌入操作（即经过分组划块和卷积操作），重组成视频块通道矩阵Tube tokens，其大小为4×64×40×4×4。

随后，将Tube tokens输入N个Transformer（变换器）模块级联组成的网络结构，特征图大小不变，依然为4×64×40×4×4；单个Transformer模块中具体包含一个多头自注意力结构和一个时空前馈网络，并且在两者之间，以及时空前馈结构的输出后都有一个相加和归一化操作，用于将多头自注意力结构或时空前馈网络的输入和输出进行相加和归一化；其中多头自注意力结构如图4所示，包含多个自注意力分支头，在单个自注意力分支头中，输入的一个Tube tokens经过线性操作，具体为，输入的Tube tokens分别与三个线性矩阵（第一线性矩阵Wq、第二线性矩阵Wk和第三线性矩阵Wv）相乘，并展平转为三个序列向量组（第一序列向量组Q、第二序列向量组K、第三序列向量组V），然后Q和K相乘后经过Softmax（归一化指数）操作再与V相乘；多头自注意力结构中每个单头分支（自注意力分支头）输出的结果进行连接和线性映射，即进行序列重组成矩阵，再与多头自注意力结构的输入进行相加和归一化；然后再输入时空前馈网络；如图5所示，时空前馈网络的第一层是1×1×1大小的卷积核组成的用于扩充维度的线性映射层，用于将通道维度由64扩充至256，中间第二层是3×3×3大小的三维卷积核层，即深度（Depth-wise）卷积层，在第二层通道数不变，第三层分别是1×1×1大小卷积核组成的用于维度回缩的线性映射层，用于将通道维度缩小回64；最后时空前馈网络结构的输入与输出经过相加和归一化操作，为一个Transformer模块的输出结果，该结果将作为下一个Transformer模块的输入。

最后，经过在N个Transformer模块后，输出到由两个卷积层以及一个神经元个数为2T的全连接层组成的信号预测器，最后信号预测器输出的结果为两个和输入视频帧数T长度一致的一维序列，分别为血容量脉搏波B和呼吸波R。血容量脉搏波B和呼吸波R的规模大小是1行160列，对应输入的160帧视频图像序列，相当于每帧得到一个值，一共160个值。

ROI1和ROI2的视频序列经过同一个网络，最终得到的血容量脉搏波和呼吸波分别为B_ROI1、R_ROI1和B_ROI2、R_ROI2。为了更好地融合这两个区域的信息，得到更好的结果，将这两个区域的血容量脉搏波进行相加并进行归一化，并将这两个区域的呼吸波进行相加并进行归一化，作为最终该面部视频的输出结果血容量脉搏波B和呼吸波R。

在步骤2中，根据面部视频和多任务学习生理信号识别模型得到的血容量脉搏波信号和呼吸波信号，计算出心率、血氧饱和度、心率变异性（heart rate variability，HRV）、呼吸率和压力指数（Baevsky Stress Index，BSI）等生理参数。

其中，心率和呼吸率的计算，是分别根据输出结果血容量脉搏波B和呼吸波R，求得频谱最大值对应的频率，计算得出心率和呼吸率实时结果。

其中，血氧饱和度的计算，是根据公式：

其中，A、B为经验常数；R值由ROI（ROI1和ROI2）的红蓝通道数值计算得出，计算公式为：，其中/>和/>分别指的是红、蓝两个通道信号的标准方差，/>和分别为红、蓝两个通道信号的平均值，其中红、蓝两个通道信号，指的是在某一帧时，面部ROI的所有像素红、蓝通道灰度值均值。

其中，心率变异性的计算，是由多任务网络（多任务学习生理信号识别模型）输出的血容量脉搏波B再进行处理后得到。具体步骤如下：首先对多任务网络输出的心率信号曲线（血容量脉搏波B）利用科学计算程序的核心包scipy进行峰值检测，然后根据峰值对应的位置，得到所有相邻峰值点的时间差组成的序列，随后对该序列的标准差即SDNN(standarddeviation of NN intervals)进行计算，得到心率变异性的结果。SDNN的具体计算公式如下：

其中,指的是所有相邻峰的区间数（即心率信号曲线的峰值点数-1），/>指的是峰值时间差组成的序列中的第/>个，/>指的是峰值时间差组成的序列的平均值。

其中，压力指数（Baevsky Stress Index，BSI）的计算也是根据多任务网络输出的血容量脉搏波B的峰值间隔序列得出，其计算公式为：

其中，mod函数求的是每50ms步长中的节拍间间隔直方图中的众数；amp函数返回直方图众数的振幅，定义为特定步长中某个心跳间隔所占的百分比；为根据该组峰值间隔序列/>求得的心率变异性数值。

步骤2中，基于生理信号的情感分类模型如图6所示，将多任务网络获得的血容量脉搏波B和呼吸波R，以及计算得到的心率、血氧饱和度、心率变异性HRV、呼吸率和压力指数BSI五种生理参数，共同输入到情感分类模型。情感分类模型如图6所示，血容量脉搏波B（1×T）、呼吸波R（1×T）以及计算得到的五种生理参数（1×5）先分别经过一维卷积层Conv1D（卷积核大小为1×1，且包含批量归一化BN和激活函数ReLU），扩充到（T×T）大小，然后拼接为一个3×T×T大小的矩阵；再将该矩阵经过一个二维卷积层Conv2D（卷积核大小为3×3，且包含批量归一化BN和激活函数ReLU），最后经过线性层和Softmax（归一化指数）函数，最终得到的情感分类结果为积极、中性和消极其中的一种。

本实施例提供的基于面部视频的情感分类方法，实现了对人类面部rPPG信号的提取，进而实现心率、血氧饱和度、心率变异性、呼吸率和压力指数等生理信号的计算，最后根据这些的生理信号及数据特征进行情感计算；其中的多任务网络识别的脉搏波（BVP）、呼吸波生理信号都反映在人的皮肤表面，因此存在着共同特点，而利用多任务网络能够通过利用参数共享，增强对各类生理信号识别的准确度；与此同时，本发明无接触地实现收集、计算生理信号和情感分类，能够便捷应用于日常护理、心理和行为检测、远程医疗、教育、游戏等场景。

本实施例提供的基于面部视频的情感分类方法，与使用脑电、心电检测仪等传感器接触式设备的传统生理信号检测和情感识别方式相比，能够无接触地实现生理信号收集计算和情绪分类；用普通光学摄像头就能实现生理信号和情绪分类，能够便捷应用于日常护理、心理和行为检测、远程医疗、教育等场景。与此同时，利用多任务网络能够通过利用参数共享节省了模型训练成本，并且能够增强对各类生理信号识别的准确度；将生理信号检测获取的血容量脉搏波和呼吸波结果，以及经过计算得到的心率、血氧饱和度、心率变异性、呼吸率和压力指数生理参数输入情感分类网络，可以在不侵犯个体隐私的情况下，对测试者的情感状态进行准确的识别和评估。

实施例二

本实施例二的目的是提供基于面部视频的情感分类系统，包括：

数据获取模块，其被配置为：获取受试者的面部视频；

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，该程序被处理器执行时实现如上述实施例一所述的基于面部视频的情感分类方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于面部视频的情感分类方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于面部视频的情感分类方法，其特征在于，包括：

获取受试者的面部视频；

2.如权利要求1所述的基于面部视频的情感分类方法，其特征在于，所述生理参数包括心率、血氧饱和度、心率变异性、呼吸率和压力指数。

3.如权利要求1所述的基于面部视频的情感分类方法，其特征在于，所述多任务学习生理信号识别模型对输入的面部视频进行人脸关键点识别，并取额头区域和脸颊区域分别作为感兴趣区域，将两个感兴趣区域的视频帧序列裁切出来，并进行缩放后，分别输入孪生网络，均得到血容量脉搏波和呼吸波。

4.如权利要求3所述的基于面部视频的情感分类方法，其特征在于，所述孪生网络包括用于处理额头区域视频帧序列的网络分支和用于处理脸颊区域视频帧序列的网络分支，两个网络分支均包括依次连接的特征提取模块、若干个变换器模块和信号预测器，且两个网络分支之间的变换器模块共享参数。

5.如权利要求3所述的基于面部视频的情感分类方法，其特征在于，将基于额头区域视频帧序列得到的血容量脉搏波和基于脸颊区域视频帧序列得到的血容量脉搏波，进行相加并进行归一化，得到输入情感分类模型的血容量脉搏波。

6.如权利要求3所述的基于面部视频的情感分类方法，其特征在于，将基于额头区域视频帧序列得到的呼吸波和基于脸颊区域视频帧序列得到的呼吸波，进行相加并进行归一化，得到输入情感分类模型的呼吸波。

7.如权利要求1所述的基于面部视频的情感分类方法，其特征在于，所述情感分类模型，将血容量脉搏波和呼吸波以及计算得到的生理参数先分别经过一维卷积层后，拼接为一个矩阵，再将矩阵经过一个二维卷积层后，经过线性层和归一化指数函数，得到的情感类别。

8.基于面部视频的情感分类系统，其特征在于，包括：

数据获取模块，其被配置为：获取受试者的面部视频；

9.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于面部视频的情感分类方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于面部视频的情感分类方法中的步骤。