CN111967354B

CN111967354B - 基于肢体和微表情的多模态特征的抑郁倾向识别方法

Info

Publication number: CN111967354B
Application number: CN202010763656.4A
Authority: CN
Inventors: 杜广龙
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2023-07-21
Anticipated expiration: 2040-07-31
Also published as: CN111967354A

Abstract

本发明公开了一种基于肢体和微表情的多模态特征的抑郁倾向识别方法。所述方法包括以下步骤：借助非接触式测量传感器Kinect检测人体运动，生成运动文本描述；采用非接触式测量传感器Kinect捕捉人脸图像帧，对人脸感兴趣区域进行Gabor小波和线性判别分析，进行特征提取和降维，然后采用三层神经网络实现人脸表情分类，生成表情文本描述；通过一个具有自组织映射层的融合神经网络提取的文本描述进行融合并生成带有情感特征的信息；使用Softmax分类器将S3中生成的特征信息在情感类别中进行分类，分类结果用于评估该患者是否具有抑郁倾向。本发明考虑到静态身体运动和动态身体运动，达到了更高的效率。身体运动有助于识别抑郁症患者的情绪。

Description

基于肢体和微表情的多模态特征的抑郁倾向识别方法

技术领域

本发明属于情感识别领域，特别涉及基于肢体和微表情的多模态特征的抑郁倾向识别方法。

背景技术

为了尽早地发现有抑郁倾向的病人，检测他们的情绪是很有用的。人类的情绪可以通过多种方式识别，如心电图(ECG)(K.Takahashi,"Remarks on emotion recognitionfrom multi-modal bio-potential signals",Proc.IEEE Int.Conf.Ind.Technol.(ICIT),vol.3,pp.1138-1143,Jun.2004.)、脑电图(EEG)、言语、面部表情等。在各种情绪信号中，生理信号被广泛应用于情绪识别。近年来，肢体的运动也成为一种新的特征。

传统的检测方法有两种，一种是通过接触测量物体的生理指标(J.Kim,andE.André,“Emotion recognition based on physiological changes in musiclistening,”IEEE Transactions on Pattern Analysis&Machine Intelligence,vol.30,no.12,pp.2067-2083,2008.)，另一种是用非接触的方法观察物体的生理特性。通过接触测量物体的生理指标的方式，一般会要求被测量物体佩戴设备等，但在实际生活中，由于这种方式具有侵入性，会妨碍被测试人员的正常行为活动(G.Chanel,J.J.M.Kierkels,M.Soleymani,T.Pun,"Short-term emotion assessment in a recall paradigm",Int.J.Human Comput.Stud.,vol.67,no.8,pp.607-627,Aug.2009.)。所以非侵入性的方法更好，但在非接触式的方式中，对象可以掩饰他们的情绪，所以单一的检测面部表情或者检测人体肢体运动都会导致较低的识别准确度。因此，融合多种特性是必要的。通过检测面部表情和肢体动作可以更有效地识别被检测人是否有抑郁倾向，减少自杀风险。

发明内容

本发明的目的是为了解决现有技术存在的缺陷，提出了一种新的多模态特征的情感识别方法。该方法可以实现人体的肢体动作与面部表情特征信息的有效融合，与传统的情感识别方法相比，该基于肢体动作和面部表情的多模态特征的情感识别方法，能够让医生更加高效且准确的评估一个人是否具有抑郁倾向。系统首先通过非接触式测量传感器Kinect获得人体的运动并通过卷积神经网络(CNN)对采集到的视频帧进行处理转化为静态运动文本描述以及采用双向长短时记忆条件随机场(Bi-LSTM-CRF)对骨架序列进行处理并生成动态运动文本描述。其次通过Kinect传感器采集人脸并对人脸感兴趣区域(ROI)进行Gabor小波和线性判别分析(LDA)进行特征提取和降维，采用三层神经网络实现人脸表情分类，然后通过一个具有自组织映射层的神经网络对提取的特征进行融合，最后使用Softmax分类器将处理结果从情感类别中进行分类。该方法考虑到静态身体运动和动态身体运动以及面部表情等特征信息，使得该方法能够更好的评估一个人是否具有抑郁倾向。

本发明的目的至少通过如下技术方案之一实现。

基于肢体和微表情的多模态特征的抑郁倾向识别方法，包括以下步骤：

S1、借助非接触式测量传感器Kinect检测人体运动，分别采用卷积神经网络(CNN)和双向长短时记忆条件随机场(Bi-LSTM-CRF)对人体静态运动和动态运动进行分析，生成运动文本描述；

S2、采用非接触式测量传感器Kinect捕捉人脸图像帧，对人脸感兴趣区域(ROI)进行Gabor小波和线性判别分析(LDA)，进行特征提取和降维，然后采用三层神经网络实现人脸表情分类，生成表情文本描述；

S3、通过一个具有自组织映射层的融合神经网络对步骤S1和步骤S2中提取的文本描述进行融合并生成带有情感特征的信息；

S4、使用Softmax分类器将S3中生成的特征信息在情感类别中进行分类，分类结果用于评估该患者是否具有抑郁倾向。

进一步地，所述人体运动分为静态运动和动态运动；

对于静态运动，从捕获的视频中选出帧输入到卷积神经网络中；该卷积神经网络的卷积层利用部分滤波器计算卷积，即输入项的局部子矩阵和局部滤波器进行内积运算，输出为卷积矩阵；为了得到更好的数据表示，提供了各种局部滤波器来组合生成多个输出矩阵；卷积层的计算公式如下：

其中，l表示第l个卷积层，i表示卷积输出矩阵第i个分量；j表示对应输出矩阵的个数；j的值在0到N之间变化，其中N表示卷积输出矩阵的数量；表示第l个卷积层第j个输出矩阵第i个分量的值；/>表示第l个卷积层第j个输入向量第i个分量的值，b_j表示第j个输出矩阵的偏置，m表示第卷积核数量，a表示第a个卷积核，/>表示第a个卷积核第j个矩阵的权值；f是一个非线性的sigmoid型函数；

该卷积神经网络的池化层采用平均值构造，即平均池化层；在经过卷积神经网络处理后，将带有感情特征的静态运动输入到Softmax分类器中进行分类，生成静态运动文本描述。

进一步地，对于动态运动，生成动态运动文本描述具体包括以下步骤：

S1.2.1、需要对15个骨架关节点从上到下、从左到右编号，然后获取15个骨骼关节点的坐标，骨骼关节点的坐标是指Kinect的坐标；由于骨骼位置的信号是时变的，当遇到遮挡时，这些信号是不明确的，因此使用区间Kalman滤波器来提高骨骼位置的精度；

S1.2.2、需要对骨架数据进行预处理：将获取的骨架点坐标数据的转换成15x3的矩阵，其中15表示骨架点的个数，3表示每个骨架点都有三维坐标数据，将连续动作即N个集合动作对应的骨架点序列编码成向量，生成骨架序列；

S1.2.3、将生成的骨架序列输入到双向长短时记忆条件随机场(Bi-LSTM-CRF)中；在Bi-LSTM-CRF中，骨架序列首先输入到Bi-LSTM网络中产生相应的输出，然后利用条件随机场(Conditional Random Field，CRF)对输出进行优化；

S1.2.4、将CRF的输出结果输入Softmax分类器中，得到最终的分类结果，生成动态运动文本描述。

进一步地，步骤S1.2.3中，对于双向长短时记忆条件随机场(Bi-LSTM-CRF)，给定一个输入序列{x₁,x₂,…,x_t,…,x_T}，其中t表示第t个坐标，T代表一共有T个坐标，长短期记忆神经网络隐藏层的输出计算公式如下：

h_t＝σ_h(W_xhx_t+W_hhh_t-1+b_h)；

其中，h_t为隐含层在t时刻的输出，W_xh为输入层到隐藏层的权值矩阵，W_hh为从隐藏层到隐藏层的权值矩阵，b_h为隐藏层的偏置，σ_h表示激活函数。

进一步地，步骤S2具体包括以下步骤：

S2.1、采用Kinect-AMM算法，根据Kinect捕捉到的人脸图像帧，实时分割出感兴趣区域(ROI)；将分割出的感兴趣区域的原始图像经过切割、缩放、滤波、去噪、直方图均衡化和灰度均衡化处理后，得到标准化的图像；

S2.2、采用二维Gabor小波对步骤S2.1中得到的标准化的图像进行人脸特征的提取；采用线性判别分析(LDA)算法进行降维，从高维特征空间中提取出最具鉴别力的低维特征；

S2.3、通过开源神经网络OpenFace对通过Gabor小波实现特征提取和LDA降维后的人脸图像帧进行分类，得到人脸的表情识别结果即表情文本描述。

进一步地，步骤S3中，通过一个具有自组织映射层的融合神经网络对提取的运动文本描述以及表情文本描述进行融合，得到表示融合特征的可解释的文本；所述融合神经网络包括特征嵌入和连接，自组织映射层(SOM)、补偿层，具体如下：

所述特征嵌入和连接使用x_f、x_sm、x_dm分别代表面部特征、静态运动特征和动态运动特征，并将其连接为x_c＝(x_f，x_sm，x_dm)；因为面部特征、静态运动特征和动态运动特征之间相互独立，因此x_c是一个持久特征向量；将x_c经过LSTM网络来嵌入为x_e，该LSTM网络使用步骤S1.2.3中提取动态动作特征的Bi-LSTM的前向LSTM；嵌入过程结束后，对x_c和x_e进行逐位乘运算，得到两个向量的交叉效应；再将交叉效应特征与x_e再次连接起来，并将原始信息添加回去；在输入下一个神经网络层之前，x需要规范化的自组织映射为归一化后的x的大小是N×1；

自组织映射层(SOM)由特征嵌入和连接部分生成的文本描述向量表示为(x₁ x₂ …x_N)^T，SOM中节点i有输入权值μ_i,1,μ_i,2,…,μ_i,N，输入权值向量为μ_i＝(μ_i,1 μ_i,2 … μ_i,N)^T∈R^N，结点i与嵌入的文本描述向量经过运算形成判别函数η_i：

然后选择判别式中值最大的节点η_i进行输出并将该结点的序号定义为k：

对于节点k及其八个除了在邻域数不同的阵列边缘的最近邻结点，假设以下自适应过程是活动的：

其中变量用离散时间指数t标记，t为整数，α是自适应的‘增益参数’，分母是分子的欧几里德范数。

进一步地，步骤S4中，使用Softmax分类器对步骤S3中生成的表示融合特征的可解释文本特征进行分类，根据Softmax分类器输出的值评估该患者是否具有抑郁倾向，计算公式为：

其中，W_i为第i类情感倾向的权重矩阵，b代表偏置。

与现有技术相比，本发明具有以下优势：

(1)本发明将多模态数据与文本层对齐。文本中间表示和所提出的融合方法形成了一个融合肢体动作和面部表情的框架。该方法降低了肢体动作和面部表情的维数，将两类信息统一为一个统一的分量。

(2)为了融合文本描述，本发明提出了一个融合肢体动作和面部表情的两阶段多模态情感识别神经网络。该神经网络包括两个阶段：第一阶段，使用卷积神经网络(CNN)和双向长短时记忆条件随机场(Bi-LSTM-CRF)分别对静态和动态人体运动进行分析。第二阶段，通过一个具有自组织映射层的神经网络对提取的特征进行融合，并对基于web的语料库训练的各层进行补偿。深度信息增强了运动检测的鲁棒性和准确性。

(3)本发明考虑到静态身体运动和动态身体运动，达到了更高的效率。身体运动有助于识别抑郁症患者的情绪。

(4)Kinect用于数据采集，无创，性能高，操作方便。

附图说明

图1为本发明基于肢体和表情的多模态特征的抑郁倾向识别流程图。

具体实施方式

下面结合实施例和附图对本发明的具体实施做进一步的说明，但本发明的实施方式不限于此。

实施例：

基于肢体和微表情的多模态特征的抑郁倾向识别方法，如图1所示，包括以下步骤：

所述人体运动分为静态运动和动态运动；

对于动态运动，生成动态运动文本描述具体包括以下步骤：

对于双向长短时记忆条件随机场(Bi-LSTM-CRF)，给定一个输入序列{x₁,x₂,…,x_t,…,x_T}，其中t表示第t个坐标，T代表一共有T个坐标，长短期记忆神经网络隐藏层的输出计算公式如下：

h_t＝σ_h(W_xhx_t+W_hhh_t-1+b_h)；

S2、采用非接触式测量传感器Kinect捕捉人脸图像帧，对人脸感兴趣区域(ROI)进行Gabor小波和线性判别分析(LDA)，进行特征提取和降维，然后采用三层神经网络实现人脸表情分类，生成表情文本描述；具体包括以下步骤：

过一个具有自组织映射层的融合神经网络对提取的运动文本描述以及表情文本描述进行融合，得到表示融合特征的可解释的文本；所述融合神经网络包括特征嵌入和连接，自组织映射层(SOM)、补偿层，具体如下：

使用Softmax分类器对步骤S3中生成的表示融合特征的可解释文本特征进行分类，根据Softmax分类器输出的值评估该患者是否具有抑郁倾向，计算公式为：

其中，W_i为第i类情感倾向的权重矩阵，b代表偏置。

Claims

1.基于肢体和微表情的多模态特征的抑郁倾向识别方法，其特征在于，包括以下步骤：

S1、借助非接触式测量传感器Kinect检测人体运动，分别采用卷积神经网络(CNN)和双向长短时记忆条件随机场(Bi-LSTM-CRF)对人体静态运动和动态运动进行分析，生成运动文本描述；所述人体运动分为静态运动和动态运动；

对于静态运动，从捕获的视频中选出帧输入到卷积神经网络中；该卷积神经网络的卷积层利用部分滤波器计算卷积，即输入项的局部子矩阵和局部滤波器进行内积运算，输出为卷积矩阵；卷积层的计算公式如下：

该卷积神经网络的池化层采用平均值构造，即平均池化层；在经过卷积神经网络处理后，将带有感情特征的静态运动输入到Softmax分类器中进行分类，生成静态运动文本描述；

对于动态运动，生成动态运动文本描述具体包括以下步骤：

S1.2.1、需要对15个骨架关节点从上到下、从左到右编号，然后获取15个骨骼关节点的坐标，骨骼关节点的坐标是指Kinect的坐标；使用区间Kalman滤波器来提高骨骼位置的精度；

S1.2.4、将CRF的输出结果输入Softmax分类器中，得到最终的分类结果，生成动态运动文本描述；

S4、使用Softmax分类器将S3中生成的特征信息在情感类别中进行分类，分类结果用于评估患者是否具有抑郁倾向。

2.根据权利要求1所述的基于肢体和微表情的多模态特征的抑郁倾向识别方法，其特征在于，步骤S1.2.3中，对于双向长短时记忆条件随机场(Bi-LSTM-CRF)，给定一个输入序列{x₁,x₂,…,x_t,…,x_T}，其中t表示第t个坐标，T代表一共有T个坐标，长短期记忆神经网络隐藏层的输出计算公式如下：

h_t＝σ_h(W_xhx_t+W_hhh_t-1+b_h)；

3.根据权利要求1所述的基于肢体和微表情的多模态特征的抑郁倾向识别方法，其特征在于，步骤S2具体包括以下步骤：

4.根据权利要求1所述的基于肢体和微表情的多模态特征的抑郁倾向识别方法，其特征在于，步骤S3中，通过一个具有自组织映射层的融合神经网络对提取的运动文本描述以及表情文本描述进行融合，得到表示融合特征的可解释的文本；所述融合神经网络包括特征嵌入和连接，自组织映射层(SOM)、补偿层，具体如下：

所述特征嵌入和连接使用x_f、x_sm、x_dm分别代表面部特征、静态运动特征和动态运动特征，并将其连接为x_c＝(x_f，x_sm，x_dm)；将x_c经过LSTM网络来嵌入为x_e，该LSTM网络使用步骤S1.2.3中提取动态动作特征的Bi-LSTM的前向LSTM；嵌入过程结束后，对x_c和x_e进行逐位乘运算，得到两个向量的交叉效应；再将交叉效应特征与x_e再次连接起来，并将原始信息添加回去；在输入下一个神经网络层之前，x需要规范化的自组织映射为归一化后的x的大小是N×1；

自组织映射层(SOM)由特征嵌入和连接部分生成的文本描述向量表示为(x₁ x₂ … x_N)^T，SOM中节点i有输入权值μ_i,1,μ_i,2,…,μ_i,N，输入权值向量为μ_i＝(μ_i,1 μ_i,2 … μ_i,N)^T∈R^N，结点i与嵌入的文本描述向量经过运算形成判别函数η_i：

5.根据权利要求4所述的基于肢体和微表情的多模态特征的抑郁倾向识别方法，其特征在于，步骤S4中，使用Softmax分类器对步骤S3中生成的表示融合特征的可解释文本特征进行分类，根据Softmax分类器输出的值评估该患者是否具有抑郁倾向，计算公式为：

其中，W_i为第i类情感倾向的权重矩阵，b代表偏置。