CN111967354B - 基于肢体和微表情的多模态特征的抑郁倾向识别方法 - Google Patents

基于肢体和微表情的多模态特征的抑郁倾向识别方法 Download PDF

Info

Publication number
CN111967354B
CN111967354B CN202010763656.4A CN202010763656A CN111967354B CN 111967354 B CN111967354 B CN 111967354B CN 202010763656 A CN202010763656 A CN 202010763656A CN 111967354 B CN111967354 B CN 111967354B
Authority
CN
China
Prior art keywords
layer
neural network
output
convolution
skeleton
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010763656.4A
Other languages
English (en)
Other versions
CN111967354A (zh
Inventor
杜广龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010763656.4A priority Critical patent/CN111967354B/zh
Publication of CN111967354A publication Critical patent/CN111967354A/zh
Application granted granted Critical
Publication of CN111967354B publication Critical patent/CN111967354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于肢体和微表情的多模态特征的抑郁倾向识别方法。所述方法包括以下步骤:借助非接触式测量传感器Kinect检测人体运动,生成运动文本描述;采用非接触式测量传感器Kinect捕捉人脸图像帧,对人脸感兴趣区域进行Gabor小波和线性判别分析,进行特征提取和降维,然后采用三层神经网络实现人脸表情分类,生成表情文本描述;通过一个具有自组织映射层的融合神经网络提取的文本描述进行融合并生成带有情感特征的信息;使用Softmax分类器将S3中生成的特征信息在情感类别中进行分类,分类结果用于评估该患者是否具有抑郁倾向。本发明考虑到静态身体运动和动态身体运动,达到了更高的效率。身体运动有助于识别抑郁症患者的情绪。

Description

基于肢体和微表情的多模态特征的抑郁倾向识别方法
技术领域
本发明属于情感识别领域,特别涉及基于肢体和微表情的多模态特征的抑郁倾向识别方法。
背景技术
为了尽早地发现有抑郁倾向的病人,检测他们的情绪是很有用的。人类的情绪可以通过多种方式识别,如心电图(ECG)(K.Takahashi,"Remarks on emotion recognitionfrom multi-modal bio-potential signals",Proc.IEEE Int.Conf.Ind.Technol.(ICIT),vol.3,pp.1138-1143,Jun.2004.)、脑电图(EEG)、言语、面部表情等。在各种情绪信号中,生理信号被广泛应用于情绪识别。近年来,肢体的运动也成为一种新的特征。
传统的检测方法有两种,一种是通过接触测量物体的生理指标(J.Kim,andE.André,“Emotion recognition based on physiological changes in musiclistening,”IEEE Transactions on Pattern Analysis&Machine Intelligence,vol.30,no.12,pp.2067-2083,2008.),另一种是用非接触的方法观察物体的生理特性。通过接触测量物体的生理指标的方式,一般会要求被测量物体佩戴设备等,但在实际生活中,由于这种方式具有侵入性,会妨碍被测试人员的正常行为活动(G.Chanel,J.J.M.Kierkels,M.Soleymani,T.Pun,"Short-term emotion assessment in a recall paradigm",Int.J.Human Comput.Stud.,vol.67,no.8,pp.607-627,Aug.2009.)。所以非侵入性的方法更好,但在非接触式的方式中,对象可以掩饰他们的情绪,所以单一的检测面部表情或者检测人体肢体运动都会导致较低的识别准确度。因此,融合多种特性是必要的。通过检测面部表情和肢体动作可以更有效地识别被检测人是否有抑郁倾向,减少自杀风险。
发明内容
本发明的目的是为了解决现有技术存在的缺陷,提出了一种新的多模态特征的情感识别方法。该方法可以实现人体的肢体动作与面部表情特征信息的有效融合,与传统的情感识别方法相比,该基于肢体动作和面部表情的多模态特征的情感识别方法,能够让医生更加高效且准确的评估一个人是否具有抑郁倾向。系统首先通过非接触式测量传感器Kinect获得人体的运动并通过卷积神经网络(CNN)对采集到的视频帧进行处理转化为静态运动文本描述以及采用双向长短时记忆条件随机场(Bi-LSTM-CRF)对骨架序列进行处理并生成动态运动文本描述。其次通过Kinect传感器采集人脸并对人脸感兴趣区域(ROI)进行Gabor小波和线性判别分析(LDA)进行特征提取和降维,采用三层神经网络实现人脸表情分类,然后通过一个具有自组织映射层的神经网络对提取的特征进行融合,最后使用Softmax分类器将处理结果从情感类别中进行分类。该方法考虑到静态身体运动和动态身体运动以及面部表情等特征信息,使得该方法能够更好的评估一个人是否具有抑郁倾向。
本发明的目的至少通过如下技术方案之一实现。
基于肢体和微表情的多模态特征的抑郁倾向识别方法,包括以下步骤:
S1、借助非接触式测量传感器Kinect检测人体运动,分别采用卷积神经网络(CNN)和双向长短时记忆条件随机场(Bi-LSTM-CRF)对人体静态运动和动态运动进行分析,生成运动文本描述;
S2、采用非接触式测量传感器Kinect捕捉人脸图像帧,对人脸感兴趣区域(ROI)进行Gabor小波和线性判别分析(LDA),进行特征提取和降维,然后采用三层神经网络实现人脸表情分类,生成表情文本描述;
S3、通过一个具有自组织映射层的融合神经网络对步骤S1和步骤S2中提取的文本描述进行融合并生成带有情感特征的信息;
S4、使用Softmax分类器将S3中生成的特征信息在情感类别中进行分类,分类结果用于评估该患者是否具有抑郁倾向。
进一步地,所述人体运动分为静态运动和动态运动;
对于静态运动,从捕获的视频中选出帧输入到卷积神经网络中;该卷积神经网络的卷积层利用部分滤波器计算卷积,即输入项的局部子矩阵和局部滤波器进行内积运算,输出为卷积矩阵;为了得到更好的数据表示,提供了各种局部滤波器来组合生成多个输出矩阵;卷积层的计算公式如下:
其中,l表示第l个卷积层,i表示卷积输出矩阵第i个分量;j表示对应输出矩阵的个数;j的值在0到N之间变化,其中N表示卷积输出矩阵的数量;表示第l个卷积层第j个输出矩阵第i个分量的值;/>表示第l个卷积层第j个输入向量第i个分量的值,bj表示第j个输出矩阵的偏置,m表示第卷积核数量,a表示第a个卷积核,/>表示第a个卷积核第j个矩阵的权值;f是一个非线性的sigmoid型函数;
该卷积神经网络的池化层采用平均值构造,即平均池化层;在经过卷积神经网络处理后,将带有感情特征的静态运动输入到Softmax分类器中进行分类,生成静态运动文本描述。
进一步地,对于动态运动,生成动态运动文本描述具体包括以下步骤:
S1.2.1、需要对15个骨架关节点从上到下、从左到右编号,然后获取15个骨骼关节点的坐标,骨骼关节点的坐标是指Kinect的坐标;由于骨骼位置的信号是时变的,当遇到遮挡时,这些信号是不明确的,因此使用区间Kalman滤波器来提高骨骼位置的精度;
S1.2.2、需要对骨架数据进行预处理:将获取的骨架点坐标数据的转换成15x3的矩阵,其中15表示骨架点的个数,3表示每个骨架点都有三维坐标数据,将连续动作即N个集合动作对应的骨架点序列编码成向量,生成骨架序列;
S1.2.3、将生成的骨架序列输入到双向长短时记忆条件随机场(Bi-LSTM-CRF)中;在Bi-LSTM-CRF中,骨架序列首先输入到Bi-LSTM网络中产生相应的输出,然后利用条件随机场(Conditional Random Field,CRF)对输出进行优化;
S1.2.4、将CRF的输出结果输入Softmax分类器中,得到最终的分类结果,生成动态运动文本描述。
进一步地,步骤S1.2.3中,对于双向长短时记忆条件随机场(Bi-LSTM-CRF),给定一个输入序列{x1,x2,…,xt,…,xT},其中t表示第t个坐标,T代表一共有T个坐标,长短期记忆神经网络隐藏层的输出计算公式如下:
ht=σh(Wxhxt+Whhht-1+bh);
其中,ht为隐含层在t时刻的输出,Wxh为输入层到隐藏层的权值矩阵,Whh为从隐藏层到隐藏层的权值矩阵,bh为隐藏层的偏置,σh表示激活函数。
进一步地,步骤S2具体包括以下步骤:
S2.1、采用Kinect-AMM算法,根据Kinect捕捉到的人脸图像帧,实时分割出感兴趣区域(ROI);将分割出的感兴趣区域的原始图像经过切割、缩放、滤波、去噪、直方图均衡化和灰度均衡化处理后,得到标准化的图像;
S2.2、采用二维Gabor小波对步骤S2.1中得到的标准化的图像进行人脸特征的提取;采用线性判别分析(LDA)算法进行降维,从高维特征空间中提取出最具鉴别力的低维特征;
S2.3、通过开源神经网络OpenFace对通过Gabor小波实现特征提取和LDA降维后的人脸图像帧进行分类,得到人脸的表情识别结果即表情文本描述。
进一步地,步骤S3中,通过一个具有自组织映射层的融合神经网络对提取的运动文本描述以及表情文本描述进行融合,得到表示融合特征的可解释的文本;所述融合神经网络包括特征嵌入和连接,自组织映射层(SOM)、补偿层,具体如下:
所述特征嵌入和连接使用xf、xsm、xdm分别代表面部特征、静态运动特征和动态运动特征,并将其连接为xc=(xf,xsm,xdm);因为面部特征、静态运动特征和动态运动特征之间相互独立,因此xc是一个持久特征向量;将xc经过LSTM网络来嵌入为xe,该LSTM网络使用步骤S1.2.3中提取动态动作特征的Bi-LSTM的前向LSTM;嵌入过程结束后,对xc和xe进行逐位乘运算,得到两个向量的交叉效应;再将交叉效应特征与xe再次连接起来,并将原始信息添加回去;在输入下一个神经网络层之前,x需要规范化的自组织映射为归一化后的x的大小是N×1;
自组织映射层(SOM)由特征嵌入和连接部分生成的文本描述向量表示为(x1 x2 …xN)T,SOM中节点i有输入权值μi,1i,2,…,μi,N,输入权值向量为μi=(μi,1 μi,2 … μi,N)T∈RN,结点i与嵌入的文本描述向量经过运算形成判别函数ηi
然后选择判别式中值最大的节点ηi进行输出并将该结点的序号定义为k:
对于节点k及其八个除了在邻域数不同的阵列边缘的最近邻结点,假设以下自适应过程是活动的:
其中变量用离散时间指数t标记,t为整数,α是自适应的‘增益参数’,分母是分子的欧几里德范数。
进一步地,步骤S4中,使用Softmax分类器对步骤S3中生成的表示融合特征的可解释文本特征进行分类,根据Softmax分类器输出的值评估该患者是否具有抑郁倾向,计算公式为:
其中,Wi为第i类情感倾向的权重矩阵,b代表偏置。
与现有技术相比,本发明具有以下优势:
(1)本发明将多模态数据与文本层对齐。文本中间表示和所提出的融合方法形成了一个融合肢体动作和面部表情的框架。该方法降低了肢体动作和面部表情的维数,将两类信息统一为一个统一的分量。
(2)为了融合文本描述,本发明提出了一个融合肢体动作和面部表情的两阶段多模态情感识别神经网络。该神经网络包括两个阶段:第一阶段,使用卷积神经网络(CNN)和双向长短时记忆条件随机场(Bi-LSTM-CRF)分别对静态和动态人体运动进行分析。第二阶段,通过一个具有自组织映射层的神经网络对提取的特征进行融合,并对基于web的语料库训练的各层进行补偿。深度信息增强了运动检测的鲁棒性和准确性。
(3)本发明考虑到静态身体运动和动态身体运动,达到了更高的效率。身体运动有助于识别抑郁症患者的情绪。
(4)Kinect用于数据采集,无创,性能高,操作方便。
附图说明
图1为本发明基于肢体和表情的多模态特征的抑郁倾向识别流程图。
具体实施方式
下面结合实施例和附图对本发明的具体实施做进一步的说明,但本发明的实施方式不限于此。
实施例:
基于肢体和微表情的多模态特征的抑郁倾向识别方法,如图1所示,包括以下步骤:
S1、借助非接触式测量传感器Kinect检测人体运动,分别采用卷积神经网络(CNN)和双向长短时记忆条件随机场(Bi-LSTM-CRF)对人体静态运动和动态运动进行分析,生成运动文本描述;
所述人体运动分为静态运动和动态运动;
对于静态运动,从捕获的视频中选出帧输入到卷积神经网络中;该卷积神经网络的卷积层利用部分滤波器计算卷积,即输入项的局部子矩阵和局部滤波器进行内积运算,输出为卷积矩阵;为了得到更好的数据表示,提供了各种局部滤波器来组合生成多个输出矩阵;卷积层的计算公式如下:
其中,l表示第l个卷积层,i表示卷积输出矩阵第i个分量;j表示对应输出矩阵的个数;j的值在0到N之间变化,其中N表示卷积输出矩阵的数量;表示第l个卷积层第j个输出矩阵第i个分量的值;/>表示第l个卷积层第j个输入向量第i个分量的值,bj表示第j个输出矩阵的偏置,m表示第卷积核数量,a表示第a个卷积核,/>表示第a个卷积核第j个矩阵的权值;f是一个非线性的sigmoid型函数;
该卷积神经网络的池化层采用平均值构造,即平均池化层;在经过卷积神经网络处理后,将带有感情特征的静态运动输入到Softmax分类器中进行分类,生成静态运动文本描述。
对于动态运动,生成动态运动文本描述具体包括以下步骤:
S1.2.1、需要对15个骨架关节点从上到下、从左到右编号,然后获取15个骨骼关节点的坐标,骨骼关节点的坐标是指Kinect的坐标;由于骨骼位置的信号是时变的,当遇到遮挡时,这些信号是不明确的,因此使用区间Kalman滤波器来提高骨骼位置的精度;
S1.2.2、需要对骨架数据进行预处理:将获取的骨架点坐标数据的转换成15x3的矩阵,其中15表示骨架点的个数,3表示每个骨架点都有三维坐标数据,将连续动作即N个集合动作对应的骨架点序列编码成向量,生成骨架序列;
S1.2.3、将生成的骨架序列输入到双向长短时记忆条件随机场(Bi-LSTM-CRF)中;在Bi-LSTM-CRF中,骨架序列首先输入到Bi-LSTM网络中产生相应的输出,然后利用条件随机场(Conditional Random Field,CRF)对输出进行优化;
对于双向长短时记忆条件随机场(Bi-LSTM-CRF),给定一个输入序列{x1,x2,…,xt,…,xT},其中t表示第t个坐标,T代表一共有T个坐标,长短期记忆神经网络隐藏层的输出计算公式如下:
ht=σh(Wxhxt+Whhht-1+bh);
其中,ht为隐含层在t时刻的输出,Wxh为输入层到隐藏层的权值矩阵,Whh为从隐藏层到隐藏层的权值矩阵,bh为隐藏层的偏置,σh表示激活函数。
S1.2.4、将CRF的输出结果输入Softmax分类器中,得到最终的分类结果,生成动态运动文本描述。
S2、采用非接触式测量传感器Kinect捕捉人脸图像帧,对人脸感兴趣区域(ROI)进行Gabor小波和线性判别分析(LDA),进行特征提取和降维,然后采用三层神经网络实现人脸表情分类,生成表情文本描述;具体包括以下步骤:
S2.1、采用Kinect-AMM算法,根据Kinect捕捉到的人脸图像帧,实时分割出感兴趣区域(ROI);将分割出的感兴趣区域的原始图像经过切割、缩放、滤波、去噪、直方图均衡化和灰度均衡化处理后,得到标准化的图像;
S2.2、采用二维Gabor小波对步骤S2.1中得到的标准化的图像进行人脸特征的提取;采用线性判别分析(LDA)算法进行降维,从高维特征空间中提取出最具鉴别力的低维特征;
S2.3、通过开源神经网络OpenFace对通过Gabor小波实现特征提取和LDA降维后的人脸图像帧进行分类,得到人脸的表情识别结果即表情文本描述。
S3、通过一个具有自组织映射层的融合神经网络对步骤S1和步骤S2中提取的文本描述进行融合并生成带有情感特征的信息;
过一个具有自组织映射层的融合神经网络对提取的运动文本描述以及表情文本描述进行融合,得到表示融合特征的可解释的文本;所述融合神经网络包括特征嵌入和连接,自组织映射层(SOM)、补偿层,具体如下:
所述特征嵌入和连接使用xf、xsm、xdm分别代表面部特征、静态运动特征和动态运动特征,并将其连接为xc=(xf,xsm,xdm);因为面部特征、静态运动特征和动态运动特征之间相互独立,因此xc是一个持久特征向量;将xc经过LSTM网络来嵌入为xe,该LSTM网络使用步骤S1.2.3中提取动态动作特征的Bi-LSTM的前向LSTM;嵌入过程结束后,对xc和xe进行逐位乘运算,得到两个向量的交叉效应;再将交叉效应特征与xe再次连接起来,并将原始信息添加回去;在输入下一个神经网络层之前,x需要规范化的自组织映射为归一化后的x的大小是N×1;
自组织映射层(SOM)由特征嵌入和连接部分生成的文本描述向量表示为(x1 x2 …xN)T,SOM中节点i有输入权值μi,1i,2,…,μi,N,输入权值向量为μi=(μi,1 μi,2 … μi,N)T∈RN,结点i与嵌入的文本描述向量经过运算形成判别函数ηi
然后选择判别式中值最大的节点ηi进行输出并将该结点的序号定义为k:
对于节点k及其八个除了在邻域数不同的阵列边缘的最近邻结点,假设以下自适应过程是活动的:
其中变量用离散时间指数t标记,t为整数,α是自适应的‘增益参数’,分母是分子的欧几里德范数。
S4、使用Softmax分类器将S3中生成的特征信息在情感类别中进行分类,分类结果用于评估该患者是否具有抑郁倾向。
使用Softmax分类器对步骤S3中生成的表示融合特征的可解释文本特征进行分类,根据Softmax分类器输出的值评估该患者是否具有抑郁倾向,计算公式为:
其中,Wi为第i类情感倾向的权重矩阵,b代表偏置。

Claims (5)

1.基于肢体和微表情的多模态特征的抑郁倾向识别方法,其特征在于,包括以下步骤:
S1、借助非接触式测量传感器Kinect检测人体运动,分别采用卷积神经网络(CNN)和双向长短时记忆条件随机场(Bi-LSTM-CRF)对人体静态运动和动态运动进行分析,生成运动文本描述;所述人体运动分为静态运动和动态运动;
对于静态运动,从捕获的视频中选出帧输入到卷积神经网络中;该卷积神经网络的卷积层利用部分滤波器计算卷积,即输入项的局部子矩阵和局部滤波器进行内积运算,输出为卷积矩阵;卷积层的计算公式如下:
其中,l表示第l个卷积层,i表示卷积输出矩阵第i个分量;j表示对应输出矩阵的个数;j的值在0到N之间变化,其中N表示卷积输出矩阵的数量;表示第l个卷积层第j个输出矩阵第i个分量的值;/>表示第l个卷积层第j个输入向量第i个分量的值,bj表示第j个输出矩阵的偏置,m表示第卷积核数量,a表示第a个卷积核,/>表示第a个卷积核第j个矩阵的权值;f是一个非线性的sigmoid型函数;
该卷积神经网络的池化层采用平均值构造,即平均池化层;在经过卷积神经网络处理后,将带有感情特征的静态运动输入到Softmax分类器中进行分类,生成静态运动文本描述;
对于动态运动,生成动态运动文本描述具体包括以下步骤:
S1.2.1、需要对15个骨架关节点从上到下、从左到右编号,然后获取15个骨骼关节点的坐标,骨骼关节点的坐标是指Kinect的坐标;使用区间Kalman滤波器来提高骨骼位置的精度;
S1.2.2、需要对骨架数据进行预处理:将获取的骨架点坐标数据的转换成15x3的矩阵,其中15表示骨架点的个数,3表示每个骨架点都有三维坐标数据,将连续动作即N个集合动作对应的骨架点序列编码成向量,生成骨架序列;
S1.2.3、将生成的骨架序列输入到双向长短时记忆条件随机场(Bi-LSTM-CRF)中;在Bi-LSTM-CRF中,骨架序列首先输入到Bi-LSTM网络中产生相应的输出,然后利用条件随机场(Conditional Random Field,CRF)对输出进行优化;
S1.2.4、将CRF的输出结果输入Softmax分类器中,得到最终的分类结果,生成动态运动文本描述;
S2、采用非接触式测量传感器Kinect捕捉人脸图像帧,对人脸感兴趣区域(ROI)进行Gabor小波和线性判别分析(LDA),进行特征提取和降维,然后采用三层神经网络实现人脸表情分类,生成表情文本描述;
S3、通过一个具有自组织映射层的融合神经网络对步骤S1和步骤S2中提取的文本描述进行融合并生成带有情感特征的信息;
S4、使用Softmax分类器将S3中生成的特征信息在情感类别中进行分类,分类结果用于评估患者是否具有抑郁倾向。
2.根据权利要求1所述的基于肢体和微表情的多模态特征的抑郁倾向识别方法,其特征在于,步骤S1.2.3中,对于双向长短时记忆条件随机场(Bi-LSTM-CRF),给定一个输入序列{x1,x2,…,xt,…,xT},其中t表示第t个坐标,T代表一共有T个坐标,长短期记忆神经网络隐藏层的输出计算公式如下:
ht=σh(Wxhxt+Whhht-1+bh);
其中,ht为隐含层在t时刻的输出,Wxh为输入层到隐藏层的权值矩阵,Whh为从隐藏层到隐藏层的权值矩阵,bh为隐藏层的偏置,σh表示激活函数。
3.根据权利要求1所述的基于肢体和微表情的多模态特征的抑郁倾向识别方法,其特征在于,步骤S2具体包括以下步骤:
S2.1、采用Kinect-AMM算法,根据Kinect捕捉到的人脸图像帧,实时分割出感兴趣区域(ROI);将分割出的感兴趣区域的原始图像经过切割、缩放、滤波、去噪、直方图均衡化和灰度均衡化处理后,得到标准化的图像;
S2.2、采用二维Gabor小波对步骤S2.1中得到的标准化的图像进行人脸特征的提取;采用线性判别分析(LDA)算法进行降维,从高维特征空间中提取出最具鉴别力的低维特征;
S2.3、通过开源神经网络OpenFace对通过Gabor小波实现特征提取和LDA降维后的人脸图像帧进行分类,得到人脸的表情识别结果即表情文本描述。
4.根据权利要求1所述的基于肢体和微表情的多模态特征的抑郁倾向识别方法,其特征在于,步骤S3中,通过一个具有自组织映射层的融合神经网络对提取的运动文本描述以及表情文本描述进行融合,得到表示融合特征的可解释的文本;所述融合神经网络包括特征嵌入和连接,自组织映射层(SOM)、补偿层,具体如下:
所述特征嵌入和连接使用xf、xsm、xdm分别代表面部特征、静态运动特征和动态运动特征,并将其连接为xc=(xf,xsm,xdm);将xc经过LSTM网络来嵌入为xe,该LSTM网络使用步骤S1.2.3中提取动态动作特征的Bi-LSTM的前向LSTM;嵌入过程结束后,对xc和xe进行逐位乘运算,得到两个向量的交叉效应;再将交叉效应特征与xe再次连接起来,并将原始信息添加回去;在输入下一个神经网络层之前,x需要规范化的自组织映射为归一化后的x的大小是N×1;
自组织映射层(SOM)由特征嵌入和连接部分生成的文本描述向量表示为(x1 x2 … xN)T,SOM中节点i有输入权值μi,1i,2,…,μi,N,输入权值向量为μi=(μi,1 μi,2 … μi,N)T∈RN,结点i与嵌入的文本描述向量经过运算形成判别函数ηi
然后选择判别式中值最大的节点ηi进行输出并将该结点的序号定义为k:
对于节点k及其八个除了在邻域数不同的阵列边缘的最近邻结点,假设以下自适应过程是活动的:
其中变量用离散时间指数t标记,t为整数,α是自适应的‘增益参数’,分母是分子的欧几里德范数。
5.根据权利要求4所述的基于肢体和微表情的多模态特征的抑郁倾向识别方法,其特征在于,步骤S4中,使用Softmax分类器对步骤S3中生成的表示融合特征的可解释文本特征进行分类,根据Softmax分类器输出的值评估该患者是否具有抑郁倾向,计算公式为:
其中,Wi为第i类情感倾向的权重矩阵,b代表偏置。
CN202010763656.4A 2020-07-31 2020-07-31 基于肢体和微表情的多模态特征的抑郁倾向识别方法 Active CN111967354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010763656.4A CN111967354B (zh) 2020-07-31 2020-07-31 基于肢体和微表情的多模态特征的抑郁倾向识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010763656.4A CN111967354B (zh) 2020-07-31 2020-07-31 基于肢体和微表情的多模态特征的抑郁倾向识别方法

Publications (2)

Publication Number Publication Date
CN111967354A CN111967354A (zh) 2020-11-20
CN111967354B true CN111967354B (zh) 2023-07-21

Family

ID=73363600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010763656.4A Active CN111967354B (zh) 2020-07-31 2020-07-31 基于肢体和微表情的多模态特征的抑郁倾向识别方法

Country Status (1)

Country Link
CN (1) CN111967354B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528891A (zh) * 2020-12-16 2021-03-19 重庆邮电大学 一种基于骨架信息的双向lstm-cnn的视频行为识别方法
CN112687390B (zh) * 2021-03-12 2021-06-18 中国科学院自动化研究所 基于混合网络和lp范数池化的抑郁状态检测方法及装置
CN113590814A (zh) * 2021-05-13 2021-11-02 上海大学 一种融合文本解释特征的文本分类方法
CN113910231B (zh) * 2021-10-15 2024-03-26 上海电机学院 一种机器人面部表情实现机构及控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007098560A1 (en) * 2006-03-03 2007-09-07 The University Of Southern Queensland An emotion recognition system and method
CN108363978A (zh) * 2018-02-12 2018-08-03 华南理工大学 采用深度学习和ukf的基于肢体语言的情感感知方法
CN109993068A (zh) * 2019-03-11 2019-07-09 华南理工大学 一种基于心率和面部特征的非接触式的人类情感识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007098560A1 (en) * 2006-03-03 2007-09-07 The University Of Southern Queensland An emotion recognition system and method
CN108363978A (zh) * 2018-02-12 2018-08-03 华南理工大学 采用深度学习和ukf的基于肢体语言的情感感知方法
CN109993068A (zh) * 2019-03-11 2019-07-09 华南理工大学 一种基于心率和面部特征的非接触式的人类情感识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Non-contact Emotion Recognition Combining Heart Rate and Facial Expression for Interactive Gaming Environments;Guanglong Du 等;《IEEEAccess》;第1-11页 *

Also Published As

Publication number Publication date
CN111967354A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN111967354B (zh) 基于肢体和微表情的多模态特征的抑郁倾向识别方法
Hsu et al. Deep learning with time-frequency representation for pulse estimation from facial videos
Zhang et al. Cascade and parallel convolutional recurrent neural networks on EEG-based intention recognition for brain computer interface
Chaki et al. Pattern mining approaches used in sensor-based biometric recognition: a review
Singh et al. Transforming sensor data to the image domain for deep learning—An application to footstep detection
Zhang et al. EEG-based intention recognition from spatio-temporal representations via cascade and parallel convolutional recurrent neural networks
CN111382679B (zh) 帕金森病步态运动障碍严重程度的评估方法、系统及设备
Xia et al. Classification of gait rhythm signals between patients with neuro-degenerative diseases and normal subjects: Experiments with statistical features and different classification models
US8935195B2 (en) Method of identification and devices thereof
CN109993068B (zh) 一种基于心率和面部特征的非接触式的人类情感识别方法
CN106529504B (zh) 一种复合时空特征的双模态视频情感识别方法
Zhang et al. Classification of pulse waveforms using edit distance with real penalty
Yang et al. On pain assessment from facial videos using spatio-temporal local descriptors
Hassan et al. Gait-based human gender classification using lifting 5/3 wavelet and principal component analysis
CN112101097A (zh) 融合肢体语言、微表情和语言的抑郁和自杀倾向识别方法
Saeed et al. Automated facial expression recognition framework using deep learning
Huang et al. Robust multi-feature collective non-negative matrix factorization for ECG biometrics
CN115530788A (zh) 基于自注意力机制的心律失常分类方法
Guelta et al. An Improved Behavioral Biometric System based on Gait and ECG signals.
Barra et al. A facial expression recognition approach for social IoT frameworks
Gilanie et al. An Automated and Real-time Approach of Depression Detection from Facial Micro-expressions.
Dixit et al. Multi-feature based automatic facial expression recognition using deep convolutional neural network
Chavan et al. A review on BCI emotions classification for EEG signals using deep learning
Rahman et al. Affective state recognition through EEG signals feature level fusion and ensemble classifier
Khaliq et al. The role of EEG-based brain computer interface using machine learning techniques: a comparative study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant