CN111709284A - 基于cnn-lstm的舞蹈情感识别方法 - Google Patents

基于cnn-lstm的舞蹈情感识别方法 Download PDF

Info

Publication number
CN111709284A
CN111709284A CN202010378560.6A CN202010378560A CN111709284A CN 111709284 A CN111709284 A CN 111709284A CN 202010378560 A CN202010378560 A CN 202010378560A CN 111709284 A CN111709284 A CN 111709284A
Authority
CN
China
Prior art keywords
dance
emotion
data
layer
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010378560.6A
Other languages
English (en)
Other versions
CN111709284B (zh
Inventor
李军怀
王思敏
曹霆
王怀军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202010378560.6A priority Critical patent/CN111709284B/zh
Publication of CN111709284A publication Critical patent/CN111709284A/zh
Application granted granted Critical
Publication of CN111709284B publication Critical patent/CN111709284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开的基于CNN‑LSTM的舞蹈情感识别方法,通过获得舞蹈情感数据集;针对舞蹈情感数据集的每一帧数据进行维度转换,变为2*160的输入维度至卷积神经网络,进行舞蹈情感特征的提取,并得到舞蹈情感特征向量;将舞蹈情感特征向量输入到长短时记忆神经网络,通过全连接层特征融合,使用BN层对特征数据进行归一化处理,最后将输出数据传入softmax层分类,完成舞蹈情感识别。本发明舞蹈情感识别方法,从肢体结构、空间方位、力效三个方面对舞蹈情感特征参数进行分析和描述,同时使用CNN‑LSTM混合深度学习模型对舞蹈情感数据进行训练,提取舞蹈情感特征,实现舞蹈情感识别,获得了较高的识别效率。

Description

基于CNN-LSTM的舞蹈情感识别方法
技术领域
本发明属于舞蹈情感识别技术领域,具体涉及一种基于CNN-LSTM的舞蹈情感识别方法。
背景技术
近年来,情感识别逐渐成为人机交互领域的重要研究方向。情感识别是利用计算机分析各种情感信息,提取出描述情感的特征值,建立特征值与情感的映射关系,然后对情感进行分类,从而推断出情感状态的过程。目前,情感识别主要应用于语音情感、面部表情、脑电波、视听情感等方面,在舞蹈情感识别中应用较少。
舞蹈动作是舞蹈情感的外在表达形式,舞蹈动作的情感体现在舞者的肢体语言和运动形式上,因此不同的舞蹈动作表达出的舞蹈情感不同,如双臂大幅度地向上挥舞表达出愉悦、欢快的情感;肢体缓慢向下弯曲通常表达出犹豫、消极的情感。
针对舞蹈动作难以描述、分析的问题,拉班动作分析(LMA)方法提供了良好的解决思路。LMA方法借鉴了鲁道夫·拉班(Rudolph Laban)的理论,可以描述、解释、记录人体动作,是分析人体动作最常用的语言之一。在肢体动作识别以及情感识别领域,LMA方法被广泛应用。因此,本文利用LMA方法对舞蹈动作进行分析,从舞蹈动作数据中提取出舞蹈情感信息。
情感识别在面部、语音和生理信号等方面被广泛研究。在面部情感识别中,当面部表情变化比较微妙时,很难准确判断出所要表达的情感。此外,面部和语音信息并不总能够准确表达出人类真实的情感状态。随着生理信号在情感识别中的广泛研究,其主要通过对脑电波信号进行分析,获得最真实的情感状态,可以弥补在面部和语音方面对情感识别的缺点,但是通过脑电波信号进行情感识别具有局限性,不能方便地应用于人类日常生活中。
通过研究分析戏剧中的手势动作与情感之间的关系,验证了动作和情感之间的相关性。因此,基于动作与情感的关系,通过分析舞蹈动作来识别舞蹈情感。
为了科学地分析舞蹈动作,Laban提出一种描述舞蹈动作的方法,即拉班动作分析(LMA)方法。目前,LMA方法作为对肢体动作的描述方法被广泛应用于情感识别中,如AjiliI从拉班动作分析方法出发,提出一种新的人体动作描述向量,识别视频图像上人的表情和动作,基于LMA研究了人体运动与情感之间的关系,结果表明LMA特征与情感之间存在良好的相关性。Aristidou和Chrysanthou利用各种LMA特征对不同情感的舞蹈表演进行分类,并分析了这些特征在具有不同情感的运动中的变化情况,发现在不同情感状态间存在着不同的运动相似性。采用拉班力效特征作为神经网络的输入,建立著名的Russell Circumplex模型,实现连续人体情感识别。
在情感识别中,常见的传统算法主要为回归分析、支持向量机SVM、K-means、Apriori算法等,这些算法能实现快速的数据处理和结果输出,但在处理海量数据时并不能发挥良好的识别作用。随着人工智能在不同领域的应用和发展,深度神经网络被引入到情感识别领域,为处理大量的情感数据以及提高情感识别的准确率提供了新的解决思路。B.Zhang等将卷积神经网络(CNN)应用于图像识别和语音情感识别中。实验结果表明,在图像识别中,CNN的准确率为95.5%;在语音情感识别中,CNN准确率为97.6%。C.Cheng为了对脑电波信号进行情感识别,提出一种基于卷积神经网络的情感识别算法。实验结果表明,该网络对两类情感识别的准确率达到83.45%(最高准确率为98.8%);对三类情感识别的最高准确率为68.8%。
发明内容
本发明的目的是提供一种基于CNN-LSTM的舞蹈情感识别方法,解决了现有舞蹈情感问题识别方法,舞蹈情感识别准确率效率低下的问题。
本发明所采用的技术方案是,基于CNN-LSTM的舞蹈情感识别方法,包括以下步骤:
步骤1,基于拉班动作分析方法LMA对舞蹈情感的描述,从舞蹈动作数据集中计算出舞蹈情感数据集;
步骤2,针对步骤1中的舞蹈情感数据集的每一帧数据进行维度转换,转换为2*160的输入维度,输入至三层CNN卷积神经网络中,提取舞蹈情感特征,得到舞蹈情感特征向量;
步骤3,将步骤2舞蹈情感特征向量输入到LSTM长短时记忆神经网络中,并通过全连接层进行特征融合,同时,使用BN层对特征数据进行归一化处理,最后使用softmax层进行分类,完成舞蹈情感识别。
本发明的特征还在于,
步骤1具体为:
步骤1.1,使用可穿戴的动作捕捉设备绑定人体关键骨骼部位,并采集若干舞蹈动作数据并保存为BVH动作捕捉文件;
步骤1.2,将步骤1.1中的所述BVH动作捕捉文件的动作捕捉数据区的每一帧数据进行提取,其中,每一帧数据均由人体骨骼节点的世界坐标和欧拉角组成,得到舞蹈动作数据;
步骤1.3,通过肢体结构、空间方位、力效三个参数对舞蹈情感的分析和描述,将步骤1.2的舞蹈动作数据进行情感特征的计算,得到舞蹈情感数据集。
步骤1.3中:
肢体结构以骨骼对距离d为参数描述,相邻节点i和j之间的骨骼对距离具体为:
Figure BDA0002481164810000041
其中节点i的坐标为(xi,yi,zi),节点j的坐标为(xj,yj,zj);
空间方位以人体肚脐Hips为中心,竖直方向分为三个区域,水平方向以22.5°为夹角,分为九个区域;
力效以骨骼节点加速度a和任一骨骼节点速度v为参数描述,具体为:
Figure BDA0002481164810000042
a=Δv/t (3)
其中,节点i上一时刻的坐标为(xi-1,yi-1,zi-1),每一帧时间为t,Δv为速度增量。
步骤2中三层CNN卷积神经网络包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层,具体为:
步骤1.1中每一帧数据分别计算的特征值中相对距离有52个,速度有54个,加速度有54个,故每一帧共有320个数据,输入层数据大小为2*160;
第一卷积层为1*2的一维卷积核、卷积核数18个、卷积核步长为1,第二卷积层为1*2一维卷积核、卷积核数36个、卷积核步长为1;第三卷积层为1*2一维卷积核、卷积核为72个、卷积核步长为1;
第一池化层、第二池化层和第三池化层均为1*2窗口、步长为2,且第二池化层和第三池化层均采用SAME方式填充。
步骤3具体包括:
步骤3.1,更新遗忘门,具体如公式(4):
ft=σ(wf·[ht-1,xt]+bf) (4)
公式(4)中,参数σ为激活函数,参数wf为遗忘门的权值,参数为ht-1神经元上一时刻的输出,参数xt为当前时刻的输入,参数bf为遗忘门的偏移量;
步骤3.2,更新输入门的输出,如公式(5)和(6):
it=σ(wi·[ht-1,xt]+bi) (5)
Figure BDA0002481164810000051
公式(5)中,参数wi为输入门的权值,参数bi为输入门的偏移量;
公式(6)中,参数tanh为激活函数,参数wc为当前输入单元状态对应的权值,参数bc为当前输入单元状态对应的偏移量;
合并公式(5)、公式(6)以及公式(4),更新单元状态,得到公式(7),
Figure BDA0002481164810000052
在公式(7)中,ft为遗忘门的输出值,ct-1上一时刻的单元状态值,it为输入门的输出值,
Figure BDA0002481164810000053
为当前输入的单元状态;
步骤3.3,更新输出门,具体如公式(8)和(9),
ot=σ(wo·[ht-1,xt]+bo) (8)
ht=ot·tanh(ct) (9)
在公式(8)中,参数wo为输出门的权值,参数bo为输出门的偏移量;
公式(9)中,参数ot为上一步输出,ct为更新的单元状态值,参数tanh为激活函数;
步骤3.4,将步骤3.3中的输出包含时间与舞蹈情感数据序列的向量输入到全连接层,进行特征融合,并使用BN层对特征数据进行归一化处理;
步骤3.5,将BN层处理后输出数据传入softmax层进行分类,如公式(10),使概率值处于[0,1]之间,得到数据的预测标签值,其中最大的标签值即为分类结果;
Figure BDA0002481164810000061
公式(10)中,yi为归一化得到的输出结果,exp为指数函数。
本发明的有益效果是:本发明基于CNN-LSTM的舞蹈情感识别方法,从舞蹈动作数据中提取出特征来表达舞蹈情感,并从肢体结构、空间方位、力效三个方面对特征参数进行描述,同时使用使用CNN-LSTM混合深度学习模型对舞蹈情感数据进行训练,提取舞蹈情感特征,实现舞蹈情感识别,获得了较高的识别效率,有很好的使用价值。
附图说明
图1是本发明基于CNN-LSTM的舞蹈情感识别方法中空间方位分布示意图,其中,图1(a)为空间方位竖直方向的示意图,图1(b)为空间方位水平方向的示意图;
图2是本发明基于CNN-LSTM的舞蹈情感识别方法中,CNN卷积神经网络的示意图;
图3是本发明基于CNN-LSTM的舞蹈情感识别方法中,长短期记忆网络的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于CNN-LSTM的舞蹈情感识别方法,包括以下步骤:
步骤1,基于拉班动作分析方法LMA对舞蹈情感的描述,从舞蹈动作数据集中计算出舞蹈情感数据集;
步骤1.1,使用可穿戴的动作捕捉设备绑定人体关键骨骼部位,并采集若干舞蹈动作数据并保存为BVH动作捕捉文件;
BVH动作捕捉文件包含两部分:人体骨架层级结构和运动捕捉数据区。
人体骨架层级结构以人体主要关节部位为节点的树形结构,每个骨骼节点定义在一对“{}”内,在该定义中,树的根节点一般取人体中心部位的脐部Hips;人体树结构通常还包含多个叶节点,分别表示四肢和头部这五个人体结构主要分支的末端。
运动捕捉数据区分为三部分:数据帧数、采样时间间隔和数据块。数据帧数表示当前BVH动作捕捉文件中舞蹈的总帧数;采样时间间隔是指舞蹈中每一帧舞蹈动作的时间间隔,数据帧数与采样间隔的乘积即为捕捉的人体运动的时间长度,单位为秒;数据块的每一行表示一帧数据,由所有骨骼节点的世界坐标和欧拉角组成,用来描述在该运动捕捉时刻人体的舞蹈动作姿态。
步骤1.2,将步骤1.1中的所述BVH动作捕捉文件的动作捕捉数据区的每一帧数据进行提取,其中,每一帧数据均由人体骨骼节点的世界坐标和欧拉角组成,得到舞蹈动作数据;
步骤1.3,通过肢体结构、空间方位、力效三个参数对舞蹈情感的分析和描述,将步骤1.2的舞蹈动作数据进行情感特征的计算,得到舞蹈情感数据集。
肢体结构以骨骼对距离d为参数描述,相邻节点i和j之间的骨骼对距离具体为公式(1):
Figure BDA0002481164810000081
其中节点i的坐标为(xi,yi,zi),节点j的坐标为(xj,yj,zj);
空间方位以人体肚脐Hips为中心,如图1(a)所示,竖直方向分为High、Mid、Low三个区域;如图1(b)所示,水平方向以22.5°为夹角,分为九个区域,具体为forward、rightforward、right、right back、backward、left back、left、left forward等;
力效以骨骼节点加速度a和任一骨骼节点速度v为参数描述,具体为公式(2)和公式(3):
Figure BDA0002481164810000082
a=Δv/t (3)
其中,节点i上一时刻的坐标为(xi-1,yi-1,zi-1),每一帧时间为t,Δv为速度增量。
本发明针对BVH动作捕捉文件数据块中的每一帧的世界坐标和欧拉角数据分别计算肢体间的相对距离、肢体关节点的速度和加速度,获得表达舞蹈情感的数据集。其中,本发明对每一帧世界坐标和欧拉角分别计算的特征值中相对距离有52个数据,速度有54个数据,加速度有54个数据,因此,每一帧共有320个数据。
步骤2,针对步骤1中的舞蹈情感数据集的每一帧数据进行维度转换,转换为2*160的输入维度,输入至三层CNN卷积神经网络中,提取舞蹈情感特征,得到舞蹈情感特征向量;
如图2所示,三层CNN卷积神经网络包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层。
所述输入层数据大小为2*160;由于一般的卷积层多采用N*N大小的卷积核,但本发明中每一个输入数据都可能蕴含舞蹈情感特征,故采用网络适配数据的方式,将卷积核的形状改为长条形,以适应样本数据。
卷积层通过使用自定义的卷积核大小和数量在输入的情感数据上进行卷积运算,经过卷积层处理,得到和卷积核数量相同的特征映射图。第一卷积层为1*2的一维卷积核、卷积核数18个、卷积核步长为1,第二卷积层为1*2一维卷积核、卷积核数36个、卷积核步长为1;第三卷积层为1*2一维卷积核、卷积核为72个、卷积核步长为1;
池化层通过下采样操作,对卷积层得到的特征映射图进行降维,以减小神经元规模和参数数量,保持网络的平移、旋转、伸缩等不变性;本发明采用最大池化Max_pooling方法降维。第一池化层、第二池化层和第三池化层均为为1*2窗口、步长为2,考虑到过滤器不能将某个方向上的数据刚好处理完,会丢失包含重要特征的数据,因此在池化操作时,对输入数据第二池化层和第三池化层均采用SAME方式填充,即在数据边缘补0,由于卷积是一种线性运算,为加快特征的提取,在每层的卷积层后面添加激励函数作为激励层,激励层主要是增加非线性运算,本发明的激励层使用Relu激活函数。
为减少特征信息的损失,在网络最后采用全连接层进行特征融合;并将全连接层与Softmax层相连,通过Softmax函数对七种不同的舞蹈情感进行分类,输出概率值,实现舞蹈动作情感识别。
如图3所示,LSTM长短期记忆网络包含输入门、遗忘门、输出门。LSTM长短期记忆网络三个输入:当前时刻网络的输入值、上一时刻LSTM的输出值、以及上一时刻的单元状态;两个输出:当前时刻LSTM输出值和当前时刻的单元状态。其中,遗忘门、输入门、输出门一同进行神经元的信息流入,然后经过tanh函数得到LSTM单元的预测值。
步骤3,将步骤2舞蹈情感特征向量输入到LSTM长短时记忆神经网络,再通过全连接层特征融合,并使用BN层对特征数据进行归一化处理,最后将输出数据传入softmax层进行分类,完成舞蹈情感识别。
步骤3.1,更新遗忘门,具体如公式(4):
ft=σ(wf·[ht-1,xt]+bf) (4)
公式(4)中,参数σ为激活函数,参数wf为遗忘门的权值,参数为ht-1神经元上一时刻的输出,参数xt为当前时刻的输入,参数bf为遗忘门的偏移量;
步骤3.2,更新输入门的输出,如公式(5)和(6):
it=σ(wi·[ht-1,xt]+bi) (5)
Figure BDA0002481164810000101
公式(5)中,参数wi为输入门的权值,参数bi为输入门的偏移量;
公式(6)中,参数tanh为激活函数,参数wc为当前输入单元状态对应的权值,参数bc为当前输入单元状态对应的偏移量;
合并公式(5)、公式(6)以及公式(4),更新单元状态,得到公式(7),
Figure BDA0002481164810000102
在公式(7)中,ft为遗忘门的输出值,ct-1上一时刻的单元状态值,it为输入门的输出值,
Figure BDA0002481164810000103
为当前输入的单元状态;
步骤3.3,更新输出门,具体如公式(8)和(9),
ot=σ(wo·[ht-1,xt]+bo) (8)
ht=ot·tanh(ct) (9)
在公式(8)中,参数wo为输出门的权值,参数bo为输出门的偏移量;
公式(9)中,参数ot为上一步输出,ct为更新的单元状态值,参数tanh为激活函数;
步骤3.4,将步骤3.3中的输出包含时间与舞蹈情感数据序列的向量输入到全连接层,进行特征融合,并使用BN层对特征数据进行归一化处理;
由于在通过激活功能之前,如果神经细胞的输出值超出了激活功能本身的适当范围,可能导致神经细胞工作失败。为了解决这个问题,引入批量归一化方法(BatchNormalization,BN),批量归一化方法过程如下:
(1)输入情感数据x1...xm,Β={x1...m};
(2)计算数据均值μB
Figure BDA0002481164810000111
其中,m为数据量,xi表示情感特征数据;
(3)计算数据方差
Figure BDA0002481164810000112
其中μB为(2)的结果,m为数据量,xi表示情感特征数据;
(4)数据进行标准化
Figure BDA0002481164810000113
其中xi清感特征数据,μB为(2)的结果,
Figure BDA0002481164810000114
为(3)的结果,ε为定义的一个极小的精度,用来防止数据计算中的非法操作;
(5)变换重构,训练参数γ,β:
Figure BDA0002481164810000115
其中,
Figure BDA0002481164810000116
为舞蹈特征数据;
(6)输出归一化结果y,返回γ,β。
步骤3.5,将BN层处理后输出数据传入softmax层进行分类,如公式(10),使概率值处于[0,1]之间,得到数据的预测标签值,其中最大的标签值即为分类结果;
Figure BDA0002481164810000121
公式(10)中,yi为归一化得到的输出结果,exp为指数函数。
实施例
一.实验数据
使用塞浦路斯大学采集的带有情感标签的舞蹈动作数据集。实验选择3个人表演的7种带有不同舞蹈情感标签的舞蹈数据集,数据集包含Afraid,Angry,Bored,Excited,Happy,Relaxed,Sad这7种情感标记的舞蹈。在输入网络模型前进行维度变换,每帧共有320个数据,将每帧数据按照2*160的大小进行维度转换,输入神经网络按照每一帧的数据量进行输入。
实验中舞蹈情感数据集共有15250条数据。首先,数据集被划分为13000条训练集和2250条测试集,分别得到训练样本和测试样本,随后对训练样本再进行一次划分,分成70%训练集和30%验证集,即原始数据划分成了3份,分别为:训练集、验证集和测试集,其中训练集用来模型训练,验证集用来调整参数,测试集用来衡量最终模型的好坏。
二.模型训练
(1)CNN模型训练
实验中CNN网络调整的参数主要包括:卷积核大小、学习速率、batchsize。初始设置学习率为0.002,每次的批量样本为100,epoch设为400,CNN初始模型在测试集上的识别率为81.93%。
经试验,当卷积核大小为6时,模型在测试集的准确率较高;当学习率为0.001时,准确率最高;当Batch size为100时,在测试集上的准确率最高。本实验采用的CNN模型的实验参数如表1所示,经过测试,CNN模型在测试集上的识别率达到了91.89%。
表1 CNN模型参数
Figure BDA0002481164810000131
(2)LSTM模型训练
LSTM模型调整的参数主要包括:BN层、神经元个数、学习速率。
LSTM模型将每个窗口数据作为网络的输入,即LSTM的输入是2*160的序列。LSTM层初始设置值为0.5的dropout,设置学习速率为0.0025,batch size为50,epoch为400,基于上述参数,模型在测试集的准确率为85.78%。
经试验,神经元个数为48时准确率最高;当学习速率为0.0015时,模型在测试集上的准确率最高。本实验采用的LSTM模型的实验参数如表2所示,经过测试,LSTM模型在测试集上的识别率达到84.98%。
表2 LSTM模型参数
Figure BDA0002481164810000132
Figure BDA0002481164810000141
(3)CNN-LSTM模型训练
通过分别针对CNN和LSTM模型单独训练,在测试集有较好的识别准确率,但识别性能还有待提高。CNN-LSTM模型结合CNN与LSTM的优点,不仅提取了深层次的特征,还保留了数据在时间上的关系,对于舞蹈情感的特征提取具有很大的优质。
经测试,CNN-LSTM模型在测试集的准确率提高到了94%,表3为CNN-LSTM模型对应的参数值。
表3 CNN-LSTM模型参数
Figure BDA0002481164810000142
三、实验结果
如表4所示,分别为CNN、LSTM、CNN-LSTM模型在测试集上的识别率,可以看出:CNN与CNN-LSTM模型的识别率均在90%以上,均高于LSTM模型的准确率,且CNN-LSTM模型的识别效果好于CNN模型和LSTM模型。
表4不同模型在测试集上的识别率
Figure BDA0002481164810000143
如表5所示,为三种模型在7种不同舞蹈情感下的准确率,可以看出:CNN-LSTM模型对单个舞蹈情感的识别效果略高于CNN模型,且LSTM模型的准确率最低。
表5不同模型在7中舞蹈情感下的准确率
CNN-LSTM CNN LSTM
Afraid 0.98 0.96 0.28
Angry 0.97 0.95 0.34
Bored 1.00 0.99 0.22
Excited 0.97 0.96 0.31
Happy 0.95 0.95 0.31
Relaxed 0.99 0.94 0.22
Sad 0.99 0.94 0.20
average 0.97 0.95 0.26
四、实验结论
本发明舞蹈情感识别方法融合LSTM和CNN两种网络结构,通过实验验证了该方法的有效性。
实验结果表明,对于舞蹈情感的识别,CNN-LSTM模型的准确率最高且为94%,表明对于舞蹈情感的识别应侧重于情感特征数据之间的依赖关系的分析,而不是简单的对特征数据进行判断;对于单个舞蹈情感的识别,CNN-LSTM模型的平均准确率为97%,均高于CNN模型和LSTM模型的准确率。

Claims (5)

1.基于CNN-LSTM的舞蹈情感识别方法,其特征在于,包括以下步骤:
步骤1,基于拉班动作分析方法LMA对舞蹈情感的描述,从舞蹈动作数据集中计算出舞蹈情感数据集;
步骤2,针对步骤1中的舞蹈情感数据集的每一帧数据进行维度转换,转换为2*160的输入维度,输入至三层CNN卷积神经网络中,提取舞蹈情感特征,得到舞蹈情感特征向量;
步骤3,将步骤2舞蹈情感特征向量输入到LSTM长短时记忆神经网络中,并通过全连接层进行特征融合,同时,使用BN层对特征数据进行归一化处理,最后使用softmax层进行分类,完成舞蹈情感识别。
2.根据权利要求1所述的基于CNN-LSTM的舞蹈情感识别方法,其特征在于,所述步骤1具体为:
步骤1.1,使用可穿戴的动作捕捉设备绑定人体关键骨骼部位,并采集若干舞蹈动作数据并保存为BVH动作捕捉文件;
步骤1.2,将步骤1.1中的所述BVH动作捕捉文件的动作捕捉数据区的每一帧数据进行提取,其中,每一帧数据均由人体骨骼节点的世界坐标和欧拉角组成,得到舞蹈动作数据;
步骤1.3,通过肢体结构、空间方位、力效三个参数对舞蹈情感的分析和描述,将步骤1.2的舞蹈动作数据进行情感特征的计算,得到舞蹈情感数据集。
3.根据权利要求2所述的基于CNN-LSTM的舞蹈情感识别方法,其特征在于,所述步骤1.3中:
所述肢体结构以骨骼对距离d为参数描述,相邻节点i和j之间的骨骼对距离具体为:
Figure FDA0002481164800000021
其中节点i的坐标为(xi,yi,zi),节点j的坐标为(xj,yj,zj);
所述空间方位以人体肚脐Hips为中心,竖直方向分为三个区域,水平方向以22.5°为夹角,分为九个区域;
所述力效以骨骼节点加速度a和任一骨骼节点速度v为参数描述,具体为:
Figure FDA0002481164800000022
a=Δv/t (3)
其中,节点i上一时刻的坐标为(xi-1,yi-1,zi-1),每一帧时间为t,Δv为速度增量。
4.根据权利要求3所述的基于CNN-LSTM的舞蹈情感识别方法,其特征在于,所述步骤2中三层CNN卷积神经网络包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层,具体为:
步骤1.1中每一帧数据分别计算的特征值中相对距离有52个,速度有54个,加速度有54个,故每一帧共有320个数据,所述输入层数据大小为2*160;
所述第一卷积层为1*2的一维卷积核、卷积核数18个、卷积核步长为1,第二卷积层为1*2一维卷积核、卷积核数36个、卷积核步长为1;第三卷积层为1*2一维卷积核、卷积核为72个、卷积核步长为1;
所述第一池化层、第二池化层和第三池化层均为1*2窗口、步长为2,且第二池化层和第三池化层均采用SAME方式填充。
5.根据权利要求1所述的基于CNN-LSTM的舞蹈情感识别方法,其特征在于,所述步骤3具体包括:
步骤3.1,更新遗忘门,具体如公式(4):
ft=σ(wf·[ht-1,xt]+bf) (4)
公式(4)中,参数σ为激活函数,参数wf为遗忘门的权值,参数为ht-1神经元上一时刻的输出,参数xt为当前时刻的输入,参数bf为遗忘门的偏移量;
步骤3.2,更新输入门的输出,如公式(5)和(6):
it=σ(wi·[ht-1,xt]+bi) (5)
Figure FDA0002481164800000031
公式(5)中,参数wi为输入门的权值,参数bi为输入门的偏移量;
公式(6)中,参数tanh为激活函数,参数wc为当前输入单元状态对应的权值,参数bc为当前输入单元状态对应的偏移量;
合并公式(5)、公式(6)以及公式(4),更新单元状态,得到公式(7),
Figure FDA0002481164800000032
在公式(7)中,ft为遗忘门的输出值,ct-1上一时刻的单元状态值,it为输入门的输出值,
Figure FDA0002481164800000033
为当前输入的单元状态;
步骤3.3,更新输出门,具体如公式(8)和(9),
ot=σ(wo·[ht-1,xt]+bo) (8)
ht=ot·tanh(ct) (9)
在公式(8)中,参数wo为输出门的权值,参数bo为输出门的偏移量;
公式(9)中,参数ot为上一步输出,ct为更新的单元状态值,参数tanh为激活函数;
步骤3.4,将步骤3.3中的输出包含时间与舞蹈情感数据序列的向量输入到全连接层,进行特征融合,并使用BN层对特征数据进行归一化处理;
步骤3.5,将BN层处理后输出数据传入softmax层进行分类,如公式(10),使概率值处于[0,1]之间,得到数据的预测标签值,其中最大的标签值即为分类结果;
Figure FDA0002481164800000041
公式(10)中,yi为归一化得到的输出结果,exp为指数函数。
CN202010378560.6A 2020-05-07 2020-05-07 基于cnn-lstm的舞蹈情感识别方法 Active CN111709284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010378560.6A CN111709284B (zh) 2020-05-07 2020-05-07 基于cnn-lstm的舞蹈情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010378560.6A CN111709284B (zh) 2020-05-07 2020-05-07 基于cnn-lstm的舞蹈情感识别方法

Publications (2)

Publication Number Publication Date
CN111709284A true CN111709284A (zh) 2020-09-25
CN111709284B CN111709284B (zh) 2023-05-30

Family

ID=72536547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010378560.6A Active CN111709284B (zh) 2020-05-07 2020-05-07 基于cnn-lstm的舞蹈情感识别方法

Country Status (1)

Country Link
CN (1) CN111709284B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989071A (zh) * 2020-12-14 2021-06-18 北京航空航天大学 一种基于人体舞蹈情感的音乐选择方法
CN113345061A (zh) * 2021-08-04 2021-09-03 成都市谛视科技有限公司 动作补全模型的训练方法、装置、补全方法、设备和介质
CN113516005A (zh) * 2021-03-30 2021-10-19 杭州电子科技大学 一种基于深度学习和姿态估计的舞蹈动作评价系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN108202334A (zh) * 2018-03-22 2018-06-26 东华大学 一种能够识别音乐节拍和风格的舞蹈机器人

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN108202334A (zh) * 2018-03-22 2018-06-26 东华大学 一种能够识别音乐节拍和风格的舞蹈机器人

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
卢官明等: "基于长短期记忆和卷积神经网络的语音情感识别", 《南京邮电大学学报(自然科学版)》 *
闫静杰等: "表情和姿态的双模态情感识别", 《中国图象图形学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989071A (zh) * 2020-12-14 2021-06-18 北京航空航天大学 一种基于人体舞蹈情感的音乐选择方法
CN113516005A (zh) * 2021-03-30 2021-10-19 杭州电子科技大学 一种基于深度学习和姿态估计的舞蹈动作评价系统
CN113516005B (zh) * 2021-03-30 2024-02-09 杭州电子科技大学 一种基于深度学习和姿态估计的舞蹈动作评价系统
CN113345061A (zh) * 2021-08-04 2021-09-03 成都市谛视科技有限公司 动作补全模型的训练方法、装置、补全方法、设备和介质

Also Published As

Publication number Publication date
CN111709284B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
ud din Tahir et al. Wearable sensors for activity analysis using SMO-based random forest over smart home and sports datasets
CN108899050B (zh) 基于多模态情绪识别系统的语音信号分析子系统
Neverova et al. Moddrop: adaptive multi-modal gesture recognition
Längkvist et al. A review of unsupervised feature learning and deep learning for time-series modeling
CN108363978B (zh) 采用深度学习和ukf的基于肢体语言的情感感知方法
CN110321833B (zh) 基于卷积神经网络和循环神经网络的人体行为识别方法
CN111709284B (zh) 基于cnn-lstm的舞蹈情感识别方法
CN101751692B (zh) 语音驱动唇形动画的方法
Wang et al. Dance emotion recognition based on laban motion analysis using convolutional neural network and long short-term memory
CN109979161B (zh) 一种基于卷积循环神经网络的人体跌倒检测方法
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
Fang et al. Gait neural network for human-exoskeleton interaction
Araki et al. Online learning of concepts and words using multimodal LDA and hierarchical Pitman-Yor Language Model
Vollmer et al. Learning features for activity recognition with shift-invariant sparse coding
Tsai et al. Spatial temporal variation graph convolutional networks (STV-GCN) for skeleton-based emotional action recognition
CN110575663A (zh) 一种基于人工智能的体育辅助训练方法
CN112151030A (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN113343860A (zh) 一种基于视频图像和语音的双模态融合情感识别方法
Jinliang et al. EEG emotion recognition based on granger causality and capsnet neural network
CN111178288A (zh) 基于局部误差逐层训练的人体姿态识别方法和装置
Sharma et al. Trbaggboost: An ensemble-based transfer learning method applied to Indian Sign Language recognition
CN112418166A (zh) 一种基于多模态信息的情感分布学习方法
Wang et al. A deep learning approach using attention mechanism and transfer learning for electromyographic hand gesture estimation
Shen et al. A high-precision feature extraction network of fatigue speech from air traffic controller radiotelephony based on improved deep learning
Javeed et al. Deep activity recognition based on patterns discovery for healthcare monitoring

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant