CN111709284A

CN111709284A - 基于cnn-lstm的舞蹈情感识别方法

Info

Publication number: CN111709284A
Application number: CN202010378560.6A
Authority: CN
Inventors: 李军怀; 王思敏; 曹霆; 王怀军
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-09-25
Anticipated expiration: 2040-05-07
Also published as: CN111709284B

Abstract

本发明公开的基于CNN‑LSTM的舞蹈情感识别方法，通过获得舞蹈情感数据集；针对舞蹈情感数据集的每一帧数据进行维度转换，变为2*160的输入维度至卷积神经网络，进行舞蹈情感特征的提取，并得到舞蹈情感特征向量；将舞蹈情感特征向量输入到长短时记忆神经网络，通过全连接层特征融合，使用BN层对特征数据进行归一化处理，最后将输出数据传入softmax层分类，完成舞蹈情感识别。本发明舞蹈情感识别方法，从肢体结构、空间方位、力效三个方面对舞蹈情感特征参数进行分析和描述，同时使用CNN‑LSTM混合深度学习模型对舞蹈情感数据进行训练，提取舞蹈情感特征，实现舞蹈情感识别，获得了较高的识别效率。

Description

基于CNN-LSTM的舞蹈情感识别方法

技术领域

本发明属于舞蹈情感识别技术领域，具体涉及一种基于CNN-LSTM的舞蹈情感识别方法。

背景技术

近年来，情感识别逐渐成为人机交互领域的重要研究方向。情感识别是利用计算机分析各种情感信息，提取出描述情感的特征值，建立特征值与情感的映射关系，然后对情感进行分类，从而推断出情感状态的过程。目前，情感识别主要应用于语音情感、面部表情、脑电波、视听情感等方面，在舞蹈情感识别中应用较少。

舞蹈动作是舞蹈情感的外在表达形式，舞蹈动作的情感体现在舞者的肢体语言和运动形式上，因此不同的舞蹈动作表达出的舞蹈情感不同，如双臂大幅度地向上挥舞表达出愉悦、欢快的情感；肢体缓慢向下弯曲通常表达出犹豫、消极的情感。

针对舞蹈动作难以描述、分析的问题，拉班动作分析(LMA)方法提供了良好的解决思路。LMA方法借鉴了鲁道夫·拉班(Rudolph Laban)的理论，可以描述、解释、记录人体动作，是分析人体动作最常用的语言之一。在肢体动作识别以及情感识别领域，LMA方法被广泛应用。因此，本文利用LMA方法对舞蹈动作进行分析，从舞蹈动作数据中提取出舞蹈情感信息。

情感识别在面部、语音和生理信号等方面被广泛研究。在面部情感识别中，当面部表情变化比较微妙时，很难准确判断出所要表达的情感。此外，面部和语音信息并不总能够准确表达出人类真实的情感状态。随着生理信号在情感识别中的广泛研究，其主要通过对脑电波信号进行分析，获得最真实的情感状态，可以弥补在面部和语音方面对情感识别的缺点，但是通过脑电波信号进行情感识别具有局限性，不能方便地应用于人类日常生活中。

通过研究分析戏剧中的手势动作与情感之间的关系，验证了动作和情感之间的相关性。因此，基于动作与情感的关系，通过分析舞蹈动作来识别舞蹈情感。

为了科学地分析舞蹈动作，Laban提出一种描述舞蹈动作的方法，即拉班动作分析(LMA)方法。目前，LMA方法作为对肢体动作的描述方法被广泛应用于情感识别中，如AjiliI从拉班动作分析方法出发，提出一种新的人体动作描述向量，识别视频图像上人的表情和动作，基于LMA研究了人体运动与情感之间的关系，结果表明LMA特征与情感之间存在良好的相关性。Aristidou和Chrysanthou利用各种LMA特征对不同情感的舞蹈表演进行分类，并分析了这些特征在具有不同情感的运动中的变化情况，发现在不同情感状态间存在着不同的运动相似性。采用拉班力效特征作为神经网络的输入，建立著名的Russell Circumplex模型，实现连续人体情感识别。

在情感识别中，常见的传统算法主要为回归分析、支持向量机SVM、K-means、Apriori算法等，这些算法能实现快速的数据处理和结果输出，但在处理海量数据时并不能发挥良好的识别作用。随着人工智能在不同领域的应用和发展，深度神经网络被引入到情感识别领域，为处理大量的情感数据以及提高情感识别的准确率提供了新的解决思路。B.Zhang等将卷积神经网络(CNN)应用于图像识别和语音情感识别中。实验结果表明，在图像识别中，CNN的准确率为95.5％；在语音情感识别中，CNN准确率为97.6％。C.Cheng为了对脑电波信号进行情感识别，提出一种基于卷积神经网络的情感识别算法。实验结果表明，该网络对两类情感识别的准确率达到83.45％(最高准确率为98.8％)；对三类情感识别的最高准确率为68.8％。

发明内容

本发明的目的是提供一种基于CNN-LSTM的舞蹈情感识别方法，解决了现有舞蹈情感问题识别方法，舞蹈情感识别准确率效率低下的问题。

本发明所采用的技术方案是，基于CNN-LSTM的舞蹈情感识别方法，包括以下步骤：

步骤1，基于拉班动作分析方法LMA对舞蹈情感的描述，从舞蹈动作数据集中计算出舞蹈情感数据集；

步骤2，针对步骤1中的舞蹈情感数据集的每一帧数据进行维度转换，转换为2*160的输入维度，输入至三层CNN卷积神经网络中，提取舞蹈情感特征，得到舞蹈情感特征向量；

步骤3，将步骤2舞蹈情感特征向量输入到LSTM长短时记忆神经网络中，并通过全连接层进行特征融合，同时，使用BN层对特征数据进行归一化处理，最后使用softmax层进行分类，完成舞蹈情感识别。

本发明的特征还在于，

步骤1具体为：

步骤1.1，使用可穿戴的动作捕捉设备绑定人体关键骨骼部位，并采集若干舞蹈动作数据并保存为BVH动作捕捉文件；

步骤1.2，将步骤1.1中的所述BVH动作捕捉文件的动作捕捉数据区的每一帧数据进行提取，其中，每一帧数据均由人体骨骼节点的世界坐标和欧拉角组成，得到舞蹈动作数据；

步骤1.3，通过肢体结构、空间方位、力效三个参数对舞蹈情感的分析和描述，将步骤1.2的舞蹈动作数据进行情感特征的计算，得到舞蹈情感数据集。

步骤1.3中：

肢体结构以骨骼对距离d为参数描述，相邻节点i和j之间的骨骼对距离具体为：

其中节点i的坐标为(x_i,y_i,z_i)，节点j的坐标为(x_j,y_j,z_j)；

空间方位以人体肚脐Hips为中心，竖直方向分为三个区域，水平方向以22.5°为夹角，分为九个区域；

力效以骨骼节点加速度a和任一骨骼节点速度v为参数描述，具体为：

a＝Δv/t (3)

其中，节点i上一时刻的坐标为(x_i-1,y_i-1,z_i-1)，每一帧时间为t，Δv为速度增量。

步骤2中三层CNN卷积神经网络包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层，具体为：

步骤1.1中每一帧数据分别计算的特征值中相对距离有52个，速度有54个，加速度有54个，故每一帧共有320个数据，输入层数据大小为2*160；

第一卷积层为1*2的一维卷积核、卷积核数18个、卷积核步长为1，第二卷积层为1*2一维卷积核、卷积核数36个、卷积核步长为1；第三卷积层为1*2一维卷积核、卷积核为72个、卷积核步长为1；

第一池化层、第二池化层和第三池化层均为1*2窗口、步长为2，且第二池化层和第三池化层均采用SAME方式填充。

步骤3具体包括：

步骤3.1，更新遗忘门，具体如公式(4)：

f_t＝σ(w_f·[h_t-1,x_t]+b_f) (4)

公式(4)中，参数σ为激活函数，参数w_f为遗忘门的权值，参数为h_t-1神经元上一时刻的输出，参数x_t为当前时刻的输入，参数b_f为遗忘门的偏移量；

步骤3.2，更新输入门的输出，如公式(5)和(6)：

i_t＝σ(w_i·[h_t-1,x_t]+b_i) (5)

公式(5)中，参数w_i为输入门的权值，参数b_i为输入门的偏移量；

公式(6)中，参数tanh为激活函数，参数w_c为当前输入单元状态对应的权值，参数b_c为当前输入单元状态对应的偏移量；

合并公式(5)、公式(6)以及公式(4)，更新单元状态，得到公式(7)，

在公式(7)中，f_t为遗忘门的输出值，c_t-1上一时刻的单元状态值，i_t为输入门的输出值，

为当前输入的单元状态；

步骤3.3，更新输出门，具体如公式(8)和(9)，

o_t＝σ(w_o·[h_t-1,x_t]+b_o) (8)

h_t＝o_t·tanh(c_t) (9)

在公式(8)中，参数w_o为输出门的权值，参数b_o为输出门的偏移量；

公式(9)中，参数o_t为上一步输出，c_t为更新的单元状态值，参数tanh为激活函数；

步骤3.4，将步骤3.3中的输出包含时间与舞蹈情感数据序列的向量输入到全连接层，进行特征融合，并使用BN层对特征数据进行归一化处理；

步骤3.5，将BN层处理后输出数据传入softmax层进行分类，如公式(10)，使概率值处于[0，1]之间，得到数据的预测标签值，其中最大的标签值即为分类结果；

公式(10)中，y_i为归一化得到的输出结果，exp为指数函数。

本发明的有益效果是：本发明基于CNN-LSTM的舞蹈情感识别方法，从舞蹈动作数据中提取出特征来表达舞蹈情感，并从肢体结构、空间方位、力效三个方面对特征参数进行描述，同时使用使用CNN-LSTM混合深度学习模型对舞蹈情感数据进行训练，提取舞蹈情感特征，实现舞蹈情感识别，获得了较高的识别效率，有很好的使用价值。

附图说明

图1是本发明基于CNN-LSTM的舞蹈情感识别方法中空间方位分布示意图，其中，图1(a)为空间方位竖直方向的示意图，图1(b)为空间方位水平方向的示意图；

图2是本发明基于CNN-LSTM的舞蹈情感识别方法中，CNN卷积神经网络的示意图；

图3是本发明基于CNN-LSTM的舞蹈情感识别方法中，长短期记忆网络的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于CNN-LSTM的舞蹈情感识别方法，包括以下步骤：

BVH动作捕捉文件包含两部分：人体骨架层级结构和运动捕捉数据区。

人体骨架层级结构以人体主要关节部位为节点的树形结构，每个骨骼节点定义在一对“{}”内，在该定义中，树的根节点一般取人体中心部位的脐部Hips；人体树结构通常还包含多个叶节点，分别表示四肢和头部这五个人体结构主要分支的末端。

运动捕捉数据区分为三部分：数据帧数、采样时间间隔和数据块。数据帧数表示当前BVH动作捕捉文件中舞蹈的总帧数；采样时间间隔是指舞蹈中每一帧舞蹈动作的时间间隔，数据帧数与采样间隔的乘积即为捕捉的人体运动的时间长度，单位为秒；数据块的每一行表示一帧数据，由所有骨骼节点的世界坐标和欧拉角组成，用来描述在该运动捕捉时刻人体的舞蹈动作姿态。

肢体结构以骨骼对距离d为参数描述，相邻节点i和j之间的骨骼对距离具体为公式(1)：

其中节点i的坐标为(x_i,y_i,z_i)，节点j的坐标为(x_j,y_j,z_j)；

空间方位以人体肚脐Hips为中心，如图1(a)所示，竖直方向分为High、Mid、Low三个区域；如图1(b)所示，水平方向以22.5°为夹角，分为九个区域，具体为forward、rightforward、right、right back、backward、left back、left、left forward等；

力效以骨骼节点加速度a和任一骨骼节点速度v为参数描述，具体为公式(2)和公式(3)：

a＝Δv/t (3)

本发明针对BVH动作捕捉文件数据块中的每一帧的世界坐标和欧拉角数据分别计算肢体间的相对距离、肢体关节点的速度和加速度，获得表达舞蹈情感的数据集。其中，本发明对每一帧世界坐标和欧拉角分别计算的特征值中相对距离有52个数据，速度有54个数据，加速度有54个数据，因此，每一帧共有320个数据。

如图2所示，三层CNN卷积神经网络包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层。

所述输入层数据大小为2*160；由于一般的卷积层多采用N*N大小的卷积核，但本发明中每一个输入数据都可能蕴含舞蹈情感特征，故采用网络适配数据的方式，将卷积核的形状改为长条形，以适应样本数据。

卷积层通过使用自定义的卷积核大小和数量在输入的情感数据上进行卷积运算，经过卷积层处理，得到和卷积核数量相同的特征映射图。第一卷积层为1*2的一维卷积核、卷积核数18个、卷积核步长为1，第二卷积层为1*2一维卷积核、卷积核数36个、卷积核步长为1；第三卷积层为1*2一维卷积核、卷积核为72个、卷积核步长为1；

池化层通过下采样操作，对卷积层得到的特征映射图进行降维，以减小神经元规模和参数数量，保持网络的平移、旋转、伸缩等不变性；本发明采用最大池化Max_pooling方法降维。第一池化层、第二池化层和第三池化层均为为1*2窗口、步长为2，考虑到过滤器不能将某个方向上的数据刚好处理完，会丢失包含重要特征的数据，因此在池化操作时，对输入数据第二池化层和第三池化层均采用SAME方式填充，即在数据边缘补0，由于卷积是一种线性运算，为加快特征的提取，在每层的卷积层后面添加激励函数作为激励层，激励层主要是增加非线性运算，本发明的激励层使用Relu激活函数。

为减少特征信息的损失，在网络最后采用全连接层进行特征融合；并将全连接层与Softmax层相连，通过Softmax函数对七种不同的舞蹈情感进行分类，输出概率值，实现舞蹈动作情感识别。

如图3所示，LSTM长短期记忆网络包含输入门、遗忘门、输出门。LSTM长短期记忆网络三个输入：当前时刻网络的输入值、上一时刻LSTM的输出值、以及上一时刻的单元状态；两个输出：当前时刻LSTM输出值和当前时刻的单元状态。其中，遗忘门、输入门、输出门一同进行神经元的信息流入，然后经过tanh函数得到LSTM单元的预测值。

步骤3，将步骤2舞蹈情感特征向量输入到LSTM长短时记忆神经网络，再通过全连接层特征融合，并使用BN层对特征数据进行归一化处理，最后将输出数据传入softmax层进行分类，完成舞蹈情感识别。

步骤3.1，更新遗忘门，具体如公式(4)：

f_t＝σ(w_f·[h_t-1,x_t]+b_f) (4)

步骤3.2，更新输入门的输出，如公式(5)和(6)：

i_t＝σ(w_i·[h_t-1,x_t]+b_i) (5)

为当前输入的单元状态；

步骤3.3，更新输出门，具体如公式(8)和(9)，

o_t＝σ(w_o·[h_t-1,x_t]+b_o) (8)

h_t＝o_t·tanh(c_t) (9)

由于在通过激活功能之前，如果神经细胞的输出值超出了激活功能本身的适当范围，可能导致神经细胞工作失败。为了解决这个问题，引入批量归一化方法(BatchNormalization，BN)，批量归一化方法过程如下：

(1)输入情感数据x₁...x_m，Β＝{x_1...m}；

(2)计算数据均值μ_B：

其中，m为数据量，x_i表示情感特征数据；

(3)计算数据方差

其中μ_B为(2)的结果，m为数据量，x_i表示情感特征数据；

(4)数据进行标准化

其中x_i清感特征数据，μ_B为(2)的结果，

为(3)的结果，ε为定义的一个极小的精度，用来防止数据计算中的非法操作；

(5)变换重构，训练参数γ，β：

其中，

为舞蹈特征数据；

(6)输出归一化结果y，返回γ，β。

公式(10)中，y_i为归一化得到的输出结果，exp为指数函数。

实施例

一.实验数据

使用塞浦路斯大学采集的带有情感标签的舞蹈动作数据集。实验选择3个人表演的7种带有不同舞蹈情感标签的舞蹈数据集，数据集包含Afraid，Angry，Bored，Excited，Happy，Relaxed，Sad这7种情感标记的舞蹈。在输入网络模型前进行维度变换，每帧共有320个数据，将每帧数据按照2*160的大小进行维度转换，输入神经网络按照每一帧的数据量进行输入。

实验中舞蹈情感数据集共有15250条数据。首先，数据集被划分为13000条训练集和2250条测试集，分别得到训练样本和测试样本，随后对训练样本再进行一次划分，分成70％训练集和30％验证集，即原始数据划分成了3份，分别为：训练集、验证集和测试集，其中训练集用来模型训练，验证集用来调整参数，测试集用来衡量最终模型的好坏。

二.模型训练

(1)CNN模型训练

实验中CNN网络调整的参数主要包括：卷积核大小、学习速率、batchsize。初始设置学习率为0.002，每次的批量样本为100，epoch设为400，CNN初始模型在测试集上的识别率为81.93％。

经试验，当卷积核大小为6时，模型在测试集的准确率较高；当学习率为0.001时，准确率最高；当Batch size为100时，在测试集上的准确率最高。本实验采用的CNN模型的实验参数如表1所示，经过测试，CNN模型在测试集上的识别率达到了91.89％。

表1 CNN模型参数

(2)LSTM模型训练

LSTM模型调整的参数主要包括：BN层、神经元个数、学习速率。

LSTM模型将每个窗口数据作为网络的输入，即LSTM的输入是2*160的序列。LSTM层初始设置值为0.5的dropout，设置学习速率为0.0025，batch size为50，epoch为400，基于上述参数，模型在测试集的准确率为85.78％。

经试验，神经元个数为48时准确率最高；当学习速率为0.0015时，模型在测试集上的准确率最高。本实验采用的LSTM模型的实验参数如表2所示，经过测试，LSTM模型在测试集上的识别率达到84.98％。

表2 LSTM模型参数

(3)CNN-LSTM模型训练

通过分别针对CNN和LSTM模型单独训练，在测试集有较好的识别准确率，但识别性能还有待提高。CNN-LSTM模型结合CNN与LSTM的优点，不仅提取了深层次的特征，还保留了数据在时间上的关系，对于舞蹈情感的特征提取具有很大的优质。

经测试，CNN-LSTM模型在测试集的准确率提高到了94％，表3为CNN-LSTM模型对应的参数值。

表3 CNN-LSTM模型参数

三、实验结果

如表4所示，分别为CNN、LSTM、CNN-LSTM模型在测试集上的识别率，可以看出：CNN与CNN-LSTM模型的识别率均在90％以上，均高于LSTM模型的准确率，且CNN-LSTM模型的识别效果好于CNN模型和LSTM模型。

表4不同模型在测试集上的识别率

如表5所示，为三种模型在7种不同舞蹈情感下的准确率，可以看出：CNN-LSTM模型对单个舞蹈情感的识别效果略高于CNN模型，且LSTM模型的准确率最低。

表5不同模型在7中舞蹈情感下的准确率

	CNN-LSTM	CNN	LSTM
				Afraid	0.98	0.96	0.28
Angry	0.97	0.95	0.34
				Bored	1.00	0.99	0.22
Excited	0.97	0.96	0.31
				Happy	0.95	0.95	0.31
Relaxed	0.99	0.94	0.22
				Sad	0.99	0.94	0.20
average	0.97	0.95	0.26

四、实验结论

本发明舞蹈情感识别方法融合LSTM和CNN两种网络结构，通过实验验证了该方法的有效性。

实验结果表明，对于舞蹈情感的识别，CNN-LSTM模型的准确率最高且为94％，表明对于舞蹈情感的识别应侧重于情感特征数据之间的依赖关系的分析，而不是简单的对特征数据进行判断；对于单个舞蹈情感的识别，CNN-LSTM模型的平均准确率为97％，均高于CNN模型和LSTM模型的准确率。