CN111414839B

CN111414839B - 基于姿态的情感识别方法及装置

Info

Publication number: CN111414839B
Application number: CN202010183739.6A
Authority: CN
Inventors: 付心仪; 朱雅鑫; 徐迎庆
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2023-05-23
Anticipated expiration: 2040-03-16
Also published as: CN111414839A

Abstract

本发明实施例提供一种基于姿态的情感识别方法及装置，其中方法包括：获取待识别用户的视频；提取所述视频中待识别用户的骨骼点数据，并根据所述骨骼点数据获得待识别用户的姿态特征；将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，输出所述待识别用户的情感信息；其中，所述骨骼点数据为包括双耳和脚尖在内的全身多个关节点的三维坐标；所述情感识别模型以样本用户的姿态特征作为样本，以样本用户的情感信息作为样本标签训练而成。本发明实施例能够更广泛、更准确的体现用户的身体信息，另一方面增加了双耳与脚尖，细化了头部与脚的运动信息。

Description

基于姿态的情感识别方法及装置

技术领域

本发明涉及情感识别技术领域，更具体地，涉及基于姿态的情感识别方法及装置。

背景技术

近些年来，对于情感状态的研究越来越多，人们渴望能够通过一些方法可以去识别个体的情感状态。而人们情感的表达与面部表情、身体姿态、声音等有很大的联系。尽管人们在表达情感时，往往伴随着表情、身体姿态、声音三方面的协调，但对于它们单一模态的识别仍然具有意义。

比如，在分辨愤怒与恐惧或恐惧与快乐时，身体姿态能够比面部表情提供更高的准确率。并且对于同一种情感，身体姿态也可以表达出更多的新信息。结合姿态的研究，也可以提升面部表情对于情感的识别准确率。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的基于姿态的情感识别方法及装置。

第一个方面，本发明实施例提供一种基于姿态的情感识别方法，包括：

获取待识别用户的视频；

提取所述视频中待识别用户的骨骼点数据，并根据所述骨骼点数据获得待识别用户的姿态特征；

将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，输出所述待识别用户的情感信息；

其中，所述骨骼点数据为包括双耳和脚尖在内的全身多个关节点的三维坐标；所述情感识别模型以样本用户的姿态特征作为样本，以样本用户的情感信息作为样本标签训练而成。

进一步地，所述将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，之前还包括构建情感识别模型，具体地：

获取FUS-NN神经网络模型，所述FUS-NN模型包括MAC-NN宏观神经网络与MIC-NN微观神经网络；

使用BGRU层代替MIC-NN微观神经网络中的BLSTM层，在堆叠的BGRU层之间添加Layer-Normalization正规层，以及在最后一层BGRU层之后的全连接层之后增加Dropout丢弃层，获得所述情感识别模型。

所述情感识别模型的训练方法包括：

以样本用户的姿态特征作为样本，以样本用户的情感信息作为样本标签，分别单独训练所述MAC-NN宏观神经网络与MIC-NN微观神经网络；

对训练好的所述MAC-NN宏观神经网络与MIC-NN微观神经网络，以训练所述MAC-NN宏观神经网络与MIC-NN微观神经网络的惩罚验证损失的方式进行联合训练，以获得训练好的情感识别模型。

进一步地，所述姿态特征包括：

空间距离特征，用于描述运动的部位、相互影响的部位以及部位之间的运动顺序；

空间方向特征，用于描述头部与肢体的转动信息；

能量特征，包括速度、加速度与动量中的至少一种；

平滑度特征，用于描述运动轨迹的方向变化程度；

对称性特征，用于描述肢体运动时的对称程度；以及

前后倾斜速率特征。

进一步地，所述将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，之前还包括：

根据所述待识别用户的姿态特征，提取所述视频中的关键帧；

相应的，所述将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，具体为：

将所述关键帧中待识别用户的姿态特征输入至预先训练的情感识别模型中。

对所述待识别用户的姿态特征进行特征降维；

将降维后的姿态特征输入至预先训练的情感识别模型中。

进一步地，所述样本用户的姿态特征和情感信息根据样本用户使用虚拟现实设备体验VR游戏时做出的非表演动作数据获得。

第二个方面，本发明实施例提供一种基于姿态的情感识别装置，包括：

视频获取模块，用于获取待识别用户的视频；

姿态特征提取模块，用于提取所述视频中待识别用户的骨骼点数据，并根据所述骨骼点数据获得待识别用户的姿态特征；

识别模块，用于将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，输出所述待识别用户的情感信息；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的基于姿态的情感识别方法及装置，相比现有技术增加双耳和脚尖在内的全身多个关节点获得姿态特征，一方面全身姿态，而不是上半身姿态能够更广泛、更准确的体现用户的身体信息，另一方面增加了双耳与脚尖，细化了头部与脚的运动信息，进而为更准确识别情感奠定了基础，并且通过机器学习的方式以样本用户的姿态特征作为样本，以样本用户的情感信息作为样本训练情感识别模型，利用训练好的情感识别模型就可以快速地识别情感信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的基于姿态的情感识别方法的流程示意图；

图2为本发明实施例选取的所有骨骼点；

图3为本发明实施例的情感识别模型的结构示意图；

图4为本发明实施例提供的基于姿态的情感识别装置的结构示意图；

图5为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术的上述问题，本发明实施例的发明构思为：相比现有技术增加双耳和脚尖在内的全身多个关节点获得姿态特征，一方面全身姿态，而不是上半身姿态能够更广泛、更准确的体现用户的身体信息，另一方面增加了双耳与脚尖，细化了头部与脚的运动信息，并且通过机器学习的方式以样本用户的姿态特征作为样本，以样本用户的情感信息作为样本训练情感识别模型，利用训练好的情感识别模型就可以快速地识别情感信息。

图1为本发明实施例的基于姿态的情感识别方法的流程示意图，如图1所示，包括：

S101、获取待识别用户的视频。

可以理解的是，本发明实施例获取的视频中记录了待识别用户的运动信息，本发明实施例通过获取待识别用户的视频，能够通过基于姿态的情感识别方法识别出待识别用户的情感信息。

具体地，本发明实施例可以在两台个人电脑(PC)上进行，第一台PC用来进行数据的采集，环境为Window10 x64，处理器(CPU)为Intel i9-9820X@3.3GHz，内存为64GB，显卡为NVIDIA GeForce RTX 2080SUPER，显存为8GB；第二台PC用来进行数据的处理，环境为Window10 x64，处理器(CPU)为两个Intel Xeon Silver 4114@2.2GHz，显卡为两个NVIDIAGeForce 2080Ti TUBRO，显存为8GB，内存为64GB，深度学习环境为Tensorflow 2.0.0；视频采集设备为6台FLIR BFS-PGE-50S5C-C摄像机，装在KOWA LM8HC镜头，6台摄像机面向采集区域，架设高度为2米，虚拟现实设备为1台HTC Vive Cosmos设备。

利用六台摄像机进行视频数据的获取，测试游戏选取了较为刺激与激烈的游戏，分别为Zomday(射击游戏)、Gorn(动作格斗游戏)、Richie's Plank Experience(高空跳楼游戏)。

开始采集时，首先让用户佩戴好VR设备，并打开相应的测试游戏，然后利用多目视频系统对用户进行影像采集，同时在游戏运行的电脑中启动录屏软件和录音软件。数据采集结束后，将获取到用户的动作视频、用户的游戏画面以及用户的声音数据以备后续使用。

S102、提取所述视频中待识别用户的骨骼点数据，并根据所述骨骼点数据获得待识别用户的姿态特征。

本发明实施例的骨骼点数据为包括双耳和脚尖在内的全身多个关节点的三维坐标。需要注意的是，身体姿态数据的部位选择可以分为部分姿态和全身姿态。其中部分姿态针对整个身体的某一部分，将这部分的运动信息作为数据来源，全身姿态是将完整的身体信息作为数据来源。然而只使用身体的部分姿态数据，会遗失很多额外的姿态信息。一个简单的例子就是，只使用上半身姿态数据的模型，将无法分辨人是否是站立或坐立，而一个人站立或坐立时表达的相同动作，会有不同的情感表达。对于全身姿态数据，最为直观的方法是使用人体的骨骼点数据，骨骼点数据可以提取出多个动作特征，有助于情感识别模型的搭建。本发明实施例将使用全身的姿态数据作为数据来源。本发明实施例在在常规的骨骼点的基础上增加了双耳与脚尖，细化了头部与脚的运动模式信息。

图2为本发明实施例选取的所有骨骼点，如图2所示，本发明供选择了19个骨骼点，包括耳——左耳11和右耳10、头5、颈2、肩——左肩7和右肩6、肘——左手肘13和右手肘12、手——左手17和右手16、盆骨1、臂——左臂4和右臂3、膝——左膝9和右膝8、脚踝——左脚踝15和右脚踝14、脚尖——左脚尖18和右脚尖19。

S103、将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，输出所述待识别用户的情感信息。

本发明实施例的情感识别模型以样本用户的姿态特征作为样本，以样本用户的情感信息作为样本标签训练而成，这样通过训练好的情感识别模型，再输入姿态特征后，就可以输出预测的情感信息。

为了建立情感识别模型，需要对采集到的动作数据进行情感类别标注。而数据的标注主要通过两种方式进行，分别为测试者标注和观察者标注。测试者标注的方式，就是通过测试者回忆其之前动作时的情感状态来进行标注。观察者标注则是通过聘用一些观察者，来观察视频资料或其他辅助资料，来对视频中的动作进行情感评判。在大多数情况下，测试者自己去回忆情感状态是不可靠的，因而较为普遍的方式是通过观察者来进行标注。观察者进行标注仍然存有一些缺陷，通过视频数据，很难对情感分类进行准确的标注，需要对原始数据进行后期处理，并通过其他辅助手段，来提升标注的准确性。本发明实施例在进行VR游戏采集数据过程中，不仅通过摄像机记录了用户的动作数据，并对每个用户的游戏画面进行了录屏与录音，可以有效的帮助观察者后期标注数据提升准确性。

本发明实施例输出的情感信息全部来自于样本用户的情感信息，而样本用户的情感信息是通过现有技术对于样本用户的情感进行识别获得的，现有技术对于情感的识别/分类已经有非常明确的方式，比如兴奋、欣喜、开心、镇定、疲劳、难过、不安、紧张等细致的分类，还比如激动、积极、平缓、消极等粗糙的分类，本发明实施例对此不作限定。

本发明实施例相比现有技术增加双耳和脚尖在内的全身多个关节点获得姿态特征，一方面全身姿态，而不是上半身姿态能够更广泛、更准确的体现用户的身体信息，另一方面增加了双耳与脚尖，细化了头部与脚的运动信息，进而为更准确识别情感奠定了基础，并且通过机器学习的方式以样本用户的姿态特征作为样本，以样本用户的情感信息作为样本训练情感识别模型，利用训练好的情感识别模型就可以快速地识别情感信息。

在上述各实施例的基础上，作为一种可选实施例，所述将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，之前还包括构建情感识别模型，具体地：

获取FUS-NN(Fusion neural network)神经网络模型，所述FUS-NN模型包括MAC-NN(Macro neural network)宏观神经网络与MIC-NN(Micro neural network)微观神经网络；

需要说明的是，本发明实施例参考了FUS-NN模型，针对非表演性数据的数量少，特征维度高，特征空间复杂等特点导致的过拟合，进行了一系列的修改，为了在保证模型性能的基础上减少参数个数，简化模型，使用BGRU代替BLSTM。同时在堆叠的BGRU之间添加Layer-Normalization层(也称之为正规层)。通过验证，Layer-Normalization层相比于Batch-Normalization层更适用于时序神经网络，添加Dropout层，进一步加强模型的抗过拟合能力。

图3为本发明实施例的情感识别模型的结构示意图，如图3所示，情感识别模型包括MAC-NN宏观神经网络与MIC-NN微观神经网络，其中，

MAC-NN宏观神经网络包括：第一输入层101、第一全连接层102、第一激活函数层103、第一dropout层104、第二全连接层105、第二激活函数层106、第三全连接层107、第三激活函数层108、第二dropout层109、第四全连接层110；

MIC-NN微观神经网络包括：第二输入层201、第一BGRU层202、正规层203、第二BGRU层204、第五全连接层205、第三dropout层206、第六全连接层207；

情感识别模型还包括：add层301，add层301与第三激活函数层108和第五全连接层205的输出端连接，其中，第三激活函数层108和第五全连接层205分别属于MAC-NN宏观神经网络和MIC-NN微观神经网络的顶层，add层301能够将两个输出端输出的特征进行融合，add层301的输出端与第四dropout层302的输入端连接，第四dropout层302的输出端与第七全连接层303的输入端连接，第七全连接层用于根据融合后的顶层特征和下述实施例的损失函数进行进一步的训练，旨综合两种模型的特征提取能力，得出更好的分类效果。

如表2和表3所示,分别将本发明实施例的情感识别模型(在表中称之为BGRU-FUS-NN)对比了现有技术的4种神经网络模型RNN、BLSTM、BGRU和FUS-NN，在上述八分类与四分类区域划分方式下的分类性能。RNN网络由于其易于梯度消失的缺陷,表现性能都处于垫底。BLSTM与BGRU在RNN基础上有一定程度的提高,但依旧没有达到基本的分类精度需求。FUS-NN相比传统的时序模型有着明显更好分类效果。本发明实施例所设计的BGRU-FUS-NN通过添加LN层,使用GRU替代LSTM等方式有效地针对过拟合等问题作出了优化，在两种分类标准下都拥有最好的平均准确率。

模型	RNN	BLSTM	BGRU	FUS-NN	BGRU-FUS-NN
						准确率	23.71％	37.71％	41.32％	46.39％	51.54％

表2八分类结果对比表

模型	RNN	BLSTM	BGRU	FUS-NN	BGRU-FUS-NN
						准确率	47.72％	55.67％	51.45％	64.94％	72.16％

表3四分类结果对比表

在上述各实施例的基础上，作为一种可选实施例，所述情感识别模型的训练方法包括：

本发明实施例在训练情感识别模型，采用先单独训练再联合训练的方式，能够对类内差异做出有效的约束，增强识别性能。

具体地，以训练所述MAC-NN宏观神经网络与MIC-NN微观神经网络的惩罚验证损失的方式进行联合训练，包括：

将两者的顶层特征按位相加，并根据以下损失函数L_union联合训练模型。联合训练过程中，仅更新输出层以及顶层特征与其前一层之间的权重参数被更新。

其中，L₁为MIC-NN的交叉熵损失，L₂为MAC-NN的交叉熵损失。f₁为MIC-NN的顶层特征，f₂为MAC-NN的顶层特征。其中，本发明实施例MAC-NN的顶层特征为MAC-NN中第三激活函数层的输出，MIC-NN的顶层特征为MIC-NN中第五全连接层的输出。

在上述重新定义了19个人体运动关键点的基础上，本发明实施例在描述姿态特征的过程中加入了高级动态特征与帧序列思想,构造了一个能够更加完善地描述肢体运动的6大类特征，共80个特征。

表1姿态特征表

表1为本发明实施例的姿态特征表，如表1所示，80个特征可以分为6大类：

空间方向特征，用于描述头部与肢体的转动信息；

能量特征，包括速度、加速度与动量中的至少一种；

平滑度特征，用于描述运动轨迹的方向变化程度；

对称性特征，用于描述肢体运动时的对称程度；以及

前后倾斜速率特征。

具体地，空间距离特征主要涵盖了人体的结构和物理特征，通过计算关键点之间的距离，描述哪些身体部位在运动，哪些部位相互连接影响，人体部位之间的运动顺序等。身体以盆骨为重心划分为上下以及左右半身。

特征(f1-f3)、(f5-f7)以头部、脖子与肩膀为参考，分别描述了左右手关键部位与人体中轴线的相对位置变化。特征(f4、f8)通过计算耳朵与肩膀的距离，体现了头部摇摆、转动等运动特征。特征(f9-f10)直接比较左右手臂之间的相对运动变化。

特征(f11，f13)通过计算脚尖与膝盖之间的距离，间接地描述了脚踝的动作，是否踮起或蹲下。特征(f12，f14)分别体现左右脚各自运动距离变化，特征(f15-f16)则为左右脚之间的运动距离变化。

重心/伸展面积特征(f17)，通过计算脖子与地面之间的距离差描述人体是否做出蹲下或者弯腰等动作。特征(f18-f19)通过计算多个关键点构成的面积,从形体上描述了人因情感所做出的不同的姿态,例如垂头丧气，昂首挺胸,蜷缩身体等。

空间方向特征主要用于描述人体头部与身体的朝向，朝向随着时间变化而变化，间接地表达出了头部与肢体的转动信息。为了计算头部朝向，特征(f20-f22)需要用到左耳、右耳、头部三个位置坐标。头部的3D坐标定位在鼻子处，可通过求出左右耳坐标中点与鼻子构成方向向量。特征(f23-f25)表示上半身朝向可由左右肩膀与盆骨构成的平面的法向量决定。

能量特征，肢体运动的能量指标是区分情感的重要因素。能量的主要表现形式有速度、加速度与动量。结合前后2帧与3帧的3D骨骼点信息，可以计算出每一个关键点的速度标量与加速度标量，特征(f26-f63)则代表着身体各部位的速度与加速度。

动量的计算需要结合速度标量与目标质量。考虑到单个关节点质量难以测量，本发明实施例将人体划分为了头部、左手、右手、肢干、左腿、右腿六个部分。根据采集待识别用户的体重，并结合人体各部位质量占比表计算各部分质量。

平滑度特征，用于描述运动轨迹的方向变化程度，引入用于计算运动的平滑度特征，探究手臂运动与情感唤醒等级的关联性。特征(f70-f75)通过计算曲率的倒数,来表示平滑度。运动轨迹的半径越大，曲率越小，平滑度越高。

对称性(f76-f78):人体的自然体态是左右上下对称的，情绪的波动带动身体的运动，也会在对称性上体现出来。本发明实施例仅考虑上半身以关键点脖子为中心，双手分别在x,y,z方向上的对称程度。本发明实施例的用户实验表明,手臂是最能体现人情感丰富程度的部位，多用于抓取，自我保护等反应人意图性的动作。手部的对称性能侧面反应姿态的意识倾向性,或是靠近或是躲避某一侧事物。

特征(f79-f80)代表前后倾斜速率，如果说手最能表现人意图性情感，那么头部和躯干更能反应潜意识的心理倾向。用户实验表明，当用户突然遭遇强烈的情感，如恐惧，惊吓等，头部和躯干的下意识运动将优先于其他任何身体部位。通过计算头部和躯干在深度z轴方向的分量，来代表前后倾斜速率。

在上述各实施例的基础上，作为一种可选实施例，所述将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，之前还包括：

需要说明的是，为了能够对短小且有效的非表演性质肢体动作信息区分出对象情感，本发明实施例还需要根据所述待识别用户的姿态特征，提取所述视频中的关键帧。

常见的，原始视频数据帧率为30帧每秒，假设视频的长度为2秒，则视频共计60帧。区别于人眼对于动作流畅性的要求，模型算法要求输入数据在富含信息量的同时能在结构上尽量地精简。冗余的帧数据不但会降低训练收敛速率，同时会为模型带来了更多的参数，导致过拟合，鲁棒性低等问题。

本发明实施例使用轨迹曲线简化法，该算法基于帧数据中关键点的坐标值，将运动序列表征为3D空间中的轨迹曲线，并使用Lowe算法简化曲线。从连接轨迹起点和终点的线开始，如果曲线上某一点的最大偏差大于一定误差水平，该算法会将其划分为两个子线，误差水平亦可理解为运动显著性。再对子线执行递归操作，直到每个子线的错误率足够小为止。本发明实施例将显著性值大于运动平均显著性的点定义为关键帧。

对所述待识别用户的姿态特征进行特征降维；

将降维后的姿态特征输入至预先训练的情感识别模型中。

本发明实施例考虑到样本数据少但特征维度却过高的问题，采用PCA思想降低特征维度，具体地：

由于输入值情感识别模型中的样本不止一个，且每个样本中的关键帧也不止一个，因此输入的特征向量是一个三维矩阵，特征向量大的小为样本个数*特征个数*时序长度，可选地，特征向量的维度为98*80*40，先对每列特征(共80个特征)进行最大最小值归一化处理，压缩至[0,1]区间。再对经过归一化处理后的结果计算协方差矩阵,通过由大到小排列每一行特征向量(对输入的三维数据进行全局协方差矩阵计算。协方差矩阵奇异值分解后的每一行对应着每一个特征向量。可以理解为原始80维特征的线性组合)的特征值构造出新的维度空间。选取前24个累积贡献率，即为累计特征值占比超过85％的成分特征向量作为最终特征空间维度。每一个特征向量对应着各自的特征值，代表当前新维度的信息贡献率。本发明实施例旨在选取前n个新特征(n<80)，使他们的信息贡献率累计超过85％，舍弃剩余贡献率较少的特征，达到降维的目的。筛选出来的24个新特征为旧80个特征的线性组合，而不是一个从旧特征中筛选可用特征的操作。主要目的在于降低维度，减少模型过拟合风险。

在图3所示的情感识别模型的基础上，本发明实施例的情感识别模型的运算过程可以为：

获取若干个视频，其中每个视频的长度为2秒，每1秒视频为30帧，选取其中的40帧作为关键帧，对每一帧的80维特征进行特征降维获得24维特征；

MIC-NN输入的为m个40*24大小的二维数据，而MAC-NN输入样本的特征为40帧，24个维度上的展开数据，即为40*24＝960的一维数据，因此为m个960大小的一维数据；其中，m代表batch size，一般地，batch size大小为32或者64。

在单独训练时，对于MIC-NN来说，第二输入层201输出的仍然是m个40*24大小的二维数据，第一BGRU层202输入m个40*24大小的二维数据，通过堆叠两层方向相反的GRU模型，充分利用时序数据的上下文关联因素，有效地综合提炼与抽象化输入的时序骨骼特征信息，输出m个40*128大小的二维数据，正规层203对m个40*128大小的二维数据进行层标准化处理，输出的仍然是m个40*128大小的二维数据，第二BGRU层204输入正规层输出的二维数据，输出m个64大小的一维数据；第五全连接层205输入m个64大小的一维数据，输出m个64大小的一维数据；第三dropout层206输入m个64大小的一维数据，通过过随机停用部分神经元，增强了模型的抗过拟合能力，输出m个64大小的一维数据，第六全连接层207输入m个64大小的一维数据，输出m个8大小的一维数据，第六全连接层通过线性组合已提炼的高级微观特征，经过Softmax多分类器，实现最后的8种情感的分类任务。

在单独训练时，第一输入层101输出的仍然是m个960大小的一维数据，第一全连接层102输入m个960大小的一维数据，通过加权线性组合输入特征，从宏观的角度提炼骨骼时序特征，输出m个480大小的一维数据，第一激活函数层103输入m个480大小的一维数据，激活层采用RuLU函数，为模型添加非线性因素，解决线性模型所不能解决的分类问题，增强模型拟合能力，输出m个480大小的一维数据，第一dropout层104输入m个480大小的一维数据，输出m个480大小的一维数据，第二全连接层105输入m个480大小的一维数据，输出m个240大小的一维数据，第二激活函数层106输入m个240大小的一维数据，输出m个240大小的一维数据，第三全连接层107输入m个240大小的一维数据，输出m个64大小的一维数据，第三激活函数层108输入m个64大小的一维数据，输出m个64大小的一维数据，第二dropout层109输入m个64大小的一维数据，输出m个64大小的一维数据，第四全连接层110输入m个64大小的一维数据，输出m个8大小的一维数据。

在联合训练以及训练完成后的实际应用时，add层301与第三激活函数层108和第五全连接层205的输出端连接，将2m个64大小的一维数据，合并为m个64大小的一维数据，第四dropout层302输入m个64大小的一维数据，输出m个64大小的一维数据，第七全连接层303输入m个64大小的一维数据，输出m个8大小的一维数据。

在上述各实施例的基础上，作为一种可选实施例，所述样本用户的姿态特征和情感信息根据用户使用虚拟现实设备体验VR游戏时做出的非表演动作数据获得。

姿态数据的采集有两种方式，分别为表演型动作数据和非表演动作型数据。表演型动作数据就是通过聘用演员来对特定动作进行表演，并将这些表演动作标记为相应的情感标签。非表演动作数据即为测试者自然做出的动作数据。本发明实施例选择使用了可以带来更高沉浸感的VR游戏作为实验环境。

由于情感分类的模糊性，本发明实施例使用了arousal-valence情感模型。为了方便的进行多种分类，观察者们并不是直接对于情感进行分类，而是分别从这两个维度进行量化打分，打分范围均为-5分到+5分。arousal分值越高代表情感越活跃，其中-5代表毫无反应，+5代表疯狂。valence分值越高代表情感越积极，其中-5代表悲痛欲绝，+5代表欣喜若狂。打分完成后，将观察者的打分进行平均加权处理，即可获得valence和arousal的标记结果。

图4为本发明实施例提供的基于姿态的情感识别装置的结构示意图，如图4所示，基于姿态的情感识别装置包括：视频获取模块401、姿态特征提取模块402、识别模块403，具体地：

视频获取模块401，用于获取待识别用户的视频；

姿态特征提取模块402，用于提取所述视频中待识别用户的骨骼点数据，并根据所述骨骼点数据获得待识别用户的姿态特征；

识别模块403，用于将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，输出所述待识别用户的情感信息；

本发明实施例提供的基于姿态的情感识别装置，具体执行上述方法实施例流程，具体请详见上述基于姿态的情感识别方法实施例的内容，在此不再赘述。本发明实施例提供的基于姿态的情感识别装置相比现有技术增加双耳和脚尖在内的全身多个关节点获得姿态特征，一方面全身姿态，而不是上半身姿态能够更广泛、更准确的体现用户的身体信息，另一方面增加了双耳与脚尖，细化了头部与脚的运动信息，进而为更准确识别情感奠定了基础，并且通过机器学习的方式以样本用户的姿态特征作为样本，以样本用户的情感信息作为样本训练情感识别模型，利用训练好的情感识别模型就可以快速地识别情感信息。

本发明实施例采用了两种情感离散化方案进行对比验证。第一种方案基于arousal-valence情感模型，将连续的效价arousal与唤醒valence评估值按区域划分为了8种情感:兴奋、欣喜、开心、镇定、疲劳、难过、不安、紧张。第二种方案分别判断效价与唤醒的正负性，综合两者的分类结果可以理解为基于arousal-valence情感模型四个象限的分类。

图5为本发明实施例提供的电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储在存储器530上并可在处理器510上运行的计算机程序，以执行上述各实施例提供的基于姿态的情感识别方法，例如包括：获取待识别用户的视频；提取所述视频中待识别用户的骨骼点数据，并根据所述骨骼点数据获得待识别用户的姿态特征；将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，输出所述待识别用户的情感信息；其中，所述骨骼点数据为包括双耳和脚尖在内的全身多个关节点的三维坐标；所述情感识别模型以样本用户的姿态特征作为样本，以样本用户的情感信息作为样本标签训练而成。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于姿态的情感识别方法，例如包括：获取待识别用户的视频；提取所述视频中待识别用户的骨骼点数据，并根据所述骨骼点数据获得待识别用户的姿态特征；将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，输出所述待识别用户的情感信息；其中，所述骨骼点数据为包括双耳和脚尖在内的全身多个关节点的三维坐标；所述情感识别模型以样本用户的姿态特征作为样本，以样本用户的情感信息作为样本标签训练而成。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于姿态的情感识别方法，其特征在于，包括：

获取待识别用户的视频；

其中，所述骨骼点数据为包括双耳和脚尖在内的全身多个关节点的三维坐标；所述情感识别模型以样本用户的姿态特征作为样本，以样本用户的情感信息作为样本标签训练而成；

所述将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，之前还包括构建情感识别模型，具体地：

2.根据权利要求1所述的基于姿态的情感识别方法，其特征在于，所述情感识别模型的训练方法包括：

3.根据权利要求1所述的基于姿态的情感识别方法，其特征在于，所述姿态特征包括：

空间方向特征，用于描述头部与肢体的转动信息；

能量特征，包括速度、加速度与动量中的至少一种；

平滑度特征，用于描述运动轨迹的方向变化程度；

对称性特征，用于描述肢体运动时的对称程度；以及

前后倾斜速率特征。

4.根据权利要求1所述的基于姿态的情感识别方法，其特征在于，所述将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，之前还包括：

5.根据权利要求1所述的基于姿态的情感识别方法，其特征在于，所述将所述待识别用户的姿态特征输入至预先训练的情感识别模型中，之前还包括：

对所述待识别用户的姿态特征进行特征降维；

将降维后的姿态特征输入至预先训练的情感识别模型中。

6.根据权利要求1所述的基于姿态的情感识别方法，其特征在于，所述样本用户的姿态特征和情感信息根据样本用户使用虚拟现实设备体验VR游戏时做出的非表演动作数据获得。

7.一种基于姿态的情感识别装置，其特征在于，包括：

视频获取模块，用于获取待识别用户的视频；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于姿态的情感识别方法的步骤。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6中任意一项所述的基于姿态的情感识别方法。