CN114863548A

CN114863548A - 基于人体运动姿态非线性空间特征的情绪识别方法及装置

Info

Publication number: CN114863548A
Application number: CN202210298674.9A
Authority: CN
Inventors: 王韬; 何峰; 明东; 刘爽; 戴维娜; 柯余峰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-08-05
Anticipated expiration: 2042-03-22
Also published as: CN114863548B

Abstract

本发明公开了一种基于人体运动姿态非线性空间特征的情绪识别方法及装置，包括：提取在位置和角度信息上的不同关节之间的相关性，对情绪与运动姿态之间的空间映射关系进行表征；构建一多输入对称正定矩阵网络对非欧式空间结构的多维度位置与角度协方差矩阵进行融合计算，以提取姿态非线性空间特征用于自动情绪识别，所述正定矩阵网络由两个并行的子网络组成，每个子网络由正则化层、双线性映射层和对数平滑层组成；构建改进的随机梯度下降算法，用于对正定矩阵网络进行训练；利用训练后的正定矩阵网络并行处理运动姿态的位置与角度协方差矩阵，并在网络末端使用全连接层对提取得到的两类映射矩阵进行融合优化，以生成更具可分性的融合特征用于情绪识别。

Description

基于人体运动姿态非线性空间特征的情绪识别方法及装置

技术领域

本发明涉及自动情绪识别领域，尤其涉及一种基于人体运动姿态非线性空间特征的情绪识别方法及装置。

背景技术

近年来，对于人体运动姿态的分析是一个比较活跃的研究课题，其应用范围从最初的目标跟踪、动作识别等任务延伸到了自动情绪识别领域。人体的运动姿态承载着大量的信息，其中就包含着人类的情绪和内在认知状态。已有研究表明，人体的运动姿态与情绪之间存在一定的映射关系，例如：人体运动姿态节律在低唤醒度(Arousal)情绪(如悲伤、放松)时较慢，而在高唤醒度情绪(如愉快、愤怒)时较快。此外，配合城市中广泛部署的监控摄像头及三维人体姿态估计等技术，研究者可以在远距离以非侵入的方式采集人体姿态数据，进而可以在户外场景中对人类的情绪进行自动识别。因此人体姿态分析被认为是最有前景的自动情绪识别方法。

已有研究表明，协方差矩阵可编码人体姿态运动时关节之间的空间相关性，已被应用于基于姿态的情绪识别研究中。现有方法一般将姿态序列的非线性嵌入到协方差矩阵中，然后利用矩阵所在空间(例如黎曼流形空间)的几何特性来提取与情绪相关的空间特征。但姿态协方差矩阵所提供的信息是复杂且不确定的，仅依靠手动提取的特征并不能泛化性的表征情绪与运动姿态间的空间映射关系，会严重降低模型的学习能力。相比于手动提取特征的方式，神经网络可以通过端到端优化的方式，使模型自动地学习到情绪与姿态间最优的映射关系，提升模型的预测性能。

然而，将神经网络应用于基于姿态协方差矩阵的情感识别研究仍然存在两个问题。首先，对于输入的姿态协方差矩阵这样非欧式空间结构的数据，传统的基于向量的梯度下降和反向传播算法无法对其进行计算。通常的做法是将非矢量输入转化为矢量，但会导致编码在姿态协方差矩阵中的空间信息丢失。其次，为了提取更全面的姿态空间特征，骨骼关节的位置和角度信息应编码在两种协方差矩阵中，并分别进行分析。这就要求构建一个新的矩阵神经网络，对多维度的位置与角度协方差矩阵进行融合计算，以提取与情绪相关的高阶非线性空间特征。

发明内容

本发明提供了一种基于人体运动姿态非线性空间特征的情绪识别方法及装置，本发明首先利用协方差矩阵对运动姿态三维数据的位置和角度信息进行编码，以表征情绪与运动姿态间的非线性空间映射关系，随后为了利用神经网络来建模分析姿态协方差矩阵这样非欧式空间结构的数据，并同时对多维度的位置与角度协方差矩阵进行融合计算，本发明构建了一个新的多输入对称正定矩阵网络MSPDNet，以提取出高阶非线性空间特征用于情绪自动识别，详见下文描述：

第一方面、一种基于人体运动姿态非线性空间特征的情绪识别方法，所述方法包括：

利用协方差矩阵对三维骨架数据的位置和角度信息进行编码，提取在位置和角度信息上的不同关节之间的相关性，对情绪与运动姿态之间的空间映射关系进行表征；

构建一多输入对称正定矩阵网络对非欧式空间结构的多维度位置与角度协方差矩阵进行融合计算，以提取姿态非线性空间特征用于自动情绪识别，所述正定矩阵网络由两个并行的子网络组成，每个子网络由正则化层、双线性映射层和对数平滑层组成；

构建改进的随机梯度下降算法，用于对正定矩阵网络进行训练；

利用训练后的正定矩阵网络并行处理运动姿态的位置与角度协方差矩阵，并在网络末端使用全连接层对提取得到的两类映射矩阵进行融合优化，以生成更具可分性的融合特征用于情绪识别。

其中，所述在网络末端使用全连接层对提取得到的两类映射矩阵进行融合优化具体为：

对网络执行前向传播，将MSPDNet的两个SPD矩阵输出

和

在全连接层中进行特征融合映射，映射函数定义为

f^t为全连接层的输出结果，F定义了全连接层的映射函数。

结合训练集标签Y和模型的输出预测结果，利用交叉熵计算网络的损失函数，计算过程定义为：Loss＝L(f^t,Y)；

在网络的反向传播过程中，利用得到的损失函数Loss求得全连接层的权重参数ω_f的梯度；

利用求得的ω_f梯度，与预先设置的学习率η_f对全连接层的参数进行更新；

利用得到的损失函数Loss求得处理位置协方差矩阵的子网络中的参数ω_p的梯度；

利用得到的损失函数Loss求得处理角度协方差矩阵的子网络中的参数ω_a的梯度；

利用求得的两个梯度

与预先设置的学习率η_p、η_a，对两个子网络的参数分别进行更新；

令迭代次数t＝t+1；若迭代次数t达到最大迭代次数，输出两个并行子网络的转换矩阵ω_p和ω_a，输出全连接层的权重参数ω_f。

第二方面、一种基于人体运动姿态非线性空间特征的情绪识别装置，所述情绪识别装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、针对传统基于姿态非线性特征的情绪识别研究中使用黎曼流形空间上的几何特性提取得到的底层特征表征能力差，泛化性弱的问题，本发明提出了多输入对称正定矩阵网络MSPDNet对多维输入的姿态位置和角度协方差矩阵进行融合计算；

2、利用神经网络端到端优化的特点，对情绪与运动姿态间的非线性空间映射关系进行提取，有效地提高了基于姿态的情绪识别模型的准确性和泛化性，给实际应用带来便捷，并且可应用于多种工作场景；

3、本发明可有效地提高基于运动姿态的情绪识别的准确性和简便性，具有重要的现实意义与经济效益。

附图说明

图1为一种基于人体运动姿态非线性空间特征的情绪识别方法的流程图；

图2为多输入对称正定矩阵网络(MSPDNet)框架图；

图3为本发明在KDAE数据集上的分类性能的示意图；

图4为本发明在EGBM数据集上的分类性能的示意图；

图5为一种基于人体运动姿态非线性空间特征的情绪识别装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提出了由定义的多输入对称正定矩阵网络(Multiple InputSymmetric Positive Definite matrix network,MSPDNet)对运动姿态数据进行非线性空间特征提取，以实现基于姿态的自动情绪识别的新方法，其技术流程是：

101：利用协方差矩阵对三维骨架数据的位置和角度信息进行编码，提取在位置和角度信息上的不同关节之间的相关性，对情绪与运动姿态之间的空间映射关系进行表征；

102：构建一多输入对称正定矩阵网络对非欧式空间结构的多维度位置与角度协方差矩阵进行融合计算，以提取姿态非线性空间特征用于自动情绪识别；

其中，正定矩阵网络由两个并行的子网络组成，每个子网络由正则化层、双线性映射层和对数平滑层组成。

103：构建改进的随机梯度下降算法，用于对正定矩阵网络进行训练；

104：利用训练后的正定矩阵网络并行处理运动姿态的位置与角度协方差矩阵，并在网络末端使用全连接层对提取得到的两类映射矩阵进行融合优化，以生成更具可分性的融合特征用于情绪识别。

综上所述，本发明实施例通过上述步骤101-步骤104利用神经网络端到端优化的特点，对情绪与运动姿态间的非线性空间映射关系进行提取，有效地提高了基于姿态的情绪识别模型的准确性和泛化性，给实际应用带来便捷，并且可应用于多种工作场景。

实施例2

下面结合图1-图4、计算公式、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

基于人体运动姿态非线性空间特征的自动情绪识别方法流程图如图1所示。首先分别计算姿态三维骨架数据中位置与角度信息的协方差矩阵，然后构建包含两个并行子网络的MSPDNet，对输入的多维度位置与角度协方差矩阵进行非线性特征映射，并通过定义的优化算法将两类特征融合，以提取更具可分性的姿态非线性空间特征用于自动情绪识别。最后在两个公开数据集上采用10折交叉验证的方式评估了模型的性能。

一、姿态协方差矩阵

本发明实施例利用协方差矩阵对运动姿态的三维骨架数据进行编码，以捕获不同关节之间的空间相关性，进而对情绪与运动姿态之间的空间映射关系进行表征。

给定

是一个d维的特征向量，包含了姿态运动时全身关节的三维位置信息，进而将任意一段人体姿态序列表示为

f表示运动姿态序列的总帧数，x_f表示运动姿态第f帧时身体的三维位置信息，

表示d维的向量空间。

则运动姿态序列X的协方差矩阵定义为：

其中，μ是x_f的均值。协方差矩阵C可以编码姿态骨架序列中不同关节之间的相关性，进而表征情绪与姿态之间的非线性空间映射。在本发明实施例中，考虑到每个关节的位置和角度信息在基于运动姿态的情绪识别中的重要性，本发明实施例分别计算了姿态运动时全身关节的三维位置协方差矩阵和角度协方差矩阵，统称为姿态协方差矩阵。

二、多输入对称正定矩阵网络

非奇异的姿态协方差矩阵属于对称正定矩阵(Symmetric Positive Definite，SPD)，其可以构成一个连通的黎曼流形空间

为了利用神经网络来研究姿态协方差矩阵这样非欧式空间结构的数据，且可以同时对多维度的位置与角度协方差矩阵进行融合计算，本发明实施例构建了一个新的多输入对称正定矩阵网络MSPDNet来提取编码在姿态协方差矩阵中的与情绪相关的高阶非线性空间特征。

MSPDNet的整体框架如图2所示，其中C₀和C′₀分别表示运动姿态数据三维位置和角度信息的协方差矩阵。MSPDNet由两个并行的子网络组成，每个子网络由正则化层(Eigenvalue Rectification Layer,ReEig)、双线性映射层(Bilinear Mapping Layers,BiMap)和对数平滑层(Eigenvalue Logarithm Layers,LogEig)组成。在网络的末端，映射得到的SPD矩阵可以经过向量化操作后送入基于欧式空间的传统网络结构中，例如：全连接层(Fully Connected Layer,FC)或卷积层(Convolutional Layer)。

根据公式(1)计算得到姿态协方差矩阵C可能属于对称半正定矩阵(SymmetricPositive Semi-Definite matrices，SPSD)。因此，首先需要在网络的第一层设计ReEig层来正则化协方差矩阵，以保证其具有正定性。此外，为了确保经过BiMap层的映射矩阵仍然位于SPD空间中，并在网络中引入非线性运算以提高识别性能，本发明实施例在每个BiMap层之后都设置了ReEig层。

其中，ReEig层的定义如下：

式中，C_r,n是ReEig层输出的SPD矩阵，U_n-1表示第n层中输入矩阵C_n-1经特征分解后得到的特征向量组成的正交矩阵，Λ_n-1是实对角矩阵，其对角线上的元素Λ(i,i)是C_n-1经特征分解后得到的特征值，I是单位矩阵，f_r为ReEig层的运算函数。

其中，Max(εI,Λ_n-1)的定义如下：

式中，ε为正则项阈值，其可以代替原姿态协方差矩阵中的零特征值或较小特征值，从而使得到的新矩阵E(i,i)的所有特征值均大于0，保证其正定性。

其中，BiMap层是MSPDNet的核心结构，可将输入的SPD矩阵映射到判别性更强的新的矩阵空间中，此过程无需对矩阵进行向量化操作，故可以最大限度的保留原始SPD矩阵中包含的几何信息。BiMap层的定义如下：

式中，

是大小为d_n-1×d_n-1的输入矩阵，

是双线性映射转换矩阵，T为转置，f_b为BiMap层的运算函数，C_b,n为BiMap层的输出矩阵。

此外，本发明实施例还通过改变双线性映射矩阵的维数来降低模型运算的复杂度，故要求

且d_n<d_n-1，这样便可在每个BiMap层后对输入矩阵进行降维操作。转换矩阵W_n将在后续网络的反向传播和参数优化中不断更新参数，以达到最佳的映射效果。而

为双线性映射后的输出矩阵，

为d_n×d_n维的黎曼流形空间。可以发现，输入协方差矩阵在通过BiMap层后，原始矩阵被投射到新的SPD空间中，且无需经过矩阵的向量化，最大程度保留了矩阵中包含的姿态空间信息。

经过BiMap层与ReEig层后，原始姿态协方差矩阵被映射到新的SPD空间中，但此时的矩阵并不一定分布在一个“平坦”的流形空间上。LogEig层的操作，可类比于欧式空间中的对数平滑操作，其目的是赋予SPD空间中的元素一个李群结构，从而优化矩阵分布使其处于更为“平坦”的流形空间中，以便其顺利进行之后的向量化操作。LogEig层定义如下：

其中，Q_n-1和A_n-1分别表示输入矩阵C_n-1的特征向量和特征值组成的矩阵，log(A_n-1)表示对矩阵对角线上的元素进行对数运算，C_l,n为LogEig层的输出矩阵，f_l表示LogEig层的运算函数。

三、MSPDNet反向传播机制

训练深度网络通常使用随机梯度下降(Stochastic Gradient Descent,SGD)算法。一个经典的SGD算法的关键操作是计算目标函数的梯度，该梯度通过应用反向传播的链式法则获取。对于MSPDNet中第n层的双线性映射转换矩阵W_n和上一层的输出矩阵C_n-1，其梯度定义为：

其中，L⁽ⁿ⁺¹⁾(C_n,y)为第n+1层的损失函数。

然而，在MSPDNet参数优化的过程中，传统的基于欧式空间的反向传播算法已经无法满足转换矩阵W的求解要求，故对其梯度进行如下定义：

式中，

为转换矩阵W的梯度，

是欧式空间中转换矩阵W第n层的第t次更新结果，其计算公式如下：

式中的

是

的简写。因此W在第n层的第t+1次更新中，其计算公式如下：

式中，Γ(·)表示拓扑学中的retraction(收缩映射)操作，λ是学习率。因为在梯度变化接近于0时，

应无限接近于

最终使得公式(10)中得到

也即：

此时W需满足

I为单位矩阵。

四、MSPDNet融合优化算法及分类模型构建

为了全面的分析情绪与身体姿态间的复杂映射关系，本发明实施例利用MSPDNet并行处理运动姿态的位置与角度协方差矩阵，并在网络末端使用全连接层对提取得到的两类映射矩阵进行融合优化，以生成更具可分性的融合特征用于情绪识别。经过全连接层得到的融合特征将被送入softmax层进行最终的情绪识别，分类模型的整体框图如图1所示。MSPDNet对位置与角度协方差矩阵的融合优化算法定义如下：

Step1：初始化MSPDNet两个并行子网络中对于位置协方差矩阵和角度协方差矩阵进行双线性映射的转换矩阵ω_p和ω_a；初始化全连接层的权重参数ω_f；初始化参数ω_p、ω_a和ω_f的学习率分别为：η_p、η_a和η_f；初始化迭代次数t＝1。

Step2：设置融合优化算法的结束条件(最大迭代次数maxiter)。

Step3：将由训练集中三维姿态骨架数据计算得到的位置协方差矩阵C_p和角度协方差矩阵C_a输入MSPDNet中，此外，将训练集标签Y输入网络。

Step4：对网络执行前向传播，其在第t次迭代运算中对C_p进行的特征映射定义为

对C_a进行的特征映射定义为

S_p为MSPDNet对位置协方差矩阵的运算函数，S_a为MSPDNet对角度协方差矩阵运算函数。

Step5：将MSPDNet的两个SPD矩阵输出

和

在全连接层中进行特征融合映射，其映射函数定义为

f^t为全连接层的输出结果，F定义了全连接层的映射函数。

Step6：结合训练集标签Y和模型的输出预测结果，利用交叉熵(cross entropy)计算网络的损失函数，其计算过程定义为：Loss＝L(f^t,Y)。

Step7：在网络的反向传播过程中，首先利用得到的损失函数Loss求得全连接层的权重参数ω_f的梯度为：

Step8：利用求得的ω_f梯度，与预先设置的学习率η_f对全连接层的参数进行如下更新：

Step9：然后继续利用得到的损失函数Loss求得处理位置协方差矩阵的子网络中的参数ω_p的梯度为：

Step10：利用得到的损失函数Loss求得处理角度协方差矩阵的子网络中的参数ω_a的梯度为：

Step11：利用求得的两个梯度

与预先设置的学习率η_p、η_a，对两个子网络的参数分别进行如下更新：

Step12：令迭代次数t＝t+1；

Step13：判断此时的迭代次数t是否达到最大迭代次数maxiter，若未达到则转Step4，否则转Step14；

Step14：输出MSPDNet两个并行子网络的转换矩阵ω_p和ω_a，输出全连接层的权重参数ω_f；

Step15：满足结束条件，MSPDNet融合优化算法结束。

上述MSPDNet融合优化算法是矩阵神经网络的训练优化过程，可利用训练集数据训练模型，使模型学习到情绪与运动姿态间的非线性空间映射关系，即网络中每层的映射参数。

综上所述，本发明实施例通过上述几部分之间的相互配合，充分利用神经网络端到端优化的特点，对情绪与运动姿态间的非线性空间映射关系进行提取，有效地提高了基于姿态的情绪识别模型的准确性和泛化性，给实际应用带来便捷，并且可应用于多种工作场景。

实施例3

针对现有方法，在运动姿态的非线性空间特征提取与姿态协方差矩阵建模方面存在的缺陷和问题，本发明实施例采用协方差矩阵编码姿态运动数据，并提出了多输入对称正定矩阵网络MSPDNet对多维度的姿态位置和角度协方差矩阵进行融合计算，充分利用神经网络的优势，对情绪与运动姿态之间的空间映射关系进行非线性特征提取。通过端到端的方式将输入的多维度姿态协方差矩阵投射到更为可分且平坦的流形空间中，不仅优化了其空间分布，且更加充分地利用了矩阵的数值信息。通过网络的融合优化算法使模型自主学习到最优的映射，极大提高了情绪识别模型的泛化性。

本发明实施例在两个开源的情绪姿态数据集中采用10折交叉验证的方式评估了模型的性能。两个数据集KDAE(The Kinematic Dataset of Actors ExpressingEmotions)和EGBM(The Emotional Gestures and Body Movements Corpora)分别使用了不同的采集设备，且参与者来自不同的国家，两者都包含了7种情绪。结合图3与图4的情绪分类混淆矩阵可以看出，本发明实施例在两个数据集上均得到了良好的结果，这表明本发明实施例所提出的方法在基于运动姿态的自动情绪识别中具有良好的优越性和泛化性。

本发明实施例旨在提出一种基于人体运动姿态非线性空间特征的自动情绪识别方法，利用协方差矩阵对三维姿态数据的位置和角度信息进行编码，将情绪与姿态间的非线性特性嵌入到协方差矩阵中，随后采用MSPDNet对多维度的位置与角度协方差矩阵进行融合计算，利用神经网络端到端的优化方式，使模型自动地提取到情绪与姿态间的高阶非线性空间映射关系，从而进行准确、客观的自动情绪识别。

该项发明可有效地提高自动情绪识别的准确性与简便性，并获得可观的社会效益和经济效益。最佳实施方案拟采用专利转让、技术合作或产品开发。基于该技术开发的产品可与三维人体姿态估计等技术相结合，应用于人机交互等领域，可显著提高人机交互的智能性、改善用户体验、提升交互效率。

实施例4

一种基于人体运动姿态非线性空间特征的情绪识别装置，参见图4，该情绪识别装置包括：处理器1和存储器2，所述存储器2中存储有程序指令，所述处理器1调用存储器2中存储的程序指令以使装置执行以下的方法步骤：

构建一多输入对称正定矩阵网络对非欧式空间结构的多维度位置与角度协方差矩阵进行融合计算，以提取姿态非线性空间特征用于自动情绪识别，正定矩阵网络由两个并行的子网络组成，每个子网络由正则化层、双线性映射层和对数平滑层组成；

其中，在网络末端使用全连接层对提取得到的两类映射矩阵进行融合优化具体为：

对网络执行前向传播，将MSPDNet的两个SPD矩阵输出

和

在全连接层中进行特征融合映射，映射函数定义为

f^t为全连接层的输出结果，F定义了全连接层的映射函数。

利用求得的两个梯度

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。