CN108363978A

CN108363978A - 采用深度学习和ukf的基于肢体语言的情感感知方法

Info

Publication number: CN108363978A
Application number: CN201810144385.7A
Authority: CN
Inventors: 杜广龙; 张爱玲; 张博; 刘彩冰; 张平
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2018-08-03
Anticipated expiration: 2038-02-12
Also published as: CN108363978B

Abstract

本发明公开了一种采用深度学习和UKF的基于肢体语言的情感感知方法，包括以下步骤：采用Kinect监视进入Kinect工作区的人，然后实时计算人的骨骼点；使用无迹卡尔曼滤波估计骨架点的位置，计算由于跟踪误差和设备的噪声产生的测量误差；对静态的身体动作采用卷积神经网络的方法，对动态的身体动作采用双向长短期记忆条件随机域分析；将动作处理后得到的特性的输出项直接放入softmax分类器中进行识别，识别八种情绪。基于肢体语言的情感感知具有以下优点：首先，肢体语言可以更容易地被传感器捕获；其次，基于情绪感知的身体语言噪音相对较小；第三，肢体语言较少欺骗性；第四，肢体动作的捕捉不会影响或干扰参与者的动作。

Description

采用深度学习和UKF的基于肢体语言的情感感知方法

技术领域

本发明涉及工业机器人示教技术领域，具体涉及一种采用深度学习和UKF的基于肢体语言的情感感知方法。

背景技术

如今，机器人总是用来代替人类完成重复的危险工作。随着计算机技术的进一步发展，情绪感知已成为机器人的新要求。人类希望机器人能够在交互过程中感知人类的情感并做出相应的反应。当人们互相交流时，他们通过观察语速、面部表情等多方面的细节来了解对方的情绪状态。传感器技术和深层学习算法的发展使得基于信息融合的情感感知成为可能。

情感感知的方法有：情绪感知的心电图(ECG)、面部表情、声音、文字和手势。心电图包含可靠的情绪信息。心电图方法被证明是有效的情绪感知。然而，这种方法需要特殊的装置，需要与人体直接接触。面部表情是传达情感的较明显的特征。通过面部表情，情绪可以得到一般性。但是如果人们的情绪不在脸上表现出来，这种方法是没有用的。在说话的过程中，声调和速度也能反映说话人的情感。此功能也用于情绪感知。当人们阅读时，文本也能表达作者的情感，因此本发明也是情感感知的途径之一。文本是书面交流中传达情感的一种有效方式，但人们并不经常使用文本进行面对面的交流。做手势也是表达情感的一种方式。例如通过全身运动来识别情绪的系统，识别和表达情绪。或者从手势中自动获取情感。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，结合肢体语言进行情绪感知的优势，提供一种采用深度学习和UKF的基于肢体语言的情感感知方法，该方法采用肢体语言进行情绪感知，使用肢体语言的情绪感知有以下好处：首先，肢体语言可以更容易地被传感器捕获，因为肢体运动往往更大；其次，基于情绪感知的身体语言噪音相对较小，考虑到面部表情，发音可能会影响面部表情，分析人的内在情感时，应消除发音的影响；第三，肢体语言较少欺骗性，如果你是一个职业演员，面部表情，声音可以控制，但总的来说，肢体语言更难控制；第四，肢体动作的捕捉不会影响或干扰参与者的动作，像演讲和面部表情这样的方法需要参与者故意表演。然而，捕捉肢体语言允许参与者做他们的日常工作，这是更现实的。

本发明的目的可以通过采取如下技术方案达到：

一种采用深度学习和UKF的基于肢体语言的情感感知方法，包括以下步骤：

S1、采用Kinect监视进入Kinect工作区的人，然后实时计算人的骨骼点；

S2、使用无迹卡尔曼滤波估计骨架点的位置，计算由于跟踪误差和设备噪声产生的测量误差；

S3、对静态的身体动作采用卷积神经网络的方法，将动作处理后得到的特性的输出项直接放入softmax分类器中进行识别，识别人的情绪种类；

S4、对动态的身体动作采用双向长短期记忆条件随机域分析将动作处理后得到的特性的输出项直接放入softmax分类器中进行识别，识别人的情绪种类。

进一步地，所述的情绪种类包括：愤怒、激动、焦虑、痛苦、抑郁、无助、怀疑、愤慨。

进一步地，所述的步骤S1中使用一个嵌入在Kinect中的应用程序接口来进行人体定位和跟踪，当人体进入机器人工作空间时，根据三维数据的特征检测人体，利用应用程序接口计算人体骨骼，从Kinect得到15个骨骼关节点，其中，15个骨骼关节点坐标称为Kinect协调。

进一步地，所述的步骤S1中采用卡尔曼滤波方法结合无迹变换来估计状态，无迹变换通过使用一组ε来确定任意随机变量的均值和方差，非线性跟踪系统可以表示如下：

x_k+1＝F(x_i,u_k)

y_k＝H(x_k,n_k) (1)

其中x_k是时刻k的状态，F是状态更新函数，H是观察函数，u_k是过程噪声，n_k是观测噪声，其中，卡尔曼滤波方法结合无迹变换通过以下过程实现：

S11、初始化状态：

S12、建立扩展矩阵：

上标在应用状态转换函数后表示一个值；

S13、时间更新：

χ_k|k-1＝f(χ_k-1)

χ_k|k-1＝f(χ_k-1)是应用于ε点χ_k-1的状态转换函数，生成一组新的ε点χ_k|k-1，估计的状态和估计的协方差P_k|k-1是由χ_k|k-1给出的，

Q_k表示系统噪声方差，假设观测函数y_k|k-1＝h(χ_k|k-1)生成第三组ε点，估计观测状态y_k|k-1和估计观测协方差为y_k|k-1的加权样本统计量，

其中R_k是观测噪声方差；

S14、测量更新：

其中是样本的χ_k|k-1和y_k|k-1，K_k的互相关是卡尔曼增益，估计的状态和协方差如下：

x_k＝x_k+K_k(y_k-y_k)

进一步地，所述的步骤S2具体如下：

将骨架点从1到15进行编号，并规定除了数字1，其他点有父节点，让P_i,k,P_i+1,k成为点i,i+1在时间k相对于坐标Kinect的位置，P_i,k是P_i+1,k的父亲的节点，t是采样间隔，其中，在时间k+1时，P_i+1的位置是：

其中T是平移矩阵，R是旋转矩阵。如果P_i,k+1可以计算在时间k+1，那么P_i+1,k+1可以计算；

如果可以估计第一点P_1,k+1，则其他点可以由公式(9)计算，因此，UKF的状态定义为

x_k＝[P_1,k,v_1,k,p_2,k,θ_2,k,...,p_i,k,θ_i,k,...,P_15,k,θ_15,k] (10)

其中v_1,k＝[v_x,v_y,v_z]是第一点P_1,k,θ_i,k的速度是P_i,k+1相对于坐标X₀Y₀Z₀的相对于P_i+1,k+1的旋转角，

将x₀轴的旋转φ_i,k定义为时间k中P_i的滚转，关于y₀轴的旋转Γ_i,k作为俯仰和旋转ψ_i,k关于z₀轴作为偏航，然后θ_i,k＝[φ_i,k,Γ_i,k,ψ_i,k]；

根据有限转动的欧拉定理，从欧拉角到四元数的转换是：

四个欧拉参数的约数为：

₀q_i,k ²+₁q_i,k ²+₂q_i,k ²+₃q_i,k ²＝1 (12)

其中₀q_i,k是标量，(₁q_i,k,₂q_i,k,₃q_i,k)是向量，因此，从父帧到子帧的方向余弦矩阵R(θ_i,k)被表示为：

下标i表示点数，但不表示父-子关系，P_1,k+1计算为

P_1,k+1＝P_1,k+v_1,k·t (14)

状态更新功能定义为公式(9)和公式(14)，由于坐标X₀Y₀Z₀的点的位置用Kinect测量，那么观测函数可以设置为

H＝[1,0,1,0,...,1,0] (15)。

进一步地，所述的步骤S3具体如下：

提供多个局部滤波器卷积层形成多个输出矩阵，每个输出矩阵的大小N-m+1，形成数据表示形式的操作过程如下：

其中l代表l卷积层，i代表权值为i卷积输出矩阵的值，j代表相应输出矩阵的数目，从左到右对应于0到N，N是指输出矩阵的卷积数，f是非线性函数；

在第一个过滤层的作用下，第一个输入层是输入项的输出矩阵，计算其第一个位置的结果

在平均汇聚层的作用下，其输入来自上层的卷积层，输出结果被用作下一卷积的输入层，平均水池用于通过局部均值来减小尺寸，

其中表示池化后的局部对的输出项，其通过上层的大小的局部小矩阵获得，均值池过程是通过1/n的方阵和n*n的方阵的卷积函数来实现的。

进一步地，所述的步骤S3中在对输入卷积神经网络进行训练和测试之前，输入数据需要先进行预处理，数据采集处理将大小限制为4个矩阵，其中15表示骨架点的数量，3表示每个骨架点与p＝(p_x,p_y,p_z)的三维坐标数据，其中p_x表示x方向上的骨架点，p_y表示y方向上的骨架点，p_z表示z方向上的骨架点。

进一步地，非线性函数f使用sigmoid函数。

进一步地，所述的步骤S4具体如下：

采用递归神经网络技术将连续N个收集动作的相应骨架点序列编码为矢量，并记录为h_N，初始骨架点向量记录为h₀；

然后，递归神经网络将h₀与第二骨架点向量组合以生成新的向量h₁，然后h₁继续与下一个骨架点矢量结合生成h₂，依此类推，直到矢量h_N，在获得矢量后，采用双向长短期记忆网络条件随机场算法来识别相关动作序列所代表的情绪；

当前输出是针对视频序列，当前输入以及之前的状态确定的，在更一般的情况下，假设一个给定的输入序列由下面的等式表示：x＝{x₁,x₂,...,x_t,...,x_T}在这个等式中，t代表第t帧，帧之和是T，得到下面的公式：

h_t＝σ_h(W_xhx_t+W_hhh_t-1+b_h) (19)

其中h_t表示隐藏层在t,W_xh时的输出，W_hh表示从输入层到隐藏层的权重矩阵，b_h是来自隐藏层的权重矩阵，并且表示隐藏层的偏差，σ_h代表激活功能，最后，做出如下的表述：

y_t＝σ_y(W_hoh_t+b_o) (20)

其中y_t是t-th序列的预测标签，W_ho是从隐藏层到输出的权重矩阵，b_o是输出的偏差，σ_y是激活函数；

除了外部递归神经网络周期之外，LSTM环路网络还具有内部“LSTM单元”周期，，环本身的重量或相关的时间常数由忘记门的时间t和单元i控制，并且权重由S形单元设置为0和1：

其中x^t是当前输入矢量，h^t是当前隐藏层矢量，h^t是所有LSTM单元的输出，b^f、U^f和W^f分别是偏差、输入权重和遗忘门的循环权重，因此，LSTM小区的内部状态更新如下，其中有一个条件自环权重

其中b、U和W分别是LSTM单元中遗忘门的偏置、输入权重和循环权重，外部输入门单元等同于遗忘门，如下所示：

LSTM单元的输出由输出门来关闭：

其中b°、U°和W°分别是偏差、输入权重和遗忘门的循环权重，在这些变体中，选择使用单元状态作为附加输入及其权重，并进入单元i的三个门；

假设LSTM中的当前帧前帧受下一帧，采用Bi-LSTM模型，该模型第一层是前向LSTM，第二层是后向LSTM，最终的输出计算按照下面的公式计算：

y_t＝σ(h_t) (26)

其中表示以x₁到x_T的序列作为输入的前向LSTM层的输出，表示从x_T到x₁的序列的后向LSTM的输出，α和β指示前向LSTM和后向LSTM(α+β＝1)的重要性，h_t代表两个Softmax函数的元素和，y_t是预测标签；

采用线性条件随机场，如果x＝(x₁,x₂,...x_n)表示观察到的输入数据序列，则y＝(y₁,y₂,...,y_n)表示状态序列。在给定输入序列的情况下，线性链的CRF模型定义状态序列的联合条件概率：

其中x表示数据序列，y表示标签序列，以y|_s是与S中的顶点相关联的y个分量的集合；

假设特征f_k和g_k是给定和固定的，对于观察序列x中的每个位置i，将该|y|×|y|矩阵定义为随机变量M_i(x)＝[M_i(y',y|x)]

其中e_i是带标签(y_i-1,y_i)和v_i的边是带标签y_i的顶点，然后归一化分区函数Z_θ(x)作为矩阵的(start,stop)乘积的输入：

Z_θ(x)＝(M₁(x)M₂(x)...M_n+1(x))_start,stop (29)

使用这个符号，写入标签y序列的条件概率

其中y₀＝start同时y_n+1＝stop。

本发明相对于现有技术具有如下的优点及效果：

1)肢体语言可以更容易地被传感器捕获；

2)基于情绪感知的身体语言噪音相对较小；

3)肢体语言较少欺骗性；

4)肢体动作的捕捉不会影响或干扰参与者的动作。

附图说明

图1是本发明中采用深度学习和UKF的基于肢体语言的情感感知方法的工作流程图；

图2是人体的15个关节点图；

图3是从i到i+1的点的状态图；

图4是Bi-LSTM-CRF算法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

目前情感感知的方法有：情绪感知的心电图(ECG)、面部表情、声音、文字和手势。心电图包含可靠的情绪信息。心电图方法被证明是有效的情绪感知。然而，这种方法需要特殊的装置，需要与人体直接接触。面部表情是传达情感的较明显的特征。通过面部表情，情绪可以得到一般性。但是如果人们的情绪不在脸上表现出来，这种方法是没有用的。在说话的过程中，声调和速度也能反映说话人的情感。此功能也用于情绪感知。当人们阅读时，文本也能表达作者的情感，因此本发明也是情感感知的途径之一。文本是书面交流中传达情感的一种有效方式，但人们并不经常使用文本进行面对面的交流。做手势也是表达情感的一种方式。例如通过全身运动来识别情绪的系统，识别和表达情绪。或者从手势中自动获取情感。本发明基于此提出了一种采用深度学习和UKF的基于肢体语言的情感感知方法，下面对其进行详细说明。

一种采用深度学习和UKF的基于肢体语言的情感感知方法主要通过一台Kinect装置捕捉动作和一台麦克风捕捉声音。具体步骤如下：

步骤S1、采用Kinect监视进入Kinect工作区的人，然后实时计算人的骨骼点。

使用一个嵌入在Kinect中的应用程序接口(API)来进行人体定位和跟踪。当人体进入机器人工作空间时，可以根据三维数据的特征检测人体，利用应用程序接口(API)计算人体骨骼。从Kinect可以得到骨骼关节点。图2展示了RGB图像中的15个骨架关节。从上到下，从左到右排列15个关节点。15个骨骼关节点坐标称为Kinect协调。

由于骨架的位置信号是随时间变化的，当遇到遮挡时它们是不明确的，所以需要自适应滤波器。

无迹变换通过使用一组ε来确定任意随机变量的均值和方差。无迹变换可以应用于卡尔曼滤波来估计状态。一般的非线性跟踪系统可以表示如下。

x_k+1＝F(x_i,u_k)

y_k＝H(x_k,n_k) (1)

其中x_k是时刻k的状态，F是状态更新函数，H是观察函数。u_k是过程噪声，n_k是观测噪声。卡尔曼滤波方法结合了无迹变换，通过以下过程实现。

(1)初始化状态：

(2)建立扩展矩阵：

上标在应用状态转换函数后表示一个值。

(3)时间更新：

χ_k|k-1＝f(χ_k-1) (4)

χ_k|k-1＝f(χ_k-1)是应用于ε点χ_k-1的状态转换函数，生成一组新的ε点χ_k|k-1。估计的状态和估计的协方差P_k|k-1是由χ_k|k-1给出的

Q_k表示系统噪声方差。假设观测函数y_k|k-1＝h(χ_k|k-1)生成第三组ε点，估计观测状态y_k|k-1和估计观测协方差为y_k|k-1的加权样本统计量。

其中R_k是观测噪声方差。

(4)测量更新：

其中是样本的χ_k|k-1和y_k|k-1，K_k的互相关是卡尔曼增益。

估计的状态和协方差如下：

步骤S2、使用无迹卡尔曼滤波(UKF)估计骨架点的位置，从而计算由于跟踪误差和设备的噪声产生的测量误差；

在步骤S1中，可以发现15个骨架点。在本步骤S2中，使用UKF估计骨架点。骨架点已编号从1到15。除了数字1，其他点有父节点(例如：点3的父节点是点2；点6的父节点是点2)。让P_i,k,P_i+1,k成为点i,i+1在时间k相对于坐标Kinect的位置，P_i,k是P_i+1,k的父亲的节点。t是采样间隔。图3展示了在时间k和k+1时的位置P_i,P_i+1。其中，在时间k+1时，P_i+1的位置是：

其中T是平移矩阵，R是旋转矩阵。如果P_i,k+1可以计算在时间k+1，那么P_i+1,k+1可以计算。事实上，除了第一点外所有的点都有父点。如果可以估计第一点P_1,k+1，则其他点可以由公式(9)计算。因此，UKF的状态可以定义为

x_k＝[P_1,k,v_1,k,p_2,k,θ_2,k,...,p_i,k,θ_i,k,...,P_15,k,θ_15,k] (10)

其中v_1,k＝[v_x,v_y,v_z]是第一点P_1,k,θ_i,k的速度是P_i,k+1相对于坐标X₀Y₀Z₀的相对于P_i+1,k+1的旋转角。

将x₀轴的旋转φ_i,k定义为时间k中P_i的滚转，关于y₀轴的旋转Γ_i,k作为俯仰和旋转ψ_i,k关于z₀轴作为偏航，然后θ_i,k＝[φ_i,k,Γ_i,k,ψ_i,k]。根据有限转动的欧拉定理，从欧拉角到四元数的转换是：

四个欧拉参数的约数为：

₀q_i,k ²+₁q_i,k ²+₂q_i,k ²+₃q_i,k ²＝1 (12)

其中₀q_i,k是标量，(₁q_i,k,₂q_i,k,₃q_i,k)是向量。因此，从父帧到子帧的方向余弦矩阵R(θ_i,k)被表示为：

下标i表示点数，但不表示父-子关系。可以了解父-子关系。P_1,k+1可以计算为

P_1,k+1＝P_1,k+v_1,k·t (14)

状态更新功能可以定义为EQ(9)和公式(14)。由于坐标X₀Y₀Z₀的点的位置可以用Kinect测量，那么观测函数可以设置为

H＝[1,0,1,0,...,1,0] (15)。

步骤S3、对静态的身体动作采用卷积神经网络(CNN)的方法，将动作处理后得到的特性的输出项直接放入softmax分类器中进行识别，识别八种情绪。

卷积神经网络(CNN)是一种深层学习网络，包括卷积层和池层。网络首先执行卷积过程，然后进行池过程。卷积过程的输出项作为池层的输入，再利用池层的结果作为下一个卷积层的输入等等。

从对生物视觉细胞局部感知的理解出发，卷积神经网络利用部分滤波器进行卷积，即输入项的局部子矩阵和局部滤波器用于内积运算，输出结果是卷积输出矩阵的相应值。为了形成一个更好的数据表示形式，提供多个局部滤波器卷积层形成多个输出矩阵，和每个输出矩阵的大小(N-m+1)，详细的操作过程如下：

其中l代表l卷积层，i代表权值为i卷积输出矩阵的值，j代表相应输出矩阵的数目。从左到右对应于0到N，N是指输出矩阵的卷积数。f是非线性函数，这里使用sigmoid函数。在第一个过滤层的作用下，第一个输入层是输入项的输出矩阵，计算其第一个位置的结果

CNN的合并层是一个进一步减小矩阵的维度，不破坏数据的内在联系的过程。池层可以用平均值来构造，也可以用最大值的方法构造。在这个实验中，使用了平均值结构，所以实验池也可以被称为平均池层。平均汇聚层的输入来自上层的卷积层，输出结果被用作下一卷积的输入层。平均水池用于通过局部均值来减小尺寸。

其中表示池化后的局部对的输出项，其通过上层的大小的局部小矩阵获得。本实验中使用的均值池过程是通过1/n的方阵和n*n的方阵的卷积函数来实现的。

该方法使用Kinect实时检测人体骨骼，并通过骨架数据计算出人体的行为特征。在对输入卷积神经网络进行训练和测试之前，输入数据需要先进行预处理。数据采集处理将大小限制为4个矩阵，其中15表示骨架点的数量，3表示每个骨架点与p＝(p_x,p_y,p_z)的三维坐标数据。其中p_x表示x方向上的骨架点，p_y表示y方向上的骨架点，p_z表示z方向上的骨架点。

在卷积神经网络的数据处理之后，数据被输入到Softmax分类器以分离数据。Softmax分类器是要映射到相应情感标签的信号。在训练中，信号通过卷积神经网络数据处理得到分类结果，并将标签数据与相应的计算出的相对误差进行比较。然后经过一定次数的训练，可以不断修改卷积窗卷积神经网络的权值，使得相对误差减小，最终趋于收敛。然后输入测试设置为测试网络分类。

步骤S4、对动态的身体动作采用双向长短期记忆条件随机域(Bi-LSTM-CRF)分析将动作处理后得到的特性的输出项直接放入softmax分类器中进行识别，识别八种情绪。

本实施例采用递归神经网络(RNN)技术将连续动作(N个收集动作)的相应骨架点序列编码为矢量，并记录为h_N。初始骨架点向量记录为h₀。然后，RNN将h₀与第二骨架点向量组合以生成新的向量h₁。然后h₁继续与下一个骨架点矢量结合生成h₂，依此类推，直到矢量h_N。在获得矢量后，本实施例采用双向长短期记忆网络条件随机场算法(Bi-LSTM-CRF)来识别相关动作序列所代表的情绪。

对于时间序列模型，递归神经网络的特点可以使模型更加方便。当前输出是针对视频序列，当前输入以及之前的状态确定的。在更一般的情况下，假设一个给定的输入序列由下面的等式表示：x＝{x₁,x₂,...,x_t,...,x_T}在这个等式中，t代表第t帧，帧之和是T。所以可以得到下面的公式：

h_t＝σ_h(W_xhx_t+W_hhh_t-1+b_h) (19)

其中h_t表示隐藏层在t,W_xh时的输出，W_hh表示从输入层到隐藏层的权重矩阵，b_h是来自隐藏层的权重矩阵，并且表示隐藏层的偏差，σ_h代表激活功能。最后，可以做出如下的表述：

y_t＝σ_y(W_hoh_t+b_o) (20)

其中y_t是t-th序列的预测标签，W_ho是从隐藏层到输出的权重矩阵，b_o是输出的偏差，σ_y是激活函数。

除了外部RNN周期之外，LSTM环路网络还具有内部“LSTM单元”周期(自循环)。因此，LSTM不会简单地将非线性元素应用于输入和循环单元格的转换。然而，环本身的重量(或相关的时间常数)由忘记门(时间t和单元i)控制，并且权重由S形单元设置为0和1：

其中x^t是当前输入矢量，h^t是当前隐藏层矢量，h^t是所有LSTM单元的输出。b^f、U^f和W^f分别是偏差、输入权重和遗忘门的循环权重。因此，LSTM小区的内部状态更新如下，其中有一个条件自环权重

其中b、U和W分别是LSTM单元中遗忘门的偏置、输入权重和循环权重。外部输入门单元类似于遗忘门(使用sigmoid获得0和1之间的值)，但具有其自己的参数。

LSTM单元的输出也可以由输出门(使用sigmoid单元作为门控制)来关闭：

其中b°、U°和W°分别是偏差、输入权重和遗忘门的循环权重。在这些变体中，可以选择使用单元状态作为附加输入(及其权重)，并进入单元i的三个门。这将需要三个附加参数，如果想了解更多关于LSTM的信息。

尽管LSTM可以捕获长期的序列信息，但它只考虑一个方向。这意味着LSTM中的当前帧只受当前状态的影响。希望加强这种双边关系。这意味着在处理当前帧时也考虑下一帧。Bi-LSTM适用于这种情况。Bi-LSTM模型如图4所示。第一层是前向LSTM，第二层是后向LSTM。最终的输出计算可以按照下面的公式计算：

y_t＝σ(h_t) (26)

其中表示以x₁到x_T的序列作为输入的前向LSTM层的输出，表示从x_T到x₁的序列的后向LSTM的输出，α和β指示前向LSTM和后向LSTM(α+β＝1)的重要性，h_t代表两个Softmax函数的元素和，y_t是预测标签。由于Bi-LSTM可以捕获更多的结构信息，所以它比单向LSTM具有更好的性能。

由Lafferty等人在2001年提出的条件随机场(CRF)。它结合最大熵模型和隐马尔可夫模型的特点，是一个无向图模型。近年来，在分割，标注和命名实体识别等任务中取得了较好的效果。条件随机场是一个典型的判别模型。它的联合概率可以写成一个多重潜在函数的形式。最常用的线性随机条件随机场是线性条件随机场。如果x＝(x₁,x₂,...x_n)表示观察到的输入数据序列，则y＝(y₁,y₂,...,y_n)表示状态序列。在给定输入序列的情况下，线性链的CRF模型定义状态序列的联合条件概率：

其中x表示数据序列，y表示标签序列，以y|_s是与S中的顶点相关联的y个分量的集合。

假设特征f_k和g_k是给定和固定的。例如，如果单词g_k是大写字母并且标签x_i是“专有名词”，则布尔顶点特征可以是真的。对于观察序列x中的每个位置i，将该|y|×|y|矩阵定义为随机变量M_i(x)＝[M_i(y',y|x)]

M_i(y',y|x)＝exp(Λ_i(y',y|x))

其中e_i是带标签(y_i-1,y_i)和v_i的边是带标签y_i的顶点。然后归一化(分区函数)Z_θ(x)是这些矩阵的(start,stop)乘积的输入：

Z_θ(x)＝(M₁(x)M₂(x)...M_n+1(x))_start,stop (29)

使用这个符号，写入标签y序列的条件概率

其中y₀＝start同时y_n+1＝stop。

在本实施例中，使用Bi-LSTM-CRF分别分析了15个骨架点的运动序列。如图4所示，通过RNN提取一个骨架点的运动序列，然后利用Bi-LSTM对特征进行处理。输出结果由CRF优化。CRF更关注整个句子的局部特征的线性加权组合(通过特征模板扫描整个序列)。关键是CRF的模型是p(y|x,w)，优化是一个y＝(y1,y2,...,yn)的序列，而不是一个y_t在某个时刻，发现一个最高概率y＝(y1,y2,...,yn)的序列使得y＝(y1,y2,...,yn|x,w)是最高的。它计算一个联合概率。它优化了整个序列(最终目标)，而不是每次最好的拼接。最后将CRF的输出结果融合到Softmax中得到最终的分类结果。

虽然不同的人生气的表现不同，比如有的人生气时跺脚，有些人生气敲桌子，但捕捉某人情绪的方法是通过对15个骨架点的分析。只要他的情绪表现在某个身体部位，本实施例方法就可以捕捉和分析他的情绪。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种采用深度学习和UKF的基于肢体语言的情感感知方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的采用深度学习和UKF的基于肢体语言的情感感知方法，其特征在于，所述的情绪种类包括：愤怒、激动、焦虑、痛苦、抑郁、无助、怀疑、愤慨。

3.根据权利要求1所述的采用深度学习和UKF的基于肢体语言的情感感知方法，其特征在于，所述的步骤S1中使用一个嵌入在Kinect中的应用程序接口来进行人体定位和跟踪，当人体进入机器人工作空间时，根据三维数据的特征检测人体，利用应用程序接口计算人体骨骼，从Kinect得到15个骨骼关节点，其中，15个骨骼关节点坐标称为Kinect协调。

4.根据权利要求3所述的采用深度学习和UKF的基于肢体语言的情感感知方法，其特征在于，所述的步骤S1中采用卡尔曼滤波方法结合无迹变换来估计状态，无迹变换通过使用一组ε来确定任意随机变量的均值和方差，非线性跟踪系统可以表示如下：

x_k+1＝F(x_i,u_k)

y_k＝H(x_k,n_k) (1)

S11、初始化状态：

S12、建立扩展矩阵：

上标在应用状态转换函数后表示一个值；

S13、时间更新：

其中R_k是观测噪声方差；

S14、测量更新：

x_k＝x_k+K_k(y_k-y_k)

5.根据权利要求4所述的采用深度学习和UKF的基于肢体语言的情感感知方法，其特征在于，所述的步骤S2具体如下：

x_k＝[P_1,k,v_1,k,p_2,k,θ_2,k,...,p_i,k,θ_i,k,...,P₁₅ ^, _k,θ_15,k] (10)

根据有限转动的欧拉定理，从欧拉角到四元数的转换是：

四个欧拉参数的约数为：

₀q_i,k ²+₁q_i,k ²+₂q_i,k ²+₃q_i,k ²＝1 (12)

下标_i表示点数，但不表示父-子关系，P_1,k+1计算为

P_1,k+1＝P_1,k+v_1,k·t (14)

H＝[1,0,1,0,...,1,0] (15)。

6.根据权利要求5所述的采用深度学习和UKF的基于肢体语言的情感感知方法，其特征在于，所述的步骤S3具体如下：

其中x_i ^l,j,l代表l卷积层，i代表权值为i卷积输出矩阵的值，j代表相应输出矩阵的数目，从左到右对应于0到N，N是指输出矩阵的卷积数，f是非线性函数；

7.根据权利要求6所述的采用深度学习和UKF的基于肢体语言的情感感知方法，其特征在于，所述的步骤S3中在对输入卷积神经网络进行训练和测试之前，输入数据需要先进行预处理，数据采集处理将大小限制为4个矩阵，其中15表示骨架点的数量，3表示每个骨架点与p＝(p_x,p_y,p_z)的三维坐标数据，其中p_x表示x方向上的骨架点，p_y表示y方向上的骨架点，p_z表示z方向上的骨架点。

8.根据权利要求6所述的采用深度学习和UKF的基于肢体语言的情感感知方法，其特征在于，非线性函数f使用sigmoid函数。

9.根据权利要求6所述的采用深度学习和UKF的基于肢体语言的情感感知方法，其特征在于，所述的步骤S4具体如下：

h_t＝σ_h(W_xhx_t+W_hhh_t-1+b_h) (19)

y_t＝σ_y(W_hoh_t+b_o) (20)

除了外部递归神经网络周期之外，LSTM环路网络还具有内部“LSTM单元”周期，，环本身的重量或相关的时间常数由忘记门f_i ^(t)的时间t和单元i控制，并且权重由S形单元设置为0和1：

其中x^t是当前输入矢量，h^t是当前隐藏层矢量，h^t是所有LSTM单元的输出，b^f、U^f和W^f分别是偏差、输入权重和遗忘门的循环权重，因此，LSTM小区的内部状态更新如下，其中有一个条件自环权重f_i ^(t)：

LSTM单元的输出由输出门来关闭：

其中b^o、U^o和W^o分别是偏差、输入权重和遗忘门的循环权重，在这些变体中，选择使用单元状态作为附加输入及其权重，并进入单元i的三个门；

y_t＝σ(h_t) (26)

其中h_t ^f表示以x₁到x_T的序列作为输入的前向LSTM层的输出，表示从x_T到x₁的序列的后向LSTM的输出，α和β指示前向LSTM和后向LSTM(α+β＝1)的重要性，h_t代表两个Softmax函数的元素和，y_t是预测标签；

Z_θ(x)＝(M₁(x)M₂(x)...M_n+1(x))_start,stop (29)

使用这个符号，写入标签y序列的条件概率

其中y₀＝start同时y_n+1＝stop。