CN113780091A

CN113780091A - 一种基于身体姿势变化表示的视频情感识别方法

Info

Publication number: CN113780091A
Application number: CN202110926712.6A
Authority: CN
Inventors: 杨新宇; 魏洁; 胡冠宇; 陈航; 张与弛; 梁策; 郭靖宜
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-12-10
Anticipated expiration: 2041-08-12
Also published as: CN113780091B

Abstract

本发明公开了一种基于身体姿势变化表示的视频情感识别方法。本发明提出的情感识别方法只关注视频中人们的关键关节点信息，通过对关节点变化进行编码，利用逐通道卷积网络识别情状态，解决某些情况下无法利用面部表情识别情感的问题。首先，对身体的25个关节点位置进行确定；其次，提出身体姿势变化的表示方法，将表示后的关节点信息按时间汇聚；最后，构建一个包含注意力机制的逐通道卷积神经网络来识别情感状态。本发明简单且易于实现，姿势变化表示方法无需复杂计算，浅层识别模型具有极低的开销，同时不需要进行预训练，保证情感识别有效性同时极大提高识别速度。

Description

一种基于身体姿势变化表示的视频情感识别方法

技术领域

本发明属于人工智能情感计算领域，具体涉及一种基于身体姿势变化表示的视频情感识别方法。

背景技术

情感是人们生活中至关重要的部分，在人们感知和理解事物方面起着不可或缺的作用。近年来，视频社交逐渐取代图文成为了人们沟通交流的新方式。人们倾向于通过视频分享生活琐事、时事热点和新型产品等，智能的分析视频传递的情感状态有利于了解用户主观感受，进而改善服务达到营销目的。了解用户的情感状态可以使机器更好地适应并改善与人类的合作方式，同时也可以帮助人们解决一些问题。例如，汽车搭载情感识别系统可以实时识别和检测驾驶员情感状态，避免暴躁、疲劳等状态造成交通意外的发生。监控摄像头搭载情感识别系统可以实时追踪可疑人员的情感变化，进一步预测可能发生的行为，提升对突发事件的介入能力，提前判断是否存在危险情况。

随着情感在人类发展中扮演的角色越来越重要，自动情感识别的研究受到学术界的广泛关注。目前针对人类情感识别的相关研究中，95％的文献关注面部表情，其余关注声音信息。然而，在侦察和监控视频中，很难清晰地捕捉到人们的声音和面孔，此时身体姿势是可以获取的唯一有效证据。非语言行为和心理学研究发现，身体姿势也传达了一定的情感信息。Ekman等人也指出相比于人们有意识地控制面部表情，大多数人不会费心去检查身体姿势。

发明内容

本发明的目的是解决视频中无法获取到清晰面容和声音情况下情感状态识别问题，提供了一种基于身体姿势变化表示的视频情感识别方法。本发明简单且易于实现，姿势变化表示方法无需复杂计算，浅层识别模型具有极低的开销，同时不需要进行预训练。

本发明采用如下技术方案来实现的：

一种基于身体姿势变化表示的视频情感识别方法，该方法首先对身体的25个关节点位置进行确定；其次，提出身体姿势变化的表示方法，将表示后的关节点信息按时间汇聚；最后，构建一个包含注意力机制的逐通道卷积神经网络来识别情感状态。

本发明进一步的改进在于，具体包括以下步骤：

1)提取身体关键关节点：在视频中提取身体关节点的过程包括关节点位置确定，坐标位置一致性处理和关节坐标位置重新赋值；

2)进行身体姿势变化表示：得到了每个时刻每个关节的描述图后，基于时间考虑身体姿势连续变化的表示；

3)构建情感识别模型：该模型为一个包含注意力机制的逐通道卷积神经网络，其输入为步骤2)获得的身体姿势表示，输出为情感类别。

本发明进一步的改进在于，步骤1)的具体实现方法如下：

1-1)关节点位置确定：获取25个身体关节点的位置坐标，包括身体躯干5个，双臂12个，双腿8个；

1-2)坐标位置一致性处理：由于不同视频图像的分辨率不一致，因此对所有坐标进行一致性缩放，使得位置坐标均小于64，

表示第i个关节点在t时刻的位置坐标；

1-3)关节坐标位置重新赋值：对关节点所在坐标位置赋值1，其他位置均置为0，进而每个视频片段可以得到T张25通道的关节描述图

分辨率为64*64，其中T为视频帧数。

本发明进一步的改进在于，步骤2)的具体实现方法如下：

2-1)移除时间轴的身体姿势变化表示：对时间建立数据化关系

在数学上理解为对相同时刻t的所有通道赋予相同的权重，对不同时刻的赋予不同的权重，达到区分变化时刻的目的，随后将所有时刻的对应通道的数据执行求和操作，以获得整个视频片段的身体姿势变化表示；

2-2)建立时间轴的身体姿势变化表示：分别建立时间轴和X方向轴、Y方向轴的坐标关系，形成两个不同方向的轨迹追踪表示，即将获取到的关节点坐标

进行拆分，根据时间顺序分别建立两个方向的轨迹

和

然后将不同关节轨迹进行堆砌，得到身体关节点跟踪轨迹描述姿势变化的表示

本发明进一步的改进在于，步骤2-1)具体操作为：对不同时刻的信息赋予不同的权重W(t)，此时t时刻的图片表示为G_t＝I_t·W(t)，然后随着时间推移汇聚不同时刻的结果G_t，最终得到身体姿势变化的表示G＝∑G_t，其中

本发明进一步的改进在于，步骤3)情感识别模型的具体架构为：情感识别模型包括两条通路，第一条通路由2个模块组成，每个模块中包含一个常规卷积层、批标准化层和线性整流函数层；在第二条通路分别增加了逐通道卷积和注意力机制层，保留每个通道独立的特性，同时让模型可以更加关注信息量最大的通道，两条通路间独立执行，然后将其信息汇聚，再紧跟自适应均值池化层，一个全连接层及softmax逻辑回归层一起实现情感的识别。

本发明进一步的改进在于，步骤3)情感识别模型中注意力层具体结构为：首先，自适应均值池化层，对输入进行压缩操作，得到通道级的全局特征；然后，两个全连接层，对全局特征进行激励操作，学习各个通道间的关系，得到不同通道的权重；最后，不同的权重乘以原来对应的输入得到最终特征。

本发明至少具有如下有益的技术效果：

本发明提供的一种基于身体姿势变化表示的视频情感识别方法，该方法首先对身体的25个关节点位置进行确定，其次提出身体姿势变化的表示方法，将表示后的关节点信息按时间汇聚，最后构建一个包含注意力机制的逐通道卷积神经网络来识别情感状态。相比于利用面部表情和语音语调进行情感识别的方法，该方法可以解决监控视频中无法捕获清晰人脸和声音问题时情感识别的问题；此外与其他深度情感识别模型相比，该方法中提出的识别模型是一个浅层神经网络，具有极低的计算开销，同时不需要进行模型预训练。通过理论分析和实验分析，进一步证实了本发明在视频情感识别上的有效性和准确性。

附图说明

图1是提取身体关键关节点过程示意图；

图2是移除时间轴的身体姿势变化表示过程示意图；

图3是不同情感类别的建立时间轴的身体姿势变化表示可视化结果；其中图3(a)是中立情感下身体姿势变化表示，图3(b)是高兴情感下身体姿势变化表示；

图4是包含注意力机制的逐通道卷积神经网络模型结构图；

图5是情感识别模型的注意力层具体结构图；

图6是不同身体姿势变化表示方法的各类别情感识别准确性对比图。

具体实施方式

下面结合附图对本发明作进一步详细描述，但不以任何方式限制本发明的范围。

本发明提供的一种基于身体姿势变化表示的视频情感识别方法，包括以下步骤：

1.提取身体关键关节点

在视频中提取身体关节点的过程包括关节点位置确定，坐标位置一致性处理和关节坐标位置重新赋值，参考图1，具体包括以下步骤：

Step1关节点位置确定：使用目前开源的OpenPose方法获取25个身体关节点的位置坐标，包括身体躯干5个，双臂12个，双腿8个。

Step2坐标位置一致性处理：由于不同视频图像的分辨率不一致，因此我们对所有坐标进行一致性缩放，使得位置坐标均小于64，

表示第i个关节点在t时刻的位置坐标。

Step3关节坐标位置重新赋值：对关节点所在坐标位置赋值1，其他位置均置为0，进而每个视频片段我们可以得到T张25通道的关节描述图

分辨率为64*64，其中T为视频帧数。

2.身体姿势变化表示

得到了每个时刻每个关节的描述图后，基于时间考虑身体姿势连续变化的表示，具体有两种方式：

2.1移除时间轴的身体姿势变化表示：对时间建立数据化关系

在数学上可以理解为对相同时刻t的所有通道赋予相同的权重，对不同时刻的赋予不同的权重，达到区分变化时刻的目的，随后将所有时刻的对应通道的数据执行求和操作，以获得整个视频片段的身体姿势变化表示。

参考图2，本发明包含的移除时间轴的身体姿势变化表示，其具体计算过程为：首先对不同时刻的信息赋予不同的权重W(t)，t时刻的图片可编码为G_t＝I_t·W(t)，然后随着时间推移汇聚不同时刻的结果G_t，最终得到身体姿势变化的表示G＝∑G_t，其中

2.2建立时间轴的身体姿势变化表示：分别建立时间轴和X方向轴、Y方向轴的坐标关系，形成两个不同方向的轨迹追踪表示，即将获取到的关节点坐标

进行拆分，根据时间顺序分别建立两个方向的轨迹

和

本发明包含的建立时间轴的身体姿势变化表示，其最终25个关节的轨迹可视化结果可参考图3，其中图3(a)为中立情感下的移动轨迹，随时间变化波动不大；图3(b)为高兴情感下的移动轨迹，随时间变化波动较大，可以发现不同情感表现之前差别很大。

3.构建情感识别模型

参考图4，该模型为一个包含注意力机制的逐通道卷积神经网络(attention-based channel-wise convolutional neural network,ACCNN)，其输入为步骤2)获得的身体姿势表示，输出为情感类别。具体来看，整体架构包括两条通路，第一条通路由2个模块组成，每个模块中包含一个常规卷积层、BN层和RELU层；在第二条通路分别增加了逐通道卷积和注意力机制层，保留每个通道独立的特性，同时让模型可以更加关注信息量最大的通道。两条通路间独立执行，然后将其信息汇聚，再紧跟自适应均值池化层，一个全连接层及softmax层一起实现情感的识别。

参考图5，情感识别模型的注意力层具体结构为：首先，自适应均值池化层，对输入进行Squeeze操作，得到通道级的全局特征。然后，两个全连接层，对全局特征进行Excitation操作，学习各个通道间的关系，也得到不同通道的权重。最后，不同的权重乘以原来对应的输入得到最终特征。

为了验证本发明包含的身体姿势变化表示方法和情感识别模型的有效性，本发明进行了相应的实验，结果参照表1所示。首先，从实验结果观察，相比于移除时间轴的姿势变化表示方法，保留时间轴的姿势变化表示方法的性能更好；其次，通过将两种身体姿势表示方法的实验结果进行融合，进一步提升了情感识别准确率，说明了两种方式之间的互补性；最后，使用本发明提出的情感识别网络相比于传统卷积网络性能均得到提升，这表明了本发明中情感识别神经网络包含的逐通道卷积和注意力机制在识别时更具有优越性。

表1：本发明中不同身体姿势编码方法和情感识别模型识别准确率对比结果。

	传统卷积	ACCNN
			移除时间轴编码	59.46	62.56
建立时间轴编码	83.58	86.24
			两种编码表示融合	85.05	88.35

为了更直观的了解每种情感的识别情况，进一步分析了每一类情感的识别准确性，参考图6，首先可以看出，将本发明包含的两种身体姿势表示方法融合后，每一种情感类别的准确率都得了提高，验证了两种方法存在互补性；其次，“中立”情感在所有情感类别中具有最高的识别准确率，且融合后的识别率达到100％，这可能是因为该情感具有比较明显的情感表现线索；最后，相比于移除时间轴的姿势变化表示方法，保留时间轴的姿势变化表示方法在各个情感类别的识别性能更好。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于身体姿势变化表示的视频情感识别方法，其特征在于，该方法首先对身体的25个关节点位置进行确定；其次，提出身体姿势变化的表示方法，将表示后的关节点信息按时间汇聚；最后，构建一个包含注意力机制的逐通道卷积神经网络来识别情感状态。

2.根据权利要求1所述的一种基于身体姿势变化表示的视频情感识别方法，其特征在于，具体包括以下步骤：

3.根据权利要求2所述的一种基于身体姿势变化表示的视频情感识别方法，其特征在于，步骤1)的具体实现方法如下：

表示第i个关节点在t时刻的位置坐标；

分辨率为64*64，其中T为视频帧数。

4.根据权利要求3所述的一种基于身体姿势变化表示的视频情感识别方法，其特征在于，步骤2)的具体实现方法如下：

2-1)移除时间轴的身体姿势变化表示：对时间建立数据化关系

进行拆分，根据时间顺序分别建立两个方向的轨迹

和

5.根据权利要求4所述的一种基于身体姿势变化表示的视频情感识别方法，其特征在于，步骤2-1)具体操作为：对不同时刻的信息赋予不同的权重W(t)，此时t时刻的图片表示为G_t＝I_t·W(t)，然后随着时间推移汇聚不同时刻的结果G_t，最终得到身体姿势变化的表示G＝∑G_t，其中

6.根据权利要求5所述的一种基于身体姿势变化表示的视频情感识别方法，其特征在于，步骤3)情感识别模型的具体架构为：情感识别模型包括两条通路，第一条通路由2个模块组成，每个模块中包含一个常规卷积层、批标准化层和线性整流函数层；在第二条通路分别增加了逐通道卷积和注意力机制层，保留每个通道独立的特性，同时让模型可以更加关注信息量最大的通道，两条通路间独立执行，然后将其信息汇聚，再紧跟自适应均值池化层，一个全连接层及softmax逻辑回归层一起实现情感的识别。

7.根据权利要求6所述的一种基于身体姿势变化表示的视频情感识别方法，其特征在于，步骤3)情感识别模型中注意力层具体结构为：首先，自适应均值池化层，对输入进行压缩操作，得到通道级的全局特征；然后，两个全连接层，对全局特征进行激励操作，学习各个通道间的关系，得到不同通道的权重；最后，不同的权重乘以原来对应的输入得到最终特征。