CN116030514A

CN116030514A - 一种上下文感知的情绪识别方法、系统、介质及设备

Info

Publication number: CN116030514A
Application number: CN202211296241.6A
Authority: CN
Inventors: 张利峰; 郑向伟; 王涛; 于晓梅; 任秀秀; 嵇存
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-04-28

Abstract

本公开提供了一种上下文感知的情绪识别方法、系统、介质及设备，涉及图像识别技术领域，包括提取人物图像中的面部情绪信息以及人体轮廓信息，获取面部情绪特征以及人体姿态特征；检测人脸的朝向以及视线信息，获取物体图像中所有对象的位置，利用深度图生成算法生成深度图，提取物体的特征向量，保存边界框坐标，构建三维视角的环境对象交互关系；基于背景图像提取全局场景上下文信息特征；将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局景上下文关系特征进行融合，得到新的上下文情绪特征输入至模型得到情绪分类结果；本公开能够提升上下文感知的情绪识别的准确率。

Description

一种上下文感知的情绪识别方法、系统、介质及设备

技术领域

本公开涉及图像识别技术领域，具体涉及一种基于ViT(Vision Transformer)和图卷积网络(Graph Convolutional Network,GCN)的三维视角的上下文感知的情绪识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着深度学习技术的发展，情绪识别在人工智能研究中变得越来越重要。情绪识别技术被广泛应用于远程医疗、疲劳监测和人机交互系统。早期对情绪识别的研究主要集中在生理信号(如脑电信号、心电信号、眼电信号等)、面部表情、文本和语音。人们普遍认为，面部表情是表达人类情感的最自然方式。然而，由于复杂的环境变化，一些图像中的面部信息不可避免的会出现模糊等现象。因此，基于面部表情的情绪识别系统仍有需要改进的方面。

随着对情绪信息研究的不断深入，一些研究表明，周围环境和身体姿势在情绪感知中起着重要作用。视觉场景影响面部动作编码的实际结构。心理学研究表明，肢体语言是人类表达情感信息的重要方式。这为上下文感知的情绪识别方法提供了理论基础。随着图像采集设备的发展，其采集到的图像分辨率越来越高，在自然环境下，往往会通过图像采集设备采集整个场景内的信息，这为上下文感知的情绪识别方法提供了数据基础。另外，随着硬件计算能力的不断提升，训练深度模型的效率也在逐步提高。近年来，研究者们对深度学习技术在情绪识别领域的应用进行了深入的探索，在面部表情识别方面，尤其是在实验室采集的数据集中得到了较高的识别准确率。但是大多数面部表情的识别方法在自然环境下采集的图片中的识别准确率不佳，这主要是自然环境下的图片往往带有额外的噪声，影响力面部表情识别系统的性能。

发明内容

本公开为了解决上述问题，提出了一种上下文感知的情绪识别方法及系统，将面部表情、人体姿态以及所处环境三部分数据作为情绪识别的辨识性特征，通过不同的算法进行人脸检测，结合头部姿态以及视线角度提出构建3DVG表示环境对象交互关系的方法构建环境中的其他物品对人情绪的影响，通过情绪特征融合模块对情绪特征进行融合并分类。

根据一些实施例，本公开采用如下技术方案：

一种上下文感知的情绪识别方法，包括：

获取待识别的场景图像，提取场景图像中的人物图像、物体图像以及背景图像，并进行预处理；

提取人物图像中的面部情绪信息以及人体轮廓信息，获取面部情绪特征以及人体姿态特征；

检测人脸的朝向以及视线信息，获取物体图像中所有对象的位置，利用深度图生成算法生成深度图，提取物体的特征向量，保存边界框坐标，构建三维视角的环境对象交互关系；基于背景图像提取全局场景上下文信息特征；

将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局场景上下文关系特征进行融合，得到新的上下文情绪特征输入至模型得到情绪分类结果。

根据一些实施例，本公开采用如下技术方案：

一种上下文感知的情绪识别系统，包括：

数据获取模块，用于获取待识别的场景图像，提取场景图像中的人物图像、物体图像以及背景图像，并进行预处理；

面部表情特征提取模块以及人体姿态情绪特征提取模块，用于提取人物图像中的面部情绪信息以及人体轮廓信息，获取面部情绪特征以及人体姿态特征；

环境对象交互关系情绪特征提取模块，用于检测人脸的朝向以及视线信息，获取物体图像中所有对象的位置，利用深度图生成算法生成深度图，提取物体的特征向量，保存边界框坐标，构建三维视角的环境对象交互关系；

全局上下文情绪特征提取模块，用于基于背景图像提取全局场景上下文信息特征；

情绪特征融合分类模块，用于将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局场景上下文关系特征进行融合，得到新的上下文情绪特征输入至模型得到情绪分类结果。

根据一些实施例，本公开采用如下技术方案：

一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如所述的一种上下文感知的情绪识别方法。

根据一些实施例，本公开采用如下技术方案：

一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如所述的一种上下文感知的情绪识别方法。

与现有技术相比，本公开的有益效果为：

本公开主要包括五部分，数据获取模块、面部表情特征提取模块以及人体姿态情绪特征提取模块、环境对象交互关系情绪特征提取模块、全局上下文情绪特征提取模块和情绪特征融合分类模块，通过分析发现，视觉场景中，除了面部表情能够作为情绪识别的依据，身体姿态、所处的环境(场景上下文)也会反映出人的情绪状态，因此，本公开提取上述三部分信息作为情绪识别的辨识性特征，使用Openface进行人脸检测，并得到人的头部姿态以及视线角度；基于Faster-RCNN算法进行目标检测，结合头部姿态以及视线角度提出构建3DVG表示环境对象交互关系的方法建模环境中的其他物品对人情绪的影响。最后，通过情绪特征融合模块对情绪特征进行融合并分类。

基于面部信息、身体姿态信息、环境对象交互关系、全局场景上下文信息的上下文感知的情绪识别系统完整提取了图片中的情绪信息，为情绪识别的准确性奠定了数据基础，本公开采用ViT进行图像特征提取，采用GNN提取环境中对象图表示中的情绪信息，为情绪识别的准确性奠定了模型基础；本公开中采用一种新的基于深度图、头部姿态、视线检测构建的三维视角的环境对象交互关系的图模型，该图模型能够有效的表示环境中的其他对象对人的情绪的影响，能够提升上下文感知的情绪识别的准确率。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例所述的三维视角的上下文感知的情绪识别方法的流程图；

图2为本公开实施例所述的三维视角的上下文感知的情绪识别方法的总体结构图；

图3为本公开实施例所述的三维视角的环境对象交互关系构建模式图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

本公开的一种实施例中提供了一种上下文感知的情绪识别方法，包括：

步骤1：获取待识别的场景图像，提取场景图像中的人物图像、物体图像以及背景图像，并进行预处理；

步骤2：提取人物图像中的面部情绪信息以及人体轮廓信息，获取面部情绪特征以及人体姿态特征；

步骤3：检测人脸的朝向以及视线信息，获取物体图像中所有对象的位置，利用深度图生成算法生成深度图，提取物体的特征向量，保存边界框坐标，构建三维视角的环境对象交互关系；基于背景图像提取全局场景上下文信息特征；

步骤4：将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局场景上下文关系特征进行融合，得到新的上下文情绪特征输入至模型得到情绪分类结果。

作为一种实施例，在步骤1中，所述预处理包括：对人物图像中的面部图片进行灰度化、人脸检测以及人脸对齐操作后保存。

一种实施方式中，所述面部情绪特征提取方式为：利用人脸检测算法提取场景中的人脸图像，输入到ViT模型中提取面部中包含的情绪信息，得到面部情绪信息的特征向量。

人体姿态特征提取方式为：利用语义分割算法提取人体轮廓信息，将人体轮廓信息输入至ViT模型获得其人体姿态情绪表示的特征向量。

环境对象交互关系构建方式为：检测人脸的朝向、视线信息，通过目标检测算法获取物体图像中所有对象的位置，并利用深度图生成算法生成图片的深度图，结合目标检测算法得到图片中对象的位置，计算得出各个对象与摄像机之间的距离，然后构建环境对象交互关系的图表示，将图结构表示输入到GCN中，提取环境对象交互关系的情绪特征向量。

基于背景图像提取全局场景上下文信息特征的方式为：补全环境对象交互关系中忽略的全局场景信息，聚焦视觉背景对情绪的影响，将遮挡人体的图片输入至ViT网络中，获得全局上下文特征表示向量。

然后，将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局场景上下文关系特征进行融合的过程为：将面部情绪表示的特征向量、人体姿态情绪表示的特征向量、环境对象交互关系的情绪特征向量、全局上下文情绪表示的特征向量连接，得到新的上下文感知的情绪特征向量并输入至全连接层，进行图片的情绪分类。以上实施的具体过程为：

对图片中的人，利用OpenFace提取其面部信息，包括完整的面部图片、视线角度以及头部姿态信息，用于构建三维视角的图模型；同时利用语义分割算法，识别人体轮廓，用于表示人体姿态信息。利用深度图生成算法生成原图片的深度图(Depth Map)，估算图片中各个像素点到摄像机中心的距离。利用目标检测算法提取各类物体的边界框的同时，保留在此过程中得到的各类物体的特征向量，并保存其边界框的坐标，用于构建环境对象交互关系。背景图片指的是遮挡人与各类物体之后图片的留存部分，它可用于提取情绪识别的全局场景上下文信息。

对完整的面部图片进行预处理操作，包括灰度化、人脸检测、人脸对齐等，保存预处理后的图片。对于利用语义分割算法得到的人体轮廓信息，使用ViT提取人体姿态所表示的情绪信息；

对利用目标检测算法检测出的各类物体结合深度图(Depth Map)构建与人之间的联系，构建基于三维视角的环境对象关系的图表示，利用GCN学习图表示的情绪信息；

对背景图片，需要将利用语义分割算法检测的人体轮廓进行遮挡，避免模型学习到人的身体信息而对环境情绪信息的提取造成影响，输入到ViT中提取全局上下文特征；

对四类不同的情绪特征，通过使用基于特征融合的方法，将面部特征、身体姿态特征、三维视角的环境对象关系的图表示特征以及全局上下文关系特征进行连接，得到新的上下文情绪特征，在模型最后添加全连接层，将上下文情绪特征向量输入到全连接层，得到情绪分类结果。

作为一种实施例，构建基于三维视角的环境对象关系的图表示的方法如下：

步骤S1：Faster-RCNN用于图像I中对象的目标检测，检测图像中每个对象(obj)的位置。设obj_i表示Faster-RCNN检测到的第i个对象，设Faster-RCNN检测后obj_i的边界框左上角坐标为

右下角坐标为

通过设置这个边界框的中点坐标为obj_i的位置，该位置的计算方法如下：

其中

是图像I中obj_i的位置坐标。

步骤S2：使用OpenFace工具箱提取图像中人物的凝视角度。使用OpenFace提取的凝视角(ga)由两个部分组成，一个是表示左右凝视角的ga_x，另一个是表示上下凝视角的ga_y，以上两个变量都用弧度表示。在图片上建立三维坐标表示规则，图片宽度的方向为x轴的正方向，图片相对高度的方向为y轴的正方向，与两轴正交的方向为z轴，基于这三个坐标轴构建3DVG(3D View Graph)。3DVG定义的第一个节点是它的中心节点N_agent，即人的身体节点，用人面中心位置的坐标作为中心节点的坐标pst_agent，用Faster RCNN提取的agent区域的特征X_agent作为该中心节点的特征。相似地，将图像中检测到的每个对象作为3DVG的一个节点，即

在对图片区域进行对象检测时，Faster-RCNN的卷积模块在每个对象候选区域生成一个向量特征

在构造3DVG时作为obj_i的节点特征。下面对agent与各obj之间的关系进行建模，即构建3DVG的边。

如前所述，OpenFace提取的视角ga由两个分量组成，即ga＝(ga_x,ga_y)。其中ga_x为正，如果人的视点偏向xOz平面x轴的正方向，否则为负，0°为与z轴方向相同。类似地，如果人的视点偏向于yOz平面y轴的正方向，即从上面向下看，ga_y为正，否则为负，当方向与z轴相同时为0°。以上两个角都是视线与z轴正方向的夹角。此外，表示ga方向的向量a_ga可以用两个角(ga_x,ga_y)来计算，原点即(0,0,0)作为a_ga的起点。设a_ga在xOz平面上的投影为单位向量u，设a_ga在yOz平面上的投影为向量v，从ga_x,ga_y计算这两个向量的坐标。

u＝(singa_x,0,cosga_x) (2)

v_y＝cosga_x×tanga_y (3)

v＝(0,v_y,cosga_x) (4)

其中v_y表示向量v的y轴坐标。根据这两个投影向量，可以得到表示ga方向的向量a_ga:

a_ga＝(singa_x,v_y,cosga_x)＝(singa_x,cosga_x×tanga_y,cosga_x)(5)

步骤S3：进一步构建从人到图像中其他物体的三维方向向量。MegaDepth算法用于生成深度图，它表示图像中每个像素与相机的相对距离，像素与相机的相对距离越远，其在深度图中的像素值越低。

设图像I的深度图为I_depth，在Faster-RCNN的帮助下对图像进行对象检测时获得每个obj的边界框。上面提到的对象obj_i的中心坐标

的欧氏距离是使用agent的质心坐标pst_agent计算的，设为dis_ao。接下来，使用I_depth构造3D坐标系中的obj_i坐标。首先，{obj}_i的x轴和y轴坐标分别是

的x轴和y轴坐标。其次，如前所述，I_depth用像素值表示像素到相机的距离。设I_depth中obj_i的中心点像素值为

则obj_i的z在坐标系中的表示如下：

其中，

表示人的中心在I_depth处的像素值，由上式可知，当obj_i在人的前面时，

为正，否则为负。这个赋值也与前面提到的凝视方向向量a_ga的构造过程一致。为便于计算，取人的坐标所在平面为xOy平面，即z轴值为0，即人的坐标为(x_agent,y_agent,0)。计算人与obj_i在3D坐标下的欧氏距离dis_i：

其中dis_ao为二维坐标系中人与obj_i之间的欧氏距离，利用毕达哥拉斯定理不难得到上述公式。从人指向obj_i的向量可以表示为：

步骤S4：图结构中N_agent和

之间的关系(即边)用凝视方向向量a_ga，dis_i和v_i表示。由于a_ga与v_i的夹角越小，两者之间的关系越密切，即人的注视方向的对象对其情绪的影响越深。考虑余弦函数在[0,π]范围内是单调的，N_agent和

之间的边权w_i计算公式如下：

其中cosθ是向量a_ga和v_i之间夹角的余弦，

是一个权重分配项，目的是在构造图时使对象更接近人时被分配更大的权重，n表示图中对象的数量。

步骤S5：基于上面得到的数据构建3DVG，利用图卷积神经网络学习图中的情感特征。令G＝{V,E,X}，其中，

表示G中的节点集，由图片中检测到的对象组成；E＝{e₁,e₂,…,e_m}表示G中边的集合，由w_i组成；

表示节点的特征向量矩阵，包含n+1个节点，每个节点的特征长度为l。为每张图片构建的图结构G＝{V,E,X}被输入到图卷积神经网络中，以学习情感特征f_{c_r}。

进一步地，完成4类特征的提取后，分别将个人情绪特征(即面部表情特征、人体姿态情绪特征)和场景上下文信息(即环境对象交互关系情绪特征、全局上下文情绪特征)进行连接，形成个人情绪特征ef_p和场景上下文情绪特征ef_c。为了融合ef_p和ef_c，抑制情绪无关信息，引入乘法融合算法，它的计算公式如下所示：

其中n为被考虑的特征总数，在本发明中为2，

为第i^th模态网络给出的情感类e的预测情绪类型。

进一步地，训练好的上下文感知的情绪识别系统包括五个部分，分别为数据获取模块、面部表情特征提取模块、人体姿态情绪特征提取模块、环境对象交互关系情绪特征提取模块、全局上下文情绪特征提取模块和情绪特征融合模块，网络结构选择基于ViT的图片信息提取模型以及基于GCN的图结构特征提取模型进行构建；

进一步地，训练所述模型包括：

步骤Q1：设置超参数，确定学习率、Batch size、Dropout等超参数；

步骤Q2：将训练数据输入至上述各个模块进行预处理，包括人脸检测、人体语义分割、目标检测、深度图生成等；

步骤Q3：建立环境对象交互关系的图结构表示；

步骤Q4：构建深度神经网络模型，包括确定ViT的层数、GCN的层数以及构建融合网络。

步骤Q5：训练构建的多通道网络模型。

实施例2

本公开的一种实施例中提供了一种上下文感知的情绪识别系统，包括：

实施例3

本公开的一种实施例中提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如所述的一种上下文感知的情绪识别方法。

实施例4

以上实施例二、三和四的系统中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种上下文感知的情绪识别方法，其特征在于，包括：

2.如权利要求1所述的一种上下文感知的情绪识别方法，其特征在于，所述预处理包括：对人物图像中的面部图片进行灰度化、人脸检测以及人脸对齐操作后保存。

3.如权利要求1所述的一种上下文感知的情绪识别方法，其特征在于，所述面部情绪特征提取方式为：利用人脸检测算法提取场景中的人脸图像，输入到ViT模型中提取面部中包含的情绪信息，得到面部情绪信息的特征向量。

4.如权利要求1所述的一种上下文感知的情绪识别方法，其特征在于，所述人体姿态特征提取方式为：利用语义分割算法提取人体轮廓信息，将人体轮廓信息输入至ViT模型获得其人体姿态情绪表示的特征向量。

5.如权利要求1所述的一种上下文感知的情绪识别方法，其特征在于，所述环境对象交互关系构建方式为：检测人脸的朝向、视线信息，通过目标检测算法获取物体图像中所有对象的位置，并利用深度图生成算法生成图片的深度图，结合目标检测算法得到图片中对象的位置，计算得出各个对象与摄像机之间的距离，然后构建环境对象交互关系的图表示，将图结构表示输入到GCN中，提取环境对象交互关系的情绪特征向量。

6.如权利要求1所述的一种上下文感知的情绪识别方法，其特征在于，所述基于背景图像提取全局场景上下文信息特征的方式为：补全环境对象交互关系中忽略的全局场景信息，聚焦视觉背景对情绪的影响，将遮挡人体的图片输入至ViT网络中，获得全局上下文特征表示向量。

7.如权利要求1所述的一种上下文感知的情绪识别方法，其特征在于，所述将面部情绪特征、人体姿态特征、三维视角的环境对象交互关系以及全局场景上下文关系特征进行融合的过程为：将面部情绪表示的特征向量、人体姿态情绪表示的特征向量、环境对象交互关系的情绪特征向量、全局上下文情绪表示的特征向量连接，得到新的上下文感知的情绪特征向量并输入至全连接层，进行图片的情绪分类。

8.一种上下文感知的情绪识别系统，其特征在于，包括：

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如权利要求1-7任一项所述的一种上下文感知的情绪识别方法。

10.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如权利要求1-7任一项所述的一种上下文感知的情绪识别方法。