CN113076905B

CN113076905B - 一种基于上下文交互关系的情绪识别方法

Info

Publication number: CN113076905B
Application number: CN202110409400.8A
Authority: CN
Inventors: 李新鹏; 丁长兴
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-12-16
Anticipated expiration: 2041-04-16
Also published as: CN113076905A

Abstract

本发明公开了一种基于上下文交互关系的情绪识别方法，该方法步骤包括：将表情数据集通过人脸检测和人体识别得到人脸和身体的边界框；利用人脸和身体的边界框对图片进行预处理，同时将边界框生成空间掩码，得到人脸、身体和场景三类图片；将预处理图像分别输入至预训练的三个支路网络提取特征，其中上下文交互模块插入到网络的第二层和第四层，在交互模块中其余支路的特征加权融合到各个支路上；分别联合人脸情绪特征、身体情绪特征和场景情绪特征进行表情分类，形成基于上下文交互关系的情绪识别模型。本发明提升了上下文的特征表达能力和抑制上下文存在的噪声，解决了独立提取上下文特征时的情绪不确定性和噪声的问题，使情绪识别的准确率更高。

Description

一种基于上下文交互关系的情绪识别方法

技术领域

本发明涉及图像处理与识别技术领域，具体涉及一种基于上下文交互关系的情绪识别方法。

背景技术

自动情绪识别技术是令机器拥有感知人类情绪状态的能力，在需要监控人类的环境下有许多应用，包括教育、医疗和娱乐。当前主流的情绪标签模型，包含类别标签和维度标签，类别标签主要指基本情绪：生气、幸福、惊讶、厌恶、伤心和害怕，维度标签主要是指唤醒维度和正负维度组成的情绪坐标空间。

人类表情是最能体现情绪的特征之一，Ekman认为人类表情具有共性，因此研究者们之分重视从人脸表情提取情绪信息。2020年，Chen提出用标签分布学习(LDL)的学习范式来缓解在面部表情识别数据集中广泛存在的标注不一致问题。该学习范式允许将具有不同强度的多个标签关联到单个表情，提出了一种名为“辅助标签空间图上的标签分布学习”(LDL-ALSG)的新颖方法，利用了相关的任务(例如动作单元识别和面部标志检测)的标签拓扑信息来制作标签分布。Wang为了解决由于不明确的面部表情，低质量的面部图像和注释者的主观性导致的不确定性，提出了一种简单而有效的SelfCure Network(SCN)，该网络可以有效地抑制不确定性并防止深度网络过度拟合不确定的面部图像。具体而言，SCN从两个不同方面抑制了不确定性：1)在小批量生产中采用自我注意机制，以排名正则化对每个训练样本进行加权；2)谨慎的重新标记机制，修改这些低排位样本的标签。

2019年，Shen认为肢体手势是“肢体语言”的重要组成部分，介绍了一项探索性实验，目的是仅从手势中使用深度学习来识别情绪；Sapi′nski认为身体运动在自动情绪分析中被低估了，提出了一种利用身体运动来识别七个基本情绪状态(即快乐，悲伤，惊奇，恐惧，愤怒，厌恶和中立)的新颖方法，所提出的算法基于从跟踪的骨骼中关节的空间位置和方向推断出的低级特征，创建了情感运动的顺序模型。2020年，Luo认为人类天生就准备具备从微妙的肢体动作中理解他人情感表达的能力，并提出了一种可扩展且可靠的众包方法，用于收集在野生环境中感知到的情感数据，以供计算机学习识别人类的肢体语言。为此，创建了一个庞大且不断增长的带注释的数据集，其中包含9,876个人体动作视频剪辑和13,239个人类角色，名为BoLD(肢体语言数据集)。

对于真实场景下的图片，头部和头部可能受到遮挡模糊等外部干扰和表意不清等内部噪声，都不足以清晰地表达情绪时，研究者们关注到从场景中提取情绪信息，提升情绪识别准确率。2019年，Lee提出用于情境感知的情感识别的深层网络CAERNet，该网络不仅利用人的面部表情，而且还以联合和增强的方式利用了情境信息，其关键思想是将人脸隐藏在视觉场景中，并基于注意力机制寻求其他上下文。该网络由两个子网组成，其中包括分别提取面部和上下文区域特征的编码网络，以及以自适应方式融合这些特征的自适应融合网络。2020年，Mittal提出了EmotiCon，用于从视频和图像中识别上下文感知的人类情感。受心理学的弗雷格的情境原理启发，结合了三种情境解释来进行情感识别，分别是：脸部和步态多模态，使用自注意力机制编码的语义上下文，代表社会互动的深度图，在EMOTIC数据集的平均精确度(AP)得分为35.48。

当前情绪识别的工作结合上下文信息提取情绪线索，但主要从头部、身体和场景单独提取情绪线索，忽略了上下文情绪的交互关系，导致身体或者场景的情绪不确定性增强，降低模型的预测能力。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于上下文交互关系的情绪识别方法，在现有的多支路情绪特征提取的基础上，创建可插入的能捕捉上下文关系的上下文交互模块，其将各支路的特征融合在一起，使得现有网络能同时考虑多个支路的交互关系，提升特征的有效性；此外，为了压制其余支路的噪声和增强有效的特征，本发明通过相似性加权的办法来融合各个支路的特征；对于某个支路而言，本发明不仅加入它与其余支路的交互关系，还加入各支路两两之间的交互关系，在模型效果上取得进一步提升。

本发明的第二目的在于提供一种基于上下文交互关系的情绪识别方法。

本发明的第三目的在于提供一种存储介质。

本发明的第四目的在于提供一种计算设备。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于上下文交互关系的情绪识别方法，包括下述步骤：

对数据集中的图片进行人脸检测和人体检测，得到人脸边界框和人体边界框；

基于所述人脸边界框和人体边界框对图片进行预处理，将每张真实图片分割成人脸图片、具有掩码的身体图片和具有掩码的场景图片；

将人脸图片、身体图片和场景图片进行随机裁剪、缩放和数据归一化，作为训练图像元组；

构建基准神经网络，包括三个相同的ResNet18网络和一个分类全连接层，用于深度情绪特征的提取和分类，

采用ImageNet预训练参数对基准神经网络进行初始化，对基准神经网络的分类器采用随机初始化；

构建用于捕捉交互关系的交互模块，包括特征融合部分和相似度量部分，所述特征融合部分用于融合人脸、身体和场景特征，所述相似度量部分用于求通道特征间相似矩阵；

对交互模块的参数采用随机初始化和常数初始化，将交互模块插入到基准神经网络的第二层和第四层；

采用基准神经网络提取得到人脸、身体和场景三个支路的特征，将人脸、身体和场景三个支路的特征在通道维度进行拼接，并采用线性组合的方式融合成三组交互特征，将其中两组交互特征在通道维度内积，得到相似性矩阵，矩阵的每个元素代表交互特征内两个通道特征之间的相似度，将相似性矩阵与第三组交互特征在通道维度相乘，使得第三组交互特征内的通道特征经过相似加权融合，并且作为交互特征加入到人脸、身体和场景支路，联合人脸特征、身体特征和场景特征进行表情分类；

将训练图像元组输入插有交互模块的基准神经网络，得到预测分数，结合二分类交叉熵损失函数进行损失计算和梯度计算，并通过反向传播同时更新基准神经网络和交互模块的参数；

将待测图像输入插有交互模块的基准神经网络得到预测分数，所述预测分数超过设定值阈值时，判定出现对应的情绪类别。

作为优选的技术方案，所述对数据集中的图片进行人脸检测和人体检测，具体包括下述步骤：

若在识别中不存在人体边界框或者人脸边界框，则设定该人体边界框的左上横坐标、左上纵坐标、右下横坐标、右下纵坐标分别为0.25倍图像宽度、0.25倍图像高度、0.75倍图像宽度、0.75倍图像高度，人脸边界框的左上横坐标、左上纵坐标、右下横坐标、右下纵坐标分别为0.375倍图像宽度、0.375倍图像高度、0.625倍图像宽度、0.625倍图像高度；

若存在单个人体边界框和人脸边界框，则裁剪出人体边界框的参考人体数据和人脸边界框内的参考人脸数据，保留人体关键点和人脸关键点数据；

若存在多个人体边界框和人脸边界框，则裁剪出其中面积最大人体边界框内的参考人体数据和其中面积最大人脸边界框内的参考人脸数据，保留人体关键点和人脸关键点数据。

作为优选的技术方案，所述基于所述人脸边界框和人体边界框对图片进行预处理，具体步骤包括：

基于所述人脸边界框和人体边界框得到人脸图像和人体图像，将人脸图像处于人脸边界框内的元素修改为0，处于人脸边界框外的元素保持不变，得到掩盖头部的身体图片，将人体图像处于人体边界框内的元素修改为0，处于人体边界框外的元素保持不变，得到掩盖人体的场景图片。

作为优选的技术方案，每个ResNet18网络包括多个网络层，每个网络层设有多个基础块，每个基础块由卷积层和跳跃连接组成，在所有网络层之前是卷积层和最大池化层，在所有网络层之后是平均池化层；

所述人脸图片、具有掩码的身体图片和具有掩码的场景图片输入到ResNet18网络，经过卷积层和最大池化，再依次经过多个网络层，经过全局平均池化得到人脸、身体和场景的特征向量，将三个特征向量拼接起来作为总的特征向量；

总的特征向量经过分类器全连接层，输出多维的分数向量，代表着多类表情中每类表情出现的概率。

作为优选的技术方案，所述对交互模块的参数采用随机初始化和常数初始化，具体步骤包括：

交互模块的卷积层中的权重参数采用正态分布初始化，均值设置为0并且令正向传播时方差一致，偏置参数初始化为常数0；

最后一个卷积层的权重参数采用常数0初始化，批归一化层中的权重参数初始化为均值等于1、标准差等于0.02的正态分布，偏置参数初始化为常数0。

作为优选的技术方案，所述将人脸、身体和场景三个支路的特征在通道维度进行拼接，并采用线性组合的方式融合成三组交互特征，具体步骤包括：

将人脸、身体和场景的特征拼接后得到拼接特征X，采用带有d*C个卷积核的卷积层进行处理得到通道特征V、通道特征Q、通道特征K，采用带有C个卷积核的卷积层将通道特征V转换成线性组合特征Y，

所述将其中两组交互特征在通道维度内积，得到相似性矩阵，具体步骤包括：

将通道特征V、通道特征Q、通道特征K沿通道方向变形成矩阵的形式，并转置通道特征Q的矩阵，将通道特征K的矩阵与通道特征Q的矩阵相乘，得到矩阵W，矩阵的每个元素代表K和Q两个通道特征做内积求得的相似度；

所述将相似性矩阵与第三组交互特征在通道维度相乘，使得第三组交互特征内的通道特征经过相似加权融合，具体步骤包括：

矩阵W的数值除以矩阵的第二维度的平方根，并且采用softmax函数在第二维度归一化；

采用矩阵W乘以通道特征V的矩阵进行相似加权融合，经过卷积层转换成交互矩阵；

其中，X∈R^3CxHxW，V∈R^dCxHxW，Q∈R^dCxHxW，K∈R^dCxHxW，Y∈R^CxHxW，C，H和W分别是特征的通道数、高度和宽度，d表示用于调节卷积核数量的乘子。

作为优选的技术方案，所述二分类交叉熵损失函数具体计算公式为：

L(x，y)＝L＝{l₁，...，l_N}^T

l_n＝-[y_n·logx_n+(1-y_n)·log(1-x_n)]

其中，x＝{x₁，...，x_N}^T表示预测的分数，y＝{y₁，...，y_N}^T表示真实的标签，L＝{l₁，...，l_N}^T表示预测分数和真实标签的损失，下标n表示第n个元素。

为了达到上述第二目的，本发明采用以下技术方案：

本发明提供一种基于上下文交互关系的情绪识别系统，包括：边界框提取模块、图片预处理模块、训练图像元组构建模块、基准神经网络构建模块、基准神经网络初始化模块、交互模块构建模块、交互模块初始化模块、特征拼接融合模块、训练模块和测试模块；

所述边界框提取模块用于对数据集中的图片进行人脸检测和人体检测，得到人脸边界框和人体边界框；

所述图片预处理模块用于对所述人脸边界框和人体边界框对图片进行预处理，将每张真实图片分割成人脸图片、具有掩码的身体图片和具有掩码的场景图片；

所述训练图像元组构建模块用于将人脸图片、身体图片和场景图片进行随机裁剪、缩放和数据归一化，构建训练图像元组；

所述基准神经网络构建模块用于构建基准神经网络，包括三个相同的ResNet18网络和一个分类全连接层，用于深度情绪特征的提取和分类，

所述基准神经网络初始化模块用于采用ImageNet预训练参数对基准神经网络进行初始化，对基准神经网络的分类器采用随机初始化；

所述交互模块构建模块用于构建捕捉交互关系的交互模块，包括特征融合部分和相似度量部分，所述特征融合部分用于融合人脸、身体和场景特征，所述相似度量部分用于求通道特征间相似矩阵；

所述交互模块初始化模块用于对交互模块的参数采用随机初始化和常数初始化，将交互模块插入到基准神经网络的第二层和第四层；

所述特征拼接融合模块用于采用基准神经网络提取得到人脸、身体和场景三个支路的特征，将人脸、身体和场景三个支路的特征在通道维度进行拼接，并采用线性组合的方式融合成三组交互特征，将其中两组交互特征在通道维度内积，得到相似性矩阵，矩阵的每个元素代表交互特征内两个通道特征之间的相似度，将相似性矩阵与第三组交互特征在通道维度相乘，使得第三组交互特征内的通道特征经过相似加权融合，并且作为交互特征加入到人脸、身体和场景支路，联合人脸特征、身体特征和场景特征进行表情分类；

所述训练模块用于将训练图像元组输入插有交互模块的基准神经网络，得到预测分数，结合二分类交叉熵损失函数进行损失计算和梯度计算，并通过反向传播同时更新基准神经网络和交互模块的参数；

所述测试模块用于将待测图像输入插有交互模块的基准神经网络得到预测分数，所述预测分数超过设定值阈值时，判定出现对应的情绪类别。

为了达到上述第三目的，本发明采用以下技术方案：

一种存储介质，存储有程序，所述程序被处理器执行时实现如上述基于上下文交互关系的情绪识别方法。

为了达到上述第四目的，本发明采用以下技术方案：

一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现如上述基于上下文交互关系的情绪识别方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明采用线性组合的技术方案来利用人脸、身体和场景三个支路的交互关系，具体来说，通过将人脸、身体和场景的特征在通道维度进行拼接，并且由线性组合的方式融合成交互特征，该交互特征被加入到各个支路，通过线性组合，交互特征同时考虑人脸、身体和场景的信息，被认为考虑到三个支路特征的交互关系；这种方案解决了当前技术中各支路仅仅考虑自己支路信息，而忽略其余支路的问题，并且在EMOTIC公开数据集上提升0.17％的效果，验证了该解决方案的有效性，证明交互关系的重要性。

(2)本发明采用相似性加权的技术方案来抑制交互特征的噪声而提升有效的特征，具体来说，将人脸、身体和场景三个支路的特征在通道维度拼接和线性组合，得到三组交互特征，将其中两组交互特征在通道维度内积，得到相似性矩阵，矩阵的每个元素代表交互特征内两个通道特征之间的相似度，将相似性矩阵与第三组交互特征在通道维度相乘，使得第三组交互特征内的通道特征经过相似加权融合；这个过程可以被理解为，某个通道特征与另一个通道特征相似，意味着交互噪声更小，被赋予更大的权重与另一个通道特征相加融合，因此令第三组交互特征的噪声被抑制，并且作为交互特征加入到人脸、身体和场景支路，这种方案缓解了交互特征存在噪声的问题，并且在EMOTIC公开数据集上提升0.40％的效果，验证了该解决方案的有效性，证明相似加权交互信息的重要性。

(3)本发明采用全局融合的技术方案来进一步得到更有效更丰富的交互特征；具体来说，将人脸、身体和场景三个支路的特征在通道维度拼接和线性组合，并且经过相似加权后得到交互信息，将整个交互信息加入到各支路而不是局部交互信息加入到各支路，这意味着，不仅考虑某个支路与其余支路的交互，还考虑所有支路两两之间的交互，称之为全局交互信息，这种方案缓解了交互特征不够丰富有效的问题，并且在EMOTIC公开数据集上提升0.43％的效果，验证了该解决方案的有效性，证明全局相似加权交互信息的重要性。

附图说明

图1为本实施例基于上下文交互关系的情绪识别方法的流程示意图；

图2为本实施例基于上下文交互关系的情绪识别方法的交互模块结构示意图；

图3为本实施例基于上下文交互关系的情绪识别方法的整体框架图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

如图1所示，本实施例提供一种基于上下文交互关系的情绪识别方法，包括下述步骤：

S1：对收集的数据集中每张图片进行检测，包括人脸检测和人体检测，得到人脸边界框和人体边界框；

在本实施例中，用OpenPose进行人体bounding box检测和key point检测和使用OpenFace进行人脸bounding box检测和key point检测；

若在识别中不存在人体边界框或者人脸边界框，则设定该人体边界框的坐标[左上横坐标，左上纵坐标，右下横坐标，右下纵坐标]为[0.25倍图像宽度，0.25倍图像高度，0.75倍图像宽度，0.75倍图像高度]，人脸边界框的坐标[左上横坐标，左上纵坐标，右下横坐标，右下纵坐标]为[0.375倍图像宽度，0.375倍图像高度，0.625倍图像宽度，0.625倍图像高度]；

S2：利用人脸边界框和人体边界框将每张真实图片分割成人脸图片、具有掩码的身体图片和具有掩码的场景图片；

在本实施例中，为更有效地提取各个上下文的情绪语义信息，选择将各个上下文隔离，具体表现为将整张图片分割成人脸图片、掩盖头部的身体图片和掩盖身体的场景图片。

首先，给定一张输入图片，从步骤S1得到相应的人体边界框或人脸边界框，剪切图片中除人脸边界框外的部分得到人脸图像，剪切图片中除人体边界框外的部分得到人体图像，整张图片被当作场景图像。

接着，对于人脸图像而言，处于人脸边界框内的元素修改为0，处于人脸边界框外的元素保持不变，得到掩盖头部的身体图片；对于场景图像而言，处于人体边界框内的元素修改为0，处于人体边界框外的元素保持不变，得到掩盖人体的场景图片。

S3：将人脸图片、身体图片和场景图片进行随机裁剪、缩放和数据归一化，作为训练的图像元组；

在本实施例中，为使得网络训练更加有效，进行一系列的预处理操作，给定一张图片，随机裁剪是指在原图像的基础上裁剪到指定大小，缩放归一化是指缩放到统一尺寸，数据归一化是将图片像素值缩放到[-1,1]。

S4：构建基准神经网络，包括三个相同的ResNet18和一个分类全连接层，用于深度情绪特征的提取和分类；

在本实施例中，需要选择合适的网络，使得训练过程既不过拟合又不欠拟合，数据集的图片数量在2万张左右，本实施例选择参数量总共为138M的三个ResNet18作为特征提取神经网络。

每个ResNet18由4个网络层组成，每个网络层包含2个基础块，每个基础块由两个3x3尺寸的卷积层和跳跃连接组成，在所有网络层之前是1个卷积层和最大池化层，在所有网络层之后是平均池化层。人脸、身体和场景图像分别输入到ResNet18，首先经过1个卷积层和最大池化，再依次经过4个网络层，经过全局平均池化得到人脸、身体和场景的特征向量，将三个特征向量拼接起来作为总的特征向量。

最后的特征向量经过分类器全连接层，输出26维的分数向量，代表着26类表情中每类表情出现的概率。

S5：对基准神经网络的特征提取网络的参数采用ImageNet预训练参数进行初始化，对基准神经网络的分类器采用随机初始化；

在本实施例中，由于数据集的大小有限，从头开始训练模型是有难度的，因此借鉴迁移学习的方法，利用ImageNet大型数据集训练，并将训练得到的参数初始化特征提取网络的参数，而分类器的参数采用随机初始化。

S6：构建捕捉交互关系的交互模块，称为ICM，由特征融合部分和相似度量部分组成。特征融合部分用于融合人脸、身体和场景特征，相似度量部分用于求通道特征间相似矩阵；

在本实施例中，首先将人脸、身体和场景的特征拼接一起，得到X∈R^3CxHxW，其中C，H和W分别是特征的通道数、高度和宽度。

如图2所示，图中的(a)Feature Fusion表示特征融合部分，使用带有d*C个卷积核的卷积层来处理X，得到V∈R^dCxHxW，然后使用带有C个卷积核的卷积层将V转换成Y∈R^CxHxW。其中，d是用于调节卷积核数量的乘子，所有的卷积核尺寸被设置为1x1。Y作为交互特征被加入到各个支路，Y是输入特征的线性组合，同时考虑人脸、身体和场景的信息，被认为考虑到三个支路特征的交互关系。

为了全面提升有用的交互信息和压缩噪声，交互模块考虑一个可学习的交互矩阵来加权以上的融合，如图2所示，图中的(b)Correlation Measure表示相似度量部分。首先，使用计算V的方式得到Q∈R^dCxHxW和K∈R^dCxHxW；接着为方便计算，将Q、K和V沿通道方向变形成矩阵的形式，尺寸为dC x HW。为了得到一个相似矩阵，转置Q，将K和Q做矩阵相乘，得到W∈R^dCxdC。矩阵的每个元素代表K和Q两个通道特征做内积求得的相似度。接着，W的数值除以矩阵的第二维度的平方根，并且由softmax函数来在第二维度归一化。直观地看，W是一个可习得的相似矩阵，来度量两个通道特征之间的相似度。W中的值越大，意味着更相似和更多的交互。接着，使用W来乘以V，由此V的通道特征经过相似加权融合。这个过程可以被理解为，某个通道特征与另一个通道特征相似，意味着交互噪声更小，被赋予更大的权重与另一个通道特征相加融合，因此令V的交互特征的噪声被抑制。最终，加权融合后的V被变形成张量的形式，并且由相同的卷积层来转换成Y。这样的策略使得Y中的交互信息更加有质量。

S7：对交互模块的参数采用随机初始化和常数初始化；

在本实施例中，交互模块的卷积层中的权重参数除最后一个卷积层外，均采用提出的正态分布初始化，均值设置为0并且令正向传播时方差一致，偏置参数初始化为常数0；而最后一个卷积层的权重参数采用常数0初始化；批归一化层中的权重参数初始化为均值等于1、标准差等于0.02的正态分布，偏置参数初始化为常数0；

S8：如图3所示，将交互模块插入基准神经网络的合适位置，当前合适的位置是基准神经网络的第二层和第四层，在交互模块中其余支路的特征加权融合到各个支路上；

S9：将训练集中的图像元组输入插有交互模块的基准神经网络，得到预测分数，结合二分类交叉熵损失函数进行损失计算和梯度计算，并通过反向传播同时更新基准神经网络和交互模块的参数；

在本实施例中，将训练集中的图像元组输入插有交互模块的基准神经网络，得到每个类的预测分数，二分类交叉熵损失函数BCE的计算方法如下所示：

L(x，y)＝L＝{l₁，...，l_N}^T

l_n＝-[y_n·logx_n+(1-y_n)·log(1-x_n)]

其中，x＝{x₁，...，x_N}^T是预测的分数，y＝{y₁，...，y_N}^T是真实的标签，L＝{l₁，...，l_N}^T是预测分数和真实标签的损失，下标n代表第n个元素。

通过反向传播算法，能够计算出每个参数的梯度，进一步利用小批量随机梯度下降法更新参数，得到最优的模型。具体的设置为：批尺寸固定为32，除插入模块和分类器初始学习率为0.0001，插入模块和分类器学习率为0.001，总共训练10个epoch，分别在第5、7、8个epoch时分别使用学习率退火策略，将学习率下降为前次学习率的0.1，在每个epoch结束时保存训练的模型文件；

S10：将待测图像输入插有交互模块的基准神经网络得到预测分数，一般情况下当某个类别的分数超过阈值0.5，则认为图像出现该情绪类别；

在本实施例中，使用训练好的基准神经网络和交互模块，对待测图像进行特征提取，将人脸、身体和场景的特征拼接起来，经过分类器得到预测分数，一般情况下当某个分数超过阈值0.5，则认为对应的情绪类别出现，也可根据特定场景设置阈值。

为了验证本发明的有效性，在EMOTIC公开情绪数据集上进行了实验，采用meanAverage Precision(mAP)的衡量标准，其计算方法为：首先得到所有样本每一类的confidence score，再对confidence score进行排序，针对标签中每一类计算出precision和recall，对不同recall下的precision取平均得到一类的average precision，最终对每个类别的average precision取平均得到最终的效果。需要注意的是，如何针对precision和recall得到average precision是关键，一般来说需要知道top1-topN(N是所有测试样本个数)对应的precision和recall来取平均。

如下表1所示，表1包含在EMOTIC数据集的不同交互模块的训练结果，由此证明交互模块设计的合理性。Baseline指基准模型，Linear fusion指线性组合的交互方式，Correlation weighted fusion指交互加权组合的交互方式，Global correlationweighted fusion指多重交互加权组合的交互方式。

表1不同交互模块的性能对比表

Methods	EMOTIC(mAP％)
		Baseline	33.33±0.06
Linear fusion	33.71±0.14.
		Correlation weighted fusion	34.17±0.25
Global correlation weighted fusion	34.33±0.03

由上表中可以看出：线性融合的方式能捕捉到交互关系，并且提升准确率，证明交互关系对情绪识别是有帮助的；相比线性融合的方式，交互加权融合能够有效地抑制不利的交互关系，认为两个特征之间的内积值越大说明交互程度越高，因此特征乘以内积值后再融合的方式能更有效地捕捉交互关系，从实验上看准确率得到进一步提升；相比以上几种融合包含某个特征与其余特征的融合，全局交互加权融合包含所有特征之间的两两融合，因此有更加丰富的交互信息，从实验上看出准确率得到进一步提升。

如下表2所示，本发明与当前最好效果的已发表方法在EMOTIC上的结果进行对比，由此证明本发明的情绪识别算法的有效性。

其中，Kosti为TPAMI期刊的文章，提出EMOTIC数据集和基础网络；Mittal为CVPR会议的文章，提出Emoticon用于包含社交关系的上下文信息的情绪识别；Ours是本章提出的捕捉上下文交互关系的情绪识别网络。

表2本发明与其它方法在EMOTIC上的对比数据表

	EMOTIC(mAP％)
		Kosti	27.38
Mittal	35.48
		CIM-CNN	34.33

实验结果表明，本发明提出的方法能有效地超过原数据集上的效果并且达到与最好方法相似的效果，这说明本发明所提出方法的有效性，而且证明交互关系对情绪识别是有帮助的；值得一提，Mittal使用额外的工具来检测出深度图，因此比本发明的方法效果更好一些，但是技术更加复杂。

实施例2

本实施例提供一种基于上下文交互关系的情绪识别系统，包括：边界框提取模块、图片预处理模块、训练图像元组构建模块、基准神经网络构建模块、基准神经网络初始化模块、交互模块构建模块、交互模块初始化模块、特征拼接融合模块、训练模块和测试模块；

在本实施例中，边界框提取模块用于对数据集中的图片进行人脸检测和人体检测，得到人脸边界框和人体边界框；

在本实施例中，图片预处理模块用于对人脸边界框和人体边界框对图片进行预处理，将每张真实图片分割成人脸图片、具有掩码的身体图片和具有掩码的场景图片；

在本实施例中，训练图像元组构建模块用于将人脸图片、身体图片和场景图片进行随机裁剪、缩放和数据归一化，构建训练图像元组；

在本实施例中，基准神经网络构建模块用于构建基准神经网络，包括三个相同的ResNet18网络和一个分类全连接层，用于深度情绪特征的提取和分类，

在本实施例中，基准神经网络初始化模块用于采用ImageNet预训练参数对基准神经网络进行初始化，对基准神经网络的分类器采用随机初始化；

在本实施例中，交互模块构建模块用于构建捕捉交互关系的交互模块，包括特征融合部分和相似度量部分，所述特征融合部分用于融合人脸、身体和场景特征，所述相似度量部分用于求通道特征间相似矩阵；

在本实施例中，交互模块初始化模块用于对交互模块的参数采用随机初始化和常数初始化，将交互模块插入到基准神经网络的第二层和第四层；

在本实施例中，特征拼接融合模块用于采用基准神经网络提取得到人脸、身体和场景三个支路的特征，将人脸、身体和场景三个支路的特征在通道维度进行拼接，并采用线性组合的方式融合成三组交互特征，将其中两组交互特征在通道维度内积，得到相似性矩阵，矩阵的每个元素代表交互特征内两个通道特征之间的相似度，将相似性矩阵与第三组交互特征在通道维度相乘，使得第三组交互特征内的通道特征经过相似加权融合，并且作为交互特征加入到人脸、身体和场景支路，联合人脸特征、身体特征和场景特征进行表情分类；

在本实施例中，训练模块用于将训练图像元组输入插有交互模块的基准神经网络，得到预测分数，结合二分类交叉熵损失函数进行损失计算和梯度计算，并通过反向传播同时更新基准神经网络和交互模块的参数；

在本实施例中，测试模块用于将待测图像输入插有交互模块的基准神经网络得到预测分数，所述预测分数超过设定值阈值时，判定出现对应的情绪类别。

实施例3

本实施例提供一种存储介质，存储介质可以是ROM、RAM、磁盘、光盘等储存介质，该存储介质存储有一个或多个程序，所述程序被处理器执行时，实现实施例1的基于上下文交互关系的情绪识别方法。

实施例4

本实施例提供一种计算设备，所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备，该计算设备包括该计算设备包括处理器和存储器，存储器存储有一个或多个程序，处理器执行存储器存储的程序时，实现实施例1的基于上下文交互关系的情绪识别方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于上下文交互关系的情绪识别方法，其特征在于，包括下述步骤：

所述将人脸、身体和场景三个支路的特征在通道维度进行拼接，并采用线性组合的方式融合成三组交互特征，具体步骤包括：

其中，X∈R^3CxHxW，V∈R^dCxHxW，Q∈R^dCxHxW，K∈R^dCxHxW，Y∈R^CxHxW，C，H和W分别是特征的通道数、高度和宽度，d表示用于调节卷积核数量的乘子；

2.根据权利要求1所述的基于上下文交互关系的情绪识别方法，其特征在于，所述对数据集中的图片进行人脸检测和人体检测，具体包括下述步骤：

3.根据权利要求1所述的基于上下文交互关系的情绪识别方法，其特征在于，所述基于所述人脸边界框和人体边界框对图片进行预处理，具体步骤包括：

4.根据权利要求1所述的基于上下文交互关系的情绪识别方法，其特征在于，每个ResNet18网络包括多个网络层，每个网络层设有多个基础块，每个基础块由卷积层和跳跃连接组成，在所有网络层之前是卷积层和最大池化层，在所有网络层之后是平均池化层；

5.根据权利要求1所述的基于上下文交互关系的情绪识别方法，其特征在于，所述对交互模块的参数采用随机初始化和常数初始化，具体步骤包括：

6.根据权利要求1所述的基于上下文交互关系的情绪识别方法，其特征在于，所述二分类交叉熵损失函数具体计算公式为：

L(x,y)＝L＝{l₁,…,l_N}^T

l_n＝-[y_n·logx_n+(1-y_n)·log(1-x_n)]

其中，x＝{x₁,…,x_N}^T表示预测的分数，y＝{y₁,…,y_N}^T表示真实的标签，L＝{l₁,…,l_N}^T表示预测分数和真实标签的损失，下标n表示第n个元素。

7.一种基于上下文交互关系的情绪识别系统，其特征在于，包括：边界框提取模块、图片预处理模块、训练图像元组构建模块、基准神经网络构建模块、基准神经网络初始化模块、交互模块构建模块、交互模块初始化模块、特征拼接融合模块、训练模块和测试模块；

所述将人脸、身体和场景三个支路的特征在通道维度进行拼接，并采用线性组合的方式融合成三组交互特征，具体包括：

8.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6任一项所述基于上下文交互关系的情绪识别方法。

9.一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现如权利要求1-6任一项所述基于上下文交互关系的情绪识别方法。