CN115410254A

CN115410254A - 一种基于深度学习的多特征表情识别方法

Info

Publication number: CN115410254A
Application number: CN202211031481.3A
Authority: CN
Inventors: 张秀峰; 齐国斌; 张宁; 付兴魁
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-11-29

Abstract

一种基于深度学习的多特征表情识别方法，属于机器学习和深度学习技术领域，包括如下：获取包含人体和环境的清晰图像并进行简单的预处理，将图片压缩到640*640大小或小于这个大小的原色RGB图片，保留颜色通道，这里使用的是公开数据集Emotic表情识别数据集；整体网络的构成为目标检测网络并联场景信息识别网络，最后输出到分类网络，而目标检测网络由主干网络CSPdarknet53，特征提取的特征金字塔结构并联特征增强网络，最后输出人体的位置信息和0/1置信度信息，再送入分类网络和场景信息一起进行分类输出最终结果。本发明使用了多尺度的上下文信息提取模块，上下文注意力模块和内容注意力模块，实现了提升图片前景权重的目的，提升了图片中人的检测比重。

Description

一种基于深度学习的多特征表情识别方法

技术领域

本发明属于机器学习和深度学习技术领域，具体涉及一种基于深度学习的多特征表情识别方法。

背景技术

现有的基于深度学习的表情识别只能识别几种基本表情，且判断的依据通常是根据人体面部的明显的表情变化，对照网络学习的特征进行识别，这就造成了网络对于表情识别中单一面部特征的依赖性，同时笼统的归类为基本表情的一种，在医学上的实用性较小。另外存在一种能够结合声音，动作或者患者年龄信息的表情分析方法，也受限于需要过多的人工手动校准和分析，额外的增加了人力和时间成本，且无法实现自动的、实时的、准确的表情分析。

当今社会，人们的生活工作压力极大，心理问题无法得到正视，诸如双向情感障碍、焦虑、神经衰弱等心理或精神问题在年轻群体中愈发严重，并且针对其诊断通常是借助一定的主观印象确定，再配合医疗手段进行干预。在一般的心理咨询治疗中，通过实时的观察患者的面部变化，记录患者的动作，再加以对患者进行语言交互，从而了解患者的心理和精神状态，这其中需要专业医生定期的进行回访复查，过程过于复杂。而目前还没有一种能够用以心理问题诊断的自动诊断方法，尤其是表情识别。表情识别是心理问题诊断的常用手段之一，是人体表现内心情绪的最直观反应。无论是传统的表情识别，还是现有的一些表情识别方法，使用的都是基本的神经网络模型或深度学习模型，在分类上也是用的是Ekman的基本表情分类方法，更多的是对面部明显特征的识别，诸如五官，肌肉动作等，这确实是人体表情表现的主要方式，但深度学习中使用图片和对应标签进行训练的过程，容易丢失很多特征信息，这就导致使用的图像在特征差距上要大，诸如，开心的时候嘴角上扬要明显，面部整体要有明显的开心特征，深度学习模型在前向传播中才能识别这一类的表情，同时得出的是一种基本表情，诸如生气，惊恐这类比较明显的表情，并且笼统的归类为基本表情的一种，在医学上的实用性较小，心理疾病诊断从来不是使用病人明显的表情作为诊断依据，心理疾病患者通常在情绪表达上较为困难，同时表情变化较为难以捉摸，更多的是结合人在实际行动上的变化，和环境对人的影响，甚至是包含人的年龄，性别等生理特征，才能准确判断人的心理状态。

现有的技术方案，对图片要求较高，图片的质量直接影响识别结果，同时现有方案很少能够实现实时的人脸追踪检测，本方案则使用目标检测网络YOLO的变体解决了这个问题，实现了情绪识别的自动化、任意化和实时化。

现有的技术方案中，常见的是使用卷积神经网络或机器学习作为表情识别模型的主要框架，使用Ekman的表情分类为基本的六种，包含高兴、悲伤、惊讶、愤怒、厌恶、恐惧。这是智能识别领域常用的分类方法，但都是利用纯粹的面部特征来识别基本表情，这就导致了早期表情识别方法的准确率不高，所以在后期的研究中，使用了更多的特征来强化表情识别结果，诸如公开号为CN114783034A的中国发明专利申请，提出一种基于局部敏感特征与全局特征融合的人脸表情识别方法，将人脸分为不同的部分，使用注意力机制模型，对五官部位进行权重的强化，以达到提高识别率的目的，但依旧是一种单模态单特征的识别方法，受面部图片影响较大。公开号为CN114724222A的中国发明专利申请则使用了多模态方法，对面部表情、语音和文本进行随机组合，增强识别随机性，取平均值后得到最终结果，以提升识别率，多模态一定程度上改善了传统的识别方法缺陷，但还是无法实现表情的多种分类和实时识别。现有的更多技术方案在论文表情识别技术综述以及Deep FacialExpression Recognition:A Survey论文中，都有详细叙述，其中表情识别技术综述中提到了现有技术的三方面不足：单模态单特征的表情识别中，数据集的不足和混乱，以及多停留在实验室阶段，识别率低错误率高，不能用于日常生活的局限性；从而引出多模态方法，结合了更多的信息辅助表情识别，以提高表情识别的准确率，但依旧无法解决数据集的各方面问题；这时提出的数据集增强方法和网络模型就更有效的帮助了多模态网络的识别效果，诸如收集更多野外环境数据，让模型能够贴合这种数据方法进行识别，或者使用更多的数据增强方法以及使用生成对抗网络产生由网络学习特征组合的更多数据。

本发明是受到现有技术Emotic数据集(文献：Context Based EmotionRecognition Using EMOTIC Dataset)和Places数据集启发(文献：Places:A 10 millionImage Database for Scene Recognition)，emotic数据集提出了一种在多模态网络中的表情识别分类方法，提供了基于六种基本表情扩展而来的26种细分表情，这26种表情是在心理学书籍和文献中总结出来的人类能够覆盖的所有表情，同时加入了3种连续的表示程度的量，连续维度的情感分类包含了三方面对情绪的描述：Pleasure(P)衡量一个人的情绪的愉快程度，P值的大小表示这个人的情绪由负面的到积极的，是一种比较直接的情绪状态表示方法；Arousal(A)衡量了一个人当前时刻的平静程度，A值的大小表示了这个人是否是处于焦躁的，或者是激动的，或者是无所事事的，能够表示多种情绪状态，是作为类似多动症、抑郁症等疾病的评判标准的参考值；Dominance(D)表示一个人对表情的控制程度，是否能够快速的对自发性表情变化进行控制，用以判断心理或精神对情绪的影响。Places数据集则提出了一种识别场景的方法，场景的识别对表情识别也有很大帮助，因为人在某种特定场景中，某种表情发生的概率是比较大的，这会提高模型在某一分类的权重，同时为模型缩小了结果的识别范围，提高了整体的识别准确率。

现有技术中存在的缺陷：

1、现有的单模态方法，只关注面部变化，而深度学习网络在学习训练过程中容易损失很多的细节，所以面部特征要非常明显，且不能有过多干扰；

2、现有的多模态方法和单模态方法中，使用的表情分类过于笼统，无法表达表情之间的细微差距，只能大致的分为六种表情，过于简单；

3、数据集的质量、数量都过低过少，在训练中，网络不能很好的获得类间特征和差距；

4、现有的方法不能够实现实时的，任意的表情识别，只能使用完整的实验室环境下的图片；

发明内容

为了解决上述存在的问题，本发明结合了人体的动作特征、环境特征和面部表情多种信息，并针对这些信息划分了26种不同的情绪分类，同时包含3种表示当前人体在情绪状态上气场大小、情绪强弱和兴奋程度等连续分类，使用目标检测模型和注意力模型对人体动作和面部表情进行实时的捕捉和检测，使用场景信息、动作信息和表情信息的判断人的当前情绪，实现了在医学领域能够提供一种辅助诊断的方法。本发明提出：一种基于深度学习的多特征表情识别方法，

本发明的有益效果为：本发明创新的提出了一种多模态的表情识别方法，加入了人体动作姿态和场景信息，对情绪进行多方面的判断，并对表情进行更细化的分类，并加入了连续维度判断情绪强度。

本发明创新的使用了目标检测方法和传统卷积网络结合，实现了表情的实时和连续识别。

本发明使用了改进的目标检测网络，这些改进是基于YOLOv3，融合了多尺度池化方法和YOLOX的解耦检测头，提升了目标检测任务的性能。

本发明使用了多尺度的上下文信息提取模块，上下文注意力模块和内容注意力模块，实现了提升图片前景权重的目的，提升了图片中人的检测比重。

采用基于深度学习的多特征表情识别方法，相比较于传统方法中存在的识别率较差、分类不够细致、识别判据较为简单、数据集不足等问题，本发明改变了了传统面部表情识别的方法，对表情识别加入辅助的姿态动作和场景识别，使其对人脸特征的依赖降低，同时提高了表情识别的准确性。同时使用了更加符合医学分类的表情分类方法，使得表情识别结果更细致，不会笼统的将差距较小的图片分为一类。使用的公开数据集Emotic则是综合了各类目标检测任务数据图片的大型数据集，其中包含了完整的人体动作，面部，环境信息，使得网络训练能够获得更多的类间差距，对细微的人体变化也能够学习到相应的特征。这些优点使得整体框架可以在医学领域辅助诊断，提供了非常高准确率的人体表情变化，同时根据大量的心理学、神经系统学、计算机视觉领域的资料，设计了适用于这种情感分析和心理诊断的上下文提取和检测方法，推动了深度学习在心理问题和人体结构进一步研究。

附图说明

图1为本发明人体的清晰图像；

图2为本发明的经过基于深度卷积网络的特征粗处理主干网络处理后输出的三种尺寸的图像特征图，其大小分别为80×80，40×40，20×20；

图3为本发明的基于深度卷积网络的特征粗处理主干网络的结构图；

图4为本发明的基于深度卷积网络的特征提取网络的结构图；

图5为本发明的基于深度空洞卷积和注意力机制的特征增强网络后图像的突出权重的热力图，包含人体面部的特征增强点和身体的姿态特征增强点；

图6为本发明的基于深度空洞卷积和注意力机制的特征增强网络的结构图；

图7为本发明的基于深度卷积网络的多分支输出模块的结构图；

图8为本发明的基于深度卷积网络的场景信息识别网络预训练后的场景信息识别结果状态图；

图9为本发明的特征融合模块对图1中最终识别结果的输出图。

具体实施方式

一种基于深度学习的多特征表情识别方法，如图1-图9所示，包括如下步骤：获取包含人体和环境的清晰图像并进行预处理，将图片压缩到640*640大小或小于这个大小的原色RGB图片，保留颜色通道，使用公开数据集Emotic表情识别数据集；

整体网络的构成为目标检测网络并联场景信息识别网络，最后输出到分类网络，而目标检测网络由主干网络CSPdarknet53，特征提取的特征金字塔结构并联特征增强网络，最后输出人体的位置信息和0/1置信度信息，再送入分类网络和场景信息一起进行分类输出最终结果。

其中，所述主干网络CSPdarknet53是经过改进的，CSPdarknet由多个残差结构组成，保持原生网络的输出不变，在其中的ResBlock_F3，ResBlock_F4，ResBlock_F5的输出之前，加入一个可以对多个尺度信息进行采集的空间金字塔池化，简化网络参数，融合多尺度信息；并在ResBlock_F3，ResBlock_F4，ResBlock_F5输出三张大小分别为80*80，40*40和20*20的特征图，使特征提取网络进行采样整合，实现后续的特征提取过程；

CSPdarknet53属于目标检测模型YOLO的主干网络，针对人体特征提取特性，在保证主干网络整体的参数量不额外增加的情况下，修改了主干网络的损失函数为mish函数，加入了全新的多特征池化分支以增强网络的多尺度感知能力；输入图像为RGB彩色图像，保留了三通道，使用缩放、平移和mosaic作为数据预处理方法；将CSPdarknet53在MS-COCO数据集上的预训练权值作为初始权值，对超参数进行微调；将数据集分为大小不同的三个部分：训练集、测试集和验证集；最终选取损失最小的训练权值作为最终的训练结果。

其中，所述特征提取网络采用了特征金字塔结构，由之前输出的不同大小的特征图进行自下而上的上采样过程，其中包含不同的语义信息和特征信息；在特征提取网络中，由尺寸最大的特征图进行向上采样，同时针对输出信息，使用自上而下的融合方法，所述语义信息传播到低层特征上，使得低层特征也包含丰富的语义信息；使用最邻近插值法，无需计算在待求像素的四个邻近像素中，将距离待求像素最近的邻近像素值赋给待求像素。

其中，所述特征增强网络使用空洞卷积和注意力机制，对人体目标进行多尺度的，高权重的特征提取，保证网络训练过程中能够多注意人体特征，突出人物主体；

采用并行多尺度空洞卷积和正采样结构对特征提取网络中经过通道规整后的特征图进行进一步特征提取；

多个尺度的空洞卷积将最大化的感知图片上不同大小的区域，并联上采样和全连接层后，最大化地保留原有的特征信息；

注意力机制是一种混合注意力机制，并且多个注意力机制的并联将提高深度空洞卷积部分的特征图中人脸的部分权重。

其中，所述特征增强网络是一种模块化的附加网络，安插在主干网络的输出，特征金字塔结构的输出和特征金字塔结构的采样末端，包含一组全连接和上采样的简单输出网络和一组多个可变尺度的空洞卷积层，空洞卷积的大小皆为3×3，扩张率为3到24的可变值，并进行堆叠，扩大特征以学习可变的几何特征建模能力。

其中，所述特征增强模块分为上下文信息提取模块，上下文注意力模块和内容注意力模块，在获得步骤4的特征映射后，利用丰富的上下文信息，将其输入到上下文信息提取模块中，上下文信息提取模块由不同扩张率的多路径空洞卷积组成，分离的卷积层在不同的感受野中获取多个特征映射。

其中，在每个路径中引入了可变形的卷积层，可变形的卷积层确保上下文信息提取模块从给定的数据中学习转换不变的特征。

其中，上下文信息提取模块中采用密集连接合并多尺度信息，其中每个扩张层的输出都与输入的特征映射连接起来，然后送入下一个扩张层；利用密集连接来解决梯度消失的问题，当深度学习模型越来越深时增强特征传播；将空洞卷积组的输出与上采样的输入连接起来，保持初始输入的粗粒度信息，并将它们输入到1×1的卷积层中，以融合粗粒度和细粒度特征；引入基于自注意机制的上下文注意力模块主动捕获子区域之间的语义依赖，与双路注意力的语义分割不同的是，上下文信息提取模块产生的包含多尺度感受野信息的上述特性输入到上下文注意力模块模块中；基于这些信息特征，上下文注意力模块自适应地更加关注相关子区域之间的关系；上下文注意力模块的输出特性将具有清晰的语义，并包含周围对象中的上下文依赖关系，对于给定的特征图像

转化为潜在的卷积网络空间W_q和W_k，转换后的特征映射为：

且

之后，将Q,K重新变形为

这时N＝H×W。为了捕捉每个子区域之间的关系，计算一个相关矩阵为：

且

同时重新变形为

通过sigmoid激活函数和平均池化对R进行归一化后，建立一个注意力矩阵R′，且

同时，利用卷积层W_v将特征映射F转换为另一种表示V:

且

最后对R′和V矩阵进行元素点积，可得到：

E_i＝R′⊙V_i (4)

其中E_i为第i^th个特征图，通道维度为C；

引入内容注意力模块解决给定图像的几何特性被彻底破坏而导致位置偏移的问题，以保持每个物体的精确位置信息，与上下文注意力模块类似，使用卷积层来转换给定的特征映射，没有使用特征映射F来产生注意力矩阵，而是采用特征映射

捕捉每个物体的精确位置，

应用两个卷积层W_p和W_z得到注意力矩阵，将F₅分别转化为潜在空间:

且

将P和Z的维度重新变形为

得到类似于式(2)的相关矩阵：

且

在将S重新变形为

通过sigmoid激活函数和平均池化对S进行归一化后，建立一个注意力矩阵S′，且

结合提取的特征V，对结果进行点积：

D_i＝S′⊙V_i (7)

且

D_i表示第i^th个输出的特征图。

其中，在上述网络处理完成后，将输出关于人体位置和置信度的信息，基于深度卷积网络的多分支输出模块，包含了最终需要的置信度、坐标信息，这两个分支中，皆使用不同的损失函数；置信度输出了一种二值的绝对置信结果，此分支使用二元交叉熵损失函数；网络输出的坐标是一种回归任务，使用的是预测值和真实值的差值，此分支使用CIoU损失函数表示预测框的偏移量；

场景信息网络和目标检测网络是并联的，其中场景信息网络是使用ResNet34和ResNet50作为主体网络，在场景信息数据集Places365CNN数据集上的预训练权值作为初始权值，对超参数进行微调；将数据集分为大小不同的三个部分：训练集、测试集和验证集；最终选取损失最小的训练权值作为最终的训练结果；这些场景信息有助于分析地点属性和类别，不同的情绪在不同的环境中有着显著差异；

最后的特征融合模块，是三个长度不同的全连接组合而成的，特征融合模块结合两个特征提取模块的特征，对离散的情绪类别和连续的情绪维度进行估计，两个特征提取模块都是一维滤波CNN，每个网络由16个卷积层组成，其中1维核在水平方向和垂直方向之间交替，使用2维核有效地建模了8个层；使用全局平均池化层来减少最后一层卷积的特征；在每个卷积层之后加入一个批处理归一化层和整流线性单元以加快训练速度、避免内协变偏移。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度学习的多特征表情识别方法，其特征在于，包括如下步骤：获取包含人体和环境的清晰图像并进行预处理，将图片压缩到640*640大小或小于所述大小的原色RGB图片，保留颜色通道，使用公开数据集Emotic表情识别数据集；

整体网络的构成为目标检测网络并联场景信息识别网络，最后输出到分类网络，而目标检测网络由主干网络CSPdarknet53构成主干网络，特征提取的特征金字塔结构并联特征增强网络，最后输出人体的位置信息和0/1置信度信息，再送入分类网络和场景信息一起进行分类输出最终结果。

2.根据权利要求1所述的基于深度学习的多特征表情识别方法，其特征在于，所述主干网络CSPdarknet53由多个残差结构组成，保持原生网络的输出不变，在其中的第三层残差块、第四层残差块和第五层残差块的输出之前，加入一个对多个尺度信息进行采集的空间金字塔池化，空间金字塔池化进行简化网络参数、融合多尺度信息；并在三层残差块、第四层残差块和第五层残差块输出三张大小分别为80*80，40*40和20*20的特征图，使特征提取网络进行采样整合，实现后续的特征提取过程；

CSPdarknet53属于目标检测模型YOLO的主干网络，针对人体特征提取特性，在保证主干网络整体的参数量不额外增加的情况下，修改主干网络的损失函数为mish函数，加入全新的多特征池化分支以增强网络的多尺度感知能力；输入图像为RGB彩色图像，保留了三通道，使用缩放、平移和mosaic作为数据预处理方法；将CSPdarknet53在MS-COCO数据集上的预训练权值作为初始权值，对超参数进行微调；将数据集分为大小不同的三个部分：训练集、测试集和验证集；最终选取损失最小的训练权值作为最终的训练结果。

3.根据权利要求2所述的基于深度学习的多特征表情识别方法，其特征在于，所述特征提取网络采用特征金字塔结构，由之前输出的不同大小的特征图进行自下而上的上采样过程，其中包含不同的语义信息和特征信息；在特征提取网络中，由尺寸最大的特征图进行向上采样，同时针对输出信息，使用自上而下的融合方法，所述语义信息传播到低层特征上，使得低层特征也包含丰富的语义信息；使用最邻近插值法，无需计算在待求像素的四个邻近像素中，将距离待求像素最近的邻近像素值赋给待求像素。

4.根据权利要求1所述的基于深度学习的多特征表情识别方法，其特征在于，所述特征增强网络使用空洞卷积和注意力机制，对人体目标进行多尺度的，高权重的特征提取，保证网络训练过程中能够多注意人体特征，突出人物主体；

多个尺度的空洞卷积将最大化的感知图片上不同大小的区域，并联上采样和全连接层后，最大化地保留原有的特征信息。

5.根据权利要求4所述的基于深度学习的多特征表情识别方法，其特征在于，所述特征增强网络是一种模块化的附加网络，安插在主干网络的输出，特征金字塔结构的输出和特征金字塔结构的采样末端，包含一组全连接和上采样的简单输出网络和一组多个可变尺度的空洞卷积层，空洞卷积的大小皆为3×3，扩张率为3到24的可变值，并进行堆叠，扩大特征以学习可变的几何特征建模能力。

6.根据权利要求5所述的基于深度学习的多特征表情识别方法，其特征在于，所述特征增强模块分为上下文信息提取模块，上下文注意力模块和内容注意力模块，在获得特征金字塔提取的特征映射后，利用丰富的上下文信息，将其输入到上下文信息提取模块中，上下文信息提取模块由不同扩张率的多路径空洞卷积组成，分离的卷积层在不同的感受野中获取多个特征映射。

7.根据权利要求6所述的基于深度学习的多特征表情识别方法，其特征在于，在每个路径中引入可变形的卷积层，可变形的卷积层确保上下文信息提取模块从给定的数据中学习转换不变的特征。

8.根据权利要求7所述的基于深度学习的多特征表情识别方法，其特征在于，上下文信息提取模块中采用密集连接合并多尺度信息，其中每个扩张层的输出都与输入的特征映射连接起来，然后送入下一个扩张层；利用密集连接来解决梯度消失的问题，当深度学习模型越来越深时增强特征传播；将空洞卷积组的输出与上采样的输入连接起来，保持初始输入的粗粒度信息，并将它们输入到1×1的卷积层中，以融合粗粒度和细粒度特征；引入基于自注意机制的上下文注意力模块主动捕获子区域之间的语义依赖，与双路注意力的语义分割不同的是，上下文信息提取模块产生的包含多尺度感受野信息的上述特性输入到上下文注意力模块模块中；基于这些信息特征，上下文注意力模块自适应地更加关注相关子区域之间的关系；上下文注意力模块的输出特性将具有清晰的语义，并包含周围对象中的上下文依赖关系，对于给定的特征图像