CN112784763B

CN112784763B - 基于局部与整体特征自适应融合的表情识别方法及系统

Info

Publication number: CN112784763B
Application number: CN202110107709.1A
Authority: CN
Inventors: 卢官明; 张法鹏; 卢峻禾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-07-29
Anticipated expiration: 2041-01-27
Also published as: CN112784763A

Abstract

本发明公开了一种基于局部与整体特征自适应融合的表情识别方法及系统。该方法首先获取表情图像集，对表情图像集中的图像进行人脸检测、裁剪和对齐处理；然后构建一种表情识别模型，该模型包括数据处理模块、特征提取模块、特征融合模块和分类层，其中，特征融合模块使用注意力机制学习人脸整体图像及其多个局部区域图像特征的注意力权重，并基于注意力权重自适应选择重要特征进行加权融合；再使用表情图像集中的图像作为训练样本对构建的表情识别模型进行训练；最后利用训练好的表情识别模型对新输入的测试图像进行表情分类识别。本发明可自适应地融合来自整个人脸及未被遮挡的重要区域的表情特征，有效解决遮挡和姿态变化环境下的表情识别问题。

Description

基于局部与整体特征自适应融合的表情识别方法及系统

技术领域

本发明涉及一种基于局部与整体特征自适应融合的表情识别方法及系统，属于计算机视觉和模式识别领域。

背景技术

人脸表情是人际交往中信息传递的重要途径，在察觉说话人情绪、领悟言语含义和捕捉情感细节上起到非常重要的作用。据心理学家Mehrabiadu的研究表明，在人类的日常交流中，通过人脸表情传递的信息高达信息总量的55％。随着信息技术和计算机科学的快速发展，人们对机器的“智能”也提出了更高的要求，人脸表情识别作为情感计算的一个研究方向，是实现人机交互的基础，在人工智能领域扮演了重要的角色，在疲劳驾驶检测、服务机器人、医疗监控、虚拟现实等领域有着广阔的应用前景。

在过去十年里，研究人员大多集中于研究受控环境(实验室环境)下的表情识别，针对背景简单、无遮挡、姿态端正、无光照变化的人脸图像，采用基于深度学习的表情识别方法取得了突破性的进展。然而，在真实环境(非受控环境)下，由于存在背景复杂、遮挡、头部姿态多变、光照变化等因素，给人脸表情识别带来了巨大挑战，如何提高人脸表情识别准确率、增强表情识别方法对各种外部干扰的鲁棒性和面对环境变化的适应性是亟待解决的关键问题。

中国专利申请“一种基于AU共生关系约束的自然场景下的面部表情识别方法”(专利申请号CN201811263258.5，公开号CN109492557A)，先将人脸表情图像进行特征点定位并且根据人脸特征点分割出人脸运动单元(AU)，根据AU当作训练数据训练网络得到分类结果，并且利用AU间共生关系调整识别损失。该方法使用AU作为训练数据进行训练，但是在人脸被遮挡或者姿势变化角度较大的时候，会有一些AU无法进行提取或者提取错误，对模型的识别率造成负面影响。

中国专利申请“一种人脸表情识别方法、装置及设备”(专利申请号CN201910389191.8，公开号CN110110672A)，该方法认为每个人脸分区均具有以所述人脸区域的纵向中心线为对称线互相对称的另一人脸分区，首先基于特征点匹配算法确定包含被遮挡区域的人脸分区，然后利用与被遮挡区域的人脸分区互相对称的人脸分区进行水平镜像得到的图像替换被遮挡区域的人脸分区，最后对所述人脸区域进行表情识别。该方法使用镜像对称的方法替换原被遮挡的区域，但是当有些特定表情，比如轻蔑表情一般会出现单侧嘴角的上扬，而另一侧没有变化，这样进行镜像对称可能就变成双侧嘴角上扬，从而影响模型的泛化性能。

发明内容

发明目的：针对真实场景下表情识别模型存在识别准确率低、鲁棒性差等问题，本发明的目的是提供一种基于局部与整体特征自适应融合的表情识别方法及系统，使用注意力机制学习人脸整体图像及其多个局部区域图像特征的注意力权重，然后对权重较大的重要特征进行加权融合，自适应地融合来自整个人脸及未被遮挡的重要区域的表情特征，抑制或排除遮挡和不相关区域对表情识别带来的不利影响，有效解决遮挡和姿态变化环境下的表情识别问题。

技术方案：本发明为实现上述发明目的采用以下技术方案：

一种基于局部与整体特征自适应融合的表情识别方法，包含以下步骤：

(1)获取包含类别标签的表情图像集；

(2)对表情图像集中的图像进行人脸检测、裁剪和对齐处理；

(3)构建表情识别模型，该模型包括数据处理模块、特征提取模块、特征融合模块和分类层；

所述数据处理模块，使用滑动的采样窗口对输入的人脸整体图像进行K次采样，得到K个人脸局部区域图像，并对K个人脸局部区域图像的大小进行归一化，统一调整到与输入的人脸整体图像相同的大小，其中，采样窗口的滑动步长是固定或随机的，采样窗口的大小介于人脸整体图像大小的1/4到3/4之间，K的取值介于4到16之间的整数；

所述特征提取模块，用于提取人脸整体图像及其K个人脸局部区域图像的特征向量，该模块包含(K+1)个相同结构的特征提取单元，人脸整体图像及其K个人脸局部区域图像并行输入到(K+1)个特征提取单元中，同时提取到(K+1)个特征向量；

所述特征融合模块，用于将特征提取模块输出的(K+1)个特征向量根据注意力权重自适应融合，该模块包括注意力机制模块、特征选择单元和累加器，其中注意力机制模块用于确定(K+1)个特征向量的注意力权重；特征选择单元用于筛选保留权重较大的重要特征向量；累加器用于将保留的重要特征向量进行加权融合，得到融合特征向量；

所述分类层，用于对特征融合模块输出的表情特征向量进行分类识别，得到表情类别；

(4)使用表情图像集中的图像作为训练样本对构建的表情识别模型进行训练，通过误差反向传播算法调整表情识别模型的参数至最优；

(5)利用训练好的表情识别模型对新输入的测试图像进行表情分类识别。

进一步地，所述步骤(4)中的训练过程，包括以下子步骤：

(4.1)将预处理后的人脸整体图像输入到表情识别模型的数据处理模块，得到K个大小归一化后的人脸局部区域图像；

(4.2)将人脸整体图像及其K个人脸局部区域图像并行输入到特征提取模块的(K+1)个特征提取单元中，分别输出(K+1)个特征向量；

(4.3)在每轮训练中，调整注意力机制模块的参数，计算出(K+1)个特征向量的注意力权重；特征选择单元以人脸整体图像特征向量的注意力权重作为设定阈值，保留注意力权重大于或等于设定阈值的特征向量，剔除注意力权重小于设定阈值的特征向量；累加器将注意力权重大于或等于设定阈值的特征向量进行加权融合，输出融合特征向量；

(4.4)分类层对特征融合模块输出的融合特征向量进行分类，分类层损失函数是在交叉熵损失函数的基础上加入基于注意力权重的约束项，通过误差反向传播算法调整表情识别模型的参数，使用表情图像集中的图像作为训练样本，不断迭代训练过程直至模型参数达到最优。

进一步地，所述步骤(4.3)包括以下子步骤：

(4.3.1)将人脸整体图像的特征向量表示为F₀，将第k个人脸局部区域图像的特征向量表示为F_k，其中k＝1，2，…，K，运用注意力机制得到第j个特征向量F_j的注意力权重为：

μ_j＝σ(F_j·q⁰)

其中，q⁰为查询向量，σ(·)为Sigmoid函数，j＝0，1，2，…，K；

(4.3.2)在每轮训练中，设训练得到人脸整体图像特征向量的注意力权重为μ₀，特征选择单元以μ₀作为设定阈值，将第k个人脸局部区域图像特征向量的注意力权重μ_k与μ₀进行比较，如果μ_k大于或等于μ₀，则特征选择单元保留相应的特征向量F_k参与后续的特征融合；如果μ_k小于μ₀，则特征选择单元剔除相应的特征向量F_k，令μ_k＝0，F_k不参与后续的特征融合；

(4.3.3)设所有大于或等于μ₀的注意力权重的集合为：

{μ_m|μ_m≥μ₀，0≤m≤K}

定义

为所有大于或等于μ₀的注意力权重的均值，即

将注意力权重大于或等于μ₀的所有特征向量进行加权融合，得到融合特征向量F为：

其中0≤m≤K。

进一步地，所述步骤(4.4)中分类层损失函数的定义为：

其中，第一项为交叉熵损失函数，c为表情类别标签，c∈[1，n]，n为表情类别总数，q_c表示训练样本属于第c类表情的真实概率，p_c表示训练样本被预测为第c类表情的预测概率；第二项为基于注意力权重的约束项，用于强制表情识别模型更加关注未被遮挡且比人脸整体图像更有鉴别力的人脸局部区域图像的特征，μ₀为人脸整体图像特征向量的注意力权重，

为所有大于或等于μ₀的注意力权重的均值，β为人为设定的超参数，在0.02至0.2之间取值。

基于相同的发明构思，本发明提供的一种基于局部与整体特征自适应融合的表情识别系统，包括：

预处理模块，用于获取包含类别标签的表情图像集，对表情图像集中的图像进行人脸检测、裁剪和对齐处理；

网络模型构建模块，用于构建表情识别模型，该模型包括数据处理模块、特征提取模块、特征融合模块和分类层；

网络训练模块，用于使用表情图像集中的图像作为训练样本对构建的表情识别模型进行训练，通过误差反向传播算法调整表情识别模型的参数至最优；

以及，表情识别模块，用于利用训练好的表情识别模型对新输入的测试图像进行表情分类识别。

基于相同的发明构思，本发明提供的一种基于局部与整体特征自适应融合的表情识别系统，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的一种基于局部与整体特征自适应融合的表情识别方法。

有益效果：与现有技术相比，本发明具有以下技术效果：

(1)在真实环境(非受控环境)下，人脸时常会被遮挡或发生姿态变化，会产生不可见的人脸区域，这对表情识别带来巨大挑战。现有的方法尝试首先检测出遮挡区域然后再删除遮挡区域的特征来解决有遮挡的人脸表情识别问题，然而删除遮挡区域的办法是不切实际的，因为在真实场景下遮挡区域本身就比较难以被检测出来。而本发明使用滑动的采样窗口对输入的人脸整体图像进行若干次采样，得到若干个人脸局部区域图像，而在采样得到的若干个人脸局部区域图像中，极有可能包含未被遮挡的人脸重要区域图像，而利用这些重要区域图像会比只使用被遮挡的人脸整体图像更有利于表情识别，可以抑制或排除遮挡和不相关区域对表情识别带来的不利影响，能有效解决遮挡和姿态变化环境下的表情识别问题。

(2)本发明提供的局部与整体特征自适应融合方法不同于其他方法，本发明首先运用注意力机制学习人脸整体图像特征向量和局部区域图像特征向量的注意力权重，然后以人脸整体图像特征向量的注意力权重作为设定阈值，保留注意力权重大于或等于设定阈值的特征向量，更加关注那些未被遮挡的人脸重要区域图像所起的关键作用，剔除注意力权重小于设定阈值的特征向量，并令其注意力权重为0，不让其参与后续的特征融合，自适应地融合来自整个人脸及未被遮挡的重要区域的表情特征，从而有效地抑制或排除了遮挡和不相关区域对表情识别带来的不利影响。而一般的局部与整体特征融合方法首先将人脸整体图像分割成眼睛、嘴巴、鼻子等部件，然后再分别提取眼睛、嘴巴、鼻子等局部区域及人脸整体图像的特征，并对它们进行特征融合。然而，这些方法的难点在于无法精确地分割出眼睛、嘴巴、鼻子等部件，尤其在真实场景下被遮挡或有姿态偏转的眼睛、嘴巴、鼻子难以被检测出来。

(3)本发明使用滑动的采样窗口对输入的人脸整体图像进行若干次采样，得到若干个人脸局部区域图像，还有两个辅助的作用：一方面，采样得到的若干个人脸局部区域图像对样本数量的扩充有一定的积极作用，起到了数据扩增的效果；另一方面，将采样得到的人脸局部区域图像放大到跟人脸整体图像相同的大小，可以增强表情识别模型对图像尺度的鲁棒性。

(4)本发明在表情识别模型分类层定义的损失函数是在交叉熵损失函数的基础上加入了基于注意力权重的约束项，可强制表情识别模型更加关注未被遮挡且比人脸整体图像更有鉴别力的人脸局部区域图像的特征，能够有效提升表情识别的准确率和鲁棒性。

附图说明

图1是本发明实施例的方法流程图。

图2是本发明实施例中构建的表情识别模型结构图。

图3是图2中的数据处理模块结构图。

图4是图2中的特征提取模块结构图。

图5是图2中的特征融合模块结构图。

具体实施方式

下面将结合附图和优选实施例，对本发明的技术方案进行清楚、完整地描述。

如图1所示，本发明实施例公开的一种基于局部与整体特征自适应融合的表情识别方法，主要包含以下步骤：

步骤1：获取包含类别标签的表情图像集。在本实施例中，采用非受控环境下的人脸表情图像集SFEW2.0中的人脸图像作为训练样本。SFEW(Static Facial Expressions inthe Wild)图像集上的人脸图像选自AFEW(Acted Facial Expressions in the Wild)视频集上的单帧图像。AFEW视频集自2013年起作为EmotiW(Emotion Recognition In TheWild)竞赛的官方数据集，其样本采集自不同电影素材中具有自发表情人物的画面。SFEW是通过基于面部点聚类计算关键帧从AFEW视频集中选择静态帧图像而创建的，与传统的实验室条件下采集的人脸表情图像集相比，SFEW图像集图像更贴近实际的自然场景，相当于是在不受限制的自然环境下拍摄的人脸图像，因此不同的头部姿态、不同的年龄段、各种现实中的遮挡、分辨率和光照变化都在该数据集上得到充分的体现。SFEW2.0图像集包含1766幅720×576像素的人脸表情图像，已被划分为训练集(958个样本)、验证集(436个样本)和测试集(372个样本)三个子集。每幅人脸图像都标注了7种表情中的一种：愤怒、厌恶、恐惧、中性、高兴、悲伤和惊讶。由于测试集用于竞赛，其标签是不公开的，所以，本实施例采用SFEW2.0图像集的训练集和验证集的1394个样本作为训练样本。

步骤2：对表情图像集中的图像进行人脸检测、裁剪和对齐处理。在本实施例中，采用dilb工具包对表情图像集中的图像进行人脸检测、裁剪和对齐处理：

(1)使用Python导入dilb工具包，读取图像，运用dilb对每次读取的图像进行人脸检测；

(2)将检测到的人脸部分裁剪出来，剔除复杂的背景；

(3)将裁剪好的图像用dilb打点工具进行人脸关键点标记，计算两眼连线与水平线的夹角，然后根据此夹角将图像旋转至水平。

步骤3：构建如图2所示的表情识别模型，该模型包括数据处理模块、特征提取模块、特征融合模块和分类层。

数据处理模块的结构如图3所示，使用滑动的采样窗口对输入的人脸整体图像进行K次采样，得到K个人脸局部区域图像，并对K个人脸局部区域图像的大小进行归一化，统一调整到与输入的人脸整体图像相同的大小，其中，采样窗口的滑动步长可以是固定或随机的，采样窗口的大小介于人脸整体图像大小的1/4到3/4之间，K的取值介于4到16之间的整数。在本实施例中，K的取值为9，采样窗口的大小为人脸整体图像大小的3/4。

特征提取模块的结构如图4所示，用于提取人脸整体图像及其K个人脸局部区域图像的特征向量，该模块包含(K+1)个相同结构的特征提取单元，人脸整体图像及其K个人脸局部区域图像并行输入到这(K+1)个特征提取单元中，可同时提取到(K+1)个特征向量。在本实施例中，特征提取模块模块包含10个相同结构的特征提取单元，人脸整体图像及其9个人脸局部区域图像并行输入到10个相同结构的特征提取单元中，同时提取到10个特征向量。作为优选，在本实施例中，采用预训练好的VGG-16基础网络作为特征提取单元，由5个卷积层、池化层以及一个全连接层构成，输出1个512维的特征向量。

特征融合模块，用于将特征提取模块输出的10个特征向量进行融合，该模块包括1个注意力模块，1个特征选择单元和1个累加器，其中注意力机制模块的参数是可训练的，用于确定10个特征向量的注意力权重；特征选择单元以人脸整体图像特征向量的注意力权重作为设定阈值，保留注意力权重大于等于设定阈值的特征向量，剔除注意力权重小于设定阈值的特征向量；累加器用于将注意力权重大于等于设定阈值的特征向量进行加权融合，得到融合特征向量；

分类层，用于对特征融合模块输出的表情特征向量进行分类识别，得到表情类别；

步骤4：使用表情图像集中的图像作为训练样本对构建的表情识别模型进行训练，通过误差反向传播算法调整表情识别模型的参数至最优，训练过程包含以下子步骤：

(4.1)将预处理后的人脸整体图像输入到表情识别模型的数据处理模块，该模块使用滑动的采样窗口对输入的人脸整体图像进行9次采样，得到9个人脸局部区域图像，并对9个人脸局部区域图像的大小进行归一化，统一调整到与输入的人脸整体图像相同的大小，其中，采样窗口的滑动步长可以是固定或随机的，采样窗口的大小为人脸整体图像大小的3/4。

(4.2)将人脸整体图像及其9个人脸局部区域图像并行输入到特征提取模块的10个特征提取单元中，分别输出10个特征向量。作为优选，在本实施例中，采用预训练好的VGG-16基础网络作为特征提取单元，每个特征提取单元输出1个512维的特征向量。

(4.3)在每轮训练中，调整注意力机制模块的参数，计算出10个特征向量的注意力权重；特征选择单元以人脸整体图像特征向量的注意力权重作为设定阈值，保留注意力权重大于或等于设定阈值的特征向量，剔除注意力权重小于设定阈值的特征向量；累加器将注意力权重大于或等于设定阈值的特征向量进行加权融合，输出融合特征向量；每轮训练中的特征融合包括以下子步骤：

(4.3.1)将人脸整体图像的特征向量表示为F₀，将第k个人脸局部区域图像的特征向量表示为F_k，其中k＝1，2，…，9，运用注意力机制得到第j个特征向量F_j的注意力权重为：

μ_j＝σ(F_j·q⁰)

其中，q⁰为查询向量，σ(·)为Sigmoid函数，j＝0，1，2，…，9；

(4.3.3)设所有大于或等于μ₀的注意力权重的集合为：

{μ_m|μ_m≥μ₀，0≤m≤9}

定义

为所有大于或等于μ₀的注意力权重的均值，即

其中0≤m≤9。

(4.4)分类层对特征融合模块输出的融合特征向量进行分类，分类层损失函数是在交叉熵损失函数的基础上加入基于注意力权重的约束项，通过误差反向传播算法调整表情识别模型的参数，使用表情图像集中的图像作为训练样本，不断迭代训练过程直至模型参数达到最优。分类层损失函数的定义为：

其中，第一项为交叉熵损失函数，c为表情类别标签，c∈[1，7]，q_c表示训练样本属于第c类表情的真实概率，p_c表示训练样本被预测为第c类表情的预测概率；第二项为基于注意力权重的约束项，用于强制表情识别模型更加关注未被遮挡且比人脸整体图像更有鉴别力的人脸局部区域图像的特征，μ₀为人脸整体图像特征向量的注意力权重，

为所有大于或等于μ₀的注意力权重的均值，β为人为设定的超参数，可在0.02至0.2之间取值，在本实施例中令β＝0.05。

步骤5：利用训练好的表情识别模型对新输入的测试图像进行表情分类识别。

基于相同的发明构思，本发明实施例提供的一种基于局部与整体特征自适应融合的表情识别系统，包括：预处理模块，用于获取包含类别标签的表情图像集，对表情图像集中的图像进行人脸检测、裁剪和对齐处理；网络模型构建模块，用于构建表情识别模型，该模型包括数据处理模块、特征提取模块、特征融合模块和分类层；具体模块各模块的结构和功能参考上述方法实施例；网络训练模块，用于使用表情图像集中的图像作为训练样本对构建的表情识别模型进行训练，通过误差反向传播算法调整表情识别模型的参数至最优；以及，表情识别模块，用于利用训练好的表情识别模型对新输入的测试图像进行表情分类识别。

基于相同的发明构思，本发明实施例提供的一种基于局部与整体特征自适应融合的表情识别系统，包括至少一台计算设备，该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的一种基于局部与整体特征自适应融合的表情识别方法。

Claims

1.一种基于局部与整体特征自适应融合的表情识别方法，其特征在于，该方法包含以下步骤：

(1)获取包含类别标签的表情图像集；

(2)对表情图像集中的图像进行人脸检测、裁剪和对齐处理；

(5)利用训练好的表情识别模型对新输入的测试图像进行表情分类识别；

所述步骤(4)中的训练过程，包括以下子步骤：

2.根据权利要求1所述的基于局部与整体特征自适应融合的表情识别方法，其特征在于，所述步骤(4.3)包括以下子步骤：

μ_j＝σ(F_j·q⁰)

(4.3.3)设所有大于或等于μ₀的注意力权重的集合为：

{μ_m|μ_m≥μ₀，0≤m≤K}

定义

为所有大于或等于μ₀的注意力权重的均值，即

其中0≤m≤K。

3.根据权利要求1所述的基于局部与整体特征自适应融合的表情识别方法，其特征在于，所述步骤(4.4)中分类层损失函数的定义为：

4.一种基于局部与整体特征自适应融合的表情识别系统，其特征在于，包括：

网络训练模块，用于使用表情图像集中的图像作为训练样本对构建的表情识别模型进行训练，通过误差反向传播算法调整表情识别模型的参数至最优；所述网络训练模块的训练过程，包括：将预处理后的人脸整体图像输入到表情识别模型的数据处理模块，得到K个大小归一化后的人脸局部区域图像；将人脸整体图像及其K个人脸局部区域图像并行输入到特征提取模块的(K+1)个特征提取单元中，分别输出(K+1)个特征向量；在每轮训练中，调整注意力机制模块的参数，计算出(K+1)个特征向量的注意力权重；特征选择单元以人脸整体图像特征向量的注意力权重作为设定阈值，保留注意力权重大于或等于设定阈值的特征向量，剔除注意力权重小于设定阈值的特征向量；累加器将注意力权重大于或等于设定阈值的特征向量进行加权融合，输出融合特征向量；分类层对特征融合模块输出的融合特征向量进行分类，分类层损失函数是在交叉熵损失函数的基础上加入基于注意力权重的约束项，通过误差反向传播算法调整表情识别模型的参数，使用表情图像集中的图像作为训练样本，不断迭代训练过程直至模型参数达到最优；

5.一种计算机系统，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现根据权利要求1-3任一项所述的一种基于局部与整体特征自适应融合的表情识别方法。