CN112990007B

CN112990007B - 基于区域分组与内部关联融合的人脸表情识别方法及系统

Info

Publication number: CN112990007B
Application number: CN202110272734.5A
Authority: CN
Inventors: 马昕; 澹台姝昱; 宋锐; 荣学文; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-13
Filing date: 2021-03-13
Publication date: 2022-08-09
Anticipated expiration: 2041-03-13
Also published as: CN112990007A

Abstract

本公开提供了一种基于区域分组与内部关联融合的人脸表情识别方法及系统，所述方案基于人脸在自然条件下会受到不可预测的遮挡，对于有自然遮挡的正面人脸，无遮挡面部表情识别方法的识别效果较差的问题；通过提出的内在关联融合的卷积神经网络(Interrelated Fusion CNN，IRF‑CNN)，从局部区域、上下文、整体图像三个语义维度获取关键辨识度特征，并通过基于统计指标的类池化单元根据面片的关键程度合理分组，进一步聚焦面片局部与全局间的独立性以及互补性信息，有效提高了人脸表情识别的准确度。

Description

基于区域分组与内部关联融合的人脸表情识别方法及系统

技术领域

本公开属于人脸表情识别技术领域，尤其涉及一种基于区域分组与内部关联融合的人脸表情识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

近年来，面部表情识别技术因其不仅能反映交易者的情绪状态，而且能包含交互者丰富的意图信息，因此受到越来越广泛的关注。它在人机交互、驾驶员疲劳监测、测谎、监控、娱乐机器人等方面具有一定的潜在应用前景。

尽管标准正面无遮挡的面部表情识别取得了良好的效果。但是，发明人发现，在现实世界中，人脸在自然条件下会受到不可预测的遮挡。面部遮挡可能是由头部姿势变化、光照、口罩、眼镜等引起的。对于有自然遮挡的正面人脸，无遮挡面部表情识别方法的识别效果较差。因此无限制遮挡下的面部表情识别仍然是一个挑战。

发明内容

本公开为了解决上述问题，提供了基于区域分组与内部关联融合的人脸表情识别方法及系统，所述方案提出一种内在关联融合的卷积神经网络来实现遮挡人脸图像多语义表情特征的提取与融合，进而提高了面部遮挡情况下人脸表情识别的精确度。

根据本公开实施例的第一个方面，提供了基于区域分组与内部关联融合的人脸表情识别方法，包括：

获取待识别的人脸表情图像，并进行预处理；

构建内在关联融合的卷积神经网络模型，并利用预训练的卷积神经网络模型对人脸表情图像进行表情识别，输出表情识别结果；

其中，所述卷积神经网络模型包括遮挡预处理模块、面片分组模块及内在关联推理融合模块，其中，所述部分遮挡预处理模块以人脸表情图像原图作为全局参考，进行局部面片的分割与再生成；所述面片分组模块利用自注意力机制分组时，引入平均数、中位数、中程数三种指标进行池化得到新的融合指标作为分类依据；所述内在关联推理融合模块从面片之间的内部关联出发，构造两种不同的面片组间关系。

根据本公开实施例的第二个方面，提供了基于区域分组与内部关联融合的人脸表情识别系统，包括：

数据获取模块，其用于获取待识别的人脸表情图像，并进行预处理；

模型构建模块，其用于构建内在关联融合的卷积神经网络模型；

人脸表情识别模块，其用于利用预训练的卷积神经网络模型对人脸表情图像进行表情识别，输出表情识别结果；

根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的基于区域分组与内部关联融合的人脸表情识别方法。

根据本公开实施例的第四个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的基于区域分组与内部关联融合的人脸表情识别方法。

与现有技术相比，本公开的有益效果是：

(1)本公开所述方案基于人脸在自然条件下会受到不可预测的遮挡，对于有自然遮挡的正面人脸，无遮挡面部表情识别方法的识别效果较差的问题；通过提出的内在关联融合的卷积神经网络(Interrelated Fusion CNN，IRF-CNN)，从局部区域、上下文、整体图像三个语义维度获取关键辨识度特征，并通过基于统计指标的类池化单元根据面片的关键程度合理分组，进一步聚焦面片局部与全局间的独立性以及互补性信息，有效提高了人脸表情识别的准确度。

(2)本公开所述方案利用部分遮挡预处理模块让模型将更多的注意力放在与局部面片相关的周边区域上而非局部面片区域，获得更具辨识度的上下文信息；面片分组模块中的类池化单元结合统计学指标根据贡献程度划分关键面片；内在关联推理融合模块通过建立互补与强化关系实现面片之间的自适应融合。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例一中所述的IRF-CNN(Interrelated Fusion CNN)整体结构图；

图2为本公开实施例一中所述的三种语义面片示意图；

图3为本公开实施例一中所述的68个人脸关键点示意图；

图4为本公开实施例一中所述的局部区域面片获取操作流程图；

图5为本公开实施例一中所述的类池化单元的具体操作流程图；

图6为本公开实施例一中所述的RAF-DB数据集上的混淆矩阵示意图；

图7为本公开实施例一中所述的FED-RO数据集上的混淆矩阵示意图；

图8为本公开实施例一中所述的不同遮挡情况下的热力图；

图9为本公开实施例一中所述的阈值分组策略结果示意图；

图10为本公开实施例一中所述的比例分组策略结果示意图。

具体实施方式

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供基于区域分组与内部关联融合的人脸表情识别方法。

在现实世界中，人脸在自然条件下会受到不可预测的遮挡。面部遮挡可能是由头部姿势变化、光照、口罩、眼镜等引起的。对于有自然遮挡的正面人脸，无遮挡面部表情识别方法的识别效果较差。因此无限制遮挡下的面部表情识别仍然是一个挑战。

为解决这一问题，本公开提出了内在关联融合的卷积神经网络(InterrelatedFusion CNN，IRF-CNN)来实现遮挡人脸图像多语义表情特征的提取与融合，网络整体架构见图1。IRF-CNN主要包含三大模块，分别为部分遮挡预处理模块(Partial-occlusion Pre-processing module,POPM)、面片分组模块(Statistical Patches Grouping module,SPGM)以及内在关联推理融合模块(Interrelated Reasoning and Fusion module,IRFM)。如图2所示，部分遮挡预处理模块POPM以原图作为全局参考(面片10)，进行局部面片的分割与再生成。它根据人脸关键点分别进行左眉眼、右眉眼、眉间鼻根部及嘴部的提取和对应遮挡形成区域面片(面片1～4)和上下文面片(面片5～9)。部分遮挡预处理模块实现了将局部信息与上下文信息在一定程度上的有效剥离，减少了特征提取过程中前者对后者的干扰。其次，面片分组模块在利用自注意力机制分组时首次考虑了权值内部的分布性，引入平均数、中位数、中程数三种统计指标进行池化得到新的统计融合指标作为分类依据，来尽可能多的获得有效面片，以缓解单一统计指标分组偏差造成的关键面片损失。第三，内在关联推理融合模块从面片之间的内部关联出发，构造了两种不同的面片组间关系——互补关系和强化关系，前者考虑到高低异组之间具有较多的互补上下文信息，后者则考虑到高组可继续强化关键区域信息，再通过自适应单元进行多关系分支的有效融合。

基于上述的内在关联融合的卷积神经网络，本实施例中提出一种基于区域分组与内部关联融合的人脸表情识别方法，包括：

获取待识别的人脸表情图像，并进行预处理；

其中，所述卷积神经网络模型包括遮挡预处理模块、面片分组模块及内在关联推理融合模块，其中，所述部分遮挡预处理模块以人脸表情图像原图作为全局参考，进行局部面片的分割与再生成；所述面片分组模块利用自注意力机制分组时，引入平均数、中位数、中程数三种指标进行池化得到新的融合指标作为分类依据；所述内在关联推理融合模块从面片之间的内部关联出发，构造并融合两种不同的面片组间关系。

具体的，为了便于理解，以下结合附图对本公开所述方案进行详细说明：

(一)IRF-CNN模型的构建(即内在关联融合的卷积神经网络模型)

(1)整体框架

为了解决面部表情识别中不规则遮挡问题，提出了内在关联融合的卷积神经网络(Interrelated Fusion CNN，IRF-CNN)。它基于现有遮挡鲁棒性模型的主流思路，即关键区域特征与全局特征的有机融合，且进行了多维度的创新与优化。IRF-CNN不仅实现了高效的互补上下文提取，同时将统计学属性与池化思想相结合，还着重对多分支输入之间的内在关联性进行了外化，由此获得了更具辨识力的多层次遮挡无关特征。

IRF-CNN的整体框架如图1所示。其中主要包括三大功能模块：部分遮挡预处理模块、面片分组模块以及内在关联推理融合模块。部分遮挡预处理模块对整个网络的输入进行处理，利用Dlib68以及OpenCV工具箱，对原始输入图像进行分割与遮挡。同时考虑原始图像具有整体性，形成了局部区域、上下文、整体三个层面的十组不同输入图像，从而更高效的获得不同语义的辨识度信息。统计学面片分组模块旨在对预处理模块生成的十组面片进行分组，核心功能由一个类池化单元实现，其通过引入均值、中位数、中程数三种统计学指标进行精准池化分组，利于后面基于组间的特征提取与融合。内在关联推理融合模块主要实现了组内以及组间的各类关系提取，再通过多重Softmax注意力对它们进行加权融合。

(2)部分遮挡预处理模块

部分遮挡预处理模块(Partial-occlusion Pre-processing module,POPM)为IRF-CNN的输入预处理模块，通过在一定程度上消除局部区域对于全局上下文信息的影响，来实现局部、上下文与全局的有效特征提取。经过对基于人脸动作单元表情识别任务的分析，得到了表情与人脸动作单元变化的关联性，通过一定的交叉对比，选择了表情过程中变化频率最高的四个人脸关键区域作为待提取的目标局部区域，它们分别是：左眉眼、右眉眼、眉间鼻根部以及嘴部。而与现有基于人脸关键点获取的局部区域所不同的是，这里将左右眉眼分离作为两种局部区域，这是为了模拟应对在面对自然状态下因未知遮挡而造成的一侧眉眼不可见，这样网络将更加关注未遮挡的另一侧眉眼，获得有效且不冗余的辨识度信息。完成以上四组面片的提取后，在原图的基础上对四个局部区域进行分别遮挡，对应的形成了四组面片对，旨在消除局部特征的影响获得更关键的上下文信息。下面对应图2中的面片次序，分别对三种输入面片的形成过程逐一简述。

局部区域面片：使用Dlib工具箱对原始图像进行68个人脸关键点的提取，根据图3中所示，先对人脸关键点进行筛选形成点集。左眉眼(面片1)对应左眉[22,26]和左眼[42,47]两个子集，右眉眼(面片2)包含右眉[17,21]和右眼[36,41]，眉间鼻根部(面片3)包含[20,24]和[27,28]两部分，嘴部(面片4)对应外唇部[48,59]。随后通过生成一个与原图大小一致的全黑色二值图作为媒介，分别针对每个面片所对应的点集使用OpenCV中的fillConvexPoly方法和boundingRect方法获得可包含点集的最小矩形坐标并对原图像进行分割。可视化操作流程见图4。

上下文面片：将在局部区域面片中获得的最小矩形坐标形成二值模式下的黑色块作为遮罩覆盖在原图上，生成了四组对应的遮挡面片(面片5～8)。除外，还将四组遮罩同时遮挡在原图上形成全遮挡面片(面片9)。

整体图像面片：为增加图像信息提取的连贯性，同时考虑无遮挡图像存在的可能性，加入原图作为整体辅助面片(面片10)作为输入。

(3)面片分组模块

面片分组模块(Statistical Patches Grouping module,SPGM)为IRF-CNN的高效分组功能实现模块，引入了多重统计学指标以及类池化方法以生成更具代表性的融合均值作为高、低权值组的分组依据，获得尽可能多的关键高组面片。每个面片分支组包含10个对应的注意力权重，由于这里采用的是Sigmoid注意力机制而非Softmax注意力机制，每个原始图像的遮挡条件不同，故权值内部的分布规律是复杂多变且无法预知的。鉴于均值这一指标容易受到极端大值的影响，如果单一的使用权值均值进行分组或会造成一定的高权值面片丢失。因此，引入中位数、中程数两种统计学指标来有效避免因极端大值或整体分布不均造成的关键面片损失的情况。

从数学上来说，将原始图像I定义为输入，经过预处理后得到相应的一组N个面片I₁～I_N，设定N＝10且I₁₀＝I。对这组面片通过如下卷积神经网络及自注意力模块计算获得相应的特征图J_i和注意力权值o_i，前者选择VGG16作为卷积神经网络的主干，后者通过一个全连接层与Sigmoid层级联实现：

J_i＝V(ξ:I_i)i＝1,2,...,N

其中，V(·)代表卷积与池化操作，ξ表示操作中卷积层的参数；F(·)为全连接映射，δ为包含的神经元参数，σ(·)为Sigmoid层非线性化计算。

J＝[J₁,J₂,J₃,...,J_N]，o＝[o₁,o₂,o₃,...,o_N]

zip(o,J)＝{[o₁,J₁],[o₂,J₂],[o₃,J₃],...,[o_N,J_N]}

zip'(o,J)＝Timesort(run(o),zip(o,J))

＝{[o_i,J_i],[o_j,J_j],...,[o_k,J_k]}，o_i>o_j>...>o_k

o'＝zip'(o)，J'＝zip'(J)

其中，zip(o,J)是特征图与注意力权值形成的一一对应的映射；Timesort(·)是结合了合并排序(merge sort)和插入排序(insertion sort)得出的排序算法，run为权值o中已存在的所有严格单调递减子集；o'和J'分别表示降序排列后的权值及对应的特征图。

根据上式求出权值o的三种统计学指标：

为平均值，M_0.5为中位数，M_r为中程数，再通过类池化单元对它们进行下采样融合。

上式中的A_fusion和Num分别表示类池化生成的融合均值和权值高组中包含的面片数目，G(·)根据A_fusion实现面片的分组。由A_fusion的定义式推理得到其相应的计算式如下。类池化单元的具体操作过程可视化如图5，横向y轴表示一个批量内包含的所有样本组，纵向x轴表示每个样本组权值的三个统计学指标。

总的来说，若一组权值的分布比较均匀且无相应的极端大或小值，其三个统计指标会近似相等。而若分布不均匀，可进行如下推理：当池化结果为中位数时，可能存在较大的极端值组；当池化结果为中程数时，可能存在权值组大部分分布偏大或者存在略极端的小值组；当池化结果为平均数时，可能存在权值组大部分分布偏低。综上，权值数据组的整体分布具有复杂性与不可预知性，而以上三种性能指标合理筛选能够在各种权值分布不均匀的情况下尽可能的获得更多的潜在的有效关键面片。

(4)内在关联推理融合模块

内在关联推理融合模块(Interrelated Reasoning and Fusion module,IRFM)为IRF-CNN的多关系特征提取与融合子网络。受局部帧-全局帧特征融合方式的启发，将帧全局特征推广为组内全局特征，并将高、低权值的面片组局部与全局之间的内部关系显式化。这里主要考虑异组间的互补关系以及同组间的强化关系，同时进一步优化了上述特征融合方式形成了多重注意力堆叠的特征融合模式。将SAGM分好的高、低权值组分别用Hs(o,J)和来Ls(o,J)表示，同时作为高、低局部特征。且其中前者包含Num个面片，后者包含(N-Num)个面片，继而由下式推广形成相应的高、低组内全局特征Hgs和Lgs。

根据经验可以得出，高权值组或具有更多与低权值组对应的相关上下文信息，反之亦然。因此，主要提取互补和强化两大类特征，共对应三个关系分支，分别为：高局部特征与低全局特征的互补关系、低局部特征与高全局特征的互补关系以及高局部特征与高全局特征的强化关系。同时多关系提取依然采用Sigmoid和全连接层堆叠来实现，且每个关系分支的全局关系特征借鉴并拓展了现有的部分方法，具体如下式所示。

其中，Hs表示高局部特征，Lgs表示低全局特征，..表示两个张量进行级联，

表示张量积，关联注意力张量p¹、p²、p⁰的获取单元参数相同均为δ'，F'为全连接映射，σ'为Sigmoid层非线性化计算，最终对三个关系分支通过自适应融合来获得最终用于分类的特征T，具体为：

其中，q_i为分支注意力张量，C_i为上面提出的三个关系分支特征，F”为全连接映射且其参数为δ”，σ”为Sigmoid层非线性化计算。

(二)实验分析

本实施例中对IRF-CNN在多个数据集的实验结果进行了展示与分析。首先介绍了Jaffe、CK+、SFEW、RAF-DB、FED-RO五个数据集和相关实验设置。之后从多个层面将提出的方法与相关先进方法、基准方法等进行了对比与消融实验，均取得了良好的结果。

(1)实验设置

提出的IRF-CNN使用Pytorch工具箱在4Geforce GTX 1080Ti GPUs进行构建。选择了Pytorch中提供的初步预训练CNN模型VGG16作为网络主干。实验中，将批量大小设置为48。学习率采取多步长调整策略，初始值为0.001，调整系数gamma为0.1，间隔不同的训练轮次进行调整。使用交叉熵损失函数进行监督，优化器采用随机梯度下降，并且将其中的动量参数设置为0.9，权值衰减参数设置为0.0005。由于实验中采用的为了进一步避免过拟合问题，在网络的不同位置分别加入三个Dropout层，对应参数设置为0.6、0.5、0.5。训练开始后，基于Dlib68工具箱的部分遮挡预处理模块POPM先将输入原图像进行十组面片的分割与生成，再在训练前使用框架中的图像处理工具对得到的面片组进行进一步的裁剪、灰度化等预处理操作。对于不同层面的实验，采用包括整体正确率、混淆矩阵就以及激活图在内的多种形式进行反映实验结果。

(2)在不同数据集上的实验

下面将在不同的数据集上与现有的相关先进方法以及基准方法分别进行对比。

Jaffe数据集共包含由10个日本女大学生构成的7个面部表情(6个基本面部表情+1个中性)的213个图像。这六种基本面部表情分别为愤怒、厌恶、恐惧、快乐、悲伤、惊讶。通过Dlib68工具箱将其进行人脸对齐及裁剪，获得对应的人脸配准数据集。按照7:3的比例进行划分，得到训练集和测试集。与许多先进方法和VGG16基准方法相比，IRF-CNN在Jaffe上达到了目前的最高精度，如表1所示。

表格1 Jaffe数据集上的对比实验结果

The Extended Cohn-Kanade dataset(CK+)包括118个主题的327个视频流，每个视频流的最后一帧都有人脸动作单元以及表情类别的标签。为增大数据集规模，选取每个视频流的最后三帧作为实验数据进行人脸配准操作，且标签与最后一帧相同。这里使用的CK+共包含981个图像，分为愤怒、蔑视、厌恶、恐惧、快乐、悲伤、惊讶七类基本表情。同样地，按照7:3的比例进行训练集以及测试集的划分。在表2中，IRF-CNN的准确率为99.66％，高于其他方法和基准方法。

表格2 CK+数据集上的对比实验结果

SFEW是从AFEW数据集中抽取的有表情的静态帧，表情标签为六类基本表情和中性表情，分别为愤怒，厌恶，恐惧，快乐，悲伤，惊讶，自然。该数据集共包含95个主题，这些数据从电影中获得，均为自发性表情且具有不同的头部姿态、遮挡与光照等自然条件。整理并选取其中具有代表性的622个样本构建SFEW-Partial人脸配准数据集进行相关实验，其中训练集包含435个样本，测试集包含187个样本。在SFEW-Partial上，只与基准方法进行了比较，IRF-CNN的性能提高了约3％，如表3所示。

表格3 SFEW-Partial数据集上的对比实验结果

RAF-DB为无限制自然状态下的表情数据集。其分为基本表情子集和复合表情子集，共包含29,672个图像。实验中仅使用前者，共包含15,339个图像。其中12,271个样本为训练集，3,068个样本为测试集，分为愤怒，厌恶，恐惧，快乐，悲伤，惊讶六种基本表情和自然中性表情。且由于RAF-DB包含人脸配准子集，因此将直接在对齐集上进行下一步的面片分割操作。提出的方法在RAF-DB上的准确率为83.54％，优于其他相关方法。

表格4 RAF-DB数据集上的对比实验结果

FED-RO为自然状态下针对多种遮挡的表情数据集，共400个静态图像。主要包含七类基本表情，分别为自然、愤怒、厌恶、恐惧、快乐、悲伤、惊讶。其中所有样本的遮挡类型包含但不限于不同色彩、形状、遮挡位置以及遮挡比例。在预处理的面片分割时，针对于部分工具箱无法识别的极端遮挡样本，采用人脸关键点近邻法，即基于其他已识别出人脸的大多数样本进行一定的近似人脸关键点获取。在FED-RO上将主要进行消融实验的对比验证。在FED-RO上，IRF-CNN达到65.00％的总体准确率。如表5所示，它比基准高出约7％。

表格5 FED-RO数据集上的对比实验结果

此外，为了进一步显示IRF-CNN在各种遮挡条件下对各种不同表情的识别效率，图6和图7显示了RAF-DB和FED-RO结果的混淆矩阵。平均分类准确率分别为75.86％和56.57％。在RAF-DB上，提出的模型对快乐表情的准确率达到了91％，对恐惧和厌恶这两种容易混淆的表情，提出的模型还有待改进。在FED-RO上，惊喜表情的准确率最高为92％，愤怒表情的准确率最低为46％。

(3)模块分析

主要从三个部分进行面部表情识别任务的性能提升，分别为部分遮挡预处理模块(Partial-occlusion Pre-processing module,POPM)、面片分组模块(StatisticalPatches Grouping module,SPGM)以及内在关联推理融合模块(Interrelated Reasoningand Fusion module,IRFM)。为分别量化评估三者对于表情分类任务的具体效果，进一步在RAF-DB以及FED-RO人脸自然遮挡的数据集上构造了各个模块的对比实验，通过利用不同类型的性能指标，多角度分析三者对于面部表情识别任务的影响。

(3.1)部分遮挡预处理模块分析

为了进一步验证所提出的部分遮挡预处理策略的有效性，通过可视化原图与遮挡面片作为输入时的特征图，进而反映出网络在局部区域、领域上下文区域的注意力分布情况，具体如图8所示。将原图(第一列)作为全局参考与对照组，使用Grad-CAM热力图作为性能指标，即对最后一个卷积层的输出特征图进行可视化激活，再覆盖在原图上合成相应的热力图。由图8可知，在RAF-DB和FED-RO遮挡比例较高的图像上，网络在遮挡面片(第二列～第六列)的遮挡邻域上下文区域上具有更高关注度，可获得更多辨识度上下文信息。同时，与原图参考组相比，遮挡面片的合成还有助于网络在局部关键区域以及样本中自然遮挡周围获得更多有效的细节信息。综上所述，提出的面片分割策略对于包含不规则遮挡样本的识别任务具有较大的积极作用。该网络可以将更多的注意力放在局部相关的邻域内，并获得了更具辨识度的邻域上下文特征，由此实现各种遮挡样本的分类效果提升。

(3.2)面片分组模块分析

面片分组模块为IRF-CNN的主要功能模块之一，其主要包含降序排列和阈值分组两大功能。这里将主要针对阈值分组的部分进行两个维度的对比实验，以验证其中核心的多统计指标类池化单元的有效性。

维度一：采用单一统计学指标或简单融合值的为阈值的分组实验。针对采用的平均值、中位值、中程值三种统计学指标，分别设置对应的三种单一指标以及简单均值做阈值构成四组对比实验。以上四组实验的实验结果形成折线图如图9所示，其中与横轴平行的直线代表IRF-CNN的识别正确率。

维度二：采用固定比例分类法的分组实验。参考已有的分组方法，采用排序后按照一定的固定比例进行分组。这里引入比例因子r，其取值为r＝0.6/0.7/0.8/0.9四种，分别对应一个样本面片组中的注意力权值前60％、70％、80％、90％的面片视为高权值组，其余为低权值组。以上四组对比实验的结果形成折线图如图10所示，同样地，其中与横轴平行的直线代表IRF-CNN的识别正确率。

实验结果表明，IRF-CNN的正确率相对以上分组方法均提升了大于2％。提出的这种多统计指标类池化分类方法具有更高的自适应性。

(3.3)内在关联推理融合模块分析

内在关联推理融合模块(Interrelated Reasoning and Fusion module,IRFM)是IRF-CNN的主要功能模块之一，包含三个关系分支的特征提取与融合功能。这里将针对显式关系特征的类别选择以及融合模式这两个方面进行对比实验，以验证其三种关系特征提取与融合策略的有效性。根据方法论中的数学原理，以下均使用Com1、Com2、Rein分别简化表示Complemrntary1、Complemrntary2、Reinforcement这三种显式关系分支。

维度一：针对关系特征提取部分，从三种关系分支入手，分别设置单一关系提取以及双关系分支组合提取以构成六组对比实验，如表格6及表格7所示。

表格6单关系分支结果

表格7双关系分支结果

表格8不同关系分支融合策略结果

结果表明，以上各种条件下的识别整体正确率均低于62.5％约3％左右，因此三种关系特征的联合提取对于遮挡问题有一定的性能提升。

维度二：针对多关系分支融合的部分，构建简单平均融合、基于Softmax的注意力融合两组对比实验，如表格8所示。结果表明，在多关系特征提取的基础上，继续使用基于Sigmoid的注意力融合更有利于模型的性能提升。

本公开提供了一种基于关联融合卷积神经网络(IRF-CNN)的遮挡表情识别方法，并从数学原理和对各种数据集的多维实验分析验证了模型的有效性。本公开所述方案提出的IRF-CNN能够更加关注非遮挡的人脸上下文信息，融合不同的人脸区域的语义相关性，获得更具辨识度能力的特征。

实施例二：

本实施例的目的是提供一种基于区域分组与内部关联融合的人脸表情识别系统。

一种基于区域分组与内部关联融合的人脸表情识别系统，包括：

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本公开的又一实施例中，利用实施例一中所述的基于区域分组与内部关联融合的人脸表情识别方法，提供了一种术后患者心理健康状态检测方法，利用该所述方法判断患者术恢复过程中的情绪与心理健康状态。

患者在进行一定的医疗手段(如手术)进行治疗后，由于需要经理漫长的生理恢复期，加之因个体差异伴随有不可预知的术后反应，导致患者极易产生术后焦虑、抑郁等心理问题。在术后恢复初期，对于由创口疼痛、活动困难等造成的焦躁情绪，如果不进行及时的心理疏导，消极情绪将逐渐演变为心理疾病，一般会影响患者心肺及消化等功能，严重的甚至引起继发感染。而本公开提出的情感识别方法可有效应用于患者心理健康状态检测，当患者情感状态异常时，向医护人员或者患者家属给出提醒，更有助于帮助患者调整自身情绪、辅助术后快速康复。医院病房的监控系统就可以实现人脸表情图像信号的采集。

基于此，本实施例提供了一种术后患者心理健康状态检测方法，包括：

利用图像采集设备实时采集患者术后恢复期间的面部视频图像；

对所述面部视频图像进行预处理，获取人脸表情图像序列；

利用上述的基于区域分组与内部关联融合的人脸表情识别方法对患者进行表情识别；

基于所述情感识别结果判断患者的情感状态，并根据所述情感状态结果量化患者心理健康状态得分，当所述心理健康状态得分低于设定阈值时，判定患者心理健康状态异常，向医护人员及患者家属发出相应告警，采取一定措施协助患者调整自身情绪。

通过上述方案可实时监测患者的情绪起伏与变化，有效解决患者的心理健康状态检测问题，当患者情感状态异常时，给出提醒，实现针对患者的及时心理疏导、促进术后恢复。

上述实施例提供的一种基于区域分组与内部关联融合的人脸表情识别方法及系统可以实现，具有广阔的应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于区域分组与内部关联融合的人脸表情识别方法，其特征在于，包括：

获取待识别的人脸表情图像，并进行预处理；

构建内在关联融合的卷积神经网络模型，并利用预训练的卷积神经网络模型对所述人脸表情图像进行表情识别，输出表情识别结果；

其中，所述卷积神经网络模型包括部分遮挡预处理模块、面片分组模块及内在关联推理融合模块，其中，所述部分遮挡预处理模块以人脸表情图像原图作为全局参考，进行局部面片的分割与再生成；所述面片分组模块利用自注意力机制分组时，引入平均数、中位数、中程数三种指标进行池化得到新的融合指标作为分类依据；所述内在关联推理融合模块从面片之间的内部关联出发，构造两种不同的面片组间关系；

所述内在关联推理融合模块，将帧全局特征推广为组内全局特征，并将高、低权值的面片组局部与全局之间的内部关系显式化；

所述将帧全局特征推广为组内全局特征，并将高、低权值的面片组局部与全局之间的内部关系显式化，具体为：考虑异组间的互补关系以及同组间的强化关系，其共对应三个关系分支，分别为：高局部特征与低全局特征的互补关系、低局部特征与高全局特征的互补关系以及高局部特征与高全局特征的强化关系。

2.如权利要求1所述的基于区域分组与内部关联融合的人脸表情识别方法，其特征在于，所述部分遮挡预处理模块选择表情过程中变化频率最高的四个人脸关键区域作为待提取的目标局部区域，分别为：左眉眼、右眉眼、眉间鼻根部以及嘴部，通过将左右眉眼分离作为两种局部区域，有效应对在面对自然状态下因未知遮挡而造成的一侧眉眼不可见的情况。

3.如权利要求1所述的基于区域分组与内部关联融合的人脸表情识别方法，其特征在于，所述面片分组模块引入了多重统计学指标以及类池化方法生成具有代表性的融合均值作为高、低权值组的分组依据。

4.如权利要求1所述的基于区域分组与内部关联融合的人脸表情识别方法，其特征在于，所述三个关系分支的提取采用Sigmoid和全连接层堆叠来实现，且每个关系分支的全局关系特征借鉴并拓展了现有的部分方法，具体如下：

5.如权利要求1所述的基于区域分组与内部关联融合的人脸表情识别方法，其特征在于，所述预处理包括利用处理工具进行人脸对齐和裁剪，确保人脸识别图像的统一。

6.基于区域分组与内部关联融合的人脸表情识别系统，其特征在于，包括：

其中，所述卷积神经网络模型包括部分遮挡预处理模块、面片分组模块及内在关联推理融合模块，其中，所述部分遮挡预处理模块以人脸表情图像原图作为全局参考，进行局部面片的分割与再生成；

所述面片分组模块利用自注意力机制分组时，引入平均数、中位数、中程数三种指标进行池化得到新的融合指标作为分类依据；所述内在关联推理融合模块从面片之间的内部关联出发，构造两种不同的面片组间关系；

7.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任一项所述的基于区域分组与内部关联融合的人脸表情识别方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一项所述的基于区域分组与内部关联融合的人脸表情识别方法。