CN113642540B

CN113642540B - 一种基于胶囊网络的人脸表情识别方法及装置

Info

Publication number: CN113642540B
Application number: CN202111195200.3A
Authority: CN
Inventors: 雷震; 陶建华; 张小梅; 于畅
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2022-01-28
Anticipated expiration: 2041-10-14
Also published as: CN113642540A

Abstract

本发明提供一种基于胶囊网络的人脸表情识别方法及装置，其中方法包括：利用倒谱理论自动的评估图像清晰度，自动筛选出清晰图像；将筛选出清晰图像去除背景和非人脸区域，做图像裁剪；对图像裁剪后的图像提取局部特征人脸关键点，做图像校准；通过旋转、移动、倾斜、缩放和颜色抖动操作来扩充校准后的图像的数据集；将校准后的图像输入到胶囊网络中提取具有可解释性的人脸表情特征，具体方法包括：部件胶囊学习和部件胶囊融合；将具有可解释性的人脸表情特征输入到分类器中，得到人脸表情最后的分类结果。

Description

一种基于胶囊网络的人脸表情识别方法及装置

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于胶囊网络的人脸表情识别方法及装置。

背景技术

人脸表情识别是计算机视觉中的热门研究课题之一，也是基于视觉的模式识别应用的一个重要研究方向。它需要将图像中人的表情（愤怒、惊讶和快乐等）分类出来，从而为针对人脸的应用提供更加详细的先验信息，比如：人机交互，心理健康评估以及驾驶员疲惫监测等。尽管当前基于卷积神经网络的模型取得很高的准确率，但无法解释。因为我们不完全了解他们的预测依据是什么，不知道它什么时候会出现错误，导致一些对可靠性要求高的领域（法律、财经等）仍然无法完全相信模型的预测能力。因此，我们提出了利用胶囊网络来提取特征，得到人脸表情识别的可解释性。由于在不受约束的条件下，存在遮挡、不同的头部姿态和面部变形等问题，人脸表情识别面临一些挑战。因此，利用图像预处理模块来检测出人脸位置，减少不相关信息的干扰。使用关键点定位模块，进一步获得人脸的关键信息对图像进行校准，减少姿态和形变的干扰。

发明内容

有鉴于此，本发明第一方面提供一种基于胶囊网络的人脸表情识别方法，所述方法包括：

S1：利用倒谱理论自动的评估图像清晰度，自动筛选出清晰图像；将筛选出清晰图像去除背景和非人脸区域，做图像裁剪；

S2：对图像裁剪后的图像提取局部特征人脸关键点，做图像校准；

S3：将校准后的图像输入到胶囊网络中提取具有可解释性的人脸表情特征；

S4：将具有可解释性的人脸表情特征输入到分类器中，得到人脸表情最后的分类结果。

在一些实施例中，所述将校准后的图像输入到胶囊网络之前，所述方法还包括：通过旋转、移动、倾斜、缩放和颜色抖动操作来扩充校准后的图像的数据集。

在一些实施例中，所述将校准后的图像输入到胶囊网络中提取具有可解释性的人脸表情特征的具体方法包括：部件胶囊学习和部件胶囊融合；

所述部件胶囊是对相应人脸部件的一个完备描述，包含部件胶囊的概率、部件胶囊的姿态参数、部件胶囊的形状以及部件胶囊的纹理特征。

在一些实施例中，部件胶囊学习：将校准后的图像输入到基于自注意力的网络得到一系列的部件胶囊；

部件胶囊融合：将所有的部件胶囊输入基于transformer融合网络中，对学习到的部件进行筛选和重新组合，得到具有语义的人脸表情特征。

在一些实施例中，所述将校准后的图像输入到基于自注意力的网络之前还包括：将校准后的图像输入基于由残差网络构成的特征提取器中，得到图像特征。

在一些实施例中，所述将校准后的图像输入到基于自注意力的网络得到一系列的部件胶囊的具体方法包括：将图像特征输入基于自注意力的网络中，得到注意力特征，将注意力特征与图像特征相乘，得到M个部件胶囊，然后将所述M个部件胶囊输入M个多层感知机中，得到M个部件胶囊对应的参数，包括存在部件胶囊对应的概率P、部件胶囊的姿态参数T、部件胶囊的形状参数S, 以及部件胶囊的纹理特征d。

在一些实施例中，所述部件胶囊的形状参数包括：部件胶囊的模板形状S ^c以及部件胶囊的可见度形状S ^a，部件胶囊的纹理特征d经过一个多层感知机之后可以得到与部件胶囊的模板形状相对应的部件胶囊的纹理C。

在一些实施例中，所述部件胶囊通过最大化公式(1)进行学习，

(1)

其中，

p(I)：图像集合对应的概率；

P _m：部件胶囊m对应的图像的概率；

S ^a _m,i,j：部件胶囊m对应的图像(i,j)位置对应的可见度形状；

N(•)：正态分布；

I _i,j：图像(i,j)位置的像素取值；

C _m：部件胶囊m对应的模板形状相对应的纹理；

S ^c _m,i,j：部件胶囊m对应的图像 (i,j)位置对应的模板形状;

σ _I：图像集合对应的方差。

在一些实施例中，对部件胶囊的激活情况进行稀疏约束，得到部件胶囊学习的损失函数：

(2)

其中，

||•||₁：1范数。

在一些实施例中，所述部件胶囊融合：将所有的部件胶囊输入基于transformer融合网络中之前还包括：将所述部件胶囊的形状参数, 以及部件胶囊的纹理特征串联在一起，通过K-means算法进行聚类，得到每个部件所属的伪语义类别标签，将M个部件胶囊聚合为K个集合，

(3)

其中，

set _k：聚类得到的第k个类别所包含的部件胶囊的集合；

y _m ^k：部件胶囊m对应k类的语义类别标签；

M个部件胶囊输入基于transformer融合网络中，根据K个集合进行筛选并重新组合后，得到K个融合胶囊；然后将所述K个融合胶囊输入K个多层感知机中，得到K个融合胶囊对应的参数，包括：与部件胶囊之间的所属关系R _o，融合姿态参数T _o。

在一些实施例中，通过所属关系R _o可以得到组合之后的融合胶囊的形状参数S _o以及融合胶囊的纹理C _o；所述融合胶囊的形状参数包括：融合胶囊的模板形状S_o ^c和融合胶囊的可见度形状S_o ^a。

在一些实施例中，所述基于transformer融合网络的训练损失函数为：

(4)

其中，

S ^a _ok,i,j：融合胶囊k的可见度形状；

C _ok：融合胶囊k的纹理；

S ^c _ok,i,j：融合胶囊k的模板形状；

R ^k _om：部件胶囊m对应的融合胶囊k的所属关系

本发明第二方面提供一种基于胶囊网络的人脸表情识别装置，所述装置包括：

图像预处理模块、关键点定位模块、胶囊模块和分类器；

所述图像预处理模块：利用倒谱理论自动的评估图像清晰度，自动筛选出清晰图像；将筛选出清晰图像去除背景和非人脸区域，做图像裁剪；

所述关键点定位模块：对图像裁剪后的图像提取局部特征人脸关键点，做图像校准；通过旋转、移动、倾斜、缩放和颜色抖动操作来扩充校准后的图像的数据集；

所述胶囊模块：将校准后的图像输入到胶囊网络中提取具有可解释性的人脸表情特征；

所述分类器：将具有可解释性的人脸表情特征输入到分类器中，得到人脸表情最后的分类结果。

在一些实施例中，所述胶囊模块包括：残差网络、基于自注意力的网络、聚类模块和基于transformer融合网络；

将校准后的图像输入基于由残差网络构成的特征提取器中，得到图像特征；

将图像特征输入基于自注意力的网络中，得到注意力特征，将注意力特征与图像特征相乘，得到M个部件胶囊，然后将所述M个部件胶囊输入M个多层感知机中，得到M个部件胶囊对应的参数，包括存在部件胶囊对应的概率P、部件胶囊的姿态参数T、部件胶囊的形状参数S, 以及部件胶囊的纹理特征d；

将所述部件胶囊的形状参数, 以及部件胶囊的纹理特征串联在一起，通过聚类模块进行聚类，聚类模块采用K-means算法，得到每个部件所属的伪语义类别标签，将M个部件胶囊聚合为K个集合，

(3)

其中，

set _k：聚类得到的第k个类别所包含的部件胶囊的集合；

y _m ^k：部件胶囊m对应k类的伪语义类别标签；

在一些实施例中，所述部件胶囊学习的损失函数：

(2)

其中，

||•||₁：1范数；

P _m：部件胶囊m对应的图像的概率；

N(•)：正态分布；

I _i,j：图像(i,j)位置的像素取值；

C _m：部件胶囊m对应的模板形状相对应的纹理；

S ^c _m,i,j：部件胶囊m对应的图像 (i,j)位置对应的模板形状;

σ _I：图像集合对应的方差。

(4)

其中，

S ^a _ok,i,j：融合胶囊k的可见度形状；

C _ok：融合胶囊k的纹理；

S ^c _ok,i,j：融合胶囊k的模板形状；

R ^k _om：部件胶囊m对应的融合胶囊k的所属关系。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

（1）基于胶囊网络的人脸表情识别方法可以获得表情识别的可解释性；

（2）图像预处理模块通过倒谱理论自动筛选出清晰图像，然后通过人脸检测方法减少背景信息的干扰；

（3）关键点定位模块可以减少姿态和形变的干扰，进一步提升人脸表情识别的性能；

（4）动态损失可以自动调节损失的权重，从而增加网络的准确率。

附图说明

图1为本发明实施例提供的一种基于胶囊网络的人脸表情识别方法的流程图；

图2为本发明实施例提供的一种基于胶囊网络的人脸表情识别装置的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例1：

图1为本发明实施例提供的一种基于胶囊网络的人脸表情识别方法的流程图，如图1所示，本申请实施例提供的基于胶囊网络的人脸表情识别方法，包括：

S1：图片质量不好时（比如：图像模糊），会影响人脸识别的准确率，利用倒谱理论自动的评估图像清晰度，自动筛选出清晰图像，提升网络的精度；为了减少背景信息的相关干扰，将筛选出清晰图像去除背景和非人脸区域，做图像裁剪；

具体步骤如下：

S11：对于一幅大小为M×N的灰度图像g(x,y)，它的傅立叶变换为：

则其倒谱域变换定义为：

式中，F{•}和F ^-1{•}分别表示傅立叶变换和反傅立叶变换，|•|表示求复数模；

对于图像降噪过程，可用下面的数学模型来近似描述：

其中f(x,y)为输入清晰图像，h(x,y)为点扩散函数，*为卷积操作；

由上述式子可得

由此可见，倒谱域变换的一个重要性质是：在倒谱域内，模糊图像的倒谱可分解为清晰图像的倒谱和点扩散函数的倒谱的线性叠加；清晰的人脸图像经过倒谱域变换后，图像衰减很快，几乎只集中在中心点附近很小的区域内；

S12：给定一系列训练数据后，首先对人脸进行检测，然后去除背景和非人脸区域，使网络更加关注于前景。

S2：为了提高人脸表情识别的准确性，对图像裁剪后的图像提取局部特征人脸关键点，做图像校准，可以减少姿态和形变的干扰；

在一些实施例中，充足的数据是确保识别任务泛化性的关键，通过旋转、移动、倾斜、缩放和颜色抖动操作来扩充校准后的图像的数据集。

S3：将校准后的图像输入到胶囊网络中提取具有可解释性的人脸表情特征，具体方法包括：部件胶囊学习和部件胶囊融合；

所述部件胶囊是对相应人脸部件的一个完备描述，包含部件胶囊的概率、部件胶囊的姿态参数、部件胶囊的形状以及部件胶囊的纹理特征；

S31：部件胶囊学习：将校准后的图像输入到基于自注意力的网络得到一系列的部件胶囊；

在一些实施例中，将校准后的图像输入基于由残差网络（ResNet）构成的特征提取器中，得到图像特征；

其中，M取值为50~150，具体依据数据的复杂程度以及计算资源决定，如果较为复杂，M取值偏大一下如，100、110、135、150等等，如果较为简单，M取值偏小一下，如50、60、65等等。

所述部件胶囊的形状参数包括：部件胶囊的模板形状S ^c以及部件胶囊的可见度形状S ^a，部件胶囊的纹理特征d经过一个多层感知机之后可以得到与部件胶囊的模板形状相对应的部件胶囊的纹理C；

在一些实施例中，设置部件胶囊个数M为150，存在概率P为1*1变量，姿态参数T为1*6向量，对应仿射变换的6个参数，形状参数S为40*40变量，纹理特征为1*16变量；

具体地，这些超参数将依据着场景及计算资源的变化进行调整；

其中，模板各个部件的(i,j)的像素值服从混合高斯分布，所述部件胶囊通过最大化公式(1)进行学习，

(1)

其中，

p(I)：图像集合对应的概率；

P _m：部件胶囊m对应的图像的概率；

N(•)：正态分布；

I _i,j：图像(i,j)位置的像素取值；

C _m：部件胶囊m对应的模板形状相对应的纹理；

S ^c _m,i,j：部件胶囊m对应的图像 (i,j)位置对应的模板形状;

σ _I：图像集合对应的方差；

在一些实施例中，优选地，对部件胶囊的激活情况进行稀疏约束，得到部件胶囊学习的损失函数：

(2)

其中，

||•||₁：1范数；

S32：部件胶囊融合：将所有的部件胶囊输入基于transformer融合网络中，对学习到的部件进行筛选和重新组合，得到具有语义的人脸表情特征；

在一些实施例中，将所有的部件胶囊输入基于transformer融合网络中之前还包括：将所述部件胶囊的形状参数, 以及部件胶囊的纹理特征串联在一起，通过K-means算法进行聚类，得到每个部件所属的伪语义类别标签，将M个部件胶囊聚合为K个集合，

(3)

其中，

set _k：聚类得到的第k个类别所包含的部件胶囊的集合；

y _m ^k：部件胶囊m对应k类的语义类别标签；

M个部件胶囊输入基于transformer融合网络中，根据K个集合进行筛选并重新组合后，得到K个融合胶囊；然后将所述K个融合胶囊输入K个多层感知机中，得到K个融合胶囊对应的参数，包括：与部件胶囊之间的所属关系R _o，融合姿态参数T _o；

K个融合胶囊是transformer输出得到的，将K个胶囊参数输入K个MLP中，得到所属关系R₀以及T₀。

通过所属关系R _o可以得到组合之后的融合胶囊的形状参数S _o以及融合胶囊的纹理C _o；所述融合胶囊的形状参数包括：融合胶囊的模板形状S_o ^c和融合胶囊的可见度形状S_o ^a；

(4)

其中，

S ^a _ok,i,j：融合胶囊k的可见度形状；

C _ok：融合胶囊k的纹理；

S ^c _ok,i,j：融合胶囊k的模板形状；

R ^k _om：部件胶囊m对应的融合胶囊k的所属关系。

S4：将具有可解释性的人脸表情特征输入到分类器中，得到人脸表情最后的分类结果；

在一些实施例中，由于数据不均衡、类间相似和类内差异等，采用动态loss，自动调节不同类别的权重，提升网络的准确率。

实施例2：

图2为本发明实施例提供的一种基于胶囊网络的人脸表情识别装置的结构图，如图2所示，本申请实施例提供的基于胶囊网络的人脸表情识别装置，包括：

图像预处理模块、关键点定位模块、胶囊模块和分类器；

(3)

其中，

set _k：聚类得到的第k个类别所包含的部件胶囊的集合；

y _m ^k：部件胶囊m对应k类的伪语义类别标签；

在一些实施例中，所述部件胶囊学习的损失函数：

(2)

其中，

||•||₁：1范数；

P _m：部件胶囊m对应的图像的概率；

N(•)：正态分布；

I _i,j：图像(i,j)位置的像素取值；

C _m：部件胶囊m对应的模板形状相对应的纹理；

S ^c _m,i,j：部件胶囊m对应的图像 (i,j)位置对应的模板形状;

σ _I：图像集合对应的方差。

(4)

其中，

S ^a _ok,i,j：融合胶囊k的可见度形状；

C _ok：融合胶囊k的纹理；

S ^c _ok,i,j：融合胶囊k的模板形状；

R ^k _om：部件胶囊m对应的融合胶囊k的所属关系。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于胶囊网络的人脸表情识别方法，其特征在于，所述方法包括：

所述将校准后的图像输入到胶囊网络之前，所述方法还包括：通过旋转、移动、倾斜、缩放和颜色抖动操作来扩充校准后的图像的数据集；

所述将校准后的图像输入到胶囊网络中提取具有可解释性的人脸表情特征的具体方法包括：部件胶囊学习和部件胶囊融合；

部件胶囊学习：将校准后的图像输入到基于自注意力的网络得到一系列的部件胶囊；

部件胶囊融合：将所有的部件胶囊输入基于transformer融合网络中，对学习到的部件进行筛选和重新组合，得到具有语义的人脸表情特征；

所述将校准后的图像输入到基于自注意力的网络之前还包括：将校准后的图像输入基于由残差网络构成的特征提取器中，得到图像特征；

所述将校准后的图像输入到基于自注意力的网络得到一系列的部件胶囊的具体方法包括：将图像特征输入基于自注意力的网络中，得到注意力特征，将注意力特征与图像特征相乘，得到M个部件胶囊，然后将所述M个部件胶囊输入M个多层感知机中，得到M个部件胶囊对应的参数，包括存在部件胶囊对应的概率P、部件胶囊的姿态参数T、部件胶囊的形状参数S, 以及部件胶囊的纹理特征d；

所述部件胶囊通过最大化公式进行学习；

对部件胶囊的激活情况进行稀疏约束，得到部件胶囊学习的损失函数；

所述部件胶囊融合：将所有的部件胶囊输入基于transformer融合网络中之前还包括：将所述部件胶囊的形状参数, 以及部件胶囊的纹理特征串联在一起，通过K-means算法进行聚类，得到每个部件所属的伪语义类别标签，将M个部件胶囊聚合为K个集合，M个部件胶囊输入基于transformer融合网络中，根据K个集合进行筛选并重新组合后，得到K个融合胶囊；然后将所述K个融合胶囊输入K个多层感知机中，得到K个融合胶囊对应的参数，包括：与部件胶囊之间的所属关系R _o，融合姿态参数T _o；

通过所属关系R _o可以得到组合之后的融合胶囊的形状参数S _o以及融合胶囊的纹理C _o；所述融合胶囊的形状参数包括：融合胶囊的模板形状S_o ^c和融合胶囊的可见度形状S_o ^a。

2.根据权利要求1所述的基于胶囊网络的人脸表情识别方法，其特征在于，所述部件胶囊通过最大化公式(1)进行学习，

(1)

其中，

p(I)：图像集合对应的概率；

P _m：部件胶囊m对应的图像的概率；

N(•)：正态分布；

I _i,j：图像(i,j)位置的像素取值；

C _m：部件胶囊m对应的模板形状相对应的纹理；

S ^c _m,i,j：部件胶囊m对应的图像 (i,j)位置对应的模板形状;

σ _I：图像集合对应的方差。

3.根据权利要求2所述的基于胶囊网络的人脸表情识别方法，其特征在于，对部件胶囊的激活情况进行稀疏约束，得到部件胶囊学习的损失函数：

(2)

其中，

||•||₁：1范数。

4.根据权利要求3所述的基于胶囊网络的人脸表情识别方法，其特征在于，所述将M个部件胶囊聚合为K个集合的具体公式为：

(3)

其中，

set _k：聚类得到的第k个类别所包含的部件胶囊的集合；

y _m ^k：部件胶囊m对应k类的语义类别标签。

5.根据权利要求4所述的基于胶囊网络的人脸表情识别方法，其特征在于，所述基于transformer融合网络的训练损失函数为：

(4)

其中，

S ^a _ok,i,j：融合胶囊k的可见度形状；

C _ok：融合胶囊k的纹理；

S ^c _ok,i,j：融合胶囊k的模板形状；

R ^k _om：部件胶囊m对应的融合胶囊k的所属关系。

6.一种基于胶囊网络的人脸表情识别装置，其特征在于，所述装置包括：

图像预处理模块、关键点定位模块、胶囊模块和分类器；

所述分类器：将具有可解释性的人脸表情特征输入到分类器中，得到人脸表情最后的分类结果；

所述胶囊模块包括：残差网络、基于自注意力的网络、聚类模块和基于transformer融合网络；

(3)

其中，

set _k：聚类得到的第k个类别所包含的部件胶囊的集合；

y _m ^k：部件胶囊m对应k类的伪语义类别标签；

所述部件胶囊的形状参数包括：部件胶囊的模板形状S ^c以及部件胶囊的可见度形状S ^a，部件胶囊的纹理特征d经过一个多层感知机之后可以得到与部件胶囊的模板形状相对应的部件胶囊的纹理C。

7.根据权利要求6所述的基于胶囊网络的人脸表情识别装置，其特征在于，所述部件胶囊学习的损失函数：

(2)

其中，

||•||₁：1范数；

P _m：部件胶囊m对应的图像的概率；

N(•)：正态分布；

I _i,j：图像(i,j)位置的像素取值；

C _m：部件胶囊m对应的模板形状相对应的纹理；

S ^c _m,i,j：部件胶囊m对应的图像 (i,j)位置对应的模板形状;

σ _I：图像集合对应的方差。

8.根据权利要求7所述的基于胶囊网络的人脸表情识别装置，其特征在于，所述基于transformer融合网络的训练损失函数为：

(4)

其中，

S ^a _ok,i,j：融合胶囊k的可见度形状；

C _ok：融合胶囊k的纹理；

S ^c _ok,i,j：融合胶囊k的模板形状；

R ^k _om：部件胶囊m对应的融合胶囊k的所属关系。