CN112417991B

CN112417991B - 基于沙漏胶囊网络的双注意力人脸对齐方法

Info

Publication number: CN112417991B
Application number: CN202011202209.8A
Authority: CN
Inventors: 李晶; 马金燕; 刘天鹏; 常军; 姚博文; 洪燕
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2022-04-29
Anticipated expiration: 2040-11-02
Also published as: CN112417991A

Abstract

本发明公开了一种基于沙漏胶囊网络的双注意力人脸对齐方法。本发明提出的沙漏胶囊网络确保网络在提取人脸图片中多尺度特征的同时更好的捕获人脸特征点间的空间位置关系，对人脸特征点的空间位置关系进行建模，增强算法在部分遮挡情况下的鲁棒性；本发明还设计了两个新颖的注意力机制，即胶囊注意力机制和空间注意力机制，使网络更加关注有助于人脸特征点定位的特征，同时抑制其他不相关特征，增强了网络的表达能力。在部分遮挡、表情夸张、光照变化等极端的环境下，本发明方法依旧能够保持较高的精度。

Description

基于沙漏胶囊网络的双注意力人脸对齐方法

技术领域

本发明属于计算机视觉技术领域，具体涉及数字图像的人脸对齐技术领域，特别是涉及一种基于沙漏胶囊网络的双注意力人脸对齐方法。

背景技术

人脸对齐，也被称之为人脸特征点检测，旨在定位人脸上(例如眼角、鼻尖以及嘴角等)预先定义好的特征点，是很多人脸分析任务的关键步骤，例如人脸识别、面部追踪、面部表情识别以及头部姿态估计等。几十年来，研究学者为解决人脸对齐问题付出了大量的努力，尽管该问题已经在限制性甚至非限制性环境下取得了一定的突破，然而，由于人脸外观和形状的变化，例如姿势，表情，尤其是部分遮挡的存在，使得人脸对齐任务仍然具有很大的挑战。

部分遮挡使得人脸外观信息包含大量的噪声，局部特征间的空间位置关系也因为部分遮挡的存在而变得模糊，导致人脸遮挡部分及可见部分的特征点定位失准。由于人脸的任意部分可以被任意目标遮挡，因此在部分遮挡的情况下，人脸对齐算法通常会发生严重的退化。近几年，基于卷积神经网络的算法已经成为解决部分遮挡情况下人脸对齐问题的主流方法，尽管这类方法已经取得了不同程度的成功，然而，由于传统卷积神经网络本身的标量和加权特性及最大池化的存在，使得网络丢弃了数据中的位置和方向等信息，无法很好的捕捉特征间的空间位置关系，导致那些在约束环境下表现良好的人脸对齐算法在部分遮挡发生时鲁棒性将会大幅降低。

发明内容

为了解决上述技术问题，本发明提出了一种基于沙漏胶囊网络的双注意力人脸对齐方法。

本发明提出了沙漏胶囊网络和自适应局部约束动态路由算法，确保网络在提取人脸图片中的多尺度特征的同时捕获人脸特征点间的空间位置关系，增加算法在部分遮挡情况下的鲁棒性；为了模仿人类的视觉注意力机制，本发明提出了双注意力机制，即胶囊注意力机制和空间注意力机制，使网络更加关注有助于人脸特征点定位的特征，增强网络的表达能力。

本发明的技术方案为一种基于沙漏胶囊网络的双注意力人脸对齐方法，包括如下步骤：

步骤1，对于给定的人脸图片，首先通过卷积操作获得一组基础的特征图，然后利用沙漏胶囊网络以及自适应局部约束动态路由算法对特征图进行多尺度特征的提取，同时捕获特征间的空间位置关系，最终得到人脸边界热力图；

步骤2，对于步骤1中得到的基础特征图，利用胶囊注意力模块有选择性的加强有助于人脸特征点定位的特征；

步骤3，对于步骤1中得到的基础特征图，利用空间注意力模块捕获人脸图像中具有区域间的长期、多级依赖关系的特征；

步骤4，将步骤2与步骤3提取的特征进行对应元素相加，得到融合之后的特征；

步骤5，将步骤1中的人脸边界热力图与步骤4中的特征进行通道连接，得到最终的人脸关键点坐标。

进一步的，步骤1中的沙漏胶囊网络的具体结构如下，

沙漏胶囊网络的上半部分，包括依次连接的1个基于自适应局部约束动态路由算法的卷积，其中路由次数为1，1个基于自适应局部约束动态路由算法的卷积，其中路由次数为3，1个残差单元，2个基于自适应局部约束动态路由算法的卷积，其中路由次数为3，1个残差单元，2个基于自适应局部约束动态路由算法的卷积其中路由次数为3，3个残差单元；

沙漏胶囊网络的下半部分，包括依次连接的1个基于自适应局部约束动态路由算法的反卷积，路由次数为3，与网络上半部分相同大小的胶囊进行1次跳跃连接，1个残差单元，1个基于自适应局部约束动态路由算法的卷积，路由次数为3，1个基于自适应局部约束动态路由算法的反卷积，路由次数为3，与网络上半部分相同大小的胶囊进行1次跳跃连接，1个残差单元，1个基于自适应局部约束动态路由算法的卷积，路由次数为3，与网络上半部分相同大小的胶囊进行1次跳跃连接。

进一步的，步骤1中将基础特征图划分为若干个胶囊，通过在胶囊之间执行自适应局部约束动态路由算法以获取图片中人脸特征点间的空间位置关系，自适应局部约束动态路由算法的具体描述如下，

在沙漏胶囊网络的l层，存在一组胶囊

其中n代表胶囊的个数，对于自适应核内的任意一个“子胶囊”

存在一组“父胶囊”

自适应局部约束动态路由算法旨在找到合适的耦合系数，以便“子胶囊”可以激活正确的“父胶囊”，从而实现低层胶囊与高层胶囊之间的信息传递；为了实现这一目的，首先将自适应核内的“子胶囊”

与转换矩阵

相乘得到l层的预测向量

其中，预测向量

的维度为

大小与自适应核大小保持一致，为k_h×k_w；

的大小为

代表l+1层的“父胶囊”个数；最后将l层胶囊的预测向量

乘以耦合系数

得到l+1层自适应核内“父胶囊”的输入

其中，耦合系数

的更新过程如公式(2)所示：

k代表l层胶囊的个数，

是预测向量

与“父胶囊”

路由的先验概率，其计算方式如公式(3)所示；初始状态下，先验概率

的值为0，意味着此时l+1层胶囊是l层胶囊的加权求和；

其中，

代表l+1层“父胶囊”的最终输出，通过如下非线性激活函数计算得到；

进一步的，步骤2中胶囊注意力模块的具体处理过程为，

对于基础特征图

首先对其进行矩阵变换得到

即将原始特征图划分成A个维度为D，大小为W×H的胶囊，记为胶囊1，每个胶囊代表图片中不同的实体或者实体的一部分，为了计算胶囊间的相互依赖关系，首先对胶囊

执行自适应局部约束动态路由算法得到新的胶囊

记为胶囊2；

其中，R代表自适应局部约束动态路由算法，上述操作将胶囊的每个维度的特征图压缩为一个实数；将两个新产生的胶囊进行矩阵相乘操作，然后对其进行softmax计算得到特征的关系矩阵γ_ij，也称为注意力图；

其中，y_j表示第j个胶囊，N表示胶囊的个数，γ_j,i表示在识别第j个胶囊时，关注第i个胶囊的程度；接下来将注意力图γ_ij与原始胶囊

相乘以获取最终的自注意力图τ∈R^A ^×D×W×H；

最后，将注意力层的输出乘以一个比例系数然后将其与原始胶囊相加，以保留原始特征图中的其他有效信息，因此，最终的输出定义为：

其中，θ为比例系数。

进一步的，步骤3中空间注意力模块的具体处理过程如下，

对于基础特征图

首先将特征图进行矩阵变换得到

其中代表C特征图的通道数，N＝H×W，H,W分别代表特征图的宽和高；然后将特征图

通过两个特征空间f,g分别产生两个新的特征图

其中

W_f，W_g代表卷积操作；将两个新产生的特征图进行矩阵相乘操作，然后对其进行softmax计算得到特征的关系矩阵ξ_ij；

接下来，将原始特征图

通过另一个特征空间

得到另一个新的特征图

W_h代表卷积操作，将关系矩阵ξ_ij与H相乘以获取最终的注意力图σ∈R^CXN；

最后，将得到的注意力图σ与原始特征z进行对应元素相加操作以保留原始特征图中的其他有效信息。

本发明与现有技术相比，具有以下优点：本发明的人脸对齐算法在姿态变化、部分遮挡、背景模糊等极端环境下，依旧能保持较高的精度，显示了本发明对夸张姿态和严重遮挡的人脸关键点检测的鲁棒性。

附图说明

图1是本发明实施例整体框架图。

图2是本发明实施例沙漏胶囊网络结构图。

图3是本发明实施例基于自适应局部约束动态路由算法的卷积操作。

图4是本发明消融实验可视化结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明做进一步详细说明应当理解，此处描述的具体实施例仅用以解释本发明，并不用于限定本发明。

基于沙漏胶囊网络的双注意力人脸对齐方法，其主要思想是：沙漏胶囊网络确保网路在提取人脸图片中多尺度特征的同时更好的捕获人脸特征点间的空间位置关系，对人脸特征点的空间位置关系进行建模，增强算法在部分遮挡情况下的鲁棒性；双注意力机制通过融合胶囊注意力机制以及空间注意力机制提取的特征，使网络更加关注有助于人脸特征点定位的特征，同时抑制其他不相关特征，增强了网络的表达能力。

如图1所示，本发明放的整体流程为；

步骤1，对于给定的人脸图片，首先通过简单的卷积操作得到一组基础的特征图，然后利用沙漏胶囊网络以及自适应局部约束动态路由算法对人脸图片进行多尺度特征的提取，同时捕获特征间的空间位置关系，最终得到人脸边界热力图；

步骤4，将步骤2与步骤3提取的特征进行对应元素相加(Element-wise SumProduct)得到融合之后的特征；

步骤5，将步骤1中的人脸边界热力图与步骤4中的特征进行通道连接(Concatenation)，得到最终的人脸关键点坐标。

如图1所示，步骤1中的沙漏胶囊网络具体网络结构如下，

沙漏胶囊网络的上半部分，包括依次连接的1个基于自适应局部约束动态路由算法的卷积，路由次数为1，1个基于自适应局部约束动态路由算法的卷积，路由次数为3，1个残差单元，2个基于自适应局部约束动态路由算法的卷积，路由次数为3，1个残差单元，2个基于自适应局部约束动态路由算法的卷积，路由次数为3，3个残差单元；

沙漏胶囊网络的下半部分，包括依次连接的1个基于自适应局部约束动态路由算法的反卷积，路由次数为3，与网络上半部分相同大小的胶囊进行1次跳跃连接(SkipConnection)，1个残差单元，1个基于自适应局部约束动态路由算法的卷积，路由次数为3，1个基于自适应局部约束动态路由算法的反卷积，路由次数为3，与网络上半部分相同大小的胶囊进行1次跳跃连接，1个残差单元，1个基于自适应局部约束动态路由算法的卷积，路由次数为3，与网络上半部分相同大小的胶囊进行1次跳跃连接。

由于传统卷积神经网络只关注某些特定特征是否存在而忽略了这些特征间的空间位置关系，因此为了捕获人脸特征点的空间位置关系以增强人脸图片与人脸特征点之间非线性映射关系，我们将步骤1中通过卷积得到的特征图划分为若干个胶囊，通过在胶囊之间执行自适应局部约束动态路由算法以获取图片中人脸特征点间的空间位置关系。

如图2所示，步骤1中的自适应局部约束动态路由算法如下，

在沙漏胶囊网络的l层，存在一组胶囊

其中n代表胶囊的个数。对于自适应核内的任意一个“子胶囊”

存在一组“父胶囊”

自适应局部约束动态路由算法旨在找到合适的耦合系数，以便“子胶囊”可以激活正确的“父胶囊”，从而实现低层胶囊与高层胶囊之间的信息传递。为了实现这一目的，首先将自适应核内的“子胶囊”

与转换矩阵

相乘得到l层的预测向量

其中，预测向量

的维度为

大小与自适应核大小保持一致，为k_h×k_w。

的大小为

代表l+1层的“父胶囊”个数。值得注意的是，转换矩阵

的值与自适应核无关，它是通过损失函数反向传播得到。最后将l层胶囊的预测向量

乘以耦合系数

得到l+1层自适应核内“父胶囊”的输入

其中，耦合系数

的更新过程如公式(2)所示：

k代表l层胶囊的个数，

是预测向量

与“父胶囊”

路由的先验概率，其计算方式如公式(3)所示。初始状态下，先验概率

的值为0，意味着此时l+1层胶囊是l层胶囊的加权求和。

其中，

代表l+1层“父胶囊”的最终输出，通过如下非线性激活函数计算得到。

基于自适应局部约束动态路由算法的反卷积过程与上述描述类似，不同之处在于自适应局部约束卷积过程中子胶囊的局部空间核较小，父胶囊的局部空间核较大；而反卷积过程则恰好与之相反。

进一步的，步骤2中的胶囊注意力模块具体描述如下，

对于步骤1中的基础特征图

首先对其进行矩阵变换得到

即将原始特征图划分成A个维度为D，大小为W×H的胶囊，记为胶囊1，每个胶囊代表图片中不同的实体或者实体的一部分，为了计算胶囊间的相互依赖关系，我们首先对胶囊

执行自适应局部约束动态路由算法得到新的胶囊

记为胶囊2；

其中，R代表自适应局部约束动态路由算法，上述操作将胶囊的每个维度的特征图压缩为一个实数，这个实数在一定程度上表示视觉实体的某个实例化参数。为了对长期依赖关系进行建模并计算注意力，我们将两个新产生的胶囊(即胶囊1和胶囊2)进行矩阵相乘操作，然后对其进行softmax计算得到特征的关系矩阵γ_ij，也称为注意力图。

其中，y_j表示第j个胶囊，N表示胶囊的个数，γ_j,i表示在识别第j个胶囊时，关注第i个胶囊的程度，也就是说，两个胶囊的特征表达越相似，它们之间的相关性就越大。接下来将注意力图γ_ij与原始胶囊

相乘以获取最终的自注意力图τ∈R^A×D×W×H。

最后，我们将注意力层的输出乘以一个比例系数然后将其与原始胶囊相加，以保留原始特征图中的其他有效信息。因此，最终的输出定义为：

其中，θ为比例系数，θ的初始值为0，表示网络(胶囊注意力模块实质上也是神经网络)一开始依赖局部关系，接着我们将逐渐增加注意力机制的权重，通过显式地建模胶囊之间的相互依赖关系，学习每个胶囊的重要程度，使得网络可以有选择性的加强有助于人脸特征点定位的胶囊，同时抑制其他不相关的胶囊。

进一步的，步骤3中的空间注意力模块具体描述如下，

对于步骤1中卷积层提取的特征图

我们首先将特征图进行矩阵变换得到

其中C代表特征图的通道数，N＝H×W，H,W分别代表特征图的宽和高。然后将reshape后的特征图

通过两个特征空间f,g分别产生两个新的特征图

其中

W_f，W_g代表卷积操作。与胶囊注意力机制类似，为了对长期依赖关系进行建模并计算注意力，我们将两个新产生的特征图进行矩阵相乘操作，然后对其进行softmax计算得到特征的关系矩阵ξ_ij。

接下来，我们在关系矩阵ξ_ij和原始特征之间进行矩阵乘法获取特征间的长期依赖关系，对那些有效的特征进行增强，同时抑制那些不相关的特征。将原始特征图通过另一个特征空间

得到另一个新的特征图

W_h代表卷积操作，将关系矩阵ξ_ij与H相乘以获取最终的注意力图σ∈R^CXN。

最后，我们将上一步骤得到的注意力图σ与原始特征z进行了对应元素相加操作以保留原始特征图中的其他有效信息。空间注意力机制使得网络捕获特征间的长期依赖关系，而不仅仅是它们之间的局部依赖关系。通过这种依赖关系，网络可以有选择性对特征进行聚合，从而关注更加有效的图片区域。

为了说明本发明的技术效果，下面提供在COFW-29数据集下本文算法与其他先进算法的指标比较(见表1)以及消融实验的可视化结果图(见图4)。如表1所示，本发明能够将10％NME的失败率从3.73％降低到1.08％，这意味着在93张人脸图片中，仅有1张人脸图片的NME大于10％，显示了本发明对夸张姿态和严重遮挡的人脸的鲁棒性。如图4所示，白色点代表真实结果，灰色点代表预测结果。从a到e分别代表沙漏网络，沙漏胶囊网络，沙漏胶囊网络加空间注意力，沙漏胶囊网络加胶囊注意力，沙漏胶囊网络加双注意力的预测结果，可视化结果证明了本发明提出算法的有效性。

表1本算法与其他先进算法归一化平均误差(NME)与失败率(FR)比较

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。