CN113255530A

CN113255530A - 基于注意力的多通道数据融合网络架构及数据处理方法

Info

Publication number: CN113255530A
Application number: CN202110596740.6A
Authority: CN
Inventors: 谷雨; 颜焕
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-13
Anticipated expiration: 2041-05-31
Also published as: CN113255530B

Abstract

本发明提供了一种基于注意力的多通道数据融合网络AMDFN架构，所述AMDFN包括：数据预处理模块、多通道数据融合模块和层注意模块；所述数据预处理模块用于对原始的三维人脸扫描图像进行预处理，然后将其映射为8种二维人脸属性图像；所述多通道数据融合模块主要对映射后的8种二维人脸属性图像进行8个通道的图像融合，然后将训练集和测试集输入到ResNet骨干中，提取与表情相关的特征；所述层注意模块对网络中不同层的特征之间的相互依赖关系进行建模，通过为不同层次的特征分配不同的注意权重来提高特征的表示能力。本发明执行速度快、效率高，并且实验表明面部表情识别性能也得到大幅提高。

Description

基于注意力的多通道数据融合网络架构及数据处理方法

技术领域

本发明涉及机器识别技术领域，具体是一种用于进行面部数据预处理的基于注意力的多通道数据融合网络架构及数据处理方法。

背景技术

随着人工智能和机器视觉的发展，面部识别构成了人机交互中重要的环节。其中，面部表情被认为是解码人类情感的重要的非语言情感线索。近年来，多模态二维+三维融合方法因其在不同空间通道的细粒度人脸描述而在人脸识别领域显示出了巨大的潜力。

然而，目前的研究主要依靠特征级甚至分数级融合来寻找不同渠道传播的情绪线索，这种寻找可能会因焦点不够集中而遗漏关键信息，造成结果的不准确。因此，亟需建立一种更高注意力更高准确性的融合网络以便更好地进行处理和面部分析识别，从而提高3D表情的识别能力。

发明内容

本发明的目的是为了克服现有技术存在的以上不足或改进需求，提供一种基于注意力的多通道数据融合网络(AMDFN)，以更好地进行面部数据预处理。

为了解决上述技术问题，本发明提供了一种基于注意力的多通道数据融合网络AMDFN架构，所述AMDFN包括：数据预处理模块、多通道数据融合模块和层注意模块；所述数据预处理模块用于对原始的三维人脸扫描图像进行预处理，然后将其映射为8种二维人脸属性图像；所述多通道数据融合模块主要对映射后的8种二维人脸属性图像进行8个通道的图像融合，然后将训练集和测试集输入到ResNet骨干中，提取与表情相关的特征；所述层注意模块对网络中不同层的特征之间的相互依赖关系进行建模，通过为不同层次的特征分配不同的注意权重来提高特征的表示能力。

进一步的，层注意模块使用轻量级的具有符号函数的门控机制来建模网络中不同层之间的依赖关系，可以对每个层提取的特征给予不同的注意权重。

进一步的，层注意模块中将输入特征

重塑为

然后使用全局平均池操作来探索不同中间特征的依赖性，使用

表示生成的特征向量，G中的第k元素可以表示为：

最后执行按层乘法以获得层注意模块的输出：

其中E表示层注意模块的输出，σ表示Sigmoid函数，φ表示ReLU函数，F_c表示全连接层操作。

进一步的，在层注意模块和最后一层获取特征后，通过元素求和来整合这些特征和浅层特征；最后，遵循卷积层生成最终的预测图。

进一步的，所述映射通过使用八个二维属性映射来表示三维面部扫描：纹理图像、曲率图像、深度图像、沿x、y、z方向的三个法线图像。

进一步的，ResNet骨干中，第一个卷积层的输入信道为8，最后一个完全连接层的输出特征为6；中间层共有4层输出级联，为了使每个中间层的输出特征尺寸相同，在前三层中添加的卷积层的输入信道为64、128、256，输出信道全部为512。

本发明还提供了一种使用基于注意力的多通道数据融合网络进行面部数据处理的方法，所述方法包含以下步骤：

步骤1，使用数据预处理模块对原始的三维人脸扫描图像进行预处理，然后将其映射为8幅二维人脸属性图像；

步骤2，使用多通道数据融合模块对映射后的8种二维人脸属性图像进行8个通道的图像融合，然后将训练集和测试集输入到ResNet骨干中，提取与表情相关的特征；

步骤3，通过层注意模块对网络中不同层的特征之间的相互依赖关系进行建模，通过为不同层次的特征分配不同的注意权重来提高特征的表示能力。

本发明还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述步骤。

本发明还提供了一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行上述步骤。

本发明所述的方案与现有的技术相比，具有如下的有益效果是：

1.本发明使用2D属性图像代替3D网格降低了相当大的计算成本，执行速度快，效率高。

2.本发明创造了一种新的、有效的3D FER解决方案，通过AMDFN学习与面部表情相关的鉴别表达表示。在该解决方案中，首先将3D人脸扫描映射的2D面部属性图像合并到ResNet-18中学习面部表情特征，然后通过层注意网络获得不同层特征之间的依赖关系，通过对不同层的特征分配不同的注意权重来提高特征的表示能力，大大提高了识别性能。

本发明的实验结果提供了可靠的证据，优于Bosphorus数据集上的最先进方法。由于计算成本和准确性的提高，将有助于三维FER实时识别的实现。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一实施例所提供的AMDFN的框架示意图；

图2是本发明一实施例所提供的层注意模块的网络架构示意图；

图3是本发明一实施例所提供的由6种表情映射的8个2D属性图像的Bosphorus数据集示意图。

具体实施方式

为使相关技术人员能更好的理解本发明，对本次申请的目的、技术方案和优点有更加清晰的了解，下面将结合具体实例和附图对本发明做进一步说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本发明提供了一种基于注意力的多通道数据融合网络(AMDFN)，其框架示意图如图1所示。所述AMDFN主要包括三个模块：数据预处理模块、多通道数据融合模块和层注意模块(层关注)。数据预处理模块用于对原始的三维人脸扫描图像进行预处理，然后将其映射为N种(优选的，为8种)二维人脸属性图像；多通道数据融合模块主要对映射后的8种二维人脸属性图像进行8个通道的图像融合，然后将训练集和测试集输入到ResNet骨干中，提取与表情相关的特征。最后，通过层注意模块对网络中不同图层的特征之间的相互依赖关系进行建模，通过为不同层次的特征分配不同的注意权重来提高特征的表示能力。

在层注意设置中，由于网络中每一层的特征映射被视为对一个特定类的响应，并且来自不同层的响应相互相关。通过利用不同层的特征之间的相互依赖关系，可以强调来自不同层的相互依赖的特征映射，并改进特定语义的特征表示。因此，本申请构建了一个层注意模块来显式地建模不同层的特征之间的相互依赖关系。进一步的，层注意模块的网络架构示意图如图2所示。本申请使用一种轻量级的门控机制来建模网络中不同层之间的依赖关系，以提高提取特征的表示能力。首先，我们直接计算层注意模块的输入特征

从连接的特征提取在不同层

i＝1，2，...，N。具体来说，我们将F_cat转换维度为

然后使用全局平均池操作来探索不同中间特征的依赖性。形式上，我们使用

表示生成的特征向量，G中的第k元素可以表示为：

为了充分利用全局池化集成的信息来更好地完全捕获特征层方面的依赖关系，我们使用了一种简单的具有符号函数的门控机制，它可以对每个层提取的特征给予不同的注意权重。此外，我们进行特征层乘法，以获得层注意模块的输出：

其中E表示层注意模块的输出，σ表示Sigmoid函数，φ表示ReLU函数，F_c表示全连接层操作。在层注意模块和最后一层获取特征后，我们通过元素求和来整合这些特征和浅层特征，可以更好地稳定深层网络的训练过程。最后，遵循卷积层生成最终的预测图。

其中，利用AMDFN进行数据预处理的过程可分为三个阶段，以表示使用八个属性图像的三维人脸扫描，并将其输入多通道数据融合模块，具体如下：

我们利用3D中的面部表情建模，将人脸扫描映射到8种不同的2D属性图像，命名为深度图像、曲率图像、三幅法线图像以及纹理图像。这些属性图像可以全面描述面部网格的几何和光度细节，因此将其输入到多通道数据融合模块中，以学习不同表情中的不同特征是理想的。我们首先可以通过现有的3D网格数据得到RGB纹理图像(表示为TR、TG、TB)和每个面部网格的图像深度(D)。然后利用网格中每个顶点的坐标信息估计其法线和曲率值，得到沿x、y、z方向的三幅法线图像(Nx、Ny、Nz)，以及归一化曲率图像(C)。最后，我们可以用八个二维属性映射来表示三维面部扫描：Nx、Ny、Nz、D、C、T_R、T_G、T_B。

图3示出了一实施例中由6种面部表情网格生成的8种类型的二维属性图像，我们用6种面部表情来说明映射结果。从上到下显示：三幅法线图像(沿x、y、z方向的Nx、Ny、Nz)、深度图像(D)、曲率图像(C)和纹理图像(T)。

关于法线图像和曲率图像的生成过程描述如下：

(一)对于法线图像，表面法线是阴影表面最基本的信息，它是指在一个特定的点上直接远离表面的向量。设F是由三个顶点V1,V2,V3组成的多边形网格中的一个面，每一个顶点都用沿着x,y,z方向的坐标表示为3×1的向量。然后，我们可以计算F的单位法向量N_f:

给定面F的法向量包括点V，在V处的单位法向量N_v可表示为：

我们生成三个正常映射：Nx，Ny，Nz为每个面部网格使用三个分量的法向量在x，y，z方向。正常图像是三维网格最重要的属性之一，因为它提供了一个很好的测量表面在光照下的亮度的方法。

(二)对于曲率图像，曲率图是由网格曲面上的两个主曲率来量化。它由每个顶点V处的曲率值形成，可定义为：

其中，k₁(V)和k₂(V)代表点V在两个主方向上的最大和最小曲率，范围从0到1不等。为三维网格计算每个顶点的形状索引值。然后我们使用插值技术生成曲率图像。

每个点的主曲率可以用局部三次拟合算法估计，其中以顶点V为原点，法向量NV为z轴，创建局部坐标系。在垂直于NV的平面内，随机生成x和y轴。然后将一个邻域点P转化为局部坐标系，拟合一个立方面z(x，y)及其法向量。其过程可描述为：

方程可以用最小二乘拟合算法求解，对称矩阵可以表示为：

K₁(V)和k₂(V)是W的特征值。不同类型的面部表情的不同映射如图3所示。选择这些属性图像是因为它们能够描述三维网格的细节。此外，使用2D属性图像代替3D网格降低了相当大的计算成本。

以下介绍多通道数据融合的具体过程：在第一步中，我们将原始的3D面部扫描图像映射成8种2D面部属性图像。因此，我们可以用八个二维属性映射来表示三维面部扫描：纹理图像、曲率图像、深度图像、沿x、y、z方向的三个法线图像。这种操作有两个优点：1)映射简单，选择包含3D网格中大部分细节的基本2D属性图像，从而可以避免3D面部表情信息的丢失；2)学习网络可以通过映射信息获得三维FER的判别表示。

其中，2D+3DFER方法侧重于特征水平和分数水平的融合。在前者中，虽然对于单个网络只需要训练不同的二维人脸特征图像，但对于特征提取子集中的多个二维人脸特征图像，需要并行设计网络，因此时间消耗和内存消耗都很大。在后者中，多个网络需要进行独立的训练，并最终在结果层面上进行融合，这导致了大量的计算时间和内存消耗。在特征提取子集中提取每个二维人脸特征图像的特征时，一些面部表情信息丢失。

因此，在映射操作之后构建多通道数据。所构造数据的形状为C×H×W，其中H×W对应于二维人脸属性图像的大小，C表示融合图像通道(即C＝8)。为了方便模型的输入，将每个二维人脸属性图像的空间维数设置为224×224，给3D人脸扫描输入如果I_fs，通过数据映射得到八个通道输入I_ai，用卷积块提取I_fs输入的浅层特征F0，计算如下：

F₀＝C_B(M(I_fs)，θ₀)

其中θs表示卷积块中的网络参数，C_B表示卷积块操作，M表示数据映射操作，

然后，使用ResNet-18的主干来提取I_fs输入的中间特征Fi，使每个中间层的特征维数相同，使图层注意模块能够捕捉不同中间特征的依赖关系。通过在第N-1层中执行降维操作，以保持与N层输出相同的维数。

计算F_i如下：

其中F_i表示在网络的不同层提取的特征，C_Li表示ResNet-18中的第一卷积层操作，Ri表示第一个N-1层的降维操作(例如池和卷积)，θri是与Ri相对应的参数。

在执行时，使用ResNet-18作为重点，这是在图像网络数据集预先训练。为了实现多通道融合数据的特征提取，本申请将第一个卷积层的输入信道更改为8，并将最后一个完全连接层的输出特征更改为6。结合图1所示，本申请共有4层输出级联(即N＝4)。为了使每个中间层的输出特征尺寸相同，本申请在前三层中添加的卷积层的输入信道为64、128、256，输出信道全部为512，内核大小为1×1，步幅为1，填充量为1；设置前三层的池化操作，最后所有中间层输出均为7×7×512。此外，本申请还添加了一个池化层和一个卷积层在浅层特征之后，将输出维数转换为7×7×512；本申请使用SGD优化器训练网络，学习速率设置为0.01。所有的模型都是在单个NVIDIA RTX 2080Ti并使用Pytorch语言训练的，使用Pytorch进行70次的训练，对于Bosphorus数据集的批处理大小为20。

本发明还提供了一种处理器，所述处理器包括上述基于注意力的多通道数据融合网络架构，或者用于执行上述的方法。

本发明还提供了一种计算机设备，包括存储器、上述处理器及存储在存储器上并可在处理器上运行的计算机程序。其中，所述处理器执行所述程序时实现上述步骤。

综上，本发明首先将3D人脸扫描映射到多通道图像中，然后将它们融合到一个主干网中，以获得分层的情感特征；其次，利用层注意模型来探索不同层特征之间的依赖关系，以学习有效情感识别的辨别情感线索。本发明在广泛使用的Bosphorus数据集上的综合实验验证了本发明的方法与现有技术的其他方案相比具有更为优异的性能。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和原则的前提下，可以在实施的形式及细节上进行任何的修改与变化、等同替换等，这些都属于本发明的保护范围。因此，本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于注意力的多通道数据融合网络AMDFN架构，其特征在于，所述AMDFN包括：数据预处理模块、多通道数据融合模块和层注意模块；所述数据预处理模块用于对原始的三维人脸数据进行预处理，然后将其映射为8种二维人脸属性图像；所述多通道数据融合模块主要对映射后的8种二维人脸属性图像进行8个通道的图像融合，然后将训练集和测试集输入到ResNet骨干中，提取与表情相关的特征；所述层注意模块对网络中不同网络层的特征之间的相互依赖关系进行建模，通过为不同层次的特征分配不同的注意权重来提高特征的表示能力。

2.如权利要求1所述的架构，其特征在于：层注意模块使用轻量级的具有符号函数的门控机制来建模网络中不同层之间的依赖关系，可以对每个层提取的特征给予不同的注意权重。

3.如权利要求2所述的架构，其特征在于：层注意模块中将输入特征

重塑为

然后使用全局平均池化操作来探索不同中间特征的依赖性，使用

表示生成的特征向量，G中的第k元素可以表示为：

最后执行按层乘法以获得层注意模块的输出：

其中E表示层注意模块的输出，σ表示Sigmoid函数，φ表示ReLU函数，F_c表示完全连接(F_c)操作。

4.如权利要求2所述的架构，其特征在于：ResNet骨干中，第一个卷积层的输入信道为8，最后一个完全连接层的输出特征为6；中间层共有4层输出级联，为了使每个中间层的输出特征尺寸相同，在前三层中添加的卷积层的输入信道为64、128、256，输出信道全部为512。

5.如权利要求1-4任一项所述的架构，其特征在于：所述映射通过使用八个二维属性映射来表示三维面部扫描：纹理图像、曲率图像、深度图像、沿x、y、z方向的三个法线图像。

6.一种使用基于注意力的多通道数据融合网络进行面部数据处理的方法，其特征在于，所述方法包含以下步骤：

步骤1，使用数据预处理模块对原始的三维人脸扫描图像进行预处理，然后将其映射为8种二维人脸属性图像；

7.如权利要求6所述的方法，其特征在于，层注意模块使用轻量级的具有符号函数的门控机制来建模网络中不同层之间的依赖关系，可以对每个层提取的特征给予不同的注意权重。

8.如权利要求6所述的方法，其特征在于，层注意模块中将输入特征

重塑为

表示生成的特征向量，G中的第k元素可以表示为：

最后执行按层乘法以获得层注意模块的输出：

9.如权利要求6-8任一项所述的方法，其特征在于，所述映射通过使用八个二维属性映射来表示三维面部扫描：纹理图像、曲率图像、深度图像、沿x、y、z方向的三个法线图像。