CN109409222B

CN109409222B - 一种基于移动端的多视角人脸表情识别方法

Info

Publication number: CN109409222B
Application number: CN201811102569.3A
Authority: CN
Inventors: 刘袁缘; 王勋广; 蒋捷; 方芳; 谢忠; 罗忠文; 覃杰
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2020-10-30
Anticipated expiration: 2038-09-20
Also published as: CN109409222A

Abstract

本发明公开了一种基于移动端的多视角人脸表情识别方法，包括从每张图像中裁剪出人脸区域，并进行数据增强，得到用于训练AA‑MDNet模型的数据集；利用GAN模型扩展得到多姿态数据集；利用ADN多尺度裁剪方法进行裁剪；将裁剪后的图像输入AA‑MDNet模型，输入的图像先通过密集连接子网络DenseNet提取特征，然后基于提取到的特征，使用注意力自适应网络(ADN)进行训练，得到表情和姿态的注意力区域的位置参数，再根据位置参数从输入图像中裁剪出该区域的图像进行缩放，将其作为下一尺度的输入；学习多尺度的高层特征融合，得到具有全局和局部融合特征的表情高层特征，最后分类得到人脸姿态和表情类别。本发明在人机交互、人脸识别和计算机视觉等领域有十分重要的意义。

Description

一种基于移动端的多视角人脸表情识别方法

技术领域

本发明涉及人脸表情识别领域，具体涉及一种基于移动端的多视角人脸表情识别方法。

背景技术

人类传递情感和信息主要依靠形体语言和自然语言。自然语言在时间维度上主要指文字记录，但是单独依靠文字不足以详细地描述记录下来的信息。面部表情是人体(形体)语言的一部分，是一种生理及心理的反应，通常用于传递情感。如果机器可以识别表情，它将在远程教育、医疗等行业有着广泛的应用前景，推动着人机交互、情感计算、机器视觉等领域的发展，因此对人脸表情识别算法的研究具有重要意义。比如可以根据司机的面部表情的变化来判断是否疲劳驾驶，防止司机因疲劳驾驶而发生事故。

早在20世纪70年代末，国外就有专家学者开始研究计算机人脸表情识别。Suwa等人把连续序列的人脸图像标记成20个特征点，而后进行辨认跟踪，与原模型进行比较来完成表情识别。随后Paul Ekman等人经过研究，提出了高兴、悲伤、惊奇、生气、恐惧、厌恶这6种最基本的表情。

过去的表情识别技术采用的是传统的机器学习方法，即先提取人脸的某一特征数据，然后用此数据训练SVM等分类器，训练得到的分类器即可用于表情识别。从2006年以来，加拿大多伦多大学教授Hinton等人在《科学》上发表了文章，掀起了深度学习研究的浪潮。近年来，国内外的一些优秀学者们开始采用深度学习来进行人脸识别和表情分析。与传统机器学习相比，深度学习网络能够更好地提取图片的本质特征，更准确地挖掘数据中的共有信息，从而提升分类的准确性。

使用深度学习对图像进行层层滤波和筛选，最终得到结果；处理的层数越多，得到的结果准确率越高。随着网络日渐加深和大数据驱动所导致的数据激增，训练结果的准确率提高的同时带来一个问题：深度学习模型越来越大，动辄上百兆，这对于只能分配到几十兆空间的手机移动端App来说是无法接受的，必须进行模型压缩和优化。

常用的模型压缩有剪枝、量化和霍夫曼编码。剪枝的方法比较直观，即在训练神经网络时，每个神经元会有一个权重，而权重有大小之分。其中权重小的表示对最终结果的影响力非常小，所以在不会影响到最终结果的情况下，将小的权重砍掉。量化是将32比特位的权重聚众到四个类中，用这四个类来存储权重值。霍夫曼编码的思想是：由于部分权重出现的次数远高于其他权重，因此对于出现次数较多的权重，可以用更少层比特位来编码；对于出现次数较小的权重，用较大的比特位表示。

不管采用什么方法压缩模型都会在一定程度上造成精度损失或计算量增加，最直接的方法还是希望可以训练出低参数高准确率的模型。

发明内容

有鉴于此，本发明的实施例提供了一种参数少、精度高的模型，不需要经过过多模型压缩即可部署在移动终端的基于移动端的多视角人脸表情识别方法。

本发明的实施例提供一种基于移动端的多视角人脸表情识别方法，包括以下步骤：

S1.从每张图像中裁剪出人脸部分图像区域，并进行数据增强，得到训练AA-MDNet模型的数据集；

S2.利用GAN模型扩展步骤S1得到的数据集；

S3.对步骤S2得到数据集中的图像利用ADN多尺度裁剪方法进行裁剪；

S4.将裁剪后的图像输入AA-MDNet模型，AA-MDNet模型包含多个尺度的网络，每个尺度的网络包含密集连接子网络DenseNet和注意力自适应网络ADN，输入的图像先通过密集连接子网络DenseNet提取特征，然后基于提取到的特征，使用注意力自适应网络ADN进行训练，得到表情和姿态的注意力区域的位置参数，再根据位置参数从输入图像中裁剪出该区域的图像进行缩放；

S5.将上一尺度的图像作为下一个尺度的输入图像，重复步骤S4直至所有尺度的网络对图像处理完成，进行多尺度的特征融合，得到具有全局和局部融合特征的表情高层特征。

进一步，所述步骤S1中，数据增强包括随机裁剪、平移、翻转、色彩抖动、亮度变化、饱和度变化、对比度变化和锐度变化。

进一步，所述步骤S2中，GAN模型包括四部分：生成模型G、图像判别模型D_ep、身份判别模型D_id和表情分类器C，生成模型G包括编码器G_e和解码器G_d；编码器G_e和解码器G_d将输入数据编码分析、解码重构，生成图像，两者都由卷积层和全连接层构成；图像判别模型D_ep用于判断输入图片的真实性，由卷积层和全连接层构成；身份判别模型D_id用于平滑姿态和表情变换，控制身份特征由全连接层构成；表情分类器C用于表情分类，以优化表情生成由卷积层和全连接层构成。

进一步，所述步骤S4中，密集连接子网络DenseNet包含初始卷积层、密集块、过渡层和分类层，初始卷积层用于对输入图像进行初始的特征提取，该层操作依次为卷积操作，其中的卷积核大小为7×7、批标准化、ReLU激活和最大池化；密集块的每一层输出的特征图都用于后面每一层的输入，每一层的操作依次为批标准化、ReLU激活、1×1卷积、批标准化、ReLU激活和3×3卷积；密集块之间的过渡层用于对特征图进行降维，进一步压缩参数数量，过渡层的操作依次为批标准化、ReLU激活、1×1卷积和平均池化；分类层根据提取的特征进行多任务分类，分别是姿态分类和表情分类，分类层包括全局平均池化、两个全连接和两个softmax，用于姿态分类的全连接输出维度为5，用于表情分类的全连接输出维度为6。

进一步，所述步骤S4中，注意力自适应网络ADN一共有两个全连接层，其后分别接tanh激活函数和sigmoid激活函数，第一个全连接层的输出维度设置为512，第二个全连接层的输出维度设置为3。

与现有技术相比，本发明具有以下有益效果：

(1)在人机交互、人脸识别和计算机视觉等领域有十分重要的意义。

(2)为了在有限的硬件资源和表情数据集上获得高识别精度，提出了AdaptiveAttention Multi-Scale Dense Convolutional Network(AA-MDNet)模型；同时，针对多姿态的人脸数据匮乏问题，采用Generative Adversarial Network(GAN)模型扩展得到了能够用于训练的不同姿态下的表情图像，以丰富数据集。

(3)AA-MDNet模型主要包含多个尺度的网络，每个尺度的网络又包含两种类型的子网络：密集连接子网络Dense Convolutional Network(DenseNet)和注意力自适应网络Attention Detected Network(ADN)，DenseNet通过横向和纵向两种方式的密集连接，融合了人脸局部和全局特征，增加了模型特征学习的鲁棒性，减少了深度学习模型的参数，使其更容易在移动端部署；基于弱监督的ADN网络，是一种注意力机制，模型训练过程中可以逐渐聚焦到人脸表情和姿态特征明显的关键区域，使得识别效果更佳。

(4)本方法在多个多视角表情数据集和移动终端进行测试，结果表明该模型使得多视角人脸表情识别精度显著提高。

附图说明

图1为本发明中AA-MDNet模型的示意图。

图2为本发明中基于GAN模型的多姿态数据生成示意图。

图3为本发明中DenseNet模型的示意图。

图4为本发明中密集块结构图。

图5为本发明中ADN网络结构图。

图6为本发明中AA-MDNet移动端表情识别的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

实施例1

本发明的实施例提供了一种基于移动端的多视角人脸表情识别的表情注意力区域学习，包括以下步骤：

S1.从每张图片中裁剪出人脸部分图像区域，并进行数据增强，得到训练AA-MDNet模型的数据集；

数据增强包括随机裁剪、平移、翻转、色彩抖动、亮度变化、饱和度变化、对比度变化和锐度变化。

S2.利用GAN模型扩展步骤S1得到的数据集；

GAN模型包括四部分：生成模型G、图像判别模型D_ep、身份判别模型D_id和表情分类器C，生成模型G包括编码器G_e和解码器G_d；编码器G_e和解码器G_d将输入数据编码分析、解码重构，生成图像，两者都由卷积层和全连接层构成；图像判别模型D_ep用于判断输入图片的真实性，由卷积层和全连接层构成；身份判别模型D_id用于平滑姿态和表情变换，控制身份特征由全连接层构成；表情分类器C用于表情分类，以优化表情生成由卷积层和全连接层构成。

S4.将裁剪后的图像输入AA-MDNet模型，AA-MDNet模型包含多个尺度的网络，每个尺度的网络包含密集连接子网络DenseNet和注意力自适应网络ADN，输入的图像先通过密集连接子网络DenseNet提取特征，然后基于提取到的特征，使用注意力自适应网络ADN进行训练，得到表情和姿态的注意力区域的位置参数，再根据位置参数从输入图像中裁剪出该区域的图像进行缩放，并学习得到该区域的表情高层特征；

S5.将上一尺度得到的图像作为下一个尺度的输入图像，重复步骤S4直至所有尺度的网络对图像处理完成，进行多尺度的特征融合，得到具有全局和局部融合特征的表情高层特征。

密集连接子网络DenseNet包含初始卷积层、密集块、过渡层和分类层，初始卷积层用于对输入图像进行初始的特征提取，该层操作依次为卷积操作，其中卷积核大小为7×7、批标准化、ReLU激活和最大池化；密集块的每一层输出的特征图都用于后面每一层的输入，每一层的操作依次为批标准化、ReLU激活、1×1卷积、批标准化、ReLU激活和3×3卷积；密集块之间的过渡层用于对特征图进行降维，进一步压缩参数数量，过渡层的操作依次为批标准化、ReLU激活、1×1卷积和平均池化；分类层根据提取的特征进行多任务分类，分别是姿态分类和表情分类，分类层包括全局平均池化、两个全连接和两个softmax，用于姿态分类的全连接输出维度为5，用于表情分类的全连接输出维度为6。

注意力自适应网络ADN一共有两个全连接层，其后分别接tanh激活函数和sigmoid激活函数，第一个全连接层的输出维度设置为512，第二个全连接层的输出维度设置为3。

实施例2

本发明的实施例提供了一种基于移动端的多视角人脸表情识别方法的姿态和表情分类实例，包括:

1.数据预处理

数据增强：训练AA-MDNet模型用到的数据集有KDEF、BU-3DFE和SFEW。为了能更好地进行表情分类，在开始训练AA-MDNet之前，需要对人脸图像进行数据增强，以增加样本的多样性，尽量减少干扰因素。首先，对于一张图片，裁剪出人脸部分图像，减少其他干扰因素(背景等)。训练时进行数据增强(随机裁剪、平移、翻转、色彩抖动、亮度变化、饱和度变化、对比度变化、锐度变化)，提高模型的泛化能力，防止过拟合，提升准确率。

生成式对抗网络(GAN)扩展数据集：SFEW表情数据集是没有姿态标签的，使用GAN生成同一表情的多姿态图片，以扩充数据集。训练GAN模型时，使用包含姿态和表情标签的数据集作为原始输入数据；训练完成后，GAN模型达到以假乱真的能力，输入SFEW的正脸图像，输出相应人脸下多个不同姿态的图像。

本发明采用的GAN模型由四部分组成：生成模型G(编码器G_e+解码器G_d)、图像判别模型D_ep、身份判别模型D_id、表情分类器C。如图2所示。

ADN多尺度裁剪方法：本实施例中用于图片裁剪的网络模型包括三个尺度输入，对于第一个尺度的网络，输入N×N大小的原始图片；经第一个尺度下ADN网络得到关键区域后，将原始图片上关键区域的图像裁剪出来并通过双三次插值方法放大到N×N大小，作为第二个尺度网络的输入图像；同理，第二个尺度的输入图像先经过ADN网络得到关键区域，裁剪放大后作为第三个尺度的输入图像。上述便是利用ADN网络模型通过多尺度裁剪方法，进行图片裁剪,简称ADN多尺度裁剪方法。

2.AA-MDNet模型

AA-MDNet模型主要包含3个尺度的网络，每个尺度又包含两种类型的子网络：密集连接子网络DenseNet和注意力自适应网络ADN。输入图像通过DenseNet网络提取特征，然后基于提取到的特征，使用注意力自适应网络ADN进行训练，得到表情和姿态的注意力区域的位置参数，再根据位置参数从输入图像中裁剪出该区域的图像进行缩放，将其作为下一个尺度的输入图像，学习得到不同视角下的表情高层特征。最后，进行多尺度的特征融合，多任务分类得到表情和姿态。AA-MDNet的网络结构如图1所示。

DenseNet网络用以对输入图像进行特征提取。它与其他CNN网络最大的不同点在于它拥有密集块结构，该结构中每一层输入的特征图都是前面所有层的输出。这样设计带来的好处是在保证正确率的情况下进一步减少参数数量。

DenseNet网络包含初始卷积层、密集块、过渡层、分类层，其结构如图3所示。

初始卷积层用于对输入图像进行初始的特征提取，该层操作依次为卷积操作(步长为2，卷积核大小为7×7)、批标准化、ReLU激活和最大池化(采样核大小为3×3，步长为2)。

密集块的设计如图4所示，每一层输出特征图都用于后面层的输入。每一层的操作依次为批标准化、ReLU激活、1×1卷积(步长为1)、批标准化、ReLU激活和3×3卷积(步长为1)。

密集块之间的过渡层用于对特征图进行降维，进一步压缩参数数量。主要包含批标准化、ReLU激活、1×1卷积(步长为1)和平均池化(采样核大小为2×2，步长为2)。

分类层根据提取的特征进行分类，这里同时进行姿态和表情的多分类任务。分类层主要包括全局平均池化、两个全连接和两个softmax。用于姿态分类的全连接输出维度为5，用于表情分类的全连接输出维度为6。

ADN网络用于人脸图像中关键区域的定位，是一种弱监督学习，训练时没有区域信息的标注，由ADN网络自适应学习特征信息，最终学习到表情特征较为明显的区域。

ADN网络结构如图5所示，一共有两个全连接层，其后分别接tanh激活函数和sigmoid激活函数。第一个全连接的输出维度设置为512，第二个全连接的输出维度设置为3，故最后的输出值有三个，即a_x、a_y、a_l。

如图1所示，ADN网络以DenseNet网络提取的最终卷积特征(全局平均池化之前)作为输入，输出a_x、a_y、a_l三个值，表示要从源图中截取的一个正方形区域，其中a_x、a_y表示正方形的中心坐标，a_l表示正方形边长的一半，据此可计算出要截取的正方形区域的顶点坐标。另一方面，由ADN的网络结构可知，a_x、a_y、a_l的取值范围为[0,1](sigmoid函数的值域为[0,1])，在计算顶点坐标之前，令a_x、a_y、a_l均乘以源图片尺寸N，即

a_x＝a_x×N

a_y＝a_y×N

a_l＝a_l×N

并做如下限制，规定a_x、a_y的取值从源图片坐标的1/3到2/3，2a_l的取值从N/3到N/2，即a_x、a_y的限制区间为[N/3,2N/3]，a_l的限制区间为[N/6，N/4]；当a_x、a_y、a_l的计算结果不在相应限制区间时，取就近的区间临界值。例如，a_x＝N/6，取a_x＝N/3。

接下来，由a_x、a_y、a_l计算出要裁剪的正方形区域的顶点坐标，计算公式为

左上角顶点横坐标：X_lu＝a_x-a_l；

左上角顶点纵坐标：Y_lu＝a_y-a_l；

右下角顶点横坐标：X_rd＝a_x+a_l；

右下角顶点纵坐标：Y_rd＝a_y+a_l；

根据左上角和右下角坐标在源图中裁剪出该区域的图像，并将其放大到与源图片同样的尺寸大小(N×N)，作为下一个尺度的输入图像。图片放大的插值方法为双三次插值。

多尺度特征融合用于三个密集子网络特征融合，获取具有全局和局部融合的高层表情特征。

如图1所示，三个尺度的DenseNet提取出特征图f1,f2,f3，均做全局平均池化操作，然后将三个特征图连接到一起，即做concatenate操作，将张量按指定维连接起来，最终融合成特征f。

多任务分类：姿态和表情

AA-MDNet采用多任务学习的网络结构，分别用于表情分类和姿态分类，如图1所示。之所以加入姿态的分类，主要有两个方面的的原因。一方面，训练用的数据集(KDEF、BU-3DFE)也是多姿态的表情数据集，提供了相同人脸相同表情下的多姿态图片。另一方面，因为姿态是影响表情识别效果的一个重要因素，所以充分考虑在不同姿态下的表情识别，不仅符合自然状态下的人脸表情识别问题，更能促进表情识别的效果。

统一将表情分为6种，即生气、厌恶、害怕、快乐、伤心和惊讶；姿态分为五种，用头部的左右偏角表示，分别是-90°、-45°、0°、45°和90°。

训练多任务时，采用表情和姿态的联合训练。分别计算出表情分类的交叉熵损失值loss_e和姿态分类的交叉熵损失值loss_p，总的损失值loss_mt为

loss_mt＝αloss_e+βloss_p

其中，α和β是待定的非负系数，且α+β＝1，一般地，取α＝0.96，β＝0.04。

姿态比表情容易识别，所以训练时，一般α的值设置得比β大。loss_mt将会在下面应用到。

多任务损失值的计算:为了有差别的利用每一个尺度提取的特征和提升表情识别的准确率，我们的方法并不是直接对尺度融合后的损失值进行梯度下降。考虑以下三项损失值。

单尺度分类的损失值：每个尺度的网络都有多分类的损失值，将其相加作为第一项损失值，即计算公式为

指的是s尺度下多任务分类的损失值，例如

指的是尺度1下DenseNet做姿态和表情的多任务分类总的损失值。

尺度间差异化损失值：每个尺度分类的正确率是不一样的，为了使前面尺度的网络姿态分类更加准确，后面尺度的网络表情分类更加准确，设计如下损失值计算

其中，

指的是s尺度下姿态分类的正确率，

表示的是s尺度下表情分类的正确率。

多尺度融合的分类损失值：最后我们把三个尺度的特征图融合在一起做姿态和表情的多分类任务，其损失值表示为

其中“1+2+3”指的是2.3中的多尺度融合。

实施例3

一种基于移动端的多视角人脸表情识别方法的训练过程实施如下：

GAN模型训练：GAN模型用于丰富数据集，在训练AA-MDNet之前，先训练GAN模型并保存模型文件。

(1)GAN模型的损失值计算

生成模型G的损失值：由于生成模型与两个判定模型直接关联，自身的损失值结合编码器G_e和解码器G_d的损失值能更好的训练模型，计算公式如下

loss_G＝loss_EG+a loss_{G_ep}+b loss_{E_id}

其中a和b取值很小，预设0.0001；loss_EG、loss_{G_ep}、loss_{E_id}分别表示生成模型的损失值、编码器的损失值和解码器的损失值。

图像判别模型D_ep的损失值：

loss_{D_ep}＝loss_{D_ep_input}+loss_{D_ep_G}

其中loss_{D_ep_input}、loss_{D_ep_G}分别指输入真实图片的损失值和输入生成图片的损失值。

身份判别模型D_id的损失值：

loss_{D_id}＝loss_{D_id_f}+loss_{D_id_prior}

其中loss_{D_id_f}、loss_{D_id_prior}分别指的是以编码器G_e输出的身份特征作为输入的损失值和以预设置的均匀分布的身份特征作为输入的损失值。

分类模型c的损失值：

loss_C＝loss_{D_ex}+loss_{D_pose}

loss_{D_ex}、loss_{D_pose}分别表示分类模型对于表情分类的损失值和对于姿态分类的损失值。

(2)GAN模型训练算法

1将数据集划分为多个批次，每个批次的图片数量相同；

2对读取的每个批次数据进行下列训练：

a读取数据，预训练loss_G，生成初始图像；

b结合生成模型G的生成结果，对loss_{D_ep}和loss_{D_id}进行梯度下降；

c由于生成模型G的收敛较慢，对loss_G进行多次(三次)梯度下降；

d将分类模型loss_C训练指定次数，随着训练层数的增加，可适当减少训练次数；

3重复上述1、2步骤，直至模型收敛。

图像预处理：前面提到的图片尺寸为N×N，图像实际处理过程中，均取N＝224。数据预处理的流程如下：

1)对KDEF、BU-3DFE、SFEW三个数据集进行数据清洗，删除无关数据、重复数据和错误数据；

2)利用训练好的GAN模型扩展SFEW数据集，生成相同人脸下不同姿态的多个图片；

3)读取源数据训练时，随机进行数据增强；

4)由尺度1下ADN的输出值a_x、a_y、a_l，计算出裁剪的区域位置，把裁剪后的图片放大到N×N尺寸，作为尺度2的输入数据；同理，尺度3的输入数据由尺度2的输入数据处理而来；

AA-MDNet网络实施参数：尺度1中DenseNet的网络参数，尺度2和3的参数与尺度1相同，不再赘述。

尺度1下ADN的网络参数，尺度2下与之相同，不再赘述。

层	输出尺寸	参数
			全连接	1×512	512维全连接
全连接	1×3	3维全连接

AA-MDNet模型训练实施过程：为了进行有效的训练进而提升测试的准确率，有效的训练方法是对3.3中的三项损失值进行交替训练，训练过程如下

(1)固定另外两项损失值，用表情数据集对loss_scales进行梯度下降训练，相当于对每个尺度的分类网络进行预训练；

(2)同样，固定其他损失值，用表情数据集对loss_diff进行预训练；

(3)固定另外两项损失值，对loss_scales进行一定迭代次数的训练；

(4)同理，固定其他损失值，对loss_diff进行一定迭代次数的训练；

(5)同理，固定其他损失值，对loss_joint进行一定迭代次数的训练；

(6)重复(3)(4)(5)的训练过程，直到loss_scales、loss_diff、loss_joint三项损失值都不再改变，模型整体收敛。

基于AA-MDNet的多视角表情识别的移动端实施：用KDEF、SFEW、BU-3DFE数据集训练好AA-MDNet模型之后，我们将模型集成到App中，做成一个表情识别的移动客户端。系统实施的总流程如下：

(1)对KDEF、SFEW、BU-3DFE进行数据预处理，用GAN丰富数据集；

(2)在TensorFlow框架下构建AA-MDNet模型，用处理好的数据集训练该模型直至收敛，期间记录表情识别的准确率，保存好训练得到的模型文件；

(3)把测试准确率最高的模型转换成一个可用于实际生产的TensorFlow模型；

(4)开发表情识别App，首先将TensorFLow Mobile环境添加到App工程中，并且将(3)中的模型放到资源文件夹下，然后编写相关的Java代码，完成调用模型进行表情识别的逻辑程序；

(5)运行App，拍照得到若干人脸，测试表情识别的功能是否正常。

该系统的表情识别流程可参见图6。

在不冲突的情况下，本文中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于移动端的多视角人脸表情识别方法，其特征在于，包括以下步骤：

S1.从每张图像中裁剪出人脸部分的图像，并进行数据增强，得到训练AA-MDNet模型的数据集；

S2.利用GAN模型扩展步骤S1得到的数据集；

S3.对步骤S2得到数据集中的图像利用ADN多尺度裁剪方法进行裁剪；ADN多尺度裁剪方法具体为：对于包括三个尺度输入的ADN网络模型，对于第一个尺度的网络，输入N×N大小的原始图片；经第一个尺度下ADN网络得到关键区域后，将原始图片上关键区域的图像裁剪出来并通过双三次插值方法放大到N×N大小，作为第二个尺度网络的输入图像；同理，第二个尺度的输入图像先经过ADN网络得到关键区域，裁剪放大后作为第三个尺度的输入图像；

S4.将裁剪后的图像输入AA-MDNet模型，AA-MDNet模型包含多个尺度的网络，每个尺度的网络包含密集连接子网络DenseNet和注意力自适应网络ADN，输入的图像先通过密集连接子网络DenseNet提取特征，然后基于提取到的特征，使用注意力自适应网络ADN进行训练，得到表情和姿态的注意力区域的位置参数，再根据位置参数从输入图像中裁剪出该区域的图像进行缩放，学习得到表情高层特征；所述注意力自适应网络ADN一共有两个全连接层，其后分别接tanh激活函数和sigmoid激活函数，第一个全连接层的输出维度设置为512，第二个全连接层的输出维度设置为3；

2.根据权利要求1所述的基于移动端的多视角人脸表情识别方法，其特征在于，所述步骤S1中，数据增强包括随机裁剪、平移、翻转、色彩抖动、亮度变化、饱和度变化、对比度变化和锐度变化。

3.根据权利要求1所述的基于移动端的多视角人脸表情识别方法，其特征在于，所述步骤S2中，GAN模型包括四部分：生成模型G、图像判别模型D_ep、身份判别模型D_id和表情分类器C_e，生成模型G包括编码器G_e和解码器G_d；编码器G_e和解码器G_d将输入数据编码分析、解码重构，生成图像，两者都由卷积层和全连接层构成；图像判别模型D_ep用于判断输入图片的真实性，由卷积层和全连接层构成；身份判别模型D_id用于平滑姿态和表情变换，控制身份特征，由全连接层构成；表情分类器C_e用于表情分类，以优化表情生成，由卷积层和全连接层构成。

4.根据权利要求1所述的基于移动端的多视角人脸表情识别方法，其特征在于，所述步骤S4中，密集连接子网络DenseNet包含初始卷积层、密集块、过渡层和分类层，初始卷积层用于对输入图像进行初始的特征提取，该层操作依次为卷积操作，其中的卷积核大小为7×7、批标准化、ReLU激活和最大池化；密集块的每一层输出的特征图都用于后面每一层的输入，每一层的操作依次为批标准化、ReLU激活、1×1卷积、批标准化、ReLU激活和3×3卷积；密集块之间的过渡层用于对特征图进行降维，进一步压缩参数数量，过渡层的操作依次为批标准化、ReLU激活、1×1卷积和平均池化；分类层根据提取的特征进行多任务分类，分别是姿态分类和表情分类，分类层包括全局平均池化、两个全连接和两个softmax，用于姿态分类的全连接输出维度为5，用于表情分类的全连接输出维度为6。