CN109409222B - 一种基于移动端的多视角人脸表情识别方法 - Google Patents
一种基于移动端的多视角人脸表情识别方法 Download PDFInfo
- Publication number
- CN109409222B CN109409222B CN201811102569.3A CN201811102569A CN109409222B CN 109409222 B CN109409222 B CN 109409222B CN 201811102569 A CN201811102569 A CN 201811102569A CN 109409222 B CN109409222 B CN 109409222B
- Authority
- CN
- China
- Prior art keywords
- image
- model
- scale
- layer
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000008921 facial expression Effects 0.000 title claims abstract description 23
- 230000014509 gene expression Effects 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000005520 cutting process Methods 0.000 claims abstract description 21
- 238000013256 Gubra-Amylin NASH model Methods 0.000 claims abstract description 16
- 230000003044 adaptive effect Effects 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 230000004913 activation Effects 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 3
- 230000036544 posture Effects 0.000 description 22
- 241000282414 Homo sapiens Species 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000007906 compression Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 206010063659 Aversion Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007514 turning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于移动端的多视角人脸表情识别方法,包括从每张图像中裁剪出人脸区域,并进行数据增强,得到用于训练AA‑MDNet模型的数据集;利用GAN模型扩展得到多姿态数据集;利用ADN多尺度裁剪方法进行裁剪;将裁剪后的图像输入AA‑MDNet模型,输入的图像先通过密集连接子网络DenseNet提取特征,然后基于提取到的特征,使用注意力自适应网络(ADN)进行训练,得到表情和姿态的注意力区域的位置参数,再根据位置参数从输入图像中裁剪出该区域的图像进行缩放,将其作为下一尺度的输入;学习多尺度的高层特征融合,得到具有全局和局部融合特征的表情高层特征,最后分类得到人脸姿态和表情类别。本发明在人机交互、人脸识别和计算机视觉等领域有十分重要的意义。
Description
技术领域
本发明涉及人脸表情识别领域,具体涉及一种基于移动端的多视角人脸表情识别方法。
背景技术
人类传递情感和信息主要依靠形体语言和自然语言。自然语言在时间维度上主要指文字记录,但是单独依靠文字不足以详细地描述记录下来的信息。面部表情是人体(形体)语言的一部分,是一种生理及心理的反应,通常用于传递情感。如果机器可以识别表情,它将在远程教育、医疗等行业有着广泛的应用前景,推动着人机交互、情感计算、机器视觉等领域的发展,因此对人脸表情识别算法的研究具有重要意义。比如可以根据司机的面部表情的变化来判断是否疲劳驾驶,防止司机因疲劳驾驶而发生事故。
早在20世纪70年代末,国外就有专家学者开始研究计算机人脸表情识别。Suwa等人把连续序列的人脸图像标记成20个特征点,而后进行辨认跟踪,与原模型进行比较来完成表情识别。随后Paul Ekman等人经过研究,提出了高兴、悲伤、惊奇、生气、恐惧、厌恶这6种最基本的表情。
过去的表情识别技术采用的是传统的机器学习方法,即先提取人脸的某一特征数据,然后用此数据训练SVM等分类器,训练得到的分类器即可用于表情识别。从2006年以来,加拿大多伦多大学教授Hinton等人在《科学》上发表了文章,掀起了深度学习研究的浪潮。近年来,国内外的一些优秀学者们开始采用深度学习来进行人脸识别和表情分析。与传统机器学习相比,深度学习网络能够更好地提取图片的本质特征,更准确地挖掘数据中的共有信息,从而提升分类的准确性。
使用深度学习对图像进行层层滤波和筛选,最终得到结果;处理的层数越多,得到的结果准确率越高。随着网络日渐加深和大数据驱动所导致的数据激增,训练结果的准确率提高的同时带来一个问题:深度学习模型越来越大,动辄上百兆,这对于只能分配到几十兆空间的手机移动端App来说是无法接受的,必须进行模型压缩和优化。
常用的模型压缩有剪枝、量化和霍夫曼编码。剪枝的方法比较直观,即在训练神经网络时,每个神经元会有一个权重,而权重有大小之分。其中权重小的表示对最终结果的影响力非常小,所以在不会影响到最终结果的情况下,将小的权重砍掉。量化是将32比特位的权重聚众到四个类中,用这四个类来存储权重值。霍夫曼编码的思想是:由于部分权重出现的次数远高于其他权重,因此对于出现次数较多的权重,可以用更少层比特位来编码;对于出现次数较小的权重,用较大的比特位表示。
不管采用什么方法压缩模型都会在一定程度上造成精度损失或计算量增加,最直接的方法还是希望可以训练出低参数高准确率的模型。
发明内容
有鉴于此,本发明的实施例提供了一种参数少、精度高的模型,不需要经过过多模型压缩即可部署在移动终端的基于移动端的多视角人脸表情识别方法。
本发明的实施例提供一种基于移动端的多视角人脸表情识别方法,包括以下步骤:
S1.从每张图像中裁剪出人脸部分图像区域,并进行数据增强,得到训练AA-MDNet模型的数据集;
S2.利用GAN模型扩展步骤S1得到的数据集;
S3.对步骤S2得到数据集中的图像利用ADN多尺度裁剪方法进行裁剪;
S4.将裁剪后的图像输入AA-MDNet模型,AA-MDNet模型包含多个尺度的网络,每个尺度的网络包含密集连接子网络DenseNet和注意力自适应网络ADN,输入的图像先通过密集连接子网络DenseNet提取特征,然后基于提取到的特征,使用注意力自适应网络ADN进行训练,得到表情和姿态的注意力区域的位置参数,再根据位置参数从输入图像中裁剪出该区域的图像进行缩放;
S5.将上一尺度的图像作为下一个尺度的输入图像,重复步骤S4直至所有尺度的网络对图像处理完成,进行多尺度的特征融合,得到具有全局和局部融合特征的表情高层特征。
进一步,所述步骤S1中,数据增强包括随机裁剪、平移、翻转、色彩抖动、亮度变化、饱和度变化、对比度变化和锐度变化。
进一步,所述步骤S2中,GAN模型包括四部分:生成模型G、图像判别模型Dep、身份判别模型Did和表情分类器C,生成模型G包括编码器Ge和解码器Gd;编码器Ge和解码器Gd将输入数据编码分析、解码重构,生成图像,两者都由卷积层和全连接层构成;图像判别模型Dep用于判断输入图片的真实性,由卷积层和全连接层构成;身份判别模型Did用于平滑姿态和表情变换,控制身份特征由全连接层构成;表情分类器C用于表情分类,以优化表情生成由卷积层和全连接层构成。
进一步,所述步骤S4中,密集连接子网络DenseNet包含初始卷积层、密集块、过渡层和分类层,初始卷积层用于对输入图像进行初始的特征提取,该层操作依次为卷积操作,其中的卷积核大小为7×7、批标准化、ReLU激活和最大池化;密集块的每一层输出的特征图都用于后面每一层的输入,每一层的操作依次为批标准化、ReLU激活、1×1卷积、批标准化、ReLU激活和3×3卷积;密集块之间的过渡层用于对特征图进行降维,进一步压缩参数数量,过渡层的操作依次为批标准化、ReLU激活、1×1卷积和平均池化;分类层根据提取的特征进行多任务分类,分别是姿态分类和表情分类,分类层包括全局平均池化、两个全连接和两个softmax,用于姿态分类的全连接输出维度为5,用于表情分类的全连接输出维度为6。
进一步,所述步骤S4中,注意力自适应网络ADN一共有两个全连接层,其后分别接tanh激活函数和sigmoid激活函数,第一个全连接层的输出维度设置为512,第二个全连接层的输出维度设置为3。
与现有技术相比,本发明具有以下有益效果:
(1)在人机交互、人脸识别和计算机视觉等领域有十分重要的意义。
(2)为了在有限的硬件资源和表情数据集上获得高识别精度,提出了AdaptiveAttention Multi-Scale Dense Convolutional Network(AA-MDNet)模型;同时,针对多姿态的人脸数据匮乏问题,采用Generative Adversarial Network(GAN)模型扩展得到了能够用于训练的不同姿态下的表情图像,以丰富数据集。
(3)AA-MDNet模型主要包含多个尺度的网络,每个尺度的网络又包含两种类型的子网络:密集连接子网络Dense Convolutional Network(DenseNet)和注意力自适应网络Attention Detected Network(ADN),DenseNet通过横向和纵向两种方式的密集连接,融合了人脸局部和全局特征,增加了模型特征学习的鲁棒性,减少了深度学习模型的参数,使其更容易在移动端部署;基于弱监督的ADN网络,是一种注意力机制,模型训练过程中可以逐渐聚焦到人脸表情和姿态特征明显的关键区域,使得识别效果更佳。
(4)本方法在多个多视角表情数据集和移动终端进行测试,结果表明该模型使得多视角人脸表情识别精度显著提高。
附图说明
图1为本发明中AA-MDNet模型的示意图。
图2为本发明中基于GAN模型的多姿态数据生成示意图。
图3为本发明中DenseNet模型的示意图。
图4为本发明中密集块结构图。
图5为本发明中ADN网络结构图。
图6为本发明中AA-MDNet移动端表情识别的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
实施例1
本发明的实施例提供了一种基于移动端的多视角人脸表情识别的表情注意力区域学习,包括以下步骤:
S1.从每张图片中裁剪出人脸部分图像区域,并进行数据增强,得到训练AA-MDNet模型的数据集;
数据增强包括随机裁剪、平移、翻转、色彩抖动、亮度变化、饱和度变化、对比度变化和锐度变化。
S2.利用GAN模型扩展步骤S1得到的数据集;
GAN模型包括四部分:生成模型G、图像判别模型Dep、身份判别模型Did和表情分类器C,生成模型G包括编码器Ge和解码器Gd;编码器Ge和解码器Gd将输入数据编码分析、解码重构,生成图像,两者都由卷积层和全连接层构成;图像判别模型Dep用于判断输入图片的真实性,由卷积层和全连接层构成;身份判别模型Did用于平滑姿态和表情变换,控制身份特征由全连接层构成;表情分类器C用于表情分类,以优化表情生成由卷积层和全连接层构成。
S3.对步骤S2得到数据集中的图像利用ADN多尺度裁剪方法进行裁剪;
S4.将裁剪后的图像输入AA-MDNet模型,AA-MDNet模型包含多个尺度的网络,每个尺度的网络包含密集连接子网络DenseNet和注意力自适应网络ADN,输入的图像先通过密集连接子网络DenseNet提取特征,然后基于提取到的特征,使用注意力自适应网络ADN进行训练,得到表情和姿态的注意力区域的位置参数,再根据位置参数从输入图像中裁剪出该区域的图像进行缩放,并学习得到该区域的表情高层特征;
S5.将上一尺度得到的图像作为下一个尺度的输入图像,重复步骤S4直至所有尺度的网络对图像处理完成,进行多尺度的特征融合,得到具有全局和局部融合特征的表情高层特征。
密集连接子网络DenseNet包含初始卷积层、密集块、过渡层和分类层,初始卷积层用于对输入图像进行初始的特征提取,该层操作依次为卷积操作,其中卷积核大小为7×7、批标准化、ReLU激活和最大池化;密集块的每一层输出的特征图都用于后面每一层的输入,每一层的操作依次为批标准化、ReLU激活、1×1卷积、批标准化、ReLU激活和3×3卷积;密集块之间的过渡层用于对特征图进行降维,进一步压缩参数数量,过渡层的操作依次为批标准化、ReLU激活、1×1卷积和平均池化;分类层根据提取的特征进行多任务分类,分别是姿态分类和表情分类,分类层包括全局平均池化、两个全连接和两个softmax,用于姿态分类的全连接输出维度为5,用于表情分类的全连接输出维度为6。
注意力自适应网络ADN一共有两个全连接层,其后分别接tanh激活函数和sigmoid激活函数,第一个全连接层的输出维度设置为512,第二个全连接层的输出维度设置为3。
实施例2
本发明的实施例提供了一种基于移动端的多视角人脸表情识别方法的姿态和表情分类实例,包括:
1.数据预处理
数据增强:训练AA-MDNet模型用到的数据集有KDEF、BU-3DFE和SFEW。为了能更好地进行表情分类,在开始训练AA-MDNet之前,需要对人脸图像进行数据增强,以增加样本的多样性,尽量减少干扰因素。首先,对于一张图片,裁剪出人脸部分图像,减少其他干扰因素(背景等)。训练时进行数据增强(随机裁剪、平移、翻转、色彩抖动、亮度变化、饱和度变化、对比度变化、锐度变化),提高模型的泛化能力,防止过拟合,提升准确率。
生成式对抗网络(GAN)扩展数据集:SFEW表情数据集是没有姿态标签的,使用GAN生成同一表情的多姿态图片,以扩充数据集。训练GAN模型时,使用包含姿态和表情标签的数据集作为原始输入数据;训练完成后,GAN模型达到以假乱真的能力,输入SFEW的正脸图像,输出相应人脸下多个不同姿态的图像。
本发明采用的GAN模型由四部分组成:生成模型G(编码器Ge+解码器Gd)、图像判别模型Dep、身份判别模型Did、表情分类器C。如图2所示。
ADN多尺度裁剪方法:本实施例中用于图片裁剪的网络模型包括三个尺度输入,对于第一个尺度的网络,输入N×N大小的原始图片;经第一个尺度下ADN网络得到关键区域后,将原始图片上关键区域的图像裁剪出来并通过双三次插值方法放大到N×N大小,作为第二个尺度网络的输入图像;同理,第二个尺度的输入图像先经过ADN网络得到关键区域,裁剪放大后作为第三个尺度的输入图像。上述便是利用ADN网络模型通过多尺度裁剪方法,进行图片裁剪,简称ADN多尺度裁剪方法。
2.AA-MDNet模型
AA-MDNet模型主要包含3个尺度的网络,每个尺度又包含两种类型的子网络:密集连接子网络DenseNet和注意力自适应网络ADN。输入图像通过DenseNet网络提取特征,然后基于提取到的特征,使用注意力自适应网络ADN进行训练,得到表情和姿态的注意力区域的位置参数,再根据位置参数从输入图像中裁剪出该区域的图像进行缩放,将其作为下一个尺度的输入图像,学习得到不同视角下的表情高层特征。最后,进行多尺度的特征融合,多任务分类得到表情和姿态。AA-MDNet的网络结构如图1所示。
DenseNet网络用以对输入图像进行特征提取。它与其他CNN网络最大的不同点在于它拥有密集块结构,该结构中每一层输入的特征图都是前面所有层的输出。这样设计带来的好处是在保证正确率的情况下进一步减少参数数量。
DenseNet网络包含初始卷积层、密集块、过渡层、分类层,其结构如图3所示。
初始卷积层用于对输入图像进行初始的特征提取,该层操作依次为卷积操作(步长为2,卷积核大小为7×7)、批标准化、ReLU激活和最大池化(采样核大小为3×3,步长为2)。
密集块的设计如图4所示,每一层输出特征图都用于后面层的输入。每一层的操作依次为批标准化、ReLU激活、1×1卷积(步长为1)、批标准化、ReLU激活和3×3卷积(步长为1)。
密集块之间的过渡层用于对特征图进行降维,进一步压缩参数数量。主要包含批标准化、ReLU激活、1×1卷积(步长为1)和平均池化(采样核大小为2×2,步长为2)。
分类层根据提取的特征进行分类,这里同时进行姿态和表情的多分类任务。分类层主要包括全局平均池化、两个全连接和两个softmax。用于姿态分类的全连接输出维度为5,用于表情分类的全连接输出维度为6。
ADN网络用于人脸图像中关键区域的定位,是一种弱监督学习,训练时没有区域信息的标注,由ADN网络自适应学习特征信息,最终学习到表情特征较为明显的区域。
ADN网络结构如图5所示,一共有两个全连接层,其后分别接tanh激活函数和sigmoid激活函数。第一个全连接的输出维度设置为512,第二个全连接的输出维度设置为3,故最后的输出值有三个,即ax、ay、al。
如图1所示,ADN网络以DenseNet网络提取的最终卷积特征(全局平均池化之前)作为输入,输出ax、ay、al三个值,表示要从源图中截取的一个正方形区域,其中ax、ay表示正方形的中心坐标,al表示正方形边长的一半,据此可计算出要截取的正方形区域的顶点坐标。另一方面,由ADN的网络结构可知,ax、ay、al的取值范围为[0,1](sigmoid函数的值域为[0,1]),在计算顶点坐标之前,令ax、ay、al均乘以源图片尺寸N,即
ax=ax×N
ay=ay×N
al=al×N
并做如下限制,规定ax、ay的取值从源图片坐标的1/3到2/3,2al的取值从N/3到N/2,即ax、ay的限制区间为[N/3,2N/3],al的限制区间为[N/6,N/4];当ax、ay、al的计算结果不在相应限制区间时,取就近的区间临界值。例如,ax=N/6,取ax=N/3。
接下来,由ax、ay、al计算出要裁剪的正方形区域的顶点坐标,计算公式为
左上角顶点横坐标:Xlu=ax-al;
左上角顶点纵坐标:Ylu=ay-al;
右下角顶点横坐标:Xrd=ax+al;
右下角顶点纵坐标:Yrd=ay+al;
根据左上角和右下角坐标在源图中裁剪出该区域的图像,并将其放大到与源图片同样的尺寸大小(N×N),作为下一个尺度的输入图像。图片放大的插值方法为双三次插值。
多尺度特征融合用于三个密集子网络特征融合,获取具有全局和局部融合的高层表情特征。
如图1所示,三个尺度的DenseNet提取出特征图f1,f2,f3,均做全局平均池化操作,然后将三个特征图连接到一起,即做concatenate操作,将张量按指定维连接起来,最终融合成特征f。
多任务分类:姿态和表情
AA-MDNet采用多任务学习的网络结构,分别用于表情分类和姿态分类,如图1所示。之所以加入姿态的分类,主要有两个方面的的原因。一方面,训练用的数据集(KDEF、BU-3DFE)也是多姿态的表情数据集,提供了相同人脸相同表情下的多姿态图片。另一方面,因为姿态是影响表情识别效果的一个重要因素,所以充分考虑在不同姿态下的表情识别,不仅符合自然状态下的人脸表情识别问题,更能促进表情识别的效果。
统一将表情分为6种,即生气、厌恶、害怕、快乐、伤心和惊讶;姿态分为五种,用头部的左右偏角表示,分别是-90°、-45°、0°、45°和90°。
训练多任务时,采用表情和姿态的联合训练。分别计算出表情分类的交叉熵损失值losse和姿态分类的交叉熵损失值lossp,总的损失值lossmt为
lossmt=αlosse+βlossp
其中,α和β是待定的非负系数,且α+β=1,一般地,取α=0.96,β=0.04。
姿态比表情容易识别,所以训练时,一般α的值设置得比β大。lossmt将会在下面应用到。
多任务损失值的计算:为了有差别的利用每一个尺度提取的特征和提升表情识别的准确率,我们的方法并不是直接对尺度融合后的损失值进行梯度下降。考虑以下三项损失值。
单尺度分类的损失值:每个尺度的网络都有多分类的损失值,将其相加作为第一项损失值,即计算公式为
尺度间差异化损失值:每个尺度分类的正确率是不一样的,为了使前面尺度的网络姿态分类更加准确,后面尺度的网络表情分类更加准确,设计如下损失值计算
多尺度融合的分类损失值:最后我们把三个尺度的特征图融合在一起做姿态和表情的多分类任务,其损失值表示为
其中“1+2+3”指的是2.3中的多尺度融合。
实施例3
一种基于移动端的多视角人脸表情识别方法的训练过程实施如下:
GAN模型训练:GAN模型用于丰富数据集,在训练AA-MDNet之前,先训练GAN模型并保存模型文件。
(1)GAN模型的损失值计算
生成模型G的损失值:由于生成模型与两个判定模型直接关联,自身的损失值结合编码器Ge和解码器Gd的损失值能更好的训练模型,计算公式如下
lossG=lossEG+a lossG_ep+b lossE_id
其中a和b取值很小,预设0.0001;lossEG、lossG_ep、lossE_id分别表示生成模型的损失值、编码器的损失值和解码器的损失值。
图像判别模型Dep的损失值:
lossD_ep=lossD_ep_input+lossD_ep_G
其中lossD_ep_input、lossD_ep_G分别指输入真实图片的损失值和输入生成图片的损失值。
身份判别模型Did的损失值:
lossD_id=lossD_id_f+lossD_id_prior
其中lossD_id_f、lossD_id_prior分别指的是以编码器Ge输出的身份特征作为输入的损失值和以预设置的均匀分布的身份特征作为输入的损失值。
分类模型c的损失值:
lossC=lossD_ex+lossD_pose
lossD_ex、lossD_pose分别表示分类模型对于表情分类的损失值和对于姿态分类的损失值。
(2)GAN模型训练算法
1将数据集划分为多个批次,每个批次的图片数量相同;
2对读取的每个批次数据进行下列训练:
a读取数据,预训练lossG,生成初始图像;
b结合生成模型G的生成结果,对lossD_ep和lossD_id进行梯度下降;
c由于生成模型G的收敛较慢,对lossG进行多次(三次)梯度下降;
d将分类模型lossC训练指定次数,随着训练层数的增加,可适当减少训练次数;
3重复上述1、2步骤,直至模型收敛。
图像预处理:前面提到的图片尺寸为N×N,图像实际处理过程中,均取N=224。数据预处理的流程如下:
1)对KDEF、BU-3DFE、SFEW三个数据集进行数据清洗,删除无关数据、重复数据和错误数据;
2)利用训练好的GAN模型扩展SFEW数据集,生成相同人脸下不同姿态的多个图片;
3)读取源数据训练时,随机进行数据增强;
4)由尺度1下ADN的输出值ax、ay、al,计算出裁剪的区域位置,把裁剪后的图片放大到N×N尺寸,作为尺度2的输入数据;同理,尺度3的输入数据由尺度2的输入数据处理而来;
AA-MDNet网络实施参数:尺度1中DenseNet的网络参数,尺度2和3的参数与尺度1相同,不再赘述。
尺度1下ADN的网络参数,尺度2下与之相同,不再赘述。
层 | 输出尺寸 | 参数 |
全连接 | 1×512 | 512维全连接 |
全连接 | 1×3 | 3维全连接 |
AA-MDNet模型训练实施过程:为了进行有效的训练进而提升测试的准确率,有效的训练方法是对3.3中的三项损失值进行交替训练,训练过程如下
(1)固定另外两项损失值,用表情数据集对lossscales进行梯度下降训练,相当于对每个尺度的分类网络进行预训练;
(2)同样,固定其他损失值,用表情数据集对lossdiff进行预训练;
(3)固定另外两项损失值,对lossscales进行一定迭代次数的训练;
(4)同理,固定其他损失值,对lossdiff进行一定迭代次数的训练;
(5)同理,固定其他损失值,对lossjoint进行一定迭代次数的训练;
(6)重复(3)(4)(5)的训练过程,直到lossscales、lossdiff、lossjoint三项损失值都不再改变,模型整体收敛。
基于AA-MDNet的多视角表情识别的移动端实施:用KDEF、SFEW、BU-3DFE数据集训练好AA-MDNet模型之后,我们将模型集成到App中,做成一个表情识别的移动客户端。系统实施的总流程如下:
(1)对KDEF、SFEW、BU-3DFE进行数据预处理,用GAN丰富数据集;
(2)在TensorFlow框架下构建AA-MDNet模型,用处理好的数据集训练该模型直至收敛,期间记录表情识别的准确率,保存好训练得到的模型文件;
(3)把测试准确率最高的模型转换成一个可用于实际生产的TensorFlow模型;
(4)开发表情识别App,首先将TensorFLow Mobile环境添加到App工程中,并且将(3)中的模型放到资源文件夹下,然后编写相关的Java代码,完成调用模型进行表情识别的逻辑程序;
(5)运行App,拍照得到若干人脸,测试表情识别的功能是否正常。
该系统的表情识别流程可参见图6。
在不冲突的情况下,本文中上述实施例及实施例中的特征可以相互结合。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于移动端的多视角人脸表情识别方法,其特征在于,包括以下步骤:
S1.从每张图像中裁剪出人脸部分的图像,并进行数据增强,得到训练AA-MDNet模型的数据集;
S2.利用GAN模型扩展步骤S1得到的数据集;
S3.对步骤S2得到数据集中的图像利用ADN多尺度裁剪方法进行裁剪;ADN多尺度裁剪方法具体为:对于包括三个尺度输入的ADN网络模型,对于第一个尺度的网络,输入N×N大小的原始图片;经第一个尺度下ADN网络得到关键区域后,将原始图片上关键区域的图像裁剪出来并通过双三次插值方法放大到N×N大小,作为第二个尺度网络的输入图像;同理,第二个尺度的输入图像先经过ADN网络得到关键区域,裁剪放大后作为第三个尺度的输入图像;
S4.将裁剪后的图像输入AA-MDNet模型,AA-MDNet模型包含多个尺度的网络,每个尺度的网络包含密集连接子网络DenseNet和注意力自适应网络ADN,输入的图像先通过密集连接子网络DenseNet提取特征,然后基于提取到的特征,使用注意力自适应网络ADN进行训练,得到表情和姿态的注意力区域的位置参数,再根据位置参数从输入图像中裁剪出该区域的图像进行缩放,学习得到表情高层特征;所述注意力自适应网络ADN一共有两个全连接层,其后分别接tanh激活函数和sigmoid激活函数,第一个全连接层的输出维度设置为512,第二个全连接层的输出维度设置为3;
S5.将上一尺度得到的图像作为下一个尺度的输入图像,重复步骤S4直至所有尺度的网络对图像处理完成,进行多尺度的特征融合,得到具有全局和局部融合特征的表情高层特征。
2.根据权利要求1所述的基于移动端的多视角人脸表情识别方法,其特征在于,所述步骤S1中,数据增强包括随机裁剪、平移、翻转、色彩抖动、亮度变化、饱和度变化、对比度变化和锐度变化。
3.根据权利要求1所述的基于移动端的多视角人脸表情识别方法,其特征在于,所述步骤S2中,GAN模型包括四部分:生成模型G、图像判别模型Dep、身份判别模型Did和表情分类器Ce,生成模型G包括编码器Ge和解码器Gd;编码器Ge和解码器Gd将输入数据编码分析、解码重构,生成图像,两者都由卷积层和全连接层构成;图像判别模型Dep用于判断输入图片的真实性,由卷积层和全连接层构成;身份判别模型Did用于平滑姿态和表情变换,控制身份特征,由全连接层构成;表情分类器Ce用于表情分类,以优化表情生成,由卷积层和全连接层构成。
4.根据权利要求1所述的基于移动端的多视角人脸表情识别方法,其特征在于,所述步骤S4中,密集连接子网络DenseNet包含初始卷积层、密集块、过渡层和分类层,初始卷积层用于对输入图像进行初始的特征提取,该层操作依次为卷积操作,其中的卷积核大小为7×7、批标准化、ReLU激活和最大池化;密集块的每一层输出的特征图都用于后面每一层的输入,每一层的操作依次为批标准化、ReLU激活、1×1卷积、批标准化、ReLU激活和3×3卷积;密集块之间的过渡层用于对特征图进行降维,进一步压缩参数数量,过渡层的操作依次为批标准化、ReLU激活、1×1卷积和平均池化;分类层根据提取的特征进行多任务分类,分别是姿态分类和表情分类,分类层包括全局平均池化、两个全连接和两个softmax,用于姿态分类的全连接输出维度为5,用于表情分类的全连接输出维度为6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811102569.3A CN109409222B (zh) | 2018-09-20 | 2018-09-20 | 一种基于移动端的多视角人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811102569.3A CN109409222B (zh) | 2018-09-20 | 2018-09-20 | 一种基于移动端的多视角人脸表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109409222A CN109409222A (zh) | 2019-03-01 |
CN109409222B true CN109409222B (zh) | 2020-10-30 |
Family
ID=65465174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811102569.3A Expired - Fee Related CN109409222B (zh) | 2018-09-20 | 2018-09-20 | 一种基于移动端的多视角人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109409222B (zh) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948490A (zh) * | 2019-03-11 | 2019-06-28 | 浙江工业大学 | 一种基于行人重识别的员工特定行为记录方法 |
CN109910891A (zh) * | 2019-03-20 | 2019-06-21 | 奇瑞汽车股份有限公司 | 车辆控制方法和装置 |
CN110059744B (zh) * | 2019-04-16 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 训练神经网络的方法、图像处理的方法、设备及存储介质 |
CN110136162B (zh) * | 2019-05-20 | 2021-06-04 | 北方工业大学 | 无人机视角遥感目标跟踪方法及装置 |
CN110276321A (zh) * | 2019-06-11 | 2019-09-24 | 北方工业大学 | 一种遥感视频目标跟踪方法及系统 |
CN110321805B (zh) * | 2019-06-12 | 2021-08-10 | 华中科技大学 | 一种基于时序关系推理的动态表情识别方法 |
CN110287836B (zh) * | 2019-06-14 | 2021-10-15 | 北京迈格威科技有限公司 | 图像分类方法、装置、计算机设备和存储介质 |
CN110222668B (zh) * | 2019-06-17 | 2020-12-22 | 苏州大学 | 基于生成对抗网络的多姿态面部表情识别方法 |
CN112132253B (zh) * | 2019-06-24 | 2024-06-11 | 北京眼神智能科技有限公司 | 3d动作识别方法、装置、计算机可读存储介质及设备 |
CN110309793A (zh) * | 2019-07-04 | 2019-10-08 | 电子科技大学 | 一种基于图像比特分层解译的sar目标识别方法 |
CN110363156A (zh) * | 2019-07-17 | 2019-10-22 | 北京师范大学 | 一种姿态无关的面部动作单元识别方法 |
CN110458049A (zh) * | 2019-07-24 | 2019-11-15 | 东北师范大学 | 一种基于多视觉的行为测量与分析方法 |
CN110570522B (zh) * | 2019-08-22 | 2023-04-07 | 天津大学 | 一种多视图三维重建方法 |
CN110580461A (zh) * | 2019-08-29 | 2019-12-17 | 桂林电子科技大学 | 一种结合多级卷积特征金字塔的人脸表情识别算法 |
CN110728683B (zh) * | 2019-09-29 | 2021-02-26 | 吉林大学 | 一种基于密集连接的图像语义分割方法 |
CN110674305B (zh) * | 2019-10-10 | 2023-05-12 | 天津师范大学 | 一种基于深层特征融合模型的商品信息分类方法 |
CN111079748A (zh) * | 2019-12-12 | 2020-04-28 | 哈尔滨市科佳通用机电股份有限公司 | 铁路货车滚轴承甩油故障检测方法 |
CN111191564A (zh) * | 2019-12-26 | 2020-05-22 | 三盟科技股份有限公司 | 基于多角度神经网络的多姿态人脸情绪识别方法及系统 |
CN111191739B (zh) * | 2020-01-09 | 2022-09-27 | 电子科技大学 | 一种基于注意力机制的墙面缺陷检测方法 |
CN111325319B (zh) * | 2020-02-02 | 2023-11-28 | 腾讯云计算(北京)有限责任公司 | 一种神经网络模型的检测方法、装置、设备及存储介质 |
CN111339862B (zh) * | 2020-02-17 | 2021-04-27 | 中国地质大学(武汉) | 一种基于通道注意力机制的遥感场景分类方法及装置 |
CN111428689B (zh) * | 2020-04-20 | 2022-07-01 | 重庆邮电大学 | 一种多池化信息融合的人脸图像特征提取方法 |
CN111931802A (zh) * | 2020-06-16 | 2020-11-13 | 南京信息工程大学 | 基于Siamese网络结构融合中层特征的行人重识别方法 |
CN111832439B (zh) * | 2020-06-24 | 2022-10-11 | 广州市保伦电子有限公司 | 一种多人脸快速识别方法及处理终端 |
CN112036260B (zh) * | 2020-08-10 | 2023-03-24 | 武汉星未来教育科技有限公司 | 一种自然环境下多尺度子块聚合的表情识别方法及系统 |
CN111882558A (zh) * | 2020-08-11 | 2020-11-03 | 上海商汤智能科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN112200065B (zh) * | 2020-10-09 | 2022-08-09 | 福州大学 | 基于动作放大和自适应注意力区域选取的微表情分类方法 |
CN112347896B (zh) * | 2020-11-02 | 2024-06-18 | 东软睿驰汽车技术(沈阳)有限公司 | 基于多任务神经网络的头部数据处理方法及装置 |
CN112183669B (zh) * | 2020-11-04 | 2024-02-13 | 航天科工(北京)空间信息应用股份有限公司 | 图像分类方法和装置、设备及存储介质 |
CN112597823A (zh) * | 2020-12-07 | 2021-04-02 | 深延科技(北京)有限公司 | 注意力识别方法、装置、电子设备及存储介质 |
CN113111940A (zh) * | 2021-04-13 | 2021-07-13 | 东南大学 | 基于特征融合的表情识别方法 |
CN112990097B (zh) * | 2021-04-13 | 2022-11-04 | 电子科技大学 | 一种基于对抗消除的人脸表情识别方法 |
CN113221799B (zh) * | 2021-05-24 | 2022-08-16 | 华中师范大学 | 一种多头部姿态人脸表情识别方法及其应用 |
CN114387649A (zh) * | 2022-01-11 | 2022-04-22 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备以及存储介质 |
CN114943656B (zh) * | 2022-05-31 | 2023-02-28 | 山东财经大学 | 一种人脸图像修复方法及系统 |
CN114944002B (zh) * | 2022-06-16 | 2024-04-16 | 中国科学技术大学 | 文本描述辅助的姿势感知的人脸表情识别方法 |
CN115862120B (zh) * | 2023-02-21 | 2023-11-10 | 天度(厦门)科技股份有限公司 | 可分离变分自编码器解耦的面部动作单元识别方法及设备 |
CN116204850B (zh) * | 2023-03-14 | 2023-11-03 | 匀熵智能科技(无锡)有限公司 | 基于动态梯度和多视图协同注意力的多模态情感分析方法 |
CN116434303A (zh) * | 2023-03-30 | 2023-07-14 | 华南理工大学 | 基于多尺度特征融合的人脸表情捕捉方法、装置及介质 |
CN116051811B (zh) * | 2023-03-31 | 2023-07-04 | 深圳思谋信息科技有限公司 | 区域识别方法、装置、计算机设备及计算机可读存储介质 |
CN116912808B (zh) * | 2023-09-14 | 2023-12-01 | 四川公路桥梁建设集团有限公司 | 架桥机控制方法、电子设备和计算机可读介质 |
CN117809354B (zh) * | 2024-02-29 | 2024-06-21 | 华南理工大学 | 基于头部可穿戴设备感知的情感识别方法、介质及设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971131A (zh) * | 2014-05-13 | 2014-08-06 | 华为技术有限公司 | 一种预设表情识别方法和装置 |
US9552510B2 (en) * | 2015-03-18 | 2017-01-24 | Adobe Systems Incorporated | Facial expression capture for character animation |
CN105138991B (zh) * | 2015-08-27 | 2016-08-31 | 山东工商学院 | 一种基于情感显著性特征融合的视频情感识别方法 |
CN106157319B (zh) * | 2016-07-28 | 2018-11-02 | 哈尔滨工业大学 | 基于卷积神经网络的区域和像素级融合的显著性检测方法 |
CN107766894B (zh) * | 2017-11-03 | 2021-01-22 | 吉林大学 | 基于注意力机制和深度学习的遥感图像自然语言生成方法 |
CN108319900A (zh) * | 2018-01-16 | 2018-07-24 | 南京信息工程大学 | 一种基本表情分类方法 |
CN108304788B (zh) * | 2018-01-18 | 2022-06-14 | 陕西炬云信息科技有限公司 | 基于深度神经网络的人脸识别方法 |
CN108288072A (zh) * | 2018-01-26 | 2018-07-17 | 深圳市唯特视科技有限公司 | 一种基于生成对抗网络的面部表情合成方法 |
CN108197602B (zh) * | 2018-01-30 | 2020-05-19 | 厦门美图之家科技有限公司 | 一种卷积神经网络生成方法及表情识别方法 |
CN108446609B (zh) * | 2018-03-02 | 2022-03-11 | 南京邮电大学 | 一种基于生成对抗网络的多角度面部表情识别方法 |
CN108446667A (zh) * | 2018-04-04 | 2018-08-24 | 北京航空航天大学 | 基于生成对抗网络数据增强的人脸表情识别方法和装置 |
-
2018
- 2018-09-20 CN CN201811102569.3A patent/CN109409222B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN109409222A (zh) | 2019-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109409222B (zh) | 一种基于移动端的多视角人脸表情识别方法 | |
Hussain et al. | A real time face emotion classification and recognition using deep learning model | |
CN110427867A (zh) | 基于残差注意力机制的面部表情识别方法及系统 | |
CN110276248B (zh) | 一种基于样本权值分配和深度学习的人脸表情识别方法 | |
CN112464865A (zh) | 一种基于像素和几何混合特征的人脸表情识别方法 | |
Ur Rehman et al. | Dynamic hand gesture recognition using 3D-CNN and LSTM networks | |
CN107273936A (zh) | 一种gan图像处理方法及系统 | |
CN111160350A (zh) | 人像分割方法、模型训练方法、装置、介质及电子设备 | |
CN111339935B (zh) | 一种基于可解释cnn图像分类模型的光学遥感图片分类方法 | |
Ali et al. | Facial emotion detection using neural network | |
CN110674685B (zh) | 一种基于边缘信息增强的人体解析分割模型及方法 | |
CN116645716B (zh) | 基于局部特征和全局特征的表情识别方法 | |
CN110598587B (zh) | 结合弱监督的表情识别网络训练方法、系统、介质及终端 | |
Zhao et al. | Applying contrast-limited adaptive histogram equalization and integral projection for facial feature enhancement and detection | |
Borgalli et al. | Deep learning for facial emotion recognition using custom CNN architecture | |
CN111860078A (zh) | 人脸静默活体检测方法、装置、可读存储介质及设备 | |
CN113343974A (zh) | 考虑模态间语义距离度量的多模态融合分类优化方法 | |
EP3588441A1 (en) | Imagification of multivariate data sequences | |
CN109508640A (zh) | 一种人群情感分析方法、装置和存储介质 | |
CN117351550A (zh) | 基于有监督对比学习的网格自注意力人脸表情识别方法 | |
Bhalerao et al. | Optimization of loss function on human faces using generative adversarial networks | |
CN115862120A (zh) | 可分离变分自编码器解耦的面部动作单元识别方法及设备 | |
Ullah et al. | Emotion recognition from occluded facial images using deep ensemble model. | |
Sawant et al. | Text to image generation using GAN | |
CN111950592B (zh) | 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201030 Termination date: 20210920 |