CN109344693B - 一种基于深度学习的人脸多区域融合表情识别方法 - Google Patents
一种基于深度学习的人脸多区域融合表情识别方法 Download PDFInfo
- Publication number
- CN109344693B CN109344693B CN201810912957.1A CN201810912957A CN109344693B CN 109344693 B CN109344693 B CN 109344693B CN 201810912957 A CN201810912957 A CN 201810912957A CN 109344693 B CN109344693 B CN 109344693B
- Authority
- CN
- China
- Prior art keywords
- layer
- face
- eye
- mouth
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的人脸多区域融合表情识别方法,包括下述步骤:用检测模型检测出人脸位置;用关键点模型得到人脸关键点坐标;先根据眼睛部分关键点做眼睛对齐;然后根据整体人脸关键点坐标做人脸对齐,并通过仿射变换裁剪人脸区域;按照一定的比例裁剪图像的眼睛和嘴巴区域。卷积神经网络分为一个主干网络和两个支干网络,在最后一层卷积层进行特征融合,最后通过分类器得到表情分类结果。本发明利用先验信息,除整个人脸之外还将眼睛和嘴巴区域作为网络的输入,通过模型融合使网络既能学习到人脸表情的整体语义特征也能学习到局部区域特征,简化了人脸表情识别的难度,减少外部噪声,有鲁棒性强,准确率高,算法复杂度低等优点。
Description
技术领域
本发明涉及计算机视觉和模式识别技术领域,具体涉及一种基于深度学习的人脸多区域融合表情识别方法。
背景技术
基于深度学习的人脸多区域融合表情识别方法是一种人脸表情识别,其目的在于解决人脸表情分类问题。
1971年,心理学家Ekman与Friesen研究提出了人类的六种基本情感,即惊讶(Surprise)、悲伤(Sadness)、愤怒(Anger)、恐惧(Fear)、厌恶(Disgust)与高兴(Happiness),与此对应,人类可产生相应的面部表情。人类表情往往携带着比语言更为丰富的信息,因此,人脸表情识别是计算机视觉领域的一个重要研究课题。其研究成果可应用于人机交互、心理疾病患者治疗、情感计算与远程教育等领域,广泛的应用领域推动着人脸表情识别技术不断发展。
人脸表情识别最重要的一步是对表情特征的提取。传统表情识别特征提取主要依靠人工提取特征。主要是几何特征提取和纹理特征提取两种方法。几何特征提取方法主要通过提取人脸的特征点,然后分析不同区域特征点之间的几何关系,比如眼睛区域和嘴巴区域等,实现对表情的分类识别。常见的有主动形状模型,改进ASM算法等。纹理特征反映了人脸表情图像的底层信息,突出体现了局部表情的变化。纹理特征提取方法典型的方法有局部二值模式LBP、Gabor特征、HOG特征、Haar-like特征等。通过图像的局部信息变化来表达局部纹理特征,用纹理特征进行分类对图像尺度变换、旋转和光照变化具有很好的鲁棒性,能够有效地描述图像的纹理信息,有利于表情识别。
而目前人脸表情识别任务大多基于深度学习算法,深度学习免去了所有需要人工提取表情特征的问题,卷积神经网络可以自适应学习所有表情特征,用作某一类表情的表达;同时深度学习很好地解决了传统机器学习对人脸姿态、光照、遮挡物等敏感问题,提高了表情识别的鲁棒性和准确率。
人脸表情分类问题一直受到国内外学者的关注,特别是对与现实场景中的人脸表情识别任务,非常具有挑战性。因现实场景中人脸表情是自发产生的,与大部分实验室采集样本差别很大;同时人脸大姿态、大遮挡、光线不均匀、图片质量参差不齐、表情特征不明显等问题,增大了识别的难度。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于深度学习的人脸多区域融合表情识别方法。
本发明的目的可以通过采取如下技术方案达到:
一种基于深度学习的人脸多区域融合表情识别方法,所述的识别方法包括下列步骤:
S1、通过人工标注得到包含人脸表情数据集的RGB图像,将其分为训练集和测试集;
S2、从训练集中得到一张包含人脸的RGB图像,通过检测模型对人脸进行检测,得到人脸的大致位置区域;
S3、根据人脸的大致位置区域,通过人脸关键点检测模型对人脸关键点进行检测得到人脸的关键点坐标值;
S4、根据人脸的关键点坐标值对目标人脸进行人脸对齐,同时通过仿射变换截取仅包含人脸的第一图像区域并调整到相同尺寸,人脸关键点坐标也根据仿射变换矩阵重新映射到新的坐标;
S5、根据包含人脸的第一图像区域及坐标映射变换后的人脸关键点坐标,截取眼睛区域和嘴巴区域,并将这两个区域调整到与第一图像区域相同尺寸;
S6、将包含人脸的第一图像区域、眼睛区域和嘴巴区域,分别进行图像归一化处理;
S7、将归一化处理后的图像进行随机数据增强处理;
S8、将随机数据增强处理后的第一图像区域、眼睛区域和嘴巴区域的图像作为卷积神经网络的输入,对卷积神经网络进行训练,其中,所述的卷积神经网络包括一个主干网络和两个枝干网络构成,所述的第一图像区域作为主干网络的输入,所述的眼睛区域和嘴巴区域分别作为两个枝干网络输入;
S9、取出测试集中的图像,重复步骤S2-步骤S8,得到对齐的包含人脸的第一图像区域、眼睛区域和嘴巴区域分别作为卷积神经网络中一个主干网络和两个枝干网络的输入,得到最终表情分类结果。
进一步地,所述的步骤S1中人工标注的方法为根据人脸肌肉的变化分为7类基本表情,生气、厌恶、恐惧、高兴、悲伤、惊讶和中性,分别用数字0-6表示各类表情标签,对人脸表情数据集进行标签标注。
进一步地,所述的步骤S2中检测模型为opencv自带的人脸检测模型,用于检测人脸位置,并在人脸区域画出一个bounding box标注出人脸大致区域。
进一步地,所述的步骤S3中人脸关键点检测模型包含在dlib库中,调用dlib库加载官方模型,输入已检测到人脸的图像,得到人脸关键点坐标,其中,所述的人脸关键点坐标包含68个坐标点,分别为(x1,y1)…(x68,y68)。
进一步地,所述的步骤S4中人脸对齐过程如下:
S41、根据68个人脸关键点坐标中的第36和第45的横坐标,做眼睛对齐,将第36和第45的坐标进行连线,求该连线与水平线的夹角θ,通过仿射变换的方式对图片进行整体旋转,若所求θ为负,则将图片顺时针旋转θ,若θ为正将图片逆时针旋转θ,使得旋转后的人脸关键点坐标第36和第45的坐标连线水平,同时将68个人脸关键点坐标也根据仿射变换公式更新为旋转后的人脸关键点坐标;
S42、根据步骤S41旋转后更新的68个人脸关键点坐标求出一个平均坐标,该平均坐标作为整个人脸的中心坐标c(x,y),计算公式为:
其中,xi为关键点的横坐标,yi为关键点的纵坐标;
S43、计算人脸关键点中横坐标最大值点xmax和横坐标最小值点xmin的横坐标差值的s,s即为人脸裁剪框的边长,计算公式如下:
s=xmax-xmin;
S44、根据步骤S42和步骤S43得到的中心坐标和人脸裁剪框边长求出仿射变换矩阵M,根据opencv仿射变换函数warpAffine()将原图仿射变换到尺寸为128x128的只有人脸区域的图像,同时人脸关键点坐标也根据仿射矩阵进行变换。
进一步地,所述的步骤S5中截取眼睛区域和嘴巴区域的过程如下:
S51、得到人脸对齐后的图像和人脸关键点坐标后,将左眼最左边坐标x36和右眼最右边坐标x45横坐标相减,得到长度eye_len,计算公式如下:
eye_len=x36-x45;
S52、将左眼最左边坐标x36和右眼最右边坐标x45求平均,得到两个点的中心点坐标C1,计算公式如下:
S53、以C1为中心、1.2*eye_len为边长截取一个正方形矩阵作为眼睛区域,再将截取的正方形矩阵调整到64x64尺寸,其中,眼睛区域为RGB三通道图像;
S54、得到人脸对齐后的图像后,将嘴巴最左边坐标x48和嘴巴最右边坐标x54横坐标相减,得到长度mou_len,计算公式如下:
mou_len=x48-x54;
S55、将嘴巴最左边坐标x48和嘴巴最右边坐标x54求平均,得到两个点的中心点坐标C2,计算公式如下:
S56、以C2为中心、1.2*mou_len为长、0.6*mou_len为宽截取一个长方形矩阵作为嘴巴区域,再将截取的长方形矩阵调整到64x64尺寸,其中,嘴巴区域为RGB三通道图像。
进一步地,所述的步骤S6中图像归一化处理的方法是将图像区域中每个像素的像素值除以256,使每个像素的像素值在[0,1]之间。
进一步地,所述的步骤S7中图像随机数据增强处理的过程如下:
S71、对图像进行随机翻转处理;
S72、对图像进行随机平移处理;
S73、对图像进行随机缩放处理;
S74、对图像进行随机灰度化处理;
S75、对图像进行随机gamma变换处理;
S76、对图像进行随机添加高斯白噪声。
进一步地,第一图像区域作为输入的主干网络的结构如下:
从输入层至输出层依次连接为:卷积层conv1、BN层conv1_bn、scale层conv1_scale、Relu层conv1_relu、池化层max_pooling1、卷积层conv2、BN层conv2_bn、scale层conv2_scale、Relu层conv2_relu、池化层maxpooling2、卷积层conv3、BN层conv3_bn、scale层conv3_scale、Relu层conv3_relu、卷积层conv4、BN层conv4_bn、scale层conv4_scale、Relu层conv4_relu、池化层max_pooling3、卷积层conv5、BN层conv5_bn、scale层conv5_scale、Relu层conv5_relu、卷积层conv6、BN层conv6_bn、scale层conv6_scale、Relu层conv6_relu、concat层concat、全局平均池化层global_average_pooling、全连接层fc、softmax层;
眼睛区域作为输入的第一枝干网络的结构如下:
从输入层至输出层依次连接为:卷积层conv1_eye、BN层conv1_bn_eye、scale层conv1_scale_eye、Relu层conv1_relu_eye、池化层max_pooling1_eye、卷积层conv2、BN层conv2_bn_eye、scale层conv2_scale_eye、Relu层conv2_relu_eye、池化层max_pooling2_eye、卷积层conv3、BN层conv3-_bn_eye、scale层conv3_scale_eye、Relu层conv3_relu_eye、卷积层conv4_eye、BN层conv4_bn_eye、scale层conv4_scale_eye、Relu层conv4_relu_eye、concat层、全局平均池化层global_average pooling、全连接层fc、softmax层;
嘴巴区域作为输入的第二枝干网络的结构如下:
从输入层至输出层依次连接为:卷积层conv1_mouth、BN层conv1-_bn_mouth、scale层conv1_scale_mouth、Relu层conv1_relu_mouth、池化层max_pooling1_mouth、卷积层conv2、BN层conv2_bn_mouth、scale层conv2_scale_mouth、Relu层conv2_relu_mouth、池化层max_pooling2_mouth、卷积层conv3_mouth、BN层conv3_bn_mouth、scale层conv3_scale_mouth、Relu层conv3_relu_mouth、卷积层conv4_mouth、BN层conv4_bn_mouth、scale层conv4_scale_eye、Relu层conv4_relu_mouth、concat层、全局平均池化层global_average_pooling、全连接层fc、softmax层。
进一步地,所述的步骤S8中对卷积神经网络进行训练所用的loss函数是hingeloss函数,其中hinge loss函数的正则化方式为L2正则。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明公开的人脸表情识别方法中,首先获得一张包含人脸的图像;先检测出人脸的位置;再检测出人脸关键点坐标,根据人脸关键点坐标对整张人脸进行眼睛对齐;再根据人脸关键点找到整张脸的中心和切割人脸框的大小;根据框的大小切割人脸并将人脸调整到128x128大小的仅包含人脸的图像;再根据人脸关键点坐标将人脸区域中眼睛区域和嘴巴区域裁剪下来与对齐的人脸图像分别输入到卷积神经网络的两条支路和一条主路中,最终得到人脸表情7分类结果。本发明基于深度学习理论,通过添加先验信息对人脸图像进行眼睛对齐,得到包含背景区域最少的人脸区域,最小化人脸之外的区域所带来的噪声影响,大大提高了算法的鲁棒性与稳定性。
(2)本发明公开的人脸表情识别方法中,根据先验信息可知眼睛区域和嘴巴区域的表情信息最多,通过经验参数将眼睛区域和嘴巴区域按一定比例切割并放大到与人脸相同大小,最后将三个区域的图像进行合并输入到卷积神经网络中,相当于人为的添加了一个注意力机制,大大的提升了算法的精度,特别对于现实场景环境下采集的人脸表情图像,分类准确率有很大提升;
(3)本发明公开的人脸表情识别方法中,对输入图像进行了随机数据增强处理,具体操作包括:对图像进行随机翻转处理;对图像进行随机平移处理;对图像进行随机缩放处理;对图像进行随机灰度化处理;对图像进行随机gamma变换处理;对图像进行随机添加高斯白噪声等。增加了样本容量,解决了人脸表情图像数量不足的问题,同时大大提升了算法对光线、质量、人脸位置及大小的鲁棒性,提高模型精度;
(4)本发明公开的人脸表情识别方法中,设计了一个专为人脸表情识别设计的卷积网络结构,将对齐的人脸图像和裁剪下来的眼睛和嘴巴区域输入至三个卷积神经网络中,在最后一层卷积层中进行融合,使得网络能同时学到表情的整体特征和包含表情最丰富的局部区域,提高了模型的表达能力和分类准确率;同时将原网络中max pooling的kernel size从2改为3,使图像在下采样时具有更强的稳定性;用average pooling层替换了原网络中的fc层,大大减小模型参数量的同时也避免了模型过拟合现象的产生,提高模型速度,减小模型大小,提高了模型的稳定性和鲁棒性。
附图说明
图1是本发明公开的基于深度学习的局部区域分割人脸表情识别方法中训练流程图;
图2是本发明公开的基于深度学习的局部区域分割人脸表情识别方法中预测流程图;
图3是本发明中利用摄像头提取的包含人脸的图像;
图4是本发明中人脸对齐后裁剪的人脸图像,尺寸为128x128;
图5是本发明中根据对齐后的人脸图像和人脸关键点坐标,裁剪出的眼睛区域和嘴巴区域原始尺寸图像;其中,图5(a)~图5(c)是裁剪出的眼睛区域;图5(d)~图5(f)是裁剪出的嘴巴区域;
图6是本发明中提出的新型卷积神经网络结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例公开了一种基于深度学习的多区域融合人脸表情识别方法,如附图1-图6所示,包括下述步骤:
S1、得到一系列经过人工标注的包含人脸表情数据集的RGB图像,将其分为训练集和测试集;其中,人工标注的方法为根据人脸肌肉的变化分为7类基本表情,生气(Angry)、厌恶(Disgust)、恐惧(Fear)、高兴(Happiness)、悲伤(Sadness)、惊讶(Surprise)和中性(Neutral),分别用数字0-6表示各类表情标签,对人脸表情数据集进行标签标注。
S2、从训练集中得到一张包含人脸的RGB图像,通过检测模型对人脸进行检测,得到人脸的大致位置区域;
其中,检测模型为opencv自带的人脸检测模型,可以检测到人脸位置,并在人脸区域画出一个bounding box标注出人脸大致区域。
S3、根据人脸的大致位置区域,通过人脸关键点检测模型对人脸关键点进行检测得到人脸的关键点坐标值;
其中,人脸关键点检测模型包含在dlib库中,调用dlib库加载官方模型,输入已检测到人脸的图像,得到人脸关键点坐标;
其中,人脸关键点坐标包含68个坐标点,分别为(x1,y1)…(x68,y68)。
S4、根据人脸的关键点坐标值对目标人脸进行人脸对齐,同时通过仿射变换截取仅包含人脸的第一图像区域并调整到相同尺寸,人脸关键点坐标也根据仿射变换矩阵重新映射到新的坐标。
其中,包含人脸的第一图像区域的尺寸为128x128的RGB图像。
本实施例中,步骤S4中人脸对齐具体过程如下:
S41、根据68个人脸关键点坐标中的第36和第45的横坐标,做眼睛对齐。将第36和第45的坐标进行连线,求该连线与水平线的夹角θ;通过仿射变换的方式对图片进行整体旋转。若所求θ为负,则将图片顺时针旋转θ;若θ为正将图片逆时针旋转θ。使得旋转后的人脸关键点坐标第36和第45的坐标连线水平;同时将68个人脸关键点坐标也根据仿射变换公式更新为旋转后的人脸关键点坐标。
S42、根据S41旋转后更新的68个人脸关键点坐标求出一个平均坐标,该平均坐标作为整个人脸的中心坐标c(x,y),计算公式为:
其中,xi为关键点的横坐标,yi为关键点的纵坐标。
S43、计算人脸关键点中横坐标最大值点xmax和横坐标最小值点xmin的横坐标差值的s,s即为人脸裁剪框的边长,计算公式如下:
s=xmax-xmin;
S44、根据步骤S42和步骤S43得到的中心坐标和人脸裁剪框边长求出仿射变换矩阵M,根据opencv仿射变换函数warpAffine()将原图仿射变换到尺寸为128x128的只有人脸区域的图像;另外,人脸关键点坐标也根据仿射矩阵进行变换。
S5、根据步骤S4得到的包含人脸的第一图像区域,及坐标映射变换后的关键点坐标,截取眼睛区域和嘴巴区域,并将这两个区域调整到64x64尺寸。
本实施例中,步骤S5中截取眼睛区域和嘴巴区域的过程如下:
S51、得到人脸对齐后的图像和人脸关键点坐标后,将左眼最左边坐标x36和右眼最右边坐标x45横坐标相减,得到长度eye_len,计算公式如下:
eye_len=x36-x45;
S52、将左眼最左边坐标x36和右眼最右边坐标x45求平均,得到两个点的中心点坐标C1,计算公式如下:
S53、以C1为中心、1.2*eye_len为边长截取一个正方形矩阵作为眼睛区域;再将截取的正方形矩阵调整到64x64尺寸;
其中,眼睛区域为RGB三通道图像;
S54、得到人脸对齐后的图像后,将嘴巴最左边坐标x48和嘴巴最右边坐标x54横坐标相减,得到长度mou_len,计算公式如下:
mou_len=x48-x54;
S55、将嘴巴最左边坐标x48和嘴巴最右边坐标x54求平均,得到两个点的中心点坐标C2,计算公式如下:
S56、以C2为中心、1.2*mou_len为长、0.6*mou_len为宽截取一个长方形矩阵作为嘴巴区域;再将截取的长方形矩阵调整到64x64尺寸;
其中,嘴巴区域为RGB三通道图像。
S6、将步骤S4得到的包含人脸的第一图像区域和步骤S5得到的眼睛区域和嘴巴区域,分别进行图像归一化处理;
本实施例中,步骤S6的图像归一化处理,是3个区域图像中的每一个像素依次进行归一化处理,归一化处理的方法是:每个像素的像素值除以256,使每个像素的像素值在[0,1]之间。
S7、将步骤S6得到归一化处理后的图像进行随机数据增强处理,将数据增强后的3个区域图像作为卷积神经网络的输入;
本实施例中,步骤S7的图像随机增强的具体操作如下:
S71、对图像进行随机翻转处理;
S72、对图像进行随机平移处理;
S73、对图像进行随机缩放处理;
S74、对图像进行随机灰度化处理;
S75、对图像进行随机gamma变换处理;
S76、对图像进行随机添加高斯白噪声。
S8、卷积神经网络是一个新提出的卷积网络结构,由一个主干网络和两个枝干网络构成;对齐后的第一图像区域作为主干网络的输入,眼睛区域和嘴巴区域分别作为两个枝干网络输入;对卷积神经网络进行训练;
其中,对齐后的第一图像区域作为输入的主干网络具体结构如下:
从输入层至输出层依次连接为:卷积层conv1、BN层conv1_bn、scale层conv1_scale、Relu层conv1_relu、池化层max_pooling1、卷积层conv2、BN层conv2_bn、scale层conv2_scale、Relu层conv2_relu、池化层maxpooling2、卷积层conv3、BN层conv3_bn、scale层conv3_scale、Relu层conv3_relu、卷积层conv4、BN层conv4_bn、scale层conv4_scale、Relu层conv4_relu、池化层max_pooling3、卷积层conv5、BN层conv5_bn、scale层conv5_scale、Relu层conv5_relu、卷积层conv6、BN层conv6_bn、scale层conv6_scale、Relu层conv6_relu、concat层concat、全局平均池化层global_average_pooling、全连接层fc、softmax层。
其中,眼睛区域作为输入的第一枝干网络具体结构如下:
从输入层至输出层依次连接为:卷积层conv1_eye、BN层conv1_bn_eye、scale层conv1_scale_eye、Relu层conv1_relu_eye、池化层max_pooling1_eye、卷积层conv2、BN层conv2_bn_eye、scale层conv2_scale_eye、Relu层conv2_relu_eye、池化层max_pooling2_eye、卷积层conv3、BN层conv3-_bn_eye、scale层conv3_scale_eye、Relu层conv3_relu_eye、卷积层conv4_eye、BN层conv4_bn_eye、scale层conv4_scale_eye、Relu层conv4_relu_eye、concat层、全局平均池化层global_average pooling、全连接层fc、softmax层。
其中,嘴巴区域作为输入的第二枝干网络具体结构如下:
从输入层至输出层依次连接为:卷积层conv1_mouth、BN层conv1-_bn_mouth、scale层conv1_scale_mouth、Relu层conv1_relu_mouth、池化层max_pooling1_mouth、卷积层conv2、BN层conv2_bn_mouth、scale层conv2_scale_mouth、Relu层conv2_relu_mouth、池化层max_pooling2_mouth、卷积层conv3_mouth、BN层conv3_bn_mouth、scale层conv3_scale_mouth、Relu层conv3_relu_mouth、卷积层conv4_mouth、BN层conv4_bn_mouth、scale层conv4_scale_eye、Relu层conv4_relu_mouth、concat层、全局平均池化层global_average_pooling、全连接层fc、softmax层。
本实施例中,步骤S8中对卷积神经网络CNN进行训练所用的loss函数是hingeloss函数,其中hinge loss函数的正则化方式为L2正则。
S9、取出测试集中的图像进行预处理,将预处理完成的3区域图像输出到训练好的卷积神经网络中进行测试,得到最终表情分类结果。
其中,测试集数据处理与训练集数据处理相同,图像经过处理后得到对齐的包含人脸的第一图像区域、眼睛区域和嘴巴区域3个区域图像分别作为卷积神经网络3个支路的输入。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的识别方法包括下列步骤:
S1、通过人工标注得到包含人脸表情数据集的RGB图像,将其分为训练集和测试集;
S2、从训练集中得到一张包含人脸的RGB图像,通过检测模型对人脸进行检测,得到人脸的大致位置区域;
S3、根据人脸的大致位置区域,通过人脸关键点检测模型对人脸关键点进行检测得到人脸的关键点坐标值;
S4、根据人脸的关键点坐标值对目标人脸进行人脸对齐,同时通过仿射变换截取仅包含人脸的第一图像区域并调整到相同尺寸,人脸关键点坐标也根据仿射变换矩阵重新映射到新的坐标;
S5、根据包含人脸的第一图像区域及坐标映射变换后的人脸关键点坐标,截取眼睛区域和嘴巴区域,并将这两个区域调整到与第一图像区域相同尺寸;
S6、将包含人脸的第一图像区域、眼睛区域和嘴巴区域,分别进行图像归一化处理;
S7、将归一化处理后的图像进行随机数据增强处理;
S8、将随机数据增强处理后的第一图像区域、眼睛区域和嘴巴区域的图像作为卷积神经网络的输入,对卷积神经网络进行训练,其中,所述的卷积神经网络包括一个主干网络和两个枝干网络构成,所述的第一图像区域作为主干网络的输入,所述的眼睛区域和嘴巴区域分别作为两个枝干网络输入;
S9、取出测试集中的图像,重复步骤S2-步骤S8,得到对齐的包含人脸的第一图像区域、眼睛区域和嘴巴区域分别作为卷积神经网络中一个主干网络和两个枝干网络的输入,得到最终表情分类结果;
其中,第一图像区域作为输入的主干网络的结构如下:
从输入层至输出层依次连接为:卷积层conv1、BN层conv1_bn、scale层conv1_scale、Relu层conv1_relu、池化层max_pooling1、卷积层conv2、BN层conv2_bn、scale层conv2_scale、Relu层conv2_relu、池化层max pooling2、卷积层conv3、BN层conv3_bn、scale层conv3_scale、Relu层conv3_relu、卷积层conv4、BN层conv4_bn、scale层conv4_scale、Relu层conv4_relu、池化层max_pooling3、卷积层conv5、BN层conv5_bn、scale层conv5_scale、Relu层conv5_relu、卷积层conv6、BN层conv6_bn、scale层conv6_scale、Relu层conv6_relu、concat层、全局平均池化层global_average_pooling、全连接层fc、softmax层;
眼睛区域作为输入的第一枝干网络的结构如下:
从输入层至输出层依次连接为:卷积层conv1_eye、BN层conv1_bn_eye、scale层conv1_scale_eye、Relu层conv1_relu_eye、池化层max_pooling1_eye、卷积层conv2、BN层conv2_bn_eye、scale层conv2_scale_eye、Relu层conv2_relu_eye、池化层max_pooling2_eye、卷积层conv3、BN层conv3-_bn_eye、scale层conv3_scale_eye、Relu层conv3_relu_eye、卷积层conv4_eye、BN层conv4_bn_eye、scale层conv4_scale_eye、Relu层conv4_relu_eye、concat层、全局平均池化层global_average pooling、全连接层fc、softmax层;
嘴巴区域作为输入的第二枝干网络的结构如下:
从输入层至输出层依次连接为:卷积层conv1_mouth、BN层conv1-_bn_mouth、scale层conv1_scale_mouth、Relu层conv1_relu_mouth、池化层max_pooling1_mouth、卷积层conv2、BN层conv2_bn_mouth、scale层conv2_scale_mouth、Relu层conv2_relu_mouth、池化层max_pooling2_mouth、卷积层conv3_mouth、BN层conv3_bn_mouth、scale层conv3_scale_mouth、Relu层conv3_relu_mouth、卷积层conv4_mouth、BN层conv4_bn_mouth、scale层conv4_scale_eye、Relu层conv4_relu_mouth、concat层、全局平均池化层global_average_pooling、全连接层fc、softmax层;
concat层、全局平均池化层global_average_pooling、全连接层fc、softmax层作为三个分支共有的部分。
2.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的步骤S1中人工标注的方法为根据人脸肌肉的变化分为7类基本表情,生气、厌恶、恐惧、高兴、悲伤、惊讶和中性,分别用数字0-6表示各类表情标签,对人脸表情数据集进行标签标注。
3.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的步骤S2中检测模型为opencv自带的人脸检测模型,用于检测人脸位置,并在人脸区域画出一个bounding box标注出人脸大致区域。
4.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的步骤S3中人脸关键点检测模型包含在dlib库中,调用dlib库加载官方模型,输入已检测到人脸的图像,得到人脸关键点坐标,其中,所述的人脸关键点坐标包含68个坐标点,分别为(x1,y1)…(x68,y68)。
5.根据权利要求4所述的一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的步骤S4中人脸对齐过程如下:
S41、根据68个人脸关键点坐标中的第36和第45的横坐标,做眼睛对齐,将第36和第45的坐标进行连线,求该连线与水平线的夹角θ,通过仿射变换的方式对图片进行整体旋转,若所求θ为负,则将图片顺时针旋转θ,若θ为正将图片逆时针旋转θ,使得旋转后的人脸关键点坐标第36和第45的坐标连线水平,同时将68个人脸关键点坐标也根据仿射变换公式更新为旋转后的人脸关键点坐标;
S42、根据步骤S41旋转后更新的68个人脸关键点坐标求出一个平均坐标,该平均坐标作为整个人脸的中心坐标c(x,y),计算公式为:
其中,xi为关键点的横坐标,yi为关键点的纵坐标;
S43、计算人脸关键点中横坐标最大值点xmax和横坐标最小值点xmin的横坐标差值的s,s即为人脸裁剪框的边长,计算公式如下:
s=xmax-xmin;
S44、根据步骤S42和步骤S43得到的中心坐标和人脸裁剪框边长求出仿射变换矩阵M,根据opencv仿射变换函数warpAffine()将原图仿射变换到尺寸为128x128的只有人脸区域的图像,同时人脸关键点坐标也根据仿射矩阵进行变换。
6.根据权利要求5所述的一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的步骤S5中截取眼睛区域和嘴巴区域的过程如下:
S51、得到人脸对齐后的图像和人脸关键点坐标后,将左眼最左边坐标x36和右眼最右边坐标x45横坐标相减,得到长度eye_len,计算公式如下:
eye_len=x36-x45;
S52、将左眼最左边坐标x36和右眼最右边坐标x45求平均,得到两个点的中心点坐标C1,计算公式如下:
S53、以C1为中心、1.2*eye_len为边长截取一个正方形矩阵作为眼睛区域,再将截取的正方形矩阵调整到64x64尺寸,其中,眼睛区域为RGB三通道图像;
S54、得到人脸对齐后的图像后,将嘴巴最左边坐标x48和嘴巴最右边坐标x54横坐标相减,得到长度mou_len,计算公式如下:
mou_len=x48-x54;
S55、将嘴巴最左边坐标x48和嘴巴最右边坐标x54求平均,得到两个点的中心点坐标C2,计算公式如下:
S56、以C2为中心、1.2*mou_len为长、0.6*mou_len为宽截取一个长方形矩阵作为嘴巴区域,再将截取的长方形矩阵调整到64x64尺寸,其中,嘴巴区域为RGB三通道图像。
7.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的步骤S6中图像归一化处理的方法是将图像区域中每个像素的像素值除以256,使每个像素的像素值在[0,1]之间。
8.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的步骤S7中图像随机数据增强处理的过程如下:
S71、对图像进行随机翻转处理;
S72、对图像进行随机平移处理;
S73、对图像进行随机缩放处理;
S74、对图像进行随机灰度化处理;
S75、对图像进行随机gamma变换处理;
S76、对图像进行随机添加高斯白噪声。
9.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法,其特征在于,所述的步骤S8中对卷积神经网络进行训练所用的loss函数是hinge loss函数,其中hinge loss函数的正则化方式为L2正则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810912957.1A CN109344693B (zh) | 2018-08-13 | 2018-08-13 | 一种基于深度学习的人脸多区域融合表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810912957.1A CN109344693B (zh) | 2018-08-13 | 2018-08-13 | 一种基于深度学习的人脸多区域融合表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109344693A CN109344693A (zh) | 2019-02-15 |
CN109344693B true CN109344693B (zh) | 2021-10-26 |
Family
ID=65291753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810912957.1A Active CN109344693B (zh) | 2018-08-13 | 2018-08-13 | 一种基于深度学习的人脸多区域融合表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344693B (zh) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858467B (zh) * | 2019-03-01 | 2021-05-07 | 北京视甄智能科技有限公司 | 一种基于关键点区域特征融合的人脸识别方法及装置 |
CN110069994B (zh) * | 2019-03-18 | 2021-03-23 | 中国科学院自动化研究所 | 基于人脸多区域的人脸属性识别系统、方法 |
CN110035271B (zh) * | 2019-03-21 | 2020-06-02 | 北京字节跳动网络技术有限公司 | 保真图像生成方法、装置及电子设备 |
CN109934204A (zh) * | 2019-03-22 | 2019-06-25 | 重庆邮电大学 | 一种基于卷积神经网络的人脸表情识别方法 |
CN110008876A (zh) * | 2019-03-26 | 2019-07-12 | 电子科技大学 | 一种基于数据增强与特征融合的人脸验证方法 |
CN110287801B (zh) * | 2019-05-29 | 2021-10-15 | 中国电子科技集团公司电子科学研究院 | 一种微表情识别方法 |
CN110191234B (zh) * | 2019-06-21 | 2021-03-26 | 中山大学 | 一种基于注视点分析的智能终端解锁方法 |
CN110288551B (zh) * | 2019-06-29 | 2021-11-09 | 北京字节跳动网络技术有限公司 | 视频美化方法、装置及电子设备 |
CN110288520B (zh) * | 2019-06-29 | 2023-03-31 | 北京字节跳动网络技术有限公司 | 图像美化方法、装置及电子设备 |
CN110288049B (zh) * | 2019-07-02 | 2022-05-24 | 北京字节跳动网络技术有限公司 | 用于生成图像识别模型的方法和装置 |
CN110363124B (zh) * | 2019-07-03 | 2022-05-13 | 广州多益网络股份有限公司 | 基于人脸关键点与几何形变的快速表情识别及应用方法 |
CN110378435B (zh) * | 2019-07-25 | 2021-09-10 | 安徽工业大学 | 一种基于卷积神经网络的苹果叶片病害识别的方法 |
CN110414428A (zh) * | 2019-07-26 | 2019-11-05 | 厦门美图之家科技有限公司 | 一种生成人脸属性信息识别模型的方法 |
CN110555401B (zh) * | 2019-08-26 | 2022-05-03 | 浙江大学 | 一种基于表情识别的自适应情感表达系统及方法 |
CN110490164B (zh) * | 2019-08-26 | 2022-05-24 | 北京达佳互联信息技术有限公司 | 生成虚拟表情的方法、装置、设备及介质 |
CN110705392A (zh) * | 2019-09-17 | 2020-01-17 | Oppo广东移动通信有限公司 | 一种人脸图像检测方法及装置、存储介质 |
CN110738126A (zh) * | 2019-09-19 | 2020-01-31 | 平安科技(深圳)有限公司 | 基于坐标变换的嘴唇剪切方法、装置、设备及存储介质 |
CN110674770A (zh) * | 2019-09-29 | 2020-01-10 | 上海依图网络科技有限公司 | 用于人脸表情检测的系统以及方法 |
CN110956082B (zh) * | 2019-10-17 | 2023-03-24 | 江苏科技大学 | 基于深度学习的人脸关键点检测方法和检测系统 |
CN110909618B (zh) * | 2019-10-29 | 2023-04-21 | 泰康保险集团股份有限公司 | 一种宠物身份的识别方法及装置 |
CN111126173B (zh) * | 2019-12-04 | 2023-05-26 | 玉林师范学院 | 一种高精度人脸检测方法 |
CN111080667B (zh) * | 2019-12-17 | 2023-04-25 | 杭州小影创新科技股份有限公司 | 一种快速人像照片的自动构图裁剪方法及系统 |
CN111144348A (zh) * | 2019-12-30 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN111241998B (zh) * | 2020-01-09 | 2023-04-28 | 中移(杭州)信息技术有限公司 | 人脸识别的方法、装置、电子设备和存储介质 |
CN111339827A (zh) * | 2020-01-18 | 2020-06-26 | 中国海洋大学 | 基于多区域卷积神经网络的sar图像变化检测方法 |
CN111310798B (zh) * | 2020-01-19 | 2023-05-16 | 浙江大学 | 基于几何特征和纹理特征的脸部运动迟缓的检测模型的构建方法 |
CN113361307A (zh) * | 2020-03-06 | 2021-09-07 | 上海卓繁信息技术股份有限公司 | 一种人脸表情分类方法,装置及存储设备 |
CN111325190B (zh) | 2020-04-01 | 2023-06-30 | 京东方科技集团股份有限公司 | 一种表情识别方法、装置、计算机设备及可读存储介质 |
CN111382727B (zh) * | 2020-04-02 | 2023-07-25 | 安徽睿极智能科技有限公司 | 一种基于深度学习的犬脸识别方法 |
CN111563417B (zh) * | 2020-04-13 | 2023-03-21 | 华南理工大学 | 一种基于金字塔结构卷积神经网络的人脸表情识别方法 |
CN111639544B (zh) * | 2020-05-07 | 2022-08-09 | 齐齐哈尔大学 | 基于多分支跨连接卷积神经网络的表情识别方法 |
CN112052734B (zh) * | 2020-07-31 | 2024-05-17 | 北京奇艺世纪科技有限公司 | 角色特性识别网络生成方法及识别方法、装置、设备和介质 |
CN111860451A (zh) * | 2020-08-03 | 2020-10-30 | 宿州小马电子商务有限公司 | 一种基于人脸表情识别的游戏交互方法 |
CN112614213B (zh) * | 2020-12-14 | 2024-01-23 | 杭州网易云音乐科技有限公司 | 人脸表情确定方法、表情参数确定模型、介质及设备 |
CN113095146A (zh) * | 2021-03-16 | 2021-07-09 | 深圳市雄帝科技股份有限公司 | 基于深度学习的嘴部状态分类方法、装置、设备和介质 |
CN113052064B (zh) * | 2021-03-23 | 2024-04-02 | 北京思图场景数据科技服务有限公司 | 基于面部朝向、面部表情及瞳孔追踪的注意力检测方法 |
CN112883941A (zh) * | 2021-04-16 | 2021-06-01 | 哈尔滨理工大学 | 一种基于并行神经网络的人脸表情识别方法 |
CN113158978B (zh) * | 2021-05-14 | 2022-04-08 | 无锡锡商银行股份有限公司 | 一种微表情识别在视频审核中的风险预警方法 |
CN113486944B (zh) * | 2021-07-01 | 2024-09-24 | 北京灵动天地文化发展有限公司 | 人脸融合方法、装置、设备及存储介质 |
CN113869229B (zh) * | 2021-09-29 | 2023-05-09 | 电子科技大学 | 基于先验注意力机制引导的深度学习表情识别方法 |
CN114582002B (zh) * | 2022-04-18 | 2024-07-09 | 华南理工大学 | 一种结合注意力模块与二阶池化机制的人脸表情识别方法 |
TWI802379B (zh) * | 2022-04-20 | 2023-05-11 | 國立政治大學 | 人臉情緒識別模型的訓練方法 |
CN116612211B (zh) * | 2023-05-08 | 2024-02-02 | 山东省人工智能研究院 | 一种基于gan和3d系数重建的人脸图像身份合成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090055426A (ko) * | 2007-11-28 | 2009-06-02 | 중앙대학교 산학협력단 | 특징 융합 기반 감정인식 방법 및 시스템 |
CN106909882A (zh) * | 2017-01-16 | 2017-06-30 | 广东工业大学 | 一种应用于保安机器人的人脸识别系统及方法 |
CN107045618A (zh) * | 2016-02-05 | 2017-08-15 | 北京陌上花科技有限公司 | 一种人脸表情识别方法及装置 |
-
2018
- 2018-08-13 CN CN201810912957.1A patent/CN109344693B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090055426A (ko) * | 2007-11-28 | 2009-06-02 | 중앙대학교 산학협력단 | 특징 융합 기반 감정인식 방법 및 시스템 |
CN107045618A (zh) * | 2016-02-05 | 2017-08-15 | 北京陌上花科技有限公司 | 一种人脸表情识别方法及装置 |
CN106909882A (zh) * | 2017-01-16 | 2017-06-30 | 广东工业大学 | 一种应用于保安机器人的人脸识别系统及方法 |
Non-Patent Citations (1)
Title |
---|
《Multi-channel Pose-aware Convolution Neural Networks for Multi-view Facial Expression Recognition》;Yuanyuan Liu 等;《2018 13th IEEE International Conference on Automatic Face & Gesture Recognition》;20180607;第Ⅱ-Ⅲ节,图2-3,图5 * |
Also Published As
Publication number | Publication date |
---|---|
CN109344693A (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344693B (zh) | 一种基于深度学习的人脸多区域融合表情识别方法 | |
CN106960202B (zh) | 一种基于可见光与红外图像融合的笑脸识别方法 | |
Jain et al. | Extended deep neural network for facial emotion recognition | |
WO2022111236A1 (zh) | 一种结合注意力机制的面部表情识别方法及系统 | |
Pitaloka et al. | Enhancing CNN with preprocessing stage in automatic emotion recognition | |
CN111401257B (zh) | 一种基于余弦损失在非约束条件下的人脸识别方法 | |
CN108334848B (zh) | 一种基于生成对抗网络的微小人脸识别方法 | |
CN112784763B (zh) | 基于局部与整体特征自适应融合的表情识别方法及系统 | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN107808376B (zh) | 一种基于深度学习的举手检测方法 | |
CN112766159A (zh) | 一种基于多特征融合的跨数据库微表情识别方法 | |
CN110175504A (zh) | 一种基于多任务级联卷积网络的目标检测和对齐方法 | |
CN108960076B (zh) | 基于卷积神经网络的耳朵识别与跟踪方法 | |
CN108830237A (zh) | 一种人脸表情的识别方法 | |
CN113297956B (zh) | 一种基于视觉的手势识别方法及系统 | |
CN113298018A (zh) | 基于光流场和脸部肌肉运动的假脸视频检测方法及装置 | |
Borgalli et al. | Deep learning for facial emotion recognition using custom CNN architecture | |
CN110110603A (zh) | 一种基于面部生理信息的多模态唇读方法 | |
US20240161461A1 (en) | Object detection method, object detection apparatus, and object detection system | |
CN111738178A (zh) | 一种基于深度学习的戴口罩人脸表情识别方法 | |
Podder et al. | Time efficient real time facial expression recognition with CNN and transfer learning | |
Diyasa et al. | Multi-face Recognition for the Detection of Prisoners in Jail using a Modified Cascade Classifier and CNN | |
CN113076916B (zh) | 基于几何特征加权融合的动态人脸表情识别方法及系统 | |
CN117636436A (zh) | 基于注意力机制的多人实时面部表情识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |