CN109344693B

CN109344693B - 一种基于深度学习的人脸多区域融合表情识别方法

Info

Publication number: CN109344693B
Application number: CN201810912957.1A
Authority: CN
Inventors: 王珂尧; 常天海; 余卫宇
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2021-10-26
Anticipated expiration: 2038-08-13
Also published as: CN109344693A

Abstract

本发明公开了一种基于深度学习的人脸多区域融合表情识别方法，包括下述步骤：用检测模型检测出人脸位置；用关键点模型得到人脸关键点坐标；先根据眼睛部分关键点做眼睛对齐；然后根据整体人脸关键点坐标做人脸对齐，并通过仿射变换裁剪人脸区域；按照一定的比例裁剪图像的眼睛和嘴巴区域。卷积神经网络分为一个主干网络和两个支干网络，在最后一层卷积层进行特征融合，最后通过分类器得到表情分类结果。本发明利用先验信息，除整个人脸之外还将眼睛和嘴巴区域作为网络的输入，通过模型融合使网络既能学习到人脸表情的整体语义特征也能学习到局部区域特征，简化了人脸表情识别的难度，减少外部噪声，有鲁棒性强，准确率高，算法复杂度低等优点。

Description

一种基于深度学习的人脸多区域融合表情识别方法

技术领域

本发明涉及计算机视觉和模式识别技术领域，具体涉及一种基于深度学习的人脸多区域融合表情识别方法。

背景技术

基于深度学习的人脸多区域融合表情识别方法是一种人脸表情识别，其目的在于解决人脸表情分类问题。

1971年，心理学家Ekman与Friesen研究提出了人类的六种基本情感，即惊讶(Surprise)、悲伤(Sadness)、愤怒(Anger)、恐惧(Fear)、厌恶(Disgust)与高兴(Happiness)，与此对应，人类可产生相应的面部表情。人类表情往往携带着比语言更为丰富的信息，因此，人脸表情识别是计算机视觉领域的一个重要研究课题。其研究成果可应用于人机交互、心理疾病患者治疗、情感计算与远程教育等领域，广泛的应用领域推动着人脸表情识别技术不断发展。

人脸表情识别最重要的一步是对表情特征的提取。传统表情识别特征提取主要依靠人工提取特征。主要是几何特征提取和纹理特征提取两种方法。几何特征提取方法主要通过提取人脸的特征点，然后分析不同区域特征点之间的几何关系，比如眼睛区域和嘴巴区域等，实现对表情的分类识别。常见的有主动形状模型，改进ASM算法等。纹理特征反映了人脸表情图像的底层信息，突出体现了局部表情的变化。纹理特征提取方法典型的方法有局部二值模式LBP、Gabor特征、HOG特征、Haar-like特征等。通过图像的局部信息变化来表达局部纹理特征，用纹理特征进行分类对图像尺度变换、旋转和光照变化具有很好的鲁棒性，能够有效地描述图像的纹理信息，有利于表情识别。

而目前人脸表情识别任务大多基于深度学习算法，深度学习免去了所有需要人工提取表情特征的问题，卷积神经网络可以自适应学习所有表情特征，用作某一类表情的表达；同时深度学习很好地解决了传统机器学习对人脸姿态、光照、遮挡物等敏感问题，提高了表情识别的鲁棒性和准确率。

人脸表情分类问题一直受到国内外学者的关注，特别是对与现实场景中的人脸表情识别任务，非常具有挑战性。因现实场景中人脸表情是自发产生的，与大部分实验室采集样本差别很大；同时人脸大姿态、大遮挡、光线不均匀、图片质量参差不齐、表情特征不明显等问题，增大了识别的难度。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于深度学习的人脸多区域融合表情识别方法。

本发明的目的可以通过采取如下技术方案达到：

一种基于深度学习的人脸多区域融合表情识别方法，所述的识别方法包括下列步骤：

S1、通过人工标注得到包含人脸表情数据集的RGB图像，将其分为训练集和测试集；

S2、从训练集中得到一张包含人脸的RGB图像，通过检测模型对人脸进行检测，得到人脸的大致位置区域；

S3、根据人脸的大致位置区域，通过人脸关键点检测模型对人脸关键点进行检测得到人脸的关键点坐标值；

S4、根据人脸的关键点坐标值对目标人脸进行人脸对齐，同时通过仿射变换截取仅包含人脸的第一图像区域并调整到相同尺寸，人脸关键点坐标也根据仿射变换矩阵重新映射到新的坐标；

S5、根据包含人脸的第一图像区域及坐标映射变换后的人脸关键点坐标，截取眼睛区域和嘴巴区域，并将这两个区域调整到与第一图像区域相同尺寸；

S6、将包含人脸的第一图像区域、眼睛区域和嘴巴区域，分别进行图像归一化处理；

S7、将归一化处理后的图像进行随机数据增强处理；

S8、将随机数据增强处理后的第一图像区域、眼睛区域和嘴巴区域的图像作为卷积神经网络的输入，对卷积神经网络进行训练，其中，所述的卷积神经网络包括一个主干网络和两个枝干网络构成，所述的第一图像区域作为主干网络的输入，所述的眼睛区域和嘴巴区域分别作为两个枝干网络输入；

S9、取出测试集中的图像，重复步骤S2-步骤S8，得到对齐的包含人脸的第一图像区域、眼睛区域和嘴巴区域分别作为卷积神经网络中一个主干网络和两个枝干网络的输入，得到最终表情分类结果。

进一步地，所述的步骤S1中人工标注的方法为根据人脸肌肉的变化分为7类基本表情，生气、厌恶、恐惧、高兴、悲伤、惊讶和中性，分别用数字0-6表示各类表情标签，对人脸表情数据集进行标签标注。

进一步地，所述的步骤S2中检测模型为opencv自带的人脸检测模型，用于检测人脸位置，并在人脸区域画出一个bounding box标注出人脸大致区域。

进一步地，所述的步骤S3中人脸关键点检测模型包含在dlib库中，调用dlib库加载官方模型，输入已检测到人脸的图像，得到人脸关键点坐标，其中，所述的人脸关键点坐标包含68个坐标点，分别为(x₁,y₁)…(x₆₈,y₆₈)。

进一步地，所述的步骤S4中人脸对齐过程如下：

S41、根据68个人脸关键点坐标中的第36和第45的横坐标，做眼睛对齐，将第36和第45的坐标进行连线，求该连线与水平线的夹角θ，通过仿射变换的方式对图片进行整体旋转，若所求θ为负，则将图片顺时针旋转θ，若θ为正将图片逆时针旋转θ，使得旋转后的人脸关键点坐标第36和第45的坐标连线水平，同时将68个人脸关键点坐标也根据仿射变换公式更新为旋转后的人脸关键点坐标；

S42、根据步骤S41旋转后更新的68个人脸关键点坐标求出一个平均坐标，该平均坐标作为整个人脸的中心坐标c(x,y)，计算公式为：

其中，x_i为关键点的横坐标，y_i为关键点的纵坐标；

S43、计算人脸关键点中横坐标最大值点x_max和横坐标最小值点x_min的横坐标差值的s，s即为人脸裁剪框的边长，计算公式如下：

s＝x_max-x_min；

S44、根据步骤S42和步骤S43得到的中心坐标和人脸裁剪框边长求出仿射变换矩阵M，根据opencv仿射变换函数warpAffine()将原图仿射变换到尺寸为128x128的只有人脸区域的图像，同时人脸关键点坐标也根据仿射矩阵进行变换。

进一步地，所述的步骤S5中截取眼睛区域和嘴巴区域的过程如下：

S51、得到人脸对齐后的图像和人脸关键点坐标后，将左眼最左边坐标x₃₆和右眼最右边坐标x₄₅横坐标相减，得到长度eye_len，计算公式如下：

eye_len＝x₃₆-x₄₅；

S52、将左眼最左边坐标x₃₆和右眼最右边坐标x₄₅求平均，得到两个点的中心点坐标C₁，计算公式如下：

S53、以C₁为中心、1.2*eye_len为边长截取一个正方形矩阵作为眼睛区域，再将截取的正方形矩阵调整到64x64尺寸，其中，眼睛区域为RGB三通道图像；

S54、得到人脸对齐后的图像后，将嘴巴最左边坐标x₄₈和嘴巴最右边坐标x₅₄横坐标相减，得到长度mou_len，计算公式如下：

mou_len＝x₄₈-x₅₄；

S55、将嘴巴最左边坐标x₄₈和嘴巴最右边坐标x₅₄求平均，得到两个点的中心点坐标C₂，计算公式如下：

S56、以C₂为中心、1.2*mou_len为长、0.6*mou_len为宽截取一个长方形矩阵作为嘴巴区域，再将截取的长方形矩阵调整到64x64尺寸，其中，嘴巴区域为RGB三通道图像。

进一步地，所述的步骤S6中图像归一化处理的方法是将图像区域中每个像素的像素值除以256，使每个像素的像素值在[0,1]之间。

进一步地，所述的步骤S7中图像随机数据增强处理的过程如下：

S71、对图像进行随机翻转处理；

S72、对图像进行随机平移处理；

S73、对图像进行随机缩放处理；

S74、对图像进行随机灰度化处理；

S75、对图像进行随机gamma变换处理；

S76、对图像进行随机添加高斯白噪声。

进一步地，第一图像区域作为输入的主干网络的结构如下：

从输入层至输出层依次连接为：卷积层conv1、BN层conv1_bn、scale层conv1_scale、Relu层conv1_relu、池化层max_pooling1、卷积层conv2、BN层conv2_bn、scale层conv2_scale、Relu层conv2_relu、池化层maxpooling2、卷积层conv3、BN层conv3_bn、scale层conv3_scale、Relu层conv3_relu、卷积层conv4、BN层conv4_bn、scale层conv4_scale、Relu层conv4_relu、池化层max_pooling3、卷积层conv5、BN层conv5_bn、scale层conv5_scale、Relu层conv5_relu、卷积层conv6、BN层conv6_bn、scale层conv6_scale、Relu层conv6_relu、concat层concat、全局平均池化层global_average_pooling、全连接层fc、softmax层；

眼睛区域作为输入的第一枝干网络的结构如下：

从输入层至输出层依次连接为：卷积层conv1_eye、BN层conv1_bn_eye、scale层conv1_scale_eye、Relu层conv1_relu_eye、池化层max_pooling1_eye、卷积层conv2、BN层conv2_bn_eye、scale层conv2_scale_eye、Relu层conv2_relu_eye、池化层max_pooling2_eye、卷积层conv3、BN层conv3-_bn_eye、scale层conv3_scale_eye、Relu层conv3_relu_eye、卷积层conv4_eye、BN层conv4_bn_eye、scale层conv4_scale_eye、Relu层conv4_relu_eye、concat层、全局平均池化层global_average pooling、全连接层fc、softmax层；

嘴巴区域作为输入的第二枝干网络的结构如下：

从输入层至输出层依次连接为：卷积层conv1_mouth、BN层conv1-_bn_mouth、scale层conv1_scale_mouth、Relu层conv1_relu_mouth、池化层max_pooling1_mouth、卷积层conv2、BN层conv2_bn_mouth、scale层conv2_scale_mouth、Relu层conv2_relu_mouth、池化层max_pooling2_mouth、卷积层conv3_mouth、BN层conv3_bn_mouth、scale层conv3_scale_mouth、Relu层conv3_relu_mouth、卷积层conv4_mouth、BN层conv4_bn_mouth、scale层conv4_scale_eye、Relu层conv4_relu_mouth、concat层、全局平均池化层global_average_pooling、全连接层fc、softmax层。

进一步地，所述的步骤S8中对卷积神经网络进行训练所用的loss函数是hingeloss函数，其中hinge loss函数的正则化方式为L2正则。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明公开的人脸表情识别方法中，首先获得一张包含人脸的图像；先检测出人脸的位置；再检测出人脸关键点坐标，根据人脸关键点坐标对整张人脸进行眼睛对齐；再根据人脸关键点找到整张脸的中心和切割人脸框的大小；根据框的大小切割人脸并将人脸调整到128x128大小的仅包含人脸的图像；再根据人脸关键点坐标将人脸区域中眼睛区域和嘴巴区域裁剪下来与对齐的人脸图像分别输入到卷积神经网络的两条支路和一条主路中，最终得到人脸表情7分类结果。本发明基于深度学习理论，通过添加先验信息对人脸图像进行眼睛对齐，得到包含背景区域最少的人脸区域，最小化人脸之外的区域所带来的噪声影响，大大提高了算法的鲁棒性与稳定性。

(2)本发明公开的人脸表情识别方法中，根据先验信息可知眼睛区域和嘴巴区域的表情信息最多，通过经验参数将眼睛区域和嘴巴区域按一定比例切割并放大到与人脸相同大小，最后将三个区域的图像进行合并输入到卷积神经网络中，相当于人为的添加了一个注意力机制，大大的提升了算法的精度，特别对于现实场景环境下采集的人脸表情图像，分类准确率有很大提升；

(3)本发明公开的人脸表情识别方法中，对输入图像进行了随机数据增强处理，具体操作包括：对图像进行随机翻转处理；对图像进行随机平移处理；对图像进行随机缩放处理；对图像进行随机灰度化处理；对图像进行随机gamma变换处理；对图像进行随机添加高斯白噪声等。增加了样本容量，解决了人脸表情图像数量不足的问题，同时大大提升了算法对光线、质量、人脸位置及大小的鲁棒性，提高模型精度；

(4)本发明公开的人脸表情识别方法中，设计了一个专为人脸表情识别设计的卷积网络结构，将对齐的人脸图像和裁剪下来的眼睛和嘴巴区域输入至三个卷积神经网络中，在最后一层卷积层中进行融合，使得网络能同时学到表情的整体特征和包含表情最丰富的局部区域，提高了模型的表达能力和分类准确率；同时将原网络中max pooling的kernel size从2改为3，使图像在下采样时具有更强的稳定性；用average pooling层替换了原网络中的fc层，大大减小模型参数量的同时也避免了模型过拟合现象的产生，提高模型速度，减小模型大小，提高了模型的稳定性和鲁棒性。

附图说明

图1是本发明公开的基于深度学习的局部区域分割人脸表情识别方法中训练流程图；

图2是本发明公开的基于深度学习的局部区域分割人脸表情识别方法中预测流程图；

图3是本发明中利用摄像头提取的包含人脸的图像；

图4是本发明中人脸对齐后裁剪的人脸图像，尺寸为128x128；

图5是本发明中根据对齐后的人脸图像和人脸关键点坐标，裁剪出的眼睛区域和嘴巴区域原始尺寸图像；其中，图5(a)～图5(c)是裁剪出的眼睛区域；图5(d)～图5(f)是裁剪出的嘴巴区域；

图6是本发明中提出的新型卷积神经网络结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例公开了一种基于深度学习的多区域融合人脸表情识别方法，如附图1-图6所示，包括下述步骤：

S1、得到一系列经过人工标注的包含人脸表情数据集的RGB图像，将其分为训练集和测试集；其中，人工标注的方法为根据人脸肌肉的变化分为7类基本表情，生气(Angry)、厌恶(Disgust)、恐惧(Fear)、高兴(Happiness)、悲伤(Sadness)、惊讶(Surprise)和中性(Neutral)，分别用数字0-6表示各类表情标签，对人脸表情数据集进行标签标注。

其中，检测模型为opencv自带的人脸检测模型，可以检测到人脸位置，并在人脸区域画出一个bounding box标注出人脸大致区域。

其中，人脸关键点检测模型包含在dlib库中，调用dlib库加载官方模型，输入已检测到人脸的图像，得到人脸关键点坐标；

其中，人脸关键点坐标包含68个坐标点，分别为(x₁,y₁)…(x₆₈,y₆₈)。

S4、根据人脸的关键点坐标值对目标人脸进行人脸对齐，同时通过仿射变换截取仅包含人脸的第一图像区域并调整到相同尺寸，人脸关键点坐标也根据仿射变换矩阵重新映射到新的坐标。

其中，包含人脸的第一图像区域的尺寸为128x128的RGB图像。

本实施例中，步骤S4中人脸对齐具体过程如下：

S41、根据68个人脸关键点坐标中的第36和第45的横坐标，做眼睛对齐。将第36和第45的坐标进行连线，求该连线与水平线的夹角θ；通过仿射变换的方式对图片进行整体旋转。若所求θ为负，则将图片顺时针旋转θ；若θ为正将图片逆时针旋转θ。使得旋转后的人脸关键点坐标第36和第45的坐标连线水平；同时将68个人脸关键点坐标也根据仿射变换公式更新为旋转后的人脸关键点坐标。

S42、根据S41旋转后更新的68个人脸关键点坐标求出一个平均坐标，该平均坐标作为整个人脸的中心坐标c(x,y)，计算公式为：

其中，x_i为关键点的横坐标，y_i为关键点的纵坐标。

s＝x_max-x_min；

S44、根据步骤S42和步骤S43得到的中心坐标和人脸裁剪框边长求出仿射变换矩阵M，根据opencv仿射变换函数warpAffine()将原图仿射变换到尺寸为128x128的只有人脸区域的图像；另外，人脸关键点坐标也根据仿射矩阵进行变换。

S5、根据步骤S4得到的包含人脸的第一图像区域，及坐标映射变换后的关键点坐标，截取眼睛区域和嘴巴区域，并将这两个区域调整到64x64尺寸。

本实施例中，步骤S5中截取眼睛区域和嘴巴区域的过程如下：

eye_len＝x₃₆-x₄₅；

S53、以C₁为中心、1.2*eye_len为边长截取一个正方形矩阵作为眼睛区域；再将截取的正方形矩阵调整到64x64尺寸；

其中，眼睛区域为RGB三通道图像；

mou_len＝x₄₈-x₅₄；

S56、以C₂为中心、1.2*mou_len为长、0.6*mou_len为宽截取一个长方形矩阵作为嘴巴区域；再将截取的长方形矩阵调整到64x64尺寸；

其中，嘴巴区域为RGB三通道图像。

S6、将步骤S4得到的包含人脸的第一图像区域和步骤S5得到的眼睛区域和嘴巴区域，分别进行图像归一化处理；

本实施例中，步骤S6的图像归一化处理，是3个区域图像中的每一个像素依次进行归一化处理，归一化处理的方法是：每个像素的像素值除以256，使每个像素的像素值在[0,1]之间。

S7、将步骤S6得到归一化处理后的图像进行随机数据增强处理，将数据增强后的3个区域图像作为卷积神经网络的输入；

本实施例中，步骤S7的图像随机增强的具体操作如下：

S71、对图像进行随机翻转处理；

S72、对图像进行随机平移处理；

S73、对图像进行随机缩放处理；

S74、对图像进行随机灰度化处理；

S75、对图像进行随机gamma变换处理；

S76、对图像进行随机添加高斯白噪声。

S8、卷积神经网络是一个新提出的卷积网络结构，由一个主干网络和两个枝干网络构成；对齐后的第一图像区域作为主干网络的输入，眼睛区域和嘴巴区域分别作为两个枝干网络输入；对卷积神经网络进行训练；

其中，对齐后的第一图像区域作为输入的主干网络具体结构如下：

从输入层至输出层依次连接为：卷积层conv1、BN层conv1_bn、scale层conv1_scale、Relu层conv1_relu、池化层max_pooling1、卷积层conv2、BN层conv2_bn、scale层conv2_scale、Relu层conv2_relu、池化层maxpooling2、卷积层conv3、BN层conv3_bn、scale层conv3_scale、Relu层conv3_relu、卷积层conv4、BN层conv4_bn、scale层conv4_scale、Relu层conv4_relu、池化层max_pooling3、卷积层conv5、BN层conv5_bn、scale层conv5_scale、Relu层conv5_relu、卷积层conv6、BN层conv6_bn、scale层conv6_scale、Relu层conv6_relu、concat层concat、全局平均池化层global_average_pooling、全连接层fc、softmax层。

其中，眼睛区域作为输入的第一枝干网络具体结构如下：

从输入层至输出层依次连接为：卷积层conv1_eye、BN层conv1_bn_eye、scale层conv1_scale_eye、Relu层conv1_relu_eye、池化层max_pooling1_eye、卷积层conv2、BN层conv2_bn_eye、scale层conv2_scale_eye、Relu层conv2_relu_eye、池化层max_pooling2_eye、卷积层conv3、BN层conv3-_bn_eye、scale层conv3_scale_eye、Relu层conv3_relu_eye、卷积层conv4_eye、BN层conv4_bn_eye、scale层conv4_scale_eye、Relu层conv4_relu_eye、concat层、全局平均池化层global_average pooling、全连接层fc、softmax层。

其中，嘴巴区域作为输入的第二枝干网络具体结构如下：

本实施例中，步骤S8中对卷积神经网络CNN进行训练所用的loss函数是hingeloss函数，其中hinge loss函数的正则化方式为L2正则。

S9、取出测试集中的图像进行预处理，将预处理完成的3区域图像输出到训练好的卷积神经网络中进行测试，得到最终表情分类结果。

其中，测试集数据处理与训练集数据处理相同，图像经过处理后得到对齐的包含人脸的第一图像区域、眼睛区域和嘴巴区域3个区域图像分别作为卷积神经网络3个支路的输入。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的人脸多区域融合表情识别方法，其特征在于，所述的识别方法包括下列步骤：

S7、将归一化处理后的图像进行随机数据增强处理；

S9、取出测试集中的图像，重复步骤S2-步骤S8，得到对齐的包含人脸的第一图像区域、眼睛区域和嘴巴区域分别作为卷积神经网络中一个主干网络和两个枝干网络的输入，得到最终表情分类结果；

其中，第一图像区域作为输入的主干网络的结构如下：

从输入层至输出层依次连接为：卷积层conv1、BN层conv1_bn、scale层conv1_scale、Relu层conv1_relu、池化层max_pooling1、卷积层conv2、BN层conv2_bn、scale层conv2_scale、Relu层conv2_relu、池化层max pooling2、卷积层conv3、BN层conv3_bn、scale层conv3_scale、Relu层conv3_relu、卷积层conv4、BN层conv4_bn、scale层conv4_scale、Relu层conv4_relu、池化层max_pooling3、卷积层conv5、BN层conv5_bn、scale层conv5_scale、Relu层conv5_relu、卷积层conv6、BN层conv6_bn、scale层conv6_scale、Relu层conv6_relu、concat层、全局平均池化层global_average_pooling、全连接层fc、softmax层；

眼睛区域作为输入的第一枝干网络的结构如下：

嘴巴区域作为输入的第二枝干网络的结构如下：

从输入层至输出层依次连接为：卷积层conv1_mouth、BN层conv1-_bn_mouth、scale层conv1_scale_mouth、Relu层conv1_relu_mouth、池化层max_pooling1_mouth、卷积层conv2、BN层conv2_bn_mouth、scale层conv2_scale_mouth、Relu层conv2_relu_mouth、池化层max_pooling2_mouth、卷积层conv3_mouth、BN层conv3_bn_mouth、scale层conv3_scale_mouth、Relu层conv3_relu_mouth、卷积层conv4_mouth、BN层conv4_bn_mouth、scale层conv4_scale_eye、Relu层conv4_relu_mouth、concat层、全局平均池化层global_average_pooling、全连接层fc、softmax层；

concat层、全局平均池化层global_average_pooling、全连接层fc、softmax层作为三个分支共有的部分。

2.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法，其特征在于，所述的步骤S1中人工标注的方法为根据人脸肌肉的变化分为7类基本表情，生气、厌恶、恐惧、高兴、悲伤、惊讶和中性，分别用数字0-6表示各类表情标签，对人脸表情数据集进行标签标注。

3.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法，其特征在于，所述的步骤S2中检测模型为opencv自带的人脸检测模型，用于检测人脸位置，并在人脸区域画出一个bounding box标注出人脸大致区域。

4.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法，其特征在于，所述的步骤S3中人脸关键点检测模型包含在dlib库中，调用dlib库加载官方模型，输入已检测到人脸的图像，得到人脸关键点坐标，其中，所述的人脸关键点坐标包含68个坐标点，分别为(x₁，y₁)…(x₆₈，y₆₈)。

5.根据权利要求4所述的一种基于深度学习的人脸多区域融合表情识别方法，其特征在于，所述的步骤S4中人脸对齐过程如下：

S42、根据步骤S41旋转后更新的68个人脸关键点坐标求出一个平均坐标，该平均坐标作为整个人脸的中心坐标c(x，y)，计算公式为：

其中，x_i为关键点的横坐标，y_i为关键点的纵坐标；

s＝x_max-x_min；

6.根据权利要求5所述的一种基于深度学习的人脸多区域融合表情识别方法，其特征在于，所述的步骤S5中截取眼睛区域和嘴巴区域的过程如下：

eye_len＝x₃₆-x₄₅；

S53、以C1为中心、1.2*eye_len为边长截取一个正方形矩阵作为眼睛区域，再将截取的正方形矩阵调整到64x64尺寸，其中，眼睛区域为RGB三通道图像；

mou_len＝x₄₈-x₅₄；

7.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法，其特征在于，所述的步骤S6中图像归一化处理的方法是将图像区域中每个像素的像素值除以256，使每个像素的像素值在[0，1]之间。

8.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法，其特征在于，所述的步骤S7中图像随机数据增强处理的过程如下：

S71、对图像进行随机翻转处理；

S72、对图像进行随机平移处理；

S73、对图像进行随机缩放处理；

S74、对图像进行随机灰度化处理；

S75、对图像进行随机gamma变换处理；

S76、对图像进行随机添加高斯白噪声。

9.根据权利要求1所述的一种基于深度学习的人脸多区域融合表情识别方法，其特征在于，所述的步骤S8中对卷积神经网络进行训练所用的loss函数是hinge loss函数，其中hinge loss函数的正则化方式为L2正则。