CN107491726B

CN107491726B - 一种基于多通道并行卷积神经网络的实时表情识别方法

Info

Publication number: CN107491726B
Application number: CN201710537921.5A
Authority: CN
Inventors: 蔡林沁; 周锴; 徐宏博; 陈富丽; 虞继敏
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2020-08-04
Anticipated expiration: 2037-07-04
Also published as: CN107491726A

Abstract

本发明请求保护一种基于多通道并行卷积神经网络的实时表情识别方法，包括以下步骤：从面部表情数据集中提取包含RGB与Depth图像的表情数据；对彩色图像进行局部二值化及提取面部关键点预处理，对深度图像进行梯度化预处理，将预处理后的图像分为训练集与测试集两部分并构建多通道并行卷积神经网络；将训练集中预处理后的图像送入网络中训练，获得学习了面部表情轮廓、立体分布及关键点特征的深度通道、lbp通道及关键点通道识别模型；将三种识别模型的分类结果采用最大置信融合，得到最终表情识别模型并构建实时表情识别系统。本发明增强了识别网络的鲁棒性，有效提升了实时表情识别系统的性能。

Description

一种基于多通道并行卷积神经网络的实时表情识别方法

技术领域

本发明属于涉及图像识别、人机交互、人工智能领域，特别涉及一种基于深度学习的融合多特征提取的表情识别方法。

背景技术

人脸表情是人类交流的重要载体和非语言交流的一种重要方式，它不仅能够表达人类的情感状态、认知活动和人格特征，而且它所富含的人体行为信息与人的情感状态、精神状态、健康状态等其他因素有着极为密切的关联。心理学家Mehrabian提出，在人类交流过程中，只有7％的信息量通过语言来表达，有38％通过辅助语言来传达，如节奏、语音、语调等，而人脸表情是占比重最大的一部分——能够达到信息总量的55％。因此，通过对于人脸表情的研究可以获得很多有价值的信息，从而分析人类的心理活动和精神状态。

深度学习是机器学习领域一个新兴的研究方向，它通过模仿人脑结构，实现对复杂输入数据的高效处理，智能地学习不同的知识，而且能够有效地解决多类复杂的智能问题。实践表明，深度学习是一种高效的特征提取方法，它能够提取数据中更加抽象的特征，实现对数据更本质的刻画，同时深层模型具有更强的建模和推广能力。

从技术层面讲，深度学习作为一种新兴的机器学习理论已经成为科研人员的关注焦点。在过去的几年中，深度学习技术已经在信号处理和计算机视觉等领域引起较大的反响。深度学习的本质是通过构建含有多个隐层的网络模型和海量的训练样本，把低层特征组合起来形成高层特征进行表示，进而增强模型的分类或预测能力。区别于支持向量机和神经网络等浅层学习方法，深度学习不仅强调了学习模型的深度，而且突出了特征学习对于网络模型的重要性。

人脸表情识别系统通常包括人脸图像的获取与预处理、表情特征提取和表情分类，其中表情特征提取在表情识别系统中起关键的作用，影响着整个系统的识别正确率。有关表情特征的构建和提取一直受到广泛关注，有活动外观模型(AAM)、Gabor小波变换、局部二元模式(LBP)、方向梯度直方图(HOG)、局部判别分量分析(LDCA)等。这些方法的共同点就是使用一组人工设计的特征，在一定程度上损失了原有的特征信息，或者假设属性之间互相独立，这往往与实际应用环境不相符合。

近年来在机器学习领域出现了以深度学习(Deep Learning)为突破点的纯数据驱动的特征学习算法。深度学习算法不同于传统的浅层学习算法，它舍弃了依靠人工设计的显式特征提取方法，通过逐层地构建一个多层的深度神经网络(可拥有数十隐层、数千万甚至过亿的网络参数)，让机器自主地从数据中学习到更加本质的特征，从而使得学习到的特征更具有推广性和表征能力。

现在主流的人脸表情或者情感方面的研究主要是基于RGB摄像机，它一般只能捕捉单纯的二维信息。因为人脸特征的三维性，二维的RGB图像往往不能提取细节的面部几何特征。三维图像相较二维图像能够较好的还原面部细节特征，也能更好的适应变化中的取景环境。尽管三维图像存在诸多优势，国内外的许多学者也提出了很多三维的面部识别算法，但三维传感器的价格昂贵，无法进行有效的推广。随着传感器市场的发展，一些价格适中的传感器，如Kinect、Leap motion等，能够提供以深度信息为辅助的三维信息，深度信息的出现在丰富了细节信息的同时，也降低了在传感器上的花费。

经过不断的发展，科研人员已对人脸表情识别问题进行了较多的研究，并提出了各种不同的方法，但对于深度学习在人脸表情识别方面的研究成果还不是很多。如何在表情识别领域成功应用深度学习方法既是对表情识别方法的提升，也拓展了深度学习方法的应用领域。

综上所述，虽然科研人员已对人脸表情识别问题进行了较多的研究，但对于深度学习在人脸表情识别方面的研究成果还不是很多，如何克服不同光照、头部姿势、复杂背景等实际因素的影响仍然是一个十分棘手的问题。充分利用当前深度学习方法的优势，结合深度图像信息和彩色图像信息训练深度学习网络既是对表情识别方法的提升，也拓展了深度学习方法的应用领域。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种有效增加网络学习能力，提升了实时表情识别系统的性能的基于多通道并行卷积神经网络的实时表情识别方法。本发明的技术方案如下：

一种基于多通道并行卷积神经网络的实时表情识别方法，其包括：多通道并行卷积神经网络模型的构建步骤，以及实时表情识别两个步骤：所述多通道并行卷积神经网络模型的构建步骤包括：

步骤1：从面部表情数据集中提取人脸表情图像，所述人脸表情图像包含彩色图像和深度图像；

步骤2：对人脸表情图像的彩色图像和深度图像进行预处理操作，将预处理后的深度图像与彩色图像分别分为训练集和测试集两部分并构建多通道并行卷积神经网络，所述多通道并行卷积神经网络包括第一路卷积神经网络、第二路卷积神经网络及第三路卷积神经网络；

步骤3：进行深度学习得到学习了面部表情立体分布特征的深度通道识别模型、学习了面部表情轮廓特征的LBP通道识别模型、学习了面部表情关键点分布的关键点通道识别模型；

所述实时表情识别的步骤包括：

步骤4：将深度通道、LBP通道与关键点通道识别模型的分类结果采用最大置信相融合，获取最终表情识别模型；

步骤5：采用最终表情识别模型构建实时表情识别系统，实时获取用户图片进行表情分类。

进一步的，所述步骤3具体包括步骤：

将训练集中经过梯度化预处理的深度图像数据送入第一路卷积神经网络中进行训练以提取面部立体分布特征，得到学习了面部表情立体分布特征的深度通道识别模型；

将训练集中经过局部二值化预处理的彩色图像数据送入第二路卷积神经网络中进行训练以提取面部轮廓特征，得到学习了面部表情轮廓特征的LBP通道识别模型；

将训练集中经过提取面部关键点的彩色图像数据送入第三路卷积神经网络中进行训练以提取面部关键点分布特征，得到学习了面部表情关键点分布的关键点通道识别模型。

进一步的，所述步骤2面部表情数据集图像的预处理操作，包括：

将面部表情数据集中的原始像素为256×256的所有表情以中心点为基准裁剪128×128图像区域，面部表情主要由面部肌肉轮廓组合而成，对彩色图像采用局部二值化方法来提取面部轮廓特征，采用提取关键点分布的方式获取面部几何分布特征，对深度图像采用去除背景及梯度化处理。

进一步的，所述步骤2的第一路卷积神经网络、第二路卷积神经网络及第三路卷积神经网络分别为：深度图像通道、LBP图像通道与关键点通道，分别对不同输入下的面部表情特征进行提取，每个单路卷积神经网络的结构相同，包括5个卷积层，3个全连接层，最后为softmax层，具体如下：

第1层为卷积一层，有96个卷积核，大小为7×7×96；第2层为最大池化层，大小为3×3；第3层为卷积二层，有256个卷积核，大小为5×5×256；第4层为最大池化层，大小为2×2；第5层为卷积三层，有512个卷积核，大小为3×3×512；第6层为卷积四层，有512个卷积核，大小为3×3×512；第7层为卷积五层，有512个卷积核，大小为3×3×512；第8层为最大池化层，大小为3×3；后面三层为全连接层，分别为FC6，FC7，FC8。

进一步的，所述第一路卷积神经网络、第二路卷积神经网络及第三路卷积神经网络采用深度学习框架caffe实现，通过深度学习中finetune的方式对每个单路卷积神经网络进行训练以获取网络识别模型，包含网络参数初始化和训练参数设置；在网络参数初始化时，采用模型的前8层网络权值参数进行参数初始化，后三层全连接层的参数则采用随机初始化的方式；关于训练参数设置，网络训练时，由实际输出与样本期望输出计算而得的损失函数将不断更新网络权值参数。

进一步的，所述步骤4将深度通道、LBP通道与关键点通道识别模型的分类结果采用最大置信相融合，获取最终表情识别模型，具体包括：通过最大置信融合深度通道、LBP通道与关键点通道识别模型的分类结果，对三者分配不同的权重之后求置信度，置信度最大值对应的分类结果即为最终输出的表情识别结果。

进一步的，获得最终表情识别模型后，加载模型及相关的配置文件构建实时的表情识别系统，用深度相机实时采集用户图像，采用opencv中的Haar-Cascade进行面部区域检测及裁剪，之后对裁剪后的面部彩色图像进行lbp预处理和获取面部关键点及对深度图像进行梯度化预处理，送入最终表情识别模型之中，经前向传播，模型将实时返回表情分类结果。

进一步的，所述面部表情数据集还包括设置感兴趣区域得到训练数据，包括：采用图像处理中的裁剪、镜像、遮罩、中心聚焦方式，先进行人脸检测提取人脸，保留头部区域，让鼻尖近似处于图像中心位置，确保不同面部的ROI区域不出现大的偏差；裁剪方式重点关注眼、鼻、嘴在不同表情中的区别，镜像方式考虑了拍摄角度的不同，遮罩方式是对裁剪方式的补充。

进一步的，所述采用最大置信进行融合，包括：

1，统计深度图像通道的7种基本表情的概率PRGB(i)，基本表情分别为生气、厌恶、害怕、开心、中性、悲伤和惊讶：

PCDepth(i)＝＝w₁*CDepth(i)/(w₁*CDepth(i)+w₂*LCRGB(i)+w₃*KCRGB(i)),i＝1,2,3,4,5,6,7；

2，统计LBP图像通道的7种基本表情的概率PLCRGB(i)：

PLCRGB(i)＝w₂*LCRGB(i)/(w₁*CDepth(i)+w₂*LCRGB(i)+w₃*KCRGB(i)),i＝1,2,3,4,5,6,7；

3，统计关键点图像通道的7种基本表情的概率PKCRGB(i)：

PKCRGB(i)＝w₃*KCRGB(i)/(w₁*CDepth(i)+w₂*LCRGB(i)+w₃*KCRGB(i)),i＝1,2,3,4,5,6,7；

4，对比1、2、3中统计结果的大小，具有较高置信度的即为最终表情分类结果：

Result＝max{PCDepth(i),PLCRGB(i),PKCRGB(i)},i＝1,2,3,4,5,6,7；

其中，w₁是深度图像通道分类输出的权值，w₂是LBP图像通道分类输出的权值，w₃是关键点图像通道分类输出的权值。

本发明的优点及有益效果如下：

1，对于表情特征的提取，直接采用表情图像的原始像素特征信息。

2，针对面部表情数据尚未形成大数据集的情况，采用设置感兴趣区域(ROI)的方式，有效扩充数据集数据量。

3，结合彩色图像lbp处理带来的面部轮廓特征及关键点分布特征和深度图像梯度化带来的面部立体分布特征训练网络，有助于更好的揭示面部表情数据内在联系，利于深度学习网络学习到有用的信息，提高模型识别准确率。

4，采用多通道并行卷积神经网络，增加网络宽度，有效增加网络学习能力，提升了实时表情识别系统的性能。

附图说明

图1是本发明提供优选实施例的基于MPCNN的实时表情识别方法流程图。

图2是深度图经梯度化处理与彩色图经LBP处理及面部关键点分布示意图。

图3是感兴趣区域(ROI)设置示意图。

图4是卷积一层学习到的卷积核。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

图1为本系统框图，主要包括：

一种基于多通道并行卷积神经网络的实时表情识别方法，包括多通道并行卷积神经网络(Multichannel Parallel Convolutional Neural,MPCNN)模型的构建和实时表情识别两个步骤：

所述MPCN模型的构建步骤包括：

步骤1：从含有彩色与深度图像的面部表情数据集中提取包含RGB图像和Depth图像的人脸表情图像；

步骤2：对面部表情数据集图像进行预处理操作，将预处理后的深度图像与彩色图像分为训练集和测试集两部分并构建多通道并行卷积神经网络；

步骤3：将训练集中经过梯度化预处理的深度图像数据送入第一路卷积神经网络(CNN)中进行训练以提取面部立体分布特征，得到学习了面部表情立体分布特征的深度通道识别模型；

将训练集中经过局部二值化(LBP)预处理的彩色图像数据送入第二路卷积神经网络(CNN)中进行训练以提取面部轮廓特征，得到学习了面部表情轮廓特征的LBP通道识别模型；

将训练集中经过提取面部关键点的彩色图像数据送入第三路卷积神经网络(CNN)中进行训练以提取面部关键点分布特征，得到学习了面部表情关键点分布的关键点通道识别模型。

所述实时表情识别的步骤包括：

步骤4：将深度通道、LBP通道与关键点通道识别模型的分类结果采用最大置信相融合，获取最终表情识别模型。

本系统框图每一个步骤的实现，结合实施例具体表述如下：

(1)从面部表情数据集中提取包含RGB图像和Depth图像的人脸表情图像

在含有彩色和深度信息的面部表情数据集中，分别提取包含RGB信息和Depth信息的基本人脸表情图像，每个图像的像素为256×256。

(2)面部表情数据集图像的预处理操作，包括：

将面部表情数据集中的原始像素为256×256的所有表情以中心点为基准裁剪128×128图像区域，以保留面部区域。面部表情主要由面部肌肉轮廓组合而成，对彩色图像采用局部二值化(lbp)方法来提取面部轮廓特征以帮助网络学习面部肌肉轮廓分布的特点，采用提取关键点分布的方式获取面部几何分布特征。对Depth图像采用去除背景及梯度化处理，以突出面部表情具有的空间立体分布特征。图像示例，如图2所示。这样综合彩色图像经lbp处理提取的面部轮廓及面部关键点分布特征和深度图像梯度化提取的面部立体特征，有助于揭示面部表情数据的内在联系，帮助深度学习网络学习到有用的信息。

为解决当前尚未形成较大面部表情数据集的情况，采取对单张图片不同尺度区域裁剪的方式,来扩大数据集，根据人脸的面部结构,设置9个不同的感兴趣区域(Region ofinterest,ROI)，引导神经网络关注与表情相关的面部区域，ROI方法使训练数据扩大至9倍。图像示例，如图3所示。

(2-1)感兴趣区域(ROI)的设置方法，包括：

采用图像处理中的裁剪、镜像、遮罩、中心聚焦方式。先进行人脸检测提取人脸，保留头部区域，让鼻尖近似处于图像中心位置，确保不同面部的ROI区域不出现大的偏差。

裁剪方式重点关注眼、鼻、嘴在不同表情中的区别，镜像方式考虑了拍摄角度的不同，遮罩方式是对裁剪方式的补充，中心聚焦方式可以减少一些噪声干扰。感兴趣区域(ROI)的设置增强了区域的局部关联性，有利于提高卷积神经网络的学习能力。

(3)并行卷积神经网络构建，包括：

所采用的并行卷积神经网络结构，包含深度图像通道、LBP图像通道与关键点通道三路，分别对不同输入下的面部表情特征进行提取，每个单路卷积神经网络的结构相同，包括5个卷积层，3个全连接层，最后为softmax层，具体如下：

(4)并行卷积神经网络的训练,包括：

采用深度学习框架caffe实现并训练cnn网络，通过深度学习中finetune的方式对每个单路卷积神经网络进行训练以获取网络识别模型，包含网络参数初始化和训练参数设置。

在网络参数初始化时，采用模型的前8层网络权值参数进行参数初始化，后三层全连接层的参数则采用随机初始化的方式。

关于训练参数设置，网络训练时，由实际输出与样本期望输出计算而得的损失函数将不断更新网络权值参数。将前5个卷积层的基础学习率设为0.001,将后三层的基础学习率设为0.01以加快更新初始化阶段随机初始化的全连接层参数。

将学习率的更新策略设置为step，随着迭代次数的增加，学习率按更新策略有规律的逐步递减，step的更新策略为base_lr*gamma(floor(iter/stepsize))，base_lr为基础学习率，gamma为衰减系数，stepsize为衰减步长。训练过程中分别采用训练集中彩色图像和深度图像数据进行训练。卷积一层所学习到卷积核特征的可视化如图4所示。

(5)将深度通道、LBP通道与关键点通道识别模型的分类结果采用最大置信相融合，包括：

通过最大置信融合深度通道、LBP通道与关键点通道识别模型的分类结果，对三者分配不同的权重之后求置信度，置信度最大值对应的分类结果即为最终输出的表情识别结果。

(5-1)采用最大置信进行融合，包括：

1，统计深度图像通道的7种基本表情(生气、厌恶、害怕、开心、中性、悲伤和惊讶)的概率PRGB(i)：

2，统计LBP图像通道的7种基本表情(生气、厌恶、害怕、开心、中性、悲伤和惊讶)的概率PLCRGB(i)：

3，统计关键点图像通道的7种基本表情(生气、厌恶、害怕、开心、中性、悲伤和惊讶)的概率PKCRGB(i)：

Result＝max{PCDepth(i),PLCRGB(i),PKCRGB(i)},i＝1,2,3,4,5,6,7；

其中，w₁是深度图像通道分类输出的权值，w₂是LBP图像通道分类输出的权值，w₃是关键点图像通道分类输出的权值。具体实施中，若处于光照强度正常的情况，w₁设置为0.2，w₂设置为0.5，w₃设置为0.3，发挥彩色图的优势。若处于光照强度强或弱的情况，w₁设置为0.5，w₂设置为0.2，w₃设置为0.3，发挥深度图的优势。

(6)实时表情识别系统的构建，包括：

获得最终表情识别模型后，加载模型及相关的配置文件构建实时的表情识别系统，用深度相机实时采集用户图像，采用opencv中的Haar-Cascade进行面部区域检测及裁剪，之后对裁剪后的面部彩色图像进行lbp预处理和获取面部关键点及对深度图像进行梯度化预处理，送入最终表情识别模型之中，经前向传播，模型将实时返回表情分类结果。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于多通道并行卷积神经网络的实时表情识别方法，其特征在于，包括：多通道并行卷积神经网络模型的构建步骤，以及实时表情识别两个步骤：所述多通道并行卷积神经网络模型的构建步骤包括：

所述实时表情识别的步骤包括：

步骤5：采用最终表情识别模型构建实时表情识别系统，实时获取用户图片进行表情分类；

所述采用最大置信进行融合，包括：

1)，统计深度图像通道的7种基本表情的概率PCDepth(i)，基本表情分别为生气、厌恶、害怕、开心、中性、悲伤和惊讶：

2)，统计LBP图像通道的7种基本表情的概率PLCRGB(i)：

3)，统计关键点图像通道的7种基本表情的概率PKCRGB(i)：

4)，对比1)、2)、3)中统计结果的大小，具有较高置信度的即为最终表情分类结果：

Result＝max{PCDepth(i),PLCRGB(i),PKCRGB(i)},i＝1,2,3,4,5,6,7；

2.根据权利要求1所述的基于多通道并行卷积神经网络的实时表情识别方法，其特征在于，所述步骤3具体包括步骤：

3.根据权利要求1所述的基于多通道并行卷积神经网络的实时表情识别方法，其特征在于，步骤2面部表情数据集图像的预处理操作，包括：

4.根据权利要求3所述的基于多通道并行卷积神经网络的实时表情识别方法，其特征在于，所述步骤2的第一路卷积神经网络、第二路卷积神经网络及第三路卷积神经网络分别为：深度图像通道、LBP图像通道与关键点通道，分别对不同输入下的面部表情特征进行提取，每个单路卷积神经网络的结构相同，包括5个卷积层，3个全连接层，最后为softmax层，具体如下：

5.根据权利要求4所述的基于多通道并行卷积神经网络的实时表情识别方法，其特征在于，所述第一路卷积神经网络、第二路卷积神经网络及第三路卷积神经网络采用深度学习框架caffe实现，通过深度学习中finetune的方式对每个单路卷积神经网络进行训练以获取网络识别模型，包含网络参数初始化和训练参数设置；在网络参数初始化时，采用模型的前8层网络权值参数进行参数初始化，后三层全连接层的参数则采用随机初始化的方式；关于训练参数设置，网络训练时，由实际输出与样本期望输出计算而得的损失函数将不断更新网络权值参数。

6.根据权利要求5所述的基于多通道并行卷积神经网络的实时表情识别方法，其特征在于，所述步骤4将深度通道、LBP通道与关键点通道识别模型的分类结果采用最大置信相融合，获取最终表情识别模型，具体包括：通过最大置信融合深度通道、LBP通道与关键点通道识别模型的分类结果，对三者分配不同的权重之后求置信度，置信度最大值对应的分类结果即为最终输出的表情识别结果。

7.根据权利要求6所述的基于多通道并行卷积神经网络的实时表情识别方法，其特征在于，获得最终表情识别模型后，加载模型及相关的配置文件构建实时的表情识别系统，用深度相机实时采集用户图像，采用opencv中的Haar-Cascade进行面部区域检测及裁剪，之后对裁剪后的面部彩色图像进行lbp预处理和获取面部关键点及对深度图像进行梯度化预处理，送入最终表情识别模型之中，经前向传播，模型将实时返回表情分类结果。

8.根据权利要求6所述的基于多通道并行卷积神经网络的实时表情识别方法，其特征在于，所述面部表情数据集还包括设置感兴趣区域得到训练数据，包括：采用图像处理中的裁剪、镜像、遮罩、中心聚焦方式，先进行人脸检测提取人脸，保留头部区域，让鼻尖近似处于图像中心位置，确保不同面部的ROI区域不出现大的偏差；裁剪方式重点关注眼、鼻、嘴在不同表情中的区别，镜像方式考虑了拍摄角度的不同，遮罩方式是对裁剪方式的补充。