CN111582067B

CN111582067B - 人脸表情识别方法、系统、存储介质、计算机程序、终端

Info

Publication number: CN111582067B
Application number: CN202010320414.8A
Authority: CN
Inventors: 李剑峰
Original assignee: Southwest University
Current assignee: Southwest University
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2022-11-29
Anticipated expiration: 2040-04-22
Also published as: CN111582067A

Abstract

本发明属于计算机视觉技术领域，公开了一种人脸表情识别方法、系统、存储介质、计算机程序、终端，根据给定的深度图和RGB图片组合预训练一个图像生成模型，训练好的图像生成模型能根据训练所用的RGB图像样式将输入的深度图转化为RGB图像；生成RGB图像中表情的眉、眼以及嘴部，训练考虑眉、眼以及嘴部的卷积神经网络，卷积神经网络实现表情识别。本发明眼、眉、嘴部的特征信息得到加强，识别准确率更高；图像生成模型的效果比较好，通过图像生成模型，不仅关于表情的重要信息得到保留，用于表情识别的RGB图形式也得到了统一；表情识别的准确率也更高；在仅用深度图一个通道进行识别时，本发明取得的效果是更好的。

Description

人脸表情识别方法、系统、存储介质、计算机程序、终端

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种人脸表情识别方法、系统、存储介质、计算机程序、终端。

背景技术

目前，二维RGB彩色图像的表情识别研究取得了巨大进展。通过将实验室采集的RGB表情图像放入卷积神经网络、深度挖掘并提取图中表情的特征、训练网络学会表情的分类是目前的主流研究方向。但值得一提的是，用这样的方法进行表情分类仍有许多不足之处。二维RGB表情图片是一种彩色图片，用这样的图片进行表情分类容易受到光线、角度以及肤色等与表情无关的因素影响，神经网络对于相同表情相同特征的提取很可能因为这些因素的不同而不同，但这些因素实际上与一个人的表情是无关的；这类方法引入了许多与表情无关的信息，在很大程度上影响了表情识别的准确率与效率，尤其是面对不同环境下采集的图片时，问题则更为严重。

随着高分辨率三维图像设备的发展，用扫描得到的三维人脸数据进行表情分类是一个新的解决思路。其中深度图是描述三维数据的一种常用载体，通过扫描出的三维坐标映射得到灰度图。深度图排除了拍照角度、光线、肤色等与表情无关的因素，只反映三维信息。用这类数据训练网络将使网络更专注于与表情有关的几何信息。但在表情识别领域，在光照等其他因素可控的条件下，基于二维RGB彩色图像的表情识别准确率高于基于深度图的表情识别办法，因为彩色图片中包含着许多与表情有关的纹理信息，是不可忽略的信息。

综上所述，在当下，基于二维RGB彩色图像的表情识别方法很难做到针对不同场景下的通用表情识别方法，其原因如前所述，在面对不同环境下采集的图片时，识别的准确率受到了严重的影响。而在使用扫描得到的三维人脸数据时，由于纹理信息的缺失，其表情的识别率仍有待提高；这是我们希望设计方案解决的。

通过上述分析，现有技术存在的问题及缺陷为：如何设计方案，既保留深度图在跨场景下的不受影响的几何信息优势，又能结合RGB图像的表情纹理信息，并实现较高的表情识别准确率。

解决以上问题及缺陷的难度为：

1.如何在只有深度图像输入的情况下，生成单一场景下的RGB图像。

2.针对生成的RGB图像，如何尽可能地提高表情识别的准确率。

解决以上问题及缺陷的意义为：为提高跨场景下的表情识别准确度提供了一种解决方案；只要求输入单张深度图像，即可自动生成相应的RGB表情图像并识别，不再像现有技术，为了保证一个高的识别率，对场景采集要求极高，扩大表情识别方案的适用范围，提高方案的可推广性。

发明内容

针对现有技术存在的问题，本发明提供了一种人脸表情识别方法、系统、存储介质、计算机程序、终端。

本发明是这样实现的，一种人脸表情识别方法，所述人脸表情识别方法包括：

第一步，根据给定的深度图和RGB图片组合预训练一个图像生成模型，训练好的图像生成模型能根据训练所用的RGB图像样式将输入的深度图转化为RGB图像。将不同场景下采集的图片转化为统一的预训练场景，从而减少场景对表情识别带来的干扰信息；由于相机直接采集的二维RGB表情图像，在不同场景下表现极为不同。而深度图是来源于三维人脸数据，三维人脸数据并不受场景影响，因此深度图是稳定并且统一的形式。再通过预训练的生成模型，根据深度图生成RGB图，实现不同场景数据统一成训练场景数据。具体步骤如下：

首先，选择pix2pix网络作为所述人脸表情识别方法的预训练图像生成模型，pix2pix网络被用于训练根据输入的深度图生成对应的RGB图像。

其次，用公开数据库Bosphorus中的图片作为预训练模型的数据来源；训练后的模型即能根据深度图生成与Bosphorus数据库场景一致的RGB图。

第二步，生成RGB图像中表情的眉、眼以及嘴部，训练着重考虑眉、眼以及嘴部的卷积神经网络，卷积神经网络实现表情识别。旨在加强人脸中与表情密切相关的位置的信息，在训练时更多地关注这些位置，有助于进一步提高表情的识别准确率。具体步骤如下：

首先，所述人脸表情识别方法通过眉、眼以及嘴部的坐标确定在图中的位置，剪切出来，经过加强，再放入神经网络训练。

其次，所述神经网络通过步长为2、卷积核大小为7、通道数为64的卷积层、BN层、relu层、池化层、两个残差块加强学习关键部分的特征信息，得到描述眉、眼以及嘴部的的4个特征图。

进一步，将所述图像生成模型生成的RGB图，整个放入残差学习网络ResNet-18训练，学习整张脸关于表情的特征信息；在通过ResNet-18的第一层后，图像的通道数刚好是64，矩阵大小是64×64，特征图为A；将得到的关于各关键部分的特征图B_i对应地叠加A上，实现在网络训练时加强眉、眼以及嘴部信息的学习。

本发明的另一目的在于提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求任意一项所述包括下列步骤：

第一步，根据给定的深度图和RGB图片组合预训练一个图像生成模型，训练好的图像生成模型能根据训练所用的RGB图像样式将输入的深度图转化为RGB图像；

第二步，生成RGB图像中表情的眉、眼以及嘴部，训练着重考虑眉、眼以及嘴部的卷积神经网络，卷积神经网络实现表情识别。

本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施所述的人脸表情识别方法。

本发明的另一目的在于提供一种实施所述的人脸表情识别方法的人脸表情识别系统，所述人脸表情识别系统包括：

图像生成模型与训练模块，用于根据给定的深度图和RGB图片预训练一个图像生成模型；

RGB图像转化模块，用于将训练好的图像生成模型能根据训练所用的RGB图像样式将输入的深度图转化为RGB图像；

表情关键部分关注模块，用于重点关注所生成RGB图像中关于表情的关键部分；

表情识别模块，用于训练一个着重考虑人脸关键部分的卷积神经网络用于表情识别。

本发明的另一目的在于提供一种终端，所述终端搭载所述的人脸表情识别系统。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：图5(b)展示了ResNet-18网络中加上了关键部分的图像，与加之前的图5(a)相比，眼、眉、嘴部都得到了更多的强调(特征信息得到加强)。与对Bosphorus数据库进行的其他表情识别研究对比来看，本发明也实现了更高的识别准确率。本发明统一了用于表情识别训练的RGB图像形式，能对跨情景采集的人脸图片(跨数据库)进行表情识别，取得较好的效果，如图6所示。如图6所示，(a)是预训练图像生成模型在Bosporus数据库中实现的效果，第一列是输入的深度图，第二列为模型生成的RGB图，第三列为数据库中真实的RGB图，可以看出图像生成模型的效果比较好，尽管和真实图片存在些许不同，但最重要的表情信息都得以很好地保留；(b)是图像生成模型在BU-3DFE数据库上实现的效果，第二列是模型生成的RGB图，第三列是数据库中真实的RGB图，可以看出，这一数据库虽然也是针对人脸作表情的采集，但采集环境有所不同，体现在RGB图上的差异很大，但通过图像生成模型，生成了和Bosphorus数据库类似的RGB图，就像是在同样的环境中采集的一样，不仅关于表情的重要信息得到保留，用于表情识别的RGB图形式也得到了统一；表情识别的准确率也更高，表2的数据很好地验证了其效果。其他针对BU-3DFE数据库的表情识别研究基于多个通道进行，如表2所示，在仅用深度图一个通道进行识别时，本发明取得的效果是更好的；甚至相比于其他研究中表现最好的一个通道，本发明也是准确率更高的。

附图说明

图1是本发明实施例提供的人脸表情识别方法流程图。

图2是本发明实施例提供的人脸表情识别系统的结构示意图；

图中：1、图像生成模型与训练模块；2、RGB图像转化模块；3、表情关键部分关注模块；4、表情识别模块。

图3是本发明实施例提供的人脸表情识别方法实现流程图。

图4是本发明实施例提供的学习整张脸关于表情的特征信息示意图。

图5是本发明实施例提供的关键部分的图像对比示意图；

图中：(a)加之前的关键部分的图像；(b)展示了ResNet-18网络中加上了关键部分的图像。

图6是本发明实施例提供的统一了用于表情识别训练的RGB图像形式，能对跨情景采集的人脸图片(跨数据库)进行表情识别示意图；

图中：(a)是预训练图像生成模型在Bosporus数据库中实现的效果；(b)图像生成模型在BU-3DFE数据库上实现的效果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种人脸表情识别方法、系统、存储介质、计算机程序、终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的人脸表情识别方法包括以下步骤：

S101：根据给定的图片组合(深度图+RGB图片)预训练一个图像生成模型，训练好的图像生成模型能根据训练所用的RGB图像样式将输入的深度图转化为RGB图像；

S102：生成RGB图像中关于表情的关键部分(眉、眼以及嘴部)，训练一个着重考虑人脸关键部分的卷积神经网络用于最终的表情识别。

如图2所示，本发明实施例提供的人脸表情识别系统包括：

图像生成模型与训练模块1，用于根据给定的深度图和RGB图片预训练一个图像生成模型。

RGB图像转化模块2，用于将训练好的图像生成模型能根据训练所用的RGB图像样式将输入的深度图转化为RGB图像。

表情关键部分关注模块3，用于重点关注所生成RGB图像中关于表情的关键部分(眉、眼以及嘴部)。

表情识别模块4，用于训练一个着重考虑人脸关键部分的卷积神经网络用于表情识别。

下面结合附图对本发明的技术方案作进一步的描述。

如图3所示，本发明首先根据给定的图片组合(深度图+RGB图片)预训练一个图像生成模型，训练好的图像生成模型能根据训练所用的RGB图像样式将输入的深度图转化为RGB图像；然后重点关注所生成RGB图像中关于表情的关键部分(眉、眼以及嘴部)，训练一个着重考虑人脸关键部分的卷积神经网络用于最终的表情识别。

本发明的预训练图像生成模型，选择了pix2pix网络作为基础。Pix2pix网络是一种著名的对抗生成网络(Generative Adversarial Networks,GAN)，它根据给定的图片组合(输入+输出)进行训练，训练网络尽可能好地根据输入图像生成对应的输出图像；在本发明中，pix2pix网络被用于训练根据输入的深度图生成对应的RGB图像。

本发明为了避免人们做出某种表情的肌肉动作可能是类似的，但采集图像的方法与环境却不尽相同这些无关因素的影响，本发明只用一个公开数据库(Bosphorus)中的图片(深度图+RGB图片)预训练图像生成模型，用其他公开数据库中的图片对生成和识别的效果进行检验。训练好的模型能根据输入的深度图生成尽可能和数据库中RGB图片类似的RGB图；因为本发明仅用Bosphorus一个数据库进行预训练，所以即使输入不是该数据库中的深度图，模型生成的RGB图也会和Bosphorus数据库中的RGB图片类似，就像是在相同环境下采集得到的一样。这统一了用于表情识别的RGB图片形式，只要有3D人脸数据，即便是在不同环境下采集的人脸信息，也能很好地被用于表情识别，减少了无关因素的影响。

关于加强考虑人脸关键部分的表情识别训练，本发明采取的方法是通过人脸关键部分的坐标确定其在图中的位置，将其剪切出来，经过加强，再放入神经网络训练。关键部分加强模块如图4所示(眉毛、眼睛以及嘴巴)，我们将关键部分单独通过一个深度学习网络，该部分的网络包括步长为2、卷积核大小为7、通道数为64的卷积层、BN层、relu层和池化层；考虑到残差学习网络的优越性，本发明在保持图片大小和通道数不变的前提下加入了两个残差块(residual block)帮助加强学习关键部分的特征信息(图4左边通路)。最终得到了描述关键部分的4个特征图(feature map)，假定为B_i(i＝1，2，3，4)。

与此同时，由图像生成模型生成的RGB图，整个放入残差学习网络(ResNet-18)训练，学习整张脸关于表情的特征信息(图4右边通路)。在通过ResNet-18的第一层后，图像的通道数刚好是64，矩阵大小是64×64，假定此时特征图为A；此时将上一步得到的关于各关键部分的特征图B_i对应地叠加A上，以此实现在网络训练时加强关键部分信息的学习。

下面结合实验对本发明的技术效果作详细的描述。

1、图5(b)展示了ResNet-18网络中加上了关键部分的图像，与加之前的图5(a)相比，不难看出眼、眉、嘴部都得到了更多的强调(特征信息得到加强)。另外，与对Bosphorus数据库进行的其他表情识别研究对比来看，本发明也实现了更高的识别准确率。

表1 Bosphorus数据库表情识别准确率对比

[1]Li,H.,Chen,L.,Huang,D.,Wang,Y.,&Morvan,J.M.(2012,November).3Dfacial expression recognition via multiple kernel learning of multi-scalelocal normal patterns.In Proceedings of the 21st International Conference onPattern Recognition(ICPR2012)(pp.2577-2580).IEEE.

[2]Li,H.,Sun,J.,Xu,Z.,&Chen,L.(2017).Multimodal 2D+3D facialexpression recognition with deep fusion convolutional neural network.IEEETransactions on Multimedia,19(12),2816-2831.

[3]Fu,Y.,Ruan,Q.,Luo,Z.,Jin,Y.,An,G.,&Wan,J.(2019).FERLrTc:2D+3Dfacial expression recognition via low-rank tensor completion.SignalProcessing,161,74-88.

2、统一了用于表情识别训练的RGB图像形式，能对跨情景采集的人脸图片(跨数据库)进行表情识别，取得较好的效果，如图6所示。

表2 BU-3DFE数据库表情识别准确率对比

[1]Yang,X.,Huang,D.,Wang,Y.,&Chen,L..(2015).Automatic 3D facialexpression recognition using geometric scattering representation.2015 11thIEEE International Conference and Workshops on Automatic Faceand GestureRecognition(FG).IEEE.

[3]Jan,A.,Ding,H.,Meng,H.,Chen,L.,&Li,H.(2018,May).Accurate facialparts localization and deep learning for 3d facial expression recognition.In2018 13th IEEE International Conference onAutomatic Face&Gesture Recognition(FG 2018)(pp.466-472).IEEE.

[4]Zhu,K.,Du,Z.,Li,W.,Huang,D.,Wang,Y.,&Chen,L.(2019,May).Discriminative attention-based convolutional neural network for 3D facialexpression recognition.In 2019 14th IEEE International Conference onAutomatic Face&Gesture Recognition(FG2019)(pp.1-8).IEEE.

如图6所示，(a)是预训练图像生成模型在Bosporus数据库中实现的效果，第一列是输入的深度图，第二列为模型生成的RGB图，第三列为数据库中真实的RGB图，可以看出图像生成模型的效果比较好，尽管和真实图片存在些许不同，但最重要的表情信息都得以很好地保留；(b)是图像生成模型在BU-3DFE数据库上实现的效果，第二列是模型生成的RGB图，第三列是数据库中真实的RGB图，不难看出，这一数据库虽然也是针对人脸作表情的采集，但采集环境有所不同，体现在RGB图上的差异很大，但通过图像生成模型，生成了和Bosphorus数据库类似的RGB图，就像是在同样的环境中采集的一样，不仅关于表情的重要信息得到保留，用于表情识别的RGB图形式也得到了统一；表情识别的准确率也更高，表2的数据很好地验证了其效果。其他针对BU-3DFE数据库的表情识别研究基于多个通道进行，如表2所示，在仅用深度图一个通道进行识别时，本发明取得的效果是更好的；甚至相比于其他研究中表现最好的一个通道，本发明也是准确率更高的。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种人脸表情识别方法，其特征在于，所述人脸表情识别方法包括：

第二步，生成RGB图像中表情的眉、眼以及嘴部，训练着重考虑眉、眼以及嘴部的卷积神经网络，卷积神经网络实现表情识别；

所述第一步包括将不同场景下采集的图片转化为统一的预训练场景，通过预训练的生成模型，根据深度图生成RGB图，实现不同场景数据统一成训练场景数据；具体包括：

（1）选择pix2pix网络作为人脸表情识别方法的预训练图像生成模型，pix2pix网络被用于训练根据输入的深度图生成对应的RGB图像；

（2）用公开数据库Bosphorus中的图片作为预训练模型的数据来源；训练后的模型即能根据深度图生成与Bosphorus数据库场景一致的RGB图；

所述第二步还包括：

（1）通过眉、眼以及嘴部的坐标确定在图中的位置，剪切出来，经过加强，再放入神经网络训练；

（2）神经网络通过步长为2、卷积核大小为7、通道数为64的卷积层、BN层、relu层、池化层、两个残差块加强学习眉、眼以及嘴部的特征信息，得到描述眉、眼以及嘴部的4个特征图；

所述图像生成模型生成的RGB图，整个放入残差学习网络ResNet-18训练，学习整张脸关于表情的特征信息；在通过ResNet-18的第一层后，图像的通道数刚好是64，矩阵大小是64×64，特征图为A；将得到的关于眉、眼以及嘴部的特征图

对应地叠加A上，实现在网络训练时加强眉、眼以及嘴部信息的学习。

2.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行如权利要求1所述的人脸表情识别方法。

3.一种人脸表情识别系统，其特征在于，所述人脸表情识别系统包括：

深度图转化模块，根据给定的深度图和RGB图片组合预训练一个图像生成模型，训练好的图像生成模型能根据训练所用的RGB图像样式将输入的深度图转化为RGB图像；将不同场景下采集的图片转化为统一的预训练场景，通过预训练的生成模型，根据深度图生成RGB图，实现不同场景数据统一成训练场景数据；具体包括：

表情识别模块，生成RGB图像中表情的眉、眼以及嘴部，训练着重考虑眉、眼以及嘴部的卷积神经网络，卷积神经网络实现表情识别；

4.一种终端，其特征在于，所述终端搭载如权利要求3所述的人脸表情识别系统。