CN110472583A

CN110472583A - 基于深度学习的人脸微表情识别系统

Info

Publication number: CN110472583A
Application number: CN201910758794.0A
Authority: CN
Inventors: 龚泽辉; 李东; 张国生; 冯省城
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2019-11-19
Anticipated expiration: 2039-08-16
Also published as: CN110472583B

Abstract

本发明实施例公开了一种基于深度学习的人脸微表情识别系统，包括对输入图像进行人脸微表情识别、且包括特征特征提取模块和图像识别模块的深度网络模型。特征提取模块用于提取图像识别特征，包括深度特征提取子模块和判别性特征提取子模块；深度特征提取子模块依次包括第一卷积层及多个空洞卷积模块；空洞卷积模块用于对第一卷积层输出的卷积结果进行数据处理并输出深度特征；判别性特征提取子模块用于利用基于判别性区域提议网络得到的多个判别性区域对深度特征进行裁剪，并将裁剪后的特征进行特征放大，以作为图像识别特征。图像识别模块对图像识别特征进行微表情识别并输出识别结果。本申请可高效、快速、准确地实现人脸微表情的识别。

Description

基于深度学习的人脸微表情识别系统

技术领域

本发明实施例涉及计算机视觉技术领域，特别是涉及一种基于深度学习的人脸微表情识别系统。

背景技术

近几年来，受益于计算资源的快速发展，深度学习领域成为研究热点，而计算机视觉由于具有巨大的实用价值更是炙手可热的研究领域，并且在图像分类、目标检测与图像分割等任务上相较于传统机器学习取得了巨大的性能提升。尽管语言是人类交流的首选工具，但是表情所传达的信息则更为丰富，微表情能够传达出真实的感受和动机，脸部微表情识别有利于使得计算机视觉技术朝着更加智能化的方向发展。

相关技术在进行人脸微表情识别时，需要分为多个独立的处理步骤，较为繁琐；还需对原图进行裁剪，对裁剪区域多次使用卷积网络提取特征，测试时间长，效率低下；此外，网络模型存在手工特征设计过程，因此网络最终性能存在瓶颈，不会太高。

例如一种人脸微表情识别可包括下述步骤：首先进行人脸检测，并在检测出的人脸图像上结合Sobel算子边缘检测算法和Shi-Tomasi角点检测算法检测人脸地标点，以检测出的地表点定义多层感知机(Multi-Layer Perceptron)神经网络的输入特征，进行脸部表情的识别。此外，相关技术中的基于深度学习的表情分类及微表情检测的方法，还可通过人脸地标点的检测得到一系列裁剪区域，对原图进行裁剪之后分别送入深度学习网络结构得到特征，并进行最终的微表情分类。

发明内容

本公开实施例提供了一种基于深度学习的人脸微表情识别系统，解决了已有的人工特征设计和测试多步骤繁琐导致准确率不高、效率低下的问题，高效、快速、准确地实现了人脸微表情的识别。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例提供了一种基于深度学习的人脸微表情识别系统，包括用于对输入图像进行人脸微表情识别的深度网络模型，所述深度网络模型包括用于提取图像识别特征的特征提取模块和用于对所述图像识别特征进行微表情识别并输出识别结果的图像识别模块；

其中，所述特征提取模块包括深度特征提取子模块和判别性特征提取子模块；

所述深度特征提取子模块依次包括第一卷积层及多个空洞卷积模块；空洞卷积模块用于对所述第一卷积层输出的卷积结果进行数据处理并输出深度特征；

所述判别性特征提取子模块用于利用基于判别性区域提议网络得到的多个判别性区域对所述深度特征进行裁剪，并将裁剪后的特征进行特征放大，以作为所述图像识别特征。

可选的，所述判别性特征提取子模块包括：

判别性区域中心点坐标确定单元，用于基于所述深度特征，利用判别性区域提议网络得到N个判别性区域中心点坐标；所述判别性区域提议网络沿数据流处理方向依次包括空洞卷积模块、卷积层及全连接层；

判别性区域确定单元，用于基于各判别性区域中心点坐标和预设边长确定相应判别性区域；

裁剪单元，用于利用各判别性区域对所述深度特征进行裁剪；

特征放大单元，用于分别将裁剪后的N个特征的特征图尺寸放大至所述深度特征的特征图尺寸。

可选的，所述裁剪单元用于基于第一公式，利用各判别性区域对所述深度特征进行裁剪；所述第一公式为：

δ(x)＝1/(1+exp^-kx)；

式中，为第i个判别性区域裁剪所述深度特征得到的特征，F_deep为所述深度特征，x、y分别为所述深度特征的特征图宽度与高度方向上的坐标值，k为大于零的常数，L为所述边长。

可选的，所述特征放大单元用于根据第二公式对裁剪后的特征进行特征放大，所述第二公式为：

x^s＝[x^t/λ_W]，y^s＝[y^t/λ_H]，λ_H＝H/L，λ_W＝W/L；

式中，为双线性输出在位置处(x^t,y^t)的像素值，为裁剪后深度特征的特征图在位置(m,n)的像素值，H、W分别为所述特征图的高度与宽度，L为所述边长。

可选的，所述深度特征提取子模块包括4个相同结构的空洞卷积模块，每个空洞卷积模块沿数据流处理方向依次包括1*1的卷积层、第一BN归一化层、第一带泄露线性整流函数层、3*3的空洞卷积层、第二BN归一化层及第二带泄露线性整流函数层。

可选的，所述第一BN归一化层包括：

均值计算单元，用于利用计算每个通道的像素均值，为通道c的像素均值，B为当前训练批次包含的图像总数，Y₁ ^b(c,i,j)为当前训练批次的第b张输入图像，h、w分别为特征图通道的高度和宽度；

方差计算单元，用于利用计算每个通道的像素方差，为通道c的像素方差；

归一化单元，用于利用对Y₁ ^b(c,i,j)进行归一化处理，得到归一化的图像ε为正常数；

图像处理单元，用于利用对进行图像处理，γ为缩放因子，β为平移因子。

可选的，所述深度网络模型还包括图像预处理模块，用于将待识别图像的图像格式转化为预设网络输入格式，所述图像预处理模块包括：

图像缩放子模块，用于将所述待识别图像的尺寸缩放为预设尺寸；

归一化子模块，用于利用第三公式对所述待识别图像进行像素归一化；所述第三公式为：

式中，p_i,j,c为所述待识别图像通道c位置(i，j)的像素值，为归一化之后的像素值，H为所述待识别图像的高度，W为所述待识别图像的宽度，为第m幅图像通道C位置(i，j)的像素值，M为图像总数。

可选的，所述图像预处理模块还包括：

亮度调节子模块，用于按照预设亮度比例值对所述待识别图像进行亮度调节；所述亮度比例值从亮度比例范围内选取，所述亮度比例范围为[0.5，1.5]；

对比度调节子模块，用于按照预设对比度比例值对所述待识别图像进行对比度调节；所述对比度比例值从对比度比例范围内选取，所述亮度比例范围为[0.5，1.5]。

可选的，所述图像识别模块还包括：

池化子模块，用于利用第四公式对每个图像识别特征进行全局平均池化处理，所述第四公式为：

式中，H_scale、W_scale分别为各图像识别特征的高度与宽度，为在位置(m,n)的像素值；

全连接层子模块，用于将经所述池化子模块处理后的图像识别特征统一保存至特征数据集中；

特征识别子模块，用于对所述特征数据集中的图像特征进行识别，并输出结果。

可选的，所述特征识别子模块包括：

目标特征向量计算单元，用于基于所述特征数据集，利用计算得到目标特征向量f_avg，所述特征数据集包含N个特征向量

类别向量输出单元，用于利用第五公式计算所述图像识别特征所属每类微表情的类别向量o_i，所述第五公式为：

式中，num_cls为人脸微表情类别总数，f_avg(i)为所述目标特征向量f_avg第i元素的值。

本申请提供的技术方案的优点在于，首先利用深度特征提取子模块对输入图像进行特征提取，得到深度特征；然后利用判别性特征提取子模块将深度特征作为输入，经过进一步的特征强化得到一系列判别性特征；最后利用图像识别模块对判别性特征进行分类输出表情分类结果。直接将待识别人脸微表情图像输入至深度网络模型，便可得到最终的微表情分类结果，测试方便；利用数据驱动的方式自动从输入图像中学习分类所需特征，无需人工设计特征，省去人工特征设计的麻烦，解决了已有的人工特征设计和测试多步骤繁琐导致准确率不高、效率低下的问题，实现了高效、快速、准确地识别人脸微表情。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

为了更清楚的说明本发明实施例或相关技术的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于深度学习的人脸微表情识别系统的一种具体实施方式结构图；

图2为本发明实施例提供的一种特征提取模块的数据处理流程示意图；

图3为本发明实施例提供的空洞卷积模块的一种具体实施方式结构图；

图4为本发明实施例提供的判别性特征提取子模块的一种具体实施方式结构图；

图5为本发明实施例提供的判别性区域提议网络的一种具体实施方式结构图；

图6为本发明实施例提供的图像识别模块的一种具体实施方式结构图；

图7为本发明实施例提供的一种图像预处理的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在介绍了本发明实施例的技术方案后，下面详细的说明本申请的各种非限制性实施方式。

首先参见图1，图1为本发明实施例提供的基于深度学习的人脸微表情识别系统在一种具体实施方式下的结构示意图，本发明实施例可包括以下内容：

基于深度学习的人脸微表情识别系统可包括深度网络模型1，深度网络模型1用于对输入图像进行人脸微表情识别，可包括特征提取模块11和图像识别模块12。

其中，特征提取模块11用于提取图像识别特征，图像识别特征可包括深度特征和判别性特征，相应的，可分别利用深度特征提取子模块111和判别性特征提取子模块112提取。

在本申请中，深度特征提取子模块111可依次包括第一卷积层及多个空洞卷积模块；空洞卷积模块用于对第一卷积层输出的卷积结果进行数据处理并输出深度特征。第一卷积层对输入的待识别图像进行卷积处理，并将卷积处理后的结果数据输入至第一个空洞卷积模块中，第一个空洞卷积模块对接收到的数据进行处理后输入至第二空洞卷积模块，直至最后一个空洞卷积模块输出的数据即为待识别图像的深度特征。利用空洞卷积可增大感受野，避免使用池化造成图像空间信息丢失，有利于提升模型识别准确度。

可选的，请参阅图2所示，深度特征提取子模块111可包括7*7的第一卷积层和4个相同的空洞卷积模块，每个空洞卷积模块沿数据流处理方向可依次包括1*1的卷积层、第一BN归一化层、第一带泄露线性整流函数层、3*3的空洞卷积层、第二BN归一化层及第二带泄露线性整流函数层，其结构例如可如图3所示。在该实施方式中，空洞卷积模块可首先使用1×1卷积模板K^1×1对空洞卷积模块的输入X进行卷积，将结果储存于Y₁中，Y₁(i,j)＝K^1×1X(i,j)，X(i,j)为(i,j)位置的像素值。然后可对Y₁使用批归一化，当前训练批次可包含B张输入图像，批归一化的输入为Y₁＝{Y₁ ¹,...,Y₁ ^b,...,Y₁ ^B}，其中，为当前输入批次中第b张图像得到的特征图，C、h、w分别为特征图通道数目、高度和宽度，第一BN归一化层得到的输出为Y₂。经过BN归一化层之后，可使用Leaky RELU(带泄露线性整流(Leaky ReLU)非线性激活函数作用于Y₂，得到激活输出Y₃，Y₃＝LRELU(Y₂)，然后使用3×3卷积模板K^3×3对Y₃实施空洞卷积操作，将卷积输出保存于Y₄中，设置空洞卷积常数l，则3×3空洞卷积操作可如下所示：

在得到Y₄后，利用第二BN归一化层对Y₄进行归一化得到Y₅，可使用第二带泄露线性整流函数层中的Leaky RELU非线性激活函数作用于Y₅得到Y₆，Y₆为一个空洞卷积模块的输出。

在该实施方式中，第一BN归一化层和第二BN归一化层用于对输入数据进行批归一化处理，二者可包含相应的结构，以第一BN归一化层为例，第一BN归一化层可包括：

归一化单元，用于利用对Y₁ ^b(c,i,j)进行归一化处理，得到归一化的图像ε为任意一个小的正常数；

图像处理单元，用于利用对进行图像处理，γ为缩放因子，β为平移因子，缩放因子γ和平移因子β均可通过网络自学习得到。

在本申请中，请参阅图4，判别性特征提取子模块112可用于利用基于判别性区域提议网络(Discriminative Region Proposal Network，DRPN))得到的多个判别性区域(Discriminative Region，DR)对深度特征进行裁剪，并将裁剪后的特征进行特征放大，以作为图像识别特征。也就是说，判别性特征提取子模块112将深度特征提取子模块111提取的深度特征作为输入，经过进一步的特征强化得到一系列判别性特征，利用判别性区域提议网络对人脸微表情图像进行判别性区域定位。判别性区域提议网络可沿数据流处理方向依次包括空洞卷积模块、卷积层及全连接层，例如图5所示，其中，卷积层可为1*1的卷积层，DCM模块为空洞卷积模块，全连接层输出的神经元个数为2N个，依次对应N个判别性区域中心点坐标。判别性区域提议网络具有自动识别图像中对分类具有贡献的判别性区域的能力，可解决已有技术需要人工识别微表情图像中判别性区域的问题。

在一种实施方式中，判别性特征提取子模块可包括：

判别性区域中心点坐标确定单元，用于基于深度特征，利用判别性区域提议网络得到N个判别性区域中心点坐标S＝{(xⁱ,yⁱ)|i＝1,...,N}。

判别性区域确定单元，用于基于各判别性区域中心点坐标和预设边长确定相应判别性区域；例如预设边长大小为L，则得到N个判别性区域为

裁剪单元，用于利用各判别性区域对深度特征进行裁剪。可采用任何一种尺寸调整算法实现对深度特征的特征图进行图像裁剪，这均不影响本申请的实现。可选的，例如可基于第一公式，利用各判别性区域对深度特征进行裁剪；第一公式可为：

δ(x)＝1/(1+exp^-kx)；

式中，为第i个判别性区域裁剪深度特征得到的特征，F_deep为深度特征，x、y分别为深度特征的特征图宽度与高度方向上的坐标值，例如可以图像左上角为坐标原点，k为大于零的常数，L为边长，δ()为sigmoid函数的变体。需要说明的是，相关技术对原图像进行裁剪，分别送入卷积网络进行特征提取，此种方法效率低下，测试时间长，而本申请只需对图像进行一次特征提取，对特征利用裁剪单元进行裁剪，测试时间短，效率高。

特征放大单元，用于分别将裁剪后的N个特征的特征图尺寸放大至深度特征的特征图尺寸。在对深度特征的特征图进行裁剪后，得打多个特征图，可使用任何一种尺寸调节算法将裁剪后的特征图的尺寸调整为深度特征的特征图的尺寸，本申请对此不做任何限定。在一种实施方式中，可根据第二公式对裁剪后的特征进行特征放大，经过特征放大操作之后，得到一系列判别性特第二公式可为：

x^s＝[x^t/λ_W]，y^s＝[y^t/λ_H]，λ_H＝H/L，λ_W＝W/L；

式中，为双线性输出在位置处(x^t,y^t)的像素值，为裁剪后深度特征的特征图在位置(m,n)的像素值，H、W分别为特征图的高度与宽度，L为边长。

在本申请中，图像识别模块12可用于对图像识别特征进行微表情识别并输出识别结果。识别结果可为待识别图像的人脸微表情的类别，例如悲伤、惊讶、惊恐；也可为待识别图像的人脸微表情隶属于每类表情的概率，这均不影响本申请的实现。

在一种具体实施方式中，请参阅图6，图像识别模块12可包括：

池化子模块，用于利用第四公式对每个图像识别特征进行全局平均池化(Global Average Pooling，GAP)处理，并将结果储存于中。第四公式可为：

全连接层子模块，用于将经池化子模块处理后的图像识别特征统一保存至特征数据集中。也就是说，依次对每个图像识别特征进行GAP之后的使用全连接层，此全连接层输出神经元的个数与微表情类别数相同，设为num_cls，将结果保存于

特征识别子模块，用于对特征数据集中的图像特征进行识别，并输出结果。在一种实施方式中，特征识别子模块可包括：

目标特征向量计算单元，用于基于特征数据集，利用计算得到目标特征向量f_avg，特征数据集包含N个特征向量

类别向量输出单元，用于对f_avg使用softmax激活函数，得到最终的类别输出向量o，也即利用第五公式计算图像识别特征所属每类微表情的类别向量o_i，第五公式为：

式中，num_cls为人脸微表情类别总数，f_avg(i)为目标特征向量f_avg第i元素的值。

需要说明的是，本申请的深度网络模型1为一种端到端、基于深度学习方法训练得到的模型。在其训练或测试过程中，可使用类别交叉熵损失函数，并使用随机梯度下降算法进行端到端训练优化。

在本发明实施例提供的技术方案中，首先利用深度特征提取子模块对输入图像进行特征提取，得到深度特征；然后利用判别性特征提取子模块将深度特征作为输入，经过进一步的特征强化得到一系列判别性特征；最后利用图像识别模块对判别性特征进行分类输出表情分类结果。由于对输入图像进行人脸微表情识别的深度网络模型结构采用端到端训练和测试，直接输入待识别的人脸微表情图像，便可得到最终的微表情分类结果，测试方便；利用数据驱动的方式自动从输入图像中学习分类所需特征，无需人工设计特征，省去人工特征设计的麻烦，解决了已有的人工特征设计和测试多步骤繁琐导致准确率不高、效率低下的问题，实现了高效、快速、准确地识别人脸微表情。

在另外一种实施方式中，为了提高模型对人脸微表情的识别准确度和效率，在提取图像识别特征之前，还可对待识别图像进行图像预处理。鉴于此，基于深度学习的人脸微表情识别系统还可图像预处理模块，该模块用于将待识别图像的图像格式转化为预设网络输入格式。在一种具体实施方式中，图像预处理模块可包括：

图像缩放子模块，用于将待识别图像的尺寸缩放为预设尺寸；例如将待识别图像缩放为227×227。

归一化子模块，用于利用下述公式对待识别图像进行像素归一化：

式中，p_i,j,c为待识别图像通道c位置(i，j)的像素值，为归一化之后的像素值，H为待识别图像的高度，W为待识别图像的宽度，为第m幅图像通道C位置(i，j)的像素值，M为图像总数。

基于上述实施例，请参阅图6，图像预处理模块进一步还可包括：

亮度调节子模块，用于按照预设亮度比例值对待识别图像进行亮度调节。其中，亮度比例值可从亮度比例范围内选取，亮度比例范围为[0.5，1.5]，也就是说，可以0.5～1.5的比例对待识别图像进行亮度调节，亮度比例值当然也可为不属于0.5～1.5中任何一个值，这均不影响本申请的实现。

对比度调节子模块，用于按照预设对比度比例值对待识别图像进行对比度调节。其中，对比度比例值从对比度比例范围内选取，亮度比例范围为[0.5，1.5]。也就是说，可以0.5～1.5的比例对待识别图像进行对比度调节，对比度比例值当然也可为不属于0.5～1.5中任何一个值，这均不影响本申请的实现。

由上可知，本申请提供了一种端到端的基于深度学习的表情分类方法，直接输入待识别的人脸微表情图像，得到最终的微表情分类结果，测试方便，利用数据驱动的方式自动从输入图像中学习分类所需特征，无需人工设计特征，省去人工特征设计的麻烦，只需对图像进行一次特征提取，对特征进行裁剪，测试时间短，效率高，并且DRPN具有自动识别图像中对分类具有贡献的判别性区域的能力。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种基于深度学习的人脸微表情识别系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于深度学习的人脸微表情识别系统，其特征在于，包括用于对输入图像进行人脸微表情识别的深度网络模型，所述深度网络模型包括用于提取图像识别特征的特征提取模块和用于对所述图像识别特征进行微表情识别并输出识别结果的图像识别模块；

2.根据权利要求1所述的基于深度学习的人脸微表情识别系统，其特征在于，所述判别性特征提取子模块包括：

3.根据权利要求2所述的基于深度学习的人脸微表情识别系统，其特征在于，所述裁剪单元用于基于第一公式，利用各判别性区域对所述深度特征进行裁剪；所述第一公式为：

4.根据权利要求2所述的基于深度学习的人脸微表情识别系统，其特征在于，所述特征放大单元用于根据第二公式对裁剪后的特征进行特征放大，所述第二公式为：

x^s＝[x^t/λ_W]，y^s＝[y^t/λ_H]，λ_H＝H/L，λ_W＝W/L；

5.根据权利要求1所述的基于深度学习的人脸微表情识别系统，其特征在于，所述深度特征提取子模块包括4个相同结构的空洞卷积模块，每个空洞卷积模块沿数据流处理方向依次包括1*1的卷积层、第一BN归一化层、第一带泄露线性整流函数层、3*3的空洞卷积层、第二BN归一化层及第二带泄露线性整流函数层。

6.根据权利要求5所述的基于深度学习的人脸微表情识别系统，其特征在于，所述第一BN归一化层包括：

均值计算单元，用于利用计算每个通道的像素均值，μ_B(c)为通道c的像素均值，B为当前训练批次包含的图像总数，为当前训练批次的第b张输入图像，h、w分别为特征图通道的高度和宽度；

7.根据权利要求1-6任意一项所述的基于深度学习的人脸微表情识别系统，其特征在于，所述深度网络模型还包括图像预处理模块，用于将待识别图像的图像格式转化为预设网络输入格式，所述图像预处理模块包括：

8.根据权利要求7所述的基于深度学习的人脸微表情识别系统，其特征在于，所述图像预处理模块还包括：

9.根据权利要求1-6任意一项所述的基于深度学习的人脸微表情识别系统，其特征在于，所述图像识别模块还包括：

10.根据权利要求9所述的基于深度学习的人脸微表情识别系统，其特征在于，所述特征识别子模块包括：