CN110020582B

CN110020582B - 基于深度学习的人脸情绪识别方法、装置、设备及介质

Info

Publication number: CN110020582B
Application number: CN201811503107.2A
Authority: CN
Inventors: 盛建达
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2023-11-24
Anticipated expiration: 2038-12-10
Also published as: CN110020582A

Abstract

本发明公开了一种基于深度学习的人脸情绪识别方法、装置、设备及介质，所述方法包括：将待识别图像输入预设的深度学习模型中，使用深度学习模型中的输入层对待识别图像进行通道数据提取，得到待识别图像的人脸图像数据，并使用卷积层的第一卷积核对人脸图像数据进行深度卷积计算，得到特征数据，以及使用卷积层的第二卷积核对特征数据进行点卷积计算，得到待识别图像的人脸特征，最后，使用全连接层对人脸特征进行分类回归，得到待识别图像的的情绪状态。本发明实施例通过将传统的深度学习算法中的标准的卷积运算分解成一个深度卷积的计算和一个点卷积的计算，减少了深度学习模型的计算量，提高情绪识别模型的运算速率。

Description

基于深度学习的人脸情绪识别方法、装置、设备及介质

技术领域

本发明涉及生物识别技术领域，尤其涉及一种基于深度学习的人脸情绪识别方法、装置、设备及介质。

背景技术

深度学习是人工智能领域中当前比较热门的应用领域，在语音识别、图像识别和自然语言处理方面都有比较好的效果，而人脸情绪的识别是研究如何使计算机从静态图像或者视频序列中获取人脸表情并加以辨别的技术，对于人机交互与情感计算的研究有重要的意义，目前，一般会使用深度学习算法对情绪识别模型进行训练，例如，卷积神经网络和循环神经网络等深度学习算法，通过对人脸样本图片进行深度学习，构建情绪识别模型用于对人物的情绪进行检测。

如今，越来越多的应用需要在移动端对人物的情绪进行检测，但是，通过深度学习算法构建的情绪识别模型的模型运算比较复杂，并且在人物情绪的检测过程中数据运算量大，而移动端的运算能力有限，无法进行大量数据的运算，从而导致移动端不能很好地支持情绪识别模型的模型运算。

发明内容

本发明实施例中提供一种基于深度学习的人脸识别方法、装置、设备及介质，以解决目前通过深度学习算法构建的情绪识别模型的运算量大的问题。

一种基于深度学习的人脸情绪识别方法，包括：

从预设的人脸图像数据集中获取人脸图像；

按照预设的处理方式对所述人脸图像进行预处理，得到待识别图像；

将所述待识别图像输入预设的深度学习模型中，其中，所述预设的深度学习模型包括输入层、卷积层和全连接层，所述卷积层包括第一卷积核和第二卷积核；

使用所述输入层对所述待识别图像进行通道数据提取，得到所述待识别图像的人脸图像数据；

将所述人脸图像数据传递给所述卷积层，并使用所述卷积层的所述第一卷积核对所述人脸图像数据进行深度卷积计算，得到特征数据，其中，所述第一卷积核的结构为H×W×1×M，H、W和M均为正整数；

使用所述卷积层的所述第二卷积核对所述特征数据进行点卷积计算，得到所述待识别图像的人脸特征，其中，所述第二卷积核的结构为1×1×N×M，N为正整数；

使用所述全连接层对所述人脸特征进行分类回归，得到所述待识别图像的识别结果，其中，所述识别结果包括所述待识别图像中人脸的情绪状态。

一种基于深度学习的人脸情绪识别装置，包括：

图像获取模块，用于从预设的人脸图像数据集中获取人脸图像；

图像处理模块，用于按照预设的处理方式对所述人脸图像进行预处理，得到待识别图像；

图像输入模块，用于将所述待识别图像输入预设的深度学习模型中，其中，所述预设的深度学习模型包括输入层、卷积层和全连接层，所述卷积层包括第一卷积核和第二卷积核；

数据提取模块，用于使用所述输入层对所述待识别图像进行通道数据提取，得到所述待识别图像的人脸图像数据；

第一卷积模块，用于将所述人脸图像数据传递给所述卷积层，并使用所述卷积层的所述第一卷积核对所述人脸图像数据进行深度卷积计算，得到特征数据，其中，所述第一卷积核的结构为H×W×1×M，H、W和M均为正整数；

第二卷积模块，用于使用所述卷积层的所述第二卷积核对所述特征数据进行点卷积计算，得到所述待识别图像的人脸特征，其中，所述第二卷积核的结构为1×1×N×M，N为正整数；

情绪输出模块，用于使用所述全连接层对所述人脸特征进行分类回归，得到所述待识别图像的识别结果，其中，所述识别结果包括所述待识别图像中人脸的情绪状态。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于深度学习的人脸情绪识别方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于深度学习的人脸情绪识别方法。

上述基于深度学习的人脸情绪识别方法、装置、设备及介质，通过将待识别图像输入预设的深度学习模型中，使用深度学习模型的输入层对待识别图像进行通道数据提取，得到待识别图像的人脸图像数据，将人脸图像数据传递给卷积层，并使用卷积层的第一卷积核对人脸图像数据进行深度卷积计算，得到特征数据，再使用卷积层的第二卷积核对特征数据进行点卷积计算，得到待识别图像的人脸特征，最后，使用全连接层对人脸特征进行分类回归，得到待识别图像的识别结果，从而确定待识别图像中人脸的情绪状态。通过将传统的深度学习算法中的标准的卷积运算分解成一个深度卷积的计算和一个点卷积的计算，减少了深度学习模型的计算量，提高情绪识别模型的运算速率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于深度学习的人脸情绪识别方法的一应用环境示意图；

图2是本发明一实施例中基于深度学习的人脸情绪识别方法的一流程图；

图3是图2中步骤S4的一具体流程图；

图4是图2中步骤S2的一具体流程图；

图5是本发明一实施例中基于深度学习的人脸情绪识别方法获取人脸图像的一具体流程图；

图6是图2中步骤S7的一具体流程图；

图7是本发明一实施例中基于深度学习的人脸情绪识别装置的一原理框图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供的基于深度学习的人脸情绪识别方法，可应用在一包括客户端的如图1所示的应用环境中，客户端通过获取待识别的人脸图像，并且通过使用预先安装于客户端的预设的深度学习模型对待识别的人脸图像进行识别，从而得到人脸图像中人物的情绪状态。图1所示的客户端具体可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

在一实施例中，图2示出本实施例中基于深度学习的人脸情绪识别方法的一流程图，用于识别人脸图像中人物的情绪状态。如图2所示，该基于深度学习的人脸情绪识别方法包括步骤S1至步骤S7，详述如下：

S1：从预设的人脸图像数据集中获取人脸图像。

其中，预设的人脸图像数据集是用于保存人脸图像的存储空间，该人脸图像数据集具体可以是SD卡或者移动硬盘等记忆芯片中的存储空间，该人脸图像数据集中人脸图像是指需要对图像中人物的情绪进行识别的人脸图像，人脸图像的图像格式包括但不限于jpg、png和jpeg等格式，具体可以是从互联网中获取的人脸图像，也可以是用户通过客户端拍摄的人脸图像，或者是摄像机拍摄得到的人脸图像等等，该人脸图像具体来源可以根据实际应用的需要进行获取，此处不做限制。

S2：按照预设的处理方式对人脸图像进行预处理，得到待识别图像。

其中，预设的处理方式是指预先设置对人脸图像进行尺寸、灰度和形状等变换处理的方式，用于将人脸图像转换成预设规格的待识别图像，该预设规格包括但不限于预设的尺寸、预设的灰度等级和预设的形状等，以便后续的图像处理更加高效，提高图像的数据处理效率。

其中，待识别图像的预设规格可以根据实际应用的需要进行设置，此处不做限制，例如，待识别图像的像素的尺寸可以设置为168*168，也可以设置为256*256等。

具体地，使用预设的人脸识别算法获取人脸图像中的人脸区域，该预设的人脸识别算法可以根据图像中的人脸五官检测得到人脸区域，从人脸图像中裁剪出人脸所在的区域，得到裁剪后的人脸图像，再将裁剪得到的人脸图像的像素的尺寸转换为预设尺寸的图像，得到预设尺寸的图像，再对该预设尺寸的图像进行灰度化和去噪等处理，消除待识别的人脸图像中的噪声信息，增强与人脸相关的信息的可检测性和简化图像数据，并将预处理之后的图像作为待识别图像，实现对人脸图像的预处理。

例如，可以预先将待识别图像的像素尺寸设置为168*168，对人脸图像数据集中一尺寸为[1280，720]的人脸图像，通过预设的人脸识别算法检测出人脸图像中人脸的区域，并从人脸图像中裁剪出人脸所在的区域，再将裁剪得到的人脸图像的尺寸转换为[168，168]尺寸的图像，并且通过对预设尺寸的图像进行灰度化和去噪等处理，从而得到预设规格的待识别图像。

S3：将待识别图像输入预设的深度学习模型中，其中，预设的深度学习模型包括输入层、卷积层和全连接层，卷积层包括第一卷积核和第二卷积核。

在本实施例中，预设的深度学习模型是基于Densnet(Dense ConvolutionalNetwork，稠密卷积神经网络)构建的神经网络模型，Densnet是一种深度学习的神经网络，能够加强图像的特征信息在Densnet中的各个网络层之间的传递，更有效地利用了图像各个层次的特征信息，提高神经网络模型的识别准确率。

其中，预设的深度学习模型包括输入层、卷积层和全连接层，输入层是用于对图像的通道数据进行提取的网络层，卷积层是用于对图像的特征信息进行提取的网络层，全连接层是用于将提取到的特征信息进行回归分析的网络层。

进一步地，卷积层包括第一卷积核和第二卷积核，卷积核是卷积层中预设的权值，用于对待识别图像进行卷积操作的模型参数，使得深度学习模型能够提取待识别图像的特征信息。

S4：使用输入层对待识别图像进行通道数据提取，得到待识别图像的通道数据。

具体地，在预设的深度学习模型中，使用输入层中预设的通道对待识别图像进行图像数据提取，能够得到用于描述待识别图像的图像特征的通道数据，该通道数据是待识别图像的基础。

需要说明的是，通道数据包括单通道数据和多通道数据，针对图像中的一个像素点，若可以用一个数值就能够给描述该像素点，则该数值为图像的单通道数据；若需要用多个数值进行描述该像素点，则该多个数值组成的向量即为图像的多通道数据。

可选地，本发明实施例中输入层的通道个数可以设置为3，通过R(红)、G(绿)和B(蓝)三个分量进行描述待识别图像中的像素点，也即，可以使用向量(R、G、B)表示待识别图像中的像素点，其中，每个通道的分量的取值范围均为[0，255]，0表示纯黑色，255表示纯白色。

S5：将人脸图像数据传递给卷积层，并使用卷积层的第一卷积核对人脸图像数据进行深度卷积计算，得到特征数据，其中，第一卷积核的结构为H×W×1×M，H、W和M均为正整数。

具体地，根据步骤S4得到的人脸图像数据，使用卷积层的第一卷积核对人脸图像数据进行深度卷积计算，该深度卷积计算是指在输入的每个通道中独立执行空间卷积，提取每个通道中的特征信息，得到待识别图像中人脸的特征数据，该第一卷积核的结构具体为H×W×1×M，其中，H为第一卷积核的高，W为第一卷积核的宽，M为第一卷积核的个数。

S6：使用卷积层的第二卷积核对特征数据进行点卷积计算，得到待识别图像的人脸特征，其中，第二卷积核的结构为1×1×N×M，N为正整数。

具体地，根据步骤S5得到的特征数据，使用卷积层的第二卷积核对特征数据进行点卷积计算，将深度卷积计算后的通道输出映射到新的通道空间中，得到待识别图像的人脸特征，实现跨通道的交互和信息整合，从而得到用于描述待识别图像的特征信息，其中，该第二卷积核的结构具体为1×1×N×M，N为通道的个数，M为第二卷积核的个数，第一卷积核的个数与第二卷积核的个数相同。

需要说明的是，在传统的Densnet模型中，Densnet模型的卷积层的卷积核的结构为a×b×c×d，即Densnet模型的运算参数为a×b×c，在本发明实施例中，使用结构为H×W×1×M的第一卷积核和结构为1×1×N×M的第二卷积核来替代结构为a×b×c×d的传统卷积核，使得预设的深度学习模型的运算参数变为H×W×1×M和1×1×N×M的卷积计算，由于Densnet模型中运算参数较多，在将传统Densnet模型中的标准的卷积运算分解成一个深度卷积的计算和一个点卷积的计算之后，能够极大程度地减少了参数的数量，提高模型的运算效率。

例如，在一具体实施方式中，传统的Densnet模型中有192个3×3×32×192卷积核，3×3×32×192＝55296，则传统的Densnet模型在卷积层中需要对输入卷积层中的输入数据进行55296次迭代加权的卷积计算，然而，在预设的深度学习模型中，使用结构为H×W×1×M的第一卷积核和结构为1×1×N×M的第二卷积核替代传统的Densnet模型中的卷积核，也即，预设的深度学习模型的第一卷积核的卷积结构为3×3×1×192，第二卷积核的卷积结构为1×1×32×192，由于3×3×1×192+1×1×32×192＝7872，则预设的深度学习模型的卷积运算共计需要7872次迭代加权的卷积计算，并且，使用第一卷积核和第二卷积核进行卷积计算的级联效果，与传统的Densnet模型中直接通过192个3×3×32×192卷积核进行卷积计算的效果等效，因此，在本实施例中，通过对传统卷积核结构的改进，使得模型的运算量减少，极大提高了运算效率。

S7：使用全连接层对人脸特征进行分类回归，得到待识别图像的识别结果，其中，识别结果包括待识别图像中人脸的情绪状态。

具体地，在预设的深度学习模型的全连接层中，使用全连接层中预设的激活函数对人脸特征进行回归分析，得到待识别图像的人脸特征属于每个预设的情绪状态的概率值，从而实现对人脸特征的分类，并将概率值最大的情绪状态输出作为待识别图像的识别结果，得到待识别图像中人物的情绪状态，其中，预先设置的人物的情绪状态包括但不限于开心、悲伤、恐惧、生气、惊讶、厌恶和平静等情绪，但并不限于此，具体可以根据实际应用的需要设置情绪的类别。

进一步地，激活函数用于对待识别图像的人脸特征进行回归分析，得到待识别图像的人脸特征与预设的情绪状态之间的相关性，激活函数具体可以是sigmoid、rule和Softmax等激活函数，本实施例中，可以采用Softmax激活函数对输入全连接层的人脸特征进行分类回归，能够直观地比较深度学习模型预测待识别图像中的人脸属于每个情绪状态的概率值，极大地减少了模型的运算量，从而能够实现在移动端对人脸图像中人物情绪的识别。

在图2对应的实施例中，通过将待识别图像输入预设的深度学习模型中，使用深度学习模型的输入层对待识别图像进行通道数据提取，得到待识别图像的人脸图像数据，将人脸图像数据传递给卷积层，并使用卷积层的第一卷积核对人脸图像数据进行深度卷积计算，得到特征数据，再使用卷积层的第二卷积核对特征数据进行点卷积计算，得到待识别图像的人脸特征，最后，使用全连接层对人脸特征进行分类回归，得到待识别图像的识别结果，从而确定待识别图像中人脸的情绪状态。通过将传统的深度学习算法中的标准的卷积运算分解成一个深度卷积的计算和一个点卷积的计算，减少了深度学习模型的计算量，提高情绪识别模型的运算速率。

在一实施例中，本实施例对步骤S4中所提及的使用输入层对待识别图像进行通道数据提取，得到待识别图像的人脸图像数据的具体实现方法进行详细说明。

请参阅图3，图3示出了步骤S4的一具体流程图，详述如下：

S41：使用输入层提取待识别图像中的图像通道数据。

具体地，图像通道数据是用于表示待识别图像的数据，通过使用预设的深度学习模型的输入层对待识别图像进行图像数据提取，能够得到待识别图像的图像通道数据，从而将图像中的信息进行数字化，便于机器模型的识别分析。

S42：对图像通道数据和预设的乘宽系数进行求积运算处理，得到人脸图像数据，其中，预设的乘宽系数为A，A∈(0,1)。

具体地，根据图像通道数据与模型的识别准确率之间的线性函数关系，在随着图像通道数据的增加而模型的识别准确率的增幅最小时，获取该图像通道数据对应的参数数量作为优选参数数量，并根据模型在输入层提取到的图像通道数据的参数数量，设置一个乘宽系数A，A为大于0并且小于1的一个实数，该乘宽系数具体可以根据实际应用的需要进行设置，以便用于减少参与模型识别运算的图像通道数据，使得模型在输入层提取到的图像通道数据与乘宽系数相乘后得到的参数数量等于优选参数数量，从而得到人脸图像数据。

需要说明的是，图像通道数据越多，越有利于深度学习模型对于待识别图像的识别，但是，当图像通道数据达到一定数量时，随着图像通道数据的增加，模型的识别准确率将趋于平缓，不再有明显的变化，因此，在模型的识别准确率的增幅最小时对应的图像通道数据的参数数量比较适合用于进行模型的识别运算。

在图3对应的实施例中，通过使用输入层提取待识别图像中的图像通道数据，并对图像通道数据和预设的乘宽系数进行求积运算处理，得到人脸图像数据，在保证模型的识别准确率的同时，按比例减少图像通道数据的参数数量，从而减少模型的参数数量，使得预设的深度学习模型的模型大小减小，并且，由于用于参与模型识别运算的通道数据中的参数数量的减少，能够提高模型的运算速率。

在一实施例中，本实施例对步骤S2中所提及的按照预设的处理方式对人脸图像进行预处理，得到待识别图像的具体实现方法进行详细说明。

请参阅图4，图4示出了步骤S2的一具体流程图，详述如下：

S21：对每个人脸图像进行灰度级变换处理，得到第一人脸图像。

具体地，按照公式(1)使用预设的灰度值变换函数对每个人脸图像进行灰度级变换处理：

g(x，y)＝T(f(x，y)) 公式(1)

其中，f为人脸图像，T为预设的灰度值变换函数，g为第一人脸图像，x和y分别表示人脸图像中的横坐标与纵坐标，f(x，y)表示人脸图像中坐标点(x，y)对应的像素值，g(x，y)表示第一人脸图像中坐标点(x，y)对应的像素值。

S22：对第一人脸图像进行去噪处理，得到第二人脸图像。

具体地，图像噪声是指存在于图像数据中的不必要的或多余的干扰信息，例如，高斯噪声、瑞利噪声、伽马噪声和椒盐噪声等，噪声会人脸图像的识别造成影响，因此，可以采用均值滤波、中值滤波或者维纳滤波等方法对第一人脸图像进行噪声去除处理。

可选地，客户端可以采用中值滤波对第一人脸图像进行噪声去除处理，中值滤波法是一种非线性的信号处理技术，通过将噪声点的灰度值替换为该噪声点的邻域窗口内的所有像素点的灰度值的中值，使得周围的像素点的灰度值接近的真实值，从而消除孤立的噪声点，得到第二人脸图像。

S23：对第二人脸图像进行标准化处理，得到目标人脸图像，并将目标人脸图像作为待识别图像。

具体地，标准化处理是指将人脸图像转换为预设规格的待识别图像的处理方式，该预设规格包括但不限于预设的尺寸、预设的灰度等级和预设的形状等，即将人脸图像转换成统一的尺寸、统一的灰度等级和统一的形状的待识别图像，按照预设的尺寸、预设的灰度等级和预设的形状对将第二人脸图像进行标准化处理之后，得到预设规格的待识别图像，其中，待识别图像的预设规格可以根据实际应用的需要进行设置，此处不做限制，例如，待识别图像的像素的尺寸可以设置为168*168，也可以设置为256*256等。

在图4对应的实施例中，通过按照公式(1)对每个人脸图像进行灰度级变换处理、去噪处理和标准化处理，得到预设规格的待识别图像，使得待识别图像更加规范化，并且待识别图像的细节更加清楚，易于被识别，以便后续的模型训练过程对待识别图像的处理能够更加高效，减少待识别图像的复杂度和信息处理量，从而提高机器学习模型的训练速率和识别准确率。

在一实施例中，如图5所示，在步骤S1中所提及的从预设的人脸图像数据集中获取人脸图像之前，该基于深度学习的人脸情绪识别方法还包括：

S101：获取视频数据，并按照预设的帧提取频率，从视频数据中提取目标视频帧图像。

在本实施例中，视频数据具体可以从预设的视频源渠道获取，该视频源渠道可以是监控设备中录制的视频数据、互联网中的视频数据或者客户端拍摄的视频数据等。

具体地，按照预设的帧提取频率对获取到的视频数据进行处理，从该视频数据的预设位置开始提取帧图像，得到目标视频帧图像，其中，该预设的帧提取频率通常可以设置为每连续2帧图像中随机提取1帧图像，但并不限于此，预设的帧提取频率可以根据实际应用的需要进行设置，该预设位置可以是视频数据的第一帧位置，也可以是其他位置，此处不做限制。

例如，假设预设的帧提取频率为每连续5帧图像中随机提取1帧图像，若视频数据的总帧数为2500帧，并从该视频数据的第一帧开始提取，则目标视频帧图像的数量为500帧。

S102：采用预设的人脸识别算法对目标视频帧图像进行识别，判断目标视频帧图像中是否存在人脸区域。

其中，人脸区域是人的颈部以上的面部特征，人脸区域不仅包含眼、耳、口、鼻、眉等五个器官，还可以包括人脸的肤色、人脸的表情等特征。预设的人脸识别算法是用于识别图像中人脸的面部特征的算法。本实施例中，预先设置人脸识别程序，该人脸识别程序中存储有人脸识别算法，在人脸识别程序被处理器执行时，可采用该预设的人脸识别算法对目标视频帧图像进行人脸识别，以获取包含人脸特征的人脸图像。

本实施例中，可以采用基于几何特征的人脸识别算法、基于特征脸的人脸识别算法、基于弹性模型的人脸识别算法或者基于神经网络(Neural Networks)的人脸识别算法等人脸识别算法对人脸区域进行识别。

具体地，采用基于几何特征的人脸识别算法对目标视频帧图像进行识别，其中，基于几何特征的人脸识别算法是通过提取眼、耳、口、鼻、眉等器官的几何特征作为分类特征进行人脸识别的方法，若目标视频帧图像包含人脸区域的五个器官，则确认该目标视频帧图像中存在人脸区域，并执行步骤S103，若识别出目标视频帧图像中不存在人脸区域，则该目标视频帧图像不是包含人脸的面部特征的有效图像，并删除该目标视频帧图像。

S103：若目标视频帧图像中存在人脸区域，则将该目标视频帧图像作为人脸图像保存到预设的人脸图像数据集中。

具体地，若目标视频帧图像中存在人脸区域，则确认该目标视频帧图像中存在人脸区域，并将该目标视频帧图像作为人脸图像保存到预设的人脸图像数据集中，用于对人脸图像中的人脸表情进行识别分析，其中，预设的人脸图像数据集是用于保存图像的存储空间，该人脸图像数据集具体可以是SD卡或者移动硬盘等记忆芯片中的存储空间。

例如，针对一审问目标的录制视频，可以按照预设的帧提取频率对该录制视频进行目标视频帧图像的提取，并使用预设的人脸识别算法从提取到的目标视频帧图像中筛选出目标的人脸图像，获取目标在不同时间点的人脸图像，用于识别出在询问相应的问题时目标的情绪状态，并且能够结合相邻时间点的目标视频帧图像，得到目标在某个时间段内的情绪的变化情况，从而分析目标是否存在撒谎等。

在图5对应的实施例中，通过获取视频数据，并按照预设的帧提取频率，从视频数据中提取目标视频帧图像，采用预设的人脸识别算法对目标视频帧图像进行识别，判断目标视频帧图像中是否存在人脸区域，若目标视频帧图像中存在人脸区域，则将该目标视频帧图像作为人脸图像保存到预设的人脸图像数据集中，通过对视频数据的帧提取，并对提取的图像进行人脸识别，得到有效的人脸图像，用于分析不同时间点下人物的情绪状态，并能根据人物的情绪状态的外在表现，判断人物的内心状态。

在一实施例中，全连接层包括L个分类器，其中，L为正整数，本实施例对步骤S7中所提及的使用全连接层对人脸特征进行分类回归，得到待识别图像的识别结果的具体实现方法进行详细说明。

请参阅图6，图6示出了步骤S7的一具体流程图，详述如下：

S71：使用全连接层的L个分类器对人脸特征进行回归计算，得到每个分类器的概率值，共得到待识别图像对应的L种情绪状态的概率值，其中，每个分类器对应一种情绪状态。

具体地，预设的深度学习模型的全连接层中有L个训练好的分类器，该分类器具体可以是Softmax回归分类器，用于对输入全连接层的人脸特征进行回归计算，得到该人脸特征与每个分类器对应的情绪状态的相似度，该相似度具体可以由概率值表示，共得到待识别图像对应的L种情绪状态的概率值，以表示待识别图像中的人脸属于每种情绪状态的概率，其中，每个分类器对应一种情绪状态，情绪状态的具体种类可以根据实际应用的需要进行设置，并且，分类器的概率值越大，则第二特征数据与每个分类器对应的情绪状态的相似度越高。

S72：从L种情绪状态的概率值中，获取概率值最大的情绪状态作为待识别图像中人脸的情绪状态，得到待识别图像的识别结果。

具体地，根据步骤S71得到的待识别图像中的人脸属于每种情绪状态的概率值，从L种情绪状态的概率中，选取概率值最大的情绪状态作为待识别图像中人脸的情绪状态，并将该情绪状态输出，作为待识别图像的识别结果。

例如，如表1所示，全连接层一共有7个训练好的分类器，分类器1到分类器7对应的情绪状态分别为开心、悲伤、恐惧、生气、惊讶、厌恶和平静，表1示出了预设的深度学习模型对一待识别图像进行预测，得到该待识别图像中的人脸属于每一种情绪状态的概率值的预测结果，根据表1可知，由于该待识别图像中的人脸属于分类器2对应的情绪状态“悲伤”的概率值最大，因此，可以确定该待识别图像中人物的情绪状态为悲伤。

表1.待识别图像的预测结果

在图6对应的实施例中，通过使用全连接层的分类器对待识别图像的人脸特征进行回归计算，得到每个分类器的概率值，能够直观地对待识别图像中的人脸属于每个情绪状态的概率值进行比较，并获取概率值最大的情绪状态作为待识别图像的识别结果，确定待识别图像中人物的情绪状态，从而实现了在移动端对待识别图像中人物的情绪的预测。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于深度学习的人脸情绪识别装置，该基于深度学习的人脸情绪识别装置与上述实施例中基于深度学习的人脸情绪识别方法一一对应。如图7所示，该基于深度学习的人脸情绪识别装置包括：图像获取模块61、图像处理模块62、图像输入模块63、数据提取模块64、第一卷积模块65、第二卷积模块66和情绪输出模块67。各功能模块详细说明如下：

图像获取模块61，用于从预设的人脸图像数据集中获取人脸图像；

图像处理模块62，用于按照预设的处理方式对人脸图像进行预处理，得到待识别图像；

图像输入模块63，用于将待识别图像输入预设的深度学习模型中，其中，预设的深度学习模型包括输入层、卷积层和全连接层，卷积层包括第一卷积核和第二卷积核；

数据提取模块64，用于使用输入层对待识别图像进行通道数据提取，得到待识别图像的人脸图像数据；

第一卷积模块65，用于将人脸图像数据传递给卷积层，并使用卷积层的第一卷积核对人脸图像数据进行深度卷积计算，得到特征数据，其中，第一卷积核的结构为H×W×1×M，H、W和M均为正整数；

第二卷积模块66，用于使用卷积层的第二卷积核对特征数据进行点卷积计算，得到待识别图像的人脸特征，其中，第二卷积核的结构为1×1×N×M，N为正整数；

情绪输出模块67，用于使用全连接层对人脸特征进行分类回归，得到待识别图像的识别结果，其中，识别结果包括待识别图像中人脸的情绪状态。

进一步地，数据提取模块64包括：

数据提取子模块641，用于使用输入层提取待识别图像中的图像通道数据；

数据缩减子模块642，用于对图像通道数据和预设的乘宽系数进行求积运算处理，得到人脸图像数据，其中，预设的乘宽系数为A，A∈(0,1)。

进一步地，图像处理模块62包括：

第一处理子模块621，用于对每个人脸图像进行灰度级变换处理，得到第一人脸图像；

第二处理子模块622，用于对第一人脸图像进行去噪处理，得到第二人脸图像；

第三处理子模块623，用于对第二人脸图像进行标准化处理，得到目标人脸图像，并将目标人脸图像作为待识别图像。

进一步地，该基于深度学习的人脸情绪识别装置还包括：

图像提取模块601，用于获取视频数据，并按照预设的帧提取频率，从视频数据中提取目标视频帧图像；

人脸判定模块602，用于采用预设的人脸识别算法对目标视频帧图像进行识别，判断目标视频帧图像中是否存在人脸区域；

图像存储模块603，用于若目标视频帧图像中存在人脸区域，则将该目标视频帧图像作为人脸图像保存到预设的人脸图像数据集中。

进一步地，全连接层包括L个分类器，其中，L为正整数，情绪输出模块67包括：

回归分析子模块671，用于使用全连接层的L个分类器对人脸特征进行回归计算，得到每个分类器的概率值，共得到待识别图像对应的L种情绪状态的概率值，其中，每个分类器对应一种情绪状态；

结果获取子模块672，用于从L种情绪状态的概率值中，获取概率值最大的情绪状态作为待识别图像中人脸的情绪状态，得到待识别图像的识别结果。

关于基于深度学习的人脸情绪识别装置的具体限定可以参见上文中对于基于深度学习的人脸情绪识别方法的限定，在此不再赘述。上述基于深度学习的人脸情绪识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习的人脸情绪识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于深度学习的人脸情绪识别方法中的步骤，例如图2所示的步骤S1至步骤S7，或者，处理器执行计算机程序时实现上述实施例中装置的各模块的功能，例如图7所示模块61至模块67的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中基于深度学习的人脸情绪识别方法中的步骤，例如图2所示的步骤S1至步骤S7，或者，处理器执行计算机程序时实现上述实施例中基于深度学习的人脸情绪识别装置的各模块的功能，例如图7所示模块61至模块67的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的人脸情绪识别方法，其特征在于，所述基于深度学习的人脸情绪识别方法包括：

从预设的人脸图像数据集中获取人脸图像；

使用所述输入层对所述待识别图像进行通道数据提取，得到所述待识别图像的人脸图像数据，包括：使用所述输入层提取所述待识别图像中的图像通道数据；对所述图像通道数据和预设的乘宽系数进行求积运算处理，得到所述人脸图像数据，其中，所述预设的乘宽系数为A，A∈(0,1)，所述通道数据包括单通道数据和多通道数据，针对图像中的一个像素点，若用一个数值就能够描述该像素点，则该数值为图像的所述单通道数据；若需要用多个数值进行描述该像素点，则该多个数值组成的向量即为图像的所述多通道数据；

将所述人脸图像数据传递给所述卷积层，并使用所述卷积层的所述第一卷积核对所述人脸图像数据进行深度卷积计算，得到特征数据，其中，所述第一卷积核的结构为H×W×1×M，H、W和M均为正整数，其中，H为第一卷积核的高，W为第一卷积核的宽，M为第一卷积核的个数；

使用所述卷积层的所述第二卷积核对所述特征数据进行点卷积计算，得到所述待识别图像的人脸特征，其中，所述第二卷积核的结构为1×1×N×M，其中，N为通道的个数且N为正整数；

2.如权利要求1所述的基于深度学习的人脸情绪识别方法，其特征在于，所述按照预设的处理方式对所述人脸图像进行预处理，得到待识别图像包括：

对每个所述人脸图像进行灰度级变换处理，得到第一人脸图像；

对所述第一人脸图像进行去噪处理，得到第二人脸图像；

对所述第二人脸图像进行标准化处理，得到目标人脸图像，并将所述目标人脸图像作为所述待识别图像。

3.如权利要求1所述的基于深度学习的人脸情绪识别方法，其特征在于，在所述从预设的人脸图像数据集中获取人脸图像之前，所述基于深度学习的人脸情绪识别方法还包括：

获取视频数据，并按照预设的帧提取频率，从所述视频数据中提取目标视频帧图像；

采用预设的人脸识别算法对所述目标视频帧图像进行识别，判断所述目标视频帧图像中是否存在人脸区域；

若所述目标视频帧图像中存在所述人脸区域，则将该目标视频帧图像作为所述人脸图像保存到所述预设的人脸图像数据集中。

4.如权利要求1至3任一项所述的基于深度学习的人脸情绪识别方法，其特征在于，所述全连接层包括L个分类器，其中，L为正整数，所述使用所述全连接层对所述人脸特征进行分类回归，得到所述待识别图像的识别结果包括：

使用所述全连接层的L个所述分类器对所述人脸特征进行回归计算，得到每个所述分类器的概率值，共得到所述待识别图像对应的L种情绪状态的概率值，其中，每个所述分类器对应一种所述情绪状态；

从L种所述情绪状态的概率值中，获取概率值最大的情绪状态作为所述待识别图像中人脸的情绪状态，得到所述待识别图像的所述识别结果。

5.一种基于深度学习的人脸情绪识别装置，其特征在于，所述基于深度学习的人脸情绪识别装置包括：

数据提取模块，用于使用所述输入层对所述待识别图像进行通道数据提取，得到所述待识别图像的人脸图像数据，包括：使用所述输入层提取所述待识别图像中的图像通道数据；对所述图像通道数据和预设的乘宽系数进行求积运算处理，得到所述人脸图像数据，其中，所述预设的乘宽系数为A，A∈(0,1)，所述通道数据包括单通道数据和多通道数据，针对图像中的一个像素点，若用一个数值就能够描述该像素点，则该数值为图像的所述单通道数据；若需要用多个数值进行描述该像素点，则该多个数值组成的向量即为图像的所述多通道数据；

第一卷积模块，用于将所述人脸图像数据传递给所述卷积层，并使用所述卷积层的所述第一卷积核对所述人脸图像数据进行深度卷积计算，得到特征数据，其中，所述第一卷积核的结构为H×W×1×M，H、W和M均为正整数，其中，H为第一卷积核的高，W为第一卷积核的宽，M为第一卷积核的个数；

第二卷积模块，用于使用所述卷积层的所述第二卷积核对所述特征数据进行点卷积计算，得到所述待识别图像的人脸特征，其中，所述第二卷积核的结构为1×1×N×M，其中，N为通道的个数且N为正整数；

6.如权利要求5所述的基于深度学习的人脸情绪识别装置，其特征在于，所述数据提取模块包括：

数据提取子模块，用于使用所述输入层提取所述待识别图像中的图像通道数据；

数据缩减子模块，用于对所述图像通道数据和预设的乘宽系数进行求积运算处理，得到所述人脸图像数据，其中，所述预设的乘宽系数为A，A∈(0,1)。

7.如权利要求5所述的基于深度学习的人脸情绪识别装置，其特征在于，所述图像处理模块包括：

第一处理子模块，用于对每个所述人脸图像进行灰度级变换处理，得到第一人脸图像；

第二处理子模块，用于对所述第一人脸图像进行去噪处理，得到第二人脸图像；

第三处理子模块，用于对所述第二人脸图像进行标准化处理，得到目标人脸图像，并将所述目标人脸图像作为所述待识别图像。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述基于深度学习的人脸情绪识别方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于深度学习的人脸情绪识别方法。