CN108197602A

CN108197602A - 一种卷积神经网络生成方法及表情识别方法

Info

Publication number: CN108197602A
Application number: CN201810091813.4A
Authority: CN
Inventors: 李启东; 李志阳; 张伟; 许清泉; 傅松林
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2018-06-22
Anticipated expiration: 2038-01-30
Also published as: CN108197602B

Abstract

本发明公开了一种用于对图像中的人脸进行表情识别的卷积神经网络生成方法、表情识别方法、计算设备及移动终端，卷积神经网络生成方法包括：构建第一卷积神经网络，第一卷积神经网络包括依次相连的第一数量个处理块、第一全局平均池化层和第一分类器；根据预先获取的人脸图像数据集合，对第一卷积神经网络进行训练，以便第一分类器的输出指示人脸所对应的表情，人脸图像数据集合包括多个人脸图像信息；构建第二卷积神经网络，第二卷积神经网络包括依次相连的第二数量个处理块、第二全局平均池化层和第二分类器；根据人脸图像数据集合，对训练好的第一卷积神经网络和第二卷积神经网络进行联合训练，以便第二分类器的输出指示人脸所对应的表情。

Description

一种卷积神经网络生成方法及表情识别方法

技术领域

本发明涉及图像处理技术领域，特别涉及一种用于对图像中的人脸进行表情识别的卷积神经网络生成方法、表情识别方法、计算设备及移动终端。

背景技术

表情识别在众多现实场景中都有重要的作用，如网络聊天中，通过识别聊天当事人的表情然后向对方发送相应的表情交互，提升语言交互的乐趣。但是，基于人脸进行真实表情预测存在诸多问题，如化妆、整容、自身体质和生活环境等因素都能对表情的判断产生重大影响。

目前，人脸表情识别方法主要分为两类：一类是通过提取到的人脸特征，如SIFT(Scale-invariant feature transform，尺度不变特征变换)特征，进行聚类等处理来实现对表情的识别，但精度只能达到50％～60％左右，远远不能满足实际产品的需求；另一类则采用CNN(Convolutional Neural Network，卷积神经网络)的深度学习方式，能够达到95％以上的精度，但若是要达到这样的识别精度，相应的，基于CNN的表情识别模型结构会较为庞大，动则数百兆，且计算效率低，难以实时识别表情，在移动端的应用极为受限。

发明内容

为此，本发明提供一种用于对图像中的人脸进行表情识别的卷积神经网络生成方案，并提出了基于该卷积神经网络的表情识别方案，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种用于对图像中的人脸进行表情识别的卷积神经网络生成方法，适于在计算设备中执行，该方法包括如下步骤：首先，构建第一卷积神经网络，第一卷积神经网络包括依次相连的第一数量个处理块、第一全局平均池化层和第一分类器；根据预先获取的人脸图像数据集合，对第一卷积神经网络进行训练，以便第一分类器的输出指示人脸所对应的表情，人脸图像数据集合包括多个人脸图像信息，每个人脸图像信息包括人脸图像和对应图像中人脸的表情信息；构建第二卷积神经网络，第二卷积神经网络包括依次相连的第二数量个处理块、第二全局平均池化层和第二分类器；根据人脸图像数据集合，对训练好的第一卷积神经网络和第二卷积神经网络进行联合训练，以便第二分类器的输出指示人脸所对应的表情。

可选地，在根据本发明的用于对图像中的人脸进行表情识别的卷积神经网络生成方法中，处理块包括依次相连的卷积层、批标准化层和激活层。

可选地，在根据本发明的用于对图像中的人脸进行表情识别的卷积神经网络生成方法中，根据预先获取的人脸图像数据集合，对第一卷积神经网络进行训练，以便第一分类器的输出指示人脸所对应的表情的步骤包括：从预先获取的人脸图像数据集合中提取其所包括的、人脸图像满足第一尺寸的人脸图像信息；对每一个提取出的人脸图像信息，以该人脸图像信息所包括的人脸图像为第一卷积神经网络中第一个处理块的输入，以该人脸图像信息所包括的表情信息为第一分类器的输出，对第一卷积神经网络进行训练。

可选地，在根据本发明的用于对图像中的人脸进行表情识别的卷积神经网络生成方法中，根据人脸图像数据集合，对训练好的第一卷积神经网络和第二卷积神经网络进行联合训练，以便第二分类器的输出指示人脸所对应的表情的步骤包括：从人脸图像数据集合中提取其所包括的、人脸图像满足第二尺寸的人脸图像信息；对每一个提取出的人脸图像信息，将该人脸图像信息所包括的人脸图像输入到训练好的第一卷积神经网络中，以获取第一分类器的输出；以该人脸图像信息所包括的人脸图像为第二卷积神经网络中第一个处理块的输入，以该人脸图像信息所包括的表情信息为第二分类器的输出，以该获取到的第一分类器的输出为监督学习的标签，对第二卷积神经网络进行训练。

可选地，在根据本发明的用于对图像中的人脸进行表情识别的卷积神经网络生成方法中，第一数量为6

可选地，在根据本发明的用于对图像中的人脸进行表情识别的卷积神经网络生成方法中，第二数量为10。

可选地，在根据本发明的用于对图像中的人脸进行表情识别的卷积神经网络生成方法中，表情信息为正常、微笑、笑、伤心、生气、惊讶、恐惧和厌恶中的任一种。

可选地，在根据本发明的用于对图像中的人脸进行表情识别的卷积神经网络生成方法中，还包括预先生成人脸图像数据集合，预先生成人脸图像数据集合的步骤包括：对每一张待处理图片进行图像处理，以获取各待处理图片对应的人脸图像；对每一张人脸图像，获取其对应的待处理图片关联的表情信息，根据表情信息与该人脸图像生成相应的人脸图像信息；汇集各人脸图像信息，以形成人脸图像数据集合。

可选地，在根据本发明的用于对图像中的人脸进行表情识别的卷积神经网络生成方法中，对每一张待处理图片进行图像处理，以获取各待处理图片对应的人脸图像的步骤包括：对每一张待处理图片进行人脸检测，以获取各待处理图片中人脸对应的关键点位置信息集合；对每一张待处理图片，通过该待处理图片的关键点位置信息集合计算对应的凸包，基于凸包从该待处理图片中裁切出预设尺寸下的人脸矩形；根据人脸矩形计算相应的人脸旋转角度，利用人脸旋转角度将人脸矩形旋转成水平正面，以获取该待处理图片对应的人脸图像。

根据本发明的又一个方面，提供一种计算设备，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明的用于对图像中的人脸进行表情识别的卷积神经网络生成方法的指令。

根据本发明的又一个方面，提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行根据本发明的用于对图像中的人脸进行表情识别的卷积神经网络生成方法。

根据本发明的又一个方面，提供一种表情识别方法，适于在移动终端中执行，该方法基于用于对图像中的人脸进行表情识别的卷积神经网络生成方法中、训练好的卷积神经网络对图像中的人脸进行表情识别，包括如下步骤：首先，对待识别图像进行处理以获取待识别人脸图像；将待识别人脸图像输入到训练好的第二卷积神经网络中进行表情识别；获取训练好的第二卷积神经网络中第二分类器的输出；根据第二分类器的输出确定待识别图像中人脸所对应的表情。

根据本发明的又一个方面，提供一种移动终端，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明的表情识别方法的指令。

根据本发明的又一个方面，还提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由移动终端执行时，使得移动终端执行根据本发明的表情识别方法。

根据本发明的用于对图像中的人脸进行表情识别的卷积神经网络生成的技术方案，首先构建第一卷积神经网络，根据预先获取的人脸图像数据集合对第一卷积神经网络进行训练，再构建第二卷积神经网络，根据该人脸图像数据集合对训练好的第一卷积神经网络和第二卷积神经网络进行联合训练，以便第二卷积神经网络的输出指示人脸所对应的表情。在上述技术方案中，第一卷积神经网络包括依次相连的多个处理块、第一全局平均池化层和第一分类器，第二卷积神经网络包括依次相连的多个处理块、第二全局平均池化层和第二分类器，而处理块包括依次相连的卷积层、批标准化层和激活层，可知第一卷积神经网络和第二卷积神经网络在构建时，避免采用全连接层这种容易导致网络结构庞大的处理层，大幅度减少了的模型参数。而且，处理块中的批标准化层和激活层，可加速网络收敛和缓解过拟合，在提升网络训练速度的同时保证了训练质量。在对第二卷积神经网络进行训练时，用先训练好的第一卷积神经网络调节其学习能力，使得作为小模型的第二卷积神经网络能达到接近作为大模型的第一卷积神经网络的分类精度，从而匹配移动端的计算效率和内存。在训练完成后，训练好的第二卷积神经网络即可作为表情识别模型移植到移动终端来应用。

进而，根据本发明的表情识别方法，将待识别人脸图像输入到已训练好的第二卷积神经网络中，根据第二分类器的输出来判断表情的类型，不仅结果精确度有了巨大的提升，并且使用时不需要与服务器端进行通信，避免了对通信网络，如4G网络的依赖性，提升了识别应用在无网络或弱信号网络下的可用度，极大程度上提高了用户体验。此外，由于无需大量的计算服务，还降低了识别应用的运营维护成本。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的计算设备100的示意图；

图2示出了根据本发明的一个实施例的用于对图像中的人脸进行表情识别的卷积神经网络生成方法200的流程图；

图3示出了根据本发明的一个实施例的处理块的结构示意图；

图4示出了根据本发明的一个实施例的第一卷积神经网络的结构示意图；

图5示出了根据本发明的一个实施例的第二卷积神经网络的结构示意图；

图6示出了根据本发明的一个实施例的移动终端600的示意图；以及

图7示出了根据本发明的一个实施例的表情识别方法700的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中，程序122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。

在一些实施例中，计算设备100被配置为执行根据本发明的用于对图像中的人脸进行表情识别的卷积神经网络生成方法200。其中，计算设备100的一个或多个程序122包括用于执行根据本发明的用于对图像中的人脸进行表情识别的卷积神经网络生成方法200的指令。

图2示出了根据本发明一个实施例的用于对图像中的人脸进行表情识别的卷积神经网络生成方法200的流程图。用于对图像中的人脸进行表情识别的卷积神经网络生成方法200适于在计算设备(例如图1所示的计算设备100)中执行。

如图2所示，方法200始于步骤S210。在步骤S210中，构建第一卷积神经网络，第一卷积神经网络包括依次相连的第一数量个处理块、第一全局平均池化层和第一分类器。根据本发明的一个实施例，处理块包括依次相连的卷积层、批标准化层和激活层。图3示出了根据本发明的一个实施例的处理块的结构示意图。如图3所示，处理块包括依次相连的卷积层、批标准化(Batch Normalization，BN)层和激活层。在该实施方式中，采用ReLU(Rectified Linear Unit)函数作为激活层的激活函数，以调整经过卷积层和批标准化层的输出，避免下一层的输出为上一层的线性组合而无法逼近任意函数。

根据本发明的一个实施例，第一数量为6，则第一卷积神经网络由依次相连的6个处理块、第一全局平均池化层和第一分类器组成，并以第一个处理块为输入，以第一分类器为输出。图4示出了根据本发明的一个实施例的第一卷积神经网络的结构示意图。如图4所示，在第一卷积神经网络中，是以处理块A1为输入端，后面依次相连处理块A2、处理块A3、处理块A4、处理块A5、处理块A5、第一全局平均池化层P1和第一分类器S1，其中第一分类器S1为输出端。

随后，进入步骤S220，根据预先获取的人脸图像数据集合，对第一卷积神经网络进行训练，以便第一分类器的输出指示人脸所对应的表情，人脸图像数据集合包括多个人脸图像信息，每个人脸图像信息包括人脸图像和对应图像中人脸的表情信息。根据本发明的一个实施例，可通过如下方式对第一卷积神经网络进行训练。首先，从预先获取的人脸图像数据集合中提取其所包括的、人脸图像满足第一尺寸的人脸图像信息，再对每一个提取出的人脸图像信息，以该人脸图像信息所包括的人脸图像为第一卷积神经网络中第一个处理块的输入，以该人脸图像信息所包括的表情信息为第一分类器的输出，对第一卷积神经网络进行训练。

在该实施方式中，人脸图像数据集合中包括两种人脸图像信息，一种人脸图像信息所包括的人脸图像满足第一尺寸，其用于对第一卷积神经网络进行训练，而另一种人脸图像信息所包括的人脸图像满足第二尺寸，其用于对第二卷积神经网络进行训练。其中，第一尺寸优选为112px×112px，第二尺寸优选为96px×96px，人脸图像为RGB三通道图像，其对应的表情信息为正常、微笑、笑、伤心、生气、惊讶、恐惧和厌恶中的任一种。下面将以人脸图像数据集合中的一个人脸图像信息C1为例，对第一卷积神经网络的训练过程进行说明。人脸图像信息C1包括人脸图像D1和对应图像中人脸的表情信息E1，人脸图像D1的尺寸为112px×112px，表情信息E1为惊讶。在训练时，是以人脸图像D1为处理块A1的输入、表情信息E1为第一分类器S1的输出进行第一卷积神经网络的训练。

表1示出了根据本发明的一个实施例的处理块A1～A6的参数设置示例，其中，对表1里边界补零这一参数的值来说，“0”表示不进行边界补零操作，“1”表示将卷积层所输入图像的边缘向外1个像素单位的各行与各列以0填充，“2”表示将卷积层所输入图像的边缘向外2个像素单位的各行与各列以0填充。若无特别指出，以下涉及边界补零的内容均以上述说明为准。表1的内容具体如下所示：

表1

参照表1对处理块A1～A8进行参数设置，并基于以上参数对人脸图像D1进行处理。具体的，先将人脸图像D1输入到处理块A1，人脸图像D1为RPG三通道图像，尺寸为112px×112px。处理块A1中的卷积层有32个卷积核，每个卷积核的参数个数为5×5×3，相当于32个5×5大小的卷积核分别在3个通道进行卷积，步长为2。同时，引入边界填充这一处理方式，将该卷积层所输入图像的边缘向外2个像素单位的各行与各列以0填充，则经过该卷积层的卷积后，根据可知，此时得到的图像的尺寸为56px×56px，即获得32张56px×56px大小的特征图，其中表示向下取整。由于在该卷积层中已经将三通道合在一起进行卷积处理，因此处理块A1中的批标准化层的输入为32张56px×56px的单通道图像，该批标准化层的参数包括32个平均值、32个方差参数、32个比例参数和32个偏移参数，这4类数值的数量与输入到该批标准化层的特征图数量是相同的。再经过处理块A1中的批标准化层和激活层的处理，得到处理块A1的输出为32张56px×56px的特征图。

随后，进入处理块A2。处理块A2中的卷积层有64个卷积核，每个卷积核的参数个数为3×3，相当于64个3×3大小的卷积核进行卷积，步长为2。将该卷积层所输入特征图的边缘向外1个像素单位的各行与各列以0填充，则经过该卷积层的卷积后，根据可知，此时得到的图像的尺寸为28px×28px，即获得64张28px×28px大小的特征图。处理块A2中的批标准化层的参数包括64个平均值、64个方差参数、64个比例参数和64个偏移参数，这4类数值的数量与输入到该批标准化层的特征图数量是相同的。再经过处理块A2中的批标准化层和激活层的处理，得到处理块A2的输出为64张28px×28px的特征图。

接下来，将这64张28px×28px的特征图输入到处理块A3，经过处理块A3～A6的处理，最终得到处理块A6的输出为8张7px×7px的特征图。需要说明的是，处理块A3～A6对图像的相关处理可参照如上处理块A 2的处理过程，只是在参数的设置上，如卷积核的数量、批标准化层的参数数量等存在不同。

将上述8张7px×7px的特征图输入到第一全局平均池化层P1，以计算每一张特征图所有像素点的均值，可得第一全局平均池化层P1的输出为8张1px×1px的特征图。此时，1px×1px的特征图实际上只具备1个像素值，则第一全局平均池化层P1的输出可视为一个1×8的特征向量。随后，进入第一分类器S1。第一分类器S1选用softmax分类器，其输出的最大概率对应的表情应为人脸图像D1中人脸所对应的表情信息E1。关于softmax分类器的内容，为成熟的技术手段，此处不再赘述。为了训练第一卷积神经网络，根据输入的人脸图像D1对应的表情信息E1为惊讶这一预知结果，对第一分类器S1的输出进行调整，按极小化误差的方法反向传播以调整第一卷积神经网络中的各参数，如利用第一全局平均池化层P1输出的1×8的特征向量构建基于SVM(Support Vector Machine，支持向量机)的损失函数，对第一卷积神经网络进行训练，以便该损失函数不断减小直至收敛。经过人脸图像数据集合中大量的人脸图像满足第一尺寸的人脸图像信息进行训练后，获得训练好的第一卷积神经网络。

在步骤S230中，构建第二卷积神经网络，第二卷积神经网络包括依次相连的第二数量个处理块、第二全局平均池化层和第二分类器。根据本发明的一个实施例，处理块包括依次相连的卷积层、批标准化层和激活层。关于第二卷积神经网络中处理块的结构，可参考图3及步骤S310中构建第一卷积神经网络时所采用的处理块的相关描述，此处不予以赘述。

在该实施方式中，第二数量为10，则第二卷积神经网络由依次相连的10个处理块、第二全局平均池化层和第二分类器组成，并以第一个处理块为输入，以第二分类器为输出。图5示出了根据本发明的一个实施例的第二卷积神经网络的结构示意图。如图5所示，在第二卷积神经网络中，是以处理块B1为输入端，后面依次相连处理块B2、处理块B3、处理块B4、处理块B5、处理块B5、处理块B6、处理块B7、处理块B8、处理块B9、处理块B10、第二全局平均池化层P2和第二分类器S2，其中第二分类器S2为输出端。

最后，执行步骤S240，根据人脸图像数据集合，对训练好的第一卷积神经网络和第二卷积神经网络进行联合训练，以便第二分类器的输出指示人脸所对应的表情。根据本发明的一个实施例，可通过如下方式对训练好的第一卷积神经网络和第二卷积神经网络进行联合训练。首先，从人脸图像数据集合中提取其所包括的、人脸图像满足第二尺寸的人脸图像信息，再对每一个提取出的人脸图像信息，将该人脸图像信息所包括的人脸图像输入到训练好的第一卷积神经网络中，以获取第一分类器的输出，以该人脸图像信息所包括的人脸图像为第二卷积神经网络中第一个处理块的输入，以该人脸图像信息所包括的表情信息为第二分类器的输出，以该获取到的第一分类器的输出为监督学习的标签，对第二卷积神经网络进行训练。

下面将以人脸图像数据集合中的一个人脸图像信息C2为例，对训练好的第一卷积神经网络和第二卷积神经网络的联合训练进行说明。人脸图像信息C2包括人脸图像D2和对应图像中人脸的表情信息E2，人脸图像D2为RPG三通道图像，尺寸为96px×96px，表情信息E2为微笑。在训练时，是以人脸图像D2为处理块B1的输入、表情信息E2为第二分类器S2的输出、训练好的第一卷积神经网络中第一分类器S1的输出为监督学习的标签，进行第二卷积神经网络的训练。

在该实施方式中，将人脸图像信息C2所包括的人脸图像D2输入到训练好的第一卷积神经网络中，以获取第一分类器S1的输出，得到8个概率值，以p_i表示第i个输出的概率值，i＝1,2,…,8。

表2示出了根据本发明的一个实施例的处理块B1～B10的参数设置示例，具体如下所示：

表2

参照表2对处理块B1～B10进行参数设置，并基于以上参数对人脸图像D2进行处理。具体的，先将人脸图像D2输入到处理块B1，经过处理块B1～B10的处理，最终得到处理块B10的输出为8张6px×6px的特征图。需要说明的是，处理块B1对图像的相关处理可参照如上处理块A1的处理过程，处理块B2～B10对图像的相关处理可参照如上处理块A2～A6中任一个的处理过程，只是在参数的设置上，如卷积核的数量、批标准化层的参数数量等存在不同，此处不再赘述。

将上述8张6px×6px的特征图输入到第二全局平均池化层P2，以计算每一张特征图所有像素点的均值，可得第二全局平均池化层P2的输出为8张1px×1px的特征图。此时，1px×1px的特征图实际上只具备1个像素值，因此第二全局平均池化层P2的输出可视为一个1×8的特征向量，即输出了8个像素值，以z_i表示第i个输出的像素值，i＝1,2,…,8。随后，进入第二分类器S2，第二分类器S2也选用softmax分类器，则可得到第二分类器S2所输出的8个概率值，其中，第i个概率值为z_k表示第二全局平均池化层P2输出的第k个像素值，k＝1,2,…,8。第二分类器S2输出的最大概率对应的表情应为人脸图像D2中人脸所对应的表情信息E2。

为了训练第二卷积神经网络，根据输入的人脸图像D2对应的表情信息E2为微笑这一预知结果，以及训练好的第一卷积神经网络中第一分类器S1的输出p₁～p₈，对第二分类器S2的输出进行调整，按极小化误差的方法反向传播以调整第二卷积神经网络中的各参数。具体的，利用第二分类器S2输出的8个概率值和第一分类器S1的输出p₁～p₈，构建基于SVM((Support Vector Machine，支持向量机)的损失函数，对第二卷积神经网络进行训练，以便该损失函数不断减小直至收敛，将该损失函数记为loss，其表达式如下：

经过人脸图像数据集合中大量的人脸图像满足第二尺寸的人脸图像信息进行训练后，获得训练好的第二卷积神经网络。

用于训练第一卷积神经网络和第二卷积神经网络的人脸图像数据集合是需要预先生成的，根据本发明的又一个实施例，可通过如下方式预先生成人脸图像数据集合。首先，对每一张待处理图片进行图像处理，以获取各待处理图片对应的人脸图像。具体的，在获取人脸图像时，先对每一张待处理图片进行人脸检测，以获取各待处理图片中人脸对应的关键点位置信息集合，对每一张待处理图片，通过该待处理图片的关键点位置信息集合计算对应的凸包，基于该凸包从该待处理图片中裁切出预设尺寸下的人脸矩形，根据人脸矩形计算相应的人脸旋转角度，利用该人脸旋转角度将该人脸矩形旋转成水平正面，以获取该待处理图片对应的人脸图像。应注意的是，在基于凸包进行预设尺寸下人脸矩形的裁切时，先是基于凸包计算出对应的最小外接矩形，将最小外接矩形的4个顶点向外拓展得到人脸的拓展矩形，当预设尺寸为第一尺寸时，根据第一尺寸的大小对拓展矩形进行相应的缩放处理来获取人脸矩形，当预设尺寸为第二尺寸时，根据第二尺寸的大小对拓展矩形进行相应的缩放处理来获取人脸矩形。在得到各待处理图片对应的人脸图像后，对每一张人脸图像，获取其对应的待处理图片关联的表情信息，根据该表情信息与该人脸图像生成相应的人脸图像信息，最后，汇集各人脸图像信息，以形成人脸图像数据集合。

图6示出了根据本发明一个实施例的移动终端600的结构框图。移动终端600可以包括存储器接口602、一个或多个数据处理器、图像处理器和/或中央处理单元604，以及外围接口606。

存储器接口602、一个或多个处理器604和/或外围接口606既可以是分立元件，也可以集成在一个或多个集成电路中。在移动终端600中，各种元件可以通过一条或多条通信总线或信号线来耦合。传感器、设备和子系统可以耦合到外围接口606，以便帮助实现多种功能。

例如，运动传感器610、光线传感器612和距离传感器614可以耦合到外围接口606，以方便定向、照明和测距等功能。其他传感器616同样可以与外围接口606相连，例如定位系统(例如GPS接收机)、温度传感器、生物测定传感器或其他感测设备，由此可以帮助实施相关的功能。

相机子系统620和光学传感器622可以用于方便诸如记录照片和视频剪辑的相机功能的实现，其中所述相机子系统和光学传感器例如可以是电荷耦合器件(CCD)或互补金属氧化物半导体(厘米OS)光学传感器。可以通过一个或多个无线通信子系统624来帮助实现通信功能，其中无线通信子系统可以包括射频接收机和发射机和/或光(例如红外)接收机和发射机。无线通信子系统624的特定设计和实施方式可以取决于移动终端600所支持的一个或多个通信网络。例如，移动终端600可以包括被设计成支持LTE、3G、GSM网络、GPRS网络、EDGE网络、Wi-Fi或WiMax网络以及Bluebooth^TM网络的通信子系统624。

音频子系统626可以与扬声器628以及麦克风630相耦合，以便帮助实施启用语音的功能，例如语音识别、语音复制、数字记录和电话功能。I/O子系统640可以包括触摸屏控制器642和/或一个或多个其他输入控制器644。触摸屏控制器642可以耦合到触摸屏646。举例来说，该触摸屏646和触摸屏控制器642可以使用多种触摸感测技术中的任何一种来检测与之进行的接触和移动或是暂停，其中感测技术包括但不局限于电容性、电阻性、红外和表面声波技术。一个或多个其他输入控制器644可以耦合到其他输入/控制设备648，例如一个或多个按钮、摇杆开关、拇指旋轮、红外端口、USB端口、和/或指示笔之类的指点设备。所述一个或多个按钮(未显示)可以包括用于控制扬声器628和/或麦克风630音量的向上/向下按钮。

存储器接口602可以与存储器650相耦合。该存储器650可以包括高速随机存取存储器和/或非易失性存储器，例如一个或多个磁盘存储设备，一个或多个光学存储设备，和/或闪存存储器(例如NAND，NOR)。存储器650可以存储操作系统672，例如Android、iOS或是Windows Phone之类的操作系统。该操作系统672可以包括用于处理基本系统服务以及执行依赖于硬件的任务的指令。存储器650还可以存储一个或多个程序674。在移动设备运行时，会从存储器650中加载操作系统672，并且由处理器604执行。程序674在运行时，也会从存储器650中加载，并由处理器604执行。程序674运行在操作系统之上，利用操作系统以及底层硬件提供的接口实现各种用户期望的功能，如即时通信、网页浏览、图片管理等。程序674可以是独立于操作系统提供的，也可以是操作系统自带的。另外，程序674被安装到移动终端600中时，也可以向操作系统添加驱动模块。程序674可以布置为在操作系统上由一个或多个处理器604执行相关的指令。在一些实施例中，移动终端600被配置为执行根据本发明的表情识别方法700。其中，移动终端600的一个或多个程序674包括用于执行根据本发明的表情识别方法700的指令。

图示出了根据本发明一个实施例的表情识别方法700的流程图。表情识别方法700适于在移动终端(例如图6所示的移动终端600)中执行，基于用于对图像中的人脸进行表情识别的卷积神经网络生成方法中、训练好的第二卷积神经网络进行表情识别。

如图7所示，方法700始于步骤S710。在步骤S710中，对待识别图像进行处理以获取待识别人脸图像。根据本发明的一个实施例，待识别图像为R1，对应的表情信息为T1，表情信息T1指示待识别图像R1中人脸的表情为笑，对待识别图像R1进行处理得到待识别人脸图像U1。关于此处对待识别图像R1进行处理的过程，一般是通过人脸检测、人脸裁切等常规图像处理技术，以获取到可相适应作为第二卷积神经网络输入的待识别人脸图像U1，这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

随后，进入步骤S720，将该待识别人脸图像输入到训练好的第二卷积神经网络中进行表情识别。根据本发明的一个实施例，将待识别人脸图像U1输入到训练好的第二卷积神经网络进表情识别。

接下来，在步骤S730中，获取训练好的第二卷积神经网络中第二分类器的输出。根据本发明的一个实施例，训练好的第二卷积神经网络中第二分类器S2的输出为8个概率值，其中最大的概率值为0.79。

最后，执行步骤S740，根据第二分类器的输出确定该待识别图像中人脸所对应的表情。根据本发明的一个实施例，概率值0.79为第二分类器S2的第3个输出，所关联的表情信息为笑，由此可确定待识别图像R1中人脸所对应的表情为笑，且与真实的表情信息T1一致。

在实际应用中，通常是将基于上述训练好的第二卷积神经网络的识别模型封装在涉及有表情识别功能的移动应用中，如拍照类应用、图片处理类应用、聊天类应用等等。在下载安装这类移动应用的过程中，直接将识别模型及表情信息数据部署在移动终端600，所占存储空间较小，内存资源占用率低，且具备较高的识别精度和准确率，响应速度较快，能够给用户提供更好的体验。

目前，人脸表情识别方法主要分为两类：一类是通过提取到的人脸特征进行聚类等处理来实现对表情的识别，精度较低，另一类则采用CNN的深度学习方式，能够达到较高的精度，但需要具备较大的模型结构，且计算效率低，难以实时识别表情。根据本发明实施例的用于对图像中的人脸进行表情识别的卷积神经网络生成的技术方案，首先构建第一卷积神经网络，根据预先获取的人脸图像数据集合对第一卷积神经网络进行训练，再构建第二卷积神经网络，根据该人脸图像数据集合对训练好的第一卷积神经网络和第二卷积神经网络进行联合训练，以便第二卷积神经网络的输出指示人脸所对应的表情。在上述技术方案中，第一卷积神经网络包括依次相连的多个处理块、第一全局平均池化层和第一分类器，第二卷积神经网络包括依次相连的多个处理块、第二全局平均池化层和第二分类器，而处理块包括依次相连的卷积层、批标准化层和激活层，可知第一卷积神经网络和第二卷积神经网络在构建时，避免采用全连接层这种容易导致网络结构庞大的处理层，大幅度减少了的模型参数。而且，处理块中的批标准化层和激活层，可加速网络收敛和缓解过拟合，在提升网络训练速度的同时保证了训练质量。在对第二卷积神经网络进行训练时，用先训练好的第一卷积神经网络调节其学习能力，使得作为小模型的第二卷积神经网络能达到接近作为大模型的第一卷积神经网络的分类精度，从而匹配移动端的计算效率和内存。在训练完成后，训练好的第二卷积神经网络即可作为表情识别模型移植到移动终端来应用。进而，根据本发明实施例的表情识别方法，将待识别人脸图像输入到已训练好的第二卷积神经网络中，根据第二分类器的输出来判断表情的类型，不仅结果精确度有了巨大的提升，并且使用时不需要与服务器端进行通信，避免了对通信网络，如4G网络的依赖性，提升了识别应用在无网络或弱信号网络下的可用度，极大程度上提高了用户体验。此外，由于无需大量的计算服务，还降低了识别应用的运营维护成本。

A6.如A1-5中任一项所述的方法，所述第二数量为10。

A7.如A1-6中任一项所述的方法，所述表情信息为正常、微笑、笑、伤心、生气、惊讶、恐惧和厌恶中的任一种。

A8.如A1-7中任一项所述的方法，还包括预先生成人脸图像数据集合，所述预先生成人脸图像数据集合的步骤包括：

对每一张待处理图片进行图像处理，以获取各待处理图片对应的人脸图像；

对每一张人脸图像，获取其对应的待处理图片关联的表情信息，根据所述表情信息与该人脸图像生成相应的人脸图像信息；

汇集各人脸图像信息，以形成人脸图像数据集合。

A9.如A8所述的方法，所述对每一张待处理图片进行图像处理，以获取各待处理图片对应的人脸图像的步骤包括：

对每一张待处理图片进行人脸检测，以获取各待处理图片中人脸对应的关键点位置信息集合；

对每一张待处理图片，通过该待处理图片的关键点位置信息集合计算对应的凸包，基于所述凸包从该待处理图片中裁切出预设尺寸下的人脸矩形；

根据所述人脸矩形计算相应的人脸旋转角度，利用所述人脸旋转角度将所述人脸矩形旋转成水平正面，以获取该待处理图片对应的人脸图像。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间，以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的用于对图像中的人脸进行表情识别的卷积神经网络生成方法和/或表情识别方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种用于对图像中的人脸进行表情识别的卷积神经网络生成方法，适于在计算设备中执行，所述方法包括步骤：

构建第一卷积神经网络，所述第一卷积神经网络包括依次相连的第一数量个处理块、第一全局平均池化层和第一分类器；

根据预先获取的人脸图像数据集合，对所述第一卷积神经网络进行训练，以便所述第一分类器的输出指示人脸所对应的表情，所述人脸图像数据集合包括多个人脸图像信息，每个人脸图像信息包括人脸图像和对应图像中人脸的表情信息；

构建第二卷积神经网络，所述第二卷积神经网络包括依次相连的第二数量个处理块、第二全局平均池化层和第二分类器；

根据所述人脸图像数据集合，对训练好的第一卷积神经网络和所述第二卷积神经网络进行联合训练，以便所述第二分类器的输出指示人脸所对应的表情。

2.如权利要求1所述的方法，所述处理块包括依次相连的卷积层、批标准化层和激活层。

3.如权利要求1或2所述的方法，所述根据预先获取的人脸图像数据集合，对所述第一卷积神经网络进行训练，以便所述第一分类器的输出指示人脸所对应的表情的步骤包括：

从预先获取的人脸图像数据集合中提取其所包括的、人脸图像满足第一尺寸的人脸图像信息；

对每一个提取出的人脸图像信息，以该人脸图像信息所包括的人脸图像为所述第一卷积神经网络中第一个处理块的输入，以该人脸图像信息所包括的表情信息为所述第一分类器的输出，对所述第一卷积神经网络进行训练。

4.如权利要求1-3中任一项所述的方法，所述根据所述人脸图像数据集合，对训练好的第一卷积神经网络和所述第二卷积神经网络进行联合训练，以便所述第二分类器的输出指示人脸所对应的表情的步骤包括：

从所述人脸图像数据集合中提取其所包括的、人脸图像满足第二尺寸的人脸图像信息；

对每一个提取出的人脸图像信息，将该人脸图像信息所包括的人脸图像输入到训练好的第一卷积神经网络中，以获取所述第一分类器的输出；

以该人脸图像信息所包括的人脸图像为所述第二卷积神经网络中第一个处理块的输入，以该人脸图像信息所包括的表情信息为所述第二分类器的输出，以该获取到的第一分类器的输出为监督学习的标签，对所述第二卷积神经网络进行训练。

5.如权利要求1-4中任一项所述的方法，所述第一数量为6。

6.一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-5所述的方法中的任一方法的指令。

7.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-5所述的方法中的任一方法。

8.一种表情识别方法，适于在移动终端中执行，所述方法基于权利要求1-5中任一项所述的训练好的第二卷积神经网络对图像中的人脸进行表情识别，包括步骤：

对待识别图像进行处理以获取待识别人脸图像；

将所述待识别人脸图像输入到训练好的第二卷积神经网络中进行表情识别；

获取所述训练好的第二卷积神经网络中第二分类器的输出；

根据所述第二分类器的输出确定所述待识别图像中人脸所对应的表情。

9.一种移动终端，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求8所述的方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由移动终端执行时，使得所述移动终端执行根据权利要求8所述的方法。