CN110188673B

CN110188673B - 表情识别方法和装置

Info

Publication number: CN110188673B
Application number: CN201910458613.2A
Authority: CN
Inventors: 陈冠男; 张丽杰
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2021-07-30
Anticipated expiration: 2039-05-29
Also published as: CN110188673A

Abstract

本发明涉及一种表情识别方法和装置。所述表情识别方法，包括：获取待识别的人脸图像中至少一个面部器官的特征区域，得到至少一个特征区域图像；将至少一个特征区域图像分别输入至对应的已训练的表情识别神经网络，以由表情识别神经网络输出对应的特征向量，得到至少一个第一维数的特征向量；将至少一个第一维数的特征向量进行合并，得到第二维数的特征向量；其中，第二维数等于至少一个第一维数的和；将第二维数的特征向量输入至已训练的分类器中，以由分类器输出所述人脸图像的表情类别信息。根据本发明的实施例，可以在保证表情识别的准确率的同时提高表情识别的速度，进而有利于实现实时识别人脸表情。

Description

表情识别方法和装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种表情识别方法和装置。

背景技术

相关技术中，人脸特征识别技术已广泛应用于安防、金融、娱乐、日常生活等方面。表情识别是人脸特征识别技术领域的延伸。由于人类面部表情的复杂性，对表情进行分类的准确率相对较低。如果通过使用更复杂的神经网络结构来提高表情识别的准确率，则会降低表情识别的速度，导致无法实现实时识别人脸表情。因此，如何在保证表情识别的准确率的同时提高表情识别的速度是需要解决的一个问题。

发明内容

本发明提供一种表情识别方法和装置，以解决相关技术中的不足。

根据本发明实施例的第一方面，提供一种表情识别方法，包括：

获取待识别的人脸图像中至少一个面部器官的特征区域，得到至少一个特征区域图像；

将所述至少一个特征区域图像分别输入至对应的已训练的表情识别神经网络，以由所述表情识别神经网络输出对应的特征向量，得到至少一个第一维数的特征向量；

将所述至少一个第一维数的特征向量进行合并，得到第二维数的特征向量；其中，所述第二维数等于所述至少一个第一维数的和；

将所述第二维数的特征向量输入至已训练的分类器中，以由所述分类器输出所述人脸图像的表情类别信息。

在一个实施例中，所述获取待识别的人脸图像中至少一个面部器官的特征区域，得到至少一个特征区域图像，可包括：

将所述人脸图像输入至已训练的人脸识别模型，以由所述人脸识别模型输出至少一个面部器官的特征点坐标；

根据至少一个面部器官的特征点坐标计算得到至少一个面部器官的边界位置；

根据所述至少一个面部器官的边界位置从所述人脸图像中获取至少一个面部器官的特征区域，得到所述至少一个特征区域图像。

在一个实施例中，所述至少一个特征区域图像可包括左眼、右眼、鼻子以及嘴的特征区域图像。

在一个实施例中，所述表情识别神经网络可包括输入层、卷积层、正则化层、最大池化层、全局平均池化层以及全连接层；所述卷积层的输入端与所述输入层连接，所述正则化层的输入端与所述卷积层的输出端连接，所述最大池化层的输入端与所述正则化层的输出端连接，所述全局平均池化层的输入端与所述最大池化层的输出端连接，所述全连接层的输入端与所述全局平均池化层的输出端连接；

所述输入层用于接收面部器官的特征区域图像，并将面部器官的特征区域图像输入至所述卷积层；

所述卷积层用于对面部器官的特征区域图像进行卷积处理，得到面部器官的语义特征；

所述正则化层用于对面部器官的语义特征进行正则化处理，得到新的面部器官的语义特征；

所述最大池化层用于对新的面部器官的语义特征进行下采样操作，得到降维后的面部器官的语义特征；

所述全局平均池化层用于将降维后的面部器官的语义特征转换为对应的第三维数的特征向量；

所述全连接层用于对第三维数的特征向量进行降维处理，得到第一维数的特征向量；所述第一维数小于所述第三维数。

在一个实施例中，所述卷积层的数目、所述正则化层的数目、所述最大池化层的数目可相同，且所述卷积层的数目可大于或者等于1。

在一个实施例中，表情类别的数目大于1；特征区域图像的数目大于1；表情识别神经网络的数目大于1；特征区域图像与表情识别神经网络一一对应；每个表情识别神经网络通过以下步骤训练：

获取每个表情类别的训练数据集；同一训练数据集中包括多个携带同一第一标签的第一训练样本；所述第一标签包括表情类别信息；同一训练数据集中的第一训练样本为同一面部器官的特征区域图像；

针对每个表情类别，从该表情类别的训练数据集中选取一个第一训练样本作为输入图像，从该表情类别的训练数据集中随机选取N个第一训练样本作为正样本，从其他表情类别的训练数据集中随机选取N个第一训练样本作为负样本；N为大于1的自然数；

针对每个所述输入图像，将该输入图像与对应的N个正样本、对应的N个负样本作为一组训练数据输入未训练的表情识别神经网络，计算所有图像的第一维数的特征向量；

根据输入图像的第一维数的特征向量以及对应的N个负样本的第一维数的特征向量确定对应的负样本特征向量；

将输入图像的第一维数的特征向量、对应的所有正样本的第一维数的特征向量以及对应的负样本特征向量带入损失函数进行计算，得到损失值；

根据所述损失值对表情识别神经网络的网络参数进行调整，在损失函数的损失值达到预设条件时停止训练，得到已训练的表情识别神经网络。

在一个实施例中，所述根据输入图像的第一维数的特征向量以及N个负样本的第一维数的特征向量确定负样本特征向量，可包括：

计算输入图像的第一维数的特征向量分别与N个负样本的第一维数的特征向量之间的欧氏距离，得到N个欧氏距离；

将N个欧氏距离中欧氏距离最小的负样本的第一维数的特征向量确定为负样本特征向量。

在一个实施例中，所述将输入图像的第一维数的特征向量、所有正样本的第一维数的特征向量以及负样本特征向量带入损失函数进行计算，得到损失值之前，还包括：

获取预设的损失函数中强制边界参数的值；其中，所述损失函数可为三元组L2距离，所述损失函数的计算式可为

其中，f(x^a)为输入图像的第一维数的特征向量，

为与输入图像匹配的正样本的第一维数的特征向量，

为所述负样本特征向量，α为所述强制边界参数，i为同一组训练数据中正样本的序列数。

在一个实施例中，所述分类器可为支持向量机SVM分类器。

在一个实施例中，所述分类器可通过以下步骤训练：

获取携带第二标签的第二训练样本中至少一个面部器官的特征区域，得到至少一个训练特征区域图像；第二训练样本为包括所述至少一个面部器官的人脸图像；第二标签包括表情类别信息；

将所述至少一个训练特征区域图像分别输入至对应的已训练的表情识别神经网络，以由所述表情识别神经网络输出对应的特征向量，得到至少一个第一维数的目标特征向量；

将所述至少一个第一维数的目标特征向量进行合并，得到第二维数的目标特征向量；

将所述第二维数的目标特征向量与所述第二标签输入至未训练的分类器中，对所述分类器进行训练，得到已训练的分类器。

根据本发明实施例的第二方面，提供一种表情识别装置，包括：

获取模块，用于获取待识别的人脸图像中至少一个面部器官的特征区域，得到至少一个特征区域图像；

识别模块，用于将所述至少一个特征区域图像分别输入至对应的已训练的表情识别神经网络，以由所述表情识别神经网络输出对应的特征向量，得到至少一个第一维数的特征向量；

合并模块，用于将所述至少一个第一维数的特征向量进行合并，得到第二维数的特征向量；其中，所述第二维数等于所述至少一个第一维数的和；

分类模块，用于将所述第二维数的特征向量输入至已训练的分类器中，以由所述分类器输出所述人脸图像的表情类别信息。

根据本发明实施例的第三方面，提供一种终端设备，包括处理器和存储器；所述存储器，用于存储计算机程序；所述处理器，用于执行所述存储器上所存储的计算机程序，实现上述的方法步骤。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法步骤。

根据上述实施例可知，由于将从待识别的人脸图像中获取的至少一个面部器官的特征区域图像分别输入至各自对应的已训练的表情识别神经网络，去除了人脸图像中大量的冗余信息，且特征区域图像的数据量较小，同时，至少一个表情识别神经网络并行处理数据，因此，可以在保证表情识别的准确率的同时提高表情识别的速度，进而有利于实现实时识别人脸表情。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据本发明实施例示出的一种表情识别方法的流程图；

图2是根据本发明实施例示出的一种表情识别方法的算法结构的示意图；

图3是根据本发明实施例示出的另一种表情识别方法的流程图；

图4是根据本发明实施例示出的一种表情识别神经网络的结构示意图；

图5是根据本发明实施例示出的另一种表情识别方法的流程图；

图6是根据本发明实施例示出的另一种表情识别方法的流程图；

图7是根据本发明实施例示出的一种表情识别装置的框图；

图8是根据本发明实施例示出的一种终端设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本发明实施例示出的一种表情识别方法。该表情识别方法可以应用于终端设备，该终端设备可以是智能手机、平板电脑、个人计算机或服务器等。为便于理解，下面先简要地介绍一下该表情识别方法的算法结构。

如图2所示，该算法结构可包括图像输入层21、至少一个表情识别神经网络22～25、合并层26以及分类器27。图像输入层21用于接收待识别的人脸图像，并获取待识别的人脸图像中至少一个面部器官的特征区域得到至少一个特征区域图像，然后将至少一个特征区域图像分别输出至对应的表情识别神经网络。例如，图像输入层21可以从待识别的人脸图像中获取左眼的特征区域图像、右眼的特征区域图像、鼻子的特征区域图像以及嘴的特征区域图像，并将左眼的特征区域图像输出至表情识别神经网络22，将右眼的特征区域图像输出至表情识别神经网络23，将鼻子的特征区域图像输出至表情识别神经网络24，将嘴的特征区域图像输出至表情识别神经网络25。所述表情识别神经网络22～25输出对应的特征向量，得到至少一个第一维数的特征向量，例如得到4个第一维数的特征向量。合并层26将表情识别神经网络22～25输出的至少一个第一维数的特征向量进行合并，得到第二维数的特征向量，并将第二维数的特征向量输入至已训练的分类器27，其中，第二维数等于至少一个第一维数的和。分类器27输出人脸图像的表情类别信息。例如，表情类别可以是高兴、惊讶、平静、悲伤、生气、厌恶或恐惧。

以上介绍了表情识别方法的算法结构，下面详细介绍表情识别方法。该表情识别方法，如图1所示，可以包括以下步骤101～104：

在步骤101中，获取待识别的人脸图像中至少一个面部器官的特征区域，得到至少一个特征区域图像。

在本发明实施例中，在需要对待识别的人脸图像中人脸的表情进行识别时，可以提取出人脸图像中至少一个面部器官的特征区域，得到至少一个特征区域图像。其中，上述的至少一个面部器官可以包括左眼、右眼、鼻子以及嘴。因此，至少一个特征区域图像可以包括左眼、右眼、鼻子以及嘴对应的特征区域图像。由于左眼、右眼、鼻子以及嘴等4个器官对识别表情的贡献最大，因此，可以提高表情识别的准确率。

在一个实施例中，如图3所示，步骤101可以包括以下步骤301～303：

在步骤301中，将所述人脸图像输入至已训练的人脸识别模型，以由所述人脸识别模型输出至少一个面部器官的特征点坐标。

在本实施例中，可以将接收的人脸图像输入至已训练的人脸识别模型，人脸识别模型对人脸图像进行人脸识别，并输出识别出的至少一个面部器官的特征点坐标。例如，上述的人脸识别模型可以是人脸特征识别开源库dlib。将人脸图像输入至人脸特征识别开源库dlib，人脸特征识别开源库dlib可以输出人脸图像中至少一个面部器官的特征点坐标。例如，人脸特征识别开源库dlib可以输出左眼、右眼、鼻子以及嘴的特征点坐标。

在一个实施例中，人脸特征识别开源库dlib可以采用机器学习的方法，通过已标注人脸特征点(左眼、右眼、鼻子、嘴)的样本图像，对神经网络进行训练，并将训练好的人脸特征识模型进行集成封装，形成上述的识别库。每个面部器官的特征点坐标的数目可以根据需求设置，本发明实施例对此不作限制。

在步骤302中，根据至少一个面部器官的特征点坐标计算得到至少一个面部器官的边界位置。

在本实施例中，可以根据人脸识别模型输出的至少一个面部器官的特征点坐标进行计算得到至少一个面部器官的边界位置。例如，如果人脸识别模型输出左眼的6个特征点坐标，则可以根据左眼的6个特征点坐标进行计算，得到左眼的边界位置。类似地，也可以根据右眼的特征点坐标进行计算，得到右眼的边界位置，根据鼻子的特征点坐标进行计算，得到鼻子的边界位置，根据嘴的特征点坐标进行计算，得到嘴的边界位置。

在步骤303中，根据所述至少一个面部器官的边界位置从所述人脸图像中获取至少一个面部器官的特征区域，得到所述至少一个特征区域图像。

在本实施例中，可以根据上述的至少一个面部器官的边界位置从人脸图像中提取出至少一个面部器官的特征区域，得到至少一个特征区域图像。例如，可以根据左眼的边界位置，从人脸图像中提取出左眼的特征区域，得到左眼的特征区域图像。同样地，也可以根据右眼的边界位置从人脸图像中提取出右眼的特征区域，得到右眼的特征区域图像。同样地，根据鼻子的边界位置从人脸图像中提取出鼻子的特征区域，得到鼻子的特征区域图像。同样地，根据嘴的边界位置从人脸图像中提取出嘴的特征区域，得到嘴的特征区域图像。

在步骤102中，将所述至少一个特征区域图像分别输入至对应的已训练的表情识别神经网络，以由所述表情识别神经网络输出对应的特征向量，得到至少一个第一维数的特征向量。

在一个实施例中，已训练的表情识别神经网络的数目与特征区域图像的数目相同，且与特征区域图像一一对应。例如，当至少一个特征区域图像包括左眼、右眼、鼻子以及嘴对应的特征区域图像时，如图2所示，已训练的表情识别神经网络的数目为4，且与左眼、右眼、鼻子、嘴对应的特征区域图像一一对应。

在一个实施例中，将左眼的特征区域图像输出至表情识别神经网络22，表情识别神经网络22可以输出一个128维的特征向量A。将右眼的特征区域图像输出至表情识别神经网络23，表情识别神经网络23可以输出一个128维的特征向量B。将鼻子的特征区域图像输出至表情识别神经网络24，表情识别神经网络24可以输出一个128维的特征向量C。将嘴的特征区域图像输出至表情识别神经网络25，表情识别神经网络25可以输出一个128维的特征向量D。

在一个实施例中，每个表情识别神经网络可包括输入层、卷积层、正则化层、最大池化层、全局平均池化层以及全连接层。卷积层的输入端与输入层连接，正则化层的输入端与卷积层的输出端连接，最大池化层的输入端与正则化层的输出端连接，全局平均池化层的输入端与最大池化层的输出端连接，全连接层的输入端与全局平均池化层的输出端连接。

其中，输入层用于接收面部器官的特征区域图像，并将面部器官的特征区域图像输入至卷积层。卷积层用于对面部器官的特征区域图像进行卷积处理，得到面部器官的语义特征。正则化层用于对面部器官的语义特征进行正则化处理，得到新的面部器官的语义特征。最大池化层用于对新的面部器官的语义特征进行下采样操作，得到降维后的面部器官的语义特征。全局平均池化层用于将降维后的面部器官的语义特征转换为对应的第三维数的特征向量。全连接层用于对第三维数的特征向量进行降维处理，得到第一维数的特征向量；第一维数小于所述第三维数。

在一个实施例中，卷积层的数目、正则化层的数目、最大池化层的数目可相同，且卷积层的数目可大于或者等于1。当卷积层的数目、正则化层的数目、最大池化层的数目大于1时，可以进一步减小数据处理量，提高表情识别的速度。

在一个示例性实施例中，如图4所示，卷积层的数目、正则化层的数目、最大池化层的数目可为3。每个表情识别神经网络可包括输入层41、卷积层42、45、48、正则化层43、46、49、最大池化层44、47、410、全局平均池化层411以及全连接层412、413。下面以表情识别神经网络22对左眼的特征区域图像的处理为例进行举例说明。

输入层41用于接收左眼的特征区域图像，并将左眼的特征区域图像输入至卷积层42。卷积层42用于对左眼的特征区域图像进行卷积处理，得到左眼的语义特征1。其中，卷积层42可以是3*3卷积层，一般来讲，3*3卷积层是使用3*3滤波器的卷积层。3*3卷积层的尺寸为3*3，卷积层42的尺寸可不限于此。正则化层43用于对左眼的语义特征1进行正则化处理，得到新的左眼的语义特征2。正则化层对卷积层的输出结果进行正则化处理，可以防止网络训练过程中出现梯度爆炸。最大池化层44用于对新的左眼的语义特征2进行下采样操作，得到降维后的左眼的语义特征3。卷积层45用于对左眼的语义特征3进行卷积处理，得到左眼的语义特征4。其中，卷积层45可包括1x1卷积层，之后是3x3卷积层。其中，卷积层45中两个卷积层的尺寸的其他组合也是可能的。正则化层46用于对左眼的语义特征4进行正则化处理，得到新的左眼的语义特征5。最大池化层47用于对新的左眼的语义特征5进行下采样操作，得到降维后的左眼的语义特征6。卷积层48用于对左眼的语义特征6进行卷积处理，得到左眼的语义特征7。其中，卷积层48可包括1x1卷积层，之后是3x3卷积层。其中，卷积层48中两个卷积层的尺寸的其他组合也是可能的。正则化层49用于对左眼的语义特征7进行正则化处理，得到新的左眼的语义特征8。最大池化层410用于对新的左眼的语义特征8进行下采样操作，得到降维后的左眼的语义特征9。全局平均池化层411用于将降维后的面部器官的语义特征9转换为对应的第四维数的特征向量。全连接层412用于对第四维数的特征向量进行降维处理，得到第三维数的特征向量；第三维数小于所述第四维数。全连接层413用于对第三维数的特征向量进行降维处理，得到第一维数的特征向量；第一维数小于所述第三维数。该第一维数的特征向量可以是上述的128维的特征向量A。

在一个实施例中，表情类别的数目可大于1，特征区域图像的数目大于1，表情识别神经网络的数目也可大于1，特征区域图像与表情识别神经网络一一对应。例如，表情类别可包括高兴、惊讶、平静、悲伤、生气、厌恶以及恐惧等7个类别。特征区域图像的数目为4，特征区域图像具体可包括左眼、右眼、鼻子以及嘴的特征区域图像，表情识别神经网络的数目为4，具体可包括上述的表情识别神经网络22～25。其中，如图5所示，每个表情识别神经网络可通过以下步骤501～506训练。

需要说明的是，一个表情识别神经网络仅对一个对应的面部器件的特征区域图像进行处理，因此，在训练时，同一个表情识别神经网络仅使用对应的面部器件的训练数据集。例如，表情识别神经网络的数目为4，表情类别包括高兴、惊讶、平静、悲伤、生气、厌恶以及恐惧等7个类别时，训练数据集可包括：左眼对应的7个训练数据集、右眼对应的7个训练数据集、鼻子对应的7个训练数据集以及嘴对应的7个训练数据集，共计28个训练数据集。例如，左眼对应的7个训练数据集包括高兴、惊讶、平静、悲伤、生气、厌恶以及恐惧等7个类别各自的训练数据集。当对一个表情识别神经网络进行训练时，仅使用该表情识别神经网络对应的面部器件的7个类别的训练数据集进行训练。例如，当对上述的表情识别神经网络22进行训练时，仅使用左眼对应的7个训练数据集进行训练即可。

下面以对表情识别神经网络22进行训练为例，对表情识别神经网络的训练方法进行详细介绍。

在步骤501中，获取每个表情类别的训练数据集；同一训练数据集中包括多个携带同一第一标签的第一训练样本；所述第一标签包括表情类别信息；同一训练数据集中的第一训练样本为同一面部器官的特征区域图像。

在一个实施例中，在对表情识别神经网络22进行训练时，可以获取左眼的高兴、惊讶、平静、悲伤、生气、厌恶以及恐惧等7个类别各自的训练数据集。其中，高兴的训练数据集1中包括多个携带同一第一标签1的第一训练样本，第一标签1包括高兴的信息，左眼的高兴的训练数据集中仅包括左眼的特征区域图像。

同样的，惊讶的训练数据集2中包括多个携带同一第一标签2的第一训练样本，第一标签2包括惊讶的信息，左眼的惊讶的训练数据集中仅包括左眼的特征区域图像。同样的，平静的训练数据集3中包括多个携带同一第一标签3的第一训练样本，第一标签3包括平静的信息，左眼的平静的训练数据集中仅包括左眼的特征区域图像。同样的，悲伤的训练数据集4中包括多个携带同一第一标签4的第一训练样本，第一标签4包括悲伤的信息，左眼的悲伤的训练数据集中仅包括左眼的特征区域图像。同样的，生气的训练数据集5中包括多个携带同一第一标签5的第一训练样本，第一标签5包括生气的信息，左眼的生气的训练数据集中仅包括左眼的特征区域图像。同样的，厌恶的训练数据集6中包括多个携带同一第一标签6的第一训练样本，第一标签6包括厌恶的信息，左眼的厌恶的训练数据集中仅包括左眼的特征区域图像。同样的，恐惧的训练数据集7中包括多个携带同一第一标签7的第一训练样本，第一标签7包括恐惧的信息，左眼的恐惧的训练数据集中仅包括左眼的特征区域图像。

在步骤502中，针对每个表情类别，从该表情类别的训练数据集中选取一个第一训练样本作为输入图像，从该表情类别的训练数据集中随机选取N个第一训练样本作为正样本，从其他表情类别的训练数据集中随机选取N个第一训练样本作为负样本；N为大于1的自然数。

在一个实施例中，针对高兴的表情类别，可以从高兴的训练数据集1中选取一个第一训练样本作为输入图像11，从高兴的训练数据集1中随机选取N个第一训练样本作为正样本1，从惊讶的训练数据集2、平静的训练数据集3、悲伤的训练数据集4、生气的训练数据集5、厌恶的训练数据集6以及恐惧的训练数据集7中随机选取N个第一训练样本作为负样本2。所有负样本2的数目为N。

针对惊讶的表情类别，可以从惊讶的训练数据集2中选取一个第一训练样本作为输入图像12，从惊讶的训练数据集2中随机选取N个第一训练样本作为正样本2，从高兴的训练数据集1、平静的训练数据集3、悲伤的训练数据集4、生气的训练数据集5、厌恶的训练数据集6以及恐惧的训练数据集7中随机选取N个第一训练样本作为负样本2。所有负样本2的数目为N。

针对平静的表情类别，可以从平静的训练数据集3中选取一个第一训练样本作为输入图像13，从平静的训练数据集3中随机选取N个第一训练样本作为正样本3，从高兴的训练数据集1、惊讶的训练数据集2、悲伤的训练数据集4、生气的训练数据集5、厌恶的训练数据集6以及恐惧的训练数据集7中随机选取N个第一训练样本作为负样本3。所有负样本3的数目为N。

针对悲伤的表情类别，可以从悲伤的训练数据集4中选取一个第一训练样本作为输入图像14，从悲伤的训练数据集4中随机选取N个第一训练样本作为正样本4，从高兴的训练数据集1、惊讶的训练数据集2、平静的训练数据集3、生气的训练数据集5、厌恶的训练数据集6以及恐惧的训练数据集7中随机选取N个第一训练样本作为负样本4。所有负样本4的数目为N。

针对生气的表情类别，可以从生气的训练数据集5中选取一个第一训练样本作为输入图像15，从生气的训练数据集5中随机选取N个第一训练样本作为正样本5，从高兴的训练数据集1、惊讶的训练数据集2、平静的训练数据集3、悲伤的训练数据集4、厌恶的训练数据集6以及恐惧的训练数据集7中随机选取N个第一训练样本作为负样本5。所有负样本5的数目为N。

针对厌恶的表情类别，可以从厌恶的训练数据集6中选取一个第一训练样本作为输入图像16，从厌恶的训练数据集6中随机选取N个第一训练样本作为正样本6，从高兴的训练数据集1、惊讶的训练数据集2、平静的训练数据集3、悲伤的训练数据集4、生气的训练数据集5以及恐惧的训练数据集7中随机选取N个第一训练样本作为负样本6。所有负样本6的数目为N。

针对恐惧的表情类别，可以从恐惧的训练数据集7中选取一个第一训练样本作为输入图像17，从恐惧的训练数据集7中随机选取N个第一训练样本作为正样本7，从高兴的训练数据集1、惊讶的训练数据集2、平静的训练数据集3、悲伤的训练数据集4、生气的训练数据集5以及厌恶的训练数据集6中随机选取N个第一训练样本作为负样本7。所有负样本7的数目为N。

在步骤503中，针对每个所述输入图像，将该输入图像、与对应的N个正样本、对应的N个负样本作为一组训练数据输入未训练的表情识别神经网络，计算所有图像的第一维数的特征向量。

在一个实施例中，针对输入图像11，将上述的输入图像11与对应的N个正样本1、对应的N个负样本1作为一组训练数据1输入未训练的表情识别神经网络22，由表情识别神经网络22计算输入图像11、N个正样本1、N个负样本1中所有图像的第一维数的特征向量。

同样地，将上述的输入图像12、对应的N个正样本2、对应的N个负样本2作为一组训练数据2输入未训练的表情识别神经网络22，由表情识别神经网络22计算输入图像12、N个正样本2、N个负样本2中所有图像的第一维数的特征向量。

同样地，将上述的输入图像13、对应的N个正样本3、对应的N个负样本3作为一组训练数据3输入未训练的表情识别神经网络22，由表情识别神经网络22计算输入图像13、N个正样本3、N个负样本3中所有图像的第一维数的特征向量。

同样地，将上述的输入图像14、对应的N个正样本4、对应的N个负样本4作为一组训练数据4输入未训练的表情识别神经网络22，由表情识别神经网络22计算输入图像14、N个正样本4、N个负样本4中所有图像的第一维数的特征向量。

同样地，将上述的输入图像15、对应的N个正样本5、对应的N个负样本5作为一组训练数据5输入未训练的表情识别神经网络22，由表情识别神经网络22计算输入图像15、N个正样本5、N个负样本5中所有图像的第一维数的特征向量。

同样地，将上述的输入图像16、对应的N个正样本6、对应的N个负样本6作为一组训练数据6输入未训练的表情识别神经网络22，由表情识别神经网络22计算输入图像16、N个正样本6、N个负样本6中所有图像的第一维数的特征向量。

同样地，将上述的输入图像17、对应的N个正样本7、对应的N个负样本7作为一组训练数据7输入未训练的表情识别神经网络22，由表情识别神经网络22计算输入图像17、N个正样本7、N个负样本7中所有图像的第一维数的特征向量。

在步骤504中，根据输入图像的第一维数的特征向量以及对应的N个负样本的第一维数的特征向量确定对应的负样本特征向量。

在一个实施例中，针对输入图像11，根据输入图像11的第一维数的特征向量以及对应的N个负样本1的第一维数的特征向量确定对应的负样本特征向量的具体方法如下：首先，计算输入图像11的第一维数的特征向量分别与N个负样本1的第一维数的特征向量之间的欧氏距离，得到N个欧氏距离。然后，将N个欧氏距离中欧氏距离最小的负样本的第一维数的特征向量确定为对应的负样本特征向量1。

同样地，针对输入图像12～17，也可以利用上述的方法计算对应的负样本特征向量2～7。

在步骤505中，将输入图像的第一维数的特征向量、对应的所有正样本的第一维数的特征向量以及对应的负样本特征向量带入损失函数进行计算，得到损失值。

在一个实施例中，损失函数可以为三元组L2距离，所述损失函数的计算式可为

其中，针对输入图像11，f(x^a)可为输入图像11的第一维数的特征向量，

为与输入图像11匹配的正样本1的第一维数的特征向量，

为对应的所述负样本特征向量1，α为所述强制边界参数，i为同一组训练数据中正样本的序列数，例如，i为1、2、....、N。强制边界参数可根据经验值进行设置。其中，

是指f(x^a)与

差值的L2范数的平方，

是指f(x^a)与

差值的L2范数的平方。argmin表示使损失函数的优化方向为最小值优化。

同样地，针对输入图像12，f(x^a)为输入图像12的第一维数的特征向量，

为与输入图像12匹配的正样本2的第一维数的特征向量，

为对应的负样本特征向量2。

同样地，针对输入图像13，f(x^a)为输入图像13的第一维数的特征向量，

为与输入图像13匹配的正样本3的第一维数的特征向量，

为对应的负样本特征向量3。

同样地，针对输入图像14，f(x^a)为输入图像14的第一维数的特征向量，

为与输入图像14匹配的正样本4的第一维数的特征向量，

为对应的负样本特征向量4。

同样地，针对输入图像15，f(x^a)为输入图像15的第一维数的特征向量，

为与输入图像15匹配的正样本5的第一维数的特征向量，

为对应的负样本特征向量5。

同样地，针对输入图像16，f(x^a)为输入图像16的第一维数的特征向量，

为与输入图像16匹配的正样本6的第一维数的特征向量，

为对应的负样本特征向量6。

同样地，针对输入图像17，f(x^a)为输入图像17的第一维数的特征向量，

为与输入图像17匹配的正样本7的第一维数的特征向量，

为对应的负样本特征向量7。

需要说明的是，损失函数也可以采用其他距离，不限于上述的三元组L2距离。

在一个实施例中，在步骤505之前，可包括：获取预设的损失函数中强制边界参数的值。

在一个实施例中，针对输入图像11，可以将将输入图像11的第一维数的特征向量f(x^a)、对应的所有正样本1的第一维数的特征向量

以及对应的负样本特征向量1带入上述的损失函数进行计算，得到损失值1。损失值1用于度量表情识别神经网络的分类误差。

针对输入图像12，可以将将输入图像12的第一维数的特征向量f(x^a)、对应的所有正样本2的第一维数的特征向量

以及对应的负样本特征向量2带入上述的损失函数进行计算，得到损失值2。

针对输入图像13，可以将将输入图像13的第一维数的特征向量f(x^a)、对应的所有正样本3的第一维数的特征向量

以及对应的负样本特征向量3带入上述的损失函数进行计算，得到损失值3。

针对输入图像14，可以将将输入图像14的第一维数的特征向量f(x^a)、对应的所有正样本4的第一维数的特征向量

以及对应的负样本特征向量4带入上述的损失函数进行计算，得到损失值4。

针对输入图像15，可以将将输入图像15的第一维数的特征向量f(x^a)、对应的所有正样本5的第一维数的特征向量

以及对应的负样本特征向量5带入上述的损失函数进行计算，得到损失值5。

针对输入图像16，可以将将输入图像16的第一维数的特征向量f(x^a)、对应的所有正样本6的第一维数的特征向量

以及对应的负样本特征向量6带入上述的损失函数进行计算，得到损失值6。

针对输入图像17，可以将将输入图像17的第一维数的特征向量f(x^a)、对应的所有正样本7的第一维数的特征向量

以及对应的负样本特征向量7带入上述的损失函数进行计算，得到损失值7。

在步骤506中，根据所述损失值对表情识别神经网络的网络参数进行调整，在损失函数的损失值达到预设条件时停止训练，得到已训练的表情识别神经网络。

在一个实施例中，可以根据上述计算得到的损失值1～7分别对表情识别神经网络的网络参数进行调整，以优化表情识别神经网络的网络参数，减小分类误差。

例如，当将输入图像11与对应的N个正样本1、对应的N个负样本1作为一组训练数据1输入未训练的表情识别神经网络22后，根据计算得到的损失值1对表情识别神经网络的网络参数进行调整，得到调整后的表情识别神经网络。然后，将上述的输入图像12、对应的N个正样本2、对应的N个负样本2作为一组训练数据2输入未训练的表情识别神经网络22，根据计算得到的损失值2对表情识别神经网络的网络参数再次进行调整，得到调整后的表情识别神经网络。然后，将上述的输入图像13、对应的N个正样本3、对应的N个负样本3作为一组训练数据3输入未训练的表情识别神经网络22，根据计算得到的损失值3对表情识别神经网络的网络参数再次进行调整，得到调整后的表情识别神经网络，.......，然后，将上述的输入图像17、对应的N个正样本7、对应的N个负样本7作为一组训练数据7输入未训练的表情识别神经网络22，根据计算得到的损失值7对表情识别神经网络的网络参数再次进行调整，得到调整后的表情识别神经网络。当然，本发明实施例对各组训练数据输入表情识别神经网络的顺序不作限制。

按照上述的方法利用大量的训练数据组继续训练表情识别神经网络并调整表情识别神经网络的网络参数。当损失函数的损失值达到预设条件时停止训练，得到已训练的表情识别神经网络22。其中，预设条件可以是损失函数的损失值小于预设的阈值，或者达到最小损失值。

在一个实施例中，可以使用随机梯度下降算法(Stochastic gradient descent，简称SGD)对表情识别神经网络进行优化。当然，在实际应用时，也可以采用其他梯度下降算法对表情识别神经网络进行优化，例如，最大梯度下降算法、Adam(adaptive momentestimation)、AdaDelta等。

当然，表情识别神经网络的训练方法不限于上述的训练方法，也可以采用其他训练方法，例如，可以利用上述的训练数据集对表情识别神经网络进行迭代训练，迭代次数达到指定次数后停止训练。

在步骤103中，将所述至少一个第一维数的特征向量进行合并，得到第二维数的特征向量；其中，所述第二维数等于所述至少一个第一维数的和。

在本实施例中，可以将上述至少一个第一维数的特征向量按照指定的顺序进行合并，得到第二维数的特征向量。例如，当至少一个特征区域图像包括左眼、右眼、鼻子以及嘴对应的特征区域图像时，至少一个表情识别神经网络包括上述的表情识别神经网络22～25时，表情识别神经网络22～25分别输出128维的特征向量A、128维的特征向量B、128维的特征向量C以及128维的特征向量D等4个128维的特征向量。在本步骤中，可以将128维的特征向量A、128维的特征向量B、128维的特征向量C以及128维的特征向量D按照指定的顺序进行合并，得到512维的特征向量E。

在步骤104中，将所述第二维数的特征向量输入至已训练的分类器中，以由所述分类器输出所述人脸图像的表情类别信息。

在本实施例中，已训练的分类器可以是表情预测分类器。例如，当表情类别包括高兴、惊讶、平静、悲伤、生气、厌恶以及恐惧等7个类别时，已训练的分类器可以对输入的512维的特征向量E进行处理，并输出一个处理结果，该处理结果可包括人脸图像的表情类别信息。例如，表情类别信息为1，可以表示人脸图像的表情为高兴，表情类别信息为2，可以表示人脸图像的表情为惊讶，表情类别信息为3，可以表示人脸图像的表情为平静等，其中，表情类别信息不限于上述的具体形式。

在一个实施例中，上述的分类器可以是SVM(支持向量机)分类器。采用SVM分类器可以进一步提高表情识别的速度。

在一个实施例中，如图6所示，所述分类器可以通过以下步骤601～604训练。需要说明的是，在对分类器进行训练时，可以采用如图2所示的算法结构，其中，与分类器连接的所有表情识别神经网络22～25是已训练的表情识别神经网络。

在步骤601中，获取携带第二标签的第二训练样本中至少一个面部器官的特征区域，得到至少一个训练特征区域图像；第二训练样本为包括所述至少一个面部器官的人脸图像；第二标签包括表情类别信息。

在本实施例中，使用的第二训练样本为包括上述的至少一个面部器官的人脸图像。第二训练样本的第二标签携带表情类别信息。将携带第二标签的第二训练样本输入图像输入层21后，输入图像输入层21可以从第二训练样本中得到至少一个面部器官的特征区域，得到至少一个训练特征区域图像。例如，输入图像输入层21可以从第二训练样本中得到左眼、右眼、鼻子以及嘴的特征区域，得到左眼、右眼、鼻子以及嘴各自的训练特征区域图像。

在步骤602中，将所述至少一个训练特征区域图像分别输入至对应的已训练的表情识别神经网络，以由所述表情识别神经网络输出对应的特征向量，得到至少一个第一维数的目标特征向量。

在本实施例中，可以将左眼的训练特征区域图像输入至已训练的表情识别神经网络22，已训练的表情识别神经网络22输出128维的目标特征向量1。同样地，可以将右眼的训练特征区域图像输入至已训练的表情识别神经网络23，已训练的表情识别神经网络23输出128维的目标特征向量2。同样地，可以将鼻子的训练特征区域图像输入至已训练的表情识别神经网络24，已训练的表情识别神经网络24输出128维的目标特征向量3。同样地，可以将嘴的训练特征区域图像输入至已训练的表情识别神经网络25，表情识别神经网络25输出128维的目标特征向量4。

在步骤603中，将所述至少一个第一维数的目标特征向量进行合并，得到第二维数的目标特征向量。

在本实施例中，合并层26可以将上述的目标特征向量1、目标特征向量2、目标特征向量3、目标特征向量4按照指定的顺序进行合并，得到512维的目标特征向量5。

在步骤604中，将所述第二维数的目标特征向量与所述第二标签输入至未训练的分类器中，对所述分类器进行训练，得到已训练的分类器。

在本实施例中，可以将上述512维的目标特征向量5第二标签输入至未训练的分类器中，对分类器进行训练，直至得到已训练的分类器。其中，分类器的训练方法与表情识别神经网络的训练方法类似，在此不再赘述。

需要说明的是，本发明实施例对上述的第一维数、第二维数的具体数值不作限制。

本实施例的有益效果是：由于将从待识别的人脸图像中获取的至少一个面部器官的特征区域图像分别输入至各自对应的已训练的表情识别神经网络，去除了人脸图像中大量的冗余信息，且特征区域图像的数据量较小，同时，至少一个表情识别神经网络并行处理数据，因此，可以在保证表情识别的准确率的同时提高表情识别的速度，进而有利于实现实时识别人脸表情。

本发明的实施例还提出了一种表情识别装置，如图7所述，该装置包括：

获取模块71，用于获取待识别的人脸图像中至少一个面部器官的特征区域，得到至少一个特征区域图像；

识别模块72，用于将所述至少一个特征区域图像分别输入至对应的已训练的表情识别神经网络，以由所述表情识别神经网络输出对应的特征向量，得到至少一个第一维数的特征向量；

合并模块73，用于将所述至少一个第一维数的特征向量进行合并，得到第二维数的特征向量；其中，所述第二维数等于所述至少一个第一维数的和；

分类模块74，用于将所述第二维数的特征向量输入至已训练的分类器中，以由所述分类器输出所述人脸图像的表情类别信息。

本发明的实施例还提出了一种终端设备，包括处理器和存储器；所述存储器，用于存储计算机程序；所述处理器，用于执行所述存储器上所存储的计算机程序，实现上述的方法步骤。

本发明的实施例还提出了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法步骤。

关于上述实施例中的装置，其中处理器执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种终端设备的框图。例如，终端设备1000可以被提供为一服务器。参照图8，设备1000包括处理组件1022，其进一步包括一个或多个处理器，以及由存储器1032所代表的存储器资源，用于存储可由处理部件1022的执行的指令，例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1022被配置为执行指令，以执行上述用于表情识别方法。

设备1000还可以包括一个电源组件1026被配置为执行设备1000的电源管理，一个有线或无线网络接口1050被配置为将设备1000连接到网络，和一个输入输出(I/O)接口1058。设备1000可以操作基于存储在存储器1032的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1032，上述指令可由设备1000的处理组件1022执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本发明中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种表情识别方法，其特征在于，包括：

将所述第二维数的特征向量输入至已训练的分类器中，以由所述分类器输出所述人脸图像的表情类别信息；

表情类别的数目大于1；特征区域图像的数目大于1；表情识别神经网络的数目大于1；特征区域图像与表情识别神经网络一一对应；每个表情识别神经网络通过以下步骤训练：

根据输入图像的第一维数的特征向量以及对应的N个负样本的第一维数的特征向量确定对应的负样本特征向量；将输入图像的第一维数的特征向量、对应的所有正样本的第一维数的特征向量以及对应的负样本特征向量带入损失函数进行计算，得到损失值；

根据所述损失值对表情识别神经网络的网络参数进行调整，在损失函数的损失值达到预设条件时停止训练，得到已训练的表情识别神经网络；

所述根据输入图像的第一维数的特征向量以及N个负样本的第一维数的特征向量确定负样本特征向量，包括：

将N个欧氏距离中欧氏距离最小的负样本的第一维数的特征向量确定为负样本特征向量；

所述将输入图像的第一维数的特征向量、所有正样本的第一维数的特征向量以及负样本特征向量带入损失函数进行计算，得到损失值之前，还包括：

获取预设的损失函数中强制边界参数的值；其中，所述损失函数为三元组L2距离，所述损失函数的计算式为

其中，f(x^a)为输入图像的第一维数的特征向量，

为与输入图像匹配的正样本的第一维数的特征向量，

2.根据权利要求1所述的表情识别方法，其特征在于，所述获取待识别的人脸图像中至少一个面部器官的特征区域，得到至少一个特征区域图像，包括：

3.根据权利要求1所述的表情识别方法，其特征在于，所述至少一个特征区域图像包括左眼、右眼、鼻子以及嘴的特征区域图像。

4.根据权利要求1所述的表情识别方法，其特征在于，所述表情识别神经网络包括输入层、卷积层、正则化层、最大池化层、全局平均池化层以及全连接层；所述卷积层的输入端与所述输入层连接，所述正则化层的输入端与所述卷积层的输出端连接，所述最大池化层的输入端与所述正则化层的输出端连接，所述全局平均池化层的输入端与所述最大池化层的输出端连接，所述全连接层的输入端与所述全局平均池化层的输出端连接；

5.根据权利要求4所述的表情识别方法，其特征在于，所述卷积层的数目、所述正则化层的数目、所述最大池化层的数目相同，且所述卷积层的数目大于或者等于1。

6.根据权利要求1所述的表情识别方法，其特征在于，所述分类器为支持向量机SVM分类器。

7.根据权利要求1所述的表情识别方法，其特征在于，所述分类器通过以下步骤训练：

8.一种表情识别装置，其特征在于，包括：

分类模块，用于将所述第二维数的特征向量输入至已训练的分类器中，以由所述分类器输出所述人脸图像的表情类别信息；

其中，f(x^a)为输入图像的第一维数的特征向量，

为与输入图像匹配的正样本的第一维数的特征向量，

9.一种终端设备，其特征在于，包括处理器和存储器；所述存储器，用于存储计算机程序；所述处理器，用于执行所述存储器上所存储的计算机程序，实现权利要求1-7任一项所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。