CN110263681A

CN110263681A - 面部表情的识别方法和装置、存储介质、电子装置

Info

Publication number: CN110263681A
Application number: CN201910478195.3A
Authority: CN
Inventors: 樊艳波; 张勇; 李乐; 吴保元; 李志锋; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-09-20
Anticipated expiration: 2039-06-03
Also published as: WO2020244434A1; CN110263681B; US20210406525A1

Abstract

本发明公开了一种面部表情的识别方法和装置、存储介质、电子装置。其中，该方法包括：利用目标神经网络模型从第一图像中识别出第一表情类型，其中，目标神经网络模型用于根据第一图像中像素点的颜色提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型。本发明解决了相关技术中识别人脸表情类型的准确度较低的技术问题。

Description

面部表情的识别方法和装置、存储介质、电子装置

技术领域

本发明涉及互联网领域，具体而言，涉及一种面部表情的识别方法和装置、存储介质、电子装置。

背景技术

人的情感的产生是一个很复杂的心理过程，情感的表达也伴随多种表现方式，常被计算机学家用于研究的表达方式主要有三种：表情、语音、动作。在这三种情感表达方式中，表情所贡献的情感比例高达55％，随着人机交互技术的应用日益广泛，在人机交互、自动驾驶和医疗健康等领域中，人脸表情识别技术具有非常重要的意义。

在人脸表情识别技术中，由于以下原因的存在：其一是不同的人表情变化不同，人脸表情会根据不同的人的表现方式的区别而产生差异性；其二是同一个人的表情在现实生活中具有实时性，同一人在不同的时间段、不同的场景等条件下产生的表情也不同；其三是受外界的条件的影响，如背景、光照、角度、距离等对表情识别影响较大。以上这些都会影响到人脸表情识别的准确性。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种面部表情的识别方法和装置、存储介质、电子装置，以至少解决相关技术中识别人脸表情类型的准确度较低的技术问题。

根据本发明实施例的一个方面，提供了一种面部表情的识别方法，包括：利用目标神经网络模型从第一图像中识别出第一表情类型，其中，目标神经网络模型用于根据第一图像中像素点的颜色提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型。

根据本发明实施例的另一方面，还提供了一种面部表情的识别装置，包括：识别单元，用于利用目标神经网络模型从第一图像中识别出第一表情类型，其中，目标神经网络模型用于根据第一图像中像素点的颜色提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型。

根据本发明实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器通过计算机程序执行上述的方法。

在本发明实施例中，利用目标神经网络模型从第一图像中识别出第一表情类型，目标神经网络模型用于根据第一图像中像素点的颜色提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型，通过融合图像特征和面部关键点特征，可以解决相关技术中识别人脸表情类型的准确度较低的技术问题，进而达到准确识别面部表情的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的面部表情的识别方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的面部表情的识别方法的流程图；

图3是根据本发明实施例的面部表情的识别方法的应用场景的示意图；

图4是根据本发明实施例的面部表情的识别方法的应用场景的示意图；

图5是根据本发明实施例的面部表情的识别方法的应用场景的示意图；

图6是根据本发明实施例的一种可选的面部表情的识别系统的示意图；

图7是根据本发明实施例的一种可选的面部关键点的示意图；

图8是根据本发明实施例的一种可选的面部图网络结构的示意图；

图9是根据本发明实施例的一种可选的面部表情的识别装置的示意图；

以及

图10是根据本发明实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色是目前运用比较广的颜色系统之一。

YUV是一种颜色编码方法，常使用在各个视频处理组件中，YUV在对照片或视频编码时，考虑到人类的感知能力，允许降低色度的带宽。“Y”表示明亮度(Luminance、Luma)，“U”和“V”则是色度、浓度(Chrominance、Chroma)。

印刷四色模式CMYK是彩色印刷时采用的一种套色模式，利用色料的三原色混色原理，加上黑色油墨，共计四种颜色混合叠加，形成所谓“全彩印刷”，四种标准颜色是：C：Cyan＝青色，又称为‘天蓝色’或是‘湛蓝’；M：Magenta＝品红色，又称为‘洋红色’；Y：Yellow＝黄色；K：blacK＝黑色。

根据本发明实施例的一方面，提供了一种面部表情的识别方法的方法实施例。

可选地，在本实施例中，上述面部表情的识别方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示，服务器103通过网络与终端101进行连接，可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等)，可在服务器上或独立于服务器设置数据库105，用于为服务器103提供数据存储服务，上述网络包括但不限于：广域网、城域网或局域网，终端101并不限定于PC、手机、平板电脑等。本发明实施例的面部表情的识别方法可以由服务器103来执行，也可以由终端101来执行，还可以是由服务器103和终端101共同执行。其中，终端101执行本发明实施例的面部表情的识别方法也可以是由安装在其上的客户端来执行。

图2是根据本发明实施例的一种可选的面部表情的识别方法的流程图，如图2所示，该方法可以包括以下步骤(其中步骤S202和步骤S206为可选的步骤)：

步骤S202，服务器获取目标终端的识别请求，识别请求用于请求识别第一图像中对象面部的表情类型。此处的对象为具备表情展现的对象，如人类、猩猩等，为了描述的统一，后续统一以人类为例进行描述。

人脸表情识别在人机交互、自动驾驶和医疗健康等领域都得到了越来越多的发展和应用，为了实现人脸表情识，用于实现人机交互、自动驾驶、医疗健康检测的目标终端可以采集目标对象(如用户、驾驶员、路人、病人等)的第一图像，并发起识别表情类型的识别请求，此处的表情类型可以为生气、悲伤、厌恶、害怕、吃惊、高兴、正常等表情。

步骤S204，服务器利用目标神经网络模型从第一图像中识别出第一表情类型，目标神经网络模型用于根据第一图像中像素点的颜色提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型。

上述第一图像中像素点的颜色的编码可以为RGB、YUV、CMYK等颜色编码模式中的一种，为了描述统一，后续以RGB为例进行说明，其余颜色编码模式与此类似，不再赘述。

上述第一特征为提取的与表情相关的纹理特征，第二特征为面部组成部分(如人脸五官中的至少之一)、面部轮廓的特征，面部关键点即为描述面部组成部分和/或面部轮廓的特征点。

在该方案中，通过目标神经网络模型的学习，可以学习到不同对象和相同对象在面部表情表达时的共性，通过第一特征(可以准确表示对象的面部纹理)和第二特征(可用来表示面部各个部位的联动、轮廓的变化等)可以利用事先学习到的第一特征和第二特征与面部表情分类之间的关系，准确识别出当前对象的面部表情，同时，即存在光照变化、遮挡等不理因素，也可以通过第二特征与第一特征的融合避免单独使用第一特征(前述不利因素会导致第一特征的提取不准确)造成的识别不正确。

步骤S206，响应于识别请求，服务器向目标终端返回识别出的第一表情类型。

通过上述步骤S202至步骤S206，利用目标神经网络模型从第一图像中识别出第一表情类型，目标神经网络模型用于根据第一图像中像素点的颜色提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型，通过融合图像特征和面部关键点特征，考虑了更多的特征以及特征之间的关联，可以解决相关技术中识别人脸表情类型的准确度较低的技术问题，进而达到准确识别面部表情的技术效果。

本申请提供了一种基于编码图像(如RGB图像)和面部关键点Landmark(如人脸关键点)的多模态人脸表情识别方案，本方案利用卷积神经网络CNN(英文全称为convolutionneural networks)和图神经网络GNN(英文全称为graph neural networks)分别对RGB图像和人脸关键点进行建模学习，并融合两个模态的特征进行表情识别，该方案通过对RGB图像和人脸关键点之间的相关性和互补性进行建模，可以实现更加鲁棒的人脸表情识别，通过图神经网络可更为灵活而高效的刻画人脸关键点之间的关联，能够提取判别能力更强的人脸关键点特征。下面结合图2所示的步骤进一步详述本申请的技术方案。

在执行步骤S202之前，可以按照如下方式预先训练好神经网络模型：

步骤11，获取训练集，其中，训练集中的训练图像标识有表情类型且颜色编码类型与第一图像相同。

可选地，可以预先获取一个数据集(如AffectNet人脸表情数据集)，将该数据集中的图像划分为训练集和测试集，所划分的方式可以为随机划分，以便于训练集和测试集中的图像的特征保持相同或者基本相同的分布，在图片所占比例上，一般训练集的图片数量大于测试集的图片，例如训练集中图片占了数据集的80％，测试集占了其中20％。

步骤12，将训练集中的训练图像作为原始神经网络模型的输入，对原始神经网络模型进行训练得到初始神经网络模型，初始神经网络模型是以训练集中的训练图像为输入并以训练图像标识的表情类型为预计输出时，初始化原始神经网络模型的网络层中的权重参数后得到的。

上述的原始神经网络模型可包括用于进行图像的第一特征(纹理特征)提取的卷积神经网络、用于进行面部关键点的第二特征提取的图神经网络、用于进行面部表情类型分类的分类网络(可包括全连接层和分类层)以及误差函数。

在神经网络中，每个神经元有输入连接和输出连接，这些连接模拟了大脑中突触的行为，与大脑中突触传递信号的方式类似，信号从一个神经元传递到另一个神经元，每一个连接都有权重，这意味着发送到每个连接的值要乘以这个因子，权重实际上相当于生物神经元之间传递的神经递质的数量，如果某个连接重要，那么它将具有比那些不重要的连接更大的权重值。而训练过程就是赋予这些权重参数的过程。在本申请的技术方案中，可以采用监督学习实现，训练集包括输入(如图像的RGB编码和采用图数据结构的面部图)和期望的输出(即面部表情类型)，通过这种方式，网络可以检查它的计算结果和期望输出相不相同，并据此采取适当的行动。

训练集中的每个训练图像包括输入值和期望的输出，一旦网络计算出其中一个输入的输出(初始时可随机赋予权重参数数值)，误差函数便误差，这个误差表明模型的实际输出跟期望的输出有多接近。此处使用的误差函数是均方误差函数：

x表示训练集中的输入，y(x)表示神经网络产生的输出,a是期望的输出，可以看到这个函数是关于w和b的函数，分别代表了权重和偏差(biases)，在每次得到输出后，对应的误差被返回神经网络，并且权重被相应地修改调整，从而使得神经网络通过该算法完成了一次对所有权重的调整，循环往复，直至训练的图像量达到一定的值。

步骤13，获取以测试集中的测试图像为初始神经网络模型的输入时初始神经网络模型输出的第二表情类型，测试集中的测试图像标识有表情类型且颜色编码类型与第一图像相同。

步骤14，在初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值的情况下，将初始神经网络模型作为目标神经网络模型。

上述的匹配正确率是通过计算初始神经网络模型对多个测试图像的输出得到的，如对100张测试图像，能够正确识别其中的95张，那个匹配正确率为95，若目标阈值是98％，由于实际正确匹配率小于目标阈值，说明该模型欠拟合，那么就还需继续对初始神经网络模型进行训练，若能够正确识别其中的99张，那么说明模型已经比较成熟，可以使用了。

步骤15，在初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率小于目标阈值的情况下，将训练集中的训练图像作为初始神经网络模型的输入，继续对初始神经网络模型进行训练，直至初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值。

在使用上述方法训练好神经网络模型之后，即可使用该模型进行面部表情类型的识别，在步骤S202提供的技术方案中，服务器获取目标终端的识别请求，识别请求用于请求识别第一图像中对象面部的表情类型。该识别请求可以直接为第一图像，或者携带有第一图像的指示信息(如第一图像的图像标志、存储地址等)的请求消息。

在步骤S204提供的技术方案中，服务器利用目标神经网络模型从第一图像中识别出第一表情类型，目标神经网络模型用于根据第一图像中像素点的颜色提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型。

上述利用目标神经网络模型从第一图像中识别出第一表情类型包括步骤S2042-步骤S2044：

步骤S2042，在目标神经网络模型的卷积神经网络中，利用第一图像中像素点的颜色提取用于表示第一图像中纹理的第一特征，并在目标神经网络模型的图神经网络中，提取用于表示面部关键点之间关联的第二特征，其中，面部关键点用于表示对象面部的组成部分和/或面部轮廓。

可选地，利用第一图像中像素点的颜色提取用于表示第一图像中纹理的第一特征包括：将第一图像中像素点的颜色编码数据(如第一图像的RGB编码数据)作为卷积神经网络的输入，卷积神经网络用于对第一图像中像素点的颜色编码执行卷积操作，得到第一特征，如描述笑容时眼角上扬的特征；获取卷积神经网络输出的第一特征。

上述实施例中，为了提高识别的准确率，可以对第一图像进行预处理，以使其分辨率、长宽、参考点符合要求，在将第一图像中像素点的颜色编码作为卷积神经网络的输入时，在第一图像中的参考点在第一图像中的位置与图片模板中的参考点在图片模板中的位置不同的情况下，执行对第一图像的裁剪操作和/或缩放操作，如执行以下至少之一：移动第一图像以使其参考点与模板的参考点在位置上重合，然后以参考点为原点进行缩放以使其分辨率与模板相同，再对其进行裁剪以使其长宽与模板相同，从而得到第二图像，第二图像中的参考点在第二图像中的位置与图片模板中的参考点在图片模板中的位置相同；将第二图像中像素点的颜色编码作为卷积神经网络的输入。

可选地，在根据第一面部图确定第二面部图之前，可利用多张第三图像确定面部关键点、关键点之间的关联关系以及关键点之间的关联权重，其中，第三图像为标识有表情类型的图像，可以对多张第三图像(均为具有明显面部表情的图像)进行分析，以确定五官周围、面部轮廓上与表情直接最相关关键点(即受表情影响时运动幅度或者表能体现该表情的点)，而具备关联关系的关键点是指在同一表情下能够产生联动的点，而关联权重是对两个关键点之间的关联程度(具体可以根据对不同人群的研究后取经验值)进行处理(如归一化)后得到的；以面部关键点为节点、连接位于节点之间的用于表示面部关键点之间存在关联关系的边，并将存在关联关系的关键点之间的关联权重作为边的权重，得到第一面部图。

在提取用于表示面部关键点之间关联的第二特征时，可根据第一面部图确定第二面部图，其中，第一面部图包括表示面部关键点的节点、位于节点之间的表示面部关键点之间存在关联关系的边以及边的关联权重，第二面部图为在第一面部图中增加节点对应的面部关键点在第一图像中的位置之后得到的；对第二面部图进行特征提取得到第二特征。

步骤S2044，在目标神经网络模型的分类网络中，由于已经通过预先的训练学习到了不同的第一特征、第二特征二者与不同的表情类型之间的对应关系，故可以通过预先学习到的对应关系从多个表情类型中识别出与第一特征和第二特征对应的第一表情类型。

在上述实施例中，使用了基于RGB图像的人脸表情识别方案和基于人脸关键点的表情识别方案，其中基于RGB图像的表情识别方案主要是从人脸图像中提取与表情相关的特征(即第一特征)并进行分类，但由于RGB图像受光照变化和遮挡等因素的影响很大，仅仅依靠RGB图像数据的人脸表情识别系统的鲁棒性较差；基于人脸关键点的表情识别方案中，人脸关键点主要指人脸的五官和轮廓所在的点，这些点的位置信息与人脸表情密切相关，随着人脸关键点预测越来越准确，基于关键点的人脸表情识别也越来越准确，在基于人脸关键点的表情识别中可利用手工设计(hand-craft)的特征，并利用浅层模型进行分类，如利用支持向量机(英文全称为Support Vector Machine,简称SVM)模型进行表情分类，由于人脸关键点具有丰富的结构信息，并且不同关键点之间具有密切的关联，所以采用该方案能够准确识别人脸面部表情，但是若采用手工设计的特征则无法灵活而有效地对不同关键点之间的丰富而复杂的关联进行建模，导致基于关键点的人脸表情识别性能较差。

考虑到基于RGB图像的表情识别可以获取更加丰富的人脸纹理信息，但其对光照变化等不具备很好的鲁棒性，而基于人脸关键点的表情识别对光照等变化更加鲁棒，但其丢失了大部分的纹理信息，融合RGB图像和人脸关键点对人脸表情识别很有帮助。故本申请提供了一种基于RGB图像和人脸关键点的多模态人脸表情识别方案，该方案利用RGB图像和人脸关键点的互补性，实现更加鲁棒的人脸表情识别，针对手工设计特征无法高效刻画人脸关键点的关联，该方案利用图神经网络灵活而高效的对人脸关键点进行建模，所设计的图神经网络能够自适应的学习关键点之间的关联，显著提升基于关键点的人脸表情识别性能。

在步骤S206提供的技术方案中，响应于识别请求，服务器向目标终端返回识别出的第一表情类型。

可选地，在向目标终端返回识别出的第一表情类型之后，可获取目标终端的反馈信息，反馈信息用于指示识别出的第一表情类型是否正确；在反馈信息指示识别出的第一表情类型不正确的情况下，使用与第一图像具备相同的图像特征的第四图像对目标神经网络模型进行训练，第四图像可以为与第一图像的面部表情类型相同的图像、或者背景类型与之相同的图像。采用该技术方案，相当于可以针对目标神经网络模型的识别薄弱环节进行针对性的提高。

人脸表情识别在人机交互、自动驾驶和医疗健康等领域都得到了越来越多的发展和应用，作为一种可选的实施例，本申请可以用于辅助机器人识别人的情绪和心理，提升人机交互产品中的用户体验，如图3所示，如识别到人做出生气的表情时，机器人可以通过讲笑话等缓解人的情绪，提升用户体验；本申请也可以用于商场、银行等客户满意度分析，如图4所示，如通过分析监控视频中的人脸表情判断顾客在商场中的购物满意度等；本申请还可以用于动画表情模拟和生成，如识别真实人脸的表情并将其自然的迁移到动画形象上，如图5所示。下面结合具体的实施方式进一步详述本申请的技术方案。

本申请提供了一种基于RGB图像和人脸关键点的多模态人脸表情识别系统，图6所示为多模态人脸表情识别框架，可给定一张待识别的图像，首先进行人脸检测和人脸对齐，并提取人脸关键点信息；然后利用卷积神经网络自适应的对RGB图像进行特征学习，利用图神经网络自适应的建模人脸关键点之间的关联并进行关键点特征学习，所得到的RGB特征和关键点特征融合起来用于最后的分类；整个识别系统可以进行实现端到端的训练和预测。

在人脸关键点特征学习中，可给定对齐后的人脸图像，模型先从图像中提取人脸关键点信息，如图7所示。人脸关键点(如编号1-68所示的点)定位人脸面部的关键区域位置，如脸部轮廓、眉毛、眼睛、鼻子和嘴巴等；同一个人做不同表情时，人脸关键点位置通常不同，因而可以利用人脸关键点信息辅助人脸表情识别，人脸关键点之间通常存在复杂的关联，如做“惊讶”表情时，眉毛和眼睛附近的关键点位置通常会一起变化等。考虑到采用基于关键点信息的人脸表情识别时若使用手工设计的特征，如关键点位置信息的堆叠或不同关键点之间的距离等，这些手工设计的特征无法有效的建模关键点之间的关联，所得到的关键点特征判别能力较差，在大规模人脸表情识别数据集上的识别准确率很差。

为更好的建模和利用人脸关键点之间的关联，本方案采用图神经网络对人脸关键点进行高效的建模，将人脸图像作为一个高度结构化的数据，根据人脸五官分布将人脸关键点组成一个图网络结构，如图8所示，图中每一个顶点表示一个人脸关键点，每一条边表示人脸关键点之间的关联。令X_landmark表示输入的原始人脸关键点信息，A表示图邻接矩阵，A_ij＝1表示第i个关键点和第j个关键点之间存在边，A_ij＝0表示第i个关键点和第j个关键点之间不存在边。基于图神经网络的人脸关键点特征学习表述如下：

其中f_gcn为图神经网络，由于图邻接矩阵A是0-1矩阵，其只能表示关键点之间有无关联，而无法衡量不同边的权重，不同关键点之间的相关关系的强弱互不相同，为更好的衡量不同关键点之间的相关关系，本方案引入可学习参数W，

其中为修正的带权重的邻接矩阵，并且权重参数W是自适应学习。Y_landmark表示从人脸关键点得到的特征。

在进行RGB图像特征学习时，RGB图像特征由RGB图像提取得到，RGB图像是经过人脸检测和对齐处理后的人脸图像直接得到的，由于卷积神经网络在图像特征学习和图像识别等领域取得显著的效果，本方案采用卷积神经网络提取RGB图像特征，令X_rgb表示图像的原始RGB输入，本方案得到的RGB图像特征表示如下：

Y_rgb＝f_cnn(X_rgb)，

其中f_cnn为基于RGB图像的卷积神经网络，Y_rgb表示学习到的RGB图像特征。

在多模态特征融合时，RGB图像信息和人脸关键点信息相互补充，本方法将学习到的人脸关键点特征Y_landmark和RGB图像特征Y_rgb融合起来，得到整体特征Y如下：

Y＝g(X_landmark,X_rgb)，

其中g表示特征融合，该方案基于融合后的特征Y利用全连接网络进行表情分类。整个网络结构包括人脸关键点特征提取分支f_gcn、RGB图像特征提取分支f_cnn以及全连接分类网络可以实现端到端的训练，该方案在网络训练过程中采取加权损失函数最小化缓解人脸表情识别中严重的类别不均衡现象。

为验证本申请的方法的有效性，本方法采用AffectNet人脸表情数据集，其包含七类基本人脸表情：愤怒，厌恶，恐惧，高兴，自然，悲伤，惊讶等。其数据(包括训练集和验证集，验证集也称测试集)分布如下表1所示：

表1

AffectNet数据集中7种基本表情的数据分布如表2所示。

表2

不同人脸关键点模型在七种表情下的识别准确率和平均识别准确率如表3所示。

表3

由于采用了基于图神经网络的表情识别，为验证本申请提出的基于图神经网络的人脸关键点特征提取的有效性，表2给出了基于图神经网络的关键点特征的表情识别模型(Landmark-GCN)在AffectNet七种表情下的识别准确率，最后一列为平均识别准确率，表2中同时给出了基于手工设计特征的关键点人脸表情识别模型：线性分类模型(Landmark-Linear)和SVM分类模型(Landmark-SVM)的分类准确率，可以看出，表3中本方法提出的图神经网络所提取的人脸关键点特征具备很好的判别性，其识别效果显著优于基于手工设计特征的模型。

在采用基于多模特信息融合的人脸表情识别方案时，表3给出了基于RGB图像特征的表情识别，基于图神经网络的人脸关键点的表情识别和基于多模态融合的表情识别在AffectNet七种表情下的识别准确率和平均识别准确率。可以看出，本发明提出的基于RGB图像和人脸关键点的多模态表情识别方法取得了最高的平均识别准确率。

本申请提出了一种多模态信息融合的人脸表情识别方法。该方法同时考虑了RGB图像和人脸关键点的互补信息，可以显著提升人脸表情识别的准确率。该发明适用于提升人机交互产品中的用户体验，辅助商场、银行等分析顾客的满意度以及辅助动画表情模拟和生成等。

本发明依据人脸结构信息构建人脸关键点图网络结构，人脸关键点的个数和位置不限于图7所示，人脸关键点的图网络结构不限于图8所示，可以是任意个数的关键点和任意的图网络结构。本发明采取卷积神经网络和图神经网络分别对RGB图像和人脸关键点进行建模，不限定某一种卷积神经网络或图神经网络。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述面部表情的识别方法的面部表情的识别装置。图9是根据本发明实施例的一种可选的面部表情的识别装置的示意图，如图9所示，该装置可以包括：第一获取单元901、识别单元903以及响应单元905(其中，第一获取单元901和响应单元905为可选的)。

第一获取单元901，用于获取目标终端的识别请求，其中，识别请求用于请求识别第一图像中对象面部的表情类型。

识别单元903，用于利用目标神经网络模型从第一图像中识别出第一表情类型，其中，目标神经网络模型用于根据第一图像中像素点的颜色提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型。

响应单元905，用于响应于识别请求，向目标终端返回识别出的第一表情类型。

需要说明的是，该实施例中的第一获取单元901可以用于执行本申请实施例中的步骤S202，该实施例中的识别单元903可以用于执行本申请实施例中的步骤S204，该实施例中的响应单元905可以用于执行本申请实施例中的步骤S206。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，利用目标神经网络模型从第一图像中识别出第一表情类型，目标神经网络模型用于根据第一图像中像素点的颜色提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型；通过融合图像特征和面部关键点特征，可以解决相关技术中识别人脸表情类型的准确度较低的技术问题，进而达到准确识别面部表情的技术效果。

可选地，识别单元可包括：处理模块，用于在目标神经网络模型的卷积神经网络中，利用第一图像中像素点的颜色提取用于表示第一图像中纹理的第一特征，并在目标神经网络模型的图神经网络中，提取用于表示面部关键点之间关联的第二特征，其中，面部关键点用于表示对象面部的组成部分和/或面部轮廓；识别模块，用于在目标神经网络模型的分类网络中，从多个表情类型中识别出与第一特征和第二特征对应的第一表情类型。

可选地，处理模块还可用于：将第一图像中像素点的颜色编码作为卷积神经网络的输入，其中，卷积神经网络用于对第一图像中像素点的颜色编码执行卷积操作，得到第一特征；获取卷积神经网络输出的第一特征。

可选地，处理模块在将第一图像中像素点的颜色编码作为卷积神经网络的输入时，还可用于：在第一图像中的参考点在第一图像中的位置与图片模板中的参考点在图片模板中的位置不同的情况下，执行对第一图像的裁剪操作和/或缩放操作，得到第二图像，其中，第二图像中的参考点在第二图像中的位置与图片模板中的参考点在图片模板中的位置相同；将第二图像中像素点的颜色编码作为卷积神经网络的输入。

可选地，处理模块还可用于：根据第一面部图确定第二面部图，其中，第一面部图包括表示面部关键点的节点、位于节点之间的表示面部关键点之间存在关联关系的边以及边的关联权重，第二面部图为在第一面部图中增加节点对应的面部关键点在第一图像中的位置之后得到的；对第二面部图进行特征提取得到第二特征。

可选地，处理模块还可用于在根据第一面部图确定第二面部图之前，利用多张第三图像确定面部关键点、关键点之间的关联关系以及关键点之间的关联权重，其中，第三图像为标识有表情类型的图像；以面部关键点为节点、连接位于节点之间的用于表示面部关键点之间存在关联关系的边，并将存在关联关系的关键点之间的关联权重作为边的权重，得到第一面部图。

可选地，上述装置还可包括：第二获取单元，用于在获取目标终端的识别请求之前，获取训练集，其中，训练集中的训练图像标识有表情类型且颜色编码类型与第一图像相同；训练单元，用于将训练集中的训练图像作为原始神经网络模型的输入，对原始神经网络模型进行训练得到初始神经网络模型，其中，初始神经网络模型是以训练集中的训练图像为输入并以训练图像标识的表情类型为预计输出时，初始化原始神经网络模型的网络层中的权重参数后得到的；第三获取单元，用于获取以测试集中的测试图像为初始神经网络模型的输入时初始神经网络模型输出的第二表情类型，其中，测试集中的测试图像标识有表情类型且颜色编码类型与第一图像相同；确定单元，用于在初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值的情况下，将初始神经网络模型作为目标神经网络模型；其中，训练单元还用于在初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率小于目标阈值的情况下，将训练集中的训练图像作为初始神经网络模型的输入，继续对初始神经网络模型进行训练，直至初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值。

可选地，本申请的装置还可包括：反馈单元，用于在向目标终端返回识别出的第一表情类型之后，获取反馈信息，其中，反馈信息用于指示识别出的第一表情类型是否正确；在反馈信息指示识别出的第一表情类型不正确的情况下，使用与第一图像具备相同的图像特征的第四图像对目标神经网络模型进行训练。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本发明实施例的另一个方面，还提供了一种用于实施上述面部表情的识别方法的服务器或终端。

图10是根据本发明实施例的一种终端的结构框图，如图10所示，该终端可以包括：一个或多个(图10中仅示出一个)处理器1001、存储器1003、以及传输装置1005，如图10所示，该终端还可以包括输入输出设备1007。

其中，存储器1003可用于存储软件程序以及模块，如本发明实施例中的面部表情的识别方法和装置对应的程序指令/模块，处理器1001通过运行存储在存储器1003内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的面部表情的识别方法。存储器1003可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1003可进一步包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1005用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1005包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1005为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器1003用于存储应用程序。

处理器1001可以通过传输装置1005调用存储器1003存储的应用程序，以执行下述步骤：

获取目标终端的识别请求，其中，识别请求用于请求识别第一图像中对象面部的表情类型；

利用目标神经网络模型从第一图像中识别出第一表情类型，其中，目标神经网络模型用于根据第一图像中像素点的颜色提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型；

响应于识别请求，向目标终端返回识别出的第一表情类型。

处理器1001还用于执行下述步骤：

获取训练集，其中，训练集中的训练图像标识有表情类型且颜色编码类型与第一图像相同；

将训练集中的训练图像作为原始神经网络模型的输入，对原始神经网络模型进行训练得到初始神经网络模型，其中，初始神经网络模型是以训练集中的训练图像为输入并以训练图像标识的表情类型为预计输出时，初始化原始神经网络模型的网络层中的权重参数后得到的；

获取以测试集中的测试图像为初始神经网络模型的输入时初始神经网络模型输出的第二表情类型，其中，测试集中的测试图像标识有表情类型且颜色编码类型与第一图像相同；

在初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值的情况下，将初始神经网络模型作为目标神经网络模型；

在初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率小于目标阈值的情况下，将训练集中的训练图像作为初始神经网络模型的输入，继续对初始神经网络模型进行训练，直至初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值。

采用本发明实施例，获取目标终端的识别请求，识别请求用于请求识别第一图像中对象面部的表情类型；利用目标神经网络模型从第一图像中识别出第一表情类型，目标神经网络模型用于根据第一图像中像素点的颜色提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型；响应于识别请求，向目标终端返回识别出的第一表情类型，通过融合图像特征和面部关键点特征，可以解决相关技术中识别人脸表情类型的准确度较低的技术问题，进而达到准确识别面部表情的技术效果。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图10所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，终端还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行面部表情的识别方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

响应于识别请求，向目标终端返回识别出的第一表情类型。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面部表情的识别方法，其特征在于，包括：

利用目标神经网络模型从第一图像中识别出第一表情类型，其中，所述目标神经网络模型用于根据所述第一图像中像素点的颜色提取第一特征、从所述第一图像中提取面部关键点的第二特征以及利用所述第一特征和所述第二特征确定所述第一图像中对象面部的所述第一表情类型。

2.根据权利要求1所述的方法，其特征在于，利用目标神经网络模型从所述第一图像中识别出第一表情类型包括：

在所述目标神经网络模型的卷积神经网络中，利用所述第一图像中像素点的颜色提取用于表示所述第一图像中纹理的所述第一特征，并在所述目标神经网络模型的图神经网络中，提取用于表示所述面部关键点之间关联的所述第二特征，其中，所述面部关键点用于表示对象面部的组成部分和/或面部轮廓；

在所述目标神经网络模型的分类网络中，从多个表情类型中识别出与所述第一特征和所述第二特征对应的所述第一表情类型。

3.根据权利要求2所述的方法，其特征在于，利用所述第一图像中像素点的颜色提取用于表示所述第一图像中纹理的所述第一特征包括：

将所述第一图像中像素点的颜色编码作为所述卷积神经网络的输入，其中，所述卷积神经网络用于对所述第一图像中像素点的颜色编码执行卷积操作，得到所述第一特征；

获取所述卷积神经网络输出的所述第一特征。

4.根据权利要求3所述的方法，其特征在于，将所述第一图像中像素点的颜色编码作为所述卷积神经网络的输入包括：

在所述第一图像中的参考点在所述第一图像中的位置与图片模板中的参考点在所述图片模板中的位置不同的情况下，执行对所述第一图像的裁剪操作和/或缩放操作，得到第二图像，其中，所述第二图像中的参考点在所述第二图像中的位置与所述图片模板中的参考点在所述图片模板中的位置相同；

将所述第二图像中像素点的颜色编码作为所述卷积神经网络的输入。

5.根据权利要求2所述的方法，其特征在于，提取用于表示所述面部关键点之间关联的所述第二特征包括：

根据第一面部图确定第二面部图，其中，所述第一面部图包括表示所述面部关键点的节点、位于节点之间的表示所述面部关键点之间存在关联关系的边以及边的关联权重，所述第二面部图为在所述第一面部图中增加节点对应的所述面部关键点在所述第一图像中的位置之后得到的；

对所述第二面部图进行特征提取得到所述第二特征。

6.根据权利要求5所述的方法，其特征在于，在根据第一面部图确定第二面部图之前，所述方法包括：

利用多张第三图像确定所述面部关键点、所述关键点之间的关联关系以及所述关键点之间的关联权重，其中，所述第三图像为标识有表情类型的图像；

以所述面部关键点为节点、连接位于节点之间的用于表示所述面部关键点之间存在关联关系的边，并将存在关联关系的所述关键点之间的关联权重作为边的权重，得到所述第一面部图。

7.根据权利要求1所述的方法，其特征在于，在利用目标神经网络模型从第一图像中识别出第一表情类型之前，所述方法包括：

获取训练集，其中，所述训练集中的训练图像标识有表情类型且颜色编码类型与所述第一图像相同；

将所述训练集中的训练图像作为原始神经网络模型的输入，对所述原始神经网络模型进行训练得到初始神经网络模型，其中，所述初始神经网络模型是以所述训练集中的训练图像为输入并以所述训练图像标识的表情类型为预计输出时，初始化所述原始神经网络模型的网络层中的权重参数后得到的；

获取以测试集中的测试图像为所述初始神经网络模型的输入时所述初始神经网络模型输出的第二表情类型，其中，所述测试集中的测试图像标识有表情类型且颜色编码类型与所述第一图像相同；

在所述初始神经网络模型输出的第二表情类型与所述测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值的情况下，将所述初始神经网络模型作为所述目标神经网络模型；

在所述初始神经网络模型输出的第二表情类型与所述测试集中的测试图像标识的表情类型之间的匹配正确率小于所述目标阈值的情况下，将所述训练集中的训练图像作为所述初始神经网络模型的输入，继续对所述初始神经网络模型进行训练，直至所述初始神经网络模型输出的第二表情类型与所述测试集中的测试图像标识的表情类型之间的匹配正确率达到所述目标阈值。

8.根据权利要求1至7中任意一项所述的方法，其特征在于，在利用目标神经网络模型从第一图像中识别出第一表情类型之后，所述方法包括：

向目标终端返回识别出的所述第一表情类型；

获取所述目标终端的反馈信息，其中，所述反馈信息用于指示识别出的所述第一表情类型是否正确；

在所述反馈信息指示识别出的所述第一表情类型不正确的情况下，使用与所述第一图像具备相同的图像特征的第四图像对所述目标神经网络模型进行训练。

9.一种面部表情的识别装置，其特征在于，包括：

识别单元，用于利用目标神经网络模型从第一图像中识别出第一表情类型，其中，所述目标神经网络模型用于根据所述第一图像中像素点的颜色提取第一特征、从所述第一图像中提取面部关键点的第二特征以及利用所述第一特征和所述第二特征确定所述第一图像中对象面部的所述第一表情类型。

10.根据权利要求9所述的装置，其特征在于，所述识别单元包括：

处理模块，用于在所述目标神经网络模型的卷积神经网络中，利用所述第一图像中像素点的颜色提取用于表示所述第一图像中纹理的所述第一特征，并在所述目标神经网络模型的图神经网络中，提取用于表示所述面部关键点之间关联的所述第二特征，其中，所述面部关键点用于表示对象面部的组成部分和/或面部轮廓；

识别模块，用于在所述目标神经网络模型的分类网络中，从多个表情类型中识别出与所述第一特征和所述第二特征对应的所述第一表情类型。

11.根据权利要求10所述的装置，其特征在于，所述处理模块还用于：

获取所述卷积神经网络输出的所述第一特征。

12.根据权利要求10所述的装置，其特征在于，所述处理模块还用于：

对所述第二面部图进行特征提取得到所述第二特征。

13.根据权利要求9所述的装置，其特征在于，所述装置包括：

第二获取单元，用于在利用目标神经网络模型从第一图像中识别出第一表情类型之前，获取训练集，其中，所述训练集中的训练图像标识有表情类型且颜色编码类型与所述第一图像相同；

训练单元，用于将所述训练集中的训练图像作为原始神经网络模型的输入，对所述原始神经网络模型进行训练得到初始神经网络模型，其中，所述初始神经网络模型是以所述训练集中的训练图像为输入并以所述训练图像标识的表情类型为预计输出时，初始化所述原始神经网络模型的网络层中的权重参数后得到的；

第三获取单元，用于获取以测试集中的测试图像为所述初始神经网络模型的输入时所述初始神经网络模型输出的第二表情类型，其中，所述测试集中的测试图像标识有表情类型且颜色编码类型与所述第一图像相同；

确定单元，用于在所述初始神经网络模型输出的第二表情类型与所述测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值的情况下，将所述初始神经网络模型作为所述目标神经网络模型；

其中，所述训练单元还用于在所述初始神经网络模型输出的第二表情类型与所述测试集中的测试图像标识的表情类型之间的匹配正确率小于所述目标阈值的情况下，将所述训练集中的训练图像作为所述初始神经网络模型的输入，继续对所述初始神经网络模型进行训练，直至所述初始神经网络模型输出的第二表情类型与所述测试集中的测试图像标识的表情类型之间的匹配正确率达到所述目标阈值。

14.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至8任一项中所述的方法。

15.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行上述权利要求1至8任一项中所述的方法。