CN112183491A

CN112183491A - 表情识别模型及训练方法、识别方法、装置和计算设备

Info

Publication number: CN112183491A
Application number: CN202011217953.5A
Authority: CN
Inventors: 王珂尧
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-01-05

Abstract

本公开提供一种表情识别模型及训练方法、识别方法、装置和计算设备，涉及人工智能技术领域，具体为计算机视觉、深度学习和图像处理技术领域。表情识别神经网络模型的训练方法包括：获取包含人脸的样本图像，并标注所包含的人脸的真实表情类别及其真实类别置信度；响应于样本图像输入主神经网络模型，主神经网络模型输出主预测表情类别及其主预测类别置信度；响应于至少一个第一卷积层中相应的其中一个输出的特征图输入分支神经网络模型，分支神经网络模型输出分支预测表情类别及其分支预测类别置信度；分别确定基于主神经网络模型的主损失值和基于分支神经网络模型的分支损失值；至少基于主损失值和至少一个分支损失值调整神经网络模型的参数。

Description

表情识别模型及训练方法、识别方法、装置和计算设备

技术领域

本公开涉及人工智能技术领域，具体为计算机视觉、深度学习和图像处理技术领域，特别涉及表情识别模型及训练方法、识别方法、装置、计算设备和介质。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等领域；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。人工智能被越来越广泛地应用在各个领域，例如人脸识别。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

根据本公开的一方面，提供一种表情识别神经网络模型的训练方法，表情识别神经网络模型包括主神经网络模型和至少一个分支神经网络模型，主神经网络模型包括多个依次连接的第一卷积层，其中，训练方法包括：获取包含人脸的样本图像，并标注样本图像中所包含的人脸的真实表情类别及其真实类别置信度；从多个依次连接的第一卷积层中除靠近输出侧的最后一个第一卷积层以外的多个第一卷积层中确定至少一个第一卷积层；响应于样本图像输入主神经网络模型，主神经网络模型输出样本图像中所包含的人脸的主预测表情类别及其主预测类别置信度；针对每一个分支神经网络模型，响应于至少一个第一卷积层中相应的其中一个输出的特征图输入分支神经网络模型，分支神经网络模型输出样本图像中所包含的人脸的分支预测表情类别及其分支预测类别置信度；基于主预测表情类别及其主预测类别置信度，以及真实表情类别及其真实类别置信度，确定主损失值；针对每一个分支神经网络模型，基于分支预测表情类别及其分支预测类别置信度，以及真实表情类别及其真实类别置信度，确定分支损失值；以及至少基于主损失值和至少一个分支损失值调整神经网络模型的参数。

根据本公开的另一方面，还提供一种表情识别方法，包括：将包含人脸的待识别图像输入表情识别神经网络模型，表情识别神经网络模型包括主神经网络模型和至少一个分支神经网络模型，主神经网络模型包括多个依次连接的第一卷积层；响应于待识别图像输入主神经网络模型，获取主神经网络模型输出的主特征向量；响应于至少一个第一卷积层中相应的其中一个输出的特征图输入分支神经网络模型，获取分支神经网络模型输出的分支特征向量，其中，至少一个第一卷积层为从多个依次连接的第一卷积层中除靠近输出侧的最后一个第一卷积层以外的多个第一卷积层中确定；以及基于主特征向量和分支特征向量，确定待识别图像中所包含的人脸的表情类别及其类别置信度。

根据本公开的另一方面，还提供一种表情识别神经网络模型，包括：主神经网络模型，其中，主神经网络模型包括多个依次连接的第一卷积层，主神经网络模型被配置用于响应于待识别图像输入主神经网络模型，输出主特征向量；以及至少一个分支神经网络模型，每一个分支神经网络模型被配置用于响应于至少一个第一卷积层中相应的其中一个输出的特征图输入分支神经网络模型，输出分支特征向量，其中，至少一个第一卷积层为从多个依次连接的第一卷积层中除靠近输出侧的最后一个第一卷积层以外的多个第一卷积层中确定。

根据本公开的另一方面，还提供一种表情识别装置，包括：表情识别神经网络模型，包括主神经网络模型和至少一个分支神经网络模型，主神经网络模型包括多个依次连接的第一卷积层；输入单元，被配置用于将包含人脸的待识别图像输入表情识别神经网络模型；第一获取单元，被配置用于响应于待识别图像输入主神经网络模型，获取主神经网络模型输出的主特征向量；第二获取单元，被配置用于响应于至少一个第一卷积层中相应的其中一个输出的特征图输入分支神经网络模型，获取分支神经网络模型输出的分支特征向量，其中，至少一个第一卷积层为从多个依次连接的第一卷积层中除靠近输出侧的最后一个第一卷积层以外的多个第一卷积层中确定；以及确定单元，被配置用于基于主特征向量和分支特征向量，确定待识别图像中所包含的人脸的表情类别及其类别置信度。

根据本公开的另一方面，还提供一种计算设备，包括：处理器；以及存储程序的存储器，程序包括指令，指令在由处理器执行时使处理器执行根据上述的训练方法和/或根据上述的识别方法。

根据本公开的另一方面，还提供一种存储程序的计算机可读存储介质，程序包括指令，指令在由计算设备的处理器执行时，致使计算设备执行根据上述的训练方法和/或根据上述的识别方法。

本公开基于神经网络模型中的多个不同深度的卷积层所确定的多个分类损失函数进行神经网络模型的监督训练，能够在神经网络模型的不同深度的卷积层分别进行监督，不仅可以使神经网络模型更容易学习表情信息，也更加容易收敛，同时充分的利用神经网络模型不同深度的卷积层提取的不同信息，可以大幅提高复杂环境下人脸表情识别的准确率和鲁棒性。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1是示出根据示例性实施例的表情识别神经网络模型的训练方法的流程图；

图2是示出根据示例性实施例的示例性实施例的表情识别方法的流程图；

图3是示出根据示例性实施例的表情识别神经网络模型的示意性组成框图；

图4是示出根据示例性实施例的表情识别装置的示意性组成框图；

图5是示出能够应用于示例性实施例的示例性计算设备的结构框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

作为人工智能技术应用的一个方面，可以使计算机基于经过训练的神经网络模型来模拟人的思维过程对输入的图像中所包含的信息进行识别。神经网络模型可以包括若干依次连接的卷积层，其中，越靠近神经网络模型的输入侧的卷积层层次越浅，其所输出的特征图包含输入图像的纹理、边缘、色度等图像的视觉特征，越远离神经网络模型的输入侧的卷积层层次越深，其所输出的特征图包含输入图像的语义特征。

在基于神经网络的图像识别中的一方面，可以对输入的包含人脸的图像中的人脸表情进行识别。

人脸表情可表现为面部肌肉的形变或扭曲，例如，高兴表情表现为人脸的脸颊肌肉向上提拉，在包含人脸的图像中体现为伴随肌肉的形变或扭曲而产生的人脸纹理信息的变化。在神经网络模型中，纹理特征通常体现在浅层的卷积层所输出的特征图中。

相关技术中，在对表情识别神经网络模型进行训练的过程中，仅基于神经网络模型的最后一层卷积层输出的特征图进行监督训练，而包含在浅层卷积层所输出的特征图中的纹理特征无法直接参与监督训练，导致对表情分类重要的纹理特征损失较为严重，浅层卷积层的参数难以得到有效的监督，致使训练得到的表情识别网络模型的识别率低。基于此，本公开提出一种表情识别模型及训练方法、识别方法、装置和计算设备，基于神经网络模型中的多个不同深度的卷积层所确定的多个分类损失函数进行神经网络模型的监督训练，能够在神经网络模型的不同深度的卷积层分别进行监督，不仅可以使神经网络模型更容易学习表情信息，也更加容易收敛，同时充分的利用神经网络模型不同深度的卷积层提取的不同信息，可以大幅提高复杂环境下人脸表情识别的准确率和鲁棒性。

以下将结合附图对本公开的表情识别神经网络模型的训练方法进行进一步描述。

图1是示出根据本公开示例性实施例的表情识别神经网络模型的训练方法的流程图，神经网络模型包括主神经网络模型和至少一个分支神经网络模型，主神经网络模型包括多个依次连接的第一卷积层。如图1所示，训练方法包括：步骤S101、获取包含人脸的样本图像，并标注样本图像中所包含的人脸的真实表情类别及其真实类别置信度；步骤S102、从所述多个依次连接的第一卷积层中除靠近输出侧的最后一个第一卷积层以外的多个第一卷积层中确定至少一个第一卷积层；步骤S103、响应于样本图像输入主神经网络模型，主神经网络模型输出样本图像中所包含的人脸的主预测表情类别及其主预测类别置信度；步骤S104、针对每一个分支神经网络模型，响应于至少一个第一卷积层中相应的其中一个输出的特征图输入分支神经网络模型，分支神经网络模型输出样本图像中所包含的人脸的分支预测表情类别及其分支预测类别置信度；步骤S105、基于主预测表情类别及其主预测类别置信度，以及真实表情类别及其真实类别置信度，确定主损失值；步骤S106、针对每一个分支神经网络模型，基于分支预测表情类别及其分支预测类别置信度，以及真实表情类别及其真实类别置信度，确定分支损失值；以及步骤S107、至少基于主损失值和至少一个分支损失值调整神经网络模型的参数。由此，能够在对神经网络的训练过程中，使神经网络模型对多个不同深度的卷积层所输出的特征进行学习，能够在神经网络模型的不同深度的卷积层分别进行监督，不仅可以使神经网络模型更容易学习表情信息，也更加容易收敛，同时充分的利用神经网络模型不同深度的卷积层提取的不同信息，可以大幅提高复杂环境下人脸表情识别的准确率和鲁棒性。

其中，神经网络模型可以是VGG11卷积神经网络模型，也可以采用其他类型的VGG卷积神经网络，或者LeNet、AlexNet、NiN、GooLeNet、ResNet、DenseNet等其他神经网络模型，在此不作限定。

针对步骤S101，其中，包含人脸的样本图像可以包括一张人脸或多张人脸。在样本图像中仅包括一张人脸的情况下，可以针对样本图像中所包含的一张人脸标注一个真实表情类别及其对应的一个真实类别置信度。在样本图像中包括多张人脸的情况下，可以针对样本图像中所包含的每一张人脸标注对应的真实表情类别及其对真实类别置信度。

根据一些实施例，真实表情类别可以包括生气、厌恶、恐惧、高兴、悲伤、惊讶和中性。

针对步骤S102，根据一些实施例，至少一个第一卷积层可包括两个或两个以上第一卷积层，至少一个第一卷积层中的至少其中之一靠近主神经网络模型的输入侧，即为浅层卷积层。由此，在对神经网络的训练过程中，神经网络模型能够基于靠近主神经网络模型的输入侧的第一卷积层对样本图像的纹理特征进行学习，提升神经网络对表情的识别准确度。

在一种实施方式中，在主神经网络模型为VGG11卷积神经网络模型的情况下，至少一个第一卷积层可以包括VGG11卷积神经网络模型的第三个卷积层和第八卷积层。由此，针对步骤S102中的“至少一个第一卷积层”可以包括VGG11卷积神经网络模型的第三个卷积层和第八卷积层。由此，可以在神经网络模型中的多个卷积层中选择浅层、中层和高层卷积层的输出特征进行监督学习。需要说明的是，在此仅是以VGG11卷积神经网络模型为例来说明如何确定“至少一个第一卷积层”，并不限定本公开的主神经网络模型只能为VGG11卷积神经网络模型。

针对步骤S107，根据一些实施例，可以计算主损失值和至少一个分支损失值的第一加权和，至少基于第一加权和调整神经网络模型的参数。由此，可以在不同的应用场景下，基于神经网络模型中的不同深度的卷积层所输出的特征对神经网络模型的识别准确性的影响程度，为基于不同深度的卷积层的损失值赋予不同的权重进行监督训练，进而提升神经网络的识别准确性。在对包含人脸的图像进行表情识别应用中，优选地，可以为基于浅层卷积层的至少一个分支损失值赋予较大权重，以增强神经网络模型对图像纹理特征的学习，提升神经网络模型对人脸年龄识别的准确性。

根据一些实施例，分支神经网络模型可包括多个依次连接的第二卷积层，表情识别神经网络模型的训练方法还可包括基于主神经网络模型的最靠近输出侧的最后一个第一卷积层输出的多个特征图、至少一个分支神经网络模型中每一个的最靠近输出侧的最后一个第二卷积层输出的多个特征图，以及多个特征图各自相应的类别特征中心，确定中心损失值，其中，至少基于主损失值和至少一个分支损失值调整神经网络模型的参数包括：计算主损失值、至少一个分支损失值和中心损失值的第二加权和；基于第二加权和，调整神经网络模型的参数。由此，通过中心损失值对人脸识别神经网络的训练进行辅助监督，能够减小同一表情类别的样本图像的输出的特征图的差异，进而进一步提升了人脸识别神经网络对人脸年龄识别的准确性和鲁棒性。

在示例性实施例中，中心损失值的计算方法可为：

在公式(1)中，

表示中心损失值，m表示输入的当前批次的样本图像的数量，i表示样本图像在当前批次中的编号，1≤i≤m，i为正整数，x_i表示当前批次中的第i个样本图像的基于主神经网络模型的最靠近输出侧的最后一个第一卷积层输出的多个特征图和至少一个分支神经网络模型中每一个的最靠近输出侧的最后一个第二卷积层输出的多个特征图构成的总特征图，c_yi表示当前批次中的第i个样本图像所对应的真实表情类别y_i的类别特征中心，

表示二范数的平方的运算。其中，不同样本图像的真实表情类别可以相同或不同。

其中，类别特征中心c_yi与总特征图x_i的通道数相同，并且与相应通道上的特征图的尺寸相同。x_i-c_yi的计算基于总特征图x_i和类别特征中心c_yi的每一个相应通道上的特征图而执行。

针对于总特征图x_i，根据一些实施例，总特征图x_i可以由主神经网络模型的最靠近输出侧的最后一个第一卷积层输出的多个特征图，以及至少一个分支神经网络模型中每一个分支神经网络模型的最靠近输出侧的最后一个第二卷积层输出的多个特征图进行通叠加而得到。换言之，总特征图的特征图数量可以为主神经网络模型的最靠近输出侧的最后一个第一卷积层输出的特征图数量，和至少一个分支神经网络模型中每一个分支神经网络模型的最靠近输出侧的最后一个第二卷积层输出的特征图数量之和。

针对于类别特征中心c_yi，不同的真实表情类别y_i分别对应不同的类别特征中心c_yi。根据一些实施例，类别特征中心c_yi可以但不限于为前一批次的多个相同真实表情类别的样本图像的基于神经网络模型的输出而得到的多个特征图的平均值确定。

根据一些实施例，在样本图像输入主神经网络模型之前，可以对包含人脸的样本图像进行预处理。由此，能够对输入的样本图像进行优化，提升对神经网络模型的训练效果。

根据一些实施例，对包含人脸的样本图像进行预处理可包括：确定样本图像中的人脸所在的区域；基于人脸所在的区域，确定人脸的多个关键点的坐标值；基于多个关键点的坐标值，生成仿射矩阵；基于仿射矩阵对样本图像进行仿射变换，以对样本图像中的人脸进行人脸对齐，其中，仿射矩阵中包括眼角关键点的连线与水平方向的夹角参数。由此，通过对输入的样本图像中包含的人脸进行对齐，能够提升对神经网络模型的训练效果。

其中，仿射变换矩阵的计算方法，以及对图像的仿射变换方法是本领域的公知常识，在此不做限定。

在一种实施方式中，针对“确定样本图像中的人脸所在的区域”，可以通过人脸检测模型对样本图像中的人脸进行检测，以确定样本图像中的人脸所在的区域。

在一种实施方式中，针对“确定人脸的多个关键点的坐标值”可以通过关键点检测模型确定人脸区域中的关键点的坐标值。优选地，多个关键点可以为包含在人脸的轮廓和五官周围的72个关键点。

在一种实施方式中，在基于仿射矩阵对样本图像进行仿射变换以对样本图像中的人脸进行人脸对齐的过程中，可以对样本图像进行截取以得到仅包含人脸区域的样本图像，并将截取后的样本图像调整到相同尺寸128x128。

根据一些实施例，对包含人脸的样本图像进行预处理还可包括：在对样本图像进行仿射变换之后，对样本图像进行归一化处理。由此，可以减小样本图像的像素值之间的差异，提升对神经网络模型的训练效果。

在一种实施方式中，归一化处理的方法可以是：对样本图像的每个像素的像素值减去128后，再除以256，使得每个像素的像素值在[-0.5,0.5]之间。

根据一些实施例，对包含人脸的样本图像进行预处理还可包括：在对样本图像进行归一化处理之后，对样本图像进行随机数据增强处理。由此，可以增加训练的样本图像的数量，提升神经网络模型的抗干扰能力。

在一种实施方式中，对样本图像进行的随机数据增强处理可以包括随机翻转处理、随机平移处理、随机缩放处理、随机灰度化处理、随机gamma变换处理和随机添加高斯白噪声中的一种或多种。

本公开所提出的应用于表情识别的神经网络模型的训练方法，仅仅是所提出的神经网络模型的训练方法的一种示例性应用，但不限于此。本公开所提出的神经网络模型训练方法的应用领域，还可以包括其它需要基于神经网络浅层卷积层的输出特征进行监督训练的应用领域。

以下将结合附图2对本公开的表情识别方法进行进一步描述。

图2是示出根据本公开示例性实施例的表情识别方法的流程图，如图2所示，表情识别方法可以包括：步骤S201、将包含人脸的待识别图像输入表情识别神经网络模型，表情识别神经网络模型包括主神经网络模型和至少一个分支神经网络模型，主神经网络模型包括多个依次连接的第一卷积层；步骤S202、响应于待识别图像输入主神经网络模型，获取主神经网络模型输出的主特征向量；步骤S203、响应于至少一个第一卷积层中相应的其中一个输出的特征图输入分支神经网络模型，获取分支神经网络模型输出的分支特征向量，其中，至少一个第一卷积层为从多个依次连接的第一卷积层中除靠近输出侧的最后一个第一卷积层以外的多个第一卷积层中确定；步骤S204、基于主特征向量和分支特征向量，确定待识别图像中所包含的人脸的表情类别及其类别置信度。由此，能够基于神经网络模型的不同深度的卷积层的输出特征进行表情识别，使神经网络模型更容易获取用于表情识别的信息，充分利用神经网络模型不同深度的卷积层提取的不同信息，可以提升复杂环境下人脸表情识别的准确率和鲁棒性。

根据一些实施例，基于主特征向量和分支特征向量，确定待识别图像中所包含的人脸的表情类别及其类别置信度包括：将主特征向量和分支特征向量进行通道叠加；以及基于通道叠加所得到的特征向量，确定待识别图像中所包含的人脸的表情类别及其类别置信度。由此，能够获得包含神经网络模型中的多个深度的卷积层的输出特征的一个特征向量，并基于该特征向量进行表情识别。

例如，至少一个分支神经网络模型包括第一分支神经网络模型和第二分支神经网络模型，第一分支神经网络模型输出一个1×1×7的第一分支特征向量，第二分支神经网络模型输出一个1×1×7的第二分支特征向量，主神经网络模型输出一个1×1×7的主特征向量。在上述情况下，将该第一分支特征向量、第二分支特征向量和主特征向量进行通道叠加，可以构成一个大小为1×1×21的特征向量，该特征向量中可以包括第一分支特征向量、第二分支特征向量和主特征向量的特征。基于该1×1×21的特征向量所确定的待识别图像中所包含的人脸的表情类别及其类别置信度，综合了神经网络模型不同深度的卷积层的输出特征，充分地利用到模型不同层提取到的人脸特征，能够大大提高复杂环境下人脸表情识别的准确率和鲁棒性。

根据一些实施例，在将包含人脸的待识别图像输入人脸表情识别神经网络模型之前，对待识别图像进行预处理。由此，能够对输入的待识别图像进行优化，提升对人脸表情的识别效果。

根据一些实施例，对包含人脸的待识别图像进行预处理包括：确定待识别图像中的人脸所在的区域；基于人脸所在的区域，确定人脸的多个关键点的坐标值；基于多个关键点的坐标值，生成仿射矩阵；基于仿射矩阵对待识别图像进行仿射变换，以对待识别图像中的人脸进行人脸对齐，其中，仿射矩阵中包括眼角关键点的连线与水平方向的夹角参数。由此，对输入的待识别图像中包含的人脸进行对齐，提升人脸表情的识别效果。

在一种实施方式中，针对“确定待识别图像中的人脸所在的区域”，可以通过人脸检测模型对待识别图像中的人脸进行检测，以确定待识别图像中的人脸所在的区域。

在一种实施方式中，在基于仿射矩阵对待识别图像进行仿射变换以对待识别图像中的人脸进行人脸对齐的过程中，可以对待识别图像进行截取以得到仅包含人脸区域的待识别图像，并将截取后的待识别图像调整到相同尺寸128x128。

根据一些实施例，对包含人脸的待识别图像进行预处理还可包括：在对待识别图像进行仿射变换之后，对待识别图像进行归一化处理。由此，可以减小待识别图像的像素值之间的差异，提升人脸表情的识别效果。

在一种实施方式中，归一化处理的方法可以是：对待识别图像的每个像素的像素值减去128后，再除以256，使得每个像素的像素值在[-0.5,0.5]之间。

本公开的表情识别方法可以但不限于应用在视觉交互、智能控制、辅助驾驶、远程教育、广告精准投放等领域。

根据本公开的另一方面，还提供一种表情识别神经网络模型300。图3所示为一种示例性的表情识别神经网络模型300，如图3所示，表情识别神经网络模型300包括：主神经网络模型301，其中，主神经网络模型包括多个依次连接的第一卷积层，主神经网络模型被配置用于响应于待识别图像输入主神经网络模型，输出主特征向量；以及至少一个分支神经网络模型302，每一个分支神经网络模型被配置用于响应于至少一个第一卷积层中相应的其中一个输出的特征图输入分支神经网络模型，输出分支特征向量，其中，至少一个第一卷积层为从多个依次连接的第一卷积层中除靠近输出侧的最后一个第一卷积层以外的多个第一卷积层中确定。

根据一些实施例，主神经网络模型可以但不限于为VGG11卷积神经网络模型，至少一个第一卷积层包括VGG11卷积神经网络模型的第三个卷积层和第八卷积层。本公开所提出的上述应用于表情识别的神经网络模型，仅仅是所提出的神经网络模型的一种示例性应用领域，但不限于此。

本公开所提出的神经网络模型应用领域，还可以包括其它需要基于神经网络浅层卷积层的输出特征进行特征识别的应用领域。

根据本公开的另一方面，如图4所示，还提供一种表情识别装置400，可包括：表情识别神经网络模型401，包括主神经网络模型和至少一个分支神经网络模型，主神经网络模型包括多个依次连接的第一卷积层；输入单元402，被配置用于将包含人脸的待识别图像输入表情识别神经网络模型；第一获取单元403，被配置用于响应于待识别图像输入主神经网络模型，获取主神经网络模型输出的主特征向量；第二获取单元404，被配置用于响应于至少一个第一卷积层中相应的其中一个输出的特征图输入分支神经网络模型，获取分支神经网络模型输出的分支特征向量，其中，至少一个第一卷积层为从多个依次连接的第一卷积层中除靠近输出侧的最后一个第一卷积层以外的多个第一卷积层中确定；以及确定单元405，被配置用于基于主特征向量和分支特征向量，确定待识别图像中所包含的人脸的表情类别及其类别置信度。

根据一些实施例，确定单元可包括：叠加子单元，被配置用于将主特征向量和分支特征向量进行通道叠加；以及确定子单元，被配置用于基于通道叠加所得到的特征向量，确定待识别图像中所包含的人脸的表情类别及其类别置信度。

根据一些实施例，识别装置还可包括：预处理单元，被配置用于在将包含人脸的待识别图像输入人脸表情识别神经网络模型之前，对待识别图像进行预处理。

根据本公开的另一方面，还提供一种计算设备，包括：处理器；以及存储程序的存储器，程序包括指令，指令在由处理器执行时使处理器执行上述的训练方法和/或上述的识别方法。

参见图5所示，现将描述计算设备5000，其是可以应用于本公开的各方面的硬件设备(电子设备)的示例。计算设备5000可以是被配置为执行处理和/或计算的任何机器，可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、机器人、智能电话、车载计算机或其任何组合。上述生成方法可以全部或至少部分地由计算设备5000或类似设备或系统实现。

软件要素(程序)可以位于工作存储器5014中，包括但不限于操作系统5016、一个或多个应用程序5018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用程序5018中，并且训练方法和识别方法中的一种或多种可以通过由处理器5004读取和执行一个或多个应用程序5018的指令来实现。更具体地，上述训练方法中，步骤S101～步骤S107可以例如通过处理器5004执行具有步骤S101～步骤S107的指令的应用程序5018而实现。上述识别方法中，步骤S201～步骤S204可以例如通过处理器5004执行具有步骤S201～步骤S204的指令的应用程序5018而实现。此外，上述训练方法和识别方法中的一种或多种的其它步骤可以例如通过处理器5004执行具有执行相应步骤中的指令的应用程序5018而实现。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备5010)中，并且在执行时可以被存入工作存储器5014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。

还应该理解，可以根据具体要求而进行各种变型。例如，也可以使用定制硬件，和/或可以用硬件、软件、固件、中间件、微代码，硬件描述语言或其任何组合来实现特定元件。例如，所公开的方法和设备中的一些或全部可以通过使用根据本公开的逻辑和算法，用汇编语言或硬件编程语言(诸如VERILOG，VHDL，C++)对硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。

还应该理解，前述方法可以通过服务器-客户端模式来实现。例如，客户端可以接收用户输入的数据并将数据发送到服务器。客户端也可以接收用户输入的数据，进行前述方法中的一部分处理，并将处理所得到的数据发送到服务器。服务器可以接收来自客户端的数据，并且执行前述方法或前述方法中的另一部分，并将执行结果返回给客户端。客户端可以从服务器接收到方法的执行结果，并例如可以通过输出设备呈现给用户。服务器可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

还应该理解，计算设备5000的组件可以分布在网络上。例如，可以使用一个处理器执行一些处理，而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算系统5000的其他组件也可以类似地分布。这样，计算设备5000可以被解释为在多个位置执行处理的分布式计算系统。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种表情识别神经网络模型的训练方法，所述表情识别神经网络模型包括主神经网络模型和至少一个分支神经网络模型，所述主神经网络模型包括多个依次连接的第一卷积层，其中，所述训练方法包括：

获取包含人脸的样本图像，并标注所述样本图像中所包含的人脸的真实表情类别及其真实类别置信度；

从所述多个依次连接的第一卷积层中除靠近输出侧的最后一个第一卷积层以外的多个第一卷积层中确定至少一个第一卷积层；

响应于所述样本图像输入所述主神经网络模型，所述主神经网络模型输出所述样本图像中所包含的人脸的主预测表情类别及其主预测类别置信度；

针对每一个所述分支神经网络模型，响应于所述至少一个第一卷积层中相应的其中一个输出的特征图输入所述分支神经网络模型，所述分支神经网络模型输出所述样本图像中所包含的人脸的分支预测表情类别及其分支预测类别置信度；

基于所述主预测表情类别及其主预测类别置信度，以及所述真实表情类别及其真实类别置信度，确定主损失值；

针对每一个所述分支神经网络模型，基于所述分支预测表情类别及其分支预测类别置信度，以及所述真实表情类别及其真实类别置信度，确定分支损失值；以及

至少基于所述主损失值和至少一个所述分支损失值调整所述神经网络模型的参数。

2.如权利要求1所述的训练方法，其中，所述至少基于所述主损失值和至少一个所述分支损失值调整所述神经网络模型的参数包括：

计算所述主损失值和所述至少一个所述分支损失值的第一加权和；以及

至少基于所述第一加权和调整所述神经网络模型的参数。

3.如权利要求1所述的训练方法，其中，所述至少一个第一卷积层包括两个或两个以上第一卷积层，所述至少一个第一卷积层中的至少其中之一靠近所述主神经网络模型的输入侧。

4.如权利要求3所述的训练方法，其中，所述主神经网络模型为VGG11卷积神经网络模型，所述至少一个第一卷积层包括所述VGG11卷积神经网络模型的第三个卷积层和第八卷积层。

5.如权利要求1所述的训练方法，其中，所述分支神经网络模型包括多个依次连接的第二卷积层；

所述训练方法还包括：

基于所述主神经网络模型的最靠近输出侧的最后一个第一卷积层输出的多个特征图、所述至少一个分支神经网络模型中每一个的最靠近输出侧的最后一个第二卷积层输出的多个特征图，以及所述多个特征图各自相应的类别特征中心，确定中心损失值，

其中，所述至少基于所述主损失值和至少一个所述分支损失值调整所述神经网络模型的参数包括：

计算所述主损失值、所述至少一个所述分支损失值和所述中心损失值的第二加权和；

基于所述第二加权和，调整所述神经网络模型的参数。

6.如权利要求1-5中任一项所述的训练方法，还包括：

在所述样本图像输入所述主神经网络模型之前，对所述包含人脸的样本图像进行预处理。

7.如权利要求6所述的训练方法，其中，所述对所述包含人脸的样本图像进行预处理包括：

确定所述样本图像中的人脸所在的区域；

基于所述人脸所在的区域，确定人脸的多个关键点的坐标值；

基于所述多个关键点的坐标值，生成仿射矩阵；以及

基于所述仿射矩阵对所述样本图像进行仿射变换，以对样本图像中的人脸进行人脸对齐，其中，所述仿射矩阵中包括眼角关键点的连线与水平方向的夹角参数。

8.如权利要求7所述的训练方法，其中，所述对所述包含人脸的样本图像进行预处理还包括：

在所述对所述样本图像进行仿射变换之后，对所述样本图像进行归一化处理。

9.如权利要求8所述的训练方法，其中，所述对所述包含人脸的样本图像进行预处理还包括：

在所述对样本图像进行归一化处理之后，对所述样本图像进行随机数据增强处理。

10.一种表情识别方法，包括：

将包含人脸的待识别图像输入表情识别神经网络模型，所述表情识别神经网络模型包括主神经网络模型和至少一个分支神经网络模型，所述主神经网络模型包括多个依次连接的第一卷积层；

响应于所述待识别图像输入所述主神经网络模型，获取所述主神经网络模型输出的主特征向量；

响应于至少一个所述第一卷积层中相应的其中一个输出的特征图输入所述分支神经网络模型，获取所述分支神经网络模型输出的分支特征向量，其中，所述至少一个第一卷积层为从所述多个依次连接的第一卷积层中除靠近输出侧的最后一个第一卷积层以外的多个第一卷积层中确定；以及

基于所述主特征向量和所述分支特征向量，确定所述待识别图像中所包含的人脸的表情类别及其类别置信度。

11.如权利要求10所述的表情识别方法，其中，所述基于所述主特征向量和所述分支特征向量，确定所述待识别图像中所包含的人脸的表情类别及其类别置信度包括：

将所述主特征向量和所述分支特征向量进行通道叠加；以及

基于通道叠加所得到的特征向量，确定所述待识别图像中所包含的人脸的表情类别及其类别置信度。

12.如权利要求10或11所述的表情识别方法，还包括：

在将包含人脸的待识别图像输入表情识别神经网络模型之前，对所述待识别图像进行预处理。

13.一种表情识别神经网络模型，包括：

主神经网络模型，其中，所述主神经网络模型包括多个依次连接的第一卷积层，所述主神经网络模型被配置用于响应于待识别图像输入所述主神经网络模型，输出主特征向量；以及

至少一个分支神经网络模型，每一个所述分支神经网络模型被配置用于响应于至少一个所述第一卷积层中相应的其中一个输出的特征图输入所述分支神经网络模型，输出分支特征向量，

其中，所述至少一个第一卷积层为从所述多个依次连接的第一卷积层中除靠近输出侧的最后一个第一卷积层以外的多个第一卷积层中确定。

14.如权利要求13所述的神经网络模型，其中，所述主神经网络模型为VGG11卷积神经网络模型，所述至少一个第一卷积层包括所述VGG11卷积神经网络模型的第三个卷积层和第八卷积层。

15.一种表情识别装置，包括：

表情识别神经网络模型，包括主神经网络模型和至少一个分支神经网络模型，所述主神经网络模型包括多个依次连接的第一卷积层；

输入单元，被配置用于将包含人脸的待识别图像输入所述表情识别神经网络模型；

第一获取单元，被配置用于响应于所述待识别图像输入所述主神经网络模型，获取所述主神经网络模型输出的主特征向量；

第二获取单元，被配置用于响应于至少一个所述第一卷积层中相应的其中一个输出的特征图输入所述分支神经网络模型，获取所述分支神经网络模型输出的分支特征向量，其中，所述至少一个第一卷积层为从所述多个依次连接的第一卷积层中除靠近输出侧的最后一个第一卷积层以外的多个第一卷积层中确定；以及

确定单元，被配置用于基于所述主特征向量和所述分支特征向量，确定所述待识别图像中所包含的人脸的表情类别及其类别置信度。

16.如权利要求15所述的表情识别装置，其中，所述确定单元包括：

叠加子单元，被配置用于将所述主特征向量和所述分支特征向量进行通道叠加；以及

确定子单元，被配置用于基于通道叠加所得到的特征向量，确定所述待识别图像中所包含的人脸的表情类别及其类别置信度。

17.如权利要求15或16所述的表情识别装置，还包括：

预处理单元，被配置用于在将包含人脸的待识别图像输入所述表情识别神经网络模型之前，对所述待识别图像进行预处理。

18.一种计算设备，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-9中任一项所述的训练方法和/或根据权利要求10-12中任一项所述的识别方法。

19.一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由计算设备的处理器执行时，致使所述计算设备执行根据权利要求1-9中任一项所述的训练方法和/或根据权利要求10-12中任一项所述的识别方法。