CN116912923B

CN116912923B - 一种图像识别模型训练方法和装置

Info

Publication number: CN116912923B
Application number: CN202311168740.1A
Authority: CN
Inventors: 蒋召; 黄泽元
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2024-01-05
Anticipated expiration: 2043-09-12
Also published as: CN116912923A

Abstract

本申请涉及图像识别技术领域，提供了一种图像识别模型训练方法、装置、电子设备及计算机可读存储介质。该方法包括获取目标面部图像训练集；提取上述目标面部图像中的面部语义特征，上述面部语义特征包括原图特征和翻转特征；将上述原图特征和上述翻转特征输入至面部表情识别模型，以便获得面部表情分类结果；依据第一损失函数迭代更新上述面部表情识别模型的参数，直至达到预设的迭代终止条件，以便获得经训练的上述面部表情识别模型，其中上述第一损失函数由一致性损失函数和分类损失函数确定。本申请可有效解决噪声数据对表情识别精度影响，提升表情识别精度。

Description

一种图像识别模型训练方法和装置

技术领域

本申请涉及图像识别技术领域，尤其涉及一种图像识别模型训练方法、装置、电子设备及计算机可读存储介质。

背景技术

面部表情是人际交往中信息传递的重要途径，在察觉人物情绪和分析人物话语含义等方面起到了非常重要的作用。随着人工智能深度学习方法的完善和普及，现有面部表情识别算法在识别准确率等方面取得了一定提升，但仍旧存在较大改进空间。特别是现有表情识别数据集中包含的两类噪声样本，对表情识别算法精度造成很大的影响。

因此，如何解决噪声样本对表情识别精度的影响，特别是如何通过优化识别模型不去拟合噪声样本，以便提高表情识别算法精度，是亟待解决的技术问题。

发明内容

有鉴于此，本申请实施例提供了一种图像识别模型训练方法、装置、电子设备及计算机可读存储介质，以解决现有技术在噪声场景下面部表情识别方法精度不高的问题。

本申请实施例的第一方面，提供了一种图像识别模型训练方法，包括：

获取目标面部图像训练集；

提取所述目标面部图像中的面部语义特征，所述面部语义特征包括原图特征和翻转特征；

将所述原图特征和所述翻转特征输入至面部表情识别模型，以便获得面部表情分类结果；

依据第一损失函数迭代更新所述面部表情识别模型的参数，直至达到预设的迭代终止条件，以便获得经训练的所述面部表情识别模型；其中所述第一损失函数由一致性损失函数和分类损失函数确定。

本申请实施例的第二方面，提供了一种图像识别模型训练装置，适用于第一方面所述的图像识别模型训练方法，所述装置包括：

训练集获取模块，能够获取目标面部图像训练集；

面部特征提取模块，能够提取所述目标面部图像中的面部语义特征，所述面部语义特征包括原图特征和翻转特征；

面部表情识别模块，能够将所述原图特征和所述翻转特征输入至面部表情识别模型，以便获得面部表情分类结果；

面部表情识别模型训练模块，能够依据第一损失函数迭代更新所述面部表情识别模型的参数，直至达到预设的迭代终止条件，以便获得经训练的所述面部表情识别模型；其中所述第一损失函数由一致性损失函数和分类损失函数确定。

本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现第一方面所述方法的步骤。

本申请实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现第一方面所述方法的步骤。

本申请实施例与现有技术相比存在的有益效果至少包括：本申请实施例通过获取目标面部图像训练集；提取目标面部图像中的面部语义特征，面部语义特征包括原图特征和翻转特征；将原图特征和翻转特征输入至面部表情识别模型，以便获得面部表情分类结果；依据第一损失函数迭代更新面部表情识别模型的参数，直至达到预设的迭代终止条件，以便获得经训练的面部表情识别模型，其中第一损失函数由一致性损失函数和分类损失函数确定。本申请的方法通过提取高层语义特征，以及通过Loss来约束网络对噪声数据的拟合，从而让网络学习到更加整体的全局特征，从而有利于表情识别方法优化，可有效解决噪声数据对表情识别精度影响，提升表情识别精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例提供的图像识别模型训练方法的流程示意图之一；

图2是本申请实施例提供的图像识别模型训练方法的流程示意图之二；

图3是本申请实施例提供的面部特征提取过程示意图；

图4是本申请实施例提供的图像识别模型结构示意图；

图5是本申请实施例提供的图像识别模型训练方法的流程示意图之三；

图6是本申请实施例提供的本申请实施例中基于一致性约束的注意力机制工作过程示意图；

图7是本申请实施例提供的图像识别模型训练装置的结构示意图；

图8是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

下面将结合附图详细说明根据本申请实施例的一种图像识别模型训练方法、装置、电子设备和存储介质。

实施例一

如背景技术所述，目前图像分类与深度学习的关系密不可分，而面部表情识别又是图像分类的子任务，将基于深度学习的方法与面部表情识别结合，相较于传统的基于机器学习的表情识别方法有许多益处。首先，基于机器学习的面部表情识别方法中特征提取与特征分类是两个独立的步骤，需要分别进行独立研究，而在深度学习中特征提取与特征分类是在同一个方法中进行设计与优化的，可以简化方法，降低方法的复杂度。其次，传统的机器学习方法中进行特征提取依赖于手动提取特征，这种手动方式不仅繁琐而且提取的特征也容易受人为因素的干扰，而在深度学习中是由对图像具有较好提取特征能力的神经网络自动提取特征，这使得基于深度学习的面部表情识别方法具有更好的特征表达能力。基于深度学习的面部表情识别方法中最常见的网络是卷积神经网络。

随着深度学习的进一步发展，基于卷积神经网络的面部表情识别方法已经有了很大的发展，特别是关注于如何设计一个有效的模型网络结构。为了更好的发挥深度学习在面部表情识别这项任务上的优势，在不改变网络模型本身架构的前提下对卷积神经网络进行了改进以提高网络的特征表达能力，其中较为合适的方法就是引入注意力机制或者使用改进的激活函数或损失函数。在图像分类中需要关注输入的特征图与上下文相关的特征，即注意力机制，可以用于解决面部表情识别中的姿势和遮挡问题。发明人在既有的公开资料中，检索到有的方法使用三个模块，即特征提取、自注意力和关系注意力模块，通过结合注意力机制以及关系网络，在姿势和遮挡变化的条件下实现了比较理想的性能。也有的公开方法提出了基于注意力机制的卷积神经网络，分别对原始图像和局部二值模式图像进行特征提取，然后利用注意力机制对特征进行二次处理，随后进行图像重构，最后对重构的图像进行表情分类任务。注意力机制可以使神经网络忽略无关信息而专注于有效信息，可以通过注意力机制提出了空间变换器模块，将图像的空间域信息变换到另一个相对应的空间，从而提取图像中的感兴趣区域。发明人检索到既有公开方法提出了卷积块注意力模块，将空间注意力和通道注意力进行有效结合的注意力机制模块；也有公开资料将卷积块注意力模块以解决网络特征提取能力不足的问题并验证了该方法的可行性与有效性。

对于卷积神经网络模型，激活函数和损失函数是其核心，激活函数可以激活神经元的特征来解决非线性问题，而损失函数可以用来表现预测与实际数据的差距程度。发明人检索到既有公开方法根据CNN模型中激活函数的设计原则，提出了一种新的分段激活函数应用于面部表情识别任务中，也有公开资料将一种新的附加角度引入到Softmax损失函数中，提出了一个概念上简单目几何上可解释的新的损失函数，并将其应用于人的面部检测之中。考虑激活函数和损失函数能进一步提升卷积神经网络的性能。

现有表情识别数据集中包含两类噪声样本，一类为原始噪声，即标注错误，一类为模糊噪声，即因为标注者的主观性导致的标注不确定，这两类噪声样本会对表情识别方法精度造成很大的影响，因此本文为了解决这种问题，提出了一种基于一致性约束的表情识别方法，其可以显著提升噪声场景下表情识别方法精度。为了解决噪声样本对表情识别精度的影响，通过在训练过程中过滤掉大损失样本来去除噪声样本对表情识别的影响，但是去除的噪声样本中会包含难例样本，这样导致了模型学习的偏移性，因此本文为了解决这种问题，从方法角度出发，通过让模型学习不去拟合噪声样本来提高表情识别方法精度。

如图1所示，为本申请的一种图像识别模型训练方法流程图。上述方法包括：

S101：获取目标面部图像训练集。

S102：提取上述目标面部图像中的面部语义特征，上述面部语义特征包括原图特征和翻转特征。

S103：将上述原图特征和上述翻转特征输入至面部表情识别模型，以便获得面部表情分类结果。

S104：依据第一损失函数迭代更新上述面部表情识别模型的参数，直至达到预设的迭代终止条件，以便获得经训练的上述面部表情识别模型；其中上述第一损失函数由一致性损失函数和分类损失函数确定。

在一些实施例中，上述翻转特征包括水平翻转特征和垂直翻转特征；以及，提取上述目标面部图像中的面部语义特征的过程，如图2所示，包括：

S211：对上述目标面部图像分别进行水平翻转和垂直翻转，获得水平翻转图像和垂直翻转图像。

S212：分别输入上述目标面部图像、上述水平翻转图像和上述垂直翻转图像至同一深度学习神经网络，以获得对应的上述原图特征、上述水平翻转特征和上述垂直翻转特征，其中上述深度学习神经网络能够提取图像语义特征包括ResNet50。

具体地，如图3所示，首先将原图图像分别进行水平翻转和垂直翻转。由于同一个人的面部的同一种表情，在不同翻转情况下提取出用于分类的高层语义信息是接近的，但如果只保留对原图图像进行特征提取，那么网络可能会学会去拟合噪声样本，因此，这里进行不同类型翻转的原因是为了后续进行一致性约束时，防止网络去拟合噪声样本。将原图图像、水平翻转图像、垂直翻转图像分别用Backbone网络来提取特征，三个分支共享相同的网络参数。

具体地，这里每个分支共享相同的Backbone网络结构，一种实施例的实现方式包括选用ResNet50。利用卷积神经网络处理输入图像，可以生成深层特征图，再利用含各种方法完成区域生成与损失计算，这部分卷积神经网络数整个方法的骨架即Backbone，其作用就是提取图片中的信息，供后面的网络使用。这些Backbone网络在分类等问题上具有很强的特征提取能力。在用这些网络作为backbone的时候，可以直接加载已经训练好的模型参数，再续在衔接自定义网络结构，而整个模型可以对Backbone和自定义网络这两个部分同时进行训练，只需在训练过程中，对Backbone进行微调使得其更适合于自定义模型任务。典型的卷积神经网络通常包含三种基本操作，即卷积、池化和全连接，通过对图像不断地进行卷积和池化运算，在保留面部重要信息的情况下，提取出不同尺度的抽象特征。需要说明的是，上述局部特征和全局特征输入至相同参数的卷积神经网络的目的是使得经过该Backbone提取获得的局部特征还是全局特征，具有相同参数的卷积神经网络在对局部特征或全局特征进行特征提取时的效果要明显优于全连接网络。

在一些实施例中，上述面部表情识别模型，如图4所示，包括注意力学习单元和分类识别单元。

在一些实施例中，上述注意力学习单元依次包括全局平均池化层、全连接层和Sigmoid层。

在一些实施例中，上述分类识别单元依次包括全局池化层、全连接层和Softmax层。

在一些实施例中，将上述原图特征和上述翻转特征输入至面部表情识别模型，以便获得面部表情分类结果的过程，如图5所示，包括：

S511：分别输入上述原图特征、上述水平翻转特征和上述垂直翻转特征至上述注意力学习单元，对应获得原图增强特征图、水平增强特征图和垂直增强特征图。

S512：输入上述原图增强特征图至上述分类识别单元，获得上述目标面部图像的表情分类概率。

在一些实施例中，获得上述水平增强特征图的过程包括上述水平翻转特征经上述注意力学习单元的输出结果与上述水平翻转特征相乘后，进行水平翻转，以便获得上述水平增强特征图。

在一些实施例中，获得上述垂直增强特征图的过程包括上述垂直翻转特征经上述注意力学习单元的输出结果与上述垂直翻转特征相乘后，进行垂直翻转，以便获得上述垂直增强特征图。

在一些实施例中，获得上述原图增强特征图的过程包括上述原图特征经上述注意力学习单元的输出结果与上述原图特征相乘后，获得上述原图增强特征图。

在一些实施例中，基于上述水平增强特征图和上述原图增强特征图，确定第一一致性损失函数。

在一些实施例中，基于上述垂直增强特征图和上述原图增强特征图，确定第二一致性损失函数。

在一些实施例中，基于上述表情分类概率，确定分类损失函数。

在一些实施例中，基于上述第一一致性损失函数、上述第二一致性损失函数和上述分类损失函数，确定上述面部表情识别模型的训练损失函数。

具体地，一致性损失函数是基于翻转图像特征和原图图像特征之间构建的损失函数。对于水平翻转图像与原图图像之间的一致性约束，对应为第一一致性损失函数；对于垂直翻转图像与原图图像之间的一致性约束，对应为第二一致性损失函数。

具体地，对于分类损失函数，多分类问题一般用softmax作为神经网络的最后一层，然后计算交叉熵损失。在本申请实施例中，也可以使用分类损失函数，在此不再赘述。

这里需要说明的是，本申请实施例中由于采用了翻转特征和原图特征，一致性约束包括几何一致性约束。本发明实施例只在原图图像上计算分类损失，可以有效降低模型将翻转图像对应到噪声标签上，在训练过程中，利用特征注意力图翻转前后的一致性来避免模型拟合噪声标签。

具体地，如图6所示为本申请实施例中基于一致性约束的注意力机制工作过程示意图。首先，将水平翻转特征、原图特征、垂直翻转特征进行注意力加权，其中注意力分支包括全局平均池化、全连接层、Sigmoid层，该分支会输出注意力图，即原图增强特征图；然后，将输入的特征和计算出的注意力图进行相乘，得到增强后的注意力特征图，再对原图特征进行全局平均池化，然后经过全连接层和Softmax层，得到最终输出的表情概率，然后计算分类损失函数。对于翻转特征分支，将增强的水平翻转特征图进行再一次水平翻转，得到第一增强特征图，将增强的垂直翻转特征图进行再一次垂直翻转，得到第二增强特征图；用第一增强特征图和原图增强特征图计算第一一致性损失函数，用第二增强特征图和原图增强特征图计算第二一致性损失函数；将分类损失函数、第一一致性损失函数和第二一致性损失函数进行相加，得到面部表情识别模型的损失函数然后用该损失函数反向更新网络参数。

本申请实施例通过获取目标面部图像训练集，提取目标面部图像中的面部语义特征，面部语义特征包括原图特征和翻转特征，将原图特征和翻转特征输入至面部表情识别模型，以便获得面部表情分类结果，依据第一损失函数迭代更新面部表情识别模型的参数，直至达到预设的迭代终止条件，以便获得经训练的面部表情识别模型，其中第一损失函数由一致性损失函数和分类损失函数确定。本申请的方法通过提取高层语义特征，以及通过Loss来约束网络对噪声数据的拟合，从而让网络学习到更加整体的全局特征，从而有利于表情识别方法优化，可有效解决噪声数据对表情识别精度影响，提升表情识别精度。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请系统实施例中未披露的细节，请参照本申请方法实施例。

图7是本申请实施例提供的一种图像识别模型训练装置的示意图。如图7所示，该面部表情识别模型训练装置包括：

训练集获取模块701，能够获取目标面部图像训练集；

面部特征提取模块702，能够提取上述目标面部图像中的面部语义特征，上述面部语义特征包括原图特征和翻转特征；

面部表情识别模块703，能够将上述原图特征和上述翻转特征输入至面部表情识别模型，以便获得面部表情分类结果；

面部表情识别模型训练模块704，能够依据第一损失函数迭代更新上述面部表情识别模型的参数，直至达到预设的迭代终止条件，以便获得经训练的上述面部表情识别模型；其中上述第一损失函数由一致性损失函数和分类损失函数确定。

应理解，本说明书实施例的一种图像识别模型训练装置还可执行图1至图6中图像识别模型训练装置执行的方法，并实现图像识别模型训练装置在图1至图6所示实例的功能，在此不再赘述。同时，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图8是本申请实施例提供的电子设备8的示意图。如图8所示，该实施例的电子设备8包括：处理器801、存储器802以及存储在该存储器802中并且可在处理器801上运行的计算机程序803。处理器801执行计算机程序803时实现上述各个方法实施例中的步骤。或者，处理器801执行计算机程序803时实现上述各装置实施例中各模块/单元的功能。

电子设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备8可以包括但不仅限于处理器801和存储器802。本领域技术人员可以理解，图8仅仅是电子设备8的示例，并不构成对电子设备8的限定，可以包括比图示更多或更少的部件，或者不同的部件。

存储器802可以是电子设备8的内部存储单元，例如，电子设备8的硬盘或内存。存储器802也可以是电子设备8的外部存储设备，例如，电子设备8上配备的插接式硬盘，智能存储卡（SmartMediaCard，SMC），安全数字（SecureDigital，SD）卡，闪存卡（FlashCard）等。存储器802还可以既包括电子设备8的内部存储单元也包括外部存储设备。存储器802用于存储计算机程序以及电子设备所需的其它程序和数据。

处理器801可以是中央处理单元（CentralProcessingUnit，CPU），也可以是其它通用处理器、数字信号处理器（DigitalSignalProcessor，DSP）、专用集成电路（ApplicationSpecificIntegratedCircuit，ASIC）、现场可编程门阵列（Field-ProgrammableGateArray，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器801从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成共享资源访问控制装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取目标面部图像训练集；

提取上述目标面部图像中的面部语义特征，上述面部语义特征包括原图特征和翻转特征；

将上述原图特征和上述翻转特征输入至面部表情识别模型，以便获得面部表情分类结果；

依据第一损失函数迭代更新上述面部表情识别模型的参数，直至达到预设的迭代终止条件，以便获得经训练的上述面部表情识别模型；其中上述第一损失函数由一致性损失函数和分类损失函数确定。

上述如本说明书图1至图6所示实施例揭示的图像识别模型训练方法可以应用于处理器801中，或者由处理器801实现。处理器801可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以实现或者执行本说明书实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

当然，除了软件实现方式之外，本说明书实施例的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（RandomAccessMemory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1至图6所示实施例的图像识别模型训练方法，并具体用于执行以下方法：

获取目标面部图像训练集；

总之，以上该仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种图像识别模型训练方法，其特征在于，包括：

获取目标面部图像训练集；

提取所述目标面部图像中的面部语义特征；

将所述面部语义特征输入至面部表情识别模型，以便获得面部表情分类结果；

依据第一损失函数迭代更新所述面部表情识别模型的参数，直至达到预设的迭代终止条件，以便获得经训练的所述面部表情识别模型；

所述面部语义特征包括原图特征、水平翻转特征和垂直翻转特征；以及，提取所述目标面部图像中的面部语义特征的过程，包括：

对所述目标面部图像分别进行水平翻转和垂直翻转，获得水平翻转图像和垂直翻转图像；

分别输入所述目标面部图像、所述水平翻转图像和所述垂直翻转图像至同一深度学习神经网络，以获得对应的所述原图特征、所述水平翻转特征和所述垂直翻转特征，其中所述深度学习神经网络能够提取图像语义特征且包括ResNet50；

所述面部表情识别模型包括注意力学习单元和分类识别单元；以及，将所述面部语义特征输入至面部表情识别模型，以便获得面部表情分类结果的过程，包括：

分别输入所述原图特征、所述水平翻转特征和所述垂直翻转特征至所述注意力学习单元，对应获得原图增强特征图、水平增强特征图和垂直增强特征图；其中，获得所述水平增强特征图的过程包括所述水平翻转特征经所述注意力学习单元的输出结果与所述水平翻转特征相乘后，进行水平翻转，以便获得所述水平增强特征图；获得所述垂直增强特征图的过程包括所述垂直翻转特征经所述注意力学习单元的输出结果与所述垂直翻转特征相乘后，进行垂直翻转，以便获得所述垂直增强特征图；获得所述原图增强特征图的过程包括所述原图特征经所述注意力学习单元的输出结果与所述原图特征相乘后，获得所述原图增强特征图；

输入所述原图增强特征图至所述分类识别单元，获得所述目标面部图像的表情分类概率；

基于所述水平增强特征图和所述原图增强特征图，确定第一一致性损失函数；以及，基于所述垂直增强特征图和所述原图增强特征图，确定第二一致性损失函数；以及，基于所述表情分类概率，确定分类损失函数；

基于所述第一一致性损失函数、所述第二一致性损失函数和所述分类损失函数，确定所述第一损失函数。

2.根据权利要求1所述的方法，其特征在于，所述注意力学习单元依次包括全局平均池化层、全连接层和Sigmoid层；和/或，所述分类识别单元依次包括全局池化层、全连接层和Softmax层。

3.一种图像识别模型训练装置，其特征在于，适用于权利要求1或2所述的图像识别模型训练方法，所述装置包括：

训练集获取模块，能够获取目标面部图像训练集；

面部特征提取模块，能够提取所述目标面部图像中的面部语义特征，所述面部语义特征包括原图特征、水平翻转特征和垂直翻转特征；

面部表情识别模块，能够将所述面部语义特征输入至面部表情识别模型，以便获得面部表情分类结果；

面部表情识别模型训练模块，能够依据第一损失函数迭代更新所述面部表情识别模型的参数，直至达到预设的迭代终止条件，以便获得经训练的所述面部表情识别模型；其中所述第一损失函数由第一一致性损失函数、第二一致性损失函数和分类损失函数确定。

4.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器在执行所述计算机程序时，实现如权利要求1或2所述方法的步骤。

5.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1或2所述方法的步骤。