CN117392731B

CN117392731B - 表情识别模型的训练方法和装置

Info

Publication number: CN117392731B
Application number: CN202311676341.6A
Authority: CN
Inventors: 金毅勐; 蒋召; 胡文骏
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd; Chongqing Jikai Technology Service Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd; Chongqing Jikai Technology Service Co Ltd
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-04-12
Anticipated expiration: 2043-12-08
Also published as: CN117392731A

Abstract

本公开涉及图像表情识别技术领域，提供了一种表情识别模型的训练方法和装置。该方法包括：对训练图像进行水平翻转处理，得到对应的多个翻转后图像；将训练图像和翻转后图像进行一致性学习，得到一致性损失值；基于训练图像对应的图像识别结果和对应的标签，计算得到第一交叉熵损失值；基于翻转后图像对应的图像识别结果和对应的标签，计算得到第二交叉熵损失值；确定目标损失值，并根据目标损失值更新表情识别模型的参数；在目标损失值小于或等于预设值时，得到训练完成的表情识别模型，解决现有技术中表情识别数据集中的噪声标注数据降低表情识别模型的准确性的问题，提高模型的泛化性能。

Description

表情识别模型的训练方法和装置

技术领域

本公开涉及图像表情识别技术领域，尤其涉及一种表情识别模型的训练方法和装置。

背景技术

随着互联网技术的快速发展，表情识别开始应用于众多领域中。表情识别是计算机理解人类情感的一个重要方向，也是实现人机交互的一个重要领域。表情识别可以指从静态照片或视频序列中确定出人物的表情状态，确定人物的表情类别，从而确定人物的情绪与心理变化。现有的表情识别模型的训练过程为利用表情识别训练集的监督训练过程，在训练之前，需要对表情识别训练集进行标注。现有的公开表情识别数据集中均存在噪声标注数据，在训练过程中，噪声标注数据会影响表情识别模型的准确性，可以导致训练得到的表情识别模型过拟合。但如果去除训练过程中的大损失样本，即过滤了部分难例样本，可能影响模型的泛化性能。

发明内容

有鉴于此，本公开实施例提供了一种表情识别模型的训练方法、装置、电子设备及可读存储介质，以解决现有技术中表情识别数据集中的噪声标注数据降低表情识别模型的准确性的问题。

本公开实施例的第一方面，提供了一种表情识别模型的训练方法，包括：获取表情识别训练集，表情识别训练集包括多张训练图像和训练图像对应的标签；对各个训练图像进行水平翻转处理，得到对应的多个翻转后图像；将各个训练图像和各个翻转后图像输入至表情识别模型，根据各个训练图像的特征向量和各个翻转后图像的特征向量进行一致性学习，得到一致性损失函数对应的各个一致性损失值；根据各个训练图像的特征向量，确定各个训练图像对应的图像识别结果；基于各个训练图像对应的图像识别结果和各个训练图像对应的标签，计算得到交叉熵损失函数对应的各个第一交叉熵损失值；根据各个翻转后图像的特征向量，确定各个翻转后图像对应的图像识别结果；基于各个翻转后图像对应的图像识别结果和各个翻转后图像对应的标签，计算得到交叉熵损失函数对应的各个第二交叉熵损失值；基于各个一致性损失值、各个第一交叉熵损失值和各个第二交叉熵损失值，确定各个目标损失值，并根据各个目标损失值更新表情识别模型的参数；在目标损失值小于或等于预设值时，得到训练完成的表情识别模型。

本公开实施例的第二方面，提供了一种表情识别模型的训练装置，包括：获取模块，用于获取表情识别训练集，表情识别训练集包括多张训练图像和训练图像对应的标签；翻转模块，用于对各个训练图像进行水平翻转处理，得到对应的多个翻转后图像；一致性学习模块，用于将各个训练图像和各个翻转后图像输入至表情识别模型，根据各个训练图像的特征向量和各个翻转后图像的特征向量进行一致性学习，得到一致性损失函数对应的各个一致性损失值；第一确定模块，用于根据各个训练图像的特征向量，确定各个训练图像对应的图像识别结果；第一计算模块，用于基于各个训练图像对应的图像识别结果和各个训练图像对应的标签，计算得到交叉熵损失函数对应的各个第一交叉熵损失值；第二确定模块，用于根据各个翻转后图像的特征向量，确定各个翻转后图像对应的图像识别结果；第二计算模块，用于基于各个翻转后图像对应的图像识别结果和各个翻转后图像对应的标签，计算得到交叉熵损失函数对应的各个第二交叉熵损失值；更新模块，用于基于各个一致性损失值、各个第一交叉熵损失值和各个第二交叉熵损失值，确定各个目标损失值，并根据各个目标损失值更新表情识别模型的参数；结束模块，用于在目标损失值小于或等于预设值时，得到训练完成的表情识别模型。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种可读存储介质，该可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：通过表情识别训练集对表情识别模型进行训练，将各个训练图像进行水平翻转，得到对应的多个翻转后图像，将各个训练图像和各个翻转后图像输入至表情识别模型，根据各个训练图像的特征向量和各个翻转后图像的特征向量进行一致性学习，得到一致性损失函数对应的各个一致性损失值，并结合各个训练图像对应的图像识别结果和各个训练图像对应的标签之间的各个第一交叉熵损失值以及各个翻转后图像对应的图像识别结果和各个翻转后图像对应的标签之间的各个第二交叉熵损失值，确定各个目标损失值，根据各个目标损失值进行反向传播，更新表情识别模型的参数。在训练过程中，将各个训练图像的特征向量和各个翻转后图像的特征向量之间的一致性损失作为重要监督信息，可以有效防止训练数据集中的噪声标签数据造成表情识别模型的过拟合，可以抑制噪声标签数据对训练过程中的影响，解决现有技术中表情识别数据集中的噪声标注数据降低表情识别模型的准确性的问题，提高模型的泛化性能。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的应用场景的场景示意图；

图2是本公开实施例提供的一种表情识别模型的训练方法的流程示意图；

图3是本公开实施例提供的另一种表情识别模型的训练方法的流程示意图；

图4是本公开实施例提供的一种表情识别模型的训练装置的结构示意图；

图5是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

下面将结合附图详细说明根据本公开实施例的一种表情识别模型的训练方法和装置。

图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。

终端设备1、2和3可以是硬件，也可以是软件。当终端设备1、2和3为硬件时，其可以是具有显示屏且支持与服务器4通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备1、2和3为软件时，其可以安装在如上所述的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本公开实施例对此不作限制。进一步地，终端设备1、2和3上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器4可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器4可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本公开实施例对此不作限制。

需要说明的是，服务器4可以是硬件，也可以是软件。当服务器4为硬件时，其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时，其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块，也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块，本公开实施例对此不作限制。

网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙（Bluetooth）、近场通信（Near FieldCommunication，NFC）、红外（Infrared）等，本公开实施例对此不作限制。

用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接，以接收或发送信息等。例如，服务器4可以从终端设备1、2或3获取表情识别训练集，表情识别训练集包括多张训练图像和训练图像对应的标签；对各个训练图像进行水平翻转处理，得到对应的多个翻转后图像；将各个训练图像和各个翻转后图像输入至表情识别模型，根据各个训练图像的特征向量和各个翻转后图像的特征向量进行一致性学习，得到一致性损失函数对应的各个一致性损失值；根据各个训练图像的特征向量，确定各个训练图像对应的图像识别结果；基于各个训练图像对应的图像识别结果和各个训练图像对应的标签，计算得到交叉熵损失函数对应的各个第一交叉熵损失值；根据各个翻转后图像的特征向量，确定各个翻转后图像对应的图像识别结果；基于各个翻转后图像对应的图像识别结果和各个翻转后图像对应的标签，计算得到交叉熵损失函数对应的各个第二交叉熵损失值；基于各个一致性损失值、各个第一交叉熵损失值和各个第二交叉熵损失值，确定各个目标损失值，并根据各个目标损失值更新表情识别模型的参数；在目标损失值小于或等于预设值时，得到训练完成的表情识别模型。

需要说明的是，终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本公开实施例对此不作限制。

图2是本公开实施例提供的一种表情识别模型的训练方法的流程示意图。图2的表情识别模型的训练方法可以由图1的服务器4执行。如图2所示，该表情识别模型的训练方法包括：

步骤201，获取表情识别训练集，表情识别训练集包括多张训练图像和训练图像对应的标签。

在一些实施例中，表情识别训练集包括多张训练图像和训练图像对应的标签，上述训练图像的标签用于指示训练图像中的对象的表情类别，通过数据标注的过程对训练图像标注上标签。具体地，对于一表情识别训练集，包括多张训练图像，训练图像中的对象的表情可以有多种类别，如训练图像0001的对象的表情类别可以为类别A，训练图像0002的对象的表情类别可以为类别B，训练图像0003的对象的表情类别可以为类别C，例如，类别A可以是“愤怒”，类别B可以是“厌恶”、类别C可以是“恐惧”，训练图像的标签均为通过数据标注得到，可能存在标注噪声。表情识别训练集可以为表情识别模型提供了大量的、多样化的面部表情训练图像，使得表情识别模型从中学习和提取相关特征。在训练过程中，表情识别模型可以理解和识别表情类别，并学习将特定的表情特征与特定的表情类别相对应。

步骤202，对各个训练图像进行水平翻转处理，得到对应的多个翻转后图像。

在一些实施例中，可以调用flip函数对各个训练图像进行水平翻转处理，得到各个训练图像对应的多个翻转后图像。上述表情识别模型的训练主要基于分类损失，以及各个训练图像与对应的多个翻转后图像之间的一致性损失，在训练过程中，最小化分类损失和一致性损失。

步骤203，将各个训练图像和各个翻转后图像输入至表情识别模型，根据各个训练图像的特征向量和各个翻转后图像的特征向量进行一致性学习，得到一致性损失函数对应的各个一致性损失值。

在一些实施例中，上述表情识别模型可以包括特征提取网络和一致性约束模块，该特征提取网络和一致性约束模块的数据处理具体可以参考下面描述。其中，特征提取网络可以为ResNet50或卷积神经网络。在一致性学习的过程中，确保对两个相似但不完全相同的训练数据的预测结果是一致的。在一些实施例中，通过一致性学习可以提高表情识别模型的性能，将训练图像与对应的翻转后图像视为一对样本，将各个训练图像与各个翻转后图像均输入表情识别模型的特征提取网络，对各个训练图像与各个翻转后图像进行特征提取得到各个训练图像的特征向量和各个翻转后图像的特征向量，一致性约束模块再对各个训练图像的特征向量和各个翻转后图像的特征向量进行相应变换处理，使得输出的各个训练图像的特征向量与对应各个翻转后图像的特征向量在一个向量空间内，即最小化各个训练图像与对应的各个翻转后图像之间的一致性损失值，并利用一致性损失值更新表情识别模型的参数，优化表情识别模型的参数，在此过程中，表情识别模型可以学习识别多种表情类别，并学习到在相同表情类别但存在一定差异的图像时保持表情识别模型的输出结果一致性，从而提高表情识别模型的鲁棒性和泛化能力。

步骤204，根据各个训练图像的特征向量，确定各个训练图像对应的图像识别结果。

在一些实施例中，将各个训练图像输入至上述特征提取网络以进行特征提取，得到各个训练图像的特征向量。并再基于各个训练图像的特征向量进行相应的变换处理，训练过程中的表情识别模型基于各个训练图像的特征向量对各个训练图像的对象的表情类别进行预测，得到各个训练图像对应的图像识别结果。图像识别结果可以是各个训练图像对应的表情类别的预测概率，例如，训练图像0001中对象的表情类别预测为类别A，该类别A的预测概率为0.8，训练图像0001中的对象的表情类别为类别B的概率为0.1，训练图像0001中的对象的表情类别为类别C的概率为0.1。

步骤205，基于各个训练图像对应的图像识别结果和各个训练图像对应的标签，计算得到交叉熵损失函数对应的各个第一交叉熵损失值。

在一些实施例中，交叉熵损失函数在处理分类问题中，可以用于度量两个概率分布间的差异性，在训练表情识别模型的过程中，可以用于衡量各个训练图像对应的图像识别结果与各个训练图像对应的标签之间的差异。根据各个训练图像对应的图像识别结果和各个训练图像对应的标签，各个训练图像对应的标签可以是各个训练图像中对象的真实表情类别结果，计算得到交叉熵损失函数对应的各个第一交叉熵损失值，并利用第一交叉熵损失值约束表情识别模型，在训练的过程中，尽可能地使第一交叉熵损失值更小。在训练表情识别模型的过程中，使用交叉熵损失函数训练可以降低误差率，提高表情识别模型的预测准确性和泛化能力。

步骤206，根据各个翻转后图像的特征向量，确定各个翻转后图像对应的图像识别结果。

在一些实施例中，将各个翻转后图像的输入表情识别模型的特征提取网络进行特征提取，得到各个翻转后图像的特征向量。并对各个翻转后图像的特征向量进行相应的变换处理，训练过程中的表情识别模型基于各个翻转后图像的特征向量对各个翻转后图像的对象的表情类别进行预测，得到各个翻转后图像对应的图像识别结果。图像识别结果可以是各个翻转后图像对应的表情类别的预测概率，例如，翻转后图像0001中对象的表情类别预测为类别A，该类别A的预测概率为0.7，翻转后图像0001中的对象的表情类别为类别B的概率为0.2，翻转后图像0001中的对象的表情类别为类别C的概率为0.1。

步骤207，基于各个翻转后图像对应的图像识别结果和各个翻转后图像对应的标签，计算得到交叉熵损失函数对应的各个第二交叉熵损失值。

在一些实施例中，根据各个翻转后图像对应的图像识别结果和各个翻转后图像对应的标签，计算得到交叉熵损失函数对应的各个第二交叉熵损失值，并利用第二交叉熵损失值约束表情识别模型，在训练的过程中，尽可能地使第二交叉熵损失值更小。在训练表情识别模型的过程中，使用交叉熵损失函数训练可以降低误差率，提高表情识别模型的预测准确性和泛化能力。在本实施例中，各个翻转后图像对应的标签可以是各个翻转后图像中对象的真实表情类别结果。

步骤208，基于各个一致性损失值、各个第一交叉熵损失值和各个第二交叉熵损失值，确定各个目标损失值，并根据各个目标损失值更新表情识别模型的参数。

在一些实施例中，一致性损失值为训练图像与对应的翻转后图像之间的损失值，第一交叉熵损失值为训练图像对应的图像识别结果与训练图像对应的标签之间的损失值，第二交叉熵损失值为翻转后图像对应的图像识别结果与翻转后图像对应的标签之间的损失值，将各个一致性损失值、各个第一交叉熵损失值和各个第二交叉熵损失值相加，得到对应的各个目标损失值，并基于目标损失值进行反向传播训练，更新表情识别模型的参数，在训练的过程中，最小化目标损失值，降低损失，添加训练图像与对应的翻转后图像之间的损失作为训练过程中的有效监督信息，提升了模型的分类性能，并可以抑制训练数据集中的噪声标签数据对于训练过程中的不利影响。

步骤209，在目标损失值小于或等于预设值时，得到训练完成的表情识别模型。

在一些实施例中，预设值的大小根据具体训练实际情况和需求进行设定，若对上述表情识别模型的准确率要求高可以将预设值设定偏低。训练上述表情识别模型的过程是一个降低损失值的过程，利用反向传播算法通过损失值对表情识别模型的各项参数进行调整更新，在目标损失值小于或等于预设值时，训练结束，得到上述表情识别模型。

在一些实施例中，通过表情识别训练集对表情识别模型进行训练，将各个训练图像进行水平翻转，得到对应的多个翻转后图像，将各个训练图像和各个翻转后图像输入至表情识别模型，根据各个训练图像的特征向量和各个翻转后图像的特征向量进行一致性学习，得到一致性损失函数对应的各个一致性损失值，并结合各个训练图像对应的图像识别结果和各个训练图像对应的标签之间的各个第一交叉熵损失值以及各个翻转后图像对应的图像识别结果和各个翻转后图像对应的标签之间的各个第二交叉熵损失值，确定各个目标损失值，根据各个目标损失值进行反向传播，更新表情识别模型的参数。在训练过程中，将各个训练图像的特征向量和各个翻转后图像的特征向量之间的一致性损失作为重要监督信息，可以有效防止训练数据集中的噪声标签数据造成表情识别模型的过拟合，可以抑制噪声标签数据对训练过程中的不利影响，解决现有技术中表情识别数据集中的噪声标注数据降低表情识别模型的准确性的问题，提高模型的泛化性能。

在一些实施例中，对各个训练图像进行水平翻转处理之前，还包括：生成遮挡矩阵，遮挡矩阵的像素为随机值；基于遮挡矩阵对各个训练图像的任意位置进行遮挡处理，得到各个遮挡后图像。

在一些实施例中，将各个训练图像均随机擦除一个矩形区域，不同训练图像上擦除的矩形区域的大小可能不同，生成了不同遮挡水平的各个训练图像，从而降低了过度拟合的风险，使表情识别模型对遮挡具有鲁棒性，该过程的参数包括矩形的面积大小上下阈值，以及矩形长宽比上下阈值。生成遮挡矩阵对各个训练图像的任意位置进行遮挡处理是一个数据增强的过程。生成一个随机大小的遮挡矩阵，该矩阵的像素值为随机值，利用该遮挡矩阵对各个训练图像进行遮挡处理，得到各个遮挡后图像，各个训练图像被遮挡的位置可以为图像上的任意位置。经过遮挡增强处理的得到的遮挡后图像在特征上与对应的训练图像在特征上有差别，但训练图像与对应的遮挡后图像的标签是一致的，将训练图像与对应的遮挡后图像进行一致性学习，通过训练图像与对应的遮挡后图像的一致性损失值对表情识别模型进行监督，最小化训练图像与对应的遮挡后图像之间的差异，提高模型的分类性能。

在一些实施例中，根据各个训练图像的特征向量和各个翻转后图像的特征向量进行一致性学习，得到一致性损失函数对应的各个一致性损失值，包括：对各个训练图像的特征向量进行注意力处理，得到各个训练图像的注意力权重，并基于各个训练图像的注意力权重进行加权求和，得到各个训练图像的关键信息特征向量；根据各个训练图像的关键信息特征向量，确认各个训练图像的全局特征向量；对各个翻转后图像的特征向量进行注意力处理，得到各个翻转后图像的注意力权重，并基于各个翻转后图像的注意力权重进行加权求和，得到各个翻转后图像的关键信息特征向量；根据各个翻转后图像的关键信息特征向量，确认各个翻转后图像的全局特征向量；基于各个训练图像的全局特征向量和各个翻转后图像的全局特征向量，得到各个一致性损失值。

在一些实施例中，对各个训练图像的特征向量进行注意力处理，注意力处理可以为空间注意力处理，也可以为通道注意力处理。在注意力处理的过程中，得到各个训练图像的注意力权重，基于各个训练图像的特征向量与各个训练图像的注意力权重进行加权求和，得到各个训练图像的关键信息特征向量。若注意力处理为空间注意力处理，在空间注意力处理过程中可以关注训练图像中不同位置的特征信息，突出与表情识别分类相关的特征区域，抑制不相关的区域。若注意力处理为通道注意力处理，在通道注意力处理过程中可以关注不同通道的特征信息，突出与表情识别分类相关的特征通道，抑制不相关的通道。得到各个训练图像的关键信息特征向量后，再对各个训练图像的关键信息特征向量进行相应的特征变换处理，得到各个训练图像的全局特征向量。

在一些实施例中，对各个翻转后图像的特征向量进行注意力处理，在注意力处理的过程中，得到各个翻转后图像的注意力权重，基于各个翻转后图像的特征向量与各个翻转后图像的注意力权重进行加权求和，得到各个翻转后图像的关键信息特征向量。在注意力处理过程中，可以关注翻转后图像中的特征向量，突出与表情识别分类相关的特征向量，抑制不相关的特性向量。

基于前述实施例，计算各个训练图像的全局特征向量和各个翻转后图像的全局特征向量后在特征空间内的距离，得到一致性损失值，并根据反向传播算法，利用一致性损失更新表情识别模型的参数。

在一些实施例中，表情识别模型还包括全局平均池化层。根据各个训练图像的关键信息特征向量，确认各个训练图像的全局特征向量，包括：通过表情识别模型的全局平均池化层对各个训练图像的关键信息特征向量进行降维处理，得到各个训练图像的全局特征向量。

在一些实施例中，将各个训练图像的关键信息特征向量输入表情识别模型的全局平均池化层进行全局平均池化处理，对各个训练图像的关键信息特征向量进行降维，得到更低维度的各个训练图像的全局特征向量，减少了数据的复杂性，有利于后续的计算以及表情识别模型的训练，可以减少后续层的神经元数量，抑制表情识别模型对训练数据的过度拟合，提高表情识别模型对未知数据的泛化能力同时，还保留了各个训练图像的主要关键信息，用以后续的分类识别。

在一些实施例中，根据各个翻转后图像的关键信息特征向量，确认各个翻转后图像的全局特征向量，包括：对各个翻转后图像的关键信息特征向量进行翻转处理，得到各个翻转后图像的目标关键信息特征向量；通过表情识别模型的全局平均池化层对各个翻转后图像的目标关键信息特征向量进行降维处理，得到各个翻转后图像的全局特征向量。

在一些实施例中，翻转后图像可以为通过对训练图像进行水平翻转处理得到。各个翻转后图像的目标关键信息特征向量可以通过对各个翻转后图像的关键信息特征向量进行水平翻转处理得到。并将各个翻转后图像的目标关键信息特征向量输入表情识别模型的全局平均池化层进行全局平均池化处理，对各个翻转后图像的目标关键信息特征向量进行降维，得到更低维度的各个翻转后图像的全局特征向量，有利于后续的计算以及表情识别模型的训练，可以减少后续层的神经元数量，抑制表情识别模型对训练数据的过度拟合，提高表情识别模型对未知数据的泛化能力，同时还保留了各个训练图像的主要关键信息，用以后续的分类识别。

在一些实施例中，表情识别模型还包括全局平均池化层、全连接层和分类层。根据各个训练图像的特征向量，确定各个训练图像对应的图像识别结果，包括：通过表情识别模型的全局平均池化层对各个训练图像的特征向量进行降维处理，得到各个训练图像的降维处理结果；通过表情识别模型的全连接层对各个训练图像的降维处理结果进行特征变换，得到各个训练图像的全连接特征向量；通过表情识别模型的分类层对各个训练图像的全连接特征向量进行分类处理，得到各个训练图像对应的图像识别结果。

在一些实施例中，各个训练图像对应的图像识别结果可以是各个训练图像对应的表情类别的预测概率。将各个训练图像的特征向量输入表情识别模型的全局平均池化层进行全局平均池化处理，得到更低维度的各个训练图像的降维处理结果，通过全局平均池化处理，可以降低图像识别模型的复杂度，从而防止过拟合，提高泛化能力。再将各个训练图像的降维处理结果输入表情识别模型的全连接层进行特征变换，各个训练图像的降维处理结果与相应的权值进行权值计算，对各个训练图像的降维处理结果进行相应整合，得到各个训练图像的全连接特征向量，使得表情识别模型更好地理解和学习各个训练图像的特征，提高模型的分类准确率和泛化能力。再将各个训练图像的全连接特征向量输入表情识别模型的分类层进行分类，得到各个训练图像对应的图像识别结果。

在一些实施例中，表情识别模型还包括全连接层和分类层。根据各个翻转后图像的特征向量，确定各个翻转后图像对应的图像识别结果，包括：通过表情识别模型的全局平均池化层对各个翻转后图像的特征向量进行全局平均池化处理，得到各个翻转后图像的降维处理结果；通过表情识别模型的全连接层对各个翻转后图像的降维处理结果进行特征变换，得到各个翻转后图像的全连接特征向量；通过表情识别模型的分类层对各个翻转后图像的全连接特征向量进行分类处理，得到各个翻转后图像对应的图像识别结果。

在一些实施例中，翻转后图像对应的图像识别结果可以是各个翻转后图像对应的表情类别的预测概率。将各个翻转后图像的特征向量输入表情识别模型的全局平均池化层进行全局平均池化处理，得到更低维度的各个翻转后图像的降维处理结果，通过全局平均池化处理，可以降低图像识别模型的复杂度，从而防止过拟合，提高泛化能力。再将各个翻转后图像的降维处理结果输入表情识别模型的全连接层进行特征变换，各个翻转后图像的降维处理结果与相应的权值进行权值计算，对各个翻转后图像的降维处理结果进行整合，得到各个翻转后图像的全连接特征向量，使得表情识别模型更好地理解和学习各个翻转后图像的特征，提高模型的分类准确率和泛化能力。再将各个翻转后图像的全连接特征向量输入表情识别模型的分类层进行分类，得到各个翻转后图像对应的图像识别结果。

在一些实施例中，表情识别模型的训练过程包括以下部分：遮挡增强模块301、翻转处理模块302、特征提取网络303、注意力处理模块304、翻转处理模块305、全局平均池化层306、全连接层307、分类层308，如图3所示，将各个训练图像输入遮挡增强模块301进行遮挡处理，得到各个遮挡后图像；将各个遮挡后图像输入翻转处理模块302进行水平翻转处理，得到各个翻转后图像；将各个遮挡后图像、各个翻转后图像分别输入特征提取网络303进行特征提取，得到各个训练图像的特征向量和各个翻转后图像的特征向量；将各个训练图像的特征向量输入注意力处理模块304进行注意力处理，得到各个训练图像的关键信息特征向量，再将各个训练图像的关键信息特征向量输入全局平均池化层306进行全局平均池化处理，得到各个训练图像的全局特征向量；将各个翻转后图像的特征向量输入注意力处理模块304进行注意力处理，得到各个翻转后图像的关键信息特征向量；再将各个翻转后图像的关键信息特征向量输入翻转处理模块305进行翻转，得到各个再翻转后图像的关键信息特征向量，将各个再翻转后图像的关键信息特征向量输入全局平均池化层306进行降维处理，得到各个翻转后图像的全局特征向量；基于各个训练图像的全局特征向量与各个翻转后图像的全局特征向量，计算得到各个一致性损失值。将各个训练图像的特征向量输入全局平均池化层306进行降维处理，得到各个训练图像的降维处理结果；再将各个训练图像的降维处理结果输入全连接层307进行特征变换，得到各个训练图像的全连接特征向量，再将各个训练图像的全连接特征向量输入分类层308进行分类处理，得到各个训练图像对应的图像识别结果，基于各个训练图像对应的图像识别结果和各个训练图像对应的标签，计算得到交叉熵损失函数对应的各个第一交叉熵损失值。将各个翻转后图像的特征向量输入全局平均池化层306进行降维处理，得到各个翻转后图像的降维处理结果；再将各个翻转后图像的降维处理结果输入全连接层307进行特征变换，得到各个翻转后图像的全连接特征向量，再将各个翻转后图像的全连接特征向量输入分类层308进行分类处理，得到各个翻转后图像对应的图像识别结果，基于各个翻转后图像对应的图像识别结果和各个翻转后图像对应的标签，计算得到交叉熵损失函数对应的各个第二交叉熵损失值。基于各个一致性损失值、各个第一交叉熵损失值和各个第二交叉熵损失值，确定各个目标损失值，并通过反向传播算法根据各个目标损失值更新表情识别模型的参数，在目标损失值小于或等于预设值时，得到训练完成的表情识别模型。

在一些实施例中，在目标损失值小于或等于预设值时，得到训练完成的表情识别模型之后，还包括：获取待识别图像，待识别图像中包括对象的面部图像；对待识别图像进行特征提取，得到待识别图像的特征向量；通过表情识别模型的全局平均池化层对待识别图像的特征向量进行全局平均池化处理，得到待识别图像的全局特征向量；通过表情识别模型的全连接层对待识别图像的全局特征向量进行特征变换，得到待识别图像的全连接特征向量；通过表情识别模型的分类层对待识别图像的全连接特征向量进行分类处理，得到待识别图像的表情识别结果，表情识别结果用于指示待识别图像中对象的表情类别。

在一些实施例中，上述过程为表情识别模型的使用过程，获取待识别图像后，将待识别图像输入表情识别模型，通过表情识别模型的特征提取网络对待识别图像进行特征提取，得到待识别图像的特征向量，提取待识别图像中的关键特征信息，并将其表示为向量形式，可以为后续的表情识别与分类提供更加准确和有效的数据基础。将待识别图像的特征向量输入到图像识别模型的全局平均池化层对待识别图像的特征向量进行降维处理，得到待识别图像的全局特征向量，可以降低图像识别模型的复杂度，从而防止过拟合。再将待识别图像的全局特征向量输入表情识别模型的全连接层进行特征变换，对待识别图像的全局特征向量进行相应整合，得到待识别图像的全连接特征向量，使得表情识别模型更好地理解和学习各个训练图像的特征，提高模型的分类准确率和泛化能力。最后将待识别图像的全连接特征向量输入分类层进行分类处理，得到待识别图像的表情识别结果，表情识别结果用于指示待识别图像中对象的表情类别。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图4是本公开实施例提供的一种表情识别模型的训练装置的示意图。如图4所示，该表情识别模型的训练装置包括：

获取模块401，用于获取表情识别训练集，表情识别训练集包括多张训练图像和训练图像对应的标签；

翻转模块402，用于对各个训练图像进行水平翻转处理，得到对应的多个翻转后图像；

一致性学习模块403，用于将各个训练图像和各个翻转后图像输入至表情识别模型，根据各个训练图像的特征向量和各个翻转后图像的特征向量进行一致性学习，得到一致性损失函数对应的各个一致性损失值；

第一确定模块404，用于根据各个训练图像的特征向量，确定各个训练图像对应的图像识别结果；

第一计算模块405，用于基于各个训练图像对应的图像识别结果和各个训练图像对应的标签，计算得到交叉熵损失函数对应的各个第一交叉熵损失值；

第二确定模块406，用于根据各个翻转后图像的特征向量，确定各个翻转后图像对应的图像识别结果；

第二计算模块407，用于基于各个翻转后图像对应的图像识别结果和各个翻转后图像对应的标签，计算得到交叉熵损失函数对应的各个第二交叉熵损失值；

更新模块408，用于基于各个一致性损失值、各个第一交叉熵损失值和各个第二交叉熵损失值，确定各个目标损失值，并根据各个目标损失值更新表情识别模型的参数；

结束模块409，用于在目标损失值小于或等于预设值时，得到训练完成的表情识别模型。

根据本公开实施例提供的技术方案，通过表情识别训练集对表情识别模型进行训练，将各个训练图像进行水平翻转，得到对应的多个翻转后图像，将各个训练图像和各个翻转后图像输入至表情识别模型，根据各个训练图像的特征向量和各个翻转后图像的特征向量进行一致性学习，得到一致性损失函数对应的各个一致性损失值，并结合各个训练图像对应的图像识别结果和各个训练图像对应的标签之间的各个第一交叉熵损失值以及各个翻转后图像对应的图像识别结果和各个翻转后图像对应的标签之间的各个第二交叉熵损失值，确定各个目标损失值，根据各个目标损失值进行反向传播，更新表情识别模型的参数。在训练过程中，将各个训练图像的特征向量和各个翻转后图像的特征向量之间的一致性损失作为重要监督信息，可以有效防止训练数据集中的噪声标签数据造成表情识别模型的过拟合，可以抑制噪声标签数据对训练过程中的不利影响，解决现有技术中表情识别数据集中的噪声标注数据降低表情识别模型的准确性的问题，提高模型的泛化性能。

在一些实施例中，表情识别模型的训练装置还可以用于：对各个训练图像进行水平翻转处理之前，生成遮挡矩阵，遮挡矩阵的像素为随机值；基于遮挡矩阵对各个训练图像的任意位置进行遮挡处理，得到各个遮挡后图像。

在一些实施例中，一致性学习模块403被配置为：对各个训练图像的特征向量进行注意力处理，得到各个训练图像的注意力权重，并基于各个训练图像的注意力权重进行加权求和，得到各个训练图像的关键信息特征向量；根据各个训练图像的关键信息特征向量，确认各个训练图像的全局特征向量；对各个翻转后图像的特征向量进行注意力处理，得到各个翻转后图像的注意力权重，并基于各个翻转后图像的注意力权重进行加权求和，得到各个翻转后图像的关键信息特征向量；根据各个翻转后图像的关键信息特征向量，确认各个翻转后图像的全局特征向量；基于各个训练图像的全局特征向量和各个翻转后图像的全局特征向量，得到各个一致性损失值。

在一些实施例中，一致性学习模块403被配置为：根据各个训练图像的关键信息特征向量，确认各个训练图像的全局特征向量，包括通过表情识别模型的全局平均池化层对各个训练图像的关键信息特征向量进行降维处理，得到各个训练图像的全局特征向量。

在一些实施例中，一致性学习模块403被配置为：根据各个翻转后图像的关键信息特征向量，确认各个翻转后图像的全局特征向量，包括对各个翻转后图像的关键信息特征向量进行翻转处理，得到各个翻转后图像的目标关键信息特征向量；通过表情识别模型的全局平均池化层对各个翻转后图像的目标关键信息特征向量进行降维处理，得到各个翻转后图像的全局特征向量。

在一些实施例中，第一确定模块404被配置为：通过表情识别模型的全局平均池化层对各个训练图像的特征向量进行降维处理，得到各个训练图像的降维处理结果；通过表情识别模型的全连接层对各个训练图像的降维处理结果进行特征变换，得到各个训练图像的全连接特征向量；通过表情识别模型的分类层对各个训练图像的全连接特征向量进行分类处理，得到各个训练图像对应的图像识别结果。

在一些实施例中，第二确定模块406被配置为：通过表情识别模型的全局平均池化层对各个翻转后图像的特征向量进行全局平均池化处理，得到各个翻转后图像的降维处理结果；通过表情识别模型的全连接层对各个翻转后图像的降维处理结果进行特征变换，得到各个翻转后图像的全连接特征向量；通过表情识别模型的分类层对各个翻转后图像的全连接特征向量进行分类处理，得到各个翻转后图像对应的图像识别结果。

在一些实施例中，表情识别模型的训练装置还可以用于：在目标损失值小于或等于预设值时，得到训练完成的表情识别模型之后，获取待识别图像，待识别图像中包括对象的面部图像；对待识别图像进行特征提取，得到待识别图像的特征向量；通过表情识别模型的全局平均池化层对待识别图像的特征向量进行全局平均池化处理，得到待识别图像的全局特征向量；通过表情识别模型的全连接层对待识别图像的全局特征向量进行特征变换，得到待识别图像的全连接特征向量；通过表情识别模型的分类层对待识别图像的全连接特征向量进行分类处理，得到待识别图像的表情识别结果，表情识别结果用于指示待识别图像中对象的表情类别。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图5是本公开实施例提供的电子设备500的示意图。如图5所示，该实施例的电子设备500包括：处理器501、存储器502以及存储在该存储器502中并且可在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者，处理器501执行计算机程序503时实现上述各装置实施例中各模块/单元的功能。

电子设备500可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备500可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解，图5仅仅是电子设备500的示例，并不构成对电子设备500的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器501可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器502可以是电子设备500的内部存储单元，例如，电子设备500的硬盘或内存。存储器502也可以是电子设备500的外部存储设备，例如，电子设备500上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。存储器502还可以既包括电子设备500的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读存储介质（例如计算机可读存储介质）中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random AccessMemory，RAM）、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种表情识别模型的训练方法，其特征在于，包括：

获取表情识别训练集，所述表情识别训练集包括多张训练图像和所述训练图像对应的标签；

对各个所述训练图像进行水平翻转处理，得到对应的多个翻转后图像；

将各个所述训练图像和各个所述翻转后图像输入至表情识别模型，根据各个所述训练图像的特征向量和各个所述翻转后图像的特征向量进行一致性学习，得到一致性损失函数对应的各个一致性损失值；

根据各个所述训练图像的特征向量，确定各个所述训练图像对应的图像识别结果；

基于各个所述训练图像对应的图像识别结果和各个所述训练图像对应的标签，计算得到交叉熵损失函数对应的各个第一交叉熵损失值；

根据各个所述翻转后图像的特征向量，确定各个所述翻转后图像对应的图像识别结果；

基于各个所述翻转后图像对应的图像识别结果和各个所述翻转后图像对应的标签，计算得到所述交叉熵损失函数对应的各个第二交叉熵损失值；

基于各个所述一致性损失值、各个所述第一交叉熵损失值和各个所述第二交叉熵损失值，确定各个目标损失值，并根据各个所述目标损失值更新所述表情识别模型的参数；

在所述目标损失值小于或等于预设值时，得到训练完成的表情识别模型；

所述根据各个所述训练图像的特征向量和各个所述翻转后图像的特征向量进行一致性学习，得到一致性损失函数对应的各个一致性损失值，包括：

对各个所述训练图像的特征向量进行注意力处理，得到各个所述训练图像的注意力权重，并基于各个所述训练图像的注意力权重进行加权求和，得到各个所述训练图像的关键信息特征向量；

根据各个所述训练图像的关键信息特征向量，确认各个所述训练图像的全局特征向量；

对各个所述翻转后图像的特征向量进行注意力处理，得到各个所述翻转后图像的注意力权重，并基于各个所述翻转后图像的注意力权重进行加权求和，得到各个所述翻转后图像的关键信息特征向量；

根据各个所述翻转后图像的关键信息特征向量，确认各个所述翻转后图像的全局特征向量；

基于各个所述训练图像的全局特征向量和各个所述翻转后图像的全局特征向量，得到各个所述一致性损失值；

所述根据各个所述训练图像的关键信息特征向量，确认各个所述训练图像的全局特征向量，包括：

通过所述表情识别模型的全局平均池化层对各个所述训练图像的关键信息特征向量进行降维处理，得到各个所述训练图像的全局特征向量；

所述根据各个所述翻转后图像的关键信息特征向量，确认各个所述翻转后图像的全局特征向量，包括：

对各个所述翻转后图像的关键信息特征向量进行翻转处理，得到各个翻转后图像的目标关键信息特征向量；

通过所述表情识别模型的全局平均池化层对各个所述翻转后图像的目标关键信息特征向量进行降维处理，得到各个所述翻转后图像的全局特征向量。

2.根据权利要求1所述的方法，其特征在于，所述对各个所述训练图像进行水平翻转处理之前，还包括：

生成遮挡矩阵，所述遮挡矩阵的像素为随机值；

基于所述遮挡矩阵对各个所述训练图像的任意位置进行遮挡处理，得到各个遮挡后图像。

3.根据权利要求1所述的方法，所述根据各个所述训练图像的特征向量，确定各个所述训练图像对应的图像识别结果，包括：

通过所述表情识别模型的全局平均池化层对各个所述训练图像的特征向量进行降维处理，得到各个所述训练图像的降维处理结果；

通过所述表情识别模型的全连接层对各个所述训练图像的降维处理结果进行特征变换，得到各个所述训练图像的全连接特征向量；

通过所述表情识别模型的分类层对各个所述训练图像的全连接特征向量进行分类处理，得到各个所述训练图像对应的图像识别结果。

4.根据权利要求1所述的方法，所述根据各个所述翻转后图像的特征向量，确定各个所述翻转后图像对应的图像识别结果，包括：

通过所述表情识别模型的全局平均池化层对各个所述翻转后图像的特征向量进行全局平均池化处理，得到各个所述翻转后图像的降维处理结果；

通过所述表情识别模型的全连接层对各个所述翻转后图像的降维处理结果进行特征变换，得到各个所述翻转后图像的全连接特征向量；

通过所述表情识别模型的分类层对各个所述翻转后图像的全连接特征向量进行分类处理，得到各个所述翻转后图像对应的图像识别结果。

5.根据权利要求1所述的方法，其特征在于，所述在所述目标损失值小于或等于预设值时，得到训练完成的表情识别模型之后，还包括：

获取待识别图像，所述待识别图像中包括对象的面部图像；

对所述待识别图像进行特征提取，得到所述待识别图像的特征向量；

通过所述表情识别模型的全局平均池化层对所述待识别图像的特征向量进行全局平均池化处理，得到所述待识别图像的全局特征向量；

通过所述表情识别模型的全连接层对所述待识别图像的全局特征向量进行特征变换，得到所述待识别图像的全连接特征向量；

通过所述表情识别模型的分类层对所述待识别图像的全连接特征向量进行分类处理，得到所述待识别图像的表情识别结果，所述表情识别结果用于指示所述待识别图像中所述对象的表情类别。

6.一种表情识别模型的训练装置，用于实现权利要求1至5任一项所述的方法，其特征在于，包括：

获取模块，用于获取表情识别训练集，所述表情识别训练集包括多张训练图像和所述训练图像对应的标签；

翻转模块，用于对各个所述训练图像进行水平翻转处理，得到对应的多个翻转后图像；

一致性学习模块，用于将各个所述训练图像和各个所述翻转后图像输入至表情识别模型，根据各个所述训练图像的特征向量和各个所述翻转后图像的特征向量进行一致性学习，得到一致性损失函数对应的各个一致性损失值；

第一确定模块，用于根据各个所述训练图像的特征向量，确定各个所述训练图像对应的图像识别结果；

第一计算模块，用于基于各个所述训练图像对应的图像识别结果和各个所述训练图像对应的标签，计算得到交叉熵损失函数对应的各个第一交叉熵损失值；

第二确定模块，用于根据各个所述翻转后图像的特征向量，确定各个所述翻转后图像对应的图像识别结果；

第二计算模块，用于基于各个所述翻转后图像对应的图像识别结果和各个所述翻转后图像对应的标签，计算得到所述交叉熵损失函数对应的各个第二交叉熵损失值；

更新模块，用于基于各个所述一致性损失值、各个所述第一交叉熵损失值和各个所述第二交叉熵损失值，确定各个目标损失值，并根据各个所述目标损失值更新所述表情识别模型的参数；

结束模块，用于在所述目标损失值小于或等于预设值时，得到训练完成的表情识别模型。

7.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述方法的步骤。

8.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述方法的步骤。