CN116912919B

CN116912919B - 一种图像识别模型的训练方法及装置

Info

Publication number: CN116912919B
Application number: CN202311168486.5A
Authority: CN
Inventors: 蒋召; 杨战波
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2024-03-15
Anticipated expiration: 2043-09-12
Also published as: CN116912919A

Abstract

本申请提供了一种图像识别模型的训练方法及装置。该方法包括：将样本集合中的表情样本输入至待训练模型中的特征提取网络，以使特征提取网络输出表情样本对应的表情特征；将表情特征输入至待训练模型中的特征分析网络，以使特征分析网络输出分析结果；根据表情样本对应的标注信息，确定分析结果的原始损失数据；将表情特征输入至待训练模型中的重要性学习网络，以使重要性学习网络输出重要性权重；根据重要性权重和原始损失数据，确定待训练模型的目标损失数据；根据目标损失数据调整待训练模型的模型参数，以确定图像识别模型。本申请能够显著提升图像识别模型的识别精度，提升在难例表情上的识别效果。

Description

一种图像识别模型的训练方法及装置

技术领域

本申请涉及机器学习技术领域，尤其涉及一种图像识别模型的训练方法及装置。

背景技术

面部表情是面部肌肉的一个或多个动作或状态的结果。这些运动表达了个体对观察者的情绪状态。面部表情是非语言交际的一种形式。它是表达人类之间的社会信息的主要手段，人脸表情识别作为人机交互技术的一个分支，在服务机器人、驾驶员疲劳检测等领域具有潜在的应用价值，近年来受到越来越多的关注。

现有图像识别模型在简单类别的表情上识别效果较好，比如开心或者伤心，但是在复杂表情上识别效果不佳，比如厌恶和害怕，效果不佳的原因包括两个，一方面是后者在数据集制作过程中由于标注人员的主观性导致出现噪声样本，另一方面是由于现有图像识别模型在优化过程中未考虑增强类间的分离性。

因此，上述原因导致部分复杂表情特征相对不明显，而且现有图像识别模型并未针对性的进行强化训练，所以对于复杂表情难以识别。

发明内容

有鉴于此，本申请实施例提供了一种图像识别模型的训练方法及装置，以解决现有技术中图像识别模型对复杂表情难以识别的问题。

本申请实施例的第一方面，提供了一种图像识别模型的训练方法，该方法包括：

将样本集合中的表情样本输入至待训练模型中的特征提取网络，以使特征提取网络输出表情样本对应的表情特征；

将表情特征输入至待训练模型中的特征分析网络，以使特征分析网络输出分析结果；

根据表情样本对应的标注信息，确定分析结果的原始损失数据；

将表情特征输入至待训练模型中的重要性学习网络，以使重要性学习网络输出重要性权重；

根据重要性权重和原始损失数据，确定待训练模型的目标损失数据；

根据目标损失数据调整待训练模型的模型参数，以确定图像识别模型。

本申请实施例的第二方面，提供了一种图像识别模型的训练装置，包括：

表情特征输出模块，用于将样本集合中的表情样本输入至待训练模型中的特征提取网络，以使特征提取网络输出表情样本对应的表情特征；

分析结果输出模块，用于将表情特征输入至待训练模型中的特征分析网络，以使特征分析网络输出分析结果；

原始损失数据确定模块，用于根据表情样本对应的标注信息，确定分析结果的原始损失数据；

重要性权重输出模块，用于将表情特征输入至待训练模型中的重要性学习网络，以使重要性学习网络输出重要性权重；

目标损失数据确定模块，用于根据重要性权重和原始损失数据，确定待训练模型的目标损失数据；

图像识别模型确定模块，用于根据目标损失数据调整待训练模型的模型参数，以确定图像识别模型。

本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本申请实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：本申请实施例通过利用表情样本对待训练模型进行训练，确定表情样本对应的原始损失数据和重要性权重，从而确定待训练模型的目标损失数据，并根据目标损失数据调整待训练模型的模型参数，以确定图像识别模型，可以显著提升图像识别模型的识别精度。本申请实施例还利用待训练模型中的重要性学习网络，以使重要性学习网络输出表情样本对应的重要性权重，在优化目标中引入了类间分离性，提升了在难例表情上的识别效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例的应用场景的场景示意图；

图2是本申请实施例提供的一种图像识别模型的训练方法的流程示意图；

图3是本申请实施例提供的一种待训练模型的结构示意图；

图4是本申请实施例提供的一种重要性子网络的结构示意图；

图5是本申请实施例提供的一种图像识别模型的训练装置的示意图；

图6是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

人类的面部表情至少有21种，除了常见的高兴、吃惊、悲伤、愤怒、厌恶和恐惧6种，还有惊喜（高兴＋吃惊）、悲愤（悲伤＋愤怒）等其他可被区分的复杂表情。在实际应用中，通常使用图像识别模型对上述面部表情进行识别分类。

图像识别模型是利用卷积神经网络对人脸表情进行识别，具体过程如下：

初始卷积层对局部线条或图形边界进行数据特征提取，识别局部图像中基本的曲线、边界等内容；中间层级的卷积层将初始卷积层识别到的特征信息进行整合实现人脸局部特征的识别，比如眼睛、嘴、鼻子等；较深层级的卷积层对眼睛、鼻子等人脸局部特征进行更上层整体分析判断，最终对人脸面部表情进行分类完成人脸表情的识别。

鉴于以上现有技术中的问题，本申请实施例提供一种全新的图像识别模型的训练方法，通过利用表情样本对待训练模型进行训练，确定表情样本对应的原始损失数据和重要性权重，从而确定待训练模型的目标损失数据，并根据目标损失数据调整待训练模型的模型参数，以确定图像识别模型，可以显著提升图像识别模型的识别精度。本申请实施例还利用待训练模型中的重要性学习网络，以使重要性学习网络输出表情样本对应的重要性权重，在优化目标中引入了类间分离性，提升了在难例表情上的识别效果。

下面将结合附图详细说明根据本申请实施例的一种图像识别模型的训练方法及装置。

图1是本申请实施例的一种应用场景的场景示意图。该应用场景可以包括终端设备101、102和103、服务器104、网络105。

终端设备101、102和103可以是硬件，也可以是软件。当终端设备101、102和103为硬件时，其可以是具有显示屏且支持与服务器104通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备101、102和103为软件时，其可以安装在如上的电子设备中。终端设备101、102和103可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本申请实施例对此不作限制。进一步地，终端设备101、102和103上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器104可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器104可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本申请实施例对此不作限制。

需要说明的是，服务器104可以是硬件，也可以是软件。当服务器104为硬件时，其可以是为终端设备101、102和103提供各种服务的各种电子设备。当服务器104为软件时，其可以是为终端设备101、102和103提供各种服务的多个软件或软件模块，也可以是为终端设备101、102和103提供各种服务的单个软件或软件模块，本申请实施例对此不作限制。

网络105可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙（Bluetooth）、近场通信（Near FieldCommunication，NFC）、红外（Infrared）等，本申请实施例对此不作限制。

用户可以通过终端设备101、102和103经由网络105与服务器104建立通信连接，以接收或发送信息等。具体地，服务器104将样本集合中的表情样本输入至待训练模型中的特征提取网络，以使特征提取网络输出表情样本对应的表情特征；服务器104将表情特征输入至待训练模型中的特征分析网络，以使特征分析网络输出分析结果；根据表情样本对应的标注信息，确定分析结果的原始损失数据；服务器104将表情特征输入至待训练模型中的重要性学习网络，以使重要性学习网络输出重要性权重；根据重要性权重和原始损失数据，确定待训练模型的目标损失数据；服务器104根据目标损失数据调整待训练模型的模型参数，以确定图像识别模型。

需要说明的是，终端设备101、102和103、服务器104以及网络105的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本申请实施例对此不作限制。

图2是本申请实施例提供的一种图像识别模型的训练方法的流程示意图。图2的图像识别模型的训练方法可以由图1的终端设备或者服务器执行。如图2所示，该图像识别模型的训练方法包括：

S201，将样本集合中的表情样本输入至待训练模型中的特征提取网络，以使特征提取网络输出表情样本对应的表情特征；

S202，将表情特征输入至待训练模型中的特征分析网络，以使特征分析网络输出分析结果；

S203，根据表情样本对应的标注信息，确定分析结果的原始损失数据；

S204，将表情特征输入至待训练模型中的重要性学习网络，以使重要性学习网络输出重要性权重；

S205，根据重要性权重和原始损失数据，确定待训练模型的目标损失数据；

S206，根据目标损失数据调整待训练模型的模型参数，以确定图像识别模型。

本实施例中，将针对待训练模型进行人工智能训练，从而得到图像识别模型。也可以说，图像识别模型在训练完成之前的阶段，可以称为待训练模型。待训练模型具有既定的卷积神经网络结构，可以认为该结构的卷积神经网络能够实现表情识别功能。不过在完成训练之前，待训练模型中的各种模型参数尚未确定，因此此时的待训练模型尚无法准确完成表情识别。具体地，待训练模型的具体模型结构如图3所示，待训练模型的结构可以由特征提取网络30、特征分析网络50和重要性学习网络40所组成。

在本实施例中，将利用样本集合对待训练模型进行训练。样本集合中包括多个表情样本。表情样本可以为人脸图像，人脸图像中可以呈现出不同的人脸表情。利用样本集合进行人工智能训练，能够使待训练模型获得识别人脸表情的能力。本实施例中的训练过程采用监督学习训练，所以每个表情样本应当有对应的标注信息，即通过标注信息明确该表情样本中的人脸表情的实际含义。

特征提取网络30的功能是，针对表情样本，或者说针对带有表情的图像进行特征提取，得到表情特征。特征提取网络30可以采用现有的可实现相同或类似功能的卷积神经网络结构，在此不赘述。

也就是说，表情样本输入待训练模型之后，应当首先输入到特征提取网络30

由特征提取网络30输出的表情特征，一方面可以输入至待训练模型中的特征分析网络50。特征分析网络50的作用是基于表情特征进行分析识别，得到识别结果，即判断该表情样本中人脸表情的含义。具体过程为，特征分析网络50可以由平均池化层和分类层组成，表情特征通过平均池化层池化处理，再经过分类层的分类操作，经过计算输出分析结果。输出分析结果的过程也就是表情特征重建的过程。该分析结果代表了待训练模型对表情特征的识别分析能力。

但是由于此时未完成训练，所以输出的识别结果很可能是错误的。

因此在训练过程中，还需要进一步的计算特征分析网络50目前对于样本集合中的表情样本进行识别后的损失数据，本实施例中将直接得到损失数据称为原始损失数据。

具体的，可以根据表情样本对应的标注信息，确定分析结果的原始损失数据。标注信息明确了该表情样本的实际含义，而分析结果体现了特征分析网络50通过运算确定的该表情样本的含义。当二者一致，则说明特征分析网络50的运算结果正确；相反，若二者不一致，说明特征分析网络50的运算结果错误。针对样本集合中的多个表情样本，特征分析网络50对其中每个表情样本的运算结果均可能正确或错误。而代表其运算结果整体错误概率的指标，可以称为原始损失数据。

在原始损失数据的计算过程中，每个表情样本的得分都是等比例的也就是说，目前待训练模型并不是一个理想的表情识别的模型，可以百分百的输出对表情样本识别的正确结果。比如，当标注信息和分析结果一致，即运算结果正确，可以认为待训练模型在该表情样本上的得分为1。反之当标注信息和分析结果不一致，即运算结果错误，可以认为待训练模型在该表情样本上的得分为0，即每个表情样本的得分都是1分或0分。假设样本集合中包括100个表情样本，则在100%正确的情况下，待训练模型的得分应当是是100分。但实际在某一次训练中，可能待训练模型仅仅得到了30分，那么可以将原始损失数据确定为70。

但是现有技术中，识别网络计算每个表情样本得到的结果（以及结果的损失）都是等比例了，也就是说没有侧重，重要性均一致。这样会导致没有针对复杂的表情样本进行针对性的重点学习，使得对复杂表情识别精度不高，因此，本实施例利用后续步骤对难例的表情样本根据重要性的程度进行训练，从而提高复杂表情识别效果。

为解决这一问题，本实施例中待训练模型中还包括了重要性学习网络40。由特征提取网络30输出的表情特征，可以同时输入至重要性学习网络40当中。重要性学习网络40作用是基于表情特征进行聚合拼接，通过计算输出不同样本的重要性权重。具体过程为，重要性学习网络40可以通过对各表情特征依次进行最大池化层、聚合层、拼接层、全连接层和激活层处理，以使重要性网络40输出重要性权重。重要性权重代表着在人工智能训练，即深度学习的过程中该样本对应的人脸表情具有的侧重比例。越容易识别的表情，侧重比例越低。越难识别的表情，侧重比例越高。因此可以加强识别复杂表情的能力。比如，某样本集合中具有两类表情样本，一类表情样本的标注信息为“开心”，另一类表情样本的标注信息为“害怕”，其中，通过重要性学习网络40分析计算得到“开心”的表情样本比较好识别，“害怕”比较难识别，通过重要性学习网络40能够综合对这两种表情样本进行比对分析，得到这两类的重要性权重。“害怕”的表情样本重要性权重可以为0.7，“开心”表情样本的重要性权重可以为0.3，那么深度学习的过程中可以根据“害怕”的表情样本的重要性权重着重去训练。

进一步地，根据重要性权重和原始损失数据，确定待训练模型的目标损失数据。因为每次对待训练模型进行训练，训练时使用的每个表情样本都对应有一个重要性权重，且训练循环一轮后，某一类表情样本会有一个原始损失数据也就是前面步骤中提到的分数。该原始损失数据或者分数与对应的重要性权重的乘积就是目标损失数据。目标损失数据因为配置了重要性权重，更能够反应出简单表情样本和复杂表情样本之间的损失占比，提高预测准确度差的类别的权重，降低预测准确度好的类别的权重，使得模型对各类别的表情样本预测准确度得到均衡的提升，因此基于此目标损失数据反向更新待训练模型的模型参数能够提高模型训练效果。

进一步地，根据目标损失数据可以调整待训练模型的模型参数，通过获取样本集合内各类表情样本的原始损失数据，根据原始损失数据和当次模型训练中所输出的每个类别表情样本的重要性权重以确定目标损失数据，基于此目标数据对待训练模型的模型参数进行动态调整，该模型参数可以为待训练模型对各类表情样本损失的权值变量。这样避免了由于现有图像识别模型在优化过程中未考虑增强类间的分离性而导致对复杂表情识别效果不好的问题。

通过反复迭代直到原始损失数据不再下降，则待训练模型此时的模型参数更新到最优，说明该待训练模型对复杂表情的预测能力或者识别能力达到了预期要求，此时的待训练模型即为图像识别模型。这样，动态调整模型参数过程中，使得模型的训练更符合数据的本身，从而可以实现越难的表情类别损失占比越大，越简单的表情类别损失占比越小，提升了待训练模型的训练效果。

根据本申请实施例提供的技术方案，通过利用表情样本对待训练模型进行训练，确定表情样本对应的原始损失数据和重要性权重，从而确定待训练模型的目标损失数据，并根据目标损失数据调整待训练模型的模型参数，以确定图像识别模型，基于重要性权重加权后的原始损失数据来优化待训练模型的模型参数，可以显著提升图像识别模型的识别精度。

在一些实施例中，特征分析网络包括，平均池化层和分类层；则将表情特征输入至待训练模型中的特征分析网络，以使特征分析网络输出分析结果包括：

将表情特征输入至平均池化层，以使平均池化层对表情特征进行全局平均池化处理，以确定第一池化特征；

将第一池化特征输入至分类层，以使分类层输出分析结果。

具体地，池化操作（也称为子采样或下采样）主要为了降低每个特征图的维数，可以减少参数矩阵的尺寸，从而减少最后输出的数量，但保留了最重要的信息。本实施例中的平均池化层计算表情特征的图像区域的平均值作为该区域池化后的值，也就是第一池化特征，平均池化处理往往能保留表情特征中的整体数据，较好的突出背景信息。分类层用于对池化后的表情特征向量也就是第一池化特征进行分类识别，得到表情类别。一般情况下，分类层可以采用Softmax分类器，直接输出分类的概率。比如，该待训练模型包含7种表情，分类层对第一池化特征输出一个7维向量，该向量每个维度的数值就是输入表情样本中的人脸表情属于各表情类别的概率，数值最大的元素对应的表情类别就是该待训练模型对输入表情样本的识别标签。输出的分类的概率就是分析结果。

在一些实施例中，重要性学习网络包括，最大池化层和重要性子网络；则将表情特征输入至待训练模型中的重要性学习网络，以使重要性学习网络输出重要性权重包括：

将表情特征输入至最大池化层，以使最大池化层对表情特征进行全局最大池化处理，以确定第二池化特征；

将第二池化特征输入至重要性子网络，以使重要性子网络输出重要性权重。

具体地，本实施例中的最大池化层计算表情特征的图像区域的最大值作为该区域池化后的值，也就是第二池化特征，最大池化处理能更好保留表情特征中的纹理特征。也就是说，第二池化特征是表情特征中最有代表性的语义信息，是各表情样本中语义特征最强的特征。之后利用重要性子网络对第二池化特征进行分析，以确定第二池化特征的代表程度，输出为重要性权重。

在一些实施例中，如图4所示，重要性子网络包括，聚合层401、拼接层402、全连接层403和激活层404；则将第二池化特征输入至重要性子网络，以使重要性子网络输出重要性权重包括：

将至少2个表情样本对应的第二池化特征输入至聚合层401，以使聚合层401对各第二池化特征进行聚合处理，以确定聚合特征；

将各第二池化特征和聚合特征输入至拼接层402，以使拼接层402将各第二池化特征分别与聚合特征进行拼接处理，以确定各第二池化特征分别对应的拼接特征；

将各拼接特征输入至全连接层403和激活层404，以确定各表情样本对应的重要性权重。

具体地，聚合层401能够将若干表情样本的第二池化特征进行聚合处理，形成聚合特征。拼接层402能够将各第二池化特征和聚合特征进行拼接处理形成拼接特征，全连接层403，指的是每一个结点都与上一层的所有结点相连，用来把前面几层提取到的特征综合起来。由于其全连接的特性，一般全连接层的参数也是最多的。全连接层403起到分类器的作用，针对拼接特征进行分类。激活层404将分类结果线性输出，通过非线性的激活函数进行处理，这样用以模拟任意函数，从而增强网络的表征能力。激活层404常用的函数包括Sigmoid和ReLU（Rectified-Linear Unit，修正线性单元）等。

具体过程可以为：假设对待训练模型使用两个表情样本进行训练，那么这两个表情样本对应有两个表情特征，对这两个表情特征进行最大池化处理形成第二池化特征a和第二池化特征b/>。对第二池化特征a/>和第二池化特征b进行聚合处理形成聚合特征c/>。聚合特征c为第二池化特征a和第二池化特征b的交互结果，通过聚合特征c能够表征出所有表情样本各个第二池化特征之间的更多的交互性含义，因此聚合特征c也可以称之为全局特征。拼接层402将各第二池化特征和聚合特征进行拼接处理形成拼接特征（a+c）和（b+c）/>，因为拼接后的特征同时包含了当前的表情特征a或b，和全局特征c，通过聚合和拼接使待训练模型知道了其他特征的信息以及全局特征的信息，所以在训练过程中可以对照二者，从而随着训练确定当前特征在全局中所占的比例，也就是反应出不同样本之间不同的重要性。通过对比可以知道每个表情样本在样本集合中所占有的权重，有了权重之后，不同表情样本之间的重要性不再是等比例。高难度表情样本或者复杂表情样本配以更高的权重，这样在训练过程中得到了更多的强化和针对性训练，进而可以提高模型对复杂表情的识别精度。

本申请实施例还利用待训练模型中的重要性学习网络，以使重要性学习网络输出表情样本对应的重要性权重，针对传统图像识别模型未能有效体现复杂表情的差异性，利用特征的聚合拼接充分体现表情特征之间的相似度和差异性，利用全连接层进行分类判别反应各表情样本的分量权值，具有类间分离性，能够提升在难例表情上的识别效果。

在一些实施例中，将各拼接特征输入至全连接层403和激活层404，以确定各表情样本对应的重要性权重包括：

将拼接特征输入至全连接层403进行全连接层处理以确定表情样本的重要性结果；

将重要性结果输入激活层404以确定表情样本所对应的映射值；

根据映射值确定表情样本的重要性权重。

具体地，上述实施例中全连接层403进行分类输出的分类结果就是重要性结果。一般来说，全连接层403分类输出的重要性结果是以特征向量的形式输出的，这种输出形式比较抽象，表达力不够。因此需要激活层404对输出的重要性结果进行一个实际数值的展现来代表重要性结果，这个实际数值就是表情样本所对应得映射值，这个映射值得大小代表了表情样本的重要性权重的大小。

以激活层404使用sigmoid函数为例，我们在做决策的时候通常非此即彼，然而实际中，全连接层403输出的的特征，通常不是0到1之间的实数。我们要做决策，就必须将这个实数压缩到0到1之间。在计算机中通常用0或1来替代两种可能性。为了勾画决策的不确定性也就是重要性权重的大小，模拟表情样本中更细微的变化，可以使用0到1之间的一个实数来表示我们决策的结果。这样当我们的决策结果或者映射值是0.6的时候，代表我们更倾向于选择1更不倾向于选择0。

在一些实施例中，根据重要性权重和原始损失数据，确定待训练模型的目标损失数据包括：

各表情样本均对应有一个原始损失数据；根据表情样本所对应的重要性权重对原始损失数据进行加权处理以确定目标损失数据。

具体地，一个表情样本经过一轮训练对应有一个原始损失数据和一个重要性权重。依据重要性权重对原始损失数据进行加权处理后就是待训练模型的目标损失数据。该目标损失数据是基于表情样本的重要性权重对原始损失数据加权处理得到，使得目标损失数据更具有修正代表性。基于此目标损失数据反向更新待训练模型的模型参数会更加的准确。

在一些实施例中，根据目标损失数据调整待训练模型的模型参数，以确定图像识别模型包括：

当目标损失数据高于预设的损失标准，利用梯度下降法调整待训练模型的模型参数；并重新计算调整模型参数后的待训练模型的目标损失数据；

当目标损失数据不高于预设的损失标准，将最后一次调整模型参数后的待训练模型确定为图像识别模型。

具体地，损失标准是评判待训练模型是否满足使用要求的标准。当目标损失数据高于预设的损失标准，说明待训练模型还没有训练好，需要重新调整模型参数，重新训练，根据重新训练后的目标损失数据再和损失标准进行对比。调整模型参数的过程就是模型优化的过程。调整模型参数可以采用梯度下降法进行调整。梯度下降法是一种基于搜索的最优化的方法。它虽然也是人工智能领域的一个非常重要的方法，但是它的作用是用于优化一个目标函数。因为本实施例是以目标损失数据作为优化模型的参考，那么对于要最小化一个损失函数的话，相应的使用的就是梯度下降法。通过梯度下降法能够使模型参数快速接近目标值，直至当目标损失数据不高于预设的损失标准，将最后一次调整模型参数后的待训练模型确定为图像识别模型。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图5是本申请实施例提供的一种图像识别模型的训练装置的示意图。如图5所示，该图像识别模型的训练装置包括：

表情特征输出模块501，被配置为用于将样本集合中的表情样本输入至待训练模型中的特征提取网络，以使特征提取网络输出表情样本对应的表情特征；

分析结果输出模块502，被配置为用于将表情特征输入至待训练模型中的特征分析网络，以使特征分析网络输出分析结果；

原始损失数据确定模块503，被配置为用于根据表情样本对应的标注信息，确定分析结果的原始损失数据；

重要性权重输出模块504，被配置为用于将表情特征输入至待训练模型中的重要性学习网络，以使重要性学习网络输出重要性权重；

目标损失数据确定模块505，被配置为用于根据重要性权重和原始损失数据，确定待训练模型的目标损失数据；

图像识别模型确定模块506，被配置为用于根据目标损失数据调整待训练模型的模型参数，以确定图像识别模型。

在一些实施例中，特征分析网络包括，平均池化层和分类层；则图5的分析结果输出模块502包括：

将第一池化特征输入至分类层，以使分类层输出分析结果。

在一些实施例中，重要性学习网络包括，最大池化层和重要性子网络；则图5重要性权重输出模块504包括：

在一些实施例中，重要性子网络包括，聚合层、拼接层、全连接层和激活层；则图5重要性权重输出模块504包括：

将至少2个表情样本对应的第二池化特征输入至聚合层，以使聚合层对各第二池化特征进行聚合处理，以确定聚合特征；

将各第二池化特征和聚合特征输入至拼接层，以使拼接层将各第二池化特征分别与聚合特征进行拼接处理，以确定各第二池化特征分别对应的拼接特征；

将各拼接特征输入至全连接层和激活层，以确定各表情样本对应的重要性权重。

在一些实施例中，图5重要性权重输出模块504包括：

将拼接特征输入至全连接层进行全连接层处理以确定表情样本的重要性结果；

将重要性结果输入激活层以确定表情样本所对应的映射值；

根据映射值确定表情样本的重要性权重。

在一些实施例中，图5的目标损失数据确定模块505包括：

在一些实施例中，图5的图像识别模型确定模块506包括：

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图6是本申请实施例提供的电子设备6的示意图。如图6所示，该实施例的电子设备6包括：处理器601、存储器602以及存储在该存储器602中并且可在处理器601上运行的计算机程序603。处理器601执行计算机程序603时实现上述各个方法实施例中的步骤。或者，处理器601执行计算机程序603时实现上述各装置实施例中各模块/单元的功能。

电子设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备6可以包括但不仅限于处理器601和存储器602。本领域技术人员可以理解，图6仅仅是电子设备6的示例，并不构成对电子设备6的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器601可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application SpecificIntegrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器602可以是电子设备6的内部存储单元，例如，电子设备6的硬盘或内存。存储器602也可以是电子设备6的外部存储设备，例如，电子设备6上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。存储器602还可以既包括电子设备6的内部存储单元也包括外部存储设备。存储器602用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种图像识别模型的训练方法，其特征在于，所述方法包括：

将样本集合中的表情样本输入至待训练模型中的特征提取网络，以使所述特征提取网络输出所述表情样本对应的表情特征；

将所述表情特征输入至所述待训练模型中的特征分析网络，以使所述特征分析网络输出分析结果；

根据所述表情样本对应的标注信息，确定所述分析结果的原始损失数据；

将所述表情特征输入至所述待训练模型中的重要性学习网络，以使所述重要性学习网络输出所述表情特征的重要性权重，其中，所述重要性权重代表识别所述表情样本的难易程度，所述表情样本的重要性权重越大，则所述表情样本识别难度越大，所述表情样本的重要性权重越小，则所述表情样本识别难度越小；

根据所述重要性权重和所述原始损失数据，确定所述待训练模型的目标损失数据；

根据所述目标损失数据调整所述待训练模型的模型参数，以确定图像识别模型；

其中，所述重要性学习网络包括，最大池化层和重要性子网络；则所述将所述表情特征输入至所述待训练模型中的重要性学习网络，以使所述重要性学习网络输出重要性权重包括：将所述表情特征输入至所述最大池化层，以使所述最大池化层对所述表情特征进行全局最大池化处理，以确定第二池化特征；将所述第二池化特征输入至所述重要性子网络，以使所述重要性子网络输出所述重要性权重；

其中，所述重要性子网络包括，聚合层、拼接层、全连接层和激活层；则所述将所述第二池化特征输入至所述重要性子网络，以使所述重要性子网络输出所述重要性权重包括：将至少2个所述表情样本对应的所述第二池化特征输入至所述聚合层，以使所述聚合层对各所述第二池化特征进行聚合处理，以确定聚合特征；将各所述第二池化特征和所述聚合特征输入至所述拼接层，以使所述拼接层将各所述第二池化特征分别与所述聚合特征进行拼接处理，以确定各所述第二池化特征分别对应的拼接特征；将各所述拼接特征输入至所述全连接层和所述激活层，以确定各所述表情样本对应的重要性权重；

其中，所述特征分析网络包括，平均池化层和分类层；则所述将所述表情特征输入至所述待训练模型中的特征分析网络，以使所述特征分析网络输出分析结果包括：将所述表情特征输入至所述平均池化层，以使所述平均池化层对所述表情特征进行全局平均池化处理，以确定第一池化特征；将所述第一池化特征输入至所述分类层，以使所述分类层输出所述分析结果；

其中，所述将各所述拼接特征输入至所述全连接层和所述激活层，以确定各所述表情样本对应的重要性权重包括：将所述拼接特征输入至所述全连接层进行全连接层处理以确定所述表情样本的重要性结果；将所述重要性结果输入激活层以确定所述表情样本所对应的映射值；根据所述映射值确定所述表情样本的重要性权重；

其中，所述根据所述重要性权重和所述原始损失数据，确定所述待训练模型的目标损失数据包括：各所述表情样本均对应有一个原始损失数据；根据所述表情样本所对应的所述重要性权重对所述原始损失数据进行加权处理以确定所述目标损失数据。

2.根据权利要求1所述方法，其特征在于，所述根据所述目标损失数据调整所述待训练模型的模型参数，以确定图像识别模型包括：

当所述目标损失数据高于预设的损失标准，利用梯度下降法调整所述待训练模型的模型参数；并重新计算调整所述模型参数后的待训练模型的目标损失数据；

当所述目标损失数据不高于预设的损失标准，将最后一次调整所述模型参数后的待训练模型确定为所述图像识别模型。

3.一种图像识别模型的训练装置，其特征在于，包括：

表情特征输出模块，用于将样本集合中的表情样本输入至待训练模型中的特征提取网络，以使所述特征提取网络输出所述表情样本对应的表情特征；

分析结果输出模块，用于将所述表情特征输入至所述待训练模型中的特征分析网络，以使所述特征分析网络输出分析结果；

原始损失数据确定模块，用于根据所述表情样本对应的标注信息，确定所述分析结果的原始损失数据；

重要性权重输出模块，用于将所述表情特征输入至所述待训练模型中的重要性学习网络，以使所述重要性学习网络输出所述表情特征的重要性权重，其中，所述重要性权重代表识别所述表情样本的难易程度，所述表情样本的重要性权重越大，则所述表情样本识别难度越大，所述表情样本的重要性权重越小，则所述表情样本识别难度越小；

目标损失数据确定模块，用于根据所述重要性权重和所述原始损失数据，确定所述待训练模型的目标损失数据；

图像识别模型确定模块，用于根据所述目标损失数据调整所述待训练模型的模型参数，以确定图像识别模型；

所述重要性学习网络包括，最大池化层和重要性子网络，所述重要性权重输出模块还用于将所述表情特征输入至所述最大池化层，以使所述最大池化层对所述表情特征进行全局最大池化处理，以确定第二池化特征；将所述第二池化特征输入至所述重要性子网络，以使所述重要性子网络输出所述重要性权重；

所述重要性子网络包括，聚合层、拼接层、全连接层和激活层，所述重要性权重输出模块还用于将至少2个所述表情样本对应的所述第二池化特征输入至所述聚合层，以使所述聚合层对各所述第二池化特征进行聚合处理，以确定聚合特征；将各所述第二池化特征和所述聚合特征输入至所述拼接层，以使所述拼接层将各所述第二池化特征分别与所述聚合特征进行拼接处理，以确定各所述第二池化特征分别对应的拼接特征；将各所述拼接特征输入至所述全连接层和所述激活层，以确定各所述表情样本对应的重要性权重；

所述特征分析网络包括，平均池化层和分类层，所述分析结果输出模块还用于将所述表情特征输入至所述平均池化层，以使所述平均池化层对所述表情特征进行全局平均池化处理，以确定第一池化特征；将所述第一池化特征输入至所述分类层，以使所述分类层输出所述分析结果；

所述重要性权重输出模块还用于将所述拼接特征输入至所述全连接层进行全连接层处理以确定所述表情样本的重要性结果；将所述重要性结果输入激活层以确定所述表情样本所对应的映射值；根据所述映射值确定所述表情样本的重要性权重；

所述目标损失数据确定模块还用于各所述表情样本均对应有一个原始损失数据；根据所述表情样本所对应的所述重要性权重对所述原始损失数据进行加权处理以确定所述目标损失数据。

4.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至2中任一项所述方法的步骤。

5.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至2中任一项所述方法的步骤。