CN116645706A

CN116645706A - 图像处理方法、装置、计算机设备、存储介质及程序产品

Info

Publication number: CN116645706A
Application number: CN202210138589.6A
Authority: CN
Inventors: 文琦; 张健
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2023-08-25

Abstract

本申请提供一种图像处理方法、装置、计算机设备、存储介质及程序产品，涉及图像处理领域，本申请实施例可应用于视频拍摄、视频剪辑、视频包装等各种场景。图像处理方法包括：获取待识别表情的人脸图像；基于训练后的表情识别模型，识别人脸图像的表情；其中，训练后的表情识别模型是通过如下方式训练得到的：获取样本图像集和预训练模型；样本图像集中包括多个初始样本图像；基于预训练模型分别对每个初始样本图像进行识别，确定总训练损失值；基于各初始样本图像的总训练损失值从样本图像集中筛选出有效样本图像；基于所筛选出的有效样本图像对预训练模型进行训练，得到表情识别模型。可以有效提高表情识别模型的准确率。

Description

图像处理方法、装置、计算机设备、存储介质及程序产品

技术领域

本申请涉及图像处理技术领域，本申请涉及一种图像处理方法、装置、计算机设备、存储介质及程序产品。

背景技术

随着计算机技术和人工智能技术及其相关学科的迅猛发展，计算机视觉逐渐成为各个应用领域中不可分割的一部分。人脸表情识别一直是计算机视觉领域中的一个重要的研究课题，表情识别是人脸属性分析中的一个重要分支，对于感知图像中人脸状态和视频内容分析都有着非常重要的意义。

现有的表情识别中存在大量的基于深度学习的方法，但是深度学习需要大量标注的样本来达到较好的性能，在标注过程中由于标注员的主观理解可能存在一定偏差，可能存在一些标注不准确的样本数据，导致训练得到的表情识别模型的准确率不高。

发明内容

本申请提供了一种图像处理方法、装置、计算机设备、存储介质及程序产品，可以解决相关技术中模型识别准确率较低的问题。所述技术方案如下：

一方面，提供了一种图像处理方法，方法包括：

获取待识别表情的人脸图像；

基于训练后的表情识别模型，识别人脸图像的表情；

训练后的表情识别模型是通过如下方式训练得到的：

获取样本图像集和预训练模型；样本图像集中包括多个初始样本图像；每一初始样本图像设置有表情标签；

基于预训练模型分别对每个初始样本图像进行识别，得到每一初始样本图像的表情预测结果；

针对每一初始样本图像，基于表情预测结果和表情标签确定总训练损失值；

基于各初始样本图像的总训练损失值从样本图像集中筛选出有效样本图像；

基于所筛选出的有效样本图像对预训练模型进行训练，得到训练后的表情识别模型。

另一方面，提供了一种图像处理装置，装置包括：

获取模块，用于获取待识别表情的人脸图像；

识别模块，用于基于训练后的表情识别模型，识别人脸图像的表情；

训练后的表情识别模型是由训练模块通过如下方式训练得到的：

在一个可能实现方式中，预训练模型的个数为至少两个；训练模块在基于预训练模型分别对每个初始样本图像进行识别，得到每一初始样本图像的表情预测结果时，具体用于：

将每个初始样本图像分别输入至少两个预训练模型，得到每一初始样本图像对应于各个预训练模型的表情预测结果；

针对每一初始样本图像，训练模块在基于表情预测结果和表情标签确定总训练损失值时，具体用于：

基于对应于每一预训练模型的表情预测结果和表情标签，确定对应于每一预训练模型的第一训练损失值；

基于对应于各训练模型的第一训练损失值，确定初始样本图像的总训练损失值。

在一个可能实现方式中，训练模块在基于所筛选出的有效样本图像对预训练模型进行训练，得到训练后的表情识别模型时，具体用于：

基于有效样本图像对至少两个预训练模型进行训练，得到至少两个训练模型；

对至少两个训练模型进行测试，从至少两个训练模型中确定出表情识别模型。

基于有效样本图像对至少两个预训练模型分别进行训练，得到至少两个训练模型；

通过对至少两个训练模型进行测试，从至少两个训练模型中确定出训练后的表情识别模型。

在一个可能实现方式中，训练模块在基于所筛选出的有效样本图像对预训练模型进行训练，以得到训练后的表情识别模型时，具体用于：

基于所筛选出的有效样本图像对预训练模型进行至少一次训练，得到第一中间模型，若第一中间模型满足训练结束条件，则基于第一中间模型得到训练后的表情识别模型；

若第一中间模型不满足训练结束条件，装置还用于：

将训练后第一中间模型作为新的预训练模型，通过重复以下操作直至得到的第二中间模型满足训练结束条件，基于满足训练结束条件的第二中间模型得到训练后的表情识别模型：

获取新的样本图像集；

基于预训练模型分别对新的样本图像集中的每个初始样本图像进行识别，得到每一初始样本图像的表情预测结果；

基于所筛选出的有效样本图像对预训练模型进行至少一次训练，得到第二中间模型，若第二中间模型不满足预设条件，将第二中间模型作为新的预训练模型。

在一个可能实现方式中，训练模块在基于每一初始样本图像的总训练损失值，从多个初始样本图像中筛选出有效样本图像时，具体用于以下至少一种：

将总训练损失值最小的预设比率的样本图像设为有效样本图像；

将总训练损失值小于预设阈值的样本图像设为有效样本图像。

在一个可能实现方式中，识别模块在基于训练后的表情识别模型，识别人脸图像的表情时，具体用于：

通过表情识别模型执行以下操作：

提取人脸图像的人脸特征图，确定人脸特征图的注意力权重系数，基于注意力权重系数提取人脸特征图的注意力特征图；

对注意力特征图进行分类，得到人脸图像分别对应至少两个候选表情的概率；

基于人脸图像分别对应至少两个候选表情的概率，确定人脸图像的表情。

在一个可能实现方式中，识别模块在确定人脸特征图的注意力权重系数，基于注意力权重系数提取人脸特征图的注意力特征图时，具体用于：

确定人脸特征图在通道维度的注意力权重系数；

基于人脸特征图和通道维度的注意力权重系数确定注意力特征图。

在一个可能实现方式中，识别模块在基于人脸特征图和通道维度的注意力权重系数确定注意力特征图时，具体用于：

基于人脸特征图和通道维度的注意力权重系数确定通道特征图；

基于空间注意力层确定通道特征图在空间维度的注意力权重系数；

将通道特征图和空间维度的注意力权重系数的内积确定为注意力特征图。

另一方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，处理器执行计算机程序以实现上述的图像处理方法。

另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的图像处理方法。

另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述的图像处理方法。

本申请提供的技术方案带来的有益效果是：

通过每一样本图像的总训练损失值从多个样本图像中筛选出有效样本图像，再通过有效样本图像对预训练模型进行训练从而获取表情识别模型，可以有效提高表情识别模型的准确率。

此外，通过至少两个预训练模型来确定总训练损失值，可以有效减少单个预训练模型在训练过程中的误差，提高总训练损失值的可靠性，以筛选出有效样本图像，从而进一步提高表情识别模型的准确率；

进一步的，通过将卷积层通道数设置为常规数量的三分之一，可以提高表情识别模型的实时处理效率，此外可以基于单张照片识别人脸表情，不需要视频的连续帧信息，算法更轻量，易于部署在端上；

更进一步的，通过在表情识别模型的每个特征提取模块中引入通道注意力层和空间注意力层，分别学习了通道的重要性和空间的重要性，可以提高表情识别模型的识别准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种图像处理方法的实施环境示意图；

图2为本申请实施例提供的一种图像处理方法的流程示意图；

图3为本申请实施例提供的一种模型训练方法的流程示意图；

图4为本申请示例提供的表情识别方案的示意图；

图5为本申请示例提供的表情识别模型的训练过程的示意图；

图6为本申请示例提供的表情识别模型的结构示意图；

图7为本申请示例提供的表情识别模型的特征提取模块的结构示意图；

图8为本申请示例提供的通道注意力层的结构示意图；

图9为本申请示例提供的表情识别模型的特征提取模块的结构示意图；

图10为本申请示例提供的空间注意力层的结构示意图；

图11为本申请实施例提供的一种图像处理装置的结构示意图；

图12为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”指示实现为“A”，或者实现为“A”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人脸表情识别一直是计算机视觉领域中的一个重要的研究课题，表情识别是人脸属性分析中的一个重要分支，对于感知图像中人脸状态和视频内容分析都有着非常重要的意义。

本申请的申请人经过研究发现：本领域的相关技术中，有关人脸表情分析的研究中一般包含两个方向，一个是将表情分为特定的类别进行分类，通常来说比较常用的类别数为7类，包括正常、开心、难过、愤怒、惊讶、害怕和厌恶，这种识别就是常说的人脸情绪识别。另一个是将人脸的表情分为不同的局部动作，一般称为人脸动作单元识别，这种分析方式输出的是每个局部面部动作的程度，大多数的动作之间没有绝对联系，国际上有一套通用的人脸动作编码系统，里面定义几十种局部面部表情例如：嘴角上扬，嘟嘴巴，嘴唇皱起，眉毛紧缩等。由于这套系统内部定义的人脸动作过于详尽，实际应用中不需要这么多的预测结果，因此，大多数的引用或者研究中会选择一部分进行预测。人脸动作单元识别不同于人脸情绪识别，人脸动作单元识别只能得到局部动作的出现与否和程度，两者之间存在一定的相关性，但是也并不是绝对相关的。

在人脸情绪识别中，传统的方法一般包含人脸特征提取和人脸表情分类，常用的人脸特征包含线性反投影算法(Local Binary Patterns，LBP)、方向梯度直方图(Histogram of Oriented Gradient,HOG)、尺度不变特征变换(Scale-invariant featuretransform，SIFT)等，先对检测到的人脸图像进行特征提取，得到人脸的特征向量，然后训练分类器对表情进行分类，常用的分类器包含K最邻近(KNN，K-NearestNeighbor)、支持向量机(Support Vector Machine,SVM)等，用分类器对提取的特征进行表情的判断。近年来，随着深度学习(deep learning)技术在图像处理领域的发展，深度学习的技术也应用到了人脸表情分类的研究中。深度学习的人脸情绪识别中，通过大量带标注的样本经过卷积神经网络的学习，得到一个端到端的网络结构，该结构可以通过直接输入一张人脸图像输出每个表情的分类概率。

现有的人脸表情识别方法，通常用七类表情，包括正常、开心、难过、愤怒、惊讶、害怕、厌恶进行表情识别；若需要更换不同种类的表情，例如更换为笑、嘟嘴、吐舌头、咬嘴唇、眨眼等表情，则需要采集样本对表情识别模型进行训练，样本需要预先进行标注，由于在一些边界情况下，标注员对表情的理解有主观上的误差，目前在模型训练过程中获得一份准确率稿的数据的成本较高，容易存在一些标注不准确的样本数据，导致训练得到的表情识别模型的准确率不高。

本申请先对模型进行预训练，得到预训练模型，再通过带噪学习的方式对预训练模型进行再训练，尽可能降低标注不准确的样本对模型的准确度的影响。

本申请实施例可应用于各种场景，包括但不限于人工智能等。示例性的，本申请提供的图像处理方法，可以应用于计算机视觉领域的人脸表情识别中，可以分别应用于视频拍摄、视频剪辑、视频包装等多个细分场景。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

图1是本发明实施例提供的一种图像处理方法的实施环境的示意图，参见图1，该实施环境包括：终端设备101和服务器102。

具体的，终端设备101拍摄待识别表情的人脸图像，将人脸图像发送至服务器102，服务器102可以获取样本图像集和预训练模型；所述样本图像集中包括多个初始样本图像；每一所述初始样本图像设置有表情标签；基于所述预训练模型分别对每个初始样本图像进行识别，得到每一初始样本图像的表情预测结果；针对每一所述初始样本图像，基于所述表情预测结果和所述表情标签确定总训练损失值；基于各所述初始样本图像的总训练损失值从所述样本图像集中筛选出有效样本图像；基于所筛选出的有效样本图像对所述预训练模型进行训练，得到所述训练后的表情识别模型，服务器102通过表情识别模型识别人脸图像中的表情，再将识别到的表情返回到终端设备101。

可以理解的是，图1表示的是一个示例中的应用场景，并不对本申请的图像处理方法的应用场景进行限定，上述场景中，是终端设备获取人脸图像，由服务器进行人脸表情识别，在其他场景中，服务器102也可以调用其他终端设备或者其他服务器中训练后的表情识别模型进行人脸图像的表情识别；也可以是终端设备101获取人脸图像，并直接进行人脸表情识别，本申请实施例对此不作限定。

本技术领域技术人员可以理解，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、笔记本电脑、数字广播接收器、MID(Mobile Internet Devices，移动互联网设备)、PDA(个人数字助理)、台式计算机、智能家电、车载终端(例如车载导航终端、车载电脑等)、智能音箱、智能手表等，终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，但并不局限于此。具体也可基于实际应用场景需求确定，在此不作限定。

图2为本申请实施例提供的一种图像处理方法的流程示意图。该方法的执行主体可以为计算机设备。如图2所示，该方法可以包括以下步骤：

步骤201，获取待识别表情的人脸图像。

具体的，可以在视频拍摄场景中实时采集人脸图像，也可以是在视频剪辑或者视频包装场景中，从视频中抽取视频帧，从视频帧中获取人脸图像。

步骤202，基于训练后的表情识别模型，识别人脸图像的表情。

在一些实施方式中，表情识别模型可以先提取人脸特征，再对人脸特征进行分类，例如，提取人脸图像的HOG特征，再用线性SVM进行分类；还可以基于CNN提取人脸图像的空间特征，再利用训练后的LSTM进行表情预测。

在一些实施方式中，表情识别模型还可以包括卷积层、激活层、元素相加层、最大池化层、平均池化层、全连接层、注意力通道层和空间注意力层，针对表情识别模型的具体结构，将在下文进行进一步详细阐述。

具体的，如图3所示，训练后的表情识别模型是通过如下方式训练得到的：

步骤S301，获取样本图像集和预训练模型；样本图像集中包括多个初始样本图像；每一初始样本图像设置有表情标签；

步骤S302，基于预训练模型分别对每个初始样本图像进行识别，得到每一初始样本图像的表情预测结果；

步骤S303，针对每一初始样本图像，基于表情预测结果和表情标签确定总训练损失值；

步骤S304，基于各初始样本图像的总训练损失值从样本图像集中筛选出有效样本图像；

步骤S305，基于所筛选出的有效样本图像对预训练模型进行训练，得到训练后的表情识别模型。

具体的，可以先获取多个设置有表情标签的初始样本图像，通过初始样本图像对初始训练模型进行训练，得到预训练模型；由于可能存在一些表情标签不准确的初始样本图像，因此，预训练模型的准确度不太高；通过至少两个预训练模型识别多个设置有表情标签的初始样本图像，以确定每一初始样本图像的总训练损失值，并基于每一初始样本图像的总训练损失值从多个初始样本图像中筛选出有效样本图像。

在具体实施过程中，可以采用有效样本图像对预训练模型进行训练，直至有效样本图像的损失函数收敛，或者直接训练预设次数，可以确定预训练模型的参数，即得到训练模型。

具体的，步骤S305基于所筛选出的有效样本图像对预训练模型进行训练，得到训练后的表情识别模型，可以包括：

在具体实施过程中，可以先利用有效样本图像对至少两个预训练模型进行训练得到至少两个训练模型，再对至少两个训练模型进行测试，得到表情识别模型，选取测试效果更好的训练模型作为表情识别模型，针对获取表情识别模型的过程将在下文进行详细阐述。

在具体实施过程中，表情识别模型可对人脸图像的表情进行预测，输出不同表情的概率值，再通过概率值确定人脸图像的表情，例如，将输出的概率值最大的表情作为预测得到的人脸图像的表情。

以图4所示为例，表情识别模型对人脸图像的表情进行预测，得到笑、嘟嘴、吐舌头、咬嘴唇、眨眼这五种表情的概率值，从中选取概率值最大的表情作为人脸图像的表情，图中所示最大概率值为眨眼，则判定人脸图像的表情为眨眼。

以下将结合附图和实施例进一步阐述表情识别模型的具体获取过程。

在一个可能实现方式中，预训练模型的个数为至少两个；

步骤S302基于预训练模型分别对每个初始样本图像进行识别，得到每一初始样本图像的表情预测结果，可以包括：

步骤S303针对每一初始样本图像，基于表情预测结果和表情标签确定总训练损失值，可以包括：

其中，第一训练损失值可以用于表示表情预测结果和表情标签之间的差异性，第一训练损失值越大，表情预测结果和表情标签之间的差异性越大。

在一些实施方式中，第一训练损失值可以通过表情预测结果和表情标签之间的交叉熵来确定。

在一些实施方式中，可以根据每一表情预测结果和表情标签确定每一预训练模型对应的第一训练损失值，再根据各训练模型的第一训练损失值，确定初始样本图像的总训练损失值。

上述实施例中，通过至少两个预训练模型的第一训练损失值来确定总训练损失值，避免单一的预训练模型预测不准确而导致有效样本图像筛选不准确，可以进一步提高最终得到的预训练模型的准确性。

具体的，还可以根据每一表情预测结果和表情标签确定每一预训练模型对应的第一训练损失值，再根据每两个表情预测结果确定相对损失值，然后确定总损失值，具体确定总训练损失值的过程将在下文进行详细阐述。

在另一些实施方式中，基于至少两个第一训练损失值确定初始样本图像的总训练损失值，可以包括：

确定每两个表情预测结果之间的相对损失值；

将至少两个第一训练损失值以及相对损失值之和确定为总训练损失值。

其中，相对损失值可以用于表示不同表情预测结果之间的差异性。

在具体实施过程中，可以计算不同表情预测结果之间的相对熵来确定相对损失值。

具体的，可以将每一表情预测结果和标准标签之间的交叉熵、每两个表情预测结果之间的相对熵之和设为总训练损失值。

上述实施例中，通过每一初始样本图像的总训练损失值从多个初始样本图像中筛选出有效样本图像，再通过有效样本图像对预训练模型进行训练从而获取表情识别模型，可以有效提高表情识别模型的准确率。

此外，通过至少两个预训练模型来确定总训练损失值，可以有效减少单个预训练模型在训练过程中的误差，提高总训练损失值的可靠性，以筛选出表情标签相对更准确的有效样本图像，从而进一步提高表情识别模型的准确率。

在一个可能实现方式中，步骤S305基于所筛选出的有效样本图像对预训练模型进行训练，以得到训练后的表情识别模型，可以包括：

若第一中间模型不满足训练结束条件，方法还包括：

获取新的样本图像集；

具体的，可以进行多轮筛选不同的有效样本图像，每筛选一轮有效样本图像，即对预训练模型的参数进行调整，即可以对预训练模型进行多轮训练，得到最终的训练模型。

具体的，训练结束条件可以是一轮训练的损失函数达到收敛；也可以是重复训练预设次数，在此不进行具体限定。

在具体实施过程中，可以设置样本集合，样本集合中包括多个初始样本图像，每次抽取一批初始样本图像确定总训练损失值，根据总训练损失值进行筛选，得到这一批初始样本图像中的有效样本图像，根据这一批次中的有效样本图像对预训练模型分别进行训练，然后从样本集合中剩余的初始样本图像中再抽取一批初始样本图像，重复进行确定总训练损失值、筛选有效样本图像、更新预训练模型的步骤，直至样本集合中所有初始样本图像全部筛选完成。

例如，样本集合中包括多个初始样本图像，每次抽取一批初始样本图像确定总训练损失值，根据总训练损失值进行筛选，得到这一批初始样本图像中的有效样本图像，根据这一批次中的有效样本图像对预训练模型分别进行训练，然后从样本集合中剩余的初始样本图像中再抽取一批初始样本图像，重复进行确定总训练损失值、筛选有效样本图像、更新预训练模型的步骤，直至样本集合中所有初始样本图像全部筛选完成。

以下将结合实施例进一步阐述基于总训练损失值从初始样本图像中筛选出有效样本图像的过程。

在一些实施方式中，步骤S404基于每一初始样本图像的总训练损失值，从多个初始样本图像中筛选出有效样本图像，可以包括以下至少一项：

将总训练损失值最小的预设比率的初始样本图像设为有效样本图像。

将总训练损失值小于预设阈值的初始样本图像设为有效样本图像。

具体的，可以根据每一初始样本图像的总训练损失值，依据总训练损失值从大到小的顺序对初始样本图像进行排序，选取总训练损失值最小的预设比率的初始样本图像，例如，可以选取总训练损失值最小的80％的初始样本图像设为有效样本图像。

在另一些实施方式中，若总训练损失值小于预设阈值，则可以判定对应的初始样本图像的表情标签相对更加准确；若总训练损失值大于或等于预设阈值，则可以判定对应的初始样本图像的表情标签可能不准确。

可以理解的是，根据总训练损失值选取出的有效样本图像的表情标签不一定完全准确，只是相对而言标注准确性，因此，采用有效样本图像对预训练模型进行训练所得到的训练模型的准确率相对会提高。

以下将结合示例对本申请的训练过程进行进一步详细阐述。

如图5所示，在一个示例中，对预训练模型进行训练的过程可以包括如下步骤：

首先采用样本集合对两个初始训练模型进行训练，得到两个预训练模型，即图中所示的模型1和模型2；

获取样本集合，即图中所示的所有训练样本；

从样本集合中不放回随机选择初始样本图像，即图中所示的选择一个批次的样本；

将所选取的一个批次的样本分别输入到两个预训练模型，即图中所示的模型1和模型2；

基于初始样本图像的表情标签和模型1输出的第一表情预测结果确定模型1的第一训练损失值，即图中所示的确定模型1与标签之间的交叉熵；

基于初始样本图像的表情标签和模型2输出的第二表情预测结果确定模型2的第二训练损失值，即图中所示的确定模型2与标签之间的交叉熵；

基于第一表情预测结果和第二表情预测结果之间的相对损失值，即图中所示的确定模型1和模型2之间的相对熵；

基于第一训练损失值、第二训练损失值和相对损失值确定总训练损失值，即图中所示的将模型1与标签之间的交叉熵、模型2与标签之间的交叉熵和模型1和模型2之间的相对熵相加得到损失值；

将总训练损失值最小的预设比率的初始样本图像设为有效样本图像，即图中所示的从批次内排序，选出总训练损失值最小的80％的初始样本图像作为有效样本图像；

基于所选取的有效样本图像更新两个预训练模型的参数，即图中所示的选取80％的有效样本图像反向传播来更新模型1和模型2的参数；

若样本集合中还存在未进行训练的初始样本图像，则重复选取初始样本图像、确定总训练损失值、选取有效样本图像、更新预训练模型的步骤，直至样本集合中的所有初始样本图像训练完成；即图中所示的若所有训练样本中还存在剩余未训练的训练样本，则重新从训练样本中选取一个批次的样本、基于模型1和模型2确定损失值、基于损失值从训练样本中选取损失值最小的80％、更新模型1和模型2参数的步骤，直至所有训练样本全部训练完成；

得到最终的训练模型，即图中所示的模型1和模型2。

上述示例中，计了两阶段的训练流程，第一阶段先用常规的训练方式进行预训练得到预训练模型，即模型1和模型2，第二阶段对第一阶段得到的预训练模型用带噪学习的方式再次训练，尽可能降低可能标注错误的初始样本图像对模型的准确度的影响，仅选出前80％最可能为正确标注的样本来对预训练模型进行训练；训练流程会进行多轮，每个初始样本图像都有多次机会被选为正确样本，而错误样本被丢弃的可能性偏大，所以既可以保证训练充分又能可以降低可能标注错误的初始样本图像的影响。

上述实施例和示例阐述了获取训练模型的具体过程，以下将结合实施例进一步阐述表情识别模型具体识别表情的过程以及模型的具体结构。

在一个可能实现方式中，步骤S202基于训练后的表情识别模型，识别人脸图像的表情，可以包括：

通过表情识别模型执行如下操作：

(1)提取人脸图像的人脸特征图，确定人脸特征图注意力权重系数，基于注意力权重系数提取人脸图像的注意力特征图。

在具体实施过程中，可以在特征提取模块中引入注意力机制，通过注意力机制确定注意力权重系数，然后提取人脸图像的注意力特征图，下文将对通过注意力机制提取注意力特征图的过程进行进一步阐述。

(2)对注意力特征图进行分类，得到人脸图像分别对应至少两个候选表情的概率。

具体的，可以将提取到的注意力特征图进行平均值池化，然后通过softmax进行分类，得到至少两个候选表情的概率。

(3)基于人脸图像分别对应至少两个候选表情的概率，确定人脸图像的表情。

在具体实施过程中，可以将概率最大的候选表情设为人脸图像的表情。

以下将结合表情识别模型的结构对上述识别过程进行进一步阐述。

在一个可能实现方式中，表情识别模型可以包括至少一个特征提取模块、平均值池化层、全连接层和softmax分类层。

以图6所示为例，表情识别模型包括四个特征提取模块、平均值池化层、全连接层和softmax分类层，将人脸图像输入到特征提取模型进行特征提取，提取到的特征图像再经过平均值池化层进行平均池化并由softmax进行分类，得到人脸图像中针对不同表情的概率值，从而确定人脸图像中的表情。

上述的特征提取模块中，卷积层通道数设置为常规数量的三分之一，可以提高表情识别模型的实时处理效率。

在一个可能实现方式中，表情识别模型可以包括通道注意力层；

确定人脸特征图的注意力权重系数，基于注意力权重系数提取人脸特征图的注意力特征图，可以包括：

a、确定人脸特征图在通道维度的注意力权重系数；

b、基于人脸特征图和通道维度的注意力权重系数确定注意力特征图。

具体的，表情识别模型的特征提取模块中可以包含有卷积层和激活层；在特征提取模块中可以引入注意力机制，其中，注意力机制(Attention机制)，便是聚焦于局部信息的机制，比如，图像中的某一个图像区域。随着任务的变化，注意力区域往往会发生变化，注意力机制的本质就是定位到感兴趣的信息，抑制无用信息，结果通常都是以概率图或者概率特征向量的形式展示。

在一些实施方式中，可以在特征提取模块中引入通道注意力层，通道注意力层中可以包括最大池化层、平均值池化层、全连接层和元素相加层。

其中，通道注意力层通过建模各个特征通道的重要程度，然后针对不同的任务增强或者抑制不同的通道，通道注意力层的本质，在于建模了各个特征之间的重要性，对于不同的任务可以根据输入进行特征分配。

以图7所示为例，特征提取模块中包括1×1conv卷积层、ReLU6激活层、3×3conv卷积层，人脸图像经过卷积层后得到特征图1，特征图1再输入到通道注意力层中，得到特征图2，确定特征图1和特征图2的内积，得到注意力特征图。

以图8所示为例，通道注意力层可以包括平均池化层、最大池化层、全连接层和元素相加层。

在一个示例中，通道注意力是关注哪个通道上的特征是有意义的，输入的特征图像是H×W×C，先分别进行一个全局平均池化和全局最大池化得到两个1×1×C的特征图,然后将这两个特征图分别送入全连接神经网络，对于这两个特征图，这个全连接神经网络是共享参数的，然后，再将得到的两个特征图相加，然后再通过Sigmoid函数得到0～1之间的权重系数，然后权重系数再与输入的特征图相乘，得到最终输出特征图，即得到注意力特征图。

在一个可能实现方式中，表情识别模型的特征提取模块中可以包括空间注意力层；

基于人脸特征图和通道维度的注意力权重系数确定注意力特征图，可以包括：

a、基于空间注意力层确定人脸特征图在空间维度的注意力权重系数；

b、基于人脸特征图和空间维度的注意力权重系数确定注意力特征图。

在一些实施方式中，可以在特征提取模块中引入空间注意力层，通道注意力层中可以包括最大池化层、平均值池化层和拼接层。

其中，空间注意力层关注空间中哪部分的特征有意义，不是图像中所有的区域对任务的贡献都是同样重要的，只有任务相关的区域才是需要关心的，比如分类任务的主体，空间注意力模型就是寻找网络中最重要的部位进行处理。

在一个可能实现方式中，表情识别模块的特征提取模块中可以包括通道注意力层结合空间注意力层。

b1、基于人脸特征图和通道维度的注意力权重系数确定通道特征图；

b2、基于空间注意力层确定通道特征图在空间维度的注意力权重系数；

b3、将通道特征图和空间维度的注意力权重系数的内积设为注意力特征图。

在一些实施方式中，可以在特征提取模块中引入通道注意力层以及空间注意力层，通道注意力层中可以包括最大池化层、平均值池化层、全连接层和元素相加层；空间注意力层中可以包括最大池化层、平均值池化层、拼接(concat)层。

其中，通道注意力层输出之后，再引入空间注意力层；通道注意力层通过建模各个特征通道的重要程度，然后针对不同的任务增强或者抑制不同的通道，通道注意力层的本质，在于建模了各个特征之间的重要性，对于不同的任务可以根据输入进行特征分配；关注空间中哪部分的特征有意义，不是图像中所有的区域对任务的贡献都是同样重要的，只有任务相关的区域才是需要关心的，比如分类任务的主体，空间注意力模型就是寻找网络中最重要的部位进行处理。

以图9所示为例，特征提取模块中包括1×1conv卷积层、ReLU6激活层、3×3conv卷积层，人脸图像经过卷积层后得到特征图1，特征图1再输入到通道注意力层中，得到特征图2，确定特征图1和特征图2的内积，得到特征图3；将特征图3输入到空间注意力层，得到特征图4；确定特征图3和特征图4的内积，得到注意力特征图。

以图10所示为例，空间注意力层可以包括平均池化层、最大池化层、拼接层和卷积层。

在一个示例中，通道注意力层输出之后，再引入空间注意力层，空间注意力层关注空间中哪部分的特征有意义，输入特征图为H×W×C，分别进行一个通道维度的最大池化和平均池化得到两个H×W×1的特征图，然后将这两个特征图在通道维度拼接起来，现在特征图H×W×2，然后再经过一个卷积层，降为1个通道，同时保持H W不变，输出特征图为H×W×1，然后再通过Sigmoid函数生成空间权重系数，然后再与输入特征图相乘得到最终特征图。

上述的表情识别模型，通过将卷积层通道数设置为常规数量的三分之一，可以提高表情识别模型的实时处理效率，此外可以基于单张照片识别人脸表情，不需要视频的连续帧信息，算法更轻量，易于部署在端上；通过在表情识别模型的每个特征提取模块中引入通道注意力层和空间注意力层，分别学习了通道的重要性和空间的重要性，可以提高表情识别模型的识别准确率。

上述实施例和附图阐述了本申请的表情识别模型的识别过程和具体结构，以下将结合示例阐述本申请的图像处理方法的具体应用场景。

本申请提供的图像处理方法可以应用于视频拍摄场景中。

在一个示例中，图像处理方法，可以包括如下步骤：

在自拍场景中，终端设备拍摄视频；

从视频中获取视频帧图像，当需要引导用户做出特定表情时，发出针对特定表情的提示；

针对每一帧当前视频帧图像，采用预设的表情识别模型对当前视频帧图像进行表情识别；可以在终端设备中设置有表情识别模型，也可以将当前视频帧图像发送至服务器，由服务器利用表情识别模型对当前视频帧图像进行识别，并实时返回表情识别结果到终端设备；

若终端设备识别到当前视频帧图像中用户作出了特定表情，或终端设备接收到服务器返回的表情识别结果判定用户作出了特定表情，则终端定格视频帧图像，生成用户包含特定表情的照片。

本申请提供的图像处理方法可以应用于视频剪辑场景中。

在一个示例中，图像处理方法，可以包括如下步骤：

从待剪辑的视频中获取视频帧图像；

将待剪辑的视频分割为多个视频片段；

针对每一视频片段的每一帧当前视频帧图像，采用预设的表情识别模型对当前视频帧图像进行表情识别；可以在终端设备中设置有表情识别模型，也可以将当前视频帧图像发送至服务器，由服务器利用表情识别模型对当前视频帧图像进行识别，并实时返回表情识别结果到终端设备；

若终端设备识别到当前视频帧图像中用户作出了特定表情，或终端设备接收到服务器返回的表情识别结果判定用户作出了特定表情，则判断该视频片段为重要片段；

将重要片段中识别到用户作出特定表情的视频帧图像进行脸部特写/镜头拉伸等操作，生成剪辑后的视频片段。

在一个示例中，图像处理方法，可以包括如下步骤：

从待包装的视频中获取视频帧图像；

针对视频中每一帧当前视频帧图像，采用预设的表情识别模型对当前视频帧图像进行表情识别；可以在终端设备中设置有表情识别模型，也可以将当前视频帧图像发送至服务器，由服务器利用表情识别模型对当前视频帧图像进行识别，并实时返回表情识别结果到终端设备；

若终端设备识别到当前视频帧图像中用户作出了某一表情，获取针对该表情的包装效果，例如特定的贴纸、特效或者夸张音效；

将获取到的对应的包装效果添加于该当前视频帧图像中，生成包装后的视频。

上述的图像处理方法，通过每一初始样本图像的总训练损失值从多个初始样本图像中筛选出有效样本图像，再通过有效样本图像对预训练模型进行训练从而获取表情识别模型，可以有效提高表情识别模型的准确率。

通过至少两个预训练模型来确定总训练损失值，可以有效减少单个预训练模型在训练过程中的误差，提高总训练损失值的可靠性，以筛选出表情标签相对更准确的有效样本图像，从而进一步提高表情识别模型的准确率；

通过将表情识别模型的卷积层通道数设置为常规数量的三分之一，可以提高表情识别模型的实时处理效率，此外可以基于单张照片识别人脸表情，不需要视频的连续帧信息，算法更轻量，易于部署在端上；

此外，通过在表情识别模型的每个特征提取模块中引入通道注意力层和空间注意力层，分别学习了通道的重要性和空间的重要性，可以提高表情识别模型的识别准确率。

图11为本申请实施例提供的一种图像处理装置的结构示意图。如图11所示，该装置包括：

获取模块110，用于获取待识别表情的人脸图像；

识别模块120，用于基于训练后的表情识别模型，识别人脸图像的表情；

其中，训练后的表情识别模型是由训练模块通过如下方式训练得到的：

若第一中间模型不满足训练结束条件，装置还用于：

获取新的样本图像集；

通过表情识别模型执行以下操作：

在一个可能实现方式中，识别模块120在确定人脸特征图的注意力权重系数，基于注意力权重系数提取人脸特征图的注意力特征图时，具体用于：

确定人脸特征图在通道维度的注意力权重系数；

在一个可能实现方式中，识别模块120在基于人脸特征图和通道维度的注意力权重系数确定注意力特征图时，具体用于：

上述的图像处理装置，通过每一初始样本图像的总训练损失值从多个初始样本图像中筛选出有效样本图像，再通过有效样本图像对预训练模型进行训练从而获取表情识别模型，可以有效提高表情识别模型的准确率。

通过至少两个预训练模型来确定总训练损失值，可以有效减少单个预训练模型在训练过程中的误差，提高总训练损失值的可靠性，以筛选出有效样本图像，从而进一步提高表情识别模型的准确率；

通过将卷积层通道数设置为常规数量的三分之一，可以提高表情识别模型的实时处理效率，此外可以基于单张照片识别人脸表情，不需要视频的连续帧信息，算法更轻量，易于部署在端上；

本实施例的图像处理装置可执行本申请上述实施例所示的图像处理方法，其实现原理相类似，此处不再赘述。

图12是本申请实施例中提供了一种计算机设备的结构示意图。如图12所示，该计算机设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：

通过每一初始样本图像的总训练损失值从多个初始样本图像中筛选出有效样本图像，再通过有效样本图像对预训练模型进行训练从而获取表情识别模型，可以有效提高表情识别模型的准确率。通过至少两个预训练模型来确定总训练损失值，可以有效减少单个预训练模型在训练过程中的误差，提高总训练损失值的可靠性，以筛选出表情标签与真实标签相对更匹配的有效样本图像，从而进一步提高表情识别模型的准确率。通过将卷积层通道数设置为常规数量的三分之一，可以提高表情识别模型的实时处理效率，此外可以基于单张照片识别人脸表情，不需要视频的连续帧信息，算法更轻量，易于部署在端上。通过在表情识别模型的每个特征提取模块中引入通道注意力层和空间注意力层，分别学习了通道的重要性和空间的重要性，可以提高表情识别模型的识别准确率。

在一个可选实施例中提供了一种计算机设备，如图12所示，图12所示的计算机设备1200包括：处理器1201和存储器1203。其中，处理器1201和存储器1203相连，如通过总线1202相连。可选地，计算机设备1200还可以包括收发器1204，收发器1204可以用于该计算机设备与其他计算机设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器1204不限于一个，该计算机设备1200的结构并不构成对本申请实施例的限定。

处理器1201可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1201也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1202可包括一通路，在上述组件之间传送信息。总线1202可以是PCI(Peripheral Component Interconnect，外设部件互连标注)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标注结构)总线等。总线1202可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1203可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器1203用于存储执行本申请方案的应用程序代码(计算机程序)，并由处理器1201来控制执行。处理器1201用于执行存储器1203中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，计算机设备包括但不限于：虚拟化的计算机设备、虚拟机、服务器、服务集群、用户的终端等。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中图像处理方法的相应内容。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的图像处理方法。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，识别模块还可以被描述为“用于识别人脸表情的模块”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待识别表情的人脸图像；

基于训练后的表情识别模型，识别所述人脸图像的表情；

所述训练后的表情识别模型是通过如下方式训练得到的：

获取样本图像集和预训练模型；所述样本图像集中包括多个初始样本图像；每一所述初始样本图像标注有表情标签；

基于所述预训练模型分别对每个初始样本图像进行识别，得到每一初始样本图像的表情预测结果；

针对每一所述初始样本图像，基于所述表情预测结果和所述表情标签确定总训练损失值；

基于各所述初始样本图像的总训练损失值从所述样本图像集中筛选出有效样本图像；

基于所筛选出的有效样本图像对所述预训练模型进行训练，以得到所述训练后的表情识别模型。

2.根据权利要求1所述的图像处理方法，其特征在于，所述预训练模型的个数为至少两个；

所述基于所述预训练模型分别对每个初始样本图像进行识别，得到每一初始样本图像的表情预测结果，包括：

将每个所述初始样本图像分别输入至少两个预训练模型，得到每一所述初始样本图像对应于各个预训练模型的表情预测结果；

针对每一所述初始样本图像，所述基于所述表情预测结果和所述表情标签确定总训练损失值，包括：

基于对应于每一所述预训练模型的所述表情预测结果和所述表情标签，确定对应于每一所述预训练模型的第一训练损失值；

基于对应于各所述训练模型的所述第一训练损失值，确定所述初始样本图像的所述总训练损失值。

3.根据权利要求2所述的图像处理方法，其特征在于，所述基于所筛选出的有效样本图像对所述预训练模型进行训练，得到所述训练后的表情识别模型，包括：

基于所述有效样本图像对所述至少两个预训练模型分别进行训练，得到至少两个训练模型；

通过对所述至少两个训练模型进行测试，从所述至少两个训练模型中确定出所述训练后的表情识别模型。

4.根据权利要求2所述的图像处理方法，其特征在于，所述基于至少两个所述第一训练损失值确定所述初始样本图像的所述总训练损失值，包括：

确定每两个所述表情预测结果之间的相对损失值；

将所述至少两个第一训练损失值以及所述相对损失值之和确定为所述总训练损失值。

5.根据权利要求1所述的图像处理方法，其特征在于，所述基于所筛选出的有效样本图像对所述预训练模型进行训练，以得到所述训练后的表情识别模型，包括：

基于所筛选出的有效样本图像对所述预训练模型进行至少一次训练，得到第一中间模型，若所述第一中间模型满足训练结束条件，则基于所述第一中间模型得到所述训练后的表情识别模型；

若所述第一中间模型不满足所述训练结束条件，所述方法还包括：

将所述训练后所述第一中间模型作为新的预训练模型，通过重复以下操作直至得到的第二中间模型满足所述训练结束条件，基于满足训练结束条件的所述第二中间模型得到所述训练后的表情识别模型：

获取新的样本图像集；

基于所述预训练模型分别对所述新的样本图像集中的每个初始样本图像进行识别，得到每一初始样本图像的表情预测结果；

基于所筛选出的有效样本图像对所述预训练模型进行至少一次训练，得到第二中间模型，若所述第二中间模型不满足所述预设条件，将所述第二中间模型作为新的预训练模型。

6.根据权利要求2所述的图像处理方法，其特征在于，所述基于每一所述初始样本图像的所述总训练损失值，从所述多个初始样本图像中筛选出有效样本图像，包括以下至少一种：

将总训练损失值最小的预设比率的样本图像设为所述有效样本图像；

将总训练损失值小于预设阈值的样本图像设为所述有效样本图像。

7.根据权利要求1所述的图像处理方法，其特征在于，所述基于训练后的表情识别模型，识别所述人脸图像的表情，包括：

通过所述表情识别模型执行以下操作：

提取所述人脸图像的人脸特征图，确定所述人脸特征图的注意力权重系数，基于所述注意力权重系数提取所述人脸特征图的注意力特征图；

对所述注意力特征图进行分类，得到所述人脸图像分别对应至少两个候选表情的概率；

基于所述人脸图像分别对应至少两个候选表情的概率，确定所述人脸图像的表情。

8.根据权利要求7所述的图像处理方法，其特征在于，所述确定所述人脸特征图的注意力权重系数，基于所述注意力权重系数提取所述人脸特征图的注意力特征图，包括：

确定所述人脸特征图在通道维度的注意力权重系数；

基于所述人脸特征图和所述通道维度的注意力权重系数确定所述注意力特征图。

9.根据权利要求8所述的图像处理方法，其特征在于，所述基于所述人脸特征图和所述通道维度的注意力权重系数确定所述注意力特征图，包括：

基于所述人脸特征图和所述通道维度的注意力权重系数确定通道特征图；

基于所述空间注意力层确定所述通道特征图在空间维度的注意力权重系数；

将所述通道特征图和所述空间维度的注意力权重系数的内积确定为所述注意力特征图。

10.一种图像处理装置，其特征在于，所述装置包括：

获取模块，用于获取待识别表情的人脸图像；

识别模块，用于基于训练后的表情识别模型，识别所述人脸图像的表情；

其中，所述训练后的表情识别模型是由训练模块通过如下方式训练得到的：

获取样本图像集和预训练模型；所述样本图像集中包括多个初始样本图像；每一所述初始样本图像设置有表情标签；

11.根据权利要求10所述的图像处理装置，其特征在于，所述预训练模型的个数为至少两个；

所述训练模块在基于所述预训练模型分别对每个初始样本图像进行识别，得到每一初始样本图像的表情预测结果时，具体用于：

针对每一所述初始样本图像，所述训练模块在基于所述表情预测结果和所述表情标签确定总训练损失值时，具体用于：

12.根据权利要求11所述的图像处理装置，其特征在于，所述训练模块在基于所筛选出的有效样本图像对所述预训练模型进行训练，得到所述训练后的表情识别模型时，具体用于：

13.一种计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1至9任一项所述的图像处理方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的图像处理方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的图像处理方法。