CN116206345A

CN116206345A - 表情识别模型训练方法、表情识别方法、相关装置及介质

Info

Publication number: CN116206345A
Application number: CN202211580317.8A
Authority: CN
Inventors: 尹英杰; 丁菁汀; 李亮
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-06-02

Abstract

本说明书实施例公开了一种表情识别模型训练方法、表情识别方法、相关装置及介质。其中，该表情识别模型训练方法包括：获取第一样本数据集和第二样本数据集，上述第一样本数据集包括多张源域有表情标签的第一样本图像，上述第二样本数据集包括多张目标域无表情标签的第二样本图像；基于第一样本数据集确定第一配对样本数据集，上述第一配对样本数据集包括至少一组第一配对样本数据，第一配对样本数据包括第一样本数据集中的至少两张第一样本图像；基于第一样本数据集、第一配对样本数据集以及第二样本数据集训练表情识别模型。

Description

表情识别模型训练方法、表情识别方法、相关装置及介质

技术领域

本说明书涉及计算机技术领域，尤其涉及一种表情识别模型训练方法、表情识别方法、相关装置及介质。

背景技术

人脸表情识别是一种通过静态图像或者视频序列实现对人脸上高兴、吃惊、悲伤、愤怒、厌恶、恐惧、中性等各种表情进行识别的技术，可以使计算机更好地理解人的情绪情感，从而更好地成为智能助手，达到更好的人机交互。

目前，主要先通过人工标注的脸部图像集对表情识别模型进行训练，然后再利用训练好的表情识别模型基于用户的脸部图像实现表情识别。

发明内容

本说明书实施例提供了一种表情识别模型训练方法、表情识别方法、相关装置及介质，通过第一配对样本数据集让表情识别模型进行对比学习训练，提高表情识别模型对模糊的表情类别进行识别地鲁棒性。上述技术方案如下：

第一方面，本说明书实施例提供了一种表情识别模型训练方法，包括：

获取第一样本数据集和第二样本数据集；上述第一样本数据集包括多张源域有表情标签的第一样本图像；上述第二样本数据集包括多张目标域无表情标签的第二样本图像；

基于上述第一样本数据集确定第一配对样本数据集；上述第一配对样本数据集包括至少一组第一配对样本数据；上述第一配对样本数据包括上述第一样本数据集中的至少两张第一样本图像；

基于上述第一样本数据集、上述第一配对样本数据集以及上述第二样本数据集训练表情识别模型。

在一种可能的实现方式中，上述基于上述第一样本数据集、上述第一配对样本数据集以及上述第二样本数据集训练表情识别模型，包括：

基于上述第一配对样本数据集确定表情识别模型的第一损失；

基于上述第一样本数据集和上述第二样本数据集确定上述表情识别模型的第二损失；

基于上述第一损失和上述第二损失训练上述表情识别模型。

在一种可能的实现方式中，上述表情识别模型包括主干网络、不确定度提取网络以及表情特征生成网络；

上述基于上述第一配对样本数据集确定表情识别模型的第一损失，包括：

利用上述主干网络提取上述第一配对样本数据中各第一样本图像的第一特征；

将上述第一配对样本数据中各第一样本图像的第一特征输入上述不确定度提取网络中，输出上述第一配对样本数据中各第一样本图像对应的不确定度向量；

将上述第一配对样本数据中各第一样本图像的第一特征输入上述表情特征生成网络中，输出上述第一配对样本数据中各第一样本图像对应的第一表情特征向量；

将上述不确定度向量与上述第一表情特征向量进行融合，得到上述第一配对样本数据对应的混合特征；

基于上述第一配对样本数据集中各第一配对样本数据对应的混合特征确定上述表情识别模型的第一损失。

在一种可能的实现方式中，上述基于上述第一配对样本数据集中各第一配对样本数据对应的混合特征确定上述表情识别模型的第一损失，包括：

基于上述第一配对样本数据集中各第一配对样本数据对应的混合特征预测上述第一配对样本数据集中各第一配对样本数据对应的混合表情概率；

基于上述混合表情概率以及上述第一配对样本数据中各第一样本图像对应的表情标签确定上述表情识别模型的第一损失。

在一种可能的实现方式中，上述基于上述第一样本数据集和上述第二样本数据集确定上述表情识别模型的第二损失，包括：

基于上述第一样本数据集确定上述表情识别模型的目标阈值集；

基于上述目标阈值集以及上述第二样本数据集确定上述表情识别模型的第二损失。

在一种可能的实现方式中，上述基于上述第一样本数据集确定上述表情识别模型的目标阈值集，包括：

利用上述主干网络提取上述第一样本数据集中各第一样本图像的第一特征；

将上述第一样本数据集中各第一样本图像的第一特征输入上述表情特征生成网络中，输出上述第一样本数据集中各第一样本图像对应的第一表情特征向量；

基于上述第一样本数据集中各第一样本图像对应的第一表情特征向量预测上述第一样本数据集中各第一样本图像对应的第一表情识别结果；

基于上述第一样本数据集中各第一样本图像对应的第一表情识别结果以及上述表情标签确定上述表情识别模型的目标阈值集。

在一种可能的实现方式中，上述基于上述目标阈值集以及上述第二样本数据集确定上述表情识别模型的第二损失，包括：

利用上述主干网络提取上述第二样本数据集中各第二样本图像的第二特征；

将上述第二样本数据集中各第二样本图像的第二特征输入上述表情特征生成网络中，输出上述第二样本数据集中各第二样本图像对应的第二表情特征向量；

基于上述第二样本数据集中各第二样本图像对应的第二表情特征向量预测上述第二样本数据集中各第二样本图像对应的第二表情识别结果；

基于上述表情识别模型的目标阈值集以及上述第二样本数据集中各第二样本图像对应的第二表情识别结果对上述第二样本数据集中的第二样本图像进行标注，得到上述目标域的样本训练数据集；

基于上述样本训练数据集确定上述表情识别模型的第二损失。

在一种可能的实现方式中，上述第二表情识别结果包括上述第二样本图像对应各表情类别的分类概率；上述目标阈值集包括至少一个表情类别对应的目标阈值；

上述基于上述表情识别模型的目标阈值集以及上述第二样本数据集中各第二样本图像对应的第二表情识别结果对上述第二样本数据集中的第二样本图像进行标注，得到上述目标域的样本训练数据集，包括：

基于上述第二样本数据集中各第二样本图像对应的第二表情识别结果以及上述目标阈值集确定上述第二样本数据集中的目标第二样本图像；上述目标第二样本图像用于表征最大分类概率大于上述最大分类概率对应表情类别的目标阈值的上述第二表情识别结果对应的第二样本图像；

基于上述第二样本数据集中的目标第二样本图像的最大分类概率对应的表情类别对上述第二样本数据集中的目标第二样本图像进行标注，得到上述目标域的样本训练数据集。

将上述第二样本数据集中的第二样本图像进行第一变换，得到第一变换样本集；

将上述第二样本数据集中的第二样本图像进行第二变换，得到第二变换样本集；上述第二变换对上述第二样本图像的改变幅度大于上述第一变换对上述第二样本图像的改变幅度；

基于上述表情识别模型的目标阈值集以及上述第一变换样本集对上述第二变换样本集中第二变换后的第二样本图像进行标注，得到上述目标域的样本训练数据集；

在一种可能的实现方式中，上述第一变换包括旋转变换、平移变换、图像翻转变换、仿射变换中的至少一种；上述第二变换包括图像区域随机擦除变换。

第二方面，本说明书实施例提供了一种表情识别方法，包括：

获取目标用户的目标脸部图像；

将上述目标脸部图像输入表情识别模型，输出上述目标用户对应的目标表情识别结果；上述表情识别模型基于本说明书实施例第一方面或第一方面的任意一种可能的实现方式提供的表情识别模型训练方法进行训练得到。

第三方面，本说明书实施例提供了一种表情识别模型训练装置，上述表情识别模型训练装置包括：

获取模块，用于获取第一样本数据集和第二样本数据集；上述第一样本数据集包括多张源域有表情标签的第一样本图像；上述第二样本数据集包括多张目标域无表情标签的第二样本图像；

确定模块，用于基于上述第一样本数据集确定第一配对样本数据集；上述第一配对样本数据集包括至少一组第一配对样本数据；上述第一配对样本数据包括上述第一样本数据集中的至少两张第一样本图像；

训练模块，用于基于上述第一样本数据集、上述第一配对样本数据集以及上述第二样本数据集训练表情识别模型。

在一种可能的实现方式中，上述训练模块包括：

第一确定单元，用于基于上述第一配对样本数据集确定表情识别模型的第一损失；

第二确定单元，用于基于上述第一样本数据集和上述第二样本数据集确定上述表情识别模型的第二损失；

训练单元，用于基于上述第一损失和上述第二损失训练上述表情识别模型。

上述第一确定单元包括：

第一特征提取子单元，用于利用上述主干网络提取上述第一配对样本数据中各第一样本图像的第一特征；

不确定度提取子单元，用于将上述第一配对样本数据中各第一样本图像的第一特征输入上述不确定度提取网络中，输出上述第一配对样本数据中各第一样本图像对应的不确定度向量；

第一表情特征提取子单元，用于将上述第一配对样本数据中各第一样本图像的第一特征输入上述表情特征生成网络中，输出上述第一配对样本数据中各第一样本图像对应的第一表情特征向量；

融合子单元，用于将上述不确定度向量与上述第一表情特征向量进行融合，得到上述第一配对样本数据对应的混合特征；

第一确定子单元，用于基于上述第一配对样本数据集中各第一配对样本数据对应的混合特征确定上述表情识别模型的第一损失。

在一种可能的实现方式中，上述确定子单元具体用于：

基于上述第一配对样本数据集中各第一配对样本数据对应的混合特征预测上述第一配对样本数据集中各第一配对样本数据对应的混合表情概率；基于上述混合表情概率以及上述第一配对样本数据中各第一样本图像对应的表情标签确定上述表情识别模型的第一损失。

在一种可能的实现方式中，上述第二确定单元包括：

第二确定子单元，用于基于上述第一样本数据集确定上述表情识别模型的目标阈值集；

第三确定子单元，用于基于上述目标阈值集以及上述第二样本数据集确定上述表情识别模型的第二损失。

在一种可能的实现方式中，上述第二确定子单元具体用于：

利用上述主干网络提取上述第一样本数据集中各第一样本图像的第一特征；将上述第一样本数据集中各第一样本图像的第一特征输入上述表情特征生成网络中，输出上述第一样本数据集中各第一样本图像对应的第一表情特征向量；基于上述第一样本数据集中各第一样本图像对应的第一表情特征向量预测上述第一样本数据集中各第一样本图像对应的第一表情识别结果；基于上述第一样本数据集中各第一样本图像对应的第一表情识别结果以及上述表情标签确定上述表情识别模型的目标阈值集。

在一种可能的实现方式中，上述第三确定子单元具体用于：

利用上述主干网络提取上述第二样本数据集中各第二样本图像的第二特征；将上述第二样本数据集中各第二样本图像的第二特征输入上述表情特征生成网络中，输出上述第二样本数据集中各第二样本图像对应的第二表情特征向量；基于上述第二样本数据集中各第二样本图像对应的第二表情特征向量预测上述第二样本数据集中各第二样本图像对应的第二表情识别结果；基于上述表情识别模型的目标阈值集以及上述第二样本数据集中各第二样本图像对应的第二表情识别结果对上述第二样本数据集中的第二样本图像进行标注，得到上述目标域的样本训练数据集；基于上述样本训练数据集确定上述表情识别模型的第二损失。

上述第三确定子单元用于基于上述表情识别模型的目标阈值集以及上述第二样本数据集中各第二样本图像对应的第二表情识别结果对上述第二样本数据集中的第二样本图像进行标注，得到上述目标域的样本训练数据集时，具体用于：

基于上述第二样本数据集中各第二样本图像对应的第二表情识别结果以及上述目标阈值集确定上述第二样本数据集中的目标第二样本图像；上述目标第二样本图像用于表征最大分类概率大于上述最大分类概率对应表情类别的目标阈值的上述第二表情识别结果对应的第二样本图像；基于上述第二样本数据集中的目标第二样本图像的最大分类概率对应的表情类别对上述第二样本数据集中的目标第二样本图像进行标注，得到上述目标域的样本训练数据集。

在一种可能的实现方式中，上述第三确定子单元具体用于：

将上述第二样本数据集中的第二样本图像进行第一变换，得到第一变换样本集；将上述第二样本数据集中的第二样本图像进行第二变换，得到第二变换样本集；上述第二变换对上述第二样本图像的改变幅度大于上述第一变换对上述第二样本图像的改变幅度；基于上述表情识别模型的目标阈值集以及上述第一变换样本集对上述第二变换样本集中第二变换后的第二样本图像进行标注，得到上述目标域的样本训练数据集；基于上述样本训练数据集确定上述表情识别模型的第二损失。

第四方面，本说明书实施例提供了一种表情识别装置，上述表情识别装置包括：

获取模块，用于获取目标用户的目标脸部图像。

表情识别模块，用于将上述目标脸部图像输入表情识别模型，输出上述目标用户对应的目标表情识别结果；上述表情识别模型基于本说明书实施例第一方面或第一方面的任意一种可能的实现方式提供的表情识别模型训练方法进行训练得到。

第五方面，本说明书实施例提供了一种电子设备，包括：处理器以及存储器；

上述处理器与上述存储器相连；

上述存储器，用于存储可执行程序代码；

上述处理器通过读取上述存储器中存储的可执行程序代码来运行与上述可执行程序代码对应的程序，以用于执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式或第二方面或第二方面的任意一种可能的实现方式提供的方法。

第六方面，本说明书实施例提供了一种计算机存储介质，上述计算机存储介质存储有多条指令，上述指令适于由处理器加载并执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式或第二方面或第二方面的任意一种可能的实现方式提供的方法。

第七方面，本说明书实施例提供了一种包含指令的计算机程序产品，当上述计算机程序产品在计算机或处理器上运行时，使得上述计算机或上述处理器执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式或第二方面或第二方面的任意一种可能的实现方式提供的方法。

本说明书实施例先获取第一样本数据集和第二样本数据集，第一样本数据集包括多张源域有表情标签的第一样本图像，第二样本数据集包括多张目标域无表情标签的第二样本图像；然后基于第一样本数据集确定第一配对样本数据集，第一配对样本数据集包括至少一组第一配对样本数据，第一配对样本数据包括第一样本数据集中的至少两张第一样本图像；最后基于第一样本数据集、第一配对样本数据集以及第二样本数据集训练表情识别模型。一方面，本说明书实施例通过用包括至少两张第一样本图像的第一配对样本数据对表情识别模型中的网络进行对比学习训练，让表情识别模型能够直观地学习到不同第一样本图像之间的差异，避免由于不同表情标签的第一样本图像中表情特征相似而导致表情识别模型学习不清晰明确或错误学习的情况，增强表情识别模型的训练效果，从而增强表情识别模型对模糊的表情类别进行识别地鲁棒性，提高表情识别模型的准确率；另一方面，本说明书实施例还通过源域有表情标签的第一样本数据集和目标域无表情标签的第二样本数据集对表情识别模型进行半监督样本挖掘训练，既避免目标域下有表情标签的样本太少或标注数据耗时太长导致短时间内无法高效准确地实现目标域下表情识别的情况，解决了在训练表情识别模型时目标域的冷启动问题，又增强了表情识别模型的域泛化能力。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为相关技术中提供的一种表情识别模型训练方法的实现过程示意图；

图2为本说明书一示例性实施例提供的一种表情识别模型训练方法以及表情识别方法的实施环境示意图；

图3为本说明书一示例性实施例提供的一种表情识别模型训练方法的流程示意图；

图4为本说明书一示例性实施例提供的一种表情识别模型训练方法的具体实现流程示意图；

图5为本说明书一示例性实施例提供的一种表情识别模型训练方法的实现过程示意图；

图6为本说明书一示例性实施例提供的一种确定表情识别模型的第二损失的实现流程示意图；

图7为本说明书一示例性实施例提供的一种确定目标域的样本训练数据集的实现过程示意图；

图8为本说明书一示例性实施例提供的一种确定表情识别模型的第二损失的具体实现流程示意图；

图9为本说明书一示例性实施例提供的另一种确定目标域的样本训练数据集的实现过程示意图；

图10为本说明书一示例性实施例提供的另一种表情识别模型训练方法的实现过程示意图；

图11为本说明书一示例性实施例提供的一种表情识别方法的流程示意图；

图12为本说明书一示例性实施例提供的一种表情识别模型训练装置的结构示意图；

图13为本说明书一示例性实施例提供的一种表情识别装置的结构示意图；

图14为本说明书一示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述。

本说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

需要说明的是，本说明书实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本说明书中涉及的脸部图像、样本图像等都是在充分授权的情况下获取的。

在相关技术中，如图1所示，当使用源域有表情标签的第一样本集训练完表情识别模型之后，若表情识别的应用场景发生变化，为了确保表情识别模型的准确性，则需要先对变化后的应用场景对应目标域无表情标签的第二样本集中的第二样本图像进行人工标注，然后再用标注后的第二样本集再次训练上述表情识别模型，即不同域需要对应域的标注样本集训练表情识别模型，才能确保表情识别模型在各个域进行表情识别的准确性。因此，相关技术中的表情识别模型的域泛化能力较差，当需要在一个有表情标签的样本太少或没有表情标签的样本的目标域进行表情识别时，人工标注数据的耗时会很长，从而将会导致短时间内无法高效准确地实现目标域下的表情识别。同时，通过相关技术中的训练方式训练得到的表情识别模型也很难实现对图像中模糊的表情类别进行准确地识别。

接下来请参考图2，图2为本说明书一示例性实施例提供的一种表情识别模型训练方法以及表情识别方法的实施环境示意图。如图1所示，该实施环境包括图像采集设备210和服务器220。其中：

图像采集设备210可以是安装有用户版软件和摄像头的手机、平板电脑、笔记本电脑等设备，也可以是相机或安装有摄像头的其它设备等，本说明书实施例对此不作限定。

可选地，当想要在目标域进行表情识别时，可以先通过图像采集设备210采集目标域的第二样本数据集，第二样本数据集包括多张目标域无表情标签的第二样本图像。同时，图像采集设备210还可以通过网络获取获取第一样本数据集，第一样本数据集包括多张源域有表情标签的第一样本图像。在获取到上述第一样本数据集和第二样本数据集之后，图像采集设备210可以通过本说明书实施例提供的表情识别模型训练方法训练表情识别模型。在训练好表情识别模型之后，图像采集设备210还可以采集目标用户的目标脸部图像，然后再通过本说明书实施例提供的表情识别方法得到该目标用户对应的目标表情识别结果。

可选地，在通过图像采集设备210采集目标域的第二样本数据集以及目标用户的目标脸部图像等数据之后，图像采集设备210也可以建立与网络之间的数据关系，并通过该网络和服务器220建立数据连接关系，例如发送目标域的第二样本数据集、目标用户的目标脸部图像等数据，接收服务器220基于第二样本数据集训练得到的表情识别模型、基于目标用户的目标脸部图像进行表情识别后得到的目标表情识别结果等。

服务器220可以是能提供多种表情识别模型训练的服务器，可以先通过网络接收图像采集设备210或其它设备发送的第一样本数据集、第二样本数据集等数据，然后通过本说明书实施例提供的表情识别模型训练方法训练表情识别模型。服务器220也可以是能提供多种表情识别的服务器，可以通过网络接收图像采集设备210或其它设备发送的目标用户的目标脸部图像等数据，在训练完表情识别模型之后，可以通过本说明书实施例提供的表情识别方法得到该目标用户对应的目标表情识别结果。

具体地，服务器220可以但不限于是硬件服务器、虚拟服务器、云服务器等。

网络可以是在服务器220和任意一个图像采集设备210之间提供通信链路的介质，也可以是包含网络设备和传输介质的互联网，不限于此。传输介质可以是有线链路，例如但不限于，同轴电缆、光纤和数字用户线路(digital subscriber line，DSL)等，或无线链路，例如但不限于，无线上网(wireless fidelity，WIFI)、蓝牙和移动设备网络等。

可以理解地，图2所示的实施环境中的图像采集设备210和服务器220的数目仅作为示例，在具体实现中，该实施环境中可以包含任意数目的图像采集设备和服务器。本说明书实施例对此不作具体限定。例如但不限于，图像采集设备210可以是多个图像采集设备组成的图像采集设备集群，服务器220可以是多个服务器组成的服务器集群。

为了解决上述相关技术中的问题，接下来结合图2，以服务器220执行表情识别模型训练为例，介绍本说明书实施例提供的表情识别模型训练方法。具体请参考图3，其为本说明书一示例性实施例提供的一种表情识别模型训练方法的流程示意图。如图3所示，该表情识别模型训练方法包括以下几个步骤：

S302，获取第一样本数据集和第二样本数据集，第一样本数据集包括多张源域有表情标签的第一样本图像，第二样本数据集包括多张目标域无表情标签的第二样本图像。

具体地，上述第一样本图像可以包括但不限于源域有用户进行刷脸或表情识别时的脸部图像，上述第二样本图像可以包括但不限于目标域有用户进行刷脸或表情识别时的脸部图像。上述源域用于表征第一样本数据集所在的领域或应用场景，上述目标域可以用于表征第二样本数据集所在的领域或应用场景。上述第一样本数据集和第二样本数据集可以是不同领域的数据，也可以是同一领域不同时间段的数据等，本说明书实施例对此不作限定。上述表情标签可以包括但不限于高兴、吃惊、悲伤、愤怒、厌恶、恐惧、中性等表情类别对应的表情标签。为了便于标注和训练，上述表情标签可以用数字或字母等字符表示表情类别，例如但不限于用表情标签1表示表情类别“高兴”、表情标签2表示表情类别“吃惊”等。

S304，基于第一样本数据集确定第一配对样本数据集，第一配对样本数据集包括至少一组第一配对样本数据，第一配对样本数据包括第一样本数据集中的至少两张第一样本图像。

具体地，在获取到第一样本数据集之后，可以将第一样本数据集中的多张第一样本图像进行随机配对，从而得到包括至少一组第一配对样本数据的第一配对样本数据集。上述随机配对可以是上述多张第一样本图像进行两两配对、或每三张第一样本图像进行配对等，本说明书实施例对此不作限定。

S306，基于第一样本数据集、第一配对样本数据集以及第二样本数据集训练表情识别模型。

具体地，如图4所示，上述S306中训练表情识别模型的具体实现流程可以包括以下几个步骤：

S402，基于第一配对样本数据集确定表情识别模型的第一损失。

具体地，如图5所示，表情识别模型包括主干网络、不确定度提取网络以及表情特征生成网络。在确定第一配对样本数据集之后，可以先利用表情识别模型的主干网络提取第一配对样本数据中各第一样本图像的第一特征，然后将第一配对样本数据中各第一样本图像的第一特征输入不确定度提取网络中，输出第一配对样本数据中各第一样本图像对应的不确定度向量，以及将第一配对样本数据中各第一样本图像的第一特征输入表情特征生成网络中，输出第一配对样本数据中各第一样本图像对应的第一表情特征向量。上述主干网路可以是常用的识别网络，例如resnet、ShuffleNetV2等，本说明书实施例对此不作限定。在得到第一配对样本数据中各第一样本图像的不确定度向量以及第一表情特征向量之后，可以将上述不确定度向量以及第一表情特征向量进行融合，得到第一配对样本数据对应的混合特征，最后基于第一配对样本数据集中各第一配对样本数据对应的混合特征确定表情识别模型的第一损失，从而既可以通过表情识别模型的不确定度提取网络对第一配对样本数据中模糊的表情类别进行鲁棒性地对比学习判断，确保表情识别模型的鲁棒性，又可以通过表情识别模型的表情特征生成网络对各第一样本图像中的表情特征进行学习，确保表情识别模型的准确性。

进一步地，在基于第一配对样本数据集中各第一配对样本数据对应的混合特征确定表情识别模型的第一损失时，如图5所示，可以先基于第一配对样本数据集中各第一配对样本数据对应的混合特征预测第一配对样本数据集中各第一配对样本数据对应的混合表情概率，然后再基于上述混合表情概率以及第一配对样本数据中各第一样本图像对应的表情标签确定表情识别模型的第一损失。

示例性地，如图5所示，若第一配对样本数据中第一样本图像i对应的不确定度向量为δ_i，其对应的第一表情特征向量为

第一配对样本数据中与第一样本图像i配对的第一样本图像j对应的不确定度向量为δ_j，其对应的第一表情特征向量为/>

则可以计算得到该第一配对样本数据对应的混合特征/>

其中，

1≤i≤N，1≤j≤N且j≠i，Mean用于对括号中的向量进行标量化，即将向量/>

和/>

的各个维度平均化，变成一个标量。在得到第一配对样本数据集中各第一配对样本数据对应的混合特征U_ij之后，可以直接根据上述混合特征/>

计算表情识别模型的第一损失/>

其中，N为大于或等于2的整数，用于表征第一样本图像的总数；y_i为第一样本图像i对应的表情标签(表情类别)；/>

为表情标签y_i对应的权重向量，/>

为基于混合特征预测的表情标签y_i对应的混合表情概率；/>

为表情标签y_j对应的权重向量，/>

为基于混合特征预测的表情标签y_j对应的混合表情概率；C为包括表情识别模型识别的所有表情类别的集合；c为表情识别模型预测的表情类别；W_c为表情识别模型预测表情类别c对应的分类概率时对应的权重向量。上述第一损失L₁中的权重向量可以随着表情识别模型的训练不断进行更新。

接下来请继续参考图4，如图4所示，上述S306中训练表情识别模型的实现流程还包括：

S404，基于第一样本数据集和第二样本数据集确定表情识别模型的第二损失。

可以理解地，上述S402和S404可以同步执行，也可以先后执行，本说明书实施例对此不作限定。

具体地，如图6所示，上述S404中确定表情识别模型的第二损失的实现流程可以包括以下几个步骤：

S602，基于第一样本数据集确定表情识别模型的目标阈值集。

具体地，上述目标阈值集包括至少一个表情类别对应的目标阈值。上述至少一个表情类别中各表情类别对应的目标阈值可以相同，也可以不同，本说明书实施例对此不作限定。如图5所示，在获取到第一样本数据集之后，还可以利用主干网络提取第一样本数据集中各第一样本图像的第一特征，然后将第一样本数据集中各第一样本图像的第一特征输入表情特征生成网络中，输出第一样本数据集中各第一样本图像对应的第一表情特征向量，并基于第一样本数据集中各第一样本图像对应的第一表情特征向量预测第一样本数据集中各第一样本图像对应的第一表情识别结果，最后基于第一样本数据集中各第一样本图像对应的第一表情识别结果以及表情标签确定表情识别模型的目标阈值集。

进一步地，上述目标阈值集中目标阈值的数量即表情类别的种类与第一样本数据集中表情标签的种类对应。上述第一样本数据集中各第一样本图像对应的第一表情识别结果包括各第一样本图像中用户对应的至少一个表情类别的分类概率。上述第一表情识别结果中的表情类别的数量与第一样本数据集中表情标签的种类对应。在得到第一样本数据集中各第一样本图像对应的第一表情识别结果之后，可以先基于第一样本数据集中各第一样本图像对应的第一表情识别结果计算目标分类概率均值集，然后再基于目标分类概率均值集确定目标阈值集。上述目标分类概率均值集包括第一样本数据集中各类表情标签对应的第一样本图像之间的目标分类概率均值，上述目标分类概率均值与第一样本图像的表情标签对应的表情类别对应。即在得到第一样本数据集中各第一样本图像对应的第一表情识别结果之后，可以先计算出第一样本数据集中同一表情标签的第一样本图像的第一表情识别结果中该表情标签对应表情类别的分类概率的均值，从而得到目标分类概率均值集。然后可以直接将上述目标分类概率均值集中各表情类别对应的目标分类概率均值分别确定为表情识别模型在下一次进行表情识别时对应各表情类别的目标阈值，从而可以通过根据源域的第一样本数据集确定的各表情类别的目标阈值实现对目标域的第二样本数据集中第二样本图像进行标注，使得表情识别模型可以自动得到目标域有表情标签的样本数据集，既解决了数据的冷启动问题，提高了表情识别模型能够被应用于目标域的效率，又增强了表情识别模型的域泛化能力，实现表情识别模型的自主跨域学习。

可选地，为了避免表情识别模型训练初期由于性能较差，识别时第一样本图像的实际表情标签对应表情类别的分类概率值较低，即表情识别模型的准确率较低，而导致确定的各表情类别的目标阈值过低影响目标域的第二样本图像标注的准确率问题，在得到第一样本数据集中各第一样本图像对应的第一表情识别结果之后，也可以基于第一样本数据集中各第一样本图像对应的第一表情识别结果以及预设阈值集确定目标阈值集，即先基于第一样本数据集中各第一样本图像对应的第一表情识别结果计算目标分类概率均值集，然后再基于目标分类概率均值集以及上述预设阈值集确定目标阈值集。上述预设阈值集包括上述至少一个表情类别对应的预设阈值。本说明书实施例中，可以是上述至少一个表情类别分别设定有不同的预设阈值，也可以是各表情类别设定同一个预设阈值，本说明书实施例对此不作限定。上述基于目标分类概率均值集以及上述预设阈值集确定目标阈值集可以是将各表情类别的目标分类概率均值与预设阈值进行比较，若该表情类别的目标分类概率均值大于或等于预设阈值，则将该目标分类概率均值确定为该表情类别对应的目标阈值；若该表情类别的目标分类概率均值小于预设阈值，则将该预设阈值确定为该表情类别对应的目标阈值，从而通过预先设定各表情类别对应的预设阈值在一定程度上控制目标域无表情标签的第二样本图像的标注质量，只有当目标分类概率均值大于或等于其对应表情类别的预设阈值时，才会将该目标分类概率均值确定为对应的目标阈值来挖掘第二样本数据集中的能够进行标注的第二样本图像，避免目标域第二样本图像的标注准确率较低而影响表情识别模型的训练效果的情况，确保表情识别模型进行跨域学习的效果。

S604，基于目标阈值集以及第二样本数据集确定表情识别模型的第二损失。

可选地，如图5所示，在获取到第二样本数据集以及确定表情识别模型的目标阈值集之后，可以先利用主干网络提取第二样本数据集中各第二样本图像的第二特征，并将第二样本数据集中各第二样本图像的第二特征输入表情特征生成网络中，输出第二样本数据集中各第二样本图像对应的第二表情特征向量，然后基于第二样本数据集中各第二样本图像对应的第二表情特征向量预测第二样本数据集中各第二样本图像对应的第二表情识别结果，最后基于表情识别模型的目标阈值集以及第二样本数据集中各第二样本图像对应的第二表情识别结果对第二样本数据集中的第二样本图像进行标注，得到目标域的样本训练数据集，从而可以基于样本训练数据集确定表情识别模型的第二损失。

进一步地，上述第二表情识别结果包括第二样本图像对应各表情类别的分类概率，上述目标阈值集包括至少一个表情类别对应的目标阈值。在基于表情识别模型的目标阈值集以及第二样本数据集中各第二样本图像对应的第二表情识别结果对第二样本数据集中的第二样本图像进行标注，得到目标域的样本训练数据集时，可以先基于第二样本数据集中各第二样本图像对应的第二表情识别结果以及目标阈值集确定第二样本数据集中的目标第二样本图像，然后再基于第二样本数据集中的目标第二样本图像的最大分类概率对应的表情类别对第二样本数据集中的目标第二样本图像进行标注，得到目标域的样本训练数据集。上述目标第二样本图像用于表征最大分类概率大于该最大分类概率对应表情类别的目标阈值的第二表情识别结果对应的第二样本图像。

即在确定各表情类别对应的目标阈值即目标阈值集以及第二样本数据集中各第二样本图像对应的第二表情识别结果之后，可以先确定第二样本图像对应的第二表情识别结果中最大分类概率，然后将该最大分类概率与其表情类别对应的目标阈值进行比较，最后再第二样本数据集中最大分类概率大于其对应表情类别的目标阈值的第二样本图像确定为目标第二样本图像，从而通过上述过程筛选出第二样本数据集中能够保障标注质量的目标第二样本图像，避免直接用第二表情识别结果中最大分类概率对应的表情类别对所有第二样本图像进行标注导致目标域有表情标签的样本训练数据集标注质量不佳，从而影响表情识别模型的跨域学习和训练效果等问题。

进一步地，在确定出第二样本数据集中能够进行标注的目标第二样本图像之后，可以直接将该目标第二样本图像的第二表情识别结果中最大分类概率对应表情类别的表情标签标注为该目标第二样本图像的表情标签，从而无需人工对目标域的第二样本图像进行打标，就可以通过域自适应半监督学习的方式自动得到目标域有表情标签的样本训练数据集，减小了表情识别模型训练过程中人力资源的消耗，解决了表情识别模型在目标域的训练冷启动问题，提高了表情识别模型的训练效率。

示例性地，如图7所示，若第二样本数据集包括目标域无表情标签的第二样本图像A、第二样本图像B和第二样本图像C，且上述第二样本数据集中各第二样本图像对应的第二表情识别结果包括如图7所示的各表情类别(对应表情标签)的分类概率，则可以将各第二样本图像对应的表情类别1(对应表情标签1)的分类概率与表情类别1(对应表情标签1)对应的目标阈值710进行比较，将各第二样本图像对应的表情类别2(对应表情标签2)的分类概率与表情类别2(对应表情标签2)对应的目标阈值720进行比较，然后将表情类别1(对应表情标签1)的分类概率大于目标阈值710的第二样本图像B标注表情标签1，将表情类别2(对应表情标签2)的分类概率大于目标阈值720的第二样本图像C标注表情标签2，从而得到目标域的样本训练数据集，上述样本训练数据集包括目标域有表情标签1的第二样本图像B以及有表情标签2的第二样本图像C。

示例性地，在得到目标域的样本训练数据集之后，可以将上述样本训练数据集输入表情识别模型中，通过图5所示的表情识别模型的主干网络和表情特征生成网络得到上述样本训练数据集中各有表情标签的第二样本图像k的表情特征

然后直接根据上述第二样本图像k的表情特征/>

以及该第二样本图像k对应的表情标签/>

计算表情识别模型的第二损失/>

其中，/>

为表情标签/>

对应的权重向量，/>

为基于第二样本图像k的表情特征/>

预测的表情标签/>

对应的表情分类概率；K为大于或等于1且小于或等于N的整数，用于表征样本训练数据集中包括的有表情标签的第二样本图像的总数。

可选地，在确定目标阈值集之后，除了可以通过图7所示的方式，基于表情识别模型的目标阈值集以及第二样本数据集中各第二样本图像对应的第二表情识别结果对第二样本数据集中的第二样本图像进行标注，得到目标域的样本训练数据集，并基于样本训练数据集确定表情识别模型的第二损失之外，为了增强目标域中样本训练数据集的多样性，还可以先对第二样本数据集中的第二样本图像进行变换，然后再基于基于表情识别模型的目标阈值集对第二样本数据集中变换后的第二样本图像进行标注，得到样本训练数据集，最后再基于上述样本训练数据集确定表情识别模型的第二损失。具体如图8所示，上述S604，基于目标阈值集以及第二样本数据集确定表情识别模型的第二损失的实现流程可以包括以下几个步骤：

S802，将第二样本数据集中的第二样本图像进行第一变换，得到第一变换样本集。

具体地，上述第一变换可以称之为弱变换，可以但不限于包括旋转变换、平移变换、图像翻转变换、仿射变换中的至少一种。即上述第一变换样本集包括第二样本数据集中多张目标域无表情标签的第二样本图像经过第一变换后分别得到的多张目标域无表情标签的第一变换样本图像。上述第一变换样本集的数量可以包括一个或多个，即可以将第二样本数据集中的第二样本图像进行多种不同的第一变换，从而得到对应多个第一变换样本集。

示例性地，在获取到第二样本数据集之后，可以先对第二样本数据集中各第二样本图像进行旋转变换，然后对第二样本数据集中旋转变换后的各第二样本图像进行仿射变换，从而得到第一个第一变换样本集。同时，在获取到第二样本数据集之后，还先可以对第二样本数据集中各第二样本图像进行平移变换，然后对第二样本数据集中平移变换后的各第二样本图像进行图像翻转变换，从而得到第二个第一变换样本集。

S804，将第二样本数据集中的第二样本图像进行第二变换，得到第二变换样本集。

具体地，上述第二变换可以称之为强变换，可以但不限于包括图像区域随机擦除变换，或者图像区域随机擦除变换与旋转变换、平移变换、图像翻转变换、仿射变换等弱变换中的至少一种的组合。即上述第二变换样本集包括第二样本数据集中多张目标域无表情标签的第二样本图像经过第二变换后分别得到的多张目标域无表情标签的第二变换样本图像。上述第二变换对第二样本图像的改变幅度大于第一变换对第二样本图像的改变幅度。

可以理解地，上述S802和S804可以同步执行，也可以先后执行，本说明书实施例对此不作限定。

可以理解地，为了增强目标域训练样本的多样性，上述第二变换样本集的数量可以为多个，即可以将第二样本数据集中的第二样本图像进行多种不同的第二变换，从而得到对应多个第二变换样本集。

S806，基于表情识别模型的目标阈值集以及第一变换样本集对第二变换样本集中第二变换后的第二样本图像进行标注，得到目标域的样本训练数据集。

具体地，在得到第一变换样本集以及第二样本数据集之后，可以先将第一变换样本集输入表情识别模型中，输出第一变换样本集中各第一变换样本图像对应的表情识别结果。然后再根据第一变换样本集中各第一变换样本图像对应的表情识别结果对第二变换样本集中第二变换后的第二样本图像进行标注，即先筛选出第一变换样本集中最大分类概率大于其对应表情类别的目标阈值的目标第一变换样本图像，然后再筛选出第二变换样本集中上述目标第一变换样本图像对应第二样本图像的目标第二变换样本图像，即第二变换样本集中第二变换后的目标第二样本图像，最后再将目标第一变换样本图像对应的表情识别结果中最大分类概率对应表情类别的表情标签标注为该目标第一变换样本图像对应目标第二变换样本图像的表情标签，得到样本训练数据集。

本说明书实施例先通过对目标域的第二样本数据集进行强弱变换，然后在基于目标阈值集用弱变换样本(第一变换样本集)对强变换样本(第二变换样本集)进行打标，从而既筛选出了第二变换样本集中能够保障标注质量的第二变换后的目标第二样本图像，确保了目标域用于训练的样本训练数据集的标注质量，又可以将有表情标签的目标第二变换样本图像作为目标域的样本训练数据集，提高表情识别模型训练样本的多样性以及训练效果，使表情识别模型变得更具鲁棒性。

示例性地，如图9所示，第二样本数据集包括目标域无表情标签的第二样本图像B，第二样本图像B经过两个不同的第一变换后分别得到第一变换样本a和第一变换样本b，第二样本图像B经过第二变换后得到第二变换样本c，且第一变换样本a和第一变换样本b各自对应的第二表情识别结果包括如图9所示的各表情类别(对应表情标签)的分类概率，则可以先计算第一变换样本a和第一变换样本b对应表情类别1的分类概率均值，即第一变换样本a对应表情类别1的分类概率0.9与第一变换样本b对应表情类别1的分类概率0.7之和再除以2，从而可以得到表情类别1对应的分类概率均值为0.8；以及计算第一变换样本a和第一变换样本b对应表情类别2的分类概率均值，即第一变换样本a对应表情类别2的分类概率0.1与第一变换样本b对应表情类别2的分类概率0.3之和再除以2，从而可以得到表情类别2对应的分类概率均值为0.2。然后再将表情类别1的分类概率均值0.8与表情类别1的目标阈值0.75进行比较，将表情类别2的分类概率均值0.2与表情类别2的目标阈值0.85进行比较，并将分类概率均值大于对应表情类别的目标阈值时的表情类别1对应的表情标签1标注为第二变换样本c的表情标签，从而可以得到样本训练数据集中目标域有表情标签的经过第二变换后的第二样本图像B即有表情标签的第二变换样本c。

可以理解地，图9中第二表情识别结果中包括的分类概率对应的表情类别不限于2种，上述第二表情识别结果还可以包括高兴、吃惊、悲伤、愤怒、厌恶、恐惧、中性等多种表情类别对应的分类概率，本说明书实施例对此不作限定。

接下来请继续参考图8，如图8所示，在S806，基于表情识别模型的目标阈值集以及第一变换样本集对第二变换样本集中第二变换后的第二样本图像进行标注，得到目标域的样本训练数据集之后，确定表情识别模型的第二损失的实现流程还包括：

S808，基于样本训练数据集确定表情识别模型的第二损失。

具体地，在得到目标域的样本训练数据集之后，可以先将样本训练数据集输入表情识别模型中，输出上述样本训练数据集中有表情标签的各第二样本图像或各第二变换样本对应的表情识别结果，然后再根据上述样本训练数据集中有表情标签的各第二样本图像或各第二变换样本对应的表情识别结果与其对应的表情标签确定表情识别模型的第二损失。

接下来请继续参考图4，如图4所示，在确定表情识别模型的第一损失以及第二损失之后，上述S306中训练表情识别模型的实现流程还包括：

S406，基于第一损失和第二损失训练表情识别模型。

可选地，在确定表情识别模型的第一损失以及第二损失之后，可以先将上述第一损失和第二损失进行整合，得到表情识别模型的目标损失，然后再基于上目标损失通过梯度下降法不断优化上述目标损失进行表情识别模型的训练。

示例性地，可以但不限于将上述第一损失L1和第二损失L2进行加和，得到表情识别模型的目标损失L＝L1+L2。

可选地，在确定表情识别模型的第一损失以及第二损失之后，可以先基于表情识别模型的第一损失训练表情识别模型，再基于表情识别模型的第二损失训练表情识别模型，或者先基于表情识别模型的第二损失训练表情识别模型，再基于表情识别模型的第一损失训练表情识别模型，本说明书实施例对此不作限定。

可选地，本说明书实施例还可以先确定表情识别模型的第一损失，并在基于表情识别模型的第一损失训练表情识别模型之后，再基于训练后的表情识别模型以及第二样本数据集确定表情识别模型的第二损失，并再基于表情识别模型的第二损失训练表情识别模型，依次循环，直至表情识别模型的第一损失和第二损失均满足训练要求，才结束训练。

本说明书实施例既可以通过源域有表情标签的第一配对样本数据集确定表情识别模型的第一损失，让表情识别模型能够直观地学习到不同第一样本图像之间的差异，从而增强表情识别模型对模糊的表情类别进行识别地鲁棒性，提高表情识别模型的准确率；又可以基于源域有表情标签的第一样本数据集和目标域无表情标签的第二样本数据集确定表情识别模型的第二损失，即通过源域有表情标签的第一样本数据集和目标域无表情标签的第二样本数据集对表情识别模型进行半监督样本挖掘训练，增强表情识别模型的域泛化能力。

接下来请参考图10，其为本说明书一示例性实施例提供的一种表情识别模型训练方法的具体实现过程示意图。如图10所示，在获取到源域有表情标签的第一样本数据集后，可以将上述第一样本数据集中的第一样本图像进行配对，得到第一配对样本数据集。然后按照图10所示的方式确定表情识别模型的目标阈值集以及第一损失L1。在获取到目标域无表情标签的第二样本数据集后，除了可以按照图5所示的方式直接确定表情识别模型的第二损失L2之外，可以按照图10所示的方式，先将第二样本数据集中的第二样本图像分别进行第一变换和第二变换，从而得到对应的第一变换样本集和第二变换样本集。然后再将上述第一变换样本集输入表情识别模型的主干网络，并经过表情识别模型的表情特征生成网络提取出上述第一变换样本集中各第一变换样本的第二表情特征向量，然后再根据上述第一变换样本集中各第一变换样本的第二表情特征确定各第一变换样本的第二表情识别结果，并基于上述各第一变换样本的第二表情识别结果以及目标阈值集对第二变换样本集中的第二变换样本进行标注。然后再将第二变换样本集中已标注的第二变换样本即样本训练数据集输入表情识别模型的主干网络，并经过表情识别模型的第一变换样本集提取出上述样本训练数据集中各第二变换样本的第三表情特征向量，以及根据上述样本训练数据集中各第二变换样本的第三表情特征向量确定各第二变换样本的第三表情识别结果，基于上述各第二变换样本的第三表情识别结果以及各第二变换样本对应的表情标签确定表情识别模型对应目标域的第二损失。最后，可以按照上述S406中的方式，基于上述第一损失和第二损失训练表情识别模型。

接下来结合图2-图10，以服务器220执行表情识别为例，介绍本说明书实施例提供的表情识别方法。具体请参考图11，其为本说明书一示例性实施例提供的一种表情识别方法的流程示意图。如图11所示，该表情识别方法包括以下几个步骤：

S1102，获取目标用户的目标脸部图像。

具体地，当想要了解目标用户的表情时，可以采用图像采集设备210采集目标用户的目标脸部图像，然后再通过网络将上述目标脸部图像发送给服务器220。服务器220可以通过网络接收上述图像采集设备210或其它终端或其它服务器等发送的目标脸部图像。

S1104，将目标脸部图像输入表情识别模型，输出目标用户对应的目标表情识别结果。

具体地，当获取到目标用户的目标脸部图像之后，可以将上述目标脸部图像输入通过本说明书实施例提供的表情识别模型训练方法进行训练得到的表情识别模型中，从而得到该目标用户对应的目标表情识别结果。上述目标表情识别结果包括目标脸部图像中目标用户对应的目标表情识别结果，即各表情类别对应的分类概率。

可选地，在得到目标用户对应的目标表情识别结果之后，可以直接将上述目标表情识别结果中最大分类概率对应表情类别确定为目标脸部图像中目标用户对应的表情类别。

可选地，为了确保表情识别的准确率和有效性，在得到目标用户对应的目标表情识别结果之后，只有当上述目标表情识别结果中最大分类概率大于训练好的表情识别模型中该最大分类概率对应表情类别的目标阈值时，才会将该最大分类概率对应的表情类别确定为目标脸部图像中目标用户对应的表情类别。而当上述目标表情识别结果中最大分类概率小于或等于训练好的表情识别模型中该最大分类概率对应表情类别的目标阈值时，为了确保表情识别的准确性，可以直接确认本次表情识别失败，需要重新采集目标用户的目标脸部图像进行表情识别等。

本说明书实施例。通过利用基于第一配对样本数据进行对比学习训练以及源域有表情标签的第一样本数据集和目标域无表情标签的第二样本数据集对表情识别模型进行域自适应半监督学习训练的方式进行训练的表情识别模型识别目标脸部图像中目标用户的表情类别，既能够利用表情识别模型结合表情识别过程中目标脸部图像的不确定度增强对模糊的表情类别进行识别地鲁棒性，提高表情识别的准确率，又避免目标域下有表情标签的样本太少或人工标注数据时耗时太长导致短时间内无法高效准确地实现目标域下表情识别的情况，解决了目标域下表情识别的冷启动问题。

接下来请参考图12，图12为本说明书一示例性实施例提供的一种表情识别模型训练装置。如图12所示，该表情识别模型训练装置1200包括：

获取模块1210，用于获取第一样本数据集和第二样本数据集；上述第一样本数据集包括多张源域有表情标签的第一样本图像；上述第二样本数据集包括多张目标域无表情标签的第二样本图像；

确定模块1220，用于基于上述第一样本数据集确定第一配对样本数据集；上述第一配对样本数据集包括至少一组第一配对样本数据；上述第一配对样本数据包括上述第一样本数据集中的至少两张第一样本图像；

训练模块1230，用于基于上述第一样本数据集、上述第一配对样本数据集以及上述第二样本数据集训练表情识别模型。

在一种可能的实现方式中，上述训练模块1230包括：

上述第一确定单元包括：

在一种可能的实现方式中，上述确定子单元具体用于：

在一种可能的实现方式中，上述第二确定单元包括：

在一种可能的实现方式中，上述第二确定子单元具体用于：

在一种可能的实现方式中，上述第三确定子单元具体用于：

上述表情识别模型训练装置中各模块的划分仅用于举例说明，在其他实施例中，可将表情识别模型训练装置按照需要划分为不同的模块，以完成上述表情识别模型训练装置的全部或部分功能。本说明书实施例中提供的表情识别模型训练装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本说明书实施例中所描述的表情识别模型训练方法的全部或部分步骤。

接下来请参考图13，图13为本说明书一示例性实施例提供的一种表情识别装置。如图13所示，该表情识别装置1300包括：

获取模块1310，用于获取目标用户的目标脸部图像。

表情识别模块1320，用于将上述目标脸部图像输入表情识别模型，输出上述目标用户对应的目标表情识别结果；上述表情识别模型基于本说明书实施例提供的表情识别模型训练方法进行训练得到。

上述表情识别装置中各模块的划分仅用于举例说明，在其他实施例中，可将表情识别装置按照需要划分为不同的模块，以完成上述表情识别装置的全部或部分功能。本说明书实施例中提供的表情识别装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本说明书实施例中所描述的表情识别方法的全部或部分步骤。

请参阅图14，图14为本说明书一示例性实施例提供的一种电子设备的结构示意图。如图14所示，该电子设备1400可以包括：至少一个处理器1410、至少一个通信总线1420、用户接口1430、至少一个网络接口1440、存储器1450。其中，通信总线1420可用于实现上述各个组件的连接通信。

其中，用户接口1430可以包括显示屏(Display)和摄像头(Camera)，可选地，用户接口1430还可以包括标准的有线接口、无线接口。

其中，网络接口1440可选的可以包括蓝牙模块、近场通信(Near FieldCommunication，NFC)模块、无线保真(Wireless Fidelity，Wi-Fi)模块等。

其中，处理器1410可以包括一个或者多个处理核心。处理器1410利用各种接口和线路连接整个电子设备1400内的各个部分，通过运行或执行存储在存储器1450内的指令、程序、代码集或指令集，以及调用存储在存储器1450内的数据，执行路由电子设备1400的各种功能和处理数据。可选的，处理器1410可以采用数字信号处理(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1410可集成处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1410中，单独通过一块芯片进行实现。

其中，存储器1450可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选的，该存储器1450包括非瞬时性计算机可读介质。存储器1450可用于存储指令、程序、代码、代码集或指令集。存储器1450可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如获取功能、表情识别模型训练功能、表情识别功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1450可选的还可以是至少一个位于远离前述处理器1410的存储装置。如图14所示，作为一种计算机存储介质的存储器1450中可以包括操作系统、网络通信模块、用户接口模块以及应用程序。

具体地，电子设备1400可以是前述表情识别模型训练装置，在图14所示的电子设备1400中，用户接口1430主要用于为用户提供输入的接口，例如上述表情识别模型训练装置上的按键、摄像头等，获取用户触发的指令；而处理器1410可以用于调用存储器1450中存储的应用程序，并具体执行以下操作：

获取第一样本数据集和第二样本数据集；上述第一样本数据集包括多张源域有表情标签的第一样本图像；上述第二样本数据集包括多张目标域无表情标签的第二样本图像。

基于上述第一样本数据集确定第一配对样本数据集；上述第一配对样本数据集包括至少一组第一配对样本数据；上述第一配对样本数据包括上述第一样本数据集中的至少两张第一样本图像。

在一些可能的实施例中，上述处理器1410基于上述第一样本数据集、上述第一配对样本数据集以及上述第二样本数据集训练表情识别模型时，具体用于执行：

基于上述第一配对样本数据集确定表情识别模型的第一损失。

基于上述第一样本数据集和上述第二样本数据集确定上述表情识别模型的第二损失。

基于上述第一损失和上述第二损失训练上述表情识别模型。

在一些可能的实施例中，上述表情识别模型包括主干网络、不确定度提取网络以及表情特征生成网络；

上述处理器1410基于上述第一配对样本数据集确定表情识别模型的第一损失时，具体用于执行：

利用上述主干网络提取上述第一配对样本数据中各第一样本图像的第一特征。

将上述第一配对样本数据中各第一样本图像的第一特征输入上述不确定度提取网络中，输出上述第一配对样本数据中各第一样本图像对应的不确定度向量。

将上述第一配对样本数据中各第一样本图像的第一特征输入上述表情特征生成网络中，输出上述第一配对样本数据中各第一样本图像对应的第一表情特征向量。

将上述不确定度向量与上述第一表情特征向量进行融合，得到上述第一配对样本数据对应的混合特征。

在一些可能的实施例中，上述处理器1410基于上述第一配对样本数据集中各第一配对样本数据对应的混合特征确定上述表情识别模型的第一损失时，具体用于执行：

基于上述第一配对样本数据集中各第一配对样本数据对应的混合特征预测上述第一配对样本数据集中各第一配对样本数据对应的混合表情概率。

在一些可能的实施例中，上述处理器1410基于上述第一样本数据集和上述第二样本数据集确定上述表情识别模型的第二损失时，具体用于执行：

基于上述第一样本数据集确定上述表情识别模型的目标阈值集。

在一些可能的实施例中，上述处理器1410基于上述第一样本数据集确定上述表情识别模型的目标阈值集时，具体用于执行：

利用上述主干网络提取上述第一样本数据集中各第一样本图像的第一特征。

将上述第一样本数据集中各第一样本图像的第一特征输入上述表情特征生成网络中，输出上述第一样本数据集中各第一样本图像对应的第一表情特征向量。

基于上述第一样本数据集中各第一样本图像对应的第一表情特征向量预测上述第一样本数据集中各第一样本图像对应的第一表情识别结果。

在一些可能的实施例中，上述处理器1410基于上述目标阈值集以及上述第二样本数据集确定上述表情识别模型的第二损失时，具体用于执行：

利用上述主干网络提取上述第二样本数据集中各第二样本图像的第二特征。

将上述第二样本数据集中各第二样本图像的第二特征输入上述表情特征生成网络中，输出上述第二样本数据集中各第二样本图像对应的第二表情特征向量。

基于上述第二样本数据集中各第二样本图像对应的第二表情特征向量预测上述第二样本数据集中各第二样本图像对应的第二表情识别结果。

基于上述表情识别模型的目标阈值集以及上述第二样本数据集中各第二样本图像对应的第二表情识别结果对上述第二样本数据集中的第二样本图像进行标注，得到上述目标域的样本训练数据集。

在一些可能的实施例中，上述第二表情识别结果包括上述第二样本图像对应各表情类别的分类概率；上述目标阈值集包括至少一个表情类别对应的目标阈值；

上述处理器1410基于上述表情识别模型的目标阈值集以及上述第二样本数据集中各第二样本图像对应的第二表情识别结果对上述第二样本数据集中的第二样本图像进行标注，得到上述目标域的样本训练数据集时，具体用于执行：

基于上述第二样本数据集中各第二样本图像对应的第二表情识别结果以及上述目标阈值集确定上述第二样本数据集中的目标第二样本图像；上述目标第二样本图像用于表征最大分类概率大于上述最大分类概率对应表情类别的目标阈值的上述第二表情识别结果对应的第二样本图像。

将上述第二样本数据集中的第二样本图像进行第一变换，得到第一变换样本集。

将上述第二样本数据集中的第二样本图像进行第二变换，得到第二变换样本集；上述第二变换对上述第二样本图像的改变幅度大于上述第一变换对上述第二样本图像的改变幅度。

基于上述表情识别模型的目标阈值集以及上述第一变换样本集对上述第二变换样本集中第二变换后的第二样本图像进行标注，得到上述目标域的样本训练数据集。

在一些可能的实施例中，上述电子设备1400可以是前述表情识别装置，上述处理器1410具体还执行：

获取目标用户的目标脸部图像。

将上述目标脸部图像输入表情识别模型，输出上述目标用户对应的目标表情识别结果；上述表情识别模型基于本说明书实施例提供的表情识别模型训练方法进行训练得到。

本说明书实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述实施例中的一个或多个步骤。上述表情识别模型训练装置或表情识别装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时，全部或部分地产生按照本说明书实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者通过上述计算机可读存储介质进行传输。上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字多功能光盘(DigitalVersatile Disc，DVD))、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下，本实施例和实施方案中的技术特征可以任意组合。

以上所述的实施例仅仅是本说明书的优选实施例方式进行描述，并非对本说明书的范围进行限定，在不脱离本说明书的设计精神的前提下，本领域普通技术人员对本说明书的技术方案作出的各种变形及改进，均应落入权利要求书确定的保护范围内。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书和说明书中记载的动作或步骤可以按照不同于说明书记载的实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

Claims

1.一种表情识别模型训练方法，所述方法包括：

获取第一样本数据集和第二样本数据集；所述第一样本数据集包括多张源域有表情标签的第一样本图像；所述第二样本数据集包括多张目标域无表情标签的第二样本图像；

基于所述第一样本数据集确定第一配对样本数据集；所述第一配对样本数据集包括至少一组第一配对样本数据；所述第一配对样本数据包括所述第一样本数据集中的至少两张第一样本图像；

基于所述第一样本数据集、所述第一配对样本数据集以及所述第二样本数据集训练表情识别模型。

2.如权利要求1所述的方法，所述基于所述第一样本数据集、所述第一配对样本数据集以及所述第二样本数据集训练表情识别模型，包括：

基于所述第一配对样本数据集确定表情识别模型的第一损失；

基于所述第一样本数据集和所述第二样本数据集确定所述表情识别模型的第二损失；

基于所述第一损失和所述第二损失训练所述表情识别模型。

3.如权利要求2所述的方法，所述表情识别模型包括主干网络、不确定度提取网络以及表情特征生成网络；

所述基于所述第一配对样本数据集确定表情识别模型的第一损失，包括：

利用所述主干网络提取所述第一配对样本数据中各第一样本图像的第一特征；

将所述第一配对样本数据中各第一样本图像的第一特征输入所述不确定度提取网络中，输出所述第一配对样本数据中各第一样本图像对应的不确定度向量；

将所述第一配对样本数据中各第一样本图像的第一特征输入所述表情特征生成网络中，输出所述第一配对样本数据中各第一样本图像对应的第一表情特征向量；

将所述不确定度向量与所述第一表情特征向量进行融合，得到所述第一配对样本数据对应的混合特征；

基于所述第一配对样本数据集中各第一配对样本数据对应的混合特征确定所述表情识别模型的第一损失。

4.如权利要求3所述的方法，所述基于所述第一配对样本数据集中各第一配对样本数据对应的混合特征确定所述表情识别模型的第一损失，包括：

基于所述第一配对样本数据集中各第一配对样本数据对应的混合特征预测所述第一配对样本数据集中各第一配对样本数据对应的混合表情概率；

基于所述混合表情概率以及所述第一配对样本数据中各第一样本图像对应的表情标签确定所述表情识别模型的第一损失。

5.如权利要求2或3所述的方法，所述基于所述第一样本数据集和所述第二样本数据集确定所述表情识别模型的第二损失，包括：

基于所述第一样本数据集确定所述表情识别模型的目标阈值集；

基于所述目标阈值集以及所述第二样本数据集确定所述表情识别模型的第二损失。

6.如权利要求5所述的方法，所述基于所述第一样本数据集确定所述表情识别模型的目标阈值集，包括：

利用所述主干网络提取所述第一样本数据集中各第一样本图像的第一特征；

将所述第一样本数据集中各第一样本图像的第一特征输入所述表情特征生成网络中，输出所述第一样本数据集中各第一样本图像对应的第一表情特征向量；

基于所述第一样本数据集中各第一样本图像对应的第一表情特征向量预测所述第一样本数据集中各第一样本图像对应的第一表情识别结果；

基于所述第一样本数据集中各第一样本图像对应的第一表情识别结果以及所述表情标签确定所述表情识别模型的目标阈值集。

7.如权利要求5所述的方法，所述基于所述目标阈值集以及所述第二样本数据集确定所述表情识别模型的第二损失，包括：

利用所述主干网络提取所述第二样本数据集中各第二样本图像的第二特征；

将所述第二样本数据集中各第二样本图像的第二特征输入所述表情特征生成网络中，输出所述第二样本数据集中各第二样本图像对应的第二表情特征向量；

基于所述第二样本数据集中各第二样本图像对应的第二表情特征向量预测所述第二样本数据集中各第二样本图像对应的第二表情识别结果；

基于所述表情识别模型的目标阈值集以及所述第二样本数据集中各第二样本图像对应的第二表情识别结果对所述第二样本数据集中的第二样本图像进行标注，得到所述目标域的样本训练数据集；

基于所述样本训练数据集确定所述表情识别模型的第二损失。

8.如权利要求7所述的方法，所述第二表情识别结果包括所述第二样本图像对应各表情类别的分类概率；所述目标阈值集包括至少一个表情类别对应的目标阈值；

所述基于所述表情识别模型的目标阈值集以及所述第二样本数据集中各第二样本图像对应的第二表情识别结果对所述第二样本数据集中的第二样本图像进行标注，得到所述目标域的样本训练数据集，包括：

基于所述第二样本数据集中各第二样本图像对应的第二表情识别结果以及所述目标阈值集确定所述第二样本数据集中的目标第二样本图像；所述目标第二样本图像用于表征最大分类概率大于所述最大分类概率对应表情类别的目标阈值的所述第二表情识别结果对应的第二样本图像；

基于所述第二样本数据集中的目标第二样本图像的最大分类概率对应的表情类别对所述第二样本数据集中的目标第二样本图像进行标注，得到所述目标域的样本训练数据集。

9.如权利要求5所述的方法，所述基于所述目标阈值集以及所述第二样本数据集确定所述表情识别模型的第二损失，包括：

将所述第二样本数据集中的第二样本图像进行第一变换，得到第一变换样本集；

将所述第二样本数据集中的第二样本图像进行第二变换，得到第二变换样本集；所述第二变换对所述第二样本图像的改变幅度大于所述第一变换对所述第二样本图像的改变幅度；

基于所述表情识别模型的目标阈值集以及所述第一变换样本集对所述第二变换样本集中第二变换后的第二样本图像进行标注，得到所述目标域的样本训练数据集；

10.如权利要求9所述的方法，所述第一变换包括旋转变换、平移变换、图像翻转变换、仿射变换中的至少一种；所述第二变换包括图像区域随机擦除变换。

11.一种表情识别方法，所述方法包括：

获取目标用户的目标脸部图像；

将所述目标脸部图像输入表情识别模型，输出所述目标用户对应的目标表情识别结果；所述表情识别模型基于权利要求1-10任一项所述的表情识别模型训练方法进行训练得到。

12.一种表情识别模型训练装置，所述装置包括：

获取模块，用于获取第一样本数据集和第二样本数据集；所述第一样本数据集包括多张源域有表情标签的第一样本图像；所述第二样本数据集包括多张目标域无表情标签的第二样本图像；

确定模块，用于基于所述第一样本数据集确定第一配对样本数据集；所述第一配对样本数据集包括至少一组第一配对样本数据；所述第一配对样本数据包括所述第一样本数据集中的至少两张第一样本图像；

训练模块，用于基于所述第一样本数据集、所述第一配对样本数据集以及所述第二样本数据集训练表情识别模型。

13.一种表情识别装置，所述装置包括：

获取模块，用于获取目标用户的目标脸部图像；

表情识别模块，用于将所述目标脸部图像输入表情识别模型，输出所述目标用户对应的目标表情识别结果；所述表情识别模型基于权利要求1-10任一项所述的表情识别模型训练方法进行训练得到。

14.一种电子设备，包括：处理器和存储器；

所述处理器与所述存储器相连；

所述存储器，用于存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如权利要求1-11任一项所述的方法。

15.一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-11任一项所述的方法步骤。

16.一种包含指令的计算机程序产品，当所述计算机程序产品在计算机或处理器上运行时，使得所述计算机或所述处理器执行如权利要求1-11任一项所述的方法。