CN115222047A

CN115222047A - 一种模型训练方法、装置、设备及存储介质

Info

Publication number: CN115222047A
Application number: CN202210884525.0A
Authority: CN
Inventors: 周青宇; 李映辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-10-21

Abstract

本申请公开一种模型训练方法、装置、设备及存储介质，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。从任务无关多媒体样本集中确定多个预训练多媒体内容样本组，利用多个预训练多媒体内容样本组包括的第一任务无关多媒体样本组和第二任务无关多媒体样本组对鉴别模块进行训练。根据多媒体内容样本集，通过特征提取模块进行特征提取得到第一样本特征，并通过预测模块对第一样本特征进行预测得到预测结果，以及根据多媒体内容样本集，通过特征提取模块进行特征提取得到第二样本特征，并通过训练得到的鉴别模块对第二样本特征进行鉴别得到第三鉴别结果，以便基于预测结果、任务标签和第三鉴别结果对待训练模型进行训练得到目标网络模型。

Description

一种模型训练方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种模型训练方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，神经网络模型的应用越来越广泛，例如被广泛应用于个性化推荐、机器翻译、商品搜索、人脸识别等多个领域，此外还在向社会各个领域迅速渗透。

在对神经网络模型进行训练时，通常需要采用大量的训练样本。而很多情况下，可能由于数据采集困难、训练样本标注代价高等问题，使得多媒体内容样本集的规模不大，因此，小规模多媒体内容样本集的问题就成为了机器学习领域中重要的研究方向之一。

为了解决在多媒体内容样本集规模较小时学习目标不可靠所带来的问题，目前的主流方法是从额外的样本或者标签中获取到额外的知识，以对从而增强任务相关特征对神经网络模型的有益影响，例如直接扩充多媒体内容样本集以获取额外知识。然而，含有任务标签的多媒体内容样本集本身规模很小，其中能够添加其余标签的训练样本就更稀少，实践中往往不具有可操作性，难以增强训练效果。

发明内容

为了解决上述技术问题，本申请提供了一种模型训练方法、装置、设备及存储介质，从广泛大量的包含任意任务无关标签的任务无关多媒体样本中挖掘知识，来抑制基于小多媒体内容样本集的学习过程中对任务无关特征的提取，使得基于小多媒体内容样本集的学习中更多地获取任务相关的有用特征，从而增强了小多媒体内容样本集学习的效果，提高了模型的泛化性能。并且由于存在广泛大量的任务无关多媒体样本集，因此实践中可操作性较高，易于增强训练效果。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种模型训练方法，待训练模型包括特征提取模块和预测模块，所述方法包括：

获取多媒体内容样本集和任务无关多媒体样本集，所述多媒体内容样本集中的多媒体内容样本具有任务标签，所述任务无关多媒体样本集中的任务无关多媒体样本具有任务无关标签；

从所述任务无关多媒体样本集中确定多个预训练多媒体内容样本组，所述多个预训练多媒体内容样本组包括第一任务无关多媒体样本组和第二任务无关多媒体样本组，所述第一任务无关多媒体样本组中包括任务无关标签取特定值的任务无关多媒体样本，所述第二任务无关多媒体样本组中包括从所述任务无关多媒体样本集中随机抽取的任务无关多媒体样本；

利用所述第一任务无关多媒体样本组和所述第二任务无关多媒体样本组对鉴别模块进行训练，使得所述鉴别模块基于所述第一任务无关多媒体样本组得到的第一鉴别结果区别于基于所述第二任务无关多媒体样本组得到的第二鉴别结果；

根据所述多媒体内容样本集，通过所述特征提取模块进行特征提取得到第一样本特征，并通过所述预测模块对所述第一样本特征进行预测得到预测结果；以及根据所述多媒体内容样本集，通过所述特征提取模块进行特征提取得到第二样本特征，并通过训练得到的鉴别模块对所述第二样本特征进行鉴别得到第三鉴别结果；

基于所述预测结果、所述任务标签和所述第三鉴别结果对所述待训练模型进行训练得到目标网络模型，所述目标网络模型中特征提取模块提取得到的样本特征的特征分布趋近于所述第二任务无关多媒体样本组的特征分布。

一方面，本申请实施例一种模型训练装置，待训练模型包括特征提取模块和预测模块，所述装置包括获取单元、确定单元、训练单元、提取单元和预测单元：

所述获取单元，用于获取多媒体内容样本集和任务无关多媒体样本集，所述多媒体内容样本集中的多媒体内容样本具有任务标签，所述任务无关多媒体样本集中的任务无关多媒体样本具有任务无关标签；

所述确定单元，用于从所述任务无关多媒体样本集中确定多个预训练多媒体内容样本组，所述多个预训练多媒体内容样本组包括第一任务无关多媒体样本组和第二任务无关多媒体样本组，所述第一任务无关多媒体样本组中包括任务无关标签取特定值的任务无关多媒体样本，所述第二任务无关多媒体样本组中包括从所述任务无关多媒体样本集中随机抽取的任务无关多媒体样本；

所述训练单元，用于利用所述第一任务无关多媒体样本组和所述第二任务无关多媒体样本组对鉴别模块进行训练，使得所述鉴别模块基于所述第一任务无关多媒体样本组得到的第一鉴别结果区别于基于所述第二任务无关多媒体样本组得到的第二鉴别结果；

所述提取单元，用于根据所述多媒体内容样本集，通过所述特征提取模块进行特征提取得到第一样本特征，以及通过所述特征提取模块进行特征提取得到第二样本特征；

所述预测单元，用于通过所述预测模块对所述第一样本特征进行预测得到预测结果，以及通过训练得到的鉴别模块对所述第二样本特征进行鉴别得到第三鉴别结果；

所述训练单元，还用于基于所述预测结果、所述任务标签和所述第三鉴别结果对所述待训练模型进行训练得到目标网络模型，所述目标网络模型中特征提取模块提取得到的样本特征的特征分布趋近于所述第二任务无关多媒体样本组的特征分布。

一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行前述任一方面所述的方法。

一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述任一方面所述的方法。

一方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一方面所述的方法。

由上述技术方案可以看出，本申请在基于小样本的模型训练过程中，可以从包含任意任务无关标签的样本中挖掘知识，进而基于学习到的知识来抑制模型训练过程中对任务无关特征的提取，而更加专注于对任务至关重要的特征的提取，进而提升模型的泛化能力。具体的，可以获取多媒体内容样本集和任务无关多媒体样本集。从任务无关多媒体样本集中确定多个预训练多媒体内容样本组，多个预训练多媒体内容样本组包括第一任务无关多媒体样本组和第二任务无关多媒体样本组，第一任务无关多媒体样本组中包括任务无关标签取特定值的任务无关多媒体样本，第二任务无关多媒体样本组中包括从任务无关多媒体样本集中随机抽取的任务无关多媒体样本，进而利用第一任务无关多媒体样本组和第二任务无关多媒体样本组对鉴别模块进行训练，训练得到对特征分布接近的第一任务无关多媒体样本组和第二任务无关多媒体样本组具有较好辨别能力的鉴别模块。根据多媒体内容样本集，通过特征提取模块进行特征提取得到第一样本特征，并通过预测模块对第一样本特征进行预测得到预测结果，以及根据多媒体内容样本集，通过特征提取模块进行特征提取得到第二样本特征，并通过训练得到的鉴别模块对第二样本特征进行鉴别得到第三鉴别结果，以便基于预测结果、任务标签和第三鉴别结果对待训练模型进行训练得到目标网络模型，在训练过程中除了将待训练模型原本的预测能力作为优化目标，还需要将特征提取模块避免或减少提取目标任务无关的特征作为优化目标。而若特征提取模块避免或减少提取目标任务无关的特征，则特征提取模块提取到的样本特征的特征分布将趋近于第二任务无关多媒体样本组的特征分布。

以此作为优化目标得到的目标网络模型可以从广泛大量的包含任意任务无关标签的任务无关多媒体样本中挖掘知识，来抑制基于小多媒体内容样本集的学习过程中对任务无关特征的提取，使得基于小多媒体内容样本集的学习中更多地获取任务相关的有用特征，从而增强了小多媒体内容样本集学习的效果，提高了模型的泛化性能。并且由于存在广泛大量的任务无关多媒体样本集，因此实践中可操作性较高，易于增强训练效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术成员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种模型训练方法的应用场景架构图；

图2为本申请实施例提供的一种模型训练方法的流程图；

图3为本申请实施例提供的一种提纯学习的框架示例图；

图4为本申请实施例提供的一种提纯学习和迁移学习结合的框架示例图；

图5为本申请实施例提供的另一种模型训练方法的流程图；

图6为本申请实施例提供的一种模型训练装置的结构图；

图7为本申请实施例提供的一种终端的结构图；

图8为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

使用小规模多媒体内容样本集学习具有泛化能力的经验有效模型对于神经网络来说是一项具有挑战性的任务。为了解决在多媒体内容样本集规模较小时学习目标不可靠所带来的问题，目前主要是从额外的多媒体内容样本或者标签中获取到额外的知识，以对从而增强任务相关特征对神经网络模型的有益影响。例如直接扩充多媒体内容样本集以获取额外知识。

当多媒体内容样本集中多媒体内容样本不足的情况下，获取额外知识的一个最简单的途径则是直接扩充数据集。一方面，可以基于原有的多媒体内容样本集中的多媒体内容样本自动生成新的多媒体内容样本。其中，数据增强往往基于数据的某种不变性来获取额外的数据以供给神经网络模型学习；自监督学习在数据增强的基础上，期望神经网络模型学习到小规模多媒体内容样本集上的良好特征表示。另一方面，除了直接扩充样本量的思路，还可以通过扩充多媒体内容样本集中标签的方式来获取额外的知识。一类多任务学习方法可同时使用多媒体内容样本的任务标签和任务相关标签以增强任务相关特征的影响，例如使用多媒体内容样本的多个相关标签并共享神经网络模型的特征提取模块。另一类对抗多任务学习方法通过使用同时具有任务标签和任务无关标签的多媒体内容样本，希望神经网络模型也能够学习到任务无关标签中所包含的额外知识。但是，由于含有任务标签的多媒体内容样本集本身规模很小，其中能够添加其余标签的样本就更稀少，实践中往往不具有可操作性，难以增强训练效果。

为了解决上述技术问题，本申请实施例提供一种模型训练方法，该方法在基于小多媒体内容样本集(即小训练样本集)的模型训练过程中，可以从包含任意任务无关标签的任务无关多媒体样本中挖掘知识，进而基于学习到的知识来抑制模型训练过程中对任务无关特征的提取，而更加专注于对任务至关重要的特征的提取，进而提升模型的泛化能力。

本申请实施例提供的方法可以应用于各种需要使用神经网络模型且多媒体内容样本稀缺的领域中，例如个性化推荐、机器翻译、商品搜索、人脸识别、人脸表情识别(Facial Expression Recognition，FER)、数字识别(Digital Recognition，DR)、语音识别等领域，其中数字识别包括手写/街景数字识别。在不同的领域中，为了利用神经网络模型实现相应的任务，需要先对神经网络模型进行训练。例如在人脸表情识别的领域中，需要通过神经网络模型进行人脸表情识别，则神经网络模型需要实现的任务为人脸表情识别任务，故需要先训练能够进行人脸表情识别的神经网络模型。

需要说明的是，本申请实施例提供的方法主要涉及人工智能(ArtificialIntelligence，AI)，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

本申请实施例具体可以涉及人工智能中的机器学习，机器学习(MachineLearning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请实施例对于模型的训练主要是通过机器学习实现的。

当然，由于本申请实施例提供的模型训练方法可以应用于不同的领域，在不同的领域中，还可能涉及人工智能中的具体其他技术。例如，若应用于人脸表情识别、人脸识别等领域，则还可能涉及计算机视觉，计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

若本申请实施例提供的方法应用于语音识别、音频推荐等领域，则还可能涉及语音技术(Speech Technology)，语音技术的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来被看好的人机交互方式之一。

若本申请实施例提供的方法应用于机器翻译领域，则还可能涉及自然语言处理(Nature Language processing，NLP)，自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

应理解，本申请实施例提供的方法可以通过计算机设备执行，计算机设备例如可以是服务器和/或终端。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等，从而在这些场景中实现上述不同领域的功能。

下面以计算机设备是服务器为例，对模型训练方法的应用场景架构进行介绍。如图1所示，图1示出了一种模型训练方法的应用场景架构图。在该应用场景中可以包括服务器100，服务器100可以通过本申请实施例提供的方法对待训练模型进行训练得到目标网络模型，从而为上述各领域提供对应的目标网络模型。

待训练模型为需要依据本申请实施例提供的方法进行训练的神经网络模型，神经网络模型例如可以是深度神经网络(Deep Neural Networks，DNN)模型、卷积神经网络(Convolutional Neural Network，CNN)模型，也可以是其他更为复杂的大规模模型等，本申请实施例对待训练模型的具体网络结构不做限定。

待训练模型从功能上可以划分为特征提取模块和预测模块，特征提取模块用于对输入的样本进行特征提取，预测模块用于根据提取得到的特征进行预测得到预测结果。另外，为了实现从广泛大量的包含任意任务无关标签的任务无关多媒体样本中挖掘知识，来抑制基于小多媒体内容样本集的学习过程中对任务无关特征的提取，可以引入额外的鉴别模块来辅助待训练模型的训练，以通过鉴别模块和特征提取模块的对抗学习来抑制学习过程中任务无关特征的提取。

具体的，服务器100可以获取多媒体内容样本集和任务无关多媒体样本集。多媒体内容样本集是多媒体内容样本组成的集合，多媒体内容样本集中的多媒体内容样本具有任务标签。任务标签可以是指能够体现机器学习所需完成的任务的标签，例如机器学习所需完成的任务是人脸表情识别任务，那么，体现表情类别的标签(例如笑、哭等)可以是任务标签，参见图1中101所示。任务无关多媒体样本集是任务无关多媒体样本组成的集合，任务无关多媒体样本可以是指额外的相对于多媒体内容样本和任务标签，样本特征空间一致，但是所含标签却与任务标签无关的样本，即任务无关多媒体样本具有任务无关标签，任务无关标签是指与任务标签无关的标签。例如机器学习所需完成的任务是人脸表情识别任务，任务标签可以是体现表情类别的标签，而体现发型的标签与体现表情的标签是无关的，故任务无关标签可以是体现发型的标签，发型可以是指头发的造型，包括颜色、长短、形状等至少一种，本方案主要以发型包括头发的颜色为例，此时发型例如可以为黑色或随机颜色，参见图1中102所示。相应的，任务无关多媒体样本可以是带有发型的人脸图像。

服务器100从任务无关多媒体样本集中确定多个预训练多媒体内容样本组，多个预训练多媒体内容样本组包括第一任务无关多媒体样本组和第二任务无关多媒体样本组，第一任务无关多媒体样本组中包括任务无关标签取特定值的任务无关多媒体样本，第二任务无关多媒体样本组中包括从任务无关多媒体样本集中随机抽取的任务无关多媒体样本。若特征提取模块提取的样本特征完全不受无关特征影响，只受无关特征以外的样本特征影响，则特征提取模块针对不同任务无关多媒体样本组输出的样本特征也应该具有相近的特征分布，而为了使得特征提取模块可以达到不受无关特征影响的目标，可以将特征提取模块与鉴别模块进行对抗训练，先利用第一任务无关多媒体样本组和第二任务无关多媒体样本组对鉴别模块进行训练，训练得到对特征分布接近的第一任务无关多媒体样本组和第二任务无关多媒体样本组具有较好辨别能力的鉴别模块，即区分第一鉴别结果和第二鉴别结果。

接着，服务器100根据多媒体内容样本集，通过特征提取模块进行特征提取得到第一样本特征，并通过预测模块对第一样本特征进行预测得到预测结果，以及根据多媒体内容样本集，通过特征提取模块进行特征提取得到第二样本特征，并通过训练得到的鉴别模块对第二样本特征进行鉴别得到第三鉴别结果，以便基于预测结果、任务标签和第三鉴别结果对待训练模型进行训练得到目标网络模型，在训练过程中除了将待训练模型原本的预测能力作为优化目标，还需要将特征提取模块避免或减少提取目标任务无关的特征作为优化目标。而若特征提取模块避免或减少提取目标任务无关的特征，则特征提取模块提取到的样本特征的特征分布将趋近于第二任务无关多媒体样本组的特征分布。

以此作为优化目标得到的目标网络模型可以从广泛大量的包含任意任务无关标签的样本中挖掘知识，来抑制基于小多媒体内容样本集的学习过程中对任务无关特征的提取(即纯化特征)，使得基于小多媒体内容样本集的学习中更多地获取任务相关的有用特征，从而增强了小多媒体内容样本集学习的效果，提高了模型的泛化性能，这一过程也可以称为提纯学习。并且由于存在广泛大量的任务无关多媒体样本集，因此实践中可操作性较高，易于增强训练效果。

接下来，将结合附图以服务器执行本申请实施例提供的方法为例，对本申请实施例提供的模型训练方法进行详细介绍。参见图2，图2示出了一种模型训练方法的流程图，所述方法包括：

S201、获取多媒体内容样本集和任务无关多媒体样本集，所述多媒体内容样本集中的多媒体内容样本具有任务标签，所述任务无关多媒体样本集中的任务无关多媒体样本具有任务无关标签。

本申请实施例的基本思想是直接从广泛大量的包含任意任务无关标签的任务无关多媒体样本中挖掘知识，来抑制基于小多媒体内容样本集的学习过程中对任务无关特征的提取，使得基于小多媒体内容样本集的学习中更多地获取任务相关的有用特征，从而负负得正，增强了小多媒体内容样本集学习的效果，提高了模型的泛化性能。

具体地说，可以将具有任务一致内容，但具有任务无关标签的样本称为任务无关多媒体样本，也可以称为兼容样本。可以从兼容样本中获取任务无关特征的先验知识，这些知识具体指任务无关特征在特征提取过程中如何表达。借由它们可以抑制任务无关特征在特征提取过程中的表达，进而更加关注那些与任务相关的特征，以提升模型的泛化性能。

为了结合兼容样本与多媒体内容样本的使用，本申请实施例提供一种全新的训练框架，称为提纯学习。参见图3所述，图3示出了一种提纯学习的框架示例图，在该框架下，待训练模型包括特征提取模块301和预测模块302，另外，引入额外的鉴别模块303，以辅助学习任务无关多媒体样本所蕴含的先验知识。其中，特征提取模块301用于进行特征提取，可以用f_e表示。预测模块302用于根据提取到的样本特征进行预测，得到预测结果，可以用f_c表示。基于模型功能的不同，执行的任务不同，预测模块302可以有所不同，例如执行的任务属于分类任务(例如人脸表情识别任务)，则预测模块302可以是分类模块。鉴别模块303可以用D表示。

基于上述理论分析，在本申请实施例中，服务器可以获取多媒体内容样本集和任务无关多媒体样本集，多媒体内容样本集中的多媒体内容样本具有任务标签，任务无关多媒体样本集中的任务无关多媒体样本具有任务无关标签。其中，多媒体内容样本集可以表示为Set_s，任务无关多媒体样本集可以表示为Set_u。

需要说明的是，在不同的应用场景下，机器学习所需完成的任务不同，即与任务标签相匹配的任务不同，相应的，所获取的多媒体内容样本和任务无关多媒体样本的类型也可能有所不同，多媒体内容样本、任务标签，以及任务无关多媒体样本、任务无关标签也会有所不同。综合各种应用场景，多媒体内容样本和任务无关多媒体样本的类型可以是图像、文本、视频或音频。

通常情况下，与任务标签相匹配的任务可以为人脸表情识别任务、数字识别任务或语音识别任务等等，本申请实施例对此不做限定。在人脸表情识别任务和数字识别任务中，多媒体内容样本和任务无关多媒体样本的类型可以为图像；在搜索结果推荐任务中，多媒体内容样本和任务无关多媒体样本的类型可以为文本；在视频推荐任务中，多媒体内容样本和任务无关多媒体样本的类型可以为视频；在语音识别任务中，多媒体内容样本和任务无关多媒体样本的类型为音频。

相应的，在不同任务下，多媒体内容样本、任务标签，以及任务无关多媒体样本、任务无关标签也会有所不同。

在一种可能的实现方式中，若与任务标签相匹配的任务为人脸表情识别任务，则多媒体内容样本集中的多媒体内容样本可以为人脸图像，任务标签可以为表情标签。任务无关多媒体样本可以是指额外的相对于多媒体内容样本和任务标签，样本特征空间一致，但是所含标签却与任务标签无关的样本。当多媒体内容样本为人脸图像，任务标签为表情标签时，任务无关多媒体样本和任务无关标签可能存在多种可能，例如任务无关多媒体样本集中的任务无关多媒体样本为带有发型的人脸图像，任务无关标签为发型标签，此时多媒体内容样本和任务无关多媒体样本的样本内容虽然都是人脸，但是发型标签与表情标签确实是无关的。参见图3所示，多媒体内容样本集可以参见图3中304所示，任务无关多媒体样本集可以参见图3中305所示。

当然任务无关多媒体样本和任务无关标签也可以是其他可能，例如任务无关多媒体样本为带有脸型的人脸图像，任务无关标签为脸型标签，等等。

在本申请实施例中，任务无关多媒体样本是较为容易取得的，比如在人脸表情识别任务中，虽然人脸表情识别任务的数据集可能较少，但是也存在相当多的其他人脸任务的数据集，比如人脸识别数据集，人脸检测数据集。在实际任务中，对于样本内容相同的数据集通常存在数量繁多的子任务，其中众多子任务也可能彼此无关，这些任务和它们所对应的数据集为选择任务无关多媒体样本提供了广泛的可能性，从而易于获取任务无关多媒体样本集，在实践中具有可操作性。

S202、从所述任务无关多媒体样本集中确定多个预训练多媒体内容样本组，所述多个预训练多媒体内容样本组包括第一任务无关多媒体样本组和第二任务无关多媒体样本组，所述第一任务无关多媒体样本组中包括任务无关标签取特定值的任务无关多媒体样本，所述第二任务无关多媒体样本组中包括从所述任务无关多媒体样本集中随机抽取的任务无关多媒体样本。

任务无关多媒体样本含有能够找到对原有任务没有帮助的特征的先验知识。举例来说，发型标签是对于人脸表情识别任务的任务无关标签，及其所对应的样本特征(例如头发的颜色)也与人脸表情识别任务无关。使训练得到的模型避免或减少的提取这些任务无关标签所对应的样本特征，将有助于训练得到的模型专注于对原任务至关重要的特征。同时由于在实际的应用中，由于数据域的差异，可能在测试域这些无关特征和训练域具有较大的差异，减少或避免模型提取这些无关的特征将有助于减缓这些无关特征分布发生变化时对模型的影响，进而提升模型的鲁棒性和泛化性。

为此，服务器将在模型训练过程中基于任务无关多媒体样本进行学习。从理论上分析上来说，可以定义多媒体内容样本集的特征空间为X_s，多媒体内容样本集所含有的任务标签空间为Y_s。则对应的任务无关多媒体样本集的特征空间X_u，需要满足X_u＝X_s。

定义任务无关多媒体样本集的任务无关标签空间为Y_u，根据无关性，对任意任务标签y_s∈Y_s，任务无关标签y_u∈Y_u有：

P(y_s|y_u)＝P(y_s)

对于任务标签y_s对应的样本特征x_s，x_s∈X_s，则应该有：

P(x_s|y_u)＝P(x_s)

由上式可以知道，对于在任务无关多媒体样本集中从某一任务无关标签下任取的任务无关多媒体样本，和从整个任务无关多媒体样本数据集中任取的任务无关多媒体样本，其与目标任务相关的样本特征的特征分布应该接近。如果通过特征提取模块提取出的样本特征有较大的差异，则说明模型提取出的样本特征，有相当多的样本特征是任务无关的，这就是所说通过任务无关多媒体样本来判断模型是否抽取了任务无关特征。

基于上述理论，为了使得特征提取模块可以达到不受无关特征影响的目标，服务器先基于任务无关多媒体样本集学习任务无关特征的先验知识。在此过程中，可以对特征提取器模块和鉴别模块采用对抗训练的方式，特征提取模块尽量提取到不受无关特征影响，只受无关特征以外的样本特征影响，即特征提取模块针对不同任务无关多媒体样本组输出的样本特征尽量具有相近的特征分布，而鉴别模块尽量对特征分布接近的任务无关多媒体样本组具有较好辨别能力。由于特征提取模块同时还会影响正常的预测功能，故在本实施例中，可以先对鉴别模块进行训练。

为了训练鉴别模块，服务器可以从任务无关多媒体样本集中确定多个预训练多媒体内容样本组，多个预训练多媒体内容样本组包括第一任务无关多媒体样本组和第二任务无关多媒体样本组，第一任务无关多媒体样本组中包括任务无关标签取特定值的任务无关多媒体样本，第二任务无关多媒体样本组中包括从任务无关多媒体样本集中随机抽取的任务无关多媒体样本。

由于第二任务无关多媒体样本组中的任务无关多媒体样本是随机的，即任务无关特征体现不明显，第一任务无关多媒体样本组中的任务无关多媒体样本的任务无关标签是取特定值的，即任务无关特征较为明显。因此，若第一任务无关多媒体样本组和第二任务无关多媒体样本组所对应的样本特征的特征分布接近，则可以认为特征提取模块可以不受无关特征影响。而样本特征的特征分布可以通过鉴别结果来体现，鉴别模块尽量对特征分布接近的任务无关多媒体样本组具有较好辨别能力，为此，本申请实施例选择了第一任务无关多媒体样本组和第二任务无关多媒体样本组构成的多个预训练多媒体内容样本组来对鉴别模块进行训练。

若与任务标签相匹配的任务为人脸表情识别任务，多媒体内容样本集中的多媒体内容样本为人脸图像，任务标签为表情标签，任务无关多媒体样本为带有发型的人脸图像，任务无关标签为发型标签，则第一任务无关多媒体样本组中包括发型标签为某一特定值的任务无关多媒体样本，例如第一任务无关多媒体样本组中可以包括发型标签为黑色的任务无关多媒体样本，第二任务无关多媒体样本组中可以包括发型为随机颜色的任务无关多媒体样本。其中，第一任务无关多媒体样本组和第二任务无关多媒体样本组可以参见图3中306所示。第一任务无关多媒体样本组可以用A表示，第二任务无关多媒体样本组可以用B表示。

S203、利用所述第一任务无关多媒体样本组和所述第二任务无关多媒体样本组对鉴别模块进行训练，使得所述鉴别模块基于所述第一任务无关多媒体样本组得到的第一鉴别结果区别于基于所述第二任务无关多媒体样本组得到的第二鉴别结果。

当第一任务无关多媒体样本组和第二任务无关多媒体样本组中的任务无关多媒体样本数量较多时，可以认为这两个样本组除了任务无关标签所对应的样本特征以外，其他的样本特征应该具有相近的特征分布。如果特征提取模块完全不受任务无关特征影响，只受任务无关特征以外的特征影响，则特征提取模块输出的样本特征也应该具有相近的特征分布。而样本特征的特征分布可以通过其对应的鉴别结果表示，为此可以利用第一任务无关多媒体样本组和第二任务无关多媒体样本组对鉴别模块进行训练，在特征提取模块输出特征分别接近的样本特征时，鉴别模块尽量能够基于这样的样本特征进行鉴别。

在一种可能的实现方式中，利用第一任务无关多媒体样本组和第二任务无关多媒体样本组对鉴别模块进行训练的方式可以是通过特征提取模块对第一任务无关多媒体样本组进行特征提取，得到与目标任务相关的第三样本特征；以及通过特征提取模块对第二任务无关多媒体样本组进行特征提取，得到与目标任务相关的第四样本特征，目标任务是与任务标签相匹配的任务；根据第三样本特征，通过鉴别模块进行鉴别得到第一鉴别结果，以及根据第四样本特征，通过鉴别模块进行鉴别得到第二鉴别结果；根据第一鉴别结果和第二鉴别结果构建第一损失函数，第一损失函数用于标识第一鉴别结果与第二鉴别结果之间的鉴别差异；通过第一损失函数，基于最大化鉴别差异的训练方向对鉴别模块进行训练。

由于第一损失函数用于标识第一鉴别结果与第二鉴别结果之间的鉴别差异，而两个特征分布之间的距离可以衡量两个特征分布之间的差别，进而衡量第一鉴别结果与第二鉴别结果之间的差别，故第一损失函数可以是计算第一鉴别结果与第二鉴别结果之间的距离的函数。该距离例如可以是Wasserstein distance(也称推土机距离(Earth Mover’sDistance，EMD))、最大均值差异(Maximum Mean Discrepancy，MMD)等，本申请实施例主要以Wasserstein distance为例进行介绍。

当第一任务无关多媒体样本组可以用A表示，第二任务无关多媒体样本组可以用B表示时，通过特征提取模块f_e提取与目标任务相关的样本特征,对于A和B两个样本组，分别得到第三样本特征O_A和第四样本特征O_B:

O_A＝{f_e(x)|x∈A}

O_B＝{f_e(x)|x∈B}

其中，x为任务无关多媒体样本，x∈A表示x为第一任务无关多媒体样本组中的任务无关多媒体样本，x∈B表示x为第二任务无关多媒体样本组中的任务无关多媒体样本。

故本申请实施例设计的额外的对抗目标以使O_A和O_B的特征分布接近，这里P(O_A)和P(O_B)代表O_A和O_B的特征分布,使用Wasserstein distance度量两组样本特征的特征分布，基于Kantorovich-Rubinstein duality对偶性，表示为：

其中，WD(P(OA),P(OB))表示P(O_A)和P(O_B)之间的Wasserstein distance；P(O_A)代表O_A的特征分布，也可以称为第一鉴别结果；P(O_B)代表O_B的特征分布，也可以称为第二鉴别结果；fw表示鉴别模块，fe表示特征提取模块，x表示任务无关多媒体样本，

表示计算期望，sup表示计算最小上界，L为利普希茨(Lipschitz)连续条件，表示对所有满足1-Lipschitz限制的函数fw取到

的上界。

在本申请实施例中D起到了fw的作用，故可以通过O_A和O_B的来训练D:

此时，第一损失函数可以表示为

上述公式表示通过优化鉴别模块增大

的值，即基于最大化鉴别差异的训练方向对鉴别模块进行训练，直到得到

的最大值。

S204、根据所述多媒体内容样本集，通过所述特征提取模块进行特征提取得到第一样本特征，并通过所述预测模块对所述第一样本特征进行预测得到预测结果；以及根据所述多媒体内容样本集，通过所述特征提取模块进行特征提取得到第二样本特征，并通过训练得到的鉴别模块对所述第二样本特征进行鉴别得到第三鉴别结果。

在完成鉴别模块的训练后，可以对待训练模型进行训练。在对待训练模型进行训练过程中，优化目标主要包括两个方面，第一方面是原本的目标任务的优化目标，使得待训练模型可以学习多媒体内容样本集和任务标签所包含的知识。第二方面是希望鉴别模块对于任务无关标签具有不同值的任务无关多媒体样本，通过待训练模型提取出的特征分布相近，借此使得模型避免或减少学习无关特征的目标。在完成鉴别模块的训练后，基于上述两个目标，服务器还可以根据多媒体内容样本集，通过特征提取模块进行特征提取得到第一样本特征，并通过预测模块对第一样本特征进行预测得到预测结果；以及根据多媒体内容样本集，通过特征提取模块进行特征提取得到第二样本特征，并通过训练得到的鉴别模块对第二样本特征进行鉴别得到第三鉴别结果，以便继续基于预测结果、任务标签和第三鉴别结果对待训练模型进行训练得到目标网络模型。

需要说明的是，特征提取模块进行特征提取所针对的多媒体内容样本虽然都是来自多媒体内容样本集，但是由于多媒体内容样本集中可能包括多个多媒体内容样本，因此，所针对的多媒体内容样本可能不会完全相同。例如一个可能针对多媒体内容样本集中的全部多媒体内容样本进行特征提取，一个可能针对多媒体内容样本集中的部分多媒体内容样本进行特征提取。并且，提取得到的样本特征输入到不同的模块，分别是预测模块和鉴别模块。综上所述，此步骤中将特征提取模块提取并输入到不同模块的样本特征进行区分，输入到预测模块的样本特征称为第一样本特征，输入到鉴别模块的样本特征称为第二样本特征。第一样本特征与第二样本特征可能相同，也可能不同。

需要说明的是，针对上述两个优化目标都使用多媒体内容样本集，为了提高模型的泛化能力，提高模型的鲁棒性，可以使得两个优化目标所使用的多媒体内容样本有所区别。在一种可能的实现方式中，在根据多媒体内容样本集，通过特征提取模块进行特征提取得到第二样本特征时，服务器可以从多媒体内容样本集中抽取目标样本组，进而通过特征提取模块对目标样本组中的多媒体内容样本进行特征提取，得到第二样本特征。由于目标样本组是从多媒体内容样本集中随机抽取的，因此，该过程所使用的多媒体内容样本可能与执行目标任务所使用的多媒体内容样本有所区别，进而提高模型的泛化能力，提高模型的鲁棒性。

例如目标样本组可以通过S表示，第二样本特征可以通过O_s表示，则有O_s＝{f_e(x)|x∈S}。其中，x表示目标样本组中的多媒体内容样本。

S205、基于所述预测结果、所述任务标签和所述第三鉴别结果对所述待训练模型进行训练得到目标网络模型，所述目标网络模型中特征提取模块提取得到的样本特征的特征分布趋近于所述第二任务无关多媒体样本组的特征分布。

服务器基于预测结果、任务标签和第三鉴别结果对待训练模型进行训练得到目标网络模型，目标网络模型中特征提取模块提取得到的样本特征的特征分布趋近于第二任务无关多媒体样本组的特征分布，即上述第二方面的优化目标。另外，还要保证目标网络模型对于多媒体内容样本集可以得到较好的预测结果，即上述第一方面的优化目标。

为了实现上述两方面的优化目标，在一种可能的实现方式中，基于预测结果、任务标签和第三鉴别结果对待训练模型进行训练得到目标网络模型的方式可以是根据预测结果、任务标签和第三鉴别结果构建目标损失函数，目标损失函数用于标识预测结果与任务标签之间的预测误差(即第一方面的优化目标)，以及特征提取模块提取到的第二样本特征的特征分布与第二任务无关多媒体样本组的特征分布之间的相似度差距(即第二方面的优化目标)。进而根据目标损失函数，基于最小化预测误差、最小化相似度差距的训练方向对待训练模型进行训练得到目标网络模型。

可以理解的是，若要目标损失函数可以同时体现上述两个方面的优化目标，根据预测结果、任务标签和第三鉴别结果构建目标损失函数的方式可以是基于预测结果和任务标签构建第二损失函数，第二损失函数用于标识待训练模型的预测误差。基于第三鉴别结果构建第三损失函数，第三损失函数用于标识特征提取模块提取到的第二样本特征的特征分布与第二任务无关多媒体样本组的特征分布之间的相似度差距。然后，基于第二损失函数和第三损失函数构建目标损失函数。

在这种情况下，目标损失函数表示如下：

Loss＝λ₁Loss_{cassification}+λ₂Loss_wasserstein

其中，Loss表示目标损失函数，Loss_{cassification}表示第二损失函数，Loss_wasserstein表示第三损失函数，λ₁和λ₂为常系数，其取值可以根据实际优化目标的需求进行设置。若更加看重第一方面的优化目标，则可以设置λ₁大于λ₂，反之，设置λ₁小于λ₂。

对于多媒体内容样本集中一个输入的多媒体内容样本和任务标签x,y，(x,y)∈Set_s,其输出的预测结果可以用概率p表示，其公式如下所示:

p＝softmax(f_c(f_e(x)))

其中，p表示预测结果，softmax()表示归一化指数函数，f_e表示特征提取模块，f_c表示预测模块。

优化目标为最小化预测误差：

则实际的第二损失函数为：

其中，Set_s表示多媒体内容样本集，x表示多媒体内容样本集中的多媒体内容样本，y表示任务标签。

对于目标样本组中的多媒体内容样本，如果这批多媒体内容样本的特征分布接近第二任务无关多媒体样本组的特征分布，则Wasserstein distance很小。但是，如果这批多媒体内容样本的特征分布接近于第一任务无关多媒体样本组的特征分布，则意味着多媒体内容样本中任务无关特征对特征提取过程有严重影响，Wasserstein distance较大。因此，可以训练特征提取模块以减少Wasserstein distance，从而减少特征提取过程中无关特征的影响。若第二样本特征的特征分布与第二任务无关多媒体样本组的特征分布越接近，说明第二样本特征对于任务无关特征体现越不明显，相应的，训练好的鉴别模块基于这种第二样本特征越难以鉴别，即得到的第三鉴别结果越小。因此，在本申请实施例中可以通过第三鉴别结果确定优化目标：

其中，D表示鉴别模块，f_e表示特征提取模块，x表示目标样本组中的多媒体内容样本，S为目标样本组，优化目标为使得鉴别模块输出的第三鉴别结果尽可能小。

故有第三损失函数：

第二损失函数用于标识待训练模型的预测误差，第二损失函数越小，预测误差越小；第三损失函数用于标识特征提取模块提取到的第二样本特征的特征分布与第二任务无关多媒体样本组的特征分布之间的相似度差距，第三鉴别结果越小，第三损失函数越小，即相似度差距越小。故基于最小化预测误差、最小化相似度差距的训练方向对待训练模型进行训练，可以得到减少任务无关特征影响、预测较为准确的目标网络模型。

在实际的模型训练过程中，本申请实施例中，一次可以输入m个多媒体内容样本，m代表训练的批大小(Batch Size)，每一个训练轮次中鉴别模块训练次数为n，n是模型的一个超参数。用于第二方面优化目标的系数也是一个超参数。基于梯度的更新可以使用任何标准的基于梯度的学习规则，本实施例可以采用随机梯度下降法(Stochastic GradientDescent，SGD)进行更新。

在另一种可能的实现方式中，提纯学习还可以与迁移学习相结合，从而通过任务相关多媒体样本集获取额外的知识，以辅助小多媒体内容样本集的模型训练。由于迁移学习会可能会带来任务相关多媒体样本集上的更大的噪声，为了可以在目标任务训练过程中通过提纯学习进行剔除，在提纯学习与迁移学习的结合中，则可以先进行迁移学习，再在目标任务上进行提纯学习。基于此，在一种可能的实现方式中，可以利用任务相关多媒体样本集对初始神经网络模型进行预训练，得到待训练模型，进而在已经进行了迁移学习的待训练模型的基础上做进一步提纯学习，从而提高模型训练的效率和模型的泛化能力。

其中，任务相关多媒体样本集是任务相关多媒体样本的集合，任务相关多媒体样本集所对应的任务与目标任务具有关联关系，目标任务是与任务标签相匹配的任务。任务相关多媒体样本的类型与多媒体内容样本、任务无关多媒体样本的类型相同。提纯学习与迁移学习的结合可以参见图4所示，通过初始神经网络模型的特征相关提取模块3072对任务相关多媒体样本集3071进行特征提取得到任务相关特征3073，通过任务相关预测模块3074进行预测，得到相关预测结果3075。进而基于相关预测结果3075对初始神经网络模型进行预训练，得到待训练模型，再进行后续提纯学习。

需要说明的是，在两个广泛的任务(FER和DR)和公开的数据集(包括训练集-测试集)上，将本申请实施例与相关技术进行了充分对比，对比结果参见表1和表2所示：

表1

表2

在上述表1和表2中，特征提取模块分别可以采用不同的网络结构，例如AlexNet、ResNet34、VggNet19、DenseNet121、EfficientNet、MobileNetV2、RestNet18、SeNet、VggNet11等网络结构，并针对每种网络结构的特征提取模块，基于训练集和测试集组合，采用多个相关技术(例如相关技术1、相关技术2、相关技术3、相关技术4)和本申请实施例提供的方法对模型进行训练，得到训练得到的模型的准确率(例如表1和表2中每列方法下对应的数字所示)。通过上述表1和表2可以看出，无论是哪种网络结果的特征提取模块以及训练集-测试集，通过本申请实施例提供的方法得到的模型，其准确率高于其他几种相关技术。也就是说，本申请实施例提供的模型训练方法明显优于相关技术，在小规模多媒体内容样本集的场景下，获得了更为优越的性能。

上述对本申请实施例提供的模型训练方法进行了详细介绍。基于上述介绍，本申请实施例还提供了一种模型训练方法。该方法以目标任务为人脸表情识别任务为例，此时预测模块可以为分类模块，则多媒体内容样本集中的多媒体内容样本可以为人脸图像，任务标签可以为表情标签，任务无关多媒体样本集中的任务无关多媒体样本可以为带有发型的人脸图像，任务无关标签为发型标签。参见图5，图5示出了一种模型训练方法的流程图，所述方法包括：

S501、服务器根据多媒体内容样本集，通过特征提取模块进行特征提取得到第一样本特征，并通过分类模块对第一样本特征进行预测得到预测结果。

S502、服务器根据预测结果和表情标签构建第二损失函数。

S503、选择发型标签为黑色的第一任务无关多媒体样本组和发型为随机颜色的第二任务无关多媒体样本组。

S504、服务器通过特征提取模块对第一任务无关多媒体样本组进行特征提取，得到与目标任务相关的第三样本特征；以及通过特征提取模块对第二任务无关多媒体样本组进行特征提取，得到与目标任务相关的第四样本特征。

S505、服务器根据第三样本特征，通过鉴别模块进行鉴别得到第一鉴别结果，以及根据第四样本特征，通过鉴别模块进行鉴别得到第二鉴别结果。

S506、服务器根据第一鉴别结果和第二鉴别结果构建第一损失函数。

S507、服务器通过第一损失函数，基于最大化鉴别差异的训练方向对鉴别模块进行训练。

S508、从多媒体内容样本集中选取目标样本组。

S509、服务器通过特征提取模块对目标样本组中的多媒体内容样本进行特征提取，得到第二样本特征。

S510、服务器通过训练得到的鉴别模块对第二样本特征进行鉴别得到第三鉴别结果。

S511、服务器基于第三鉴别结果构建第三损失函数。

S512、服务器基于第二损失函数和第三损失函数构建目标损失函数，并通过目标损失函数基于最小化预测误差、最小化相似度差距的训练方向对待训练模型进行训练得到目标网络模型。

S501-S512的具体实现方式可以基于图2对应的实施例所述，本申请实施例对此不再赘述。

在利用上述模型训练方法得到目标网络模型后，可以使用该目标网络模型执行各种任务，例如人脸识别任务、人脸表情识别任务、数字识别任务、语音识别任务等。在使用该目标网络模型时，可以获取待处理多媒体内容，将待处理多媒体内容输入目标网络模型，通过目标网络模型中的特征提取模块对待处理多媒体内容进行特征提取，然后基于提取得到的多媒体内容特征，通过目标网络模型中的预测模块进行预测得到目标预测结果。由于目标网络模型中的特征提取模块可以抑制对任务无关特征的提取，使其在执行任务时可以更加关注于提取任务相关的有用特征，进而提高目标预测结果的准确性。

以人脸表情识别任务为例，待处理多媒体内容可以是待处理人脸图像，将待处理人脸图像输入目标网络模型，通过目标网络模型中的特征提取模块对待处理人脸图像进行特征提取，然后基于提取得到的多媒体内容特征，通过目标网络模型中的预测模块进行预测得到表情识别结果(即目标预测结果)。

需要说明的是，本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

基于图2对应实施例提供的模型训练方法，本申请实施例还提供一种模型训练装置600。待训练模型包括特征提取模块和预测模块，参见图6，所述模型训练装置600包括获取单元601、确定单元602、训练单元603、提取单元604和预测单元605：

所述获取单元601，用于获取多媒体内容样本集和任务无关多媒体样本集，所述多媒体内容样本集中的多媒体内容样本具有任务标签，所述任务无关多媒体样本集中的任务无关多媒体样本具有任务无关标签；

所述确定单元602，用于从所述任务无关多媒体样本集中确定多个预训练多媒体内容样本组，所述多个预训练多媒体内容样本组包括第一任务无关多媒体样本组和第二任务无关多媒体样本组，所述第一任务无关多媒体样本组中包括任务无关标签取特定值的任务无关多媒体样本，所述第二任务无关多媒体样本组中包括从所述任务无关多媒体样本集中随机抽取的任务无关多媒体样本；

所述训练单元603，用于利用所述第一任务无关多媒体样本组和所述第二任务无关多媒体样本组对鉴别模块进行训练，使得所述鉴别模块基于所述第一任务无关多媒体样本组得到的第一鉴别结果区别于基于所述第二任务无关多媒体样本组得到的第二鉴别结果；

所述提取单元604，用于根据所述多媒体内容样本集，通过所述特征提取模块进行特征提取得到第一样本特征，以及通过所述特征提取模块进行特征提取得到第二样本特征；

所述预测单元605，用于通过所述预测模块对所述第一样本特征进行预测得到预测结果，以及通过训练得到的鉴别模块对所述第二样本特征进行鉴别得到第三鉴别结果；

所述训练单元603，还用于基于所述预测结果、所述任务标签和所述第三鉴别结果对所述待训练模型进行训练得到目标网络模型，所述目标网络模型中特征提取模块提取得到的样本特征的特征分布趋近于所述第二任务无关多媒体样本组的特征分布。

在一种可能的实现方式中，所述训练单元603，具体用于：

通过所述特征提取模块对所述第一任务无关多媒体样本组进行特征提取，得到与目标任务相关的第三样本特征；以及通过所述特征提取模块对所述第二任务无关多媒体样本组进行特征提取，得到与所述目标任务相关的第四样本特征，所述目标任务是与所述任务标签相匹配的任务；

根据所述第三样本特征，通过所述鉴别模块进行鉴别得到所述第一鉴别结果，以及根据所述第四样本特征，通过所述鉴别模块进行鉴别得到所述第二鉴别结果；

根据所述第一鉴别结果和所述第二鉴别结果构建第一损失函数，所述第一损失函数用于标识所述第一鉴别结果与所述第二鉴别结果之间的鉴别差异；

通过所述第一损失函数，基于最大化所述鉴别差异的训练方向对所述鉴别模块进行训练。

在一种可能的实现方式中，所述训练单元603，具体用于：

根据所述预测结果、所述任务标签和所述第三鉴别结果构建目标损失函数，所述目标损失函数用于标识所述预测结果与所述任务标签之间的预测误差，以及所述特征提取模块提取到的第二样本特征的特征分布与所述第二任务无关多媒体样本组的特征分布之间的相似度差距；

根据所述目标损失函数，基于最小化所述预测误差、最小化所述相似度差距的训练方向对所述待训练模型进行训练得到所述目标网络模型。

在一种可能的实现方式中，所述训练单元603，具体用于：

基于所述预测结果和所述任务标签构建第二损失函数，所述第二损失函数用于标识所述待训练模型的预测误差；

基于所述第三鉴别结果构建第三损失函数，所述第三损失函数用于标识所述特征提取模块提取到的第二样本特征的特征分布与所述第二任务无关多媒体样本组的特征分布之间的相似度差距；

基于所述第二损失函数和所述第三损失函数构建所述目标损失函数。

在一种可能的实现方式中，所述提取单元604，具体用于：

从所述多媒体内容样本集中抽取目标样本组；

通过所述特征提取模块对所述目标样本组中的多媒体内容样本进行特征提取，得到所述第二样本特征。

在一种可能的实现方式中，所述装置还包括预训练单元：

所述预训练单元，用于利用任务相关多媒体样本集对初始神经网络模型进行预训练，得到所述待训练模型，所述任务相关多媒体样本集所对应的任务与目标任务具有关联关系，所述目标任务是与所述任务标签相匹配的任务。

在一种可能的实现方式中，所述多媒体内容样本和所述任务无关多媒体样本的类型包括图像、文本、视频或音频。

在一种可能的实现方式中，与所述任务标签相匹配的任务为人脸表情识别任务、数字识别任务、搜索结果推荐任务、视频推荐任务或语音识别任务；

在人脸表情识别任务和数字识别任务中，所述多媒体内容样本和所述任务无关多媒体样本的类型为图像；

在搜索结果推荐任务中，所述多媒体内容样本和所述任务无关多媒体样本的类型为文本；

在视频推荐任务中，所述多媒体内容样本和所述任务无关多媒体样本的类型为视频；

在所述语音识别任务中，所述多媒体内容样本和所述任务无关多媒体样本的类型为音频。

在一种可能的实现方式中，若与所述任务标签相匹配的任务为人脸表情识别任务，所述多媒体内容样本集中的多媒体内容样本为人脸图像，所述任务标签为表情标签，所述任务无关多媒体样本集中的任务无关多媒体样本为带有发型的人脸图像，所述任务无关标签为发型标签；

所述第一任务无关多媒体样本组中包括发型标签为黑色的任务无关多媒体样本，所述第二任务无关多媒体样本组中包括发型为随机颜色的任务无关多媒体样本。

本申请实施例还提供了一种计算机设备，该计算机设备可以执行模型训练方法。该计算机设备例如可以是终端，以终端为智能手机为例：

图7示出的是与本申请实施例提供的智能手机的部分结构的框图。参考图7，智能手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(英文缩写：WiFi)模块770、处理器780、以及电源790等部件。输入单元730可包括触控面板731以及其他输入设备732，显示单元740可包括显示面板741，音频电路760可以包括扬声器761和传声器762。可以理解的是，图7中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器780是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行智能手机的各种功能和处理数据。可选的，处理器780可包括一个或多个处理单元；优选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

在本实施例中，智能手机中的处理器780可以执行以下步骤：

本申请实施例提供的计算机设备还可以是服务器，请参见图8所示，图8为本申请实施例提供的服务器800的结构图，服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。

服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

在本实施例中，服务器800中的中央处理器822可以执行以下步骤：

根据本申请的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述各个实施例所述的模型训练方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术成员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，其特征在于，待训练模型包括特征提取模块和预测模块，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述第一任务无关多媒体样本组和所述第二任务无关多媒体样本组对鉴别模块进行训练，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述预测结果、所述任务标签和所述第三鉴别结果对所述待训练模型进行训练得到目标网络模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述预测结果、所述任务标签和所述第三鉴别结果构建目标损失函数，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述多媒体内容样本集，通过所述特征提取模块进行特征提取得到第二样本特征，包括：

从所述多媒体内容样本集中抽取目标样本组；

6.根据权利要求1所述的方法，其特征在于，所述获取多媒体内容样本集和任务无关多媒体样本集之前，所述方法还包括：

利用任务相关多媒体样本集对初始神经网络模型进行预训练，得到所述待训练模型，所述任务相关多媒体样本集所对应的任务与目标任务具有关联关系，所述目标任务是与所述任务标签相匹配的任务。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述多媒体内容样本和所述任务无关多媒体样本的类型包括图像、文本、视频或音频。

8.根据权利要求7所述的方法，其特征在于，与所述任务标签相匹配的任务为人脸表情识别任务、数字识别任务、搜索结果推荐任务、视频推荐任务或语音识别任务；

9.根据权利要求8所述的方法，其特征在于，若与所述任务标签相匹配的任务为人脸表情识别任务，所述多媒体内容样本集中的多媒体内容样本为人脸图像，所述任务标签为表情标签，所述任务无关多媒体样本集中的任务无关多媒体样本为带有发型的人脸图像，所述任务无关标签为发型标签；

10.一种模型训练装置，其特征在于，待训练模型包括特征提取模块和预测模块，所述装置包括获取单元、确定单元、训练单元、提取单元和预测单元：

11.根据权利要求10所述的装置，其特征在于，所述训练单元，具体用于：

12.根据权利要求10所述的装置，其特征在于，所述训练单元，具体用于：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-9任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码当被处理器执行时使所述处理器执行权利要求1-9任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-9任一项所述的方法。