CN114358250A

CN114358250A - 数据处理方法、装置、计算机设备、介质及程序产品

Info

Publication number: CN114358250A
Application number: CN202111671024.6A
Authority: CN
Inventors: 王全子昂; 李悦翔; 魏东; 马锴; 郑冶枫; 孟德宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-15

Abstract

本申请实施例公开了一种数据处理方法、装置、计算机设备、介质及程序产品，该数据处理方法包括：根据目标模型构建参考网络模型，参考网络模型包括参考主网络；获取元图像样本集，并采用训练图像样本集和元图像样本集对参考网络模型进行训练，得到元损失，以采用元损失更新目标模型中的元网络，得到更新后的元网络；根据更新后的元网络和一次或多次训练后的主网络对训练图像样本集进行识别处理，得到训练图像样本集包括的不同任务的样本图像之间的关联关系；基于关联关系对一次或多次训练后的主网络进行迭代更新，直至得到训练完成的目标模型，训练完成的目标模型用于进行图像识别处理。通过本申请实施例，可以有效提高模型的泛化能力。

Description

数据处理方法、装置、计算机设备、介质及程序产品

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置、计算机设备、介质及程序产品。

背景技术

随着计算机技术的不断发展，模型可通过对样本数据的学习，得到训练好的模型，从而可通过调用训练好的模型进行后续的数据处理，以实现对用户在数据处理阶段的效率提升。当前，由于进行模型训练的样本数量较大，因此在进行模型训练时，为了学习的模型的性能，可采用持续学习的方法，而持续学习要求模型在学习新任务的同时，避免遗忘过去学习的任务的知识，因此，在现阶段基于持续学习的模型训练方法通常是是基于重放(rehearsal-based)的方法，例如经验重放(experience replay)的模型学习方法。基于重放的模型学习方法通过保留过去任务的少量数据作为记忆缓存，进而可将记忆缓存中的数据与新任务获取的数据共同结合进行模型训练，但经实践表明，当前基于重放的模型学习方法容易在旧任务上过拟合，从而导致学习到的模型在实际应用中的泛化能力差的问题。

发明内容

本申请实施例提供一种数据处理方法、装置、计算机设备、介质及程序产品，可以有效提高模型的泛化能力。

一方面，本申请实施例提供了一种数据处理方法，包括：

根据目标模型构建参考网络模型，参考网络模型包括参考主网络，参考主网络是对目标模型一次或多次训练后的主网络进行复制得到的，目标模型的主网络是采用训练图像样本集进行一次或多次训练的；

获取元图像样本集，并采用训练图像样本集和元图像样本集对参考网络模型进行训练，得到元损失，以采用元损失更新目标模型中的元网络，得到更新后的元网络；

根据更新后的元网络和一次或多次训练后的主网络对训练图像样本集进行识别处理，得到训练图像样本集包括的不同任务的样本图像之间的关联关系；

基于关联关系对一次或多次训练后的主网络进行迭代更新，直至得到训练完成的目标模型，训练完成的目标模型用于进行图像识别处理。

一方面，本申请实施例提供了一种数据处理装置，包括：

构建模块，用于根据目标模型构建参考网络模型，参考网络模型包括参考主网络，参考主网络是对目标模型一次或多次训练后的主网络进行复制得到的，目标模型的主网络是采用训练图像样本集进行一次或多次训练的；

获取模块，用于获取元图像样本集；

训练模块，用于采用训练图像样本集和元图像样本集对参考网络模型进行训练，得到元损失，以采用元损失更新目标模型中的元网络，得到更新后的元网络；

处理模块，用于根据更新后的元网络和一次或多次训练后的主网络对训练图像样本集进行识别处理，得到训练图像样本集包括的不同任务的样本图像之间的关联关系；

训练模块，还用于基于关联关系对一次或多次训练后的主网络进行迭代更新，直至得到训练完成的目标模型，训练完成的目标模型用于进行图像识别处理。

一方面，本申请实施例提供了一种计算机设备，包括：处理器、存储器以及网络接口；处理器与存储器、网络接口相连，其中，网络接口用于提供网络通信功能，存储器用于存储程序代码，处理器用于调用程序代码，以执行本申请实施例中的数据处理方法。

相应地，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行本申请实施例中的数据处理方法。

相应地，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中一方面提供的数据处理方法。

本申请提供的数据处理方案，通过构建参考网络模型，结合元图像样本集和训练图像样本集，可以帮助元网络进行更新，更新后的元网络和一次或多次训练后的主网络结合，可以智能化地挖掘出不同任务的样本图像之间的关联关系，针对不同任务的样本图像关联关系随着元网络的网络参数的变化而动态变化而非固定的，这样通过该关联关系能够更好地得到任务之间的相关性，根据关联关系再对目标模型的主网络迭代更新，可见，参考网络模型的建立，还可以实现主网络和元网络的交替更新，采用双边优化交替的方式，可以在元网络和主网络的迭代更新中更好地调整关联关系，帮助主网络进行最佳优化，从而达到更好地泛化效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请一个示例性实施例提供的一种经验重放的处理原理示意图；

图1b是本申请一个示例性实施例提供的另一种经验重放的处理原理示意图；

图2是本申请一个示例性实施例提供的一种数据处理系统的架构图；

图3是本申请一个示例性实施例提供的一种数据处理方法的流程示意图；

图4是本申请一个示例性实施例提供的一种训练主网络的方法的流程示意图；

图5是本申请一个示例性实施例提供的一种目标模型的主网络更新的示意图；

图6是本申请一个示例性实施例提供的另一种数据处理方法的流程示意图；

图7是本申请一个示例性实施例提供的一种梯度方向和损失权重的关系示意图；

图8是本申请一个示例性实施例提供的一种参考网络模型辅助元网络更新的示意图；

图9是本申请一个示例性实施例提供的一种模型训练算法流程的示意图；

图10是本申请一个示例性实施例提供的一种残差模块的结构示意图；

图11a是本申请一个示例性实施例提供的一种数据比对结果图；

图11b是本申请一个示例性实施例提供的另一种数据比对结果图；

图11c是本申请一个示例性实施例提供的又一种数据比对结果图；

图12是本申请实施例一个示例性实施例提供的一种数据处理装置的结构示意图；

图13是本申请实施例一个示例性实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的相关术语和概念进行介绍。

(1)持续学习(Continual Learning)：是指模型能够持续学习新任务，同时保留之前学习过的任务的信息。

(2)灾难性遗忘(Catastrophic Forgetting)：是持续学习中最主要的问题，是指模型在学习新任务时会过分关注新任务，并且几乎完全遗忘掉过去学习过的任务。

(3)记忆缓存(Memory Buffer)：选择少部分过去任务的数据存储在缓存中，通常记忆缓存的大小是预先设定并且保持固定，与过去任务数量无关。

(4)经验重放(Experience Replay)：属于持续学习的一种基本模型，将记忆缓存与新任务数据合并在一起，用同样的方式训练模型，从而避免模型对过去任务的遗忘。ER和DER(Dark Experience Replay)都是基于记忆缓存重放的算法，下面对这两种算法进行简要介绍。

(4.1)ER是持续学习的一种基本算法，具体处理原理如图1a所示，定义分类神经网络为

其中θ表示神经网络的参数，c(t)表示第t个任务到来时，模型已经见过的所有类别数目。ER的基本思想是将记忆缓存中的数据与新任务一起训练，从而避免遗忘。其目标函数可以写为：

其中，

表示新任务损失

的权重，

表示记忆缓存损失

的权重，其中，

是全1的n维行向量，λ是人工预先设置的一个超参数。新任务损失和记忆缓存上的损失均采用交叉熵损失(CE Loss)，具体可以通过对应的预测标签和真实标签计算。

(4.2)相比ER，DER引入了均方误差损失(Mean Square Error Loss，MSE Loss)来进一步避免遗忘。具体处理原理如图1b所示，具体而言，DER保留了在过去任务上训练的网络输出的概率预测值，并且希望模型在训练新任务时，在记忆缓存上输出的概率预测值与其对应的保留的概率值相近(二者的MSE Loss小)。其目标函数可以表示为：

其中，关于新任务损失的权重和ER保持一致，即

关于记忆缓存损失的权重则是

其中，λ_CE和λ_MSE是人工预设的超参数。

但是这两种经验重放的方式进行持续学习的效果并不是很好，这是由于记忆缓存保留样本数量较小，模型在旧任务上存在过拟合的问题，此外，对于新旧任务之间的关系上述方案也没有很好地进行挖掘。

(5)元学习(Meta Learning)：是通过构造的元数据集(meta data)指导网络学习，以增强模型泛化性和稳定性。

(6)人工智能(Artificial Intelligence，AI)：一种利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请提供的方案中对调用相应模型中的网络对样本图像和元样本图像的识别处理可以使用计算机视觉技术中的图像识别，利用新任务和旧任务混合的训练图像样本集对目标模型进行训练，属于机器学习和深度学习中所包括的持续学习。

下面将结合附图，对本申请实施例提供的数据处理系统的架构进行介绍。

请参见图2，图2是本申请一个示例性实施例提供的一种数据处理系统的结构示意图。如图2所示，包括数据库200和数据处理设备201，数据处理设备201和数据库200之间可以通过有线或无线的方式进行通信连接。

数据库200可以为数据处理设备201的本地数据库或数据处理设备201可以访问的云端数据库，该数据库200可用于存储训练图像样本集，训练图像样本集中包括多个类别的样本图像，各个样本图像携带类别标签。训练图像样本集可以是公开的图像分类数据集，诸如CIFAR-10、CIFAR-100、Tiny ImageNet等等，也可以是用户自定义的图像分类数据集，例如利用从互联网中收集的图像数据制作的图像分类数据集。

数据处理设备201可以是终端设备或服务器，在一个实施例中，终端设备可以是智能手机、平板电脑、智能可穿戴设备、智能语音交互设备、智能家电、个人电脑、车载终端等等设备，在此不做限制。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。在此不做限制。

数据处理设备201可以用于搭载目标模型和参考网络模型，通过目标模型和参考网络模型可以交替地对主网络和元网络进行优化更新。对于数据处理设备201和数据库200之间的交互过程如下：

1)数据处理设备201从数据库200中获取训练图像样本集。在一实施例中，可以将训练图像样本集按照N个任务划分为图像样本子集，N为大于等于1的整数，即一个图像样本子集对应一个任务(task)，且包括至少一种类别下的一个或多个样本图像。后续处理以任务为基础选取训练批次的样本图像，并输入目标模型或参考网络模型中进行计算。

2)数据处理设备201利用训练图像样本集对目标模型中的主网络进行一次或多次训练。在一实施例中，可以从训练图像样本集的新任务和旧任务中抽取一个训练批次的样本图像对主网络进行一次训练，一次或多次训练可以包括对主网络的较少次数的训练(例如1次/3次/5次)，每次训练选取不同训练批次的数据，这些训练批次的数据可以是预选划分好或者实时获取的。

3)在一次或多次训练结束后，复制目标模型中一次或多次训练后的主网络，和元网络一同构建参考网络模型，复制的一次或多次训练后的主网络称为参考主网络。

4)数据处理设备201获取元图像样本集，利用元图像样本集和训练图像样本集，通过参考网络模型辅助目标模型中的元网络进行更新，得到更新后的元网络。也即对于元网络的更新是在构造的参考网络模型中实现的。在一实施例中，元图像样本集是从不同任务包括的一个或多个样本图像中进行均衡采集得到的，可以视为训练图像样本集的子集。

5)数据处理设备201调用更新后的元网络和一次或多次训练后的主网络对训练图像样本集进行识别处理，并得到不同任务的样本图像之间的关联关系。在一实施例中，调用更新后的元网络同一次或多次训练后的主网络一同处理数据可以设置调用条件，例如在元网络的更新达到预设次数之后再调用，否则此处的关联关系使用人工设置的预设关联关系。之后根据关联关系对处理训练图像样本集的一次或多次训练后的主网络进行迭代更新，具体迭代更新的方式和一次或多次训练过程类似或相同。

重复执行上述步骤3)～5)，包括基于当前最新的目标模型构建参考网络模型、获取元图像样本集、对目标模型中的元网络进行更新、利用更新后的元网络和训练图像样本集对目标模型的主网络更新，直到得到训练完成的目标模型。

可见，本申请实施例提供的数据处理系统，在主网络、元网络依次更新之后，再次对主网络开启训练，后续循环交替地对主网络和元网络进行迭代更新，可以在训练过程中动态地调整元网络输出的关联关系，进而深入挖掘不同任务之间的关系。其中，目标模型和参考网络模型综合来看是一种基于元学习的持续学习模型，可以在训练新任务的过程中构建均衡的元数据集训练元网络，通过元学习对不同任务的样本图像之间的关联关系进行评估，考虑到了不同任务之间的关系，可以有效地提高模型的泛化能力。

下面结合附图，对本申请实施例提出的数据处理方法的具体实现方式进行详细阐述。请参见图3，图3是本申请一个示例性实施例提供的一种数据处理方法的流程示意图。该方法可以由计算机设备(例如图2所示的数据处理设备201)执行。其中，该数据处理方法包括但不限于以下步骤。

S301，根据目标模型构建参考网络模型。

参考网络模型包括参考主网络，参考主网络是对目标模型一次或多次训练后的主网络进行复制得到的，目标模型的主网络是采用训练图像样本集进行一次或多次训练的。

也就是说，先利用训练图像样本集对目标模型的主网络进行一次或多次训练，得到一次或多次训练后的主网络，然后复制一次或多次训练后的主网络并将其作为参考主网络，参考主网络和目标模型中的元网络一同构建为参考网络模型。

训练图像样本集可以是从数据库中获取的公开的图像分类数据集，诸如CIFAR-10、CIFAR-100、Tiny ImageNet等中的一种或多种，也可以是用户自定义的图像分类数据集，例如将从互联网中收集的图像数据打上对应的标签而制作完成的图像分类数据集。训练图像样本集中包括多个类别的样本图像，各个样本图像携带类别标签。在一实施例中，可以将训练图像样本集按照N个任务划分为图像样本子集，即每个图像样本子集对应一个任务(task)，每个图像样本子集包括至少一种类别下的一个或多个样本图像。

目标模型的主网络(Main Net)可以是任何常用的基础网络，例如残差网络ResNet、卷积神经网络(Convolutional Neural Network，CNN)、递归神经网络等等，将目标模型的主网络记为f(·；θ)，其中θ表示主网络的网络参数。利用训练图像样本集可以对目标模型中主网络进行一次或多次训练，对主网络的一次或多次训练一般为次数较少的训练，例如可能是对主网络训练一次，也可能是训练多次(例如5次、6次)，训练的次数可以自定义。对于一次或多次训练的详细过程，可以参见图4对应实施例中的介绍，在此先不做详述。目标模型的元网络(Meta Net)可以是全连接层MLP(Multilayer Perceptron，也称多层感知机，属于多层全连接神经网络模型)，将元网络记为g(·；φ)，其中，φ表示元网络的网络参数。

将一次或多次训练后的主网络进行复制得到参考主网络，也即临时主网络。该参考主网络的网络参数和一次或多次训练后的主网络的网络参数相同，例如第p步训练得到主网络的网络参数为θ^p，那么参考主网络的网络参数也为θ^p，即两个网络是完全相同的。将参考主网络作为参考网络模型，以便后续辅助元网络进行更新，具体可以参见下述步骤S302。

需要说明的是，为了更好地进行元学习，复制得到的参考主网络的网络参数可以进行调整，但由于参考网络模型主要作用是帮助元网络进行更新，因此对参考主网络的更新并不影响后续对目标模型中的主网络的网络参数。对于元网络而言，在对目标模型的主网络进行一次或多次训练的过程中，目标模型中的元网络始终保持初始化的网络参数，而在一次或多次训练结束之后，可以结合一次或多次训练后的主网络构建参考网络模型，对初始化的元网络进行更新。

S302，获取元图像样本集，并采用训练图像样本集和元图像样本集对参考网络模型进行训练，得到元损失，以采用元损失更新目标模型中的元网络，得到更新后的元网络。

由于在持续学习的设定中，只能用记忆缓存中的数据来避免遗忘，而不能使用额外的数据集，因此，元图像样本集中的数据包括从记忆缓存中采集的数据。在一实施例中，获取到的元图像样本集包括多个元样本图像，且元图像样本集是对新任务包括的当前样本图像和旧任务包括的历史样本图像进行均衡采集得到的。其中，新任务和旧任务均是训练图像样本集中的任务，区别在于是目标模型是否学习过，具体地，新任务是指目标模型正在学习的任务，旧任务是目标模型已经学习过的任务。此处将新任务中包括的样本图像称为当前样本图像，旧任务中包括的样本图像称为历史样本图像。可选地，元图像样本集也称为元数据集，训练图像样本集也称为训练数据集。

均衡采集方式可以是：从每个已学习以及正在学习的任务中采集相同数量的样本图像。示例性地，训练图像样本集包括10个任务，当前学习的新任务是第5个任务，已学习的旧任务包括4个任务，每个任务中包括2个类别的20个样本图像，可以分别从5个任务中等量采集6个样本图像组合为元图像样本集，即元图像样本集包括30个元样本图像。由于元图像样本集是均衡采集得到的，对于不同任务的样本图像的分布是均匀，可以指导元网络提取不同任务的样本图像之间的相关性。

对于参考网络模型的训练，可以首先使用训练图像样本集和元网络对参考网络模型包括的参考主网络进行迭代更新，然后利用迭代更新后的参考主网络处理元图像样本集，得到元损失，此处的元损失可以是元图像样本集中各个元样本图像的总损失或者平均损失；接着可以将元损失反向传播给元网络，利用元损失进行梯度下降计算，实现对元网络的更新。更详细地内容可以参见下述图6对应实施例的介绍，在此先不做详述。

目标模型中的元网络依据上述方式更新之后，得到的更新后的元网络也可以同步给目标模型，后续通过更新后的元网络可以更好地帮助主网络进行迭代更新，具体参见下述步骤。

S303，根据更新后的元网络和一次或多次训练后的主网络对训练图像样本集进行识别处理，得到训练图像样本集包括的不同任务的样本图像之间的关联关系。

更新后的元网络可以同步至目标模型中，结合目标模型中一次或多次训练后的主网络对训练图像样本集进行识别处理。在一个实施例中，首先利用一次或多次训练后的主网络对训练图像样本集进行识别处理，得到识别结果，根据该识别结果和更新后的元网络可以确定关联关系，该关联关系用于表征不同任务的样本图像之间的相关性，此处不同任务是指新任务和旧任务。举例来说，例如过去任务(即旧任务)中狗的知识可能会对新任务中猫的识别有帮助(都是动物类别)，而对新任务中汽车的分类可能没有帮助，因此新任务中的猫和旧任务中的狗是具有关联的类别，也即新旧任务的样本图像是具有关系的，具体关联关系来表征。对于此步骤具体的实现方式可以参见下述图6对应实施例，在此先不做详述。

在一个实施例中，此步骤中更新后的元网络使用可以设置温和启动(warm-up)条件：即元网络的更新次数达到预设更新次数。若不满足此条件，本步骤可以仅使用一次或多次训练后的主网络对训练图像样本集进行识别处理，具体处理过程和一次或多次训练阶段类似。即对一次或多次训练后的主网络进行迭代更新不依赖于有元网络参与得到的关联关系。这样做是因为在训练前期，元网络对于关联关系的估计并不稳定，而在一定周期的训练之后，能够减小这种不稳定性，提升模型整体的训练效果。

S304，基于关联关系对一次或多次训练后的主网络进行迭代更新，直至得到训练完成的目标模型。

根据更新后的元网络结合一次或多次训练后的主网络处理训练图像样本集得到的关联关系，该关联关系作可以作用于一次或多次训练后的主网络对应的反向传播参数中，以对一次或多次训练后的主网络的网络参数进行调整。在一个实施例中，当所述一次或多次训练后的主网络迭代更新次数满足设定更新条件之后，根据更新的一次或多次训练后的主网络对所述参考网络模型包括的参考主网络进行更新处理。设定更新条件可以是迭代更新次数阈值。这里对参考主网络的更新处理是指将参考主网络的网络参数简单地替换为更新的一次或多次训练后的主网络的网络参数，而非基于参考主网络进行复杂的计算。也就是说，对一次或多次训练后的主网络进行多次的更新之后，迭代更新后的主网络也可以复制给参考网络模型，实现参考网络模型中的参考主网络的更新，以使用迭代更新后的主网络在对元图像样本集的处理上具有更好地泛化性。这样参考网络模型包括的最新更新的参考主网络，可以进一步对更新后的元网络继续更新，再重复执行上述步骤S303和S304，即两个网络交替在不同的模型中进行更新，最终得到训练完成的目标模型。

在一个实施例中，训练完成的目标模型用于进行图像识别处理。例如，当输入一张猫的图像，训练完成的目标模型可以快速识别出该图像的类别是猫。

需要说明的是，在上述任意网络训练的过程中，可以对训练所使用的数据进行随机翻转、旋转等变换，其标签保持不变，从而实现数据增广。通过这一操作可以提升数据集的多样性，在一定程度上避免模型过拟合。

本方案可以用于开放环境和任务中的应用，即现实中经常需要模型可以持续学习和适应多种不同的场景，受限于数据存储或数据隐私，只能获得少量过去数据，要求模型在适应新环境的同时不能遗忘过去学习过的知识。比如电商平台持续学习用户新的喜好产品，同时保留用户过去的喜好产品。

本申请实施例提供的方案，目标模型包含的两个网络，即主网络和元网络，通过构建参考网络模型的方式，实现双边交替优化；这种双边交替优化的方式对目标模型包括的主网络迭代更新，并通过参考网络模型辅助目标模型中的元网络进行迭代更新，可以在训练的过程中随着网络参数的变化动态调整新旧任务之间的关联关系，进而深入挖掘新旧任务之间的相关性，使得模型达到较好的泛化性。

请参见图4，是本申请一个示例性实施例提供的一种一次或多次训练主网络的方法的流程示意图，具体涉及对采用训练图像样本集对目标模型的主网络进行一次或多次训练，并得到一次或多次训练后的主网络的方式的介绍，该方法可以由计算机设备(例如图2所示的数据处理设备201)执行，该方法包括但不限于以下步骤。

S401，获取训练图像样本集。

训练图像样本集包括N个任务的样本图像，每个任务的样本图像可以包括同一类别或者是不同类别的一张或多张样本图像。这里的任务可以是人工划分的任务，也可以是自动划分的任务，例如对公开的图像分类数据集CIFAR-10(包含10个类别，每个类有50000张训练图像和10000张测试图像)划分为5个task，每个task是一个二分类问题，又例如将CIFAR-100(包含100个类别)划分为10个task，每个task为多分类问题(1～10个类别或者1～20个类别不等)。此处将训练图像样本集以任务task为基础，是因为元学习的目标可以看做是将task视作样本，通过对多个task的学习，以使元网络能够对新的task做出快速而准确的学习。

S402，从训练图像样本集中获取训练图像样本子集，并将训练图像样本子集包括的一个或多个样本组输入目标模型。

训练图像样本子集是从训练图像样本集中采集的一个训练批次(batch)的样本图像，具体的采集原则可以是从新任务和记忆缓存中分别采集等量样本图像得到，将从新任务和记忆缓存中等量采集的样本图像数量记为b，一个训练批次包括2b张样本图像。训练图像样本子集记为D^train＝D_t∪M_t-1，其中

和

表示新任务(即第t个任务)，

表示旧任务(即前t-1个任务)，D_t包括属于新任务中的样本图像，M_t-1包括属于旧任务中的样本图像。需要注意的是，由于记忆缓存中的样本图像由旧任务中的部分样本图像得到的，记忆缓存所包括的样本图像可以视为所有旧任务的子集，因此，从记忆缓存中采集到的M_t-1仍旧是属于旧任务的样本图像。在一些情况下，表示旧任务的

和记忆缓存也是等价的。

在对目标模型的主网络进行一次或多次训练过程中，每步迭代都要重新采集一个训练批次的样本图像，一个batch的样本图像通过主网络训练一次(即一次前向传播和一次反向传播)，每迭代一次网络参数就更新一次，将一次迭代更新称为iteration。从新任务和记忆缓存中获取的一小部分样本图像(例如2b个数据)作为一个训练批次，可以使得主网络既能学习新的知识，还能记住旧的知识，从而保证模型的持续学习。

对于一个batch的样本图像的输入，本实施例中为训练图像样本子集，具体是将包括的样本图像划分为一个或多个样本组输入目标模型。在一实施例中，一个样本组包括从新任务中获取的一个当前样本图像，及从记忆缓存中获取的一个历史样本图像；记忆缓存中的历史样本图像来自旧任务的一个或多个历史样本图像。当前样本图像也即新任务中的样本图像，历史样本图像也即旧任务中的样本图像。样本组可以是一个新任务的样本图像和旧任务的样本图像的组合，对于训练图像样本子集中的2b个样本图像，可以每次将一个当前样本图像(即新任务数据)

和历史样本图像(即记忆缓存数据)

组成一个样本组(即数据对)，作为目标模型的输入。

S403，调用目标模型的主网络对一个或多个样本组进行识别处理，得到训练损失。

目标模型的主网络对每个样本组中包括的样本图像进行识别处理，可以得到每个样本组对应的训练损失，进而能够获知训练图像样本子集中所有样本图像的损失，对样本组进行识别处理并得到训练损失是主网络对样本图像的前向计算的结果。

训练图像样本子集D^train包括2b个样本图像，按照上述介绍的方式样本组可以记为

每个样本组经过目标模型的主网络识别处理，得到样本组对应的训练损失记为

由此训练图像样本子集中的每个样本图像都有对应的损失，记为

针对任一个样本图像的损失计算可以如下式1)：

其中，l^train(·,·)表示训练损失函数，y_i为第i个样本图像的真实类别标签，x_i表示第i个样本图像，f(x_i；θ)表示第i个样本图像经过主网络f(·；θ)得到的预测标签或者预测类别的概率值。可选地，训练损失函数可以采用交叉熵损失函数(CrossEntropyLoss，CELoss)或者均方误差(MeanSquaredError，MSE)损失函数中的一种或多种，或者是其他损失函数，在此不做限定。

S404，采用训练损失对目标模型的主网络进行一次或多次训练，并得到一次或多次训练后的主网络。

利用训练损失对主网络一次或多次训练的过程，也即对主网络进行优化的过程，属于反向传播。具体地，可以利用训练损失进行梯度下降的计算，得到主网络迭代更新的更新梯度，进而调整主网络的网络参数。在一个可能的实施方式中，此步骤的更详细的实现包括：①获取为各个样本组包括的样本图像设置的预设关联关系，并采用预设关联关系对训练损失进行更新；②采用更新的训练损失调整目标模型的主网络的网络参数，得到一次或多次训练后的主网络。

为样本组中样本图像设置的预设关联关系可以是人工设置的损失权重对，在一个实施例中，在训练时每次采样的一批数据(data batch)中，可以给每个数据都预先分配一个人工设定的损失权重。该损失权重后续将加权给对应的训练损失上。将为每个样本组包括的样本图像设置的预设关联关系记为Λ_pre＝(λ_k,λ_b+k)_pre,k＝1,…,b，每个样本组的预设关联关系可以和前述每个样本组的训练损失

一一对应，结合每个样本组的损失权重和训练损失可以实现对主网络的优化。

具体地，可以先利用预设关联关系对训练损失更新，即利用损失权重对训练损失更新，根据上述表达式，Λ_pre·L^train即可以作为更新后的训练损失，然后可以利用更新后的训练损失计算出训练图像样本子集的平均损失，具体表达式如下式2)：

其中，|D^train|表示当前训练批次(此处对应训练图像样本子集)的样本个数；

表示当前训练批次中第i个样本图像的训练损失；由于一次或多次训练过程中，目标模型中的元网络暂时没有使用，因此，

表示采用人工设置的损失权重。

对主网络进行优化的目标函数如下式3)：

利用平均损失对关于当前训练批次数据D^train进行一步梯度下降，可以得到主网络更新后的参数，具体如下式4)：

其中，θ^p+1表示主网络调整后的网络参数，θ^p表示主网络当前的网络参数，

根据上述原理，在一个实施例中，一次或多次训练后的主网络可以是利用当前训练批次(即训练图像样本子集)训练一次得到的，即将网络参数进行一次调整之后的主网络。在另一个实施例中，一次或多次训练后的主网络还可以是主网络的网络参数进行多次调整之后的主网络，针对每一次网络参数的调整可以重复执行上述步骤S402～S404，即每进入一次新的迭代(iteration)，从训练图像样本集中采集新的训练批次(即新的训练图像样本子集)，按照同样的方式，利用训练图像样本子集对基于上一次迭代得到的主网络进行一次网络参数的调整，当主网络的更新次数达到设定次数阈值(设定次数阈值记为interval，例如interval＝5)时，就可以将最新一次网络参数调整后的主网络作为一次或多次训练后的主网络。

对于上述过程，可以参见图5示出的一种目标模型的主网络更新的示意图，其中，元网络输出的损失权重为人工设置的损失权重，后续元网络更新之后，可以利用更新后的元网络估计损失权重，并帮助主网络找到最合适的更新梯度，即结合该损失权重和损失实现对主网络的更新，这种方式的介绍具体可以参见下述图6对应实施例的介绍。

本申请实施例提供的方案，通过一个新任务的样本图像和一个旧任务的样本图像组合为样本组，这个样本组可以将新任务和旧任务的数据关联起来，输入主网络进行识别处理，使得主网络学习新知识且记住旧知识；此外，通过给每个样本组分配预设关联关系，可以保证训练前期主网络的迭代更新的准确性，进而根据目标模型的主网络构建准确的参考网络模型，使得参考网络模型处理训练图像样本集和元图像样本集的结果尽可能偏差较小，以更好地辅助元网络进行更新。

上述实施例主要介绍了目标模型的主网络一次或多次训练过程，本实施例将着重对元网络的更新方式，以及根据更新后的元网络帮助一次或多次训练后的主网络继续训练的过程进行介绍。具体可以参见图6，是本申请一个示例性实施例提供的另一种数据处理方法的流程示意图，包括但不限于以下步骤。

S601，根据目标模型构建参考网络模型。

S602，获取元图像样本集，并从训练图像样本集中获取参考训练图像样本子集。

元图像样本集是对新任务和旧任务数据均衡采集得到的，参考训练图像样本子集是从训练图像样本集中采集的一个训练批次的数据，具体的采集原则可以同前述介绍的训练图像样本子集相同，即从新任务和记忆缓存中分别随机采集等量的样本图像，组合为参考训练图像样本子集。需要注意的是，此处的参考训练图像样本子集和训练图像样本子集应用的时机不同，例如训练图像样本子集用于目标模型中主网络的第4次迭代更新，参考训练图像样本子集用于目标模型中主网络的第5次迭代更新，由于构建了参考网络模型，具体是对参考网络模型中参考主网络的第1次迭代更新；参考训练图像样本子集和训练图像样本子集是不同训练批次(batch)的数据，各自包含的样本图像可能完全不同。

S603，将参考训练图像样本子集包括的各样本组输入参考主网络，得到参考损失，并获取参考损失对应的损失权重。

参考主网络是与一次或多次训练后的主网络相同的临时主网络，可以是从目标模型中第l步的主网络的网络参数复制得到的。和训练图像样本子集类似，参考训练图像样本子集也可以通过样本组的方式输入参考主网络进行识别处理，得到参考损失。其中，一个样本组包括从新任务中获取的一个当前样本图像和从记忆缓存中获取的一个历史样本图像，参考损失和每个样本组对应，参考损失可以包括新任务的损失和旧任务的损失。

为方便描述，将后续训练阶段中涉及从训练图像样本集中采集的一个训练批次的样本图像，均采用D^train＝D_t∪M_t-1标记，包括下文提及迭代图像样本子集，只是在不同的更新阶段中，D^train包括的样本图像可能是不同的。以参考训练图像样本子集中包括2b个数据为例，样本组可以分为b组，各样本组和参考损失之间的关系如下式5)：

其中，θ^l表示参考主网络(即临时主网络)的参数，

表示参考训练图像样本子集中的新任务的样本图像，

表示参考训练图像样本子集中的旧任务的样本图像。

得到各样本组的参考损失之后，可以将其作为目标模型中的元网络的输入，通过元网络估计各样本组参考损失对应的损失权重Λ＝(λ_i,λ_b+i)，即损失权重是将参考损失输入目标模型的元网络后得到的。元网络对样本组的处理的数学表达式的如下式6)：

其中，

l^train(·,·)表示参考迭代损失函数，例如为交叉熵损失函数或均方误差损失函数。

元网络得到损失权重的依据如下：如果记忆缓存数据包含一些与新任务数据相似或语义相关的信息，那么可以更关注新任务，即赋予新任务的样本图像

更大的损失权重λ_i，使得模型学习到新类别和旧类别的差异，反之，如果记忆缓存数据与新任务数据的语义信息差别较大，那么可以更关注旧任务，即赋予记忆缓存中的样本图像

更大的损失权重λ_i+b，避免模型遗忘过去学习到的知识。此处用到的成对数据(即样本组对应的损失权重)可以帮助元网络挖掘新旧任务的样本图像之间的关系，这里的关系即新旧任务数据之间的语义信息是否相似，即两张样本图像是否相似，通过元网络输出的损失权重来表征。此处的元网络输出的损失权重可以帮助更新后的参考主网络在元图像样本集上达到更好的泛化效果。

从理论上来说，新旧任务的损失的权重Λ＝[Λ_D,Λ_M]直接控制了模型优化时的梯度方向(参见图7)，即每个采样的一批训练数据的梯度方向直接由新旧任务损失的权重决定，如果一直采用人工设置损失权重，并且在训练过程中保持固定，那么对于任务之间的关系并不能得到更好地挖掘。因此，这里使用元网络帮助目标模型的主网络向最合适的梯度方向优化，因为可以在迭代更新的过程中对新旧任务损失权重进行动态调整，深入挖掘新旧任务之间的关系，而损失权重决定优化的梯度方向，通过动态调整的损失权重可以找到最合适的梯度方向，从而使得模型达到更好地泛化性。

S604，采用参考损失和对应的损失权重，对参考主网络进行更新处理，得到更新后的参考主网络。

根据上述步骤得到的参考训练图像样本子集的样本组的参考损失，以及参考损失输入元网络得到的损失权重，同上式2)，将相应参数替换为本实施中的参数即可。具体地，根据各样本组的损失权重对参考损失进行加权求和处理，得到该参考训练图像样本子集的总损失，为了进一步减小计算量，提高参考主网络的更新速度，将参考训练图像样本子集的总损失按照样本图像的数量进行平均处理，得到参考训练图像样本子集的平均损失，并将其用于梯度下降的计算中，通过梯度下降对参考主网络的网络参数进行更新，得到更新后的参考主网络。关于梯度下降的公式可以参见下式7)。

其中，θ^l表示参考主网络(即临时主网络)的参数，是从第l步的主网络的网络参数复制得到的，η_θ表示学习率，可以决定对模型参数的更新快慢，更新后的参数

可以作为估计的θ^*(φ)，该估计的θ^*(φ)即更新后的参考主网络的网络参数。

S605，将元图像样本集输入更新后的参考主网络，并获取得到元损失，以采用所述元损失更新所述元网络，得到更新后的元网络。

在参考主网络梯度下降一次之后得到的更新后的参考主网络，可以用于处理元图像样本集，和处理训练图像样本集中的参考训练图像样本子集不同的是，这里每个元图像样本集中的元样本图像没有配置损失权重，因此，针对元图像样本集的处理可以按照样本组的方式处理，也可以采用是其他方式处理元样本图像。最终得到每个元样本图像的损失，进而得到元图像样本集的元损失，可选地，元损失的数学表达可以参见下式8)：

其中，|D^meta|表示元图像样本集的样本数量，

表示更新后的参考主网络

处理元图像样本集中第i个元样本图像得到的损失。

对元网络的优化目标函数如下：

可见，本申请实施例中针对主网络和元网络优化都设计优化目标函数，其中，对于主网络的优化同样也适用于参考网络模型中对参考主网络的更新，对元网络的优化是在构建的参考网络模型中实现的，在此将上述式3)和式9)其统称为双边优化目标函数。

由于对元网络的优化需要用到参考主网络最新一次更新的参数，因此可以将参考主网络更新后的参数

作为估计的θ^*(φ)。

在一实施例中，可以通过链式法则计算元网络的更新梯度，具体如下式10a)：

将上述关于

的梯度下降公式代入，

等价于以下

式10b)：

在此可以记：

由G(j)的表达式可以看到，元网络更新的梯度很大程度上取决于当前训练批次的第j个样本图像关于主网络的梯度和元样本图像关于主网络的平均梯度的内积距离。即如果样本图像和元样本图像关于主网络的平均梯度很相似，那么该样本图像就有可能是对主网络训练更加有用的样本。

利用G(j)对上述表达式进行整理，元网络利用正常的梯度下降进行更新，具体如下式10d)：

其中η_φ表示元网络的学习率，φ^l表示上一次更新元网络得到的网络参数，针对式10a)至式10d)其他参数的含义可以参见前述表达式中的解释，在此不赘述。

上述步骤通过元图像样本集对元网络的更新，由于网络参数的调整，对应的新旧任务损失的权重Λ＝[Λ_D,Λ_M]可以动态的调整，并且可以通过双边优化策略求解，以在测试时得到较好的性能。结合上述对参考主网络和元网络的更新，可以参见图8示出的参考网络模型辅助元网络更新的示意图。

S606，根据更新后的元网络和一次或多次训练后的主网络对训练图像样本集进行识别处理，得到训练图像样本集包括的不同任务的样本图像之间的关联关系。

在一实施例中，执行步骤S606之前，可以判断：参考网络模型辅助元网络更新的更新次数是否达到更新次数阈值。若是，则执行步骤S606，若否，则获取人工设置的预设关联关系，和对主网络进行一次或多次训练采用类似的方式对目标模型中的主网络进行更新。也就是说，目标模型中的元网络在更新一次之后，不一定可以和一次或多次训练后的主网络结合，用来得到不同任务的样本图像之间的关联关系，而这样设置是为了保证元网络得到的关联关系是较为准确的数据，这样才能对主网络进行更好的优化，使得整体性能得到有效地提升。

纵观前述处理步骤，可见，元图像样本集可以用于指导元网络提取训练图像样本集中不同任务的样本图像之间的相关性，即关联关系。在一实施例中，关联关系为损失权重，损失权重可以和新旧任务组合的样本组输入主网络处理得到的迭代损失进行反向传播，通过梯度下降计算来更新主网络，以此可以帮助主网络找到合适的梯度方向进行优化，从而达到较好的泛化性。更详细的实现步骤可以包括下述1)～3)：

1)从训练图像样本集中获取迭代图像样本子集。

迭代图像样本子集是从训练图像样本集中采集到的一个训练批次(batch)的样本图像，包括不同任务的样本图像。需要说明的是，迭代图像样本子集、训练图像样本子集以及参考训练图像样本子集是不同训练批次的样本图像，训练图像样本子集和迭代图像样本子集均是针对目标模型的主网络进行训练的样本，参考训练图像样本子集用于对参考主网络进行一次梯度下降。一次或多次训练阶段，每次训练采集新的训练图像样本子集，得到的损失结合人工设置的损失权重对目标网络的主网络进行训练；迭代图像样本子集训练主网络时则是采用更新后的元网络动态调整样本图像的损失权重，进而对主网络进行训练。

2)将迭代图像样本子集包括的各样本组输入一次或多次训练后的主网络，得到迭代损失。

由于参考网络模型的参考主网络的更新不影响目标模型中主网络的更新，因此，当目标模型中的元网络更新完之后，迭代图像样本子集可以用于对一次或多次训练后的主网络进行更新(即继续训练)，得到迭代损失，该迭代损失用于调整一次或多次训练后的主网络的网络参数。此处的迭代损失和前述的训练损失、参考损失的计算方式相同，在此不做赘述，需注意的是，由于是在不同训练阶段输入的样本图像，主网络的网络参数是不同的，因此得到的损失也是不同的。

迭代损失包括对应样本组所包括的一个当前样本图像对应的第一损失，及包括的一个历史样本图像的第二损失；当前样本图像属于新任务，历史样本图像属于旧任务。其中，第一损失对应于新任务的当前样本图像，第二损失对应于旧任务的历史样本图像，具体是记忆缓存中的历史样本图像。可选地，第一损失可以是交叉熵损失，第二损失可以包括交叉熵损失和均方误差损失中的一种或两种。也即，迭代损失包括当前样本图像和历史样本图像的损失均为交叉熵损失或者均方误差损失，或者，迭代损失包括当前样本图像和历史样本图像为任一者为交叉熵损失或均方误差损失，或者迭代损失包括当前样本图像的交叉熵损失、历史样本图像的均方误差损失、历史样本图像的交叉熵损失。优选地，由于均方误差损失更加适用于回归类问题，可以对历史样本图像采用均方误差损失，使得模型加强对旧任务的知识的记忆。

3)将第一损失和第二损失输入更新后的元网络，分别得到第一损失的损失权重，以及第二损失的损失权重。其中，第一损失的损失权重和第二损失的损失权重，用于指示对应的一个当前样本图像和对应的一个历史样本图像之间的关联关系。

对应于第一损失和第二损失所包括的内容，第二损失的损失权重可以包括一个或两个；在一个实施例中，迭代损失对应的损失权重为(λ_i,λ_i+b)，可应用于经验重放ER中，在另一个实施例中，迭代损失对应的损失权重还可以是

也即第一损失的损失权重为λ_i，第二损失的损失权重可以包括两个，记为：

分别代表交叉熵损失和均方误差损失各组对应的损失权重，可应用于经验重放DER中。可选地，第一损失和第二损失各自对应的损失权重还可以是上述三者中的任意两者的组合，例如

迭代损失对应的损失权重可以指示当前样本图像和历史样本图像之间的关联关系，以损失权重为(λ_i,λ_i+b)为例，该关联关系如下：当λ_i>λ_i+b时，表示更关注新任务，按照前述元网络的处理原则可以推断出当前样本图像和历史样本图像包含语义相似的信息，这样做是为了让模型学习到新任务与旧任务的差异；当λ_i<λ_i+b时，表示更关注记忆缓存，即关注旧任务，同理可以知晓当前样本图像和历史样本图像的相似度不大，这样设置是为了避免在学习新知识的同时遗忘旧知识。

S607，基于关联关系对一次或多次训练后的主网络进行迭代更新，直至得到训练完成的目标模型，训练完成的目标模型用于进行图像识别处理。

在一个实施例中，关联关系为上述得到的迭代损失的损失权重，基于损失权重对一次或多次训练后的主网络进行迭代更新的具体实现可以是：基于损失权重对迭代损失进行加权求和处理，得到总损失，并依据迭代图像样本子集的样本数量进行平均，以加快梯度计算，加快主网络的收敛。在经过一次或多次训练后的主网络迭代更新到一定次数之后，再复制最新更新的主网络，作为参考网络模型中的参考主网络，然后采用和前述同样的处理步骤，实现对主网络的更新和元网络的更新。也就是说，目标模型中主网络的更新是对参考网络模型中的参考主网络有所影响的，而这样的影响正是实现双边优化的基础。

本申请实施例中，由于元网络输出的损失权重挖掘了新旧任务的样本图像的关联关系，由关联关系对参考主网络进行更新，可以帮助更新后的参考主网络在元图像样本集上达到最好的泛化效果，从而利用更新后的参考主网络对元图像样本集处理得到的元损失，对元网络本身的网络参数进行更加精确地调整，后续将更新后的元网络应用到目标模型中，可以在一定程度上避免过拟合。

基于上述实施例介绍的内容，下面对整体训练算法所涉及的流程进行如下简要总结，如下图9所示。将本实施例提供的方案称为关联经验回放训练算法，可以应用于ER或者DER(即Relational ER/DER training algorithm)。

目标模型和参考网络模型所使用到的输入(input)参数包括：新任务数据

记忆缓存数据

一个任务的最大迭代次数Iter_max，训练间隔Iterval，评估元网络的迭代次数Iter_meta，预设超参数Λ_pre。输出包括：两个网络的参数θ,φ

具体的算法流程如下：

当新任务数据不为空时(也即整个算法的目标是训练新任务)，初始化目标模型包括的两个网络的网络参数，分别为θ⁰,φ⁰，以及迭代次数inter＝0；

当inter<Iter_max，也即网络的迭代次数在设置的最大迭代次数之前，循环执行以下内容：

1)从训练图像样本集中采集一训练批次的数据

2)判断inter％Iterval为0，也即inter否能被Iterval整除，等价含义即主网络每达到训练间隔，就会执行以下内容：

复制主网络的网络参数θ^(inter)到临时主网络中；

按照主网络更新的原理得到更新参数

并对临时主网络进行一次更新；

按照元网络更新的原理得到更新参数φ^(inter+1)，并对元网络当前的网络参数φ^(inter)进行更新；

3)如果迭代次数inter>Iter_meta，也就是说元网络的更新达到预设的迭代次数，那么损失权重Λ由元网络估计；

4)按照双边优化目标函数中对主网络的优化，得到更新后的网络参数θ^(inter+1)，对主网络进行一次迭代更新；对迭代更新次数执行加1操作。

结合上述内容，图9中的行标所标注的5-9行表示更新元网络的步骤。因为双边优化通常较慢，所以主网络的一个更新间隔(Interval，即几步梯度下降)后更新一次元网络，也即每更新几次目标模型中的主网络再更新一次元网络。另外，本技术方案在遇到新任务时，也用到了温和启动(warm-up)步骤(算法1中第10-14行)，这是因为元网络需要先训练几次之后才能获得对损失权重稳定的估计。具体而言，在前Iter_meta步迭代中，主网络参数的优化中使用的损失权重Λ_pre是由人工预设的。在温和启动之后，Λ则是由元网络估计得到的。

对于目标模型中主网络的设计，可以使用任意常用的基础网络，本申请实施例中，使用ResNet-18作为主网络为例，模型详细设计的示例如表1所示。

表1模型详细设计示例

其中，Conv3_x和Conv4_x的第一层的步长stride都为2。每个卷积层之后都接有ReLU(激活函数)层和Batch Normalization(批标准化)层。每个模块(block)的结构如图10所示，网络的最后一层是全连接层(MLP)，其输出维度是分类的类别数目。

具体训练参数的设置：对于主网络优化，采用随机梯度下降法(SGD)，初始学习率设为0.03；对于元网络优化，采用Adam算法，其初始学习率设为0.001，权重衰减(weightdecay)设为10^-4。

训练数据集：使用公开的CIFAR-10，CIFAR-100以及Tiny ImageNet分类数据集作为训练数据集。

采用上述设置并结合本方案的处理逻辑，最终具体数据和目前常用的ER以及DER处理得到的数据对比，可以参见图11a至图11b，图11a中所示出的表格是在CIFAR-10和TinyImageNet数据集上，以及不同的记忆缓存大小的情况下本技术方案(RER及RDER)对比现有的常用方法，图11b中所示出的表格是在CIFAR-100数据集上，以及不同的记忆缓存大小的情况下本技术方案(RER及RDER)对比现有的常用方法，图11c中示出的表格是本技术方案在记忆缓存较小时CIFAR-10数据集上的对比结果。

将图11a和图11b示出的表格比对发现，在持续学习的场景中，通过元学习动态调整新旧任务之间的关系，使得模型能沿着更加合理的梯度方向进行优化，并且在测试阶段达到更好地泛化性，提升模型的精度；通过图11c示出的表格比对可以发现，当记忆缓存很小时，本方法可以显著提升性能，极大地避免了过拟合问题，也即，在记忆缓存保留的样本数量较小时，本方案可以体现出更加优越的泛化性。

通过本申请实施例提供的方案，可以应用于在持续学习的场景中，通过元学习动态调整新旧任务之间的关系，使得模型能沿着更加合理的梯度方向进行优化，并且在测试阶段达到更好地泛化性，提升模型的精度。并且针对很多情况下记忆缓存的容量受限，只能存储很少一部分数据，本方案可以有效地识别处理，避免过拟合问题。

请参见图12，图12是本申请一个示例性实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据处理装置为一个应用软件；该数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图12所示，该数据处理装置1200可以包括：构建模块1201、获取模块1202、训练模块1203、处理模块1204。

构建模块1201，用于根据目标模型构建参考网络模型，参考网络模型包括参考主网络，参考主网络是对目标模型中一次或多次训练后的主网络进行复制得到的，目标模型的主网络是采用训练图像样本集进行一次或多次训练的；

获取模块1202，用于获取元图像样本集；

训练模块1203，用于并采用训练图像样本集和元图像样本集对参考网络模型进行训练，得到元损失，以采用元损失更新目标模型中的元网络，得到更新后的元网络；

处理模块1204，用于根据更新后的元网络和一次或多次训练后的主网络对训练图像样本集进行识别处理，得到训练图像样本集包括的不同任务的样本图像之间的关联关系；

训练模块1203，还用于基于关联关系对一次或多次训练后的主网络进行迭代更新，直至得到训练完成的目标模型，训练完成的目标模型用于进行图像识别处理。

在一实施例中，训练模块1203，还用于：获取训练图像样本集；从训练图像样本集中获取训练图像样本子集，并将训练图像样本子集包括的一个或多个样本组输入目标模型；调用目标模型的主网络对一个或多个样本组进行识别处理，得到训练损失；采用训练损失对目标模型的主网络进行一次或多次训练，并得到一次或多次训练后的主网络。

在一实施例中，训练模块1203，具体用于：获取为各个样本组包括的样本图像设置的预设关联关系，并采用预设关联关系对训练损失进行更新；采用更新的训练损失调整目标模型的主网络的网络参数，得到一次或多次训练后的主网络。

在一实施例中，训练模块1203，具体用于：从训练图像样本集中获取参考训练图像样本子集；将参考训练图像样本子集包括的各样本组输入参考主网络，得到参考损失，并获取参考损失对应的损失权重，损失权重是将参考损失输入目标模型的元网络后得到的；采用参考损失和对应的损失权重，对参考主网络进行更新处理，得到更新后的参考主网络；将元图像样本集输入更新后的参考主网络，并获取得到元损失。

在一实施例中，处理模块1204，具体用于：从训练图像样本集中获取迭代图像样本子集；将迭代图像样本子集包括的各样本组输入一次或多次训练后的主网络，得到迭代损失；迭代损失包括对应样本组所包括的一个当前样本图像对应的第一损失，及包括的一个历史样本图像的第二损失；当前样本图像属于新任务，历史样本图像属于旧任务；将第一损失和第二损失输入更新后的元网络，分别得到第一损失的损失权重，以及第二损失的损失权重；其中，第一损失的损失权重和第二损失的损失权重，用于指示对应的一个当前样本图像和对应的一个历史样本图像之间的关联关系。

在一实施例中，一个样本组包括从新任务中获取的一个当前样本图像，及从记忆缓存中获取的一个历史样本图像；记忆缓存中的历史样本图像来自旧任务的一个或多个历史样本图像；元图像样本集包括的多个元样本图像；且元图像样本集是对新任务包括的当前样本图像和旧任务包括的历史样本图像进行均衡采集得到的。

在一实施例中，处理模块1204还用于：当一次或多次训练后的主网络迭代更新次数满足设定更新条件之后，根据更新的一次或多次训练后的主网络对参考网络模型包括的参考主网络进行更新处理。

可以理解的是，本申请实施例所描述的数据处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图13，图13是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备1300可以包含独立设备(例如服务器、节点、终端等等中的一个或者多个)，也可以包含独立设备内部的部件(例如芯片、软件模块或者硬件模块等)。该计算机设备1300可以包括至少一个处理器1301和通信接口1302，进一步可选地，计算机设备1300还可以包括至少一个存储器1303和总线1304。其中，处理器1301、通信接口1302和存储器1303通过总线1304相连。

其中，处理器1301是进行算术运算和/或逻辑运算的模块，具体可以是中央处理器(central processing unit，CPU)、图片处理器(graphics processing unit，GPU)、微处理器(microprocessor unit，MPU)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程逻辑门阵列(Field Programmable Gate Array，FPGA)、复杂可编程逻辑器件(Complex programmable logic device，CPLD)、协处理器(协助中央处理器完成相应处理和应用)、微控制单元(Microcontroller Unit，MCU)等处理模块中的一种或者多种的组合。

通信接口1302可以用于为至少一个处理器提供信息输入或者输出。和/或，通信接口1302可以用于接收外部发送的数据和/或向外部发送数据，可以为包括诸如以太网电缆等的有线链路接口，也可以是无线链路(Wi-Fi、蓝牙、通用无线传输、车载短距通信技术以及其他短距无线通信技术等)接口。

存储器1303用于提供存储空间，存储空间中可以存储操作系统和计算机程序等数据。存储器1303可以是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmable read onlymemory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)等等中的一种或者多种的组合。

该计算机设备1300中的至少一个处理器1301用于调用至少一个存储器1303中存储的计算机程序，用于执行前述的数据处理方法，例如前述图3、图4、图6所示实施例所描述的数据处理方法。

在一种可能的实施方式中，该计算机设备1300中的处理器1301用于调用至少一个存储器1303中存储的计算机程序，用于执行以下操作：根据目标模型构建参考网络模型，参考网络模型包括参考主网络，参考主网络是对目标模型中一次或多次训练后的主网络进行复制得到的，目标模型的主网络是采用训练图像样本集进行一次或多次训练的；获取元图像样本集，并采用训练图像样本集和元图像样本集对参考网络模型进行训练，得到元损失，以采用元损失更新目标模型中的元网络，得到更新后的元网络；根据更新后的元网络和一次或多次训练后的主网络对训练图像样本集进行识别处理，得到训练图像样本集包括的不同任务的样本图像之间的关联关系；基于关联关系对一次或多次训练后的主网络进行迭代更新，直至得到训练完成的目标模型，训练完成的目标模型用于进行图像识别处理。

在一实施例中，处理器1301，还用于：获取训练图像样本集；从训练图像样本集中获取训练图像样本子集，并将训练图像样本子集包括的一个或多个样本组输入目标模型；调用目标模型的主网络对一个或多个样本组进行识别处理，得到训练损失；采用训练损失对目标模型的主网络进行一次或多次训练，并得到一次或多次训练后的主网络。

在一实施例中，处理器1301，具体用于：获取为各个样本组包括的样本图像设置的预设关联关系，并采用预设关联关系对训练损失进行更新；采用更新的训练损失调整目标模型的主网络的网络参数，得到一次或多次训练后的主网络。

在一实施例中，处理器1301，具体用于：从训练图像样本集中获取参考训练图像样本子集；将参考训练图像样本子集包括的各样本组输入参考主网络，得到参考损失，并获取参考损失对应的损失权重，损失权重是将参考损失输入目标模型的元网络后得到的；采用参考损失和对应的损失权重，对参考主网络进行更新处理，得到更新后的参考主网络；将元图像样本集输入更新后的参考主网络，并获取得到元损失。

在一实施例中，处理器1301，具体用于：从训练图像样本集中获取迭代图像样本子集；将迭代图像样本子集包括的各样本组输入一次或多次训练后的主网络，得到迭代损失；迭代损失包括对应样本组所包括的一个当前样本图像对应的第一损失，及包括的一个历史样本图像的第二损失；当前样本图像属于新任务，历史样本图像属于旧任务；将第一损失和第二损失输入更新后的元网络，分别得到第一损失的损失权重，以及第二损失的损失权重；其中，第一损失的损失权重和第二损失的损失权重，用于指示对应的一个当前样本图像和对应的一个历史样本图像之间的关联关系。

在一实施例中，处理器1301还用于：当一次或多次训练后的主网络迭代更新次数满足设定更新条件之后，根据更新的一次或多次训练后的主网络对参考网络模型包括的参考主网络进行更新处理。

应当理解，本申请实施例中所描述的计算机设备1300可执行前文所对应实施例中对该数据处理方法的描述，也可执行前文图12所对应实施例中对该数据处理装置1200的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，还应指出，本申请一个示例性实施例还提供了一种存储介质，该存储介质中存储了前述数据处理方法的计算机程序，该计算机程序包括程序指令，当一个或多个处理器加载并执行该程序指令，可以实现实施例中对数据处理方法的描述，这里不再赘述，对采用相同方法的有益效果描述，也在此不再赘述。可以理解的是，程序指令可以被部署在一个或能够互相通信的多个计算机设备上执行。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中一方面提供的方法。

本申请的一个方面，提供了另一种计算机程序产品，该计算机程序产品包括计算机程序或计算机指令，该计算机程序或计算机指令被处理器执行时实现本申请实施例提供的数据处理方法的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

根据目标模型构建参考网络模型，所述参考网络模型包括参考主网络，所述参考主网络是对所述目标模型中一次或多次训练后的主网络进行复制得到的，所述目标模型的主网络是采用训练图像样本集进行一次或多次训练的；

获取元图像样本集，并采用所述训练图像样本集和所述元图像样本集对所述参考网络模型进行训练，得到元损失，以采用所述元损失更新所述目标模型中的元网络，得到更新后的元网络；

根据所述更新后的元网络和一次或多次训练后的主网络对所述训练图像样本集进行识别处理，得到所述训练图像样本集包括的不同任务的样本图像之间的关联关系；

基于所述关联关系对所述一次或多次训练后的主网络进行迭代更新，直至得到训练完成的目标模型，所述训练完成的目标模型用于进行图像识别处理。

2.如权利要求1所述的方法，其特征在于，采用训练图像样本集对所述目标模型的主网络进行一次或多次训练，并得到一次或多次训练后的主网络的方式包括：

获取训练图像样本集；

从所述训练图像样本集中获取训练图像样本子集，并将所述训练图像样本子集包括的一个或多个样本组输入所述目标模型；

调用所述目标模型的主网络对所述一个或多个样本组进行识别处理，得到训练损失；

采用所述训练损失对所述目标模型的主网络进行一次或多次训练，并得到一次或多次训练后的主网络。

3.如权利要求2所述的方法，其特征在于，所述采用所述训练损失对所述目标模型的主网络进行一次或多次训练，并得到一次或多次训练后的主网络，包括：

获取为各个样本组包括的样本图像设置的预设关联关系，并采用所述预设关联关系对所述训练损失进行更新；

采用更新的训练损失调整所述目标模型的主网络的网络参数，得到一次或多次训练后的主网络。

4.如权利要求1所述的方法，其特征在于，所述采用所述训练图像样本集和所述元图像样本集对所述参考网络模型进行训练，得到元损失，包括：

从所述训练图像样本集中获取参考训练图像样本子集；

将所述参考训练图像样本子集包括的各样本组输入所述参考主网络，得到参考损失，并获取所述参考损失对应的损失权重，所述损失权重是将所述参考损失输入所述目标模型的元网络后得到的；

采用所述参考损失和对应的损失权重，对所述参考主网络进行更新处理，得到更新后的参考主网络；

将所述元图像样本集输入所述更新后的参考主网络，并获取得到元损失。

5.如权利要求1所述的方法，其特征在于，所述根据所述更新后的元网络和一次或多次训练后的主网络对所述训练图像样本集进行识别处理，得到所述训练图像样本集包括的不同任务的样本图像之间的关联关系，包括：

从所述训练图像样本集中获取迭代图像样本子集；

将所述迭代图像样本子集包括的各样本组输入一次或多次训练后的主网络，得到迭代损失；所述迭代损失包括对应样本组所包括的一个当前样本图像对应的第一损失，及包括的一个历史样本图像的第二损失；所述当前样本图像属于新任务，所述历史样本图像属于旧任务；

将所述第一损失和所述第二损失输入所述更新后的元网络，分别得到所述第一损失的损失权重，以及所述第二损失的损失权重；

其中，所述第一损失的损失权重和所述第二损失的损失权重，用于指示对应的一个当前样本图像和对应的一个历史样本图像之间的关联关系。

6.如权利要求2～5任一项所述的方法，其特征在于，一个样本组包括从新任务中获取的一个当前样本图像，及从记忆缓存中获取的一个历史样本图像；所述记忆缓存中的历史样本图像来自旧任务的一个或多个历史样本图像；

所述元图像样本集包括的多个元样本图像；且所述元图像样本集是对新任务包括的当前样本图像和旧任务包括的历史样本图像进行均衡采集得到的。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

当所述一次或多次训练后的主网络迭代更新次数满足设定更新条件之后，根据更新的一次或多次训练后的主网络对所述参考网络模型包括的参考主网络进行更新处理。

8.一种数据处理装置，其特征在于，包括：

构建模块，用于根据目标模型构建参考网络模型，参考网络模型包括参考主网络，参考主网络是对目标模型中一次或多次训练后的主网络进行复制得到的，目标模型的主网络是采用训练图像样本集进行一次或多次训练的；

获取模块，用于获取元图像样本集；

训练模块，用于并采用训练图像样本集和元图像样本集对参考网络模型进行训练，得到元损失，以采用元损失更新目标模型中的元网络，得到更新后的元网络；

所述训练模块，还用于基于关联关系对一次或多次训练后的主网络进行迭代更新，直至得到训练完成的目标模型，训练完成的目标模型用于进行图像识别处理。

9.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

处理器与存储器、网络接口相连，其中，网络接口用于提供网络通信功能，存储器用于存储程序代码，处理器用于调用程序代码，以执行权利要求1至7任一项的数据处理方法。

10.一种计算机可读存储介质，其特征在于，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行权利要求1至7任一项的数据处理方法。

11.一种计算机程序产品，其特征在于，计算机程序产品包括计算机程序或计算机指令，计算机程序或计算机指令被处理器执行时实现如权利要求1至7中任一项的数据处理方法的步骤。