CN116432037A

CN116432037A - 一种在线迁移学习方法、装置、设备和存储介质

Info

Publication number: CN116432037A
Application number: CN202310459656.9A
Authority: CN
Inventors: 蒋晓玲
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-07-14

Abstract

本发明公开了一种在线迁移学习方法、装置、设备和存储介质，该方法包括：获取n个源域离线数据集和目标域离线数据集；将目标域离线数据集分别和n个源域离线数据集，映射到公共子空间，得到n个跨域数据集；分别采用n个跨域数据集训练得到n个源域离线学习模型，以及采用目标域离线数据集训练得到目标域离线学习模型；获取当前目标域在线样本，并根据当前目标域在线样本、n个源域离线学习模型和目标域离线学习模型，进行目标域在线学习模型的迁移学习。本发明通过将目标域离线数据与源域离线数据映射到同一公共子空间，实现源域离线数据与目标域数据的特征空间对齐，本发明能有效提高了目标域在线样本分类的准确性。

Description

一种在线迁移学习方法、装置、设备和存储介质

技术领域

本发明涉及机器迁移学习领域，具体涉及一种在线迁移学习方法、装置、设备和存储介质。

背景技术

随着移动互联网和物联网的发展，不同领域的各种应用产生越来越多的流数据，如电商平台中用户购买行为的数据。由于流数据的大量出现，流数据分类作为流数据挖掘的主要任务，逐渐成为机器学习的研究热点，并在多个领域得到了广泛应用；现有技术中，一般为了解决流数据分类问题，通过在线迁移学习将相关源域数据中提取到的知识迁移到目标域去辅助学习目标域中的知识，但是从源域到目标域的知识迁移会因它们的特征空间和/或标签空间不同，而无法将源域上学到的知识直接应用到目标域。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种在线迁移学习方法、装置、设备和存储介质。

为了解决上述问题，本发明实施例公开了一种在线迁移学习方法，包括：

获取n个源域离线数据集和目标域离线数据集；

将所述目标域离线数据集分别和所述n个源域离线数据集，映射到公共子空间，得到n个跨域数据集；所述跨域数据集包括源域投影数据和目标域投影数据；

分别采用n个跨域数据集训练得到n个源域离线学习模型，以及采用所述目标域离线数据集训练得到目标域离线学习模型；

获取当前目标域在线样本，并根据所述当前目标域在线样本、所述n个源域离线学习模型和所述目标域离线学习模型，进行目标域在线学习模型的迁移学习。

可选地，所述将所述目标域离线数据集分别和所述n个源域离线数据集，映射到公共子空间，得到n个跨域数据集，包括：

将所述目标域离线数据集分别与所述n个源域离线数据集进行组合，得到n个数据集组合；

对第i个数据集组合，根据所述目标域离线数据集计算目标域转换矩阵

以及根据所述源域离线数据集计算源域转换矩阵/>

根据所述目标域转换矩阵

和所述源域转换矩阵/>

将所述目标域离线数据集和第i个所述源域离线数据集映射至第i个公共子空间，得到跨域数据集D_i。

可选地，所述根据所述目标域转换矩阵和所述源域转换矩阵，将所述目标域离线数据集和第i个所述源域离线数据集映射至第i个公共子空间，得到跨域数据集，包括：

通过公式

将所述源域转换矩阵映射至第i个公共子空间，得到所述源域投影数据/>

其中，S_i指为源域离线数据集；

通过公式

将所述目标域转换矩阵映射至第i个公共子空间，得到所述目标域投影数据/>

其中，T_i为目标域离线数据集；

将所述n个源域投影数据

与所述目标域投影数据/>

组合，得到n个跨域数据集。

可选地，所述对第i个数据集组合，根据所述目标域离线数据集计算目标域转换矩阵

以及根据所述源域离线数据集计算源域转换矩阵/>

包括：

通过公式

计算目标域转换矩阵/>

和源域转换矩阵/>

其中，

为源域相似性矩阵，如果/>

则/>

反之则为0；

为目标域相似性矩阵，如果/>

则/>

反之则为0；/>

为跨域相似性矩阵，如果/>

则/>

反之则为0。

可选地，所述根据所述当前目标域在线样本、所述n个源域离线学习模型和所述目标域离线学习模型，进行目标域在线学习模型的迁移学习，包括：

以所述目标域离线学习模型为初始模型，训练得到当前目标域在线学习模型；

根据所述当前目标域在线学习模型和所述n个源域离线学习模型，集成得到当前目标域集成模型；

对所述n个源域离线学习模型、所述当前目标域在线学习模型和所述当前目标域集成模型，分别以所述当前目标域在线样本为输入执行学习任务，得到对应的任务结果；

获取所述当前目标域在线样本对应的真实标签；

基于所述真实标签，更新所述当前目标域在线学习模型；

根据所述真实标签、差异导向对冲函数和所述任务结果，更新所述当前目标域集成模型。

可选地，所述以所述目标域离线学习模型为初始模型，训练得到当前目标域在线学习模型，包括：

以所述目标域离线学习模型为初始模型，对历史时刻的目标域在线样本进行训练，得到当前目标域在线学习模型。

可选地，所述根据所述当前目标域在线学习模型和所述n个源域离线学习模型，集成得到当前目标域集成模型，包括：

将所述当前目标域在线学习模型，分别与所述n个源域离线学习模型进行集成，得到n个组合学习模型

其中，u_i,t为第i个组合学习模型中针对所述源域离线学习模型的权重系数；v_i,t为第i个组合学习模型中针对所述目标域在线学习模型的权重系数；

将所述n个组合学习模型进行集成，得到当前目标域集成模型

其中α_i,t为第i个组合学习模型的权重。

可选地，所述对所述n个源域离线学习模型、所述当前目标域在线学习模型和所述当前目标域集成模型，分别以所述在线样本为输入执行学习任务，得到对应的任务结果，包括：

将所述当前目标域在线样本输入所述n个源域学习模型执行学习任务，得到n个第一任务结果；

将所述当前目标域在线样本输入所述当前目标域在线学习模型执行学习任务，得到第二任务结果；

将所述当前目标域在线样本输入所述当前目标域集成模型执行学习任务，得到第三任务结果。

可选地，所述基于所述真实标签，更新所述当前目标域在线学习模型，包括：

根据所述真实标签，计算得到无关标签值；

根据所述无关标签值，计算损失值；

根据所述损失值更新所述述当前目标域在线学习模型。

可选地，所述根据所述损失值更新所述述当前目标域在线学习模型，包括：

若所述损失值大于预设损失值，则通过如下公式计算更新所述目标域在线学习模型的向量矩阵；

其中，w_t为更新后的向量矩阵，w_t-1为当前时刻的向量矩阵，l_t-1为当前时刻的损失值，K为支持向量

的个数。

可选地，所述根据所述真实标签、差异导向对冲函数和所述任务结果，所述更新所述当前目标域集成模型，包括：

根据第一预设衰减因子β₁和针对所述源域学习模型的第一差异导向对冲函数

更新所述组合学习模型中的u_i.t；其中，所述/>

为第i个源域学习模型对应的第一任务结果；所述/>

为所述当前目标域在线样本x_t映射到公共子空间的映射函数；

根据第一预设衰减因子β₁和针对当前目标域在线学习模型的第二差异导向对冲函数I(f_T,t(x_t)≠y_t)，更新所述组合学习模型中的v_i.t；其中所述f_T,t(x_t)为所述当前目标域在线学习模型对应的第二任务结果；

根据预设第二衰减因子β₂和针对当前目标域集成模型的第三差异导向对冲函数I(f_i,t(x_t)≠y_t)，更新所述当前目标域集成模型中的α_i,t；其中，所述f_i,t(x_t)为当前目标域集成模型对应的第三任务结果。

可选地，所述根据第一预设衰减因子β₁β₁和针对所述源域学习模型的第一差异导向对冲函数

更新所述组合学习模型中的u_i.t，包括：

若所述第一任务结果与所述真实标签不相同，则将所述组合学习模型的u_i.t更新为u_i.tβ₁。

本发明还公开了一种在线迁移学习装置，包括：

获取模块，用于获取n个源域离线数据集和目标域离线数据集；

映射模块，用于将所述目标域离线数据集分别和所述n个源域离线数据集，映射到公共子空间，得到n个跨域数据集；所述跨域数据集包括源域投影数据和目标域投影数据；

训练模块，用于分别采用n个跨域数据集训练得到n个源域离线学习模型，以及采用所述目标域离线数据集训练得到目标域离线学习模型；

学习模块，用于获取当前目标域在线样本，并根据所述当前目标域在线样本、所述n个源域离线学习模型和所述目标域离线学习模型，进行目标域在线学习模型的迁移学习。

本发明还公开了一种电子设备，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的在线迁移学习方法的步骤。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述的在线迁移学习方法的步骤。

本发明实施例包括以下优点：

本发明通过将目标域离线数据集与源域离线数据集映射到公共子空间，实现源域离线数据与目标域数据的特征空间对齐，从而可以将源域学到的知识直接应用到目标域，为从源域到目标域的知识迁移提供了便捷；在得到跨域数据集后，可以采用跨域数据集训练得到源域离线学习模型，采用目标域离线数据集训练得到目标域离线学习模型，然后基于目标域在线样本、n个源域离线学习模型和目标域离线学习模型，进行目标域在线学习模型的迁移学习。本发明利用源域与目标域的离线数据来辅助目标域在线数据分类任务，能有效提高了目标域在线样本分类的准确性；解决了多个异构源域到目标域的知识迁移和在线学习样本稀缺问题。

附图说明

图1是本发明实施例提供的一种在线迁移学习方法的步骤流程图；

图2是本发明实施例提供的另一种在线迁移学习方法的步骤流程图；

图3是本发明实施例提供的一种将目标域离线数据集与源域离线数据集映射到同一公共特征子空间的示意图；

图4是本发明实施例提供的一种对目标域离线数据集进行训练的示意图；

图5是本发明实施例提供的一种目标域在线学习模型的示意图；

图6是本发明实施例提供的一种组合学习模型的集成示意图；

图7是本发明实施例提供的一种当前目标域集成学习模型的集成示意图；

图8是本发明实施例提供的一种在线迁移学习装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

随着移动互联网和物联网的发展，不同领域的各种应用产生越来越多的流数据，如电商平台中用户购买行为的数据，由于流数据的大量出现，流数据分类作为流数据挖掘的主要任务，逐渐成为机器学习的研究热点，并在多个领域得到了广泛应用，比如：可穿戴设备异常检测、汽车自动驾驶、顾客购物兴趣跟踪、天气预报等；与传统数据不同，流数据中的实例都是按照时间顺序依次到达的，具有实时性和潜在无限的特点，批量式机器学习算法通常需要提前获取训练样本，当有新的训练数据时，不能直接在已有的旧模型上进行增量更新，只能重新训练新的模型，因此，很难对流数据进行实时分析与处理分类，在线学习算法基于流式计算，根据实例到达的顺序，依次更新模型，非常适合于解决流数据不断产生的动态环境下的学习问题。然而在流数据产生的起始阶段，由于提前获取到的训练样本并不多，在线学习算法一般只能利用当前已有的少量标记样本去更新模型，导致模型学习性能不佳。

为解决上述流数据分类问题，现有技术中通过在线迁移学习可以将相关源域数据中提取到的知识迁移到目标域去辅助学习目标域中的知识，以解决目标域因在线学习之初训练数据稀缺而导致学习性能不佳的问题。但是，从源域到目标域的知识迁移会因它们的特征空间和/或标签空间不同，而无法将源域上学到的知识直接应用到目标域。

基于此，本发明实施例的核心构思在于，通过获取n个源域离线数据集和目标域离线数据集；将目标域离线数据集分别和n个源域离线数据集，映射到公共子空间，得到n个跨域数据集；分别采用n个跨域数据集训练得到n个源域离线学习模型，以及采用目标域离线数据集训练得到目标域离线学习模型；获取当前目标域在线样本，并根据当前目标域在线样本、n个源域离线学习模型和目标域离线学习模型，进行目标域在线学习模型的迁移学习。本发明通过将目标域离线数据集与源域离线数据集映射到同一公共特征子空间，实现源域离线数据与目标域数据的特征空间对齐，使得源域离线数据上学习得到的学习模型可以作为源域学习模型的初始模型进行训练和更新，本发明利用源域与目标域的离线数据来辅助目标域在线数据分类任务，能有效提高了目标域在线样本分类的准确性；解决了多个异构源域到目标域的知识迁移和在线学习样本稀缺问题。

参照图1，示出了本发明实施例提供的一种在线迁移学习方法的步骤流程图，所述方法具体可以包括如下步骤：

步骤101，获取n个源域离线数据集和目标域离线数据集。

本发明实施例中，离线学习阶段的模型训练数据是离线的且带有标签值，该阶段的训练方式既可以是离线学习方法也可以是在线学习方法；可以在离线阶段获取n个源域离线数据集和目标域离线数据集。

步骤102，将目标域离线数据集分别和n个源域离线数据集，映射到公共子空间，得到n个跨域数据集；跨域数据集包括源域投影数据和目标域投影数据。

本发明实施例中，可以通过跨域结构保持投影将目标域离线数据集与源域离线标数据集映射到同一公共子空间，实现源域数据和目标域数据的特征空间对齐，从而使得源域数据集上训练得到的学习模型可以用于目标域数据的在线预测。

步骤103，分别采用n个跨域数据集训练得到n个源域离线学习模型，以及采用目标域离线数据集训练得到目标域离线学习模型。

本发明实施例中，可以采用n个跨域数据集，通过在线学习方法或者离线学习方法进行训练，得到n个源域离线学习模型，离线学习算法可以包括SVM(Support vectormachine，支持向量机)，决策树算法，在此不做限定。

可以通过在线学习算法对目标域离线数据集进行学习，得到目标域离线学习模型，在线学习算法可以包括PA(Passive Aggressive，被动攻击算法)，MPA(Multi-classPassive-Aggressive，多类被动-主动算法)，具体使用哪一种在线学习算法，在此不做限定。

步骤104，获取当前目标域在线样本，并根据当前目标域在线样本、n个源域离线学习模型和目标域离线学习模型，进行目标域在线学习模型的迁移学习。

本发明实施例中，在训练得到到n个源域离线模型后和目标域离线学习模型后，可以基于当前目标域在线样本，进行目标域在线学习模型的迁移学习，以提高目标域在线样本分类的准确性。

本发明通过将目标域离线数据集与源域离线数据集映射到同一公共特征子空间，实现源域离线数据与目标域数据的特征空间对齐，使得源域离线数据上学习得到的学习模型可以作为源域学习模型的初始模型进行训练和更新，本发明利用源域与目标域的离线数据来辅助目标域在线数据分类任务，能有效提高了目标域在线样本分类的准确性；解决了多个异构源域到目标域的知识迁移和在线学习样本稀缺问题。

参照图2，示出了本发明实施例提供的另一种在线迁移学习方法的步骤流程图，所述方法具体可以包括如下步骤：

步骤201，获取n个源域离线数据集和目标域离线数据集。

步骤202，将目标域离线数据集分别与n个源域离线数据集进行组合，得到n个数据集组合。

如图3，示出了本发明实施例提供的一种将目标域离线数据集与源域离线数据集映射到同一公共特征子空间的示意图，可以将目标域离线数据集分别与n个源域离线数据集进行组合，得到n个数据集集合。

步骤203，对第i个数据集组合，根据目标域离线数据集计算目标域转换矩阵

以及根据源域离线数据集计算源域转换矩阵/>

在本发明的一种实施例方式中，步骤203可以包括：

通过公式

计算目标域转换矩阵/>

和源域转换矩阵/>

其中，

为源域相似性矩阵，如果/>

则/>

反之则为0；

为目标域相似性矩阵，如果/>

则/>

反之则为0；/>

为跨域相似性矩阵，如果/>

则/>

反之则为0。

本发明实施例中，对第i个数据集集合，可以通过如下函数计算出目标域转换矩阵

以及根据源域离线数据集计算源域转换矩阵/>

步骤204，根据目标域转换矩阵

和源域转换矩阵/>

将目标域离线数据集和第i个源域离线数据集映射至第i个公共子空间，得到跨域数据集D_i。

在本发明的一种实施例方式中，步骤204可以包括如下子步骤：

子步骤S241，通过公式

其中，S_i指为源域离线数据集。

子步骤S242，通过公式

将所述目标域转换矩阵映射至第i个公共子空间，得到所述目标域投影数据/>其中，T_i为目标域离线数据集。

子步骤S243，将n个源域投影数据

与目标域投影数据/>

组合，得到n个跨域数据集。

本发明实施例中，在计算得到目标域转换矩阵

和源域转换矩阵/>

后，可以通过如下公式：

其中，Si指的是源域离线数据集，Ti指的是目标域离线数据集。

将源域和目标域的每个离线标记样本映射到同一公共特征子空间，得到跨域离线混合数据集D_i。

步骤205，分别采用n个跨域数据集训练得到n个源域离线学习模型，以及采用目标域离线数据集训练得到目标域离线学习模型。

如图3所示，可以通过在线学习方法或离线学习方法对n个跨域数据集进行训练，得到n个源域离线学习模型fsi，如图4，示出了本发明实施例提供的一种对目标域离线数据集进行训练的示意图，采用在线学习方法对目标域离线数据集D_Ti可以得到目标域离线学习模型f_T,0。

步骤206，获取当前目标域在线样本，并根据当前目标域在线样本、n个源域离线学习模型和目标域离线学习模型，进行目标域在线学习模型的迁移学习。

在本发明的一种实施例方式中，所述步骤206，可以包括如下子步骤：

子步骤S21，以目标域离线学习模型为初始模型，训练得到当前目标域在线学习模型；

子步骤S22，根据当前目标域在线学习模型和n个源域离线学习模型，集成得到当前目标域集成模型；

子步骤S23,对n个源域离线学习模型、当前目标域在线学习模型和当前目标域集成模型，分别以当前目标域在线样本为输入执行学习任务，得到对应的任务结果；

子步骤S24，获取当前目标域在线样本对应的真实标签；

子步骤S25，基于真实标签，更新当前目标域在线学习模型；

子步骤S26，根据真实标签、差异导向对冲函数和任务结果，更新当前目标域集成模型。

本发明实施例中，可以以目标域离线学习模型作为初始模型，对目标域在线样本进行训练，得到当前目标域在线学习模型。在训练得到当前目标域集成模型和源域离线学习模型后，可以对当前目标域在线学习模型f_T，t和n个源域离线学习模型fsi，集成得到当前目标域集成模型Ft(xt),然后可以将当前目标域在线样本xt分别输入目标域在线学习模型、源域离线学习模型、当前目标域集成模型，可以得到对应的任务结果，然后可以根据真实标签对当前目标域在线学习模型进行更新，基于真实标签、差异导向对冲函数和任务结果，更新当前目标域集成模型。

在本发明的一种实施例方式中，子步骤S21，可以包括：

步骤S211,以目标域离线学习模型为初始模型，对历史时刻的目标域在线样本进行训练，得到当前目标域在线学习模型。

本发明实施例中，如图5，示出了本发明实施例提供的一种目标域在线学习模型的示意图，xt指的是当前目标域在线样本，Dt-1指的是历史时刻的目标域在线样本数据集，可以以目标域离线学习模型为初始模型，对历史时刻的目标域在线样本数据集，进行训练学习，得到当前目标域在线学习模型f_T,t。

在本发明的一种实施例方式中，子步骤S22，可以包括：

步骤S221，将当前目标域在线学习模型，分别与n个源域离线学习模型进行集成，得到n个组合学习模型

其中，u_i,t为第i个组合学习模型中针对源域离线学习模型的权重系数；v_i,t为第i个组合学习模型中针对目标域在线学习模型的权重系数；

步骤S222，将n个组合学习模型进行集成，得到当前目标域集成模型

其中α_i,t为第i个组合学习模型的权重。

本发明实施例中，如图6，示出了本发明实施例提供的一种组合学习模型的集成示意图，可以将目标域在线学习模型fT,t分别与n个源域离线学习模型fsi进行集成，得到n个组合学习模型

其中u_i,t+_i,t＝1。如图7，示出了本发明实施例提供的一种当前目标域集成学习模型的集成示意图；在得到n个组合学习模型后，可以分别为每一个组合学习模型赋权重值α_i，t，可以集成得到当前目标域集成模型/>

其中，α_1,t+α_i,t＝1。本发明采用双层差异导向对冲集成策略，将多个源域离线学习模型和目标域在线学习模型通过双层集成的方式组合为一个当前目标域集成学习模型，提高了学习模型的精确度。

在本发明的一种实施例方式中，子步骤S23，可以包括：

步骤S231，将当前目标域在线样本输入n个源域学习模型执行学习任务，得到n个第一任务结果；

步骤S232，将当前目标域在线样本输入当前目标域在线学习模型执行学习任务，得到第二任务结果；

步骤S233，将当前目标域在线样本输入当前目标域集成模型执行学习任务，得到第三任务结果。

本发明实施例中，可以将目标域的新样本x_t输入源域学习模型

目标域学习模型f_T,t以及组合学习模型f_i,t，得到第一任务结果/>

第二任务结果f_T,t(x_t)和第三任务结果/>

其中，/>

表示将目标域样本x_t映射到源域S_i与目标域T的公共特征子空间的映射函数，即/>

在本发明的一种实施例方式中，子步骤S25，可以包括：

步骤S251，根据真实标签，计算得到无关标签值；

步骤S252，根据无关标签值，计算损失值；

步骤S253，根据损失值更新当前目标域在线学习模型。

本发明实施例中，当采用多类被动攻击算法，以离线阶段得到的f_T,1作为初始目标域离线学习模型，利用前t-1轮的目标域样本训练得到一个目标域在线学习模型

其中，w_t是由K个支持向量

组成的维度为K×d的向量矩阵，/>

是对应类别K的SVM支持向量，K为目标域样本的标签类别数。

根据目标域样本x_t的真实标签y_t和公式

解得f_T,t中排名最高的无关标签s_t；公式/>

计算出目标域分类器f_T,t的损失l_t；如果l_t＝0，则不更新向量矩阵w，即w_t不变，如果l_t>0，则通过优化目标函数对w_t进行更新，以更新当前目标域在线学习模型。

在本发明的一种实施例方式中，步骤S253，可以包括：

步骤S2531，若损失值大于预设损失值，则通过如下公式计算更新目标域在线学习模型的向量矩阵；

的个数。

本发明实施例中，为了求解出w_t，可以将公式(4)转换为下面的拉格朗日函数如公式(5)所示：

其中，λ≥0和τ≥0是拉格朗日乘数。

通过求解拉格朗日函数公式(5)关于变量w和非负松弛变量ξ的最小值，计算出更新后的向量矩阵

的更新方式为：

其中，

在本发明的一种实施例方式中，子步骤S26，可以包括：

步骤S261，根据第一预设衰减因子β₁和针对源域学习模型的第一差异导向对冲函数

更新组合学习模型中的u_i.t；其中，/>

为第i个源域学习模型对应的第一任务结果；/>

为当前目标域在线样本x₁映射到公共子空间的映射函数。

步骤S262，根据第一预设衰减因子β₁和针对当前目标域在线学习模型的第二差异导向对冲函数I(f_T,t(x_t)≠y_t)，更新组合学习模型中的v_i.t；其中f_T,t(x_t)为当前目标域在线学习模型对应的第二任务结果。

步骤S263，根据预设第二衰减因子β₂和针对当前目标域集成模型的第三差异导向对冲函数I(f_i,t(x_t)≠y_t)，更新当前目标域集成模型中的α_i,t；其中，f_i,t(x_t)为当前目标域集成模型对应的第三任务结果。

本发明实施例中，差异导向对冲函数I(f(x)≠y)可以用来判断是否对权重系数进行更新，若f(x)＝y，则不需要进行更新，此时I＝0，具体地，若

则对u_i.t进行更新，若f_T,t(x_t)≠y_t，则对v_i.t进行更新，若f_i,t(x_t)≠y_t，则对α_i,t进行更新。

在本发明的一种实施例方式中，步骤S261，可以包括：若第一任务结果与真实标签不相同，则将组合学习模型的u_i.t更新为u_i.tβ₁。

本发明实施例中，当

此时/>

因此u_i.t更新为/>

在本发明的一种实施例方式中，根据第一预设衰减因子β₁和针对当前目标域在线学习模型的第二差异导向对冲函数I_T,t(x_t)≠y_t)，更新组合学习模型中的v_i.t，可以包括：

若第二任务结果与真实标签不相同，则将组合学习模型的v_i.t更新为

由于I_T,t(x_t)≠y_t)＝1，此时v_i.t更新为v_i.tβ₁。

在本发明的一种实施例方式中，根据预设第二衰减因子β₂和针对当前目标域集成模型的第三差异导向对冲函数I(f_i,t(_t)≠y_t)，更新当前目标域集成模型中的α_i,t，可以包括：

若第三任务结果与真实标签不相同，则将当前目标域集成模型中的α_i,t更新为

由于I(f_i,t(x_t)≠y_t)＝1，此时α_i,t更新为α_i,tβ₂。本发明可以根据差异导向对冲函数来动态更新每种模型的权重，提高集成学习模型的性能。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图8，示出了本发明实施例提供的一种在线迁移学习装置的结构框图，所述装置具体可以包括：

获取模块301，用于获取n个源域离线数据集和目标域离线数据集；

映射模块302，用于将所述目标域离线数据集分别和所述n个源域离线数据集，映射到公共子空间，得到n个跨域数据集；所述跨域数据集包括源域投影数据和目标域投影数据；

训练模块303，用于分别采用n个跨域数据集训练得到n个源域离线学习模型，以及采用所述目标域离线数据集训练得到目标域离线学习模型；

学习模块304，用于获取当前目标域在线样本，并根据所述当前目标域在线样本、所述n个源域离线学习模型和所述目标域离线学习模型，进行目标域在线学习模型的迁移学习。

本发明公开了一种在线迁移学习装置，本发明通过将目标域离线数据集与源域离线数据集映射到同一公共特征子空间，实现源域离线数据与目标域数据的特征空间对齐，使得源域离线数据上学习得到的学习模型可以作为源域学习模型的初始模型进行训练和更新，本发明利用源域与目标域的离线数据来辅助目标域在线数据分类任务，能有效提高了目标域在线样本分类的准确性；解决了多个异构源域到目标域的知识迁移和在线学习样本稀缺问题。

在本发明的一种实施例方式中，所述映射模块302，可以包括：

组合子模块，用于将所述目标域离线数据集分别与所述n个源域离线数据集进行组合，得到n个数据集组合；

计算子模块，用于对第i个数据集组合，根据所述目标域离线数据集计算目标域转换矩阵

以及根据所述源域离线数据集计算源域转换矩阵/>

映射子模块，用于根据所述目标域转换矩阵

和所述源域转换矩阵/>

在本发明的一种实施例方式中，映射子模块，可以包括：

第一映射单元，用于通过公式

其中，S_i指为源域离线数据集；

第二映射单元，用于通过公式

其中，T_i为目标域离线数据集；

组合单元，用于将所述n个源域投影数据

与所述目标域投影数据/>

组合，得到n个跨域数据集。

在本发明的一种实施例方式中，计算子模块，可以包括：

矩阵计算单元，用于通过公式

计算目标域转换矩阵/>

和源域转换矩阵/>

其中，

为源域相似性矩阵，如果/>

则/>

反之则为0；/>

为目标域相似性矩阵，如果/>

则/>

反之则为0；/>

为跨域相似性矩阵，如果/>

则/>

反之则为0。

在本发明的一种实施例方式中，所述学习模块304，可以包括：

训练子模块，用于以所述目标域离线学习模型为初始模型，训练得到当前目标域在线学习模型；

集成子模块，用于根据所述当前目标域在线学习模型和所述n个源域离线学习模型，集成得到当前目标域集成模型；

结果获取子模块，用于对所述n个源域离线学习模型、所述当前目标域在线学习模型和所述当前目标域集成模型，分别以所述当前目标域在线样本为输入执行学习任务，得到对应的任务结果；

真实标签获取子模块，用于获取所述当前目标域在线样本对应的真实标签；

第一更新子模块，用于基于所述真实标签，更新所述当前目标域在线学习模型；

第二更新子模块，用于根据所述真实标签、差异导向对冲函数和所述任务结果，更新所述当前目标域集成模型。

在本发明的一种实施例方式中，所述训练子模块，可以包括：

在本发明的一种实施例方式中，所述集成子模块，可以包括：

第一集成单元，用于将所述当前目标域在线学习模型，分别与所述n个源域离线学习模型进行集成，得到n个组合学习模型

第二集成单元，用于将所述n个组合学习模型进行集成，得到当前目标域集成模型

其中α_i,t为第i个组合学习模型的权重。

在本发明的一种实施例方式中，所述结果获取子模块，可以包括：

第一结果获取单元，用于将所述当前目标域在线样本输入所述n个源域学习模型执行学习任务，得到n个第一任务结果；

第二结果获取单元，用于将所述当前目标域在线样本输入所述当前目标域在线学习模型执行学习任务，得到第二任务结果；

第三结果获取单元，用于将所述当前目标域在线样本输入所述当前目标域集成模型执行学习任务，得到第三任务结果。

在本发明的一种实施例方式中，第一更新子模块，可以包括：

第一计算单元，用于根据所述真实标签，计算得到无关标签值；

第二计算单元，用于根据所述无关标签值，计算损失值；

第一更新单元，用于根据所述损失值更新所述述当前目标域在线学习模型。

在本发明的一种实施例方式中，所述第一更新单元，可以包括：

计算子单元，用于若损失值大于预设损失值，则通过如下公式更新计算所述目标域在线学习模型的向量矩阵；

的个数。

在本发明的一种实施例方式中，第二更新子模块，可以包括：

第二更新单元，用于根据第一预设衰减因子β₁和针对所述源域学习模型的第一差异导向对冲函数

更新所述组合学习模型中的u_i.t；其中，所述

为第i个源域学习模型对应的第一任务结果；所述/>

第三更新单元，用于根据第一预设衰减因子β₁和针对当前目标域在线学习模型的第二差异导向对冲函数I(f_T,t(x_t)≠y_t)，更新所述组合学习模型中的v_i.t；其中所述f_T,t(x_t)为所述当前目标域在线学习模型对应的第二任务结果；

第四更新单元，用于根据预设第二衰减因子β₂和针对当前目标域集成模型的第三差异导向对冲函数I(f_i,t(x_t)≠y_t)，更新所述当前目标域集成模型中的α_i,t；其中，所述f_i,t(x_t)为当前目标域集成模型对应的第三任务结果。

在本发明的一种实施例方式中，所述第二更新单元，可以包括：

更新子单元，用于若所述第一任务结果与所述真实标签不相同，则将所述组合学习模型的u_i.t更新为u_i.tβ₁。

本发明公开了一种在线迁移学习装置。本发明通过将目标域离线数据集与源域离线数据集映射到同一公共特征子空间，实现源域离线数据与目标域数据的特征空间对齐，使得源域离线数据上学习得到的学习模型可以作为源域学习模型的初始模型进行训练和更新，本发明利用源域与目标域的离线数据来辅助目标域在线数据分类任务，能有效提高了目标域在线样本分类的准确性；解决了多个异构源域到目标域的知识迁移和在线学习样本稀缺问题。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，包括：

包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述在线迁移学习方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述在线迁移学习方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种在线迁移学习方法、装置、设备和存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。