CN113222073A

CN113222073A - 训练迁移学习模型和推荐模型的方法及装置

Info

Publication number: CN113222073A
Application number: CN202110650697.7A
Authority: CN
Inventors: 郇兆鑫; 王宇龙; 张晓露; 周俊; 黄启印
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-08-06
Anticipated expiration: 2041-06-09
Also published as: CN113222073B

Abstract

本公开披露了一种训练迁移学习模型和推荐模型的方法和装置。所述方法包括：对源域样本和目标域样本进行聚类，得到聚类结果；根据所述聚类结果确定所述源域样本的权值，所述源域样本的权值用于表征所述源域样本与所述目标域样本的相似度；根据所述源域样本的权值从所述源域样本中确定所述目标域样本的相似样本，以形成包含所述相似样本和所述目标域样本的训练样本；根据所述训练样本训练所述迁移学习模型。

Description

训练迁移学习模型和推荐模型的方法及装置

技术领域

本公开涉及机器学习技术领域，尤其涉及一种训练迁移学习模型和推荐模型的方法及装置。

背景技术

迁移学习是一种通过借助源域的数据提高模型在目标域上的效果的学习方法。由于源域样本和目标域样本的数据分布可能不完全一致，使用全部的源域样本进行模型的训练会造成负迁移的现象，降低迁移学习的效果。

发明内容

有鉴于此，本公开提供一种训练迁移学习模型和推荐模型的方法和装置，以避免负迁移现象。

第一方面，提供一种训练迁移学习模型的方法，所述方法包括：对源域样本和目标域样本进行聚类，得到聚类结果；根据所述聚类结果确定所述源域样本的权值，所述源域样本的权值用于表征所述源域样本与所述目标域样本的相似度；根据所述源域样本的权值从所述源域样本中确定所述目标域样本的相似样本，以形成包含所述相似样本和所述目标域样本的训练样本；根据所述训练样本训练所述迁移学习模型。

第二方面，提供一种训练推荐模型的方法，所述方法包括：对源域样本和目标域样本进行聚类，得到聚类结果，其中所述源域样本和所述目标域样本均为推荐数据；根据所述聚类结果确定所述源域样本的权值，所述源域样本的权值用于表征所述源域样本与所述目标域样本的相似度；根据所述源域样本的权值从所述源域样本中确定所述目标域样本的相似样本，以形成包含所述相似样本和所述目标域样本的训练样本；根据所述训练样本训练所述推荐模型。

第三方面，提供一种训练迁移学习模型的装置，所述装置包括：聚类模块，用于对源域样本和目标域样本进行聚类，得到聚类结果；赋权模块，用于根据所述聚类结果确定所述源域样本的权值，所述源域样本的权值用于表征所述源域样本与所述目标域样本的相似度；数据确定模块，用于根据所述源域样本的权值从所述源域样本中确定所述目标域样本的相似样本，以形成包含所述相似样本和所述目标域样本的训练样本；训练模块，用于根据所述训练样本训练所述迁移学习模型。

第四方面，提供一种训练推荐模型的装置，所述装置包括：聚类模块，用于对源域样本和目标域样本进行聚类，得到聚类结果，其中所述源域样本和所述目标域样本均为推荐数据；赋权模块，用于根据所述聚类结果确定所述源域样本的权值，所述源域样本的权值用于表征所述源域样本与所述目标域样本的相似度；数据确定模块，用于根据所述源域样本的权值从所述源域样本中确定所述目标域样本的相似样本，以形成包含所述相似样本和所述目标域样本的训练样本；训练模块，用于根据所述训练样本训练所述推荐模型。

第五方面，提供一种训练迁移学习模型的装置，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器被配置为执行所述可执行代码，以实现如第一方面所述的方法。

第六方面，提供一种训练推荐模型的装置，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器被配置为执行所述可执行代码，以实现如第二方面所述的方法。

第七方面，提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被执行时，能够实现如第一方面或第二方面所述的方法。

第八方面，提供一种计算机程序产品，包括可执行代码，当所述可执行代码被执行时，能够实现如第一方面或第二方面所述的方法。

本公开实施例提供了一种训练迁移学习模型的方案，其采用聚类的方式设置源域样本的权重，并根据源域样本的权重，从源域样本中确定出与目标域样本的数据分布相似的样本作为迁移模型的训练样本，从而可以避免迁移学习模型的负迁移的现象，提升迁移学习的效果。

附图说明

图1为本公开实施例提供的训练迁移学习模型的方法的流程示意图。

图2为本公开实施例提供的迁移学习模型的架构示例图。

图3是本公开一实施例提供的训练迁移学习模型的装置的结构示意图。

图4是本公开另一实施例提供的训练迁移学习模型的装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本公开一部分实施例，而不是全部的实施例。

为了便于理解，先对迁移学习的相关概念进行简单介绍。

迁移学习指的是利用数据和领域之间存在的相似性关系，把旧领域已经获得的知识应用于新的领域，以完成新的领域的任务或解决新领域遇到的问题。

在迁移学习中，领域(Domain)是一个基本概念，通常由数据和数据的概率分布组成，是迁移学习的主体。

领域可以分为源域(Source Domain)和目标域(Target Domain)。源域指的是已有知识所在的领域。目标域指的是要进行学习的领域。

当需要训练一个能够处理目标域任务的模型时，若目标域样本较少，则可以将源域样本和少量的目标域样本输入至迁移学习模型中，对该迁移学习模型进行训练，从而使得迁移学习模型能够处理目标域的任务。

例如，假设支付宝平台希望为其用户推荐广告。但是，支付宝平台的广告推荐数据较为稀缺(即目标域样本稀缺)，无法训练出准确的广告推荐模型。此时，如果其他的场景或渠道(如淘宝等电商平台)存在大量的广告推荐数据，则可以将这些广告推荐数据(即源域样本)迁移至支付宝平台所在的领域，为支付宝平台训练广告推荐模型。

源域样本和目标域样本的数据分布可能不完全一致，如果不对源域样本进行选择，直接使用源域样本训练迁移学习模型，会造成负迁移的现象。所谓“负迁移”，指的是迁移学习中，由于引入了源域的数据导致模型在目标域的数据上的效果不升反降，即源域数据对模型的训练起到了负面作用。因此，为了避免负迁移，如何选择合适的源域样本进行迁移学习模型的训练成为当下的研究热点。

仍以支付宝平台的广告推荐模型为例，由于其他场景(如电商平台)的商品或用户人群与支付宝平台的商品或用户人群存在一定差异，导致两个领域之间的广告推荐数据的分布存在一定差异。面对这种现象，如果不对该其他场景的广告推荐数据进行选择，而是直接将其全部迁移至支付宝平台所在的领域，则训练出的广告推荐型模型的推荐效果可能会比较差。

面对负迁移的问题，关键是如何能够从源域样本中选取出目标域样本的相似样本(即与目标域样本的数据分布类似的样本)。为了实现这一目的，相关技术提出了基于强化学习和基于生成对抗网络(Generative Adversarial Network，GAN)的源域样本选择方案。

基于强化学习的样本选择方案的核心思想是根据迁移学习模型在验证集上对源域样本的损失作为强化学习的奖赏，并利用奖赏值更新源域样本的样本选择策略。基于强化学习的模型的收敛性较差是公认的问题，因此，采用该方案训练迁移学习模型过程很容易出现波动，导致模型的训练效果不稳定。

基于GAN的样本选择方案的核心思想是使用GAN训练一个样本选择器和判别器，对源域样本进行选择和判别。具体而言，选择器不断的学习目标域和源域样本的数据特征，并将这些特征交由判别器进行判别，如果得到判别器的认可，则选择器选取具有这些特征的样本，如果判别器不认可，选择器则根据反馈不断改善，最终使得判别器无法对目标域样本和源域样本进行辨别。GAN很容易出现模式崩溃或梯度消失的问题，从而导致迁移学习模型的训练效果不稳定。

有鉴于此，本公开实施例提供一种训练迁移学习模型的方法，该方法不但能够避免迁移学习模型的负迁移问题，而且与上述相关技术相比具有较高的模型训练稳定性。

下面结合附图1，对本公开实施例提供的训练迁移学习模型的方法进行详细描述。

在步骤S110，对源域样本和目标域样本进行聚类，得到聚类结果。

在一些实施例中，源域样本和目标域样本是指可以输入模型的任何数据，可以包括图像样本或文本样本。例如，若模型应用于广告推荐的场景，图像样本可以是人脸图像样本和/或商品图像样本，文本样本可以是一种结构化样本，该文本样本可以包括以下信息中的一种或多种：用户的身份信息，用户点击的商品信息以及用户购买的商品信息。例如，用户的身份信息可以是用户的职业、性别和年龄等信息。用户点击的商品信息以及用户购买的商品信息可以是用于预测用户点击某商品并购买该商品的概率相关的信息。

对源域样本和目标域样本进行聚类的方式有很多，本公开实施例对此不作具体限定。例如，可以采用K-means聚类，也可以采用均值漂移聚类。

可选地，在一些实施例中，可以直接对源域样本和目标域样本进行聚类。在另一些实施例中，如果源域样本和目标域样本的数据维度比较高，或者源域样本和目标域样本的数据维度不一致，可以先对源域样本和目标域样本进行预处理，将源域样本和目标域样本转化至某个低维的向量空间(或称聚类空间)，然后再对源域样本和目标域样本进行后续的聚类操作。

作为一个示例，如图2所示，可以将迁移学习模型的输入层设置为嵌入层(embedding层)。在对该迁移学习模型训练时，可以先将源域样本和目标域样本输入至该嵌入层，得到源域样本和目标域样本在嵌入层的向量表征。该嵌入层能够起到数据降维的作用，从而简化后续的聚类操作。在得到源域样本和目标域样本在嵌入层的向量表征之后，可以将该源域样本和目标域样本在嵌入层的向量表征输入至样本选择器的聚类模块进行聚类。

对于一些聚类算法，如K-means，在聚类前，要求预先设定聚类簇的数量，即预先设定源域样本和目标域样本需要划分至多少个聚类簇。聚类簇的数量可以根据经验设置。聚类簇的数量可以作为迁移学习模型的超参，并可以根据模型的训练效果而被调整。

聚类结果可用于指示源域样本和目标域样本所属的类别，或者源域样本和目标域样本属于某个类别的概率或可能性。

如果预先设定了多个聚类簇，则聚类结果可以包括源域样本和/或目标域样本所属的聚类簇。或者，聚类结果可以包括源域样本和/或目标域样本属于预先设定的多个聚类簇中的每个聚类簇的概率。为了便于描述，后文将样本属于预先设定的多个聚类簇中的每个聚类簇的概率称为“聚类簇概率”，假设聚类簇的数量为5，则某个样本可以具有5个聚类簇概率，分别表征该样本数据属于该5个聚类簇的可能性。

在某些实施例中，聚类结果还可以包括聚类簇的质心(Cluster Centroids)，或称聚类簇的聚类中心。上文提到的聚类簇概率可以根据聚类空间中的样本与每个聚类簇的质心之间的距离确定。

在步骤S120，根据聚类结果确定源域样本的权值。源域样本的权值可用于表征源域样本和目标域样本的相似度。例如，源域样本的权值可以位于0-1之间。某个源域样本的权值越大，则该源域样本与目标域样本的相似度就相应越高。

步骤S120的实现方式可以有多种。作为一个示例，可以根据每个类别中的源域样本和目标域样本的数量确定源域样本的权值。例如，如果某个类别中的目标域样本较多，则说明该类簇中的源域样本与目标域样本属于相似样本的概率较大，因此可以为该类别中的源域样本赋予较大的权值；如果某个类别中的目标域样本较少，则说明该类别中的源域样本与目标域样本属于相似样本的概率较小，因此可以为该类别中的源域样本赋予较小的权值。以图2为例，聚类模块将源域样本和目标域样本大致分入3个聚类簇，其中圆形代表的是源域样本，矩形代表的是目标域样本。从图2中可以看出，聚类簇1和3中具有较多的目标域样本，聚类簇2没有目标域样本。因此，可以为与聚类簇1和3距离较近的源域样本设置较高的权值，并为与聚类簇2距离较近的源域样本设置较低的权值。

作为另一个示例，可以预先设定多个聚类簇，并设定该多个聚类簇各自对应的权值。然后，可以根据聚类结果中记录的源域样本的聚类簇概率以及多个聚类簇的权值，确定源域样本的权值。例如，如图2所示，待聚类模块获取到源域样本的聚类簇概率之后，赋权模块可以将各个源域样本的聚类簇概率组织成矩阵的形式，然后计算该聚类簇概率矩阵与聚类簇权值的乘积，从而得到源域样本的权值W。由于某些源域样本可能并非绝对的属于某个聚类簇，或者某些源域样本属于不同聚类簇的概率可能是相近的，因此与直接将源域样本归属于某个特定的聚类簇的方式相比，计算源域样本的聚类簇概率会让源域样本的权值的计算更加准确。

在步骤S130，根据源域样本的权值从源域样本中确定目标域样本的相似样本。该相似样本和目标域样本可以形成训练样本，用于对迁移学习模型进行训练。

相似样本可以指源域样本中的与目标域样本在聚类空间中距离较近的样本。或者，相似样本可以指源域样本中的与目标域样本数据分布较为相似的样本。

步骤S130的实现方式有多种。作为一个示例，可以设置一权值阈值，然后将权值小于该权值阈值的源域样本删除，权值大于或等于该权值阈值的源域样本保留下来，作为相似样本。通过这种方式能够快速方便地实现相似样本的选取。

作为另一个示例，可以根据源域样本的权值对源域样本进行筛选，使得源域样本中的权值较大的样本在训练样本中所占的比重较大。

以图2为例，可以将源域样本的权值W作用在迁移学习模型上，如作用在嵌入层的输出端，以抑制或激活源域样本中的信息向迁移学习模型的下一层流动。例如，在源域样本的权值W的控制下，权值较大的源域样本可以有较多的信息流入迁移学习模型的下一层，权值较小的源域样本只有较少的信息会流入迁移学习模型的下一层。经过上述过程，可以使得权值较大的源域样本在相似样本中所占的比重较大，权值较小的源域样本在相似样本中所占的比重相对较小。

根据上述内容可知，本示例并非将权值较低的源域样本直接删除，而是按照权值的比重确定各源域样本需要保留的信息量，这样的方式能够提高迁移学习模型的训练效果。其具体原因为，即使源域样本的权值较低，该源域样本中仍然含有一定量的与目标域样本具有相似性的有用信息，如果将这部分信息保留下来，能够增加源域知识的利用率，从而在样本有限的情况下，提升迁移学习模型的训练效果。

步骤S140，根据训练样本训练迁移学习模型。例如，可以根据该训练样本计算迁移学习模型的损失函数，然后利用该损失函数，通过反向传播，更新迁移学习模型的模型参数，例如可以是嵌入层的参数和/或隐藏层中的参数。此外，在基于聚类簇的权值计算源域样本的权值的实施例中，还可以利用反向传播更新聚类簇的权值，使得聚类簇权值的设置不断趋于合理。

以图2为例，在赋权模块输出源域样本的权值之后，可以对嵌入层输出的源域样本和目标域样本(实际上是源域样本和目标域样本在嵌入层的向量表征)进行作用。经过上述处理之后，即可得到训练样本。然后，可以根据该训练样本训练迁移学习模型，得到源域任务的执行结果y^s以及目标域任务的执行结果y^t。

然后，可以根据y^s和y^t与准确值之间的差异，计算交叉熵损失，并根据该交叉熵损失，通过反向传播，更新聚类簇的权值和迁移学习模型的模型参数。迁移学习模型的模型参数和聚类簇的权值的更新可以反复进行，直到迁移学习模型收敛。

具体而言，交叉熵损失是根据迁移学习模型的输出(y^s和y^t)计算出的。从图2可以看出，迁移学习模型的输出不但与迁移学习模型的参数有关(迁移学习模型的参数包括嵌入层参数、隐藏层参数)，还与源域样本的权值W有关。而源域样本的权值W是根据聚类簇概率矩阵和聚类簇权值计算出的。因此，综上可知，交叉熵损失是嵌入层的参数、隐藏层的参数以及聚类簇权值的函数。

在更新时，可以以交叉熵损失最小为优化目标，利用梯度下降法，得到嵌入层的参数、隐藏层的参数以及聚类簇权值的最优解，这样就完成了嵌入层的参数、隐藏层的参数以及聚类簇权值的一轮更新。如此反复，直到交叉熵损失的取值达到预设的迭代停止条件(如达到预设的迭代次数或交叉熵损失与准确值之间的差异小于预设阈值)。

本公开实施例采用聚类的方式设置源域样本的权重，并根据源域样本的权重，从源域样本中确定出与目标域样本的数据分布相似的样本作为迁移模型的训练样本，从而可以避免迁移学习模型的负迁移的现象，提升迁移学习的效果。此外，与基于强化学习或GAN的样本选择方式相比，基于聚类的样本选择方式具有较少的超参数需要调节，实现简单。

为了便于理解，下面结合图2，以采用K-means聚类为例，给出图1方法的实现方式的一个示例。

参见图2，迁移学习模型可以包括嵌入层、隐藏层和输出层(即图2中的y^s和y^t所在的一层)。嵌入层可用于接收输入的源域样本和目标域样本并得到源域样本和目标域样本在嵌入层的向量表征，经过隐藏层的处理，可以在输出层输出源域任务的执行结果y^s和目标域任务的执行结果y^t。利用源域任务的执行结果y^s和目标域任务的执行结果y^t，可以计算出迁移学习模型的损失函数，然后通过反向传播的方式训练迁移学习模型的各层的模型参数。为了避免前文提到的负迁移问题，可以为迁移学习模型配置一样本选择器(也可称为实例选择器)。该样本选择器可以基于K-means对源域样本和目标域样本进行聚类。该样本选择器可以包括聚类模块和赋权模块。聚类模块得到聚类结果之后，可以将聚类结果传给赋权模块，并由赋权模块计算源域样本的权值。该源域样本的权值可用于对源域样本进行筛选，从而从源域样本中确定出目标域样本的相似样本。

基于K-means的聚类方式需要先指定聚类簇的数量K。K可以理解为迁移学习模型的超参，K的取值可以根据迁移学习模型的学习效果进行调整。在对迁移学习模型进行训练之前，可以先确定K个聚类簇的权值的初始值。该初始值可以根据经验设定，也可以随机设定。

当希望训练迁移学习模型时，首先可以将源域样本和目标域样本输入迁移学习模型的嵌入层，得到源域样本和目标域样本在嵌入层的向量表征。

然后，可以将源域样本和目标域样本在嵌入层的向量表征传输至聚类模块。聚类模块采用K-means聚类的方式确定K个聚类簇的聚类质心，并根据K个聚类簇的聚类质心确定每个源域样本在聚类空间中与K个聚类质心之间的距离，从而得到每个源域样本在K个类簇的聚类簇概率。

接着，聚类模块将每个源域样本在K个类簇的聚类簇概率作为聚类结果，传输至赋权模块。赋权模块可以根据各个样本的聚类簇概率，生成聚类簇概率矩阵，并将该聚类簇概率矩阵与K个聚类簇各自的权值相乘，得到各源域样本的权值。

赋权模块将各源域样本的权值作用在嵌入层的与源域样本对应的输出通道上，以对源域样本进行筛选，从而使得权值较大的源域样本能够有较多的信息流入下一层，权值较小的源域样本流入下一层的信息量较少。对于目标域样本，则可以直通至下一层。

经过上述筛选操作得到的源域样本和目标域样本共同形成了训练样本。迁移学习模型可以利用该训练样本计算源域任务的执行结果y^s和目标域任务的执行结果y^t，并根据源域任务的执行结果y^s和目标域任务的执行结果y^t与真实值之间的差异，计算迁移学习模型的损失函数，并利用该损失函数，通过反向传播，更新迁移学习模型的模型参数以及样本选择器中的聚类簇权值。重复上述迭代过程，直到迁移学习模型收敛为止。

本公开实施例基于K-means聚类对源域样本进行样本选择，与基于强化学习和GAN的样本选择方式相比，基于K-means聚类的样本选择方式具有超参少(只需要调整聚类簇的数量K即可)、模型训练过程稳定的优点。本公开实施例对前文提及的训练迁移学习模型的方法的应用场合不做具体限定。在一些实施例中，可以将上述方法应用在推荐场景，例如可以是广告推荐场景。

例如，有些网络平台(如支付宝平台)的商品数据和/或用户购买数据较为稀缺，无法训练出准确的广告推荐模型，导致广告推荐效果差。

为了能够解决上述问题，可以借助其他渠道(如电商平台)的数据，并基于本公开实施例提供的训练迁移学习模型的方法训练广告推荐模型，从而提升数据稀缺的网络平台的广告推荐效果。该广告推荐模型可以是点击后的转换率(post-click conversion rate，CVR)预估模型，也可以是点击通过率(click through rate，CTR)预估模型。在有些实施例中，广告推荐模型也可称为商品推荐模型。

在该实施例中，上文提及的源域样本和目标域样本均可以是广告推荐数据或商品推荐数据。源域可以是广告推荐数据丰富的领域，如电商平台。目标域例如可以是广告推荐数据稀缺的网络平台，如支付宝平台。该广告推荐数据可以包括用户对商品的点击数据，用户对商品的搜索数据，用户购买其点击的商品的数据等。

上文结合图1至图2，详细描述了本公开的方法实施例，下面结合图3至图4，详细描述本公开的装置实施例。应理解，方法实施例的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

图3是本公开一实施例提供的训练迁移学习模型的装置的示意性结构图。该装置300可以包括聚类模块310、赋权模块320、数据确定模块330以及训练模块340。下面对这些模块进行详细介绍。

聚类模310用于对源域样本和目标域样本进行聚类，得到聚类结果。

赋权模块320用于根据聚类结果确定源域样本的权值，源域样本的权值用于表征源域样本和目标域样本的相似度。

数据确定模块330用于根据源域样本的权值从源域样本中确定目标域样本的相似样本，以形成包含相似样本和目标域样本的训练样本。

训练模块340用于根据训练样本训练迁移学习模型。

可选地，赋权模块320可用于根据源域样本属于预设的多个聚类簇中的每个聚类簇的概率，以及多个聚类簇的权值，确定源域样本的权值。

可选地，装置300还可包括：更新模块，用于根据迁移学习模型的输出更新多个聚类簇的权值。

可选地，数据确定模块330可用于根据源域样本的权值，对源域样本进行筛选，使得源域样本中的权值较大的数据在训练样本中所占的比重较大。

可选地，聚类模块用于将源域样本和目标样本输入迁移学习模型的嵌入层，得到源域样本和目标域样本在嵌入层的向量表征；根据源域样本和目标域样本在嵌入层的向量表征，对源域样本和目标域样本进行聚类。

可选地，聚类为K-means聚类。

可选地，源域样本和目标域样本为图像样本或文本样本。

可选地，文本样本包括以下信息中的一种或多种：用户的身份信息，用户点击的商品信息以及用户购买的商品信息。

可选地，上述迁移学习模型可以是推荐模型，源域样本和目标域样本可以是推荐数据。

图4是本公开又一实施例提供的训练迁移学习模型的装置的结构示意图。该装置400例如可以是具有计算功能的计算设备。比如，装置400可以是移动终端或者服务器。装置400可以包括存储器410和处理器420。存储器410可用于存储可执行代码。处理器420可用于执行所述存储器410中存储的可执行代码，以实现前文描述的各个方法中的步骤。在一些实施例中，该装置400还可以包括网络接口430，处理器420与外部设备的数据交换可以通过该网络接口430实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(Digital Video Disc，DVD))、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

本领域普通技术人员可以意识到，结合本公开实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种训练迁移学习模型的方法，所述方法包括：

对源域样本和目标域样本进行聚类，得到聚类结果；

根据所述聚类结果确定所述源域样本的权值，所述源域样本的权值用于表征所述源域样本与所述目标域样本的相似度；

根据所述源域样本的权值从所述源域样本中确定所述目标域样本的相似样本，以形成包含所述相似样本和所述目标域样本的训练样本；

根据所述训练样本训练所述迁移学习模型。

2.根据权利要求1所述的方法，所述根据所述聚类结果确定所述源域样本的权值，包括：

根据所述源域样本属于预设的多个聚类簇中的每个聚类簇的概率，以及所述多个聚类簇的权值，确定所述源域样本的权值。

3.根据权利要求2所述的方法，还包括：

根据所述迁移学习模型的输出更新所述多个聚类簇的权值。

4.根据权利要求1所述的方法，所述根据所述源域样本的权值从所述源域样本中确定所述目标域样本的相似样本，以形成包含所述相似样本和所述目标域样本的训练样本，包括：

根据所述源域样本的权值，对所述源域样本进行筛选，使得所述源域样本中的权值较大的样本在所述训练样本中所占的比重较大。

5.根据权利要求1所述的方法，所述对源域样本和目标域样本进行聚类，包括：

将源域样本和目标样本输入所述迁移学习模型的嵌入层，得到所述源域样本和所述目标域样本在所述嵌入层的向量表征；

根据所述源域样本和所述目标域样本在所述嵌入层的向量表征，对所述源域样本和所述目标域样本进行聚类。

6.根据权利要求1所述的方法，所述聚类为K-means聚类。

7.根据权利要求1所述的方法，所述源域样本和所述目标域样本为图像样本或文本样本。

8.根据权利要求7所述的方法，所述文本样本包括以下信息中的一种或多种：用户的身份信息，用户点击的商品信息以及用户购买的商品信息。

9.一种训练推荐模型的方法，所述方法包括：

对源域样本和目标域样本进行聚类，得到聚类结果，其中所述源域样本和所述目标域样本均为推荐数据；

根据所述训练样本训练所述推荐模型。

10.一种训练迁移学习模型的装置，所述装置包括：

聚类模块，用于对源域样本和目标域样本进行聚类，得到聚类结果；

赋权模块，用于根据所述聚类结果确定所述源域样本的权值，所述源域样本的权值用于表征所述源域样本与所述目标域样本的相似度；

数据确定模块，用于根据所述源域样本的权值从所述源域样本中确定所述目标域样本的相似样本，以形成包含所述相似样本和所述目标域样本的训练样本；

训练模块，用于根据所述训练样本训练所述迁移学习模型。

11.根据权利要求10所述的装置，所述赋权模块用于根据所述源域样本属于预设的多个聚类簇中的每个聚类簇的概率，以及所述多个聚类簇的权值，确定所述源域样本的权值。

12.根据权利要求11所述的装置，所述装置还包括：

更新模块，用于根据所述迁移学习模型的输出更新所述多个聚类簇的权值。

13.根据权利要求10所述的装置，所述数据确定模块用于根据所述源域样本的权值，对所述源域样本进行筛选，使得所述源域样本中的权值较大的数据在所述训练样本中所占的比重较大。

14.根据权利要求10所述的装置，所述聚类模块用于将源域样本和目标样本输入所述迁移学习模型的嵌入层，得到所述源域样本和所述目标域样本在所述嵌入层的向量表征；根据所述源域样本和所述目标域样本在所述嵌入层的向量表征，对所述源域样本和所述目标域样本进行聚类。

15.根据权利要求10所述的装置，所述聚类为K-means聚类。

16.根据权利要求10所述的装置，所述源域样本和所述目标域样本为图像样本或文本样本。

17.根据权利要求16所述的装置，所述文本样本包括以下信息中的一种或多种：用户的身份信息，用户点击的商品信息以及用户购买的商品信息。

18.一种训练推荐模型的装置，所述装置包括：

聚类模块，用于对源域样本和目标域样本进行聚类，得到聚类结果，其中所述源域样本和所述目标域样本均为推荐数据；

训练模块，用于根据所述训练样本训练所述推荐模型。

19.一种训练迁移学习模型的装置，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器被配置为执行所述可执行代码，以实现权利要求1-9中任一项所述的方法。