CN116432039B

CN116432039B - 协同训练方法及装置、业务预测方法及装置

Info

Publication number: CN116432039B
Application number: CN202310702653.3A
Authority: CN
Inventors: 李群伟; 钟文亮; 魏鹏; 孙仁恩; 林建滨
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-09-05
Anticipated expiration: 2043-06-13
Also published as: CN116432039A

Abstract

本说明书实施例披露一种协同训练方法及装置，以及一种业务预测方法及装置。协同训练方法由第一方执行，包括：先利用第一方部署的第一预测模型中的第一嵌入层处理训练样本的第一特征部分，得到第一嵌入表征，并从第二方接收第二嵌入表征，其由第二方利用第二预测模型中的第二嵌入层处理训练样本的第二特征部分而得到；再利用第一预测模型中的第一预测层处理第一嵌入表征和第二嵌入表征的第一融合表征，得到第一预测结果，并从第二方接收第二预测结果，其由第二方利用第二预测模型对训练样本进行预测而得到；之后基于第一预测结果、第二预测结果和训练样本的真实标签，训练第一预测模型。上述业务预测方法由第一方基于训练好的第一预测模型而执行。

Description

协同训练方法及装置、业务预测方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习技术领域，尤其涉及一种协同训练方法及装置，以及一种业务预测方法及装置。

背景技术

计算机技术的发展，使得机器学习在各种各样的业务场景中得到越来越广泛的应用。联邦学习（Federated Learning，简称FL）实现在隐私保护基础上，有效打破数据孤岛，实现多方联合建模。

然而，目前已有的联邦学习算法存在局限性。因此，需要一种联邦学习方案，可以更好地满足实际应用需求，例如，支持各参与方采用不同的模型结构，实现双向协同等。

发明内容

本说明书实施例描述一种协同训练方法及装置，以及一种业务预测方法及装置，可以更好地满足实际应用需求。

根据第一方面，提供一种协同训练方法，由第一方执行，包括：

利用第一方部署的第一预测模型中的第一嵌入层处理训练样本的第一特征部分，得到第一嵌入表征；从第二方接收第二嵌入表征，其由所述第二方利用第二预测模型中的第二嵌入层处理所述训练样本的第二特征部分而得到；利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的第一融合表征，得到第一预测结果；从所述第二方接收第二预测结果，其由所述第二方利用所述第二预测模型对所述训练样本进行预测而得到；基于所述第一预测结果、第二预测结果和所述训练样本的真实标签，训练所述第一预测模型。

在一个实施例中，所述第一预测模型还具有第一融合层；所述方法还包括：利用所述第一融合层处理所述第一嵌入表征和第二嵌入表征，得到所述第一融合表征。

在一个实施例中，还包括：在所述第一嵌入表征中添加差分隐私噪声，得到加躁嵌入表征；将所述加躁嵌入表征发送给所述第二方。

在一个实施例中，基于所述第一预测结果、第二预测结果和所述训练样本的真实标签，训练所述第一预测模型，包括：根据第一损失项和第二损失项确定第一训练损失，所述第一损失项与所述第一预测结果和所述真实标签之间的差距正相关，第二损失项与所述第一预测结果和第二预测结果之间的差距正相关；基于所述第一训练损失，训练所述第一预测模型。

在一个具体的实施例中，根据第一损失项和第二损失项确定第一训练损失，包括：基于第一权重系数对第一损失项和第二损失项加权求和；其中，所述第一权重系数不同于第二权重系数，所述第二权重系数是所述第二方对应训练所述第二预测模型所采用的权重系数。

在一个实施例中，基于所述第一预测结果、第二预测结果和所述训练样本的真实标签，训练所述第一预测模型，包括：在所述第二预测结果指示的预测标签与所述真实标签一致的情况下，利用所述第一预测结果、真实标签和第二预测结果确定第一训练损失，训练所述第一预测模型。

在一个实施例中，基于所述第一预测结果、第二预测结果和所述训练样本的真实标签，训练所述第一预测模型，包括：在所述第二预测结果指示的预测标签与所述真实标签不一致的情况下，仅利用所述第一预测结果和真实标签确定第一训练损失，训练所述第一预测模型。

在一个实施例中，所述第一方为服务端，所述第二方是所述服务端的多个客户端之一；或者，所述第二方为服务端，所述第一方是所述服务端的多个客户端之一。

在一个实施例中，所述第一方为服务端，所述第二方是所述服务端的多个客户端之一；其中，所述第一预测模型的模型参数数量大于所述第二预测模型的模型参数数量，和/或，所述第一预测模型的神经网络层数大于所述第二预测模型的神经网络层数。

根据第二方面，提供一种业务预测方法，由第一方执行，包括：

确定待预测的目标样本；利用所述第一方部署的第一预测模型中的第一嵌入层处理所述目标样本的第一特征部分，得到第一嵌入表征；所述第一预测模型由所述第一方采用第一方面提供的方法而预先训练；获取第二嵌入表征，其由第二方利用其第二预测模型中的第二嵌入层处理所述目标样本的第二特征部分而得到；利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的融合表征，得到针对所述目标样本的目标预测结果。

在一个实施例中，所述第一方是客户端，所述第二方是所述客户端的服务端；其中，确定待预测的目标样本，包括：响应于基于所述客户端发起的业务操作，确定该业务操作对应的目标用户，作为目标样本；其中，所述方法还包括：从所述客户端的缓存中读取在自当前时刻起回溯预设时长内采集的用户行为数据，归入所述第一特征部分。

在一个具体的实施例中，获取第二嵌入表征包括：在本地读取所述服务端预先发送的所述第二嵌入表征。

根据第三方面，提供一种协同训练装置，集成于第一方。该装置包括：嵌入处理模块，配置为利用第一方部署的第一预测模型中的第一嵌入层处理训练样本的第一特征部分，得到第一嵌入表征。表征接收模块，配置为从第二方接收第二嵌入表征，其由所述第二方利用第二预测模型中的第二嵌入层处理所述训练样本的第二特征部分而得到。预测模块，配置为利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的第一融合表征，得到第一预测结果。结果接收模块，配置为从所述第二方接收第二预测结果，其由所述第二方利用所述第二预测模型对所述训练样本进行预测而得到。训练模块，配置为基于所述第一预测结果、第二预测结果和所述训练样本的真实标签，训练所述第一预测模型。

根据第四方面，提供一种业务预测装置，集成于第一方。该装置包括：样本确定模块，配置为确定待预测的目标样本。嵌入处理模块，配置为利用所述第一方部署的第一预测模型中的第一嵌入层处理所述目标样本的第一特征部分，得到第一嵌入表征；所述第一预测模型由所述第一方执行第一方面提供的方法而预先训练。表征获取模块，配置为获取第二嵌入表征，其由第二方利用其第二预测模型中的第二嵌入层处理所述目标样本的第二特征部分而得到。预测模块，配置为利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的融合表征，得到针对目标样本的目标预测结果。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面提供的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，该处理器执行所述可执行代码时，实现第一方面或第二方面提供的方法。

采用本说明书实施例披露的上述方法及装置，可以实现：1）促进本地个性化。对一个数据方（如云端）的特征进行抽取后传输至另一数据方（如移动端），可以增强FL算法的个性化。2）支持模型的异构性（heterogeneity）。相较传统FL算法中要求不同数据方（如不同移动端）中部署的模型必须具有完全相同的结构，本说明书实施例披露的方案中只要求不同数据方中的模型具有相同的输入维数和输出维数。3）支持训练异步化（asynchronization）。当存在部分训练设备被选取时，传输的嵌入特征和预测结果对异步化不敏感。4）减轻通讯负担。相较传统FL算法中不同数据方（如云端和移动端）之间需要传输的大量的模型梯度数据，本说明书实施例披露的方案中传输的嵌入特征和预测结果具有更小的数据量级。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出传统联邦学习算法的实施架构；

图2示出本说明书实施例披露的移动端和云端协同训练方案的实施架构示意图；

图3示出本说明书实施例披露的协同训练方法的通信交互示意图；

图4示出本说明书实施例披露的业务预测方法的流程示意图；

图5示出本说明书实施例披露的协同训练装置的结构示意图；

图6示出本说明书实施例披露的业务预测装置的结构示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1示出传统联邦学习算法的实施架构。将分布式设备上的本地模型进行聚合，更新全局模型。与此同时，为了保护用户数据的隐私，每个设备只向全局模型汇报模型参数梯度，而非原始数据。通过这种方式，全局模型可以不断地从本地设备上各自训练的模型参数中学习到更多的信息，从而提高全局模型的性能，同时不会危及到数据隐私问题。

在一种典型场景中，图1中示出的中立方是云端（或者说服务端），个数据方是个移动端（或者说服务端的个客户端）。此时，在联邦学习中只用到了云端的强大算力，但未用到云端存储的丰富特征。

由此提出一种协同训练方案，在此方案中，云端和移动端各自维护本地模型，在模型中抽取本地独有的特征传输给对端，供对端的模型进行训练和使用。可选地，还向对端传输本地的预测信息，以供对端进行知识蒸馏（Knowledge Distillation，简称KD）。

为便于理解，下面先从问题设立（Problem Setup）和学习目标（LearningObjectives）这两个方面，介绍上述协同训练方案。

一、问题设立

将参与协同训练的移动端数量记作，且。具体地，训练任务（如推荐任务、图像分类任务等）的全量数据集根据其中特征数据涉及的不同持有方可以分为两大部分，一部分由云端持有，记作，另一部分由K个移动端共同持有，记作。需理解，文中的“持有”主要指具有读取、使用权限，示例性的，云端可以将数据集存储在本地，并按需调用。

个移动端中任意的第个移动端持有数据集，其定义式可记作。其中，表示中第个样本的本地特征，表示该第i个样本的样本标签，且，表示样本标签的总个数；表示数据集中的样本总数。由此可得，，。

示例性的，移动端中的本地特征可以包括实时产生的用户行为数据等隐私敏感特征。以推荐任务为例，隐私敏感特征可以包括用户的兴趣爱好、收货地址、用户与业务对象（如商品、广告等）的实时交互数据（如是否点击、浏览时长等）。需说明，文中与用户相关的数据均是在用户确认授权后进行的采集。另外一般地，移动端将实时采集的特征数据存储在本地，云端无法对其进行获取。

云端持有数据集，先定义，由此。

示例性的，云端中可以存储非敏感或低敏感度的特征、个移动端的历史特征等。以推荐任务为例，云端特征包括用户与业务对象的历史交互行为，业务对象的类别，商品相似推荐的历史嵌入向量等。

通过对和的定义可以观察到，第个移动端和云端均持有第i个样本的标签。对此在一种实施情况中，第个移动端和云端各自获取标签。在另一种实施情况中，第个移动端和云端中的一端获取标签后，将之同步给另一端。

以推荐任务为例，标签指示用户对业务对象是否做出预定行为。进一步，假定业务对象是广告，预定行为可以是点击，或者，假定业务对象是商品，预定行为可以是购买，又或者，假定业务对象是内容资讯，预定行为可以是浏览达到预设时长，等等。

二、学习目标

图2示出本说明书实施例披露的移动端和云端协同训练方案的实施架构示意图。对于学习目标这部分内容，可以参考图2进行阅读。

在第个移动端，可以部署一个轻量级的特征编码器（或称提取器）和一个轻量级的分类器（或称下游模型），同时在云端，可以部署一个大型的编码器和一个大型分类器。由此，可以将第个移动端中部署的预测模型记作，以及，将云端部署的预测模型记作。

因为云端和移动端中的特征是互不相同的，由此可以将全局模型的优化重构为一个非凸优化问题，实现云端模型和移动端模型的联合训练。将云端模型和移动端模型的训练损失分别记作和，由此可以将学习目标表示为：

（1）

（2）

其中，（3）

在公式（1）和（2）中，表示利用第个移动端中的编码器对第i个样本的移动端特征进行特征提取而得到的嵌入表征，表示利用云端中的编码器对第个样本的云端特征进行特征提取而得到的嵌入表征，表示将两个嵌入表征拼接为一个表征的拼接操作。

在实际训练过程中，可以采用交替最小化（Alternating Minimization，简称AM）的方式优化上述学习目标。具体地，对于云端的模型优化，可以固定移动端的嵌入表征；对于第个移动端的模型优化，可以固定服务端的嵌入表征。

除了采用嵌入向量，还提出传输预测信息以引入知识蒸馏（Knowledge Distillation，简称KD）来增强知识学习。通过共享嵌入表征和预测信息可以实现云端和移动端协同学习中的双向知识传输，进一步，对于云端和第个移动端，可以分别采用以下损失函数：

（4）

（5）

其中表示预测标签和真实标签之间的交叉熵损失（cross-entropy loss），表示用于实现知识蒸馏的KL散度，和表示预测分数（prediction logits）。另外，和是用来控制知识蒸馏强度的超参数。

以上从问题设立和学习目标两方面，介绍云端和个移动端协同学习的方案。进一步，申请人发现，上述协同学习方案不限于用在云端和移动端之间，还可以拓展到任意的合作执行训练任务的不同数据方之间，例如，银行和企业之间，又例如，支付平台和电商平台之间，等等。

下面结合图3，对任意两个数据方进行协同学习的交互步骤进行介绍。图3示出本说明书实施例披露的协同训练方法的通信交互示意图，该方法涉及第一数据方和第二数据方，或称第一方和第二方，图3中对应示意为方和方。需理解，方和方可以实现为任何具有计算、处理能力的装置、平台、服务器或设备集群等。示例性的，方为上述第个移动端，方为上述云端。另外，“第一方”中的“第一”、“第二方”中的“第二”，以及文中他处类似用语，均是为了区分同类事物，不具有排序等其他限定作用。

如图3所示，交互过程包括以下步骤：

步骤S301，方利用其部署的第一预测模型中的第一嵌入层处理训练样本的第一特征部分，得到第一嵌入表征。

需理解，第一嵌入层用于进行特征嵌入处理，特征嵌入处理是指将原始特征数据转换（通常是降维转换）为固定维度的特征表示，或称嵌入表征。嵌入层还可以被称为上述特征编码器、或特征提取器。

对于第一嵌入层包含的神经网络的层数，以及各层神经网络中的神经元数量，可以按照实际需求设定，例如，假定方是上述第个移动端，其存储的第一特征部分的数据量级较小，由此可以将第一嵌入层设计为轻量级的神经网络，具有较少的神经网络层数和神经元数，具有较少的模型参数（或称网络参数）。

上述训练样本可以是训练样本集中任意的一个训练样本。需理解，实际训练过程中通常是以batch（批次）为单位，同时处理一批次的多个训练样本，文中为清楚描述，主要从模型处理单个样本的角度出发对协同学习方案进行介绍，对一批次样本的处理方式可以简单推知。

第一嵌入表征的数学形式可以是向量、矩阵或其他维数的数组。

在本步骤中，可以得到第一嵌入表征。

步骤S302，方将第一嵌入表征发送给方。

在一种实施方式中，可以直接将原始的第一嵌入表征发送给方。需理解，因为第一嵌入表征是基于嵌入处理而得到，相当于对第一特征部分进行了加密、脱敏处理，可以有效降低原始特征数据的泄露风险。

在另一种实施方式中，可以不将原始的第一嵌入表征发送给方，而是先在第一嵌入表征中添加差分隐私噪声，得到第一加躁嵌入表征，再将第一加躁嵌入表征发送给第二方。如此，可以进一步加强隐私防护，抵御查询攻击。需说明，差分隐私噪声是指基于差分隐私（differential privacy）机制采样的噪声。另外，对于此种实施情况未在图3中进行示意。

步骤S303，方利用其部署的第二预测模型中的第二嵌入层处理训练样本的第二特征部分，得到第二嵌入表征。

在假定方是上述第个移动端的基础上，进一步假定方是上述云端，此时，其存储的第二特征部分的数据量级较大，由此可以将第二嵌入层设计为重量级的神经网络，相较第一嵌入层具有更多的神经网络层数和/或神经元数，具有更多的模型参数。

第二嵌入表征通常与第一嵌入表征具有相同的数学形式，例如同为向量，但二者的维数可以相同也可以不同。

需说明，对步骤S303的描述还可以参见对步骤S301的介绍，不作赘述。

步骤S304，方将第二嵌入表征发送给方。

在一种实施情况中，方直接将原始的第二嵌入表征发送给方。在另一种实施情况中，方先在第二嵌入表征中添加差分隐私噪声，得到第二加躁嵌入表征，再将第二加躁嵌入表征发送给第一方。

需说明，对步骤S304的描述还可以参见对步骤S302的介绍。

步骤S305，方利用第一预测模型中的第一预测层处理第一嵌入表征和第二嵌入表征的第一融合表征，得到第一预测结果。

需理解，预测层还可以被称为上述分类器或下游模型。对于第一预测层中神经网络的层数，以及各层神经网络中的神经元数量，可以按照实际需求设定，例如，假定方是上述第个移动端，其硬件水平和算力有限，由此可以将第一预测层设计为轻量级的神经网络，具有较少的神经网络层数和/或较少的网络参数。

第一融合表征是通过对第一嵌入表征和第二嵌入表征进行融合处理而得到。在一个实施例中，该融合处理可以是拼接，对此还可以参见上示公式（1）、（2）和图1中示意的拼接符号。在另一个实施例中，若和具有相同维数，则融合处理可以是相加、求平均等。在一个具体的实施例中，可以对第一嵌入表征和第二嵌入表征进行加权求和得到第一融合表征。示例性的，计算式如下：

（6）

其中可以是超参数，也可以是需要学习的模型参数。

需说明，可以设计第一预测模型中还具有第一融合层，用于进行上述融合处理，记作。另外，在另一种实施情况中，方从方接收到的是第二加噪嵌入表征而非第二嵌入表征，此时，融合处理针对第一嵌入表征和第二加噪嵌入表征进行，得到第一融合表征，对于此种实施情况未在图3中进行示意。

在一个实施例中，第一预测结果可以包括对应多个备选标签的多个预测分数（prediction logits）。在另一个实施例中，第一预测结果可以包括对该多个预测分数进行归一化处理而得到的多个预测概率。示例性的，归一化处理可以采用softmax函数实现。

步骤S306，方将第一预测结果发送给方。

步骤S307，方利用第二预测模型中的第二预测层处理第一嵌入表征和第二嵌入表征的第二融合表征，得到第二预测结果。

在假定方是上述第个移动端的基础上，进一步假定方是上述云端，此时，因云端的硬件水平和算力一般远高于移动端，由此将第二预测层设计为大规模的神经网络，相较第一预测层具有更多的神经网络层数和/或更多的模型参数。

需说明，对步骤S307的介绍还可以参见对步骤S305的描述，不作赘述。

步骤S308，方将第二预测结果发送给方。

步骤S309，方基于所述第一预测结果、第二预测结果和训练样本的真实标签，训练第一预测模型。

需理解，或。方中的真实标签是自主采集或人工打标而得到的，或者，方中的真实标签是从方接收的。

在一种实施方式中，直接基于第一预测结果、第二预测结果和训练样本的真实标签确定第一训练损失，从而基于该第一训练损失训练第一预测模型。

对于第一训练损失的确定，可以先确定反映第一预测结果和真实标签之间差距的损失项，以及反映第一预测结果和第二预测结果之间差距的损失项；再确定与损失项和损失项分别正相关的第一训练损失。

在一个具体的实施例中，损失项可以基于分类损失函数，如交叉熵损失函数或铰链损失函数等进行确定。在一个具体的实施例中，损失项可以基于KL散度或欧式距离等确定。

在一个具体的实施例中，可以直接将第一训练损失确定为损失项与损失项的和。在另一个具体的实施例中，可以利用第一权重系数对损失项和损失项进行加权求和。一般地，第一权重系数中损失项对应的权重系数大于损失项对应的权重系数，示例性的，前者为1，后者为区间中的某个数值，对此可参见下式：

（7）

其中，为超参数，例如，设定为0.1。

假定方为上述第个移动端，此时，可以将公式（7）进一步细化为上述公式（5）。

在另一种实施方式中，考虑到将第二预测结果存在与真实标签不匹配，导致蒸馏出的知识可能存在错误，因此提出对第二预测结果进行选择性使用，以加速训练收敛。

具体地，先判断第一预测结果指示的预测标签与真实标签是否一致。示例性的，第一预测结果包括对应多个备选标签的多个预测分数（或多个预测概率），此时，可以将最高预测分数（或最大预测概率）所对应的备选标签确定为预测标签，从而判断预测标签与真实标签是否一致。

进一步，在一个实施例中，在第一预测结果指示的预测标签与真实标签一致的情况下，利用第一预测结果、真实标签和第二预测结果确定第一训练损失，训练第一预测模型。对此，可以参见前述实施例中的相关描述，不作赘述。

在另一个实施例中，在第一预测结果指示的预测标签与真实标签不一致的情况下，仅利用第一预测结果和真实标签训练第一预测模型。简而言之，可以直接将上述损失项确定为第一训练损失，用以训练第一预测模型。

需说明，还可以考虑预测标签与真实标签部分一致的情况，例如，假定第一预测结果包括对应多个备选标签的多个预测概率，此时，可以确定各个预测概率是否大于预设的概率阈值（如0.6），若大于则将预测标签的对应项置1，否则置0。示例性的，根据第一预测结果确定出预测标签，而真实标签，此时可以确定出前4维的标签元素是一致的，从而仅利用第一预测结果和第二预测结果中的前4维元素确定上述损失项，再结合上述损失项确定第一训练损失，用以训练第一预测模型。

步骤S310，方基于第一预测结果、第二预测结果和训练样本的真实标签，训练第二预测模型。

在一个实施例中，可以利用第二权重系数，对反映第二预测结果和真实标签之间差距的损失项，以及反映第二预测结果和第一预测结果之间差距的损失项进行加权求和，得到第二训练损失，用以训练第二预测模型。

一般地，第二权重系数中损失项对应的权重系数大于损失项对应的权重系数，示例性的，前者为1，后者为区间中的某个数值，对此可参见下式：

（8）

其中，为超参数，例如，设定为0.05。进一步，假定方为移动端，方为云端，此时，对比公式（7）和（8），公式（7）中的是以云端为老师、以移动端为学生进行蒸馏学习的损失项，公式（8）中的是以移动端为老师，以云端为学生进行蒸馏学习的损失项，考虑到通常云端的数据量比移动端更为丰富，且模型也更为复杂，即便是云端和移动端双向学习，移动端向云端学得的知识一般更加权威，因此可以设定的加权系数比的加权系数大，也就是。

需说明的是，对步骤S310的介绍还可以参见对步骤S309的描述，不作赘述。

由上，可以实现两个数据方之间的双向协同学习，完成对第一预测模型和第二预测模型的训练。

另外需说明的是，在实际应用中，数据方可以将其生成的嵌入向量存储在本地缓存中，直到缓存满了，再将缓存的全部嵌入向量传输给另一数据方，如此可以有效降低通信轮次、节省通信开销。另外，缓存中的嵌入表征无需来自参数相同的预测模型，比如，有些嵌入表征于第t轮次训练中生成，第t轮次训练中预测模型的起始参数是，还有些嵌入表征于第t+1轮次训练中生成，第t+1轮次训练中预测模型的起始参数是。如此，免除了传统 FL学习中需要不同数据方（如不同移动端）之间具有相同模型版本的要求。

综上，采用本说明书实施例披露的协同训练方法，可以实现：1）促进本地个性化。对一个数据方（如云端）的特征进行抽取后传输至另一数据方（如移动端），可以增强FL算法的个性化。2）支持模型的异构性。相较传统FL算法中要求不同数据方（如不同移动端）中部署的模型必须具有完全相同的结构，本说明书实施例披露的方案中只要求不同数据方中的模型具有相同的输入维数和输出维数。3）支持训练异步化。当存在部分训练设备被选取时，传输的嵌入特征和预测结果对异步化不敏感。4）减轻通讯负担。相较传统FL算法中不同数据方（如云端和移动端）之间需要传输的大量的模型梯度数据，本说明书实施例披露的方案中传输的嵌入特征和预测结果具有更小的数据量级。

以上主要结合图3，对协同学习的训练流程进行介绍。在进行多轮次迭代训练后，两方可以各自得到达到收敛标准的、训练好的预测模型。下面介绍基于训练好的预测模型进行实际预测的过程。

图4示出本说明书实施例披露的业务预测方法的流程示意图，所述方法由上述第一方执行。如图4所示，所述方法包括以下步骤：

步骤S410，确定待预测的目标样本。

在一个实施例中，假定第一方是客户端（或移动端），此时，响应于基于客户端（或移动端）发起的业务操作，可以将发起该业务操作的用户作为目标样本。示例性的，业务操作可以为打开客户端中包括广告展示位的某个界面。

在另一个实施例中，假定第一方是服务端（或云端），此时，响应于从客户端（或移动端）接收到业务请求，可以将该业务请求指示的请求用户作为目标样本。

步骤S420，利用第一方部署的第一预测模型中的第一嵌入层处理目标样本的第一特征部分，得到第一嵌入表征。需理解，和等中的符号表示对应模型是训练好的，具有最优模型参数；和等中的上标指代目标（target），表示对应数据与目标样本之间具有关联关系。

在一个实施例中，假定第一方是客户端，此时，可以从客户端的缓存中读取在自当前时刻起回溯预设时长内采集的用户行为数据，归入第一特征部分。或者说，将客户端针对用户采集的实时行为特征归入第一特征部分。

在一个实施例中，假定第一方是云端，此时，可以读取目标用户的云端特征，作为第一特征部分。

另外，对于第一嵌入表征的生成，可以参见前述实施例中的相关描述，不作赘述。

步骤S430，获取第二嵌入表征，其由第二方利用其第二预测模型中的第二嵌入层处理目标样本的第二特征部分而得到。

在一种实施情况中，可以在本地读取第二方预先发送的第二嵌入表征。具体地，第一方和第二方在得到训练好的预测模型后，可以对共有样本进行处理，并将生成的嵌入表征互相发送给对方，以供对方按需使用。

在一个实施例中，假定第一方是客户端，第二方是服务端，此时，客户端可以直接读取服务端预先发送的第二嵌入表征。如此，客户端可以基于本地最新生成的嵌入表征和服务端预先提供的嵌入表征进行预测，从而快速得到时效性较好的预测结果。

在另一个实施例中，假定第一方是服务端，第二方是客户端，此时，服务端可以读取客户端预先发送的第二嵌入表征。如此，服务端可以基于本地最新生成的嵌入表征和客户端预先提供的嵌入表征进行预测，从而快速得到通用性和鲁棒性较强的预测结果。

在另一种实施情况中，可以将目标样本的样本标识发送给第二方，以使第二方根据样本标识调用本地特征生成第二嵌入表征，并从第二方接收其反馈的第二嵌入表征。

步骤S440，利用第一预测模型中的第一预测层处理第一嵌入表征和第二嵌入表征的融合表征，得到针对目标样本的目标预测结果。

在一个实施例中，目标预测结果包括对应多个备选类别的多个预测分数或多个预测概率，此时，还可以进一步确定目标预测结果对应的目标预测标签，作为最终的业务反馈结果。

另外，对本步骤的介绍还可以参见前述实施例中的相关描述，不作赘述。

综上，采用本说明书实施例披露的业务预测方法，可以实现对目标样本进行高效、准确地预测。

以上介绍协同训练方法、业务预测方法，本说明书实施例中还披露对应的装置。

图5示出本说明书实施例披露的协同训练装置的结构示意图，该装置集成于第一方。如图5所示，该装置500包括：

嵌入处理模块510，配置为利用第一方部署的第一预测模型中的第一嵌入层处理训练样本的第一特征部分，得到第一嵌入表征。表征接收模块520，配置为从第二方接收第二嵌入表征，其由所述第二方利用第二预测模型中的第二嵌入层处理所述训练样本的第二特征部分而得到。预测模块530，配置为利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的第一融合表征，得到第一预测结果。结果接收模块540，配置为从所述第二方接收第二预测结果，其由所述第二方利用所述第二预测模型对所述训练样本进行预测而得到。训练模块550，配置为基于所述第一预测结果、第二预测结果和所述训练样本的真实标签，训练所述第一预测模型。

在一个实施例中，所述第一预测模型还具有第一融合层；所述装置500还包括：融合处理模块560，配置为利用所述第一融合层处理所述第一嵌入表征和第二嵌入表征，得到所述第一融合表征。

在一个实施例中，所述装置500还包括：噪声添加模块570，配置为在所述第一嵌入表征中添加差分隐私噪声，得到加躁嵌入表征；加噪表征发送模块580，配置为将所述加躁嵌入表征发送给所述第二方。

在一个实施例中，训练模块550具体配置为：根据第一损失项和第二损失项确定第一训练损失，所述第一损失项与所述第一预测结果和所述真实标签之间的差距正相关，第二损失项与所述第一预测结果和第二预测结果之间的差距正相关；基于所述第一训练损失，训练所述第一预测模型。

在一个具体的实施例中，训练模块550进一步配置为：基于第一权重系数对第一损失项和第二损失项加权求和；其中，所述第一权重系数不同于第二权重系数，所述第二权重系数是所述第二方对应训练所述第二预测模型所采用的权重系数。

在一个实施例中，训练模块550具体配置为：在所述第二预测结果指示的预测标签与所述真实标签一致的情况下，利用所述第一预测结果、真实标签和第二预测结果确定第一训练损失，训练所述第一预测模型。

在一个实施例中，训练模块550具体配置为：在所述第二预测结果指示的预测标签与所述真实标签不一致的情况下，仅利用所述第一预测结果和真实标签确定第一训练损失，训练所述第一预测模型。

图6示出本说明书实施例披露的业务预测装置的结构示意图，该装置集成于第一方。如图6所示，该装置600包括：

样本确定模块610，配置为确定待预测的目标样本。嵌入处理模块620，配置为利用所述第一方部署的第一预测模型中的第一嵌入层处理所述目标样本的第一特征部分，得到第一嵌入表征；所述第一预测模型由所述第一方通过与第二方进行协同训练而得到。表征获取模块630，配置为获取第二嵌入表征，其由第二方利用其第二预测模型中的第二嵌入层处理所述目标样本的第二特征部分而得到。预测模块640，配置为利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的融合表征，得到针对所述目标样本的目标预测结果。

在一个实施例中，所述第一方是客户端，所述第二方是所述客户端的服务端。基于此，样本确定模块610具体配置为：响应于基于所述客户端发起的业务操作，确定该业务操作对应的目标用户，作为目标样本；所示装置600还包括：特征读取模块650，配置为：从所述客户端的缓存中读取在自当前时刻起回溯预设时长内采集的用户行为数据，归入所述第一特征部分。

在一个具体的实施例中，表征获取模块630具体配置为：在本地读取所述服务端预先发送的所述第二嵌入表征。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图3或图4所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图3或图4所描述的方法。本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种协同训练方法，由第一方执行，所述第一方为客户端，包括：

利用第一方部署的第一预测模型中的第一嵌入层处理训练样本的第一特征部分，得到第一嵌入表征；所述训练样本为基于所述客户端发起业务操作的用户，所述第一特征部分包括所述客户端针对所述用户采集的实时行为特征；

从第二方接收第二嵌入表征，其由所述第二方利用第二预测模型中的第二嵌入层处理所述训练样本的第二特征部分而得到；所述第二方为所述客户端的服务端；

利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的第一融合表征，得到第一预测结果；

从所述第二方接收第二预测结果，其由所述第二方利用所述第二预测模型中的第二预测层处理所述第一嵌入表征和第二嵌入表征的第二融合表征而得到；

基于所述第一预测结果、第二预测结果和所述训练样本的真实标签，训练所述第一预测模型；

其中，所述第二预测模型的训练由所述第二方基于所述第一预测结果、第二预测结果和真实标签而进行。

2.根据权利要求1所述的方法，其中，所述第一预测模型还具有第一融合层；所述方法还包括：

利用所述第一融合层处理所述第一嵌入表征和第二嵌入表征，得到所述第一融合表征。

3.根据权利要求1所述的方法，其中，还包括：

在所述第一嵌入表征中添加差分隐私噪声，得到加躁嵌入表征；

将所述加躁嵌入表征发送给所述第二方。

4.根据权利要求1所述的方法，其中，基于所述第一预测结果、第二预测结果和所述训练样本的真实标签，训练所述第一预测模型，包括：

根据第一损失项和第二损失项确定第一训练损失，所述第一损失项与所述第一预测结果和所述真实标签之间的差距正相关，第二损失项与所述第一预测结果和第二预测结果之间的差距正相关；

基于所述第一训练损失，训练所述第一预测模型。

5.根据权利要求4所述的方法，其中，根据第一损失项和第二损失项确定第一训练损失，包括：

基于第一权重系数对第一损失项和第二损失项加权求和；其中，所述第一权重系数不同于第二权重系数，所述第二权重系数是所述第二方对应训练所述第二预测模型所采用的权重系数。

6.根据权利要求1所述的方法，其中，基于所述第一预测结果、第二预测结果和所述训练样本的真实标签，训练所述第一预测模型，包括：

在所述第二预测结果指示的预测标签与所述真实标签一致的情况下，利用所述第一预测结果、真实标签和第二预测结果确定第一训练损失，训练所述第一预测模型。

7.根据权利要求1所述的方法，其中，基于所述第一预测结果、第二预测结果和所述训练样本的真实标签，训练所述第一预测模型，包括：

在所述第二预测结果指示的预测标签与所述真实标签不一致的情况下，仅利用所述第一预测结果和真实标签确定第一训练损失，训练所述第一预测模型。

8.根据权利要求1-7中任一项所述的方法，其中，所述第一预测模型的模型参数数量小于所述第二预测模型的模型参数数量，和/或，所述第一预测模型的神经网络层数小于所述第二预测模型的神经网络层数。

9.一种业务预测方法，由第一方执行，所述第一方为客户端，包括：

响应于基于所述客户端发起的业务操作，确定该业务操作对应的目标用户，作为目标样本；

利用所述第一方部署的第一预测模型中的第一嵌入层处理所述目标样本的第一特征部分，得到第一嵌入表征；所述第一预测模型由所述第一方执行权利要求1所述的方法而预先训练；所述第一特征部分包括所述客户端针对所述目标用户采集的实时行为特征；

获取第二嵌入表征，其由第二方利用其第二预测模型中的第二嵌入层处理所述目标样本的第二特征部分而得到；所述第二方是所述客户端的服务端；

利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的融合表征，得到针对所述目标样本的目标预测结果。

10.根据权利要求9所述的方法，其中，获取第二嵌入表征包括：

在本地读取所述服务端预先发送的所述第二嵌入表征。

11.一种协同训练装置，集成于第一方，所述第一方为客户端，包括：

嵌入处理模块，配置为利用第一方部署的第一预测模型中的第一嵌入层处理训练样本的第一特征部分，得到第一嵌入表征；所述训练样本为基于所述客户端发起业务操作的用户，所述第一特征部分包括所述客户端针对所述用户采集的实时行为特征；

表征接收模块，配置为从第二方接收第二嵌入表征，其由所述第二方利用第二预测模型中的第二嵌入层处理所述训练样本的第二特征部分而得到；所述第二方为所述客户端的服务端；

预测模块，配置为利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的第一融合表征，得到第一预测结果；

结果接收模块，配置为从所述第二方接收第二预测结果，其由所述第二方利用所述第二预测模型中的第二预测层处理所述第一嵌入表征和第二嵌入表征的第二融合表征而得到；

训练模块，配置为基于所述第一预测结果、第二预测结果和所述训练样本的真实标签，训练所述第一预测模型；

12.一种业务预测装置，集成于第一方，所述第一方为客户端，包括：

样本确定模块，配置为响应于基于所述客户端发起的业务操作，确定该业务操作对应的目标用户，作为目标样本；

嵌入处理模块，配置为利用所述第一方部署的第一预测模型中的第一嵌入层处理所述目标样本的第一特征部分，得到第一嵌入表征；所述第一预测模型由所述第一方执行权利要求1所述的方法而预先训练；所述第一特征部分包括所述客户端针对所述目标用户采集的实时行为特征；

表征获取模块，配置为获取第二嵌入表征，其由第二方利用其第二预测模型中的第二嵌入层处理所述目标样本的第二特征部分而得到；所述第二方是所述客户端的服务端；

预测模块，配置为利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的融合表征，得到针对所述目标样本的目标预测结果。

13.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9中任一项所述的方法。

14.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项所述的方法。