CN110942154B

CN110942154B - 基于联邦学习的数据处理方法、装置、设备及存储介质

Info

Publication number: CN110942154B
Application number: CN201911158849.0A
Authority: CN
Inventors: 黄安埠
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2021-07-06
Anticipated expiration: 2039-11-22
Also published as: CN110942154A

Abstract

本申请提供一种基于联邦学习的数据处理方法、装置、设备及存储介质，涉及机器学习技术领域，用以解决训练联邦模型时的系统性能较差的问题；该方法包括：至少一个客户端通过本地样本生成器学习本地数据的数据特性，获得训练样本生成器并发送给服务器；服务器将至少一个客户端发送的训练样本生成器进行联邦聚合，得到联邦样本生成器并发送给至少一个客户端；至少一个客户端通过联邦样本生成器生成与其他客户端本地数据的数据特征一致的第一虚拟数据，将自身的本地数据和第一虚拟数据确定为目标数据。该方法中降低训练联邦模型的数据计算量，降低训练联邦模型所消耗的系统资源，提升训练联邦模型时的系统性能以及提升联邦模型的训练效率。

Description

基于联邦学习的数据处理方法、装置、设备及存储介质

技术领域

本申请涉及机器学习技术领域，尤其涉及一种基于联邦学习的数据处理方法、装置、设备及存储介质。

背景技术

联邦学习架构中的多个客户端在模型训练时不用给出己方数据，而是根据服务器下发的参数加密的全局的联邦模型和客户端本地数据来训练本地模型，并返回本地模型供服务器进行联邦聚合得到全局的联邦模型，更新后的联邦模型重新下发到客户端，循环往复，直到收敛。

但是由于多个客户端的本地数据的数据特征很有可能完全不一致，或者彼此差距较大，导致训练出满足需求的联邦模型需要大量的迭代计算，需要消耗较多的系统资源，导致训练联邦模型时的系统性能较差。

发明内容

本申请提供一种基于联邦学习的数据处理方法、装置、设备及存储介质，以至少降低训练联邦模型的数据计算量，降低训练联邦模型所消耗的系统资源，从而提升训练联邦模型时的系统性能。

本申请第一方面，提供一种联邦学习的数据处理方法，包括：

客户端通过本地样本生成器学习本地数据的数据特性，获得训练样本生成器，并将所述训练样本生成器发送给服务器；

接收服务器发送的联邦样本生成器，所述联邦样本生成器是所述服务器通过联邦聚合所述训练样本生成器以及其他客户端的训练样本生成器得到的；

通过所述联邦样本生成器生成与其他客户端本地数据的数据特征一致的第一虚拟数据，将所述本地数据和所述第一虚拟数据确定为目标数据。

在一种可能的实现方式中，所述将所述本地数据和所述第一虚拟数据确定为目标数据之后，还包括：

将所述目标数据作为输入信息，将训练模型作为输出信息对本地模型进行训练；

将所述训练模型发送给所述服务器，并接收联邦模型，所述联邦模型是所述服务器通过联邦聚合所述训练模型和其他客户端的训练模型得到的。

在一种可能的实现方式中，所述客户端通过本地样本生成器学习本地数据的数据特性，获得训练样本生成器，包括：

通过本地样本生成器生成第二虚拟数据，并通过本地样本判别器判断所述第二虚拟数据的数据特征和所述本地数据的数据特征是否一致；

若不一致，则根据所述第二虚拟数据和所述本地数据，对所述本地样本判别器进行训练，得到训练样本判别器，并通过所述训练样本判别器和所述本地数据对本地样本生成器进行训练，得到所述训练样本生成器。

在一种可能的实现方式中，所述通过所述联邦样本生成器生成第一虚拟数据之前，还包括：

若接收到重新训练生成器通知，则将所述联邦样本生成器作为本地样本生成器，通过本地样本生成器学习本地数据的数据特性，获得新的训练样本生成器，并将重新获得的训练样本生成器发送给所述服务器；所述重新训练生成器通知是所述服务器确定联邦样本生成器生成的第三虚拟数据的数据特征与预设本地数据的数据特征的偏差值大于预设偏差值后发送的，所述预设本地数据包括所述客户端的本地数据和其他客户端的本地数据。

本申请第二方面，提供一种联邦学习的数据处理方法，包括：

接收至少一个客户端发送的训练样本生成器，所述训练样本生成器是所述至少一个客户端，通过各自的本地样本生成器学习各自的本地数据的数据特性获得的；

将所述至少一个客户端发送的训练样本生成器进行联邦聚合，得到联邦样本生成器并发送给所述至少一个客户端，以使所述至少一个客户端获得目标数据，其中，所述至少一个客户端中的任意客户端的目标数据，包括所述任意客户端的本地数据，以及通过所述联邦模型生成器生成的第一虚拟数据，所述第一虚拟数据的数据特征与除所述任意客户端外的其他客户端本地数据的数据特征一致。

在一种可能的实现方式中，所述得到联邦样本生成器并发送给所述至少一个客户端之后，还包括：

接收所述至少一个客户端发送的训练模型，所述训练模型是所述至少一个客户端，将各自的目标数据作为输入信息，将各自的训练模型作为输出信息对各自的本地模型进行训练得到的；

将所述至少一个客户端发送的训练模型进行联邦聚合，得到联邦模型并发送给所述至少一个客户端。

在一种可能的实现方式中，所述得到联邦样本生成器之后，还包括：

确定联邦样本生成器生成的第三虚拟数据的数据特征与预设本地数据的数据特征的偏差值，所述预设本地数据包括所述至少一个客户端的本地数据；

若所述偏差值大于预设偏差值，则向所述至少一个客户端发送重新训练生成器通知，以指示所述至少一个客户端将所述联邦样本生成器作为本地样本生成器，通过本地样本生成器学习本地数据的数据特性，获得新的训练样本生成器。

本申请第三方面，提供一种基于联邦学习的数据处理装置，包括：

数据特征学习单元，用于通过本地样本生成器学习本地数据的数据特性，获得训练样本生成器，并将所述训练样本生成器发送给服务器；

联邦样本生成器接收单元，用于接收服务器发送的联邦样本生成器，所述联邦样本生成器是所述服务器通过联邦聚合所述训练样本生成器以及其他客户端的训练样本生成器得到的；

目标数据生成单元，用于通过所述联邦样本生成器生成与其他客户端本地数据的数据特征一致的第一虚拟数据，将所述本地数据和所述第一虚拟数据确定为目标数据。

在一种可能的实现方式中，所述装置还包括：

联邦模型获取单元，用于将所述本地数据和所述第一虚拟数据确定为目标数据之后，将所述目标数据作为输入信息，将训练模型作为输出信息对本地模型进行训练；

在一种可能的实现方式中，所述数据特征学习单元具体用于：

在一种可能的实现方式中，所述目标数据生成单元还用于：

通过所述联邦样本生成器生成第一虚拟数据之前，若接收到重新训练生成器通知，则将所述联邦样本生成器作为本地样本生成器，通过本地样本生成器学习本地数据的数据特性，获得新的训练样本生成器，并将重新获得的训练样本生成器发送给所述服务器；所述重新训练生成器通知是所述服务器确定联邦样本生成器生成的第三虚拟数据的数据特征与预设本地数据的数据特征的偏差值大于预设偏差值后发送的，所述预设本地数据包括所述客户端的本地数据和其他客户端的本地数据。

本申请第四方面，提供一种基于联邦学习的数据处理装置，包括：

训练样本生成器接收单元，用于接收至少一个客户端发送的训练样本生成器，所述训练样本生成器是所述至少一个客户端，通过各自的本地样本生成器学习各自的本地数据的数据特性获得的；

联邦样本生成器获取单元，用于将所述至少一个客户端发送的训练样本生成器进行联邦聚合，得到联邦样本生成器并发送给所述至少一个客户端，以使所述至少一个客户端获得目标数据，其中，所述至少一个客户端中的任意客户端的目标数据，包括所述任意客户端的本地数据，以及通过所述联邦模型生成器生成的第一虚拟数据，所述第一虚拟数据的数据特征与除所述任意客户端外的其他客户端本地数据的数据特征一致。

在一种可能的实现方式中，该装置还包括：

联邦模型确定单元，用于得到联邦样本生成器并发送给所述至少一个客户端之后，接收所述至少一个客户端发送的训练模型，所述训练模型是所述至少一个客户端，将各自的目标数据作为输入信息，将各自的训练模型作为输出信息对各自的本地模型进行训练得到的；

在一种可能的实现方式中，所述联邦样本生成器获取单元还用于：

得到联邦样本生成器之后，确定联邦样本生成器生成的第三虚拟数据的数据特征与预设本地数据的数据特征的偏差值，所述预设本地数据包括所述至少一个客户端的本地数据；

本申请第五方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面及一种可能的实施方式中任一所述的方法。

本申请第六方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第二方面及一种可能的实施方式中任一所述的方法。

本申请第七方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面或第二方面中任一所述的方法。

本申请客户端通过联邦样本生成器生成的虚拟数据补充本地数据得到目标数据，该目标数据的数据特征与其他客户端得到的目标数据的数据特征一致，利用数据特征一致的各个客户端的目标数据训练联邦模型，无需对各客户端分布不一致的特征数据进行大量迭代计算，从而降低训练联邦模型的数据计算量，降低训练联邦模型所消耗的系统资源，提升训练联邦模型时的系统性能以及提升联邦模型的训练效率。

附图说明

图1为本申请实施例提供的一种准的联邦模型训练过程的示意图；

图2为本申请实施例提供的一种基于联邦学习的数据处理方法的过程示意图；

图3为本申请实施例提供的提供一种获得联邦样本生成器的方法的过程示意图；

图4为本申请实施例提供的一种客户端对本地样本生成器和本地样本判别器进行训练的方法的示意图；

图5为本申请实施例提供的一种利用目标数据通获得联邦模型的过程的示意图；

图6为本申请实施例提供的一种基于联邦学习的第一数据处理装置的结构图；

图7为本申请实施例提供的一种计算机设备的结构图；

图8为本申请实施例提供的一种基于联邦学习的第二数据处理装置的结构图；

图9为本申请实施例提供的另一种计算机设备的结构图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的技术术语进行说明。

样本生成器Generator：是利用当前的本地数据训练得到的一个样本生成器模型，这个样本生成器模型能够学习到本地数据的数据特征，并生成与学习到的数据特征一致的虚拟数据。

样本判别器discriminator：利用本地数据和样本生成器生成的虚拟数据训练得到的一个样本判别器，这个样本判别器能够区分本地数据和虚拟数据。

客户端，可以为手机、计算机、个人数字助理(Personal Digital Assistant，PDA)、智能电视、车载设备等终端设备以及服务器等网络侧设备。

服务器，用于对多个客户端发送的训练模型进行联邦聚合的网络侧设备，可以为一般服务器、云端服务器、分布式服务器等。

在介绍本申请的方案之前，首先对当前标准的联邦学习过程进行说明，如图1所示，当前一般使用的标准的联邦学习过程具体包括：

步骤S101，各个客户端11利用本地数据训练本地模型，得到训练模型；

步骤S102，各个客户端11将训练得到的训练模型发送给服务器；

步骤S103，服务器12接收多个客户端发送的训练模型，并将接收的多个训练模型进行联邦聚合得到联邦模型；

步骤S104，服务器将联邦聚合得到的联邦模型发送给各个客户端；

步骤S105，各个客户端接收联邦模型，并将本地模型更新为联邦模型。

各个客户端的数据会存在完全不一致或者差距较大，即各个客户端本地的本地数据的数据特征会存在不一致或者差距较大的情况，在这种情况下，训练出满足需求的联邦模型需要大量的迭代计算，消耗大量的计算资源，进而严重影响联邦学习的效率。

鉴于此，本申请实施例提供一种基于联邦学习的数据处理方法、装置、设备及存储介质，以提升联邦学习的效率，本申请实施例的方法中，至少一个客户端通过本地样本生成器学习本地数据的数据特性，获得训练样本生成器，并将上述训练样本生成器发送给服务器，服务器将至少一个客户端发送的训练样本生成器进行联邦聚合，得到联邦样本生成器并发送给上述至少一个客户端；进而至少一个客户端通过上述联邦样本生成器生成与其他客户端本地数据的数据特征一致的第一虚拟数据，将上述本地数据和上述第一虚拟数据确定为目标数据。

在上述至少一个客户端获取目标数据后，可以将上述目标数据作为输入信息，将训练模型作为输出信息对本地模型进行训练，并将训练得到的训练模型发送给服务器；对应地，服务器可以将上述至少一个客户端发送的训练模型进行联邦聚合，得到联邦模型并发送给上述至少一个客户端。

本申请实施例的方法可以应用在多个场景，如目标识别场景、内容审批场景、指标预测场景等。

以下结合附图，对本申请实施例的方案作进一步说明：

如图2所示，本申请实施例提供一种基于联邦学习的数据处理方法，具体包括以下步骤：

步骤S201，至少一个客户端通过本地样本生成器学习本地数据的数据特性，获得训练样本生成器。

图2中仅以客户端1和客户端n代表上述至少一个客户端进行示意说明，其中n为大于1的正整数，表示客户端的身份标识信息。

作为一种实施例，为了提升本地样本生成器学习本地数据的数据特性的能力，各个客户端在训练本地样本生成器的同时，可以辅以训练本地样本判别器，用本地样本判别器区分本地样本生成器生成的虚拟数据与客户端的本地数据。

具体地，客户端在通过本地样本生成器学习本地数据的数据特性时，可以通过本地样本生成器生成第二虚拟数据，并通过样本判别器判断第二虚拟数据的数据特征和本地数据的数据特征是否一致；

若不一致，则根据上述第二虚拟数据和上述本地数据，对本地样本判别器进行训练，得到训练样本判别器，并通过上述训练样本判别器和上述本地数据对本地样本生成器进行训练，得到上述训练样本生成器。

其中，在对本地样本判别器和对本地样本生成器进行训练时，不断地调整本地样本生成器的参数和本地数据判别器的参数，以使得本地样本生成器生成的虚拟数据的数据特征与本地数据的数据特征越来越一致，且同时本地数据判别器尽可能的区分本地数据和本地样本生成器生成的虚拟数据。

步骤S202，至少一个客户端将上述训练样本生成器发送给服务器；

作为一种实施例，若步骤S201中各个客户端在训练本地样本生成器的同时训练了本地样本判别器，则在此步骤中，各个客户端可以将训练本地样本判别器得到的训练样本判别器一同发送给服务器。

步骤S203，服务器接收至少一个客户端发送的训练样本生成器，将上述至少一个客户端发送的训练样本生成器进行联邦聚合，得到联邦样本生成器；

作为一种实施例，服务器在得到联邦样本生成器之后，可以利用联邦样本生成器生成第三虚拟数据，并确定第三虚拟数据的数据特征与预设本地数据的数据特征的偏差值，若偏差值大于预设偏差值，则向上述至少一个客户端发送重新训练生成器通知，以指示上述至少一个客户端将上述联邦样本生成器作为本地样本生成器，通过本地样本生成器学习本地数据的数据特性，获得新的训练样本生成器。

上述预设本地数据为预先根据上述至少一个客户端的本地数据的数据特性创建的，可以但不局限于从各个客户端的本地数据中随机选取设定数量的本地数据作为上述预设本地数据，本领域的技术人员还可以根据其他方式设置上述预设本地数据。

作为一种实施例，若在步骤S202各个客户端向服务器发送训练样本生成器的同时，向服务器发送了训练样本判别器，在此步骤中，服务器在获得联邦样本生成器的同时，还可以将各个客户端发送的训练判别器进行聚合，得到联邦判别器。

进一步，服务器在得到联邦样本生成器以及联邦样本判别器之后，还可以通过根据上述联邦样本生成器和上述联邦样本判别器的第一模型综合损失值，确定是否向上述至少一个客户端发送重新训练生成器通知，如若确定上述第一模型综合损失值大于第一预设损失值，则向杉树至少一个客户端发送重新训练生成器通知。

对上述第一预设损失值不做过多限定，本领域的技术人员可根据实际需求设置。

步骤S204，服务器将联邦样本生成器发送给上述至少一个客户端；

步骤S205，至少一个客户端通过上述联邦样本生成器生成与其他客户端本地数据的数据特征一致的第一虚拟数据，将上述本地数据和上述第一虚拟数据确定为目标数据。

作为一种实施例，若上述至少一个客户端接收到重新训练通知，则将上述联邦样本生成器作为本地样本生成器，通过本地样本生成器学习本地数据的数据特性，获得新的训练样本生成器。

基于上述内容，本实施例提供一种获得联邦样本生成器的方法，如图3所示，具体包括：

步骤S301，至少一个客户端对本地样本生成器和本地样本判别器进行训练，得到训练样本生成器Gi和训练样本判别器Di并发送给服务器，其中i为客户端的身份标识，可以为正整数。

步骤S302，服务器将上述至少一个客户端发送的训练样本生成器进行联邦聚合得到联邦样本生成器G，将上述至少一个客户端发送的训练样本判别器进行联邦聚合得到联邦样本判别器D；

其中，上述联邦样本生成器与上述至少一个客户端的训练样本生成器的关系如下公式1：

公式1：G＝f(∑G_i)；

公式1中，G为上述联邦样本生成器，Gi为身份标识为i的客户端的训练样本生成器，f(∑G_i)表示将至少一个客户端的训练样本生成器进行联邦聚合。

上述联邦样本判别器与上述至少一个客户端的训练样本判别器的关系如下公式2：

公式2：D＝f(∑D_i)；

公式2中，D为上述联邦样本生成器，Di为身份标识为i的客户端的训练样本判别器，f(∑D_i)表示将上述至少一个客户端的训练样本判别器进行聚合。

步骤S303，服务器判断上述联邦样本生成器和上述联邦样本判别器的第一模型综合损失值是否大于第一预设损失值，若不大于，则进入步骤S304，若大于则进入步骤S305；

可选地，可以按照如下方式确定上述第一模型综合损失值：

利用联邦样本生成器生成第四虚拟数据，并将第四虚拟数据的数据特征与预设本地数据的数据特征的偏差确定为样本生成误差；

将上述联邦样本判别器区分预设本地数据和第四虚拟数据的区分错误比例确定为样本判别误差；

将上述样本生成误差和上述样本判别误差综合权衡后，确定为上述第一模型综合损失值。

步骤S304，服务器将上述联邦样本生成器发送给上述至少一个客户端；

步骤S3041，上述至少一个客户端接收服务器发送的联邦样本生成器。

步骤S305，服务器向上述至少一个客户端发送重新训练生成器通知；

步骤S3051，上述至少一个客户端接收到上述服务器发送的重新训练生成器通知，将服务器发送的联邦样本生成器确定为本地样本生成器，将服务器发送的联邦样本判别器确定为本地样本判别器，并进入步骤S301。

本实施例中还提供在上述步骤S301，至少一个客户端对本地样本生成器和本地样本判别器进行训练的一种方法，如图4所示，包括：

步骤S401，确定本地样本生成器和本地样本判别器；

当客户端对本地样本生成器和本地样本判别器进行初次训练之前，可以构建一个初始本地样本生成器作为等待训练的本地样本生成器，构建一个初始本地样本判别器作为等待训练的本地样本判别器。

在客户端接收服务器发送的重新训练生成器通知时，将服务器发送的联邦样本生成器确定为本地样本生成器，将接收服务器发送的联邦样本判别器确定为本地样本判别器。

步骤S402，保持本地样本生成器的参数不变，训练本地样本判别器得到训练样本判别器；

用本地样本生成器生成第一数量a的第二虚拟数据，从本地数据中选择第二数量b的本地数据，利用本地样本判别器区分上述选择的选择出的本地数据和第二虚拟数据，将本地样本判别器区分错误的样本数量与选择的本地数据和第二虚拟数据的总数量的比值作为该本地样本判别器的样本判别损失值P，其中，P的计算可参见下述公式3：

公式3：

其中，上述公式3中的m为本地样本判别器区分错误的数据数量，其中a和b可以相同也可以不同。

向使P值变小的方向调整上述本地样本判别器的参数至P值小于预设样本判别损失值，将P值小于预设样本判别损失值时的本地样本判别器作为上述训练样本判别器。

步骤S403，保持训练样本判别器的参数不变，训练本地样本判别器得到训练样本生成器；

用生成器生成第三数量c的第五虚拟数据，从本地的本地数据中选择第四数量d的本地数据，确定训练样本判别器区分第五虚拟数据和选择的本地数据的样本判别损失值P，根据样本判别损失值P确定该本地样本生成器生成虚拟训练样本的样本生成损失值Q；

向使Q值变小的方向调整本地样本生成器的参数至Q值小于预设样本判别损失值，将Q值小于预设样本判别损失值时的本地样本生成器作为训练样本生成器。

应当说明的是，上述第五虚拟数据和上述第二虚拟数据可以为相同的虚拟样本，也可以为不同的虚拟训练样本。

步骤S404，确定训练样本判别器和训练样本生成器的第二模型综合损失值E；

可选地，可以按照如下公式4确定第二模型综合损失值E；

公式4：E＝K1×P+K2×Q；

公式4中，E为上述第二模型综合损失值，P为训练样本判别器的样本判别损失值，Q为训练样本生成器的样本生成损失值Q，K1和K2为两个权重值，本领域的技术人员可根据实际需求设置。

步骤S405，判断第二模型损失综合损失值E是否大于第二预设损失值，若大于，进入步骤S406，若不大于，进入步骤S407。

对上述第二预设损失值不做过多限定，本领域的技术人员可根据实际需求设置。

步骤S406，将训练样本判别器确定为本地样本判别器，将上述训练样本生成器确定为本地样本生成器，并进入步骤S402。

步骤S407，将上述训练样本生成器确定为训练得到的训练样本生成器，将上述训练样本判别器确定为训练得到的训练样本判别器。

可选地，可以将训练样本生成器的参数，以及训练样本判别器的参数发送给服务器。

可选地，在上述步骤S402，向使样本判别损失值P值变小的方向调整本地样本判别器的参数，可以但不局限于包括如下几种调整方式：

第一种判别器参数调整方式：

向使P值变小的方向，随机调整本地样本判别器的参数。

第二种判别器参数调整方式：

向使P值变小的方向，梯度试调整本地样本判别器的参数。

第三种判别器参数调整方式：

向使P值梯度式变小的方向，调整本地样本判别器的参数。

可选地，在上述步骤S403，向使样本生成损失值Q值变小的方向调整本地样本判别器的参数，可以但不局限于包括如下几种调整方式：

第一种判别器参数调整方式：

向使Q值变小的方向，随机调整本地样本判别器的参数。

第二种判别器参数调整方式：

向使Q值变小的方向，梯度试调整本地样本判别器的参数。

第三种判别器参数调整方式：

向使Q值梯度式变小的方向，调整本地样本判别器的参数。

本申请实施例中用样本判别器校验样本生成器学习客户端本地数据的数据特征的性能，使得进一步提升了聚合得到的联邦样本生成器的模型性能，减小联邦样本生成器生成的虚拟数据的特征分布与本地数据的特征分布的偏差，进一步提升了各个客户端获得的目标数据的数据特征一致性。

可选地，在使用本申请实施例上述的方法进行获得联邦样本生成器时，若在原有客户端的基础上新增客户端，可以将原有客户端训练得到的联邦生成器作为新一轮获取联邦样本生成器时的本地样本生成器，将原有客户端训练得到的联邦判别器作为新一轮获取联邦样本判别器时的本地样本判别器，进而进行新一轮的获取联邦样本判别器的过程。

作为一种实施例，上述至少一个客户端获取目标数据之后，还可以利用目标数据通过联邦学习的方法获得联邦模型，如图5所示，具体包括：

步骤S501，至少一个客户端将上述目标数据作为输入信息，将训练模型作为输出信息对本地模型进行训练；

图5中仅以客户端1和客户端n代表上述至少一个客户端进行示意说明，其中n为大于1的正整数，表示客户端的身份标识信息。

步骤S502，上述至少一个客户端将上述训练模型发送给上述服务器。

步骤S503，服务器接收上述至少一个客户端发送的训练模型，将上述至少一个客户端发送的训练模型进行联邦聚合得到联邦模型。

步骤S504，服务器将联邦模型发送给上述至少一个客户端。

步骤S505，上述至少一个客户端接收服务器发送的联邦模型。

上述至少一个客户端接收联邦模型后，还可以将各自的本地模型更新为接收的联邦模型。

可选地，本申请实施例提供的方法可以应用在目标识别的场景中，此时上述联邦模型为目标识别模型，可以将各个客户端的本地图像样本作为本地数据，通过上述方法获取用于学习各个客户端的本地图像样本的特征的联邦图像样本生成器，进而在各个客户端，利用联邦图像样本生成器生成虚拟图像样本，各个客户端将各自的虚拟图像样本和本地图像样本作为目标数据，通过上述步骤S501至步骤S505的方法获得目标识别模型，进而可以目标识别模型识别目标，其中，上述待识别图像中包括待识别目标。

可选地，本申请实施例提供的方法可以应用在内容审批的场景中，上述内容审批可以但不局限于为贷款审批、活动审批等；此时上述联邦模型为内容审批模型，可以将各个客户端的本地审批内容作为本地数据，通过上述方法获取用于学习各个客户端的本地审批内容的特征的联邦审批内容生成器，进而在各个客户端，利用联邦审批内容生成器生成虚拟审批内容，各个客户端将各自的虚拟审批内容和本地审批内容作为目标数据，通过上述步骤S501至步骤S505的方法获得内容审批模型，进而可以通过内容审批模型对待审批的审批内容进行审核，上述审核的结果可以但不局限于包括审批通过、审批未通过、审批结果待定等。

可选地，本申请实施例提供的方法可以应用在指标预测的场景中，上述指标可以但不局限于为个人或公司团体的绩效、事物等级等；此时上述联邦模型为指标预测模型，可以将各个客户端的本地待预测对象作为本地数据，上述本地待预测对象可以但不局限于包括待预测主体的身份信息以及待预测主体的与待预测的指标相关的信息，上述待预测主体可以为个体人、公司、组织等；各个客户端通过上述方法获取用于学习各个客户端的本地待预测对象的特征的联邦待预测对象生成器，进而在各个客户端，利用联邦待预测对象生成器生成虚拟待预测对象，各个客户端将各自的虚拟待预测对象和本地待预测对象作为目标数据，通过上述步骤S501至步骤S505的方法获得指标预测模型，进而可以通过指标预测模型对待预测对象进行指标预测。

应当说明的是，本申请实施例提供的方案不仅适用于上述几种场景，任何类似的联邦学习场景均可适用，此处不再进行叙述。

如图6所示，基于同一技术构思，本申请实施例还提供一种基于联邦学习的第一数据处理装置600，其特征在于，包括：

数据特征学习单元601，用于通过本地样本生成器学习本地数据的数据特性，获得训练样本生成器，并将上述训练样本生成器发送给服务器；

联邦样本生成器接收单元602，用于接收服务器发送的联邦样本生成器，上述联邦样本生成器是上述服务器通过联邦聚合上述训练样本生成器以及其他客户端的训练样本生成器得到的；

目标数据生成单元603，用于通过上述联邦样本生成器生成与其他客户端本地数据的数据特征一致的第一虚拟数据，将上述本地数据和上述第一虚拟数据确定为目标数据。

作为一种实施例，上述装置还包括：

联邦模型获取单元，用于将上述本地数据和上述第一虚拟数据确定为目标数据之后，将上述目标数据作为输入信息，将训练模型作为输出信息对本地模型进行训练；

将上述训练模型发送给上述服务器，并接收联邦模型，上述联邦模型是上述服务器通过联邦聚合上述训练模型和其他客户端的训练模型得到的。

作为一种实施例，上述数据特征学习单元具体用于：

通过本地样本生成器生成第二虚拟数据，并通过本地样本判别器判断上述第二虚拟数据的数据特征和上述本地数据的数据特征是否一致；

若不一致，则根据上述第二虚拟数据和上述本地数据，对上述本地样本判别器进行训练，得到训练样本判别器，并通过上述训练样本判别器和上述本地数据对本地样本生成器进行训练，得到上述训练样本生成器。

作为一种实施例，上述目标数据生成单元还用于

通过上述联邦样本生成器生成第一虚拟数据之前，若接收到重新训练生成器通知，则将上述联邦样本生成器作为本地样本生成器，通过本地样本生成器学习本地数据的数据特性，获得新的训练样本生成器，并将重新获得的训练样本生成器发送给上述服务器；上述重新训练生成器通知是上述服务器确定联邦样本生成器生成的第三虚拟数据的数据特征与预设本地数据的数据特征的偏差值大于预设偏差值后发送的，上述预设本地数据包括上述客户端的本地数据和其他客户端的本地数据。

如图7所示，基于同一技术构思，本申请实施例还提供一种计算机设备700，包括处理器701和存储器702，其中：

存储器702中存储有计算机程序；

处理器701执行该计算机程序时实现前文论述的，应用于客户端的基于联邦学习的数据处理方法。

图7中是以一个处理器701为例，但是实际上不限制处理器701的数量。

其中，存储器702可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器702也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器702是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器702可以是上述存储器的组合。

作为一种实施例，图6中的第一数据处理装置600的各个模块的功能可以通过图7中的处理器701来实现。

如图8所示，基于同一技术构思，本申请实施例还提供一种基于联邦学习的第二数据处理装置800，其特征在于，包括：

训练样本生成器接收单元801，用于接收至少一个客户端发送的训练样本生成器，上述训练样本生成器是上述至少一个客户端，通过各自的本地样本生成器学习各自的本地数据的数据特性获得的；

联邦样本生成器获取单元802，用于将上述至少一个客户端发送的训练样本生成器进行联邦聚合，得到联邦样本生成器并发送给上述至少一个客户端，以使上述至少一个客户端获得目标数据，其中，上述至少一个客户端中的任意客户端的目标数据，包括上述任意客户端的本地数据，以及通过上述联邦模型生成器生成的第一虚拟数据，上述第一虚拟数据的数据特征与除上述任意客户端外的其他客户端本地数据的数据特征一致。

作为一种实施例，该装置还包括：

联邦模型确定单元，用于得到联邦样本生成器并发送给上述至少一个客户端之后，接收上述至少一个客户端发送的训练模型，上述训练模型是上述至少一个客户端，将各自的目标数据作为输入信息，将各自的训练模型作为输出信息对各自的本地模型进行训练得到的；

将上述至少一个客户端发送的训练模型进行联邦聚合，得到联邦模型并发送给上述至少一个客户端。

作为一种实施例，上述联邦样本生成器获取单元还用于：

得到联邦样本生成器之后，确定联邦样本生成器生成的第三虚拟数据的数据特征与预设本地数据的数据特征的偏差值，上述预设本地数据包括上述至少一个客户端的本地数据；

若上述偏差值大于预设偏差值，则向上述至少一个客户端发送重新训练生成器通知，以指示上述至少一个客户端将上述联邦样本生成器作为本地样本生成器，通过本地样本生成器学习本地数据的数据特性，获得新的训练样本生成器。

如图9所示，基于同一技术构思，本申请实施例还提供一种计算机设备900，包括处理器901和存储器902，其中：

存储器902中存储有计算机程序；

处理器901执行该计算机程序时实现前文论述的，应用于服务器的基于联邦学习的数据处理方法。

图9中是以一个处理器901为例，但是实际上不限制处理器901的数量。

其中，存储器902可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器902也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器902是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器902可以是上述存储器的组合。

作为一种实施例，图8中的第二数据处理装置800的各个模块的功能可以通过图9中的处理器901来实现。

基于同一技术构思，本申请实施例还一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，当上述计算机指令在计算机上运行时，使得计算机执行如前文论述的联邦模型训练的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于联邦学习的数据处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述将所述本地数据和所述第一虚拟数据确定为目标数据之后，还包括：

3.如权利要求1所述的方法，其特征在于，所述客户端通过本地样本生成器学习本地数据的数据特性，获得训练样本生成器，包括：

4.如权利要求1或3所述的方法，其特征在于，所述通过所述联邦样本生成器生成第一虚拟数据之前，还包括：

5.一种基于联邦学习的数据处理方法，其特征在于，包括：

6.如权利要求5所述的方法，其特征在于，所述得到联邦样本生成器并发送给所述至少一个客户端之后，还包括：

7.如权利要求5所述的方法，其特征在于，所述得到联邦样本生成器之后，还包括：

8.一种基于联邦学习的数据处理装置，其特征在于，包括：

9.一种基于联邦学习的数据处理装置，其特征在于，包括：

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-4中任一权利要求所述方法的步骤。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求5-7中任一权利要求所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行权利要求1-4或5-7中任一项所述的方法。