CN114666274A

CN114666274A - 异步模式训练的联邦学习方法、设备、系统及可读介质

Info

Publication number: CN114666274A
Application number: CN202210267785.3A
Authority: CN
Inventors: 苏新铎; 戴晶帼; 陈�光; 梁天恺; 陈昊冬; 田丰
Original assignee: GRG Banking Equipment Co Ltd
Current assignee: GRG Banking Equipment Co Ltd
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-06-24

Abstract

本发明涉及模型训练领域，尤其涉及异步模式训练的联邦学习方法、设备、系统及可读介质。一种异步模式训练的联邦学习方法，包括：将待训练模型发送到多条支线；所述支线包括多个可用节点；每条支线中的多个可用节点依次对所述待训练模型进行训练后得到对应的第一预选模型；接收每条支线反馈的第一预选模型，进行聚合处理得到第二预选模型；判定所述第二预选模型是否达到终止条件，是则终止训练，否则进行下一轮训练。训练的模型包括多个节点的数据特征，很好的隐藏了个体特征，待训练模型在可用节点间串行传播、训练，中心端难以从中还原出节点本地数据，一定程度上解决了没有可信中心端的问题，有助于提高个体节点的数据特征安全性。

Description

异步模式训练的联邦学习方法、设备、系统及可读介质

技术领域

本发明涉及模型训练领域，尤其涉及异步模式训练的联邦学习方法、设备、系统及可读介质。

背景技术

联邦学习是一种隐私计算的分布式机器学习技术，目标是在保证数据隐私安全及合法合规的基础上，实现共同建模，提升AI模型的效果。以预测用户在手机上输入的下一个字为例。在该场景下，该任务的训练数据为当前手机上用户历史打字数据，使用时通过用户当前输入预测下一个字。但是该数据涉及用户隐私，往往不允许泄露并难以进行集中式学习。该任务的对象是大量的个人客户，即参与节点数量众多，且手机往往无法长时间参与任务。为保证用户体验，手机端只能在空闲状态及电量充足的情况下参与训练，一旦用户使用即终止训练。网络连接情况，电量情况也会导致手机不能参与训练。即每个节点随时可能退出训练，无法提前预知。在该场景下，联邦学习的节点同步训练方式，会带来中心方网络堵塞、手机间性能不同导致训练时间不同从而等待等问题，效率低下。

发明内容

鉴于上述现有技术的不足之处，本发明的目的在于提供异步模式训练的联邦学习方法、设备、系统及可读介质，能够有效解决同步训练方式带来的中心方网络堵塞、手机间性能不同导致训练时间不同从而造成时间周期长的问题。

为了达到上述目的，本发明采取了以下技术方案：

一方面，本发明提供一种异步模式训练的联邦学习方法，应用于中心端，包括：

将待训练模型发送到多条支线；所述支线包括多个可用节点；每条支线中的多个可用节点依次对所述待训练模型进行训练后得到对应的第一预选模型；

接收每条支线反馈的第一预选模型，进行聚合处理得到第二预选模型；

判定所述第二预选模型是否达到终止条件，是则终止训练，否则进行下一轮训练。

进一步的，所述的异步模式训练的联邦学习方法，将带训练模型发送到多条支线包括：

确定支线并行数；所述支线并行数为支线数量；

从当前可交互的若干个可用节点中选择n个所述可用节点发送所述待训练模型，以使从接收到所述待训练模型的所述可用节点开始对所述待训练模型进行支线训练，得到所述第一预选模型；其中，n为所述支线并行数。

进一步的，所述的异步模式训练的联邦学习方法，在确定所述支线并行数的同时，还确定支线长度；所述支线长度为支线中所述可用节点数量；

所述支线训练具体包括：

接收到所述待训练模型的所述可用节点使用本地数据对所述待训练模型进行训练，并更新当前传播数；

训练完成后，判定所述当前传播数是否大于或等于所述支线长度，若是则以训练后的待训练模型作为所述第一预选模型发送到中心端；若否则将训练后的所述待训练模型发送到其他所述可用节点中，进行训练。

进一步的，所述的异步模式训练的联邦学习方法，所述本地数据包括固定数据量数据和所有数据；

所述固定数据量数据为随机在所有数据中采样预定量的数据得到。

进一步的，所述的异步模式训练的联邦学习方法，当前可用节点向其他可用节点发送所述待训练模型具体包括：

当前可用节点从可交互的多个可用节点中随机选择一个进行发送。

进一步的，所述的异步模式训练的联邦学习方法，所述聚合处理包括：

获取聚合系数；所述聚合系数包括时延系数、数据规模系数；

基于得到的第一预选模型进行聚合得到所述第二预选模型。

进一步的，所述的异步模式训练的联邦学习方法，所述中心端每接收到一个所述第一预选模型就执行一次聚合处理。

进一步的，所述的异步模式训练的联邦学习方法，若中心端在预设时间内没有得到某条支线返回的所述第一预选模型，则判定该支线已断开，并发起新支线；

若断开的支线数量超过预设阈值，则判定任务失败。

另一方面，本发明提供一种中心端设备，应用前述任一所述的异步模式训练的联邦学习方法训练待训练模型。

另一方面，本发明提供一种异步模式训练的联邦学习方法，应用于可用节点，包括：

接收到待训练模型的所述可用节点使用本地数据对所述待训练模型进行训练，并更新当前传播数；所述待训练模型为中心端发送到支线中的第一个可用节点中；所述支线包括多个所述可用节点；

训练完成后，判定所述当前传播数是否大于或等于支线长度，

若是则以训练后的待训练模型作为第一预选模型发送到中心端，以使所述中心端接收多条支线反馈的第一预选模型，进行聚合处理得到第二预选模型，同时在所述第二预选模型达到终止条件的情况下终止训练，否则进行下一轮训练；

若否则将训练后的所述待训练模型发送到其他所述可用节点中，进行训练；所述支线长度用于表征支线中所述可用节点数量，附随所述待训练模型进行传输。

另一方面，本发明提供一种可用节点端设备，应用前述任一所述的异步模式训练的联邦学习方法对待训练模型进行训练。

另一方面，本发明提供一种异步模式训练的联邦学习系统，包括中心端和多个可用节点；

中心端将待训练模型发送到多条支线，以使多条支线对所述待训练模型进行训练分别得到对应的第一预选模型；所述支线包括多个可用节点；

中心端接收每条支线反馈的第一预选模型，进行聚合处理得到第二预选模型；判定所述第二预选模型是否达到终止条件，是则终止训练，否则进行下一轮训练；

另一方面，本发明提供一种计算机可读介质，存储有计算机程序，所述计算机程序再被处理器执行时，实现前述任一所述的异步模式训练的联邦学习方法。

相较于现有技术，本发明提供的异步模式训练的联邦学习方法、设备、系统及可读介质，具有以下有益效果：

使用本发明提供的异步模式训练的联邦学习方法，将待训练模型使用不同的支线进行训练，当支线中每个可用节点均进行训练后，将得到第一预选模型发送到中心端进行聚合，由于每个可用节点的训练时间不同，导致每条支线的训练时间不同，在中心端进行接收时，不会造成网络堵塞，同时还能保证更多的可用节点参与训练，保证了训练效果的基础上，提高了网络利用率以及训练效率。

同时，由于在训练时每条支线所产生的第一预选模型时通过多个不同可用节点的本地化训练，则得到的第二预选模型会包括多个可用节点的数据特征，很好的隐藏了个体特征，待训练模型在可用节点间串行传播、训练，中心端难以从中还原出节点本地数据，一定程度上解决了没有可信中心端的问题，有助于提高个体节点的数据特征安全性。

附图说明

图1是本发明提供的应用于中心端的异步模式训练的联邦学习方法流程图。

图2是本发明提供的异步模式训练的联邦学习方法一种实施方式流程图。

图3是本发明提供的异步模式训练的联邦学习方法一种实施方式示意图。

图4是本发明提供的应用于可用节点的异步模式训练的联邦学习方法流程图。

图5是本发明提供的异步模式训练的联邦学习系统结构框图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本领域技术人员应当理解，前面的一般描述和下面的详细描述是本发明的示例性和说明性的具体实施例，不意图限制本发明。

本文中术语“包括”，“包含”或其任何其他变体旨在覆盖非排他性包括，使得包括步骤列表的过程或方法不仅包括那些步骤，而且可以包括未明确列出或此类过程或方法固有的其他步骤。同样，在没有更多限制的情况下，以“包含...一个”开头的一个或多个设备或子系统，元素或结构或组件也不会没有更多限制，排除存在其他设备或其他子系统或其他元素或其他结构或其他组件或其他设备或其他子系统或其他元素或其他结构或其他组件。在整个说明书中，短语“在一个实施例中”，“在另一个实施例中”的出现和类似的语言可以但不一定都指相同的实施例。

除非另有定义，否则本文中使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。

请参阅图1-图2，本发明提供一种异步模式训练的联邦学习方法，应用于中心端，所述中心端为具备一定计算能力的服务器，与网络中各个节点设备构成训练系统，在一般情况下，各个节点设备并不是同时能够被使用可以参与训练，因此将可参与训练的节点设备作为可用节点。所述可用节点在非训练状态下，可以自由的加入或退出训练系统，退出的方式可以为退出网络或明示不参与训练(例如当手机正在使用时，则对外明示不参与训练)。

所述异步模式训练的联邦学习方法包括：

S1、将待训练模型发送到多条支线；所述支线包括多个可用节点；每条支线中的多个可用节点依次对所述待训练模型进行训练后得到对应的第一预选模型；具体的，在第一轮训练中，所述待训练模型为参数初始化的模型，当后续训练中，使用的是前一轮训练后的模型(即前一轮聚合后的第二预选模型)。

在本实施例中，多个可用节点可以是按照预定规则设定好(例如在第一地理距离范围内的多个可用节点构成一条直线)，也可以随机设定。在训练过程中，所述待训练模型在多个可用节点之间的流转顺序不做限定，可以按照预定顺序，也可以按照随机顺序。

S2、接收每条支线反馈的第一预选模型，进行聚合处理得到第二预选模型；具体的，在本实施例中，聚合的方式不做限定，本领域的技术人员可以根据实际需求选择合适的聚合方式将第一预选模型聚合成为所述第二预选模型。

在本步骤中，

S3、判定所述第二预选模型是否达到终止条件，是则终止训练，否则进行下一轮训练。具体的，当所述第二预选模型满足所述终止条件，即意味着第二预选模型已经可以成为可以用的目标模型。优选的，所述终止条件包括所述第二预选模型收敛或训练次数达到最大限定次数(例如100次)。

在进一步的实施例中，在进行下一轮训练时，选择所述支线可以相同还可以不同；在相同的情况下，将每条支线中的多个可用节点的串行顺序进行变更。

进一步的，在一些实施例中，当多个支线中部分反馈了第一预选模型后，就可以进行第二预选模型的聚合。

使用本发明提供的异步模式训练的联邦学习方法，引入了支线的概念，待训练模型在可用节点间串行传播，支线间并行训练；当支线中每个可用节点均进行训练后，将得到第一预选模型发送到中心端进行聚合，由于每个可用节点的训练时间不同，导致每条支线的训练时间不同，在中心端进行接收时，不会造成网络堵塞，同时还能保证更多的可用节点参与训练，保证了训练效果的基础上，提高了网络利用率以及训练效率。

同时，由于在训练时每条支线所产生的第一预选模型时通过多个不同可用节点的本地化训练，则会包括多个节点的数据特征，很好的隐藏了个体特征，待训练模型在可用节点间串行传播、训练，中心端难以从中还原出节点本地数据，一定程度上解决了没有可信中心端的问题，有助于提高个体节点的数据特征安全性。

进一步的，作为优选方案，本实施例中，将带训练模型发送到多条支线包括：

确定支线并行数；所述支线并行数为支线数量；具体的，所述支线并行数为同时进行模型训练的支线的总数量。优选的，所述支线并行数为4-20，每次训练使用支线数量越多，则训练得到的模型运行效果更佳。

从当前可交互的若干个可用节点中选择n个所述可用节点发送所述待训练模型，以使从接收到所述待训练模型的所述可用节点开始对所述待训练模型进行支线训练，得到所述第一预选模型；其中，n为所述支线并行数。在本实施例中，在每轮训练开始阶段，中心端选择n个可用节点将待训练模型传输即可，不需要确定支线的具体情况，有效降低中心端的资源占用情况。

进一步的，作为优选方案，本实施例中，在确定所述支线并行数的同时，还确定支线长度；所述支线长度为支线中所述可用节点数量；即每条支线中，待训练模型经过的可用节点数量。

所述支线训练具体包括：

接收到所述待训练模型的所述可用节点使用本地数据对所述待训练模型进行训练，并更新当前传播数；具体的，所述本地数据为针对性训练的数据，例如针对预测用户下一个字的输入内容为例，则本地数据是指已通过隐私协议获得的用户手机端的打字历史数据。

训练完成后，判定所述当前传播数是否大于或等于所述支线长度，若是则以训练后的待训练模型作为所述第一预选模型发送到中心端；若否则将训练后的所述待训练模型发送到其他所述可用节点中，进行训练。在本实施例中，可用节点之间可以按照预定顺序进行传播，此时需要保证支线内的所有可用节点均可以进行数据传输，当然还可以使用随机传播方式进行模型转移。

进一步的，作为优选方案，本实施例中，所述本地数据包括固定数据量数据和所有数据；

所述固定数据量数据为随机在所有数据中采样预定量的数据得到，例如随机从本地语料进行采样。两种本地数据的应用方式带来的区别在于：各个可用节点使用固定数据量数据对待训练模型进行训练，会使各个可用节点的数据规模系数相同；使用所有数据对待训练模型进行训练会使各个可用节点的数据规模系统不同。

进一步的，作为优选方案，本实施例中，当前可用节点向其他可用节点发送所述待训练模型具体包括：

当前可用节点从可交互的多个可用节点中随机选择一个进行发送。在本实施例中，可用节点之间传播为随机传播，使可用节点的加入和退出系统均能自由化实现，同时训练时间也可以保证，不必要等到指定的节点加入系统才进行训练。

进一步的，作为优选方案，本实施例中，所述聚合处理包括：

获取聚合系数；所述聚合系数包括时延系数、数据规模系数；具体的，所述时延系数为支线反馈第一预选模型的时间处理后得到的系数，时延系数保证即使有支线训练的非常慢，落后于当前训练轮数，该支线中的内容仍然可以以一定比例整合到第二预选模型中。所述数据规模系统根据本地数据中参与训练的数据量进行确定，数据规模系数保证了数据量大的支线在聚合时系数更高，同等算力下数据量大的任务训练速度慢，可能会落后于当前训练轮数，在聚合时影响降低，通过数据规模系数矫正这一趋势。所述聚合系数包括时延系数、数据规模系数等，与支线轮数及节点数据量等因素有关。目的是保证聚合后的第二预选模型能够合理的综合各可用节点的内容。

基于得到的第一预选模型聚合得到所述第二预选模型。具体的，接收到每条支线传输的第一预选模型后，就通过设置聚合系数进行第二预选模型的更新。

具体的，在聚合过程中，引入聚合系数平衡了算力和数据量不同对全局模型的影响，有效解决了异步情况下各节点训练速度不一致带来的聚合困难问题。

进一步的，作为优选方案，本实施例中，所述中心端每接收到一个所述第一预选模型就执行一次聚合处理。每条支线训练完成后立即进行聚合，无需等待，提高聚合的效率。

在一些实施例中，当接收到的第一预选模型数量超过预定值时，就进入下一轮训练。所述预定值通过计算支线总数的预定比例。例如图3，其为4条支线，每条支线长度为4的异步串行联邦学习系统的一轮训练示意图。图中实心节点为中心端，空心节点为可用节点。节点间连线为支线传播路径，标号为1的连线为本轮支线，标号为2的连线为陈旧支线，来源于上一轮训练。支线1为当前轮支线，支线2为上一轮支线。

进一步的，作为优选方案，本实施例中，若中心端在预设时间内没有得到某条支线返回的所述第一预选模型，则判定该支线已断开，并发起新支线；以保证有足够的第一预选模型参与聚合，使训练结束时得到全局模型的可靠性更高。

若断开的支线数量超过预设阈值，则判定任务失败。

具体的，若节点未处于训练状态、模型传输状态，节点可随时退出网络，不影响任务。若节点在模型传输状态、训练状态下退出任务，该支线断开。通过合理设置支线长度和支线并行数，可以平衡节点退出带来的损失与任务训练时间，中心端通信负载压力之间的关系。同时，允许参与节点灵活退出网络，更符合手机等智能设备的使用场景，不影响用户体验。

优选的，在每轮训练时，在中心端在每轮训练开始时对外发送的待训练模型中，还设定训练轮数值，用以标定该待训练模型的轮数属性。所述聚合处理中使用的聚合公式优选为：

M_t＝λ×M_t-1+ω×M'_t-1|_received+η×M'_t≠t-1|_received；

λ+ω+η＝1；

其中，M_t代表第t轮聚合后的第二预选模型，M_t-1代表第t-1轮的第二预选模型，M‘_t-1|_received代表t-1轮接收到的当前轮的支线的第一预选模型，M‘_t≠t-1|_received代表t-1轮接收到的非当前轮支线的第一预选模型，λ、ω、η分别代表t-1轮的第二预选模型、t-1轮接收到的当前轮支线的第一预选模型和t-1轮接收到的非当前轮支线的第一预选模型在本轮聚合时的权重；N_i-received、N_j-received分别代表t-1轮接收到的当前轮的支线的数目和t-1轮接收到的非当前轮支线的数目；α_i、α_j分别代表当前轮的各支线和非当前轮的各支线的聚合系数，

代表第t-1轮接收到的第i个当前轮支线的第一预选模型，

代表第t-1轮接收到的第j个非当前轮支线的第一预选模型；β代表影响聚合系数的因子，包括但不限于：时延系数β₀、数据规模系数β₁。特别地，对于第t-1轮接收到的当前轮的支线，其时延系数β₀为0。

本发明还提供一种中心端设备，应用前述任一实施例所述的异步模式训练的联邦学习方法训练待训练模型。

请参阅图4，本发明还提供一种异步模式训练的联邦学习方法，应用于可用节点，在本实施例中，可以使用某一电子设备作为可以节点，该电子设备存储有某一用户设备的全部本地数据，能够等效替代用户设备，当然还可以直接使用用户设备做为所述可以节点。

所述异步模式训练的联邦学习方法包括：

本发明还提供一种可用节点端设备，应用前述任一实施例所述的异步模式训练的联邦学习方法对待训练模型进行训练。

请参阅图5，本发明还提供一种异步模式训练的联邦学习系统，包括中心端和多个可用节点；

本发明还提供一种计算机可读介质，存储有计算机程序，所述计算机程序再被处理器执行时，实现前述任一实施例所述的异步模式训练的联邦学习方法。

计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种异步模式训练的联邦学习方法，其特征在于，应用于中心端，包括：

2.根据权利要求1所述的异步模式训练的联邦学习方法，其特征在于，将带训练模型发送到多条支线包括：

确定支线并行数；所述支线并行数为支线数量；

3.根据权利要求2所述的异步模式训练的联邦学习方法，其特征在于，在确定所述支线并行数的同时，还确定支线长度；所述支线长度为支线中所述可用节点数量；

所述支线训练具体包括：

4.根据权利要求3所述的异步模式训练的联邦学习方法，其特征在于，所述本地数据包括固定数据量数据和所有数据；

5.根据权利要求3所述的异步模式训练的联邦学习方法，其特征在于，当前可用节点向其他可用节点发送所述待训练模型具体包括：

6.根据权利要求3所述的异步模式训练的联邦学习方法，其特征在于，所述聚合处理包括：

基于得到的第一预选模型进行聚合得到所述第二预选模型。

7.根据权利要求1所述的异步模式训练的联邦学习方法，其特征在于，所述中心端每接收到一个所述第一预选模型就执行一次聚合处理。

8.根据权利要求1所述的异步模式训练的联邦学习方法，其特征在于，若中心端在预设时间内没有得到某条支线返回的所述第一预选模型，则判定该支线已断开，并发起新支线；

若断开的支线数量超过预设阈值，则判定任务失败。

9.一种中心端设备，其特征在于，应用权利要求1-8任一所述的异步模式训练的联邦学习方法训练待训练模型。

10.一种异步模式训练的联邦学习方法，其特征在于，应用于可用节点，包括：

11.根据权利要求10所述的异步模式训练的联邦学习方法，其特征在于，所述本地数据包括固定数据量数据和所有数据；

12.根据权利要求10所述的异步模式训练的联邦学习方法，其特征在于，当前可用节点向其他可用节点发送所述待训练模型具体包括：

13.一种可用节点端设备，其特征在于，应用权利要求10-12任一所述的异步模式训练的联邦学习方法对待训练模型进行训练。

14.一种异步模式训练的联邦学习系统，其特征在于，包括中心端和多个可用节点；

中心端接收每条支线反馈的第一预选模型，进行聚合处理得到第二预选模型；判定所述第二预选模型是否达到终止条件，是则终止训练，否则进行下一轮训练。

15.一种计算机可读介质，其特征在于，存储有计算机程序，所述计算机程序再被处理器执行时，实现权利要求1-8、10-12任一所述的异步模式训练的联邦学习方法。