CN116108933A

CN116108933A - 一种面向不稳定场景下联邦学习的方法和系统

Info

Publication number: CN116108933A
Application number: CN202310154809.9A
Authority: CN
Inventors: 左方; 高铭远; 刘家萌
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-05-12

Abstract

本发明提供一种面向不稳定场景下联邦学习的方法和系统。该方法包括：步骤1：根据训练本地模型所要求的数据量、计算能力和网络带宽确定抽样策略；步骤2：按照抽样策略选择M个边缘节点，并进行预训练；步骤3：服务器初始化全局模型；步骤4：当故障节点列表不为空时，从中选择顶级节点并将其加入参与训练的边缘节点中；步骤5：边缘节点根据本地数据和接收的全局模型进行本地训练，得到新的本地模型，并上传至服务器；步骤6：在设定的时间段内，服务器若接收到边缘节点的本地模型，则将器其合至全局模型中；反之，则将未返回本地模型的边缘节点添加至故障节点列表；步骤7：重复步骤4至步骤6，直至达到结束条件后，输出此时的全局模型。

Description

一种面向不稳定场景下联邦学习的方法和系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种面向不稳定场景下联邦学习的方法和系统。

背景技术

随着人工智能、无线通信和物联网的快速发展，语音识别、自动驾驶、智慧医疗等智能应用在日常生活和工业场景中都得到了广泛引用。传统集中式机器学习方法将用户数据传输到云服务器上进行集中式训练，会造成无法容忍的通信成本和延时，并且用户数据在传输过程终会有隐私泄露问题。

联邦学习则可以避免隐私泄漏。联邦学习是一种训练范式，使不同的边缘节点能够在不共享各自数据的情况下联合学习一个全局模型。然而，在联邦学习中，边缘节点通常是大量具有不同计算和通信能力的移动或物联网设备，由于其边缘节点数量庞大且制式各异，边缘节点之间的计算能力、通信条件、边缘节点上的数据样本数量等系统资源具有极大的异构性，这种异构性称为系统异构性。系统异构性会导致联邦学习过程的同一轮次中出现较大的训练时间差异，即训练吞吐量通常受到计算能力较低或通信速度较慢的边缘节点的限制。亦或者训练过程中如果有边缘节点通信不稳定，也会导致训练结果变差。甚至，如果参与训练的边缘节点中存在多个通信不稳定的节点，将会导致模型不收敛。

发明内容

针对由于边缘节点通信不稳定而造成联邦学习过程中模型训练效果较差的问题，本发明提供一种面向不稳定场景下联邦学习的方法和系统。

一方面，本发明提供一种面向不稳定场景下联邦学习的方法，包括：

步骤1：根据训练本地模型所要求的数据量、计算能力和网络带宽确定抽样策略；

步骤2：按照抽样策略从所有备选边缘节点中选择M个边缘节点，并对选中的边缘节点进行预训练；M＝所有备选边缘节点的70％；

步骤3：服务器初始化全局模型；

步骤4：当故障节点列表不为空时，从故障节点列表中选择顶级节点并将其加入参与训练的M个边缘节点中；所述顶级节点是指最先添加至故障节点列表中的边缘节点；

步骤5：边缘节点根据本地数据和接收的全局模型进行本地训练，得到新的本地模型，并将本地模型上传至服务器；

步骤6：在设定的时间段内，服务器若接收到边缘节点的本地模型，则将该本地模型聚合至全局模型中；反之，则将未返回本地模型的边缘节点添加至故障节点列表；

步骤7：重复步骤4至步骤6，直至达到结束条件后，输出此时的全局模型。

进一步地，步骤1中，按照公式(1)确定抽样策略S：

其中，α为训练模型的大小，κ为训练模型所要求的内存大小，N为训练模型所要求的网络带宽，C为训练模型所要求的计算能力，D为训练模型所要求的数据量。

进一步地，步骤2中的预训练具体包括：

步骤2.1：服务器初始化全局模型w_p，将所述全局模型w_p发送至选中的M个边缘节点；

步骤2.2：在第t轮训练过程中，边缘节点i根据本地数据和接收到的全局模型进行本地训练，更新得到本地模型，将本地模型返回至服务器；i＝1,2,…,M；

步骤2.3：在第t轮训练过程中，在设定时间段T_r内，服务器记录所有本地模型并聚合得到新的全局模型，记录边缘节点i在第t轮的响应时间R_i,t并更新该边缘节点i的平均响应时间

并将未反馈本地模型的边缘节点添加至故障节点列表中；

步骤2.4：重复执行步骤2.2至步骤2.3，直至达到设定的迭代次数S。

进一步地，服务器按照公式(2)将本地模型聚合至全局模型中：

其中，t表示训练轮次，γ_cyc表示动态学习率，

为权重，

表示边缘节点i回传的更新后的模型参数，ω_t+1表示聚合更新后的全局模型参数。

进一步地，按照公式(3)确定动态学习率γ_cyc的取值：

其中，γ_fix表示固定学习率，a表示振幅，i表示边缘节点，t表示训练轮次，f表示频率。

另一方面，本发明提供一种面向不稳定场景下联邦学习的系统，包括：

抽样模块，设置在服务器端，用于根据训练本地模型所要求的数据量、计算能力和网络带宽确定抽样策略，以及按照抽样策略从所有备选边缘节点中选择M个边缘节点；M＝所有备选边缘节点的70％；

预训练模块，设置在服务器端，用于对选中的边缘节点进行预训练；

服务器，用于初始化全局模型；当故障节点列表不为空时，从故障节点列表中选择顶级节点并将其加入参与训练的M个边缘节点中；在设定的时间段内，若接收到边缘节点的本地模型，则将该本地模型聚合至全局模型中；反之，则将未返回本地模型的边缘节点添加至故障节点列表；所述顶级节点是指最先添加至故障节点列表中的边缘节点；

边缘节点，用于根据本地数据和接收的全局模型进行本地训练，得到新的本地模型，并将本地模型上传至服务器。

本发明的有益效果：

本发明适用于存在明显系统异构性的联邦学习环境。现实场景中一次完整的联邦学习过程可能有数以百万计的参与者，面对如此庞大规模的分布式机器学习，不同参与者之间的计算能力、通信状况等系统资源的差异会被放大。在联邦学习的过程中，客户端与中心服务器之间需要进行频繁的通信，每一轮训练客户端都需要将在本地更新后的模型参数上传到中心服务器以参与全局训练和优化，中心服务器也需要在聚合所有参与训练的客户端的模型参数后，将更新过的全局模型回传给客户端。在这个过程中，即使是少量客户端出现通信延迟或掉线的情况，都会对整体系统的性能产生至关重要的影响。相比于传统的联邦学习，本发明通过在联邦学习中加入预训练、缓冲队列机制和基于动态学习率的模型聚合方式，明显提高了模型的训练效率，以及系统的鲁棒性。

附图说明

图1为本发明实施例提供的一种面向不稳定场景下联邦学习的方法的流程示意图；

图2为本发明实施例提供的预训练过程示意图；

图3为本发明实施例提供的服务器使用动态学习聚合模型的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明实施例提供一种面向不稳定场景下联邦学习的方法，包括以下步骤：

S101：根据训练本地模型所要求的数据量、计算能力和网络带宽确定抽样策略；

具体地，按照公式(1)确定抽样策略S：

其中，α为训练模型的大小，κ为训练模型所要求的内存大小，N为训练模型所要求的网络带宽，C为训练模型所要求的计算能力，D为训练模型所要求的数据量。其中，α和κ为预先给定的常数。

代表模型的传输时间，

代表客户端的计算时间，

代表模型的训练时间。

S102：如图2所示，按照抽样策略从所有备选边缘节点中选择M个边缘节点，并对选中的边缘节点进行预训练；M＝所有备选边缘节点的70％；

通过研究，发明人认为采用全部备选边缘节点来参与训练，与采用全部备选边缘节点的70％来参与训练，两种情形下的全局模型的收敛速度相当；如此，为了节约通信资源，本实施例采用全部备选边缘节点的70％来参与训练。在选择边缘节点时，可以采用随机抽样策略。但是，考虑到在实际场景中，不同的边缘节点会有不同的存储容量、计算能力和网络带宽。此外，每个边缘节点的数据分布也会不同，当参与训练的边缘节点之间的异构性足够大的时候，采用传统的随机抽样策略可能会导致训练性能变得极为缓慢，因此，本发明实施例还设计了新的抽样策略，从而进一步提高全局模型的训练效率和准确度。

步骤2中的预训练具体包括：

S1021：服务器初始化全局模型w_p，将所述全局模型w_p发送至选中的M个边缘节点；

S1022：在第t轮训练过程中，边缘节点i根据本地数据和接收到的全局模型进行本地训练，更新得到本地模型，将本地模型返回至服务器；i＝1,2,…,M；

S1023：在第t轮训练过程中，在设定时间段T_r内，服务器记录所有本地模型并聚合得到新的全局模型，记录边缘节点i在第t轮的响应时间R_i,t并更新该边缘节点i的平均响应时间

并将未反馈本地模型的边缘节点添加至故障节点列表中。将这种接收本地模型的方式，称为缓冲队列机制。

S1024：重复执行S1022至步骤S1023，直至达到设定的迭代次数S。

每个边缘节点的平均响应时间P_i,t都会被进行持久记录，并随每一轮全局模型更新过程进行更新，以动态的反映边缘节点的计算能力和网络性能。

缓冲队列机制的好处在于：传统联邦学习过程中，即使是少量客户端出现通信延迟或掉线的情况，都会对整体系统的性能产生至关重要的影响，而加入缓冲队列机制可以减轻甚至消除这种问题。

S103：服务器初始化全局模型w₀；

S104：当故障节点列表不为空时，从故障节点列表中选择顶级节点并将其加入参与训练的M个边缘节点中；所述顶级节点是指最先添加至故障节点列表中的边缘节点；

S105：边缘节点根据本地数据和接收的全局模型进行本地训练，得到新的本地模型，并将本地模型上传至服务器；

以某个边缘节点i为例，边缘节点i接收模型w₀后，在本地数据D_i上，进行S个轮次的本地训练，更新得到本地模型为

然后将

返回给服务器。

S106：在设定的时间段T_r内，服务器若接收到边缘节点的本地模型，则将该本地模型聚合至全局模型中；反之，则将未返回本地模型的边缘节点添加至故障节点列表；

具体地，现有联邦学习方法中，服务器聚合模型时使用的是一个固定的学习率，而本发明实施例则是使用一个动态的学习率，服务器基于动态学习率按照公式(2)将本地模型聚合至全局模型中：

其中，t表示训练轮次，γ_cyc表示动态学习率，

为权重，

本实施例中，按照公式(3)确定动态学习率γ_cyc的取值：

相比于固定学习率，动态的学习率可以通过动态梯度来穿越局部最小值和鞍点，这可能会在训练初期带来一些短期的负面影响，但在一个完整的联邦学习中，可以在保证训练效果的前提下有效减少收敛所需时间、减少通信次数，且没有任何额外成本。动态学习率与固定学习率的对比见图3。

S107：重复步骤S104至步骤S106，直至达到结束条件后，输出此时的全局模型。

实施例2

对应上述的方法，本发明实施例提供一种面向不稳定场景下联邦学习的系统，包括：抽样模块、预训练模块、服务器和边缘节点；其中，抽样模块和预训练模块均设置在服务器端。

抽样模块，用于根据训练本地模型所要求的数据量、计算能力和网络带宽确定抽样策略，以及按照抽样策略从所有备选边缘节点中选择M个边缘节点；M＝所有备选边缘节点的70％。预训练模块用于对选中的边缘节点进行预训练。服务器用于初始化全局模型；当故障节点列表不为空时，从故障节点列表中选择顶级节点并将其加入参与训练的M个边缘节点中，所述顶级节点是指最先添加至故障节点列表中的边缘节点；在设定的时间段内，若接收到边缘节点的本地模型，则将该本地模型聚合至全局模型中；反之，则将未返回本地模型的边缘节点添加至故障节点列表。边缘节点，用于根据本地数据和接收的全局模型进行本地训练，得到新的本地模型，并将本地模型上传至服务器。

需要说明的是，本发明实施例提供的一种面向不稳定场景下联邦学习的系统是为了实现上述方法实施例的，其功能具体可参考上述方法实施例，此处不再赘述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向不稳定场景下联邦学习的方法，其特征在于，包括：

步骤3：服务器初始化全局模型；

2.根据权利要求1所述的一种面向不稳定场景下联邦学习的方法，其特征在于，步骤1中，按照公式(1)确定抽样策略S：

3.根据权利要求2所述的一种面向不稳定场景下联邦学习的方法，其特征在于，步骤2中的预训练具体包括：

并将未反馈本地模型的边缘节点添加至故障节点列表中；

4.根据权利要求1所述的一种面向不稳定场景下联邦学习的方法，其特征在于，步骤6中，服务器按照公式(2)将本地模型聚合至全局模型中：

其中，t表示训练轮次，γ_cyc表示动态学习率，

为权重，

5.根据权利要求4所述的一种面向不稳定场景下联邦学习的方法，其特征在于，按照公式(3)确定动态学习率γ_cyc的取值：

6.一种面向不稳定场景下联邦学习的系统，其特征在于，包括：