CN115174404B

CN115174404B - 一种基于sdn组网的多设备联邦学习系统

Info

Publication number: CN115174404B
Application number: CN202210533169.8A
Authority: CN
Inventors: 许封元; 吴昊; 赵鑫; 柯晓鹏; 宰晓晨
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2024-06-21
Anticipated expiration: 2042-05-17
Also published as: CN115174404A

Abstract

本发明公开了一种基于SDN组网的多设备联邦学习系统，系统内采用SDN进行组网连接，该系统将边缘设备根据互相之间的延迟分为数个小组，组内采用去中心化的联邦学习策略进行联邦学习训练；在完成组内训练后，根据SDN中提供的信息在每组中选择网络性能最强的设备，让其将本组模型发送给中心节点，由中心节点对各组模型进行聚合。本发明通过对原有联邦学习过程的改良，更充分地使用了边缘设备的数据、算力与网络带宽，同时降低中心节点的压力，提高了模型训练效率，进而使各边缘设备上的数据能够更快地转化为深度学习模型，有效提升了深度学习服务的质量。

Description

一种基于SDN组网的多设备联邦学习系统

技术领域

本发明涉及一种基于SDN组网的多设备联邦学习系统，属于联邦学习系统技术领域。

背景技术

近年来，深度学习技术在工业界和学术界变得无处不在，并且成为许多工业任务和活动的支柱。不断发展的深度学习技术提供了精度越来越高的模型，然而其性能的提高也伴随着模型的大小以及计算复杂度的上升。

与此同时，雾计算、云计算、边缘计算以及嵌入式终端接入物联网技术逐渐普及，为深度学习服务的应用提供了新的场景。这些不同的应用场景对硬件设备的计算能力、实时性和功耗体积等方面有着不同的要求。例如，云端大数据和深度学习等计算密集型的场景应用具有任务单一、计算密集、数据可复用率高的特点，因而要求处理器具有强大的计算能力以及数据带宽；而智能家居、工业物联网等场景则对设备的能耗、体积有严格的要求，需要以牺牲设备的部分计算与网络性能为代价换取更小的体积与能耗。

随着边缘设备日渐普及，规模不断增大，大量有价值的信息零散地分布在这些设备中，形成一个个数据孤岛。联邦学习作为一种分布式的机器学习框架，可以协同分布在多个异构设备上的数据，最终获取基于全局数据的机器学习模型。联邦学习具有天然的隐私保护特性，该方法先在存储数据的节点本地对模型进行训练，在一轮训练结束后将模型的更新信息传回服务器，由服务器聚合各个本地节点的更新，将其汇总为新的深度学习模型，再返回到本地。通过联邦学习，参与方无需将原始数据上传到服务器就可以使用自己的数据训练深度学习模型，因而可以在保护设备中的个人隐私及敏感信息的前提下让零散的数据汇聚起来，发挥更大的价值。在数据隐私与安全问题备受关注的今天，联邦学习在避免数据泄露、避免中心点数据受到攻击等方面具备显著优势。

然而，随着业界与学界对联邦学习的关注不断增加，其自身存在的各类问题也开始凸显：

a、不同的的应用场景对边缘设备的具体要求各不相同，因而联邦学习的参与方之间会在算力和网络条件上存在显著的差异，且各设备拥有的数据量参差不齐，这就导致训练进度的不同步，最终影响模型的训练效率。

b、在真实的联邦学习场景中，各节点往往分散在世界各地，并利用广域网来实现互联，因而带宽有限，在参与方节点过多时，中心节点无法提供充足的带宽来同时聚合所有设备上的模型，因而会不可避免地产生网络拥塞，从而导致训练中通信消耗的时间过长，影响模型训练效率。

目前已有的联邦学习系统可以使用中心化的架构或去中心化的架构：

1)中心化的架构由一个中心服务器与多个参与者组成。其中参与者为数据的拥有者，中心服务器将初始模型分发给各参与者，由它们使用各自的数据进行训练。训练的过程中，中心服务器会定期收集各参与者训练过的模型，并聚合这些模型，形成一个基于全部数据的新模型，再将新模型下发到各设备，然后如此循环往复，直到模型收敛，即训练完成。

2)去中心化的架构不需要中心节点的参与。在每次迭代中，参与方使用本地数据训练模型，并将训练后的模型发送到选定的一方，选定方使用其本地数据和新模型再度更新模型，直到所有参与方都更新了模型，最后将模型广播给所有参与方。为了保证模型的公平性，充分利用各方数据，参与方事先约定迭代相同的轮数。

基于联邦学习系统发展过程中发现的问题，本发明设计了一种针对大量移动设备的一种基于SDN组网的多设备联邦学习系统。为了在复杂的网络环境下尽可能高效地传递信息，并尽可能地利用算力不同的各设备上的数据，本发明采用软件定义网络(SoftwareDefine Network,SDN)的方式组织各设备。

区别于传统网络，SDN的核心思想在于控制转发分离，将传统网络中交换机的控制功能，即控制转发规则，与转发功能，即接收上一个节点发来的数据并发往下一个节点，分离开来。SDN的体系结构中自底向上包括数据转发层、控制层和应用层，其中数据转发层负责按照既定的转发规则完成数据的转发，控制层可以获得网络的全局信息，并可以通过控制交换机的流表来实现控制网络数据的具体转发方式以及转发逻辑的效果。应用层用于服务提供商开发用户所需要的应用，同时也可以监控控制层和转发层的运行状态，优化网络运行状态。目前，应用层主要提供的服务包括QoE、流量监控、安全与防火墙、拓扑发现、负载均衡等,这些服务最终都以应用程序的方式表现,通过北向接口与SDN控制层进行数据交互。这些应用基于控制层提供的网络信息，向控制层发出指令，由控制层对连接和转发规则进行管理，由转发层负责执行转发规则，最终合作实现网络的全局调配与优化。

通过SDN连接各设备的方式，能够实现对全局网络资源的掌握，进而根据各节点计算能力调整节点之间的连接与带宽，以解决算力、网络差异对模型训练效率的影响。

为了解决设备过多时负责聚合模型的中心节点对网络带宽要求较大，会造成网络拥塞的问题，本发明提出了一种分为两个阶段的联邦学习框架。该框架将联邦学习边缘设备根据互相之间的延迟分为数个小组，在每组之内的各设备距离较近，延迟较小，组内采用去中心化的联邦学习策略进行联邦学习训练；在完成组内训练后，根据SDN中提供的信息在每组中选择网络性能最强的设备，让其将本组模型发送给中心节点，由中心节点对各组模型进行聚合。通过这样分组的方式，能够减轻中心服务器的压力，同时由于组内各设备间延迟低，即使采用去中心化的策略也不会有过高的时间代价。

发明内容

发明目的：针对现有技术所存在的问题，本发明提供一种基于SDN组网的多设备联邦学习系统，一方面通过层次化联邦学习训练技术，实现大量节点之间的高效聚合，达到高效协同训练的目标，另一方面通过全局网络状态的实时感知技术，实时感知各节点的网络连接情况，以实现动态调整连接，进一步提高联邦学习模型训练效率。

技术方案：为实现上述目的，本发明提供一种基于SDN组网的多设备联邦学习系统，包括中心节点及边缘设备，且系统内采用SDN进行组网连接，该系统采用以下步骤进行联邦学习训练：

步骤1、边缘设备的初始化：

以组内低延迟为原则将加入联邦学习的边缘设备分为数个小组，并通过各组中可用网络带宽最大的边缘设备将初始模型下发到同组边缘设备；

步骤2、组内去中心化模型训练：

各组边缘设备在组内采用去中心化的联邦学习策略进行联邦学习训练，并通过各组中可用网络带宽最大的边缘设备将训练好的本地模型发送给中心节点；

步骤3、组间中心化模型聚合：

中心节点在收到各组模型后进行加权聚合，生成本轮训练的最终模型，并以此模型为初始模型重复步骤1-3，直到完成约定的轮数，即可结束训练。

进一步的，所述步骤1具体包括：

步骤1.1：边缘设备在加入联邦学习时，首先向中心节点发出加入SDN请求，并在收到中心节点下发的当前节点列表后，进一步测试本身到各已有节点的延迟，选择延迟小于设定阈值的节点作为一个分组方案，发送到中心节点；

步骤1.2：中心节点在收到该边缘设备发来的分组方案时，根据已有分组情况为该边缘设备进行分组，并返回该边缘设备所在组的节点列表；

步骤1.3：在收到中心节点发来的实际组内节点列表后，该边缘设备通知组内的其他边缘设备更新分组信息，并根据当前网络情况，请求可用带宽最大的节点向其发送训练中的模型作为该边缘设备的初始模型。

进一步的，所述中心节点的分组策略具体包括：如果该边缘设备在此前已完成分组，则直接返回此前所在分组的节点列表，否则继续判断该分组方案中未被分组的节点数是否超过设定阈值，若是则将这些未被分组的节点组成一个新组，返回新组的节点列表并将初始模型下发到新组可用带宽最大的节点，否则从已被分组的节点所在的组中选择一个加入，并返回被选中组的节点列表。

进一步的，所述步骤2具体包括：

步骤2.1、本地训练过程：

各边缘设备首先使用本地数据对获取的初始模型或上一轮聚合得到的本地模型进行训练，在训练达到设定的次数后向组内其他边缘设备发送已完成本轮训练的信号，当组内超过设定比例的边缘设备训练完成后，即可开始组内去中心化聚合过程；

步骤2.2、组内去中心化聚合过程：

各边缘设备首先将训练好的本地模型分片，之后将模型片段发送到组内的其他边缘设备中，并在收到其他节点发来的模型片段后，将其与本地模型加权聚合，形成新的本地模型，然后返回步骤2.1进行下一轮训练和聚合，直到完成约定的轮数，即可结束组内去中心化模型训练，并由组内可用网络带宽最大的节点将其模型发送给中心节点。

进一步的，所述步骤2.1中各边缘设备使用本地数据基于随机梯度下降法来更新本地模型。

进一步的，所述步骤2.2中各边缘设备根据中心节点记录的网络连接情况，优先将模型片段发送到可用带宽大于设定阈值的组内其他边缘设备上。

有益效果：本发明对联邦学习的参与者与中心节点而言都有重要的意义，通过对原有联邦学习过程的改良，更充分地使用了边缘设备的数据、算力与网络带宽，同时降低中心节点的压力，提高了模型训练效率，进而使各边缘设备上的数据能够更快地转化为深度学习模型，有效提升了深度学习服务的质量。

对于联邦学习参与者而言，能够更充分地利用设备上的数据，使其发挥更大的价值，同时尽可能地利用设备的网络带宽和计算能力，提高模型的训练效率。

对于联邦学习组织者(即中心节点而言)，能够在保证训练效率和精度的前提下，大大降低中心节点的带宽负担，更高效地训练模型，加速数据转化为模型的效率，提高深度学习服务的质量。

附图说明

图1为本发明实施例中联邦学习系统的训练流程图；

图2为本发明实施例中联邦学习系统的操作状态图，图中：①为系统的初始状态图，即包括一种中心节点(云服务器)和若干边缘设备，②为系统初始化(即对边缘设备进行分组以及中心节点将模型下发到各组)的操作状态图，③为组内去中心化联邦学习的操作状态图，④为组间中心化模型聚合的操作状态图。

具体实施方式

下面将结合附图对本发明的优选实施方式进行描述，更加清楚、完整地阐述本发明的技术方案。

本发明主要解决的问题包括两个方面：一是各移动设备因算力不同、数据量参差不齐会影响模型训练效率的问题；二是联邦学习系统的性能随着设备数量的增多而下降的问题。

解决上述问题主要面临的挑战如下：

1)联邦学习需要各设备利用它们各自拥有的数据对初始模型进行训练，并在一轮训练结束后将训练过的模型聚合。各设备的算力有强有弱，数据量参差不齐就意味着不同设备进行一轮训练的时间取决于整个系统中最晚完成一轮的那一台设备，这可能是由于其计算性能较弱或数据量过多所导致的。

2)在大量边缘设备参与联邦学习时，无论采用中心化的架构或去中心化的架构都会导致模型的训练效率随着设备数的增加而下降。中心化的架构在一轮训练完成后，需要中心节点聚合每个设备上的模型，因而需要庞大的网络带宽，若带宽不足则会发生网络拥塞，进而导致训练过程中的通信时间成为系统瓶颈。而去中心化的架构在节点过多时，每个边缘设备的模型传遍整个网络所需的训练轮数会增长，最终同样导致训练效率的下降。

3)在实际的联邦学习场景中，各个边缘设备分散在世界各地，并通过广域网进行连接，因而网络环境复杂且不稳定，从而为网络环境的管理带来了困难。

为了解决上述问题，本发明设计了一种基于SDN组网的多设备联邦学习系统，其联邦学习过程主要包括系统初始化、组内去中心化训练、组间中心化聚合三个流程，如图2所示。该联邦学习过程包含以下关键技术：

1、层次化联邦学习训练技术。该技术包含边缘设备的初始化、组内去中心化模型训练、组间中心化模型聚合三个关键任务。通过该技术，可以实现大量节点之间的高效聚合，达到高效协同训练的目标。

2、全局网络状态的实时感知技术。该技术通过软件定义网络来实现网络状态的测量。通过该技术，可以实时掌握各节点的运行情况以及节点间的连接状态，以实现动态调整连接，进一步提高联邦学习模型训练效率。

具体来说，全局网络状态的实时感知技术是基于SDN独特的控制转发分离思想实现的，通过集中化的控制器，能够实时感知各节点的网络连接情况，通过监视各节点间每次交换数据的大小与耗时来估计节点的带宽、各节点间的延迟，从而为层次化联邦学习技术提供全局控制信息。

层次化联邦学习技术中，边缘设备的初始化任务主要实现的效果是为新加入的边缘设备分组，以及向新加入的边缘设备分发待训练的模型。其中，为边缘设备分组的原则是优先将其与其他延迟低的设备分为一组，从而降低训练过程中的通信开销；为边缘设备分发模型的过程发生在分组之后，由组内可用网络带宽最大的设备将其模型下发到该边缘设备。以上过程都是在SDN中心节点提供全局网络信息的前提下完成的。

组内去中心化模型训练过程主要实现的效果是同组边缘设备在不交换自身持有数据的前提下共同合作，得到一个事实上利用全组数据训练的深度学习模型。该过程主要通过本地训练、模型分片、基于流言协议实现的模型聚合来完成。各边缘设备以初始模型或上一轮聚合得到的模型作为输入模型，使用自己的持有数据进行随机梯度下降来更新模型参数；经过约定轮数的训练后，各边缘设备将自己的模型按约定好的方式分片，并发给同组内的不同边缘设备，在发送模型的同时，节点还会从接受方获取相同位置的模型分片。通过这种交换方式，可以尽可能多地利用节点间的链路，最大化网络带宽的使用。收到模型的边缘设备通过按样本数量加权的方式对各片模型进行聚合，形成新的模型，然后重复下一轮训练和聚合过程，直到达到约定的轮数。

组间中心化模型聚合主要实现的效果是整合各组边缘设备的训练结果，从而得到利用全部边缘设备数据训练的模型。该任务首先由中心节点基于网络运行情况在各组中选择可用网络带宽最大的节点，收集其模型，然后将收集到的模型加权聚合，最终得到利用全部边缘设备数据训练的深度学习模型。

基于上述架构，本发明提供一种基于SDN组网的多设备联邦学习系统，包括负责聚合模型和监视网络情况的中心节点以及使用本地数据训练模型的边缘设备，该系统的训练过程如图1所示，具体包括以下步骤：

步骤1、系统初始化：

首先进行中心节点的初始化：生成或读取一个初始模型用于后续分发，建立空的节点列表用于后续网络状态监控与管理，并约定组内去中心化训练与组间中心化模型聚合各自需要进行的轮数。

边缘设备在加入联邦学习系统时进行初始化：首先向中心节点发出加入SDN请求，并等待中心节点向其下发目前的模型以及当前节点列表。在收到这些信息后，边缘设备测试自己到各已有节点的延迟，并选择延迟小于设定阈值的节点作为一个分组方案，将此分组方案发送到中心节点，等待中心节点返回实际分组方案。

中心节点在收到某个节点发来的分组方案时进行以下处理：若该节点在此前已被其他分组方案划分到某个组中，则丢弃该分组方案，返回此前所在分组的节点列表，否则继续判断该分组方案中未被分组的节点数量(阈值区分)，若该分组方案中有较多节点未被分组，则让这些节点组成一个新组并记录，返回新组的节点列表，若该分组方案中只有一小部分节点未被分组，则从该分组方案中已被分组的节点所在的组中选择一个，将该节点加入被选中的组，并返回该组的节点列表。如果该过程中新建了分组，中心节点还会将初始模型下发到新分组中中可用带宽最大的节点内。

在收到中心节点发来的实际组内节点列表后，该边缘设备通知组内的其他边缘设备更新分组信息，并根据当前网络情况，请求可用带宽最大的节点向其发送训练中的模型作为该边缘设备的初始模型，之后边缘设备的初始化结束。

步骤2、组内去中心化联邦学习：

本阶段分为本地训练和去中心化聚合两个过程。

本地训练过程中，各边缘设备使用本地数据对获取的初始模型或上一轮聚合得到的模型进行训练，在训练设定的轮数后告知组内其他边缘设备自己已完成本轮训练。为了充分使用各设备的算力资源，在组内有半数边缘设备训练完成后即可开始去中心化的模型聚合过程。

去中心化聚合的过程开始后，各边缘设备先对训练过的模型进行分片，然后访问中心节点以获取本组各节点的网络连接情况，之后将模型片段发送到组内的数个其他设备中。发送的设备取决于中心节点记录的网络连接情况，各边缘设备优先将模型发送到可用带宽较大的其他设备上。在收到其他节点发来的模型片段后，边缘设备需要将其与自己的模型加权聚合，形成新的模型，然后重复本地训练和去中心化聚合的过程，直到完成约定的轮数，去中心化联邦学习阶段结束，由组内到中心节点带宽最大的节点将其模型发送给中心节点。

步骤3、组间中心化模型聚合：

中心节点在收到各组模型后，按各组指明的数据量对各组模型进行加权聚合，生成本轮训练的最终模型，接着以此模型为初始模型重复上述全部流程，直到完成约定的轮数，之后宣告训练结束，保存模型。

本发明通过对原有联邦学习过程的改良，更充分地使用了边缘设备的数据、算力与网络带宽，同时降低中心节点的压力，提高了模型训练效率，进而使各边缘设备上的数据能够更快地转化为深度学习模型，有效提升了深度学习服务的质量。

上述具体实施方式仅仅对本发明的优选实施方式进行描述，而并非对本发明的保护范围进行限定。在不脱离本发明设计构思和精神范畴的前提下，本领域的普通技术人员根据本发明所提供的文字描述、附图对本发明的技术方案所作出的各种变形、替代和改进，均应属于本发明的保护范畴。

Claims

1.一种基于SDN组网的多设备联邦学习系统，其特征在于，包括中心节点及边缘设备，且系统内采用SDN进行组网连接，该系统采用以下步骤进行联邦学习训练：

步骤1、边缘设备的初始化：

所述步骤1具体包括：

步骤1.3：在收到中心节点发来的实际组内节点列表后，该边缘设备通知组内的其他边缘设备更新分组信息，并根据当前网络情况，请求可用带宽最大的节点向其发送训练中的模型作为该边缘设备的初始模型；

步骤2、组内去中心化模型训练：

所述步骤2具体包括：

步骤2.1、本地训练过程：

步骤2.2、组内去中心化聚合过程：

各边缘设备首先将训练好的本地模型分片，之后将模型片段发送到组内的其他边缘设备中，并在收到其他节点发来的模型片段后，将其与本地模型加权聚合，形成新的本地模型，然后返回步骤2.1进行下一轮训练和聚合，直到完成约定的轮数，即可结束组内去中心化模型训练，并由组内可用网络带宽最大的节点将其模型发送给中心节点；

步骤3、组间中心化模型聚合：

2.根据权利要求1所述的一种基于SDN组网的多设备联邦学习系统，其特征在于，所述中心节点的分组策略具体包括：

如果该边缘设备在此前已完成分组，则直接返回此前所在分组的节点列表，否则继续判断该分组方案中未被分组的节点数是否超过设定阈值，若是则将这些未被分组的节点组成一个新组，返回新组的节点列表并将初始模型下发到新组可用带宽最大的节点，否则从已被分组的节点所在的组中选择一个加入，并返回被选中组的节点列表。

3.根据权利要求1所述的一种基于SDN组网的多设备联邦学习系统，其特征在于，所述步骤2.1中各边缘设备使用本地数据基于随机梯度下降法来更新本地模型。

4.根据权利要求1所述的一种基于SDN组网的多设备联邦学习系统，其特征在于，所述步骤2.2中各边缘设备根据中心节点记录的网络连接情况，优先将模型片段发送到可用带宽大于设定阈值的组内其他边缘设备上。