CN112929223A

CN112929223A - 一种基于联邦学习方式训练神经网络模型的方法及系统

Info

Publication number: CN112929223A
Application number: CN202110249146.XA
Authority: CN
Inventors: 徐梦炜; 袁进良; 周傲; 马骁; 王尚广
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-06-08
Anticipated expiration: 2041-03-08
Also published as: CN112929223B

Abstract

本发明实施例公开了一种基于联邦学习方式训练神经网络模型的方法及系统，本发明实施例在训练神经网络模型时，云服务器选取广域网内已有的至少一个局域网，云服务器将当前神经网络模型发送给所述局域网，由所述局域网在局域网内对该神经网络模型进行多个本地参与设备的联邦学习，并聚合为所述局域网改进的神经网络模型后，提供给云服务器；云服务器将接收到的局域网改进的神经网络模型进行聚合后，得到全局改进的该神经网络模型。这样，本发明实施例就可以在减少跨广域网通信量的前提下，实现基于联邦学习方式训练神经网络模型，提高训练速度及节省成本。

Description

一种基于联邦学习方式训练神经网络模型的方法及系统

技术领域

本发明涉及神经网络模型的训练技术，特别涉及一种基于联邦学习方式训练神经网络模型的方法及系统。

背景技术

随着人工智能的快速发展，快速地训练得到性能高的神经网络模型是发展方向。在这种情况下，出现了联邦学习方式训练神经网络模型，联邦学习方式又名联邦机器学习方式、联合学习方式或者联盟学习方式，该方式是一个机器学习框架，能有效帮助多个设备在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和神经网络模型的建模。

采用联邦学习方式进行神经网络模型的训练时，可以使用多设备协同学习共享的模型，同时将每个设备的训练数据保存在自身设备上，从而可以在保护用户隐私的基础上部署人工智能应用。如图1所示，图1为现有技术采用联邦学习方式训练神经网络模型的网络架构图。在整个训练该神经网络模型的过程中，首先，参与设备从云服务器下载当前最新的该神经网络模型，采用本地存储的训练数据对该模型进行训练，得到本地改进后的该模型；然后将本地改进后的该模型传输给云服务器，在传输时可以采用加密方式传输；最后，云服务器汇总从每个参与设备传输的本地改进后的该模型，采用联邦平均方式进行聚合，得到全局改进的该神经网络模型。上述过程可以循环多次进行，直到云服务器得到的全局改进的该神经网络模型收敛，从而将最后得到的全局改进的该神经网络模型作为训练完成该神经网络模型。

但是，申请人发现，上述采用联邦学习方式进行神经网络模型的训练方法中，在参与设备与云服务器之间下载当前最新的该神经网络模型及后续传输本地改进后的该模型，特别是当参与设备众多时，会频繁跨广域网通信，造成如下严重的问题：

第一，广域网的带宽严重受限且不稳定，就使得通信成为了实现上述训练方法的主要瓶颈，且也会严重减慢训练完成该神经网络模型的速度；

第二，广域网带宽资源的成本较高，且实现上述训练方法需要循环多轮，则需要多轮的广域网全局通信，导致基于广域网部署一个网络构架实现上述训练方法非常昂贵。

发明内容

有鉴于此，本发明实施例提供一种基于联邦学习方式训练神经网络模型的方法，该方法能够在减少跨广域网通信量的前提下，实现基于联邦学习方式训练神经网络模型，提高训练速度及节省成本。

本发明实施例还提供一种基于联邦学习方式训练神经网络模型的系统，该系统能够在减少跨广域网通信量的前提下，实现基于联邦学习方式训练神经网络模型，提高训练速度及节省成本。

本发明是这样实现的：

一种基于联邦学习方式训练神经网络模型的方法，所述方法包括：

a、在训练神经网络模型时，云服务器选取广域网内已有的至少一个局域网；

b、云服务器将当前全局改进的神经网络模型发送给所述局域网，以使所述局域网在局域网内对该神经网络模型进行多个本地参与设备的联邦学习，并聚合为局域网改进的神经网络模型后，传输给云服务器；

c、云服务器将接收到的局域网改进的神经网络模型进行聚合，得到全局改进的神经网络模型。

较佳地，所述云服务器选取广域网内已有的至少一个局域网包括：

云服务器维护关于广域网内已有的局域网所有元信息的数组，所述数组包括每个局域网中的设备信息、设备所属局域网信息及设备接入局域网的信息；

云服务器根据所维护的关于局域网所有元信息的数组，采用随机策略方式选取至少一个所述局域网，包括在所述局域网中的本地聚合设备、本地参与设备及所述局域网中的通信拓扑。

较佳地，所述选取至少一个所述局域网中的通信拓扑还包括：

云服务器根据所维护的所述局域网中的设备之间的通信拓扑，构建聚合通信拓扑，所述聚合通信拓扑能够指导所述局域网中参与联邦学习的设备获得最优的点对点P2P通信带宽。

较佳地，所述方法还包括：

云服务器确认得到的全局改进的神经网络模型是否收敛，如果否，则继续循环执行步骤b及步骤c，直到确认得到的全局改进的神经网络模型收敛，作为训练得到的最终神经网络模型；

所述云服务器选取广域网内已有的至少一个局域网包括：

云服务器针对每个循环轮训练神经网络模型时，所选取的广域网内已有的至少一个局域网不同或相同。

较佳地，所述以使所述局域网在局域网内对该神经网络模型进行多个本地参与设备的联邦学习，并聚合为局域网改进的神经网络模型包括：

所述局域网中包括由云服务器选取的至少一个本地聚合设备及由云服务器选取的多个本地参与设备；

其中，所述本地聚合设备接收到当前全局改进的神经网络模型，发送给所述本地参与设备；

所述本地参与设备将从所述本地聚合设备接收的当前全局改进的神经网络模型，用本地存储的训练数据对该模型进行训练，得到本地改进后的该模型，将本地改进后的该模型传输给所述本地聚合设备；

所述本地聚合设备聚合从所述本地参与设备传输的本地改进后的该模型，得到局域网改进的神经网络模型。

较佳地，所述以使所述局域网在局域网内对该神经网络模型进行多个本地参与设备的联邦学习，并聚合为局域网改进的神经网络模型还包括：

根据云服务器的设置，在局域网内部进行至少一本地循环轮的本地神经网络模型的训练。

一种基于联邦学习方式训练神经网络模型的系统，包括：

云服务器，用于在训练神经网络模型时，选取广域网内已有的至少一个局域网，将当前全局改进的神经网络模型发送给所述局域网；将接收到的局域网改进的神经网络模型进行聚合，得到全局改进的神经网络模型；

局域网，用于在局域网内对当前全局改进的神经网络模型进行多个本地参与设备的联邦学习，并聚合为局域网改进的神经网络模型后，传输给云服务器。

较佳地，还用于维护关于广域网内已有的局域网所有元信息的数组，所述数组包括每个局域网中的设备信息、设备所属局域网信息及设备接入局域网的信息；根据所维护的关于局域网所有元信息的数组，采用随机策略方式选取至少一个所述局域网，包括在所述局域网中的本地聚合设备、本地参与设备及所述局域网中的通信拓扑；

所述云服务器，还用于所述选取至少一个所述局域网中的通信拓扑还包括：根据所维护的所述局域网中的设备之间的通信拓扑，构建聚合通信拓扑，所述聚合通信拓扑能够指导所述局域网中参与联邦学习的设备获得最优的P2P通信带宽。

较佳地，所述云服务器，还用于确认得到的全局改进的神经网络模型是否收敛，如果否，则继续循环执行将当前全局改进的神经网络模型发送给所述局域网的过程，直到确认得到的全局改进的神经网络模型收敛，作为训练得到的最终神经网络模型；

所述云服务器，还用于针对每个循环轮训练神经网络模型时，所选取的广域网内已有的至少一个局域网不同或相同。

较佳地，所述局域网还包括：由所述云服务器选取的至少一个本地聚合设备及由所述云服务器选取的多个本地参与设备；

所述本地聚合设备，用于接收到当前全局改进的神经网络模型，发送给所述本地参与设备；从所述本地参与设备传输的本地改进后的该模型，得到局域网改进的神经网络模型；

所述本地参与设备，用于将从所述本地聚合设备接收的当前全局改进的神经网络模型，用本地存储的训练数据对该模型进行训练，得到本地改进后的该模型，将本地改进后的该模型传输给所述本地聚合设备；

所述云服务器，还用于设置在局域网内部进行至少一本地循环轮的本地神经网络模型的训练；

所述局域网，还用于根据云服务器的设置，在局域网内部进行至少一本地循环轮的本地神经网络模型的训练。

如上所见，本发明实施例在训练神经网络模型时，云服务器选取广域网内已有的至少一个局域网，云服务器将当前神经网络模型发送给所述局域网，由所述局域网在局域网内对该神经网络模型进行多个本地参与设备的联邦学习，并聚合为局域网改进的神经网络模型后，提供给云服务器；云服务器将接收到的局域网改进的神经网络模型进行聚合后，得到全局改进的该神经网络模型。这样，本发明实施例就可以在减少跨广域网通信量的前提下，实现基于联邦学习方式训练神经网络模型，提高训练速度及节省成本。

附图说明

图1为现有技术采用联邦学习方式训练神经网络模型的网络架构图；

图2为本发明实施例提供的基于联邦学习方式训练神经网络模型的方法流程图；

图3为本发明实施例采用联邦学习方式训练神经网络模型的网络架构图；

图4为本发明实施例提供的基于联邦学习方式训练神经网络模型的系统结构示意图；

图5为本发明实施例提供的采用联邦学习方式训练神经网络模型的方法中分阶段的示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

采用背景技术提供的方案实现采用联邦学习方式进行神经网络模型的训练过程中，造成训练速度慢且成本高的原因主要是：需要在参与设备与云服务器之间下载当前最新的该神经网络模型及后续传输本地改进后的该模型，特别当参与设备众多时，会频繁跨广域网通信，而广域网的带宽及资源占用成本会对神经网络模型的训练速度及成本产生限制。

本发明实施例为了解决上述问题，考虑在采用联邦学习方式进行神经网络模型的训练过程中，减少跨广域网通信的通信量，从而节省成本及提高训练速度。针对上述考虑，本发明实施例采用的云服务器在训练神经网络模型时，选取广域网内已有的至少一个局域网，云服务器将当前神经网络模型发送给所述局域网，由所述局域网在局域网内对该神经网络模型进行多个本地参与设备的联邦学习，并聚合为局域网改进的神经网络模型后，提供给云服务器；云服务器将接收到的局域网改进的神经网络模型进行聚合后，得到全局改进的该神经网络模型。

本发明实施例在采用联邦学习方式进行神经网络模型的训练过程中，神经网络模型的联邦学习及局部聚合都是分别在云服务器所选取的广域网内已有的一个或多个局域网完成的，所以通信在局域网内部进行，云服务器仅仅全局聚合局域网改进的神经网络模型即可，所以减少了跨广域网通信量，避免了在训练神经网络模型时广域网的带宽及资源占用成本的限制。这样，就可以在减少跨广域网通信量的前提下，实现基于联邦学习方式训练神经网络模型，提高训练速度及节省成本。

在本发明实施例中，云服务器进行上述过程可以持续一循环轮或多循环轮，在执行每一循环轮时所选取的局域网可以相同或不同。云服务器所选取的局域网内部的局部联邦学习过程可以进行一个或多个循环轮。

图2为本发明实施例提供的基于联邦学习方式训练神经网络模型的方法流程图，其具体步骤包括：

步骤201、在训练神经网络模型时，云服务器选取广域网内已有的至少一个局域网；

步骤202、云服务器将当前全局改进的神经网络模型发送给所述局域网，以使所述局域网在局域网内对该神经网络模型进行多个本地参与设备的联邦学习，并聚合为局域网改进的神经网络模型后，传输给云服务器；

步骤203、云服务器将接收到的局域网改进的神经网络模型进行聚合，得到全局改进的神经网络模型。

在该方法中，所述云服务器选取广域网内已有的至少一个局域网包括：

云服务器维护关于广域网已有的局域网所有元信息的数组，所述数组包括每个局域网中的设备信息、设备所属局域网信息及设备接入局域网的信息；

可以看出，在该方法中，在广域网内具有接入的多个局域网，在每个局域网中都会动态维护多个设备信息，比如进入到该局域网的移动终端信息等。在这种情况下，服务器会维护关于广域网已有的局域网所有元信息的数组，该数组也是动态更新的。云服务器根据该数组采用随机策略方式选取其中的至少一个局域网，在选取后，还根据所维护的所述局域网中的设备之间的通信拓扑，构建聚合通信拓扑，所述聚合通信拓扑能够指导所述局域网中参与联邦学习的设备获得最优的点对点(P2P)通信带宽，以使得在所述局域网对该模型进行训练并局部聚合时，提高速度及减少路径传输损失。

所述方法还包括：

云服务器确认得到的全局改进的神经网络模型是否收敛，如果否，则继续循环执行步骤102～103，直到确认得到的全局改进的神经网络模型收敛，作为训练得到的最终神经网络模型。

云服务器针对每个循环轮训练神经网络模型时，所选取的广域网内已有的至少一个局域网不同或相同。也就是说，由于训练神经网络模型时包括多个循环轮，所以云服务器可以根据局域网的当前状况，使得每个循环轮所选择的局域网相同或不同。

在该方法中，所述以使所述局域网在局域网内对该神经网络模型进行多个本地参与设备的联邦学习，并聚合为局域网改进的神经网络模型包括：

所述局域网中由云服务器选取的至少一个本地聚合设备及由服务器选取的多个本地参与设备；

具体地说，所述局域网中的本地聚合设备及多个本地参与设备是由云服务器选取的。在一个局域网中，可以仅仅只有一个本地聚合设备，将所有接收到的不同本地参与设备训练得到的本地改进后的该模型提供给本地聚合设备进行本地聚合。当然，在一个局域网中，也可以包括多个本地聚合设备，多个本地聚合设备分别进行不同本地参与设备训练得到的本地改进后的该模型进行局部本地聚合后，再将局部聚合有其中一个本地聚合设备进行总局本地聚合，得到最终的局域网改进的神经网络模型。本地聚合设备进行局部本地聚合的过程及总局本地聚合的过程，可以根据需求由云服务器在局域网内设置，这里不限定。

在一种情况下，一个局域网网的本地参与设备可以形成一个环状结构，每个本地参与设备也可以是本地聚合设备，一个本地参与设备在完成完本地训练后，按照环状路径，传输给下一个本地参与设备，由下一个本地参与设备将在自身训练的与接收的本地改进后的该模型进行聚合后，再发送给下一个本地参与设备，这个过程持续进行，直到一个循环轮或多个循环轮循环完为止，得到局域网改进的神经网络模型。

在该方法中，所述以使所述局域网在局域网内对该神经网络模型进行多个本地参与设备的联邦学习，并聚合为局域网改进的神经网络模型还包括：

如图3所示，图3为本发明实施例采用联邦学习方式训练神经网络模型的网络架构图。可以看出，本发明实施例通过云服务器设置局域网实现了训练的神经网络模型在局域网内的提前局域网内的本地聚合，在此过程中，云服务器可以预先感知局域网信息并据此选择局域网，使得所述局域网具有高效的聚合通信拓扑，云服务器中还设置局域网内的本地参与设备动态选择算法，以确定局域网中的本地参与设备，从而可以缓解跨局域网带宽异构性对整个训练人工神经网络的训练过程的影响。

图4为本发明实施例提供的基于联邦学习方式训练神经网络模型的系统结构示意图，所述系统包括：

在该系统中，所述云服务器，还用于维护关于广域网内已有的局域网所有元信息的数组，所述数组包括每个局域网中的设备信息、设备所属局域网信息及设备接入局域网的信息；根据所维护的关于局域网所有元信息的数组，采用随机策略方式选取至少一个所述局域网，包括在所述局域网中的本地聚合设备、本地参与设备及所述局域网中的通信拓扑。

在这种情况下，所述云服务器，还用于所述选取至少一个所述局域网中的通信拓扑还包括：根据所维护的所述局域网中的设备之间的通信拓扑，构建聚合通信拓扑，所述聚合通信拓扑能够指导所述局域网中参与联邦学习的设备获得最优的P2P通信带宽。

在该系统中，云服务器，还用于确认得到的全局改进的神经网络模型是否收敛，如果否，则继续循环执行将当前全局改进的神经网络模型发送给所述局域网的过程，直到确认得到的全局改进的神经网络模型收敛，作为训练得到的最终神经网络模型。

在该系统中，云服务器，还用于针对每个循环轮训练神经网络模型时，所选取的广域网内已有的至少一个局域网不同或相同。

在该系统中，所述局域网还包括：由所述云服务器选取的至少一个本地聚合设备及由所述云服务器选取的多个本地参与设备；

所述本地参与设备，用于将从所述本地聚合设备接收的当前全局改进的神经网络模型，用本地存储的训练数据对该模型进行训练，得到本地改进后的该模型，将本地改进后的该模型传输给所述本地聚合设备。

在该系统中，所述云服务器，还用于设置在局域网内部进行至少一本地循环轮的本地神经网络模型的训练；

以下对本发明实施例进行详细叙述。

图5为本发明实施例提供的采用联邦学习方式训练神经网络模型的方法中分阶段的示意图。本发明实施例提供的系统为了实现对神经网络模型的训练，具体包括如图5所示的阶段：对系统进行初始化阶段、云服务器执行动态选择策略阶段、局域网感知的本地更新阶段及云服务器的全局聚合阶段，以下分别进行详细说明。

对系统进行初始化阶段

首先，云服务器针对某个联邦学习任务随机初始化一个神经网络模型，该模型由云服务器和参与联邦学习训练的设备共同训练。

其次，云服务器维护一个关于广域网内已有的局域网所有元信息的数组，这个数组存储着每个局域网的设备信息、设备所属的局域网信息及该设备的接入信息。每个设备会按照其所属的局域网编制成到局域网中，云服务器据此调度局域网中的设备在本地进行训练和在局域网内聚合。与此同时，云服务器基于每个设备在局域网中的接入信息构建局域网聚合通信拓扑，这个拓扑能够指导局域网中参与联邦学习的设备获得最优的P2P通信带宽。

最后，云服务器为每个设备设置本地训练神经网络模型的训练参数，比如彼此数据量(batch size)、本地epochs及学习率(learning rate)等。

云服务器执行动态选择策略阶段

首先，为了不引入额外的模型偏差，云服务器采用随机策略选择局域网及设备加入到所选择的局域网中。在每循环轮训练神经网络模型时，云服务器基于所维护的局域网信息采用随机策略选择本训练轮采用的局域网。

其次，在选择完局域网后，基于局域网的带宽容量，云服务器决策在局域网内选择加入联邦学习的设备数量，这个过程也是随机从局域网内的设备中选择的。

最后，云服务器发送本地训练神经网络模型的训练参数到所选择的设备上，每个选中的局域网内进行多设备的并发训练。

局域网感知的本地更新阶段

首先，局域网内的本地参与设备在接收到当前全局改进的神经网络模型时，就可以采用本地数据，根据本地训练神经网络模型的训练参数对该模型进行训练。

其次，根据云服务网构建的局域网聚合通信拓扑，局域网内的本地参与设备将本地改进后的该模型发送给局域网内的本地聚合设备，本地聚合设备采用联邦平均的方法聚合本地改进后的该模型，得到局域网改进的神经网络模型；

最后，根据云服务器指定的本地聚合论述，由局域网内的本地聚合设备决定将得到局域网改进的神经网络模型传输给云服务器进行全局聚合，还是进行本地再次聚合处理。

云服务器的全局聚合阶段

云服务器根据收到的局域网改进的神经网络模型，采用联邦平均方式进行聚合后，进行下一循环轮的全局聚合或者结束。

云服务器在本循环轮的神经网络模型训练完成后，更新所维护的关于局域网所有元信息的数组，由此决策下循环轮的神经网络模型训练相关的训练参数。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于联邦学习方式训练神经网络模型的方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述云服务器选取广域网内已有的至少一个局域网包括：

3.如权利要求2所述的方法，其特征在于，所述选取至少一个所述局域网中的通信拓扑还包括：

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

所述云服务器选取广域网内已有的至少一个局域网包括：

5.如权利要求1所述的方法，其特征在于，所述以使所述局域网在局域网内对该神经网络模型进行多个本地参与设备的联邦学习，并聚合为局域网改进的神经网络模型包括：

6.如权利要求1或4所述的方法，其特征在于，所述以使所述局域网在局域网内对该神经网络模型进行多个本地参与设备的联邦学习，并聚合为局域网改进的神经网络模型还包括：

7.一种基于联邦学习方式训练神经网络模型的系统，其特征在于，包括：

8.如权利要求7所述的系统，其特征在于，所述云服务器，还用于维护关于广域网内已有的局域网所有元信息的数组，所述数组包括每个局域网中的设备信息、设备所属局域网信息及设备接入局域网的信息；根据所维护的关于局域网所有元信息的数组，采用随机策略方式选取至少一个所述局域网，包括在所述局域网中的本地聚合设备、本地参与设备及所述局域网中的通信拓扑；

9.如权利要求7所述的系统，其特征在于，所述云服务器，还用于确认得到的全局改进的神经网络模型是否收敛，如果否，则继续循环执行将当前全局改进的神经网络模型发送给所述局域网的过程，直到确认得到的全局改进的神经网络模型收敛，作为训练得到的最终神经网络模型；

10.如权利要求7所述的系统，其特征在于，所述局域网还包括：由所述云服务器选取的至少一个本地聚合设备及由所述云服务器选取的多个本地参与设备；