CN113537495A

CN113537495A - 基于联邦学习的模型训练系统、方法、装置和计算机设备

Info

Publication number: CN113537495A
Application number: CN202110897078.8A
Authority: CN
Inventors: 郑楷洪; 李鹏; 周尚礼; 李胜; 曾璐琨; 龚起航
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-10-22

Abstract

本申请涉及一种基于联邦学习的模型训练系统、方法、装置、计算机设备和存储介质，包括：模型训练节点，用于根据预设参数构建得到神经网络模型，对神经网络模型进行训练，得到训练完成的神经网络模型；参数传输节点，用于获取各个训练完成的神经网络模型的模型参数，根据模型参数生成哈希值，并将哈希值返回至模型训练节点；参数存储节点，用于从多个模型训练节点获取包含有哈希值的模型参数，根据多个包含有哈希值的模型参数对预设参数进行更新，得到更新后的预设参数；将更新后的预设参数通过参数传输节点，发送到各个模型训练节点，以对神经网络模型进行再次训练。本申请提高了基于联邦学习的模型训练效率。

Description

基于联邦学习的模型训练系统、方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于联邦学习的模型训练系统、方法、装置、计算机设备和存储介质。

背景技术

机构内部多部门联合建模与跨机构数据合作时，内部数据通常由各个子公司的采集点采集并存储在子公司下属的计量中心，这些数据本身具有较高的挖掘价值，可用于解决诸多实际问题。由于数据分布式地存储在各个子公司本地，在传统模式下为解决上述问题，数据中心需从下属各个子公司收集数据并存储至数据中心本地，而后进行训练建模。然而这种模式存在诸多问题，如数据传输存储成本问题、数据隐私问题等。

在目前使用较为广泛的联邦学习框架中，大多都采用中心式的结构，即存在一个中央服务器的角色起到训练调度与参数收集存储的作用。然而这样的结构由于依赖单一节点稳定性较差，中央服务器出现的故障会影响全局训练进度甚至导致参数丢失等问题；另一方面，当参数集中存储在中央服务器时，参与方下载参数并更新的过程有可能因中央服务器的网络带宽而产生瓶颈。因此，现有的基于联邦学习的模型训练效率还较低。

发明内容

基于此，有必要针对上述技术问题，提供一种基于联邦学习的模型训练系统、方法、装置、计算机设备和存储介质。

一种基于联邦学习的模型训练系统，包括：多个模型训练节点、参数传输节点以及参数存储节点；所述多个模型训练节点与所述参数传输节点及所述参数存储节点通信连接；

所述模型训练节点，用于根据预设参数构建得到神经网络模型，对所述神经网络模型进行训练，得到训练完成的神经网络模型；

所述参数传输节点，用于获取各个所述训练完成的神经网络模型的模型参数，根据所述模型参数生成哈希值，并将所述哈希值返回至所述模型训练节点；

所述参数存储节点，用于从多个所述模型训练节点获取包含有哈希值的模型参数，根据多个包含有哈希值的模型参数对所述预设参数进行更新，得到更新后的预设参数；将所述更新后的预设参数通过所述参数传输节点，发送到各个所述模型训练节点，以对所述神经网络模型进行再次训练。

在其中一个实施例中，所述模型训练节点，还用于向所述参数存储节点发送智能合约注册信息；所述参数存储节点用于根据所述智能合约注册信息，对是否接收所述包含有哈希值的模型参数作出判断。

在其中一个实施例中，所述模型训练节点，还用于对所述神经网络模型进行训练，直到训练次数达到预设轮次后，将训练后的神经网络模型作为所述训练完成的神经网络模型。

在其中一个实施例中，所述参数传输节点，还用于从所述多个模型训练节点中，识别出满足聚合调度条件的模型训练节点作为聚合节点；所述聚合节点用于从所述参数存储节点中获取多个所述包含有哈希值的模型参数进行聚合处理，以得到所述更新后的预设参数。

在其中一个实施例中，所述参数传输节点基于IPFS网络构建。

在其中一个实施例中，所述参数存储节点基于以太坊私有链网络构建。

一种基于联邦学习的模型训练方法，所述方法包括：

根据预设参数构建得到神经网络模型，对所述神经网络模型进行训练，得到训练完成的神经网络模型；

获取各个所述训练完成的神经网络模型的模型参数，根据所述模型参数生成哈希值，根据多个包含有哈希值的模型参数对所述预设参数进行更新，得到更新后的预设参数；

将所述更新后的预设参数发送到各个所述模型训练节点，以对所述神经网络模型进行再次训练。

一种基于联邦学习的模型训练装置，所述装置包括：

模型构建模块，用于根据预设参数构建得到神经网络模型，对所述神经网络模型进行训练，得到训练完成的神经网络模型；

参数更新模块，用于获取各个所述训练完成的神经网络模型的模型参数，根据所述模型参数生成哈希值，根据多个包含有哈希值的模型参数对所述预设参数进行更新，得到更新后的预设参数；

模型训练模块，用于将所述更新后的预设参数发送到各个所述模型训练节点，以对所述神经网络模型进行再次训练。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于联邦学习的模型训练系统、方法、装置、计算机设备和存储介质，包括：多个模型训练节点、参数传输节点以及参数存储节点；多个模型训练节点与参数传输节点及参数存储节点通信连接；模型训练节点，用于根据预设参数构建得到神经网络模型，对神经网络模型进行训练，得到训练完成的神经网络模型；参数传输节点，用于获取各个训练完成的神经网络模型的模型参数，根据模型参数生成哈希值，并将哈希值返回至模型训练节点；参数存储节点，用于从多个模型训练节点获取包含有哈希值的模型参数，根据多个包含有哈希值的模型参数对预设参数进行更新，得到更新后的预设参数；将更新后的预设参数通过参数传输节点，发送到各个模型训练节点，以对神经网络模型进行再次训练。本申请通过多个模型节点分别部署构建相应的神经网络模型并同时进行训练，将训练后得到的参数信息统一发送至参数存储节点进行聚合，实现对预设参数的更新；更新后的预设参数能够对模型训练节点中的神经网络模型再次训练，各个模型训练节点的训练过程同步，提高了基于联邦学习的模型训练效率。

附图说明

图1为一个实施例中基于联邦学习的模型训练系统的结构示意图；

图2为一个实施例中基于联邦学习的模型训练系统的具体结构图；

图3为一个实施例中基于联邦学习的模型训练方法的流程示意图；

图4为一个实施例中模型训练节点故障处理的示意图；

图5为一个实施例中聚合节点故障处理的示意图；

图6为一个实施例中基于联邦学习的模型训练装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于联邦学习的模型训练系统，其结构示意图如图1所示。该系统包括参数传输节点11、参数存储节点12以及多个模型训练节点13。其中，多个模型训练节点13与参数传输节点11及参数存储节点12通信连接。模型训练节点13，用于根据预设参数构建得到神经网络模型，对神经网络模型进行训练，得到训练完成的神经网络模型；参数传输节点11，用于获取各个训练完成的神经网络模型的模型参数，根据模型参数生成哈希值，并将哈希值返回至模型训练节点13；参数存储节点12，用于从多个模型训练节点13获取包含有哈希值的模型参数，根据多个包含有哈希值的模型参数对预设参数进行更新，得到更新后的预设参数；将更新后的预设参数通过参数传输节点11，发送到各个模型训练节点13，以对神经网络模型进行再次训练。

其中，参数传输节点11、参数存储节点12可以用独立的服务器或者是多个服务器组成的服务器集群来实现；模型训练节点13可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，或者以独立的服务器或者是多个服务器组成的服务器集群来实现。

其中，多个模型训练节点其内部配置有Pytorch用于模型的训练。同时，每个模型训练节点都会运行参数传输节点进程和参数存储节点进程，上述进程分别维护一个参数传输节点和一个参数存储节点。

参数传输节点可以是IPFS网络，即参数传输节点已通过设置私钥完成私有化，仅允许模型训练节点上传或访问其中的内容，保证了基于联邦学习的模型训练过程中参数不会被未被允许的模型训练节点访问。

参数存储节点可以是基于以太坊搭建的私有链部署了基于IPFS和区块链的联邦学习框架相关的智能合约，承担参数文件的存取工作，同时通过智能合约上的调度策略对每一轮参与的模型训练节点进行选择与通知。

例如，模型训练节点分别通过IPFS Http Client和Web3pyHttpProvider与对应的一个参数传输节点和一个参数存储节点进行交互，以实现基于联邦学习的模型训练过程中的全局参数通讯。

具体地，基于联邦学习的模型训练系统在进入训练流程前需要初始化；在该阶段，各模型训练节点将对本次训练的模型与具体结构及超参数等信息达成共识，保证各模型训练节点中的神经网络模型同构，以方便进行后续的参数聚合。同时各模型训练节点需调用参数存储节点的智能合约注册模型训练节点信息，以便智能合约在后续收集参数的过程中确认是否接收。

根据确定好的模型、具体结构及超参数等的预设参数构建得到神经网络模型后，各个模型训练节点在本地利用自身的数据，根据约定好的模型进行本地训练，在完成迭代设定约定的训练轮次后，得到训练完成的神经网络模型。

参数传输节点是由各个模型训练节点组成的私有IPFS网络；各个模型训练节点可以使用本地IPFS阶段对应的Http Client将参数上传至参数传输节点；参数传输节点获取各个训练完成的神经网络模型的模型参数后，生成相应的Hash(哈希)值返回至模型训练节点。

模型训练节点在收到参数传输节点返回的Hash值后，调用智能合约中的update方法，将文件Hash值、自身样本数量信息以及全局聚合轮次等信息共同打包作为参数通过智能合约完成上链，在参数存储节点进行存储；参数存储节点调用dispatcher方法对各个模型训练节点进行调度判断，如当前模型训练节点满足成为调度方的条件，则触发dispatch事件告知；模型训练节点在收到事件后，调用合约dispatch_confirm确认担任聚合方，负责本轮聚合；聚合的顺序在上述初始化即确定好。负责本轮聚合的模型训练节点首先从参数存储节点的区块链中读取本轮次其他模型训练节点上传的IPFS文件哈希值，而后通过参数传输节点拉取相应参数文件。收集完成后在本地运行FedAvg算法，实现对预设参数进行更新的过程，得到更新后的预设参数。

各个负责本轮聚合的模型训练节点，将更新后的预设参数上传至参数传输节点，参数传输节点生成相应的哈希值并返回负责本轮聚合的模型训练节点；负责本轮聚合的模型训练节点将哈希值保存至参数存储节点；参数存储节点通过new_global事件告知各个模型训练节点，各个模型训练节点收到时间后可以通过参数传输节点下载更新后的预设参数，再次更新训练完成的神经网络模型。

上述基于联邦学习的模型训练系统，通过多个模型节点分别部署构建相应的神经网络模型并同时进行训练，将训练后得到的参数信息统一发送至参数存储节点进行聚合，实现对预设参数的更新；更新后的预设参数能够对模型训练节点中的神经网络模型再次训练，各个模型训练节点的训练过程同步，提高了基于联邦学习的模型训练效率。

在一个实施例中，如图2所示，提供了另一种基于联邦学习的模型训练系统的具体结构图，该框架包括以下部分：

模型训练节点，其内部配置有Pytorch用于模型的训练。同时，每个模型训练节点都会运行IPFS进程和以太坊进程，上述进程分别维护一个IPFS节点和一个以太坊区块链节点。模型训练节点分别通过内部的IPFS Http Client和Web3pyHttpProvider与对应的IPFS私有网络(参数传输节点)和以太坊私有链(参数存储节点)进行交互，以实现联邦学习过程中的全局参数通讯。IPFS Daemon用于同步节点数据到IPFS网络；Ethereum为以太坊。Web3py是一个与以太坊交互的python三方库。

参数传输节点中包含有IPLD、IPNS以及Libp2p；IPLD是内容可寻址web的数据模型，IPNS是IPFS的域名系统；Libp2p是一个模块化的网络栈，通过将各种传输和P2P协议结合在一起，使得开发人员很容易构建大型、健壮的P2P网络。

参数存储节点是由以太坊搭建的私有链部署了基于联邦学习的模型训练相关的智能合约，承担参数文件Hash的存取工作。

在一个实施例中，如图3所示，提供了一种基于联邦学习的模型训练方法，包括以下步骤：

步骤31，根据预设参数构建得到神经网络模型，对神经网络模型进行训练，得到训练完成的神经网络模型。

步骤32，获取各个训练完成的神经网络模型的模型参数，根据模型参数生成哈希值，根据多个包含有哈希值的模型参数对预设参数进行更新，得到更新后的预设参数。

步骤33，将更新后的预设参数发送到各个模型训练节点，以对神经网络模型进行再次训练。

上述实施例，通过构建相应的神经网络模型并同时进行训练，将训练后得到的参数信息统一进行聚合，实现对预设参数的更新；更新后的预设参数能够对神经网络模型再次训练，各个模型训练节点的训练过程同步，提高了基于联邦学习的模型训练效率。

在一个实施例中，如图4所示，提供了一种模型训练节点故障处理的示意图(其中，参与方即为上述任一实施例中的模型训练节点，区块链即为上述任一实施例中的参数存储节点)，其假设模型训练节点在对神经网络模型训练过程中发生故障的场景，包括：

设置超参数θ，用于表示单轮联邦学习的本地训练用时的经验最大值；模型训练节点故障的处理，采取超时则忽略的方式应对，即聚合节点在该轮次进行θ时间后开始参数的聚合工作，在θ时间后上链的本地更新将被丢弃同时在区块链上进行迟到记录，不纳入本轮次的计算，在全局训练完成后可根据迟到情况对基于联邦学习的模型训练系统的模型训练节点进行调整，如将迟到过多的消极模型训练节点移除，或针对性地对该模型训练节点进行性能优化，以使其对齐全局学习进度。

在一个实施例中，如图5所示，提供了一种聚合节点故障处理的示意图(其中，参与方即为上述任一实施例中的模型训练节点，区块链即为上述任一实施例中的参数存储节点)，其假设场景为：在T轮次，模型训练节点B作为聚合节点，但中途发生故障：

设置超参数γ，用于表示聚合用时的经验最大值；聚合节点发生故障，假设该轮次已完成聚合并更新，即假设当前各模型训练节点的神经网络模型即为更新后的全局神经网络模型，并基于该全局神经网络模型进行下一轮训练，再传递参数。故障恢复时，可通过查询参数存储节点的区块链中最新更新参数的信息，以了解当前轮次信息，以及轮次对应的聚合节点，完成信息同步，进而重新加入到基于联邦学习的模型训练系过程中。

应该理解的是，虽然图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种基于联邦学习的模型训练装置，包括：模型构建模块61、参数更新模块62和模型训练模块63，其中：

模型构建模块61，用于根据预设参数构建得到神经网络模型，对神经网络模型进行训练，得到训练完成的神经网络模型；

参数更新模块62，用于获取各个训练完成的神经网络模型的模型参数，根据模型参数生成哈希值，根据多个包含有哈希值的模型参数对预设参数进行更新，得到更新后的预设参数；

模型训练模块63，用于将更新后的预设参数发送到各个模型训练节点，以对神经网络模型进行再次训练。

关于基于联邦学习的模型训练装置的具体限定可以参见上文中对于基于联邦学习的模型训练方法的限定，在此不再赘述。上述基于联邦学习的模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于联邦学习的模型训练数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于联邦学习的模型训练方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

根据预设参数构建得到神经网络模型，对神经网络模型进行训练，得到训练完成的神经网络模型；

获取各个训练完成的神经网络模型的模型参数，根据模型参数生成哈希值，根据多个包含有哈希值的模型参数对预设参数进行更新，得到更新后的预设参数；

将更新后的预设参数发送到各个模型训练节点，以对神经网络模型进行再次训练。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上各个实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于联邦学习的模型训练系统，其特征在于，包括：多个模型训练节点、参数传输节点以及参数存储节点；所述多个模型训练节点与所述参数传输节点及所述参数存储节点通信连接；

2.根据权利要求1所述的方法，其特征在于，所述模型训练节点，还用于向所述参数存储节点发送智能合约注册信息；所述参数存储节点用于根据所述智能合约注册信息，对是否接收所述包含有哈希值的模型参数作出判断。

3.根据权利要求1所述的方法，其特征在于，所述模型训练节点，还用于对所述神经网络模型进行训练，直到训练次数达到预设轮次后，将训练后的神经网络模型作为所述训练完成的神经网络模型。

4.根据权利要求1所述的方法，其特征在于，所述参数传输节点，还用于从所述多个模型训练节点中，识别出满足聚合调度条件的模型训练节点作为聚合节点；所述聚合节点用于从所述参数存储节点中获取多个所述包含有哈希值的模型参数进行聚合处理，以得到所述更新后的预设参数。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述参数传输节点基于IPFS网络构建。

6.根据权利要求1至4任意一项所述的方法，其特征在于，所述参数存储节点基于以太坊私有链网络构建。

7.一种基于联邦学习的模型训练方法，其特征在于，所述方法包括：

8.一种基于联邦学习的模型训练装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求7所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利7所述的方法的步骤。