CN113112029A - 一种应用于异构计算设备的联邦学习系统和方法 - Google Patents

一种应用于异构计算设备的联邦学习系统和方法 Download PDF

Info

Publication number
CN113112029A
CN113112029A CN202110435786.XA CN202110435786A CN113112029A CN 113112029 A CN113112029 A CN 113112029A CN 202110435786 A CN202110435786 A CN 202110435786A CN 113112029 A CN113112029 A CN 113112029A
Authority
CN
China
Prior art keywords
federal learning
federal
learning
control platform
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110435786.XA
Other languages
English (en)
Other versions
CN113112029B (zh
Inventor
蒋鑫龙
王健
陈益强
马兴敏
张腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202110435786.XA priority Critical patent/CN113112029B/zh
Publication of CN113112029A publication Critical patent/CN113112029A/zh
Application granted granted Critical
Publication of CN113112029B publication Critical patent/CN113112029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种应用于异构计算设备的联邦学习系统和方法,所述系统包括联邦学习管控平台以及多个联邦学习参与方计算设备,其中,在所述联邦学习管控平台和联邦学习参与方计算设备上部署联邦学习应用模块。本发明使各联邦学习参与方可以在使用异构计算设备的情况下,通过注册审批的形式加入联邦,在管控平台的调度下,使用适配于异构计算设备的通用联邦学习应用模块执行联邦学习建模任务及预测任务,使得有意愿加入联邦的参与方在能满足基本需求的情况下灵活、按需选择计算设备,并且降低部署和运维难度。

Description

一种应用于异构计算设备的联邦学习系统和方法
技术领域
本发明涉及计算机技术领域,具体涉及机器学习领域,更具体涉及一种应用于异构计算设备的联邦学习系统和方法。
背景技术
机器学习在人工智能应用领域中迅猛发展,例如计算机视觉、自然语言处理及推荐系统等。这些机器学习技术的成功应用,都是建立在大量数据的基础之上的。然而在实际应用场景中,能够得到的数据往往数据规模较小或是需要行业专家的标注,因此,高质量且大数量的训练数据很难获得。人们在使用一个服务时,所产生的数据将被收集并传输到一个中心点,这个中心点有着能够使用这些大量数据训练机器学习模型的计算集群。然而,随着人工智能应用在各行各业中不断落地,人们对于用户隐私和数据安全的关注度在不断提高,在诸如金融、医疗等一些对用户数据隐私尤为重视的行业领域更是如此。
联邦学习(Federated Learning)用于解决用户隐私和数据安全问题,其旨在建立一个基于分布数据集的联邦学习模型,它被设计为不需要直接数据交换或收集的形式,且允许若干参与方协同训练一个机器学习模型,在保护了用户隐私和数据安全的同时,还能使各方都得到一个比自己训练更好的模型。中国专利申请公开CN110598870A提出了一种典型的横向联邦学习建模流程。
联邦学习基于机器学习模型,其训练及应用依赖大量的数据及复杂度较高的模型,其中所涉及的加密计算也比较复杂,中间计算结果数据量庞大,要求计算系统具有较强的计算能力。联邦学习各参与方的数据量有所不同,且需求的模型复杂度不同,导致所需计算能力不同,因此通常采用不同架构和配置的计算设备,要求联邦学习系统可应用于不同系统架构的计算设备,即异构计算设备,例如,CPU为X86架构的服务器、X86CPU+GPU的服务器、X86 CPU+FPGA的服务器、X86 CPU+GPU+FPGA的服务器、CPU为ARM架构的低功耗边缘计算机、ARM CPU+GPU的低功耗边缘计算机、ARM CPU+GPU+FPGA的低功耗边缘计算机等。
异构计算一般是指在异构计算系统上进行的并行计算。按照以何种形式提供计算类型来分类,可分为系统异构计算和网络异构计算两大类。系统异构计算是以单机多处理器的形式提供多种计算类型,网络异构计算则是以网络连接的多计算机形式提供多种计算类型。中国专利申请公开CN111831330A、CN111813526A、CN112000598A涉及的是系统异构计算,其通过主处理设备和从处理设备,实现用于联邦学习的异构计算设备交互,并结合高速接口模块和DMA控制器实现任务的调配和并行计算。
发明内容
基于本发明的一个方面,提供一种基于网络异构计算的联邦学习系统,以解决联邦学习参与方可以在使用异构计算设备的情况下,通过网络执行联邦学习建模任务及预测任务的问题。
一种应用于异构计算设备的联邦学习系统,包括联邦学习管控平台以及多个联邦学习参与方计算设备,其中,在所述联邦学习管控平台和联邦学习参与方计算设备上部署联邦学习应用模块;
所述联邦学习管控平台与联邦学习参与方计算设备基于虚拟内部网络连接;
所述管控平台用于根据联邦学习参与方提交的联邦学习任务流程定义表单和联邦参数定义表单生成联邦学习任务;所述联邦学习任务流程定义表单基于联邦学习算子定义了联邦学习模型和数据流向;所述联邦学习算子是联邦学习任务的子任务;所述联邦参数定义表单定义了联邦学习算子的输入和输出参数;所述管控平台包括容器镜像仓库,用于存储联邦学习应用模块的基于异构计算设备的容器镜像;
所述联邦学习参与方计算设备包含异构计算设备;
所述联邦学习应用模块基于容器方式部署在所述联邦学习管控平台和联邦学习参与方计算设备,所述联邦学习应用模块包括适配异构计算设备模块以及联邦学习算法模块,所述适配异构计算设备模块基于程序调用接口适配层,对涉及异构计算元件调用的接口进行统一适配;所述联邦学习算法模块根据联邦学习算子定义的联邦学习模型和数据流向运行计算逻辑,并基于同态加密方法在联邦学习参与方和联邦学习管控平台之间传递加密的模型参数。
优选的,所述异构计算设备包括X86 CPU、FPGA、GPU、ARM CPU中的至少一种。
优选的,所述管控平台基于联邦平均方法聚合各参与方加密的模型参数。
优选的,所述联邦学习管控平台包括:
管控平台WEB端模块,用于通过网络浏览器以交互式界面操作管控平台;
管控平台服务端模块,用于联邦参与方管理、联邦学习任务管理、联邦学习模型管理、联邦学习预测服务管理;
用户鉴权模块,用于用户登录以及资源权限控制;
平台网络调用接口模块,用于提供联邦学习参与方注册以及发起联邦任务请求的网络调用接口。
优选的,所述联邦学习应用模块包括内存分布式计算模块,用于处理联邦学习过程中涉及的数值计算;以及接口调用模块,用于提供用户调用发起联邦训练、发起联邦预测的网络调用接口。
本发明提供一种基于上述系统的联邦学习参与方注册方法,包括:
步骤R1,联邦学习参与方根据其计算设备架构从容器镜像仓库拉取相应的容器镜像进行部署;
步骤R2,联邦学习参与方调用联邦学习管控平台的参与方注册网络接口请求加入联邦;
步骤R3,联邦学习管控平台根据联邦学习参与方的请求进行审核。
本发明提供一种基于上述系统的联邦学习模型训练方法,包括:
步骤T1,联邦学习参与方获取用于模型训练的数据;
步骤T2,由一个联邦学习参与方提交联邦学习任务申请,以及联邦学习任务流程定义表单数据和联邦参数定义表单数据;
步骤T3,联邦学习管控平台根据联邦学习任务流程定义表单数据和联邦参数定义表单数据通知各参与方启动迭代训练,并聚合各参与方加密的模型参数,将聚合的加密模型参数发给每个参与方继续迭代训练。
本发明提供一种基于上述系统的联邦学习模型预测方法,包括:
步骤P1,联邦学习参与方获取用于模型预测的数据;
步骤P2,联邦学习参与方通过联邦学习管控平台的发起联邦预测的网络调用接口请求调用模型预测服务,以及指定联邦学习模型并提供用于预测的数据,所指定的联邦学习模型是所述联邦学习参与方参与训练的联邦学习模型;
步骤P3,联邦学习管控平台根据联邦学习参与方的请求,调用联邦学习参与方计算设备上的本地模型进行预测。
一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述方法的步骤。
一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法的步骤。
本发明具有如下特点和有益效果:相比于现有技术,本发明使各联邦学习参与方可以在使用异构计算设备的情况下,通过注册审批的形式加入联邦,在管控平台的调度下,使用适配于异构计算设备的通用联邦学习应用模块执行联邦学习建模任务及预测任务,使得有意愿加入联邦的参与方在能满足基本需求的情况下灵活、按需选择计算设备,并且降低部署和运维难度。
附图说明
图1示出了根据本发明一个实施例的联邦学习模型训练过程。
图2示出了根据本发明一个实施例的部署于异构设备的联邦学习应用模块。
图3示出了根据本发明一个实施例的容器镜像构建过程。
图4示出了根据本发明一个实施例的联邦学习管控平台的部署环境。
图5示出了根据本发明一个实施例的容器管理编排及内部网络。
具体实施方式
下面结合附图和具体实施例对本发明加以说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明的主要目的是使联邦学习参与方可以使用异构计算设备,通过网络执行联邦学习建模任务及预测任务,使得联邦学习参与方在能满足基本需求的情况下灵活按需选择计算设备,并且降低部署和运维难度。
根据本发明的一个实施例,本发明提供一种联邦学习系统,如图1所示,包括联邦学习管控平台101和多个联邦学习参与方计算设备,联邦学习管控平台与联邦学习参与方计算设备基于虚拟内部网络连接。在训练过程中,联邦学习参与方计算设备中的一个作为任务发起方,其他设备作为协同计算方。图1中包括一个任务发起方102和一个协同计算方103,两者都是联邦学习参与方计算设备。图1中,在管控平台101、任务发起方102以及协同计算方103的计算设备上都部署了联邦学习应用模块。
下面结合具体实施例说明本发明的联邦学习系统的构成。
联邦学习参与方的计算设备通常为具有较强计算能力的智能设备以支撑在设备上训练模型的需求,通常包含CPU、存储器等计算机通用元件,其中CPU通常分为X86和ARM等架构,存储器通常包含内存及硬盘等。依照所需算力的不同,参与联邦学习的计算设备可以按需配备GPU、FPGA等高性能运算控件。根据本发明的一个实施例,这些异构计算设备包括:CPU为X86架构的服务器、X86 CPU+GPU的服务器、X86 CPU+FPGA的服务器、X86 CPU+GPU+FPGA的服务器CPU为ARM架构的低功耗边缘计算机、ARM CPU+GPU的低功耗边缘计算机、ARMCPU+GPU+FPGA的低功耗边缘计算机。
为了支持联邦学习参与方的异构设备,本发明提供一种联邦学习应用模块,该模块既要部署于联邦学习参与方的异构设备,也要部署于联邦学习管控平台。根据本发明的一个实施例,如图2所示,所述联邦学习应用模块包含四个模块:
1.内存分布式计算模块,其应用mmap文件映射技术实现数据读写功能,将一个文件或对象映射到进程的地址空间,实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一映射关系,结合文件分片存储及id标识数据样本实现内存分布式计算功能,用来处理联邦学习过程中涉及的数值计算;
2.适配异构计算设备模块。本发明要适配异构计算设备并减小部署难度,通用联邦学习应用模块应尽可能保持在各异构计算设备上接口调用层面上的一致性,该适配异构计算设备模块采用添加程序调用接口适配层的方式,对涉及异构计算元件调用的接口进行统一适配,如调用矩阵乘法数值计算方法时,统一调用所述接口适配层中名为multiply(A,B)的函数方法,而程序根据系统环境分别调用CPU、GPU或FPGA运算元件相对应的multiply函数方法的具体实现;
3.联邦学习算法模块。根据本发明的一个实施例,其包括且不限于以联邦学习方式实现的数据读取类算子、数据预处理类算子、特征工程类算子、机器学习模型训练类算子、深度学习模型训练类算子和模型评估类算子的计算逻辑,以及联邦学习过程中应用的同态加密等加密方法,执行联邦学习过程时,各参与方将依照管控平台解析出来的联邦学习算子及算子间数据和模型的流向依次运行本模块中算子的计算逻辑,并使用本模块中的加密方法与管控平台间传递加密的模型参数;上面提及的同态加密(HomomorphicEncryption),是基于数学难题的计算复杂性理论的密码学技术。对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。具有同态性质的加密函数是指两个明文a、b满足Dec(En(a)⊙En(b))=a⊕b的加密函数,其中En是加密运算,Dec是解密运算,⊙、⊕分别对应明文和密文域上的运算。
4.接口调用模块,该模块一方面提供用于用户调用的数据接入、发起联邦训练、发起联邦预测等网络调用接口,另一方面向管控平台暴露加密模型参数传递和接收的网络调用接口。
联邦学习应用模块采用了以上设计结构后,从功能上可以适配异构计算设备。
为了将联邦学习应用模块部署在异构计算设备上,根据本发明的一个实施例,采用以下方法部署联邦学习应用模块,如图3所示,包括以下步骤:
步骤D1,使用跨平台交叉编译或在相应架构测试机上编译联邦学习应用模块的源代码,得到与各异构平台适配的联邦学习应用模块;
步骤D2,针对各异构平台的差异性编写镜像构建脚本Dockerfile;
步骤D3,基于所编译的联邦学习应用模块及构建脚本Dockerfile,构建可运行于各异构平台的容器镜像;
步骤D4,根据用于参与联邦学习的计算设备的不同,部署相匹配的联邦学习容器镜像。新增部署所述联邦学习参与方计算设备时,需针对异构计算设备的特异性,从容器镜像仓库拉取适合的容器镜像。
上述的联邦学习应用模块同样要部署于联邦学习管控平台。管控平台由多台具有强大云计算能力的服务器组成高可用集群平台,且与各联邦学习参与方构建虚拟内部网络。管控平台可用于审批联邦学习参与方的建立、加入联邦的请求,参与方管理,用户权限管理,联邦学习任务管理,联邦学习模型管理,联邦学习模型服务管理等。用于部署管控平台的计算设备通常包含CPU、存储器等计算机通用元件,CPU采用高性能的X86架构,存储器则通常包含内存及硬盘等。由于管控平台在联邦学习过程中更多起到管理控制的作用,其涉及的联邦学习模型训练部分主要是加密模型参数聚合,对GPU、FPGA等高性能运算元件的需求不高,因此不需要配备GPU、FPGA等高性能运算元件。在管控平台的计算设备上通常安装运行Linux等操作系统,管控平台所包含模块及通用联邦学习应用模块的容器镜像运行在操作系统上,调用CPU、存储器等完成联邦管控、聚合加密模型参数等任务。
联邦学习管控平台的部署环境及所包含的模块如图4所示。与参与方不同,联邦学习管控平台不仅包含通用的联邦学习应用模块,还包含特有的四个模块:
1.管控平台WEB端模块。根据本发明的一个实施例,使用vue.js技术实现管控平台WEB端功能,使得用户可以在网络浏览器以交互式界面访问、查询、操作管控平台;
2.管控平台服务端模块。根据本发明的一个实施例,使用SpringBoot、MySQL等技术实现管控平台服务端模块,其具体实现了联邦参与方管理、联邦学习任务管理、联邦学习模型管理、联邦学习预测服务管理等功能;
3.用户鉴权模块,其应用单点登录、权限管理等技术实现了用户登录、资源权限控制等功能,对登录用户所能查看、操作的资源按照其身份角色、所属联邦参与方进行控制、隔离;
4.平台网络调用接口模块,其一方面提供用户调用的资源查询等网络调用接口,另一方面向联邦参与方暴露处理参与方注册、发起联邦任务等请求的网络调用接口。
由于管控平台同时负责联邦学习任务中各参与方加密模型参数聚合,因此,其联邦学习应用模块的网络调用接口模块的主要功能是和联邦参与方之间进行加密模型参数的传递和接收。
本发明提供一种基于上述联邦学习系统的联邦学习方法,所述方法分为三个阶段:联邦学习参与方注册阶段,联邦学习模型训练阶段和联邦学习模型预测阶段。
联邦学习参与方注册阶段有以下3个步骤:
步骤R1,参与方计算设备部署,包括接入本地网络,连接数据采集终端或其它数据源,安装操作系统、Docker及容器管理编排工具客户端,依照计算设备架构从容器镜像仓库拉取相应的容器镜像进行部署操作;
步骤R2,参与方调用联邦学习管控平台的参与方注册网络接口请求加入联邦,提交本地设备属性信息等表单数据;
步骤R3,联邦学习管控平台接收到注册申请并进行人工审核审批。
联邦学习模型训练阶段有以下3个步骤:
步骤T1,联邦学习参与方通过连接数据采集设备或是以磁盘挂载等方式获取用于模型训练的数据,并根据实际业务场景对数据进行初步的特征选择、数据预处理等操作;
步骤T2,由一个联邦学习参与方提交联邦学习任务申请,提交联邦学习任务流程定义表单数据和联邦参数定义表单数据。联邦学习任务流程定义表单数据以JSON格式进行提交,主要描述了所设计的联邦学习任务包含的联邦学习算子及算子间数据和模型的流向定义,其中,联邦学习算子包括且不限于数据读取算子、数据预处理算子、特征工程算子、联邦模型训练算子、模型评估算子等。联邦参数定义表单数据以JSON格式进行提交,主要描述了各联邦参与方选择及角色定义,所述联邦学习任务流程定义中每个联邦学习算子的入参、出参及超参数定义等;
步骤T3,管控平台解析接收到的联邦学习任务流程定义表单数据和联邦参数定义表单数据,从中提取各联邦参与方、其角色定义及训练所需的数据等,确定各参与方的设备可用性和数据可用性,并向各参与方请求许可确认,待各方都确认后,由管控平台通知各方启动训练,所述联邦学习任务流程定义中每个模块算子执行完成后由各参与方及管控平台之间同步执行状态,模型训练每个迭代从各参与方收集加密的模型参数等信息,使用FedAvg(Federated Averaging,联邦平均)等方法聚合模型参数,将聚合的加密模型参数发回给每个参与方继续迭代训练。联邦学习任务流程定义中的每个联邦学习算子在各参与方均执行完成后,认为联邦学习模型训练阶段完成。
上面提及的联邦平均算法的伪代码如下,其中包含了变量的说明和代码的注释说明。
Figure BDA0003032971000000091
根据本发明的一个实施例,上述步骤T2中提及的联邦学习任务流程定义表单数据如下,为JSON格式,其中,module Reader表示数据读取算子,module FeatureScale表示特征工程算子,module DNN表示联邦模型训练算子,module Evaluation表示模型评估算子。
Figure BDA0003032971000000101
Figure BDA0003032971000000111
Figure BDA0003032971000000121
根据本发明的一个实施例,上述步骤T2中提及的联邦参数定义表单数据如下,为JSON格式,其中,role表示参与方的角色,component_parameters的dnn_0定义了联邦学习算法模块的参数。
Figure BDA0003032971000000122
Figure BDA0003032971000000131
Figure BDA0003032971000000141
当联邦学习训练完成后,可将训练的模型发布为模型服务。参与方在组织好预测数据后,指定模型并将预测数据发送到管控平台的模型预测接口进行模型预测。
根据本发明的一个实施例,联邦学习模型预测阶段包括以下步骤:
步骤P1,联邦学习参与方通过连接数据采集设备或是以磁盘挂载等方式获取并组建用于模型预测的单条或批量数据;
步骤P2,参与方通过联邦学习管控平台的模型预测网络调用接口请求调用模型预测服务,需指定联邦学习模型并提供用于预测的数据,所选模型需是该参与方参与训练的联邦学习模型;
步骤P3,管控平台解析接收到的预测请求,检查预测任务发起方是否参与所选联邦模型学习模型的训练,而后将调用参与方计算设备上的本地模型进行预测,并返回预测结果
以下以最小验证集群为例说明本发明的系统和方法。具体配置参见表1,使用一台Intel i7-9700 CPU、32Gb内存,500Gb硬盘的PC安装CentOS7.6操作系统作为联邦学习管控平台集群,使用一台Intel i5-9500、16Gb内存、500Gb硬盘的PC安装Ubuntu20.04操作系统作为联邦学习参与方的任务发起方,使用一台8核ARM64V8架构处理器、16Gb内存、500Gb硬盘并含有512核Volta GPU的低功耗边缘计算开发板安装Ubuntu18.04操作系统作为联邦学习参与方的协同计算方。
表1
Figure BDA0003032971000000151
在单节点管控平台集群部署管控平台相关应用模块和联邦学习应用模块的容器镜像,在所述联邦任务发起方计算设备上部署联邦学习应用模块的容器镜像,在联邦任务协同计算方部署联邦学习应用模块的ARM及GPU版容器镜像。
图5示出了容器管理编排及虚拟内部网络,在上述单节点管控平台集群安装轻量化支持异构节点的容器管理编排工具,在管控平台和各联邦参与方之间搭建虚拟内部网络,参与方和管控平台之间的网络请求均通过虚拟内部网络以确保安全性。根据本发明的一个实施例,使用Rancher k3s容器管理编排工具,使用k3s server可以检查各参与方资源状态并推送更新容器镜像。根据本发明的一个实施例,使用VPN技术搭建该虚拟内部网络。
在每个参与方部署k3s agent,并通过内部虚拟网络加入由所述管控平台控制的容器集群。在每个参与方上分别调用各自用户接口模块申请加入联邦,由管控平台验证申请信息后审批参与方的加入,由此形成有两个参与方的联邦。
上面提及的Rancher k3s是由Rancher公司开发的轻量级Kubernetes发行版,Kubernetes是Google公司开发的用于自动部署、扩展和管理“容器化应用程序”的开源系统。Rancher k3s专为无人值守、资源受限或物联网设备内部的生产工作负载而设计,它简单且安全,并且针对ARM架构设备进行了优化。
系统部署完成后,如图1所示,在两个参与方的存储设备上分别预置具有相同特征、代表不同人员信息的乳腺癌数据集1和数据集2。任务发起方102向管控平台101提交一个用于训练横向联邦深度神经网络二分类模型的联邦任务请求,管控平台101在接收到请求后,向协同计算方103发送任务许可确认,待协同计算方103确认后,由管控平台101通知各参与方启动训练。在训练过程的每轮迭代中,各参与方通过优化设定的损失函数,利用本地数据拟合深度神经网络各个隐藏层的权重和偏差。各参与方在计算出损失后,采用同态加密的方式将损失和各个隐藏层的权重和偏差发送给管控平台101。由管控平台101的联邦学习算法模块聚合从各参与方得到的经过加密的损失,检查是否收敛,并将收敛结果和聚合的各个隐藏层权重和偏差发送给各参与方,各参与方更新模型参数。管控平台使用FedAvg(Federated Averaging,联邦平均)方法聚合模型参数。如果管控平台101判断训练结果已收敛或训练迭代次数已到达设定值,则停止训练,否则进行新一轮迭代。
当联邦学习训练完成后,可将训练的模型发布为模型服务。参与方在组织好预测数据后,指定模型并将预测数据发送到管控平台的模型预测接口进行模型预测。管控平台接收到模型预测请求后,确认预测接口调用方实际参与了该模型的训练过程,有权限使用该模型,使用预测数据调起参与方本地的联邦模型执行预测过程,并将预测结果通过网络接口返回。
综上,本发明提出的应用于异构计算设备的联邦学习系统和方法,在注重数据隐私的业务领域应用联邦学习技术,具有广泛的设备适配性和较低的部署运维成本,降低了接入联邦系统的门槛。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (10)

1.一种应用于异构计算设备的联邦学习系统,包括联邦学习管控平台以及多个联邦学习参与方计算设备,其中,在所述联邦学习管控平台和联邦学习参与方计算设备上部署联邦学习应用模块;
所述联邦学习管控平台与联邦学习参与方计算设备基于虚拟内部网络连接;
所述管控平台用于根据联邦学习参与方提交的联邦学习任务流程定义表单和联邦参数定义表单生成联邦学习任务;所述联邦学习任务流程定义表单基于联邦学习算子定义了联邦学习模型和数据流向;所述联邦学习算子是联邦学习任务的子任务;所述联邦参数定义表单定义了联邦学习算子的输入和输出参数;所述管控平台包括容器镜像仓库,用于存储联邦学习应用模块的基于异构计算设备的容器镜像;
所述联邦学习参与方计算设备包含异构计算设备;
所述联邦学习应用模块基于容器方式部署在所述联邦学习管控平台和联邦学习参与方计算设备,所述联邦学习应用模块包括适配异构计算设备模块以及联邦学习算法模块,所述适配异构计算设备模块基于程序调用接口适配层,对涉及异构计算元件调用的接口进行统一适配;所述联邦学习算法模块根据联邦学习算子定义的联邦学习模型和数据流向运行计算逻辑,并基于同态加密方法在联邦学习参与方和联邦学习管控平台之间传递加密的模型参数。
2.根据权利要求1所述的联邦学习系统,所述异构计算设备包括X86 CPU、FPGA、GPU、ARM CPU中的至少一种。
3.根据权利要求1所述的系统,所述管控平台基于联邦平均方法聚合各参与方加密的模型参数。
4.根据权利要求1所述的系统,所述联邦学习管控平台包括:
管控平台WEB端模块,用于通过网络浏览器以交互式界面操作管控平台;
管控平台服务端模块,用于联邦参与方管理、联邦学习任务管理、联邦学习模型管理、联邦学习预测服务管理;
用户鉴权模块,用于用户登录以及资源权限控制;
平台网络调用接口模块,用于提供联邦学习参与方注册以及发起联邦任务请求的网络调用接口。
5.根据权利要求1所述的系统,所述联邦学习应用模块包括内存分布式计算模块,用于处理联邦学习过程中涉及的数值计算;以及接口调用模块,用于提供用户调用发起联邦训练、发起联邦预测的网络调用接口。
6.一种基于权利要求1所述系统的联邦学习参与方注册方法,包括:
步骤R1,联邦学习参与方根据其计算设备架构从容器镜像仓库拉取相应的容器镜像进行部署;
步骤R2,联邦学习参与方调用联邦学习管控平台的参与方注册网络接口请求加入联邦;
步骤R3,联邦学习管控平台根据联邦学习参与方的请求进行审核。
7.一种基于权利要求1所述系统的联邦学习模型训练方法,包括:
步骤T1,联邦学习参与方获取用于模型训练的数据;
步骤T2,由一个联邦学习参与方提交联邦学习任务申请,以及联邦学习任务流程定义表单数据和联邦参数定义表单数据;
步骤T3,联邦学习管控平台根据联邦学习任务流程定义表单数据和联邦参数定义表单数据通知各参与方启动迭代训练,并聚合各参与方加密的模型参数,将聚合的加密模型参数发给每个参与方继续迭代训练。
8.一种基于权利要求1所述系统的联邦学习模型预测方法,包括:
步骤P1,联邦学习参与方获取用于模型预测的数据;
步骤P2,联邦学习参与方通过联邦学习管控平台的发起联邦预测的网络调用接口请求调用模型预测服务,以及指定联邦学习模型并提供用于预测的数据,所指定的联邦学习模型是所述联邦学习参与方参与训练的联邦学习模型;
步骤P3,联邦学习管控平台根据联邦学习参与方的请求,调用联邦学习参与方计算设备上的本地模型进行预测。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求6至8任一项方法的步骤。
10.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求6至8任一项方法的步骤。
CN202110435786.XA 2021-04-22 2021-04-22 一种应用于异构计算设备的联邦学习系统和方法 Active CN113112029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110435786.XA CN113112029B (zh) 2021-04-22 2021-04-22 一种应用于异构计算设备的联邦学习系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110435786.XA CN113112029B (zh) 2021-04-22 2021-04-22 一种应用于异构计算设备的联邦学习系统和方法

Publications (2)

Publication Number Publication Date
CN113112029A true CN113112029A (zh) 2021-07-13
CN113112029B CN113112029B (zh) 2022-09-16

Family

ID=76719395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110435786.XA Active CN113112029B (zh) 2021-04-22 2021-04-22 一种应用于异构计算设备的联邦学习系统和方法

Country Status (1)

Country Link
CN (1) CN113112029B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570071A (zh) * 2021-08-09 2021-10-29 山东产业技术研究院智能计算研究院 一种联邦学习模型服务发布方法及系统
CN113672353A (zh) * 2021-08-24 2021-11-19 支付宝(杭州)信息技术有限公司 一种基于容器的任务执行方法及装置
CN113709014A (zh) * 2021-08-10 2021-11-26 深圳致星科技有限公司 联邦学习审计的数据收集方法、介质、装置及程序产品
CN113723623A (zh) * 2021-08-10 2021-11-30 深圳致星科技有限公司 联邦学习审计装置、系统及方法
CN113742673A (zh) * 2021-09-07 2021-12-03 石硕 一种基于联邦学习的云边协同管控一体化平台
CN113792890A (zh) * 2021-09-29 2021-12-14 国网浙江省电力有限公司信息通信分公司 一种基于联邦学习的模型训练方法及相关设备
CN113850394A (zh) * 2021-09-18 2021-12-28 北京百度网讯科技有限公司 联邦学习方法、装置、电子设备及存储介质
CN114328432A (zh) * 2021-12-02 2022-04-12 京信数据科技有限公司 一种大数据联邦学习处理方法及系统
CN114429223A (zh) * 2022-01-26 2022-05-03 上海富数科技有限公司 异构模型建立方法及装置
CN114492846A (zh) * 2022-04-06 2022-05-13 天聚地合(苏州)科技股份有限公司 基于可信执行环境的跨域联邦学习方法及系统
CN114912632A (zh) * 2022-05-24 2022-08-16 京东科技控股股份有限公司 一种机器学习模型推理方法和装置
CN114968525A (zh) * 2022-05-26 2022-08-30 深圳致星科技有限公司 隐私计算和隐私数据保护的云原生任务调度方法及装置
CN115130681A (zh) * 2022-06-29 2022-09-30 蓝象智联(杭州)科技有限公司 用于联邦学习的数据处理方法及装置
CN115499307A (zh) * 2022-08-05 2022-12-20 中山大学 面向边缘联邦学习部署架构、方法、装置及存储介质
CN115525448A (zh) * 2022-09-16 2022-12-27 北京百度网讯科技有限公司 一种基于异构平台的任务处理方法、装置、设备和介质
WO2023024740A1 (zh) * 2021-08-23 2023-03-02 支付宝(杭州)信息技术有限公司 一种基于容器部署联邦学习任务的方法及装置
CN115794359A (zh) * 2021-09-09 2023-03-14 深圳致星科技有限公司 用于联邦学习的异构系统及处理方法
CN115865705A (zh) * 2022-11-29 2023-03-28 广发银行股份有限公司 基于监管机构的多方联邦学习系统、方法、设备及介质
CN117196069A (zh) * 2023-11-07 2023-12-08 中电科大数据研究院有限公司 联邦学习方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507481A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 一种联邦学习系统
CN111813526A (zh) * 2020-07-10 2020-10-23 深圳致星科技有限公司 用于联邦学习的异构处理系统、处理器及任务处理方法
WO2021064737A1 (en) * 2019-10-04 2021-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Federated learning using heterogeneous model types and architectures
CN112636989A (zh) * 2020-12-31 2021-04-09 中国农业银行股份有限公司 一种联邦学习通信方法及装置
CN112685159A (zh) * 2020-12-30 2021-04-20 深圳致星科技有限公司 基于fpga异构处理系统的联邦学习计算任务处理方案

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021064737A1 (en) * 2019-10-04 2021-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Federated learning using heterogeneous model types and architectures
CN111507481A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 一种联邦学习系统
CN111813526A (zh) * 2020-07-10 2020-10-23 深圳致星科技有限公司 用于联邦学习的异构处理系统、处理器及任务处理方法
CN112685159A (zh) * 2020-12-30 2021-04-20 深圳致星科技有限公司 基于fpga异构处理系统的联邦学习计算任务处理方案
CN112636989A (zh) * 2020-12-31 2021-04-09 中国农业银行股份有限公司 一种联邦学习通信方法及装置

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570071A (zh) * 2021-08-09 2021-10-29 山东产业技术研究院智能计算研究院 一种联邦学习模型服务发布方法及系统
CN113709014A (zh) * 2021-08-10 2021-11-26 深圳致星科技有限公司 联邦学习审计的数据收集方法、介质、装置及程序产品
CN113723623A (zh) * 2021-08-10 2021-11-30 深圳致星科技有限公司 联邦学习审计装置、系统及方法
CN113709014B (zh) * 2021-08-10 2023-04-07 深圳致星科技有限公司 联邦学习审计的数据收集方法、介质及装置
WO2023024740A1 (zh) * 2021-08-23 2023-03-02 支付宝(杭州)信息技术有限公司 一种基于容器部署联邦学习任务的方法及装置
CN113672353A (zh) * 2021-08-24 2021-11-19 支付宝(杭州)信息技术有限公司 一种基于容器的任务执行方法及装置
CN113672353B (zh) * 2021-08-24 2024-02-13 支付宝(杭州)信息技术有限公司 一种基于容器的任务执行方法及装置
CN113742673A (zh) * 2021-09-07 2021-12-03 石硕 一种基于联邦学习的云边协同管控一体化平台
CN113742673B (zh) * 2021-09-07 2024-05-10 石硕 一种基于联邦学习的云边协同管控一体化平台
CN115794359A (zh) * 2021-09-09 2023-03-14 深圳致星科技有限公司 用于联邦学习的异构系统及处理方法
CN113850394A (zh) * 2021-09-18 2021-12-28 北京百度网讯科技有限公司 联邦学习方法、装置、电子设备及存储介质
CN113792890A (zh) * 2021-09-29 2021-12-14 国网浙江省电力有限公司信息通信分公司 一种基于联邦学习的模型训练方法及相关设备
CN113792890B (zh) * 2021-09-29 2024-05-03 国网浙江省电力有限公司信息通信分公司 一种基于联邦学习的模型训练方法及相关设备
CN114328432A (zh) * 2021-12-02 2022-04-12 京信数据科技有限公司 一种大数据联邦学习处理方法及系统
CN114429223A (zh) * 2022-01-26 2022-05-03 上海富数科技有限公司 异构模型建立方法及装置
CN114429223B (zh) * 2022-01-26 2023-11-07 上海富数科技有限公司 异构模型建立方法及装置
CN114492846A (zh) * 2022-04-06 2022-05-13 天聚地合(苏州)科技股份有限公司 基于可信执行环境的跨域联邦学习方法及系统
CN114912632A (zh) * 2022-05-24 2022-08-16 京东科技控股股份有限公司 一种机器学习模型推理方法和装置
CN114968525A (zh) * 2022-05-26 2022-08-30 深圳致星科技有限公司 隐私计算和隐私数据保护的云原生任务调度方法及装置
CN115130681A (zh) * 2022-06-29 2022-09-30 蓝象智联(杭州)科技有限公司 用于联邦学习的数据处理方法及装置
CN115499307A (zh) * 2022-08-05 2022-12-20 中山大学 面向边缘联邦学习部署架构、方法、装置及存储介质
CN115525448A (zh) * 2022-09-16 2022-12-27 北京百度网讯科技有限公司 一种基于异构平台的任务处理方法、装置、设备和介质
CN115525448B (zh) * 2022-09-16 2023-10-17 北京百度网讯科技有限公司 一种基于异构平台的任务处理方法、装置、设备和介质
CN115865705A (zh) * 2022-11-29 2023-03-28 广发银行股份有限公司 基于监管机构的多方联邦学习系统、方法、设备及介质
CN117196069B (zh) * 2023-11-07 2024-01-30 中电科大数据研究院有限公司 联邦学习方法
CN117196069A (zh) * 2023-11-07 2023-12-08 中电科大数据研究院有限公司 联邦学习方法

Also Published As

Publication number Publication date
CN113112029B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN113112029B (zh) 一种应用于异构计算设备的联邦学习系统和方法
Xu et al. Unleashing the power of edge-cloud generative ai in mobile networks: A survey of aigc services
Roth et al. Nvidia flare: Federated learning from simulation to real-world
Dewangan et al. Extensive review of cloud resource management techniques in industry 4.0: Issue and challenges
Cui et al. Multiple DAGs workflow scheduling algorithm based on reinforcement learning in cloud computing
CN110493304A (zh) 边缘计算系统以及交易系统
ul Haque et al. Decentralized transfer learning using blockchain & IPFS for deep learning
d'Hondt et al. Using bpm technology to deploy and manage distributed analytics in collaborative iot-driven business scenarios
Syberfeldt et al. A web-based platform for the simulation–optimization of industrial problems
Faro et al. Middleware for Quantum: An orchestration of hybrid quantum-classical systems
Kroshchanka et al. A neural-symbolic approach to computer vision
Colonnelli et al. Federated Learning meets HPC and cloud
García-Valls et al. CoTwin: Collaborative improvement of digital twins enabled by blockchain
Nasr A new cloud autonomous system as a service for multi-mobile robots
Alnajar et al. Tactile internet of federated things: Toward fine-grained design of FL-based architecture to meet TIoT demands
DE102023129956A1 (de) Ressourcenvorhersage für arbeitslasten
Rossant et al. Playdoh: a lightweight Python library for distributed computing and optimisation
Zhou A novel approach to cloud resource management: hybrid machine learning and task scheduling
Wen et al. Towards migrating resource-consuming robotic software packages to cloud
CN113887740B (zh) 联合更新模型的方法、装置及系统
Li et al. AttentionFunc: Balancing FaaS compute across edge-cloud continuum with reinforcement learning
You et al. Resource scheduling of information platform for general grid computing framework
Mira et al. Machine Learning (ML) as a Service (MLaas): Enhancing IoT with Intelligence, Adaptive Online Deep and Reinforcement Learning, Model Sharing, and Zero-knowledge Model Verification
Corchado et al. Special issue on distributed computing and artificial intelligence
US20240004709A1 (en) Concept for Software Application Container Hardware Resource Allocation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant