CN114328432A - 一种大数据联邦学习处理方法及系统 - Google Patents

一种大数据联邦学习处理方法及系统 Download PDF

Info

Publication number
CN114328432A
CN114328432A CN202111462397.2A CN202111462397A CN114328432A CN 114328432 A CN114328432 A CN 114328432A CN 202111462397 A CN202111462397 A CN 202111462397A CN 114328432 A CN114328432 A CN 114328432A
Authority
CN
China
Prior art keywords
initiator
task
calculation
cooperative party
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111462397.2A
Other languages
English (en)
Inventor
王济平
黎刚
汤克云
周健雄
刘继华
徐炽明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingxin Data Technology Co ltd
Original Assignee
Jingxin Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingxin Data Technology Co ltd filed Critical Jingxin Data Technology Co ltd
Priority to CN202111462397.2A priority Critical patent/CN114328432A/zh
Publication of CN114328432A publication Critical patent/CN114328432A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种大数据联邦学习处理方法及系统。方法包括以下步骤:发起方和协同方分别将数据上传各自本地内部集群中并进行HDFS分布式存储;发起方建立学习项目并根据学习项目发起计算任务后进行初始化以形成任务链;在发起方与协同方之间建立起用于传递中间因子的消息通道;计算任务启动计算,发起方和协同方各自的Spark计算集群按需读取本地分布存储的数据进行计算。本发明利用HDFS分布式文件存储的特性,可以提供高效的数据读写能力;还利用Spark集群分布式计算的特性,极大提升了联邦学习任务的推理效率,为联邦学习提供高性能且高可用的执行环境,联邦学习整体效率得到提升。

Description

一种大数据联邦学习处理方法及系统
技术领域
本发明涉及大数据及机器学习技术,尤其涉及一种大数据联邦学习处理方法及系统。
背景技术
联邦学习属于一种多方安全隐私计算的方式。联邦学习主要解决在多方联合建模时产生的数据隐私问题,目的是在各协同方数据不外出的情况下完成机器学习任务。但是现有的联邦学习任务中,往往需要长时间的训练。现在联邦学习应用在大数据场景(数据量大且数据维度较高)时,存在着以下两个性能瓶颈:
(1)数据的读写瓶颈:现有联邦学习任务前,首先要上传数据到自己的联邦集群环境中,生成一份csv文件或数据库表进行落盘。当执行联邦学习任务时,需要从磁盘中读取全量数据,再单机进行后续计算。由于每一个任务都需要读写大量的文件数据,当任务较多时会影响磁盘的读写能力,从而影响整个任务的运行效率。
(2)任务的推理瓶颈:由于联邦学习任务中,需要各方完成一小节点的计算后,通过总裁方交互计算参数,然后进行下一个节点计算。若某一方的数据维度较高而导致自身计算效率较低。这将会大大降低联邦学习任务的整体效率。
发明内容
本发明的目的在于为克服现有技术的以上缺陷,而提供一种大数据联邦学习处理方法及系统,以提升联邦学习的整体效率。
为实现上述目的,本发明采用以下技术方案:
一种大数据联邦学习处理方法,其涉及发起方和协同方,发起方和协同方分别设有各自的本地内部集群;方法包括以下步骤:
发起方和协同方分别将数据上传各自本地内部集群中并进行HDFS分布式存储;
发起方建立学习项目并根据学习项目发起计算任务后进行初始化以形成任务链;
在发起方与协同方之间建立起用于传递中间因子的消息通道;
计算任务启动计算,发起方和协同方各自的Spark计算集群按需读取本地分布存储的数据进行计算。
进一步地,发起方建立学习项目时,发起方先邀请协同方并获得同意后,发起方通过计算组件和相关数据建立有向无环图并进行相关配置,最后形成学习项目ID。
进一步地,在发起方与协同方之间建立起用于传递中间因子的消息通道时,发起方先通过一个中心化的代理服务器向协同方发起握手请求,发起方收到代理服务器传来的协同方成功响应的信息后按需求创建临时的消息通道。
进一步地,发起方先发起的握手请求中包含有发起方的任务链信息,协同方收到握手请求后会分析任务链信息并生成自身对应的计划任务,协同方最后通过代理服务器返回成功响应信息至发起方。
进一步地,发起方根据学习项目ID发起计算任务,先根据学习项目ID查询和分析对应组件及配置,随后将计算任务转换成多个子任务并组装成任务链,最后整理Spark计算集群进行整理并把Master节点信息记录到任务链中。
进一步地,计算任务启动计算时,发起方依次遍历每一个子任务并与协同方同步任务,发起方和协同方由各自的Master节点分配至少1个Worker节点执行相应计算,Worker节点按需读取本地内部集群HDFS分布式存储的数据。
进一步地,在计算任务进行中,协同方通过消息通道以消息队列方式向发起方发送中间因子。
进一步地,当发起方检测到一个子任务完成后将会更新计算任务的相关数据。
进一步地,所有子任务结束之后,即计算任务结束之后,更新计算任务的状态、清理未清理的计算资源并销毁使用到的消息通道。
本发明还公开了一种大数据联邦学习处理系统,其包括发起方和协同方,发起方和协同方分别设有各自的本地内部集群;
发起方和协同方均用于将数据上传各自本地内部集群中并进行HDFS分布式存储;
发起方用于建立学习项目并根据学习项目发起计算任务后进行初始化以形成任务链;
发起方用于建立起与协同方之间的用于传递中间因子的消息通道;
发起方和协同方用于在计算任务启动计算时让各自的Spark计算集群按需读取本地分布存储的数据进行计算。
本发明与现有技术相比的有益效果是:利用HDFS分布式文件存储的特性,可以提供高效的数据读写能力;还利用Spark分布式计算集群的特性,极大提升了联邦学习任务的推理效率,为联邦学习提供高性能且高可用的执行环境,联邦学习整体效率得到提升。另外,各参与方通过中心化的代理服务器创建双方的消息队列,从而替换参与方之间必须两两通信的问题,还能解决联邦学习Spark计算后的中间因子交互问题。
附图说明
图1为本发明联邦学习处理方法硬件架构图示例。
图2为本发明联邦学习处理方法总流程图。
图3为本发明联邦学习处理方法上传存储步骤流程图。
图4为本发明联邦学习处理方法任务创建、初始化及相互桥接流程图。
图5为本发明联邦学习处理方法执行计算任务流程图。
需要说明的是,以上视图所示产品均为适应图纸大小及视图清楚而进行了适当的缩小/放大,并不对视图所示产品大小加以限制。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例。相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
第一实施例是一种大数据联邦学习处理方法,涉及到发起方和协同方。如图1所示为用于实施第一实施例联邦学习处理方法的示例架构,其中包含有发起方A、协同方B、协同方C和协同方D。具体实施时有可能少于3个协同方,也有可能多于3个协同方,但至少应有一个发起方。发起方与协同方可以统称为联邦学习任务中的参与方。发起方和协同方分别设有各自的本地内部集群,并且各个内部集群均有相同的架构布置。发起方和协同方各自保密的数据均在各自内部集群中流转,而不会向其他外部集群传输。在各自内部集群中包含有联邦学习环境、数据库、统一网关、Spark计算集群、HDFS文件服务器以及消息队列,相互之间的连接关系如图1所示。在各个联邦学习环境中部署有客户端,用于提供给可视化操作页面,以实现更高效的实现联邦学习配置。在发起方与协同方之间还通过一个中心化的代理服务器实现连接,而这个代理服务器其实是一个中心化的代理服务器,主要作用是辅助桥接联邦学习任务中的各个参与方。图1中消息队列是部署在一个独立机器中,而在其他实施例中,消息队列还可以部署在联邦学习环境中。图1中HDFS文件服务器可用于将数据按字段进行分区分片转化并存储。
结合图2所示,联邦学习处理方法至少包括有以下步骤:发起方和协同方分别将数据上传各自本地内部集群中并进行HDFS分布式存储;发起方建立学习项目并根据学习项目发起计算任务后进行初始化以形成任务链;在发起方与协同方之间建立起用于传递中间因子的消息通道;计算任务启动计算,发起方和协同方各自的Spark计算集群按需读取本地分布存储的数据进行计算。第一实施例的联邦学习处理方法一方面利用了HDFS分布式文件存储的特性,可以提供高效的数据读写能力;另一方面还利用Spark分布式计算集群,极大提升了联邦学习任务的推理效率,为联邦学习提供高性能且高可用的执行环境,使得联邦学习整体效率得到提升。
以下对第一实施例联邦学习处理方法逐个步骤详细描述。
首先,发起方和协同方分别将数据上传各自本地内部集群中并进行HDFS分布式存储。参考图3所示,发起方和协同方在联邦学习环境客户端上传数据文件,数据文件会被联邦学习环境转存到HDFS文件服务器中,以利用到HDFS数据分区技术,将数据按字段进行分区分片转化并存储。具体实施时可根据需求上传csv格式的数据或填写数据库信息读取,在此不作具体限制。若HDFS文件服务器的分布式存储进程出错、不成功,则返回联邦学习环境存储失败信息,联邦学习环境保存错误日志并在客户端保存错误日志索引,最后退出保存进程。若HDFS文件服务器的分布式存储进程成功,则返回联邦学习环境存储成功信息,联邦学习环境保存数据对应的mate信息并在客户端保存业务相关数据。在此步骤中是进行数据分布式存储和mate信息登记,但数据不会外传到外部的集群中。
随后,发起方建立学习项目。这里的学习项目中允许关联多个参与方、多份数据资源、多个联邦学习模型。具体地,在发起方建立学习项目时,参考图4所示,发起方先邀请协同方参与到学习项目中,在协同方同意接受邀请后向发起方授权自身数据的mate信息。随后,在发起方的客户端通过计算组件和相关数据建立有向无环图DAG。客户端针对建模环境进行了简化,并提供UI界面以拖拽组件的形式进行建模。而其中建模用到的所有计算功能、相关数据等均包装成可拖拽的组件,可以方便在建模时拖拽调用和连接。这里的组件包括但不限于:各参与方的数据读取、数据转换、安全求交、特征工程、机器学习、模型报告等。每个组件均有输入输出对接点,发起方可按需把组件间的输入输出进行连接。所有必须的连接完成后便形成有向无环图DAG。如果需要进行部分参数的调整,也可以分别对每个组件进行配置,比如数据源的mate信息、数据求交方式、机器学习参数、输出名字等,并为每一个组件单独以Json格式保存具体的配置详情及组件ID,这里称为组件Json。然后把上述的有向无环图Json与组件Json结合成一个汇总Json。最后生成一个学习项目ID与汇总Json进行关联。
随后,参考图4所示,发起方根据学习项目发起计算任务后进行初始化以形成任务链。发起方根据上一步所得学习项目ID发起计算任务,先根据学习项目ID查询和分析对应组件及配置。具体地,先利用学习项目ID查找上一步中的汇总Json,随后到数据库中查询或创建业务相关的参数,如:各参与方的联邦学习ID与角色、任务ID、训练类型等。接着遍历汇总Json的各组件与配置,记录每一个组件与配置到日志信息中,并清理一下与联邦学习无关、无用的内容,如:前端渲染相关信息、业务上关联的时间等。再将业务数据与清理后的汇总Json组装成一个新的任务Json,最后把任务Json发送至联邦学习环境。
随后,参考图4所示,将计算任务转换成多个子任务并组装成任务链。当联邦学习环境接收到来自客户端的任务Json以后,先会遍历任务Json中的每一个节点并把节点中详情以及发起方所配置的参数通过对象的形式组装起来,就形成了后续联邦学习任务运行中的每一个子任务。每一个子任务包含组件名称、子任务ID、组件个性配置等信息。然后根据任务Json中的有向无环图DAG位置信息,将每个子任务组装成一条联邦学习任务链。最后将这条任务链记录成一个计划任务,并生成对应的Job ID,并响应返回给客户端,客户端会对其进行业务上的任务初始化及关联落库。当任务链初始化完成后,参考图4所示,联邦学习环境对自身的Spark计算集群进行整理。这里整理内容包括Master节点信息、集群网络通信是否正常、集群计算资源占用情况等。若Spark计算集群属于健康状态,则会把Master节点信息记录到任务链的计划任务中。
参考图4所示,当发起方完成以上步骤以后,就需要通知各协同方进行任务初始化并进行网络桥接,目的是在发起方与协同方之间建立起用于传递中间因子的消息通道。由于不同联邦学习任务中的参与方组合是不固定的,第一实施例中引入了星型网络的概念,并利用该网络的特性解决参与方组合不固定的问题。所以第一实施例中设有一个中心化的代理服务器,主要作用便是辅助桥接联邦学习任务中的各个参与方。发起方会先通过代理服务器向协同方发起握手请求,发起方收到代理服务器传来的协同方成功响应的信息后按需求创建临时的消息通道。具体地,参考图4所示,发起方会向代理服务器发送带有SNI信息的一个握手请求(TLS Client请求),而SNI信息包含远程服务器的地址、主机名及发起方的任务链信息等。这些地址和主机名是部署联邦学习环境时配置的,而任务链信息中包含了各组件的位置信息、任务ID、共有配置详情等。代理服务器根据SNI信息中的远程地址,与远程服务器建立TCP连接并转发握手请求给协同方的联邦学习环境。协同方收到来自代理服务器的握手请求以后,首先会分析发起方发送过来的任务链信息,若其中子任务有属于协同方自己的配置,则使用自己的配置进行替换,并生成一个自身对应的计划任务并进行Spark计算集群资源整理(同上一步描述)。最后返回成功响应给代理服务器。待协同方有正常的TCP响应后,代理服务器会把成功响应信息以TLS形式发送给发起方的联邦学习环境中。当发起方从代理服务器收到成功响应信息,即桥接请求成功的消息,由于部分中间因子只需要与某几个协同方进行,所以会按照需求创建一系列临时的消息通道。当消息通道创建成功以后,再次通过代理服务器通知各协同方消息通道的详情。在后续联邦学习过程中的多个中间因子交互均使用消息队列在消息通道中直接传输。若协同方不接受创建消息通道,则初始化失败并退出。
前述步骤完成后便可以启动计算任务。参考图5所示,发起方首先会查询任务链的计划任务进度,按照任务链的顺序依次遍历每一个子任务,然后依次启动每一个子任务并执行,直到整个计算任务的任务链运行完成为止。发起方启动一个子任务时,参考图5所示,发起方与各协同方作为参与方同步当前子任务。所有参与方会根据自身的算力资源进行评估。当内存、cpu等资源占用较低或在运行任务数较少时,各参与方会将任务状态置为可运行状态。待所有参与方均准备好运行计算的前置条件以后,会统一对发送一个启动请求,启动请求将包含前面步骤生成的任务ID、Job ID、组件ID、组件序列、任务配置参数等。当各参与方收到子任务启动请求后,会先将任务状态置为运行中,然后各自同步其余参与方的最新任务状态。随后参与方会将启动请求中的任务参数封装进spark-submit命令中,并在各自的Master节点执行spark-submit命令。各自的Master节点根据自身spark计算集群的情况分配至少1个Worker节点执行相应计算,Worker节点按需高效读取本地内部集群HDFS分布式存储的数据,形成Spark计算所需的RDD数据。通过这种手段大幅提升整个联邦学习过程中计算的耗时。
Master节点开始执行spark-submit命令的同时,需为本次子任务以Job ID命名创建日志文件,用于保存计算过程中产生的日志信息。若子任务为第一个任务,则会优先以任务ID创建一个日志目录,然后记录子任务的进程号PID,用于其他任务监控工作。
联邦学习中,各参与方(发起方和协同方)的Spark计算集群不能实现完全的互通。但联邦学习的计算任务中由于数据及计算均在各参与方自己的机器集群中进行,所以需要不断的共享训练计算中产生的参数或模型梯度等中间因子。比如在联邦Boost算法中,参与方需要把数据分裂信息等参数同步给标签的拥有方,然后由标签拥有方计算出新的新的信息增益,然后再通知给对应的参与方。所以中间因子交互是异步通信且不需要各参与方之间实现两两互通的。前述步骤所创建的消息通道便是用于实现中间因子的私密交互。在计算任务进行中,参考图5所示,当一个子任务的一次迭代计算完成以后,协同方通过消息通道以消息队列方式向发起方发送中间因子(即本次的迭代计算结果)。协同方作为消息的发起者,将中间因子以Json的形式向消息通道提交一条消息。发起方作为消息的消费者,消费并解释协同方的中间因子,随后对模型梯度等信息进行更新,最后再以Json的形式向消息通道发送最新的中间因子消息给协同方消费。每当发起方联邦学习环境检测到一个子任务执行完毕以后,会把组件信息、任务状态、日志路径、执行时间等参数以消息队列的形式发送给发起方的客户端,客户端会根据这些消息更新计算任务的相关数据。
子任务执行计算结束后判断是否任务链整体完成计算,若否,则下一个子任务再按照以上步骤循环执行,参考图5所示,直至任务链全部运行结束。而当整个计算任务的任务链运行结束后,发起方的联邦学习环境会更新整个计算任务的任务链状态。然后各参与方的联邦学习环境会根据之前的任务情况,主动清理未清理的计算资源,而发起方还需要销毁本次计算中使用到的消息通道。
此外,客户端还提供查询页面,可以根据权限有选择地提供任务结果查看与下载。客户端查询的原则是各参与方只能查看自己建模参数,发起发方还能查看有向无环图DAG的详情。发起方还可以通过客户端下载本次计算任务的结果至本地。单发起方若发现有向无环图DAG不符合预期结果,可以重新对有向无环图DAG进行参数配置微调,再重新运行整个计算任务。
本发明第二实施例是一种大数据联邦学习处理系统。如图1所示为用于实施第二实施例联邦学习处理系统的示例架构,其中包含有发起方A、协同方B、协同方C和协同方D。具体实施时有可能少于3个协同方,也有可能多于3个协同方,但至少应有一个发起方。发起方与协同方可以统称为参与方。发起方和协同方分别设有各自的本地内部集群,并且各个内部集群均有相同的架构布置。发起方和协同方各自保密的数据均在各自内部集群中流转,而不会向其他外部集群传输。在各自内部集群中包含有联邦学习环境、数据库、统一网关、Spark计算集群、HDFS文件服务器以及消息队列,相互之间的连接关系如图1所示。在各个联邦学习环境中部署有客户端,用于提供给可视化操作页面,以实现更高效的实现联邦学习配置。在发起方与协同方之间还通过一个中心化的代理服务器实现连接,而这个代理服务器其实是一个中心化的代理服务器,主要作用是辅助桥接联邦学习任务中的各个参与方。图1中消息队列是部署在一个独立机器中,而在其他实施例中,消息队列还可以部署在联邦学习环境中。图1中HDFS文件服务器可用于将数据按字段进行分区分片转化并存储。
具体地,发起方和协同方均用于将数据上传各自本地内部集群中并进行HDFS分布式存储。而且发起方还用于建立学习项目并根据学习项目发起计算任务后进行初始化以形成任务链。发起方还用于建立起与协同方之间的用于传递中间因子的消息通道。发起方和协同方还分别用于在计算任务启动计算时让各自的Spark计算集群按需读取本地分布存储的数据进行计算。
在本发明的所有实施例中的发起方、协同方中部署的各种设备和代理服务器均是电子设备。电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:上述至少一个处理单元、上述至少一个存储单元、连接不同系统组件(包括存储单元和处理单元)的总线、显示单元。其中,存储单元存储有程序代码,程序代码可以被处理单元执行,使得处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。存储单元可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以进一步包括只读存储单元(ROM)。存储单元还可以包括具有一组(至少一个)程序模块的程序/实用工具,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。总线可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器通过总线与电子设备的其它模块通信。应当明白,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件结合必要的硬件的方式来实现。软件可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述描述仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述描述的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (10)

1.一种大数据联邦学习处理方法,其特征在于,其涉及发起方和协同方,发起方和协同方分别设有各自的本地内部集群;所述方法包括以下步骤:
发起方和协同方分别将数据上传各自本地内部集群中并进行HDFS分布式存储;
发起方建立学习项目并根据学习项目发起计算任务后进行初始化以形成任务链;
在发起方与协同方之间建立起用于传递中间因子的消息通道;
计算任务启动计算,发起方和协同方各自的Spark计算集群按需读取本地分布存储的数据进行计算。
2.如权利要求1所述的大数据联邦学习处理方法,其特征在于,发起方建立学习项目时,发起方先邀请协同方并获得同意后,发起方通过计算组件和相关数据建立有向无环图并进行相关配置,最后形成学习项目ID。
3.如权利要求2所述的大数据联邦学习处理方法,其特征在于,发起方根据学习项目ID发起计算任务,先根据学习项目ID查询和分析对应组件及配置,随后将计算任务转换成多个子任务并组装成任务链,最后整理Spark计算集群进行整理并把Master节点信息记录到任务链中。
4.如权利要求3所述的大数据联邦学习处理方法,其特征在于,计算任务启动计算时,发起方依次遍历每一个子任务并与协同方同步任务,发起方和协同方由各自的Master节点分配至少1个Worker节点执行相应计算,Worker节点按需读取本地内部集群HDFS分布式存储的数据。
5.如权利要求4所述的大数据联邦学习处理方法,其特征在于,在计算任务进行中,协同方通过消息通道以消息队列方式向发起方发送中间因子。
6.如权利要求5所述的大数据联邦学习处理方法,其特征在于,当发起方检测到一个子任务完成后将会更新计算任务的相关数据。
7.如权利要求1所述的大数据联邦学习处理方法,其特征在于,在发起方与协同方之间建立起用于传递中间因子的消息通道时,发起方先通过一个中心化的代理服务器向协同方发起握手请求,发起方收到代理服务器传来的协同方成功响应的信息后按需求创建临时的消息通道。
8.如权利要求7所述的大数据联邦学习处理方法,其特征在于,发起方先发起的握手请求中包含有发起方的任务链信息,协同方收到握手请求后会分析任务链信息并生成自身对应的计划任务,协同方最后通过代理服务器返回成功响应信息至发起方。
9.如权利要求1所述的大数据联邦学习处理方法,其特征在于,计算任务结束之后,更新计算任务的状态、清理未清理的计算资源并销毁使用到的消息通道。
10.一种大数据联邦学习处理系统,其特征在于,其包括发起方和协同方,发起方和协同方分别设有各自的本地内部集群;
所述发起方和协同方均用于将数据上传各自本地内部集群中并进行HDFS分布式存储;
所述发起方用于建立学习项目并根据学习项目发起计算任务后进行初始化以形成任务链;
所述发起方用于建立起与协同方之间的用于传递中间因子的消息通道;
所述发起方和协同方用于在计算任务启动计算时让各自的Spark计算集群按需读取本地分布存储的数据进行计算。
CN202111462397.2A 2021-12-02 2021-12-02 一种大数据联邦学习处理方法及系统 Pending CN114328432A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111462397.2A CN114328432A (zh) 2021-12-02 2021-12-02 一种大数据联邦学习处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111462397.2A CN114328432A (zh) 2021-12-02 2021-12-02 一种大数据联邦学习处理方法及系统

Publications (1)

Publication Number Publication Date
CN114328432A true CN114328432A (zh) 2022-04-12

Family

ID=81047891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111462397.2A Pending CN114328432A (zh) 2021-12-02 2021-12-02 一种大数据联邦学习处理方法及系统

Country Status (1)

Country Link
CN (1) CN114328432A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001858A (zh) * 2022-07-19 2022-09-02 北京融数联智科技有限公司 基于分布式计算的数据安全隔离方法、系统、介质和设备
CN115249074A (zh) * 2022-07-28 2022-10-28 上海光之树科技有限公司 基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法
CN115525448A (zh) * 2022-09-16 2022-12-27 北京百度网讯科技有限公司 一种基于异构平台的任务处理方法、装置、设备和介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490330A (zh) * 2019-08-16 2019-11-22 安徽航天信息有限公司 一种基于区块链的分布式机器学习系统
CN111522669A (zh) * 2020-04-29 2020-08-11 深圳前海微众银行股份有限公司 横向联邦学习系统优化方法、装置、设备及可读存储介质
CN112182102A (zh) * 2020-09-23 2021-01-05 西安纸贵互联网科技有限公司 联邦学习中数据的处理方法、装置、电子设备及存储介质
CN112328617A (zh) * 2020-11-19 2021-02-05 杭州趣链科技有限公司 纵向联邦学习的学习模式参数更新方法和电子装置
WO2021114616A1 (zh) * 2020-05-14 2021-06-17 平安科技(深圳)有限公司 联邦学习模型训练方法及相关设备
CN113112029A (zh) * 2021-04-22 2021-07-13 中国科学院计算技术研究所 一种应用于异构计算设备的联邦学习系统和方法
CN113159333A (zh) * 2021-03-27 2021-07-23 北京邮电大学 一种基于分层分片区块链的联邦学习方法、系统及装置
CN113191503A (zh) * 2021-05-20 2021-07-30 清华大学深圳国际研究生院 一种非共享数据的去中心化的分布式学习方法及系统
US20210304062A1 (en) * 2020-03-27 2021-09-30 International Business Machines Corporation Parameter sharing in federated learning
CN113467952A (zh) * 2021-07-15 2021-10-01 北京邮电大学 一种分布式联邦学习协同计算方法及系统
CN113505520A (zh) * 2021-05-17 2021-10-15 京东科技控股股份有限公司 用于支持异构联邦学习的方法、装置和系统
CN113642239A (zh) * 2021-07-16 2021-11-12 北京融数联智科技有限公司 一种联邦学习建模方法及系统
CN113689003A (zh) * 2021-08-10 2021-11-23 华东师范大学 一种安全的去除第三方的混合联邦学习框架及方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490330A (zh) * 2019-08-16 2019-11-22 安徽航天信息有限公司 一种基于区块链的分布式机器学习系统
US20210304062A1 (en) * 2020-03-27 2021-09-30 International Business Machines Corporation Parameter sharing in federated learning
CN111522669A (zh) * 2020-04-29 2020-08-11 深圳前海微众银行股份有限公司 横向联邦学习系统优化方法、装置、设备及可读存储介质
WO2021114616A1 (zh) * 2020-05-14 2021-06-17 平安科技(深圳)有限公司 联邦学习模型训练方法及相关设备
CN112182102A (zh) * 2020-09-23 2021-01-05 西安纸贵互联网科技有限公司 联邦学习中数据的处理方法、装置、电子设备及存储介质
CN112328617A (zh) * 2020-11-19 2021-02-05 杭州趣链科技有限公司 纵向联邦学习的学习模式参数更新方法和电子装置
CN113159333A (zh) * 2021-03-27 2021-07-23 北京邮电大学 一种基于分层分片区块链的联邦学习方法、系统及装置
CN113112029A (zh) * 2021-04-22 2021-07-13 中国科学院计算技术研究所 一种应用于异构计算设备的联邦学习系统和方法
CN113505520A (zh) * 2021-05-17 2021-10-15 京东科技控股股份有限公司 用于支持异构联邦学习的方法、装置和系统
CN113191503A (zh) * 2021-05-20 2021-07-30 清华大学深圳国际研究生院 一种非共享数据的去中心化的分布式学习方法及系统
CN113467952A (zh) * 2021-07-15 2021-10-01 北京邮电大学 一种分布式联邦学习协同计算方法及系统
CN113642239A (zh) * 2021-07-16 2021-11-12 北京融数联智科技有限公司 一种联邦学习建模方法及系统
CN113689003A (zh) * 2021-08-10 2021-11-23 华东师范大学 一种安全的去除第三方的混合联邦学习框架及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王健宗、李泽远、何安珣: "智能系统与技术丛书 深入浅出联邦学习 原理与实践", vol. 2021, 30 April 2021, 机械工业出版社, pages: 8 - 11 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001858A (zh) * 2022-07-19 2022-09-02 北京融数联智科技有限公司 基于分布式计算的数据安全隔离方法、系统、介质和设备
CN115001858B (zh) * 2022-07-19 2022-11-01 北京融数联智科技有限公司 基于分布式计算的数据安全隔离方法、系统、介质和设备
CN115249074A (zh) * 2022-07-28 2022-10-28 上海光之树科技有限公司 基于Spark集群和Ring-AllReduce架构的分布式联邦学习方法
CN115525448A (zh) * 2022-09-16 2022-12-27 北京百度网讯科技有限公司 一种基于异构平台的任务处理方法、装置、设备和介质
CN115525448B (zh) * 2022-09-16 2023-10-17 北京百度网讯科技有限公司 一种基于异构平台的任务处理方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN114328432A (zh) 一种大数据联邦学习处理方法及系统
CN109361532B (zh) 网络数据分析的高可用系统和方法及计算机可读存储介质
US9307019B2 (en) Apparatus, systems and methods for deployment and management of distributed computing systems and applications
CN102571686B (zh) 云会议系统的实现方法
CN100547973C (zh) 一种基于对等网络的高性能计算系统
US9344494B2 (en) Failover data replication with colocation of session state data
Twardowski et al. Multi-agent architecture for real-time big data processing
US20140156724A1 (en) Propagation and adoption of extensions across applications in networked solutions
CN110716744A (zh) 一种数据流处理方法、系统和计算机可读存储介质
JPH1125042A (ja) プロキシ及び共有状態サーバを使用してwwwでの認知、ツアー及び会議をポータブルに可能にする方法及びシステム
CN103597465A (zh) 高效的状态协调
CN110597634B (zh) 一种数据处理方法、装置及计算机可读存储介质
CN103238151A (zh) 网络复制的技术
US8606908B2 (en) Wake-up server
CN111813583B (zh) 微服务架构下的事务管理方法、装置、设备及存储介质
US20130166414A1 (en) Personalized Demo Environment Based on Software Configuration Information
Trunov et al. Legacy applications model integration to support scientific experiment
US20050010386A1 (en) Method and system for dynamically modeling resources
Zato et al. Platform for building large-scale agent-based systems
Costa et al. Large-scale volunteer computing over the Internet
Leite et al. Dohko: an autonomic system for provision, configuration, and management of inter-cloud environments based on a software product line engineering method
KR102031589B1 (ko) 관계 체인 처리 방법 및 시스템, 그리고 저장 매체
US20130167117A1 (en) Synchronization of Prospect Information Between Software Providers and Resale Partners
US11290318B2 (en) Disaster recovery of cloud resources
US20230266994A1 (en) Migration of computational units in distributed networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination