CN112671613B - 联邦学习集群监控方法、装置、设备及介质 - Google Patents
联邦学习集群监控方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112671613B CN112671613B CN202011585022.0A CN202011585022A CN112671613B CN 112671613 B CN112671613 B CN 112671613B CN 202011585022 A CN202011585022 A CN 202011585022A CN 112671613 B CN112671613 B CN 112671613B
- Authority
- CN
- China
- Prior art keywords
- monitoring
- federal learning
- slave
- service center
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Computer And Data Communications (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及监控技术领域,本发明公开了一种联邦学习集群监控方法、装置、设备及介质,所述方法包括:通过接收来自联邦学习集群中的联邦学习服务中心的第一监控请求,将联邦学习服务中心注册至监控服务中心,并创建主节点和主路径之后,向联邦学习服务中心发送创建成功指令,同时创建主监控;接收各联邦学习参与者发送的第二监控请求,获取各第一注册从信息和第一监控从信息;将发送的各联邦学习参与者注册至监控服务中心,并在监控服务中心中创建第一从节点,创建从路径之后,创建从监控;通过监控服务中心的监听机制,启动主监控和所有从监控。本发明实现了有效地、快速地、准确地监控到联邦学习集群的异常情况发生,提高了监控质量。
Description
技术领域
本发明涉及监控技术领域,尤其涉及一种联邦学习集群监控方法、装置、设备及介质。
背景技术
联邦学习系统是一个多服务器参与的分布式集群的系统,任意一个服务器的停止或者宕机,都会导致联邦学习的任务失败,所以,在联邦学习过程中,维持联邦学习系统的所有服务器都处于正常工作状态至关重要;现有技术中,往往通过传统的心跳检测方法对联邦学习系统中各个服务器进行检测,并在监控到哪台服务器出现停止或者宕机时,通知运维人员进行处理,该检测过程和等待运维人员进行处理的时间大大降低了联邦学习的可持续性和稳定性,甚至增加了联邦学习的学习时间,最终降低了联邦学习的效率。
发明内容
本发明提供一种联邦学习集群监控方法、装置、计算机设备及存储介质,实现了轻量级的监控,能够有效地、快速地、准确地监控到联邦学习集群的异常情况发生,提高了监控质量。
一种联邦学习集群监控方法,包括:
接收来自联邦学习集群中的联邦学习服务中心的第一监控请求,获取所述第一监控请求中的第一注册主信息和第一监控主信息;所述联邦学习集群包括一个所述联邦学习服务中心和多个联邦学习参与者;
根据所述第一注册主信息,将所述联邦学习服务中心注册至监控服务中心,并在所述监控服务中心中创建与所述第一注册主信息对应的主节点和主路径之后,向所述联邦学习服务中心发送与所述主节点对应的创建成功指令,同时创建与所述第一监控主信息对应的主监控;
接收各所述联邦学习参与者发送的第二监控请求,获取各所述第二监控请求中的第一注册从信息和第一监控从信息;一个所述第二监控请求包括一个所述第一注册从信息和一个所述第一监控从信息;所述第二监控请求为所述联邦学习服务中心接收到所述创建成功指令之后由所有所述联邦学习参与者触发生成;
根据各所述第一注册从信息,将各所述联邦学习参与者注册至所述监控服务中心,并在所述监控服务中心中创建与各所述第一注册从信息对应的第一从节点,以及在所述主路径下创建与各所述第一从节点一一对应的从路径之后,创建与各所述联邦学习参与者生成的所述第一监控从信息对应的从监控;
通过所述监控服务中心的监听机制,启动所述主监控和所有所述从监控,以通过所述主监控和所有所述从监控对所述联邦学习集群进行监控。
一种联邦学习集群监控装置,包括:
接收模块,用于接收来自联邦学习集群中的联邦学习服务中心的第一监控请求,获取所述第一监控请求中的第一注册主信息和第一监控主信息;所述联邦学习集群包括一个所述联邦学习服务中心和多个联邦学习参与者;
创建模块,用于根据所述第一注册主信息,将所述联邦学习服务中心注册至监控服务中心,并在所述监控服务中心中创建与所述第一注册主信息对应的主节点和主路径之后,向所述联邦学习服务中心发送与所述主节点对应的创建成功指令,同时创建与所述第一监控主信息对应的主监控;
获取模块,用于接收各所述联邦学习参与者发送的第二监控请求,获取各所述第二监控请求中的第一注册从信息和第一监控从信息;一个所述第二监控请求包括一个所述第一注册从信息和一个所述第一监控从信息;所述第二监控请求为所述联邦学习服务中心接收到所述创建成功指令之后由所有所述联邦学习参与者触发生成;
注册模块,用于根据各所述第一注册从信息,将各所述联邦学习参与者注册至所述监控服务中心,并在所述监控服务中心中创建与各所述第一注册从信息对应的第一从节点,以及在所述主路径下创建与各所述第一从节点一一对应的从路径之后,创建与各所述联邦学习参与者生成的所述第一监控从信息对应的从监控;
启动模块,用于通过所述监控服务中心的监听机制,启动所述主监控和所有所述从监控,以通过所述主监控和所有所述从监控对所述联邦学习集群进行监控。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述联邦学习集群监控方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述联邦学习集群监控方法的步骤。
本发明提供的联邦学习集群监控方法、装置、计算机设备及存储介质,通过接收来自联邦学习集群中的联邦学习服务中心的第一监控请求,获取所述第一监控请求中的第一注册主信息和第一监控主信息;根据所述第一注册主信息,将所述联邦学习服务中心注册至监控服务中心,并在所述监控服务中心中创建与所述第一注册主信息对应的主节点和主路径之后,向所述联邦学习服务中心发送与所述主节点对应的创建成功指令,同时创建与所述第一监控主信息对应的主监控;接收各所述联邦学习参与者发送的第二监控请求,获取各所述第二监控请求中的第一注册从信息和第一监控从信息;根据各所述第一注册从信息,将各所述联邦学习参与者注册至所述监控服务中心,并在所述监控服务中心中创建与各所述第一注册从信息对应的第一从节点,以及在所述主路径下创建与各所述第一从节点一一对应的从路径之后,创建与各所述联邦学习参与者生成的所述第一监控从信息对应的从监控;通过所述监控服务中心的监听机制,启动所述主监控和所有所述从监控,以通过所述主监控和所有所述从监控对所述联邦学习集群进行监控,如此,实现了通过监控服务中心和监听机制,对联邦学习集群中的联邦学习服务中心和所有联邦学习参与者的监听,实现了轻量级的监控,能够有效地、快速地、准确地监控到联邦学习集群的异常情况发生,提高了监控质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中联邦学习集群监控方法的应用环境示意图;
图2是本发明一实施例中联邦学习集群监控方法的流程图;
图3是本发明一实施例中联邦学习集群监控方法的步骤S10的流程图;
图4是本发明一实施例中联邦学习集群监控装置的原理框图;
图5是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的联邦学习集群监控方法,可应用在如图1的应用环境中,其中,客户端(计算机设备)通过网络与服务器进行通信。其中,客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种联邦学习集群监控方法,其技术方案主要包括以下步骤S10-S50:
S10,接收来自联邦学习集群中的联邦学习服务中心的第一监控请求,获取所述第一监控请求中的第一注册主信息和第一监控主信息;所述联邦学习集群包括一个所述联邦学习服务中心和多个联邦学习参与者。
可理解地,所述联邦学习集群为一个分布式应用系统构建的集群,所述联邦学习指的是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算节点之间开展高效率的机器学习,一个所述联邦学习集群包括一个所述联邦学习服务中心和多个联邦学习参与者,所述联邦学习集群对所述联邦学习服务中心和所有所述联邦学习参与者进行管理,所述联邦学习服务中心为所述联邦学习集群中的中心,即为所述联邦学习中协调者,主要协调各所述联邦学习参与者进行机器学习,所述联邦学习参与者为参与所述联邦学习的计算机或服务器,所述第一监控请求为在所述联邦学习集群开始进入联邦学习之前,通知所述联邦学习服务中心触发的请求。
其中,所述第一监控请求包括所述第一注册主信息和所述第一监控主信息,所述第一注册主信息为与所述联邦学习服务中心相关且用于注册的信息,比如联邦学习服务中心的IP地址,或者计算机名称等等,所述第一监控主信息为设置与所述联邦学习服务中心相关的监控参数的集合。
在一实施例中,如图3所示,所述步骤S10之前,即所述接收来自联邦学习集群中的联邦学习服务中心的第一监控请求之前,包括:
S101,构建一个基于Kubernetes的初始集群。
可理解地,所述初始集群包含有多个计算机或服务器,对所述初始集群安装Kubernetes,部署Kubernetes的主要(Master)节点和工作(Worker)节点,再安装Docker容器,并部署所述Docker容器。
S102,运用基于飞桨的联邦学习框架,在所述初始集群中搭建所述联邦学习服务中心和所述联邦学习参与者,将搭建后的所述初始集群确定为所述联邦学习集群。
可理解地,所述联邦学习框架也称为PaddleFL,即基于飞桨(PaddlePaddle)的横向联邦学习的框架,在所述初始集群中将所述主要节点部署为所述联邦学习服务中心,将所述工作节点部署为所述联邦学习参与者,从而将部署后的所述初始集群标记为所述联邦学习集群。
本发明实现了通过构建一个基于Kubernetes的初始集群;运用基于飞桨的联邦学习框架,在所述初始集群中搭建所述联邦学习服务中心和所述联邦学习参与者,将搭建后的所述初始集群确定为所述联邦学习集群,如此,实现了运用Kubernetes和飞桨的联邦学习框架,搭建出一个联邦学习集群,提供了联邦学习的框架基础,为后续的监听奠定基础。
S20,根据所述第一注册主信息,将所述联邦学习服务中心注册至监控服务中心,并在所述监控服务中心中创建与所述第一注册主信息对应的主节点和主路径之后,向所述联邦学习服务中心发送与所述主节点对应的创建成功指令,同时创建与所述第一监控主信息对应的主监控。
可理解地,通过zookeeper临时节点的方式,根据所述第一注册主信息,将所述联邦学习服务中心注册至所述监控服务中心,所述监控服务中心为基于zookeeper搭建的用于管理所有监控的管理中心的服务器,所述zookeeper是封装好复杂易出错的关键服务,能够将简单易用的接口和性能高效、功能稳定的系统提供给服务,所述监控服务中心提供分布式应用程序协调服务,所述监控服务中心有N+1个节点,一个节点是领导者(leader)的角色,其它节点是跟随者(follow)的角色,所述监控服务中心存在选举机制,在所述监控服务中心中的其中一个节点宕机时,会自动选举另一个节点接替,可保证继续服务,在注册的同时在所述监控服务中心中创建所述主节点和所述主路径,所述主节点担任其领导者(leader)的角色,所述主路径与所述主节点关联,在创建所述主节点和所述主路径之后触发所述创建成功指令,并向所述联邦学习服务中心发出,并创建与所述第一监控主信息对应的所述主监控,所述主监控为根据所述第一监控主信息的相关参数进行设置的监控机制。
S30,接收各所述联邦学习参与者发送的第二监控请求,获取各所述第二监控请求中的第一注册从信息和第一监控从信息;一个所述第二监控请求包括一个所述第一注册从信息和一个所述第一监控从信息;所述第二监控请求为所述联邦学习服务中心接收到所述创建成功指令之后由所有所述联邦学习参与者触发生成。
可理解地,所述联邦学习服务中心接收到所述创建成功指令之后由所有所述联邦学习参与者触发所述第二监控请求,所述监控请求包括一个所述第一注册从信息和一个所述第一监控从信息,所述第一注册从信息为与所述联邦学习参与者相关且用于注册的信息,所述第一监控从信息为设置与所述联邦学习参与者相关的监控参数的集合。
S40,根据各所述第一注册从信息,将各所述联邦学习参与者注册至所述监控服务中心,并在所述监控服务中心中创建与各所述第一注册从信息对应的第一从节点,以及在所述主路径下创建与各所述第一从节点一一对应的从路径之后,创建与各所述联邦学习参与者生成的所述第一监控从信息对应的从监控。
可理解地,通过zookeeper临时节点的方式,根据所述第二注册从信息,将发送了所述第二监控请求的各所述联邦学习参与者注册至所述监控服务中心,在所述监控服务中心中创建与各所述第一注册从信息对应的第一从节点,所述第一从节点为在所述监控服务中心担任其跟随者(follow)的角色,并且在所述主路径下创建所述从路径,例如:所述主节点名称为FlCenter,所述主路径为“/FlCenter”,联邦学习集群中的三个联邦学习参与者分别注册zookeeper临时节点,第一从节点名称分别为FlPartyA、FlPartyB、FlPartyC,且第一从路径分别为“/FlCenter/FlPartyA”、“/FlCenter/FlPartyB”、“/FlCenter/FlPartyC”,即第一从节点“FlPartyA”对应第一从路径“/FlCenter/FlPartyA”,第一从节点“FlPartyB”对应第一从路径“/FlCenter/FlPartyB”,第一从节点“FlPartyC”对应“/FlCenter/FlPartyC”,创建与各所述第一监控从信息对应的所述从监控,所述从监控为根据所述第一监控从信息的相关参数进行设置的监控机制。
S50,通过所述监控服务中心的监听机制,启动所述主监控和所有所述从监控,以通过所述主监控和所有所述从监控对所述联邦学习集群进行监控。
可理解地,所述监听(watch)机制为采用监听(Watcher)方式来完成对所述主节点和各所述第一从节点状态的监视,即启动所述主监控和所有所述从监控,通过对与所述主节点对应的所述主路径的NodeChildrenChanged事件的监听来完成这一目标,所述NodeChildrenChanged事件是所述监控服务中心的监听的一种执行事件,由于是一个临时节点,所以所述联邦学习参与者出现异常时,所述临时节点会立即消失,从而监听到所述联邦学习集群中节点存在异常;然后,通过触发NodeChildrenChanged事件,可以调用getChildren方法识别出哪台计算机或者服务器(所述联邦学习服务中心或者所述联邦学习参与者)发生了异常(宕机或者计算机断开等问题),所述getChildren方法为应用getChildren()事件获取该主监控下的所有所述从监控的列表,从列表中可以识别出异常的计算机或者服务器的方法,如此,通过所述主监控和所有所述从监控可以做到对所述联邦学习集群进行监控,由于所述监听机制可以属于一次性的触发监听,也可以是永久性的触发监听,所以可以根据监听的需求进行改变,而且可以通过所述主监控和所述从监控设置监控的状态变化,由于只会发送一个事件类型和节点信息进行传递,而不会包括具体的状态变更内容,所以事件本身是轻量级的,从而所述监听机制的监控也是轻量级的。
本发明实现了通过接收来自联邦学习集群中的联邦学习服务中心的第一监控请求,获取所述第一监控请求中的第一注册主信息和第一监控主信息;根据所述第一注册主信息,将所述联邦学习服务中心注册至监控服务中心,并在所述监控服务中心中创建与所述第一注册主信息对应的主节点和主路径之后,向所述联邦学习服务中心发送与所述主节点对应的创建成功指令,同时创建与所述第一监控主信息对应的主监控;接收各所述联邦学习参与者发送的第二监控请求,获取各所述第二监控请求中的第一注册从信息和第一监控从信息;根据各所述第一注册从信息,将各所述联邦学习参与者注册至所述监控服务中心,并在所述监控服务中心中创建与各所述第一注册从信息对应的第一从节点,以及在所述主路径下创建与各所述第一从节点一一对应的从路径之后,同时创建与各所述联邦学习参与者生成的所述第一监控从信息对应的从监控;通过所述监控服务中心的监听机制,启动所述主监控和所有所述从监控,以通过所述主监控和所有所述从监控对所述联邦学习集群进行监控,如此,实现了通过监控服务中心和监听机制,对联邦学习集群中的联邦学习服务中心和所有联邦学习参与者的监听,实现了轻量级的监控,能够有效地、快速地、准确地监控到联邦学习集群的异常情况发生,提高了监控质量。
在一实施例汇总,所述步骤S50中,即所述通过所述监控服务中心的监听机制,启动所述主监控和所有所述从监控,以通过所述主监控和所有所述从监控对所述联邦学习集群进行监控,包括:
S501,根据所述主监控和所有所述从监控,生成发送线程和事件线程。
可理解地,所述zookeeper维护了两条监视链表:数据监视和子节点监视(datawatches and child watches) ,即所述主监控和所有所述从监控,其中,getData()事件和exists()事件设置数据监视,getChildren()事件设置子节点监视,也即所述zookeeper设置的不同监视返回不同的数据,getData()事件和exists()事件返回主节点的相关信息,而getChildren()事件返回从节点列表,所述getData()事件为获取对象集合的执行事件,所述exists()事件为用于监控对应节点的一次数据变化的执行事件,从而生成了所述发送线程和所述事件线程,所述发送线程为监控所有节点信息的线程,所述事件线程为监控事件类型的线程。
S502,通过异步方式启动所述发送线程和所述事件线程。
可理解地,所述异步方式为可以不需要同步执行的方式,通过所述异步方式启动个所述发送线程和所述事件线程。
S503,运用所述监听机制监控所述发送线程和所述事件线程。
在一实施例中,所述步骤S50之后,即所述通过所述监控服务中心的监听机制,启动所述主监控和所有所述从监控,以通过所述主监控和所有所述从监控对所述联邦学习集群进行监控之后,包括:
S60,在通过所述主监控监听到所述联邦学习服务中心出现宕机时,向所述联邦学习集群发送与所述联邦学习服务中心对应的第一宕机指令。
可理解地,在监听到所述联邦学习服务中心出现宕机情况时,即识别到所述联邦学习服务中心出现异常,向所述联邦学习集群发送与所述联邦学习服务中心对饮固定所述第一宕机指令,所述第一宕机指令包含有所述联邦学习服务中心相关信息及出现宕机的时刻。
在一实施例中,所述步骤S60之后,即所述向所述联邦学习集群发送与所述联邦学习服务中心对应的第一宕机指令之后,还包括:
S601,接收第四监控请求,获取所述第四监控请求中的第三注册主信息和第三监控主信息;所述第四监控请求是指在所述联邦学习集群接收到所述第一宕机指令并重启所述联邦学习服务中心无效之后,通过与所述联邦学习服务中心对应的备份中心生成与所述第一宕机指令对应的请求。
可理解地,在所述联邦学习集群接收到所述第一宕机指令并重启所述联邦学习服务中心无效之后,说明软启动所述联邦学习服务中心不成功,此时就需要启用所述备份中心,所述备份中心为与所述联邦学习服务中心进行同步备份的计算机或服务器,所述备份中心通过数据同步技术时刻与所述联邦学习服务中心进行同步备份,这样能够在所述联邦学习服务中心出现异常的时候进行无缝衔接,立刻启动所述备份中心代替所述联邦学习服务中心。
S602,通过所述监控服务中心,将所述第三注册主信息与所述主节点关联并注册。
S603,根据所述第三监控主信息对所述主监控进行更新,并通过所述监听机制,启动更新后的所述主监控,通过更新之后的所述主监控对重启后的所述备份中心进行监控。
可理解地,所述更新为根据所述第三监控主信息重新设置监听的时间间隔的过程。
本发明实现了通过接收第四监控请求,获取所述第四监控请求中的第三注册主信息和第三监控主信息;通过所述监控服务中心,将所述第三注册主信息与所述主节点关联并注册;根据所述第三监控主信息对所述主监控进行更新,并通过所述监听机制,启动更新后的所述主监控,通过更新之后的所述主监控对重启后的所述备份中心进行监控,如此,实现了在联邦学习服务中心出现重启无效的情况下,通过备份中心立刻进行替代,能够做到无缝连接,继续联邦学习集群的联邦学习,保证了联邦学习的及时性。
S70,接收第三监控请求,获取所述第三监控请求中的第二注册主信息和第二监控主信息;所述第三监控请求为在所述联邦学习集群接收到所述第一宕机指令并重启所述联邦学习服务中心之后,通过重启后的所述联邦学习服务中心生成。
可理解地,在所述联邦学习集群接收到所述第一宕机指令之后,通过软启动的方式发送与所述联邦学习服务中心对应的重启指令一重启所述联邦学习服务中心,在重启所述联邦学习服务中心之后,通过所述联邦学习服务中心生成所述第三监控请求,所述第三监控请求为重新启动对所述联邦学习服务中心进行监听的请求,所述第三监控请求包括所述第二注册主信息和所述第二监控主信息,所述第二注册主信息可以与所述第一注册主信息相同,也可以与所述第一注册主信息不相同,取决于重启后的联邦学习服务中心的相关信息是否有变化,所述第二监控主信息可以与所述第一监控主信息相同,也可以与所述第一监控主信息不相同,即可以更改其监控的相关参数。
S80,通过所述监控服务中心,将所述第二注册主信息与所述主节点关联并注册。
可理解地,通过所述监控服务中心,将用于重启后的所述联邦学习服务中心的所述第二注册主信息与重启前的所述联邦学习服务中心的主节点进行关联,并进行注册。
S90,根据所述第二监控主信息对所述主监控进行更新,并通过所述监听机制,启动更新后的所述主监控,通过更新之后的所述主监控对重启后的所述联邦学习服务中心进行监控。
可理解地,在更新所述主监控之后,通过所述监听机制,重新对重启后的所述联邦学习服务中心进行监控。
本发明实现了在通过所述主监控监听到所述联邦学习服务中心出现宕机时,向所述联邦学习集群发送与所述联邦学习服务中心对应的第一宕机指令;接收第三监控请求,获取所述第三监控请求中的第二注册主信息和第二监控主信息;通过所述监控服务中心,将所述第二注册主信息与所述主节点关联并注册;根据所述第二监控主信息对所述主监控进行更新,并通过所述监听机制,启动更新后的所述主监控,通过更新之后的所述主监控对重启后的所述联邦学习服务中心进行监控,如此,实现了在联邦学习服务中心出现宕机时,监听到其宕机后重新启动联邦学习服务中心,解决宕机后需要人工参与重启的问题,提高了联邦学习的可持续性和稳定性,减少了因人工参与而耽搁的联邦学习时间,提高了联邦学习的效率。
在一实施例中,所述步骤S90之后,即对重启后的所述联邦学习服务中心进行监控之后,包括:
S901,将与所述第一宕机指令对应的重启事件记录至日志中。
可理解地,所述日志为记录所述联邦学习集群中出现重启的事件的集合,所述重启事件记录了重启的事件信息,包含有所述第一宕机指令的所述重启事件说明了所述联邦学习服务中心在何时发生了宕机及进行了重启。
S902,对所述日志进行宕机分析,得到宕机分布图。
可理解地,所述宕机分析为对所述日志中的所有所述重启事件进行时段分析,即分时段对所有重启事件进行特征分析及提取,通过对该特征(比如频次和时间段特征)的分布情况确定出所述联邦学习集群中的哪些计算机或服务器出现宕机的概率大,从而得到出现宕机的概率分布图,即所述宕机分布图。
S903,根据所述宕机分布图,制定均衡策略,生成调节数据,并将所述调节数据发送至所述联邦学习集群进行实施。
可理解地,将所述宕机分布图输入策略模型中,所述策略模型可以为神经网络模型也可以为预设的匹配模型,通过所述策略模型对所述宕机分布图进行策略映射,映射出与所述宕机分布图对应的所述联邦学习集群的高效时序图,根据所述高效时序图预测出所述均衡策略,从而根据所述均衡策略生成所述调节数据,所述调节数据表明了各时间段下各个联邦学习集群中的计算机或服务器的资源负载传输数据的占比数据,所述联邦学习集群根据所述调节数据进行执行,如此,可以有效地识别出联邦学习集群的宕机分布,充分协调联邦学习集群的资源,从而保证联邦学习集群处于高效的、持续的联邦学习中。
本发明实现了通过将与所述第一宕机指令对应的重启事件记录至日志中;对所述日志进行宕机分析,得到宕机分布图;根据所述宕机分布图,制定均衡策略,生成调节数据,并将所述调节数据发送至所述联邦学习集群进行实施,如此,实现了通过日志记录重启事件,并进行宕机分析,生成宕机分布图,以及制定均衡策略,并发送至联邦学习集群进行实施,因此,保证了联邦学习集群处于高效的、持续的联邦学习中,提高了联邦学习的质量。
在一实施例中,所述步骤S50之后,即所述通过所述监控服务中心的监听机制,启动所述主监控和所有所述从监控,以通过所述主监控和所有所述从监控对所述联邦学习集群进行监控之后,还包括:
S100,在通过所述从监控监听到任一所述联邦学习参与者出现宕机时,向所述联邦学习集群发送与出现宕机的联邦学习参与者对应的第二宕机指令。
可理解地,在任何一个所述联邦学习参与者出现宕机时,发送与出现宕机的所述联邦学习参与者对应的所述第二宕机指令,所述第二宕机指令为包含有宕机的所述联邦学习参与者相关信息及出现宕机的时刻。
S110,接收到第五监控请求,获取所述第五监控请求中的第二注册从信息和第二监控从信息;所述第五监控请求为在所述联邦学习集群接收到所述第二宕机指令并重启与所述第二宕机指令对应的所述联邦学习参与者之后通过重启后的所述联邦学习参与者生成。
其中,所述第二注册从信息为宕机的所述联邦学习参与者的注册信息,所述第二监控从信息为对出现宕机的所述联邦学习参与者重新设置监听相关参数的信息,例如增加监听的频率等等。
S120,根据各所述第二注册从信息注册至所述监控服务中心,并创建与所述第二注册从信息对应的第二从节点,并在所述主路径下创建与该第二从节点对应的从路径。
可理解地,在监控服务中心中注册所述第二注册从信息,并根据所述第二注册从信息创建一个所述第二从节点,以及创建与该第二从节点对应的从路径。
S130,创建与所述第二监控从信息对应的从监控,通过所述监听机制,启动创建后的所述从监控,通过创建后的所述从监控对重启后的所述联邦学习参与者进行监控。
可理解地,根据所述第二监控从信息,创建一个新的所述从监控,并启动该从监控,以实现对重启后的所述联邦学习参与者进行监控,可以通过增加监听频率以完善监听机制。
本发明实现了在通过所述从监控监听到任一所述联邦学习参与者出现宕机时,向所述联邦学习集群发送与出现宕机的联邦学习参与者对应的第二宕机指令;接收到第五监控请求,获取所述第五监控请求中的第二注册从信息和第二监控从信息;所述第五监控请求为在所述联邦学习集群接收到所述第二宕机指令并重启与所述第二宕机指令对应的所述联邦学习参与者之后通过重启后的所述联邦学习参与者生成;根据各所述第二注册从信息注册至所述监控服务中心,并创建与所述第二注册从信息对应的第二从节点,并在所述主路径下创建与该第二从节点对应的从路径;创建与所述第二监控从信息对应的从监控,通过所述监听机制,启动创建后的所述从监控,通过创建后的所述从监控对重启后的所述联邦学习参与者进行监控,如此,实现了对宕机的联邦学习参与者重启后重新创建从监控,以改变新的监控参数进行监听,保证所述联邦学习参与者正常运行,提高了联邦学习的质量。
在一实施例中,提供一种联邦学习集群监控装置,该联邦学习集群监控装置与上述实施例中联邦学习集群监控方法一一对应。如图4所示,该联邦学习集群监控装置包括接收模块11、创建模块12、获取模块13、注册模块14和启动模块15。各功能模块详细说明如下:
接收模块11,用于接收来自联邦学习集群中的联邦学习服务中心的第一监控请求,获取所述第一监控请求中的第一注册主信息和第一监控主信息;所述联邦学习集群包括一个所述联邦学习服务中心和多个联邦学习参与者;
创建模块12,用于根据所述第一注册主信息,将所述联邦学习服务中心注册至监控服务中心,并在所述监控服务中心中创建与所述第一注册主信息对应的主节点和主路径之后,向所述联邦学习服务中心发送与所述主节点对应的创建成功指令,同时创建与所述第一监控主信息对应的主监控;
获取模块13,用于接收各所述联邦学习参与者发送的第二监控请求,获取各所述第二监控请求中的第一注册从信息和第一监控从信息;一个所述第二监控请求包括一个所述第一注册从信息和一个所述第一监控从信息;所述第二监控请求为所述联邦学习服务中心接收到所述创建成功指令之后由所有所述联邦学习参与者触发生成;
注册模块14,用于根据各所述第一注册从信息,将各所述联邦学习参与者注册至所述监控服务中心,并在所述监控服务中心中创建与各所述第一注册从信息对应的第一从节点,以及在所述主路径下创建与各所述第一从节点一一对应的从路径之后,创建与各所述联邦学习参与者生成的所述第一监控从信息对应的从监控;
启动模块15,用于通过所述监控服务中心的监听机制,启动所述主监控和所有所述从监控,以通过所述主监控和所有所述从监控对所述联邦学习集群进行监控。
关于联邦学习集群监控装置的具体限定可以参见上文中对于联邦学习集群监控方法的限定,在此不再赘述。上述联邦学习集群监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种联邦学习集群监控方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中联邦学习集群监控方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中联邦学习集群监控方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种联邦学习集群监控方法,其特征在于,包括:
接收来自联邦学习集群中的联邦学习服务中心的第一监控请求,获取所述第一监控请求中的第一注册主信息和第一监控主信息;所述联邦学习集群包括一个所述联邦学习服务中心和多个联邦学习参与者;
根据所述第一注册主信息,将所述联邦学习服务中心注册至监控服务中心,并在所述监控服务中心中创建与所述第一注册主信息对应的主节点和主路径之后,向所述联邦学习服务中心发送与所述主节点对应的创建成功指令,同时创建与所述第一监控主信息对应的主监控;
接收各所述联邦学习参与者发送的第二监控请求,获取各所述第二监控请求中的第一注册从信息和第一监控从信息;一个所述第二监控请求包括一个所述第一注册从信息和一个所述第一监控从信息;所述第二监控请求为所述联邦学习服务中心接收到所述创建成功指令之后由所有所述联邦学习参与者触发生成;
根据各所述第一注册从信息,将各所述联邦学习参与者注册至所述监控服务中心,并在所述监控服务中心中创建与各所述第一注册从信息对应的第一从节点,以及在所述主路径下创建与各所述第一从节点一一对应的从路径之后,创建与各所述联邦学习参与者生成的所述第一监控从信息对应的从监控;
通过所述监控服务中心的监听机制,启动所述主监控和所有所述从监控,以通过所述主监控和所有所述从监控对所述联邦学习集群进行监控。
2.如权利要求1所述的联邦学习集群监控方法,其特征在于,所述通过所述监控服务中心的监听机制,启动所述主监控和所有所述从监控,以通过所述主监控和所有所述从监控对所述联邦学习集群进行监控之后,包括:
在通过所述主监控监听到所述联邦学习服务中心出现宕机时,向所述联邦学习集群发送与所述联邦学习服务中心对应的第一宕机指令;
接收第三监控请求,获取所述第三监控请求中的第二注册主信息和第二监控主信息;所述第三监控请求为在所述联邦学习集群接收到所述第一宕机指令并重启所述联邦学习服务中心之后,通过重启后的所述联邦学习服务中心生成;
将所述第二注册主信息与所述主节点关联,将重启后与所述第二注册主信息对应的所述联邦学习服务中心注册至所述监控服务中心;
根据所述第二监控主信息对所述主监控进行更新,并通过所述监听机制,启动更新后的所述主监控,通过更新之后的所述主监控对重启后的所述联邦学习服务中心进行监控。
3.如权利要求2所述的联邦学习集群监控方法,其特征在于,所述对重启后的所述联邦学习服务中心进行监控之后,包括:
将与所述第一宕机指令对应的重启事件记录至日志中;
对所述日志进行宕机分析,得到宕机分布图;
根据所述宕机分布图,制定均衡策略,生成调节数据,并将所述调节数据发送至所述联邦学习集群进行实施。
4.如权利要求2所述的联邦学习集群监控方法,其特征在于,所述向所述联邦学习集群发送与所述联邦学习服务中心对应的第一宕机指令之后,还包括:
接收第四监控请求,获取所述第四监控请求中的第三注册主信息和第三监控主信息;所述第四监控请求是指在所述联邦学习集群接收到所述第一宕机指令并重启所述联邦学习服务中心无效之后,通过与所述联邦学习服务中心对应的备份中心生成与所述第一宕机指令对应的请求;
将所述第三注册主信息与所述主节点关联,将所述备份中心注册至所述监控服务中心;
根据所述第三监控主信息对所述主监控进行更新,并通过所述监听机制,启动更新后的所述主监控,通过更新之后的所述主监控对重启后的所述备份中心进行监控。
5.如权利要求1所述的联邦学习集群监控方法,其特征在于,所述接收来自联邦学习集群中的联邦学习服务中心的第一监控请求之前,包括:
构建一个基于Kubernetes的初始集群;Kubernetes指用于部署、扩展和管理容器化应用程序的开源系统;
运用基于飞桨的联邦学习框架,在所述初始集群中搭建所述联邦学习服务中心和所述联邦学习参与者,将搭建后的所述初始集群确定为所述联邦学习集群。
6.如权利要求1所述的联邦学习集群监控方法,其特征在于,所述通过所述监控服务中心的监听机制,启动所述主监控和所有所述从监控,以通过所述主监控和所有所述从监控对所述联邦学习集群进行监控之后,还包括:
在通过所述从监控监听到任一所述联邦学习参与者出现宕机时,向所述联邦学习集群发送与出现宕机的联邦学习参与者对应的第二宕机指令;
接收到第五监控请求,获取所述第五监控请求中的第二注册从信息和第二监控从信息;所述第五监控请求为在所述联邦学习集群接收到所述第二宕机指令并重启与所述第二宕机指令对应的所述联邦学习参与者之后通过重启后的所述联邦学习参与者生成;
根据各所述第二注册从信息,将各所述联邦学习参与者注册至所述监控服务中心,并创建与所述第二注册从信息对应的第二从节点,并在所述主路径下创建与该第二从节点对应的从路径;
创建与所述第二监控从信息对应的从监控,通过所述监听机制,启动创建后的所述从监控,通过创建后的所述从监控对重启后的所述联邦学习参与者进行监控。
7.如权利要求1所述的联邦学习集群监控方法,其特征在于,所述通过所述监控服务中心的监听机制,启动所述主监控和所有所述从监控,以通过所述主监控和所有所述从监控对所述联邦学习集群进行监控,包括:
根据所述主监控和所有所述从监控,生成发送线程和事件线程;
通过异步方式启动所述发送线程和所述事件线程;
运用所述监听机制监控所述发送线程和所述事件线程。
8.一种联邦学习集群监控装置,其特征在于,包括:
接收模块,用于接收来自联邦学习集群中的联邦学习服务中心的第一监控请求,获取所述第一监控请求中的第一注册主信息和第一监控主信息;所述联邦学习集群包括一个所述联邦学习服务中心和多个联邦学习参与者;
创建模块,用于根据所述第一注册主信息,将所述联邦学习服务中心注册至监控服务中心,并在所述监控服务中心中创建与所述第一注册主信息对应的主节点和主路径之后,向所述联邦学习服务中心发送与所述主节点对应的创建成功指令,同时创建与所述第一监控主信息对应的主监控;
获取模块,用于接收各所述联邦学习参与者发送的第二监控请求,获取各所述第二监控请求中的第一注册从信息和第一监控从信息;一个所述第二监控请求包括一个所述第一注册从信息和一个所述第一监控从信息;所述第二监控请求为所述联邦学习服务中心接收到所述创建成功指令之后由所有所述联邦学习参与者触发生成;
注册模块,用于根据各所述第一注册从信息,将各所述联邦学习参与者注册至所述监控服务中心,并在所述监控服务中心中创建与各所述第一注册从信息对应的第一从节点,以及在所述主路径下创建与各所述第一从节点一一对应的从路径之后,创建与各所述联邦学习参与者生成的所述第一监控从信息对应的从监控;
启动模块,用于通过所述监控服务中心的监听机制,启动所述主监控和所有所述从监控,以通过所述主监控和所有所述从监控对所述联邦学习集群进行监控。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述联邦学习集群监控方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述联邦学习集群监控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011585022.0A CN112671613B (zh) | 2020-12-28 | 2020-12-28 | 联邦学习集群监控方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011585022.0A CN112671613B (zh) | 2020-12-28 | 2020-12-28 | 联邦学习集群监控方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112671613A CN112671613A (zh) | 2021-04-16 |
CN112671613B true CN112671613B (zh) | 2022-08-23 |
Family
ID=75411346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011585022.0A Active CN112671613B (zh) | 2020-12-28 | 2020-12-28 | 联邦学习集群监控方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112671613B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418439B (zh) * | 2020-11-25 | 2023-09-26 | 脸萌有限公司 | 模型使用方法、装置、存储介质及设备 |
CN113674843A (zh) * | 2021-07-08 | 2021-11-19 | 浙江一山智慧医疗研究有限公司 | 医疗费用预测的方法、装置、系统、电子装置和存储介质 |
CN113672348B (zh) * | 2021-08-10 | 2024-06-18 | 支付宝(杭州)信息技术有限公司 | 基于容器集群对联合计算多方进行服务校验的方法及系统 |
CN114584581B (zh) * | 2022-01-29 | 2024-01-09 | 华东师范大学 | 面向智慧城市物联网信物融合的联邦学习系统及联邦学习训练方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110380917A (zh) * | 2019-08-26 | 2019-10-25 | 深圳前海微众银行股份有限公司 | 联邦学习系统的控制方法、装置、终端设备及存储介质 |
CN110443375A (zh) * | 2019-08-16 | 2019-11-12 | 深圳前海微众银行股份有限公司 | 一种联邦学习方法及装置 |
CN111125779A (zh) * | 2019-12-17 | 2020-05-08 | 山东浪潮人工智能研究院有限公司 | 一种基于区块链的联邦学习方法及装置 |
CN111768008A (zh) * | 2020-06-30 | 2020-10-13 | 平安科技(深圳)有限公司 | 联邦学习方法、装置、设备和存储介质 |
CN111931949A (zh) * | 2019-05-13 | 2020-11-13 | 国际商业机器公司 | 联邦学习环境中的通信 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598870B (zh) * | 2019-09-02 | 2024-04-30 | 深圳前海微众银行股份有限公司 | 一种联邦学习方法及装置 |
CN110874649B (zh) * | 2020-01-16 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 联邦学习的执行方法、系统、客户端及电子设备 |
-
2020
- 2020-12-28 CN CN202011585022.0A patent/CN112671613B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931949A (zh) * | 2019-05-13 | 2020-11-13 | 国际商业机器公司 | 联邦学习环境中的通信 |
CN110443375A (zh) * | 2019-08-16 | 2019-11-12 | 深圳前海微众银行股份有限公司 | 一种联邦学习方法及装置 |
CN110380917A (zh) * | 2019-08-26 | 2019-10-25 | 深圳前海微众银行股份有限公司 | 联邦学习系统的控制方法、装置、终端设备及存储介质 |
CN111125779A (zh) * | 2019-12-17 | 2020-05-08 | 山东浪潮人工智能研究院有限公司 | 一种基于区块链的联邦学习方法及装置 |
CN111768008A (zh) * | 2020-06-30 | 2020-10-13 | 平安科技(深圳)有限公司 | 联邦学习方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
基于联邦学习和卷积神经网络的入侵检测方法;王蓉等;《信息网络安全》;20200410(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112671613A (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112671613B (zh) | 联邦学习集群监控方法、装置、设备及介质 | |
CN111401903B (zh) | 区块链消息处理方法、装置、计算机以及可读存储介质 | |
WO2022105138A1 (zh) | 去中心化的任务调度方法、装置、设备及介质 | |
CN111813570A (zh) | 一种电力物联网的事件驱动型消息交互方法 | |
CN106817408B (zh) | 一种分布式服务器集群调度方法及装置 | |
CN109194514B (zh) | 一种双机监测方法、装置、服务器及存储介质 | |
CN108446172B (zh) | 数据调取方法、装置、计算机设备和存储介质 | |
CN109857751A (zh) | 基于区块链的跨平台数据更新方法、装置和计算机设备 | |
CN111026602A (zh) | 一种云平台的健康巡检调度管理方法、装置及电子设备 | |
CN112486707B (zh) | 基于Redis的消息异步消费方法及装置 | |
US11397632B2 (en) | Safely recovering workloads within a finite timeframe from unhealthy cluster nodes | |
CN112527507A (zh) | 集群部署方法、装置、计算机设备和存储介质 | |
CN112564980A (zh) | 一种基于微服务架构的服务监控方法及系统 | |
CN109257396B (zh) | 一种分布式锁调度方法及装置 | |
CN113612814B (zh) | 一种会话信息的筛选方法、装置、终端及存储介质 | |
CN111125681A (zh) | 业务处理方法、装置及存储介质 | |
CN111211925B (zh) | 告警信息同步方法、装置、计算机设备和存储介质 | |
CN104410511A (zh) | 一种服务器管理方法及系统 | |
CN112000444B (zh) | 数据库事务处理方法、装置、存储介质和电子设备 | |
CN113946491A (zh) | 微服务数据处理方法、装置、计算机设备及存储介质 | |
CN111327447A (zh) | 一种分布式系统、仲裁方法、节点设备及存储介质 | |
CN113312059A (zh) | 一种服务处理系统、方法及云原生系统 | |
CN116346834A (zh) | 一种会话同步方法、装置、计算设备及计算机存储介质 | |
CN111338767A (zh) | PostgreSQL主从数据库自动切换系统及方法 | |
CN115643271A (zh) | 一种云上多应用数据同步方法、装置、服务器及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |