CN116033534B - 一种应急分布式集群及其构建方法 - Google Patents

一种应急分布式集群及其构建方法 Download PDF

Info

Publication number
CN116033534B
CN116033534B CN202310335012.9A CN202310335012A CN116033534B CN 116033534 B CN116033534 B CN 116033534B CN 202310335012 A CN202310335012 A CN 202310335012A CN 116033534 B CN116033534 B CN 116033534B
Authority
CN
China
Prior art keywords
computing node
node server
server
state
distributed cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310335012.9A
Other languages
English (en)
Other versions
CN116033534A (zh
Inventor
刘成
田波
吉庆兵
于飞
倪绿林
张秦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
Original Assignee
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute filed Critical CETC 30 Research Institute
Priority to CN202310335012.9A priority Critical patent/CN116033534B/zh
Publication of CN116033534A publication Critical patent/CN116033534A/zh
Application granted granted Critical
Publication of CN116033534B publication Critical patent/CN116033534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供一种应急分布式集群及其构建方法,所述构建方法包括:步骤1,计算节点注册;步骤2,基于注册的计算节点进行任务调度;步骤3,配置计算节点服务器自动休眠服务。本发明借助低功耗无线网关作为计算节点守护代理、采用服务器整机自动休眠和远程快速唤醒的方法保证了计算资源的低能耗和可用性,在任务调度环节结合了服务器快速唤醒,形成了一种基于能耗管理的任务调度方法,不仅构造了应急分布式集群系统,还实现了在其上的任务调度。

Description

一种应急分布式集群及其构建方法
技术领域
本发明涉及集群系统技术领域,具体而言,涉及一种应急分布式集群及其构建方法。
背景技术
传统的集群系统,采用集中式的高性能计算机构建,其机房建设配置高:机器配置好,网络质量高,计算资源差异化小,集群固定不变,供电充足,散热好。
相较于传统集群系统,应急分布式集群系统是在灾害、突发事件情况下零时构建的应急用分布式集群系统具有传统集群系统的基本特点外,还需要适应应急环境,表现在以下几个方面:
(1)由于计算节点处于机动状态,集群的构建需要能够自动快速组建;
(2)由于计算节点供电紧张,大部分时间处于休眠状态,因此对计算节点的使用需要考虑休眠和唤醒问题;
(3)任务调度方面也需要考虑计算节点的能耗管理问题,因此需要采用基于能耗管理的任务调度算法;
为了在应急条件下利用应急分布式集群系统开展计算任务,需要解决两个方面的问题:1、计算节点能够快速自动地组织起来,形成分布式集群;2、在能源紧张的情况下实现任务调度。现在技术存在以下问题:
(1)应急分布式集群其计算节点绝大部分时间处于待命状态,采用DVFS(动态电压频率调整)技术在长时间待命中也会消耗大量能耗;
(2)应急分布式集群的计算节点为了节约能耗,在初始状态往往处于休眠状态,目前的服务发现技术并不能发现这些计算节点;
(3)应急分布式集群的计算节点为了节约能耗,在没有任务时往往处于休眠状态,目前的任务调度方法并不能将任务调度至这些计算节点。
发明内容
本发明旨在提供一种应急分布式集群及其构建方法,充分考虑应急条件下计算节点能源紧张、机动性高等特点,解决计算节点服务器在休眠状态如何构建分布式集群系统并实现任务调度的问题,为应急条件下构建可用的、节能的分布式集群系统提供一种方法。
本发明提供的一种应急分布式集群构建方法,包括:
步骤1,计算节点注册;
步骤2,基于注册的计算节点进行任务调度;
步骤3,配置计算节点服务器自动休眠服务。
进一步地,步骤1中,计算节点注册的步骤包括:
步骤1.1,管理节点启动无线网关和服务器上的分布式集群管理程序;计算节点开启无线网关,计算节点服务器处于休眠状态;
步骤1.2,管理节点通过其无线网关探测计算节点的无线网关,并形成以管理节点为中心的星型无线网络;
步骤1.3,查询计算节点状态表,若计算节点服务器未注册且计算节点服务器状态为休眠状态,则通过发送携带计算节点服务器mac地址的远程唤醒命令唤醒计算节点服务器;
步骤1.4,计算节点服务器接收到远程唤醒命令后启动,自动运行主程序,发现计算节点服务器还未注册,向分布式集群管理程序发起注册请求,完成注册;在完成注册后,借助Zookeeper同步计算节点服务器硬件状态和计算节点服务器工作状态;
步骤1.5,计算节点服务器唤醒后将启动服务器自动休眠服务,长时间无任务执行,计算节点服务器将自动进入休眠模式。
进一步地,步骤1.4中,计算节点服务器工作状态包括4种:休眠、启动、繁忙、故障;启动状态表示计算节点服务器被唤醒后等待任务时,繁忙状态表示计算节点服务器正在执行任务。
进一步地,步骤2中,基于注册的计算节点进行任务调度的步骤包括:
步骤2.1,操作员通过分布式集群管理程序提交任务;
步骤2.2,将任务分解为适合分布式运行的子任务;
步骤2.3,分布式集群管理程序对子任务进行分析,根据分析结果在计算节点状态表中选定计算节点以及休眠或启动状态的计算节点服务器;
步骤2.4,从计算节点状态表中查询步骤2.2选定的计算节点服务器状态,如计算节点服务器工作状态为“休眠”则进入步骤2.5,如计算节点服务器工作状态为“启动”则进入步骤2.6,如计算节点服务器工作状态为“繁忙”则返回步骤2.3重新选择计算节点服务器;
步骤2.5,从计算节点状态表中获得“休眠”状态计算节点服务器mac地址,通过Wake-on-lan程序发送携带计算节点服务器mac地址的远程唤醒命令唤醒目标计算节点服务器,并等待计算节点服务器状态为“启动”;
步骤2.6,将子任务分发给选定的计算节点服务器,等待所有子任务执行完毕;
步骤2.7,所有子任务执行完毕后,获得执行结果。
进一步地,步骤2.3中,分布式集群管理程序对子任务的任务类型、计算量和能耗进行分析。
进一步地,步骤3中,配置计算节点服务器自动休眠服务的步骤包括:
计算节点服务器唤醒后将启动服务器自动休眠服务,一段时间无任务执行,计算节点服务器将根据支持的休眠类型自动进入休眠模式,等待被远程唤醒。
进一步地,根据linux内核支持的4种休眠模式,计算节点服务器选择对应ACPI状态的S3模式自动进入休眠模式。
本发明还提供一种应急分布式集群,所述应急分布式集群采用上述的应急分布式集群构建方法构建得到,包括:
具有无线网关和服务器的管理节点
以及具有无线网关和服务器的计算节点。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明借助低功耗无线网关作为计算节点守护代理、采用服务器整机自动休眠和远程快速唤醒的方法保证了计算资源的低能耗和可用性,在任务调度环节结合了服务器快速唤醒,形成了一种基于能耗管理的任务调度方法,不仅构造了应急分布式集群系统,还实现了在其上的任务调度。具体地:
1、借助低功耗的无线网关保持网络连接并监听服务器远程唤醒命令,可使高功耗的服务器在没有任务时处于休眠状态,在有任务时可通过远程唤醒的方式快速进入工作状态,最大限度降低计算节点能耗;
2、通过无线网关的Adhoc网络模式实现网络层面的服务发现,计算节点服务器主动注册、zookeeper自动同步计算节点服务器状态的方式实现应用层面的服务注册,最终实现计算节点快速接入应急分布式集群系统;
3、在任务调用过程中对休眠计算节点服务器进行远程唤醒后再调用的方法,解决计算节点服务器休眠态下不能接收调度任务的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例中应急分布式集群构建方法的原理图。
图2为本发明实施例构建的应急分布式集群中管理节点或计算节点的硬件组成图。
图3为本发明实施例构建的应急分布式集群的工作流程图。
图4为本发明实施例构建的应急分布式集群中远程唤醒服务器流程图。
图5为本发明实施例构建的应急分布式集群中服务器自动休眠流程图。
图6为本发明实施例构建的应急分布式集群中基于能耗管理的任务调度流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1、图2、图3所示,本实施例提出一种应急分布式集群构建方法,包括如下步骤:
步骤1,计算节点注册:
步骤1.1,管理节点启动无线网关和服务器上的分布式集群管理程序;计算节点开启无线网关,计算节点服务器处于休眠状态;
步骤1.2,管理节点通过其无线网关(Adhoc无线网络)探测计算节点的无线网关,并形成以管理节点为中心的星型无线网络;
步骤1.3,查询计算节点状态表,如表1所示,若计算节点服务器未注册且计算节点服务器状态为休眠状态,则通过发送携带计算节点服务器mac地址的远程唤醒命令唤醒计算节点服务器;
表1,计算节点状态表:
Figure SMS_1
步骤1.4,计算节点服务器接收到远程唤醒命令后启动,自动运行主程序,发现计算节点服务器还未注册,向分布式集群管理程序(其地址预置在计算节点程序中)发起注册请求,完成注册;在完成注册后,借助Zookeeper同步计算节点服务器硬件状态和计算节点服务器工作状态(见表1),其中,计算节点服务器工作状态包括4种:休眠、启动、繁忙、故障,启动状态表示计算节点服务器被唤醒后等待任务时,繁忙状态表示计算节点服务器正在执行任务;
步骤1.5,计算节点服务器唤醒后将启动服务器自动休眠服务,长时间无任务执行,计算节点服务器将自动进入休眠模式,见步骤3。
步骤2,基于注册的计算节点进行任务调度:
步骤2.1,操作员通过分布式集群管理程序提交任务;
步骤2.2,将任务分解为适合分布式运行的子任务;
步骤2.3,分布式集群管理程序对子任务的任务类型、计算量和能耗进行分析,根据分析结果在计算节点状态表(表1)中选定计算节点以及休眠或启动状态的计算节点服务器;
步骤2.4,从计算节点状态表(表1)中查询步骤2.2选定的计算节点服务器状态,如计算节点服务器工作状态为“休眠”则进入步骤2.5,如计算节点服务器工作状态为“启动”则进入步骤2.6,如计算节点服务器工作状态为“繁忙”则返回步骤2.3重新选择计算节点服务器;
步骤2.5,从计算节点状态表(表1)中获得“休眠”状态计算节点服务器mac地址,通过Wake-on-lan程序发送携带计算节点服务器mac地址的远程唤醒命令唤醒目标计算节点服务器,并等待计算节点服务器状态为“启动”,远程唤醒服务器流程见图4;
步骤2.6,将子任务分发给选定的计算节点服务器,等待所有子任务执行完毕;
步骤2.7,所有子任务执行完毕后,获得执行结果。基于能耗管理的任务调度流程见图6;
步骤3,配置计算节点服务器自动休眠服务:
计算节点服务器唤醒后将启动服务器自动休眠服务,一段时间无任务执行(时间可按需设置),计算节点服务器将根据支持的休眠类型自动进入休眠模式,等待被远程唤醒。计算节点服务器自动休眠流程见图5。其中,linux内核通常最多支持4种休眠模式,可从/sys/power/state读取或写入,有“mem”、“standby”、“freeze”和“disk”,分别对应ACPI状态的S0~S4,实测认为选择对应ACPI状态的S3模式进行休眠最合适,如表2所示。
表2,服务器休眠模式:
Figure SMS_2
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种应急分布式集群构建方法,其特征在于,包括:
步骤1,计算节点注册;
步骤2,基于注册的计算节点进行任务调度;
步骤3,配置计算节点服务器自动休眠服务;
步骤1中,计算节点注册的步骤包括:
步骤1.1,管理节点启动无线网关和服务器上的分布式集群管理程序;计算节点开启无线网关,计算节点服务器处于休眠状态;
步骤1.2,管理节点通过其无线网关探测计算节点的无线网关,并形成以管理节点为中心的星型无线网络;
步骤1.3,查询计算节点状态表,若计算节点服务器未注册且计算节点服务器状态为休眠状态,则通过发送携带计算节点服务器mac地址的远程唤醒命令唤醒计算节点服务器;
步骤1.4,计算节点服务器接收到远程唤醒命令后启动,自动运行主程序,发现计算节点服务器还未注册,向分布式集群管理程序发起注册请求,完成注册;在完成注册后,借助Zookeeper同步计算节点服务器硬件状态和计算节点服务器工作状态;
步骤1.5,计算节点服务器唤醒后将启动服务器自动休眠服务,长时间无任务执行,计算节点服务器将自动进入休眠模式;
步骤2中,基于注册的计算节点进行任务调度的步骤包括:
步骤2.1,操作员通过分布式集群管理程序提交任务;
步骤2.2,将任务分解为适合分布式运行的子任务;
步骤2.3,分布式集群管理程序对子任务进行分析,根据分析结果在计算节点状态表中选定计算节点以及休眠或启动状态的计算节点服务器;
步骤2.4,从计算节点状态表中查询步骤2.2选定的计算节点服务器状态,如计算节点服务器工作状态为“休眠”则进入步骤2.5,如计算节点服务器工作状态为“启动”则进入步骤2.6,如计算节点服务器工作状态为“繁忙”则返回步骤2.3重新选择计算节点服务器;
步骤2.5,从计算节点状态表中获得“休眠”状态计算节点服务器mac地址,通过Wake-on-lan程序发送携带计算节点服务器mac地址的远程唤醒命令唤醒目标计算节点服务器,并等待计算节点服务器状态为“启动”;
步骤2.6,将子任务分发给选定的计算节点服务器,等待所有子任务执行完毕;
步骤2.7,所有子任务执行完毕后,获得执行结果。
2.根据权利要求1所述的应急分布式集群构建方法,其特征在于,步骤1.4中,计算节点服务器工作状态包括4种:休眠、启动、繁忙、故障;启动状态表示计算节点服务器被唤醒后等待任务时,繁忙状态表示计算节点服务器正在执行任务。
3.根据权利要求1所述的应急分布式集群构建方法,其特征在于,步骤2.3中,分布式集群管理程序对子任务的任务类型、计算量和能耗进行分析。
4.根据权利要求1所述的应急分布式集群构建方法,其特征在于,步骤3中,配置计算节点服务器自动休眠服务的步骤包括:
计算节点服务器唤醒后将启动服务器自动休眠服务,一段时间无任务执行,计算节点服务器将根据支持的休眠类型自动进入休眠模式,等待被远程唤醒。
5.根据权利要求4所述的应急分布式集群构建方法,其特征在于,根据linux内核支持的4种休眠模式,计算节点服务器选择对应ACPI状态的S3模式自动进入休眠模式。
6.一种应急分布式集群,其特征在于,所述应急分布式集群采用如权利要求1-5任一项所述的应急分布式集群构建方法构建得到,包括:
具有无线网关和服务器的管理节点
以及具有无线网关和服务器的计算节点。
CN202310335012.9A 2023-03-31 2023-03-31 一种应急分布式集群及其构建方法 Active CN116033534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310335012.9A CN116033534B (zh) 2023-03-31 2023-03-31 一种应急分布式集群及其构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310335012.9A CN116033534B (zh) 2023-03-31 2023-03-31 一种应急分布式集群及其构建方法

Publications (2)

Publication Number Publication Date
CN116033534A CN116033534A (zh) 2023-04-28
CN116033534B true CN116033534B (zh) 2023-06-09

Family

ID=86089794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310335012.9A Active CN116033534B (zh) 2023-03-31 2023-03-31 一种应急分布式集群及其构建方法

Country Status (1)

Country Link
CN (1) CN116033534B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103684754A (zh) * 2013-12-03 2014-03-26 中国电子科技集团公司第三十研究所 一种基于gpu集群的wpa共享密钥破解系统
CN104935484A (zh) * 2015-05-28 2015-09-23 北京海尔广科数字技术有限公司 一种通过网关调用家电服务的方法及装置
CN108668524A (zh) * 2016-01-27 2018-10-16 梁平 通过智能自组织无线分布式有源天线增强的蜂窝无线通信系统
CN109588064A (zh) * 2016-05-13 2019-04-05 瑞典爱立信有限公司 用于无线通信网络的网络架构、方法和设备
CN109600822A (zh) * 2018-12-26 2019-04-09 深圳市华智芯联科技有限公司 无线通信系统的节点唤醒方法、无线通信系统及设备
CN113785643A (zh) * 2019-05-03 2021-12-10 诺基亚技术有限公司 Ue功率节省中的动态调度参数适配

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9582062B2 (en) * 2010-11-05 2017-02-28 Microsoft Technology Licensing, Llc Decentralized sleep management
US20200187120A1 (en) * 2017-07-07 2020-06-11 Nokia Technologies Oy Controlling connectivity for dozing of wireless device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103684754A (zh) * 2013-12-03 2014-03-26 中国电子科技集团公司第三十研究所 一种基于gpu集群的wpa共享密钥破解系统
CN104935484A (zh) * 2015-05-28 2015-09-23 北京海尔广科数字技术有限公司 一种通过网关调用家电服务的方法及装置
CN108668524A (zh) * 2016-01-27 2018-10-16 梁平 通过智能自组织无线分布式有源天线增强的蜂窝无线通信系统
CN109588064A (zh) * 2016-05-13 2019-04-05 瑞典爱立信有限公司 用于无线通信网络的网络架构、方法和设备
CN109600822A (zh) * 2018-12-26 2019-04-09 深圳市华智芯联科技有限公司 无线通信系统的节点唤醒方法、无线通信系统及设备
CN113785643A (zh) * 2019-05-03 2021-12-10 诺基亚技术有限公司 Ue功率节省中的动态调度参数适配

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Tamaki Masako ; Watanabe Takeo ; Sasaki Yuka.Coregistration of magnetic resonance spectroscopy and polysomnography for sleep analysis in human subjects.《STAR Protocols》.2021,全文. *

Also Published As

Publication number Publication date
CN116033534A (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
US10613900B2 (en) Multi-tenant monitoring
Gu et al. Energy efficient scheduling of servers with multi-sleep modes for cloud data center
Dutta et al. System software techniques for low-power operation in wireless sensor networks
CN106059835B (zh) 一种低能耗计算机集群节点的高可靠性控制方法
US20120120958A1 (en) Deep sleep mode management for a network switch
US20090055665A1 (en) Power Control of Servers Using Advanced Configuration and Power Interface (ACPI) States
CN102929720B (zh) 一种节能作业调度系统
CN107204999B (zh) 一种实现心跳的方法和装置
US8868943B2 (en) Stateless remote power management of computers
US9069601B2 (en) Method and apparatus for controlling task execution
WO2011160500A1 (zh) 一种动态能耗控制方法及系统、相关设备
WO2016115956A1 (zh) 基于云计算的业务系统的调度方法及调度装置
CN110568919B (zh) 一种降低芯片功耗的装置
CN103701889A (zh) 一种基于云计算的数据中心节能方法
CN101916138A (zh) 中央处理器工作状态和睡眠状态切换的方法和装置
WO2021148049A1 (zh) 状态确定方法、系统、介质及电子设备
CN116033534B (zh) 一种应急分布式集群及其构建方法
CN104407896A (zh) 一种简化计算机系统bios功能选项配置的方法
US8832483B1 (en) System-on-chip with power-save mode processor
CN111343705B (zh) 一种5g通信网元的智能节能方法
US20100113084A1 (en) Power saving in wireless networks
CN114327023B (zh) 一种Kubernetes集群的节能方法、系统、计算机介质和电子设备
JP2001257688A (ja) ネットワーク装置
CN111966208A (zh) 一种降低服务器功耗的方法及装置
EP2528373B1 (en) Method, apparatus and system for reducing power consumption of service system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant