CN107015622B - 一种spark集群断电自保护及来电自启动的方法 - Google Patents

一种spark集群断电自保护及来电自启动的方法 Download PDF

Info

Publication number
CN107015622B
CN107015622B CN201710262214.XA CN201710262214A CN107015622B CN 107015622 B CN107015622 B CN 107015622B CN 201710262214 A CN201710262214 A CN 201710262214A CN 107015622 B CN107015622 B CN 107015622B
Authority
CN
China
Prior art keywords
cluster
router
hosts
self
main node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710262214.XA
Other languages
English (en)
Other versions
CN107015622A (zh
Inventor
胡景钊
冯筠
马凯歌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NORTHWEST UNIVERSITY
Original Assignee
NORTHWEST UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NORTHWEST UNIVERSITY filed Critical NORTHWEST UNIVERSITY
Priority to CN201710262214.XA priority Critical patent/CN107015622B/zh
Publication of CN107015622A publication Critical patent/CN107015622A/zh
Application granted granted Critical
Publication of CN107015622B publication Critical patent/CN107015622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/30Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/10Small scale networks; Flat hierarchical networks
    • H04W84/12WLAN [Wireless Local Area Networks]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Environmental & Geological Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Power Sources (AREA)
  • Small-Scale Networks (AREA)

Abstract

本发明提供了一种spark集群断电自保护及来电自启动的方法,该方法将所有主机分别与交换机相连接,路由器的LAN口与交换机相连接;主机与交换机均通过UPS供电,路由器则通过市电供电;所有主机、交换机、路由器构成局域网;多个主机通过交换机组成集群;任选一主机设为主节点,其余主机设为次节点;主节点每隔固定的时间段检测路由是否在线,若主节点检测到路由器掉线,则认为市电供电断电,然后关闭spark集群,再关闭hadoop集群,最后关闭所有主机,以保护集群软、硬件不受损坏;若市电供电恢复,路由器自动启动,并通过局域网唤醒主节点,随后主节点自动开启集群,以达到集群来电自启动的目的。

Description

一种spark集群断电自保护及来电自启动的方法
技术领域
本发明属于大数据技术领域,具体涉及一种spark集群断电自保护及来电自启动的方法。
背景技术
Spark是包含众多子项目的大数据计算平台,已成为Apache基金会的顶级开源项目,拥有庞大的社区支持,技术也逐渐走向成熟。且在性能方面,Spark凭借着速度快、易用、通用性、可融合性及轻量级快速处理等优点在众多的大数据分析处理平台中脱引而出。但spark集群在运维方面还存在着很大的优化空间。一方面,如果突然断电,即便有紧急电源,若集群不能及时响应,在紧急电源耗尽之后,依然会导致集群出现不一致的现象,会损坏数据和集群本身,甚至直接损坏硬件设备;另一方面,市电恢复之后,需要运维人员手动启动spark集群,这增加了人力成本,且很难保障时效性。
发明内容
针对上述情况,本发明提出了一种利用普通UPS作为后备电源,能在UPS电量耗尽之前将集群系统和主机安全关闭以保护集群,并在恢复供电之后之后自动启动集群的方法,其中断电自保护是指在紧急电源失效之前主动自动将集群系统和主机关闭以保护集群。该方法可以保护spark集群在突然断电的情况下及时响应,避免遭到损坏,并在来电的时候可以自行启动spark集群,减少维护的人力成本。
一种spark集群断电自保护及来电自启动的方法,包括以下步骤:
步骤1,准备所需部件,包括:多个主机、交换机、路由器、UPS;
步骤2,将准备部件中的所有主机分别与交换机相连接,路由器的LAN口与交换机相连接;
所述主机与交换机均通过UPS供电,所述路由器通过市电供电;
所述所有主机、交换机、路由器构成局域网;
所述所有主机通过交换机组成集群;
步骤3,在局域网中,任选一主机设为主节点,其余主机设为次节点;
若主节点检测到路由器掉线,则认为市电供电断电,随后主节点先关闭局域网中的spark集群,再关闭局域网中的HADOOP集群,最后关闭所有主机;
若市电供电恢复,路由器自动启动,随后路由器下发开机指令,通过局域网唤醒主节点,主节点随后启动所有次节点,待所有次节点启动完毕后评估网络状况,然后启动局域网中的HADOOP集群,最后启动局域网中的spark集群。
进一步地,主节点每隔时间T检测一次路由器是否在线;其中,t1≤T≤t2,t1为服务器向路由器单次询问的最短时间,t2为UPS的备用电源所能供电的最长时限。
与现有的专用硬件设备(如远程开机卡)、自带远程开机功能的服务器主板、自带关闭主机功能的UPS相比,本发明具有如下特点:
1.功能更加完善,针对供电得不到保障的集群设计,能做到无人值守,而现有的方案都不能提供完整的功能支持;
2.针对集群设计,在掉电时能够及时响应以保护整个集群的安全,而现有的方案都是针对单个主机设计,不能实现集群的保护。
3.非侵入式,无需为主机添加额为的硬件,确保集群的安全和稳定性;
4.廉价,无需昂贵的特定基础配套设施;
5.定制度高,可以针对关闭集群时以及自动开启集群时,使用脚本执行相应工作流,满足集群操作复杂、需要及时对环境做出判定并执行对应操作的需求;
6.无需特殊的硬件支持,最大化的利用了组建集群的基础设施,配合巧妙的组网技巧和软件支持,达到断电保护和来电自动开启的功能。
附图说明
图1是本发明的spark集群应用的硬件拓扑图;
具体实施方式
为更加清楚的阐述本方法及其优点,下面将结合附图和实施例对本发明进行进一步描述。
本发明采用了价格低廉的没有自动关机功能的UPS来实现对spark集群掉电时的自动保护和来电时的自动开启;
实施例1
本实施例提供了一种spark集群断电自保护及来电自启动的方法,主要涉及,选择性的对网络拓扑中的部分设备启用紧急电源功能,而另一些设备则直接由市电供电,并配合相应的软件达成目的,包括以下步骤:
步骤1,准备所需部件,包括:多个主机、交换机、路由器、UPS;
步骤2,如图1所示,将准备部件中的所有主机分别与交换机相连接,路由器的LAN口与交换机相连接;
其中主机与交换机均通过UPS供电,而路由器则通过市电供电;且,本发明对UPS没有任何限制,也无组网要求,只要求确保指定的所有设备拥有紧急电源即可。
所述所有主机、交换机、路由器构成局域网;
所有主机与交换机组成集群;
这种网络拓扑结构和供电方式除了使得集群中各主机互联互通组成集群。更为本发明所提到的集群断电自保护及来电自启动的方法提供了实现的基石。
步骤3,在局域网中,任选一主机设为主节点,其余主机设为次节点;
为了防止突然掉电对集群带来伤害,要求在市电断点之后,赶在紧急电源失效之前,能在合适的时间将集群关闭。如图1所示,本实施例将路由器设计为由市电供电,而整个集群则由UPS供电。很大程度上就是为了实现,断电自动关闭集群以保护集群的目的。
若主节点检测到路由掉线,则主节点认为市电掉电,而此时整个集群正由UPS供电,主节点必须赶在UPS电量耗完之前关闭整个集群并关闭所有主机。主节点利用本发明涉及的脚本程序自动化先关闭局域网中的spark集群,再关闭局域网中的HADOOP集群,最后关闭所有主机;
而,如果主节点检测到市电供电断电时,直接执行关闭所有主机命令,而不是先关闭集群系统再关闭主机,则起不到保护集群的作用。
若市电供电恢复,路由器自动启动,并通过局域网唤醒主节点,随后主节点唤醒其余节点,并等待所有次节点启动完毕之后,评估集群所需要的基础网络环境(包括集群内节点间可以ping通、防火墙处于关闭状态、集群无端口号占用情况、集群主机间可以免密码登录等等),然后启动局域网中的HADOOP集群,最后启动局域网中的spark集群。
当路由器上线(市电恢复)时通过网络唤醒主机是利用了网络唤醒技术。网络唤醒技术(Wake on LAN)需要主机主板支持,提供了在链路层发送指定报文就能唤醒主机的能力。结合网络唤醒技术和自动化脚本,无需运维人员,整个集群就能被自动唤醒并使集群处于可用状态。
然而,通过WOL功能唤醒主机,需要在MAC层向指定的地址发送指定的数据,以告诉网卡向主板发送开机指令,大部分路由器并不支持该功能,即使支持该功能也不一定能完成特定任务。本实施例采用的是基于ARM处理器的主板的路由器,并安装开源的OPENWRT路由操作系统,OPENWRT路由器操作系统是基于LINUX的系统。可以允许我们方便的在路由器上实现自定义功能。

Claims (2)

1.一种spark集群断电自保护及来电自启动的方法,其特征在于,包括以下步骤:
步骤1,准备所需部件,包括:多个主机、交换机、路由器、UPS;
步骤2,将准备部件中的所有主机分别与交换机相连接,路由器的LAN口与交换机相连接;
所述主机与交换机均通过UPS供电,所述路由器通过市电供电;
所述所有主机、交换机、路由器构成局域网;
所述所有主机通过交换机组成集群;
步骤3,在局域网中,任选一主机设为主节点,其余主机设为次节点;
若主节点检测到路由器掉线,则认为市电供电断电,随后主节点先关闭局域网中的spark集群,再关闭局域网中的HADOOP集群,最后关闭所有主机;
若市电供电恢复,路由器自动启动,随后路由器下发开机指令,通过局域网唤醒主节点,主节点随后启动所有次节点,待所有次节点启动完毕后评估网络状况,然后启动局域网中的HADOOP集群,最后启动局域网中的spark集群。
2.如权利要求1所述的spark集群断电自保护及来电自启动的方法,其特征在于,主节点每隔时间T检测一次路由器是否在线;其中,t1≤T≤t2,t1为服务器向路由器单次询问的最短时间,t2为UPS的备用电源所能供电的最长时限。
CN201710262214.XA 2017-04-20 2017-04-20 一种spark集群断电自保护及来电自启动的方法 Active CN107015622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710262214.XA CN107015622B (zh) 2017-04-20 2017-04-20 一种spark集群断电自保护及来电自启动的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710262214.XA CN107015622B (zh) 2017-04-20 2017-04-20 一种spark集群断电自保护及来电自启动的方法

Publications (2)

Publication Number Publication Date
CN107015622A CN107015622A (zh) 2017-08-04
CN107015622B true CN107015622B (zh) 2023-05-26

Family

ID=59447802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710262214.XA Active CN107015622B (zh) 2017-04-20 2017-04-20 一种spark集群断电自保护及来电自启动的方法

Country Status (1)

Country Link
CN (1) CN107015622B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107948018A (zh) * 2017-12-11 2018-04-20 安徽智恒信科技有限公司 一种能够检测市电停电并实现服务器软关机的方法和系统
CN111399619A (zh) * 2020-03-05 2020-07-10 广州市友达电子科技有限公司 网络存储设备安全自动关机的方法及装置
CN112187877B (zh) * 2020-09-10 2022-04-01 华云数据控股集团有限公司 一种基于分布式集群的节点唤醒方法及受控终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201687A (zh) * 2007-09-19 2008-06-18 中国石化股份胜利油田分公司地质科学研究院 一种断电保护微机集群自动关机系统
CN204731725U (zh) * 2015-07-17 2015-10-28 浪潮电子信息产业股份有限公司 一种集群掉电自检自保护系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4393032B2 (ja) * 2002-03-27 2010-01-06 富士通株式会社 障害時の経路切替え機能を備えた情報処理システム及びその情報端末

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201687A (zh) * 2007-09-19 2008-06-18 中国石化股份胜利油田分公司地质科学研究院 一种断电保护微机集群自动关机系统
CN204731725U (zh) * 2015-07-17 2015-10-28 浪潮电子信息产业股份有限公司 一种集群掉电自检自保护系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张晓峰 ; .基于环境参数的服务器集群自动保护系统设计.现代电子技术.2017,(第08期),全文. *

Also Published As

Publication number Publication date
CN107015622A (zh) 2017-08-04

Similar Documents

Publication Publication Date Title
US20100077063A1 (en) System and method for emulating a computing device
US20100332212A1 (en) Method and apparatus for sleep and wake of computer devices
CN107015622B (zh) 一种spark集群断电自保护及来电自启动的方法
EP2621127A1 (en) Method for achieving low power consumption of data exchange equipment and apparatus thereof, and data exchange equipment
JP2019030203A (ja) 高効率バッテリバックアップシステム
GB2512694A (en) Wake on Cloud
EP3016448B1 (en) Method for keeping remote connection and electronic device
CN104539716A (zh) 云桌面管理系统桌面虚拟机调度控制系统及方法
CN101772140A (zh) 一种自适应节能方法及具备该功能的业务系统
CN104468791A (zh) 私有云IaaS平台的构建方法
CN102354261A (zh) 机房服务器电源开关远程控制系统
CN104270430A (zh) 一种适用于云计算的服务器远程调度方法
CN111694707A (zh) 一种小型服务器集群管理系统及方法
WO2015116048A1 (en) Shutdown of computing devices
CN106375476A (zh) 一种远程开关机的方法和系统
JP5773166B2 (ja) 計算機の制御方法、計算機及び計算機システム
CN206441151U (zh) 一种服务器远程控制系统
CN101997691A (zh) 远程开机单元
CN101686261A (zh) 一种基于rac的冗余服务器系统
CN103916280B (zh) 一种刀片服务器管理网络主动dhcp分配方法
CN110943350A (zh) Wifi智能插座、基于wifi智能插座的电脑看门狗系统
CN110677288A (zh) 一种通用于多场景部署的边缘计算系统及方法
CN103384265A (zh) Gvrp协议的应用层实现方法及系统
CN111078393A (zh) 一种交互型边缘计算服务器及其控制方法
CN105915637A (zh) 一种基于存储系统服务器的远程自动待机及唤醒方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant