CN104267689A - 一种基于视频图像判别的超级计算机房断电预警与自动开启的管理方法 - Google Patents

一种基于视频图像判别的超级计算机房断电预警与自动开启的管理方法 Download PDF

Info

Publication number
CN104267689A
CN104267689A CN201410485174.1A CN201410485174A CN104267689A CN 104267689 A CN104267689 A CN 104267689A CN 201410485174 A CN201410485174 A CN 201410485174A CN 104267689 A CN104267689 A CN 104267689A
Authority
CN
China
Prior art keywords
power
supercomputing
early warning
computer room
management server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410485174.1A
Other languages
English (en)
Other versions
CN104267689B (zh
Inventor
赵国辉
张耀南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Institute of Eco Environment and Resources of CAS
Original Assignee
Cold and Arid Regions Environmental and Engineering Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cold and Arid Regions Environmental and Engineering Research Institute of CAS filed Critical Cold and Arid Regions Environmental and Engineering Research Institute of CAS
Priority to CN201410485174.1A priority Critical patent/CN104267689B/zh
Publication of CN104267689A publication Critical patent/CN104267689A/zh
Application granted granted Critical
Publication of CN104267689B publication Critical patent/CN104267689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P80/00Climate change mitigation technologies for sector-wide applications
    • Y02P80/10Efficient use of energy, e.g. using compressed air or pressurized fluid as energy carrier

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Power Sources (AREA)

Abstract

本发明涉及一种基于视频图像判别的超级计算机房断电预警与自动管理方法,该方法基于捕获的视频监控图像,通过对图片进行综合分析,获取电源状态信息,从而对机房断电事故进行预警,并自动执行超级计算集群的关机,避免供电突然中断对机房高性能服务器的损坏,当供电恢复正常后,执行高性能计算集群开机功能,第一时间恢复计算运行,提供超级计算服务。本发明应用便捷、成本低廉,实现机房供电状态的预警与集群断电后的自动开关机,有效地保证了超级计算机房硬件设备与软件环境的安全运行,为更好地做好机房的运行维护工作提供了新的技术手段,可推广应用于科研院所、企事业单位、大型商业体等各类核心机房的供电状态监控与管理。

Description

一种基于视频图像判别的超级计算机房断电预警与自动开启的管理方法
技术领域
本发明涉及机房环境监控与管理领域,具体地说一种基于视频图像判别的超级计算机房断电预警与自动管理方法。
背景技术
超级计算机是计算机中功能最强、运算速度最快、存储容量最大的一类计算机,多用于国家高科技领域和尖端技术研究,是一个国家科研实力的体现,它对国家安全,经济和社会发展具有举足轻重的意义,是国家科技发展水平和综合国力的重要标志。当今社会正处于大数据与计算时代,随着各企事业单位超级计算环境建设的推进,超级计算集群规模越来越大,对其运行环境的保障和维护要求愈来愈严格,如果机房供电突然中断,轻则影响超级计算环境系统的运行,重则造成集群环境的硬件损坏和服务的瘫痪,后果不堪设想,因此,对中心机房的断电预警与自动管理尤为重要。
目前技术中,大多数的机房具有视频监控系统,可以观测到机房的动态变化,理论上,通过人工查看视频可以保证机房环境的安全,但管理员不可能时时刻刻守候在监控器前,而且发生断电的情况下,还需人工干预,费时费力,不能保证超级计算集群的持续健康运行。 另外,机房目前所用的配电箱、UPS以及监控设备,仅有少部分产品具有断电预警功能,但价格昂贵,系统封闭,难以开发扩展,不具备通用性,在功能上仅仅提供断电报警信息,需人为操作管理,不具备对断电情况下的高性能计算服务器等设备的自动管理功能。
发明内容
针对上述,本发明旨在充分利用现有基础设施,提供一种基于视频图像判别的超级计算机房断电预警与自动管理方法,实现对机房断电情况下的自动预警与操作管理。
1. 一种基于视频图像判别的超级计算机房断电预警与自动管理方法,其特征在于,包括以下步骤:
步骤1:机房监控设备部署在机房与配电室具有供电设备的区域,对供电设备状态指示灯区域进行静态定位监控,监控系统由UPS供电,并可被管理服务器访问;
步骤2:管理服务器自动获取视频监控画面,设定捕获照片时间间隔为                                                ,并自动把获得的视频监控图片,存放于管理服务器上,其取值范围为:; 
步骤3:自动读取已获取的图片文件进行信息分析,分析图片中供电设备指示灯的状态,从而判断机房的供电情况,其中指示灯状态亮灭状态包括四种情况:断电状态、正常状态、遮挡状态与监控设备故障,记录分析结果,并把结果传递给智能决策部分;
步骤4:智能决策功能模块通过预定义的策略执行策略:断电预警,自动关机,来电重启与状态报告管理操作,同时对操作进行通告与记录; 
步骤5:当断电事件发生后,管理服务器立即发出警报声音,并发送手机短信与邮件附带图片通知机房管理人员;
步骤6:若管理人员在  内,做出回应或者供电恢复正常,则关闭预警信息,恢复正常监控,否则,按照超级计算机房关机操作规范,管理服务器执行关机操作,并对本次断电与关机事件分别进行记录。其中 
步骤7:恢复正常供电后,则按照超级计算机房管理规范,管理服务器自动执行来电重启操作,加载超级计算软件环境,提供计算服务,对本次事件进行记录,并发状态信息告知管理员。
本发明优点与效果:
本发明充分利用超级计算机房的软硬件基础设施,可经济、快速地实现对断电事故进行有效的预警和超级计算集群的自动化管理,避免突然断电对造成超级计算环境软硬件环境以及运行的业务造成的巨大的损失,维持超级计算环境的持续健康运行。
本发明为当前大数据与计算潮流下,更好地做好超级计算机房的运维管理提供了新的技术手段,可推广应用于科研院所、企事业单位、大型商业体等各类核心机房的供电状态监控与管理。
附图说明
图1为本发明实施例示意图;
图2为本发明工作流程图。
具体实施方式
本发明所谓的集群管理服务器部署在由UPS(Uninterrupted Power System,不间断电源)供电的一台计算机上,并拥有控制超级计算集群每台服务器的最高管理权限。为了使本发明的技术方案和优点更加直观明了,下面结合附图,以超级计算机房的部署为例,进行阐述说明:
一种基于视频图像判别的超级计算机房断电预警与自动管理方法,其步骤是:
第一步:如图1-2所示,本发明主要包括八个部分,其中监控设备为超级机房的配套设施,本实施中把其余七个部分,对该自行编写程序部署在集群管理服务器上,该管理服务器不仅直接由UPS供电,可不间断工作,而且可对超级计算集群中的任一台服务器以Root的权限进行访问与控制;
第二步:超级计算机房环境拥有一台80KVA 的UPS一台、机房与配电室动力配电箱各一个,前期部署了一套机房视频监控系统,对前三者进行了有效地视频监控,在机房与配电室各有一个摄像头,对其观测方位进行了调整与固定,使摄像头正对于配电箱与UPS的指示灯区域,视频图像能清晰的观测供电设备指示灯的变化,集群管理服务器可通过局域网访问监控服务器的Web视频监控页面。
第三步:对监控页面通过编程实现自动捕捉图片功能,并把捕获的图片文件存放于集群管理服务器上。由于断电情况下,UPS可维持集群正常运行25分钟,所有服务器关机需要5分钟,同时考虑到集群管理服务器的运行供电需求与本发明图片处理效率,  分钟,满足本发明关于捕捉照片间隔时间设置的需求,
第四步:对每5分钟获取到的图片进行判断分析,其依据的准则为:正常状态:两个配电箱的三个红,绿,黄指示灯任一等亮,UPS旁路指示灯亮,负载指示灯亮;断电状态:两个配电箱三个红,绿,黄指示灯全灭,UPS 旁路指示灯灭;遮挡状态:指示灯不能全部探测到;设备故障:图片相对于前一张出现偏移、指示灯全部探测不到或图片无法获取;
第五步:在本实例中由于UPS指示灯较小,作为智能决策的参考判断,对上述出现的信息制定智能决策处理策略:正常状态,判断集群的运行状态,若处于上次断电状态,则执行来电重启;遮挡状态,设定立即发送手机短信与电子邮件,并持续发出提醒声音,直至管理员中断或者遮挡消失;设备故障,设定立即发送手机短信与电子邮件,并持续发出报警声音,直至管理员中断或恢复正常;断电状态,立即发送手机短信与电子邮件,持续发出报警声音,若直至管理员中断或供电恢复;
第六步:当断电事件发生后,集群管理服务器立即发出警报声音,并利用飞信接口给机房管理员发送手机短信,并编程实现邮件自动发送给管理员邮箱,邮件题目为当前事件名称,内容为断电时间与有效反应时间,附件为所判断的图片。
第七步: 按照本发明管理员反应时间设定的要求, 
;分钟,考虑到管理服务器运行电量需求,本实例取 分钟,在该时间内管理员可以到机房进行查看,并对管理服务器进行操作或者通过手机、平板、笔记本等通过网络查看机房状态,并可登录管理服务器进行相应的操作,若在10分钟内,管理员未执行中断操作或供电未恢复正常,则管理服务器自动执行超级计算集群关机脚本,并记录断电时间与关机的时间;
第八步:机房供电恢复正常后,管理服务器自动执行超级计算集群来电重启脚本,加载超级计算软件环境,运行计算服务,执行完毕后对本次事件进行记录,并发手机短信与电子邮件进行提示。

Claims (1)

1.一种基于视频图像判别的超级计算机房断电预警与自动管理方法,其特征在于,包括以下步骤:
步骤1:方法载体部署在由UPS(Uninterrupted Power System,不间断电源)供电的一台计算机上,该计算机为集群的管理服务器,拥有控制超级计算集群每台服务器的最高管理权限;
步骤1:机房监控设备部署在机房与配电室具有供电设备的区域,对供电设备状态指示灯区域进行静态定位监控,监控系统由UPS供电,并可被管理服务器访问;
步骤2:管理服务器自动获取视频监控画面,设定捕获照片时间间隔为                                                ,并自动把获得的视频监控图片,存放于管理服务器上,其取值范围为:; 
步骤3:自动读取已获取的图片文件进行信息分析,分析图片中供电设备指示灯的状态,从而判断机房的供电情况,其中指示灯状态亮灭状态包括四种情况:断电状态、正常状态、遮挡状态与监控设备故障,记录分析结果,并把结果传递给智能决策部分;
步骤4:智能决策功能模块通过预定义的策略执行策略:断电预警,自动关机,来电重启与状态报告管理操作,同时对操作进行通告与记录; 
步骤5:当断电事件发生后,管理服务器立即发出警报声音,并发送手机短信与邮件附带图片通知机房管理人员;
步骤6:若管理人员在  内,做出回应或者供电恢复正常,则关闭预警信息,恢复正常监控,否则,按照超级计算机房关机操作规范,管理服务器执行关机操作,并对本次断电与关机事件分别进行记录,其中 
步骤7:恢复正常供电后,则按照超级计算机房管理规范,管理服务器自动执行来电重启操作,加载超级计算软件环境,提供计算服务,对本次事件进行记录,并发状态信息告知管理员。
CN201410485174.1A 2014-09-22 2014-09-22 一种基于视频图像判别的超级计算机房断电预警与自动开启的管理方法 Active CN104267689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410485174.1A CN104267689B (zh) 2014-09-22 2014-09-22 一种基于视频图像判别的超级计算机房断电预警与自动开启的管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410485174.1A CN104267689B (zh) 2014-09-22 2014-09-22 一种基于视频图像判别的超级计算机房断电预警与自动开启的管理方法

Publications (2)

Publication Number Publication Date
CN104267689A true CN104267689A (zh) 2015-01-07
CN104267689B CN104267689B (zh) 2017-01-18

Family

ID=52159217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410485174.1A Active CN104267689B (zh) 2014-09-22 2014-09-22 一种基于视频图像判别的超级计算机房断电预警与自动开启的管理方法

Country Status (1)

Country Link
CN (1) CN104267689B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106953772A (zh) * 2017-05-18 2017-07-14 铜仁学院 基于物联网的机房管理装置及系统
CN111343433A (zh) * 2020-03-17 2020-06-26 南通感创电子科技有限公司 一种基于物联网的安全性智慧楼宇视频监控系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014673A (ja) * 2010-06-04 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> クラスタシステム復旧方法及びサーバ及びプログラム
CN102602762A (zh) * 2012-03-23 2012-07-25 佛山市智邦电子科技有限公司 一种电梯检修监控方法
CN202583765U (zh) * 2012-04-02 2012-12-05 安徽中移通信技术工程有限公司 机房停电自动响应系统
CN103607297A (zh) * 2013-11-07 2014-02-26 上海爱数软件有限公司 一种计算机集群系统的故障处理方法
CN103995587A (zh) * 2014-05-13 2014-08-20 联想(北京)有限公司 一种信息控制方法及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014673A (ja) * 2010-06-04 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> クラスタシステム復旧方法及びサーバ及びプログラム
CN102602762A (zh) * 2012-03-23 2012-07-25 佛山市智邦电子科技有限公司 一种电梯检修监控方法
CN202583765U (zh) * 2012-04-02 2012-12-05 安徽中移通信技术工程有限公司 机房停电自动响应系统
CN103607297A (zh) * 2013-11-07 2014-02-26 上海爱数软件有限公司 一种计算机集群系统的故障处理方法
CN103995587A (zh) * 2014-05-13 2014-08-20 联想(北京)有限公司 一种信息控制方法及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106953772A (zh) * 2017-05-18 2017-07-14 铜仁学院 基于物联网的机房管理装置及系统
CN111343433A (zh) * 2020-03-17 2020-06-26 南通感创电子科技有限公司 一种基于物联网的安全性智慧楼宇视频监控系统

Also Published As

Publication number Publication date
CN104267689B (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
CN103281306B (zh) 云数据中心虚拟化基础架构平台
CN103019836B (zh) 状态切换方法和电子设备
CN103034193B (zh) 城市智能终端
CN104394194A (zh) 一种基于PaaS平台的云系统运维监控方法及系统
CN103178988B (zh) 一种性能优化的虚拟化资源的监控方法和系统
CN104216448A (zh) 机房安防监控系统
CN103326883A (zh) 一种统一安全管理与综合审计系统
US7045914B2 (en) System and method for automatically providing continuous power supply via standby uninterrupted power supplies
CN103929502A (zh) 基于虚拟机自省技术的云平台安全监控系统及方法
CN104267689B (zh) 一种基于视频图像判别的超级计算机房断电预警与自动开启的管理方法
CN115755738A (zh) 矿用智能电力监控系统
CN204111198U (zh) 人脸识别起重机械控制装置
CN206400424U (zh) 可快速除尘的计算机内部环境监测机箱
CN116126772A (zh) 一种应用于arm服务器的uart串口管理系统及方法
US20170244252A1 (en) Autonomous Operational Platform for Micro-Grid Energy Management
CN106227672B (zh) 一种嵌入式应用程序故障捕捉及处理方法
CN103824017A (zh) 监控恶意程序的方法和监控平台
US20040073817A1 (en) Method for automatically saving in-process programs before shutdown
CN114095392A (zh) 一种基于物联网的通信电源监控方法和系统
CN207410117U (zh) 一种机房及变电站ups直流电源在线集中监测装置
CN104679710A (zh) 一种面向半导体生产线搬运系统软件故障快速恢复方法
CN107015622A (zh) 一种spark集群断电自保护及来电自启动的方法
CN108762914A (zh) 一种系统架构的智能伸缩方法、装置、电子设备及存储介质
CN105656700B (zh) 一种分散式机房综合监控及自动应急决策处理方法及装置
KR101475178B1 (ko) Ups 모니터링 태양광 발전장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200819

Address after: 730000 No.318, Donggang West Road, Chengguan District, Lanzhou City, Gansu Province

Patentee after: NORTHWEST INSTITUTE OF ECO-ENVIRONMENT AND RESOURCES, CAS

Address before: Chengguan District of Gansu city of Lanzhou province Donggang West Road 730000 No. 320

Patentee before: Institute of environment and Engineering in cold and dry areas, Chinese Academy of Sciences