CN102111303A - 无人值守系统自动监护方法及装置 - Google Patents

无人值守系统自动监护方法及装置 Download PDF

Info

Publication number
CN102111303A
CN102111303A CN2009102442373A CN200910244237A CN102111303A CN 102111303 A CN102111303 A CN 102111303A CN 2009102442373 A CN2009102442373 A CN 2009102442373A CN 200910244237 A CN200910244237 A CN 200910244237A CN 102111303 A CN102111303 A CN 102111303A
Authority
CN
China
Prior art keywords
virtual machine
node
monitoring
fault
automatic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009102442373A
Other languages
English (en)
Inventor
徐天岭
辛阳
罗守山
包一兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SAFE-CODE TECHNOLOGY Co Ltd
Original Assignee
BEIJING SAFE-CODE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SAFE-CODE TECHNOLOGY Co Ltd filed Critical BEIJING SAFE-CODE TECHNOLOGY Co Ltd
Priority to CN2009102442373A priority Critical patent/CN102111303A/zh
Publication of CN102111303A publication Critical patent/CN102111303A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种无人值守系统自动监护方法,该方法包括:使用虚拟机构造无人值守系统,以及由虚拟机结点相互监控,及时发现故障、修复故障;实时的故障处理,以冗余节点维护系统的正常运行;故障点的自动修复,针对软件故障的系统还原;故障点的自动处理,针对硬件故障的隔离和自动告警;故障点修复(包括软件还原和硬件更换)之后的自动回归,以及新增结点的加入,均由系统的自动监护、自动处理。本发明解决了现有技术不能自动抢修、自动处理以及不能真正的自动还原的问题。本发明同时公开了一种无人值守系统自动监护的方法及装置。

Description

无人值守系统自动监护方法及装置
技术领域
本发明涉及远程监控、集群、系统还原技术,特别涉及一种无人值守系统自动监护的方法。 
背景技术
自动监护系统用途广泛,也是目前研究的热点。特别是在高速运转,需要同时处理大批量数据的服务器端,系统的自动监护技术显得尤为重要。现有的远程监控技术可以实现无人值守,但系统不能自动处理故障。集群技术只解决系统出现故障时维护系统的正常运行,但也不能自动处理故障。如何实现无人值守系统的自动监护,以最快的速度和最高的效率及时处理系统故障,实现真正的无人值守,减少系统故障造成的损失,是无人值守系统自动监护技术需要解决的问题。 
目前常见的系统自动监护技术包括:1、远程监控技术;2、集群技术;3、人工系统还原技术。简单介绍如下: 
现有技术一:远程监控技术 
原理:远程监控技术主要由现场监控模块、通信系统和监控中心组成;现场监控模块负责完成信息的采集和响应监控中心发出的控制命令;通信系统负责传输监测数据和命令;监控中心负责收集各监控模块上传的监控信息,并给监控模块发送各种操作命令。 
缺点:只解决了远程系统无人值守问题,出现故障时不能自动修复,需要人工抢修。 
现有技术二:集群技术 
原理:集群是一种并行处理系统,由很多连接在一起的独立的计算机组成,像一个整体的计算资源一样协同工作;集群系统一般是指物理上分散的两个或多 个计算机节点通过局域网络连接在一起,对于用户和应用程序来说像一个单一的系统。 
缺点:只解决了出现故障时维持系统运行的问题,而故障修复仍然需要人工处理。
现有技术三:系统还原技术 
原理:系统还原技术,就是在硬盘中备份一份系统的原始配置,当系统出现故障时,恢复系统的原始配置。 
缺点:系统出现故障时,是在人的操作下进行还原,而不是真正的自动还原。 
综上所述,现有技术不能解决无人值守的系统故障修复,系统出现故障时不能及时处理,并且故障处理的成本高。 
发明内容
本发明实例提供了一种无人值守系统自动监护的方法和装置,用以解决现有技术不能自动监护、自动修复的缺陷,以及系统故障修复成本高的问题。 
一种无人值守系统自动监护的方法包括: 
建立虚拟机集群,通过结点之间的互相监护,实时发现不能正常访问的故障点; 
尝试以虚拟机的备份、系统还原的方式进行软件故障修复; 
通过定时访问其它虚拟机的服务,确定该虚拟机是否运行正常,一旦无法访问,就做出相应的自动处理。 
一种无人值守系统自动监护的装置包括: 
系统分成了两层,分别是虚拟机集群组成的业务层和虚拟机载体(真实设备)集群组成的支撑层; 
虚拟机群集组成的业务成,用于结点之间互相监护,当某个结点出现不可修复故障时,这种监护关系需要自动重新组织;
虚拟机载体(真实设备)集群组成的支撑层,接收虚拟机系统的还原请求。 
本发明实例把系统分为虚拟机集群组成的业务层和虚拟机载体(真实设备)集群组成的支撑层;虚拟机业务层节点之间通过一定的逻辑关系相互监控,当某个结点出现不可修复故障时,监护关系自动重新组织,维护系统正常运行,并实时处理故障点;除硬件故障外,软件故障均可由系统自动监护、自动修复还原,实现了真正的无人值守,提高了故障处理效率,降低了故障处理成本。 
附图说明
图1为本发明实施例提供的无人值守系统制动监护、自动处理的方法示意图; 
图2为本发明实施例提供的无人值守系统自动监护的的装置结构示意图; 
图3为本发明实施例提供的无人值守系统自动监护的的环境示意图; 
图4为本发明实施例提供的无人值守系统虚拟机循环队列或中心服务器的监护方法示意图。 
图5为本发明实施例提供的无人值守系统虚拟机自动处理的方法流程图. 
具体实施方式
针对现有技术的不能实现完全的无人值守自动监护和自动修复,系统修复效率低,修护成本高的问题,本发明实施例把系统分成了两层,分别是虚拟机集群组成的业务层和虚拟机载体(真实设备)集群组成的支撑层;通过建立虚拟机集群,实现结点之间的互相监护,实时发现不能正常访问的故障点,尝试以虚拟机的备份、系统还原的方式进行软件故障修复;系统节点之间的监护过程和软件故障修复过程,不需要人工参与,所以系统修复的效率高、成本低。 
如图1所示,本发明实施例提供的无人值守系统自动监护的方法包括: 
在自动监护阶段,102监护者向被监护者发送访问请求,访问请求正常,则104休眠一段时间再访问,访问超时或访问结果不正确,105继续发送访问请求,若连续3次不正常,说明被监护节点出现故障; 
被监护节点出现故障,则进入自动处理阶段,107向虚拟机载体发送系统还原请求,108休眠一段时间,109向被监护者发送访问请求,访问结果正常,说明修护完成,该被监护者进入被监护状态。 
如图2所示,本发明实施例提供的无人值守系统自动监护、自动修复的装置,其特征在于,该装置包括: 
把系统分成两层,分别是虚拟机集群组成的业务层和虚拟机载体(真实设备)集群组成的支撑层,支撑层负责运行业务层的虚拟机,由业务层对外提供服务; 
虚拟机之间互相监护,通过定时访问其它虚拟机的服务,确定该虚拟机是否运行正常; 
虚拟机载体是真实网络,是系统的支撑层,当被监护节点出现故障时,接受虚拟机网络的还原请求。 
如图3所示,本发明实施例提供的无人值守系统自动监护、自动修复方法中业务层和支撑层的部署。 
如图4所示,本发明实施例提供的无人值守系统虚拟机循环队列或中心服务器的监护方法示意图。 
如图5所示,本发明实施例提供的虚拟机自动处理的方法包括下列步骤: 
步骤501:监听系统还原请求(无限期等待)。 
步骤502:根据请求,定位要还原的虚拟机。 
步骤503:强制关闭需要还原的虚拟机。 
步骤504:用备份系统恢复故障虚拟机。 
步骤505:重新启动虚拟机。 
步骤506:判断虚拟机启动成功与否,是则转入501监听系统还原请求状态,否则发出不可修复故障报警。 
通过以上的实施方式的描述,本发明实施例建立虚拟机集群,通过结点之间的互相监护,实时发现不能正常访问的故障点;尝试以虚拟机的备份、系统 还原的方式进行软件故障修复,不成功的则为不可修复故障(通常是硬件故障),自动发出告警(包含故障点相关信息),等待人工更换设备,整个过程中,无人值守系统一直保持正常运作。 
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。 

Claims (7)

1.一种无人值守系统自动监护方法,其特征在于,该方法包括:
系统被分成了两层,分别是虚拟机集群组成的业务层和虚拟机载体集群组成的支撑层;
支撑层负责运行和维护业务层的虚拟机,由业务层对外提供服务;
业务层中,虚拟机结点之间通过一定的逻辑关系相连,实时监护节点是否能被正常访问,若不能正常访问,则向支撑层故障虚拟机所在的那个载体发送系统还原请求,让该虚拟机恢复并重启。
2.如权利要求1所述的方法,其特征在于,所述节点之间相互监控的方法具体包括:
给监护者与被监护者确定一个逻辑关系,把虚拟机结点在逻辑上组织成一个循环队列,后一个节点监护前一个节点;
每个虚拟机节点上都有虚拟机之间的逻辑关系图,就像路由器上的路右表;
当某个结点出现不可修复故障时,故障点的前一个节点将监控故障点的下一个节点,自动重新组织监护关系。
3.如权利要求1所述的方法,其特征在于,所述节点之间相互监控的方法具体包括:
所有的虚拟机节点由中心服务器监护,当某个节点出现故障时,中心服务器向故障节点的虚拟机载体发送修复请求;
中心服务器是由2个以上的服务器组成,当一个服务器出现故障时,启用其他服务器来监护节点。
4.如权利要求2或3所述的方法,其特征在于,自动监护故障阶段和自动处理故障阶段:
监护者定期向被监护者作出正常业务访问,在没有故障的情况下,能够得到预期的访问结果;
一旦发现无法访问,监护者立即向支撑层发出请求,要求支撑层对被监护者进行系统还原;
故障属于软件故障,虚拟机载体完全可以把虚拟机系统还原。
5.如权利要求4所述的方法,其特征在于,自动监护阶段:
发现访问超时或者结果不正常,需要重试n次,n次都失败才进入自动故障处理阶段,避免误操作性质的系统还原、重启,其中n是大于等于2、小于等于5的自然数。
6.如权利要求4所述的方法,其特征在于,自动处理阶段:
监护者发出系统还原请求之后,虚拟机载体需要一定的时间去恢复虚拟机系统、重启虚拟机;
在虚拟机载体恢复虚拟机系统、重启虚拟机期间,不能再发送对同一个被监护者的系统还原请求,以避免不断地重启;
监护者发出请求之后,就进入一个检测被监护者是否恢复正常的循环当中,直至检测到被监护者已修复,才返回到自动监护阶段。
7.无人值守的自动监护系统装置,其特征在于,该装置包括:
虚拟机群集,处于系统的业务层,虚拟机节点之间通过循环队列方式或中央服务器形式相连,实现故障的自动监护;
虚拟机载体群集,处于系统的支撑层,接收来自业务层的系统修复请求。
CN2009102442373A 2009-12-28 2009-12-28 无人值守系统自动监护方法及装置 Pending CN102111303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102442373A CN102111303A (zh) 2009-12-28 2009-12-28 无人值守系统自动监护方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102442373A CN102111303A (zh) 2009-12-28 2009-12-28 无人值守系统自动监护方法及装置

Publications (1)

Publication Number Publication Date
CN102111303A true CN102111303A (zh) 2011-06-29

Family

ID=44175337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102442373A Pending CN102111303A (zh) 2009-12-28 2009-12-28 无人值守系统自动监护方法及装置

Country Status (1)

Country Link
CN (1) CN102111303A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102546283A (zh) * 2010-12-31 2012-07-04 北京安码科技有限公司 系统无人职守的自动监护的方法及其装置
CN102957562A (zh) * 2011-08-16 2013-03-06 中国石油化工股份有限公司 Linux集群系统远程自动维护方法和维护系统
CN103595572A (zh) * 2013-11-27 2014-02-19 牛永伟 一种云计算集群中节点自修复的方法
CN103905241A (zh) * 2012-12-28 2014-07-02 华为技术有限公司 一种故障排查方法及装置
CN105071968A (zh) * 2015-08-18 2015-11-18 大唐移动通信设备有限公司 一种通信设备的业务面和控制面的隐性故障修复方法和装置
CN106537354A (zh) * 2014-07-22 2017-03-22 日本电气株式会社 虚拟化基础设施管理装置、虚拟化基础设施管理系统、虚拟化基础设施管理方法和用于记录虚拟化基础设施管理程序的记录介质
CN109783306A (zh) * 2018-11-27 2019-05-21 宝付网络科技(上海)有限公司 响应报警的处理动作方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102546283A (zh) * 2010-12-31 2012-07-04 北京安码科技有限公司 系统无人职守的自动监护的方法及其装置
CN102957562A (zh) * 2011-08-16 2013-03-06 中国石油化工股份有限公司 Linux集群系统远程自动维护方法和维护系统
CN103905241A (zh) * 2012-12-28 2014-07-02 华为技术有限公司 一种故障排查方法及装置
CN103905241B (zh) * 2012-12-28 2017-12-12 华为技术有限公司 一种故障排查方法及装置
CN103595572A (zh) * 2013-11-27 2014-02-19 牛永伟 一种云计算集群中节点自修复的方法
CN106537354A (zh) * 2014-07-22 2017-03-22 日本电气株式会社 虚拟化基础设施管理装置、虚拟化基础设施管理系统、虚拟化基础设施管理方法和用于记录虚拟化基础设施管理程序的记录介质
US10353786B2 (en) 2014-07-22 2019-07-16 Nec Corporation Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
CN106537354B (zh) * 2014-07-22 2020-01-07 日本电气株式会社 虚拟化基础设施管理装置、系统、方法和记录介质
CN105071968A (zh) * 2015-08-18 2015-11-18 大唐移动通信设备有限公司 一种通信设备的业务面和控制面的隐性故障修复方法和装置
CN109783306A (zh) * 2018-11-27 2019-05-21 宝付网络科技(上海)有限公司 响应报警的处理动作方法及系统

Similar Documents

Publication Publication Date Title
CN102111303A (zh) 无人值守系统自动监护方法及装置
EP2281240B1 (en) Maintaining data integrity in data servers across data centers
JP3554472B2 (ja) 分散コンピュータ環境におけるプロセッサ・ドメインのメンバー管理方法及び装置
CN106357787A (zh) 一种存储容灾控制系统
CN106254100A (zh) 一种数据容灾方法、装置和系统
CN1217265C (zh) 一种进程自动恢复方法
CN103019889A (zh) 分布式文件系统及其故障处理方法
CN103559108A (zh) 一种基于虚拟化实现主备故障自动恢复的方法及系统
CN100370756C (zh) 系统的复位处理方法及装置
CN102404141B (zh) 一种告警抑制的方法及装置
CN101394306A (zh) 一种双服务器系统的无缝切换方法
CN106789306A (zh) 通信设备软件故障检测收集恢复方法和系统
CN101207512A (zh) 一种数据库系统冗灾备份和切换方法
CN105306272A (zh) 信息系统故障场景信息收集方法及系统
CN111176783A (zh) 容器治理平台的高可用方法、装置及电子设备
CN105430327A (zh) 一种nvr集群备份方法及装置
CN105812161B (zh) 一种控制器故障备份方法和系统
CN106294795A (zh) 一种数据库切换方法及系统
CN102143011B (zh) 一种实现网络保护的装置及方法
CN102487332B (zh) 故障处理方法、装置和系统
CN101212341A (zh) 一种数据库系统切换方法
CN103812697A (zh) 一种分布式通信网络的异地容灾方法和系统
CN112172879B (zh) 一种主备控制中心切换方法及轨道交通综合监控系统
CN108445857A (zh) 一种scada系统的1+n冗余机制设计方法
CN111614702B (zh) 一种边缘计算方法以及边缘计算系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: 100082, building 1, building 32, 612 North Main Street, Haidian District, Beijing, Xizhimen

Applicant after: Beijing Safe-Code Technology Co., Ltd.

Address before: 100876 No. 34 South College Road, Beijing, Haidian District

Applicant before: Beijing Safe-Code Technology Co., Ltd.

C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Xu Tianling

Inventor after: Xu Qin

Inventor after: Luo Shoushan

Inventor after: Bao Yibing

Inventor before: Xu Tianling

Inventor before: Xin Yang

Inventor before: Luo Shoushan

Inventor before: Bao Yibing

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: XU TIANLING XIN YANG LUO SHOUSHAN BAO YIBING TO: XU TIANLING XU QIN LUO SHOUSHAN BAO YIBING

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110629