CN102111300A - 一种监控系统及其保障业务连续性的方法 - Google Patents

一种监控系统及其保障业务连续性的方法 Download PDF

Info

Publication number
CN102111300A
CN102111300A CN2011100604830A CN201110060483A CN102111300A CN 102111300 A CN102111300 A CN 102111300A CN 2011100604830 A CN2011100604830 A CN 2011100604830A CN 201110060483 A CN201110060483 A CN 201110060483A CN 102111300 A CN102111300 A CN 102111300A
Authority
CN
China
Prior art keywords
physical machine
business
monitoring
described physical
takes place
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100604830A
Other languages
English (en)
Inventor
王洪亮
陈志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN2011100604830A priority Critical patent/CN102111300A/zh
Publication of CN102111300A publication Critical patent/CN102111300A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种监控系统及其保障业务连续性的方法,涉及计算机业务系统领域。本发明公开的方法包括:实时监控部署有一个或多个业务的物理机的运行状态,当监控发现所述物理机发生设定故障时,则将所述物理机上部署的所有业务迁移到其他物理机上。本发明实施例使业务可以不间断地运行,降低了系统可能宕机对业务的潜在影响,进而降低了计算机业务系统的开发成本,具有非常广阔的应用前景。

Description

一种监控系统及其保障业务连续性的方法
技术领域
本发明涉及计算机业务系统领域,具体涉及一种监控系统及其保障业务连续性的方法。
背景技术
企业飞速发展,其经营管理等各项业务对IT系统的依赖性也随之增加,故对业务运行系统的高可靠性和高可用性的要求也越来越高。IT系统即使发生短暂故障,也将直接导致业务停滞,给企业带来经济损失。尤其,有些业务对连续运行有较高的要求,一旦业务不能连续运行,不但会给企业的运作带来极大的困难,企业的商业信誉也必将受到致命的打击,在竞争中处于劣势,造成不可估量的后果。
当前的业务部署方案,大都直接依赖于物理机,如图1所示,即业务直接部署在物理机之上,这种方式下用户可以方便地操作物理机以使用业务。但此方案也有不足:当物理机由于本身或外界的原因导致负载过大,会影响业务的正常运行,从而使业务的稳定运行得不到保障;当物理机宕机,业务也随之停止运行,这样业务的运行也不能得到连续性保障。
发明内容
本发明所要解决的技术问题是,提供一种监控系统及其保障业务连续性的方法,以保障业务的连接性。
为了解决上述问题,本发明公开了一种保障业务连续性的方法,包括:
实时监控部署有一个或多个业务的物理机的运行状态,当监控发现所述物理机发生设定故障时,则将所述物理机上部署的所有业务迁移到其他物理机上。
较佳地,上述方法中,监控发现所述物理机发生设定故障指:
监控发现所述物理机的一种或几种设定信息偏离设定的阈值范围。
较佳地,上述方法还包括,监控发现所述物理机发生设定故障时,所述物理机进入预警模式,并通知用户将进行业务迁移。
较佳地,上述方法中,所述物理机上所有业务均迁移到其他物理机上以后,该方法还包括:
在所述物理机恢复正常后,可将已迁移的业务迁移回经过恢复正常的物理机上。
本发明还公开了一种监控系统,包括:
监控单元,实时监控部署有一个或多个业务的物理机的运行状态;
迁移单元,在所述监控单元发现所述物理机发生设定故障时,将所述物理机上部署的所有业务迁移到其他物理机上。
较佳地,上述系统中,所述监控单元,发现所述物理机发生设定故障指:
监控发现所述物理机的一种或几种设定信息偏离设定的阈值范围。
较佳地,上述系统还包括,预警单元,在所述监控单元发现所述物理机发生设定故障时,控制所述物理机进入预警模式,并通知用户将进行业务迁移。
较佳地,上述系统还包括,恢复单元,在所述迁移单元将所述物理机上所有业务均迁移到其他物理机上以后,在所述物理机恢复正常后,可将已迁移的业务迁移回经过恢复正常的物理机上。
本发明实施例使业务可以不间断地运行,降低了系统可能宕机对业务的潜在影响,进而降低了计算机业务系统的开发成本,具有非常广阔的应用前景。
附图说明
图1为传统的与物理机紧耦合的业务部署示意图;
图2为本实施例1中监控系统保障业务连续性的流程示意图;
图3为本实施例2中监控系统的结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明技术方案做进一步详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
由于现有物理机与业务间紧耦合,即物理机上部署的业务的运行将受到物理机的影响。例如,物理机发生异常时,可能会导致业务的中断。而本发明申请人发现物理机中可能会发生某些故障,这些故障可能不会直接造成物理机宕机,但这些故障可能会间接或潜在地影响物理机的运行,以至于影响业务的运行。基于此,本发明申请人将这些可能影响物理机运行的故障作为设定故障,并提出实时监控部署有一个或多个业务的物理机的运行状态,当监控发现该物理机发生设定故障,则将该物理机上部署的所有业务迁移到其他物理机上。即在物理机宕机之前,就将业务迁移到其他物理机上,从而保障了业务的连接性。
实施例1
本实施例基于上述思想,提供一种保障业务连续性的方法,该方法包括如下步骤,如图2所示:
步骤100,实时监控部署有一个或多个业务的物理机的运行状态;
步骤200,监控发现物理机上发生设定故障时,将物理机上部署的所有业务迁移到其他物理机上,其中,可以将业务迁移到其他一台物理机上,也可以迁移到其他几台物理机上,只要将业务迁移到安全的环境,保证业务不中断即可。
该步骤中,监控发现物理机发生设定故障指:监控发现物理机的一种或几种设定信息的值偏离设定的阈值范围。如CPU温度持续超过设定的CPU温度的阈值范围,主板风扇转速低于设定的转速的阈值范围等。这样判断的其中一个目的是判断物理机是否处于亚健康状态,即可能导致宕机,例如,物理机的一些设定信息偏离设定的阈值范围时,虽然没有立即影响物理机的运行,但却可能存在导致宕机的风险,因此,监控发现物理机的一种或几种设定信息偏离设定的阈值范围时,即要进行业务迁移的操作。
还有一些优选方案中,监控发现物理机发生设定故障时,物理机可以进入预警模式,并通知用户将进行业务迁移。这样,也可以由用户来选择相应的操作。例如,将哪些业务迁移到哪些物理机上。
还有方案中,物理机上所有业务均迁移到其他物理机上以后,还可以修复该物理机之后再将已迁移的业务迁移回经过恢复操作的物理机上。
实施例2
本实施例提供一种系统,该系统如图3所示,包括物理机(1),业务子系统(2),业务体(3)以及监控系统(4)。其中,物理机中嵌入业务子系统,并分配给业务子系统相应的资源供其使用,物理机可以嵌入多个业务子系统。业务子系统上部署业务体,业务子系统提供业务体运行所需要的全部环境,业务的管理与操作只在业务子系统上进行,每个业务子系统根据情况部署一个或多个业务体。监控系统部署在物理机上,对物理机的运行状态实时监控,监控系统可以配置,当物理机的设定信息(如负载、风扇转速、温度)超过既定的阀值范围时,会产生告警,并提示用户,这样用户可以将业务子系统迁移到其它健康状况较好的物理机。
其中,物理机(1)是整个体系架构的载体,采用定制化的主操作系统;
业务子系统(2)是业务的载体,子业务系统可以安装多种主流操作系统,如主流Windows或Linux等;
业务体(3)用户使用的业务程序;
监控系统(4)负责实时监控物理机的运行状态,采集物理机的负载信息,并以一定的形式展示给用户,并在监控发现物理机发生设定故障时,则将所述物理机上部署的所有业务(即为业务子系统及业务体)迁移到其他物理机上。
具体地,监控系统可以包括监控单元和迁移单元。
监控单元,实时监控部署有一个或多个业务的物理机的运行状态;
迁移单元,在监控单元发现物理机发生设定故障时,将物理机上部署的所有业务迁移到其他物理机上。
监控单元发现物理机发生设定故障指:
监控发现物理机的一种或几种设定信息偏离设定的阈值范围。
优选方案中,监控系统还可以包括预警单元,在监控单元发现物理机发生设定故障时,预警单元控制物理机进入预警模式,并通知用户将进行业务迁移。
还有一些优选方案中,监控系统还可以包括恢复单元,在迁移单元将物理机上所有业务均迁移到其他物理机上以后,在物理机的恢复正常后,将已迁移出去的业务迁移回经过恢复操作的物理机上。
从上述实施例可以看出,本发明的实施例打破了现有物理机与业务间的紧耦合,通过加入虚拟层,从而使业务的运行尽可能不受物理机的影响,达到通过监控物理机的运行状态来保证业务的正常运行,实现了业务的连续性。并且,在业务迁移完毕以后,还能减轻原物理机的负载。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种保障业务连续性的方法,其特征在于,该方法包括:
实时监控部署有一个或多个业务的物理机的运行状态,当监控发现所述物理机发生设定故障时,则将所述物理机上部署的所有业务迁移到其他物理机上。
2.如权利要求1所述的方法,其特征在于,
监控发现所述物理机发生设定故障指:
监控发现所述物理机的一种或几种设定信息偏离设定的阈值范围。
3.如权利要求1或2所述的方法,其特征在于,该方法还包括:
监控发现所述物理机发生设定故障时,所述物理机进入预警模式,并通知用户将进行业务迁移。
4.如权利要求3所述的方法,其特征在于,所述物理机上所有业务均迁移到其他物理机上以后,该方法还包括:
在所述物理机恢复正常后,可将已迁移的业务迁移回经过恢复正常的物理机上。
5.一种监控系统,其特征在于,该系统包括:
监控单元,实时监控部署有一个或多个业务的物理机的运行状态;
迁移单元,在所述监控单元发现所述物理机发生设定故障时,将所述物理机上部署的所有业务迁移到其他物理机上。
6.如权利要求5所述的系统,其特征在于,
所述监控单元,发现所述物理机发生设定故障指:
监控发现所述物理机的一种或几种设定信息偏离设定的阈值范围。
7.如权利要求5或6所述的系统,其特征在于,该系统还包括:
预警单元,在所述监控单元发现所述物理机发生设定故障时,控制所述物理机进入预警模式,并通知用户将进行业务迁移。
8.如权利要求7所述的系统,其特征在于,该系统还包括:
恢复单元,在所述迁移单元将所述物理机上所有业务均迁移到其他物理机上以后,在所述物理机恢复正常后,可将已迁移的业务迁移回经过恢复正常的物理机上。
CN2011100604830A 2011-03-14 2011-03-14 一种监控系统及其保障业务连续性的方法 Pending CN102111300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100604830A CN102111300A (zh) 2011-03-14 2011-03-14 一种监控系统及其保障业务连续性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100604830A CN102111300A (zh) 2011-03-14 2011-03-14 一种监控系统及其保障业务连续性的方法

Publications (1)

Publication Number Publication Date
CN102111300A true CN102111300A (zh) 2011-06-29

Family

ID=44175334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100604830A Pending CN102111300A (zh) 2011-03-14 2011-03-14 一种监控系统及其保障业务连续性的方法

Country Status (1)

Country Link
CN (1) CN102111300A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514049A (zh) * 2013-10-18 2014-01-15 浪潮电子信息产业股份有限公司 一种基于计算机性能的数据保护与优化方法
CN106341496A (zh) * 2016-11-10 2017-01-18 郑州云海信息技术有限公司 一种资源调度的方法及装置
CN113312064A (zh) * 2021-06-01 2021-08-27 中国民航信息网络股份有限公司 物理机的安装配置方法、装置以及计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1937523A (zh) * 2006-08-09 2007-03-28 江苏移动通信有限责任公司 一种客服应急系统及其实现方法
US20080095047A1 (en) * 2006-06-29 2008-04-24 Nortel Networks Limited Method and system for looping back traffic in qiq ethernet rings and 1:1 protected pbt trunks
CN101593133A (zh) * 2009-06-29 2009-12-02 北京航空航天大学 虚拟机资源负载均衡方法及装置
CN101741912A (zh) * 2009-12-30 2010-06-16 中兴通讯股份有限公司 一种处理计算任务的方法、网络设备及分布式网络系统
CN101895646A (zh) * 2010-05-06 2010-11-24 中兴通讯股份有限公司 一种媒体网关电话业务的保护方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080095047A1 (en) * 2006-06-29 2008-04-24 Nortel Networks Limited Method and system for looping back traffic in qiq ethernet rings and 1:1 protected pbt trunks
CN1937523A (zh) * 2006-08-09 2007-03-28 江苏移动通信有限责任公司 一种客服应急系统及其实现方法
CN101593133A (zh) * 2009-06-29 2009-12-02 北京航空航天大学 虚拟机资源负载均衡方法及装置
CN101741912A (zh) * 2009-12-30 2010-06-16 中兴通讯股份有限公司 一种处理计算任务的方法、网络设备及分布式网络系统
CN101895646A (zh) * 2010-05-06 2010-11-24 中兴通讯股份有限公司 一种媒体网关电话业务的保护方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514049A (zh) * 2013-10-18 2014-01-15 浪潮电子信息产业股份有限公司 一种基于计算机性能的数据保护与优化方法
CN106341496A (zh) * 2016-11-10 2017-01-18 郑州云海信息技术有限公司 一种资源调度的方法及装置
CN113312064A (zh) * 2021-06-01 2021-08-27 中国民航信息网络股份有限公司 物理机的安装配置方法、装置以及计算机可读介质
CN113312064B (zh) * 2021-06-01 2024-03-26 中国民航信息网络股份有限公司 物理机的安装配置方法、装置以及计算机可读介质

Similar Documents

Publication Publication Date Title
CN110798375B (zh) 一种增强容器集群高可用性的监控方法、系统及终端设备
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN106789141B (zh) 一种网关设备故障处理方法及装置
CN103595572B (zh) 一种云计算集群中节点自修复的方法
CN107612748A (zh) 一种多节点服务器功耗管理系统
CN105306272A (zh) 信息系统故障场景信息收集方法及系统
CN103227662B (zh) 一种基于状态控制的电力通信设备安全检测方法及系统
CN104156297A (zh) 告警方法和装置
CN103414739B (zh) 采用自动漂移的云服务器自动监控系统及方法
CN101556679A (zh) 一种综合前端系统故障处理方法及计算机设备
CN104239548A (zh) 数据库容灾系统和数据库容灾方法
CN102111300A (zh) 一种监控系统及其保障业务连续性的方法
CN102025776A (zh) 一种容灾控制方法、装置及系统
CN105786462A (zh) 开机方法
CN106021070A (zh) 服务器集群监测方法及装置
CN104468504A (zh) 虚拟化网络动态信息安全的监控方法及系统
CN106294795A (zh) 一种数据库切换方法及系统
CN114064217B (zh) 一种基于OpenStack的节点虚拟机迁移方法及装置
CN105067959A (zh) 环网供电条件下的故障定位方法
CN103824017A (zh) 监控恶意程序的方法和监控平台
CN107491344B (zh) 一种实现虚拟机高可用性的方法及装置
CN104111878A (zh) 基于虚拟机快照的hadoop集群自动化恢复技术
CN109165506A (zh) 一种工控容错服务器在线病毒查杀和病毒防护的方法
CN113055203B (zh) Sdn控制平面的异常恢复方法及装置
CN106155834A (zh) 一种基于虚拟机快照的openstack云平台自动化恢复技术

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110629