CN101651580A - 一种触发双机切换的方法及装置 - Google Patents

一种触发双机切换的方法及装置 Download PDF

Info

Publication number
CN101651580A
CN101651580A CN200910169533A CN200910169533A CN101651580A CN 101651580 A CN101651580 A CN 101651580A CN 200910169533 A CN200910169533 A CN 200910169533A CN 200910169533 A CN200910169533 A CN 200910169533A CN 101651580 A CN101651580 A CN 101651580A
Authority
CN
China
Prior art keywords
internal memory
supervisory control
equipment
control system
overflows
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910169533A
Other languages
English (en)
Other versions
CN101651580B (zh
Inventor
沈爱华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN200910169533A priority Critical patent/CN101651580B/zh
Publication of CN101651580A publication Critical patent/CN101651580A/zh
Application granted granted Critical
Publication of CN101651580B publication Critical patent/CN101651580B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种触发双机切换的方法,用于及时发现故障,并保证业务的正常运行。所述方法包括:第一设备上的应用系统收到操作系统发送的内存溢出指示,并通知监控系统有故障出现;监控系统获知出现故障后,触发第一设备到第二设备的切换。本发明还公开了用于实现所述方法的装置。

Description

一种触发双机切换的方法及装置
技术领域
本发明涉及计算机和通信领域,特别时涉及触发双机切换的方法及装置。
背景技术
为了保证应用系统的持续运行,以便连续稳定的为用户提供服务,通常采用主备双机方案。当前运行的应用系统所在的主机出现软硬件故障后,监控系统会及时的监控到异常,并会在很短的时间内触发双机切换的动作,把当前主机上运行的应用系统快速的切换到备机上运行,保证关键的应用系统运行的不间断性。
现有的监控系统是对应用系统的关键进程的状态进行监控,当关键进程退出或挂起时,确定应用系统发生故障,触发主备双机切换。或者,监控系统判断多个关联进程满足异常判断条件时,也会确定应用系统发生故障,并触发主备双机切换。总之,现有技术中监控系统是对关键进程的监控。这种方式易于实现,并且实现简单。
然而,有些异常是在进程退出或挂起前便已发生,或者有些异常会使某些业务无法实现,但不会引起进程退出或挂起。现有技术中的监控系统无法及时发现上述异常,以及时进行双机切换,从而影响了业务的连续性。
发明内容
本发明实施例提供一种触发双机切换的方法及装置,用于及时发现故障,并保证业务的正常运行。
一种触发双机切换的方法,包括以下步骤:
第一设备上的应用系统收到操作系统发送的内存溢出指示,并通知监控系统有故障出现;
监控系统获知出现故障后,触发第一设备到第二设备的切换。
一种设备,包括:
操作系统模块,用于管理设备资源;
应用系统模块,用于收到操作系统模块发送的内存溢出指示,并通知监控系统模块有故障出现;
监控系统模块,用于获知出现故障后,触发设备到第二设备的切换。
本发明实施例通过内存溢出来确定出现故障,即在有进程退出或挂起之前便发现故障,做到发现及时,并及时触发双机切换,保证了应用系统的连续运行,持续为用户提供业务服务。
附图说明
图1为本发明实施例中触发双机切换的主要方法流程图;
图2为本发明实施例中通过内存检测系统触发双机切换的方法流程图;
图3为本发明实施例中通过内存检测系统发送告警消息来触发双机切换的方法流程图;
图4为本发明实施例中内存检测系统直接发现内存溢出时触发双机切换的方法流程图;
图5为本发明实施例中设备的主要结构图;
图6为本发明实施例中设备的详细结构图。
具体实施方式
本发明实施例通过监控内存是否溢出来确定是否发生故障。通常在发生内存溢出时,应用系统的运行状态还是正常,但此时已经出现软/硬件问题,直到内存溢出较为严重时,才会导致应用进程的退出或挂起,这时已经影响了业务的正常运行。本发明实施例在应用进程退出或挂起之前,便发现故障,及时的触发双机切换,保证了业务的正常运行。
本发明实施例中应用系统用于提供各种业务,CPU通过运行应用进程来实现应用系统的功能。
参见图1,本实施例中触发双机切换的主要方法流程如下:
步骤101:第一设备上的应用系统收到操作系统发送的内存溢出指示,并通知监控系统出现故障。
步骤102:监控系统获知出现故障后,触发第一设备到第二设备的切换。
本实施例中应用系统收到内存溢出指示后,可以直接通知监控系统出现故障,如向监控系统发送故障消息。或者,应用系统通过在日志中记录内存溢出来通知监控系统,监控系统通过查询日志发现内存溢出,从而获知出现故障。
为了减少对现有的应用系统和监控系统的改动,本实施例增加一内存检测系统,通过内存检测系统通知监控系统出现故障,下面通过实施例来详细介绍实现过程。
参见图2,本实施例中通过内存检测系统触发双机切换的方法流程如下:
步骤201:第一设备上的应用系统收到操作系统发送的内存溢出指示。应用系统在运行过程中可能需要向操作系统申请内存,操作系统发现没有足够的内存分配给应用系统,此时操作系统会向应用系统发送内存溢出指示。
步骤202:应用系统将内存溢出的故障写入日志文件。
步骤203:内存检测系统查询日志文件。当应用系统启动时,内存检测系统随之启动,并开始查询日志文件。
步骤204:内存检测系统判断是否记录了内存溢出,若是,继续步骤205,否则继续步骤203。内存检测系统可周期性查询日志文件。
步骤205:内存检测系统终止运行,内存检测系统的进程退出。
步骤206:监控系统对内存检测系统的进程进行监控,在发现内存检测系统的进程退出时,触发第一设备到第二设备的切换,即触发双机切换。
本实施例中内存检测系统是通过退出自身进程的发式通知监控系统出现故障,内存检测系统还可以通过发送告警消息的方式通知监控系统,下面通过一个实施例来详细介绍。
参见图3,本实施例中通过内存检测系统发送告警消息来触发双机切换的方法流程如下:
步骤301:第一设备上的应用系统收到操作系统发送的内存溢出指示。
步骤302:应用系统将内存溢出的故障写入日志文件。
步骤303:内存检测系统查询日志文件。当应用系统启动时,内存检测系统随之启动,并开始查询日志文件。
步骤304:内存检测系统判断是否记录了内存溢出,若是,继续步骤305,否则继续步骤303。内存检测系统可周期性查询日志文件。
步骤305:内存检测系统生成告警消息并发送给监控系统。所述告警消息包括出现故障的原因,如内存溢出。
步骤306:监控系统收到告警消息并解析,获知出现故障,触发第一设备到第二设备的切换。
本实施例中内存检测系统运行过程中也需要占用内存,所以内存检测系统可能直接发现内存溢出,而不需要通过应用系统写日志文件的方式来发现,下面对这种情况进行详细介绍。
参见图4,本实施例中内存检测系统直接发现内存溢出时触发双机切换的方法流程如下:
步骤401:内存检测系统向操作系统申请内存。
步骤402:操作系统发现没有足够的内存分配给内存检测系统。
步骤403:操作系统向内存检测系统发送内存溢出指示。
步骤404:内存检测系统收到内存溢出指示并退出自身进程。
步骤405:监控系统对内存检测系统的进程进行监控,在发现内存检测系统的进程退出时,触发第一设备到第二设备的切换。
在步骤404中,内存检测系统也可以通过发送告警消息的方式通知监控系统出现故障。则在步骤405中,监控系统收到告警消息并解析,获知出现故障,触发第一设备到第二设备的切换。
若第一设备的故障排除,则第二设备还可以切换到第一设备。
以上描述了触发双机切换的方法实现过程,该过程可以由设备实现,下面对设备的内部结构和功能进行详细介绍。
参见图5,本实施例中的设备包括:操作系统模块501、应用系统模块502和监控系统模块503。该设备就是一计算机设备,若位于网络中,则为网络设备。
操作系统模块501,包括操作系统,用于管理设备资源,包括硬件资源和软件资源。
应用系统模块502,包括应用系统,用于收到操作系统模块发送的内存溢出指示,并通知监控系统模块出现故障。
监控系统模块503,包括监控系统,用于获知出现故障后,触发设备到第二设备的切换。
应用系统模块502收到操作系统发送的内存溢出指示,并在日志文件中记录内存溢出。监控系统模块503可通过查询日志文件获知出现故障,并触发设备到第二设备的切换。或者,所述设备还包括内存检测系统模块504,参见图6所示。内存检测系统模块504,包括内存检测系统,用于通过查询日志文件获知内存溢出,并通知监控系统模块503出现故障。具体的,内存检测系统模块504的进程退出,以通知监控系统模块503出现故障;监控系统模块503监控内存检测系统模块的进程,并在发现内存检测系统模块的进程退出时获知出现故障。或者,内存检测系统模块504向监控系统模块503发送告警消息,以通知监控系统出现故障。
内存检测系统模块504还用于收到操作系统模块发送的内存溢出指示,并通知监控系统模块503出现故障。
用于实现本发明实施例的软件可以存储于软盘、硬盘、光盘和闪存等存储介质。
本发明实施例通过内存溢出来确定出现故障,即在有进程退出或挂起之前便发现故障,做到发现及时,并及时触发双机切换,保证了应用系统的连续运行,持续为用户提供业务服务。本发明实施例中,应用系统在收到内存溢出指示后可直接通知监控系统出现故障,该方法可直接解决问题,但需要对所有的应用系统进行改进。为了减少对应用系统和监控系统的改进,本发明实施例中应用系统在收到内存溢出指示后将故障写入日志文件,由内存检测系统查询日志文件,并通知监控系统出现故障。并且,内存检测系统可以通过退出进程的方式来通知监控系统,或者通过发送告警消息的方式来通知监控系统。通过发送告警消息的方式还可以通知监控系统出现故障的原因,即内存溢出。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1、一种触发双机切换的方法,其特征在于,包括以下步骤:
第一设备上的应用系统收到操作系统发送的内存溢出指示,并通知监控系统有故障出现;
监控系统获知出现故障后,触发第一设备到第二设备的切换。
2、如权利要求1所述的方法,其特征在于,第一设备上的应用系统收到操作系统发送的内存溢出指示并通知监控系统出现故障的步骤包括:
第一设备上的应用系统收到操作系统发送的内存溢出指示,并在日志文件中记录内存溢出;
第一设备上的内存检测系统通过查询日志文件获知内存溢出,并通知监控系统出现故障。
3、如权利要求2所述的方法,其特征在于,监控系统获知出现故障的步骤包括:监控系统监控内存检测系统的进程,并在发现内存检测系统的进程退出时获知出现故障。
4、如权利要求2所述的方法,其特征在于,内存检测系统通知监控系统出现故障的步骤包括:内存检测系统向监控系统发送告警消息,以通知监控系统出现故障。
5、如权利要求4所述的方法,其特征在于,所述告警消息包括出现故障的原因为内存溢出。
6、如权利要求1所述的方法,其特征在于,还包括步骤:第一设备上的内存检测系统收到操作系统发送的内存溢出指示,并通知监控系统出现故障。
7、一种设备,其特征在于,包括:
操作系统模块,用于管理设备资源;
应用系统模块,用于收到操作系统模块发送的内存溢出指示,并通知监控系统模块有故障出现;
监控系统模块,用于获知出现故障后,触发设备到第二设备的切换。
8、如权利要求7所述的设备,其特征在于,应用系统模块收到操作系统发送的内存溢出指示,并在日志文件中记录内存溢出;
所述设备还包括:内存检测系统模块,用于通过查询日志文件获知内存溢出,并通知监控系统模块出现故障。
9、如权利要求8所述的设备,其特征在于,监控系统模块监控内存检测系统模块的进程,并在发现内存检测系统模块的进程退出时获知出现故障。
10、如权利要求7所述的设备,其特征在于,还包括:内存检测系统模块用于收到操作系统模块发送的内存溢出指示,并通知监控系统模块出现故障。
CN200910169533A 2009-09-08 2009-09-08 一种触发双机切换的方法及装置 Expired - Fee Related CN101651580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910169533A CN101651580B (zh) 2009-09-08 2009-09-08 一种触发双机切换的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910169533A CN101651580B (zh) 2009-09-08 2009-09-08 一种触发双机切换的方法及装置

Publications (2)

Publication Number Publication Date
CN101651580A true CN101651580A (zh) 2010-02-17
CN101651580B CN101651580B (zh) 2012-09-05

Family

ID=41673709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910169533A Expired - Fee Related CN101651580B (zh) 2009-09-08 2009-09-08 一种触发双机切换的方法及装置

Country Status (1)

Country Link
CN (1) CN101651580B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164299A (zh) * 2011-12-19 2013-06-19 联想(北京)有限公司 控制方法和电子设备
CN103384212A (zh) * 2013-07-24 2013-11-06 佳都新太科技股份有限公司 一种通信应用系统双机高可用方案及其实现

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104360918B (zh) * 2014-10-15 2017-08-29 许继电气股份有限公司 一种智能变电站系统自诊断与自恢复方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043504B1 (en) * 2000-04-10 2006-05-09 International Business Machines Corporation System and method for parallel primary and secondary backup reading in recovery of multiple shared database data sets
CN1642030A (zh) * 2004-01-05 2005-07-20 华为技术有限公司 一种网管双机容灾备份的实现方法
CN1780254A (zh) * 2004-11-17 2006-05-31 华为技术有限公司 网络处理器中使用缓冲区的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164299A (zh) * 2011-12-19 2013-06-19 联想(北京)有限公司 控制方法和电子设备
CN103164299B (zh) * 2011-12-19 2017-03-01 联想(北京)有限公司 控制方法和电子设备
CN103384212A (zh) * 2013-07-24 2013-11-06 佳都新太科技股份有限公司 一种通信应用系统双机高可用方案及其实现

Also Published As

Publication number Publication date
CN101651580B (zh) 2012-09-05

Similar Documents

Publication Publication Date Title
CN101640688B (zh) 基于cdn的节点主备用控制器切换方法及cdn网络
CN202798798U (zh) 基于云计算技术的高可用系统
CN102231681B (zh) 一种高可用集群计算机系统及其故障处理方法
CN102394774B (zh) 一种云计算操作系统的控制器服务状态监控和故障恢复方法
CN105933391A (zh) 一种节点扩容方法、装置及系统
CN102360324B (zh) 故障恢复方法和用于故障恢复的设备
CN103354503A (zh) 一种可自动检测及替换故障节点的云存储系统及其方法
CN102394914A (zh) 集群脑裂处理方法和装置
EP2723017A1 (en) Method, apparatus and system for implementing distributed auto-incrementing counting
CN102346725A (zh) 更改设备配置文件的消息通知装置及方法
CN110830283A (zh) 故障检测方法、装置、设备和系统
WO2016065552A1 (zh) 一种心跳周期的设置方法及终端
CN102752093A (zh) 基于分布式文件系统的数据处理方法、设备和系统
CN111212127A (zh) 一种存储集群及业务数据的维护方法、装置和存储介质
CN101651580B (zh) 一种触发双机切换的方法及装置
CN101854253B (zh) 一种自动恢复监控和存储的方法及其监控系统
CN103605616A (zh) 一种多控制器间的缓存数据一致性保障方法
US9092396B2 (en) Standby system device, a control method, and a program thereof
CN101605051A (zh) 一种实现控制板上业务的主备倒换方法和装置
CN117076196A (zh) 一种数据库容灾的管控方法和装置
US20120284553A1 (en) Method, apparatus and system for reducing power consumption of service system
CN114553900B (zh) 一种分布式块存储管理系统、方法及电子设备
CN111309515A (zh) 一种容灾控制方法、装置及系统
CN101106548B (zh) 实现多媒体消息业务系统存储容灾的装置及方法
CN110266790B (zh) 边缘集群管理方法、装置、边缘集群及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120905

Termination date: 20150908

EXPY Termination of patent right or utility model