CN1750566A - 基于代理进程的双机应用系统的监控方法 - Google Patents
基于代理进程的双机应用系统的监控方法 Download PDFInfo
- Publication number
- CN1750566A CN1750566A CN 200410064700 CN200410064700A CN1750566A CN 1750566 A CN1750566 A CN 1750566A CN 200410064700 CN200410064700 CN 200410064700 CN 200410064700 A CN200410064700 A CN 200410064700A CN 1750566 A CN1750566 A CN 1750566A
- Authority
- CN
- China
- Prior art keywords
- shipper
- agent process
- application
- dual systems
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Hardware Redundancy (AREA)
- Control Of Conveyors (AREA)
Abstract
基于代理进程的双机应用系统的监控方法,涉及通信领域。本发明的监控方法如下:通过在双机系统和应用进程组之间设置双机代理进程,将其作为双机系统的资源,并且由其管理应用进程组,定制对应用进程组的监控规则,对应用进程组的运行进行实时监控;在双机系统和双机代理进程之间设置共享内存区,用于双机系统对双机代理进程的监控、通知双机代理进程及其应用系统执行安全退出。双机代理进程可以根据实际情况合理定制关于应用进程组的管理规则,避免个别应用进程的异常而影响整个应用系统的运行;实现双机系统和双机代理进程的信息交互,保证了应用进程组的安全退出,有效地提高了应用系统的可靠性和安全性。
Description
技术领域
本发明涉及双机应用系统的监控方法,尤其涉及一种基于代理进程的双机应用系统的监控方法。
背景技术
在电信系统的后台服务器端,一般都采用双机系统,以保证应用系统在异常情况下业务能够及时恢复。传统的双机系统管理应用进程组的方法一般是把所有应用进程分别设定为双机资源,并把这些资源组成一个应用进程资源组,在实际运行过程中,双机系统实时监控该资源组的运行情况,根据双机系统的判定规则,在资源组发生异常(如进程资源退出次数超过设定值)并不可恢复的情况下,双机系统发起双机切换,即在主机侧卸载(offline)应用进程资源组,并在备机侧启动(online)应用进程资源组。
传统的双机系统管理应用进程方法存在较大的局限性:首先双机系统判断应用进程资源组的运行状况,如果个别应用进程反复出现一些被双机系统认为异常的现象(如应用进程正常退出),双机系统将发起双机切换,从而影响整个资源组中所有应用进程的运行;其次在双机切换时,双机系统一般不通知应用进程资源组,正常运行的应用进程将被强行杀死,无法做退出前的现场清理工作,造成系统瘫痪和业务信息丢失;最后,双机切换都是由双机系统发起,在一些特殊的情况下,应用进程资源组无法主动要求执行双机切换。
发明内容
本发明要解决的技术问题在于提供一种基于代理进程的双机应用系统的监控方法,以提高了应用系统的可靠性和安全性。
为实现本发明要解决的技术问题,本发明提供一种基于双机代理进程的双机应用系统的监控方法包括:
通过在双机系统和应用进程组之间设置双机代理进程,将其作为双机系统的资源,并且由其管理应用进程组,定制对应用进程组的监控规则,对应用进程组的运行进行实时监控;
通过在双机系统和双机代理进程之间设置共享内存区,用于双机系统对双机代理进程的监控、通知双机代理进程及其应用系统执行安全退出。
本发明可以根据实际情况合理定制关于应用进程组的管理规则,提高了对应用进程组监控的灵活性和有效性,避免个别应用进程的异常而影响整个应用系统的运行;实现双机系统和双机代理进程的信息交互,提高了应用系统的主动性,保证了应用进程组的安全退出,有效地提高了应用系统的可靠性和安全性。
附图说明
图1 双机系统、双机代理进程及应用进程组之间的关系图;
图2 双机系统和代理进程之间交互的控制结构图;
图3 双机代理进程监控应用进程组的流程图;
图4 双机代理进程保活运行的流程图;
图5 双机系统监控双机代理进程资源的流程图;
图6 双机系统卸载或切换资源时通知双机代理进程的流程图;
图7 双机代理进程接受双机切换通知的流程图。
具体实施方式
下面结合附图,基本按照附图的顺序对技术方案的实施作进一步的详细描述:
图1介绍了双机系统、双机代理进程及应用进程组之间的关系。双机代理进程处于双机系统和应用程序组中间,担当了中间层的角色,双机代理软件被定义为双机系统的一个资源,根据双机系统提供的接口,负责双机资源的保活运行;双机代理软件管理应用进程组,定制应用进程组的监控规则,负责应用进程的启动、停止动作以及资源的双机切换。
图2介绍了双机系统和双机代理进程之间交互的控制结构。该结构存放在有名共享内存中,被双机系统和双机代理进程同时操作,2个字段分别为双机代理进程的保活标记和双机系统的退出通知标记。双机代理进程定时t1秒修改共享内存中保活标记字段,比如将保活标记字段加1(以下都以保活标记字段定时加1为例),大于最大值时清零;双机系统监控进程启动时读取保活标记初始值,循环延时t2秒读取该值,在n*t2秒内和初始值进行比较。双机系统切换或卸载资源时置位退出标记,以通知双机代理进程。
图3介绍了一种双机代理进程关于应用进程组的监控策略。双机代理进程t秒定时触发,首先将进程计数和异常计数清零,逐一检查应用进程组所有进程的运行状态。如果当前进程i运行正常,检查下一个进程;如果进程i已退出,双机代理进程重启进程i,且异常计数加1,如果双机代理进程判断异常计数大于设定的最大值,双机代理进程消息通知所有应用进程组做退出前的现场清理工作,在此过程中,双机代理进程定时t3秒查看所有应用进程的状态,如果确认所有应用进程已退出,则双机代理进程调用双机接口发起双机切换,否则直到超时后双机代理进程发起双机切换。
上述情况描述了一种常用的监控策略,在实际使用时可以根据实际情况进行定制和优化。
图4介绍了双机代理进程保活运行的情况。双机代理进程定时t1秒读取共享内存的保活标记字段值,当该字段值大于最大值时赋零,否则将保活标记字段值加1。
图5介绍了双机系统监控双机代理进程资源的流程。根据双机代理进程的资源配置,双机系统启动一个监控进程(如Veritas双机的MonitorProgram进程、Rose HA的Agent进程),定时检查双机代理进程资源的运行情况,首先监控进程读取共享内存保活标记字段并记录下初始值,循环延时t2秒读取该值,与初始值进行比较。如果在n*t2秒内,保活标记值与记录初始值不一致,监控进程向双机系统报告双机代理进程资源正常;在n*t2秒内保活标记始终没有发生改变,监控进程报告双机代理进程资源异常,双机系统根据双机代理进程资源的配置策略决定是否发起双机切换或重新启动双机代理进程。
图6介绍了双机系统卸载或切换资源时通知双机代理进程的操作情况。当双机系统执行卸载(offline)或切换(failover)双机代理进程资源时,双机系统在共享内存区退出标记字段设置资源退出标记。
图7介绍了双机代理进程接受双机切换通知的实现流程。当双机系统执行卸载(offline)或切换(failover)双机代理进程资源时,双机系统置位共享内存的退出标记,要求双机代理进程退出。双机代理进程定时扫描共享内存退出标记字段值,如发现该标记已被置位,发消息通知应用进程组的所有进程,应用进程做进程退出前的现场清理工作。在此过程中,双机代理进程定时t3秒查看所有应用进程的运行状态,如果确认所有应用进程已经退出,则双机代理进程立即退出,否则直到超时,双机代理进程才退出系统。
Claims (9)
1.一种基于双机代理进程的双机应用系统的监控方法,其特征在于:
通过在双机系统和应用进程组之间设置双机代理进程,将其作为双机系统的资源,并且由其管理应用进程组,定制对应用进程组的监控规则,对应用进程组的运行进行实时监控;
通过在双机系统和双机代理进程之间设置共享内存区,用于双机系统对双机代理进程的监控、通知双机代理进程及其应用系统执行安全退出。
2.按照权利要求1所述的监控方法,其特征在于:其中所述双机代理进程对应用进程组的实时监控包括在应用进程异常退出时装载应用进程。
3.按照权利要求1或2所述的监控方法,其特征在于:其中所述双机代理进程对应用进程组的实时监控包括在双机系统卸载资源或执行切换时,负责通知应用进程组。
4.按照权利要求3所述的监控方法,其特征在于:其中所述双机代理进程对应用进程组的实时监控包括在双机系统运行过程中,结合应用进程组的整体运行情况,判断在异常情况下主动发起双机切换。
5.按照权利要求4所述的监控方法,其特征在于:其中所述的异常情况包括应用进程组异常退出次数超过设定值。
6.按照权利要求4所述的监控方法,其特征在于:其中所述的主动发起双机切换包括双机代理进程发消息通知所有应用进程组做退出前的现场清理工作,在此过程中,双机代理进程定时查看所有应用进程的状态,如果确认所有应用进程已退出,则双机代理进程调用双机接口发起双机切换,否则直到超时后双机代理进程发起双机切换。
7.按照权利要求1所述的监控方法,其特征在于,所述双机系统对双机代理进程的监控包括以下步骤:
(1)双机代理进程定时修改共享内存区的保活标记,以表明应用进程的存活状态;
(2)双机系统定时启动一个监控进程,该进程在设定的时间内检查保活标记是否发生改变,把检查结果反馈给双机系统,双机系统根据反馈结果和双机代理进程资源的配置策略来决定是否发起双机切换或重新启动双机代理进程。
8.按照权利要求7所述的监控方法,其特征在于:进一步包括在设定时间内保活标记发生改变时,该监控进程向双机系统报告双机代理进程资源正常;在设定时间内保活标记没有发生改变时,报告双机代理进程资源异常。
9.按照权利要求1所述的监控方法,其特征在于,所述双机系统通知双机代理进程及其应用系统执行安全退出包括以下步骤:
(1)双机系统置位共享内存区的退出标记,要求双机代理进程退出;
(2)双机代理进程定时扫描共享内存,如发现退出标记被置位,则发消息通知所有应用进程组退出,应用进程做现场清理工作,双机代理进程超时等待所有应用进程退出后,最后执行退出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100647003A CN100461802C (zh) | 2004-09-16 | 2004-09-16 | 基于代理进程的双机应用系统的监控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100647003A CN100461802C (zh) | 2004-09-16 | 2004-09-16 | 基于代理进程的双机应用系统的监控方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1750566A true CN1750566A (zh) | 2006-03-22 |
CN100461802C CN100461802C (zh) | 2009-02-11 |
Family
ID=36605819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100647003A Active CN100461802C (zh) | 2004-09-16 | 2004-09-16 | 基于代理进程的双机应用系统的监控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100461802C (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101071388B (zh) * | 2006-05-12 | 2010-05-12 | 联想(北京)有限公司 | 一种进程隔离控制系统及方法 |
CN103645938A (zh) * | 2011-09-06 | 2014-03-19 | 尼尔森(美国)有限公司 | 用于检测设备上测量仪的卸载的方法和装置 |
CN108563515A (zh) * | 2018-03-14 | 2018-09-21 | 中国银联股份有限公司 | 一种业务进程管理方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1175353C (zh) * | 2001-01-19 | 2004-11-10 | 华为技术有限公司 | 一种双机备份的实现方法 |
US20040111414A1 (en) * | 2002-12-06 | 2004-06-10 | International Business Machines Corporation | System and method for selective execution of statements with surrogate authority |
CN1198407C (zh) * | 2003-07-08 | 2005-04-20 | 大唐移动通信设备有限公司 | 通信系统中实现高可用性(ha)的装置和方法 |
-
2004
- 2004-09-16 CN CNB2004100647003A patent/CN100461802C/zh active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101071388B (zh) * | 2006-05-12 | 2010-05-12 | 联想(北京)有限公司 | 一种进程隔离控制系统及方法 |
CN103645938A (zh) * | 2011-09-06 | 2014-03-19 | 尼尔森(美国)有限公司 | 用于检测设备上测量仪的卸载的方法和装置 |
CN103645938B (zh) * | 2011-09-06 | 2018-02-09 | 尼尔森(美国)有限公司 | 用于检测设备上测量仪的卸载的方法和装置 |
CN108563515A (zh) * | 2018-03-14 | 2018-09-21 | 中国银联股份有限公司 | 一种业务进程管理方法和系统 |
CN108563515B (zh) * | 2018-03-14 | 2021-08-27 | 中国银联股份有限公司 | 一种业务进程管理方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN100461802C (zh) | 2009-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7076691B1 (en) | Robust indication processing failure mode handling | |
CN1464396A (zh) | 一种在服务器之间实现备份的方法 | |
CN1295612C (zh) | 一种多线程系统中实现实时监控各线程状态的方法 | |
CN105763395A (zh) | 云环境下用于虚拟机和容器的监控管理方法及系统 | |
CN1879068A (zh) | 控制工艺设备的冗余自动化系统及运行该自动化系统的方法 | |
EP1358554B1 (de) | Automatische inbetriebnahme eines clustersystems nach einem heilbaren fehler | |
CN111212127A (zh) | 一种存储集群及业务数据的维护方法、装置和存储介质 | |
EP3929740A1 (de) | Verfahren zur orchestrierung einer container-basierten anwendung auf einem endgerät | |
CN100461802C (zh) | 基于代理进程的双机应用系统的监控方法 | |
US20110225463A1 (en) | Detecting and recovering from process failures | |
US6732359B1 (en) | Application process monitor | |
CN1885792A (zh) | 网管异常状态用户接口恢复方法 | |
WO2024022469A1 (zh) | 磁盘阵列冗余方法、系统、计算机设备和存储介质 | |
CN111309456B (zh) | 一种任务执行方法及系统 | |
JP2007280155A (ja) | 分散システムにおける信頼性向上方法 | |
CN114915541B (zh) | 系统故障排除方法及装置、电子设备及存储介质 | |
CN101256506A (zh) | 计算机网络应用程序管理系统 | |
JP2008140280A (ja) | サーバの運用管理における信頼性強化方法 | |
CN113220506A (zh) | 一种终端设备的数据处理方法及装置 | |
CN1306760C (zh) | 网络设备应用单元的管理方法 | |
CN105391575A (zh) | 一种金库控制方法及系统 | |
WO2019216210A1 (ja) | サービス継続システムおよびサービス継続方法 | |
CN112622927A (zh) | 一种车辆驾驶控制方法、装置、电子设备和存储介质 | |
JP2007156744A (ja) | 分散監視制御システム | |
CN115834288B (zh) | 用于总线网络的控制方法、控制装置、存储介质及处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |