CN1477509A - 一种进程自动恢复方法 - Google Patents

一种进程自动恢复方法 Download PDF

Info

Publication number
CN1477509A
CN1477509A CNA021365776A CN02136577A CN1477509A CN 1477509 A CN1477509 A CN 1477509A CN A021365776 A CNA021365776 A CN A021365776A CN 02136577 A CN02136577 A CN 02136577A CN 1477509 A CN1477509 A CN 1477509A
Authority
CN
China
Prior art keywords
subprocess
parent
parent process
working group
subprocesss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA021365776A
Other languages
English (en)
Other versions
CN1217265C (zh
Inventor
薛莉芳
李光亚
吴颖健
查峻
刘继华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WANDA INFORMATION CO Ltd
Original Assignee
WANDA INFORMATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WANDA INFORMATION CO Ltd filed Critical WANDA INFORMATION CO Ltd
Priority to CN02136577.6A priority Critical patent/CN1217265C/zh
Publication of CN1477509A publication Critical patent/CN1477509A/zh
Application granted granted Critical
Publication of CN1217265C publication Critical patent/CN1217265C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种进程自动恢复方法。目前的进程监控方法中,只可以监控单一进程,或者可以实时监控复杂进程,但是所有子进程与监控进程需形成链表进行监控,并且监控到异常后没有恢复进程。进程自动恢复方法将需要进行监控的进程作为父进程,由其产生多个子进程,多个子进程设置为同一个工作组进程,通过互访信号量模块,父进程可监控到工作组中子进程的异常,并可将工作组中子进程退出,重新产生一组子进程作为工作组进程,从而完成进程自动恢复。

Description

一种进程自动恢复方法
                             技术领域
本发明涉及网络数据交换领域,尤其涉及一种进程自动恢复方法。
                             背景技术
目前,在Windows系统中,已有Windows平台上的进程监控技术。但在Unix环境下的进程监控并自动修复技术并不多见。现有的监控方法有下述2种:一种只可监控单一进程,如图1所示,它是以一监控进程A1来监控一简单进程B1,其中监控进程A1只能在Windows环境下运行。第二种可以实时监控复杂进程,如图2所示。通过获取被监控进程的相关信息,建立进程树来控制。所有监控进程发现异常情况以后会报警,但是没有进行恢复进程。在网络交换中很多关键进程一定不能退出。我们为了降低进程间管理复杂度,以及确保工作进程稳定可靠运行,采用父进程作为监控进程,工作进程由父进程产生出来。
                             发明内容
本发明的主要目的在于提出一种进程自动恢复技术,解决了进程标识符树建立的麻烦,降低管理进程复杂度、保证系统可靠性、对关键进程进行监控和恢复。
本发明是通过下面的方法实现的:
一种进程自动恢复方法,用于在unix环境下对进程进行即时监控和恢复,该方法包括以下步骤:
a、将一个需要进行监控的进程作为父进程,由父进程调用Fork函数产生多个子进程,该子进程具备与父进程相同的资源和属性;该父进程作为监控进程,该多个子进程作为工作组进程;
b、该父进程监控工作组进程:父进程和工作组进程互访信号量公共模块进行通信,通过信号量的变化,父进程可实时监控到工作组进程中的每个子进程是否异常;
c、如果父进程监控到工作组进程中的某个子进程异常退出,则父进程进行报警;
d、该父进程通过Fork函数获取该子进程的标识符,并调用函数关闭该子进程,同时关闭其他子进程;
e、该父进程重新产生多个子进程,监控进程对工作组进程进行实时监控。
由同一个父进程产生的多个子进程被设为同一个进程组,子进程所具备的与父进程相同的属性包括信号量。
父进程可在本机上(unix环境)报警或通过套接字把报警信息传送到视窗系统。
                             附图简要说明
图1是单一监控进程示意图。
图2是实时监控进程示意图。
图3是采用本发明进行监控恢复的一个通讯进程示意图。
                             具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
数据交换平台有很多关键性进程不能退出,所以数据交换平台中进程采用本发明。下面就数据交换平台通讯进程为例,说明该通讯进程采用进程监控修复方法保证系统稳定、可靠运行的方法。
如图3所示,在X系统和Y系统的数据交换平台中有一个通讯进程A,它既要和进程X系统进行通讯,又要和进程Y系统进行通讯,为了保证两个系统进行可靠的数据交换,通讯进程A采用进程自动修复方法。
将通讯进程A作为父进程,由通讯进程A调用Fork函数产生8个子进程,所有子进程都设置为工作进程。子进程具有与通讯进程A相同的资源,包括信号量的属性。接着,通讯进程A获取子进程的进程号,把所有子进程归于同一个进程组中,通讯进程A记录所有子进程的进程号和信号量状态,通过信号量的参数值的变化,通讯进程A可以监控工作组进程中的所有子进程是否异常。其过程如下所述:把信号量的参数值设置为子进程的句柄、屏蔽父进程、子进程标志值设为0,子进程的标志值为0时子进程被激活,此时通讯进程A就可以访问子进程了,从而可得知子进程是否处于异常状态。
当通讯进程A监控到有子进程异常,通讯进程A通过信号量立即捕捉子进程的状态并判断其状态。如果子进程信号量异常,通讯进程A进行报警,可以把信息报到本机上(unix环境),或通过日志进程送到Windows界面上。
通讯进程A通过信号量控制使所有子进程退出,释放子进程的所有资源。
通讯进程A重新产生所有子进程。通讯进程A没有退出,其所有资源均没有变化。子进程继承通讯进程A的资源,确保子进程资源不变,并且稳定地可靠地运行。自此通讯进程A完成自动修复。

Claims (3)

1、一种进程自动恢复方法,其特征在于,用于在unix环境下对进程进行即时监控和恢复,所述方法包括以下步骤:
a、将一个需要进行监控的进程作为父进程,由父进程调用Fork函数产生多个子进程,所述子进程具备与父进程相同的资源和属性;所述父进程作为监控进程,所述多个子进程作为工作组进程;
b、所述父进程监控工作组进程:父进程和工作组进程互访信号量公共模块进行通信,通过信号量的变化,父进程可实时监控到工作组进程中的每个子进程是否异常;
c、如果父进程监控到工作组进程中的某个子进程异常退出,则父进程进行报警;
d、所述父进程通过Fork函数获取所述子进程的标识符,并调用函数关闭所述子进程,同时关闭其他子进程;
e、所述父进程重新产生多个子进程,监控进程对工作组进程进行实时监控。
2、如权利要求1所述的一种进程自动恢复方法,其特征在于,由同一个父进程产生多个子进程并且设为同一个进程组,所述子进程所具备的与父进程相同的属性包括信号量。
3、如权利要求1所述的一种进程自动恢复方法,其特征在于,所述父进程可在本机上(unix环境)报警或通过套接字把报警信息传送到视窗系统(Windows平台)。
CN02136577.6A 2002-08-19 2002-08-19 一种进程自动恢复方法 Expired - Lifetime CN1217265C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN02136577.6A CN1217265C (zh) 2002-08-19 2002-08-19 一种进程自动恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN02136577.6A CN1217265C (zh) 2002-08-19 2002-08-19 一种进程自动恢复方法

Publications (2)

Publication Number Publication Date
CN1477509A true CN1477509A (zh) 2004-02-25
CN1217265C CN1217265C (zh) 2005-08-31

Family

ID=34146552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN02136577.6A Expired - Lifetime CN1217265C (zh) 2002-08-19 2002-08-19 一种进程自动恢复方法

Country Status (1)

Country Link
CN (1) CN1217265C (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100359483C (zh) * 2004-08-27 2008-01-02 华为技术有限公司 后台监控系统及其方法
CN100380333C (zh) * 2004-08-25 2008-04-09 埃沃列姆公司 进程管理系统
CN100442281C (zh) * 2004-07-22 2008-12-10 国际商业机器公司 用于支持共享库文本复制的方法和数据处理系统
CN102455889A (zh) * 2010-10-29 2012-05-16 金蝶软件(中国)有限公司 一种获取进程输出日志的方法、装置及企业系统
CN102768634A (zh) * 2011-05-06 2012-11-07 北大方正集团有限公司 目标系统的处理方法及监控系统
CN102819455A (zh) * 2012-07-31 2012-12-12 深圳市共进电子股份有限公司 一种在应用层对进程进行管理的方法和管理系统
CN103514007A (zh) * 2012-08-31 2014-01-15 Tcl集团股份有限公司 一种基于Android系统的移动终端的热启动的方法
CN104156662A (zh) * 2014-08-28 2014-11-19 北京奇虎科技有限公司 进程监控的方法、装置和智能终端
CN104572394A (zh) * 2013-10-29 2015-04-29 腾讯科技(深圳)有限公司 进程监控方法及装置
CN104750607A (zh) * 2011-06-17 2015-07-01 阿里巴巴集团控股有限公司 一种选择性恢复测试执行的方法及装置
CN105279433A (zh) * 2014-07-10 2016-01-27 腾讯科技(深圳)有限公司 一种应用程序的防护方法及装置
CN105573777A (zh) * 2014-11-11 2016-05-11 阿里巴巴集团控股有限公司 应用中服务的控制方法及装置
CN105589757A (zh) * 2014-10-23 2016-05-18 上海天脉聚源文化传媒有限公司 一种服务器架构下的保护工作进程的方法和服务器
CN106330523A (zh) * 2015-07-03 2017-01-11 中国移动通信集团广西有限公司 一种集群服务器容灾系统、方法和服务器节点
CN106933658A (zh) * 2015-12-29 2017-07-07 北京明朝万达科技股份有限公司 一种操作系统中后台进程防杀死的方法和装置
CN107515796A (zh) * 2017-07-31 2017-12-26 北京奇安信科技有限公司 一种设备异常监控处理方法及装置
CN109257235A (zh) * 2018-11-12 2019-01-22 深信服科技股份有限公司 网络异常恢复方法、装置、设备及计算机可读存储介质
CN109408158A (zh) * 2018-11-06 2019-03-01 恒生电子股份有限公司 子进程随父进程退出的方法及装置、存储介质及电子设备
CN109491836A (zh) * 2018-10-30 2019-03-19 京信通信系统(中国)有限公司 数据恢复方法、装置及基站
CN109947576A (zh) * 2017-12-21 2019-06-28 上海盛霄云计算技术有限公司 一种虚拟机内部代理程序管理的方法
CN113535511A (zh) * 2021-06-30 2021-10-22 北京思特奇信息技术股份有限公司 一种基于Hbase的进程启停监控方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968352B (zh) * 2012-12-14 2015-07-22 杨晓松 进程监控及多级恢复系统和方法

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100442281C (zh) * 2004-07-22 2008-12-10 国际商业机器公司 用于支持共享库文本复制的方法和数据处理系统
CN100380333C (zh) * 2004-08-25 2008-04-09 埃沃列姆公司 进程管理系统
CN100359483C (zh) * 2004-08-27 2008-01-02 华为技术有限公司 后台监控系统及其方法
CN102455889A (zh) * 2010-10-29 2012-05-16 金蝶软件(中国)有限公司 一种获取进程输出日志的方法、装置及企业系统
CN102455889B (zh) * 2010-10-29 2014-03-26 金蝶软件(中国)有限公司 一种获取进程输出日志的方法、装置及企业系统
CN102768634A (zh) * 2011-05-06 2012-11-07 北大方正集团有限公司 目标系统的处理方法及监控系统
CN104750607A (zh) * 2011-06-17 2015-07-01 阿里巴巴集团控股有限公司 一种选择性恢复测试执行的方法及装置
CN104750607B (zh) * 2011-06-17 2018-07-06 阿里巴巴集团控股有限公司 一种选择性恢复测试执行的方法及装置
CN102819455B (zh) * 2012-07-31 2016-05-11 深圳市共进电子股份有限公司 一种在应用层对进程进行管理的方法和管理系统
CN102819455A (zh) * 2012-07-31 2012-12-12 深圳市共进电子股份有限公司 一种在应用层对进程进行管理的方法和管理系统
CN103514007A (zh) * 2012-08-31 2014-01-15 Tcl集团股份有限公司 一种基于Android系统的移动终端的热启动的方法
CN104572394A (zh) * 2013-10-29 2015-04-29 腾讯科技(深圳)有限公司 进程监控方法及装置
CN105279433A (zh) * 2014-07-10 2016-01-27 腾讯科技(深圳)有限公司 一种应用程序的防护方法及装置
CN105279433B (zh) * 2014-07-10 2020-10-16 腾讯科技(深圳)有限公司 一种应用程序的防护方法及装置
CN104156662A (zh) * 2014-08-28 2014-11-19 北京奇虎科技有限公司 进程监控的方法、装置和智能终端
CN104156662B (zh) * 2014-08-28 2017-10-27 北京奇虎科技有限公司 进程监控的方法、装置和智能终端
CN105589757A (zh) * 2014-10-23 2016-05-18 上海天脉聚源文化传媒有限公司 一种服务器架构下的保护工作进程的方法和服务器
CN105573777B (zh) * 2014-11-11 2020-01-14 阿里巴巴集团控股有限公司 应用中服务的控制方法及装置
CN105573777A (zh) * 2014-11-11 2016-05-11 阿里巴巴集团控股有限公司 应用中服务的控制方法及装置
CN106330523A (zh) * 2015-07-03 2017-01-11 中国移动通信集团广西有限公司 一种集群服务器容灾系统、方法和服务器节点
CN106933658A (zh) * 2015-12-29 2017-07-07 北京明朝万达科技股份有限公司 一种操作系统中后台进程防杀死的方法和装置
CN107515796B (zh) * 2017-07-31 2020-08-25 奇安信科技集团股份有限公司 一种设备异常监控处理方法及装置
CN107515796A (zh) * 2017-07-31 2017-12-26 北京奇安信科技有限公司 一种设备异常监控处理方法及装置
CN109947576B (zh) * 2017-12-21 2022-12-06 上海盛霄云计算技术有限公司 一种虚拟机内部代理程序管理的方法
CN109947576A (zh) * 2017-12-21 2019-06-28 上海盛霄云计算技术有限公司 一种虚拟机内部代理程序管理的方法
CN109491836B (zh) * 2018-10-30 2021-04-27 京信通信系统(中国)有限公司 数据恢复方法、装置及基站
CN109491836A (zh) * 2018-10-30 2019-03-19 京信通信系统(中国)有限公司 数据恢复方法、装置及基站
CN109408158A (zh) * 2018-11-06 2019-03-01 恒生电子股份有限公司 子进程随父进程退出的方法及装置、存储介质及电子设备
CN109408158B (zh) * 2018-11-06 2022-11-18 恒生电子股份有限公司 子进程随父进程退出的方法及装置、存储介质及电子设备
CN109257235B (zh) * 2018-11-12 2022-03-22 深信服科技股份有限公司 网络异常恢复方法、装置、设备及计算机可读存储介质
CN109257235A (zh) * 2018-11-12 2019-01-22 深信服科技股份有限公司 网络异常恢复方法、装置、设备及计算机可读存储介质
CN113535511A (zh) * 2021-06-30 2021-10-22 北京思特奇信息技术股份有限公司 一种基于Hbase的进程启停监控方法及系统

Also Published As

Publication number Publication date
CN1217265C (zh) 2005-08-31

Similar Documents

Publication Publication Date Title
CN1217265C (zh) 一种进程自动恢复方法
US20220187815A1 (en) Systems and methods for detecting and predicting faults in an industrial process automation system
US6513129B1 (en) System and method for managing faults using a gateway
CN104699759B (zh) 一种数据库自动化运行维护方法
EP1394984A1 (en) Method and Apparatus for Network Resource Utilization Assessment
CN104022904A (zh) 分布式机房it设备统一管理平台
CN100438423C (zh) 电信设备故障信息管理方法
CN109448231A (zh) 一种故障信息的上报、处理方法及系统
CN111431754A (zh) 配用电通信网故障分析方法和系统
CN113704052B (zh) 一种微服务架构的运维系统、方法、设备及介质
CN110460454A (zh) 基于深度学习的网络设备端口故障智能预测方法及原理
CN114595967A (zh) 一种基于边缘云架构的数据中心碳排放监管方法及系统
CN109800133A (zh) 一种统一监控告警的方法、一站式监控告警平台及系统
CN108875700A (zh) 一种监控系统和方法
CN102111303A (zh) 无人值守系统自动监护方法及装置
CN114860830A (zh) 一种基于大数据技术建设运维数据中台的系统
CN117194154A (zh) 一种基于微服务的apm全链路监控系统及方法
CN112737829A (zh) 一种挖掘装备故障诊断系统集成的方法及系统
CN112449019A (zh) 一种ims智能物联网运维管理平台
CN108111600A (zh) 一种数据管理方法和智能运维平台
CN112486776A (zh) 一种集群成员节点可用性监测设备及方法
CN112101588A (zh) 一种基于工业互联网的设备维护管理方法
CN1900869A (zh) 生产自动化服务系统及方法
CN116300594A (zh) 一种基于自动化rpa的运维监控系统及其方法
CN105550094B (zh) 一种高可用系统状态自动监控方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20050831

CX01 Expiry of patent term