CN1217265C - 一种进程自动恢复方法 - Google Patents

一种进程自动恢复方法 Download PDF

Info

Publication number
CN1217265C
CN1217265C CN02136577.6A CN02136577A CN1217265C CN 1217265 C CN1217265 C CN 1217265C CN 02136577 A CN02136577 A CN 02136577A CN 1217265 C CN1217265 C CN 1217265C
Authority
CN
China
Prior art keywords
parent
working group
subprocess
parent process
subprocesss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN02136577.6A
Other languages
English (en)
Other versions
CN1477509A (zh
Inventor
薛莉芳
李光亚
吴颖健
查峻
刘继华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WANDA INFORMATION CO Ltd
Original Assignee
WANDA INFORMATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WANDA INFORMATION CO Ltd filed Critical WANDA INFORMATION CO Ltd
Priority to CN02136577.6A priority Critical patent/CN1217265C/zh
Publication of CN1477509A publication Critical patent/CN1477509A/zh
Application granted granted Critical
Publication of CN1217265C publication Critical patent/CN1217265C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种进程自动恢复方法。目前的进程监控方法中,只可以监控单一进程,或者可以实时监控复杂进程,但是所有子进程与监控进程需形成链表进行监控,并且监控到异常后没有恢复进程。进程自动恢复方法将需要进行监控的进程作为父进程,由其产生多个子进程,多个子进程设置为同一个工作组进程,通过互访信号量模块,父进程可监控到工作组中子进程的异常,并可将工作组中子进程退出,重新产生一组子进程作为工作组进程,从而完成进程自动恢复。

Description

一种进程自动恢复方法
                        技术领域
本发明涉及网络数据交换领域,尤其涉及一种进程自动恢复方法。
                        背景技术
目前,在Windows系统中,已有Windows平台上的进程监控技术。但在Unix环境下的进程监控并自动修复技术并不多见。现有的监控方法有下述2种:一种只可监控单一进程,如图1所示,它是以一监控进程A1来监控一简单进程B1,其中监控进程A1只能在Windows环境下运行。第二种可以实时监控复杂进程,如图2所示。通过获取被监控进程的相关信息,建立进程树来控制。所有监控进程发现异常情况以后会报警,但是没有进行恢复进程。在网络交换中很多关键进程一定不能退出。我们为了降低进程间管理复杂度,以及确保工作进程稳定可靠运行,采用父进程作为监控进程,工作进程由父进程产生出来。
                        发明内容
本发明的主要目的在于提出一种进程自动恢复技术,解决了进程标识符树建立的麻烦,降低管理进程复杂度、保证系统可靠性、对关键进程进行监控和恢复。
本发明是通过下面的方法实现的:
一种进程自动恢复方法,用于在unix环境下对进程进行即时监控和恢复,该方法包括以下步骤:
a、将一个需要进行监控的进程作为父进程,由父进程调用Fork函数产生多个子进程,该子进程具备与父进程相同的资源和属性;该父进程作为监控进程,该多个子进程作为工作组进程;
b、该父进程监控工作组进程:父进程和工作组进程互访信号量公共模块进行通信,通过信号量的变化,父进程可实时监控到工作组进程中的每个子进程是否异常;
c、如果父进程监控到工作组进程中的某个子进程异常退出,则父进程进行报警;
d、该父进程通过Fork函数获取该子进程的标识符,并调用函数关闭该子进程,同时关闭其他子进程;
e、该父进程重新产生多个子进程,监控进程对工作组进程进行实时监控。
由同一个父进程产生的多个子进程被设为同一个进程组,子进程所具备的与父进程相同的属性包括信号量。
父进程可在本机上(unix环境)报警或通过套接字把报警信息传送到视窗系统。
                        附图简要说明
图1是单一监控进程示意图。
图2是实时监控进程示意图。
图3是采用本发明进行监控恢复的一个通讯进程示意图。
                        具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
数据交换平台有很多关键性进程不能退出,所以数据交换平台中进程采用本发明。下面就数据交换平台通讯进程为例,说明该通讯进程采用进程监控修复方法保证系统稳定、可靠运行的方法。
如图3所示,在X系统和Y系统的数据交换平台中有一个通讯进程A,它既要和进程X系统进行通讯,又要和进程Y系统进行通讯,为了保证两个系统进行可靠的数据交换,通讯进程A采用进程自动恢复方法。
将通讯进程A作为父进程,由通讯进程A调用Fork函数产生多个例如8个子进程,所有子进程都设置为工作进程组。子进程具有与通讯进程A相同的资源,包括信号量的属性。接着,通讯进程A获取子进程的进程号,把所有子进程归于同一个进程组中,通讯进程A记录所有子进程的进程号和信号量状态,通过信号量的参数值的变化,通讯进程A可以监控工作组进程中的所有子进程是否异常。其过程如下所述:把信号量的参数值设置为子进程的句柄、屏蔽父进程、子进程标志值设为0,子进程的标志值为0时子进程被激活,此时通讯进程A就可以访问子进程了,从而可得知子进程是否处于异常状态。
当通讯进程A监控到有子进程异常,通讯进程A通过信号量立即捕捉子进程的状态并判断其状态。如果子进程信号量异常,通讯进程A进行报警,可以把信息报到本机上(unix环境),或通过日志进程送到Windows界面上。
通讯进程A通过信号量控制使所有子进程退出,释放子进程的所有资源。
通讯进程A重新产生所有子进程。通讯进程A没有退出,其所有资源均没有变化。子进程继承通讯进程A的资源,确保子进程资源不变,并且稳定地可靠地运行。自此通讯进程A完成自动修复。

Claims (3)

1、一种进程自动恢复方法,其特征在于,用于在unix环境下对进程进行即时监控和恢复,所述方法包括以下步骤:
a、将一个需要进行监控的进程作为父进程,由父进程调用Fork函数产生多个子进程,所述子进程具备与父进程相同的资源和属性;所述父进程作为监控进程,所述多个子进程作为工作组进程;
b、所述父进程监控工作组进程:父进程和工作组进程互访信号量公共模块进行通信,通过信号量的变化,父进程可实时监控到工作组进程中的每个子进程是否异常;
c、如果父进程监控到工作组进程中的某个子进程异常退出,则父进程进行报警;
d、所述父进程通过Fork函数获取所述子进程的标识符,并调用函数关闭所述子进程,同时关闭其他子进程;
e、所述父进程重新产生多个子进程,监控进程对工作组进程进行实时监控。
2、如权利要求1所述的一种进程自动恢复方法,其特征在于,由同一个父进程产生多个子进程并且设为同一个进程组,所述子进程所具备的与父进程相同的属性包括信号量。
3、如权利要求1所述的一种进程自动恢复方法,其特征在于,所述父进程可在本机上(unix环境)报警或通过套接字把报警信息传送到视窗系统(Windows平台)。
CN02136577.6A 2002-08-19 2002-08-19 一种进程自动恢复方法 Expired - Lifetime CN1217265C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN02136577.6A CN1217265C (zh) 2002-08-19 2002-08-19 一种进程自动恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN02136577.6A CN1217265C (zh) 2002-08-19 2002-08-19 一种进程自动恢复方法

Publications (2)

Publication Number Publication Date
CN1477509A CN1477509A (zh) 2004-02-25
CN1217265C true CN1217265C (zh) 2005-08-31

Family

ID=34146552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN02136577.6A Expired - Lifetime CN1217265C (zh) 2002-08-19 2002-08-19 一种进程自动恢复方法

Country Status (1)

Country Link
CN (1) CN1217265C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968352A (zh) * 2012-12-14 2013-03-13 杨晓松 进程监控及多级恢复系统和方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7469331B2 (en) * 2004-07-22 2008-12-23 International Business Machines Corporation Method and apparatus for supporting shared library text replication across a fork system call
JP2006065440A (ja) * 2004-08-25 2006-03-09 Evolium Sas プロセス管理システム
CN100359483C (zh) * 2004-08-27 2008-01-02 华为技术有限公司 后台监控系统及其方法
CN102455889B (zh) * 2010-10-29 2014-03-26 金蝶软件(中国)有限公司 一种获取进程输出日志的方法、装置及企业系统
CN102768634B (zh) * 2011-05-06 2016-05-04 北大方正集团有限公司 目标系统的处理方法及监控系统
CN104750607B (zh) * 2011-06-17 2018-07-06 阿里巴巴集团控股有限公司 一种选择性恢复测试执行的方法及装置
CN102819455B (zh) * 2012-07-31 2016-05-11 深圳市共进电子股份有限公司 一种在应用层对进程进行管理的方法和管理系统
CN103514007B (zh) * 2012-08-31 2017-09-05 Tcl集团股份有限公司 一种基于Android系统的移动终端的热启动的方法
CN104572394B (zh) * 2013-10-29 2018-04-27 腾讯科技(深圳)有限公司 进程监控方法及装置
CN105279433B (zh) * 2014-07-10 2020-10-16 腾讯科技(深圳)有限公司 一种应用程序的防护方法及装置
CN104156662B (zh) * 2014-08-28 2017-10-27 北京奇虎科技有限公司 进程监控的方法、装置和智能终端
CN105589757A (zh) * 2014-10-23 2016-05-18 上海天脉聚源文化传媒有限公司 一种服务器架构下的保护工作进程的方法和服务器
CN105573777B (zh) * 2014-11-11 2020-01-14 阿里巴巴集团控股有限公司 应用中服务的控制方法及装置
CN106330523A (zh) * 2015-07-03 2017-01-11 中国移动通信集团广西有限公司 一种集群服务器容灾系统、方法和服务器节点
CN106933658A (zh) * 2015-12-29 2017-07-07 北京明朝万达科技股份有限公司 一种操作系统中后台进程防杀死的方法和装置
CN107515796B (zh) * 2017-07-31 2020-08-25 奇安信科技集团股份有限公司 一种设备异常监控处理方法及装置
CN109947576B (zh) * 2017-12-21 2022-12-06 上海盛霄云计算技术有限公司 一种虚拟机内部代理程序管理的方法
CN109491836B (zh) * 2018-10-30 2021-04-27 京信通信系统(中国)有限公司 数据恢复方法、装置及基站
CN109408158B (zh) * 2018-11-06 2022-11-18 恒生电子股份有限公司 子进程随父进程退出的方法及装置、存储介质及电子设备
CN109257235B (zh) * 2018-11-12 2022-03-22 深信服科技股份有限公司 网络异常恢复方法、装置、设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968352A (zh) * 2012-12-14 2013-03-13 杨晓松 进程监控及多级恢复系统和方法
CN102968352B (zh) * 2012-12-14 2015-07-22 杨晓松 进程监控及多级恢复系统和方法

Also Published As

Publication number Publication date
CN1477509A (zh) 2004-02-25

Similar Documents

Publication Publication Date Title
CN1217265C (zh) 一种进程自动恢复方法
US6513129B1 (en) System and method for managing faults using a gateway
WO2020198256A1 (en) Systems and methods for detecting and predicting faults in an industrial process automation system
CN102523137B (zh) 一种故障监测方法、装置及系统
CN100347991C (zh) 数据网集中监控监测系统
EP1394984A1 (en) Method and Apparatus for Network Resource Utilization Assessment
EP1361761A1 (en) Telecommunications network management system and method for service monitoring
WO2001077828A2 (en) Incremental alarm correlation method and apparatus
CN100438423C (zh) 电信设备故障信息管理方法
CN111431754A (zh) 配用电通信网故障分析方法和系统
CN102111303A (zh) 无人值守系统自动监护方法及装置
CN108875700A (zh) 一种监控系统和方法
CN115664939A (zh) 一种基于自动化技术的综合运维方法、装置和存储介质
CN104065503A (zh) 一种智能交通物联网设施故障溯源判别分析方法
CN102195791A (zh) 一种告警的分析方法、装置及系统
CN112272113B (zh) 基于多种区块链节点的监控及自动切换的方法及系统
CN117194154A (zh) 一种基于微服务的apm全链路监控系统及方法
CN108111600A (zh) 一种数据管理方法和智能运维平台
CN112449019A (zh) 一种ims智能物联网运维管理平台
CN1900869A (zh) 生产自动化服务系统及方法
CN105550094B (zh) 一种高可用系统状态自动监控方法
CN109634808A (zh) 一种基于关联分析的链式监控事件根因分析方法
CN112737829A (zh) 一种挖掘装备故障诊断系统集成的方法及系统
CN107066366B (zh) 面向物联网的复杂事件处理引擎状态监控与灾难恢复方法
CN106850305A (zh) 一种it运维管理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20050831

CX01 Expiry of patent term