CN1293473C - 系统进程的保护方法 - Google Patents

系统进程的保护方法 Download PDF

Info

Publication number
CN1293473C
CN1293473C CNB021212295A CN02121229A CN1293473C CN 1293473 C CN1293473 C CN 1293473C CN B021212295 A CNB021212295 A CN B021212295A CN 02121229 A CN02121229 A CN 02121229A CN 1293473 C CN1293473 C CN 1293473C
Authority
CN
China
Prior art keywords
protected
information
protection
record
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB021212295A
Other languages
English (en)
Other versions
CN1464397A (zh
Inventor
王旭
叶帅民
汤海京
杨波涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CNB021212295A priority Critical patent/CN1293473C/zh
Publication of CN1464397A publication Critical patent/CN1464397A/zh
Application granted granted Critical
Publication of CN1293473C publication Critical patent/CN1293473C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

一种系统进程的保护方法,该方法至少包括:侦听被保护进程工作状态;监控被保护进程和整体系统依赖基本资源;对系统异常信息进行分析和处理;本发明对商业系统的关键业务进程和容易发生问题的进程进行保护、监控、报警和自动恢复;在系统服务的关键进程出现异常时能停止服务,并能够将系统关键进程中断服务的时间尽可能地缩短;而且能够将系统恢复到宕机以前的状态,保证了计算机在无人职守的状态下仍能不间断地提供稳定的服务;为大型应用系统提供了极高的稳定性和可靠性,避免了不可估量的损失。

Description

系统进程的保护方法
技术领域:
本发明涉及一种系统进程的保护方法,特别是指一种应用于供应链管理(Supply Chain Management,简称SCM)系统中,用于保证系统核心进程安全稳定运行的方法。
背景技术:
目前,各行业的顺利运转都越来越依赖于计算机系统的稳定运行。商品的订货、配送、客户服务、财务结算、保险及预约等事务处理都需要高度可靠的信息服务系统。面对与日俱增的全球化竞争,如何以更低的成本、最快的速度、提供更高质量的产品来满足客户需要,已经成为所有企业面临的挑战性问题。在这种背景下,企业需要采用新的工具,在很好地规划运作内部资源的同时,整合其所具有的外部资源,如:供应商、代理商、承运商等,提高其生产、采购以及交货的准确性,从而在快速应对市场的同时,提高对客户销售及服务承诺的准确性。
面对市场竞争压力,针对目前存在的问题,许多企业针对现有的运筹系统进行优化,实施全面的供应链管理(Supply Chain Management,简称SCM)并且建立完善的信息系统,以适应日益增长的规模需求和多业务需求,进一步提高客户满意度、降低成本。实施SCM对于更新观念、优化管理模式、提高公司竞争力、提高和巩固国内市场、迅速迈向国际市场、提高在国际市场上的生存和竞争能力都有着十分重要的理论和实际意义。另外,由于许多业务和管理都更加细化,管理的效率将会成倍地提高。
上述的信息处理业务需求的庞大自然要求计算机也具有强大的负载性和自我恢复性能,从而使系统的宕机时间尽可能地缩短。系统进程保护功能能够自动检测系统的故障。同时,一旦发现计算机出现故障,系统进程保护功能将把该计算机上的进程自动恢复原状态,从而为客户提供不间断的服务。
在现有技术中,进程的保护功能往往被使用在操作系统的内部。其目的是保证在内存泄漏等状况下不出现致命的宕机等状况。由于特性限制,该方法不能根据实际的应用要求,为应用系统提供相应的监管、控制和恢复能力。
在SCM系统中授权服务器(SERVER)作为用户管理维护数据的登陆认证关键功能,承载着SCM系统中所有用户提供的身份验证和授予权限的重要功能。需要有极为强大的稳定性和容错性。系统进程保护功能就承担着对该功能的监管、控制、预警、自动恢复等任务。
在商业系统中,非常重要的一点是应能准确的维持商业状态。即:必须可靠地跟踪订单。否则将会产生巨大的收入损失。现存的订单可能丢失或在取订单、填订单的时候有延时,不满意的用户可能会转到别处作生意。
维持商业系统的完整性非常不容易,特别在发生错误以后。即使计算机变的越来越可靠,而系统作为一个整体却会变得更加不可靠。对提供internet和intranet连接到数十、数百、甚至可能数万个服务器上的海量桌式计算机来讲,错误是经常发生的常事。
一旦系统服务的关键进程出现异常停止服务,就必须能够将系统关键进程中断服务的时间缩短到几分钟甚至几秒钟;而且能够将系统恢复到宕机以前的状态,从而保证计算机在无人职守的状态下仍能不间断的提供稳定的服务。
另外,在商业系统中,对应用程序的要求往往会使问题复杂化;例如:订购产品,必然会卷入多个服务者,必须证实订货人的信用、货物的运输方式,必须管理库存,并且客户必须有资金。这一切都使得在多个服务器上的多个数据库更新成为必须。分布式开发者必须预料到程序的某一部分能在其他部分发生错误后仍能继续运行。这些防错方案是单个程序的数倍。协调这些工作,使它们任何一步都能运作正常,若没有特殊系统的支持是非常困难的。即使在发生错误时要确保程序最小单位的更新,也是很不容易。尤其当一个应用程序分布在多个数据库和系统上时。任何一个环节出现故障都会导致整个业务不能进行。
这就要求应用程序能够对发生问题的环节能够快速的发现,并准确地判断。同时还要能对业务进行快速恢复。
发明内容:
本发明的主要目的在于提供一种系统进程的保护方法,其由一个不易发生异常的应用进程,对商业系统的关键业务进程和容易发生问题的进程进行保护、监控、报警以及自动恢复。
本发明的另一目的在于提供一种系统进程的保护方法,一旦系统服务的关键进程出现异常停止服务,能够将系统关键进程中断服务的时间尽可能缩短;而且能够将系统恢复到宕机以前的状态,保证计算机在无人职守的状态下仍能不间断地提供稳定的服务。
本发明的目的是这样实现的:
一种系统进程的保护方法,该方法至少包括如下的步骤:
步骤1:保护进程侦听被保护进程工作状态;
步骤2:保护进程监控被保护进程和整体系统依赖基本资源;
步骤3:保护进程对系统异常信息进行分析和处理,若系统必须在无人职守的状况下重新启动,则被保护进程在记录当前业务信息后,重新启动并读入记录的业务信息。
上述的侦听被保护进程工作状态的具体步骤为:
步骤11:保护进程根据预定的用户认证流程或用户下线流程定期循环,向被保护进程发送模拟业务操作信号;
步骤12:同时保护进程自动记录被保护进程的状态信息;
步骤13:被保护进程完成模拟业务操作信号的处理后,将测试数据返回给保护进程;
步骤14:根据被保护进程返回的测试数据,确认是否被保护进程运行正常;
步骤15:当系统保护进程侦听到异常时,立即调用异常数据采集模块,进行异常信息的收集;否则继续侦听。
所述的该被保护进程的状态信息至少包括:被保护进程的响应时间、进程CPU占用、内存占用及数据库连接信息。
上述的监控被保护进程和整体系统依赖基本资源的具体步骤为:
步骤21:定时调用被保护进程和整体系统消耗资源状况模块;
步骤22:从操作系统得到监控数据;
步骤23:当系统保护进程侦听到异常时,立即调用异常数据采集模块,进行异常信息的收集。
所述的步骤23具体包括:
步骤231:依据收集到的数据进行分析和分类;
步骤232:对普通类型的不会导致严重故障的信息,只做保留性记录;
步骤233:对重要类型的可能导致严重故障的信息,即时触发警报,并保留记录;
步骤234:对致命类型的已经导致严重故障的信息,立即触发报警,同时对被保护进程进行详细记录。
上述的对系统异常信息进行分析和处理的步骤具体为:
步骤31:保护进程对采集到的数据进行分析;
步骤32:如果系统必须在无人职守的状况下重新启动,才能继续提供业务操作时,保护进程主动向被保护进程发送强制请求;
步骤33:被保护进程接到强制请求后,首先暂停对外提供业务服务,并通知保护进程;
步骤34:保护进程得到回应或超时无应答后,向被保护进程发送业务存档信号;
步骤35:被保护进程将所有线程信息进行记录,并自动终止线程;通知保护进程;
步骤36:如果得到返回信息或出现超时无应答,保护进程主动终止被保护进程,然后重新启动服务;
步骤37:系统重启完成后,自动读取未完成的记录,完成其中的服务;
步骤38:打开对外服务端口。
本发明对商业系统的关键业务进程和容易发生问题的进程进行保护、监控、报警以和自动恢复;在系统服务的关键进程出现异常时能停止服务,并能够将系统关键进程中断服务的时间尽可能地缩短;而且能够将系统恢复到宕机以前的状态,保证了计算机在无人职守的状态下仍能不间断地提供稳定的服务;为大型应用系统提供了极高的稳定性和可靠性,避免了不可估量的损失。
附图说明:
图1为本发明涉及的系统的整体结构示意图。
图2为本发明保护进程侦听被保护进程工作状态的流程图。
图3为本发明监控被保护进程和整体系统依赖基本资源的示意图。
图4为本发明监控被保护进程和整体系统依赖基本资源的流程图。
图5为本发明对系统异常信息进行分析和处理的流程图。
具体实施方式:
参见图1,本发明将核心业务进程作为系统进程的被保护进程。由系统保护进程负责对核心业务(被保护进程)的工作状态侦听,异常信息记录,异常信息的分析。然后根据不同异常产生的状态类型进行相应处理,维持应用程序的完整。
参见表1和表2,根据系统进程保护的基本要求,通常情况下,系统涉及的因素分为如下两类:第一类为业务流程保护需求,第二类为系统资源需求。
表1
  业务需求
  客户端是否达到最大并发用户警戒线
  单个业务请求是否长时间不能完成
  单个业务请求处理进度
  是否存在恶意尝试性连接
  系统不能相应用户请求(宕服务)
  数据库连接达到饱和
  客户端数据库连接长时间不释放
  数据库连接密码失效
  内存未释放
  内存被保护
  内存溢出
  。。。。
表2
  基本资源   关键进程资源需求   系统整体资源需求
  CPU占用峰值   是否达到警戒值(60%)   是否达到警戒值(80%)
  CPU占用平均值   是否达到警戒值(40%)   是否达到警戒值(60%)
  内存占用   单进程是否达到警戒值   是否达到60%
  网络基本连接   是否通畅
  网络端口占用   是否通畅
  数据库连接   是否通畅、连接正常断开
  I/O通道   是否通畅   是否通畅
  磁盘空间   剩余值是否达到警戒值   剩余值是否达到警戒值
  。。。。
参见表3,本发明中,对于不同类型问题严重程度设置不同级别的自动处理方案。
表3
  类型   处理策略
  正常   定时日志
  一般性问题   定时日志
  警告   发送可视消息信息、记录日志
  严重警告   发送内部mail,同时记录日志
  致命错误   自动记录错误点。接管记录当前业务流程重启服务恢复业务流程
参见图1-5,本发明的系统进程保护方法主要包括如下的步骤:
1、侦听被保护进程工作状态;
2、监控被保护进程和整体系统依赖基本资源;
3、对系统异常信息进行分析和处理。
其中:侦听被保护进程工作状态的流程如下:
由系统保护进程根据预定的用户认证流程、用户下线流程等几种业务逻辑定期循环,向被保护进程发送模拟登陆数据;
同时保护进程自动记录,被保护进程响应时间、进程CPU占用、内存占用、数据库连接等状态;
被保护进程完成模拟业务操作信号的处理后,返回测试信号给保护进程;
根据被保护对象返回的测试数据,确认是否被保护进程运行正常;
当系统保护进程侦听到异常时,立即调用异常数据采集模块,进行异常信息的收集;
如果出现异常根据异常级别,调用相应处理模块进行处理。
监控被保护进程和整体系统依赖基本资源的流程如下:
定时调用被保护进程和整体系统消耗资源状况模块;
从操作系统得到监控数据;
当系统保护进程侦听到异常时,立即调用异常数据采集模块,进行异常信息的收集。如果出现异常根据异常级别,调用相应处理模块进行处理。
其中,本发明对系统异常信息进行分析和处理具体为:依据前面收集到的数据进行分析和分类;对普通类型的不会导致严重故障的信息,只做保留性记录;对重要类型的可能导致严重故障的信息,即时触发警报,并保留记录;对致命类型的已经导致严重故障的信息,立即触发报警,同时对被保护进程进行详细记录,并根据系统状态进行恢复。
本发明对系统异常信息进行分析和处理的主要步骤为:
当保护进程根据采集到的数据判定,系统必须在无人职守的状况下重新启动,才能继续提供业务操作的状况下,保护进程会主动向被保护进程发送强制请求;
被保护进程接到强制请求后,首先暂停对外提供业务服务,并通知保护进程;如果长时间不能回应(超时无应答),保护进程将会自动向被保护进程执行下一步的操作;此中状况系统将不能暂停,但已然可以按照系统恢复流程进行操作。
保护进程得到回应或超时无应答后,向被保护进程发送业务存档信号;
被保护进程将对所有线程信息写成文本,并自动杀死线程;完成后通知被保护进程;
如果得到返回信息或出现超时无应答,保护进程将主动调用系统方法,杀死被保护进程,然后重新启动服务;
系统重启完成后,自动读取未完成的文本文件记录,完成其中的服务;
打开对外服务端口。
通过上述几个步骤,本发明可以实现计算机在无人职守的状态下仍能不间断的提供稳定的服务,并实现自动恢复的操作。
上述的技术方案在SCM系统上实施会带来许多益处,例如,它可以改善对供应、生产、库存、销售的管控;与供应商、分销商和客户建立更快、更方便、更精确的电子化联络方式;实现信息共享和管理决策支持;为将来实现端到端的SCM作好了准备。而系统进程保护方法的完成,为系统提供极高的稳定性和可靠性。将系统的宕机时间减少到最低程度,避免了很多不可估量的损失。
最后所应说明的是,以上实施例仅用以说明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的实施例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或者等同地替换;而一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1、一种系统进程的保护方法,其特征在于:该方法至少包括如下的步骤:
步骤1:保护进程侦听被保护进程工作状态;
步骤2:保护进程监控被保护进程和整体系统依赖基本资源;
步骤3:保护进程对系统异常信息进行分析和处理,若系统必须在无人职守的状况下重新启动,则被保护进程在记录当前业务信息后,重新启动并读入记录的业务信息。
2、根据权利要求1所述的系统进程的保护方法,其特征在于:保护进程侦听被保护进程工作状态的具体步骤为:
步骤11:保护进程根据预定的用户认证流程或用户下线流程定期循环,向被保护进程发送模拟业务操作信号;
步骤12:同时,保护进程自动记录被保护进程的状态信息;
步骤13:被保护进程完成模拟业务操作信号的处理后,将测试数据返回给保护进程;
步骤14:根据被保护进程返回的测试数据,确认是否被保护进程运行正常;
步骤15:当保护进程侦听到异常时,立即调用异常数据采集模块,进行异常信息的收集;否则继续侦听。
3、根据权利要求2所述的系统进程的保护方法,其特征在于:该被保护进程的状态信息至少包括:被保护进程的响应时间、进程CPU占用、内存占用及数据库连接信息。
4、根据权利要求1所述的系统进程的保护方法,其特征在于:监控被保护进程和整体系统依赖基本资源的具体步骤为:
步骤21:定时调用被保护进程和整体系统消耗资源状况模块;
步骤22:从操作系统得到监控数据;
步骤23:当系统保护进程侦听到异常时,立即调用异常数据采集模块,进行异常信息的收集。
5、根据权利要求4所述的系统进程的保护方法,其特征在于:所述的步骤23具体包括:
步骤231:依据收集到的数据进行分析和分类;
步骤232:对普通类型的不会导致严重故障的信息,只做保留性记录;
步骤233:对重要类型的可能导致严重故障的信息,即时触发警报,并保留记录;
步骤234:对致命类型的已经导致严重故障的信息,立即触发报警,同时对被保护进程进行详细记录。
6、根据权利要求1所述的系统进程的保护方法,其特征在于:所述步骤3具体为:
步骤31:保护进程对采集到的数据进行分析;
步骤32:如果系统必须在无人职守的状况下重新启动,才能继续提供业务操作时,保护进程主动向被保护进程发送强制请求;
步骤33:被保护进程接到强制请求后,首先暂停对外提供业务服务,并通知保护进程;
步骤34:保护进程得到回应或超时无应答后,向被保护进程发送业务存档信号;
步骤35:被保护进程将所有线程信息进行记录,并自动终止线程;通知保护进程;
步骤36:如果得到返回信息或出现超时无应答,保护进程主动终止被保护进程,然后重新启动服务;
步骤37:系统重启完成后,自动读取未完成的记录,完成其中的服务;
步骤38:打开对外服务端口。
CNB021212295A 2002-06-10 2002-06-10 系统进程的保护方法 Expired - Lifetime CN1293473C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB021212295A CN1293473C (zh) 2002-06-10 2002-06-10 系统进程的保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB021212295A CN1293473C (zh) 2002-06-10 2002-06-10 系统进程的保护方法

Publications (2)

Publication Number Publication Date
CN1464397A CN1464397A (zh) 2003-12-31
CN1293473C true CN1293473C (zh) 2007-01-03

Family

ID=29742874

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB021212295A Expired - Lifetime CN1293473C (zh) 2002-06-10 2002-06-10 系统进程的保护方法

Country Status (1)

Country Link
CN (1) CN1293473C (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100377528C (zh) * 2004-06-28 2008-03-26 华为技术有限公司 一种网管系统安全管理方法
CN1324471C (zh) * 2004-08-18 2007-07-04 中兴通讯股份有限公司 对指定进程私有数据区和堆栈区实施保护的方法
CN101299680B (zh) * 2008-06-17 2011-05-11 中国移动通信集团江苏有限公司 实现wlan ap宕机后快速恢复的方法
CN101777020B (zh) * 2009-12-25 2012-12-05 北京讯鸟软件有限公司 一种用于分布式程序的容错方法和系统
CN102467451B (zh) * 2010-11-09 2015-02-04 金蝶软件(中国)有限公司 双机热备模式下节点内存资源处理系统和方法
KR101212496B1 (ko) * 2012-05-07 2012-12-14 주식회사 팀스톤 모니터링 자원의 사용량 표현 방법, 컴퓨팅 장치 및 그 방법을 실행시키기 위한 프로그램을 기록한 기록 매체
CN103871121A (zh) * 2012-12-18 2014-06-18 河南省电力公司郑州供电公司 基于模拟登陆的信息系统电子巡检方法
CN103150500B (zh) * 2013-02-01 2015-11-18 深圳市深信服电子科技有限公司 基于桌面虚拟化的水印实现方法及装置
CN104063287A (zh) * 2013-03-22 2014-09-24 腾讯科技(深圳)有限公司 进程管理方法及装置
CN104915289B (zh) * 2015-05-12 2018-01-26 中国工商银行股份有限公司 一种金融应用系统后台进程异常检测方法及装置
CN105117239A (zh) * 2015-07-24 2015-12-02 上海修源网络科技有限公司 一种操作系统重启方法及装置
CN105071997B (zh) * 2015-09-11 2018-09-21 广东微云科技股份有限公司 一种云桌面安全检测与控制方法
CN106254158A (zh) * 2016-09-22 2016-12-21 安徽云图信息技术有限公司 信息系统智能监控管理平台
CN106775981B (zh) * 2016-12-15 2020-03-03 北京奇虎科技有限公司 一种进程处理方法、装置及计算机可读介质
CN107168823A (zh) * 2017-05-15 2017-09-15 郑州云海信息技术有限公司 一种Java进程保护的方法与装置
CN107515796B (zh) * 2017-07-31 2020-08-25 奇安信科技集团股份有限公司 一种设备异常监控处理方法及装置
CN107943657A (zh) * 2017-11-24 2018-04-20 郑州云海信息技术有限公司 一种Linux系统问题自动分析方法及系统
CN114077519B (zh) * 2020-08-21 2022-11-18 荣耀终端有限公司 一种系统服务恢复方法、装置和电子设备
CN115396291B (zh) * 2022-08-23 2024-06-18 度小满科技(北京)有限公司 一种基于kubernetes托管的redis集群故障自愈方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1350228A (zh) * 2001-12-04 2002-05-22 上海复旦光华信息科技股份有限公司 Windows nt进程自动保护系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1350228A (zh) * 2001-12-04 2002-05-22 上海复旦光华信息科技股份有限公司 Windows nt进程自动保护系统

Also Published As

Publication number Publication date
CN1464397A (zh) 2003-12-31

Similar Documents

Publication Publication Date Title
CN1293473C (zh) 系统进程的保护方法
EP1695282B1 (en) Data processing system and method
US6965886B2 (en) System and method for analyzing and utilizing data, by executing complex analytical models in real time
US7496588B2 (en) Method and apparatus for data integration and management
JP4392042B2 (ja) エンティティに基づく構成可能データの管理システム及び方法
CN101632093A (zh) 用于使用统计学分析来管理性能故障的系统和方法
US20100162254A1 (en) Apparatus and Method for Persistent Report Serving
US20080281607A1 (en) System, Method and Apparatus for Managing a Technology Infrastructure
CN1604040A (zh) 主事务处理系统中的动态事务控制
US20080281660A1 (en) System, Method and Apparatus for Outsourcing Management of One or More Technology Infrastructures
US20070282470A1 (en) Method and system for capturing and reusing intellectual capital in IT management
CN102375731A (zh) 一种免编码集成应用软件平台系统
CN1771479A (zh) 取得优化价值的配置分布式计算系统的元素的方法和系统
US20090006445A1 (en) Binding between net technologies and SQL server statements
US8161326B2 (en) Method and system for managing information technology (IT) infrastructural elements
US20070239587A1 (en) System and Method For Dynamically Utilizing and Managing Financial, Operational, and Compliance Data
US7542998B1 (en) Cause to effect methodology for monitoring database performance
CN1790414A (zh) 一种信用数据的处理方法和系统
CN101059852A (zh) 用于管理企业环境影响的系统和方法
CN102346666B (zh) 捕获和处理在erp临时阶段中生成的数据
CN110827172A (zh) 一种智慧水务云服务平台
US7461019B2 (en) System and method for integration of material costs of a product
CN1588405A (zh) 用于风险控制系统的数据处理装置及方法
CN1567318A (zh) 库存管理系统及方法
US8630996B2 (en) Identifying duplicate entries in a historical database

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20070103