CN104102551A - 一种基于状态的应用监控与恢复算法与模型 - Google Patents

一种基于状态的应用监控与恢复算法与模型 Download PDF

Info

Publication number
CN104102551A
CN104102551A CN201310122807.8A CN201310122807A CN104102551A CN 104102551 A CN104102551 A CN 104102551A CN 201310122807 A CN201310122807 A CN 201310122807A CN 104102551 A CN104102551 A CN 104102551A
Authority
CN
China
Prior art keywords
state
application
algorithm
monitoring
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310122807.8A
Other languages
English (en)
Other versions
CN104102551B (zh
Inventor
沙永刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIMESCHINA BEIJING TECHNOLOGY CO LTD
Original Assignee
TIMESCHINA BEIJING TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIMESCHINA BEIJING TECHNOLOGY CO LTD filed Critical TIMESCHINA BEIJING TECHNOLOGY CO LTD
Priority to CN201310122807.8A priority Critical patent/CN104102551B/zh
Publication of CN104102551A publication Critical patent/CN104102551A/zh
Application granted granted Critical
Publication of CN104102551B publication Critical patent/CN104102551B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明是一种基于状态的应用恢复算法,该算法实现应用监测和恢复整个过程的准确识别,并对保证相关操作进行跟踪,确保操作处于正确的上下文,并提出了该算法应用于实际的模型。该算法对组件子态进行运算,通过切换机制实现了正确的状态跟踪。本发明解决了现有监控技术目标单一,或者机制简单,无法适应当前应用设计和架构的发展的问题,同时可以提供对整个监控与恢复工作所有环节进行精确控制能力。本发明既区别于,又可结合使用应用开发可靠性模型提高应用水平的方法,可以取得良好的使用效果。本发明能有效提高信息服务系统运行的连续性。

Description

一种基于状态的应用监控与恢复算法与模型
技术领域
本发明基于策略的服务监控与恢复技术,尤其涉及信息服务系统的运行监控、运维以及持续运行保证技术。
背景技术
计算机应用服务以越来越复杂的行式出现。多数应用需要处理大量的数据,完成OLAP或者OLTP业务,由层次结构的开发、架构技术构成,也有众多的传统应用以服务、一般程序的方式运行。由于已经计算机服务已经深入到社会生活,这些服务中断或停运导致的影响和损失不断加大。
人们发明、设计了许多方法来解决计算机服务的稳定性。首先是提高程序的系统的稳定性与可靠性,这一方法理论上能够从根本上提高服务的连续性,然而,由于信息服务运行在拥有复杂技术和组成构件的计算机及其操作系统上,这些基础平台的所有问题均可能导致服务中断。因而,在外部对应用服务进行监控成为重要信息系统必须考虑的问题。当前,几个领先商业公司生产双机热备产品,然而,他们针对有限应用,有特定的使用需求,同时具有昂贵的价格。也有一些系统试图完成一些监控,但由于方法单一,技术简单,使用复杂而难以达到使用效果。实际上通过低成本可靠产品,实现服务的有效监控与自动恢复,具有普遍意义。
发明内容
初步算法
一般应用系统可以由多个组件构成,每个组件有自己的运行状态。简单地,可以有 A={xi} , 其中i=1~n,并设其域为D。
由于每个组件有不同的状态,则状态函数为P(xi),其中i=1~n,再将P(xi)对应的结果进行定义:
定义1.1:函数P(x)的结果,定义为“子态”。那么可将P(x)的结果集设为B={yi},i=1~m。这就是子态集合,那么可以有如下关系:
对于域D,有?x,P(x),当然 x∈A, 不难得出, P(x)得到的结果必然属于B={y}集合,那么可以看出,应用的全部子态为集合A与集合B的笛卡尔积。
对子态集合的改造
考虑实际需要,设定其只有2个子态,就是正确与错误状态,那么简化、改造子态集合后,就有2个集合,一个Sg,Sg={Ti},i=1~n,该子态对应的逻辑状态为组件正常的状态,另一个Sf,Sf={Fi}, i=1~n,其子态对应的逻辑状态为导致组件失败的状态,这样每一个分离的子态集合均实现了与集合A的一一映射。
复杂性分析
为了实现应用的正确识别与干预,必须对每一个处于Sf(x)子态的x进行干预。实际上,在域D范围内,如果有?x,P(x),P(x) SF(x),就意味应用错误,而在域D范围内,有?x,P(x),P(x) SG(x),就代表应用正确。同时,由于组件之间的关联关系,对错误的干预必然需要正确的context上下文环境依据,同时,如果监视得到了应用正确的结果,为了取得准确的监控效果,也需要context上下文环境依据。
由于考虑了上下文,情况更加复杂。因为,为了达到好的效果,集合A需要考虑顺序。此时,实际上,对于任意x和y(x∈A,y∈A),有?(x,y), R(x,y),且对于任意x和z(x∈A,z∈A), 有?(x,z), R(x,z), 并且也有可能对于任意z和y(x∈A,z∈A), 有?(z,y), R(z,y)。此时,其子态与状态关系图过于复杂,且工作单元尚未引进,因此这一状态关系图无法实际使用。
算法优化与带有关系R的模型
为了简化这一复杂关系图,按照应用监控与恢复的宏观使用进行分类处理。为此,引入阶段的概念,它是应用监控与恢复的宏观管理状态的理论化。设Pn,Pc,Pr表示三个阶段性状态,分别代表正确状态和错误期状态,恢复期状态。可以用固定成员集合C={Pc,Pr,Pn}表示。再设SF,SG表示应用的两个状态,分别为代表应用的正常与错误。可以用固定成员集合E={SF,SG}表示。
实践地,应用的控制与恢复的关键就在于这些状态与子态之间的可管理性转变。对此,引入以下定义:
定义4.1: 当应用由一个特定的状态以及子态,转变为另一个一个特定的状态以及子态,或者应用由一个特定的状态以及子态,经过一个或几个处理过程后,仍然保持在原先的状态以及子态,定义为“切换”。
实际上,由于这5个状态仅用于切换,则将这5个状态一起,引入新的定义。
定义4.2: 集合C,E的所有成员,表示为集合F={C,E},定义为“状态”。
此时,附图1,2,3表示各子态与状态间的关系,并且考虑关系R。
实用单元的引入
为了实用性考虑,在引入Pc,Pr,Pn状态前提下,再自然引入2个状态,他们都是僵持状态,分别为SPc错误处置失效和SPr恢复处置失效,用以标记由于某种原因错误处置失败而无法继续的情形和由于某种原因恢复无法成功的情形。
同时,需要引入成员:CHKe单元。这一单元考虑了简化的关系集合R,实际执行了集合B的子态切换,并完成Pc,Pr,Pn状态阶段的切换。CHKe单元对应使用中的子态、状态分析和跟踪单元。
为了描述清楚,再引入Ac处置单元与Ar恢复单元。Ac处置单元执行错误处置,工作且仅工作在执行Pr阶段;Ar恢复单元恢复工作, 工作且仅工作在执行Pr阶段。
实用模型
为了软件工程的需要,可将关系R用虚线简化示意。则附图4,5,6和图7分别表示了各工作单元、状态、子态与应用状态间的切换关系。
附图说明:
附图1,2,3表示了算法优化后带有关系R的模型。
图1是Pn阶段;
图2是Pc阶段;
其中,Sf(1)代表按Sf集合中既定顺序的第一个子态; Sf(x)代表Sf集合中按既定顺序的第所有中间子态,Sf(n)代表Sf集合中按既定顺序的第最后一个子态。
图3是Pr阶段;
其中,Sg(1)代表按Sg集合中既定顺序的第一个子态; Sg(x)代表Sg集合中按既定顺序的第所有中间子态,Sg(n)代表Sg集合中按既定顺序的第最后一个子态。
附图4,5,6,7表示了引入实际单元的模型,将应用的状态分成三个大的阶段状态集,直接反映了实践中简化了的子态关系。图示中,实线代表工程实践中的组件和状态逻辑,虚线则表示了理论上的状态切换关系。
图4是Pn阶段; 
图5是Pc阶段;
图5是Pr阶段;
通过图1,2,3,基于子态、状态的分析、监控逻辑雏形基本形成,但是,上述子态、状态逻辑图仅仅是子态与状态间的切换,为了能够建立可以应用的数学模型,还需引入必要的工作单元。
通过图4,5,6,由于引入了状态概念,使子态、状态的切换关系得到了清晰的表达,将图4,5,6统一起来,得到图7,就成为一个具有实践意义的理论模型。
实践中,有软件使用了这一模型,它实际实现对了关系R的考虑,同时对CHKe单元进行了系统化的设计与实现,同时完整实现了Ar,Ac单元功能,取得了预期的使用效果。实践证明,使用该算法和模型得到了预期的使用效果。
以上所描述的仅仅是本发明较佳的实现方式,并不用以限定本发明的保护范围,任何等同的变化和修改皆应涵盖在本发明的保护范围之内。

Claims (4)

1.一种基于状态的应用监控与恢复算法与模型,应用于信息信息系统监控与恢复系统中,利用基于子态的切换机制,实现应用监测和恢复整个过程的准确识别,并对保证相关操作进行跟踪,确保操作处于正确的上下文。
2.如权利要求1中的监控与恢复系统,其特征在于,把应用分离成独立组件,并考虑顺序的依赖的关系,则在任意情况下,使用该算法和模型可以准确地识别系统工作的上下文。
3. 如权利要求1中的描述的状态,包含有3个时期性状态,正常时期Pn、错误期Pc、以及错误恢复期Pr,2个失效状态,是处置错误失败状态Spc和恢复失败Spr;还包括任一组件正常态Sg(x)和任一组件错误态Sf(x)。
4.如权利要求1中所述的系统,至少包括监视调度单元、错误处置单元和恢复单元。
CN201310122807.8A 2013-04-10 2013-04-10 一种基于状态的应用监控与恢复算法与模型 Expired - Fee Related CN104102551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310122807.8A CN104102551B (zh) 2013-04-10 2013-04-10 一种基于状态的应用监控与恢复算法与模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310122807.8A CN104102551B (zh) 2013-04-10 2013-04-10 一种基于状态的应用监控与恢复算法与模型

Publications (2)

Publication Number Publication Date
CN104102551A true CN104102551A (zh) 2014-10-15
CN104102551B CN104102551B (zh) 2017-06-06

Family

ID=51670722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310122807.8A Expired - Fee Related CN104102551B (zh) 2013-04-10 2013-04-10 一种基于状态的应用监控与恢复算法与模型

Country Status (1)

Country Link
CN (1) CN104102551B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101268447A (zh) * 2005-05-26 2008-09-17 美国联合包裹服务公司 软件进程监控
CN101495954A (zh) * 2005-04-02 2009-07-29 微软公司 计算机状态监控和支持
CN101535960A (zh) * 2006-09-29 2009-09-16 罗伯特.博世有限公司 用于故障管理的方法和装置
CN102656565A (zh) * 2009-10-26 2012-09-05 亚马逊技术股份有限公司 已复制数据的故障切换和恢复
CN102929759A (zh) * 2011-10-13 2013-02-13 微软公司 业务活动监视运行时程序

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101495954A (zh) * 2005-04-02 2009-07-29 微软公司 计算机状态监控和支持
CN101268447A (zh) * 2005-05-26 2008-09-17 美国联合包裹服务公司 软件进程监控
CN101535960A (zh) * 2006-09-29 2009-09-16 罗伯特.博世有限公司 用于故障管理的方法和装置
CN102656565A (zh) * 2009-10-26 2012-09-05 亚马逊技术股份有限公司 已复制数据的故障切换和恢复
CN102929759A (zh) * 2011-10-13 2013-02-13 微软公司 业务活动监视运行时程序

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚志胜: "一种改进WebGIS实时监控的通用框架", 《计算机应用与软件》 *
赵会群等: "基于组件的软件可靠性模型", 《小型微型计算机系统》 *

Also Published As

Publication number Publication date
CN104102551B (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
Flocchini et al. Gathering of asynchronous robots with limited visibility
CN102707990B (zh) 基于容器的处理方法和装置
CN102314521B (zh) 一种基于云计算环境的分布并行Skyline查询方法
CN102981933B (zh) 物联网感知层的数据增量备份方法及系统
CN102254016B (zh) 一种面向云计算环境的容错并行Skyline查询方法
US20200201814A1 (en) System and method that determines a size of metadata-based system snapshots
CN101369241A (zh) 一种机群容错系统、装置及方法
Fu et al. Digging deeper into cluster system logs for failure prediction and root cause diagnosis
CN102685221A (zh) 一种状态监测数据的分布式存储与并行挖掘方法
CN102496915B (zh) 一种配电网故障处理方法及系统
CN104020396A (zh) 一种基于数据挖掘的电网故障诊断方法
CN104731670A (zh) 一种面向卫星的轮换式星载计算机容错系统
CN103955510A (zh) 基于etl云平台上传的海量电力营销数据整合方法
CN103714553A (zh) 一种多目标跟踪方法和装置
CN102571499A (zh) 一种云端数据库服务器集群的监控方法
CN112380067B (zh) 一种Hadoop环境下基于元数据的大数据备份系统及方法
CN104573123A (zh) 一种从AIX平台向K-UX平台迁移的Sybase数据库迁移工具
CN103678051A (zh) 一种集群数据处理系统中的在线故障容错方法
CN103455393A (zh) 一种基于进程冗余的容错系统设计方法
CN104899332A (zh) 一种Sybase数据库跨平台迁移方法和系统
CN104298773B (zh) 一种etl作业自动切库系统及方法
CN104299170B (zh) 间歇性能源海量数据处理方法
CN104102551A (zh) 一种基于状态的应用监控与恢复算法与模型
CN104346441A (zh) 一种配电网信息数据动态集成交互方法
Liu et al. An electric power sensor data oriented data cleaning solution

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170606