CN101778017A - 一种大型机联机交易的故障事件处理方法及服务器 - Google Patents

一种大型机联机交易的故障事件处理方法及服务器 Download PDF

Info

Publication number
CN101778017A
CN101778017A CN201010033625A CN201010033625A CN101778017A CN 101778017 A CN101778017 A CN 101778017A CN 201010033625 A CN201010033625 A CN 201010033625A CN 201010033625 A CN201010033625 A CN 201010033625A CN 101778017 A CN101778017 A CN 101778017A
Authority
CN
China
Prior art keywords
node
state
mapping table
father
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010033625A
Other languages
English (en)
Other versions
CN101778017B (zh
Inventor
黄文宇
徐志扬
魏爱东
陈鹏
何宏烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201010033625XA priority Critical patent/CN101778017B/zh
Publication of CN101778017A publication Critical patent/CN101778017A/zh
Application granted granted Critical
Publication of CN101778017B publication Critical patent/CN101778017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种大型机联机交易的故障事件处理方法及服务器,该服务器包括:节点信息获取单元用于获取节点信息和节点关系信息;层次模型存储单元用于存储业务服务层次模型;映射表存储单元用于存储节点状态映射表和节点关联关系映射表;故障信息接收单元用于接收外部事件监控系统发来的故障事件信息;故障节点状态更新单元,用于更新节点状态映射表中对应的节点状态;相关节点状态更新单元采用计算生成的所述父节点的节点状态更新所述节点状态映射表中父节点标识对应的节点状态;节点状态显示单元用于将节点状态更新的节点以图形化方式显示。以通过面向业务服务的监控把IT单元故障事件快速地确定并展示。

Description

一种大型机联机交易的故障事件处理方法及服务器
技术领域
本发明关于计算机应用系统技术领域,特别关于大型主机联机交易处理技术,具体的讲是一种大型机联机交易的故障事件处理方法及服务器。
背景技术
在现有技术中,大型企业或机构的数据中心集中监控为面向技术组件的资源监控。这种资源监控只能为IT技术人员使用,不能及时准确地反映信息事件对业务的影响范围和程度,使得业务人员和IT人员难以相互配合进行应急响应,也无法适应业务可用率管理的需求。
发明内容
为了克服现有技术的缺陷,本发明实施例提供了一种大型机联机交易的故障事件处理方法及服务器,以通过面向业务服务的监控把IT软硬件单元故障事件与业务服务联系起来,快速地确定并展示故障事件对业务服务的影响范围和程度。
本发明实施例的目的之一是:提供一种大型机联机交易的故障事件处理方法,该方法包括以下步骤:获取IT组件节点信息、交易节点信息、业务群组节点信息以及IT组件节点与交易节点关系信息、业务群组节点与交易节点关系信息;建立以业务群组节点为上层级节点,以交易节点为中层级节点,以IT组件节点为下层级节点的业务服务层次模型;根据业务服务层次模型,动态生成包含节点标识和节点状态的节点状态映射表,以及包含节点标识、节点父子关系以及节点权重的节点关联关系映射表;接收外部事件监控系统发来的故障事件信息;从故障事件信息中获取故障节点的节点标识,根据故障节点的节点标识更新节点状态映射表中对应的节点状态;根据故障节点的节点标识从节点关联关系映射表中找出对应的父节点标识和权重,根据权重计算生成父节点的节点状态,采用计算生成的父节点的节点状态更新节点状态映射表中父节点标识对应的节点状态;将节点状态映射表中节点状态更新的节点以图形化方式进行显示。
本发明实施例的目的之一是:提供一种大型机联机交易的故障事件处理服务器,该服务器包括:节点信息获取单元,用于获取IT组件节点信息、交易节点信息、业务群组节点信息以及IT组件节点与交易节点关系信息、业务群组节点与交易节点关系信息;层次模型存储单元,用于存储以业务群组节点为上层级节点,以交易节点为中层级节点,以IT组件节点为下层级节点的业务服务层次模型;映射表存储单元,用于存储根据业务服务层次模型动态生成的包含节点标识和节点状态的节点状态映射表,以及包含节点标识、节点父子关系以及节点权重的节点关联关系映射表;故障信息接收单元,用于接收外部事件监控系统发来的故障事件信息;故障节点状态更新单元,用于从故障事件信息中获取故障节点的节点标识,根据故障节点的节点标识更新节点状态映射表中对应的节点状态;相关节点状态更新单元,根据故障节点的节点标识从节点关联关系映射表中找出对应的父节点标识和权重,根据权重计算生成父节点的节点状态,采用计算生成的父节点的节点状态更新节点状态映射表中父节点标识对应的节点状态;节点状态显示单元,用于将节点状态映射表中节点状态更新的节点以图形化方式进行显示。
本发明实施例的有益效果在于:
以交易节点为桥梁,建立了包括IT组件节点、交易节点和业务群组节点的具有树形结构的业务服务层次模型,很好地实现了技术层面的IT组件与业务层面的业务群组的结合,且简明易行,形成面向业务服务监控的层次化业务服务模型。适合复杂信息系统的面向业务监控建模。
本发明实施例将应用交易、程序和数据库表的关联关系纳入业务服务模型,能更准确、更细颗粒度地反映业务影响范围,快速定位问题根源,增加了问题分析的手段,同时提高监控和应急处理的效率和准确度。
本发明实施例将集群组虚节点纳入业务服务模型,大大简化了业务服务模型中的关系数量,同时减少业务影响分析的运算量,提高业务影响分析的效率。
附图说明
图1为本发明实施例1的故障事件处理方法流程图;
图2为本发明实施例1的IT组件三层实关系模型结构框图;
图3为本发明实施例1的业务群组三层虚关系模型结构框图;
图4为本发明实施例1的业务服务层次模型结构框图;
图5为本发明实施例1的业务服务层次模型节点父子关系表;
图6为本发明实施例1的故障事件处理系统结构框图;
图7为本发明实施例1的节点状态变化规则表;
图8为本发明实施例1的层级变化规则表;
图9为本发明实施例1的业务服务层次模型动态创建工作流程图;
图10为本发明实施例1的事件业务影响分析工作流程图;
图11为本发明实施例2的故障事件处理服务器的结构框图;
图12为本发明实施例2的业务服务层次模型层级示意图;
图13为本发明实施例2的业务服务层次树形模型结构框图;
图14为本发明实施例2的以树形方式显示节点状态变化的示意图;
图15为本发明实施例2的节点状态映射表;
图16为本发明实施例2的节点关联关系映射表。
具体实施方式
下面结合附图说明本发明的具体实施方式。
实施例1
如图1所示,大型机联机交易的故障事件处理方法包括以下步骤:获取IT组件节点信息、交易节点信息、业务群组节点信息以及IT组件节点与交易节点关系信息、业务群组节点与交易节点关系信息(步骤S101);建立以业务群组节点为上层级节点,以交易节点为中层级节点,以IT组件节点为下层级节点的业务服务层次模型(步骤S102);根据业务服务层次模型,动态生成包含节点标识和节点状态的节点状态映射表,以及包含节点标识、节点父子关系以及节点权重的节点关联关系映射表(步骤S103);接收外部事件监控系统发来的故障事件信息(步骤S104);从故障事件信息中获取故障节点的节点标识,根据故障节点的节点标识更新节点状态映射表中对应的节点状态(步骤S105);根据故障节点的节点标识从节点关联关系映射表中找出对应的父节点标识和权重,根据权重计算生成父节点的节点状态,采用计算生成的父节点的节点状态更新节点状态映射表中父节点标识对应的节点状态(步骤S106);将节点状态映射表中节点状态更新的节点以图形化方式进行显示(步骤S107)。
大型机(CICS/IMS)联机交易处理系统具有良好的层级结构,IT组件包括交易、程序、数据表、中间件子系统、数据库子系统、操作系统等,IT组件之间存在着实实在在的关联关系,这些IT组件及其关联关系是可以通过配置信息或一些工具软件自动发现的。单个IT组件的可用性变化对相关IT组件可用性的影响也有规律可循。系统中的故障事件可能直接影响某个IT组件的可用性,也可能通过该IT组件间接影响其它IT组件的可用性,这与间接影响方式和关联关系的类型相关。
主机联机交易处理系统支撑的业务种类很多,业务种类的分类方式又可能有多种方法,如按地域、渠道、产品等不同的维度划分,也有不同颗粒度的划分。但关键一点,最小颗粒度的业务单位是单个交易,其它业务种类的划分都可以转化为交易的集合来表示,而且这种集合关系常常体现为人为逻辑上的划分,是一个个的虚关系,一般都需要人为地根据一些规则加以定义,可以根据不同的颗粒度用层次模型加以划分,最底层是基本业务单位:交易。某个业务的可用性变化,会影响更上层业务划分的部分可用性。
由于交易既是IT组件实关系模型的组成部分,也是业务组合虚关系模型的基本组成部分,可以在交易层将两个模型结合起来。IT组件的可用性变化可以先通过实关系模型转化为对交易可用性的影响,再由交易可用性变化转化为对业务可用性的影响,从而实现从IT组件故障事件向业务影响的分析,并找出不同事件对各IT组件和业务划分影响的相关性,辅助问题根源分析。基于上述思路,本发明设计了业务服务层次模型、业务影响分析的规则以及一套进行故障事件业务影响分析处理的系统,实现面向业务监控的目标。
大型主机联机交易处理方法分为交易层、中间件层、数据库层等三个层次。交易层是各类应用交易(CICS或IMS Transaction),交易是一个基本的业务服务单元,通过交易调用不同的应用程序(Program)执行特定的功能,因此微观上该层又可分为交易和程序两层;中间件层是由多个CICS或IMS子系统组成,应用交易运行在中间件子系统中;数据库层又可分为应用数据库表、数据库子系统,数据库表运行在数据库子系统中,交易会通过调用的程序访问一个或多个应用数据库表。
中间件、数据库层通常还有一类冗余组关系。例如,多个功能对等的CICS子系统组成的CICS群组,如CICSPLEX的AOR组、TOR组;多个功能对等的DB2子系统组成的DB2 Data sharing群组。由于单个群组内的各个子系统在功能上是相互冗余的,单个组件(或子系统)的失效并不影响整个群组的可用性,因此也不会影响运行在这些群组的应用交易的可用性。
以传统CICS/DB2组成的大型机联机交易系统为例,考虑上述层次关系和冗余组关系,其关系模型如图2所示。如图2所示的为IT组件三层实关系模型,该实关系模型中包含了CICS群组。假定有M类交易运行在N个完全相同的CICS子系统中,这对应了M*N个交易运行在CICS子系统的关联关系。如果在交易和CICS子系统间增加一个CICS群组,那么交易和群组的关联关系为M*1,群组和CICS子系统的关系为1*N个,总的关系数量变为(M+N)个。例如,假定1000类交易运行在10个相同的CICS子系统中,如果没有AOR群组节点,交易节点和CICS子系统节点之间的关系是10*1000个;如果建立了一个AOR组节点,那么交易节点和AOR组的关系是1000*1个,AOR组节点和REGION之间的关系是1*10个,关系总数只有1010个,即关联关系数量减少了89.9%。关联关系数量对后续的业务影响分析非常重要,可减少运算量,提高业务状态监控的实时性。数据库群组,如DB2群组也起到了简化数据库表与数据库子系统之间的关系的作用。
业务服务通常由不同应用系统组成的有机整体来提供,可以按业务类别、业务部门、业务产品、业务渠道、业务地域等不同维度进行逻辑分类。不同企业或机构对业务服务的分类方法可能各不相同,颗粒度差异较大,但通常情况下都按不同的逻辑层次进行划分:最底层(第0层),是基本的业务服务单位,如WEB SERVICE或交易(TRANSACTION);上一层(第1层),是这些基本服务或交易的不同组合;层次越高,越脱离IT信息系统的基本物理组件,更多地体现为低层次业务划分的逻辑组合。每个业务类别或渠道对应一组业务交易。一种比较通用的简化业务虚关系模型分为业务服务群层、业务类别/渠道层、业务交易层三个层次,如图3所示为业务群组三层虚关系模型结构框图。
面向业务监控的业务服务模型要求将IT信息系统的实体模型和业务层次模型清晰地结合起来,实现对每个IT组件故障或性能事件,能自动、快速地映射到不同层次的业务服务的状态改变,以快速准确地确定业务影响范围和程度,调动IT技术人员和业务人员协作应对,并对业务可用性管理提供信息系统的支撑。对于大型机联机交易处理系统而言,交易既是信息系统的基本应用功能单元,也是最小的业务服务单位,是联系信息系统实关系模型和业务虚关系模型的基础和纽带,从而可以无缝地将上述IT组件的实关系和业务服务的虚关系模型结合起来,形成如图4所示的业务服务层次模型。该业务服务层次模型逻辑上共有5层,分别是业务群组层、业务类型/业务渠道层、交易层、中间件层,数据库层。对应到具体的IT组件类型,该模型共有9类节点,细化后的最深层级为7层:业务群组、业务类型/业务渠道层、交易、程序、数据库表、数据库群组、数据库子系统。每一层都有多个节点,相邻两层节点之间有直接的关联关系(有连接线),单个上层节点和下层多个节点组成父子关系;而跨层节点之间无直接关联关系(无连接线)。
如图5所示,业务服务层次模型节点父子关系有如下四种类型:(1)“包含”关系(或称集合关系):父节点包含多个独立的子节点,如业务服务群包含多个业务种类和渠道,业务渠道包含多个交易;(2)“集群”关系:父节点是多个子节点的集群,如CICS群组包含多个CICS子系统;DB2群组包含多个DB2子系统。此类关系的特点是多个子节点完全冗余(或称为对等),单个接点故障不影响父节点的可用性;(3)“运行在”关系:父节点运行在子节点上,如交易运行在CICS组,数据库表运行在DB2中等;(4)“调用访问”关系:父节点调用或访问子节点,如交易调用程序,程序访问数据库表。
如图6所示,本实施例的业务影响分析处理系统有两部分:一部份是模型建立,另一部份是业务影响分析处理。整个系统划分可为6个模块:模型读入模块101、模型数据库模块102、模型动态创建模块103、事件输入接口201、业务影响分析模块202、输出模块203。其中模块103创建的业务服务模型是连接模型建立和业务影响分析两部分的桥梁。
其中模型读入模块101负责读入业务服务节点、IT组件节点(或称资源节点)、资源节点关联关系、业务服务组合关系,作为一张张表格,存入模型关系型数据库102;本发明的业务服务组合关系、群组关系通常由人工定义的表格文件输入,而其他资源节点及其关联关系可以由一些工具软件(如IBM的CICS Interdependency Analyzer软件)自动发现生成,或从预先定义好的配置管理数据库读入。模型数据库模块102存放各类节点表、节点间关联关系表;模型动态创建模块103通过读取数据库信息,依据层次模型模板104,动态创建业务服务树模型,一张节点状态表105和一张关联关系表106,层次模型模板104可方便地控制哪些层次节点及其关系纳入业务模型树;节点状态表105汇集了所有的资源节点和业务服务节点。
关联关系表106汇集了模型中所有的父子关系。事件输入接口201负责接收、解析、过滤外部事件监控系统发来的故障事件或恢复事件信息,转发给业务影响分析模块202;业务影响分析模块202接收到所述故障事件或恢复事件信息后,进行相应的解析,对解析出来的信息,根据事件驱动状态规则204,重置故障节点状态;并根据层级状态驱动规则205,分析对其他关联节点状态的影响;对于同时到达的多个事件,还要找到与最底层节点相关的事件,这代表了问题的根源;输出模块203负责接收并响应外部用户的WEB访问需求,根据业务影响分析模块202的输出和模型动态创建模块103的信息,展示业务服务模型节点的最新状态,同时把所有非正常状态节点用树状图形方式显示;如果涉及上层业务渠道或业务群组,这些节点就代表故障事件的业务影响范围,节点的状态代表业务影响的程度,而最底层的节点相关事件代表了故障的根源。
对监控而言,关注业务服务模型中每个节点的可用性。用节点的状态属性(STATUS)来描述其是否可用。节点的状态可分为:完全可用(Good,对应数值1)、部分可用(Marginal,对应介于0和1之间的小数)、完全不可用(Bad,对应数值0)三类。
面向业务的监控关注主机信息系统事件对资源节点和业务节点状态的影响。一个故障类事件或故障恢复类事件一般能直接对应到资源节点的状态变化,可称为“事件驱动状态规则”;也会间接地影响到上层业务服务节点地可用性状态,这种间接影响的规则可称为“层级状态驱动规则”。
如图7所示,为事件驱动状态规则。并非所有事件都会造成业务影响,业务影响分析先要确定哪些事件与业务模型相关,即确定外部事件的选取规则。显然,原则上只有影响业务可用性影响的事件才被选择,或者说,会直接或间接导致业务模型节点状态变化的事件才被选择。按事件对节点状态的影响性质来分,外部事件一般可分为故障事件、故障恢复事件、性能事件、性能恢复事件四种。事件输入接口首先解析事件信息,并依据事件驱动状态规则确定节点的最新状态。
如图8所示,为层级状态驱动规则。IT组件节点的可用性可能会间接影响到关联节点的可用性,这种影响对应到业务服务层次模型中,是子节点对父节点的影响。由于某个节点既是下层节点的父节点,又是上层节点的子节点,这种影响可能会逐层向上传播,一直到父节点状态没有受到影响为止,因此我们称这种间接影响传播规则为层级状态驱动规则。如果有上层的交易、业务渠道甚至业务群节点的状态发生改变,就意味着故障事件影响到了业务的可用性,受到影响的节点集合就是影响的范围,每个节点的状态就代表了影响的程度。不同的父子关系,代表了子节点状态变化对父节点状态的影响方式,或者说不同的父子关系有不同的状态传播规则。
从图8可看出,上述驱动规则对应了3类计算规则:“与”运算、“或”运算、加权和。
如图9所示,为业务服务层次模型的动态创建工作流程。其中:
步骤301:模型数据读入模块101读取输入的模型相关数据,如业务服务与交易的组合对应关系、各类IT组件节点信息、节点间的关联信息,保存到关系型数据库表102中。
步骤302:模型动态创建模块103通过读取数据库信息,依据层次模型模板104,动态创建节点状态表105和关联关系表106。层次模型模板104可方便地控制哪些层次节点及其关系纳入业务模型树;
步骤303:对节点状态进行初始化,缺省初始状态为正常(GOOD)。
如图10所示,是实现故障时间业务影响分析的工作过程流程图,其具体步骤是:
步骤401:事件输入接口201接收来自外部事件监控系统传来的事件信息并进行解析,传递给业务影响分析模块202;
步骤402:业务影响分析模块202依据事件驱动规则204,更新节点状态表105中对应节点的状态;
步骤403:业务影响分析模块202从关联关系表106逐层读取父节点,依据层次状态驱动规则205计算相关父节点状态,直到父节点状态没有变化为止;更新节点状态表,并触发展示模块203进行状态更新展示;
步骤404:展示模块203读取节点状态表,展示节点的最新状态,同时将非正常状态的节点树图形化展示,以清晰说明业务影响范围和程度,以及问题的根源。
步骤405:展示模块203接收外部监控用户的查询请求,从节点状态表、关联关系表以及原始的模型数据表中获得相关信息,以WEB方式向客户展示。
实施例2
如图11所示,故障事件处理服务器包括:节点信息获取单元501,用于获取IT组件节点信息、交易节点信息、业务群组节点信息以及IT组件节点与交易节点关系信息、业务群组节点与交易节点关系信息;层次模型存储单元502,用于存储以业务群组节点为上层级节点,以交易节点为中层级节点,以IT组件节点为下层级节点的业务服务层次模型;映射表存储单元503,用于存储根据业务服务层次模型动态生成的包含节点标识和节点状态的节点状态映射表,以及包含节点标识、节点父子关系以及节点权重的节点关联关系映射表;故障信息接收单元504,用于接收外部事件监控系统发来的故障事件信息;故障节点状态更新单元505,用于从故障事件信息中获取故障节点的节点标识,根据故障节点的节点标识更新节点状态映射表中对应的节点状态;相关节点状态更新单元506,根据故障节点的节点标识从节点关联关系映射表中找出对应的父节点标识和权重,根据权重计算生成父节点的节点状态,采用计算生成的父节点的节点状态更新节点状态映射表中父节点标识对应的节点状态;节点状态显示单元507,用于将节点状态映射表中节点状态更新的节点以图形化方式进行显示。
下面根据一个简单的CICS/DB2联机交易处理系统的例子来说明本方案的使用过程。该应用系统组成两类业务,有三个业务交易运行在CICS集群中,CICS集群连接数据库集群;CICS群组有两个功能完全对等的CICS子系统,DB2群组有两个功能完全对等的DB2子系统;有两个交易通过程序访问数据库的三张表,有一个交易并不访问数据库。如果对该系统实现面向业务的监控,即要求根据监控的IT组件故障事件,快速、自动地显示是哪种业务受到影响,影响的程度如何,以及问题的根源。
建立该联机业务处理服务器的业务服务模型,如图12所示,业务类别1由交易1和交易3组成,这种集合关系可用EXCEL表格方式输入;交易、程序、数据库表、数据库群组节点及其相互关系,可通过CICS IA软件来自动发现,存入交易表、程序表、数据库表、交易调用程序关系表、程序访问数据库表的关系表、数据库表与DB2群组的关系表、交易与CICS群组关系表。
由于该业务服务模型没有业务群组层节点,因此该业务服务模型如图13所示:业务类别1(B1)和业务类别2(B2)为上层级节点,交易1(T1)、交易2(T2)和交易3(T3)为中层级节点,CICS群组(AOR)、CICS子系统(C1、C2)、程序(P1、P2)、数据库表(TBL1、TBL2)、数据库群组(DB01)以及数据库子系统(DB11、DB12)为下层级节点。
假定数据库表1发生故障,监控系统检测到该事件,发送给业务影响分析处理服务器。处理过程如下:
业务影响分析处理系统接到事件后解析,确定是TBL1节点故障,因此更新节点状态映射表(如图13、图15所示)中TBL1的状态为BAD;
业务影响分析处理模块以SourceNodeID=TBL1为条件,搜索节点关联关系映射表(如图16所示)找到父节点P1、P2,根据RelationType=TP对应的层次状态驱动规则为加权和。计算P1的状态为TABL1状态*WEIGHT=BAD*1,即BAD;计算P2的状态为TBL1状态*WEIGHT+TBL2状态*WEIGHT=BAD*0.5+GOOD*0.5=0.5,即P2状态为MARGINAL。依次计算得到T1状态为(0+0.5*1/3+1*1/3)=0.5;T2状态为(0.5*0.5+1*0.5)=0.75;B1的状态为(0.5*0.5+1*0.5)=0.75;B2的状态为(0.5*0.5+0.75*0.5)=0.625。这些状态都更新到节点状态表。
展示模块读取节点状态表,找到有B1、B2、T1、T2、P1、P2、TBL1不是GOOD,更新状态为MARGINAL节点的颜色为黄色,更新状态为BAD的节点颜色为红色,并以图形化方式显示出来,如图14所示。
如图14所示,业务影响分析结果展示,业务类别1和业务类别2的可用性都受到影响,但都还部分可用,问题根源是数据表1不可用,其他受到影响的组件还有P1、P2、T1、T2。
本发明提供一种针对大型主机CICS/IMS联机交易处理系统的面向业务服务监控的复杂业务服务模型建立的方法,清晰地把主机软硬件单元及其相互关系(实关系)和业务之间的逻辑关系(虚关系)准确表达并联系起来;同时建立一个针对故障事件或故障恢复事件的业务影响分析处理系统,结合业务服务模型和业务影响分析规则,实现从IT单元故障事件向业务影响范围和程度的自动、快速、准确地转换和展示,满足面向业务服务监控的需求,并辅助进行问题根源分析。该发明具有如下优点:
(1)建模方法很好地实现技术和业务的结合,简明易行。
(2)本发明提供的建模方法,把大型主机联机交易处理系统的软件组件和相关资源概括为层次化实关系模型(一般分为交易层、中间件/数据库层、操作系统层),把基于应用交易的业务服务逻辑模型概括为层次化虚关系模型(一般分为交易层、业务/渠道层、业务服务群层),在交易层将两个层次模型无缝结合起来,形成面向业务服务监控的层次化业务服务模型。该方法很好地将IT技术人员和业务人员对IT信息系统的不同视角结合起来,同时将不同颗粒度的资源对象和业务服务对象体现在不同的层次,方法简明易行,特别适合复杂信息系统的面向业务监控建模。
(3)创新地将应用交易、程序和数据库表的关联关系纳入业务服务模型,能更准确、更细颗粒度地反映业务影响范围,快速定位问题根源。该建模方法创新地将应用交易、程序和数据库表的关联关系纳入业务服务模型,是交易类事件、程序类事件和数据库表类事件都纳入集中监控和业务影响分析的范围,拓宽了业务影响分析的事件范围,同时能更准确地体现故障事件影响的IT组件和业务范围,快速定位到位于最底层的组件对象,找到问题根源,增加了问题分析的手段,同时提高监控和应急处理的效率和准确度。
(4)将集群组虚节点纳入业务服务模型,简化业务服务模型,提高业务影响分析的效率。一般的信息系统监控对象资源发现工具软件都不会包含集群组信息,而是直接体现子系统。由于大型主机联机交易处理系统的交易数量多,CICS子系统数量也可能上百个,数据库子系统一般也在4个以上,如果没有集群组,相互间关联关系数量非常庞大,不仅模型复杂,而且业务影响分析的计算量很大。本方法将集群组虚节点纳入业务服务模型,大大简化了业务服务模型中的关系数量,同时减少业务影响分析的运算量,提高业务影响分析的效率。这对于大型机构或企业的复杂信息系统也是非常关键的。
(5)设计了一整套简单实用的事件驱动规则和层次间传播规则,大大简化业务影响分析的运算,提高模型建立和实时分析监控的效率。
(6)本方法将信息系统事件分为故障事件、故障恢复事件、性能事件、性能恢复事件,定义每个事件和业务模型节点的对应关系及状态驱动规则;同时将层次间关系分为“包含关系”、“集群关系”、“运行在关系”、“调用访问关系”四类,定义三种状态传播规则:加权和、或运算、与运算,使得业务影响分析运算简单易行,大大简化业务影响分析的运算量,提高模型建立和实时分析监控的效率。
(7)提供一套故障事件业务影响分析处理系统,动态创建业务服务实例,实现对故障事件的自动化业务影响分析和展示,辅助问题根源分析。该系统实现对故障事件的自动化业务影响分析和展示,可动态展示业务影响范围和程度,以及业务和故障组件之间的关联关系。在多个事件并发的情况下,可根据故障状态树展示,准确快速地定位到最底层的故障节点,这通常代表故障根源。
以上仅为本发明的较佳实施例,非因此局限本发明的权利要求,运用本发明说明书及图示内容所作的等效结构变化,均同理包含在本发明的范围内。

Claims (14)

1.一种大型机联机交易的故障事件处理方法,所述的方法包括以下步骤:
获取IT组件节点信息、交易节点信息、业务群组节点信息以及IT组件节点与交易节点关系信息、业务群组节点与交易节点关系信息;
建立以所述业务群组节点为上层级节点,以所述交易节点为中层级节点,以所述IT组件节点为下层级节点的业务服务层次模型;
根据所述的业务服务层次模型,动态生成包含节点标识和节点状态的节点状态映射表,以及包含节点标识、节点父子关系以及节点权重的节点关联关系映射表;
接收外部事件监控系统发来的故障事件信息;
从所述的故障事件信息中获取故障节点的节点标识,根据所述故障节点的节点标识更新所述节点状态映射表中对应的节点状态;
根据所述故障节点的节点标识从所述的节点关联关系映射表中找出对应的父节点标识和权重,根据所述的权重计算生成所述父节点的节点状态,采用计算生成的所述父节点的节点状态更新所述节点状态映射表中父节点标识对应的节点状态;
将所述节点状态映射表中节点状态更新的节点以图形化方式进行显示。
2.根据权利要求1所述的方法,其特征是,所述业务服务层次模型的上层级节点还包括:业务类型节点,所述业务群组节点为所述业务类型节点的父节点,所述交易节点为所述业务类型节点的子节点;
组成所述下层级节点的IT组件节点包括:客户信息控制系统CICS群组节点、CICS子系统节点、程序节点、数据库表节点、数据库群组节点以及数据库子系统节点,并且:所述交易节点为所述客户信息控制系统CICS群组节点和程序节点的父节点,所述客户信息控制系统CICS群组节点为所述CICS子系统节点的父节点,所述程序节点、数据库表节点、数据库群组节点以及数据库子系统节点依次为父子节点。
3.根据权利要求1所述的方法,其特征是,在所述的节点状态映射表中,所述的节点标识是指:节点地址,并且所述的节点状态映射表还包括:节点类型和节点描述。
4.根据权利要求1所述的方法,其特征是,在所述的节点关联关系映射表中,所述的节点标识是指:源节点地址,并且所述的节点关联关系映射表还包括:源节点类型、目的节点地址、目的节点类型和父子节点关系。
5.根据权利要求1所述的方法,其特征是,所述的根据所述故障节点的节点标识从所述的节点关联关系映射表中获取对应的父节点标识和权重,根据所述的权重计算生成所述父节点的节点状态包括:
根据所述的父节点标识,判断所述节点关联关系映射表中是否存在对应的上一级父节点,如果是,则从所述的节点关联关系映射表中获取对应的父节点标识和父节点权重,并根据所述的父节点权重计算生成所述上一级父节点的节点状态,并采用计算生成的所述上一级父节点的节点状态更新所述节点状态映射表中上一级父节点标识对应的节点状态。
6.根据权利要求1所述的方法,其特征是,所述的故障事件包括:故障发生事件和故障恢复事件,性能事件和性能恢复事件。
7.根据权利要求1所述的方法,其特征是,所述的将所述节点状态映射表中节点状态更新的节点以图形化方式进行显示包括:将所述节点状态映射表中节点状态更新的节点以树形图形和不同的颜色进行显示。
8.一种大型机联机交易的故障事件处理服务器,所述的服务器包括:
节点信息获取单元,用于获取IT组件节点信息、交易节点信息、业务群组节点信息以及IT组件节点与交易节点关系信息、业务群组节点与交易节点关系信息;
层次模型存储单元,用于存储以所述业务群组节点为上层级节点,以所述交易节点为中层级节点,以所述IT组件节点为下层级节点的业务服务层次模型;
映射表存储单元,用于存储根据所述的业务服务层次模型动态生成的包含节点标识和节点状态的节点状态映射表,以及包含节点标识、节点父子关系以及节点权重的节点关联关系映射表;
故障信息接收单元,用于接收外部事件监控系统发来的故障事件信息;
故障节点状态更新单元,用于从所述的故障事件信息中获取故障节点的节点标识,根据所述故障节点的节点标识更新所述节点状态映射表中对应的节点状态;
相关节点状态更新单元,根据所述故障节点的节点标识从所述的节点关联关系映射表中找出对应的父节点标识和权重,根据所述的权重计算生成所述父节点的节点状态,采用计算生成的所述父节点的节点状态更新所述节点状态映射表中父节点标识对应的节点状态;
节点状态显示单元,用于将所述节点状态映射表中节点状态更新的节点以图形化方式进行显示。
9.根据权利要求8所述的服务器,其特征是,所述业务服务层次模型的上层级节点还包括:业务类型节点,所述业务群组节点为所述业务类型节点的父节点,所述交易节点为所述业务类型节点的子节点;
组成所述下层级节点的IT组件节点包括:客户信息控制系统CICS群组节点、CICS子系统节点、程序节点、数据库表节点、数据库群组节点以及数据库子系统节点,并且:所述交易节点为所述客户信息控制系统CICS群组节点和程序节点的父节点,所述客户信息控制系统CICS群组节点为所述CICS子系统节点的父节点,所述程序节点、数据库表节点、数据库群组节点以及数据库子系统节点依次为父子节点。
10.根据权利要求8所述的服务器,其特征是,在所述的节点状态映射表中,所述的节点标识是指:节点地址,并且所述的节点状态映射表还包括:节点类型和节点描述。
11.根据权利要求8所述的服务器,其特征是,在所述的节点关联关系映射表中,所述的节点标识是指:源节点地址,并且所述的节点关联关系映射表还包括:源节点类型、目的节点地址、目的节点类型和父子节点关系。
12.根据权利要求8所述的服务器,其特征是,所述的相关节点状态更新单元包括:根据所述的父节点标识,判断所述节点关联关系映射表中是否存在对应的上一级父节点,如果是,则从所述的节点关联关系映射表中获取对应的父节点标识和父节点权重,并根据所述的父节点权重计算生成所述上一级父节点的节点状态,并采用计算生成的所述上一级父节点的节点状态更新所述节点状态映射表中上一级父节点标识对应的节点状态。
13.根据权利要求8所述的服务器,其特征是,所述故障信息接收单元接收的故障事件包括:故障发生事件和故障恢复事件,性能事件和性能恢复事件。
14.根据权利要求8所述的服务器,其特征是,所述的节点状态显示单元包括:将所述节点状态映射表中节点状态更新的节点以树形图形和不同的颜色进行显示。
CN201010033625XA 2010-01-05 2010-01-05 一种大型机联机交易的故障事件处理方法及服务器 Active CN101778017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010033625XA CN101778017B (zh) 2010-01-05 2010-01-05 一种大型机联机交易的故障事件处理方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010033625XA CN101778017B (zh) 2010-01-05 2010-01-05 一种大型机联机交易的故障事件处理方法及服务器

Publications (2)

Publication Number Publication Date
CN101778017A true CN101778017A (zh) 2010-07-14
CN101778017B CN101778017B (zh) 2012-05-23

Family

ID=42514351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010033625XA Active CN101778017B (zh) 2010-01-05 2010-01-05 一种大型机联机交易的故障事件处理方法及服务器

Country Status (1)

Country Link
CN (1) CN101778017B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129400A (zh) * 2010-12-29 2011-07-20 成都市华为赛门铁克科技有限公司 存储系统连接配置方法、设备及其存储系统
CN103477356A (zh) * 2011-01-20 2013-12-25 陈采羚 营运状态显示方法
CN103678020A (zh) * 2012-09-18 2014-03-26 中国银联股份有限公司 一种交易处理中的数据库操作超时处理方法和装置
CN104219070A (zh) * 2013-05-31 2014-12-17 华为技术有限公司 网络故障监测的方法和网络故障监测系统
CN104253715A (zh) * 2013-06-28 2014-12-31 鸿富锦精密工业(深圳)有限公司 多层级联业务监控系统及方法
CN106529912A (zh) * 2016-11-17 2017-03-22 济南浪潮高新科技投资发展有限公司 一种基于源头的可视化业务流跟踪系统及方法
CN106557399A (zh) * 2015-09-25 2017-04-05 伊姆西公司 用于呈现存储集群的状态的方法和装置
CN106570017A (zh) * 2015-10-09 2017-04-19 北大方正集团有限公司 一种数据缓存方法及系统
CN103914482B (zh) * 2013-01-07 2017-09-19 上海宝信软件股份有限公司 基于cmdb的集中监控事件影响性确定方法
CN107239468A (zh) * 2016-03-29 2017-10-10 阿里巴巴集团控股有限公司 任务节点管理方法及装置
CN107301125A (zh) * 2017-06-19 2017-10-27 广州华多网络科技有限公司 一种寻找根源错误的方法、装置及电子设备
CN107809340A (zh) * 2017-12-07 2018-03-16 中国银行股份有限公司 一种节点集群间的节点连接方法及节点设备
CN109039740A (zh) * 2018-08-01 2018-12-18 平安科技(深圳)有限公司 一种处理运维监控告警的方法及设备
CN111563002A (zh) * 2020-05-15 2020-08-21 中国工商银行股份有限公司 交易故障的处理方法和装置、以及电子设备和存储介质
CN111598539A (zh) * 2020-05-14 2020-08-28 中国银行股份有限公司 基于业务建模的cics联机程序业务处理方法及系统
CN112035288A (zh) * 2020-09-01 2020-12-04 中国银行股份有限公司 一种作业故障影响确定方法及相关设备
CN112887108A (zh) * 2019-11-29 2021-06-01 中兴通讯股份有限公司 故障定位方法、装置、设备及存储介质
CN112887116A (zh) * 2019-11-29 2021-06-01 伊姆西Ip控股有限责任公司 管理分布式应用系统中的应用节点的方法、设备和产品
CN113515375A (zh) * 2021-05-19 2021-10-19 中国农业银行股份有限公司 多cics节点的调用方法和装置
CN113935276A (zh) * 2021-12-16 2022-01-14 北京云枢创新软件技术有限公司 设计数据映射关系构建系统
CN116204388A (zh) * 2023-04-27 2023-06-02 北京合力金智科技发展有限公司 一种系统服务状态的智能监控系统及方法
CN113515375B (zh) * 2021-05-19 2024-05-24 中国农业银行股份有限公司 多cics节点的调用方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3266126B2 (ja) * 1999-01-14 2002-03-18 日本電気株式会社 ネットワーク障害情報管理システム及び記憶媒体
US9031903B2 (en) * 2006-07-31 2015-05-12 Verizon Patent And Licensing Inc. Method and system for providing network based transaction metrics
CN101221641B (zh) * 2007-12-20 2012-12-26 深圳兆日科技股份有限公司 一种联机交易的安全确认设备及联机交易方法

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129400B (zh) * 2010-12-29 2013-12-04 华为数字技术(成都)有限公司 存储系统连接配置方法、设备及其存储系统
US9170959B2 (en) 2010-12-29 2015-10-27 Huawei Technologies Co., Ltd. Method and device for configuring storage system connection
CN102129400A (zh) * 2010-12-29 2011-07-20 成都市华为赛门铁克科技有限公司 存储系统连接配置方法、设备及其存储系统
US10203963B2 (en) 2010-12-29 2019-02-12 Huawei Technologies Co., Ltd. Method for configuring storage system connection, device and storage system
CN103477356A (zh) * 2011-01-20 2013-12-25 陈采羚 营运状态显示方法
CN103678020A (zh) * 2012-09-18 2014-03-26 中国银联股份有限公司 一种交易处理中的数据库操作超时处理方法和装置
CN103914482B (zh) * 2013-01-07 2017-09-19 上海宝信软件股份有限公司 基于cmdb的集中监控事件影响性确定方法
CN104219070A (zh) * 2013-05-31 2014-12-17 华为技术有限公司 网络故障监测的方法和网络故障监测系统
CN104253715A (zh) * 2013-06-28 2014-12-31 鸿富锦精密工业(深圳)有限公司 多层级联业务监控系统及方法
CN106557399B (zh) * 2015-09-25 2019-09-06 伊姆西公司 用于呈现存储集群的状态的方法和装置
CN106557399A (zh) * 2015-09-25 2017-04-05 伊姆西公司 用于呈现存储集群的状态的方法和装置
US10587470B2 (en) 2015-09-25 2020-03-10 EMC IP Holding Company LLC Method and apparatus for presenting status of storage cluster
CN106570017A (zh) * 2015-10-09 2017-04-19 北大方正集团有限公司 一种数据缓存方法及系统
CN107239468B (zh) * 2016-03-29 2020-11-10 创新先进技术有限公司 任务节点管理方法及装置
CN107239468A (zh) * 2016-03-29 2017-10-10 阿里巴巴集团控股有限公司 任务节点管理方法及装置
CN106529912A (zh) * 2016-11-17 2017-03-22 济南浪潮高新科技投资发展有限公司 一种基于源头的可视化业务流跟踪系统及方法
CN107301125A (zh) * 2017-06-19 2017-10-27 广州华多网络科技有限公司 一种寻找根源错误的方法、装置及电子设备
CN107301125B (zh) * 2017-06-19 2021-08-24 广州华多网络科技有限公司 一种寻找根源错误的方法、装置及电子设备
CN107809340A (zh) * 2017-12-07 2018-03-16 中国银行股份有限公司 一种节点集群间的节点连接方法及节点设备
CN109039740B (zh) * 2018-08-01 2022-07-19 平安科技(深圳)有限公司 一种处理运维监控告警的方法及设备
CN109039740A (zh) * 2018-08-01 2018-12-18 平安科技(深圳)有限公司 一种处理运维监控告警的方法及设备
CN112887108A (zh) * 2019-11-29 2021-06-01 中兴通讯股份有限公司 故障定位方法、装置、设备及存储介质
CN112887116A (zh) * 2019-11-29 2021-06-01 伊姆西Ip控股有限责任公司 管理分布式应用系统中的应用节点的方法、设备和产品
CN111598539A (zh) * 2020-05-14 2020-08-28 中国银行股份有限公司 基于业务建模的cics联机程序业务处理方法及系统
CN111598539B (zh) * 2020-05-14 2023-05-02 中国银行股份有限公司 基于业务建模的cics联机程序业务处理方法及系统
CN111563002A (zh) * 2020-05-15 2020-08-21 中国工商银行股份有限公司 交易故障的处理方法和装置、以及电子设备和存储介质
CN111563002B (zh) * 2020-05-15 2023-07-25 中国工商银行股份有限公司 交易故障的处理方法和装置、以及电子设备和存储介质
CN112035288A (zh) * 2020-09-01 2020-12-04 中国银行股份有限公司 一种作业故障影响确定方法及相关设备
CN112035288B (zh) * 2020-09-01 2023-08-15 中国银行股份有限公司 一种作业故障影响确定方法及相关设备
CN113515375A (zh) * 2021-05-19 2021-10-19 中国农业银行股份有限公司 多cics节点的调用方法和装置
CN113515375B (zh) * 2021-05-19 2024-05-24 中国农业银行股份有限公司 多cics节点的调用方法和装置
CN113935276A (zh) * 2021-12-16 2022-01-14 北京云枢创新软件技术有限公司 设计数据映射关系构建系统
CN116204388A (zh) * 2023-04-27 2023-06-02 北京合力金智科技发展有限公司 一种系统服务状态的智能监控系统及方法

Also Published As

Publication number Publication date
CN101778017B (zh) 2012-05-23

Similar Documents

Publication Publication Date Title
CN101778017B (zh) 一种大型机联机交易的故障事件处理方法及服务器
CN102939594B (zh) 与客户资源到数据中心环境内的虚拟资源的迁移有关的方法和装置
Chen et al. Agile big data analytics for web-based systems: An architecture-centric approach
CN102341781B (zh) 软件测试台生成
US8359580B2 (en) System and method for tracking testing of software modification projects
US11620420B2 (en) Computing system simulation and testing environment
US20070203740A1 (en) Systemic enterprise management method and apparatus
CN109445802A (zh) 基于容器的私有化Paas平台及其发布应用的方法
CN103793295B (zh) 用于灾难恢复虚拟化的模拟引擎的系统和方法
CN102521411A (zh) 公式及公式数据处理装置和公式及公式数据处理方法
CN101946258A (zh) 基于计算机的业务过程在专用硬件上的基于模型的部署
Fu et al. Real-time data infrastructure at uber
CN101946260A (zh) 对基于计算机的业务过程进行建模以用于定制和递送
US20090063501A1 (en) Systems, methods and computer products for generating policy based fail over configuration for darabase clusters
CN105469204A (zh) 深度融合大数据分析技术的重装制造企业综合评价系统
CN110188132B (zh) 一种数据交换方法及系统
CN104298779A (zh) 海量数据加工的处理方法和系统
CN104486255A (zh) 业务资源调度方法和装置
CN111367989A (zh) 一种实时数据指标计算系统和方法
Faruquie et al. Data cleansing as a transient service
CN112148578A (zh) 基于机器学习的it故障缺陷预测方法
Li et al. Microservice extraction based on knowledge graph from monolithic applications
CN106294128A (zh) 一种导出报表数据的自动化测试方法及装置
US20210263718A1 (en) Generating predictive metrics for virtualized deployments
CN112435022B (zh) 基于用户实时数据的动态检索系统、及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant