CN103178974A - 故障处理系统及方法 - Google Patents

故障处理系统及方法 Download PDF

Info

Publication number
CN103178974A
CN103178974A CN201110432072XA CN201110432072A CN103178974A CN 103178974 A CN103178974 A CN 103178974A CN 201110432072X A CN201110432072X A CN 201110432072XA CN 201110432072 A CN201110432072 A CN 201110432072A CN 103178974 A CN103178974 A CN 103178974A
Authority
CN
China
Prior art keywords
fault
troubleshooting
processing
potential generation
generation systems
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110432072XA
Other languages
English (en)
Other versions
CN103178974B (zh
Inventor
茅毓铭
王振
鲁志军
杨燕明
华锦芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201110432072.XA priority Critical patent/CN103178974B/zh
Publication of CN103178974A publication Critical patent/CN103178974A/zh
Application granted granted Critical
Publication of CN103178974B publication Critical patent/CN103178974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明提供一种故障处理系统,其包括接收模块、处理模块、以及发送模块;其中,接收模块接收具有预定形式且对应于故障潜在发生系统所发生的故障的故障信息,及接收故障潜在发生系统和/或与处理该故障所涉及的关联系统形成的对应于该故障的故障反馈信息;处理模块分析所接收的故障信息并依据分析结果形成用于处理故障的初始故障处理指示信息,以及分析故障反馈信息并基于分析结果形成故障处理指示信息;发送模块发送初始故障处理指示信息及故障处理指示信息,以便故障潜在发生系统和/或与处理该故障所涉及的关联系统依据该指示处理该故障。本发明还提供相应的方法。本发明所述的系统与方法可将故障处理对故障潜在发生系统自身的运行的影响降到最小,并且能显著提高故障处理的能力与效率。

Description

故障处理系统及方法
技术领域
    本发明涉及故障处理,尤其涉及金融电信系统的故障处理。
背景技术
从单个电子设备个体到通过网络耦合在一起的网络系统的运行都离不开软件及硬件系统的支持。但是在这些电子设备以及以这些电子设备为基础的网络系统的运行中,难免出现故障。尽管设计人员在设计时会尽可能地考虑可能发生的故障,但难免有出乎意料的故障发生。为此,故障处理的快速得当与否也是此类设备及系统品质的考量因素之一。
故障发生时,需要经历故障定位、决策、应急操作、善后处理、修复等若干阶段,而每个阶段内部可能又涉及众多步骤,这便使得故障处理繁琐低效。此外,在一般的故障处理过程中,故障处理的阶段与阶段之间或步骤与步骤之间存在相互关联。且现有的故障处理中,相关的阶段或步骤的耦合性较高,新增或更改阶段(或步骤)都会对现有故障处理产生较大影响。
在此结合金融或电信系统来阐述故障处理。金融或电信系统本身发生故障后,现有技术中对故障的处理,如上所述可包括故障定位、决策、应急操作、善后处理、修复等一系列阶段,每个阶段可能又包括多个步骤,比如故障定位可能涉及到收集数据、分析数据等。图1示意了现有技术中的故障处理的过程示意。在该过程中,对故障J的处理包括m个阶段,阶段1包括步骤1、步骤2,……,及步骤n1,而阶段m包括nm个步骤,阶段1到阶段m之间的任一阶段,同样可能包括多个步骤。按照现有技术,对故障J的处理,需要经历阶段1到阶段m中的每个阶段,其中每个阶段i需要执行步骤n1到步骤ni,阶段与阶段之间、步骤与步骤之间要么通过既有的约定接口各自定义,要么因为不存在接口而采取人工方式推动整个故障处理过程向前行进。可见,现有技术对任意故障的处理或者是各阶段、各步骤紧密耦合或者是各阶段、各步骤互不关联。在紧密耦合的情况下,如果要对其中任一阶段做修改或调整,都至少要涉及到与其相邻的两个阶段或步骤;在互不关联的情况下,就需要以人工方式实现阶段到阶段或步骤到步骤的行进。因此,现有技术中,无论是紧密耦合还是互不关联都导致系统或模块之间信息交换的成本较高,整体的故障处理效率相对较低。
此外,在现有的金融或电信系统中,故障处理中的部分阶段或步骤是紧密耦合在该金融或电信业务运行所涉及到的各相关生产系统之中的,这导致故障处理过程与该类系统自身的运行也是紧密相关,故障处理的繁琐低效将直接影响这类系统的运行。
发明内容
有鉴于此,本发明提供一种故障处理系统及方法,可有效解决以上及其它问题。本发明所述的故障处理系统,用于在故障潜在发生系统发生故障时对发生的故障进行处理。所述故障处理系统包括接收模块、处理模块、以及发送模块;其中,接收模块接收具有预定形式且对应于所述故障潜在发生系统所发生故障的故障信息,及接收所述故障潜在发生系统和/或与处理该故障所涉及的关联系统形成的对应于处理该故障的故障反馈信息;处理模块分析所接收的故障信息并依据分析结果形成用于处理故障的初始故障处理指示信息,以及分析所述故障反馈信息并基于所述分析结果形成故障处理指示信息;发送模块发送所述初始故障处理指示信息及所述故障处理指示信息,以便所述故障潜在发生系统和/或与处理该故障所涉及的关联系统依据该指示处理该故障;以及,所述故障反馈信息是所述故障潜在发生系统和/或所述与处理该故障所涉及的关联系统根据所述故障处理指示信息处理故障时形成的反馈信息。
优选地,所述系统还包括转换接口,其用于将对应于故障潜在发生系统所发生故障的故障信息转换为预定形式的故障信息、用于将所述故障潜在发生系统和/或所述与处理该故障所涉及的关联系统所形成的对应于处理该故障的故障反馈信息转换为预定形式的故障反馈信息,并将预定形式的故障信息和故障反馈信息发送给所述接收模块,以及用于将来自所述发送模块的初始故障处理指示信息及故障处理指示信息转换为该故障潜在发生系统和/或所述与处理该故障所涉及的关联系统可识别的信息。
优选地,所述故障处理系统还包括存储预先设定的故障处理流程表的存储模块,所述故障处理流程表包括故障处理步骤并指示处理所发生的故障时各处理步骤之间的行进关系。
优选地,所述处理模块按照所述故障处理流程表的指示形成初始故障处理指示信息及故障处理指示信息。
优选地,所述系统还包括设置所述故障处理流程表的流程管理模块。
优选地,所述处理模块针对所发生故障的处理情况形成故障处理进度信息。
优选地,所述转换接口可设置在故障潜在发生系统和/或所述与处理该故障所涉及的关联系统中。
优选地,故障潜在发生系统和/或与处理该故障所涉及的关联系统,与所述转换接口以文件、进程间通信、网络套接字的方式进行交互,所述转换接口与所述接收模块及所述发送模块之间以网络套接字的方式进行交互。
优选地,所述预定形式的故障信息及故障反馈信息包括故障信息分类字段和故障处理结果状态字段,其中所述故障信息分类字段用于指示故障反馈信息的具体分类,而所述故障处理结果状态字段指示故障潜在发生系统和/或所述与处理该故障所涉及的关联系统对该故障的处理结果。
本发明还提供一种故障处理方法,用于对故障潜在发生系统所发生的故障进行处理,所述方法包括接收具有预定形式且对应于所述故障潜在发生系统所发生故障的故障信息;分析所接收的故障信息并依据分析结果形成用于处理故障的具有预定形式的初始故障处理指示信息;发送所形成的初始故障处理指示信息,以便所述故障潜在发生系统和/或与处理该故障所涉及的关联系统依据该指示处理故障;接收所述故障潜在发生系统和/或与处理该故障所涉及的关联系统形成的对应于处理该故障的故障反馈信息,其中所述故障反馈信息是所述故障潜在发生系统和/或所述与处理该故障所涉及的关联系统根据所述故障处理指示信息来处理故障时形成的;分析所述故障反馈信息并基于所述分析结果形成故障处理指示信息;以及发送所形成的故障处理指示信息,以便所述故障潜在发生系统和/或与处理该故障所涉及的关联系统依据该故障处理指示信息进一步处理该故障。
优选地,所述方法还包括预先设定包括故障处理步骤并指示在处理所发生的故障时,各步骤之间的行进关系的故障处理流程表。
优选地,形成用于处理故障的初始故障处理指示信息以及形成故障处理指示信息系基于所述故障处理流程表来进行。
优选地,所述方法还包括针对故障的处理情况形成故障处理进度表。
优选地,对故障信息、故障反馈信息的接收是以网络套接字的方式进行,对初始故障处理指示信息、故障处理指示信息的发送是以网络套接字的方式进行。
优选地,所述预定形式的故障信息及故障反馈信息包括故障信息分类字段和故障处理结果状态字段,其中所述故障信息分类字段用于指示故障反馈信息的具体分类,而所述故障处理结果状态字段指示故障潜在发生系统和/或所述与处理该故障所涉及的关联系统对该故障的处理结果。
通过本发明所述的故障处理系统或方法,可将故障处理对故障潜在发生系统的影响降低到最小,并且能显著提高故障处理的能力与效率。
附图说明
图1示意了现有技术中的故障处理的过程示意。
图2为根据本发明的一个示例的故障处理系统的结构示意图。
图3为根据本发明的对应某一故障的处理过程的示意。
图4是根据本发明所述的故障处理方法的流程图。
具体实施方式
现结合附图进一步说明本发明。本领域技术人员可以理解到,以下只是结合具体的实施方式对本发明的主旨进行说明,并不就此限定本发明。本发明所主张的范围由所附的权利要求确定,任何不脱离本发明精神的修改、变更都应由本发明的权利要求所涵盖。
本发明所述的故障处理系统与方法适用于以计算机平台为基础的系统。在此,“计算机平台”应做广义理解,其指的不仅是个人电脑或笔记本电脑,而是所有可以进行数据处理、在软件与硬件(还可包括固件)相结合之后可以达成某项功能的数据处理设备。进一步,该“计算机平台”可以是单个数据处理设备,还可以是多个以通信方式连接或电性连接在一起的数据处理设备所形成的系统。
在以下说明中,术语“故障潜在发生系统”指的是可能发生故障的系统,亦即本发明所述的故障处理系统或故障处理方法所针对的可能发生故障的系统,可以是如上所述的以计算机为平台的系统中的软件系统、硬件系统、固件系统、或这三者中的任两者或该三者的结合。
在现有技术中,故障处理系统或方法被分散设置在处理故障时所涉及的关联系统内部或边缘,甚至游离于关联系统之外,对故障处理系统的运行或方法的执行或紧密耦合于或基本隔离于该故障潜在发生系统进行。在此,“紧密耦合”指的是在故障处理中,故障处理系统不仅仅需要从故障潜在发生系统、处理故障中所涉及的关联系统中获取数据,而且故障潜在发生系统或处理故障所涉及的关联系统的某一部分可能是故障处理系统涉及到的某个阶段或步骤。这种与故障潜在发生系统紧密耦合以致故障处理中故障潜在发生系统、关联系统以及故障处理系统三者之间关系错综复杂,使得现有的故障处理系统极易影响到故障潜在发生系统、关联系统本身的运行。在此,“基本隔离”指的是在故障处理中,步骤与步骤之间、阶段与阶段之间缺少必要的关联纽带,故障处理的时序性需要依靠人工方式予以保障,这就导致了故障处理的低效性,并增加了人工决策与处理的风险。术语“关联系统”在本文中指的是故障潜在发生系统上所进行的业务在运行时可能涉及到的其它所有系统。
在现有技术中,故障潜在发生系统及处理故障中所涉及的关联系统与故障处理系统之间的接口可能是文件类型、进程间通信的类型、或者网络套接字(socket)类型等。需要说明的是,在此所列出的现有的故障潜在发生系统及处理故障中所涉及的关联系统与故障处理系统的接口并非穷举,只是示意。
基于此,本发明提供一种故障处理系统,以在故障潜在发生系统发生故障时,将处理故障所需要的步骤合理地结合起来,从而自动化地处理所发生的故障,并在不影响故障潜在发生系统及所涉及的关联系统自身运行的情况下,降低系统与系统之间的耦合度;要说明的是,故障处理过程中,所涉及的关联系统及故障潜在发生系统并不总是参与到故障处理中来,在某些情况下,故障处理过程可能仅涉及故障处理系统和故障潜在发生系统;而在某些情况下,故障处理过程可能仅涉及故障处理系统和所涉及的关联系统。在本文的以下的示例性说明中,是以故障处理过程涉及到故障潜在发生系统、故障处理中涉及的关联系统以及故障处理系统为例进行的。
简单地说,根据本发明所述的故障处理系统在接收到故障潜在发生系统在其发生故障时所发送的故障信息后,会首先针对该故障向故障潜在发生系统及所涉及的关联系统发送初始故障处理指示信息。故障潜在发生系统及所涉及的关联系统按照该初始故障处理指示信息开始处理故障,并发送故障反馈信息给故障处理系统以告知故障处理的执行情况(例如处理成功与否,发生异常与否等)。接到该故障反馈信息的故障处理系统分析接收的信息以获知故障潜在发生系统及所涉及的关联系统对故障的处理情况,进而决定接下来如何继续对故障的处理,然后再形成故障处理指示信息,以便故障潜在发生系统和所涉及的关联系统按照其指示继续对该故障处理。如此,经由故障潜在发生系统及所涉及的关联系统与故障处理系统之间的交互来完成对故障的处理。
该故障处理系统的结构示意如图2所示。该故障处理系统包括转换接口10和故障处理子系统20。故障潜在发生系统发生故障时,转换接口10将与该故障对应的故障信息转换为预定形式的故障信息,并将转换后的该故障信息发送给故障处理子系统20;在此,与该故障对应的故障信息相对于转换后的预定形式的故障信息也可以称为原始故障信息。故障处理子系统20基于该故障信息,获知故障的类型以及故障的发生地等信息,并进而决定如何处理该故障,随后故障处理子系统会形成相应的具有预定形式的初始故障处理指示信息。该初始故障处理信息被发送给转换接口10,以转换为故障潜在发生系统及处理故障中所涉及的关联系统可识别的信息,以便故障潜在发生系统及处理故障中所涉及的关联系统解读该初始故障处理指示信息并按照其指示开始对故障的处理。故障潜在发生系统及处理故障中所涉及的关联系统在按照该初始故障处理指示信息进行了故障处理之后,会形成故障反馈信息。该故障反馈信息在经转换接口10转换后被反馈给故障处理子系统20,由其进行分析,及形成进一步处理故障的故障处理指示信息。由转换接口10将故障处理指示信息转换为故障潜在发生系统及所涉及的关联系统可识别的信息,随后故障潜在发生系统及所涉及的关联系统将按照该故障处理指示信息的指示继续对故障的处理,并再次形成故障反馈信息给故障处理子系统20。通过故障处理系统与故障潜在发生系统及处理故障所涉及的关联系统之间不断的交互,使得故障处理中所涉及的步骤之间不再像现有技术那样彼此紧密耦合,而是通过故障处理系统来确定步骤之间的行进;而且对任意一个步骤的改进或调整也不会影响其它步骤。再者,由于故障处理子系统会对故障处理所要进行的一系列步骤进行分析决策,便不会出现现有技术存在的若干步骤之间完全没有联系而要靠人工进行分析决策的问题,由此实现了故障处理的自动化。
转换接口10可以将各类型的故障信息以及故障反馈信息转换为故障处理子系统20可识别的预定形式的信息,反过来,也可以将故障处理子系统20形成的初始故障处理指示信息和故障处理指示信息转换为故障潜在发生系统及处理故障所涉及的关联系统可识别的形式。示例性地,该转换接口10支持但不限于设置在故障潜在发生系统及处理故障所涉及的关联系统中,以便该故障潜在发生系统在发生故障时或处理故障时直接调用。可替代地,该转换接口10也可设置在故障潜在发生系统及处理故障所涉及的关联系统之外,但可由该故障潜在发生系统及处理故障所涉及的关联系统根据需要调用。作为示例,具有预定形式的故障信息、故障反馈信息(也可称为可由故障处理系统识别的统一接口)至少包括接口分类字段和处理结果状态字段。其中接口分类字段指出了故障潜在发生系统及处理故障所涉及的关联系统与本发明所述的故障处理系统之间交互的故障信息的具体分类,比如指出该故障信息为处理结果通知、步骤处理过程通知、还是中断消息处理通知等;状态处理结果字段指出故障潜在发生系统及处理故障所涉及的关联系统对故障处理系统所发送的故障处理信息的响应,具体给出了故障处理系统所指示执行的故障处理步骤的结果,比如故障处理是成功、失败、超时、还是停止等。选择性地,该预定形式故障信息和/或故障反馈信息还包括出错位置指示字段、及相关具体信息字段等。需要说明的是,具有预定形式的故障信息及故障反馈信息还可以视具体情况而包括更多的字段;在此所给出的字段所指示的含义也可由用户自定义,而不局限于本实施例中所给出的这些。
故障处理子系统20可包括接收模块201、处理模块202和发送模块204。接收模块201接收由转换接口10发送的转换后的故障信息或者故障反馈信息。处理模块202则对所接收的故障信息或者故障反馈信息进行处理,例如,处理模块202解析所接收的故障信息,据其获知故障具体发生在例如故障潜潜在发生系统哪个程序模块以及故障的具体类型等从而决定如何处理该故障,进而形成初始的故障处理指示信息;如果处理模块202接收的是故障反馈信息,则解析之后会获知故障潜在系统或故障处理中所涉及的关联系统的故障处理情况(如对该步骤的执行是否成功等),从而决定该如何继续对故障的处理,并生成故障处理指示信息。发送模块204将处理模块202形成的故障处理指示信息(包括初始的故障处理指示信息)发送给转换模块,以将这些信息转换为故障潜在发生系统及处理故障所涉及的关联系统可识别的信息,并随后发给故障潜在发生系统及处理故障所涉及的关联系统。
总的来说,本发明所述的故障处理系统与故障潜在系统及所涉及的关联系统之间是以松耦合的方式来处理故障。“松耦合”指的是本发明的故障处理系统需要与故障潜在发生系统及处理故障中所涉及的关联系统交互以获得故障处理所需要的信息,但整个故障处理过程不影响故障潜在发生系统及所涉及的关联系统自身的运行,且故障潜在发生系统及所涉及的关联系统之间,如果有多个所涉及的关联系统的话也包括多个关联系统之间,不再有针对本次故障处理的交互。
根据本发明,故障处理系统还包括设定的故障处理流程表,其给出了由一系列步骤组成故障应对方案,且指出了在故障处理中这些步骤之间的行进关系。故障处理系统可根据该故障处理流程表的指示在故障处理的各步骤之间行进以完成对故障的处理,而无需像现有技术那样依赖于故障潜在发生系统及所涉及的关联系统,或人工或半自动化地依次逐步执行,其中该故障处理流程可以是用户定义的。该流程表例如可存储在故障处理系统的存储模块(未图示)中,如果处理模块202包括缓存的话,该流程表例如可在故障处理子系统初始化时从存储模块载入到缓存。该流程表给出了处理各故障所需要的步骤,并进一步给出了在什么样的条件下执行哪个步骤等。表1给出了故障处理流程表的一个示例。在表1中,故障ID为故障标识,指出所发生的为哪个故障,该例中,所发生故障的ID为1;故障处理步骤给出的是对于故障ID为1的故障进行故障处理所要采取的具体步骤,比如该例中包括了步骤1、2、3、4、和5;返回值即为故障潜在系统及所涉及的关联系统按照故障处理子系统发送的故障处理信息执行了相应的步骤之后,发送给故障子系统的响应信息之一,如表1中故障1的处理步骤1包括了3个分别代表了不同的含义的返回值0、1或2;而对应下一步骤则给出了故障处理子系统在分析了所接收的来自故障发生潜在系统和所涉及的关联系统发送的响应(即故障信息)之后,所决定的接下来应执行的步骤。备注部分只是为了方便用户查看而给出的,对于本发明所述的故障处理系统无实际意义。
表1
故障ID 故障处理步骤 返回值 对应下一步骤 备注
1 1 0 2 成功后执行步骤2,
1 1 1 3 未满足要求,需要执行步骤3
1 1 2 4 出现异常,需要执行步骤4
1 2 0 5 成功后执行步骤5
1 3 0 1 执行成功后,重新执行步骤1
1 3 2 -1 出现异常,需要人工干预
1 4 0 1 异常排查后,重新执行步骤1
1 4 2 -1 再次出现异常,需要人工干预
1 5 0 0 成功后流程结束
2 1 0 0 成功后流程结束
各步骤可根据实际应用确定。示例性地,步骤可以是收集数据、分析数据、处理数据等等。现结合表1给出的例子进一步说明本发明所述的故障处理系统。当故障潜在系统发生了ID为1的故障(下称故障1)时,转换接口10将对应故障1的故障信息以及故障反馈信息转换为故障处理子系统20可识别的信息,其中,该故障反馈信息至少包括了接口分类字段,以指明该信息为处理结果通知、步骤处理过程通知、还是中断消息处理通知等,还包括状态处理结果字段,以表明处理结果为成功、失败、超时、还是停止等,其中失败又可以进一步按照失败类型进行分类、超时也可以进一步按照超时类型进行分类。本例中,状态处理结果为成功的话,则转换后的信息中状态处理结果字段的值为0;状态处理结果为失败类型中的未满足要求的话,则转换后的信息中状态处理结果字段的值为1;状态处理结果为失败中的出现异常的话,则转换后的信息中状态处理结果字段的值为2。在故障处理过程中执行了步骤1之后,如果故障反馈信息中的状态处理结果字段的值为0,则根据该故障处理流程表的指示,处理模块202可确定接下来进行步骤2;在故障处理过程中执行了步骤1之后,如果故障反馈信息中的状态处理结果字段的值为1,则处理模块202根据该故障处理流程表的指示,可确定接下来进行步骤3;在故障处理过程中执行了步骤1之后,如果故障反馈信息中的状态处理结果字段的值为2,则处理模块202根据该故障处理流程表的指示,可确定接下来进行步骤4。在故障处理过程中执行了步骤2之后,如果故障反馈信息中的状态处理结果字段的值为0,则处理模块202根据该故障处理流程表的指示,可确定接下来进行步骤5;在故障处理过程中执行了步骤3之后,如果故障反馈信息中的状态处理结果字段的值为0,则处理模块202根据该故障处理流程表的指示,可确定接下来进行步骤1;在故障处理过程中执行了步骤3之后,如果故障反馈信息中的状态处理结果字段的值为2,则处理模块202根据该故障处理流程表的指示,可确定接下来进行步骤-1。需要说明的是,步骤-1指的是步骤出现异常,需要人工干预的步骤。表1中剩余项的理解可以此类推,不再赘述。综上可见,根据本发明的故障处理系统,故障处理过程中,并不需要依次进行处理该故障的所有步骤,而是根据故障反馈信息(在此是根据故障反馈信息中的返回值)来选择相应的步骤,从而使得故障处理系统不再像现有技术那样各步骤各阶段紧密地结合在一起,减少了故障处理时间,节约了资源,提高了自动化处理能力。要说明的是,在故障发生时故障潜在系统发送给故障信息还包括指明故障具体来源信息的字段。
在本发明的一个示例中,故障处理系统可包括故障处理流程设置模块,以便自定义故障处理流程。
在以上结合图2所描述的故障处理系统中,故障潜在发生系统被假定为具有现有的故障处理机制,例如已经存在的电信系统等。而针对此类故障潜在发生系统,本发明提供的故障处理系统包括转换接口,以便对现有的故障潜在发生系统本身作最小的变化。
但是,在故障潜在发生系统不具有现有故障处理机制,或者故障潜在发生系统及故障处理时所涉及的关联系统形成的信息为本发明所述的故障处理系统可识别得信息时,转换接口可以不包括在本发明所述的故障处理系统中。此时,该故障潜在发生系统及所涉及的关联系统直接与根据本发明的故障处理系统通信,此时的故障处理系统除了没有对故障潜在发生系统及故障处理中所涉及的关联系统与故障处理系统之间所交互的信息进行转换的转换接口,其部分或模块与以上结合图2所说明的故障处理系统相同或相类似,在此就不再赘述。
可选地,故障处理模块202还将对故障的处理情况形成为处理进度表。以对故障1的处理作为示例说明如下,处理模块202可以将表1中的故障ID,所进行的步骤,以及返回值等字段形成在进度表中,并且另外,在进度表中包括对应所进行的步骤的时间信息(例如开始时间,更新时间等),还可给出故障状态信息,该故障状态信息主要包括完成故障处理和故障处理正在进行中等。表2是故障处理模块202所形成的处理进度表的一个示例。
表2
故障ID 步骤 返回值 开始时间 更新时间 任务状态
1 1 0 10:30 10:30 99
1 2 0 10:31 10:35 99
1 5   10:36   00
可选地,该故障处理进度表可通过故障处理系统的显示模块30显示给用户,以供用户查看。用户也可根据该表来判断是否要对当前的故障处理进行人工干预等。
可选地,故障处理子系统20的处理模块202还可以形成故障信息表,该故障信息表主要给出了故障处理的具体信息,主要包括针对故障的故障名称、故障处理的超时时间、故障处理步骤的时间限制、以及该故障处理步骤是否已启动、以及该故障处理的更新时间等。
根据本发明所述的故障处理系统,对应某一故障的处理过程以示意的方式显示在图3中。如图3所示,故障处理的各个步骤(步骤1到步骤n)只需要与故障处理子系统10进行交互,而无需像现有技术那样,需要各步骤之间顺次进行。
此外,在本申请的所有示例中,转换接口10与故障处理子系统之间的通信可通过总线进行。
图4是根据本发明所述的故障处理方法的流程图,该方法用于在故障潜在发生系统发生故障时对所发生的故障进行处理。以下结合图2所示的系统说明该故障处理方法。本领域技术人员可以理解到,图2所示的故障处理系统只是可应用该方法的一个示例,本方法也可应用在其它系统。
在步骤400,接收具有预定形式并对应于故障潜在发生系统所发生故障的故障信息。该故障信息由故障潜在发生系统在其发生故障时形成并发送给故障处理系统,以告知在哪里发生了什么样的故障。结合图2所示的系统,故障潜在发生系统发生故障时形成故障信息,转换接口10将该故障信息转换为预定形式的信息,并将转换后的该故障信息发送给故障处理子系统20。
在步骤402,分析所接收的故障信息并依据分析结果形成用以处理故障的初始故障处理指示信息。故障处理子系统20解析该故障信息以获知故障类型、故障发生地等(如故障发生在故障潜在发生系统的哪个模块等),进而决定如何处理该故障,并形成具有预定形式的初始故障处理指示信息。初始故障处理指示信息会指示该如何处理故障。
在步骤404,发送所形成的初始故障处理指示信息,以便故障潜在发生系统和/或与处理该故障所涉及的关联系统依据该指示处理故障。故障处理子系统20的发送模块204将初始故障处理指示信息发送给转换模块10,由其将该信息转换为故障潜在发生系统及处理故障所涉及的关联系统可识别的信息,并随后发给故障潜在发生系统及所涉及的关联系统;而故障潜在发生系统及所涉及的关联系统将按照该初始故障处理指示信息的指示对故障进行处理,并形成故障反馈信息。
在步骤406,接收故障潜在发生系统及所涉及的关联系统形成的对应于处理该故障的故障反馈信息。故障反馈信息是在步骤405由故障潜在发生系统及所涉及的关联系统形成,并将形成的故障反馈信息发送给转换接口10,由转换接口10将其转换为预定形式之后再发送给故障处理子系统20。
在步骤408,分析所述故障反馈信息并基于分析结果形成故障处理指示信息。故障处理子系统20的接收模块201接收该故障反馈信息,并分析该故障反馈信息,据其获知故障潜在系统或故障处理中所涉及的关联系统的故障处理情况(如对该步骤的执行是否成功等),从而决定该如何继续对故障的处理,并生成故障处理指示信息。
在步骤410,发送所形成的故障处理指示信息,以便所述故障潜在发生系统和/或与故障处理所涉及的关联系统根据该故障处理指示信息进一步处理该故障。在步骤408形成的故障处理指示信息由发送模块204发送给转换接口10,由转换接口10将其转换为故障潜在发生系统和/或与该故障处理所涉及的关联系统可识别的信息,并将转换后的信息发送给故障潜在发生系统和/或与该故障处理所涉及的关联系统,以便所述故障潜在发生系统和/或与该故障处理所涉及的关联系统根据该故障处理指示信息进一步处理该故障。
根据本发明的一个实施例,该故障处理方法还包括预先设定包括故障处理步骤并指示在处理所发生的各类故障时,各步骤之间的行进关系地故障处理流程表。在以上结合图4所述的故障处理方法中,步骤402及步骤408分别形成的初始故障处理指示信息和故障处理指示信息在其形成时,均基于该故障处理流程表。在上文描述中,已在表1给出了一个故障处理流程表的示例,这里就不再赘述。
根据本发明的一个实施例,该故障处理方法还包括在处理所发生的故障时,针对故障的处理情况形成故障处理进度表,该步骤例如可发生在步骤410之后。以对表1所示的故障1的处理作为示例,处理模块可以将表1中的故障ID、所进行的步骤、以及返回值等字段形成在进度表中,另外,在进度表中包括对应所进行的步骤的时间信息(例如开始时间,更新时间等),还可给出故障状态信息,该故障状态信息主要用于指示故障处理的最新状态,如完成故障处理、故障处理正在进行中、故障处理失败等。上文给出的表2是故障处理模块202所形成的处理进度表的一个示例。
在图4所示的故障处理方法中,经转换接口(包括接收/发送)形成的预定形式的故障信息和预定形式的故障反馈信息均以网络套接字形式与故障处理子系统进行交互。故障处理子系统所形成的故障处理指示信息也是以网络套接字形式与转换接口进行交互,进而传递到故障潜在发生系统和/或与故障处理所涉及的关联系统中。如上所述,预定形式的故障信息及故障反馈信息可包括故障信息分类字段和故障处理结果状态字段。其中故障信息分类字段指示故障信息或故障反馈信息的具体分类,而故障处理结果状态字段指示故障潜在发生系统和/或故障处理中所涉及的关联系统对该故障的处理结果;这与上文结合图2讨论故障处理系统时所说明的一样。
在以上结合所给出的故障处理方法的几个示例中,都是以故障潜在发生系统具有现有的故障处理机制为例进行说明的,因具有现有故障处理机制的故障潜在系统以及故障处理中所涉及的关联系统针对故障所形成的信息类型多样、相互间通信形式不统一,故在本发明所述的故障处理系统中设置了转换接口,以将这些信息转换为本发明所述的故障处理系统可识别的形式。但是在故障潜在发生系统和/或故障处理中所涉及的关联系统所形成的故障信息或故障反馈信息为本发明所述的故障处理子系统可识别得预定形式的情况下,所述转换接口是可省略的,亦即故障处理子系统直接与故障潜在发生系统和/或故障处理中所涉及的关联系统通信。
综上,使用本发明所述的故障处理系统及故障处理方法,因故障处理的各步骤之间不再直接进行交互,而是与故障处理系统进行交互,从而使得故障处理过程与故障潜在发生系统及所涉及的关联系统之间的联系不再紧密,而且使得故障潜在发生系统与所涉及的关联系统之间以及如果涉及多个关联系统的话,该多个关联系统之间不就该故障的处理进行交互,从而简化了它们之间的关系。

Claims (15)

1.一种故障处理系统,用于对故障潜在发生系统所发生的故障进行处理,其特征在于,所述系统包括:
接收模块,其接收具有预定形式且对应于所述故障潜在发生系统所发生的故障的故障信息,及接收所述故障潜在发生系统和/或与处理该故障所涉及的关联系统形成的对应于该故障的故障反馈信息;
处理模块,其分析所接收的故障信息并依据分析结果形成用于处理故障的初始故障处理指示信息,以及分析所述故障反馈信息并基于所述分析结果形成故障处理指示信息;
发送模块,其发送所述初始故障处理指示信息及所述故障处理指示信息,以便所述故障潜在发生系统和/或与处理该故障所涉及的关联系统依据该指示处理该故障;以及
其中,所述故障反馈信息是所述故障潜在发生系统和/或所述与处理该故障所涉及的关联系统根据所述故障处理指示信息处理故障期间形成的反馈信息。
2.根据权利要求1所述的故障处理系统,其特征在于,所述系统还包括转换接口,其用于将对应于故障潜在发生系统所发生的故障的故障信息转换为预定形式的故障信息、用于将所述故障潜在发生系统和/或所述与处理该故障所涉及的关联系统所形成的对应于该故障的故障反馈信息转换为预定形式的故障反馈信息,并将预定形式的故障信息和故障反馈信息发送给所述接收模块,以及用于将来自所述发送模块的初始故障处理指示信息及故障处理指示信息转换为该故障潜在发生系统和/或所述与处理该故障所涉及的关联系统可识别的信息。
3.根据权利要求1或2所述的故障处理系统,其特征在于,所述故障处理系统还包括存储预先设定的故障处理流程表的存储模块,所述故障处理流程表包括故障处理步骤并指示处理所发生的故障时各处理步骤之间的行进关系。
4.根据权利要求3所述的故障处理系统,其特征在于,所述处理模块按照所述故障处理流程表的指示形成初始故障处理指示信息及故障处理指示信息。
5.根据权利要求3所述的故障处理系统,其特征在于,所述系统还包括设置所述故障处理流程表的流程管理模块。
6.根据权利要求3中所述的故障处理系统,其特征在于,所述处理模块针对所发生故障的处理情况形成故障处理进度信息。
7.根据权利要求2所述的故障处理系统,其特征在于,所述转换接口设置在故障潜在发生系统和/或所述与处理该故障所涉及的关联系统中。
8.根据权利要求2所述的故障处理系统,其特征在于,所述故障潜在发生系统和/或与处理该故障所涉及的关联系统,与所述转换接口以文件、进程间通信、网络套接字的方式进行交互,所述转换接口与所述接收模块及所述发送模块之间以网络套接字的方式进行交互。
9.根据权利要求1或2所述的故障处理系统,其特征在于,所述预定形式的故障信息及故障反馈信息包括故障信息分类字段和故障处理结果状态字段,其中所述故障信息分类字段用于指示故障反馈信息的具体分类,而所述故障处理结果状态字段指示故障潜在发生系统和/或所述与处理该故障所涉及的关联系统对该故障的处理结果。
10.一种故障处理方法,用于对故障潜在发生系统所发生的故障进行处理,所述方法包括:
接收具有预定形式且对应于所述故障潜在发生系统发生的故障的故障信息,
分析所接收的故障信息并依据分析结果形成用于处理故障的具有预定形式的初始故障处理指示信息,
发送所形成的初始故障处理指示信息,以便所述故障潜在发生系统和/或与处理该故障所涉及的关联系统依据该故障处理指示信息处理故障,
接收所述故障潜在发生系统和/或与处理该故障所涉及的关联系统形成的对应于该故障的故障反馈信息,其中所述故障反馈信息是所述故障潜在发生系统和/或所述与处理该故障所涉及的关联系统根据所述故障处理指示信息来处理故障时形成的;
分析所述故障反馈信息并基于所述分析结果形成故障处理指示信息;以及
发送所形成的故障处理指示信息,以便所述故障潜在发生系统和/或与处理该故障所涉及的关联系统依据该故障处理指示信息进一步处理该故障。
11.根据权利要求10所述的故障处理方法,其特征在于,所述方法还包括预先设定包括故障处理步骤并指示在处理所发生的故障时,各步骤之间的行进关系的故障处理流程表。
12.根据权利要求11所述的故障处理方法,其特征在于,形成用于处理故障的初始故障处理指示信息以及形成故障处理指示信息系基于所述故障处理流程表进行。
13.根据权利要求10或11所述的故障处理方法,其特征在于,所述方法还包括针对故障的处理情况形成故障处理进度表。
14.根据权利要求10或11中所述的故障处理方法,其特征在于,对故障信息、故障反馈信息的接收是以网络套接字的方式进行,对初始故障处理指示信息、故障处理指示信息的发送是以网络套接字的方式进行。
15.根据权利要求10或11中所述的故障处理方法,其特征在于,所述预定形式的故障信息及故障反馈信息包括故障信息分类字段和故障处理结果状态字段,其中所述故障信息分类字段用于指示故障反馈信息的具体分类,而所述故障处理结果状态字段指示故障潜在发生系统和/或所述与处理该故障所涉及的关联系统对该故障的处理结果。
CN201110432072.XA 2011-12-21 2011-12-21 故障处理系统及方法 Active CN103178974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110432072.XA CN103178974B (zh) 2011-12-21 2011-12-21 故障处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110432072.XA CN103178974B (zh) 2011-12-21 2011-12-21 故障处理系统及方法

Publications (2)

Publication Number Publication Date
CN103178974A true CN103178974A (zh) 2013-06-26
CN103178974B CN103178974B (zh) 2016-08-17

Family

ID=48638606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110432072.XA Active CN103178974B (zh) 2011-12-21 2011-12-21 故障处理系统及方法

Country Status (1)

Country Link
CN (1) CN103178974B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105471595A (zh) * 2014-06-09 2016-04-06 株式会社日立制作所 一种故障处理管理装置和管理方法
CN105967063A (zh) * 2016-05-16 2016-09-28 上海振华重工电气有限公司 维保平台故障分析处理系统及方法
CN106066824A (zh) * 2016-05-26 2016-11-02 湖南洋达信息科技有限公司 故障维护管理系统及方法
CN108062471A (zh) * 2017-12-19 2018-05-22 龙岩学院 一种云计算网络运行过程中的风险处理方法及设备
CN111505417A (zh) * 2020-04-26 2020-08-07 天津中新智冠信息技术有限公司 设备故障系统及方法
CN113360342A (zh) * 2021-06-04 2021-09-07 中国农业银行股份有限公司 业务功能运行环境的监控方法及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621404A (zh) * 2008-07-05 2010-01-06 中兴通讯股份有限公司 一种故障分层处理方法和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621404A (zh) * 2008-07-05 2010-01-06 中兴通讯股份有限公司 一种故障分层处理方法和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105471595A (zh) * 2014-06-09 2016-04-06 株式会社日立制作所 一种故障处理管理装置和管理方法
CN105967063A (zh) * 2016-05-16 2016-09-28 上海振华重工电气有限公司 维保平台故障分析处理系统及方法
CN105967063B (zh) * 2016-05-16 2018-08-14 上海振华重工电气有限公司 维保平台故障分析处理系统及方法
CN106066824A (zh) * 2016-05-26 2016-11-02 湖南洋达信息科技有限公司 故障维护管理系统及方法
CN108062471A (zh) * 2017-12-19 2018-05-22 龙岩学院 一种云计算网络运行过程中的风险处理方法及设备
CN108062471B (zh) * 2017-12-19 2021-07-20 龙岩学院 一种云计算网络运行过程中的风险处理方法及设备
CN111505417A (zh) * 2020-04-26 2020-08-07 天津中新智冠信息技术有限公司 设备故障系统及方法
CN113360342A (zh) * 2021-06-04 2021-09-07 中国农业银行股份有限公司 业务功能运行环境的监控方法及设备

Also Published As

Publication number Publication date
CN103178974B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN103178974A (zh) 故障处理系统及方法
CN108076098A (zh) 一种业务处理方法及系统
CN101964725B (zh) 业务不中断升级的方法和系统
CN102882704B (zh) 一种issu的软重启升级过程中的链路保护方法和设备
CN101916200B (zh) 终端升级的方法、终端升级回退的方法和升级管理中心
CN103473143A (zh) 故障修复的处理、故障的修复方法及装置
CN104504495A (zh) 运维异常处理方法、装置及设备
CN102622229A (zh) 一种不同类型的开发框架的融合方法、系统和装置
CN109995878A (zh) 资源库共享方法及分布式集群系统
CN104506893A (zh) 一种信息更新方法、云端服务器及crm服务器
CN104572286A (zh) 一种基于分布式内存集群的任务调度方法
CN112463440A (zh) 容灾切换方法、系统、存储介质及计算机设备
CN103441878A (zh) Vcf网络中pe设备的归属处理方法及设备
CN102098190A (zh) 一种Web项目的自动开发测试系统及方法
CN114489989A (zh) 一种基于代理客户端并行调度的方法及系统
CN110958139B (zh) 网络控制方法、编排器、控制器及计算机可读存储介质
CN110659184B (zh) 健康状态检查方法、装置及系统
CN103136614A (zh) 处理故障报修信息的方法和系统
CN105471643A (zh) 一种应用于nfv网络的告警关联方法及系统
CN102141973B (zh) 一种管理机群的方法、装置以及机群管理与监控系统
CN113923258A (zh) 数据处理方法及数据处理系统
CN103716186B (zh) 具有网络故障容错能力的人工话务系统及其方法
CN103684825A (zh) 多制式通信系统及其维护方法
CN102469118B (zh) 一种实现信息拉取的方法及装置
CN116800604B (zh) 可配置的激光通信设备控制方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant