CN103907093A - 基于诊断历史的故障检测 - Google Patents

基于诊断历史的故障检测 Download PDF

Info

Publication number
CN103907093A
CN103907093A CN201280051674.3A CN201280051674A CN103907093A CN 103907093 A CN103907093 A CN 103907093A CN 201280051674 A CN201280051674 A CN 201280051674A CN 103907093 A CN103907093 A CN 103907093A
Authority
CN
China
Prior art keywords
assembly
combination
diagnostic history
history
assemblies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280051674.3A
Other languages
English (en)
Other versions
CN103907093B (zh
Inventor
A·兹洛特尼克
O·拉兹-佩莱格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103907093A publication Critical patent/CN103907093A/zh
Application granted granted Critical
Publication of CN103907093B publication Critical patent/CN103907093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

用于检测系统中的故障的系统和方法。该方法包括:维护一个或多个系统组件的诊断历史;接收关于系统组件之间的操作状态和关系交互的系统信息;响应于执行对诊断历史的分析来确定是否要检查一个或多个系统组件,其中,该分析被执行以确定诊断历史是否包括可以指示怀疑特定系统组件或组件的组合产生该系统中所检测到的问题的任何信息,其中,当所述一个或多个组件被安装在了除了检测到问题的系统之外的系统中时,基于对所述一个或多个组件执行的至少一个检查来维护诊断历史。

Description

基于诊断历史的故障检测
版权和商标声明
本专利文献的公开的一部分可能包含进行版权保护的材料。所有者不反对该专利文献或专利公开的复制,如其在专利和商标局专利文件中出现或记录的,但是以其他方式保留所有的版权。
这里引用的某些标记可能是申请人、受让人或属于或不属于申请人或受让人的第三方的习惯法或注册商标。这些标记的使用是用于通过示例的方式提供能够实现的公开,并且不应当被解释为排他地将所公开的主题的范围限制为与这样的标记相关联的材料。
技术领域
公开的主题通常涉及确定系统中的故障,并且更具体地涉及基于对相同或类似的系统组件的诊断历史的分析来有效地确定系统中的故障的系统和方法。
背景技术
在具有许多组件的复杂系统中,即使大部分系统组件在被独立监视或测试时没有报告故障等级或不正常的活动,系统作为整体也可能经受性能降级。特别是在大的计算环境中,解决上述问题可能非常有挑战且成本高或者实际上无法实现。
例如,在线服务提供商可以具有包括与不同类型的存储服务器进行通信的不同计算机服务器的架构,存储服务器进而与很多存储交换机、控制器等进行交互。如果各个组件看上去健康,但是系统作为整体没有很好地执行,则多个组件之间的交互可能必须被详尽地测试。
在某些系统组件之间的交互可能在组件被安装在客户的系统中之前已经由一个或多个组件的供应商先前进行了测试。例如,在发布新的服务器之前,服务器供应商可能已经在具有不同接口卡、网络交换机、存储设备、其他服务器等的环境中测试了该服务器的操作。
当客户对于已经集成到客户的环境中的组件之一存在问题时,即使客户的环境并不与供应商的环境完全匹配,访问供应商的测试记录也可能是有帮助的。供应商的测试记录可以包括可以用于诊断客户端环境中的问题的信息。
发明内容
出于概述的目的,这里描述了某些方面、优点和新颖的特征。应当理解,并不是所有这些优点都可以根据任何一个具体实施例来实现。因此,所公开的主题可以以实现或优化一个优点或一组优点的方式来实现或执行,而不需要实现如这里所教导或提出的全部优点。
根据一个实施例,一种用于检测系统中的故障的方法,包括:维护一个或多个系统组件的诊断历史;接收关于操作状态和系统组件之间的关系交互的系统信息;响应于执行对诊断历史的分析来确定是否要检查一个或多个系统组件,其中,该分析被执行以确定诊断历史是否包括可以指示怀疑特定系统组件或组件的组合产生该系统中所检测到的问题的任何信息,其中,当所述一个或多个组件被安装在除了检测到问题的系统之外的系统中时,基于对所述一个或多个组件执行的至少一个检查来维护诊断历史。
根据一个或多个实施例,提供了一种包括一个或多个逻辑单元的系统。该一个或多个逻辑单元被配置成执行与以上公开的方法相关联的功能和操作。在另一实施例中,提供了一种包括具有计算机可读程序的计算机可读存储介质的计算机程序产品。计算机可读程序在计算机上被执行时,使得计算机执行与以上公开的方法相关联的功能和操作。在一个实施例中,与通过以上公开的方法执行的功能和操作相关联地提供了一种通过网络向客户提供服务的方法。
除了特定替代之外,以下参考附图进一步详细地提供了以上公开的实施例中的一个或多个。然而,所公开的主题不限于所公开的任何具体实施例。
附图说明
可以通过参考如以下提供的附图中的各个图来更好地理解所公开的实施例。
图1图示了根据一个或多个实施例的在两个独立的计算机系统上部署相同或类似组件的示例性操作环境。
图2是根据一个实施例的用于提供对于系统中的故障的预测的方法的示例性流程图。
图3A和图3B是根据一个或多个实施例的所公开的系统和方法可以进行操作的硬件和软件环境的框图。
根据一个或多个实施例,在不同的附图中用相同的附图标记所指示的特征、元件和方面表示相同、等效或类似的特征、元件或方面。
具体实施方式
在下文中,阐述了很多特定细节以提供对各种实施例的全面描述。可以在没有这些特定细节或在细节上存在一些变化的情况下实践特定实施例。在一些实例中,某些特征不太详细地被描述以不与其他方面相混淆。与元件或特征中的每一个相关联的细节的程度不应当被解释为使一个特征具有优于其他特征的新颖性或重要性。
参考图1,图示了示例性操作环境,其中,在两个独立的计算系统(例如,计算系统110和120)上部署了相同或类似的组件(例如,A1、A2、B1、C1、D2)。如示,每个系统中的组件都例如经由网络130来与共享存储设备140进行通信。组件可以是可操作的硬件或软件组件。在一个示例性情况下,组件A1可以升级为A2。
参考图2,根据一个实施例,关于系统组件和所述组件之间的交互的知识可以用于构建包括关于各种组件和不同组件之间的关系的信息的数据库。当对系统进行测试(例如,作为预先安排的维护的一部分或者由于系统中的故障而导致的)时,维护作为一个整体的系统或者被测试过的一个或多个组件的诊断历史(S210)。
在某些实施例中,在一个或多个系统上执行的测试可能已经在不同的设施处或者当组件被集成到除了当前环境之外的计算环境中时被执行。这样的情况的示例是当组件制造商先前在与当前计算环境(例如,计算系统110)对立的第一计算环境(例如,一个或多个计算系统120)中测试了组件时。在这样的情况下,测试记录可用于指示是否结合第一环境中的某些其他组件来测试所述组件。
诊断历史可以包括关于第一环境或当前环境中的系统的状态以及包括在第一环境或当前环境中的各个组件的信息。此外,还可以记录在执行维护或测试时组件的组合之间的操作间关系。如果在第一环境中执行测试时检测到故障,则诊断历史可以反映该故障的原因、根源(culprit)组件和所涉及的组件之间的关系。如果所检测到的故障或系统问题被解决,则诊断历史还可以反映检测到的问题的解决方案或原因。
参考图1,计算系统120可以处于测试环境中,其中对于网络130中的若干其他组件(例如,B1、C1、D2和共享存储设备140),测试组件A2。各种组件或组件的组合的测试记录可以被收集并且被包括在计算系统120的诊断历史中。诊断历史可以指示组件A2在结合组件B1、C1和D2测试时成功地通过一个或多个测试。诊断历史可以进一步指示当一起测试上述组件的组合时一些问题被观察到。根据实现,诊断历史可以不提或详述关于问题的源或成因。
在图1中,计算系统110表示另一环境,其中组件A1与网络130中的其他组件B1、C1、D2和共享存储设备140进行交互。计算系统110和120可以是相同的、等效的或可交换的服务器机器。组件A1与计算系统110进行交互,并且组件A2与计算系统120进行交互。计算系统120中的测试环境的诊断历史可以包括反映组件A1升级到组件A2时系统性能降级的细节,使得提交到共享存储设备140的存储请求的处理被延迟超过可接受的阈值。
在一些实施例中,诊断历史可以进一步指示,当在安装升级的组件A2之后例如对系统组件(例如,对计算系统120)添加了附加存储器时,存储性能的劣化已经被解决,尽管组件A2的功能性质可能已经被视为与共享存储设备140的操作完整性无关。以类似的方式,其他组件或组件的组合的其他诊断信息可以随着其他问题的出现而进行维护。
参考图1和图2,计算系统110可能经历性能问题,但是没有信息已经可用于指示特定的系统组件发生故障。在这样的情况下,先前已经被测试的一个或多个组件的诊断历史可以用于故障排除的目的。根据实现,诊断历史可以包括针对应用于在先前测试环境(例如,计算系统120)或当前环境(例如,计算系统110)或二者中的组件或组件的组合的测试所收集的信息。
在一个实施例中,为了确定在诊断历史中所记录的信息是否是有帮助的,可以将关于计算系统110中的组件和所述组件之间的相关事件的数据输入到分析工具(未示出),该分析工具可以访问所记录的诊断历史(S220)。另外,所输入的信息可以包括关于计算系统110或其组件的状态信息、关于安装在计算系统110上的组件的类型、种类或版本的细节、或者可以有用于分析工具的任何其他信息。
继续先前提到的示例,假设在计算系统110中,组件A1被更新为组件A2。因此,除了指示组件B1、C1和D2被安装在计算系统110上之外,输入到分析工具的信息将指示组件A1的更新版本(即,组件A2)现在被安装在计算系统110上。这样,基于所输入的信息的分析工具可以能够生成如以下进一步详细提供的用于计算系统110的模型。
根据实现,分析工具可以使用所记录的诊断历史数据来分析模型以确定在当前包括在计算系统110中的组件和计算系统120中的组件之间是否发现匹配。分析工具可以进一步从诊断历史确定哪些组件或组件的组合已经被测试过(S230)。在一个实施例中,可能已经通过分析组件的n方面组合而执行了测试。
返回参考图2,如果分析工具根据诊断历史确定计算系统110中的某些系统组件或组件的组合先前没有被测试,则生成预测(S240)。预测可以是所建议的组件或组件的组合的列表的形式,其中列表指示某些组件或组件的组合已经被测试过、或某些组件或组件的组合还没有被测试或二者。换言之,预测引导技术人员或系统管理员考虑测试更有利于检测与系统相关联的问题的组件的组合。
在上面的示例性实现中,分析工具可能发现先前(例如,当对安装在计算系统120上的组件执行测试时)已经测试了一个或多个组件的组合。这样,分析工具可以生成指示测试的组合的列表,使得技术人员可以确定所述组件的组合很可能已经产生问题,因为他们先前已经被成功地测试过。此外或替代地,分析工具可以生成排除了测试过的组合的新的组合的列表,而替代地向技术人员建议集中测试一系列未测试的组合。
在一些实施例中,诊断历史还可以指示升级的组件A2在结合计算系统120中的一个或多个组件进行测试时是在共享存储设备140和组件A2交互时所检测到的问题的源。生成的预测可以提供这样的指示,例如在计算110和升级的组件A2之间的交互是可疑的并且其应该被测试。
此外,可以提供关于可能需要采取的动作过程的建议(例如,分析工具可以建议升级计算系统110上的存储器,因为相同的动作在应用于计算系统120时纠正了类似的问题)。如果诊断历史被很好地开发,则该分析工具可以建议不同的解决方案,或者进一步指示附加的组件或组件的组合可能是可疑的,并且因此可能需要进行测试。根据实现,所生成的列表可以按逻辑顺序进行排序,使得某些建议(例如,组件的组合)在列表中被更突出或不太突出地列出。
分析工具可以被配置用于识别进行测试的系统中的特定组件与诊断历史中先前测试的组件等效、可交换或类似。例如,参考图1中的计算系统110,假设A1还没有被升级为A2。在这样的情况下,分析工具可以确定A1与A2是可以交换的、等效或类似的。如果诊断历史指示先前在计算系统120中测试了例如包括{A2,B1}、{A2,C1}、{A2,D2}、{D2,C1}和{B1,C1}的组件的组合,则分析工具在尝试检测计算系统110中的问题时可以排除或降低以下测试组合的排序:{A1,B1}、{A1,C1}、{A1,D2}。
此外,如果诊断历史建议先前已经成功测试了A2或C1与其他组件的大多数组合,则分析工具可以建议将测试引导到B1或D2与其他组件的组合。在一个实施例中,如诊断历史中所反映的具有适当功能的历史的组件或组件组合,或者可以被认为与所述组件可交换的组件,可以被跳过或不太突出地列出,使得更多的有问题的组件或组合被首先考虑。遵从同样的逻辑,可以以更突出的位置、颜色或式样来列出具有有问题的历史的组件或组合,使得那些被更早地考虑、认出或测试。
这样,对于存在其诊断历史的组件或组件的组合,技术人员可以使用相关的历史来确定需要执行哪些测试或调查以便解决与该系统相关联的问题。对于有问题的或没有诊断历史的组件或组件的组合,那么技术人员可能首先花费时间来对那些组件进行测试或调查。如前所述,技术人员也将能够使用诊断历史来测试与过去已经发现有问题的组件或组合处于相同类别的类似的组件或组合。
在一个实施例中,在本地站点或隔离的系统处所收集到的诊断历史可以与从可以具有相同或相似架构或组件交互的其他站点所收集的诊断历史合并。合并的数据可以用于创建例如包括集合诊断历史的统一的(例如,全局)数据库,当例如发现了新的问题、新的修复、新的预测或系统组件之间的新的关联和相互操作时,该集合诊断历史基于由参与的系统所提供的反馈而继续增长。
该数据库还可被挖掘以在符合保密条款和标准的同时向服务提供商或客户提供简档。简档可以出于多种原因来使用,诸如提供对于客户可能实用或有利的新的服务或产品,或者发送关于相关的修复或系统升级的更新。简档信息还可以出于提供其他有价值的服务的目的来利用,例如定向自动更新、促销产品等。
系统集成商对于使用诸如上述的诊断工具或服务是感兴趣的,因为它减少了处理难以检测系统级问题的平均成本。组件供应商对于提供上述服务也是感兴趣的,因为该服务使得产品对于系统集成商而言更有吸引力。此外,供应商通过提供所提出的服务可以使用收集的诊断历史来获悉客户配置和测试套件。关于客户配置的知识对于营销和策划也是有价值的。
在一个实施例中,收集的信息可以用于确定如何开发或调整客户配置或测试模型以更好地满足客户的需要。在一个实施例中,可以根据服务订阅或协议来向客户提供上述诊断工具或服务,其中客户的系统配置和可选地与客户系统相关联的问题的类型通过网络传送给服务提供商,并且反过来,服务提供商通过建议如何最好地测试或诊断客户的系统来进行响应。
在本说明书中对“实施例”、“一个实施例”、“一个或多个实施例”等的引用意味着所描述的特定元件、特征、结构或特性被包括在所公开的主题的至少一个实施例中。在本说明书中这样的短语的出现不应当被具体地理解为指同一实施例,也不应当将这样的短语解释为指关于所讨论的特征或元素互相排斥的实施例。
在不同的实施例中,要求保护的主题可以被实现为硬件和软件元件的组合,或者替代地完全以硬件的形式或完全以软件的形式实现。此外,这里公开的计算系统和程序软件可以包括在硬件组件或逻辑代码方面存在的受控的计算环境,其中逻辑代码被执行以实现这里考虑的结果的方法和过程。所述的方法和过程在由通用计算系统或机器执行时,将通用机器转换为专用机器。
参考图3A和图3B,根据示例性实施例的计算系统环境可以由硬件环境1110和软件环境1120组成。硬件环境1110可以包括提供用于软件环境1120的组件的执行环境的逻辑单元、电路或其他机械和设备。进而,软件环境1120可以提供用于硬件环境1110的各种组件的执行指令,包括底层操作设置和配置。
参考图3A,这里公开的应用软件和逻辑代码可以以通过由示例性硬件环境1110表示的一个或多个计算系统执行的机器可读代码的形式来实现。如图示,硬件环境110可以包括通过系统总线110耦合到一个或多个存储元件的处理器1101。存储元件例如可以包括本地存储器1102、存储介质1106、高速缓存存储器1104或其他机器可用或计算机可读介质。在本公开的上下文中,机器可用或计算机可读存储介质可以包括可以用于包含、存储、传送、传播或传输程序代码的任何可记录物体。
计算机可读存储介质可以是电子、磁、光、电磁、红外或半导体介质、系统、装置或设备。计算机可读存储介质还可以以传播介质实现,在没有限制的情况下,直到这种实现被认为是法定主题的程度上。计算机可读存储介质的示例可以适当地包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘、光盘或者载波。光盘的当前示例包括压缩盘、只读存储器(CD-ROM)、压缩盘读/写(CD-R/W)、数字视频光盘(DVD)、高清视频光盘(HD-DVD)或蓝光TM(Blue-rayTM)盘。
在一个实施例中,处理器1101将可执行代码从存储介质1106加载到本地存储器1102。高速缓存存储器1104通过提供有助于减少代码被加载用于执行的次数的临时存储来优化处理时间。一个或多个用户接口设备1105(例如,键盘、指示设备等)和显示屏幕1107可以在硬件环境1110中直接或通过例如中间I/O控制器1103来耦合到其他元件。诸如网络适配器的通信接口单元1108可以被提供为使得硬件环境1110能够经由中间专用或公共网络(例如,因特网)来与本地或远程定位的计算系统、打印机和存储设备进行通信。有线或无线调制解调器和以太网卡是网络适配器的一些示例性类型。
值得注意的是,在某些实现中,硬件环境1110可能不包括一些或所有的上述组件,或者可以包括其他组件以提供补充的功能或使用。根据预期用途和配置,硬件环境1110可以是诸如台式计算机或膝上型计算的机器或可选地在嵌入式系统中实现的其他计算设备,诸如机顶盒、个人数字助理(PDA)、个人媒体播放器、移动通信单元(例如,无线电话)或者具有信息处理或数据存储能力的其他类似的硬件平台。
在一些实施例中,通信接口1108用作数据通信端口以提供通过发送和接收承载表示包括程序代码的各种类型的信息的模拟或数字数据流的数字信号、电信号、电磁信号或光信号来与一个或多个计算系统进行通信的装置。该通信可以通过本地或远程网络或者替代地通过空中传输或其他介质来建立,包括但不限于通过载波的传播。
如这里提供的,根据本质上示例性的逻辑或功能关系来定义在图示的硬件元件上执行的所公开的软件元素。然而,应当注意,通过所述示例性软件元素实现的各个方法还可以通过例如配置和编程的处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)和数字信号处理器(DSP)来在所述硬件元件中被编码。
参考图3B,软件环境1120通常可以被划分为两类,包括在一个或多个硬件环境1110上执行的系统软件1121和应用软件1122。在一个实施例中,所公开的方法和过程可以被实现为系统软件1121、应用软件1122或其组合。系统软件1121可以包括控制程序,诸如操作系统(OS)或信息管理系统,其向硬件环境1110中的一个或多个处理器1101(例如,微控制器)指示如何运行和处理信息。应用软件1122可以包括但不限于处理器1101可以读取、分析或执行的程序代码、数据结构、固件、驻留软件、微代码或任何其他形式的信息或例程。
换言之,应用软件1122可以以机器可用或计算机可读存储介质的形式来被实现为嵌入在计算机程序产品中的程序代码,其中存储介质提供用于由机器、计算机或任何指令执行系统或与其结合使用的程序代码。此外,应用软件1122可以包括在从存储介质1106加载到本地存储器1102之后在系统软件1121上执行的一个或多个计算机程序。在客户端-服务器架构中,应用软件1122可以包括客户端软件和服务器软件。例如,在一个实施例中,客户端软件可以在客户端计算系统上执行,该系统与执行服务器软件的服务器计算系统是不同并且分立的。
软件环境1120还可以包括浏览器软件1126,用于访问可通过本地或远程计算网络提供的数据。此外,软件环境1120可以包括用户接口1124(例如,图形用户界面(GUI))以用于接收用户命令和数据。值得重申的是,上述硬件和软件架构以及环境是出于示例的目的。这样,一个或多个实施例可以通过任何类型的系统架构、功能或逻辑平台或处理环境来实现。
还应当理解,逻辑代码、程序、模块,过程、方法以及执行每个方法的各个过程的顺序仅仅是示例性的。根据实现,过程或任何基本的子过程和方法可以以任何顺序或同时执行,除非在本公开中另有说明。此外,除非另外具体说明,本公开内容的上下文内的逻辑代码的定义不涉及或不限于任何具体的编程语言,并且可以包括可以在分布式、非分布式、单处理或多处理环境中的一个或多个处理器上执行的一个或多个模块。
所属技术领域的技术人员知道,软件实施方式可以包括固件、驻留软件、微代码等,某些部件包括软件或硬件或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。
在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。
程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据实施例的方法、装置(系统)和计算机程序产品的流程图或框图揭示某些实施例。应当理解,流程图或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用机械装置或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读存储介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读存储介质中的指令就产生出包括实现流程图或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
计算机程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得一系列操作步骤在计算机、其他可编程装置或其他设备上执行以产生计算机或机器实现的过程,使得在计算机或其他计算机可编程装置上执行的指令提供用于实现在流程图或一个或多个框图的框中所规定的功能或动作的过程。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以任何顺序或不同于附图中所标注的顺序发生。
例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
这里已经参考一个或多个特征或实施例提供了要求保护的主题。本领域的技术人员将认识和理解,尽管这里提供了示例性实施例的具体特征,但是在不限制或背离通常期望的范围的情况下,改变和修改可以应用于所述实施例。这里提供的实施例的这些和各种其他改写和组合在如权利要求所限定的公开的主题及其全部等效集合的范围内。

Claims (12)

1.一种在一个或多个处理器上执行的、用于检测系统中的故障的方法,所述方法包括:
维护一个或多个系统组件的诊断历史;
接收关于操作状态和系统组件之间的关系交互的系统信息;
响应于执行对所述诊断历史的分析来确定是否要检查一个或多个系统组件,其中,所述分析被执行以确定所述诊断历史是否包括能够指示怀疑特定系统组件或组件的组合产生在所述系统中所检测到的问题的任何信息,
其中,当所述一个或多个组件被安装在除了检测到所述问题的系统之外的另一系统中时,基于在所述一个或多个组件上执行的至少一个检查来维护所述诊断历史。
2.根据权利要求1所述的方法,其中,所述诊断历史包括关于在第一系统中存在的组件的组合的成功测试历史的信息,并且所述诊断历史被分析以确定要对在第二系统中的组件的组合执行的检查,所述第二系统具有与在所述第一系统中的一个或多个组件相同的一个或多个组件。
3.根据权利要求1所述的方法,其中,所述诊断历史包括关于在第一系统中存在的组件的组合的成功测试历史的信息,并且所述诊断历史被分析以确定要对在第二系统中的组件的组合执行的检查,所述第二系统具有与在所述第一系统中的一个或多个组件类似的一个或多个组件。
4.根据权利要求1所述的方法,其中,所述诊断历史包括关于在第一系统中存在的组件的组合的成功测试历史的信息,并且所述诊断历史被分析以确定要对在第二系统中的组件的组合执行的检查,所述第二系统具有与在所述第一系统中的一个或多个组件能够交换的一个或多个组件。
5.根据权利要求1所述的方法,进一步包括生成怀疑的一个或多个系统组件或组件的组合的列表。
6.根据权利要求5所述的方法,其中,在所述列表中更突出地显示认为更被怀疑产生所检测到的问题的所述系统组件或组件的组合。
7.根据权利要求6所述的方法,其中,如果所述诊断历史揭示系统组件在被安装在所述另一系统中时没有被检查,则认为所述系统组件更被怀疑。
8.根据权利要求6所述的方法,其中,如果所述诊断历史揭示系统组件的组合在被安装在所述另一系统中时没有被一起测试,则认为所述系统组件的组合更被怀疑。
9.根据权利要求1所述的方法,其中,所述另一系统包括供应商的位置处的测试系统,其中,所述供应商制造、分发或以其他方式知道所述一个或多个系统组件彼此组合的适当功能。
10.根据权利要求1所述的方法,其中,所述诊断历史包括信息的汇集,所述信息的汇集指示所述系统中的组件的组合在多个其他系统中是否一起被成功地测试。
11.一种系统,所述系统包括用于执行根据任何一项前述方法权利要求所述的方法的所有步骤的装置。
12.一种包括指令的计算机程序,当所述计算机程序在计算机系统上执行时,所述指令执行根据任何一项前述方法权利要求所述的方法的所有步骤。
CN201280051674.3A 2011-10-31 2012-10-04 用于检测系统中的故障的方法和系统 Active CN103907093B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/285,011 2011-10-31
US13/285,011 US8756459B2 (en) 2011-10-31 2011-10-31 Fault detection based on diagnostic history
PCT/IB2012/055326 WO2013064926A1 (en) 2011-10-31 2012-10-04 Fault detection based on diagnostic history

Publications (2)

Publication Number Publication Date
CN103907093A true CN103907093A (zh) 2014-07-02
CN103907093B CN103907093B (zh) 2017-02-22

Family

ID=48173710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280051674.3A Active CN103907093B (zh) 2011-10-31 2012-10-04 用于检测系统中的故障的方法和系统

Country Status (6)

Country Link
US (1) US8756459B2 (zh)
JP (1) JP2014532913A (zh)
CN (1) CN103907093B (zh)
DE (1) DE112012003670T5 (zh)
GB (1) GB2509880B (zh)
WO (1) WO2013064926A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866310A (zh) * 2018-08-14 2020-03-06 波音公司 装配过程的自动监督和检查
CN110874832A (zh) * 2018-08-14 2020-03-10 波音公司 装配过程的自动监督和检查
CN111052071A (zh) * 2017-09-01 2020-04-21 株式会社日立制作所 软件引入系统、软件引入方法及软件引入程序
CN111164443A (zh) * 2017-08-11 2020-05-15 开利公司 接地故障定位

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9645954B2 (en) * 2014-06-05 2017-05-09 Lenovo (Singapore) Pte. Ltd. Embedded microcontroller and buses
CN106534373B (zh) * 2016-12-27 2020-01-03 苏州浪潮智能科技有限公司 San存储设备的io性能测试方法及装置
CN109995547B (zh) * 2017-12-29 2022-04-29 中国移动通信集团甘肃有限公司 一种故障诊断方法及设备
JP7239412B2 (ja) * 2019-07-17 2023-03-14 株式会社日立製作所 セキュリティ運用支援システムおよびその方法
DE102020202897A1 (de) 2020-03-06 2021-09-09 Siemens Mobility GmbH Verfahren zur Überprüfung eines Istzustands elektronischer Komponenten
US11921622B2 (en) * 2021-06-08 2024-03-05 Microsoft Technology Licensing, Llc Generating fault conditions using a fault-enabled software development kit

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6484128B1 (en) * 1999-06-11 2002-11-19 Fujitsu Limited Data processing system with configuration management capability based on compatibilities among hardware modules
CN1722102A (zh) * 2004-02-19 2006-01-18 微软公司 根据其他计算机系统的配置来排除计算机系统错误配置的方法和系统
US20110087924A1 (en) * 2009-10-14 2011-04-14 Microsoft Corporation Diagnosing Abnormalities Without Application-Specific Knowledge

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409318B2 (en) * 2000-02-14 2008-08-05 Nextnine Ltd. Support network
US6944759B1 (en) * 2000-09-29 2005-09-13 Hewlett-Packard Development Company, L.P. Automatic system configuration management
US6826754B1 (en) 2000-09-29 2004-11-30 International Business Machines Corporation Method for eliminating or reducing hang conditions in computer systems
US6826683B1 (en) * 2000-10-23 2004-11-30 Hewlett-Packard Development Company, L.P. Predicting the health of a computer system by determining a set of modifications involved in a proposed intervention to an existing system
US7000150B1 (en) 2002-06-12 2006-02-14 Microsoft Corporation Platform for computer process monitoring
US7269768B2 (en) 2004-03-18 2007-09-11 Intel Corporation Method and system to provide debugging of a computer system from firmware
US7203881B1 (en) * 2004-06-29 2007-04-10 Sun Microsystems, Inc. System and method for simulating system operation
US7120559B1 (en) * 2004-06-29 2006-10-10 Sun Microsystems, Inc. System and method for performing automated system management
US7614046B2 (en) * 2004-11-24 2009-11-03 Microsoft Corporation Method and system for analyzing the impact of a software update
US7624377B2 (en) * 2005-01-04 2009-11-24 Sap Ag Methods relating to configuration of software
US20080016385A1 (en) * 2006-07-13 2008-01-17 Hollingsworth Robert E Plain Language Announcement of Diagnostic and Troubleshooting Information for Users
US20080168311A1 (en) 2007-01-08 2008-07-10 Microsoft Corporation Configuration debugging comparison
US20080183852A1 (en) * 2007-01-26 2008-07-31 Pramer David M Virtual information technology assistant
US8069371B2 (en) 2007-04-26 2011-11-29 Hewlett-Packard Development Company, L.P. Method and system for remotely debugging a hung or crashed computing system
JP2011108201A (ja) * 2009-11-20 2011-06-02 Fujitsu Ltd 情報処理装置、診断方法および診断プログラム
US8108724B2 (en) * 2009-12-17 2012-01-31 Hewlett-Packard Development Company, L.P. Field replaceable unit failure determination
US8140905B2 (en) * 2010-02-05 2012-03-20 International Business Machines Corporation Incremental problem determination and resolution in cloud environments

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6484128B1 (en) * 1999-06-11 2002-11-19 Fujitsu Limited Data processing system with configuration management capability based on compatibilities among hardware modules
CN1722102A (zh) * 2004-02-19 2006-01-18 微软公司 根据其他计算机系统的配置来排除计算机系统错误配置的方法和系统
US20110087924A1 (en) * 2009-10-14 2011-04-14 Microsoft Corporation Diagnosing Abnormalities Without Application-Specific Knowledge

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111164443A (zh) * 2017-08-11 2020-05-15 开利公司 接地故障定位
CN111052071A (zh) * 2017-09-01 2020-04-21 株式会社日立制作所 软件引入系统、软件引入方法及软件引入程序
CN111052071B (zh) * 2017-09-01 2023-08-01 株式会社日立制作所 软件引入系统、软件引入方法及存储介质
CN110866310A (zh) * 2018-08-14 2020-03-06 波音公司 装配过程的自动监督和检查
CN110874832A (zh) * 2018-08-14 2020-03-10 波音公司 装配过程的自动监督和检查
CN110866310B (zh) * 2018-08-14 2024-02-09 波音公司 装配过程的自动监督和检查

Also Published As

Publication number Publication date
JP2014532913A (ja) 2014-12-08
DE112012003670T5 (de) 2014-07-03
GB2509880B (en) 2015-04-29
WO2013064926A1 (en) 2013-05-10
GB2509880A (en) 2014-07-16
GB201408500D0 (en) 2014-06-25
US20130111272A1 (en) 2013-05-02
CN103907093B (zh) 2017-02-22
US8756459B2 (en) 2014-06-17

Similar Documents

Publication Publication Date Title
CN103907093A (zh) 基于诊断历史的故障检测
CN103038752B (zh) 一种用于管理软件问题报告的方法、系统和设备
AU2019201687B2 (en) Network device vulnerability prediction
US8719784B2 (en) Assigning runtime artifacts to software components
US10713224B2 (en) Implementing a continuity plan generated using solution data modeling based on predicted future event simulation testing
CN103778044A (zh) 用于系统故障诊断和修复的方法和装置
CN103890771A (zh) 用户定义的对抗措施
KR20180108446A (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
CN110704873B (zh) 一种防止敏感数据泄漏的方法及系统
CN102782736A (zh) 警报综合系统和方法
CN104133829A (zh) 监控业务运行数据入库的方法和相关设备及系统
Di et al. Exploring properties and correlations of fatal events in a large-scale hpc system
JP2020166829A (ja) 互換性のあるコンポーネントの非同期選択のシステムおよび方法
JP6419667B2 (ja) テストdbデータ生成方法及び装置
CN102859505A (zh) 管理系统以及计算机系统的管理方法
CN114398465A (zh) 互联网服务平台的异常处理方法、装置和计算机设备
CN113626825A (zh) 一种安全漏洞管控方法、装置、设备及计算机可读介质
Romero et al. Integration of DevOps practices on a noise monitor system with CircleCI and Terraform
CN112817827A (zh) 运维方法、装置、服务器、设备、系统及介质
JP6517677B2 (ja) 統合運用監視システム及び運用操作ログの関連度計算方法
JP2020109636A (ja) 互換性のあるモジュールを特定するシステムおよび方法
Antonello et al. A novel metric to evaluate the association rules for identification of functional dependencies in complex technical infrastructures
Kuang et al. Knowledge-aware Alert Aggregation in Large-scale Cloud Systems: a Hybrid Approach
CN112579402A (zh) 一种应用系统故障定位的方法和装置
Harutyunyan et al. Intelligent troubleshooting in data centers with mining evidence of performance problems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant