CN104731664A - 用于故障处理的方法和装置 - Google Patents

用于故障处理的方法和装置 Download PDF

Info

Publication number
CN104731664A
CN104731664A CN201310724705.3A CN201310724705A CN104731664A CN 104731664 A CN104731664 A CN 104731664A CN 201310724705 A CN201310724705 A CN 201310724705A CN 104731664 A CN104731664 A CN 104731664A
Authority
CN
China
Prior art keywords
target product
product
failure prediction
prediction model
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310724705.3A
Other languages
English (en)
Inventor
陈凯
陶隽
陈波
陈平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC Corp filed Critical EMC Corp
Priority to CN201310724705.3A priority Critical patent/CN104731664A/zh
Priority to US14/568,738 priority patent/US20150178634A1/en
Publication of CN104731664A publication Critical patent/CN104731664A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明的实施例涉及用于故障处理的方法和装置。公开了一种用于目标产品的故障处理的方法,所述方法包括:至少部分地基于所述目标产品所应用的领域而建立针对所述目标产品的故障预测模型,所述故障预测模型指示与所述目标产品的至少一个性能相关联的阈值;以及基于针对所述目标产品的所述故障预测模型,自动地预测与目标产品相关联的潜在故障。还公开了相应的系统和计算机程序产品。

Description

用于故障处理的方法和装置
技术领域
本发明总体上涉及计算机领域,更具体地,涉及用于故障处理的方法和装置。
背景技术
在设备、系统和/或软件产品被部署和投入使用之后,支持和维护是一个重要的问题。在目前的支持模型中,客户通常是在其设备或软件程序产品发生故障或问题之后联系技术支持人员。换言之,支持模型的基础是故障发生之后的修复。这种模型可能影响客户的业务,并且造成不良的后果或者体验。如果能够在问题发生之前预测故障甚至自动地修复,则能够明显提高用户体验和维护效果。
已经提出了一些故障的预测方案。例如,可以通过检测硬件设备和/或软件程序的运行状态来预测故障。例如,可以检测中央处理单元(CPU)负载、磁盘输入/输出(I/O)异常等来预测是否可能发生故障。然而,对于不同的客户、使用场景、领域等,故障的表现形式可能具有很大的差异。例如,尽管可以通过判断CPU使用率是否超过预定阈值来判断系统是否处于故障状态,但是很难设置此类阈值的适当值。因为不同的客户、领域、应用场景往往具有截然不同的故障状态的定义。
因此,本领域中需要一种更为有效的故障处理的技术方案。
发明内容
为了解决上述问题,本发明提出一种用于故障处理的方法和装置。
在本发明的一个方面,提供一种用于目标产品的故障处理的方法。所述方法包括:至少部分地基于所述目标产品所应用的领域而建立针对所述目标产品的故障预测模型,所述故障预测模型指示与所述目标产品的至少一个性能相关联的阈值;以及基于针对所述目标产品的所述故障预测模型,自动地预测与目标产品相关联的潜在故障。
在本发明的另一方面,提供一种用于目标产品的故障处理的装置,所述装置包括:故障建模单元,被配置为至少部分地基于所述目标产品所应用的领域而建立针对所述目标产品的故障预测模型,所述故障预测模型指示与所述目标产品的至少一个性能相关联的阈值;以及故障预测单元,被配置为基于针对所述目标产品的所述故障预测模型,自动地预测与目标产品相关联的潜在故障。
通过下文描述将会理解,根据本发明的实施例,可以首先通过应用领域对目标产品进行分类。而后对于每类不同的目标产品,应用机器学习等方法以找到同类产品中发生故障时在产品性能方面的规律。通过应用这种基于领域的故障预测模型,能够更加准确和及时地预测出目标产品的潜在故障。以此方式,可以对预测出的故障进行事先的预防或者修复。而且,自动修复的结果可以被反馈到故障预测模型中,以便自适应地更新故障预测模型。本发明的实施例所能实现的其他益处将通过下文描述而清楚。
附图说明
通过参考附图阅读下文的详细描述,本发明实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例而非限制性的方式示出了本发明的若干实施例,其中:
图1示出了根据本发明的一个示例实施例的用于故障处理的方法的流程图;
图2示出了根据本发明的另一示例实施例的用于故障处理的方法的流程图;
图3示出了根据本发明的一个示例实施例的用于故障处理的装置的框图;以及
图4示出了适于实现本发明的示例实施例的计算机系统的框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解,描述这些实施例只是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
本发明的主要思路是:首先通过应用领域对目标产品进行分类。而后对于每类不同的目标产品,应用机器学习等方法以找到同类产品中发生故障时在产品性能方面的规律。通过应用这种基于领域的故障预测模型,能够更加准确和及时地预测出目标产品的潜在故障。以此方式,可以对预测出的故障进行事先的预防或者修复。而且,自动修复的结果可以被反馈到故障预测模型中,以便自适应地更新故障预测模型。
下面参考图1,其示出了根据本发明示例性实施例的用于目标产品的故障处理的方法100的流程图。方法100开始之后,在步骤S101,至少部分地基于目标产品所应用的领域,建立针对该目标产品的故障预测模型。请注意,在此使用的术语“目标产品”可以指设备、装置、系统等物理产品,也可以指计算机程序产品或应用。
根据本发明的实施例,一个目标产品所应用的领域可以通过多种方式获取。例如,在某些实施例中,该领域可以从销售团队和/或支持团队所维护的信息中获取。备选地,领域信息也可以由产品的生产方、提供方和/或销售方提供。又如,应用领域信息还可能从产品的手册等相关材料中获得。本发明的范围在此方面不受限制。
根据本发明的某些实施例,对目标产品的基于应用领域的分类可以由人工完成。备选地,也可以基于聚类等机器分类算法对目标产品进行自动地分类,这方面的实施例将在下文详细描述。
在对产品进行分类之后,可以基于分类的结果建立故障预测模型。具体而言,假设目标产品在分类之后被归入到了某个特定的产品分组中。此时,可以基于同一分组中的其他产品的先前的故障信息,来建立针对该目标产品的故障预测模型。在本发明的上下文中,故障预测模型用以指示目标产品的至少一个性能的阈值。这里所说的性能可以包括但不限于CPU负载、存储器使用率、网络状况、I/O状况,等等。当目标产品的性能的实际测量值超过或者低于该阈值时,则认为潜在地可能发生故障。作为示例,根据本发明的实施例,如果发现同一分组中的同类产品在发生故障之前的预定时段内,CPU的负载基本上都超过90%,则可以将目标产品的“CPU负载”这一性能指标的阈值设置为90%。
根据本发明的实施例,对于任何给定的性能,可以将同一分组内的产品在发生故障之前的该性能的值进行平均(例如,算数平均、加权平均,等等)。得到的平均值可以被用作与目标产品的该性能相关联的阈值。备选地,也可以对同一分组中的同类产品应用机器学习算法,从而建立更加精确的故障预测模型。例如,根据本发明的实施例,可以应用各种机器学习算法来挖掘特定类别的产品的给定性能在发生故障之前的预定时段内的规律。这样的机器学习算法包括但不限于主成分分析(PCA)、独立成分分析(ICA)、典型相关分析(CCA)、概率潜在成分分析(PLCA),等等。这方面的具体实施例将在下文详述。
接下来,方法100进行到步骤S102,在此基于针对目标产品的所述故障预测模型,自动地预测与目标产品相关联的潜在故障。在实现中,可以实时地或者定期地监测目标产品的一个或多个性能,例如CPU负载、I/O异常、存储器使用率,等等。监测到的性能测量值可以与故障预测模型所指示的相应性能阈值进行比较。一旦确定一个或多个性能的测量值超出或者低于对应的阈值,则可以预测在目标产品中可能将要发生故障。而且,可以理解,根据同一分组中产品的故障的历史信息,可以确定可能将要发生的故障的类型。
以此方式,可以在故障发生之前就对潜在的故障完成预判。特别地,由于目标产品的故障预测模型是特定于目标产品的领域而建立的,因此可以更加准确地做出故障预测。这是因为,在相同或者类似的应用领域和场景中,在发生相似的异常或异常之前,相同的性能总是倾向于具有较高的相似性。
下面参考图2,其示出了根据本发明的示例性实施例的用于目标产品的故障处理的方法200的流程图。将会理解,方法200可被视为上文参考图1描述的方法100的一个特定实现。
在步骤S201,收集与目标产品的性能、先前故障等方面有关的数据。根据本发明的实施例,与目标产品相关联的日志可以是数据收集的来源之一。特别地,根据本发明的实施例,关于产品先前发生的故障和有关性能的数据可以通过日志(log)获得。如已知的,在一个产品被部署和投入使用之后,往往维护有与该产品相关联的日志,在日志中通常至少记录有该产品的历史故障信息。历史故障信息例如包括先前发生过的故障的类型、发生时间、故障发生时各项性能的测量值,等等。例如,很多投入运行的产品和软件会保持运行日志,并且每隔一段时间(例如,一天)将日志传送给后台的数据中心。由此,可以从日志中抽取相关的数据。当然,本发明的实施例并非一定要依赖于日志。备选地,可以由用户人工输入有关的故障和性能信息。本发明的范围在此方面不受限制。
接下来,在步骤S202,对收集的数据进行规则化。根据本发明的实施例,可以将收集的以各种不同格式表示的数据规则化为格式化的数据。例如,可以将数据解析到任何指定类型的数据库中。这有助于对数据的后续机器解析。
在步骤S203,对数据进行过滤。在收集的原始数据中,可能包括很多属性,但是这样的原始数据未必能够直接被用于故障预测。例如,收集的原始数据可能包括磁盘的版本号,其对于故障预测可能是无用的。又如,磁盘速度(IOPS)可以表征磁盘的速度能力,但是该信息可能不足以描述磁盘的I/O吞吐量的趋势。为此,在某些实施例中,可以对原始数据执行统计计算。备选地或附加地,可以增加新的数据属性。例如,可以获取CPU、存储、I/O等测量值的最大值、最小值和/或平均值,等等。还可以获取属性值的趋势,例如增长率、下降率,等等。这样,能够获得更加适当的属性来描述目标产品的状态和属性。
另外,还可以移除数据中包含的冗余数据和/或易错数据,从而避免预测结果的不准确。为了去除数据中的噪声,可以对数据利用各种适当的滤波器,例如高斯滤波器,等等。而且,对于连续的、数值无限的数据,可以对这些连续属性进行离散化。
在步骤S204,基于目标产品所应用的领域,将目标产品分类到相应的产品分组中。如上所述,在某些实施例中,销售团队和/或支持团队维护有关于产品的客户的信息,包括客户背景信息、公司信息、业务领域、使用场景,等等。可以基于这些信息对产品进行分类。具体而言,在某些实施例中,针对包括目标产品在内的多个产品,可以基于它们的应用领域和使用场景进行聚类。所得到的类(cluster)被用作产品分组(group)。这里,任何目前已知的或者将来开发的聚类方法均可使用,例如可以使用诸如划分聚类、层级聚类、密度聚类、网格聚类、基于模型的聚类,等等。
接下来,在步骤S205,基于产品分组来确定与所述目标产品的至少一个性能相关联的阈值,从而生成所述故障预测模型。如上所述,对于同一分组中的产品,可以基于步骤S201-S203获取和处理的数据,来统计这些产品先前在发生故障时的性能状态。例如,对于任何给定的性能,可以确定同一分组中的产品在特定类型的故障发生前的特定时段内,该性能的测量值,从而找到规律。作为一个简单易行的示例,在某些实施例中,可以计算在特定类型的故障发生前的特定时段中的、同一分组中产品的给定性能的测量值的平均值(例如,算数平均、加权平均值,等等)。所得到的平均值可被用作目标产品的性能相对于此类故障的阈值。
备选地或附加地,如上所述,也可以针对给定类型的性能和故障,对同一产品分组中的产品的性能的先前测量值执行机器学习分析。由此,可以建立更加准确的故障预测模型。例如,在某些实施例中,对于同一分组中的产品,可以针对故障发生之时或者发生之前的特定时段内的性能的先前测量值应用统计分析,从而建立基于统计的模型。作为一个示例,可以应用PCA分析,以确定在故障发生之时或者之前的性能的主导性表象。本发明的范围在此方面不受限制。
接下来,方法200进行到步骤S206。在步骤S206,如果预测到了潜在的故障,则作为响应,可以对该潜在故障执行自动修复。根据本发明的实施例,对故障的修复可能需要参考专用的库,此类库中存储有关于各类故障以及修复故障所需执行的动作的知识。备选地或附加地,响应于预测到潜在故障,可以向人类用户(例如,有关技术人员)发出提示或警示,以使用户能够及时地进行故障的排查和处置。
继而,在步骤S207处,至少部分地基于这种自动修复的结果,更新针对目标产品的故障预测模型。具体而言,在某些实施例中,运行于目标产品处的负责性能监测和故障预测的装置或应用可以将对故障的预测、对潜在故障的自动修复的结果和/或人类用户的操作的有关信息,传送回建立和维护故障预测模型的一方,例如后台数据中心。基于这些反馈信息,后台数据中心可以模型进行更新。
例如,在某些实施例中,可以基于反馈信息来调节聚类、机器学习等过程的参数,从而改变与目标产品相关联的一个或多个性能的阈值。备选地或附加地,也可以根据反馈信息,直接调节性能参数。另外,还可以根据反馈信息向故障预测模型中增加针对特定类型故障的新的待监测性能。例如,在先前的故障预测模型中可能没有将I/O状态纳入考虑,但是如果根据自动修复的结果和/或人类用户的反馈确定需要考虑I/O状态,则可以获取有关的数据并且对该数据执行适当的分析,如上文所述。同样,也可以从故障预测模型中删除已有的监测性能。通过利用预测和/或修复的结果来更新已有的故障预测模型,形成了预测和控制的闭环,有助于在实际使用中不断地改善预测的精度和自动修复的效果。
图3示出了根据本发明的一个示例实施例的用于目标产品的故障处理的装置300的框图。如图3所述,根据本发明的实施例,装置300包括:故障建模单元301,被配置为至少部分地基于所述目标产品所应用的领域而建立针对所述目标产品的故障预测模型,所述故障预测模型指示与所述目标产品的至少一个性能相关联的阈值;以及故障预测单元302,被配置为基于针对所述目标产品的所述故障预测模型,自动地预测与目标产品相关联的潜在故障。
在本发明的某些实施例中,故障建模单元301可以包括:产品分类单元,被配置为基于所述领域将所述目标产品分类到相应的产品分组中。在本发明的某些实施例中,所述故障建模单元301可被配置为基于所述产品分组来确定与所述目标产品的至少一个性能相关联的所述阈值,以生成所述故障预测模型。在本发明的某些实施例中,与所述目标产品的至少一个性能相关联的所述阈值基于与所述产品分组中的产品相关的日志而确定。在本发明的某些实施例中,装置300还可以包括以下至少一个:数据规则化单元303,被配置为对来自所述日志的数据进行规则化;以及数据过滤单元304,被配置为对来自所述日志的所述数据进行过滤。在本发明的某些实施例中,与所述目标产品的至少一个性能相关联的所述阈值通过对所述产品分组中的产品的所述至少一个性能的先前测量值应用机器学习而确定。
在本发明的某些实施例中,装置300还可以包括故障修复单元305,被配置为响应于预测到所述潜在故障,对所述潜在故障执行自动修复。在本发明的某些实施例中,装置300还可以包括模型更新单元306,被配置为至少部分地基于所述自动修复的结果,更新针对所述目标产品的所述故障预测模型。
特别地,如上所述,所述目标产品是设备或者应用。
为清晰起见,在图3中没有示出装置300的某些可选部件。然而,应当理解,上文参考图1-图2所描述的各个特征同样适用于装置300。而且,装置300中的各部件可以是硬件模块,也可以是软件单元模块。例如,在某些实施例中,装置300可以部分或者全部利用软件和/或固件来实现,例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地,装置300可以部分或者全部基于硬件来实现,例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围在此方面不受限制。
下面参考图4,其示出了适于用来实现本发明实施例的计算机系统400的示意性框图。如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM403中,还存储有设备400操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本发明的实施例,上文参考图1-图2描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行方法100和/或200的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。
一般而言,本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序代码的操作生成的操作,和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如,本发明的实施例包括计算机程序产品,该计算机程序产品包括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被配置为实现上文描述方法的程序代码。
在公开的上下文内,机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备,或其任意合适的组合。
用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器,使得程序代码在被计算机或其他可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。
另外,尽管操作以特定顺序被描绘,但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下,多任务或并行处理会是有益的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应解释为限制任何发明或权利要求的范围,而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。
针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外,前述说明书和附图存在启发的益处,涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。
将会理解,本法明的实施例不限于公开的特定实施例,并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语,但是它们仅在通用和描述的意义上使用,而并不用于限制目的。

Claims (19)

1.一种用于目标产品的故障处理的方法,所述方法包括:
至少部分地基于所述目标产品所应用的领域而建立针对所述目标产品的故障预测模型,所述故障预测模型指示与所述目标产品的至少一个性能相关联的阈值;以及
基于针对所述目标产品的所述故障预测模型,自动地预测与目标产品相关联的潜在故障。
2.根据权利要求1所述的方法,其中至少部分地基于所述目标产品所应用的领域而建立针对所述目标产品的故障预测模型包括:
基于所述领域将所述目标产品分类到相应的产品分组中。
3.根据权利要求2所述的方法,其中至少部分地基于所述目标产品所应用的领域而建立针对所述目标产品的故障预测模型还包括:
基于所述产品分组来确定与所述目标产品的至少一个性能相关联的所述阈值,以生成所述故障预测模型。
4.根据权利要求3所述的方法,其中与所述目标产品的至少一个性能相关联的所述阈值基于与所述产品分组中的产品相关的日志而确定。
5.根据权利要求4所述的方法,还包括以下至少一个:
对来自所述日志的数据进行规则化;以及
对来自所述日志的所述数据进行过滤。
6.根据权利要求2-5任一项所述的方法,其中与所述目标产品的至少一个性能相关联的所述阈值通过对所述产品分组中的产品的所述至少一个性能的先前测量值应用机器学习而确定。
7.根据权利要求1-6任一项所述的方法,还包括:
响应于预测到所述潜在故障,对所述潜在故障执行自动修复。
8.根据权利要求7所述的方法,还包括:
至少部分地基于所述自动修复的结果,更新针对所述目标产品的所述故障预测模型。
9.根据权利要求1-8任一项所述的方法,其中所述目标产品是设备或者应用。
10.一种用于目标产品的故障处理的装置,所述装置包括:
故障建模单元,被配置为至少部分地基于所述目标产品所应用的领域而建立针对所述目标产品的故障预测模型,所述故障预测模型指示与所述目标产品的至少一个性能相关联的阈值;以及
故障预测单元,被配置为基于针对所述目标产品的所述故障预测模型,自动地预测与目标产品相关联的潜在故障。
11.根据权利要求10所述的装置,其中所述故障建模单元包括:
产品分类单元,被配置为基于所述领域将所述目标产品分类到相应的产品分组中。
12.根据权利要求11所述的装置,其中所述故障建模单元被配置为基于所述产品分组来确定与所述目标产品的至少一个性能相关联的所述阈值,以生成所述故障预测模型。
13.根据权利要求12所述的装置,其中与所述目标产品的至少一个性能相关联的所述阈值基于与所述产品分组中的产品相关的日志而确定。
14.根据权利要求13所述的装置,还包括以下至少一个:
数据规则化单元,被配置为对来自所述日志的数据进行规则化;以及
数据过滤单元,被配置为对来自所述日志的所述数据进行过滤。
15.根据权利要求11-14任一项所述的装置,其中与所述目标产品的至少一个性能相关联的所述阈值通过对所述产品分组中的产品的所述至少一个性能的先前测量值应用机器学习而确定。
16.根据权利要求10-15任一项所述的装置,还包括:
故障修复单元,被配置为响应于预测到所述潜在故障,对所述潜在故障执行自动修复。
17.根据权利要求16所述的装置,还包括:
模型更新单元,被配置为基于至少部分地所述自动修复的结果,更新针对所述目标产品的所述故障预测模型。
18.根据权利要求10-17任一项所述的装置,其中所述目标产品是设备或者应用。
19.一种用于目标产品的故障处理的计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行根据权利要求1至9任一项所述的方法的步骤。
CN201310724705.3A 2013-12-23 2013-12-23 用于故障处理的方法和装置 Pending CN104731664A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310724705.3A CN104731664A (zh) 2013-12-23 2013-12-23 用于故障处理的方法和装置
US14/568,738 US20150178634A1 (en) 2013-12-23 2014-12-12 Method and apparatus for handling bugs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310724705.3A CN104731664A (zh) 2013-12-23 2013-12-23 用于故障处理的方法和装置

Publications (1)

Publication Number Publication Date
CN104731664A true CN104731664A (zh) 2015-06-24

Family

ID=53400403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310724705.3A Pending CN104731664A (zh) 2013-12-23 2013-12-23 用于故障处理的方法和装置

Country Status (2)

Country Link
US (1) US20150178634A1 (zh)
CN (1) CN104731664A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933167A (zh) * 2017-05-17 2017-07-07 中国农业科学院农业信息研究所 一种猪场监测预警方法、系统及装置
CN107247649A (zh) * 2016-10-12 2017-10-13 北京奇虎科技有限公司 检测系统健康状况的方法、装置及网关
CN107944563A (zh) * 2016-10-12 2018-04-20 发那科株式会社 机械学习装置以及机械学习方法
CN108470242A (zh) * 2018-03-08 2018-08-31 阿里巴巴集团控股有限公司 风险管控方法、装置、及服务器
WO2019047795A1 (zh) * 2017-09-07 2019-03-14 阿里巴巴集团控股有限公司 一种模型安全检测方法、装置以及电子设备
CN111523197A (zh) * 2018-12-26 2020-08-11 通用电气公司 用于预测部件上的故障的模型
CN111723968A (zh) * 2019-03-21 2020-09-29 罗伯特·博世有限公司 使用故障预测模型监视操作过程

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9405755B1 (en) * 2013-10-03 2016-08-02 Initial State Technologies, Inc. Apparatus and method for processing log file data
US9405610B1 (en) * 2013-10-03 2016-08-02 Initial State Technologies, Inc. Apparatus and method for processing log file data
US9405651B1 (en) 2013-10-03 2016-08-02 Initial State Technologies, Inc. Apparatus and method for processing log file data
CN105306272B (zh) * 2015-11-10 2019-01-25 中国建设银行股份有限公司 信息系统故障场景信息收集方法及系统
US10685292B1 (en) * 2016-05-31 2020-06-16 EMC IP Holding Company LLC Similarity-based retrieval of software investigation log sets for accelerated software deployment
US11176464B1 (en) 2017-04-25 2021-11-16 EMC IP Holding Company LLC Machine learning-based recommendation system for root cause analysis of service issues
US10740216B1 (en) * 2017-06-26 2020-08-11 Amazon Technologies, Inc. Automatic bug classification using machine learning
US10572374B2 (en) * 2017-09-06 2020-02-25 Mayank Mohan Sharma System and method for automated software testing based on machine learning (ML)
US10489270B2 (en) * 2018-01-21 2019-11-26 Microsoft Technology Licensing, Llc. Time-weighted risky code prediction
US11334351B1 (en) 2020-04-28 2022-05-17 Allstate Insurance Company Systems and methods for software quality prediction
US11900131B2 (en) * 2020-10-15 2024-02-13 EMC IP Holding Company LLC Dynamic remediation actions in response to configuration checks in an information processing system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114978A (zh) * 2006-07-27 2008-01-30 国际商业机器公司 高速缓存发往应用服务器的客户机请求的系统和方法
CN101533058A (zh) * 2009-04-24 2009-09-16 东北大学 一种电力异常故障数据分析装置及诊断方法
CN102208028A (zh) * 2011-05-31 2011-10-05 北京航空航天大学 一种适用于动态复杂系统的故障预测和诊断方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3778652B2 (ja) * 1997-04-18 2006-05-24 株式会社日立製作所 ログデータ収集管理方法及びその装置
US8032866B1 (en) * 2003-03-27 2011-10-04 Identify Software Ltd. System and method for troubleshooting runtime software problems using application learning
US7496796B2 (en) * 2006-01-23 2009-02-24 International Business Machines Corporation Apparatus, system, and method for predicting storage device failure
US8024214B2 (en) * 2006-08-15 2011-09-20 International Business Machines Corporation System and method of visualization for aggregation of change tracking information
US8655623B2 (en) * 2007-02-13 2014-02-18 International Business Machines Corporation Diagnostic system and method
US7730364B2 (en) * 2007-04-05 2010-06-01 International Business Machines Corporation Systems and methods for predictive failure management
US20120203536A1 (en) * 2009-10-21 2012-08-09 International Business Machines Corporation Method and system for software behaviour management
US20130014084A1 (en) * 2011-07-05 2013-01-10 Microsoft Corporation International Testing Platform
US20130290237A1 (en) * 2012-04-27 2013-10-31 International Business Machines Corporation Discovery and grouping of related computing resources using machine learning
WO2013188883A2 (en) * 2012-06-15 2013-12-19 Alderman Ian Method and system for automatically detecting and resolving infrastructure faults in cloud infrastructure
US10108526B2 (en) * 2012-11-27 2018-10-23 Purdue Research Foundation Bug localization using version history
US9298525B2 (en) * 2012-12-04 2016-03-29 Accenture Global Services Limited Adaptive fault diagnosis
US9519477B2 (en) * 2013-09-16 2016-12-13 International Business Machines Corporation Automatic pre-detection of potential coding issues and recommendation for resolution actions
US9825908B2 (en) * 2013-12-11 2017-11-21 At&T Intellectual Property I, L.P. System and method to monitor and manage imperfect or compromised software

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114978A (zh) * 2006-07-27 2008-01-30 国际商业机器公司 高速缓存发往应用服务器的客户机请求的系统和方法
CN101533058A (zh) * 2009-04-24 2009-09-16 东北大学 一种电力异常故障数据分析装置及诊断方法
CN102208028A (zh) * 2011-05-31 2011-10-05 北京航空航天大学 一种适用于动态复杂系统的故障预测和诊断方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247649A (zh) * 2016-10-12 2017-10-13 北京奇虎科技有限公司 检测系统健康状况的方法、装置及网关
CN107944563A (zh) * 2016-10-12 2018-04-20 发那科株式会社 机械学习装置以及机械学习方法
CN107944563B (zh) * 2016-10-12 2020-05-26 发那科株式会社 机械学习装置以及机械学习方法
US11436693B2 (en) 2016-10-12 2022-09-06 Fanuc Corporation Machine learning device and machine learning method for learning correlation between shipment inspection information and operation alarm information for object
CN106933167A (zh) * 2017-05-17 2017-07-07 中国农业科学院农业信息研究所 一种猪场监测预警方法、系统及装置
WO2019047795A1 (zh) * 2017-09-07 2019-03-14 阿里巴巴集团控股有限公司 一种模型安全检测方法、装置以及电子设备
US10691794B2 (en) 2017-09-07 2020-06-23 Alibaba Group Holding Limited Method, apparatus, and electronic device for detecting model security
CN108470242A (zh) * 2018-03-08 2018-08-31 阿里巴巴集团控股有限公司 风险管控方法、装置、及服务器
CN108470242B (zh) * 2018-03-08 2022-03-22 创新先进技术有限公司 风险管控方法、装置、及服务器
CN111523197A (zh) * 2018-12-26 2020-08-11 通用电气公司 用于预测部件上的故障的模型
CN111523197B (zh) * 2018-12-26 2023-09-29 通用电气公司 用于预测部件上的故障的模型
CN111723968A (zh) * 2019-03-21 2020-09-29 罗伯特·博世有限公司 使用故障预测模型监视操作过程

Also Published As

Publication number Publication date
US20150178634A1 (en) 2015-06-25

Similar Documents

Publication Publication Date Title
CN104731664A (zh) 用于故障处理的方法和装置
CN110708204B (zh) 一种基于运维知识库的异常处理方法、系统、终端及介质
Manco et al. Fault detection and explanation through big data analysis on sensor streams
US11403164B2 (en) Method and device for determining a performance indicator value for predicting anomalies in a computing infrastructure from values of performance indicators
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
US9530256B2 (en) Generating cumulative wear-based indicators for vehicular components
US11307916B2 (en) Method and device for determining an estimated time before a technical incident in a computing infrastructure from values of performance indicators
CN112148561B (zh) 业务系统的运行状态预测方法、装置及服务器
CN106886485A (zh) 系统容量分析预测方法及装置
CN105354616A (zh) 一种电力计量资产数据处理装置及其在线处理方法
US11016477B2 (en) Devices, methods, and systems for a distributed rule based automated fault detection
KR20170060031A (ko) 머신 러닝을 이용한 비-기술적인 손실의 식별
US20190228353A1 (en) Competition-based tool for anomaly detection of business process time series in it environments
US11675643B2 (en) Method and device for determining a technical incident risk value in a computing infrastructure from performance indicator values
CN112763963A (zh) 一种基于深度网络对互感器进行在线监控的系统及方法
EP3217241A2 (en) Calibration technique for rules used with asset monitoring in industrial process control and automation systems
CN108039971A (zh) 一种告警方法及装置
CN114546256A (zh) 从时间序列数据导出的用于kpi的基于数据质量的置信度计算
CN113255096A (zh) 基于向前逐步回归的高损线路异常台区定位方法及系统
US11675342B2 (en) AI-based smart health surveillance system and method
CN113537519B (zh) 一种识别异常设备的方法和装置
Bellini et al. A deep learning approach for short term prediction of industrial plant working status
US11138512B2 (en) Management of building energy systems through quantification of reliability
Wang et al. Near-extreme system condition and near-extreme remaining useful time for a group of products
CN113591266A (zh) 一种电能表故障概率的分析方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200410

Address after: Massachusetts, USA

Applicant after: EMC IP Holding Company LLC

Address before: Massachusetts, USA

Applicant before: EMC Corp.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150624