CN102099795B - 运用管理装置、运用管理方法和运用管理程序 - Google Patents

运用管理装置、运用管理方法和运用管理程序 Download PDF

Info

Publication number
CN102099795B
CN102099795B CN200980127693.8A CN200980127693A CN102099795B CN 102099795 B CN102099795 B CN 102099795B CN 200980127693 A CN200980127693 A CN 200980127693A CN 102099795 B CN102099795 B CN 102099795B
Authority
CN
China
Prior art keywords
mentioned
information
performance
abnormality degree
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200980127693.8A
Other languages
English (en)
Other versions
CN102099795A (zh
Inventor
加藤清志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN102099795A publication Critical patent/CN102099795A/zh
Application granted granted Critical
Publication of CN102099795B publication Critical patent/CN102099795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems

Abstract

本发明提供一种运用管理装置、运用管理方法和运用管理程序。运用管理装置(100)包括:信息收集单元(103),从被管理装置(103)中收集表示性能信息的时序变化的第一和第二性能信息;相关模型生成单元(107),导出第一性能信息和第二性能信息之间的相关函数,根据该相关函数生成相关模型;相关变化分析单元(109),判断信息收集单元取得的当前的第一和第二性能信息在一定误差范围内是否满足由相关模型的各性能信息之间的变换函数表示的关系;以及故障期间抽取单元(110),在第一和第二性能信息没有满足由相关模型的变换函数表示的关系的状态时,将该状态的期间作为故障期间来进行抽取。该运用管理装置(100)能够容易理解地提示故障发生位置及其原因。

Description

运用管理装置、运用管理方法和运用管理程序
技术领域
本发明涉及网络服务(web service)和业务服务(businessservice)这样的信息通信服务的运用,尤其涉及对该服务中的故障发生的检测和对其原因的确定。
背景技术
在例如网络服务、业务服务这样的信息通信服务的运用中,存在检测故障的发生并确定其原因的运用管理装置。
作为与此相关的技术文献,有以下所示的各文献。专利文献1记载有如下技术:定期测量网络服务器等的响应时间,并在该响应时间的值不满足补偿值时通知管理者。专利文献2记载有如下技术:如燃料流量与车体速度等那样,判断不同种类的多个参数间的变化的类似性。专利文献3记载有如下技术:计算对多个方向数据进行了模型化时的差异度的分布矩,当其超过阈值时判断为异常。
专利文献4记载有如下技术:对解析监视对象计算机的日志而得到的解析信息进行检索,并检索与过去的解析信息类似的模式,从而进行故障发生的预知。专利文献5记载有如下技术:在显示器上(区分颜色等)容易理解地显示按时序变化的成套设备的状态履历。专利文献6记载有故障信息显示装置,其直观地容易识别地显示故障的发生部位和发生顺序。
专利文献1:日本特开2002-099448号公报
专利文献2:日本特开2005-257416号公报
专利文献3:日本特开2006-048253号公报
专利文献4:日本特开2007-293393号公报
专利文献5:日本特开平06-175626号公报
专利文献6:日本特许第4089339号公报
发明内容
专利文献2的运用管理装置,为了适当检测上述那样的性能劣化故障,基于性能信息的变化度来计算性能信息之间的相关关系的强度,因此,能够适当判断与不同种类的性能信息中的时间经过相应的变化是否类似。
但是,专利文献2的运用管理装置,为了根据破裂的相关关系的数量或内容来确定实际发生的故障,需要预先准确理解成为对象的系统的结构和工作,并掌握由于怎样的故障使相关关系如何破裂。因此,存在管理者需要丰富的知识和经验的问题,具有由于理解不足而导出错误的分析结果的危险性。
专利文献4和6的运用管理装置,根据故障的发生顺序或故障单元的实际的配置关系来提示故障信息,因此能够易于直观地识别故障部位从而减轻故障发生源的推测作业。另外,通过将各种性能信息与故障信息一并在时间轴上显示来检索过去的类似故障的通用运用管理装置,能够基于类似的故障的解析信息来预测故障发生。
但是,上述现有的运用管理装置,在故障解析或过去事例检索中,需要采用作为故障信息或日志信息等故障时的信息而明确说出的信息。在没有正常/异常的区别而时序连续的性能信息的情况下,不能仅根据其值或变化状态来明确说出是哪部分发生故障,因此存在不能顺利进行这些直观的显示和类似事例检索的问题。
其余的专利文献1、3、5中均没有记载能够容易理解地提示故障发生部位及其原因的技术。因此,即使将上述各文献组合也无法得到通俗易懂地对缺乏经验的管理者提示故障发生部位及其原因的运用管理装置。
本发明的目的在于提供一种运用管理装置、运用管理方法、和运用管理程序,其能够对缺乏经验且没有正确理解作为对象的系统的结构和工作的管理者通俗易懂地提示故障发生部位及其原因。
为了达到上述目的,本发明的运用管理装置,从构成系统的一个或多个被管理装置中取得多种按性能项目的性能信息,从而对被管理装置进行运用管理,该运用管理装置的特征在于,包括:信息收集单元,在将性能项目或被管理装置作为要素时,从要素中至少收集表示关于第一要素的性能信息的时序变化的第一性能信息和表示关于第二要素的性能信息的时序变化的第二性能信息;相关模型生成单元,导出第一性能信息和第二性能信息之间的相关函数,根据该相关函数生成相关模型;相关变化分析单元,判断信息收集单元取得的当前的第一性能信息和第二性能信息在一定误差范围内是否满足由相关函数表示的关系;以及故障期间抽取单元,在相关变化分析单元判断为第一性能信息和第二性能信息没有满足由相关函数表示的关系的状态时,将该状态的期间作为故障期间来进行抽取。
为了达到上述目的,本发明的运用管理方法,从构成系统的一个或多个被管理装置中取得多种按性能项目的性能信息,从而对被管理装置进行运用管理,该运用管理方法的特征在于:在将性能项目或被管理装置作为要素时,从要素中至少收集表示关于第一要素的性能信息的时序变化的第一性能信息和表示关于第二要素的性能信息的时序变化的第二性能信息;导出第一性能信息和第二性能信息之间的相关函数,根据该相关函数生成相关模型;判断取得的第一性能信息和第二性能信息在一定误差范围内是否满足由相关函数表示的关系;在判断为第一性能信息和第二性能信息没有满足由上述相关函数表示的关系的状态时,将该状态的期间作为故障期间来进行抽取。
为了达到上述目的,本发明的运用管理程序使控制运用管理装置的计算机执行各种功能,上述运用管理装置通过从构成系统的一个或多个被管理装置中取得多种按性能项目的性能信息来对被管理装置进行运用管理,上述功能包括:在将性能项目或被管理装置作为要素时,从要素中至少收集表示关于第一要素的性能信息的时序变化的第一性能信息和表示关于第二要素的性能信息的时序变化的第二性能信息的功能;导出第一性能信息和第二性能信息之间的相关函数,根据该相关函数生成相关模型的功能;判断信息收集单元取得的当前的第一性能信息和第二性能信息在一定误差范围内是否满足由相关函数表示的关系的功能;在判断为第一性能信息和第二性能信息没有满足由相关函数表示的关系的状态时,将该状态的期间作为故障期间来进行抽取的功能。
如上所述,本发明构成为根据性能信息生成相关模型,将偏离该相关模型的期间作为故障期间来检测,因此,适当检测故障的发生,进而容易确定成为其原因的要因。由此,能够对管理者容易理解地提示故障发生部位及其原因。
附图说明
图1是表示本发明第一实施方式的运用管理装置的结构的说明图。
图2是表示图1所示的运用管理装置的工作的流程图。
图3是表示对性能分类信息存储单元中存储的性能分类信息和各服务器的性能信息进行分类的关系图的一例的说明图。
图4是表示由异常度变化信息计算单元和异常度分布信息计算单元计算出的异常度分布的一例的曲线。
图5表示图1所示的管理者对话单元对管理者提示的显示画面的例子。
图6是表示本发明第二实施方式的运用管理装置的结构的说明图。
图7是表示图6所示的运用管理装置的工作的流程图。
图8是表示本发明第三(和第四)实施方式的运用管理装置的结构的说明图。
图9是表示图8所示的运用管理装置的工作的流程图。
图10是表示图8所示的故障要素推断单元的工作的概要的说明图。
图11是表示图8所示的故障分析单元对管理者提示的显示画面例子的说明图。
图12是表示图8所示的故障分析单元对管理者提示的另一显示画面的例子的说明图。
图13是表示图8所示的(第四实施方式的)运用管理装置中由异常度变化信息计算单元和异常度分布信息计算单元计算出的异常度分布的一例的曲线。
图14表示图8所示的(第四实施方式的)运用管理装置中管理者对话单元对管理者提示的显示画面的例子。
图15是表示图1所示的信息收集单元进行检测并存储的性能信息的一例的说明图。
图16是表示图1所示的相关模型生成单元作成的相关模型的一例的说明图。
图17是表示图1所示的管理者对话单元对管理者提示的显示画面的例子的说明图。
标号说明:
100、200、300、400运用管理装置
101服务执行单元
102性能信息存储单元
103信息收集单元
104故障分析单元
105管理者对话单元
106应对执行单元
107相关模型生成单元
108相关模型存储单元
109相关变化分析单元
110故障期间抽取单元
111异常度变化信息计算单元
112性能分类信息存储单元
113异常度分布信息计算单元
114控制部
115异常度分析部
131性能分类信息
142显示画面
142a异常度曲线
142b异常度分布
161、362关系图
171异常度分布
171a、171b曲线
214过去故障信息存储单元
215类似故障检索单元
216性能分类信息生成单元
317故障要素推断单元
331异常度模式
343、344、445显示画面
472、472a、472b曲线
511性能信息
521相关模型
541显示画面
541a相关破坏数
541b相关关系图
541c异常程度大的要素的列表
具体实施方式
(第一实施方式)
下面,基于附图说明本发明的实施方式的结构。
首先说明本实施方式的基本内容,然后说明更具体的内容。
本实施方式的运用管理装置100,从构成系统的一个或多个被管理装置(服务执行单元101)中取得多种按性能项目的性能信息,从而对上述被管理装置进行运用管理,上述运用管理装置包括:信息收集单元103,在将性能项目或被管理装置作为要素时,从要素(服务执行单元101)中至少收集表示关于第一要素的性能信息的时序变化的第一性能信息和表示关于第二要素的性能信息的时序变化的第二性能信息;相关模型生成单元107,导出上述信息收集单元103收集到的第一性能信息和第二性能信息之间的相关函数,根据该相关函数生成相关模型;相关变化分析单元109,判断上述信息收集单元103取得的当前的上述第一性能信息和第二性能信息在一定误差范围内是否满足由相关函数表示的关系;以及故障期间抽取单元110,在上述相关变化分析单元109判断为第一性能信息和第二性能信息没有满足由相关函数表示的关系的状态时,将该状态的期间作为故障期间来进行抽取。
运用管理装置100还包括:异常度变化信息计算单元111,其在上述故障期间抽取单元110抽取出的故障期间之间,将关于异常度的统计信息作为异常度变化信息来进行计算,上述异常度是上述第一性能信息和第二性能信息偏离变换函数的程度。
运用管理装置100还包括:性能分类信息存储单元112,其将性能信息分为多种,并作为性能分类信息来保存;和异常度分布信息计算单元113,其从存储在上述性能分类信息存储单元112中的性能分类信息中抽取在上述故障期间抽取单元110抽取出的故障期间内变化的相关关系所包含的性能信息及其异常度,从而计算表示性能信息的每个要素的异常度的分布的异常度分布信息。
本发明的实施方式,通过具备上述结构,能够适当检测故障的发生,进而容易地确定成为其原因的要因,并对管理者容易理解地提示故障发生部位及其原因。
下面,对此进行详细说明。
图1是表示本发明第一实施方式的运用管理装置100的结构的说明图。运用管理装置100实际上包括由CPU、RAM、OS等构成的执行计算机程序的主体即控制部114。
控制部114由CPU构成,通过使CPU执行程序,在软件上实现服务执行单元101、信息收集单元103、故障分析单元104、管理者对话单元105、应对执行单元106、相关模型生成单元107、相关变化分析单元109。另外,运用管理装置100中,性能信息存储单元102和相关模型存储单元108由运用管理装置100具备的盘装置等那样的非易失性存储单元来实现。图1中为了便于理解,也将性能信息存储单元102和相关模型存储单元108表示在控制部114内。另外控制部114具备后述的异常度分析部115。虽然图示出在软件上实现控制部114的结构的情况,但不限于此,也可以将控制部114的结构作为硬件结构来实现。
服务执行单元101提供WEB服务和业务服务这样的信息通信服务。服务执行单元101可以是一个也可以是多个,另外,可以由物理上与运用管理装置100的其他要素不同的计算机构成,也可以由与其相同的计算机构成。性能信息存储单元102存储服务执行单元101的各要素的性能信息。信息收集单元103检测服务执行单元101的性能信息、异常信息等工作状态从而将其输出,并且将工作状态中包含的性能信息存储于性能信息存储单元102。
故障分析单元104接受来自信息收集单元103和异常度分析部115的输出而进行故障分析,并将其结果输出到管理者对话单元105。管理者对话单元105接受从故障分析单元104输出的故障分析的结果而对管理者提示,并接受来自管理者的输入。应对执行单元106按照来自管理者对话单元105的指示,在服务执行单元101上执行成为故障应对的处理。
相关模型生成单元107从性能信息存储单元102取出一定期间的性能信息,通过导出任意2个性能信息的值的时序的变换函数来生成服务执行单元101的整体的运行状态的相关模型。相关模型存储单元108存储相关模型生成单元107生成的相关模型。
相关变化分析单元109从信息收集单元103接受新检测到的性能信息,分析该性能信息中所包含的性能值在一定的误差范围内是否满足存储在相关模型存储单元108中的相关模型的各性能信息之间的变换函数所表示的关系,从而输出其结果。
接着,为了明确本发明的实施方式的运用管理装置的特征,用图1说明与本发明的实施方式的运用管理装置对应的比较例。将不具备本发明的实施方式中的异常度分析部115的运用管理装置假定为上述比较例。上述比较例的运用管理装置中,不具备上述异常度分析部115,因此,成为故障分析单元104接受来自信息收集单元103和相关变化分析单元109的输出而进行故障分析,并将其结果输出到管理者对话单元105。管理者对话单元105接受从故障分析单元104输出的故障分析结果而对管理者提示,并接受来自管理者的输入。应对执行单元106按照来自管理者对话单元105的指示,在服务执行单元101上执行成为故障应对的处理。
上述比较例的运用管理装置,首先由信息收集单元103检测服务执行单元101的工作状态,将上述检测到的信息作为性能信息存储在性能信息存储单元102。例如,在服务执行单元101正在执行WEB服务时,上述信息收集单元103以一定时间间隔检测提供WEB服务的各服务器的CPU使用率和存储器余量作为上述服务执行单元101的性能信息。
图15是表示图1所示的信息收集单元103检测并存储的性能信息511的一例的说明图。上述信息收集单元103取得的性能信息511如图15所示,包括例如“A.CPU”、“A.MEM”、“B.CPU”。图15所示的性能信息511中的项目“A.CPU”表示某1个服务器(服务执行单元101)的CPU使用率的值,2007年10月5日17时25分的值为12。进而以1分钟的间隔从17时26分开始检测到15、34、63这样的值。同样,“A.MEM”是在同时刻检测到相同服务器的存储器余量的值,“B.CPU”是在同时刻检测到另一服务器的CPU使用率的值。
如图1所示,故障分析单元104用预先确定的方法进行故障分析。举一例来说,上述故障分析单元104根据信息收集单元103检测到的性能信息的值,按照预先给出的阈值等判断条件,判断特定的服务器(服务执行单元101)的负载是否变高了,由此进行上述故障分析,以使例如当CPU利用(使用)率为一定值以上时向管理者提示警告信息等。
管理者对话单元105对管理者提示上述故障分析单元104分析出的故障分析的结果,并在管理者进行了指示什么应对的输入时,通过应对执行单元106在服务执行单元101上执行应对指令。例如,管理者知道CPU负载已经变高,从而能够进行如下处置,即对上述应对执行单元106输入减少业务量的应对指令,或对上述应对执行单元106输入进行用于分散负载的结构变更的应对指令等。通过反复进行这样的信息收集、分析、应对的处理,连续进行服务执行单元101的故障应对。
进而,能够利用相关模型生成单元107、相关模型存储单元108、相关变化分析单元109,在这样的故障分析中更准确地检测性能异常。
说明图1所示的运用管理装置100进行的性能信息的相关变化的分析的工作。对于性能信息存储单元102中存储的图15所示的性能信息511,相关模型生成单元107通过导出各性能信息之间的变换函数来作成相关模型,并将其存储于相关模型存储单元108。
图16是表示相关模型生成单元107作成的相关模型521的一例的说明图。图16所示的例子中,上述相关模型生成单元107通过导出例如将“A.CPU”作为输入X、将“A.MEM”作为输出Y时的变换函数“Y=αX+β”,参照图15所记载的性能信息511所示的值的时序,从而分别将“-0.6”、“100”确定为上述变换函数的α和β的值,并将由上述变换函数生成的值的时序与成为输出的性能信息的实际值的时序进行比较,根据其差值即变换误差计算上述变换函数的权重“0.88”。
上述相关模型生成单元107同样导出任意2个性能信息之间的变换函数,并抽取具有一定权重的变换函数作为有效相关,并生成图16所示那样的服务执行单元101的整体运行状态的相关模型521。在此,说明了将上述变换函数取为“Y=αX+β”这样的1次式的情况,但不限于该例子,上述相关模型生成单元107导出的上述变换函数只要是对任意2个性能信息的值的时序进行变换的函数即可。另外,用于回归到这样的式的计算,可以利用公知的统计学方法。
接着,相关变化分析单元109分析从信息收集单元103新取得的性能信息是否与上述相关模型生成单元107生成的上述相关模型所示的相关关系一致。上述相关模型生成单元109,例如在得到图15所示的性能信息511中位于最下行的“2007/11/07 8:30”这一时点的服务执行单元101的性能信息511时,依次检索图16所示的相关模型521中记载的变换函数,并判断根据作为输入的服务执行单元101的性能信息用变换函数计算出的变换值与成为输出的性能信息的新取得的值是否在处于一定变换误差范围内时维持相关,当超过变换误差范围时判断为相关关系破裂。
上述比较例中的相关变化上述单元109对所有的输入即服务执行单元101的变换函数反复执行上述处理,并在判断新取得的所有性能信息的相关变化的有无后,作成包括表示上述相关变化的程度的异常度信息和表示与相关变化有关系的要素的异常要素信息的相关变化信息而输出到故障分析单元104。
故障分析单元104接受该相关变化信息,并在变化的异常度超过预先规定的值时,作为故障的可能性通过管理者对话单元105对管理者提示。
上述比较例的运用管理装置中的管理者对话单元105对管理者提示图17所示那样的显示画面541。显示画面541中包括表示异常程度的相关破坏数(Correlation destroyed number)541a、表示异常位置的相关关系图541b、异常程度大的要素的列表541c等。由此,例如将异常程度大的要素“C.CPU”具有故障可能性的情况对管理者提示。
以上说明那样的比较例的运用管理装置,根据在没有发生故障的平常时的性能信息生成相关模型,并通过计算检测出的性能信息相对于该平常时的相关模型变化的比例,来检测响应劣化等性能异常的发生,并确定位置。
但是,上述比较例的运用管理装置具有如下问题,所提示的信息是与平常时工作不同的要素(服务执行单元101)的信息,为了分析实际上哪个要素(服务执行单元101)是原因而发生了故障,管理者必须进行根据该工作的不同来探究原因的作业。
上述比较例的运用管理装置例如在负载分散的服务器(服务执行单元101)中的1个变成异常时、或多个服务器(服务执行单元101)正在利用的共享盘变成异常时,异常的要素(服务执行单元101)为1个,但性能信息之间的相关关系被广泛地破坏。另外,WEB3层结构的系统等存在一连串的处理顺序的系统中,有时1个要素(服务执行单元101)发生异常后,处理异常将广泛波及后段的要素(服务执行单元101)。
因此,上述比较例的运用管理装置需要管理者在理解实际运行着的系统的特性后根据相关关系的破裂推断成为原因的要素(服务执行单元101)。尤其在大规模系统等构成要素多且工作复杂的系统中,要求管理者知识量大,并且具有因知识不足而进行错误应对的危险性。
(实施方式1)
因此,本发明的实施方式1为了解决上述比较例的问题,采用图1所示的在上述控制部114中具备异常度分析部115的结构。
异常度分析部115包括故障期间抽取单元110、异常度变化信息计算单元111、性能分类信息存储单元112、异常度分布信息计算单元113。其中,性能分类信息存储单元112由运用管理装置100预先具备的盘装置等那样的非易失性存储单元来实现。故障期间抽取单元110、异常度变化信息计算单元111、异常度分布信息计算单元113通过使构成控制部114的CPU执行计算机程序来在软件上实现。使故障期间抽取单元110、异常度变化信息计算单元111、异常度分布信息计算单元113在软件上实现,但不限于此,也可以使其通过硬件结构来构筑。
故障期间抽取单元110从相关变化分析单元109接受相关变化信息,根据预先确定的阈值从异常度的时序变化中抽取故障期间。故障期间抽取单元110例如将故障期间的开始作为能根据正常运用时可能发生的异常度判断为故障的异常度变化的时点,将故障期间的结束作为正常运用时可能发生的异常度连续一定时间的时点,用从相关变化分析单元109接受的相关变化信息,根据预先确定的阈值从异常度的时序变化中抽取故障期间。
异常度变化信息计算单元111从故障期间抽取单元110接受故障期间的信息,计算包括故障期间内的异常度的总和、最大、最小、平均值等统计信息的异常度变化信息。性能分类信息存储单元112中存储将从服务执行单元101收集到的性能信息分为多个组的性能分类信息。
异常度分布信息计算单元113从性能分类信息存储单元112接受性能分类信息,抽取故障期间内变化的相关关系中包含的性能信息及其异常度,并计算表示性能信息的每组的异常度分布的异常度分布信息。
如图1所示,本发明的实施方式1中的故障分析单元104除了接受来自上述信息收集单元103的信息,还接受来自上述异常度变化信息计算单元111的异常度变化信息和来自上述异常度分布信息计算单元113的异常度分布信息,根据这些信息分析服务执行单元101的故障。上述管理者对话单元105根据来自上述故障分析单元104的分析结果,对管理者提示每个故障期间的异常度变化信息和异常度分布信息。
图2是说明图1所示的本发明的实施方式1的运用管理装置100中的相关变化分析的工作的流程图。相关模型生成单元107根据信息收集单元103从服务执行单元101收集到的性能信息生成相关模型(步骤S611)。进而,在信息收集单元103收集运用时的性能信息时,相关变化分析单元109分析该性能信息与相关模型所示的相关关系是否一致,并根据相关关系的变化计算异常度(步骤S612)。
直到以上步骤为止的本发明的实施方式1的运用管理装置100的工作与上述比较例同样。
接着,说明本发明的实施方式1的运用管理装置100中的特征的工作。
故障期间抽取单元110在从相关变化分析单元109接受到的异常度的时序中抽取故障期间(步骤S613)。
图4所示的例子中,上述故障期间抽取单元110从表示异常度的时序变化的曲线171a中抽取故障期间1、故障期间2。具体而言,上述故障期间抽取单元110用表示异常度视为正常的边界的正常阈值V1、表示异常度视为代表故障的边界的故障阈值V2这2个阈值,将从小于正常阈值V1的异常度向故障阈值V2以上的异常度(相关破坏)V3变化的时点作为开始,将此后一定期间内小于正常阈值V1的异常度连续的时点作为结束,抽取故障期间1、2。
这样在上述故障期间抽取单元110抽取出故障期间1、2时(步骤S614),异常度变化信息计算单元111计算上述故障期间抽取单元110抽取出的故障期间1、2内的异常度变化信息(步骤S615),异常度分布信息计算单元113计算上述故障期间抽取单元110抽取出的故障期间1、2内的影响要素(服务执行单元101)的分布信息(步骤S616)。
接着,详细说明上述异常度变化信息计算单元111和上述异常度分布信息计算单元113执行的工作。
如图3所示,性能分类信息存储单元112存储有性能分类信息131和对各服务器(服务执行单元101)的性能信息进行分类的关系图161。图3所示的性能分类信息131和关系图161表示一例,并不限于此。根据提供服务的系统等进行各种变更。图3所示的关系图161,与一般的Web 3层系统的结构相同,“A”~“G”这7台服务器(服务执行单元101)分为“Web(网络服务器)”的服务器、“AP(应用程序)”的服务器、“DB(数据库)”的服务器这3个业务组。性能分类信息131按照上述关系图161中分好的组分类,将各服务器(服务执行单元101)的性能信息分为3个组。
图3所示的例子中,例如“Web”组(服务执行单元101)包括“A.*”、“B.*”、“C.*”的性能信息。“A.*”表示上述Web组的服务器A(服务执行单元101)具有的所有性能信息。“B.*”表示上述Web组的服务器B(服务执行单元101)具有的所有性能信息。“C.*”表示上述Web组的服务器C(服务执行单元101)具有的所有性能信息。
“AP”服务器的组包括“D.*”、“E.*”的性能信息。“D.*”表示上述AP组的服务器D(服务执行单元101)具有的所有性能信息。“E.*”表示上述AP组的服务器E(服务执行单元101)具有的所有性能信息。
“DB”服务器的组包括“F.*”、“G.*”的性能信息。“F.*”表示上述DB组的服务器F(服务执行单元101)具有的所有性能信息。“G.*”表示上述DB组的服务器G(服务执行单元101)具有的所有性能信息。
异常度分布信息计算单元113按照上述图3所示的性能分类信息131将与上述故障期间抽取单元110抽取出的故障期间1、2内的相关变化有关系的性能信息分为服务器A~G的组,按上述故障期间1、2确定图4的下段所示的异常度的分布信息,即图4的下段所记载的曲线171b的部分要素即“Web”组、“AP”组、“DB”组的高度,生成表示上述故障期间1、2中的部分要素的异常度分布的堆积曲线171b。
图4的下段所示的例子中,上述异常度分布信息计算单元113生成关于“DB”组的相关变化占过半数、其次关于“Web”组的相关变化较多、关于“AP”组的相关变化为少数的异常度分布信息,作为故障期间1中的部分要素的异常度分布信息。另外,上述异常度分布信息计算单元113作成与“Web”组相关的相关变化占大半、与“AP”组和“DB”组相关的相关变化为少数的异常度分布信息,作为故障期间2中的部分要素的异常度分布信息。
在图4的下段所示的例子中,上述异常度变化信息计算单元111接受来自上述故障期间抽取单元110的信息,根据统计值确定上述故障期间抽取单元110抽取出的故障期间1、2中的所有要素(“Web”组、“AP”组和“DB”组)的异常度的高度,并计算上述故障期间1、2中的所有要素的异常度。
上述异常度变化信息计算单元111和上述异常度分布信息计算单元113处理的故障期间1、2的宽度,由上述异常度变化信息计算单元111和上述异常度分布信息计算单元113根据上述故障期间抽取单元110基于曲线171a抽取出的故障期间1、2来确定。
故障分析单元104接受上述异常度变化信息计算单元111计算出的异常度变化信息和上述异常度分布信息计算单元113计算出的异常度分布信息,根据这些信息分析服务执行单元101的运用状态,将其分析结果输出到管理者对话单元105。上述管理者对话单元105接受上述故障分析单元104的分析结果,对管理者提示该分析结果(步骤S617)。
图5表示上述管理者对话单元105对管理者提示的显示画面142的一例。上述管理者对话单元105如图5的上段所示,在显示画面142上显示在相关变化分析单元109输出的异常度的时序即异常度曲线142a上由上述故障期间抽取单元110抽取出的故障期间1~故障期间3。进而,上述管理者对话单元105如图5的下段所示,以与异常度曲线142a相同的时序,显示上述异常度分布信息计算单元113计算出的各故障期间1~3中的异常度分布142b。
当表示上述相关变化分析单元109根据相关变化来分析异常度而得到的结果的时序变化的异常度曲线不是图4所示的曲线、而是图5的上段所示的异常度曲线142a时,图5的上段所示的异常度曲线152a的时序变化中,各故障期间1~3中的故障在期间连续为相同的异常度,尤其故障期间1的故障与故障期间3的故障以类似的波形表示。由此,在如比较例那样将相关变化分析单元109分析出的结果直接输出到故障分析单元104,由故障分析单元104分析故障,从而仅用图5的上段所示的异常度曲线142a对管理者显示故障状态时,管理者很可能不能将故障期间1~3的故障作为一连串的故障来理解,或不能预测仅故障期间2的故障与其他故障期间1、3的故障是不同状态,从而不能正确地掌握故障。
而与此不同,本发明的实施方式1如上所述,包括故障期间抽取单元110、异常度变化信息计算单元111、异常度分布信息计算单元113,故障分析单元104接受上述异常度变化信息计算单元111计算出的异常度变化信息和上述异常度分布信息计算单元113计算出的异常度分布信息,根据这些信息分析服务执行单元101的运用状态,将其分析结果传输至管理者对话单元105。
因此,参照图5的下段所示的异常度分布142b,对于该异常度分布142a,将上述异常度变化信息计算单元111计算出的异常度变化信息和上述异常度分布信息计算单元113计算出的异常度分布信息作为堆积曲线来显示,因此,管理者能够理解在故障期间1与“DB”组有关系的故障发生后在故障期间2、3中与“WEB”组有关系的故障连续发生。因此,管理者能够根据图5的下段所示的异常度分布142a的显示更准确地掌握状况,并进行正确的应对。管理者例如为了探究原因而能够详细确认最初的故障期间1所发生的“DB”组的故障状况,或为了调查影响范围而能够详细确认故障期间2、3的故障内容。
接着,说明上述第一实施方式的整体的工作。在从构成系统的一个或多个被管理装置中取得多种性能项目中每种的性能信息从而对被管理装置进行运用管理时,在以性能项目或被管理装置为要素的情况下,由信息收集单元103从要素中至少收集表示关于第一要素的性能信息的时序变化的第一性能信息和表示关于第二要素的性能信息的时序变化的第二性能信息,用相关模型生成单元102导出第一和第二性能信息之间的相关函数并根据上述相关函数生成相关模型(图2:步骤S611),用相关变化分析单元109,根据运用时的性能信息计算相关关系的破裂,接着用故障期间抽取单元110从异常度的时序变化中抽取故障期间,当存在故障期间时,用异常度变化信息计算单元111,计算故障期间内的异常度的变化信息(图2的步骤S615),用异常度分布信息计算单元113,计算故障期间内的影响要素(服务执行单元101)的分布信息,对管理者提示异常程度和要素(服务执行单元101)的分布(图2的步骤S617)
在此,关于上述各工作步骤,也可以将其作成可由计算机执行的程序,使直接执行上述各步骤的计算机即运用管理装置100执行这些程序。
根据本实施方式,故障期间抽取单元110从异常度的时序变化中抽取故障期间,由异常度变化信息计算单元111和异常度分布信息计算单元113生成故障期间内的相关变化的概要信息。由此,管理者能够正确掌握是哪个期间出现故障和该故障有怎样的异常的概略。
本实施方式的运用管理装置100根据与表示正常时的相关关系的相关模型的一致程度确定故障期间,因此在判断值小(一致程度高)时,表示系统内的工作恢复正常,与仅用性能信息的阈值进行判断的情况相比,能够明确区别异常的期间和正常的期间。
并且,本实施方式的运用管理装置100,不仅能够检测按各要素的异常值,还能检测与瓶颈等处于输入输出关系的其他要素的性能值之间的关系所引起的异常。能够对管理者准确提示是关于哪个要素的异常,因此,管理者能够减少错误进行有效的应对。
在上述说明中,以用堆积曲线提示每组的异常分布的例子进行了说明,但不限于该例,只要能够提示故障期间内的异常要素的详细内容,用其他方法也能得到同样的效果。另外,用在显示画面的曲线上图示故障期间的例子进行了说明,但不限于该例子,也可以发出表示故障开始和结束的信息,利用由故障分析单元104进行的事件分析的功能来进行信息提示和应对。在该情况下,通过根据相关变化确定故障期间,能够得到可准确确定性能故障这样的效果。
(第二实施方式)
本发明的第二实施方式的运用管理装置200在第一实施方式的基础上还包括:根据第一和第二性能信息检测故障的发生的故障分析单元104;基于相关模型并根据性能信息之间的相关关系的强度和相关的要素的模式来对性能信息进行分类从而生成性能分类信息的性能分类信息生成单元216。
并且还包括:存储故障分析单元104所分析的故障的履历的过去故障信息存储单元214;将过去故障信息存储单元214中存储的信息分别与异常度变化信息计算单元111计算出的异常度变化信息和异常度分布信息计算单元113计算出的异常度分布信息进行比较,从而检索与这些异常度变化信息和异常度分布信息类似的故障的类似故障检索单元215。
通过具备上述结构,运用管理装置200自动生成性能信息的组,进而能够进行类似检索,由此,不需要管理者作成性能分类信息,能够减轻其负担。
下面,对此进行更详细地说明。图6是表示本发明第二实施方式的运用管理装置200的结构的说明图。其特征在于,除了用图1说明的第一实施方式的运用管理装置100的结构外,异常度分析部115包括过去故障信息存储单元214、类似故障检索单元215、性能分类信息生成单元216。故障分析单元104包含在第一实施方式的运用管理装置100中,因此也包含在运用管理装置200中。
其中,过去故障信息存储单元214由运用管理装置200预先具备的盘装置等那样的非易失性存储单元来实现。这些以外的构成要素具有与第一实施方式的运用管理装置100共同的工作和作用,因此要素名和参照序号也全都相同。
过去故障信息存储单元214中存储由故障分析单元104分析出的故障的履历。类似故障检索单元215从异常度变化信息计算单元111和异常度分布信息计算单元113分别接受异常度变化信息和异常度分布信息,并从过去故障信息存储单元214中检索类似的故障。
性能分类信息生成单元216从相关模型存储单元108中读出相关模型,并根据性能信息之间的相关关系的强度和关系要素的模式对性能信息进行分类从而生成性能分类信息。
图7是表示图6所示的运用管理装置200的工作的流程图。本实施方式的运用管理装置200的工作除了图2所示的第一实施方式的运用管理装置100的工作外,还包括接着要说明的步骤S622和步骤S628。
与第一实施方式同样地生成相关模型(步骤S621)后,性能分类信息生成单元216从相关模型存储单元108读出相关模型,并根据性能信息之间的相关关系的强度和关系要素的模式对性能信息进行分类从而生成性能分类信息(步骤S622)。
上述性能分类信息生成单元216用一般的分类方法进行服务执行单元101的性能信息的分类,但在上述性能信息具有一定的关系时,也可以根据其工作推断系统结构的组从而对性能信息进行分类。例如当上述服务执行单元101为负载分散后的服务器组时,在需要某种程度的恒定负载的状况下,表示各输入与处理量均等的值,因此,对上述服务器组生成相互之间较强的相关关系。另外,上述服务执行单元101如“Web”服务器和“AP”服务器那样,考虑在处理中存在流时,按时序顺序从前段向后段的关系明确,但相反的关系变弱等特征。此外,有成为使用存储器与空闲存储器这样的反转关系和合计值等情况。上述性能分类信息生成单元216考虑上述信息而生成服务执行单元101的性能信息分类信息。
接着,与第一实施方式同样地进行步骤S623~626(相当于图2的步骤S612~615)的处理后,异常度分布信息计算单元113用上述性能分类信息生成单元216生成的性能分类信息计算异常度分布信息(步骤S627)。
进而,类似故障检索单元215接受上述异常度变化信息计算单元111计算出的异常度变化信息和上述异常度分布信息计算单元113计算出的异常度分布信息,根据过去故障信息存储单元214中存储的过去的故障事例,检索具有类似的异常度变化或异常度分布的事例,并将该内容输出(步骤S628)。故障分析单元104根据上述类似故障检索单元215检索到的信息和信息收集单元103所取得的信息来分析故障,并将其分析结果通过管理者对话单元105对管理者提示,提示这样解析后的故障内容(步骤S629)。
如上所述,根据本实施方式,性能分类信息生成单元216根据相关模型中包含的相关关系自动生成服务执行单元的性能信息的组,因此能够大幅减轻作成用于对服务执行单元的性能信息进行分类的性能分类信息的管理者的负担。
另外,本实施方式中,类似故障检索单元215按照抽取出的故障期间的异常度变化和异常度分布检索过去的事例。此时,通用的运用管理装置预先使用为检索故障事例而在故障时发生的错误信息等检索性能信息那样的连续变化的信息的类似信息,因此需要多维状态空间的检索等处理负荷大的处理。而与此不同,根据本实施方式,为了检索过去事例而生成成为关键字的信息作为故障期间或异常度分布,因此能够进行性能信息的类似检索而不增加处理负荷。
(第三实施方式)
本发明的第三实施方式的运用管理装置300在第二实施方式的基础上还包括:故障要素推断单元317,其根据相关模型和性能信息中包含的分类信息和顺序信息按每个要素(服务执行单元101)预测该要素发生故障从而波及其他要素(服务执行单元101)时假定的异常度分布模式,并对异常度分布信息和异常度分布模式进行比较从而推断在哪个要素中发生了故障。
通过具备该结构,运用管理装置300能够准确推断发生了异常的要素,由此能够减少应对错误,实现更有效的应对。
下面,对此进行更详细地说明。图8是表示本发明第三实施方式的运用管理装置300的结构的说明图。运用管理装置300除了用图6说明的第二实施方式的运用管理装置200的结构外,在异常度分析部115中包含故障要素推断单元317。另外,性能分类信息存储单元112中存储的性能分类信息除了表示性能信息的组的分类信息外,还保表示组间的处理顺序的顺序信息。这些以外的构成要素除了接着要说明的点之外,具有与第二实施方式的运用管理装置200共同的工作和作用,因此,要素名和参照序号全都相同。
故障要素推断单元317接受存储在相关模型存储单元108和性能分类信息存储单元112中的相关模型和性能分类信息中包含的分类信息和顺序信息,按系统内的要素(服务执行单元101),预测各要素发生故障从而波及其他要素(服务执行单元101)时假定的异常度分布模式。进而,从异常度分布信息计算单元113接受异常度分布信息,与自己预测出的异常度分布模式进行比较,由此推断是系统内的哪个要素的故障。
类似故障检索单元215检索过去事例时,还具有包含故障要素推断单元317推断出的故障要素的信息而检索的功能,故障分析单元104还具有通过管理者对话单元105将该解析结果对管理者提示的功能。
图9是表示图8所示的运用管理装置300的工作的流程图。本实施方式的运用管理装置300的工作除了图7所示的第二实施方式的运用管理装置200的工作外,还包括以下要说明的步骤S633和步骤S639。
与第二实施方式同样,生成相关模型(步骤S631)并生成性能分类信息(步骤S632)后,故障要素推断单元317对从相关模型存储单元108读出的相关模型和从性能分类信息存储单元112读出的性能分类信息进行比较,按系统内的要素预测各要素发生故障时假定的异常度分布模式(步骤S633)。
图10是表示图8所示的故障要素推断单元317的工作的概要的说明图。在图10的关系图362中除了图3的关系图151的组分类外,还追加有表示各组间的处理顺序的箭头。异常度模式331表示故障要素推断单元317推断出的异常度分布模式的例子。异常度模式331在系统内某要素发生故障的情况下,当按照组间的处理顺序根据成为故障要素的性能信息检索到相关模型中包含的相关关系时,预先计算哪个相关关系被破坏。
例如,“Web”组的服务器出现异常时,与“Web”组中包含的其他服务器的相关关系被破坏。但是,在Web服务器不进行处理的状况下,成为没有后段的AP服务器和DB服务器的输入的状态,因此,不进行处理,但性能信息之间的相关关系被正确维持。因此,异常度分布为,台数多的“Web”组的相关变化多,其他组的相关变化减少。“AP”组和“DB”组的服务器出现异常时的异常度分布模式也与此同样地被预测。
返回图9,接着,在与第二实施方式同样地进行步骤S634~638(相当于图7的步骤S623~627)的处理后,故障要素推断单元317对从异常度分布信息计算单元113接受的异常度分布信息与在步骤S633预测出的异常度分布模式进行比较,从而推断是系统内的哪个要素的故障(步骤S639)。
此后,类似故障检索单元215包含该推断结果地检索过去事例(步骤S640),故障分析单元104通过管理者对话单元105对管理者提示这样解析后的故障内容(步骤S641)。
图11和图12表示通过这样图8所示的故障分析单元104对管理者提示的显示画面343和344的例子的图。与图5的显示画面142同样,在图11的显示画面343上图示异常度曲线343a,在图12的显示画面344上图示异常度分布的堆积曲线344a。
并且,在图11~12的显示画面343~344提示有抽取出的故障候选的列表343b和344b。此时,将显示画面344所示的故障1的异常度分布信息与故障要素推断单元317所推断的图10的异常度模式331进行比较,结果,推断出是AP服务器的故障,并提示有从该异常度变化信息的大小来看重要度“大”,和推断出异常度大的要素即“AP.D.CPU”为异常要素。同样,故障2被推断为重要度“小”的“Web”组的故障。在显示画面343和344上,类似故障的信息被省略,但也可以将其作为故障候选的详细信息来提示。
如上所述,根据本实施方式,故障要素推断单元317能够预测系统内的要素出现异常时的异常度模式,并将其与计算出的异常度分布信息进行比较,从而对管理者提示哪个要素出现异常的推断结果。例如,在图12的故障1的分布中,“AP”组的数量少,其他组的数量多,因此具有管理者误认定其他组出现故障的危险性。但是,本实施方式中,安装处理顺序追寻相关关系,从而能够对管理者提示成为该分布的情况是“AP”组出现故障的推断结果。由此,能够减少应对错误,并实现更有效的应对。
(第四实施方式)
本发明第四实施方式的运用管理装置400是与第三实施方式的运用管理装置300相同的结构的装置,故障期间抽取单元将故障期间分为故障开始期间、故障持续期间和故障结束期间。
通过具备该结构,运用管理装置400能够对管理者准确提示故障的原因及其影响。
下面,对此进行更详细地说明。本发明第四实施方式的运用管理装置400的结构与用图8说明的第三实施方式的运用管理装置300的结构相同,因此,将图8的“300”简单地替换为“400”而持续说明。但是,运用管理装置400中故障期间抽取单元110还具有以下功能:将故障期间分为从正常阈值以下的值连续增加到故障阈值以上的值的故障开始期间、在故障开始期间后正常阈值以下的值连续一定数量的故障结束期间、以及夹在故障开始期间与故障结束期间之间的故障持续期间。并且,异常度变化信息计算单元111和异常度分布信息计算单元113还具有对各期间的异常度变化信息和异常度分布信息进行计算的功能
图13是表示上述运用管理装置400中由异常度变化信息计算单元111和异常度分布信息计算单元113计算出异常度分布的一例的曲线472。曲线472由表示异常度的时序变化的曲线472a和表示异常度分布的堆积曲线472b构成。在第一实施方式中的用图4说明的例子中,故障期间1和故障期间2分别成为一样的异常度分布。
而在图13所示的运用管理装置400的情况下,故障期间抽取单元110将各故障期间分为故障开始期间、故障持续期间、故障结束期间3个期间。另外,异常度变化信息计算单元111和异常度分布信息计算单元113按分出的期间生成异常度的分布。
图14表示上述运用管理装置400中管理者对话单元105对管理者提示的显示画面445的例子。显示画面445相对于第三实施方式中用图12说明的显示画面344,故障1和故障2的分布画面被分为3个堆积曲线。例如,故障1在故障开始期间为“Web”组的异常多的分布,在故障持续期间为“DB”组的异常分布多的分布。由此,管理者能够掌握故障发生时为怎样的分布,然后会影响到什么范围。
第三实施方式中,如果故障期间不结束就不能抽取准确的分布,另外,存在如下问题,即当故障长期持续时,故障发生时的分布受到后续的异常的分布影响而难以知晓。而本实施方式中,能够将故障发生时的分布与以后持续的期间的分布相分离,因此,故障发生时能够迅速地掌握故障内容,并将故障原因(发生时的分布)和影响范围(持续时的分布)区别开。并且能够根据故障结束时的分布掌握向正常状态恢复的状况。
以上用附图所示的特定实施方式对本发明进行了说明,但本发明不限于附图所示的实施方式,只要具有本发明的效果,还可以采用已知的任何结构。
本申请以2008年9月18日申请的日本特愿2008-239068为基础主张优先权,并引入其公开的全部内容。
工业上的可利用性
本发明能应用于提供WEB服务、业务服务这样的信息通信服务的信息处理装置,在该信息处理装置中检测系统的性能劣化并局部化的运用管理装置。

Claims (11)

1.一种运用管理装置,通过从构成系统的一个或多个被管理装置中取得多种性能项目的每一种性能项目的性能信息,来对上述被管理装置进行运用管理,
该运用管理装置的特征在于,其包括信息收集单元、相关模型生成单元、相关变化分析单元以及故障期间抽取单元,
上述信息收集单元在将上述性能项目或上述被管理装置作为要素时,从上述要素中至少收集表示关于第一要素的性能信息的时序变化的第一性能信息和表示关于第二要素的性能信息的时序变化的第二性能信息;
上述相关模型生成单元导出上述第一性能信息和上述第二性能信息之间的相关函数,并根据该相关函数来生成相关模型;
上述相关变化分析单元判断上述信息收集单元取得的当前的上述第一性能信息和上述第二性能信息在一定误差范围内是否满足由上述相关函数表示出的关系;以及
上述故障期间抽取单元在上述相关变化分析单元判断为上述第一性能信息和上述第二性能信息没有满足由上述相关函数表示出的关系的状态时,将该状态的期间作为故障期间来进行抽取,
还包括异常度变化信息计算单元,该异常度变化信息计算单元在上述故障期间抽取单元抽取出的故障期间内,将关于异常度的统计信息作为异常度变化信息来进行计算,其中,上述异常度是上述第一性能信息和上述第二性能信息偏离上述相关函数的程度。
2.根据权利要求1所述的运用管理装置,其特征在于,还包括性能分类信息存储单元和异常度分布信息计算单元,
上述性能分类信息存储单元将上述性能信息分为多种,并将其作为性能分类信息来进行保存;
上述异常度分布信息计算单元从存储在上述性能分类信息存储单元中的性能分类信息中抽取在上述故障期间内变化的相关关系中所包含的上述性能信息及其异常度,来计算表示上述性能信息的每个上述要素的异常度的分布的异常度分布信息。
3.根据权利要求2所述的运用管理装置,其特征在于,还包括性能分类信息生成单元,该性能分类信息生成单元基于上述相关模型,根据上述性能信息之间的相关关系的强度和相关的上述要素的模式来对上述性能信息进行分类,从而生成性能分类信息。
4.根据权利要求2所述的运用管理装置,其特征在于,还包括故障分析单元、过去故障信息存储单元以及类似故障检索单元,
上述故障分析单元根据上述第一性能信息和上述第二性能信息来检测故障的发生;
上述过去故障信息存储单元存储通过上述故障分析单元分析出的故障履历;
上述类似故障检索单元通过将上述过去故障信息存储单元中存储的信息与上述异常度变化信息和上述异常度分布信息进行比较,来检索与这些异常度变化信息和异常度分布信息类似的故障。
5.根据权利要求3所述的运用管理装置,其特征在于,还包括故障要素推断单元,该故障要素推断单元根据上述相关模型和上述性能信息中包含的分类信息及顺序信息,按每个上述要素来预测该要素发生故障且波及其他要素时假定的异常度分布模式,并通过比较上述异常度分布信息与异常度分布模式来推断在哪个要素中发生了上述故障。
6.根据权利要求1所述的运用管理装置,其特征在于,
上述故障期间抽取单元将上述故障期间分为故障开始期间、故障持续期间和故障结束期间。
7.一种运用管理方法,通过从构成系统的一个或多个被管理装置中取得多种性能项目的每一种性能项目的性能信息,来对上述被管理装置进行运用管理,该运用管理方法的特征在于:
在将上述性能项目或上述被管理装置作为要素的情况下,从上述要素中至少收集表示关于第一要素的性能信息的时序变化的第一性能信息和表示关于第二要素的性能信息的时序变化的第二性能信息;
导出上述第一性能信息和上述第二性能信息之间的相关函数,并根据该相关函数来生成相关模型;
判断上述取得的上述第一性能信息和上述第二性能信息在一定误差范围内是否满足由上述相关函数表示出的关系;
当判断为上述第一性能信息和上述第二性能信息没有满足由上述相关函数表示出的关系的状态时,将该状态的期间作为故障期间来进行抽取;
在上述抽取出的故障期间,将关于异常度的统计信息作为异常度变化信息来进行计算,其中,上述异常度是上述第一性能信息和上述第二性能信息偏离上述相关函数的程度。
8.根据权利要求7所述的运用管理方法,其特征在于,
将上述性能信息分为多种,并将其作为性能分类信息来进行保存;
通过从性能分类信息中抽取在上述故障期间内变化的相关关系中所包含的上述性能信息及其异常度,来计算表示上述性能信息的每个上述要素的异常度的分布的异常度分布信息。
9.根据权利要求8所述的运用管理方法,其特征在于,
基于上述相关模型,根据上述性能信息之间的相关关系的强度和相关的上述要素的模式来对上述性能信息进行分类,从而生成性能分类信息。
10.根据权利要求8所述的运用管理方法,其特征在于,
通过将所存储的过去的故障履历信息与上述异常度变化信息和上述异常度分布信息进行比较,来检索与这些异常度变化信息和异常度分布信息类似的故障。
11.根据权利要求9所述的运用管理方法,其特征在于,
根据上述相关模型和上述性能信息中包含的分类信息和顺序信息,按每个上述要素来预测该要素发生故障且波及其他要素时假定的异常度分布模式,并通过比较上述异常度分布信息与异常度分布模式来推断在哪个要素中发生了上述故障。
CN200980127693.8A 2008-09-18 2009-09-14 运用管理装置、运用管理方法和运用管理程序 Active CN102099795B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008239068 2008-09-18
JP2008-239068 2008-09-18
PCT/JP2009/065990 WO2010032701A1 (ja) 2008-09-18 2009-09-14 運用管理装置、運用管理方法、および運用管理プログラム

Publications (2)

Publication Number Publication Date
CN102099795A CN102099795A (zh) 2011-06-15
CN102099795B true CN102099795B (zh) 2014-08-13

Family

ID=42039525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980127693.8A Active CN102099795B (zh) 2008-09-18 2009-09-14 运用管理装置、运用管理方法和运用管理程序

Country Status (5)

Country Link
US (2) US8700953B2 (zh)
EP (1) EP2330510B1 (zh)
JP (1) JP5375829B2 (zh)
CN (1) CN102099795B (zh)
WO (1) WO2010032701A1 (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5375829B2 (ja) * 2008-09-18 2013-12-25 日本電気株式会社 運用管理装置、運用管理方法、および運用管理プログラム
EP2228770B1 (de) * 2009-03-10 2012-08-01 Siemens Aktiengesellschaft Verfahren und Datenverarbeitungsgerät zur Erzeugung und zur Ausgabe eines mehrdimensionalen Diagramms mit mindestens zwei Graphen
US9513403B2 (en) * 2009-07-27 2016-12-06 Peck Labs, Inc Methods and systems for displaying customized icons
JP5416630B2 (ja) * 2010-03-24 2014-02-12 株式会社日立製作所 移動体異常判断支援システム
JP5267736B2 (ja) * 2010-06-07 2013-08-21 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体
JP5668425B2 (ja) * 2010-11-17 2015-02-12 日本電気株式会社 障害検知装置、情報処理方法、およびプログラム
US8677191B2 (en) 2010-12-13 2014-03-18 Microsoft Corporation Early detection of failing computers
EP2657843B1 (en) * 2010-12-20 2020-04-08 Nec Corporation Operation management device, operation management method, and program
US10558544B2 (en) 2011-02-14 2020-02-11 International Business Machines Corporation Multiple modeling paradigm for predictive analytics
JP2012190378A (ja) * 2011-03-14 2012-10-04 Kddi Corp サーバシステム
WO2012128388A1 (ja) 2011-03-23 2012-09-27 日本電気株式会社 運用管理システム、運用管理方法、及びプログラム
JP5621937B2 (ja) * 2011-08-24 2014-11-12 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
CN102609346B (zh) * 2012-01-16 2014-12-03 深信服网络科技(深圳)有限公司 基于业务操作的监控方法和装置
CN104137078B (zh) * 2012-01-23 2017-03-22 日本电气株式会社 操作管理设备、操作管理方法和程序
CN104205063B (zh) 2012-03-14 2017-05-24 日本电气株式会社 操作管理装置、操作管理方法和程序
US9372786B1 (en) * 2012-06-13 2016-06-21 Amazon Technologies, Inc. Constructing state-transition functions for mobile devices
CN104798049B (zh) * 2012-11-20 2017-08-04 日本电气株式会社 操作管理装置和操作管理方法
US9761027B2 (en) 2012-12-07 2017-09-12 General Electric Company Methods and systems for integrated plot training
US20140160152A1 (en) * 2012-12-07 2014-06-12 General Electric Company Methods and systems for integrated plot training
JP5958348B2 (ja) * 2013-01-07 2016-07-27 富士通株式会社 分析方法、分析装置、及び分析プログラム
JP5948257B2 (ja) * 2013-01-11 2016-07-06 株式会社日立製作所 情報処理システム監視装置、監視方法、及び監視プログラム
CN105027088B (zh) 2013-02-18 2018-07-24 日本电气株式会社 系统分析设备和系统分析方法
JP6310689B2 (ja) 2013-12-16 2018-04-11 株式会社日立製作所 管理サーバおよび管理サーバの制御方法
JP5948358B2 (ja) * 2014-02-13 2016-07-06 日本電信電話株式会社 監視機器情報分析装置及び方法及びプログラム
US9432256B2 (en) 2014-03-27 2016-08-30 Hitachi, Ltd. Resource management method and resource management system
JP6078019B2 (ja) * 2014-04-02 2017-02-08 三菱電機ビルテクノサービス株式会社 設備監視装置及びプログラム
US9558093B2 (en) * 2014-07-30 2017-01-31 Microsoft Technology Licensing, Llc Visual tools for failure analysis in distributed systems
US10069699B2 (en) 2015-02-26 2018-09-04 Nippon Telegraph And Telephone Corporation Monitoring device information analyzing device and method, and non-transitory storage medium storing program
JP6708203B2 (ja) 2015-03-17 2020-06-10 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
FR3043223A1 (fr) 2015-11-02 2017-05-05 Bull Sas Mecanisme d'analyse de correlation lors de la degradation des performances d'une chaine applicative.
US11615273B2 (en) * 2016-01-27 2023-03-28 Nippon Telegraph And Telephone Corporation Creating apparatus, creating method, and creating program
CN107203450B (zh) * 2016-03-16 2020-06-02 伊姆西Ip控股有限责任公司 故障的分类方法和设备
JP6717067B2 (ja) * 2016-06-13 2020-07-01 富士通株式会社 対処履歴分析プログラム、方法、及び装置
JP2018066084A (ja) * 2016-10-19 2018-04-26 村田機械株式会社 紡績機械管理システム及び管理方法
US20190303231A1 (en) * 2016-12-27 2019-10-03 Nec Corporation Log analysis method, system, and program
JP6820473B2 (ja) 2017-01-18 2021-01-27 富士通株式会社 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
EP3407273A1 (de) * 2017-05-22 2018-11-28 Siemens Aktiengesellschaft Verfahren und anordnung zur ermittlung eines anomalen zustands eines systems
US11294758B2 (en) * 2017-11-30 2022-04-05 Vmware, Inc. Automated methods and systems to classify and troubleshoot problems in information technology systems and services
JP6842440B2 (ja) * 2018-04-25 2021-03-17 株式会社日立製作所 性能分析方法および管理計算機
JP2019200618A (ja) * 2018-05-16 2019-11-21 日本電信電話株式会社 作成装置、作成方法、および作成プログラム
CN108923952B (zh) * 2018-05-31 2021-11-30 北京百度网讯科技有限公司 基于服务监控指标的故障诊断方法、设备及存储介质
US20220121191A1 (en) * 2019-02-14 2022-04-21 Nec Corporation Time-series data processing method
JP7302439B2 (ja) 2019-10-30 2023-07-04 富士通株式会社 システム分析方法、およびシステム分析プログラム
US11221908B1 (en) * 2021-03-02 2022-01-11 International Business Machines Corporation Discovery of an inexplicit link between a change and an incident in a computing environment
CN114471408B (zh) * 2022-01-27 2023-08-08 广东天航动力科技有限公司 一种粉体材料生产用自动监控系统
JP7302908B1 (ja) 2022-02-21 2023-07-04 Necプラットフォームズ株式会社 運用管理システム、運用管理方法及び運用管理のためのコンピュータプログラム

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06175626A (ja) 1992-10-06 1994-06-24 Hitachi Ltd プラント監視制御装置及びプラント監視方法
JP2002099448A (ja) 2000-09-21 2002-04-05 Ntt Data Corp 性能監視装置、及びその方法
US7444263B2 (en) * 2002-07-01 2008-10-28 Opnet Technologies, Inc. Performance metric collection and automated analysis
JP4089339B2 (ja) 2002-07-31 2008-05-28 日本電気株式会社 障害情報表示装置及びプログラム
US7668953B1 (en) * 2003-11-13 2010-02-23 Cisco Technology, Inc. Rule-based network management approaches
JP3922375B2 (ja) * 2004-01-30 2007-05-30 インターナショナル・ビジネス・マシーンズ・コーポレーション 異常検出システム及びその方法
JP4183185B2 (ja) 2004-03-10 2008-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 診断装置、検出装置、制御方法、検出方法、プログラム、及び記録媒体
JP4652741B2 (ja) 2004-08-02 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 異常検出装置、異常検出方法、異常検出プログラム、及び記録媒体
JP2006092358A (ja) 2004-09-24 2006-04-06 Fujitsu Ltd トレースデータの採取方法、採取プログラム、およびその採取装置
JP2006146668A (ja) 2004-11-22 2006-06-08 Ntt Data Corp 運用管理支援装置及び運用管理支援プログラム
US7424666B2 (en) * 2005-09-26 2008-09-09 Intel Corporation Method and apparatus to detect/manage faults in a system
US7590513B2 (en) * 2006-01-30 2009-09-15 Nec Laboratories America, Inc. Automated modeling and tracking of transaction flow dynamics for fault detection in complex systems
JP4705484B2 (ja) * 2006-02-03 2011-06-22 新日鉄ソリューションズ株式会社 性能監視装置、性能監視方法及びプログラム
JP4918805B2 (ja) 2006-03-31 2012-04-18 富士通株式会社 システム分析プログラム、システム分析方法およびシステム分析装置
JP4896573B2 (ja) 2006-04-20 2012-03-14 株式会社東芝 障害監視システムと方法、およびプログラム
EP1895416B1 (en) * 2006-08-25 2011-07-06 Accenture Global Services Limited Data visualization for diagnosing computing systems
JP2008059102A (ja) 2006-08-30 2008-03-13 Fujitsu Ltd コンピュータ資源監視プログラム
JP4413915B2 (ja) * 2006-12-13 2010-02-10 株式会社東芝 異常兆候検出装置および方法
US20080155336A1 (en) * 2006-12-20 2008-06-26 International Business Machines Corporation Method, system and program product for dynamically identifying components contributing to service degradation
JP2008191849A (ja) 2007-02-02 2008-08-21 Ns Solutions Corp 稼働管理装置、情報処理装置、稼働管理装置の制御方法、情報処理装置の制御方法及びプログラム
JP4985026B2 (ja) 2007-03-28 2012-07-25 株式会社デンソー 緩衝装置
US8250408B1 (en) * 2007-04-02 2012-08-21 Hewlett-Packard Development Company, L.P. System diagnosis
US8095830B1 (en) * 2007-04-03 2012-01-10 Hewlett-Packard Development Company, L.P. Diagnosis of system health with event logs
JP4990018B2 (ja) * 2007-04-25 2012-08-01 株式会社日立製作所 装置性能管理方法、装置性能管理システム、および管理プログラム
JP4872945B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP4872944B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
US8015454B1 (en) * 2008-06-02 2011-09-06 Quest Software, Inc. Computer systems and methods for predictive performance management of data transactions
US8230269B2 (en) * 2008-06-17 2012-07-24 Microsoft Corporation Monitoring data categorization and module-based health correlations
WO2010062435A1 (en) * 2008-09-04 2010-06-03 Telcordia Technologies, Inc. Computing diagnostic explanations of network faults from monitoring data
JP5375829B2 (ja) * 2008-09-18 2013-12-25 日本電気株式会社 運用管理装置、運用管理方法、および運用管理プログラム
US7934131B1 (en) * 2009-02-24 2011-04-26 Google Inc. Server farm diagnostic and status system
US8959401B2 (en) * 2009-10-15 2015-02-17 Nec Corporation System operations management apparatus, system operations management method and program storage medium
CN104205063B (zh) * 2012-03-14 2017-05-24 日本电气株式会社 操作管理装置、操作管理方法和程序

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JP特开2006-146668A 2006.06.08
JP特开2006-92358A 2006.04.06
JP特开2007-207117A 2007.08.16
JP特开2007-272693A 2007.10.18
JP特开2008-191849A 2008.08.21
JP特开2008-59102A 2008.03.13

Also Published As

Publication number Publication date
JPWO2010032701A1 (ja) 2012-02-09
EP2330510A1 (en) 2011-06-08
EP2330510A4 (en) 2015-08-12
US20110161743A1 (en) 2011-06-30
US20140173363A1 (en) 2014-06-19
JP5375829B2 (ja) 2013-12-25
US9507687B2 (en) 2016-11-29
CN102099795A (zh) 2011-06-15
WO2010032701A1 (ja) 2010-03-25
EP2330510B1 (en) 2019-12-25
US8700953B2 (en) 2014-04-15

Similar Documents

Publication Publication Date Title
CN102099795B (zh) 运用管理装置、运用管理方法和运用管理程序
KR101984730B1 (ko) 서버 장애 자동 예측 시스템 및 자동 예측 방법
Borghesi et al. Anomaly detection using autoencoders in high performance computing systems
CN101470426B (zh) 一种故障检测的方法和系统
JP5098821B2 (ja) 監視対象システムの障害等の予兆を検出する監視装置及び監視方法
CN112134356A (zh) 基于大数据分析的智能电网故障监控方法及系统
AU2019275633B2 (en) System and method of automated fault correction in a network environment
JP2004531815A (ja) 予測的状態監視のための診断システムおよび方法
KR102432284B1 (ko) It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법
US20190033351A1 (en) Data cost effective fast similarity search with priority access
KR20190013017A (ko) 센서 군집화 기반의 설비 건강 모니터링 방법 및 장치
US20190056436A1 (en) Similarity detection of abnormal waveforms using pmu measurement
CN112416705A (zh) 一种异常信息的处理方法和装置
KR20170084445A (ko) 시계열 데이터를 이용한 이상 감지 방법 및 그 장치
US10444729B2 (en) Monitoring device, machine tool, and monitoring system
Gupta et al. A supervised deep learning framework for proactive anomaly detection in cloud workloads
KR102315580B1 (ko) 건물의 화재 예측 분석 장치 및 방법
CN113326177A (zh) 一种指标异常检测方法、装置、设备及存储介质
CN113835918A (zh) 一种服务器故障分析方法及装置
CN115658441B (zh) 一种基于日志的家政业务系统异常监控方法、设备及介质
CN113472881B (zh) 在线终端设备的统计方法和装置
CN112737120B (zh) 区域电网控制报告的生成方法、装置和计算机设备
CN114676002A (zh) 基于phm技术的系统运维方法及装置
EP3706048A1 (en) Anomaly prediction in an industrial system
JP2020135739A (ja) 障害予兆検知システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant