JP2015005077A - Failure information management method, failure information management device and program - Google Patents

Failure information management method, failure information management device and program Download PDF

Info

Publication number
JP2015005077A
JP2015005077A JP2013129133A JP2013129133A JP2015005077A JP 2015005077 A JP2015005077 A JP 2015005077A JP 2013129133 A JP2013129133 A JP 2013129133A JP 2013129133 A JP2013129133 A JP 2013129133A JP 2015005077 A JP2015005077 A JP 2015005077A
Authority
JP
Japan
Prior art keywords
module
call
failure
information management
cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013129133A
Other languages
Japanese (ja)
Other versions
JP5932721B2 (en
Inventor
生国 曲
Seikoku Magari
生国 曲
直文 田口
Naofumi Taguchi
直文 田口
博文 新家
Hirobumi Araya
博文 新家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2013129133A priority Critical patent/JP5932721B2/en
Publication of JP2015005077A publication Critical patent/JP2015005077A/en
Application granted granted Critical
Publication of JP5932721B2 publication Critical patent/JP5932721B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve examination efficiency by detecting a failure having the same causing spot by a method other than retrieval by a key word.SOLUTION: In a failure information management device, a route of trouble propagation (referred to as the route) along a call relation between a phenomenon module and a cause module, the number of passing times through each module of the route ([module call frequency]), and the number of passing times through each call relation ([call frequency between modules]) are managed relative to each failure generated in the past, and a cause module is retrieved from a phenomenon module of a trouble phenomenon generated newly, based on the information.

Description

本発明は、障害情報管理方法これを実施する障害情報管理装置、プログラムに関する。   The present invention relates to a failure information management method and a failure information management apparatus and program for implementing the failure information management method.

システム運用の際に、多数の障害発生した場合、その障害が他の障害と同一の原因による可能性がある。しかし、各々の障害を調査しないと原因がわからないため、無駄な時間がかかってしまう。   When a large number of failures occur during system operation, the failures may be caused by the same cause as other failures. However, if each failure is not investigated, the cause will not be known, and it will take time.

障害の現象、原因、対処内容、ログ情報を障害票として記述し、記述上の類似性から、同じような原因の可能性がある障害をシステムが自動的に検出することで、類似障害の調査効率を上げる方法が知られている(例えば、特許文献1、特許文献2参照)。   Investigate similar faults by describing fault phenomena, causes, countermeasures, and log information as fault slips, and automatically detecting faults that may have similar causes based on similarities in description. Methods for increasing efficiency are known (see, for example, Patent Document 1 and Patent Document 2).

特開2002−251295号公報JP 2002-251295 A 特開2006−99249号公報JP 2006-99249 A

上記特許文献1に開示の技術では、現象、原因、対処内容を着目し、キーワードが似ている障害情報が提示できる。しかし、同じ現象でも人によって文章表現が異なる場合があり、キーワードの検索で似ている障害情報を検出できないことがある。また、これに対し、上記特許文献2に開示の技術では、ログ情報を着目し、ログ情報が似ている障害情報を提示し、検索精度が向上させた。しかし、原因箇所が同一の場合でも見かけの現象、ログ情報が違って見えることがあり、このような場合にはキーワードの検索やログ情報の類似判定では同一原因の障害情報の検出はできない。   With the technology disclosed in Patent Document 1, failure information with similar keywords can be presented by paying attention to the phenomenon, cause, and countermeasure content. However, even in the same phenomenon, there are cases where the sentence expression is different depending on the person, and similar fault information may not be detected by keyword search. On the other hand, in the technique disclosed in Patent Document 2, attention is paid to log information, failure information with similar log information is presented, and search accuracy is improved. However, even when the cause is the same, the apparent phenomenon and log information may look different. In such a case, failure information of the same cause cannot be detected by keyword search or log information similarity determination.

本発明の目的は、キーワードによる検索やログ情報の類似判定以外の方法で、原因箇所が同一の障害の検出を可能にすることで、調査効率を向上させることである。   An object of the present invention is to improve the investigation efficiency by making it possible to detect a fault having the same cause by a method other than a search using a keyword or a similarity determination of log information.

上記課題を解決するための代表的な一例は次の通りである。すなわち、本発明は、障害情報管理装置における障害情報管理方法である。   A typical example for solving the above problems is as follows. That is, the present invention is a failure information management method in a failure information management apparatus.

前記障害情報管理装置は、プログラム解析でモジュール関連情報を格納するモジュール呼び出し階層テーブルと、障害管理情報を格納する障害管理テーブルと、障害伝播ルートと発生回数を記録するモジュール間呼び出し回数テーブル、モジュール呼び出し回数テーブルを具備する。そして、障害情報管理装置により、入力部から取得した現象モジュールをキーとして前記モジュール呼び出し階層テーブルから関連モジュールを抽出し、現象モジュールから各モジュールまでの呼び出し関係を作成し、前記各モジュールにおいて、モジュールをキーとして前記モジュール呼び出し回数テーブルより呼び出し回数情報を取得し、
呼び出し関係において、呼び出し先と呼び出し元をキーとして前記モジュール間呼び出し回数テーブルより呼び出し回数情報を取得し、モジュールが障害になる確率かける現象モジュールからそのモジュールまで伝播する確率により原因推測値を算出することで、原因推測値から原因モジュールを特定し、原因箇所を特定する、ことを特徴とする。
The fault information management device includes a module call hierarchy table that stores module-related information in program analysis, a fault management table that stores fault management information, an inter-module call count table that records fault propagation routes and the number of occurrences, and module call A number table is provided. Then, the failure information management device extracts a related module from the module call hierarchy table using the phenomenon module acquired from the input unit as a key, creates a call relationship from the phenomenon module to each module, and in each module, Obtain the call count information from the module call count table as a key,
In the call relationship, the call count information is obtained from the inter-module call count table using the call destination and the caller as keys, and the cause estimation value is calculated based on the probability of propagation from the module to the module where the probability that the module will fail Then, the cause module is identified from the cause estimated value, and the cause location is identified.

本発明によれば、障害発生時、現象モジュールから原因モジュールを推測することで、原因箇所が同一の既知の障害を抽出することができ、障害調査の効率を向上させることができる。   According to the present invention, when a failure occurs, by estimating the cause module from the phenomenon module, a known failure having the same cause location can be extracted, and the efficiency of failure investigation can be improved.

障害情報管理装置1のハードウェア構成例を示す図である。2 is a diagram illustrating a hardware configuration example of a failure information management apparatus 1. FIG. モジュール関連とモジュールの呼び出し回数の概念を示す図である。It is a figure which shows the concept of module relation and the number of times of calling of a module. 障害情報管理装置1が具備する障害情報管理テーブル114のデータ構成例を示す図である。It is a figure which shows the example of a data structure of the failure information management table 114 with which the failure information management apparatus 1 is provided. 障害情報管理装置1が具備するモジュール呼び出し階層テーブル115のデータ構成例を示す図である。It is a figure which shows the example of a data structure of the module call hierarchy table 115 with which the failure information management apparatus 1 is provided. 障害情報管理装置1が具備するモジュール間呼び出し回数テーブル116のデータ構成例を示す図である。It is a figure which shows the example of a data structure of the frequency | count number-of-calls module 116 which the failure information management apparatus 1 has. 障害情報管理装置1が具備するモジュール呼び出し回数テーブル117のデータ構成例を示す図である。It is a figure which shows the data structural example of the module call frequency table 117 which the failure information management apparatus 1 comprises. 障害情報管理装置1が具備するモジュール呼び出し階層解析機能111の処理を示すフローチャートである。It is a flowchart which shows the process of the module call hierarchy analysis function 111 which the failure information management apparatus 1 comprises. 障害情報管理装置1が具備する原因モジュール推測機能112の処理を示すフローチャートである。It is a flowchart which shows the process of the cause module estimation function 112 which the failure information management apparatus 1 comprises. 障害情報管理装置1が具備する原因モジュール推測の処理を示す図である。It is a figure which shows the process of cause module estimation which the failure information management apparatus 1 comprises. 障害情報管理装置1が具備する障害情報管理機能113の処理を示すフローチャートである。It is a flowchart which shows the process of the failure information management function 113 which the failure information management apparatus 1 comprises. 障害情報管理装置1の表示部102に表示されるメニュー画面例を示す図である。It is a figure which shows the example of a menu screen displayed on the display part 102 of the failure information management apparatus 1. FIG. 障害情報管理装置1の表示部102に表示されるモジュール呼び出し階層解析機能画面例を示す図である。It is a figure which shows the example of a module call hierarchy analysis function screen displayed on the display part 102 of the failure information management apparatus 1. FIG. 障害情報管理装置1の表示部102に表示される原因モジュール推測機能画面例を示す図である。It is a figure which shows the example of a cause module estimation function screen displayed on the display part 102 of the failure information management apparatus 1. FIG. 障害情報管理装置1の表示部102に表示される障害情報管理機能画面例を示す図である。It is a figure which shows the example of a failure information management function screen displayed on the display part 102 of the failure information management apparatus 1. FIG.

以下、本発明の一実施例について、図面を参照して詳細に説明する。   Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.

図1は、本実施例に係わる障害情報管理装置1のハードウェア構成例を示す図である。障害情報管理装置1は、記憶部101、表示部102と、入力部103と、制御部104とを具備する。各部は、バス(BUS)によって接続されている。記憶部101には、モジュール呼び出し階層解析機能111、原因モジュール推測機能112及び障害情報管理機能113からなるプログラム110と、モジュール呼び出し階層テーブル114、障害情報管理テーブル115、モジュール間呼び出し回数テーブル116及びモジュール呼び出し回数テーブル117が格納されている。プログラム110は、制御部104により記憶部101のプログラム格納領域118から図示していないメモリにロードされ実行される。   FIG. 1 is a diagram illustrating a hardware configuration example of a failure information management apparatus 1 according to the present embodiment. The failure information management apparatus 1 includes a storage unit 101, a display unit 102, an input unit 103, and a control unit 104. Each unit is connected by a bus (BUS). The storage unit 101 includes a program 110 including a module call hierarchy analysis function 111, a cause module estimation function 112, and a failure information management function 113, a module call hierarchy table 114, a failure information management table 115, an inter-module call count table 116, and a module. A call count table 117 is stored. The program 110 is loaded into a memory (not shown) from the program storage area 118 of the storage unit 101 and executed by the control unit 104.

図2は、モジュール関連とモジュールの呼び出し回数の概念を示す図である。   FIG. 2 is a diagram illustrating the concept of module association and the number of module calls.

モジュール201は、ある機能を実現するプログラム(今回の例ではP0001とする)であり、他のモジュール(今回の例ではF0001とする)を呼び出す機能を有する。この呼び出し関係は実線矢印203で表現する。この関連はソースの解析によって生成する。モジュール呼び出し回数202は、すべてのモジュールごとに設けたカウンタである。障害発生時は現象モジュールから原因モジュールまで確定したルート上にあるすべてのモジュールの呼び出し回数に1を加算する。またモジュール間呼び出し回数204は、呼び出し関係のある2モジュール間に設けたカウンタである。障害発生時は現象モジュールから原因モジュール間まで確定したルート上のすべての2モジュール間のモジュール間呼び出し回数に1を加算する。図の例で現象モジュールP0001で障害が発生し、原因モジュールはD0001の場合、ルート(P0001−F0001−D0001)に対して、モジュール(P0001、F0001、D0001)のモジュール呼び出し回数202に1を加算し、2モジュール間(P0001−F0001、F0001−D0001)のモジュール間呼び出し回数204に1を加算する。   The module 201 is a program that realizes a certain function (P0001 in this example), and has a function of calling another module (F0001 in this example). This calling relationship is represented by a solid arrow 203. This association is generated by source analysis. The module call count 202 is a counter provided for every module. When a failure occurs, 1 is added to the number of calls of all modules on the route determined from the phenomenon module to the cause module. The inter-module call count 204 is a counter provided between two modules having a call relationship. When a failure occurs, 1 is added to the number of inter-module calls between all two modules on the route determined from the phenomenon module to the cause module. In the example shown in the figure, when a failure occurs in the phenomenon module P0001 and the cause module is D0001, 1 is added to the module call count 202 of the modules (P0001, F0001, D0001) for the route (P0001-F0001-D0001). 1 is added to the number of inter-module calls 204 between two modules (P0001-F0001, F0001-D0001).

図3は、障害情報管理装置1が具備するモジュール呼び出し階層テーブル114を示す図である。   FIG. 3 is a diagram showing the module call hierarchy table 114 provided in the failure information management apparatus 1.

モジュール呼び出し階層テーブル114は、ソース解析によってモジュール呼び出し関係を解析した結果を格納する。2モジュール間の呼び出し関係の呼び出し元を呼び出し元302に格納し、呼び出し先を呼び出し先303に格納する。通番301には、モジュール呼び出し階層テーブル114にレコードを追加する度に値を採番し、格納する。   The module call hierarchy table 114 stores the result of analyzing the module call relationship by source analysis. The caller of the call relationship between the two modules is stored in the caller 302, and the callee is stored in the callee 303. The serial number 301 is numbered and stored every time a record is added to the module call hierarchy table 114.

図4は、障害情報管理装置1が具備する障害情報管理テーブルを示す示す図である。   FIG. 4 is a diagram illustrating a failure information management table provided in the failure information management apparatus 1.

障害情報管理テーブル115は、障害情報管理時に利用者により入力部103を用いて入力された現象モジュール、現象内容、原因内容および原因モジュールおよび対策内容を格納するテーブルであり、障害情報管理機能113が実行された際に更新される。図5に示すように、障害情報管理テーブル115は、通番401と、障害ID402と、現象モジュール403と、原因内容404と、原因モジュール405と、対策内容406とをそれぞれ対応付けて記憶する。ここで、通番401には、障害情報管理テーブル115にレコードが追加される度に採番された値が格納される。障害ID402には、障害情報管理テーブル115にレコードが追加される度に障害識別子と採番されたちから生成したIDが格納される。現象モジュール403には、障害情報管理機能113の実行時に利用者により入力部103を用いて入力された現象モジュールが格納される。原因内容404には、障害情報管理機能113の実行時に利用者により入力部103を用いて入力された原因が格納される。原因モジュール405には、障害情報管理機能112の実行時に利用者により入力部103を用いて入力された原因モジュールが格納される。対策内容406には、障害情報管理機能113の実行時に利用者により入力部103を用いて入力された対策情報が格納される。   The failure information management table 115 is a table that stores a phenomenon module, a phenomenon content, a cause content, a cause module, and a countermeasure content input by the user using the input unit 103 at the time of failure information management. Updated when executed. As shown in FIG. 5, the failure information management table 115 stores a serial number 401, a failure ID 402, a phenomenon module 403, a cause content 404, a cause module 405, and a countermeasure content 406 in association with each other. Here, the serial number 401 stores a value assigned each time a record is added to the failure information management table 115. The failure ID 402 stores an ID generated from the failure identifier and the number assigned each time a record is added to the failure information management table 115. The phenomenon module 403 stores a phenomenon module input by the user using the input unit 103 when executing the failure information management function 113. The cause content 404 stores the cause input by the user using the input unit 103 when executing the failure information management function 113. The cause module 405 stores the cause module input by the user using the input unit 103 when the failure information management function 112 is executed. The countermeasure content 406 stores countermeasure information input by the user using the input unit 103 when the failure information management function 113 is executed.

図5は、障害情報管理装置1が具備するモジュール間呼び出し回数テーブル116のデータ構成例を示す図である。   FIG. 5 is a diagram illustrating a data configuration example of the inter-module call count table 116 included in the failure information management apparatus 1.

モジュール間呼び出し回数テーブル116は、モジュール間呼び出し回数504を格納するテーブルである。モジュール間呼び出し回数504は呼び出し元と呼び出し先で一意に特定するため、呼び出し元を呼び出し元502、呼び出し先を呼び出し先503に格納する。呼び出し回数は呼び出し回数504に格納する。通番501には、モジュール間呼び出し回数テーブル116にレコードを追加する度に値を採番し、格納する。   The inter-module call count table 116 is a table that stores the inter-module call count 504. Since the inter-module call count 504 is uniquely specified by the caller and the callee, the caller is stored in the caller 502 and the callee is stored in the callee 503. The number of calls is stored in the number of calls 504. The serial number 501 is numbered and stored every time a record is added to the inter-module call count table 116.

図6は、障害情報管理装置1が具備するモジュール呼び出し回数テーブル117のデータ構成例を示す図である。   FIG. 6 is a diagram illustrating a data configuration example of the module call count table 117 included in the failure information management apparatus 1.

モジュール呼び出し回数テーブル117は、モジュール呼び出し回数603を格納するテーブルである。モジュール呼び出し回数603はモジュールごとに管理する回数のため、当該モジュールをモジュール602に格納する。呼び出し回数は呼び出し回数603に格納する。通番601には、モジュール呼び出し回数テーブル117にレコードを追加する度に値を採番し、格納する。   The module call count table 117 is a table that stores the module call count 603. Since the module call count 603 is a count managed for each module, the module is stored in the module 602. The number of calls is stored in the number of calls 603. The serial number 601 is assigned a value each time a record is added to the module call count table 117 and stored.

図7は、障害情報管理装置1が具備するモジュール呼び出し階層解析機能111の処理を示すフローチャートである。   FIG. 7 is a flowchart showing processing of the module call hierarchy analysis function 111 provided in the failure information management apparatus 1.

モジュール呼び出し階層解析機能111は、利用者により入力部103を用いて図11に示すメニュー画面でモジュール呼び出し階層解析機能が選択されることで起動し(S701)、図12に示すモジュール呼び出し階層解析機能画面を表示する(S702)。利用者により入力部103を用いてソースのパス(今回の例ではC:\source\とする)を指定するか、利用者により入力部103を用いてモジュール解析機能画面の参照ボタンが押下されることで、ソースのパスを指定し、利用者により入力部103を用いてモジュール解析機能画面の実行ボタンが押下されることで、モジュール解析を実行する(S703)。すべてのモジュールを解析後、各モジュール間の呼び出し関係の呼び出し元と呼び出し先(たとえば図2を解析後、モジュールの呼び出し関係はP0001−F0001、F0001−D0001、P0002−F0001、P0003−F0002、F0002−D0001、F0002−D0002、F0002−D0003となる)をモジュール呼び出し階層テーブル114に格納する(S704)。   The module call hierarchy analysis function 111 is activated by the user selecting the module call hierarchy analysis function on the menu screen shown in FIG. 11 using the input unit 103 (S701), and the module call hierarchy analysis function shown in FIG. A screen is displayed (S702). The user specifies the source path (in this example, C: \ source \) using the input unit 103, or the user presses the reference button on the module analysis function screen using the input unit 103. Thus, the source path is designated, and the module analysis is executed when the user presses the execution button on the module analysis function screen using the input unit 103 (S703). After analyzing all modules, the caller and callee of the call relationship between modules (for example, after analyzing FIG. 2, the module call relationship is P0001-F0001, F0001-D0001, P0002-F0001, P0003-F0002, F0002- D0001, F0002-D0002, and F0002-D0003) are stored in the module call hierarchy table 114 (S704).

図8は障害情報管理装置1が具備する原因モジュール推測機能112の処理を示すフローチャートである。   FIG. 8 is a flowchart showing the processing of the cause module estimation function 112 provided in the failure information management apparatus 1.

原因モジュール推測機能112は、利用者により入力部103を用いて図11に示すメニュー画面で原因モジュール推測機能が選択されることで起動し(S801)、図13に示す原因モジュール推測機能画面を表示する(S802)。推測ボタン1302を押下することによって、原因モジュール推測機能を実行される。まず利用者により入力部103を用いて原因モジュール推測機能画面に入力された現象モジュール1301(今回の例ではP0001(901)とする)を取得する(S803)。前記の現象モジュールをキーにしてモジュール呼び出し階層テーブル114の呼び出し元302を検索し、該当レコードの呼び出し先303を抽出する。次に前記抽出したすべての呼び出し先303をキーとして、前記処理を繰り返すことで、次の呼び出し先を抽出する。前記処理により現象モジュールから到達できるすべてのモジュール(今回の例ではP0001(901)、F0001(903)、F0002(907)、D0001(905)となる)を取得し(S804)、メモリに格納する。次に、前記の各モジュールに対し、モジュール呼び出し回数テーブル117のモジュール602をキーに検索し、該当レコードの呼び出し回数603を呼び出し回数(今回の例ではP0001(901)の呼び出し回数を4、F0001(903)の呼び出し回数を3、F0002(907)の呼び出し回数を2、D0001(905)の呼び出し回数を2とする)として取得した数値をメモリに格納する。前記の各モジュールに対し、モジュール間呼び出し回数テーブル116の呼び出し元502をキーに検索し、該当レコードの呼び出し回数504を抽出し、モジュール間呼び出し回数(今回の例ではP0001−F0001(902)は2、F0001−D0001(904)は1、P0001−F0002(906)は1、F0002−D0001(908)は1とする)をメモリに格納する。次に、前記処理で抽出したすべてのモジュールに対して式906「(モジュール呼び出し回数−Σモジュールが呼び出し元となるモジュール間呼び出し回数)/(モジュール呼び出し回数)」を参照し、ルート停止確率を計算し(S805)、メモリに格納する(今回の例ではP0001(901)の障害確率を(4−2−1)/4=1/4、F0001(903)の障害確率を(3−1)/3=2/3、F0002(907)の障害確率を(2−1)/2=1/2、D0001(905)の障害確立を(2−0)/2=1となる)。同様に抽出したモジュールを呼び出し元とするすべてのモジュール間において、式907「モジュール間呼び出し回数/呼び出し元のモジュール呼び出し回数」を参照し、ルート伝播確率を計算し(S806)、メモリに格納する(今回の例ではP0001−F0001(902)のルート伝播確率を2/4=1/2、F0001−D0001(904)のルート伝播確率を1/3、P0001−F0002(906)のルート伝播確率を(2−1)/2=1/2、F0002−D0001(908)のルート伝播確率を1/2となる)。前記処理の抽出した各モジュールに対して以下の処理を実施する(S807〜S811)。抽出したモジュールより1つを取り出す(S807)(例えば、これをD0001(905)とする)。現象モジュールから到達できるすべてのルートを作成し(S808)、メモリに格納する(今回の現象モジュールP0001(901)に対してD0001に到達するすべてのルートを作成すると、P0001−F0001−D0001、P0001−F0002−D0001となる)。次に、前記処理で抽出した各ルートに対して以下の処理を実施する(S809〜S810)。抽出したルートより1つを取り出す(S809)(例えば、P0001−F0001−D0001とする)。式908「(現象モジュールから各モジュールまで経由したすべてのモジュールのルート伝播確率の積)×(モジュールのルート停止確率)」を参照し、ルートに沿ったモジュールの原因推測値を計算し(S810)、メモリに格納する(今回の例ではP0001−F0001−D0001の障害確率を(1/2)×(1/3)×(2−0)/2=1/6となる)。前記すべてのルートで計算したモジュールの原因推測値を加算し(S811)、メモリに格納する(たとえばD0001(905)に対して、ルートP0001 −F0001−D0001に沿った原因推測値は1/6、ルートP0001 −F0002−D0001に沿った原因推測値は1/8、最終にD0001 の原因推測値は1/6+1/8=7/24になる)。他のモジュールも同様に計算する(S807〜S811)(P0001は1/4、F0001は1/3、F0002は1/8となる)。前記すべてのモジュールに対し、0より大きいモジュールの原因推測値を降順からソートした結果(今回はF0001、D0001、P0001、F0002の順になる)をメモリに格納する。前記格納したすべてのモジュールに対して以下の処理を実施する。障害情報管理テーブル115に対して、前記格納した原因モジュールをキーとして検索し、該当レコード障害ID1304、現象モジュール1305、現象内容1306、原因内容1307、原因モジュール1308の情報を抽出し、メモリに格納する。前記実施した結果をメモリから取得し、原因モジュール推測結果一覧を図13に示すモジュール推測機能画面に表示する(S812)。   The cause module estimation function 112 is activated by the user selecting the cause module estimation function on the menu screen shown in FIG. 11 using the input unit 103 (S801), and displays the cause module estimation function screen shown in FIG. (S802). By pressing the guess button 1302, the cause module guess function is executed. First, a phenomenon module 1301 (referred to as P0001 (901) in this example) input on the cause module estimation function screen by the user using the input unit 103 is acquired (S803). The caller 302 of the module call hierarchy table 114 is searched using the phenomenon module as a key, and the callee 303 of the corresponding record is extracted. Next, the next call destination is extracted by repeating the above process using all the extracted call destinations 303 as keys. All modules that can be reached from the phenomenon module by the above processing (in this example, P0001 (901), F0001 (903), F0002 (907), and D0001 (905)) are acquired (S804) and stored in the memory. Next, the module 602 of the module call count table 117 is searched for each module, and the call count 603 of the corresponding record is searched for the call count (in this example, the call count of P0001 (901) is 4, F0001 ( The obtained numerical values are stored in the memory, assuming that the number of calls in 903) is 3, the number of calls in F0002 (907) is 2, and the number of calls in D0001 (905) is 2. For each module, the caller 502 in the inter-module call count table 116 is searched for the key, the call count 504 of the corresponding record is extracted, and the inter-module call count (P0001-F0001 (902) in this example is 2). , F0001-D0001 (904) is 1, P0001-F0002 (906) is 1, and F0002-D0001 (908) is 1.) is stored in the memory. Next, with respect to all the modules extracted in the above processing, the formula 906 “(number of module calls−number of calls between modules whose Σ module is the call source) / (number of module calls)” is referred to, and the route stop probability is calculated. (S805) and stored in the memory (in this example, the failure probability of P0001 (901) is (4-2-1) / 4 = 1/4 and the failure probability of F0001 (903) is (3-1) / 3 = 2/3, failure probability of F0002 (907) is (2-1) / 2 = 1/2, and failure establishment of D0001 (905) is (2-0) / 2 = 1). Similarly, with respect to all modules having the extracted module as a caller, the formula 907 “number of calls between modules / number of callers of the caller” is referred to, and the route propagation probability is calculated (S806) and stored in the memory (S806). In this example, the route propagation probability of P0001-F0001 (902) is 2/4 = 1/2, the route propagation probability of F0001-D0001 (904) is 1/3, and the route propagation probability of P0001-F0002 (906) is ( 2-1) / 2 = 1/2, and the route propagation probability of F0002-D0001 (908) is 1/2). The following processing is performed on each module extracted by the processing (S807 to S811). One is extracted from the extracted modules (S807) (for example, this is D0001 (905)). All routes that can be reached from the phenomenon module are created (S808) and stored in the memory (if all routes that reach D0001 are created for the current phenomenon module P0001 (901), P0001-F0001-D0001, P0001- F0002−D0001). Next, the following processing is performed on each route extracted in the above processing (S809 to S810). One is extracted from the extracted routes (S809) (for example, P0001-F0001-D0001). Referring to Formula 908 “(product of route propagation probabilities of all modules from each phenomenon module to each module) × (module route stop probability)”, the cause estimated value of the module along the route is calculated (S810) (In this example, the failure probability of P0001-F0001-D0001 is (1/2) × (1/3) × (2-0) / 2 = 1/6). The estimated cause values of the modules calculated in all the routes are added (S811) and stored in the memory (for example, the estimated cause value along the route P0001-F0001-D0001 is 1/6, for D0001 (905), The cause estimated value along the route P0001-F0002-D0001 is 1/8, and finally the cause estimated value of D0001 is 1/6 + 1/8 = 7/24). Other modules are similarly calculated (S807 to S811) (P0001 is 1/4, F0001 is 1/3, and F0002 is 1/8). For all the modules, the result of sorting the estimated cause values of modules larger than 0 in descending order (this time, the order is F0001, D0001, P0001, F0002) is stored in the memory. The following processing is performed on all the stored modules. The failure information management table 115 is searched using the stored cause module as a key, and information on the corresponding record failure ID 1304, phenomenon module 1305, phenomenon content 1306, cause content 1307, and cause module 1308 is extracted and stored in the memory. . The implemented result is acquired from the memory, and the cause module estimation result list is displayed on the module estimation function screen shown in FIG. 13 (S812).

図10は障害情報管理装置1が具備する障害情報管理機能113の処理を示すフローチャートである。   FIG. 10 is a flowchart showing the processing of the failure information management function 113 provided in the failure information management apparatus 1.

障害情報管理機能112は、利用者により入力部103を用いて図11に示すメニュー画面で障害情報管理機能が選択されることで起動し(S1001)、図14に示す障害情報管理機能画面を表示する(S1002)。利用者により入力部103を用いて障害情報管理機能画面に入力された現象モジュール1402、現象内容1404、原因内容1404、原因モジュール1405及び対策内容1406を取得し(S1004)、登録ボタン1409を押下することによって、前記取得した現象モジュール1402、現象内容1403、原因内容1404、原因モジュール1405及び対策内容1406とを、それぞれ対応付けて、障害情報管理テーブル115に格納する(S1005)。   The failure information management function 112 is activated when the user selects the failure information management function on the menu screen shown in FIG. 11 using the input unit 103 (S1001), and displays the failure information management function screen shown in FIG. (S1002). The user obtains the phenomenon module 1402, the phenomenon content 1404, the cause content 1404, the cause module 1405, and the countermeasure content 1406 that are input to the failure information management function screen by the user using the input unit 103 (S1004), and presses the registration button 1409. Thus, the acquired phenomenon module 1402, phenomenon content 1403, cause content 1404, cause module 1405, and countermeasure content 1406 are associated with each other and stored in the failure information management table 115 (S1005).

次に、前記の障害情報管理テーブル115に格納したレコードの現象モジュール403を呼び出し元302とし、原因モジュール406を呼び出し先303とし、モジュール呼び出し階層テーブル114を参照し、ルート情報を作成し、プルダウンに表示する。プルダウンから選択されたルートに対して、各モジュールのモジュール間呼び出し回数504及びモジュール呼び出し回数603に1をプラスし、カウントする(S1006)。前記のモジュール間呼び出し回数をモジュール間呼び出し回数テーブル116のモジュール間呼び出し回数504に格納する。前記のモジュール呼び出し回数をモジュール呼び出し回数テーブル117のモジュール呼び出し回数603に格納する(S1007)。   Next, the phenomenon module 403 of the record stored in the failure information management table 115 is set as the caller 302, the cause module 406 is set as the callee 303, the module call hierarchy table 114 is referred to, route information is created, and the pull-down is performed. indicate. For the route selected from the pull-down, 1 is added to the inter-module call count 504 and the module call count 603 of each module, and the count is performed (S1006). The inter-module call count is stored in the inter-module call count 504 of the inter-module call count table 116. The module call count is stored in the module call count 603 of the module call count table 117 (S1007).

以上本発明の一実施例について説明した。上述のように、上記実施形態では、プログラムの構造に着目し、障害の原因箇所が同一の障害を同件として判断し、抽出する。上記実施形態によって障害管理を行う対象システムは、単一の機能を実現するモジュールを組み合わせて構成されるシステムである。実際のプログラムではモジュールはクラスあるいは関数という単位である。前記モジュールは当該システムの複雑な機能を実現するために、互いに呼び出し関係をもつ。このようなシステムで障害が発生した場合、その障害を引き起こす直接的な不具合を含むモジュール(原因モジュールと呼ぶ)と、その障害により不具合と認識される事象を示す画面など (現象モジュールと呼ぶ)が異なる場合がある。   The embodiment of the present invention has been described above. As described above, in the above embodiment, paying attention to the structure of the program, a failure having the same cause of failure is determined and extracted as the same case. The target system that performs failure management according to the above embodiment is a system configured by combining modules that realize a single function. In an actual program, modules are units called classes or functions. The modules have a calling relationship with each other in order to realize complex functions of the system. When a failure occurs in such a system, there are a module (called a cause module) that includes a direct failure that causes the failure, and a screen that shows an event that is recognized as a failure due to the failure (called a phenomenon module). May be different.

本発明に係わる障害情報管理装置は、障害情報管理装置単体で構成される。   The failure information management device according to the present invention is configured by a failure information management device alone.

障害情報管理装置は、過去に発生した障害について、現象モジュールと原因モジュールの間の呼び出し関係に沿った不具合伝播の道筋(ルートと呼ぶ)と、ルートが各モジュールを通過した回数(「モジュール呼び出し回数」)、各呼び出し関係を通過した回数(「モジュール間呼び出し回数」)を管理し、この情報をもとに新たに発生した不具合現象の現象モジュールから原因モジュールを推測する装置である。   The failure information management device, for failures that have occurred in the past, has a failure propagation path (called a route) along the call relationship between the phenomenon module and the cause module, and the number of times the route has passed through each module ("number of module calls ") Is a device that manages the number of times that each call relationship has been passed (" number of calls between modules ") and estimates the cause module from the phenomenon module of the newly occurring failure phenomenon based on this information.

前記障害情報管理装置は、プログラムソースを解析したモジュール呼び出し階層情報を格納するモジュール呼び出し階層テーブルを持ち、障害情報管理装置の入力部から取得したプログラムソース情報を現象モジュールから解析し、モジュールの呼び出し関係を抽出し、前記モジュール呼び出し階層テーブルに格納することを特徴とする。   The failure information management apparatus has a module call hierarchy table that stores module call hierarchy information obtained by analyzing a program source, analyzes program source information acquired from an input unit of the failure information management apparatus from a phenomenon module, and relates to module call Are extracted and stored in the module call hierarchy table.

そして、前記障害情報管理装置は、障害発生した現象モジュール(画面など)、現象内容、原因内容、原因モジュール、対策内容を格納する障害情報管理テーブルと、障害発生した現象モジュールから障害の原因モジュールまで経由した各モジュールの「モジュール呼び出し回数」を格納するモジュール呼び出し回数テーブルと、2つのモジュールの間の「モジュール間呼び出し回数」を格納するモジュール間呼び出し回数テーブルを持つことを特徴とする。   The failure information management device includes a failure information management table storing failure phenomenon modules (such as screens), phenomenon contents, cause contents, cause modules, countermeasure contents, and from failure phenomenon modules to failure cause modules. It has a module call count table that stores “module call count” of each module that has passed through, and an inter-module call count table that stores “inter-module call count” between two modules.

そして、前記障害情報管理装置は新たに発生した障害の現象モジュールを入力部から取得し、障害現象モジュールをキーとして、前記モジュール呼び出し階層テーブルを検索し、障害現象モジュールからのすべて到達できるモジュールを取得し、前記の各モジュールに対し、現象モジュールからのすべてルートを作成する。作成した各ルートの各モジュールのモジュール呼び出し回数テーブルの呼び出し回数及びモジュール間呼び出し回数テーブルの呼び出し回数を取得し、これらの値を用いて各モジュールに対し、現象モジュールからそのモジュールまで伸びてきたルートが、そのモジュールで終わる確率、すなわち、そのルートがモジュールを通るという条件のもとで、そのモジュールが原因モジュールである条件付き確率(ルート停止確率)と、各モジュール呼び出し関係について現象モジュールからそのモジュールまで伸びてきたルートが、その呼び出し関係をたどってモジュールを通り抜ける確率、すなわち、そのルートがモジュールを通るという条件のもとで、ルートがその呼び出し関係をたどる条件付き確率(ルート伝播確率)を計算する。
任意のモジュールに対し、現象モジュールからそのモジュールに到達するすべてのルートを考え、各々のルートの各呼び出し関係に対しルート伝播確率と前記任意のモジュールのルート停止確率の積を計算し、これらの和を取ってモジュールが原因である確率(原因推測値)を算出し、原因モジュールを推測することを特徴とする。
Then, the failure information management apparatus acquires a newly generated failure phenomenon module from the input unit, searches the module call hierarchy table using the failure phenomenon module as a key, and acquires all reachable modules from the failure phenomenon module. Then, all routes from the phenomenon module are created for each of the modules. Obtain the number of calls in the module call count table and the call count in the inter-module call count table for each module of each created route, and using these values, for each module, the route extending from the phenomenon module to that module is , The probability of ending with the module, that is, the conditional probability that the module is the causal module (route stop probability) under the condition that the route passes through the module, and each module call relationship from the phenomenon module to the module Calculates the probability that an extended route will follow the call relationship and pass through the module, that is, the conditional probability that the route will follow the call relationship (route propagation probability) under the condition that the route passes the module .
For an arbitrary module, consider all routes that reach the module from the phenomenon module, calculate the product of the route propagation probability and the route stop probability of the arbitrary module for each call relationship of each route, and add these The probability that the module is the cause (cause estimation value) is calculated, and the cause module is estimated.

以上本発明の実施形態を説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。   Although the embodiment of the present invention has been described above, the present invention is not limited to this, and various modifications can be made without departing from the scope of the invention.

1・・・障害情報管理装置、101・・・記憶部、102・・・表示部、103・・・入力部、104・・・制御部。 DESCRIPTION OF SYMBOLS 1 ... Fault information management apparatus, 101 ... Memory | storage part, 102 ... Display part, 103 ... Input part, 104 ... Control part.

Claims (3)

障害情報管理装置における障害情報管理方法において、
前記障害情報管理装置は、
プログラム解析でモジュール関連情報を格納するモジュール呼び出し階層テーブルと、障害管理情報を格納する障害管理テーブルと、障害伝播ルートと発生回数を記録するモジュール間呼び出し回数テーブル、モジュール呼び出し回数テーブルを具備し、
入力部から取得した現象モジュールをキーとして前記モジュール呼び出し階層テーブルから関連モジュールを抽出し、
現象モジュールから各モジュールまでの呼び出し関係を作成し、
前記各モジュールにおいて、モジュールをキーとして前記モジュール呼び出し回数テーブルより呼び出し回数情報を取得し、
呼び出し関係において、呼び出し先と呼び出し元をキーとして前記モジュール間呼び出し回数テーブルより呼び出し回数情報を取得し、
モジュールが障害になる確率かける現象モジュールからそのモジュールまで伝播する確率により原因推測値を算出することで、原因推測値から原因モジュールを特定し、原因箇所を特定する、
ことを特徴とする障害情報管理方法。
In the failure information management method in the failure information management device,
The failure information management device includes:
A module call hierarchy table that stores module-related information in program analysis, a failure management table that stores failure management information, an inter-module call count table that records the failure propagation route and the number of occurrences, and a module call count table
Using the phenomenon module acquired from the input unit as a key, extract the related module from the module call hierarchy table,
Create a call relationship from the symptom module to each module,
In each module, the call count information is obtained from the module call count table using the module as a key,
In the call relationship, the call count information is obtained from the inter-module call count table using the call destination and the caller as keys,
Probability of module failure Phenomenon by calculating the cause estimated value from the probability of propagation from the module to the module, identify the cause module from the cause estimated value, identify the cause location,
Fault information management method characterized by the above.
障害情報を管理する装置において、
制御部と、入力部と、プログラム解析でモジュール関連情報を格納するモジュール呼び出し階層テーブルと、障害管理情報を格納する障害管理テーブルと、障害伝播ルートと発生回数を記録するモジュール間呼び出し回数テーブル、モジュール呼び出し回数テーブルを具備し、
前記制御部は、
前記入力部から取得した現象モジュールをキーとして前記モジュール呼び出し階層テーブルから関連モジュールを抽出し、
現象モジュールから各モジュールまでの呼び出し関係を作成し、
前記各モジュールにおいて、モジュールをキーとして前記モジュール呼び出し回数テーブルより呼び出し回数情報を取得し、
呼び出し関係において、呼び出し先と呼び出し元をキーとして前記モジュール間呼び出し回数テーブルより呼び出し回数情報を取得し、
モジュールが障害になる確率かける現象モジュールからそのモジュールまで伝播する確率により原因推測値を算出することで、原因推測値から原因モジュールを特定する、
ことを特徴とする障害情報管理装置。
In the device that manages fault information,
A control unit, an input unit, a module call hierarchy table that stores module-related information in program analysis, a failure management table that stores failure management information, an inter-module call count table that records the failure propagation route and the number of occurrences, and modules It has a call count table,
The controller is
Using the phenomenon module acquired from the input unit as a key, extract a related module from the module call hierarchy table,
Create a call relationship from the symptom module to each module,
In each module, the call count information is obtained from the module call count table using the module as a key,
In the call relationship, the call count information is obtained from the inter-module call count table using the call destination and the caller as keys,
Probability of module failure Phenomenon of cause is determined from the estimated cause value by calculating the estimated cause value based on the probability of propagation from the module to the module.
A failure information management apparatus characterized by the above.
コンピュータを制御して、請求項1に記載の障害情報管理方法を実行するプログラム。   The program which controls a computer and performs the failure information management method of Claim 1.
JP2013129133A 2013-06-20 2013-06-20 Fault information management method, fault information management apparatus, and program Expired - Fee Related JP5932721B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013129133A JP5932721B2 (en) 2013-06-20 2013-06-20 Fault information management method, fault information management apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013129133A JP5932721B2 (en) 2013-06-20 2013-06-20 Fault information management method, fault information management apparatus, and program

Publications (2)

Publication Number Publication Date
JP2015005077A true JP2015005077A (en) 2015-01-08
JP5932721B2 JP5932721B2 (en) 2016-06-08

Family

ID=52300941

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013129133A Expired - Fee Related JP5932721B2 (en) 2013-06-20 2013-06-20 Fault information management method, fault information management apparatus, and program

Country Status (1)

Country Link
JP (1) JP5932721B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104898039A (en) * 2015-05-27 2015-09-09 电子科技大学 Fault propagation probability model-based fault mode preferential selection method
CN110969206A (en) * 2019-11-29 2020-04-07 大连理工大学 Circuit fault real-time diagnosis and self-repair method based on hierarchical division
CN110989561A (en) * 2019-12-26 2020-04-10 中国航空工业集团公司沈阳飞机设计研究所 Method for constructing fault propagation model and method for determining fault propagation path

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282576A (en) * 2000-03-29 2001-10-12 Canon Inc Information processor and information procesing method
JP2005327036A (en) * 2004-05-13 2005-11-24 Sony Corp Information processor and method, recording medium and program
JP2010049551A (en) * 2008-08-22 2010-03-04 Toshiba Corp Failure monitoring apparatus and failure monitoring method
WO2010109776A1 (en) * 2009-03-25 2010-09-30 日本電気株式会社 Download system, device, method, and program used therefor

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282576A (en) * 2000-03-29 2001-10-12 Canon Inc Information processor and information procesing method
JP2005327036A (en) * 2004-05-13 2005-11-24 Sony Corp Information processor and method, recording medium and program
JP2010049551A (en) * 2008-08-22 2010-03-04 Toshiba Corp Failure monitoring apparatus and failure monitoring method
WO2010109776A1 (en) * 2009-03-25 2010-09-30 日本電気株式会社 Download system, device, method, and program used therefor

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104898039A (en) * 2015-05-27 2015-09-09 电子科技大学 Fault propagation probability model-based fault mode preferential selection method
CN110969206A (en) * 2019-11-29 2020-04-07 大连理工大学 Circuit fault real-time diagnosis and self-repair method based on hierarchical division
CN110969206B (en) * 2019-11-29 2023-06-06 大连理工大学 Circuit fault real-time diagnosis and self-repairing method based on hierarchical division
CN110989561A (en) * 2019-12-26 2020-04-10 中国航空工业集团公司沈阳飞机设计研究所 Method for constructing fault propagation model and method for determining fault propagation path

Also Published As

Publication number Publication date
JP5932721B2 (en) 2016-06-08

Similar Documents

Publication Publication Date Title
CN107171819B (en) Network fault diagnosis method and device
Das et al. Desh: deep learning for system health prediction of lead times to failure in hpc
US11455230B2 (en) Event specific log file generation
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
WO2011132730A1 (en) Runtime system fault tree analysis method, system and program
JP6280862B2 (en) Event analysis system and method
JP6988304B2 (en) Operation management system, monitoring server, method and program
US10977108B2 (en) Influence range specifying method, influence range specifying apparatus, and storage medium
JP5932721B2 (en) Fault information management method, fault information management apparatus, and program
JP2011145773A (en) Network management support system, network management support device, network management support method and program
CN108880838B (en) Service fault monitoring method and device, computer equipment and readable medium
JP6594977B2 (en) Method, system, computer program, and computer-readable storage medium for monitoring requests for code sets
JP2008158889A (en) Trouble factor detection program, trouble factor detection method and trouble factor detector
CN113596043A (en) Attack detection method, attack detection device, storage medium and electronic device
CN112769615A (en) Anomaly analysis method and device
WO2020067237A1 (en) System, method, program, and recording medium
JP2017211806A (en) Communication monitoring method, security management system, and program
CN114756401B (en) Abnormal node detection method, device, equipment and medium based on log
US20210027254A1 (en) Maintenance management apparatus, system, method, and non-transitory computer readable medium
CN114867052A (en) Wireless network fault diagnosis method and device, electronic equipment and medium
US12056033B2 (en) Anomaly location estimating apparatus, method, and program
US20210342396A1 (en) Retrieval sentence utilization device and retrieval sentence utilization method
US20220253529A1 (en) Information processing apparatus, information processing method, and computer readable medium
JP2015162030A (en) Fault indication apparatus, fault indication method and fault indication program
JP2014059639A (en) Ft calculation assisting program, ft calculation assisting method and ft calculation assisting device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160428

R151 Written notification of patent or utility model registration

Ref document number: 5932721

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees