JP4257364B2 - 通信エラー情報出力プログラム、通信エラー情報出力方法および通信エラー情報出力装置 - Google Patents

通信エラー情報出力プログラム、通信エラー情報出力方法および通信エラー情報出力装置 Download PDF

Info

Publication number
JP4257364B2
JP4257364B2 JP2007013864A JP2007013864A JP4257364B2 JP 4257364 B2 JP4257364 B2 JP 4257364B2 JP 2007013864 A JP2007013864 A JP 2007013864A JP 2007013864 A JP2007013864 A JP 2007013864A JP 4257364 B2 JP4257364 B2 JP 4257364B2
Authority
JP
Japan
Prior art keywords
control message
communication
information
log
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007013864A
Other languages
English (en)
Other versions
JP2008181299A (ja
Inventor
幸洋 渡辺
弘之 山島
哲也 岡野
健司 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007013864A priority Critical patent/JP4257364B2/ja
Priority to US12/017,864 priority patent/US7739420B2/en
Publication of JP2008181299A publication Critical patent/JP2008181299A/ja
Application granted granted Critical
Publication of JP4257364B2 publication Critical patent/JP4257364B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Description

この発明は、第一の装置が第二の装置を介して第三の装置を制御する情報処理システムにおいて、第一の装置と第二の装置との間で行われる通信または第二の装置と第三の装置との間で行われる通信に発生した通信エラーに係る情報を出力する通信エラー情報出力プログラム、通信エラー情報出力方法および通信エラー情報出力装置に関し、特に、第二の装置を改造することなく、通信エラーが発生した原因を効率良く特定することができる通信エラー情報出力プログラム、通信エラー情報出力方法および通信エラー情報出力装置に関するものである。
従来、ITシステムの運用管理にともなう作業は、SE(System Engineer)やオペレータなど、人による作業を中心に行われてきた。しかし、近年では、ITシステムは大規模化および複雑化が進んでおり、人手による運用管理には限界が生じてきている。そこで、この問題を解決するための方法として、「自律運用」と呼ばれる方法が提案されている。
図14は、従来のITシステムにおける自律運用を説明するための図である。同図に示すように、自律運用を行う場合には、ITシステムを構成するリソース10を管理する管理モジュール20と、管理モジュール20を制御する実行制御モジュール30とが用いられる。
管理モジュール20は、リソース10に対して各種の制御メッセージを送信することによって、情報を取得したり、設定を変更したりする。実行制御モジュール30は、運用管理の手順を定義した運用管理手順1に基づいて、管理モジュール20との間で各種の制御メッセージを送信することによって、複数の管理モジュール20を連係させて動作させる。なお、以下では、管理モジュール20が送信する制御メッセージを「指示メッセージ」と呼ぶ。
かかる自律運用では、管理モジュール20は、実行制御モジュール30から送信された指示メッセージに基づいて自律的に処理を行って、処理結果を実行制御モジュール30に対して応答する。そのため、実行制御モジュール30からは、管理モジュール20の動作を詳細に確認することができず、この点が自律運用の課題となっている。以下、この課題について例をあげて説明する。
図15は、従来のITシステムにおける自律運用の課題を説明するための図である。同図に示すように、例えば、実行制御モジュール30が、運用管理手順1によって定義されたひとつの手順に基づいて、管理モジュール20に対して指示メッセージCM1を送信したとする(同図の(1)参照)。
管理モジュール20は、指示メッセージCM1を受信すると、その内容に基づいて、リソース10との間でパケットを送受信するなどの所定の処理を行い(同図の(2)参照)、正常に処理を完了した場合には、実行制御モジュール30に対して応答メッセージRM1を送信する(同図の(3)参照)。
一方、実行制御モジュール30が、管理モジュール20に対して指示メッセージCM2を送信したとし(同図の(4)参照)、その指示メッセージCM2に対して、管理モジュール20から応答メッセージRM2が送信されなかったとする。
この場合、応答メッセージRM2が送信されなかった原因としては、
(a)実行制御モジュール30から送信された制御メッセージCM2が管理モジュール
20に届かなかった(同図の(5)参照)
(b)管理モジュール20とリソース10との間で行われる制御メッセージのやり取り
が正常に完了しなかった(同図の(6)参照)
(c)管理モジュール20からは応答メッセージRM2が送信されたが、何らかの理由
で、応答メッセージRM2が実行制御モジュール30に届かなかった(同図の(
7)参照)
などが考えられる。
しかし、実行制御モジュール30からは、実行制御モジュール30と管理モジュール20との間、または、管理モジュール20とリソース10との間の、いずれに通信エラーの原因があるかを特定することはできない。
この課題の解決策として、一般的には、実行制御モジュール30またはリソース10との間で行われる制御メッセージのやり取りについて、その状況や異常の発生などを実行制御モジュール30に対して通知するように、管理モジュール20の改造を行う。
例えば、特許文献1では、ふたつの通信装置の間に接続された中継装置において、一方の通信装置から他方の通信装置に対して送信される制御信号を受信した場合に、送信先の通信装置の状況に応じて、送信元の通信装置から送信された制御信号の転送を制御する技術が開示されている。
特開平5−30150号公報
しかしながら、上述した従来の解決策では、管理モジュールに対して改造を加える必要があり、運用の実情を考えた場合には、開発リソースの制約や、過去のデータに対する後方置換性を確保できないなどの問題が生じる。そこで、運用の現場では、既存の管理モジュールを改造せずに自律運用を行うことが求められている。
しかし、本来、実行制御モジュールと管理モジュールとは、互いに連携することを前提に開発されていない場合が多く、実行モジュールから管理モジュールに対して送信される指示メッセージと、管理モジュールとリソースとの間でやり取りされる制御メッセージおよび応答メッセージとを対応付けることは困難になっている。
例えば、管理モジュールは、通常、実行モジュールやリソースとの間で行った通信の結果を記録した実行ログを出力するが、複数のセッションによって通信が行われる場合には、実行ログには多数の通信結果が混在して出力されるため、かかる実行ログを解析して、指示メッセージと、制御メッセージおよび応答メッセージとを対応付けることは非常に困難である。
そのため、障害などによってネットワークに異常が発生して、実行制御モジュールから送信された指示メッセージに対して管理モジュールから応答メッセージが送信されなかった場合には、当該指示メッセージに基づいて管理モジュールがやり取りした制御メッセージを速やかに判別することができず、通信エラーが発生した原因を特定するまでに多大な時間が必要になるという問題がある。
したがって、管理モジュールを改造することなく、いかにして、通信エラーが発生した原因を効率良く特定するかが極めて重要な課題となっている。
この発明は、上述した従来技術による課題を解決するためになされたものであり、管理モジュールを改造することなく、通信エラーが発生した原因を効率良く特定することができる通信エラー情報出力プログラム、通信エラー情報出力方法および通信エラー情報出力装置を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明は、第一の装置が第二の装置を介して第三の装置を制御する情報処理システムにおいて、第一の装置と第二の装置との間で行われる通信または第二の装置と第三の装置との間で行われる通信に発生した通信エラーに係る情報の出力処理をコンピュータに実行させる通信エラー情報出力プログラムであって、前記第一の装置から第二の装置に対して送信された制御メッセージに応じて前記第二の装置と第三の装置との間でやり取りされた通信メッセージが記録された通信ログを取得する通信ログ取得手順と、前記第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報を記憶した制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得手順により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージを特定する未送信制御メッセージ特定手順と、前記未送信制御メッセージ特定手順により特定された未送信制御メッセージに係る情報を出力する制御メッセージ情報出力手順と、をコンピュータに実行させることを特徴とする。
また、本発明は、上記の発明において、前記通信ログ取得手順は、前記第一の装置が複数の第二の装置に対して制御メッセージをそれぞれ送信した場合に、前記複数の第二の装置から通信ログを収集し、前記未送信制御メッセージ特定手順は、制御メッセージの送信が他の制御メッセージの送信に及ぼす影響に係る情報を記憶した影響情報に基づいて、未送信制御メッセージに対して影響を及ぼした制御メッセージを特定することを特徴とする。
また、本発明は、上記の発明において、前記制御メッセージ対応情報は、第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報および第三の装置の識別情報を記憶し、前記未送信制御メッセージ特定手順は、前記制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得手順により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージおよび制御メッセージを送信できなかった第二の装置または第三の装置を特定することを特徴とする。
また、本発明は、第一の装置が第二の装置を介して第三の装置を制御する情報処理システムにおいて、第一の装置と第二の装置との間で行われる通信または第二の装置と第三の装置との間で行われる通信に発生した通信エラーに係る情報の出力処理をコンピュータが実行する通信エラー情報出力方法であって、前記第一の装置から第二の装置に対して送信された制御メッセージに応じて前記第二の装置と第三の装置との間でやり取りされた通信メッセージが記録された通信ログを取得する通信ログ取得工程と、前記第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報を記憶した制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得工程により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージを特定する未送信制御メッセージ特定工程と、前記未送信制御メッセージ特定工程により特定された未送信制御メッセージに係る情報を出力する制御メッセージ情報出力工程と、を含んだことを特徴とする。
また、本発明は、上記の発明において、前記通信ログ取得工程は、前記第一の装置が複数の第二の装置に対して制御メッセージをそれぞれ送信した場合に、前記複数の第二の装置から通信ログを収集し、前記未送信制御メッセージ特定工程は、制御メッセージの送信が他の制御メッセージの送信に及ぼす影響に係る情報を記憶した影響情報に基づいて、未送信制御メッセージに対して影響を及ぼした制御メッセージを特定することを特徴とする。
また、本発明は、上記の発明において、前記制御メッセージ対応情報は、第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報および第三の装置の識別情報を記憶し、前記未送信制御メッセージ特定工程は、前記制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得工程により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージおよび制御メッセージを送信できなかった第二の装置または第三の装置を特定することを特徴とする。
また、本発明は、第一の装置が第二の装置を介して第三の装置を制御する情報処理システムにおいて、第一の装置と第二の装置との間で行われる通信または第二の装置と第三の装置との間で行われる通信に発生した通信エラーに係る情報を出力する通信エラー情報出力装置であって、前記第一の装置から第二の装置に対して送信された制御メッセージに応じて前記第二の装置と第三の装置との間でやり取りされた通信メッセージが記録された通信ログを取得する通信ログ取得手段と、前記第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報を記憶した制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得手段により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージを特定する未送信制御メッセージ特定手段と、前記未送信制御メッセージ特定手段により特定された未送信制御メッセージに係る情報を出力する制御メッセージ情報出力手段と、を備えたことを特徴とする。
また、本発明は、上記の発明において、前記通信ログ取得手段は、前記第一の装置が複数の第二の装置に対して制御メッセージをそれぞれ送信した場合に、前記複数の第二の装置から通信ログを収集し、前記未送信制御メッセージ特定手段は、制御メッセージの送信が他の制御メッセージの送信に及ぼす影響に係る情報を記憶した影響情報に基づいて、未送信制御メッセージに対して影響を及ぼした制御メッセージを特定することを特徴とする。
また、本発明は、上記の発明において、前記制御メッセージ対応情報は、第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報および第三の装置の識別情報を記憶し、前記未送信制御メッセージ特定手段は、前記制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得手段により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージおよび制御メッセージを送信できなかった第二の装置または第三の装置を特定することを特徴とする。
本発明によれば、第一の装置から第二の装置に対して送信された制御メッセージに応じて第二の装置と第三の装置との間でやり取りされた通信メッセージが記録された通信ログを取得し、第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報を記憶した制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、取得した通信ログとに基づいて、送信されなかった未送信制御メッセージを特定し、特定した未送信制御メッセージに係る情報を出力するので、第一の装置から第二の装置宛てに送信された制御メッセージと、第二の装置と第三の装置との間でやり取りされた制御メッセージとを容易に対応付けることが可能になり、第二の装置を改造することなく、通信エラーが発生した原因を効率良く特定することができるという効果を奏する。
また、本発明によれば、第一の装置が複数の第二の装置に対して制御メッセージをそれぞれ送信した場合に、複数の第二の装置から通信ログを収集し、制御メッセージの送信が他の制御メッセージの送信に及ぼす影響に係る情報を記憶した影響情報に基づいて、未送信制御メッセージに対して影響を及ぼした制御メッセージを特定するので、ある制御メッセージの送信において通信エラーが発生した場合に、その制御メッセージの送信に影響を及ぼした他の制御メッセージを特定することが可能になり、通信エラーが発生した根本的な原因を特定することができるという効果を奏する。
また、本発明によれば、制御メッセージ対応情報は、第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報および第三の装置の識別情報を記憶し、かかる制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、通信ログとに基づいて、送信されなかった未送信制御メッセージおよび制御メッセージを送信できなかった第二の装置または第三の装置を特定するので、通信エラーが発生した原因となる装置を特定することができるという効果を奏する。
以下に添付図面を参照して、この発明に係る通信エラー情報出力プログラム、通信エラー情報出力方法および通信エラー情報出力装置の好適な実施例を詳細に説明する。なお、本実施例では、自律運用によりITシステムのリソースを制御するITリソース制御装置に本発明を適用した場合を説明する。
まず、本実施例1に係るITリソース制御装置の概要および構成について説明する。図1は、本実施例1に係るITリソース制御装置の概要および構成を説明するための図である。同図に示すように、このITリソース制御装置100は、自律運用により制御対象リソース1101〜1103を制御する装置であり、管理モジュール1201〜1203と、実行制御モジュール130と、通信データ取得部1401〜1403とを有する。
本実施例1に係るITリソース制御装置100では、管理モジュール1201〜1203および実行制御モジュール130は、それぞれ、図14に示した管理モジュール20および実行制御モジュール30と同じ機能を有するものであるが、通信データ取得部1401〜1403とを有する点が、図14に示したITシステムとは異なっている。以下、ITリソース制御装置100が有する各機能部について説明する。
管理モジュール1201〜1203は、制御対象リソース1101〜1103に対して各種の制御メッセージを送信することによって、情報の取得や、設定の変更などを行なう処理部である。また、管理モジュール1201〜1203は、それぞれ、実行制御モジュール130または制御対象リソース1101〜1103との間で通信を行うと、その通信でやり取りした通信データを記録した実行ログ1211〜1213を出力する。
図2は、本実施例1に係る管理モジュール1201〜1203により出力される実行ログ1211〜1213の一例を示す図である。同図(a)および(b)に示す実行ログは、それぞれ、異なる管理モジュールによって出力された実行ログを示している。
同図に示すように、例えば、実行ログは、通信データごとのシーケンス番号を示す「No.c」と、通信データが送信された時刻を示す「時刻」と、通信データを送信したセッションを識別する「セッションID」と、通信データの送信元である装置を示す「送信元」と、通信データの送信先である装置を示す「宛先」と、通信データの送信に用いられたプロトコルを示す「プロトコル」と、通信データの種類を示す「制御内容」と、通信データに設定されたパラメータ値を示す「パラメータ」とから構成される。
ここで、同図(a)に示す実行ログは、管理モジュールAによって出力されたものであり、この実行ログには、実行制御モジュール130から管理モジュールAに対して送信された指示メッセージ(No.c=1の通信データ)と、その指示メッセージに基づいて管理モジュールAと制御対象リソースとの間で双方向にやり取りされた制御メッセージ(No.c=2〜7の通信データ)と、管理モジュールAから実行制御モジュール130に対して送信された失敗メッセージ(指示メッセージに対する処理が正常に行われなかったことを示す応答メッセージ)(No.c=8の通信データ)とがそれぞれ記録されている。
一方、同図(b)に示す実行ログは、管理モジュールBによって出力されたものであり、この実行ログには、実行制御モジュール130から管理モジュールBに対して送信された指示メッセージ(No.c=1の通信データ)と、その指示メッセージに基づいて管理モジュールBと制御対象リソースとの間で双方向にやり取りされた制御メッセージ(No.c=2〜8の通信データ)と、管理モジュールBから実行制御モジュール130に対して送信された成功メッセージ(指示メッセージに対する処理が正常に行われたことを示す応答メッセージ;No.c=9の通信データ)とがそれぞれ記録されている。
なお、同図(a)および(b)に示す実行ログは、それぞれ、セッションIDが「SS1」および「SS2」であるセッションのみを示しているが、実行ログ1211〜1213には、複数のセッションによって行われた通信に係る通信データが混在して記録される。
図1に戻って、実行制御モジュール130は、運用管理の手順を定義した運用管理手順1に基づいて、管理モジュール1201〜1203との間で各種の制御メッセージを送信することによって、複数の管理モジュール1201〜1203を連係させて動作させる処理部である。
通信データ取得部1401〜1403は、管理モジュール1201によって出力された実行ログ1211に基づいて、実行制御モジュール130と管理モジュール1201〜1203との間で行われる通信、または、管理モジュール1201〜1203と制御対象リソース1101〜1103との間で行われる通信に発生した通信エラーの原因に係る情報を出力する処理部である。なお、これら通信データ取得部1401〜1403は、いずれも同様の構成を有するので、ここでは通信データ取得部1401を例にあげて説明する。
通信データ取得部1401は、同図に示すように、通信パターンリポジトリ1411と、ログ解析部1421とを有する(通信データ取得部1402は、通信パターンリポジトリ1412と、ログ解析部1422とを、通信データ取得部1403は、通信パターンリポジトリ1413と、ログ解析部1423とを、それぞれ有する)。以下、通信データ取得部1401が有する各機能部について説明する。
通信パターンリポジトリ1411は、実行制御モジュール130から管理モジュール1201に対して送信される指示メッセージと、その制御メッセージに基づいて管理モジュール1201と制御対象リソース1101との間でやり取りされる制御メッセージの組とを対応付けた通信パターンを、指示メッセージごとに記憶する記憶部である。
図3は、本実施例1に係る通信パターンリポジトリ1411の一例を示す図である。同図に示すように、通信パターンリポジトリ1411は、具体的には、「送信元」、「宛先」、「プロトコル」、「制御内容」、「パラメータ」を、実行ログ1211に記録される通信データの項目に対応するように記憶する。同図(a)および(b)に示す通信パターンリポジトリは、それぞれ、図2に示した実行ログを出力する管理モジュールAおよび管理モジュールBの通信パターンリポジトリを示している。
このように、通信パターンリポジトリ1411は、実行制御モジュール130から送信された指示メッセージに基づいて行われる処理が、全て正常に行われた場合に、その結果として管理モジュール1201と制御対象リソース1101との間でやり取りされる全ての制御メッセージの組を、当該指示メッセージに対応付けて記憶するものである。
ログ解析部1421は、管理モジュール1201によって出力された実行ログ1211および通信パターンリポジトリ1411に基づいて、通信エラーの原因を特定し、特定した通信エラーの原因に係る情報を含めたログ解析結果1431出力する処理部である。
具体的には、このログ解析部1421は、まず、実行制御モジュール130から管理モジュール1201に対して送信された指示メッセージに応じて管理モジュール1201と制御対象リソース1101との間でやり取りされた通信メッセージが記録された実行ログ1211を取得し、取得した実行ログ1211に記録されている通信データをセッションごとに分割する。
続いて、ログ解析部1421は、セッションごとに分割された実行ログ1211を、通信パターンリポジトリ1411に記憶された通信パターンと比較することによって、実行制御モジュール130と管理モジュール1201〜1203との間で行われた通信、または、管理モジュール1201〜1203と制御対象リソース1101〜1103との間で行われた通信に異常が発生しているか否かを判定する。
ここで、異常が発生していると判定した場合には、ログ解析部1421は、異常の原因となった通信データ、すなわち、正常に送受信が行われなかった通信データを特定する。そして、ログ解析部1421は、特定した通信データに係る情報を含めたログ解析結果1431を生成して、出力する(ログ解析部1422は、ログ解析結果1432を、ログ解析部1423は、ログ解析結果1433を、それぞれ出力する)。
次に、上記で説明したログ解析部1421の処理手順について、詳細に説明する。図4は、本実施例1に係るログ解析部1421の処理手順を示すフローチャートである。同図に示すように、ログ解析部1421は、まず、実行ログ1211を読み込み(ステップS101)、読み込んだ実行ログ1211をセッション単位で切り分け、セッションごとの実行ログとして内部メモリに記憶する(ステップS102)。
続いて、ログ解析部1421は、内部メモリに記憶したセッションごとの実行ログの中から、実行ログを1件読み出す(ステップS103)。ここで、ログ解析部1421は、読み出す実行ログが無かった場合には(ステップS104,No)、処理を終了する。
一方、読み出す実行ログがあった場合には(ステップS104,Yes)、ログ解析部1421は、当該実行ログの中から通信データを1行読み出す(ステップS105)。ここで、まだ実行ログの終端ではなかった場合には(ステップS106,No)、ログ解析部1421は、当該通信データに一致するメッセージを含んだ通信パターンを、通信パターンリポジトリ1411に記憶された通信パターンの中から探索する(ステップS107)。
この時、ログ解析部1421は、当該通信データが実行ログの1行目の通信データであった場合には、上記のとおり、通信パターンリポジトリ1411に記憶されたメッセージの中から通信パターンを探索するが、2行目以降であった場合には、後述するステップS109で内部メモリに記憶される一致パターンの中から通信パターンを探索する。
そして、当該通信データに一致するメッセージを含んだ通信パターンがあった場合には(ステップS108,Yes)、ログ解析部1421は、その通信パターンを一致パターンとして内部メモリに記憶する(ステップS109)。
ここで、ログ解析部1421は、一致パターンとして通信パターンを記憶する際に、その通信パターンに含まれるメッセージの1つ1つに対してフラグを付与し、さらに、実行ログから読み出した通信データと一致することを確認したメッセージについては、そのフラグをチェックしておく。
この後、ログ解析部1421は、ステップS105に戻って、実行ログから次の通信データを読み出し、上記の処理を繰り返す。
一方、当該通信データに一致するメッセージを含んだ通信パターンがなかった場合には(ステップS108,No)、ログ解析部1421は、当該通信データは異常を示すものであると判断し、通信エラーの原因を特定する原因箇所判定処理を行った後に(ステップS112)、セッションごとの判定結果を「異常」として出力する(ステップS113)。なお、この原因箇所特定処理については、後に詳細に説明する。
ところで、ログ解析部1421は、実行ログの中から通信データを1行読み出す際に、実行ログの終端であることを検出した場合には、(ステップS106,Yes)、セッションごとに処理が正常に終了しているか否かを判定する正常/異常判定処理を行う(ステップS110)。なお、この正常/異常判定処理については、後に詳細に説明する。
そして、正常/異常判定処理を行った結果、異常があったと判定された場合には(ステップS111,Yes)、ログ解析部1421は、原因箇所特定処理を行った後に(ステップS112)、セッションごとの判定結果を「異常」として出力する(ステップS113)。
なお、正常/異常判定処理を行った結果、正常であったと判定された場合には(ステップS111,No)、ログ解析部1421は、原因箇所特定処理を行わずに、セッションごとの判定結果を「正常」として出力する(ステップS113)。
次に、図4に示した正常/異常判定処理の処理手順について説明する。図5は、図4に示した正常/異常判定処理の処理手順を示すフローチャートである。同図に示すように、この正常/異常判定処理では、ログ解析部1421は、まず、内部メモリに記憶された一致パターンから通信パターンを1件読み込む(ステップS201)。
ここで、一致パターンから通信パターンを読み込めた場合には(ステップS202,Yes)、ログ解析部1421は、その通信パターンに含まれる全てのメッセージのフラグがチェックされているか否かを確認し、全てのフラグがチェックされていなかった場合には(ステップS203,No)、当該通信パターンを未完了のパターンとして登録する(ステップS204)。
一方、全てのフラグがチェックされていた場合には(ステップS203,Yes)、ログ解析部1421は、セッションの判定結果を「正常」とする(ステップS205)。
また、内部メモリに記憶された一致パターンから通信パターンを読み込む際に、通信パターンが読み込めなかった場合には(ステップS202,No)、ログ解析部1421は、その時点で登録されている未完了パターンを内部メモリに出力し(ステップS206)、セッションの判定結果を「異常」とする(ステップS207)。
次に、図4に示した原因箇所判定処理の処理手順について説明する。図6は、図4に示した原因箇所判定処理の処理手順を示すフローチャートである。同図に示すように、この原因箇所判定処理では、ログ解析部1421は、まず、内部メモリに記憶された未完了パターンおよびセッションごとの実行ログを読み込む(ステップS301)。
続いて、ログ解析部1421は、読み込んだ実行ログと未完了パターンとを比較し、実行ログにおいて、未完了パターンに含まれるメッセージと一致しない最初の通信データを抽出する(ステップS302)。ここで、例えば、実行ログが、図2(a)に示した実行ログであり、未完了パターンが、図3(a)に示した通信パターンであったとすると、ログ解析部1421は、これらを比較し、図2(a)の実行ログのNo.=7の通信データを抽出する。
そして、ログ解析部1421は、抽出した通信データから送信元を特定し(ステップS303)、その送信元に関する情報と、差分となった通信データを含めたログ解析結果1431を生成して出力する(ステップS304)。
上述してきたように、本実施例1では、通信データ取得部1401〜1403が、実行制御モジュール130から管理モジュール1201〜1203に対して送信された指示メッセージに応じて管理モジュール1201〜1203と制御対象リソース1101〜1103との間でやり取りされた通信メッセージが記録された実行ログ1211〜1223を取得し、実行制御モジュール130から管理モジュール1201〜1203宛てに送信される指示メッセージの識別情報に対応付けて管理モジュール1201〜1203と制御対象リソース1101〜1103との間でやり取りされる制御メッセージの識別情報を記憶した通信パターンを通信パターンリポジトリ1411〜1413から読み出し、読み出した通信パターンと、取得した通信ログとに基づいて、送信されなかった制御メッセージを特定し、特定した制御メッセージに係る情報をログ解析結果1431〜1433に出力するので、実行制御モジュール130から管理モジュール1201〜1203宛てに送信された指示メッセージと、管理モジュール1201〜1203と制御対象リソース1101〜1103との間でやり取りされた制御メッセージとを容易に対応付けることが可能になり、管理モジュール1201〜1203を改造することなく、通信エラーが発生した原因を効率良く特定することができる。
また、本実施例1では、通信パターンリポジトリ1411〜1413が、制御メッセージ対応情報は、実行制御モジュール130から管理モジュール1201〜1203宛てに送信される制御メッセージの識別情報に対応付けて管理モジュール1201〜1203と制御対象リソース1101〜1103との間でやり取りされる制御メッセージの識別情報、管理モジュール1201〜1203および制御対象リソース1101〜1103の識別情報を通信パターンとして記憶し、ログ解析部1421〜1413が、かかる通信パターンを読み出し、読み出した通信パターンと、実行ログ1211〜1213とに基づいて、送信されなかった制御メッセージおよび制御メッセージを送信できなかった管理モジュール1201〜1203または制御対象リソース1101〜1103を特定するので、通信エラーが発生した原因となる装置を特定することができる。
ところで、上記実施例1では、通信データ取得部1401〜1403が、管理モジュール1201〜1203から出力された実行ログ1211〜1213をそれぞれ取得し、管理モジュールごとに、通信エラーが発生した原因を特定する場合について説明した。しかしながら、各管理モジュールから出力された実行ログを横断的に検査することによって、各管理モジュールにより行われる処理の間の相関関係や因果関係を考慮したうえで、通信エラーの原因を特定するようにしてもよい。
そこで、以下では、このような場合を本実施例2として説明する。なお、ここでは説明の便宜上、図2に示した各部と同様の役割を果たす機能部については同一符号を付すこととしてその詳細な説明を省略する。
まず、本実施例2に係るITリソース制御装置の概要および構成について説明する。図7は、本実施例2に係るITリソース制御装置の概要および構成を説明するための図である。同図に示すように、このITリソース制御装置200は、自律運用により制御対象リソース1101〜1103を制御する装置であり、管理モジュール1201〜1203と、実行制御モジュール130と、通信データ取得部2401〜2403と、ログ収集モジュール250とを有する。
本実施例2に係るITリソース制御装置200では、管理モジュール1201〜1203および実行制御モジュール130は、それぞれ、図14に示した管理モジュール20および実行制御モジュール30と同じ機能を有するものであるが、通信データ取得部2401〜2403と、ログ収集モジュール250を有する点が、図14に示したITシステムとは異なっている。
通信データ取得部2401〜2403は、管理モジュール1201〜1203によって出力された実行ログ1211〜1213を取得し、ログ収集モジュール250に対して出力する処理部である。
ログ収集モジュール250は、通信データ取得部2401〜2403から出力された実行ログ1211〜1213に基づいて、実行制御モジュール130と管理モジュール1201〜1203との間で行われる通信、または、管理モジュール1201〜1203と制御対象リソース1101〜1103にとの間で行われる通信に発生した通信エラーに係る情報を出力する処理部である。
ログ収集モジュール250は、同図に示すように、結合通信パターンリポジトリ251と、結合ログ解析部252とを有する。以下、ログ収集モジュール250が有する各機能部について説明する。
結合通信パターンリポジトリ251は、実行制御モジュール130から管理モジュール1201〜1203に対して送信される指示メッセージと、その制御メッセージに基づいて管理モジュール1201〜1203と制御対象リソース1101〜1103との間でやり取りされる制御メッセージの組とを対応付けた通信パターンを、指示メッセージごとに記憶する記憶部である。
図8は、本実施例2に係る結合通信パターンリポジトリ251の一例を示す図である。同図に示すように、この結合通信パターンリポジトリ251は、具体的には、「送信元」、「宛先」、「プロトコル」、「制御内容」、「パラメータ」を、実行ログ1211に記録される通信データの項目に対応するように記憶する。同図(a)および(b)に示す結合通信パターンリポジトリは、それぞれ、図2の(a)および(b)に示した実行ログを出力する管理モジュールAおよび管理モジュールBの結合通信パターンリポジトリを示している。
ここで、結合通信パターンリポジトリ251は、上記の項目を記憶する点は、実施例1で説明した通信パターンリポジトリ1411〜1413(図3を参照)と同様であるが、さらに、制御メッセージごとに「制約および他プロセスへの影響」を対応付けて記憶する。ここで、「制約および他プロセスへの影響」は、当該制御メッセージの送信が他の制御メッセージの送信に及ぼす影響を示す情報である。
例えば、「制約および他プロセスへの影響」には、排他投入が必須であることを示す情報や(図8(a)に示すNo.=1の制御メッセージを参照)、該当リソースを使用する他プロセスが強制的に失敗することを示す情報(図8(a)に示すNo.=6の制御メッセージを参照)、処理の対象となるユーザがすでにログイン中である場合は失敗することを示す情報(図8(b)に示すNo.=6の制御メッセージを参照)などが設定される。なお、他の制御メッセージの送信に何ら影響を及ぼさないものについては、「制約および他プロセスへの影響」は何も設定されない。
図7に戻って、結合ログ解析部252は、通信データ取得部2401〜2403から出力された実行ログ1211〜1213および結合通信パターンリポジトリ2511に基づいて、通信エラーの原因を特定し、特定した通信エラーの原因に係る情報を含めたログ解析結果254を出力する処理部である。
具体的には、この結合ログ解析部252は、まず、通信データ取得部2401〜2403によって出力された実行ログ1211〜1213を収集し、収集した実行ログ1211〜1213を結合して結合ログ253を生成する。図9は、本実施例2に係る結合ログ253の一例を示す図である。同図は、図2の(a)および(b)に示した実行ログを結合した場合の結合ログ253を示している。
図9に示すNo.c=1〜7、16および17の通信データは、図2の(b)に示した実行ログに含まれていた通信データであり、No.c=8〜15の通信データは、図2の(a)に示した実行ログに含まれていた通信データである。
結合ログ253を生成するとともに、結合ログ解析部252は、通信データ取得部2401〜2403から出力された実行ログ1211〜1213を、それぞれ、管理モジュールごとおよびセッションごとに分割する。
続いて、結合ログ解析部252は、管理モジュールごとおよびセッションごとに分割された実行ログ1211〜1213を、結合通信パターンリポジトリ251に記憶された通信パターンと比較することによって、実施例1で説明したログ解析部1421〜1423と同様に、実行制御モジュール130と管理モジュール1201〜1203との間で行われた通信、または、管理モジュール1201〜1203と制御対象リソース1101〜1103にとの間で行われた通信に異常が発生しているか否かを判定し、異常が発生していると判定した場合には、異常の原因となった通信データ、すなわち、正常に送受信が行われなかった通信データを特定する。
ここで、結合ログ解析部252は、さらに、結合ログ253、および、結合通信パターンリポジトリ251に記憶された通信パターンに基づいて、異常として特定した通信データに対して影響を及ぼした他の通信データが存在するか否かを確認する。
そして、結合ログ解析部252は、異常の原因となった通信データに係る情報と、さらに、当該通信データに影響を及ぼした通信データが存在していた場合には、その通信データに係る情報とを含めたログ解析結果254を生成して、出力する。
次に、上記で説明した結合ログ解析部252の処理手順について、詳細に説明する。図10は、本実施例2に係る結合ログ解析部252の処理手順を示すフローチャートである。同図に示すように、結合ログ解析部252は、まず、実行ログ1211〜1213に基づいて結合ログ253を生成し(ステップS401)、さらに、実行ログ1211〜1213を管理モジュールおよびセッション単位で切り分け、管理モジュール/セッション毎実行ログとして内部メモリに記憶する(ステップS402)。
続いて、結合ログ解析部252は、内部メモリに記憶した管理モジュール/セッション毎実行ログおよび結合通信パターンリポジトリ251に基づいて、実施例1で説明したログ解析部1421〜1423と同様に、実行制御モジュール130と管理モジュール1201〜1203との間で行われた通信、または、管理モジュール1201〜1203と制御対象リソース1101〜1103にとの間で行われた通信に異常が発生しているか否かを判定する(ステップS403)。
ここで、異常が発生していなかった場合には(ステップS404,No)、結合ログ解析部252は、判定結果を「正常」とし(ステップS405)、処理を終了する。一方、異常が発生していた場合には(ステップS404,Yes)、判定結果を「異常」とし(ステップS406)、依存関係による原因箇所判定処理を行い(ステップS407)、処理を終了する。なお、この依存関係による原因箇所判定処理については、以下に詳細に説明する。
次に、図10に示した依存関係による原因箇所判定処理の処理手順について説明する。図11は、図10に示した依存関係による原因箇所判定処理の処理手順を示すフローチャートである。また、図12は、依存関係による原因箇所特定処理の一例を示す図であり、同図の(a)に示す結合ログは、図9に示した結合ログと同じものを示しており、同図の(b)に示す結合通信パターンリポジトリは、図8の(a)に示した結合通信パターンリポジトリと同じものを示している。
図11に示すように、この依存関係による原因箇所判定処理では、結合ログ解析部252は、まず、結合ログ253と、内部メモリに記憶された未完了パターンおよび管理モジュール/セッション毎実行ログとを読み込む(ステップS501)。
続いて、結合ログ解析部252は、実施例1で説明した原因箇所判定処理(図6を参照)と同様の手順で、実行ログにおいて、未完了パターンに含まれるメッセージと一致しない最初の通信データを抽出する(ステップS502)。
ここで、例えば、実行ログが、図2(a)に示した実行ログであり、未完了パターンが、図3(a)に示した通信パターンであったとすると、結合ログ解析部252は、これらを比較し、図2(a)の実行ログのNo.=7の通信データを抽出する。
そして、結合ログ解析部252は、抽出した通信データと結合ログ253との対応付けを行う(ステップS503)。具体的には、結合ログ解析部252は、抽出した通信データに基づいて結合ログ253を検索し、当該通信データに対応する通信データを特定する。
例えば、図12(a)に示す結合ログを用いた場合には、結合ログ解析部252は、上記で例にあげた図2(a)の実行ログのNo.=7の通信データに対応する通信データとして、図12(a)の(1)に示す通信データを特定する。
また、結合ログ解析部252は、結合通信パターンリポジトリ251から、「制約および他プロセスへの影響」に値が設定されている通信パターンを全て抽出した後に(ステップS504)、抽出した通信パターンと結合ログ253との対応付けを行う(ステップS505)。具体的には、結合ログ解析部252は、抽出した通信パターンに基づいて結合ログ253を検索し、当該通信パターンに一致する通信データを特定する。
例えば、図12(a)に示す結合ログを用いた場合には、結合ログ解析部252は、同図(b)の(2)に示す通信パターンとして、同図(a)の(3)に示す通信データを特定する。
そして、結合ログ解析部252は、ステップS505で特定した通信データによる制約の影響範囲を評価する(ステップS506)。具体的には、結合ログ解析部252は、ステップS503で特定した通信データが、ステップS505で特定した通信データによる制約の影響を受けているか否かを判定する。ここで、ある通信データによる制約の影響有無を判定する方法は、当該通信データに対応する通信パターンの「制約および他プロセスへの影響」の種類に応じてあらかじめ決められているものとする。
例えば、図12(a)の(3)に示す通信データによる制約の影響範囲は、「制約および他プロセスへの影響」が「該当リソースを使用する他プロセスは強制的に失敗」であることから、当該通信データによる制約の影響を受ける通信データは、影響を与える通信データより後に送信された通信データであって、さらに、処理対象の制御対象リソースが同じである通信データとなる。これにより、図12に示す例では、同図(a)の(1)に示している通信データは、(3)に示す通信データによる制約の影響を受けていることになる。
こうして、結合ログ解析部252は、ステップS503で特定した通信データがステップS505で特定した通信データによる制約の影響を受けているか否かを判定し、影響を受けていないと判定した場合には(ステップS507,No)、通信データの因果関係は不明であると判定する(ステップS508)。
一方、影響を受けていると判定した場合には(ステップS507,Yes)、結合ログ解析部252は、ステップS505で特定したデータを原因となった制約として、ステップS503で特定した通信デーデータを障害として、それぞれの通信データに係る情報を含めたログ解析結果254を生成し、生成したログ解析結果254を出力する(ステップS509)。
上述してきたように、本実施例2では、実行制御モジュール130が複数の管理モジュール1201〜1203に対して指示メッセージをそれぞれ送信した場合に、ログ収集モジュール250が、複数の管理モジュール1201〜1203から実行ログ1211〜1213を収集し、制御メッセージの送信が他の制御メッセージの送信に及ぼす影響に係る情報を記憶した影響情報(結合通信パターンリポジトリ251の「制約および他プロセスへの影響」)に基づいて、送信されなかった制御メッセージに対して影響を及ぼした制御メッセージを特定するので、ある制御メッセージの送信において通信エラーが発生した場合に、その制御メッセージの送信に影響を及ぼした他の制御メッセージを特定することが可能になり、通信エラーが発生した根本的な原因を特定することができる。
なお、上記実施例では、ITリソース制御装置が、3台の管理モジュールを有する場合について説明したが、本発明はこれに限られるわけではなく、3台未満の管理モジュールまたは3台より多い管理モジュールを有する場合にも同様に適用することができる。
また、上記実施例では、管理モジュール、実行制御モジュール、通信データ取得部およびログ収集モジュールが、全て1台のITリソース制御装置に備えられた場合について説明したが、各処理部は、それぞれ異なる装置に備えられていてもよい。
また、上記実施例では、ITリソース制御装置について説明したが、上記で説明した構成をソフトウェアによって実現することで、同様の機能を有する通信エラー情報出力プログラムを得ることができる。そこで、この通信エラー情報出力プログラムを実行するコンピュータについて説明する。
図13は、通信エラー情報出力プログラムを実行するコンピュータの構成を示す機能ブロック図である。同図に示すように、このコンピュータ300は、RAM(Random Access Memory)310と、CPU(Central Processing Unit)320と、HDD(Hard Disk Drive)330と、LAN(Local Area Network)インタフェース340と、入出力インタフェース350と、DVD(Digital Versatile Disk)ドライブ360とを有する。
RAM310は、プログラムやプログラムの実行途中結果などを記憶するメモリであり、CPU320は、RAM310からプログラムを読み出して実行する中央処理装置である。
HDD330は、プログラムやデータを格納するディスク装置であり、LANインタフェース340は、コンピュータ300をLAN経由で他のコンピュータに接続するためのインタフェースである。
入出力インタフェース350は、マウスやキーボードなどの入力装置および表示装置を接続するためのインタフェースであり、DVDドライブ360は、DVDの読み書きを行う装置である。
そして、このコンピュータ300において実行される通信エラー情報出力プログラム311は、DVDに記憶され、DVDドライブ360によってDVDから読み出されてコンピュータ300にインストールされる。
あるいは、この通信エラー情報出力プログラム311は、LANインタフェース340を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータ300にインストールされる。
そして、インストールされた通信エラー情報出力プログラム311は、HDD330に記憶され、RAM310に読み出されてCPU320によって通信エラー情報出力プロセス321として実行される。
また、上記実施例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
(付記1)第一の装置が第二の装置を介して第三の装置を制御する情報処理システムにおいて、第一の装置と第二の装置との間で行われる通信または第二の装置と第三の装置との間で行われる通信に発生した通信エラーに係る情報の出力処理をコンピュータに実行させる通信エラー情報出力プログラムであって、
前記第一の装置から第二の装置に対して送信された制御メッセージに応じて前記第二の装置と第三の装置との間でやり取りされた通信メッセージが記録された通信ログを取得する通信ログ取得手順と、
前記第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報を記憶した制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得手順により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージを特定する未送信制御メッセージ特定手順と、
前記未送信制御メッセージ特定手順により特定された未送信制御メッセージに係る情報を出力する制御メッセージ情報出力手順と、
をコンピュータに実行させることを特徴とする通信エラー情報出力プログラム。
(付記2)前記通信ログ取得手順は、前記第一の装置が複数の第二の装置に対して制御メッセージをそれぞれ送信した場合に、前記複数の第二の装置から通信ログを収集し、
前記未送信制御メッセージ特定手順は、制御メッセージの送信が他の制御メッセージの送信に及ぼす影響に係る情報を記憶した影響情報に基づいて、未送信制御メッセージに対して影響を及ぼした制御メッセージを特定することを特徴とする付記1に記載の通信エラー情報出力プログラム。
(付記3)前記制御メッセージ対応情報は、第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報および第三の装置の識別情報を記憶し、
前記未送信制御メッセージ特定手順は、前記制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得手順により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージおよび制御メッセージを送信できなかった第二の装置または第三の装置を特定することを特徴とする付記1または2に記載の通信エラー情報出力プログラム。
(付記4)第一の装置が第二の装置を介して第三の装置を制御する情報処理システムにおいて、第一の装置と第二の装置との間で行われる通信または第二の装置と第三の装置との間で行われる通信に発生した通信エラーに係る情報の出力処理をコンピュータが実行する通信エラー情報出力方法であって、
前記第一の装置から第二の装置に対して送信された制御メッセージに応じて前記第二の装置と第三の装置との間でやり取りされた通信メッセージが記録された通信ログを取得する通信ログ取得工程と、
前記第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報を記憶した制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得工程により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージを特定する未送信制御メッセージ特定工程と、
前記未送信制御メッセージ特定工程により特定された未送信制御メッセージに係る情報を出力する制御メッセージ情報出力工程と、
を含んだことを特徴とする通信エラー情報出力方法。
(付記5)前記通信ログ取得工程は、前記第一の装置が複数の第二の装置に対して制御メッセージをそれぞれ送信した場合に、前記複数の第二の装置から通信ログを収集し、
前記未送信制御メッセージ特定工程は、制御メッセージの送信が他の制御メッセージの送信に及ぼす影響に係る情報を記憶した影響情報に基づいて、未送信制御メッセージに対して影響を及ぼした制御メッセージを特定することを特徴とする付記4に記載の通信エラー情報出力方法。
(付記6)前記制御メッセージ対応情報は、第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報および第三の装置の識別情報を記憶し、
前記未送信制御メッセージ特定工程は、前記制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得工程により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージおよび制御メッセージを送信できなかった第二の装置または第三の装置を特定することを特徴とする付記4または5に記載の通信エラー情報出力方法。
(付記7)第一の装置が第二の装置を介して第三の装置を制御する情報処理システムにおいて、第一の装置と第二の装置との間で行われる通信または第二の装置と第三の装置との間で行われる通信に発生した通信エラーに係る情報を出力する通信エラー情報出力装置であって、
前記第一の装置から第二の装置に対して送信された制御メッセージに応じて前記第二の装置と第三の装置との間でやり取りされた通信メッセージが記録された通信ログを取得する通信ログ取得手段と、
前記第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報を記憶した制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得手段により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージを特定する未送信制御メッセージ特定手段と、
前記未送信制御メッセージ特定手段により特定された未送信制御メッセージに係る情報を出力する制御メッセージ情報出力手段と、
を備えたことを特徴とする通信エラー情報出力装置。
(付記8)前記通信ログ取得手段は、前記第一の装置が複数の第二の装置に対して制御メッセージをそれぞれ送信した場合に、前記複数の第二の装置から通信ログを収集し、
前記未送信制御メッセージ特定手段は、制御メッセージの送信が他の制御メッセージの送信に及ぼす影響に係る情報を記憶した影響情報に基づいて、未送信制御メッセージに対して影響を及ぼした制御メッセージを特定することを特徴とする付記7に記載の通信エラー情報出力装置。
(付記9)前記制御メッセージ対応情報は、第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報および第三の装置の識別情報を記憶し、
前記未送信制御メッセージ特定手段は、前記制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得手段により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージおよび制御メッセージを送信できなかった第二の装置または第三の装置を特定することを特徴とする付記7または8に記載の通信エラー情報出力装置。
以上のように、本発明に係る通信エラー情報出力プログラム、通信エラー情報出力方法および通信エラー情報出力装置は、自律運用によってITシステムのリソースを制御する場合に有用であり、特に、ITシステムに通信エラーが発生した際に、その原因を速やかに特定することが求められる場合に適している。
本実施例1に係るITリソース制御装置の概要および構成を説明するための図である。 本実施例1に係る管理モジュールにより出力される実行ログの一例を示す図である。 本実施例1に係る通信パターンリポジトリの一例を示す図である。 本実施例1に係るログ解析部の処理手順を示すフローチャートである。 図4に示した正常/異常判定処理の処理手順を示すフローチャートである。 図4に示した原因箇所判定処理の処理手順を示すフローチャートである。 本実施例2に係るITリソース制御装置の概要および構成を説明するための図である。 本実施例2に係る結合通信パターンリポジトリの一例を示す図である。 本実施例2に係る結合ログの一例を示す図である。 本実施例2に係る結合ログ解析部の処理手順を示すフローチャートである。 図10に示した依存関係による原因箇所判定処理の処理手順を示すフローチャートである。 依存関係による原因箇所特定処理の一例を示す図である。 通信エラー情報出力プログラムを実行するコンピュータの構成を示す機能ブロック図である。 従来のITシステムにおける自律運用を説明するための図である。 従来のITシステムにおける自律運用の課題を説明するための図である。
符号の説明
100,200 ITリソース制御装置
1101〜1103 制御対象リソース
1201〜1203 管理モジュール
1211〜1213 実行ログ
130 実行制御モジュール
1401〜1403,2401〜2403 通信データ取得部
1411〜1413 通信パターンリポジトリ
1421〜1423 ログ解析部
1431〜1433,254 ログ解析結果
250 ログ収集モジュール
251 結合通信パターンリポジトリ
252 結合ログ解析部
253 結合ログ
300 コンピュータ
310 RAM
311 通信エラー情報出力プログラム
320 CPU
321 通信エラー情報出力プロセス
330 HDD
340 LANインタフェース
350 入出力インタフェース
360 DVDドライブ
1 運用管理手順
10 リソース
20 管理モジュール
30 実行制御モジュール
CM1,CM2 指示メッセージ
RM1,RM2 応答メッセージ

Claims (5)

  1. 第一の装置が第二の装置を介して第三の装置を制御する情報処理システムにおいて、第一の装置と第二の装置との間で行われる通信または第二の装置と第三の装置との間で行われる通信に発生した通信エラーに係る情報の出力処理をコンピュータに実行させる通信エラー情報出力プログラムであって、前記第一の装置から第二の装置に対して送信された制御メッセージに応じて前記第二の装置と第三の装置との間でやり取りされた通信メッセージが記録された通信ログを取得する通信ログ取得手順と、
    前記第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報を記憶した制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得手順により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージを特定する未送信制御メッセージ特定手順と、
    前記未送信制御メッセージ特定手順により特定された未送信制御メッセージに係る情報を出力する制御メッセージ情報出力手順と、
    をコンピュータに実行させることを特徴とする通信エラー情報出力プログラム。
  2. 前記通信ログ取得手順は、前記第一の装置が複数の第二の装置に対して制御メッセージをそれぞれ送信した場合に、前記複数の第二の装置から通信ログを収集し、
    前記未送信制御メッセージ特定手順は、制御メッセージの送信が他の制御メッセージの送信に及ぼす影響に係る情報を記憶した影響情報に基づいて、未送信制御メッセージに対して影響を及ぼした制御メッセージを特定することを特徴とする請求項1に記載の通信エラー情報出力プログラム。
  3. 前記制御メッセージ対応情報は、第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報および第三の装置の識別情報を記憶し、
    前記未送信制御メッセージ特定手順は、前記制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得手順により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージおよび制御メッセージを送信できなかった第二の装置または第三の装置を特定することを特徴とする請求項1または2に記載の通信エラー情報出力プログラム。
  4. 第一の装置が第二の装置を介して第三の装置を制御する情報処理システムにおいて、第一の装置と第二の装置との間で行われる通信または第二の装置と第三の装置との間で行われる通信に発生した通信エラーに係る情報の出力処理をコンピュータが実行する通信エラー情報出力方法であって、
    前記第一の装置から第二の装置に対して送信された制御メッセージに応じて前記第二の装置と第三の装置との間でやり取りされた通信メッセージが記録された通信ログを取得する通信ログ取得工程と、
    前記第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報を記憶した制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得工程により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージを特定する未送信制御メッセージ特定工程と、
    前記未送信制御メッセージ特定工程により特定された未送信制御メッセージに係る情報を出力する制御メッセージ情報出力工程と、
    を含んだことを特徴とする通信エラー情報出力方法。
  5. 第一の装置が第二の装置を介して第三の装置を制御する情報処理システムにおいて、第一の装置と第二の装置との間で行われる通信または第二の装置と第三の装置との間で行われる通信に発生した通信エラーに係る情報を出力する通信エラー情報出力装置であって、
    前記第一の装置から第二の装置に対して送信された制御メッセージに応じて前記第二の装置と第三の装置との間でやり取りされた通信メッセージが記録された通信ログを取得する通信ログ取得手段と、
    前記第一の装置から第二の装置宛てに送信される制御メッセージの識別情報に対応付けて前記第二の装置と第三の装置との間でやり取りされる制御メッセージの識別情報を記憶した制御メッセージ対応情報を読み出し、読み出した制御メッセージ対応情報と、前記通信ログ取得手段により取得された通信ログとに基づいて、送信されなかった未送信制御メッセージを特定する未送信制御メッセージ特定手段と、
    前記未送信制御メッセージ特定手段により特定された未送信制御メッセージに係る情報を出力する制御メッセージ情報出力手段と、
    を備えたことを特徴とする通信エラー情報出力装置。
JP2007013864A 2007-01-24 2007-01-24 通信エラー情報出力プログラム、通信エラー情報出力方法および通信エラー情報出力装置 Expired - Fee Related JP4257364B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007013864A JP4257364B2 (ja) 2007-01-24 2007-01-24 通信エラー情報出力プログラム、通信エラー情報出力方法および通信エラー情報出力装置
US12/017,864 US7739420B2 (en) 2007-01-24 2008-01-22 Communication error information output method, communication error information output device and recording medium therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007013864A JP4257364B2 (ja) 2007-01-24 2007-01-24 通信エラー情報出力プログラム、通信エラー情報出力方法および通信エラー情報出力装置

Publications (2)

Publication Number Publication Date
JP2008181299A JP2008181299A (ja) 2008-08-07
JP4257364B2 true JP4257364B2 (ja) 2009-04-22

Family

ID=39642350

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007013864A Expired - Fee Related JP4257364B2 (ja) 2007-01-24 2007-01-24 通信エラー情報出力プログラム、通信エラー情報出力方法および通信エラー情報出力装置

Country Status (2)

Country Link
US (1) US7739420B2 (ja)
JP (1) JP4257364B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5707263B2 (ja) * 2011-07-14 2015-04-22 Kddi株式会社 障害発生箇所診断システムおよび障害発生箇所診断方法
WO2014155650A1 (ja) * 2013-03-29 2014-10-02 株式会社日立製作所 情報制御装置、情報制御システム、及び情報制御方法
JP5913196B2 (ja) * 2013-05-27 2016-04-27 株式会社日立製作所 計算機システム及び障害特定方法
KR101594701B1 (ko) * 2014-10-20 2016-02-16 삼성에스디에스 주식회사 이상 접속 검출 장치 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5047977A (en) * 1988-04-08 1991-09-10 International Business Machines Corporation Methods of generating and retrieving error and task message records within a multitasking computer system
JP3183678B2 (ja) 1991-07-24 2001-07-09 日本電信電話株式会社 通信制御方法
JP3351318B2 (ja) * 1997-11-07 2002-11-25 株式会社日立製作所 計算機システムの監視方法

Also Published As

Publication number Publication date
US20080177901A1 (en) 2008-07-24
JP2008181299A (ja) 2008-08-07
US7739420B2 (en) 2010-06-15

Similar Documents

Publication Publication Date Title
JP6171386B2 (ja) コントローラ、情報処理装置およびプログラム
US20140067804A1 (en) Workflow generation server and method of generating workflow
JP5104673B2 (ja) 機器管理装置及びプログラム
US6985786B2 (en) Method for managing manufacturing data
CN111052087A (zh) 控制系统、信息处理装置以及异常主要原因推定程序
JP4257364B2 (ja) 通信エラー情報出力プログラム、通信エラー情報出力方法および通信エラー情報出力装置
JP5268589B2 (ja) 情報処理装置及び情報処理装置の運用方法
US7797590B2 (en) Consensus testing of electronic system
JP6436705B2 (ja) テスト実行装置、テスト実行方法およびコンピュータプログラム
KR101948927B1 (ko) 협업 리그레이션 점검 장치
Herbold et al. Combining usage-based and model-based testing for service-oriented architectures in the industrial practice
US20090313230A1 (en) Computing job information managing device, terminal, and computing job information managing system
JP2006059108A (ja) 情報システム開発試験支援システム
US20080178182A1 (en) Work state returning apparatus, work state returning method, and computer product
US20230306343A1 (en) Business process management system and method thereof
JPH10133916A (ja) 計算機システムにおける問題解析方式及び計算機システムにおける問題解析ツールを記録した媒体
US20210351955A1 (en) Device setting control device, network system, device setting method, and program
JP4816169B2 (ja) グローバルプロセス生成方法、装置、システム、およびプログラム
US11880194B2 (en) Control device, logging method, and recording medium having program recorded thereon
JP2016071397A (ja) テスト実行装置、テスト実行方法およびコンピュータプログラム
JP2015072531A (ja) テスト支援方法、テスト支援装置およびプログラム
CN112015681B (zh) 一种io端口的处理方法、装置、设备和介质
CN117421255B (zh) 一种接口的自动巡检方法、装置、设备和存储介质
US20240303071A1 (en) Providing method of vehicle software and providing system of vehicle software
Carvalho et al. A framework for dependability evaluation of PROFIBUS networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090127

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090202

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140206

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees