JP2002543494A - Method and system for handling errors in a distributed computer system - Google Patents

Method and system for handling errors in a distributed computer system

Info

Publication number
JP2002543494A
JP2002543494A JP2000614126A JP2000614126A JP2002543494A JP 2002543494 A JP2002543494 A JP 2002543494A JP 2000614126 A JP2000614126 A JP 2000614126A JP 2000614126 A JP2000614126 A JP 2000614126A JP 2002543494 A JP2002543494 A JP 2002543494A
Authority
JP
Japan
Prior art keywords
error
errors
resource
resolving
handling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000614126A
Other languages
Japanese (ja)
Inventor
アルビー・ガルテン
ピーター・ウィリアムズ
Original Assignee
ユニバーサル・ミュージック・グループ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ユニバーサル・ミュージック・グループ・インコーポレーテッド filed Critical ユニバーサル・ミュージック・グループ・インコーポレーテッド
Publication of JP2002543494A publication Critical patent/JP2002543494A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Abstract

(57)【要約】 本発明は、分散電子装置システム内のエラーを追跡しかつ処理するための方法およびシステムに関する。アプリケーションがエラーに遭遇した際に、集中エラー検出システムは、エラーイベントを傍受し、かつ、エラーイベントの処理を引き継ぐ。中央エラー処理については、種々のユーザーコンピュータ上で実行されるアプリケーションを接続している分散ネットワークとともに用いることができる。アプリケーションからエラーメッセージ12を受信すると、システムは、情報エラーパッケージを作成し、関連するサブシステムへ適切なエラー警報を伝搬し、かつ、エラーを解決しようとする。 SUMMARY The present invention relates to a method and system for tracking and handling errors in a distributed electronic device system. When an application encounters an error, the centralized error detection system intercepts the error event and takes over the processing of the error event. For central error handling, it can be used with a distributed network connecting applications running on various user computers. Upon receiving an error message 12 from the application, the system creates an informational error package, propagates appropriate error alerts to the associated subsystem, and attempts to resolve the error.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】TECHNICAL FIELD OF THE INVENTION

本出願は、本明細書中に参照として組み込まれている1999年4月28日に
出願された米国仮特許出願第60/131,412号の優先権を主張するもので
ある。 本発明は、分散電子装置システムにおけるエラーに対する追跡および応答に関
する。
This application claims priority to US Provisional Patent Application No. 60 / 131,412, filed April 28, 1999, which is incorporated herein by reference. The present invention relates to tracking and responding to errors in distributed electronic device systems.

【0002】[0002]

【従来の技術】[Prior art]

アプリケーションプログラムは、通常は、自己充足(self-contained)である
ように設計され、各々のアプリケーションプログラムは、プログラムの実行中に
発生し得るエラーを処理するための独自の能力を有している。多数のプログラム
を同時に動作させることがますます一般的になるとともに、各プログラムのエラ
ーメッセージのためのコードおよび該エラーメッセージの処理の多くは冗長であ
り、したがって、非効率的である。さらに、インターネットの利用がいっそう増
えるとともに、局所的に動作する多くのアプリケーションプログラムは、ネット
ワーク化されたリソースを用いる。アプリケーションの中には、インターネット
に接続されているユーザーに自動ヘルプ(automated help)を提供するために中
央リソース(central resource)を用いるものもある。
Application programs are typically designed to be self-contained, and each application program has its own ability to handle errors that may occur during the execution of the program. As it becomes increasingly common to run multiple programs simultaneously, the code for the error messages in each program and much of the processing of the error messages is redundant and, therefore, inefficient. In addition, with the increasing use of the Internet, many application programs running locally use networked resources. Some applications use central resources to provide automated help to users connected to the Internet.

【0003】[0003]

【発明が解決しようとする課題】[Problems to be solved by the invention]

必要とされるのは、分散システム上で実行されるアプリケーションにとって効
率的な方法で、エラーメッセージングおよびエラー処理を扱うシステムである。
What is needed is a system that handles error messaging and error handling in a manner that is efficient for applications running on distributed systems.

【0004】[0004]

【課題を解決するための手段】[Means for Solving the Problems]

本発明は、1つ以上のアプリケーションにより発生したエラーを集中(centra
lized)エラー処理ユーティリティが処理する分散(distributed)コンピュータ
システム内のエラーを追跡しかつ処理するための方法およびシステムである。明
確には、アプリケーションがエラーに遭遇した際に、本発明は、そのエラーイベ
ントを傍受し、かつ、そのエラーイベントの処理を引き継ぐ。この全体的エラー
処理は、種々のユーザーコンピュータ上で実行されるアプリケーションを接続し
ている分散ネットワークにより容易となる。アプリケーションからエラーメッセ
ージを受信すると、システムは、情報エラーパッケージ(informative error pa
ckage)を作成し、関連するサブシステムへ適切なエラー警報を伝搬し、かつ、
エラーを解決しようとする。これらのエラーについては、種々の方法で解決する
ことができる。例えば、システムは、適切なヘルプ情報を選択し、かつ、ユーザ
ーへ発送することができ、または、システムは、障害リソース(failed resourc
e)の代用となる代替リソースを配置することができる。システムは、所定の時
刻においてまだ未解決のエラーが2つ以上ある場合に、エラーに優先順位をつけ
ることができる。さらに、システムは、様々なレベルの応答を必要とするエラー
をフィルタリングすることができ、かつ、システムは、エラーを、該エラーの解
決を補助することが可能なリソースへ向けることができる。
The present invention concentrates errors caused by one or more applications.
lized) A method and system for tracking and handling errors in a distributed computer system handled by an error handling utility. Specifically, when an application encounters an error, the present invention intercepts the error event and takes over the processing of the error event. This global error handling is facilitated by a distributed network connecting applications running on various user computers. Upon receiving an error message from the application, the system will send an informative error package
ckage) and propagate appropriate error alerts to relevant subsystems; and
Try to resolve the error. These errors can be resolved in various ways. For example, the system can select the appropriate help information and send it to the user, or the system can select the failed resource
An alternative resource to substitute for e) can be placed. The system can prioritize errors if there are two or more unresolved errors at a given time. Further, the system can filter for errors that require varying levels of response, and the system can direct the errors to resources that can help resolve them.

【0005】[0005]

【発明の実施の形態】BEST MODE FOR CARRYING OUT THE INVENTION

本発明の好ましい実施形態において、システムは、エラーメッセージを作成し
、警報を伝搬し、かつ、コンピュータシステムの動作の間に発生するエラーを解
決する。好ましい実施形態によるシステムは、他のコンピュータプログラムで発
生するエラーに作用する独立型、自己充足のプログラムであってもよい。あるい
はまた、本システムは、他のコンピュータシステム(通常は、多くのサブシステ
ムを有する大型プログラム)の一部であってもよい。このシステムは、種々のア
プリケーションまたはサブシステム(独立して動作するものもあれば、協働して
動作するものもある)がネットワーク全域の様々なコンピュータ上で同時に動作
することができるコンピュータシステムのネットワークとともに用いることに適
している。しかしながら、本発明のシステムおよび方法は、概して、スタンドア
ローンコンピュータから大規模なグローバルコンピュータネットワークに及ぶコ
ンピュータシステムに適用可能である。システムエレメント(system element)
という語は、本明細書において、本発明の影響を受け得る広範囲のコンピュータ
プログラムおよびサブシステムを、すなわち、エラーを発生させるプログラムを
指すために用いられる。システムエレメントは、例えば、アプリケーションプロ
グラム、サブプログラム、オペレーティングプログラム、通信プロトコル、およ
び周辺機器用ドライバを包含している。さらに、ユーザーという語は、アプリケ
ーションを用いる側を指すだけでなく、システムエレメントのオペレータまたは
モニターをも指し得る。
In a preferred embodiment of the present invention, the system creates error messages, propagates alerts, and resolves errors that occur during operation of the computer system. The system according to the preferred embodiment may be a stand-alone, self-contained program that operates on errors that occur in other computer programs. Alternatively, the system may be part of another computer system, which is typically a large program with many subsystems. The system is a network of computer systems in which various applications or subsystems, some working independently and some working together, can run simultaneously on various computers across the network. Suitable for use with. However, the systems and methods of the present invention are generally applicable to computer systems ranging from standalone computers to large global computer networks. System element
The term is used herein to refer to a wide range of computer programs and subsystems that may be affected by the present invention, ie, programs that cause errors. The system elements include, for example, application programs, sub-programs, operating programs, communication protocols, and peripheral device drivers. Furthermore, the term user may refer not only to the side using the application, but also to the operator or monitor of the system element.

【0006】 通常は、最新のプログラミングにおいて、各々のシステムエレメントは、エラ
ーメッセージによって、(他のモジュールからのメッセージを予測したり、利用
可能ではない共通リソースにアクセスしようとするような)例外的条件を処理す
るように設計されており、該エラーメッセージは、プログラムデバッグにおいて
用いられるか、または、診断情報またはユーザーフィードバックを提供するエラ
ー処理ルーチンへ渡される。例えば、アプリケーションプログラム内において、
エラー処理およびデバッグサブシステムは、該アプリケーションにおける予測不
可能または不安定な状態と関連した特定のエラーメッセージを発生させる。エラ
ーの発生は、通常はナンバリングまたはネーミングスキーマによって、これらの
エラーを生じさせるアプリケーションプログラム内において独自に識別される。
さらに、プログラムは、通常は、診断または監査上の目的のために、各々のエラ
ーをログファイルへログ記録する。
[0006] Usually, in modern programming, each system element causes an error message to indicate an exceptional condition (such as trying to predict a message from another module or to access a common resource that is not available). The error message is used in program debugging or passed to an error handling routine that provides diagnostic information or user feedback. For example, in an application program,
The error handling and debugging subsystem generates specific error messages associated with unpredictable or unstable conditions in the application. The occurrence of an error is uniquely identified within the application program that causes these errors, usually by a numbering or naming scheme.
In addition, the program typically logs each error to a log file for diagnostic or auditing purposes.

【0007】 システムエレメントにおいて発生し得る多くの様々なタイプのエラーが存在す
る。例えば、幾つかのエラーは、アプリケーションプログラムの内部論理回路に
影響を及ぼすことがあり、これにより、プログラムは、要求されたタスクを請け
負うことができなくなり、かつ、安定した形式または不安定な形式のいずれかで
、この状態を抜け出す。他のエラーは、システムエレメントの動作のみに影響を
及ぼし、かつ、ユーザーに報告される。さらに他のエラーは、例えば、エラーを
被ったアプリケーションプログラムが他のシステムエレメントと同期的または非
同期的に連絡している場合に、他のシステムエレメントの動作に影響を及ぼす。
この場合には、エラーによって、多数のシステムエレメントが、安定した形式ま
たは不安定な形式のいずれかで、請け負われている機能から抜け出す可能性があ
る。
[0007] There are many different types of errors that can occur in system elements. For example, some errors may affect the internal logic of the application program, which may prevent the program from undertaking the required task and may require a stable or unstable format. Either escape this state. Other errors only affect the operation of the system element and are reported to the user. Still other errors affect the operation of other system elements, for example, when the application program that suffered the error is communicating with other system elements synchronously or asynchronously.
In this case, the error may cause a number of system elements to escape from the function undertaken, either in a stable or unstable manner.

【0008】 <作成> 中央リソースは、例えばアプリケーションプログラムにより発生したエラーメ
ッセージのような、エラーの発生を示すシステムエレメントから受信された信号
に基づいて、エラー情報パッケージ(error information package)を作成する
。図1を参照すると、エラールーティングサーバー(16)は、多数のアプリケ
ーションおよび/またはネットワークコンピュータにより利用されるように設計
されたコンピュータまたはユーティリティである。エラールーティングサーバー
は、着信エラーメッセージと発信応答とを管理するクリアリングハウス(cleari
nghouse)として作用する。矢印により示されるように、システムエレメント(
10)により発生したエラーメッセージ(12)は、エラールーティングサーバ
ー(16)へ送信される。次に、エラールーティングサーバー(16)は、この
エラーメッセージ(12)を、本明細書において説明されるようにエラーを処理
する中央リソースを実装するように設計されたコンピュータまたはユーティリテ
ィであるエラーリソースサーバー(18)へ転送することができる。エラーリソ
ースサーバー(18)は、処理されているエラーに応答する情報を得るために、
エラーFAQサーバー(20)を用いることができる。さらに、エラーリソース
サーバー(18)は、エラーに応答する種々の補助オプション(assistance opt
ions)を提供する1つ以上のデータベースにアクセスすることができる。さらに
、エラールーティングサーバー(16)は、着信エラーメッセージ(12)をエ
ラーフィルタ(14)へ転送することができ、かつ、これらのエラーを拡大させ
る(escalate)ことができる。エラーフィルタは、様々なタイプのエラーを分離
することができ、かつ、各々のエラーメッセージが処理のために何処へ送信され
るべきかをエラールーティングサーバーに指示することができる。最後に、これ
らの構成要素は、エラールーティングサーバー(16)によって、適切な応答ま
たは指示を、エラーを被っているシステムエレメント(10)へ送信することに
より、補助をもたらし、かつ/または、エラーを解決する。これらの構成要素の
動作については、図2Aおよび図2Bと関連してより詳細に説明する。
Creation The central resource creates an error information package based on a signal received from a system element indicating the occurrence of an error, such as an error message generated by an application program. Referring to FIG. 1, the error routing server (16) is a computer or utility designed to be utilized by a number of applications and / or network computers. The error routing server manages incoming error messages and outgoing responses in a clearinghouse (cleari
nghouse). As indicated by the arrow, the system element (
The error message (12) generated by 10) is transmitted to the error routing server (16). The error routing server (16) then translates the error message (12) into an error resource server, which is a computer or utility designed to implement a central resource for handling errors as described herein. (18). The error resource server (18) obtains information responsive to the error being processed,
An error FAQ server (20) can be used. In addition, the error resource server (18) provides various assistance options (response options) for responding to errors.
access to one or more databases that provide ions). Further, the error routing server (16) can forward incoming error messages (12) to the error filter (14) and escalate these errors. Error filters can separate the various types of errors and indicate to the error routing server where each error message should be sent for processing. Finally, these components provide assistance and / or reduce errors by sending an appropriate response or indication to the system element (10) in error by the error routing server (16). Resolve. The operation of these components will be described in more detail in connection with FIGS. 2A and 2B.

【0009】 図2Aおよび図2Bを参照すると、システムエレメントの処理中にエラーが発
生した場合に、本発明は、該エレメントのエラー処理を傍受するか、または、シ
ステムエレメントは、前方へ送信するためのエラーメッセージを発生させる。段
階24において、システムエレメントは、ユーザーがアクティブ状態でネットワ
ークに接続されているかどうかを判断する。ユーザーがアクティブ状態でネット
ワークに接続されていなければ、段階28において、エラーメッセージについて
は、もし存在すればローカルエラー管理システムへ送信することができ、かつ/
または、後で送信するために待ち行列に入れる(queue)ことができる。段階2
4において、ユーザーがオンライン状態であると判断されれば、工程は段階26
へ進行する。段階26において、エレメントのエラーメッセージは、処理のため
に中央リソースへ送信される。中央リソースは、局所的に、または、他のエリア
ネットワークコンピュータ上に、または、インターネット上に存在することがで
きる。エラーについては、中央リソースへ送信する前に、耐タンパー (tamper-r
esistant) または安全なフォーマットで、フォーマットすることができる。中央
リソースについては、遠隔的に配置することができ、かつ、インターネットのよ
うな分散ネットワークを介して接続することができる。概して、エラーメッセー
ジは、多くの障害ポイント(points of failure)を備えたネットワークシステ
ム全体を用いる場合のエラー条件をユーザーが受ける際に送信される。
Referring to FIG. 2A and FIG. 2B, when an error occurs during processing of a system element, the present invention intercepts the error processing of the element or the system element transmits the error forward. Raises an error message. In step 24, the system element determines whether the user is active and connected to the network. If the user is not active and not connected to the network, at step 28 an error message can be sent to the local error management system, if any, and / or
Or, it can be queued for later transmission. Stage 2
If it is determined in step 4 that the user is online, the process proceeds to step 26.
Proceed to. In step 26, the element's error message is sent to the central resource for processing. The central resource may reside locally, on another area network computer, or on the Internet. For errors, before sending them to the central resource, tamper-resistant (tamper-r
esistant) or in a secure format. For central resources, they can be located remotely and connected through a distributed network such as the Internet. Generally, an error message is sent when a user experiences an error condition when using an entire network system with many points of failure.

【0010】 段階30において、中央リソースは、受信されたエラーメッセージに基づいて
、エラー情報パッケージ(エラーパック)を発生させる。各々のエラーパックに
ついては、エラーコードにより識別することができ、該エラーコードは、全ての
エラー発生に関する独自の番号であってもよく、または、エラータイプを示すこ
ともできる。何らかの補助供給をユーザーに対して発生させるために、十分な追
加情報をエラーパックに含めることもできる。例えば、各々のエラーパックは、
エラーを被っているアプリケーションおよび/またはサブシステムエレメントの
識別と、エラーパックが作成された時刻またはエラーが発生した時刻を示すタイ
ムスタンプと、ユーザーの位置を示すアドレス(例えば、IPアドレス、MAC
アドレス、または、電子メールアドレス)とを包含することができる。エラーの
優先順位を示すために、優先順位コードを含めることもできる。優先順位は、例
えば、特定のプログラムのシステム障害のような末端から、エラーが全体的な機
能またはオペレーションである場合のサービス切断にまで及ぶことができる。プ
ログラムまたはシステムエレメントの内部状態の表示についてもエラーパックに
含めることができ、これにより、他のシステムエレメントは、自らの応答をこの
状態に適応させることが可能となる。この内部状態は、エラーを被っているアプ
リケーションまたはサブシステムの状態を示し、かつ、外部システムエレメント
が自らの応答をこの状態に適合させることを可能にする。
In step 30, the central resource generates an error information package (error pack) based on the received error message. Each error pack can be identified by an error code, which can be a unique number for every error occurrence or can indicate an error type. Sufficient additional information can also be included in the error pack in order to provide some assistance to the user. For example, each error pack is
Identification of the application and / or subsystem element that is suffering the error, a timestamp indicating when the error pack was created or when the error occurred, and an address (eg, IP address, MAC) indicating the location of the user
Address, or e-mail address). A priority code may be included to indicate the priority of the error. Priority can range, for example, from an end, such as a system failure of a particular program, to service disconnection if the error is an overall function or operation. An indication of the internal state of the program or system element can also be included in the error pack, so that other system elements can adapt their response to this state. This internal state indicates the state of the application or subsystem that is experiencing the error and allows external system elements to adapt their response to this state.

【0011】 エラー情報パッケージを発生させることの他に、段階32において、中央リソ
ースは、ヘルプページまたは動的に更新される他のヘルプ情報を、元のアプリケ
ーションまたはユーザーへ発送する。こうして、ユーザーは、問題の潜在的原因
に関する補助を適時に受信する。ヘルプメッセージは、考慮中の問題と関連した
FAQタイプのページへユーザーを向けることができる。さらに、ヘルプメッセ
ージは、問題を識別または除去しようとする多数のシナリオを通してユーザーを
補助する自動ヘルプ“bot”またはウィザードを発生させることができる。“
bot”(ロボット)は、インターネット上で用いられるプログラムであり、か
つ、多数のニュースグループへメッセージをポストしたり情報を検索するような
反復的機能を実行するプログラムである。これらのシナリオは、ユーザー入力に
、および/または、工程内で発生するさらなるエラーまたはシステムメッセージ
に応答するという点において動的であり得る。
[0011] In addition to generating the error information package, at step 32, the central resource dispatches the help page or other dynamically updated help information to the original application or user. Thus, the user receives in a timely manner an aid as to the potential cause of the problem. The help message can direct the user to a FAQ type page associated with the problem under consideration. Further, the help message can generate an automatic help "bot" or wizard that assists the user through a number of scenarios trying to identify or eliminate the problem. “
"bots" (robots) are programs used on the Internet and which perform repetitive functions such as posting messages to a number of newsgroups or searching for information. It may be dynamic in that it responds to input and / or additional errors or system messages that occur within the process.

【0012】 中央リソースにより受信されたエラーメッセージについては、これらのエラー
メッセージの識別番号により分類することができ、かつ、知識ベースとこれに関
連しかつユーザーに提供される補助とを更新するために、自動的にまたは人為的
にのいずれかで処理することができる。エラー情報パッケージについては、安全
なフォーマットで供給することができ、かつ、関連するシステムリソースへ送信
することができる。
[0012] Error messages received by the central resource can be categorized by the identification numbers of these error messages and to update the knowledge base and the associated assistance provided to the user. Can be processed either automatically or artificially. The error information package can be provided in a secure format and sent to the relevant system resources.

【0013】 <伝搬> エラー情報パッケージを発生させた後に、段階34において、中央リソースは
、エラーの発生を知ることから利益を得ることができる任意のサブシステムまた
はプログラムへ、関連する情報を伝搬する。エラー情報パッケージについては、
対応するウェブベースのエラー管理リソースへ送信することができる。さらに、
エラーのタイプに応じて、エラー警報メッセージを発生させることができ、かつ
、システム全体にわたって伝搬することができる。これらのメッセージは、エレ
メント全体の障害または通信の停止のような問題をシステム自身が被っているこ
とを示すシステム警報を作成するように意図されている。実際には、デリバリー
システムからのタイムアウトのようなエラーについては、タイムアウトに遭遇し
たリソースから他のリソースへ、局所的にまたは遠隔的にのいずれかでユーザー
を動的に切り替えるために用いることができる。
Propagation After generating the error information package, in step 34, the central resource propagates the relevant information to any subsystem or program that can benefit from knowing that an error has occurred. . For the error information package,
It can be sent to the corresponding web-based error management resource. further,
Depending on the type of error, an error alert message can be generated and propagated throughout the system. These messages are intended to create a system alert indicating that the system itself is suffering from a problem such as a failure of the entire element or a loss of communication. In practice, for errors such as timeouts from the delivery system, it can be used to dynamically switch users, either locally or remotely, from the resource that encountered the timeout to another resource. .

【0014】 さらなるシステムエレメントに対するエラー警報メッセージの伝搬は、さらに
、システムに、エラーの性質に応じた様々な方法で応答させる。あるシステムエ
レメントからのエラーは、他のエレメントを潜在的にリセットすることにより、
または、作用すべき他のエレメントへ指示を与えることにより、別のシステムエ
レメントに様々な形で応答させる。このことは、各々の特定のシステムの状況ま
たはアーキテクチャに依存する。エラー警報の伝搬は、ネットワークおよびサポ
ーティング・インフラストラクチャを包含する包括的なカスタマーケア・ソリュ
ーション内に、エラー処理を統合させるための基盤をもたらす。
Propagation of the error alert message to further system elements further causes the system to respond in various ways depending on the nature of the error. Errors from one system element can potentially reset other elements,
Alternatively, another system element may respond in various ways by giving instructions to other elements to act on. This depends on the context or architecture of each particular system. The propagation of error alerts provides the basis for integrating error handling into a comprehensive customer care solution that encompasses the network and supporting infrastructure.

【0015】 <解決> エラー情報パッケージおよびエラー警報メッセージの作成および伝搬は、知覚
されかつ実現されるカスタマーサービスに対して重大な影響力を有し得る。しか
しながら、究極の目標はエラーを解決することである。したがって、中央リソー
スは、エラーを分析し、かつ、適時の応答を、たとえこの応答がユーザーに彼ら
が被っている問題について知らせるために作用するだけのものであっても、ユー
ザーに提供する。
Resolution The creation and propagation of error information packages and error alert messages can have a significant impact on perceived and realized customer service. However, the ultimate goal is to resolve the error. Thus, the central resource analyzes the error and provides a timely response to the user, even if this response only serves to inform the user about the problem they are experiencing.

【0016】 エラーの分析は、各々のエラーを、個々におよび/または他のエラーと組み合
わせて識別しかつ評価することを伴う。エラーについては、エラー情報パッケー
ジにより提供された情報の組み合わせにより識別することができる。例えば、位
置および内部状態に基づいて、中央リソースは、エラーの評価を補助することが
でき、かつ、効率的な解決の可能性を高めることができる。
Analysis of errors involves identifying and evaluating each error individually and / or in combination with other errors. Errors can be identified by a combination of information provided by the error information package. For example, based on location and internal state, a central resource can assist in assessing errors and increase the likelihood of an efficient solution.

【0017】 根元的な(underlying)システムエレメントの動作中に、多くのエラーが同時
に発生する可能性があり、かつ、所定のエラーに関し、もっと早期に発生しかつ
未解決のエラーが存在する可能性がある。所定の時刻において未解決のままであ
り得る多数のエラーを処理するために、段階36において、システムは、エラー
処理に優先順位をつけるために、エラールーティングサーバー(16)を利用す
ることができる。エラールーティングサーバーは、根元的なシステムエレメント
の連続動作に最も重大な脅威を呈するエラーを識別する。前記ルーティングサー
バーは、種々のシステムエレメントが様々な程度の相対的重要性を有することを
考慮に入れることができる。例えば、他のプログラムを管理するオペレーティン
グシステムまたは主要なプログラムは、これらのオペレーティングシステムまた
はプログラムのそれぞれのアプリケーションプログラムまたはモジュールよりも
重要である。どのエラーが最も重大な脅威を呈するのかに関する判断は、事前に
設定された優先順位レベルに依存ことができ、かつこれにより、一連の規則を通
して評価され得る。これらの規則については最初に定義することができるが、た
とえ時刻を超過しても、これらの規則については、エラーおよび障害の履歴が展
開されていくにつれて、自動的に更新しかつ変更することができる。前記ルーテ
ィングサーバーは、さらに、幾つかのについては一緒に関連づけることができか
つ処理すべきであることを考慮に入れることができる。種々のシステムエレメン
トからのエラーを中央リソースにおいて処理することは、これらのエラーを集め
るための、かつ、(例えば、他の任務において重大なインフラストラクチャのた
めに依存される1つ以上のデリバリーサービスまたは重大なパイプ(crucial pi
pes)の障害のような)問題に関する警報を主要なシステムエレメントへ供給す
るための能力を生じさせる。
During the operation of the underlying system element, many errors may occur simultaneously, and for a given error, there may be earlier occurring and unresolved errors. There is. To handle a number of errors that may remain unresolved at a given time, at step 36 the system may utilize an error routing server (16) to prioritize error handling. The error routing server identifies errors that pose the greatest threat to the continuous operation of the underlying system element. The routing server can take into account that different system elements have different degrees of relative importance. For example, operating systems or primary programs that manage other programs are more important than application programs or modules of each of these operating systems or programs. The decision as to which error presents the most significant threat can depend on a preset priority level, and can be evaluated through a series of rules. These rules can be defined first, but they can be updated and changed automatically, even over time, as the history of errors and failures evolves. it can. The routing server can further take into account that some can be associated together and should be processed. Handling errors from various system elements at a central resource may be useful to collect these errors and (e.g., one or more delivery services or other services that are dependent on critical infrastructure in other missions). Crucial pi
pes) creates the ability to provide alerts to key system elements (such as faults).

【0018】 システムがエラーを評価する一方法は、エラーに関連した情報のデータベース
を参照することである(段階38)。データベースは、過去のエラーに関する履
歴を、これらのエラーの解決に関する提案とともに有することができる。データ
ベースは、差し迫ったエラーを解決するようにシステムを案内できる頻繁に発生
するエラーまたは頻繁に問い合わせられる質問(frequently asked questions)
のコンパイルを有することができる。FAQサーバーは、エラーおよびその原因
を集めるための通常の技術を利用することができ、該エラーおよびその原因には
、原因およびエラー識別の両方の番号により索引をつけることができる。いった
ん、エラーが集められるか、または、システムエレメント内における特定の問題
と関連づけられると、新たなFAQをエラーリソースサーバーから作成すること
ができる。
One way for the system to evaluate the error is to consult a database of information related to the error (step 38). The database can have a history of past errors, along with suggestions for resolving these errors. The database can guide the system to resolve imminent errors, frequently occurring errors or frequently asked questions
Can be compiled. The FAQ server can utilize the usual techniques for gathering errors and their causes, which can be indexed by both cause and error identification numbers. Once an error is collected or associated with a particular problem within a system element, a new FAQ can be created from the error resource server.

【0019】 前記エラーリソースサーバーは、システムにより発生する全てのエラーのリポ
ジトリである。エラーリソースサーバーは、システムアーキテクチャの表示をシ
ステムエレメントの各インターフェースとともに保持することができ、かつ、こ
れらのインターフェースを、受信されたエラーを分類するための機構として用い
ることができる。これらのエラーについては、システムエレメント内部またはシ
ステムエレメント外部のいずれかにおけるものとして分類することができる。エ
ラーの定義は、システムエレメントの識別と、該エラーと該システムエレメント
または他のシステムエレメントとの関係とを包含することができる。これらのエ
ラーについては、一般によく知られているオブジェクトモデリング技術を用いた
オブジェクトモデルにおいて、互いに関連づけることができる。前記オブジェク
トモデリング技術は、継承(inheritance)、前提、および事後の条件および属
性を包含するが、これらに制限されるものではない。このようなオブジェクトモ
デリングに関するさらなる詳細については、メイヤー(Meyer)による"Object O
riented Software Construction"(Prentice Hall) において見出すことができ、
この内容は本明細書に参照として組み込まれている。エラーとこれらのエラーの
処理との間の関係を、系統的モデル内における個々のオブジェクトとして識別す
ることは、エラーリソースサーバーに関する核心をもたらす。エラーとシステム
インターフェースモデルとの関係のマッピングは、分類すべきかつ残りのシステ
ムによりアクセスすべきエラーのための枠組みをもたらす。
The error resource server is a repository for all errors generated by the system. The error resource server can maintain an indication of the system architecture along with each interface of the system element, and use these interfaces as a mechanism for classifying received errors. These errors can be categorized as being either inside the system element or outside the system element. The definition of an error can include the identification of the system element and the relationship between the error and the system element or other system elements. These errors can be related to each other in an object model using a generally well-known object modeling technique. The object modeling techniques include, but are not limited to, inheritance, assumptions, and post conditions and attributes. For more details on such object modeling, see Meyer's "Object O
riented Software Construction "(Prentice Hall)
This content is incorporated herein by reference. Identifying the relationships between errors and the handling of these errors as individual objects in a systematic model provides the heart of the error resource server. Mapping the relationship between errors and the system interface model provides a framework for errors to be categorized and accessed by the rest of the system.

【0020】 前記エラーリソースサーバーは、残りのエラーシステムのためにデータリソー
スを供給し、かつ、他のシステムエレメントが自らのベースライン情報を得るリ
ポジトリとして作用する。これにより、他のシステムエレメントが効率的かつ適
時の応答をシステムエラーに対して与えることが可能となる一方で、同時に、同
時発生エラー管理リソースと、システムの動作をサポートする管理システムとが
維持される。このモデルにおいて、発生するエラーは、システムの効率的な動作
全体を可能にするカスタマーケア方法の一部となる。こうして、エラーは、シス
テムの動作全体において同質なものとなる。これらのリソースを用いることによ
り、中央リソースは、エラーまたはエラーグループを生じさせる根底的な問題を
識別することができる。問題を識別した後で、リソースは、可能であれば、この
問題と取り組み始めることができる。
The error resource server provides data resources for the rest of the error system and acts as a repository from which other system elements obtain their baseline information. This allows other system elements to provide efficient and timely responses to system errors, while at the same time maintaining concurrent error management resources and a management system that supports system operation. You. In this model, the errors that occur become part of the customer care method that allows for the overall efficient operation of the system. The errors are thus homogeneous throughout the operation of the system. By using these resources, the central resource can identify the underlying problem causing the error or error group. After identifying the problem, the resource can begin addressing the problem, if possible.

【0021】 起こり得る様々なエラーおよび問題が多数存在するので、中央リソースは、必
要とされる応答または救済策のタイプにしたがって、エラーをフィルタリングす
る。このようなフィルタリングは、エラーフィルタ(14)により行われる。段
階40において、フィルタは、何らかの物理的変更または人間による介入がなく
ては解決できないエラーを分離することができる。例えば、不十分なローカルデ
ィスク空間により生じるエラーは、通常は、利用可能なディスク空間を作成する
幾つかのファイルを削除することを、または、ディスク空間を追加または置き換
えることを、ユーザーに求める。幾つかのエラーについては、フィルタアウト(
filter out)することができ、かつ、さらなる処理のためにリダイレクト(redi
rect)することができる。例えば、問題を解決する行動を起こすために他のシス
テムエレメントを必要とするエラーについては、他のシステムエレメントへリダ
イレクトすることができる。他の例は、選ばれたシステムエレメント全体を集め
ることが外部インフラストラクチャに、または、障害に遭遇したサービス供給に
依存する場合である。このような例においては、エラーを外部エレメントへリダ
イレクトすることができる。
Since there are many different errors and problems that can occur, the central resource filters the errors according to the type of response or remedy required. Such filtering is performed by the error filter (14). In step 40, the filter can isolate errors that cannot be resolved without any physical changes or human intervention. For example, errors caused by insufficient local disk space typically require the user to delete some files that make available disk space, or to add or replace disk space. For some errors, filter out (
filter out) and redirect (redi) for further processing
rect). For example, an error that requires another system element to take action to resolve the problem can be redirected to another system element. Other examples are where collecting the entire selected system element depends on the external infrastructure or on the service delivery that encountered the failure. In such an example, the error can be redirected to an external element.

【0022】 前記中央リソースにより発生したエラー情報パッケージは、ネットワーク管理
システムへの移入に非常に適しており、該ネットワーク管理システムについては
、エラーの管理、監視、拡大(escalation)、および究極的にはカスタマーケア
のために用いることができる。
The error information package generated by the central resource is very suitable for importing into a network management system, which manages, monitors, escalates and ultimately manages errors. Can be used for customer care.

【0023】 こうして、本発明のシステムおよび方法は、エラー情報パッケージを作成する
ことにより、エラー警報メッセージを伝搬することにより、かつ、エラーを解決
することにより、エラーを処理する。前記作成、伝搬、および解決機能について
は、直列的にまたは並列的にのいずれかで実行でき、かつ、同一モジュールによ
っても異なるモジュールによっても実行できることを理解すべきである。エラー
を処理するための補助を発送したり、種々のエラーに優先順位をつけたり、エラ
ーフィルタを適用するようなさらなる機能については、特定のアプリケーション
に応じて、異なる順序でも、または、1つ以上の異なるモジュールによっても同
様に実行することができる。
Thus, the systems and methods of the present invention handle errors by creating an error information package, by propagating error alert messages, and by resolving errors. It should be understood that the create, propagate, and resolve functions can be performed either serially or in parallel, and can be performed by the same or different modules. For additional functions such as sending out assistance to handle errors, prioritizing various errors, and applying error filters, depending on the particular application, in a different order or one or more. The same can be performed by different modules.

【0024】 本発明について、その好ましい実施形態を参照して詳細に示しかつ説明してき
たが、その一方で、形式および詳細における種々の変更が本発明の真意および範
囲から逸脱することなく本発明において行われ得ることが、当業者には理解され
る。
Although the present invention has been shown and described in detail with reference to preferred embodiments thereof, various changes in form and detail can be made without departing from the spirit and scope of the invention. It will be appreciated by those skilled in the art that this can be done.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の好ましい実施形態を示すブロック図である。FIG. 1 is a block diagram showing a preferred embodiment of the present invention.

【図2A】 好ましい実施形態による方法を示すフローチャートである。FIG. 2A is a flowchart illustrating a method according to a preferred embodiment.

【図2B】 図2Aと同様の図である。FIG. 2B is a view similar to FIG. 2A.

【符号の説明】[Explanation of symbols]

10 システムエレメント 12 エラーメッセージ 14 エラーフィルタ 16 エラールーティングサーバー 18 エラーリソースサーバー 20 エラーFAQサーバー 10 System Element 12 Error Message 14 Error Filter 16 Error Routing Server 18 Error Resource Server 20 Error FAQ Server

【手続補正書】[Procedure amendment]

【提出日】平成13年10月24日(2001.10.24)[Submission date] October 24, 2001 (2001.10.24)

【手続補正1】[Procedure amendment 1]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】特許請求の範囲[Correction target item name] Claims

【補正方法】変更[Correction method] Change

【補正の内容】[Contents of correction]

【特許請求の範囲】[Claims]

───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,HR,HU,ID,IL,IN, IS,JP,KE,KG,KP,KR,KZ,LC,L K,LR,LS,LT,LU,LV,MD,MG,MK ,MN,MW,MX,NO,NZ,PL,PT,RO, RU,SD,SE,SG,SI,SK,SL,TJ,T M,TR,TT,TZ,UA,UG,US,UZ,VN ,YU,ZA,ZW (72)発明者 ピーター・ウィリアムズ オーストラリア・2011・シドニー・ポッ ツ・ポイント・ダーリンハースト・ロー ド・33/57 Fターム(参考) 5B042 GA12 JJ03 KK09 MA09 MC15 【要約の続き】 ──────────────────────────────────────────────────続 き Continuation of front page (81) Designated country EP (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE ), OA (BF, BJ, CF, CG, CI, CM, GA, GN, GW, ML, MR, NE, SN, TD, TG), AP (GH, GM, KE, LS, MW, SD, SL, SZ, TZ, UG, ZW), EA (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM), AE, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BY, CA, CH, CN, CR, CU, CZ, DE, DK, DM, EE, ES, FI, GB, GD, GE, HR, HU, ID, IL, IN , IS, JP, KE, KG, KP, KR, KZ, LC, LK, LR, LS, LT, LU, LV, MD, MG, MK, MN, MW, MX, NO, NZ, PL, PT, RO, RU, SD, SE, SG, SI, SK, SL, TJ, TM, TR, TT, TZ, UA, UG, US, UZ, VN, YU, ZA, ZW (72) Inventor Peter Williams Australia 2011 Sydney Pots Point Darlinghurst Road 33/57 F-term (reference) 5B042 GA12 JJ03 KK09 MA09 MC15 [Continued summary]

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 分散コンピュータシステム内のエラーを追跡しかつ処理す
るための方法であって、 複数のアプリケーションの1つからエラーイベントを傍受するために集中エラ
ー検出システムを利用する段階と、 前記アプリケーションの1つからエラーメッセージを傍受すると、情報エラー
パッケージを作成する段階と、 関連するサブシステムへ適切なエラー警報を伝搬する段階と、 エラーを解決する段階と を具備することを特徴とする方法。
1. A method for tracking and handling errors in a distributed computer system, the method comprising: utilizing a centralized error detection system to intercept error events from one of a plurality of applications; Generating an informational error package upon intercepting an error message from one of the following: transmitting an appropriate error alert to an associated subsystem; and resolving the error.
【請求項2】 前記解決段階は、適切なヘルプ情報を選択する段階と、前
記ヘルプ情報をユーザーへ発送する段階とをさらに有することを特徴とする請求
項1に記載の方法。
2. The method of claim 1, wherein the resolving step further comprises selecting appropriate help information and sending the help information to a user.
【請求項3】 前記解決段階は、傍受されたエラーと関連した障害リソー
スの代用となる代替リソースを配置する段階をさらに有することを特徴とする請
求項1に記載の方法。
3. The method of claim 1, wherein the step of resolving further comprises the step of placing an alternative resource to substitute for a failed resource associated with the intercepted error.
【請求項4】 所定の時刻においてまだ未解決のエラーが2つ以上存在す
る場合に、エラーに優先順位をつける段階をさらに具備することを特徴とする請
求項1に記載の方法。
4. The method of claim 1, further comprising prioritizing the errors if there are two or more unresolved errors at a given time.
【請求項5】 様々なレベルの応答を必要とするエラーをフィルタリング
する段階をさらに具備することを特徴とする請求項1に記載の方法。
5. The method of claim 1, further comprising filtering for errors that require different levels of response.
【請求項6】 エラーを、該エラーの解決を補助することが可能なリソー
スへ向ける段階をさらに具備することを特徴とする請求項1に記載の方法。
6. The method of claim 1, further comprising directing the error to a resource that can assist in resolving the error.
JP2000614126A 1999-04-28 2000-04-27 Method and system for handling errors in a distributed computer system Pending JP2002543494A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13141299P 1999-04-28 1999-04-28
US60/131,412 1999-04-28
PCT/US2000/011702 WO2000065448A1 (en) 1999-04-28 2000-04-27 A method and system for handling errors in a distributed computer system

Publications (1)

Publication Number Publication Date
JP2002543494A true JP2002543494A (en) 2002-12-17

Family

ID=22449358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000614126A Pending JP2002543494A (en) 1999-04-28 2000-04-27 Method and system for handling errors in a distributed computer system

Country Status (4)

Country Link
EP (1) EP1214655A1 (en)
JP (1) JP2002543494A (en)
AU (1) AU4684200A (en)
WO (1) WO2000065448A1 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7712083B2 (en) 2003-08-20 2010-05-04 Igt Method and apparatus for monitoring and updating system software
WO2005076147A1 (en) 2004-02-10 2005-08-18 Ian Andrew Maxwell A content distribution system
KR101036036B1 (en) * 2004-04-06 2011-05-19 파나소닉 주식회사 Program execution device
GB2424086A (en) * 2004-09-14 2006-09-13 Acres Gaming Inc Monitoring computer system software
US9990244B2 (en) 2013-01-30 2018-06-05 Hewlett Packard Enterprise Development Lp Controlling error propagation due to fault in computing node of a distributed computing system
US9594622B2 (en) 2015-02-04 2017-03-14 International Business Machines Corporation Contacting remote support (call home) and reporting a catastrophic event with supporting documentation
US10275296B2 (en) * 2017-01-24 2019-04-30 Wipro Limited Method and system for resolving one or more errors in an enterprise storage system
US10817361B2 (en) 2018-05-07 2020-10-27 Hewlett Packard Enterprise Development Lp Controlling error propagation due to fault in computing node of a distributed computing system

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0644242B2 (en) * 1988-03-17 1994-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーション How to solve problems in computer systems
JP3675851B2 (en) * 1994-03-15 2005-07-27 富士通株式会社 Computer monitoring method
US5563805A (en) * 1994-08-16 1996-10-08 International Business Machines Corporation Multimedia context-sensitive real-time-help mechanism for use in a data processing system
US5892898A (en) * 1996-10-04 1999-04-06 Honeywell, Inc. Error management system for supporting the identification and logging of error messages
US5941996A (en) * 1997-07-25 1999-08-24 Merrill Lynch & Company, Incorporated Distributed network agents

Also Published As

Publication number Publication date
WO2000065448A1 (en) 2000-11-02
EP1214655A1 (en) 2002-06-19
AU4684200A (en) 2000-11-10

Similar Documents

Publication Publication Date Title
US6918059B1 (en) Method and system for handling errors in a distributed computer system
US6754707B2 (en) Secure computer support system
US8140644B2 (en) Method and apparatus for updating application servers
US7194445B2 (en) Adaptive problem determination and recovery in a computer system
EP1405187B1 (en) Method and system for correlating and determining root causes of system and enterprise events
US7464161B2 (en) Enabling and disabling byte code inserted probes based on transaction monitoring tokens
US8176137B2 (en) Remotely managing a data processing system via a communications network
CN100570607C (en) The method and system that is used for the data aggregate of multiprocessing environment
US7689688B2 (en) Multiple-application transaction monitoring facility for debugging and performance tuning
JPH05298210A (en) Device registration method for service network of computer system
JP2005538459A (en) Method and apparatus for root cause identification and problem determination in distributed systems
US7469287B1 (en) Apparatus and method for monitoring objects in a network and automatically validating events relating to the objects
US6360338B1 (en) Enhanced instrumentation software in fault tolerant systems
JP2002543494A (en) Method and system for handling errors in a distributed computer system
US20040039804A1 (en) Method and framework for service-based remote support delivery
US8077699B2 (en) Independent message stores and message transport agents
US20020078182A1 (en) Failover service method and system
WO2001035599A2 (en) Secure communication system
EP0471636B1 (en) Flexible service network for computer systems
KR950010832B1 (en) Tracking the resolution of a problem on a computer system in a service network of computer system
KR950010835B1 (en) Problem prevention on a computer system in a service network of computer systems
EP0917061A1 (en) A data processing support method and system
CN115375269A (en) Tax process intelligent approval method, apparatus, device and medium
JP2001005795A (en) Method for detecting abnormality in distributed system
Burnett et al. Federal Emergency Management Information System (FEMIS) System Administration Guide Version 1.5. 3

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040615

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041109