JP5258019B2 - アプリケーション・プロセス実行の範囲内での非決定論的オペレーションを管理、ロギング、またはリプレイするための予測方法 - Google Patents

アプリケーション・プロセス実行の範囲内での非決定論的オペレーションを管理、ロギング、またはリプレイするための予測方法 Download PDF

Info

Publication number
JP5258019B2
JP5258019B2 JP2007551677A JP2007551677A JP5258019B2 JP 5258019 B2 JP5258019 B2 JP 5258019B2 JP 2007551677 A JP2007551677 A JP 2007551677A JP 2007551677 A JP2007551677 A JP 2007551677A JP 5258019 B2 JP5258019 B2 JP 5258019B2
Authority
JP
Japan
Prior art keywords
logging
result
called
logged
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007551677A
Other languages
English (en)
Other versions
JP2008529112A5 (ja
JP2008529112A (ja
Inventor
ヴェルテス、マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2008529112A publication Critical patent/JP2008529112A/ja
Publication of JP2008529112A5 publication Critical patent/JP2008529112A5/ja
Application granted granted Critical
Publication of JP5258019B2 publication Critical patent/JP5258019B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Description

本発明は管理方法に関し、とりわけ、コンピュータ上で実行されるアプリケーション・プロセスの実行中に実施されるソフトウェア・オペレーションに関する、記録または外部監視による、管理方法に関する。この管理は、特に、データ・ロギングの形のオペレーションの記録、または以前にロギングされた実行に対応する所与の実行に従ったリプレイに適用される。
この方法は、それ自体がマルチプロセスもしくはマルチコンピュータ・ソフトウェア・アプリケーションまたはその両方の一部とすることが可能なプロセスの内部イベントを実行するオペレーションに、特に有利に適用される。
本発明は、実行中のソフトウェア・アプリケーションの機能管理においてこうした方法を実装するシステムにも関する。
本発明の分野は、分離されたか、または、協働するいくつかのコンピュータから形成されるコンピュータのネットワークまたは「クラスタ」内にある、コンピュータの分野である。これらのクラスタは、1つまたは複数のサービスをユーザに提供するソフトウェア・アプリケーションを実行するために使用される。こうしたアプリケーションは、単一または複数のプロセスとすることが可能であり、たとえば、MPI(「Message Passing Interface(メッセージ受け渡しインターフェース)」)タイプまたは「Shared Memory(共有メモリ)」タイプの分散アプリケーションなどのように、単一のコンピュータ上で実行するか、またはいくつかのコンピュータにわたって分散させることができる。
特に本発明は、たとえば「ミドルウェア」タイプのアプリケーションなどの、たとえば中間アプリケーションと呼ばれる他のソフトウェア・アプリケーションによって、クラスタ内の、マスタまたは1次と呼ばれるようなアプリケーションの機能の管理を実施することができる。この機能管理は、とりわけ、1次ノード内での、または2次と呼ばれる他のノードと連携した、このアプリケーションのすべてまたは一部の、複製、再配布、確実化(reliabilization)、または追跡もしくはデバッグのオペレーションを含むことができる。
このオペレーション管理のコンテキストでは、実行を再構成できるようにするために、1次アプリケーションまたはそのプロセスのうちの1つの機能をロギングすること、すなわち、この機能を表すデータを記録することが、しばしば有用である。1次アプリケーションの実行と共に、次にこのデータがロギング・データの形で生成され、格納およびバックアップのために1つまたは複数の2次ノードに伝送される。
たとえば、1次アプリケーションの機能を詳細に追跡および調査するために、次にこの機能を、後でまたはリモートに制御および監視しながら調査または再構成することが可能である。
また一例として、1次アプリケーションに障害、特にハードウェア障害が発生した場合、1次アプリケーションによって提供されたサービスと置き換えるために、2次ノード上に新しいスタンバイ・アプリケーションを作成することができる。次に、このスタンバイ・アプリケーションを既知の状態、たとえば以前に記録された再始動地点状態で作成することが可能である。スタンバイ・アプリケーションに、1次アプリケーションのロギング・データから1次アプリケーションの実行を障害時点まで再構成させることができる。この再構成またはリプレイの後、スタンバイ・アプリケーションは、そのロギング・データが1次ノード外部で受け取られた、最終イベントまでのアプリケーションと同じ状態になる。障害以前のすべてのイベントが障害までロギングおよび伝送されると、ユーザに対するサービスのわずかな中断で、または中断なしで、スタンバイ・アプリケーションが引き継ぐことができる。
しかしながら現在、多くの既存のアプリケーションはこうした管理機能を持たず、こうした機能を追加するためにこれらのアプリケーションを修正すると、非常に複雑かつコストがかかることになる。
コンピュータの、または1次ノードのシステム・ソフトウェアで、これらの機能を実装することからなるソリューションは、エラーのリスク、ネットワーク内での不安定または不適合、およびシステム・ソフトウェアの分野における特殊技術に関する要件などの、いくつかの重要な欠点を提示する。
加えて、主にユーザのメモリ・スペースで実行され、システム・ソフトウェア自体では数箇所の修正しか必要としない、中間アプリケーションによって引き継がれるこれらの管理機能からなるあるソリューションが、本発明者によって提案されている。
しかしながら、この種のソリューションでは、とりわけ、ロギング・データの作成および処理ならびに1次ノードから2次ノードへのその伝送が、1次アプリケーション自体の実行に関して、ならびに使用される通信ネットワークに対して、かなりの計算負荷を表す。従来技術では、マスタ・アプリケーションは、しばしばこの機能管理が開発状況で十分に使用できないというような性能損失を経験する。
実際には、1次アプリケーションの実行をわかりやすくまたはさらには完全に表せるようにするために、記録および伝送されることになるイベントは、しばしばかなり多数である。さらに、これらイベントの大多数、特に、1次ノードのハードウェアまたはソフトウェア・リソース内部のイベント、たとえば、セマフォの割り当てまたはメモリ内のデータ項目の読み取りを要求するシステム呼び出しは、実行が非常に高速のオペレーションに対応する。
対照的に、これらそれぞれのイベントに関するロギング・データの生成および格納、ならびに伝送は、特に内部イベントの場合、かなり長いオペレーションである。
実際には、各イベントのロギングは、それぞれが、少なくともそれ自体でロギングされたイベントに等しい負荷および作業時間を構成する少なくとも1つ、しばしばいくつかの、ソフトウェア・オペレーションを必要とするプロセスである。実装および内部イベントのタイプに応じて、ロギングが各イベントに対して追加する負荷または作業時間は、一般に100から10,000倍の範囲で増加する。
さらに、コンピュータ外部への伝送に使用されるハードウェアおよびソフトウェア・プロトコルは、一般に、ロギングされるイベント数に対して性能が低く、これがネットワークの使用にとって障害であり、マスタ・アプリケーションの性能にとってボトルネックでもある。
特に非決定論タイプのイベントをロギングしないことによって、ロギングされるイベントの数を削減できるソリューションが存在する。
イベント、またはこれを構成するオペレーション、特にソフトウェア・オペレーションは、その実行の結果が、その開始時に存在した初期条件にのみ依存する場合、決定論的であると認めることができる。とりわけ、前述のような単一のオペレーションもしくは実行または機能を管理するコンテキストでは、オペレーションが、それを開始したプロセスの観点からすると決定論的である場合、すなわち、このプロセスに送信する結果がこのプロセスの初期状態にのみ依存する場合、そのオペレーションは決定論的と呼ばれる。同様に、一連の連続する決定論的オペレーションは、それ自体を決定論的シーケンスに構成することができる。
アプリケーション・プロセスの実行において、実行されるオペレーション、特に内部オペレーションの多くは決定論的である。たとえば数学的または論理的内部オペレーションは、このプロセスの初期状態の一部を形成するリソースにのみ影響を与え、修正だけが可能な場合、たいていは決定論的である。
反対に、こうしたプロセスと比べて、共有リソースに適用されるいくつかのオペレーションはしばしば非決定論的である。たとえば、他のプロセスと共有しているメモリ・ゾーンをカバーする共有セマフォの属性または「ロック」に関する要求は、非決定論的な可能性がある。実際、結果、すなわちこのロックまたは属性の取得等は、時にはこのリソースを予約したかまたは予約していない、他のプロセスの状態またはアクションに依存する可能性がある。
しかしながら、非決定論的イベントのリプレイ、および特にロギングは、有効に削減可能な性能損失を依然として構成する。特に、マスタ・アプリケーションを実行中、ロギング・オペレーションはオペレーション・ノードの作業負荷を表し、中間アプリケーションのアクションによる性能の低下の原因となる可能性がある。
フランス国特許第2843210号 フランス国特許第2843809号 RFC 1112標準「Host Extensions for IP Multicasting」
本発明の一目的は、これらの欠点のすべてまたはいくつかを克服することである。
本発明は、特に、
・内部イベントのロギングまたは処理によって生成される作業負荷の削減、
・伝送されるロギング・データの量の削減、
・同じ結果を与えるリプレイを生成できるように結果を格納しなければならない、非決定論的イベントの数の削減、
を達成することを目的とする。
本発明は、少なくとも1台のコンピュータによって実行される、被管理プロセスと呼ばれるアプリケーション・プロセスの単一オペレーション中にプログラム命令によって開始される、非決定論的ソフトウェア・オペレーションを管理するための方法を提案する。ここでは、当該オペレーションの実行により、実結果と呼ばれる少なくとも1つの結果データが被管理プロセスに送信される。
この方法は、
実結果に対応する可能性があり、且つオペレーションに関する予測結果を構成する値を供給するために、当該オペレーションの前にあったような被管理プロセスの状態またはそれが属するアプリケーションの状態に基づいて、予測機能と呼ばれる決定論的ソフトウェア処理を実行するステップと、
予測結果の値が実結果の値に対応するか否かを確定するための比較テスト・ステップと、
先行するテストの結果に依存する、当該被管理オペレーションの補足管理フェーズを実行するステップと、
を含む。
したがって本発明は、一種の再現可能なコンプライアンス・グリッドとしてみなすことのできる、既知の、または計算可能な決定論的予測への適合に依存する、非決定論的オペレーションの管理を実行することを提案する。したがって、オペレーションの結果がこのグリッドに適合する場合、管理作業負荷を減少させることが可能である。
この利得は、1次ノードに記録するだけでなくしばしば外部に伝送しなければならない、1次アプリケーションの活用時のロギング・オペレーションに関して、特に敏感である。
したがって本発明は、ロギングされるオペレーションまたはイベントの予測圧縮またはヒューリスティック圧縮の形を生成し、総合管理を必要とするこれらのオペレーションまたはイベントの比率を低下させることができる。実際、オペレーションが予測したとおりに動作した場合、適切な時点で再使用可能な既知の方法に従って、結果の値を後で見つけることが可能であるため、送信する結果をそれ自体にロギングする必要はない。
本発明は、1次ノードと呼ばれるコンピュータで実行されるロギングされたプロセスの実行シーケンスに含まれる、被ロギング(logged)と呼ばれるオペレーションを管理することを提案し、この管理は、当該被ロギング・オペレーションを、2次ノードによって実行される再始動プロセスが、被ロギング・オペレーションに対応する、被リプレイ(replayed)と呼ばれるオペレーションをリプレイできるようにする、ロギング・データの形で記録し、その被ロギング・オペレーションに対応する結果を再始動プロセスに送信する。
予期された結果に対応しない実結果、すなわち予測されていない(unpredicted)オペレーションの場合、補足管理フェーズは、被ロギング・オペレーションの実結果の値を表す結果データを含むロギング・データを格納する。
したがって、予測されていない結果の場合、このロギング・データの将来の使用時に、シーケンスの正確な実行を再構成することができる。
シーケンスのロギング時に、決定論的性質または非決定論的性質を決定するためにオペレーションをテストするフェーズは、追加の負荷を表す。しかしながら、このシーケンス内で適切に予測されたオペレーションの比率から、予測結果をロギングしないことによって達成される節減は、このテストによる過負荷を大幅に超えるものとなることが明らかである。
これとは反対に、すなわち、予期された結果に実結果が対応する予測オペレーションの場合、本発明は、作業負荷利得を構成する予測されたオペレーションの結果からデータを格納することもしくは外部に送信することまたはその両方を避けることができる。
オプションで、たとえば順序付け番号の形で、被ロギング・オペレーションに関する識別データを含む、ロギング・データのためのストレージを提供することが可能である。識別データは、ロギング・データを将来使用する際に含めることができるようにするために、オペレーションの実行を追跡することができる。
予測機能が決定論的かつ既知である場合、オペレーションの初期条件から、リプレイ時に結果を確実に再計算することができる。リプレイ時の結果が、この同じ予測と一致しない場合、この予測の結果を使用して、再始動プロセスが実際にロギング時と同じ結果を受け取るように、オペレーションの結果を「強制する」ことができる。
本発明によれば、オペレーションの結果を格納または伝送せずに、決定論的オペレーションをロギングすることが可能であり、これは1次ノードの作業負荷に関する節減である。
とりわけ本発明は、被ロギング・シーケンスと呼ばれる、被ロギング・プロセス・オペレーションのシーケンスを記録することが可能であり、予測されていないと呼ばれる少なくとも1つのオペレーションを含む当該シーケンスは、予測結果に対応しない実結果を送信する。この記録は、被ロギング・シーケンス・オペレーションに対応する被リプレイと呼ばれるオペレーションのシーケンスを、再始動プロセスにリプレイさせることが可能な、少なくとも1つのログ・ファイルの格納を含む。このコンテキストでは、当該ログ・ファイルは、被ロギングと呼ばれる当該予測されていないオペレーションの実結果を表し、当該予測されていないオペレーションに対応する被リプレイ・オペレーションの完了時に、再始動プロセスが当該被ロギング結果に対応する結果を含むように使用可能な、データを含む。
一実施形態によれば、少なくとも1つの予測される非決定論的オペレーションは、この予測されるオペレーションに対応する識別データを増分することによって、当該予測される非決定論的被ロギング・オペレーション(EVInD)の実結果(DR)を表す、ロギング・データのログ(JSem1)内に格納されることなく、被ロギング・プロセス・シーケンスのロギング時にロギングされる。
オプションで、予測されていないオペレーションで実施される補足管理時に、増分シーケンスをリセットすることができる。
したがって、少なくとも1つの予測されていないオペレーションをロギングするためにログに格納されるロギング・データは、
一方で、当該予測されていないオペレーションに対応する順序付けデータの値を表す識別データ、および
他方で、当該被ロギング・オペレーションによって送信された実結果を表す結果データ
を含むことができる。
有利なことに、本発明は特に、少なくとも1つの被ロギング・シーケンスをログ内に記録することを提案し、この記録は、当該シーケンス内に少なくとも1タイプの非決定論的内部イベントを構成する各被ロギング・オペレーションについて、
実結果に対応する可能性が有り、且つ当該オペレーションに関する予測結果を構成する値を提供するために、当該オペレーションの前に、プロセスの状態またはそのアプリケーションに基づいて決定論的ソフトウェア処理を実施するステップと、
予測結果の値が実結果の値に対応するか否かを確定するための比較テスト・ステップと、
予測されていない結果の場合、一方で進行中のオペレーションに対応する順序付けデータの値、および、他方で進行中のオペレーションによってロギングされたプロセスに送られる実結果の値を表す結果データを、関連するように含む、ロギング・データのログに格納するステップと、
の、反復的繰り返しを含む。
有利なことに、予測されていない結果のみが結果の格納を発生させる。
一変形形態によれば、順序付けデータは、予測結果を伴うオペレーションで増分されるのみであり、予測されていない結果を伴うオペレーション時にはリセットされることが可能である。
ロギングと並行にまたはロギングとは独立に、本発明に従った方法は、2次ノードと呼ばれるコンピュータで実行される、被リプレイと呼ばれる、再始動プロセスの一部を形成するオペレーションのシーケンスを管理することができる。
したがって本発明は、ロギングのものと同一またはこれに対応するリプレイ予測機能を使用することによって、データ損失なしに、予測的またはヒューリスティックな圧縮/圧縮解除の形を生成し、これによって、ロギング時と同じ結果をリプレイ時に提供すると共に、格納および伝送されるロギング・データの量を削減することが可能である。このようにロギング・データを使用して、再始動プロセスによってリプレイされるオペレーションの形で、被ロギング・オペレーションのリプレイを実行することができる。
たとえばこの再始動プロセスは、起動された後、その実行可能ファイルから単独で実行することができる。被リプレイ・オペレーションは、このリプレイの実行時に、それらの特徴がこれを指示するごとに自らに結果を提供する。
本発明に従った管理は、ロギング・データを使用して、非決定論的被リプレイ・オペレーションごとに、ロギング時に戻された結果に対応する強制と呼ばれる結果を、再始動プロセスが考慮するようにすることができる。
本発明によれば、補足管理フェーズは、ロギング時に少なくとも1つの予測されていない非決定論的オペレーションについて、
リプレイされているオペレーションに対応するオペレーションのロギング時に戻された結果を表す、被ロギングと呼ばれる結果データのロギング・データにおける読み取りと、
被リプレイ・オペレーションの結果のインターセプト、および被リプレイ・オペレーションから生じる結果に代わる、強制された結果の再始動プロセスへの転送と、
を含む。
したがって、その実行可能ファイル内で、ロギング時に予測されていないオペレーションを実行する命令を再始動プロセスが実行するごとに、補足管理フェーズは、ロギング・データに適合するために、結果をチェックまたは強制することが可能であり、したがって、被ロギング・プロセスのそれに適合する再始動プロセスの実行をもたらすことが可能である。
他方で、ロギング時にオペレーションの結果が正しく予測された場合、たとえオペレーションが非決定論的であり、その実結果が不確実であっても、ロギング・データは結果データを含まなくてもよい。
ロギング時に予測された少なくとも1つの非決定論的オペレーションについて、補足管理フェーズは、
当該オペレーションのロギングおよび被リプレイ・オペレーションへの予測結果の提供に使用される、予測機能に対応する、リプレイ予測機能と呼ばれる決定論的ソフトウェア処理を実施するステップと、
被リプレイ・オペレーションの結果をインターセプトし、被リプレイ・オペレーションから生じる結果に代わって、強制された結果として予測結果を再始動プロセスに転送するプロセスと、
を含むことができる。
したがって、たとえ格納されていない場合であっても、ロギング時に取得された実結果を見つけること、および、リプレイされた結果がこれに適合するかどうかをチェックすること、または適合しない場合はこれを強制することが可能である。
加えて、ロギング・データがロギングされた結果を含まない各オペレーションについて、補足管理フェーズは、当該被リプレイ・オペレーションを表す順序付け値の増分を含む。
したがって、準拠した実行を維持するために有用でもなく必要でもない限り、その実行に介入することなく、この増分により、再始動プロセスの進行を監視することができる。必要以上に介入しないという事実は、リプレイを管理するプロセスもしくはアプリケーションにとって、またはそれらを実行するコンピュータにとって、作業の節減となる。
特に、予測されるオペレーションおよび予測されていないオペレーションの両方を含むシーケンスの場合、量の少ないロギング・データおよび必要とする作業負荷の少ないストレージの使用と共に、被ロギング・プロセスの実行に対応するか、またはこれとまったく同一の、リプレイを取得することが可能である。
本発明に従った方法は、特に、管理されたシーケンス内で少なくとも1つのタイプのイベントを生成するすべてのオペレーションを管理するために実装することができる。
したがって、ある特定の項目、たとえば他のプロセス、ユーザ、または特定のリソースに関して、プロセスのすべての実行を表す、ロギングまたはリプレイを実行することが可能である。
さらに、この方法は、本質的に非決定論的であると識別されるすべてのオペレーションを管理するために使用されるか、または本質的に非決定論的であると識別される結果を送信することができる。
様々なバージョンで、このヒューリスティックな最適化の方法は、様々な方法で他の最適化方法と組み合わせることができる。
たとえば、決定論的オペレーションのみがロギングされないソリューションでは、残りのオペレーションの一部のみ、すなわち非決定論的であり、かつ予測されていないオペレーションのみ、をロギングすることによって、作業負荷を最適化することが可能である。
とりわけ、本発明に従った方法は、管理されたシーケンス内で、管理されたプロセスもしくはそのアプリケーション、またはそれらを実行中のコンピュータの内部に非決定論的イベントを生成する、すべてのオペレーションを管理する。
外部イベントの管理との連携において、本発明は、特に、活用時に、同じ制限で管理されたアプリケーションの任意の減速をロギング可能にするために、プロセスの実行全体を管理することができる。
たとえばロギングまたはリプレイの、こうした管理は、実行可能ファイルから実行された命令によって開始され、当該実行ファイルの外部にあるオリジナルと呼ばれるルーチンへの呼び出しを含む、少なくとも1つのオペレーションに有利に適用される。
柔軟性がありごくわずかに煩雑な実装を可能にする方法の、本発明の一実施形態によれば、当該命令の実行は、オリジナル・ルーチンではなく、被修正ルーチンへの呼び出しを生成し、この被修正ルーチンは、この方法の実装を生成または開始する。
被修正ルーチンは、特に、システム・ソフトウェア内で実行される少なくとも1つの命令を含むことができる。この命令は、少なくとも1つのロギングまたはリプレイ・ソフトウェア・エージェントの呼び出しを行い、方法の実装を保証し、管理されたプロセスまたはターゲット・プロセスのコンピュータのユーザ・メモリ・スペース内で実行される。
したがって、たとえばシステム・ソフトウェアにおける介入を最小限にし、エラー、およびネットワーク内の様々なコンピュータ間での異機種混合のリスクを制限するように、基本的にユーザ・スペース内でこの管理の実装を生成することが可能である。
とりわけ、被修正ルーチンは、ルーチンを呼び出した命令が、ロギングまたはリプレイのコンテキストで実行されるかどうかを検証するテスト命令を含み、このテストは、それぞれロギング・タイプまたはリプレイ・タイプの管理エージェントへの呼び出しに影響を与える。
したがって、異なるユーザに従った管理の実装は、ロギングまたはリプレイのいずれかに関して、同じエージェントにより、たとえば単一の中間アプリケーションもしくは単一のカーネル・モジュールまたはその両方により、柔軟性が向上した状態で生成することができる。
予測機能は、特にプロセス、そのアプリケーション、または修正のみが可能なリソースの状態に基づいて、異なるタイプのソフトウェア処理を使用することができる。
したがって、特定の一実施形態では、本発明に従った方法は、管理されたプロセスの実行時に以前に発生した、少なくとも1タイプの1つまたは複数の外部イベントの特徴に依存する決定論的ソフトウェア処理を含む、少なくとも1つの予測機能を使用する。
特定の一機能によれば、本発明に従った方法は、第1の予測機能を使用することによって少なくとも1つの第1のオペレーションを、また第2の予測機能を使用することによって第2のオペレーションを、ロギングする。
いくつかの異なる予測機能を使用することによって、効率を最適化するために、対応するオペレーションのロギングに使用されるのと同じ予測機能を、各オペレーションのリプレイに使用して、このロギング方法を環境に適合させることが可能である。
一変形形態によれば、この方法は、特に、管理されるオペレーションのタイプに依存して、たとえばその性質または含まれるリソースに従って、決定論的選択または複数の所与の機能内での組み合わせによって選択された予測機能を使用する。この予測機能の選択は、リプレイ時に、ロギング時に実行された選択と同一に、またはこれに対応して、再生成することができる。
他の変形形態によれば、使用される予測機能の選択は、被ロギング・プロセスの実行中に測定または計算された変数の変化に依存し、たとえば、ロギング時の予測機能の成功率における変化は、この機能の変化またはそのパラメータの一部の変化を決定することができる。
本発明によれば、ログ・ファイルは、こうした選択に影響を与える予測機能またはパラメータの少なくとも1つの選択を表すデータを含むことができる。
ロギング時にこの変更の特徴または時期を格納することで、その後リプレイ時に、同じ実行ポイントで同じ変更を生成することができるようになる。
シミュレーションまたはリプレイ機能の向上に関連して、本発明の他の目的は、アプリケーションの機能またはこれらプロセスのうちの少なくとも1つの管理を向上させることである。
したがって、本発明に従った方法は、被ロギングと呼ばれる少なくとも1つのアプリケーション・プロセスの機能管理を生成し、
再始動と呼ばれる所与のポイントから、中断ポイントと呼ばれるポイントまでの、当該被ロギング・プロセスの実行時に発生した、少なくとも1つの所与のタイプのすべてのイベントをロギングし、当該ロギングから発生するログを格納するステップと、
被ロギング・プロセスの再始動ポイント状態に対応する状態で再始動プロセスを開始し、当該再始動プロセスによってジャーナルからイベントをリプレイし、この再始動プロセスを、中断ポイントでの被ロギング・プロセスの状態に対応する状態にするステップと、
を含む。
特に、再始動ポイントでの被ロギング・プロセスの状態は、再始動ポイント・データの形で取り込みおよび格納され、これを使用して、再始動プロセスは、リプレイ・ステップを適用する前に再始動ポイント状態に復元される。
本発明に従った方法は、特に、外部イベントならびに内部イベントを含む一連のイベントのリプレイを生成するために使用することができる。したがって本発明は、これら外部のイベントそれぞれを再始動プロセスに注入またはシミュレーションすることによって、外部イベントのリプレイを実施することを提案する。リプレイの実行における各外部イベントに続き、内部イベントが、直前の外部イベントの発生もしくは処理またはその両方に応答して、再始動プロセスによって自発的に実行される。したがって再始動プロセスは、外部リプレイ・エージェントによって開始された外部イベントの発生に応答して、内部イベントの少なくとも1つの被ロギング・シーケンスのリプレイを実施する。
機能管理の機能における本発明の一目的は、アプリケーションの機能の少なくとも一部、またはこのアプリケーションからのプロセスのうちの少なくとも1つの、デバッグ、分析または再生成ツールを改良することでもある。
したがって機能管理は、たとえば、被追跡アプリケーションと呼ばれるアプリケーションの実行の監視を、このアプリケーションのデバッグに関連して、実施することができる。その後この監視は、被追跡アプリケーションの少なくとも1つのプロセスに適用され、
・被追跡アプリケーションの所与の状態から、被追跡アプリケーションの実行において調査済みシーケンスを構成する複数の一連の連続する被ロギング・シーケンスのロギングを開始するステップと、
・制御された一連のリプレイ・ステップを生成し、一連の被ロギング・シーケンスの制御された実行を生成し、制御リズムに従って調査済みシーケンスのリプレイを生成するステップと、
を含む。
機能管理の機能における本発明の一目的は、アプリケーションの、またはこれらプロセスのうちの少なくとも1つの、作業を確実化するためのツールを改良することでもある。
こうした確実化は、特に、クライアントに提供されるサービスの観点から、アプリケーションの改良されたオペレーションの連続性の維持を通じて取得することができる。障害時にはこの連続性が全体的である可能性があり、すなわちクライアントは、同じサービスを取得するためにまったくオペレーションを再始動する必要がない。こうした連続性は部分的である可能性もあり、すなわち、同じサービスまたはこのサービスの一部を取得するために、クライアントが反復するかまたは余分に実行しなければならなくなる、オペレーションの数もしくは複雑さまたはその両方ができる限り低減される。
この目的において、本発明は、クラスタと呼ばれる通信マルチコンピュータ・アーキテクチャの、オペレーション・ノードと呼ばれる少なくとも1つの1次ノードで実行される、被確実化アプリケーションと呼ばれる第1のアプリケーションの機能を確実化するために、機能管理を実装することを提案する。
この確実化は、スタンバイ・ノードと呼ばれる第2のクラスタ・ノードにおける、スタンバイと呼ばれる第2のアプリケーションの、再始動ポイントでの被確実化アプリケーションの状態に対応する状態への復元を含む。
復元は、実施形態に応じて、または状況に応じて、いかなる障害もなく予防手段として実行するか、または障害検出後に、以前格納されたデータから実行することができる。
この確実化は、
・開始ポイントから被確実化アプリケーションの実行をロギングし、ロギングされたイベントを、オペレーション・ノード外部の少なくとも1つのログ・ファイルに格納するステップと、
・オペレーション・ノード内の障害を検出するステップと、
・被確実化アプリケーションにロギングされたイベントをスタンバイ・アプリケーションで再始動ポイントからリプレイするために、ログ・ファイルを使用し、最後にロギングされたイベント後に、被確実化アプリケーションの状態に対応する状態にスタンバイ・アプリケーションを復元するステップと、
を、さらに含む。
本発明は、こうした管理方法を実装するコンピュータ、または協働するコンピュータのネットワークを備え、少なくとも1つのこうしたコンピュータを含む、システムも提案する。
とりわけ、本発明は、ネットワーク内で実行される少なくとも1つのアプリケーションの機能を管理するために本発明に従った方法を実装する、ミドルウェア・タイプのアプリケーションを使用するようなネットワークを提案する。
本発明は、特に、たとえば1つまたは複数のネットワーク内で分散される、ネットワークもしくはアプリケーションまたはその両方の管理システムを生成する、「ミドルウェア」タイプ環境で適用可能である。
本発明の他の特徴および利点は、まったく限定的でない実施形態の方法の詳細な説明、および添付の図面から明らかとなろう。
図1は、本発明を実施する中間アプリケーションの機能アーキテクチャを示す図である。
クラスタ内で、たとえばトランザクション・アプリケーションなどのAOPマスタ・アプリケーションは、特に様々な形でのデータの入力および出力によって、一定数のサービスをユーザまたはクライアントに提供する。クラスタ内で、このアプリケーションは単一またはマルチタスク(マルチプロセスまたはマルチスレッド)とすることが可能であり、一定数のリソースを使用する。特にこれらのリソースは、たとえば作業メモリのスペース、共有メモリ、もしくはデータ・ファイルの形の、データとするか、または、たとえばセマフォもしくはミューテックス(mutex)の形の状態インジケータとすることができる。
マスタ・アプリケーションは、オペレーティング・ノードOPまたは1次ノードと呼ばれるノードを形成する、1つまたは複数のコンピュータ上で実行される。中間アプリケーションINTと呼ばれる機能管理アプリケーションは、1つまたは複数のクラスタ・ノード内の1つまたは複数の部分で実行される。
実施形態によれば、この中間アプリケーションは、クラスタ内で機能するマスタ・アプリケーションの様々な面を処理することができる。こうした中間アプリケーションINTは、特に、「ミドルウェア・タイプ」の中間クラスタ管理ソフトウェアと並行して、こうしたミドルウェアと統合して、またはそれ自体がミドルウェアの形で、作業を行うことができる。
本明細書で説明する機能を介し、中間アプリケーションINTを使用して、特に、クラスタ内のマスタ・アプリケーションのすべてまたは一部の複製を生成することができる。マスタ・アプリケーションの複製は、次にリプレイ・アプリケーションと呼ばれることになる他のアプリケーションを提供することが可能である。
特にこうした複製に関連して本明細書で説明される機能は、マスタ・アプリケーションに関する信頼性機能の実装、または、「デバッグ」、調整、もしくは開発タスクを実施するためのこのアプリケーションの追跡または調査も可能にする。信頼性実装のための使用には、たとえばバックアップまたは置換アプリケーションとしての再始動アプリケーションが含まれる。追跡またはデバッグの使用には、たとえば、以下で説明するように、被ロギング・イベントの速度低下または制御リズムに従った、イベントのロギングJOPもしくはリプレイRSBまたはその両方が含まれる。
したがって本明細書では、信頼性機能に適用される実施形態について、非限定的な例としてのみ説明する。
再始動ポイントまたは「チェックポイント」と呼ばれる異なるポイントで、定期的またはイベント時に、AOPマスタ・アプリケーションを信頼されるように実行する場合、中間アプリケーションINTは、2次、または「スタンバイ」SBと呼ばれるノード上で実行される少なくとも1つの再始動アプリケーションASBを、作成または更新する。
この再始動アプリケーションは、たとえば、再始動方法と呼ばれる、アプリケーションの取り込みおよび復元による複製の方法によって、作成または更新される。当該複製方法は、マスタ・オペレーションの状態の取り込みオペレーションCAPと、それに続く、この状態、すなわち、マスタ・オペレーションのプロセスの状態、およびマスタ・オペレーションが使用するリソースのすべてまたは一部の状態の、復元オペレーションRESを含む。
こうした取り込みオペレーションCAP時に、AOPマスタ・アプリケーションの状態は、チェックポイント状態EPRを形成するデータの形でバックアップされる。
マスタ・アプリケーションのリソースの一部、特に、ハード・ディスクなどのストレージ手段上の大容量のデータ・ファイルを、オン・ザ・フライで、いくつかの異なるストレージ・メディア上のいくつかのコピーに更新することが可能であり、それらはミラー・ディスクまたは共用ディスク上に再始動データ・ファイルを構成する。この場合、チェックポイント状態を形成するデータは、これらの再始動データ・ファイルへの参照を構成する情報を含むことができる。
チェックポインティングまたは複製が、すべての実行環境およびマスタ・アプリケーション・リソースを直接またはリプレイ・データ・ファイルへの参照により含む取り込み状態に基づく場合、そのようなチェックポイントまたは複製はホリスティック(holistic)と呼ぶことができる。
チェックポイント状態EPRのデータから、中間アプリケーションINTは、再始動アプリケーションASBの作成または更新によって復元RESを実施することができる。当該復元は、定期的に、または、たとえば管理者の要求もしくはクラスタ作業負荷を管理するためのメカニズムの要求でイベントを開始するときに、実施することができる。この復元は、オペレーション・ノードの障害が検出手段によって検出された後にも実施可能であり、その後再始動アプリケーションは、永続または非永続のバックアップ・アプリケーションとして使用することができる。
必要であれば、中間アプリケーションは、マスタ・アプリケーション・サービスのすべてまたは一部の、1つまたは複数の再始動アプリケーションへの切り替えを組織化する。この切り替えをクライアントに対してトランスペアレントにするために、中間アプリケーションは、仮想ネットワーク・アドレスを管理する「メタプロセス」を通じて介入方法を使用し、マスタ・アプリケーションからこれら再始動アプリケーションへのクライアントの接続のマイグレーションを実施することができる。中間アプリケーションは、仮想プロセス識別(仮想PID)を管理する「メタプロセス」を通じて介入方法を使用し、これら再始動またはクローン・プロセスに関する通信を、それらのオリジナル・プロセスのものと同一に復元することもできる。
これらの技法は、たとえば、フランス国特許第2843210号に記載されたものとすることができる。
たとえば、マスタ・アプリケーションの作業負荷を分散させるため、またはオペレーション・ノードまたはネットワークの特定要素の保守を可能にするために、任意の障害以外に、復元およびそれに続く部分または全体切り替えを実施することもできる。
この障害もしくは切り替えまたはその両方を、クライアントの観点からできる限りトランスペアレントとするために、中間アプリケーションは、マスタ・アプリケーションのいくつかのチェックポイントに影響を与えるイベントのすべてまたは一部を記録し、それらを1つまたはいくつかの「ログ」の形でバックアップする。
チェックポイント状態からの復元の完了時、再始動アプリケーションは、当該チェックポイントを確立する際のマスタ・アプリケーションの状態にある。この状態から始まり、中間アプリケーションは、当該チェックポイント以降バックアップされたログを使用して、このチェックポイント以降マスタ・アプリケーションで行われたイベントの、再始動アプリケーションによる再実行またはリプレイを発生させる。
中間アプリケーションは、たとえば、再始動アプリケーションに関するいくつかのリソースが、復元されたチェックポイント以降変更された場合、実際の状態に対応する状態に戻されない限り、これらのリソースの実際の状態に干渉することなく、その再実行を行うことができるように、これらのリソースの仮想化を実施することもできる。
オペレーション・ノード上でロギングされ、2次ノード上でリプレイされるイベントの中には、外部と呼ばれるイベントと内部と呼ばれるイベントの区別がある。
外部イベントは、問題のアプリケーション、発生時にはマスタ・アプリケーション、の外部として定義される。したがって外部イベントは、アプリケーションの外部からの、すなわち、特に制御を行わないハードウェアまたはソフトウェアからのアクションまたは情報によってアプリケーション内で開始されるイベントとして定義される。これらの外部イベントは、たとえば、キーボードまたはマウスなどのハードウェア・インターフェース入力であるデータもしくは信号入力、または、ネットワークを介して、クライアント・サーバ・アプリケーションの場合のクライアントなどの外界から入ってくるデータ、の形を取ることができる。一般に、これら外部イベントは、アプリケーションの環境から推定または再作成することができない。これら外部イベントは、マスタ・アプリケーションによってロギングされ、再始動アプリケーションによってリプレイすることができる。
時にはターゲット・アプリケーションと呼ばれる問題のアプリケーションが、1次ノード以外のノード上で実行される要素を組み込む場合、当該アプリケーション内であるが1次ノードの外部であるイベントを、外部イベントとして処理することもできる。
内部イベントは、マスタ・アプリケーションのまたはマスタ・アプリケーションを実行中のノードの、内部として定義され、たとえば、このアプリケーションのプロセスによって受け取られ、アプリケーションの一部でもある他のプロセスから入ってくる、データまたは信号入力の形を取る。これらの内部イベントは、直接、または、アプリケーション外部であるがそのアプリケーションを実行しているノードの一部であるソフトウェア・メカニズムまたはエージェントを介して、たとえば、Unix(登録商標)タイプのシステムからの「プロセス間通信」(IPC)エージェントなどの、パートナ・アプリケーションまたはオペレーティング・システムの一部を介して、受け取ることができる。これらの内部イベントは、たとえば「パイプ」、「信号キュー」もしくは「メッセージ・キュー」、または「ソケット」のインターフェースから入ってくる、「メッセージ受け渡しイベント」を含むことができる。これらの内部イベントは、「共有メモリ・アクセス」イベント、たとえばセマフォまたは「ミューテックス」を含むこともできる。
アプリケーションが実行中の間、内部イベントは、たとえば外部イベントに比べてかなり数が多い。さらに内部イベントは、特にロギング・オペレーションに関する時間に比べて、高速実行の、または少ない待ち時間のオペレーションに対応し、とりわけ、後者がネットワーク伝送またはハード・ディスクなどの永続メディアへの記憶を含む場合はそうである。たとえばロギング・オペレーションは、内部イベントの10から10,000倍の持続時間を示す場合がある。
図2に示されるように、チェックポイント以降に発生したイベントのロギングJOPは、外部イベントおよび内部イベントに対して異なるように実施され、別々にバックアップされる。
ネットワークによってクラスタに接続されたオペレーション・ノードOPは、それ自体が「ユーザ・スペース」と呼ばれるスペースをサポートする、システム・スペースをサポートするハードウェア・スペースを備える。OSIモデルの1つまたは複数の最下層を基準にして画定することが可能なハードウェア・スペースは、特に、メモリおよびプロセッサなどの、プロセスを実行するためのハードウェア・デバイス、ならびにネットワーク・カードなどの、通信を実行するためのハードウェア・デバイスを備える。通常、多くの外部イベントは、ネットワークを介して渡される通信の形で、ハードウェア・スペースを介して移行する。
OSIモデルの1つまたは複数の中間層を基準にして画定することが可能なシステム・スペースは、特にオペレーティング・システムを含む。このシステム・スペースは、Unix(登録商標)システムでのソケットの形で、アプリケーションからのハードウェア・スペースを介した外界との通信を管理する、あるいは、たとえばUnix(登録商標)システムでの「パイプ」およびIPCの形で、いくつかのアプリケーション・プロセス間の通信を管理する、様々なソフトウェア・メカニズムおよびエージェントを備える。
OSIモデルの1つまたは複数の最上層を基準にして画定することが可能なユーザ・スペースは、マスタおよび中間アプリケーションなどのノードによって実行される様々なアプリケーションの一部である、プロセスを備える。このユーザ・スペースでは、たとえばマスタ・アプリケーションなどの1つまたは複数のアプリケーションの一部である、いくつかのプロセスP1、P2、およびPnが実行される。これらのプロセスは、システム・スペースからの1つまたは複数の「ソケット」を介して外部と、ならびに、システム・スペースからの1つまたは複数の「パイプ」を介してそれらの間で、情報を交換する。これらのプロセスのいくつかは、状態リソース(図示せず)によって管理された形で、「共有メモリ」リソースSHMにも同時にアクセスする。
チェックポイントをセットアップする場合、中間アプリケーションは、1つまたは複数の新しいログを開始するか、または実行ログ内に「チェックポイント・マーク」を記録することができる。
特に、「ユーザ・スペース」または内部イベント・ログ(「ユーザ・ログ」)(以下で説明)の場合、「ユーザ」という用語は、本明細書では「システム・スペース・ユーザ」の意味に取られることに留意されたい。これは、その後「クライアント」として定義されることになる、アプリケーションと通信する人物またはコンピュータが、たとえこのユーザ・スペースに直接アクセスできない場合であっても、これらアプリケーションが、ノードおよびそのオペレーティング・システムを使用して、ユーザ・スペースにアクセス可能であることを意味する。
外部イベントは、「カーネル・ログ」と呼ばれる、1つまたは複数のファイルKLからなるログにバックアップされる(図2を参照)。このバックアップを実施するために、これらのイベントを表すデータが、ノードに着信後、OSI国際分類の低レベル層で読み取られる。好ましくはこれらのイベントは、システム・スペース、たとえばカーネル内で、逆多重化(demultiplex)される前、および「プロトコル・スタック」によって処理される前に、読み取られる。このロギングはシステム・スペース内部から直接実行されるため、バッファに書き込むことによって生じる性能損失および不必要なコンテキスト変更を避けることが可能である。
図3は、特にTCP−IPプロトコル・メッセージの形を取る場合の、外部イベントのロギング・オペレーションをより詳細に示す。マスタ・アプリケーションは、オペレーション・ノードOP上で実行され、少なくとも1つのプロセスP1を備える。中間アプリケーションは、第1に、オペレーション・ノードOP上で実行される制御プロセスCtlOPを有する「IplogOP」モジュールと、第2に、2次ノードSB上で実行される制御プロセスCtlSBを有する「IPlogSB」とを備える。これらのノードOPおよびSBのそれぞれで、制御プロセスは、当該ノードのシステム・スペースで実行される、ソフトウェア・メカニズムまたはエージェント「disp」(DISPP、DISPS)のオペレーションを構成および管理する。
Unix(登録商標)タイプのシステムの場合、「disp」エージェントは、特に、システム・スペースにロードされたカーネル・モジュールを備える。このカーネル・モジュールは、システムがブートされた場合、または管理されるかもしくは信頼できるようになるアプリケーションを起動する前でさえ、カーネルに動的にロードされる。機能構造の観点からすれば、たとえばOSI層を参照すると、このモジュールはIP層の下に、特にIP層とハードウェア・スペースに応じた「ネットワーク・デバイス」層の間に、挿入される。
この「disp」エージェントは、ネットワークから受け取られ、TCP層にアドレス指定されたメッセージを、インターセプトし、必要に応じて送信または受信を行うメッセージ・ファイルQOPおよびQSBに格納することができる。
ステップ1では、クライアントから着信し、プロセスP1にアドレス指定されたメッセージが、オペレーション・ノードOPのシステム・スペース内の「disp」エージェントによって受け取られ、メッセージ・キューQOP内で保持される。
ステップ2では、メッセージが受け取られたことを表すロギング・メッセージが、「DISPP」エージェントによって1次ノードから2次ノードSBに送られ、DISPSエージェントは受信済みメッセージ・キューQSB内でこれを受け取る。
オペレーション・ノードOPは、クライアントとの通信に使用されるものとは異なるネットワーク・デバイスを使用することによって、特に、別のローカル・エリア・ネットワーク(LAN)を介して、1つまたは複数の2次ノードSBと通信することができる。
いくつかのこれら2次ノードは、オペレーション・ノードOPと通信するために、RFC 1112標準に従った「マルチキャスト」タイプのアドレスにもサブスクライブすることができる。たとえばRFC 1112標準「Host Extensions for IP Multicasting」によって、224.0.0.0から239.255.255.255の間の範囲のIPアドレスとして定義された、マルチキャスト・アドレスを使用することにより、オペレーション・ノードは、ネットワーク内のすべてのアドレスに送信されることになる伝送によってネットワークに過負荷をかけることなく、いくつかの2次ノードに同時にアドレス指定されたメッセージを、1度だけ送信することができる。
好ましくは、ノードOPから他のノードSBに送信されるロギング・メッセージは、物理層レベルで受け取られるすべてのパケットを、それらのオリジナルの形で含むはずである。すなわち、マスタ・アプリケーションにアドレス指定されたすべてのデータ、ならびにイーサネット(登録商標)、IP、およびTCPヘッダなどのネットワーク・データを含む。
ステップ3では、2次ノードSBは、肯定応答メッセージをオペレーション・ノードOPに送信する。
ステップ4では、オペレーション・ノードOPで、対応する肯定応答が受け取られると、メッセージ・キューQOPからメッセージが取り出され、TCP層に送信される。
並行ステップ4’では、2次ノードSBはメッセージをログに、たとえばカーネル外部イベント・ログKLに記録し、受信メッセージ・キューQSBから取り出す。
ステップ5では、オペレーション・ノードOPで、マスタ・アプリケーションのP1プロセスが「ソケット」要素内のメッセージを読み取り、次に、その動作を続けるためにこれを処理する。
マスタ・アプリケーションは、2次ノードSBによる確認応答の後、入ってくるメッセージを考慮するだけであるため、本発明は、ロギングされていないメッセージがアプリケーションによって処理できないことを保証する。たとえば、こうした読み取られていないメッセージをTCPプロトコルの再送機能によって取り出すことはできない。
チェックポイント・マークをカーネル・ログ内に設定しようとする場合、2次ノード内の制御プロセスCtlSBは、当該チェックポイント・マークを表すデータをそこに記録する。
内部イベントのコンテンツは、ローカル、すなわちノード内の環境に、先行する外部イベントのコンテンツに、および、プロセッサ内のスケジューリング、またはノード内で並行して動作するいくつかのプロセッサもしくはコンピュータの管理の問題に、直接依存する。事実上、ほとんどの場合、これらイベントの順序のみがアプリケーションの後続の動作に影響を与える。
中間アプリケーションINTは、これら内部イベントそれぞれの詳細またはパラメータを記憶せずに、それらイベントの順序をロギングすることに限られる。この選択により、これら内部イベントのロギングJOPのために格納されるデータのボリュームを削減すること、およびこのロギングによりオペレーション・ノードおよびマスタ・アプリケーション内で発生する性能損失を最小限にすること、が可能になる。
内部イベントは、「ユーザ・ログ」と呼ばれる1つまたは複数のファイルで構成されるログにバックアップされる(図2を参照)。
図4に示されるように、1次ノードOPおよび2次ノードSBは、ハードウェアもしくはソフトウェアまたはその両方の高速相互接続(HSI)を介して通信する。当該HSIシステムは、1次ノードOPのロギング・プロセスPlogOPと2次ノードSBのロギング・プロセスPlogSBとの間で、および、これら2つのノードのオペレーティング・システムのすべてまたは一部をバイパスすることによって直接、データの転送を可能にする。こうしたHSIシステムは、ネットワーク・カードおよびそれらの制御ソフトウェアなどの既存のネットワーク・インターフェース・コントローラを使用することにより、既知の手段に従って実装することができる。こうしたHSIシステムは、クラスタ内部の残りのネットワークと並行して、またはこれらと組み合わせて、高性能ネットワーク・デバイスを使用することによって実装することもできる。
内部イベントは、中間アプリケーションのロギング・プロセスPlogOPによって、オペレーション・ノードOPのユーザ・スペース内で精査および読み取られる。これはその後、高速接続システムHSIを介して、これらの内部イベントもしくはそれらの発生順序またはその両方を表すデータを、2次ノードのロギング・プロセスPlogSBに送信する。次にこのデータは、「ユーザ・ログ」を形成する1つまたは複数のファイルにバックアップされる。
チェックポイント・マークを「ユーザ・ログ」内に設定しようとする場合、2次ノードの制御プロセスPlogSBは、このチェックポイント・マークを表すデータをそこに記録する。
好ましくは、ロギング・プロセスPlogOPは、その「リターン」で、すなわち、その結果がすでに生成されているが、その実行を要求したマスタ・アプリケーション・プロセスにまだ送信されていない場合に、内部イベントを読み取る。
この読み取りは、たとえば入出力システム呼び出し、たとえば「パイプ」へのアクセス、および共有メモリ・セグメントSHMをロックするオペレーションへの応答をインターセプトすることによって、実行される。
このインターセプトは、システムによって提供され、アプリケーションによって呼び出される、ルーチンのすべてまたは一部のコンテンツに、記録命令(記録プローブ)を挿入することによって実施される。記録プローブは、図9に示されるように、以下で指定されるような「メタプロセス」による動的介入技法を使用することによって、たとえばオリジナル・ルーチン・コードの終わりに対してエピローグを形成する、追加命令の形で追加される。
内部イベント・ログ、「ユーザ・ログ」は、それぞれが内部イベントを表す一連の記録を含む。これらのイベントは、単一ファイルにロギングすることが可能であり、当該リソースもしくはプロセスまたはその両方の識別を含む。それらは、いくつかのファイルに記録することも可能である。たとえばリソースごと、プロセスごと、またはそれら2つの組み合わせごとに、1つのファイルに記録することができる。
所与のリソースに対応するファイルの場合、これら記録のそれぞれが、特に、
・各リソース固有の順番であり、当該リソース上での新しいイベントまたはオペレーションごとに増分される、当該イベントのシーケンス番号、
・たとえばこのリソースに関する最終イベント以降の経過時間を表す、タイムスタンプ情報、
・たとえば入出力リソース(「I/O」)に関する「読み取り」もしくは「書き込み」、またはセマフォに関する「ロック」もしくは「アンロック」といった、イベント・タイプ、
・結果、すなわち入出力オペレーションの場合の値、または「ロック」の場合の排他的アクセスを得るプロセスの識別、
の、フィールドを含む。
この結果は、特に、たとえば、2次ノードで復元された再始動またはバックアップ・アプリケーションによる、ログ内のイベントのリプレイ時に、リソースの仮想化を実施するために使用される。格納された結果は、その後、リプレイ時になされたI/Oオペレーション要求の結果として強制される値、または「ロック」を得るタスクの場合、プロセスの仮想識別(仮想PID)を構成することになる。
オペレーション・ノードから1つまたは複数の2次ノードにロギング・データを送信することによる、性能損失を制限するために、いくつかの内部イベントを表すデータの送信を集約することが有用である。
このために、中間アプリケーションは、たとえば、オペレーション・ノードOPの1次と呼ばれるロギング・プロセスPlogOPによって実装される、いくつかの異なる方法の組み合わせを使用することができる。
アプリケーションの内部変更は、このオペレーションが外界に対して何も送信しない限り、外界に関して、たとえばそのクライアントに関して重要でないことが理解される。チェックポイントおよびログから復元された再始動アプリケーションは、当該ログが、ロギングされたマスタ・アプリケーションによって送信された最後の外部メッセージ以降に発生した内部イベントを含まない場合、外界に対するいかなるサービスの中断も発生させることはない。
第1の方法によれば、この1次ロギング・プロセスPlogOPは、内部ロギング・データが発生した場合、マスタ・アプリケーションが外部メッセージを送信しない限り、マスタ・アプリケーションの機能をブロックすることなく、伝送可能性に従ってその内部ロギング・データを非同期モードで送信する。マスタ・アプリケーションによる外部メッセージの次の送信で、検出手段が1次ロギング・プロセスにそれを警告し、1次ロギング・プロセスは次にこの外部メッセージの送信を、および場合によっては1つまたは複数のマスタ・アプリケーションのプロセスの実行を、ブロックまたは中断する。このブロックは、その後、すべての内部ロギング・データがこの非同期伝送を介して送信されるまで、または当該データの受信確認を受け取るまで、維持される。
第2の方法によれば、1次ロギング・プロセスPlogOpは、いくつかの連続する内部イベントを表す内部ロギング・データを、2次ノードのロギング・プロセスPlogSBに即時に送信せず、バッファまたは「キャッシュ」に格納する。これは、番号が設定されたしきい値に達した場合、またはアプリケーションが外部と呼ばれるメッセージ、たとえばクライアントまたは外部プロセスにアドレス指定されたデータまたは信号を、外界に送信しなければならない場合にのみ、これらを送信する。マスタ・アプリケーションによる外部メッセージの次の送信時に、検出手段は、1次ロギング・プロセスにそれを警告し、1次ロギング・プロセスは次に、この外部メッセージの送信を、および場合によっては1つまたは複数のマスタ・アプリケーションのプロセスの実行を、ブロックまたは中断する。このブロックは、その後、1次ロギング・プロセスが、キャッシュ内の残りのロギング・データを2次ノードに送信するまで、または当該データの受信確認を受け取るまで、維持される。
これら2つの方法において、外部メッセージを送信しなければならないという事実は、外向きのイベントを構成し、これが、ブロッキングと呼ぶことのできるイベントのタイプ、すなわち、先行イベントのロギングがこのイベントの実行前にクローズされることを要求する、イベントのタイプを構成する。実施形態によれば、一般に、外部の外向きイベントに加えて、他のタイプのイベントをブロッキングとして選択することができる。
図5は、1次ノードOPの外部への伝送前における、いくつかの内部イベントEVIに関するロギング・データDJの集約を伴う、イベント・ログのオペレーションを示す。
ステップ1では、ロギング・プロセスPlogOPが、被ロギング・プロセスP1の実行時に、イベントEVIの発生を検出する。
ステップ2では、ロギング・プロセスPlogOPが、検出されたイベントEVIをブロッキング・タイプとみなさなければならないかどうかをチェックする。
ステップ3では、イベントEVIがブロッキング・タイプでない場合、このイベントのロギングによってロギング・データ項目DJが生成される。
ステップ4では、このロギング・データ項目DJが、次のイベントの検出を待つ前に、バッファ・ログJS1Localを構成する順序付けされた構造内の1次ノードOPに格納される。
フェーズ5では、検出されたイベントEVIがブロッキング・タイプの場合、ロギング・プロセスPlogOPは、バッファ・ログJS1Localに以前にロギングされた内部イベントの実行シーケンスをクローズするフェーズを実施する。
このフェーズ5はステップ6を含み、ここでは、クロージャ・フェーズ5の満足のいく実行まで、被ロギング・プロセスP1の実行が中断される。
このフェーズ5はステップ7も含み、ここでは1次ノードのロギング・プロセスPlogOPがバッファ・ログJS1Localのコンテンツを2次ノードのロギング・プロセスPlogSBに送信し、ロギング・プロセスPlogSBが検出されたイベントEVIに関するログJSem1にそれを格納し、次に先行データが続く。1次ロギング・プロセスPlogOPは、このイベントが内部イベントでもある場合、バッファ・シーケンスを再始動すると共に、検出されたイベントEVIの直接ロギングを続行する。
図6に示された変形形態では、内部イベントのバッファリングを、ブロッキング・タイプのイベントと場合によっては異なるタイプのイベントによって開始することができる。これには、開始タイプのイベントが含まれる。単一タイプのイベントを、ブロッキング専用タイプ、もしくは開始専用タイプ、またはそれら両方のタイプであるとして選択することができる。
この変形形態では、ステップ1のイベント検出の次に、ステップb1が続く。このステップb1では、検出されたイベントEVIのタイプが開始とみなされる場合、1次ロギング・プロセスPlogOPは、バッファ・メモリへのロギングに関する現行のシーケンスSEQCが進行中であるかどうかをチェックし、進行中でない場合はこれを開始する。
後続のステップb2では、バッファ・メモリへのロギングに関するこうした現行のシーケンスSEQCが、検出されたイベントEVIに対して進行中であるかどうかをテストする。
ステップb3では、このEVIイベントに対してアクティブな現行のバッファ・シーケンスSEQCがない場合、その結果はロギング・データ項目DJとしてロギングされる。
ステップb4では、当該ロギング・データ項目DJが2次ロギング・プロセスPlogSBに送られ、それらの先行に続いて、検出されたEVIイベントに関するログ・ファイルJSem1に、先行データに続いて格納される。次に1次ロギング・プロセスPlogOPは、新しいイベントの検出を待つ。
ステップb2に続いて、検出されたイベントEVIに対して現行シーケンスがアクティブの場合、図5に示されるように、このイベントのロギングは続行される。
中間アプリケーションは、すべてまたは一部のサービスをマスタ・アプリケーションから再始動アプリケーションに切り替えたい場合、2次ノード内のこの再始動アプリケーションをチェックポイント状態から復元することによって開始し、次にこの後者のチェックポイント以降にロギングされたイベントのリプレイを実施する。
特に、(外部)イベント駆動型のマスタ・アプリケーション、たとえばトランザクション・アプリケーションの場合、外部イベントおよび内部イベントについて異なるように復元リプレイが実施される。
このアプリケーションについて、こうした機能手段は、外部イベントの受け取りを待ち、受け取ったときに、内部イベントを含むオペレーションを実施することによって反応する少なくとも1つのプロセスを含む。
したがってリプレイは、ロギングされた外部イベントのアプリケーションへのアクティブな供給と、再始動アプリケーション自体によってリプレイ時に作成されるロギング済み回答を、内部イベントに応答して提供する受動応答とを含む。
図7は、外部または「カーネル・ログ」を構成する1つまたは複数のファイルKLにロギングされた、TCPメッセージ・タイプの外部イベントのリプレイRSBのオペレーションを示す。
当該カーネル・ログKLは、以前にロギングされたTCPメッセージを再始動アプリケーションのプロセスPB1に再注入するために、中間アプリケーションに属し、2次ノードSBのユーザ・スペース内で実行中の、リプレイ・プロセスPREによって使用される。
この再注入を実施するために、中間アプリケーションINTは、TCPメッセージ受け取り層内に、たとえばIP層とTCP層との間の機能カーネル・モジュールを含むソフトウェア・メカニズムまたはエージェント「ipfilter」の形で置かれた、ソフトウェア・メカニズムまたはエージェントを含むかまたはこれらを使用する。2次ノードは、ユーザ・スペース・プロセスがアクセスできるようにするために、それへのアクセスがインターフェースによってシステムに「マッピング」される、BLネットワークに関するローカル・ループ機能も含む。このループBLは、たとえばUnix(登録商標)などのオペレーティング・システムに実装されるソフトウェアである仮想ループバック・インターフェースとは対照的に、特に、ハードウェア・スペース内に物理デバイスを含むことができ、それにより、IP層の底部のデータを再注入することができる。
ステップ1では、リプレイ・プロセスPREが「カーネル・ログ」KLのファイルにロギングされたメッセージを読み取る。
ステップ2では、リプレイ・プロセスPREがこのメッセージをネットワーク・ローカル・ループBLに注入する。
ステップ3では、このメッセージがIP層によって受け取られ、「ipfilter」エージェントを介して、処理のためにTCP層に送られる。
ステップ4では、TCP層が受信確認をネットワークに送る場合、後者は「ipfilter」エージェントによってフィルタリングまたはブロックされることになる。
ステップ5では、メッセージがTCP層に送られた後、その受信確認があればそれを受け取った後、「ipfilter」エージェントは、メッセージがTCP層によって実際に受け取られたかまたは処理された旨の信号を、リプレイ・プロセスPREに送信する。
ステップ6では、再始動アプリケーション・プロセスPB1がTCP層からメッセージを受け取り、それに含まれるパケットの非同期読み取りを実施する。
リプレイ全体にわたり、「ipfilter」エージェントは再始動アプリケーションをネットワークから分離し、同時に、すべての外部メッセージがTCP層まで到達するのを防ぎ、同時に、再始動アプリケーションによって送信されるすべてのメッセージが、このアプリケーションに関してトランスペアレントにIP層に到達するのを防ぐ。
リプレイ・アプリケーションでは、2つのリプレイされた外部イベント間で生じる内部イベントのリプレイを実施するために、中間アプリケーションは、再始動アプリケーションの独力での実行を可能にし、同時にそのための関連リソースを仮想化し、受動リプレイを実施する。その後、リプレイ・プロセスPRIは、所与のリソースに関して内部イベントを構成する各オペレーションを検出し、当該リソースにロギング済みの動作を採用するように強制し、このロギング時に当該イベントについて格納された結果をリプレイ・アプリケーションに送信する。
図8から図10は、共有リソース、たとえば共有メモリ領域への相互排他アクセスを得るために、再始動アプリケーションの2つのプロセスPB1およびPB2から、セマフォSEM1を要求するオペレーションを含む場合の、内部イベントのリプレイRSBの例を示す。
2次ノードSBでの復元時に、これら2つのプロセスPB1、PB2は、ユーザ・ログを構成するファイルに基づいてリプレイを実施する。それらのリプレイ時に、再始動アプリケーションの実行により、これらそれぞれのプロセスは、内部イベント・ログ「ユーザ・ログ」に含まれるログ・ファイルJSEM1が対応する、単一のセマフォSEM1への呼び出しを実行する。
これらアクセス・オペレーションの検出およびそれらの応答の事前設定は、「メタプロセス」による動的介入の技法を使用して、システムによって提供されアプリケーションによって呼び出されるルーチンのすべてまたは一部のコンテンツで、追加命令を追加することによって実施される。こうした技法は、たとえばフランス国特許第2843809号に記載されたものとすることができる。特に、これらの命令は、オリジナル・ルーチンからの機能を実施するコードの前に集約されて、プロローグを形成するか、またはこのコードの後に集約されて、エピローグを形成することが可能である。
図9は、ルーチンR内へのプロローグおよびエピローグの挿入を示し、改定されたルーチンRMが与えられる。この例では、同じ改定済みルーチンRMを使用して、マスタ・アプリケーションのロギングを実施し、さらに再始動アプリケーションのリプレイも実施することができることに留意されたい。
アプリケーションの実行可能ファイルの実行時に、プロセスPは、たとえば、共有メモリ内の所与の領域への相互排他アクセスを得るために所与のセマフォの位置決めを要求する、「POSIX.4」標準からのルーチン「sem_wait」である、ルーチンRを呼び出す一連のコードを実行する。マルチスレッド・アプリケーションの場合、これは、同様の役割を果たす命令、「POSIXスレッド」標準からの「pthread_mutex_lock」を含むことができる。
システムの起動時に、またはアプリケーションの実行可能ファイルの前にシステムにロードされた介入エージェントMETAは、システムのオリジナル・ルーチンRへの呼び出しをインターセプトし、これを改定されたルーチンRMに転送する。この改定済みルーチンは、プロローグを実施する命令が先行し、エピローグを実施する命令が後続する、オリジナル・ルーチンR「sem_wait」を実施または呼び出す命令を含む。
これらの補足命令は、特に、
プロローグの場合、
if(replay) check(Jsem1)
エピローグの場合、
if(replay) end_check(Jsem1)
else record(result,Jsem1)
のタイプからのアルゴリズムを含むことができる。
命令「if(replay)」は、アプリケーションがリプレイを実施するプロセスにあるか否かを示す条件をテストする。
反対の場合(「else」)、これは、アプリケーションが通常通りに実行されているため、マスタ・アプリケーションとして取り扱わなければならないことを意味する。次に、エピローグは、前述のような記録プローブである、関数「record(result,Jsem1)」を実行し、内部イベントのロギングに参加し、同時に結果「result」をログ「Jsem1」に格納する。
「Jsem1」ログを使用して、リプレイ時に「sem_wait」ルーチンが再始動アプリケーションによって呼び出される場合、プロローグは、システムのオリジナルの「sem_wait」ルーチンを実施する前に実行される。
図10は、内部イベント・ログ「ユーザ・ログ」に含まれるJSEM1ログから、2つのプロセスPB1、PB2のリプレイを実施するための、この改定済みルーチンRMのオペレーションを示す、時間流れ図である。JSEM1ログにロギングされた各イベントは、当該セマフォSEM1特有の増分シーケンス#OPに従って番号付けされる。これら番号#OPそれぞれに関連して、JSEM1ログは、ロギング時に当該JSEM1ログに対応するセマフォを呼び出したプロセスの識別情報(PID)を含む。
2つのプロセスPB1およびPB2が並行して実行される場合、「sem_wait」機能を使用するそれらそれぞれのSEM1セマフォへの呼び出しは、必ずしも、セマフォのログJSEM1に格納された順序で実行されるとは限らない。
「id2」識別子プロセスPB2が、リプレイ時にSEM1セマフォを呼び出した場合、プロローグはステップ21で、同じプロセス名PB2で命令「check(Jsem1)」を実行する。この機能、「check(Jsem1)」、は、JSEM1ログ内の、シーケンス番号OPSEM1の現在値に対応する行、すなわち行「#1:id1」を読み取る。
この「check」機能は、読み取った値PIDlog、すなわち「id1」と、呼び出し側のPB2プロセスの識別子、すなわち「id2」とを比較する。これらの値が異なることを示す場合、この「check」機能は、たとえば連続ループ内での比較であるこの同じステップ21を再実行することによって、呼び出し側PB2プロセスの実行を中断する。
その後、PB1プロセス識別子「id1」がリプレイ時にSEM1セマフォも呼び出した場合、プロローグは「check(Jsem1)」命令も実行するが、今回はステップ11の新しいPB1呼び出しプロセスの名前である。当該PB1呼び出しプロセスが実際に、アクティブ・シーケンス内の現在の番号、すなわち値「#1」に対応する行のログに識別子「id1」が格納されたプロセスであることを示す場合、「check」機能は、PB1呼び出しプロセスの実行が続行されることを許可する。
ステップ12では、その後、改定済みルーチンRMがオリジナル・ルーチンRの機能、すなわち「sem_wait」命令を実施し、これにSEM1セマフォが割り当てられ、PB1呼び出しプロセスの値「id1」を戻す。
ステップ13では、その後エピローグが、PB1呼び出しプロセスの名前で「end_check(Jsem1)」命令を実行する。当該「end_check」機能は、次に、PB1プロセスの「sem_wait」呼び出しをクローズし、保留されてきたPB2プロセスの実行をブロック解除する。このオペレーションは、特に、このSEM1セマフォのシーケンス番号OPSEM1の増分を含み、これを次の値「#2」へと移行させることができる。
この場合、PB2プロセスによって呼び出された「check」機能が、ステップ22で再度実行され、JSEM1ログ「#2:id2」の次の行を読み取り、そのPB2呼び出しプロセスに改定済みルーチンRMの実行を続行させる。
ステップ23では、その後、改定済みルーチンRMがオリジナル・ルーチンRの機能、すなわち「sem_wait」命令を実施し、その後、これにSEM1セマフォが割り当てられ、PB2呼び出しプロセスの値「id2」を戻す。
ステップ24では、その後、エピローグが「end_check(Jsem1)」命令をPB2呼び出しプロセスの名前で実行し、SEM1セマフォ・シーケンスを再度増分して、リプレイの続行に使用できるようにする。
様々なリプレイ済みプロセスがSEM1セマフォの割り当てを要求する順序に関係なく、そのJSEM1ログに格納されたとおりの順序で、したがって、このロギングを生成したマスタ・アプリケーションの実行時と同じ順序でのみ、取得可能であることが明らかである。
これらの追加命令は、マスタ・アプリケーション外部のMETAエージェントによって追加され、オペレーティング・システムのいかなる変更もなしにオペレーティング・システムに追加されるため、これらのロギングおよびリプレイ・オペレーションは、マスタ・アプリケーションに対して、システムの既存の要素を変更することなく、トランスペアレントに、かつ煩雑でないように、実施されることが明らかである。
内部イベントが多数である場合、特に、前述の特徴から得られる利点を大幅に損なうことになるいかなる性能低下も避けるために、それらのロギングもしくはリプレイまたはその両方の機能を最適化することが有用である。
2つの外部イベント間で発生する内部イベントのタイプの中で、ほとんどが決定論的であると分類することができる。すなわち組み込まれるオペレーションは、その結果が、当該オペレーションの前のアプリケーションの状態に確実に依存するものだけである。
他方で、特にマルチタスク・オペレーション、またはいくつかのノードに分散されたオペレーションにおいては、アプリケーションまたは1次ノード外部の要素に依存する結果を提供することが可能なオペレーションを含むため、いくつかの内部イベントは、非決定論的タイプである。
非決定論的タイプの内部イベントのみをロギングまたはリプレイすることによって、オペレーション・ノードの過負荷と、マスタ・アプリケーションを信頼可能にするかまたは管理するために、中間アプリケーションの使用によって生じる性能低下とを、制限することが可能である。
図11および図12によって示されるように、ロギングおよびリプレイは、特に、動作(behaviour)が決定論的でない内部イベントに対して、結果のロギングのみ、およびリプレイ時の結果の事前設定のみによって、加速させることができる。
すべてのイベントについて、および特に内部イベント(EVI)について、META介入メカニズム(図9)は、前述のように、オリジナル・ルーチンRの代わりに、要求されたオペレーションを実施する改定済みルーチンRMを呼び出す。この改定済みルーチンRMは、このイベントEVIの発生から、ロギング・プロセスPlogOPまたはリプレイ・プロセスPRIを開始または通知することが可能であり、必要であれば、このイベントの処理を続行するため、または呼び出したP1またはPB1プロセスにこの処理を引き渡すための、合意を待つことが可能な、機能を含む。
これがロギングまたはリプレイを含むかどうかにかかわらず、このイベントEVIの管理は、このイベントの発生に対する反応ステップと、それに続く、コンテンツがこの内部イベントの決定論的または非決定論的性質に依存する追加の管理ステップGC(図11、図12)とを含む。
図11は、内部イベントのロギング・オペレーションを示す。P1プロセスが被ロギング(JOP、図1)実行を介して実行される間に、命令の実行は、SEM1セマフォなどの共有リソースへの内部イベントEVIの適用を実施する。
ステップ1では、ロギングされることになるイベントEVIに対応する改定済みルーチンRMが、ロギング・プロセスPlogOPを通知または開始し、このイベントEVIの発生を検出する。
ステップ2では、イベントEVIに対応する改定済みルーチンRMは、SEM1セマフォ上で、オリジナル・ルーチンRで要求されたオペレーションを実施し、被ロギング・プロセスP1にアドレス指定された結果データDRを受け取るかまたは計算する。
ステップ3では、ロギング・プロセスPlogOPは、P1ロギング・シーケンス内の検出されたイベントEVIの位置に対応する、たとえばSEM1セマフォに割り当てられたシーケンス番号SQを増分させる。
ステップ4では、当該プロセスPlogOPは、検出された内部イベントEVIが決定論的であるか否かを確定するためのテストを実施する。このテストは、たとえばその呼び出し時に改定済みルーチンRMから受け取られたパラメータに、またはこの呼び出しと共に送信される結果データDRの有無に、または、1次OPノードに以前に格納された命令またはイベント識別に、適用することができる。
ステップ5では、検出されたイベントEVIが非決定論的である場合、PlogOPプロセスは、結果データDRを2次ノードのPlogSBロギング・プロセスに送る。これにより、セマフォSEM1に対応するログ・ファイルJSem1内で関連付けられ、先行するロギングされたイベントの結果に従うように、イベントEVIに対応する結果データDRおよびシーケンス番号SQが格納される。ロギング条件に応じて、JSem1ログに格納されたデータを、PlogOPロギング・プロセスによって1次ノード内の永続メディア上のログ・ファイルに、直接格納することもできる。
被ロギング・プロセスP1に関する一連の内部イベントの完了時に、JSem1ログは、シーケンス番号を含むイベントに関するシーケンス番号に関連付けられた、SEM1セマフォによって当該P1プロセスに送られたすべての結果データの順序付けセットを含む。
図12は、JSem1ログに格納され、SEM1セマフォに対応するイベントの、リプレイ・プロセスPRI(図8を参照)によって制御された、受動リプレイ・フェーズRSB(図1)時の、再始動プロセスPB1における内部イベントEVIに関するリプレイ・オペレーションを示す。PB1プロセスの実行中、およびJSem1ログからのイベントのリプレイ時に、命令を実行することで、SEM1セマフォに適用される非決定論的タイプの内部イベントEVIが実施される。
ステップ1では、ロギングされることになるイベントEVIに対応する改定済みルーチンRMは、リプレイ・プロセスPRIを通知または開始し、このプロセスがこのイベントの発生を検出および識別する。
ステップ2では、イベントEVIに対応する改定済みルーチンRMは、SEM1セマフォ上で、オリジナル・ルーチンRで要求されたオペレーションを実施し、実際のリプレイ結果PRJに対応する結果データを受け取るかまたは計算する。改定済みルーチンRMは、再始動プロセスPB1の実行を中断し、この結果PRJを再始動プロセスPB1に送信するためにリプレイ・プロセスPRIからの信号を待つ。
ステップ3では、リプレイ・プロセスPRIは、関連付けられたシーケンス番号SQiと共に、リプレイに関するJSem1ログ内の次の未使用値RLiを読み取る。
ステップ4では、たとえばSEM1セマフォに割り当てられ、PB1内で検出されたイベントEVIの位置に対応する、シーケンス番号SQを増分するためのプロセスが、シーケンスPB1をリプレイする。
ステップ5では、進行中のリプレイ・イベントEVIがロギング済みイベントに対応するかどうかを確定するために、リプレイ・プロセスPRIが、ログ内の現在のシーケンス番号SQおよび読み取られたシーケンス番号SQiについてテストを実施する。
事前設定ステップ7では、これらのイベントが対応する場合、リプレイ・プロセスPRIは、ログ内の読み取られた結果RLiを改定済みルーチンRMに送り、このルーチンが、オリジナル・オペレーションRからの結果PRJの代わりに、これを格納する。次に改定済みルーチンRMは、この結果RLiを再始動プロセスPB1に戻し、その実行を続行させる。
オプションで、事前設定ステップ7の前に、リプレイ・プロセスPRIが改定済みルーチンRMから実際のリプレイ結果RRJを受け取り、これと、ロギング時の同じイベントの結果に対応する読み取られた結果RLiとを比較する、ステップ6が実行される。これら2つの結果RRJおよびRLiが対応する場合、プロセスは改定済みルーチンを直接解放し、これがその結果を再始動プロセスPB1に戻して、その実行を続行させる。
したがって、非決定論的イベントは、忠実かつ正確に記録およびリプレイ可能であり、再始動プロセスPB1に関して、ロギング時のターゲット・プロセスP1のリプレイ・ランに忠実なリプレイ・ランを保証することが明らかである。
一定のイベントのみがロギングまたはリプレイされるため、および、本発明を実施するための補足的内部オペレーションが、ロギングのための格納または伝送よりもかなり高速であるため、中間アプリケーションINTのオペレーションによるオーバヘッドは低減される。
オプションで、オリジナル・ルーチンRが決定論的なイベントを記録することのみが想定される場合、これに対応する改定済みルーチンRMは、ロギングまたはリプレイ・プロセスへのいかなる呼び出しの提供も省略することができる。同様に、オリジナル・ルーチンRが非決定論的なイベントを実施することのみが想定される場合、その改定済みルーチンRMは、ロギングまたはリプレイ・プロセスへの系統的呼び出しを含むことができる。したがってロギング時に、決定論的性質をテストするためのステップ4(図11)は、受け取られる呼び出しのタイプによって、または呼び出しが受け取られたという事実によってすら、暗黙的に生成することができる。
アプリケーションのタイプまたはその実行の条件に応じて、所与のタイプの内部イベントが決定論的であるか否かの可能性がある場合、改定済みルーチンRMは、そのプロローグもしくはそのエピローグまたはその両方に、このアプリケーションのタイプまたは実行の条件を評価する命令を含むこともできる。
シーケンス番号SQの使用は、オプションとすることもできる。このケースでは、ロギング・プロセスPlogOP(図11)は、イベントEVIが非決定論的タイプである場合、結果データを記憶することに限定される。その一部について、リプレイ・プロセスRPI(図12)は、次にロギングされた結果RLiの読み取りに限定され、これが非決定論的であるとして検出される次のイベントEVIに対して強制される結果であるとみなされる。
さらに、最適化のヒューリスティックまたは予測的方法は、すべての内部非決定論的イベントを系統的にロギングしないことができる。この方法は、単独で、または他の最適化方法との組み合わせで、実装することができる。
ロギングおよびリプレイ・オペレーションの時間に関するコストが原因で、特に、ノード内部のオペレーションに関して、ロギング・オペレーションの数を削減することができるのであれば、ある数の追加の内部オペレーションを実施することが有用な場合がある。
このヒューリスティック最適化技法は、結果を予測すること、およびマスタ・アプリケーションのオペレーション時に検出された内部イベントのすべてまたは一部にわたって適用することによって動作する、中間アプリケーションによる、ヒューリスティック圧縮の実施を含む。
オペレーション・ノードにおけるロギング時に、このヒューリスティック圧縮は、たとえば内部ロギング・プロセスPlogOPによって実施することが可能である。
図13は、このヒューリスティック圧縮CHを使用する、非決定論的イベントのロギングの機能を示す。
P1プロセスがJOP被ロギング・ランを介して実行される間、命令の実行は、SEM1セマフォなどの共有リソースに適用される非決定論的タイプの内部イベントEVInDを実施する。
ステップ1では、ロギングされることになるイベントEVInDに対応する改定済みルーチンRMnDは、ロギング・プロセスPlogOPを通知または開始し、このプロセスが当該イベントEVInDの発生を検出する。
ステップ2では、イベントEVInDに対応する改定済みルーチンRMnDは、SEM1セマフォ上で、オリジナル・ルーチンRnDで想定されるオペレーションを実施し、被ロギング・プロセスP1にアドレス指定された結果データDRを受け取るかまたは計算する。
ステップ3では、プロセスPlogOPは、イベントEVInDの検出によって、含まれるSEM1リソースに対応するロギング・シーケンス番号SQを増分する。
有利なことに、当該シーケンス番号SQは、1次ノードOP内の作業メモリ内に格納される。したがって、その管理は、結果データを2次ノードに送ることに比べて、または永続メディア上のログ・ファイルに格納することに比べて、非常に低いオーバヘッドを表す。
SEM1セマフォおよびそのログJSEM1に関連付けられたこのシーケンス番号SQの増分により、結果データDRの系統的格納によるオーバヘッドを避けながら、予測機能FHによって正しく予測された非決定論的イベントEVInDの受け渡しの記録を可能にする。
ステップ4では、プロセスPlogOPは、予測結果RPの形で、この内部イベントEVInDの結果の予測を含む、ソフトウェア・オペレーションFHを実施する。好ましくは、この予測は、被ロギング・プロセスP1の状態またはこのイベントEVInD以前のマスタ・アプリケーションの状態に基づいて、1つまたは複数の決定論的機能によって構成される、決定論的ソフトウェア・プロセスである。
ステップ5では、プロセスPlogOPは、予測結果RPと、検出されたイベントEVInDの実行RnDから出力された実結果DRとを比較する。
ステップ6では、2つの結果DRおよびRPが異なる場合、PlogOPプロセスは、実結果DRと対応するシーケンス番号SQの値とを、2次ノード・プロセスPlogSBに転送し、ここで、それらを関連付けることによって、当該リソースSEM1に対応するログ・ファイルJsem1内の次の行として記憶される。
このステップの際に、当該SEM1リソースをロギングするためのシーケンス番号SQの再初期化を想定することが可能である。この場合、シーケンス番号SQは、結果がロギングされた最後のイベント以降に正しく予測されたイベントの数を表す。
被ロギング・プロセスP1に関する一連の内部イベントの完了時に、JSem1ログは、SEM1セマフォによって当該P1プロセスに送られ、予測機能FHによって正しく予測されなかった、すべての結果データの順序付けセットを含む。
内部イベントのロギングがこうしたヒューリスティック最適化を使用して実施された場合、中間アプリケーションは、2次ノードでのリプレイの際にヒューリスティック圧縮解除を実施する。このヒューリスティック圧縮解除は、圧縮に使用されたものと同一の予測を使用し、ヒューリスティック圧縮でのロギング時と同じイベントに適用される。
図14は、SEM1セマフォに適用されるログJSem1に基づいて、内部リプレイ・プロセスPRI(図8を参照)によって制御される、再始動プロセスPB1の受動リプレイにおける、このヒューリスティック圧縮解除DHを使用した、非決定論的イベントに関するリプレイ・オペレーションを示す。
JSem1ログからのイベントのリプレイ時に、命令の実行は、SEM1セマフォに適用する非決定論的タイプの内部イベントEVInDを実施する。
ステップ1では、リプレイされるイベントEVInDに対応する改定済みルーチンRMnDは、リプレイ・プロセスPRIを通知または開始し、このプロセスがこのイベントEVInDの発生を検出および識別する。
ステップ2では、イベントEVInDに対応する改定済みルーチンRMnDは、SEM1セマフォ上で、オリジナル・ルーチンRnDで要求されたオペレーションを実施し、実際のリプレイ結果PRJに対応する結果データを受け取るかまたは計算する。改定済みルーチンRMnDは、リプレイ・プロセスPB1の実行を中断する。次に、当該結果PRJを再始動プロセスP1に転送するため、およびその実行を継続させるために、リプレイ・プロセスPRIからの信号を待つ。
ステップ3では、プロセスPRIは、セマフォSEM1に対応するシーケンス番号SQの値を読み取り、これを増分する。
ステップ4では、内部リプレイ・プロセスPRIは、このシーケンス番号SQと、この同じリソースSEM1に対応するログ・ファイルJSem1に格納されたものからまだリプレイされていない、次のシーケンス番号SQiとを比較する。
ステップ5では、これらのシーケンス番号SQおよびSQiが対応する場合、内部リプレイ・プロセスPRIは、このシーケンス番号SQiについてこのログに格納された結果RLiを読み取り、これを検出されたイベントEVInDによって戻される強制結果RFとして格納する。次に、内部リプレイ・プロセスPRIは、ログJSem1内の行SQiによって表されるイベントがリプレイされた旨の事実を格納し、次に検出されるイベントの処理のためにこの同じログの次の行SQjを活動化させる。
このステップでは、当該SEM1リソースをリプレイするためにシーケンス番号SQの再初期化を想定することが可能である。
ステップ6では、これらのシーケンス番号SQおよびSQiが対応しない場合、内部リプレイ・プロセスPRIは、この内部イベントのロギング時に生成されたものと同じ結果予測を予測結果RPJの形で含む、ソフトウェア・オペレーションFHを実施する。内部リプレイ・プロセスPRIは、その後、この予測の結果RPJを、検出されたイベントEVInDによって戻される強制結果RFとして格納する。
ステップ8では、内部リプレイ・プロセスPRIは、強制結果RFを改定済みルーチンRMnDに転送し、改定済みルーチンRMnDは、内部イベントEVInDによって戻される実際のリプレイされた結果RRJに代わって、この強制結果RFを再始動プロセスPB1に賦課する。その後、改定済みルーチンは、再始動プロセスPB1にその実行を続行させる。
オプションで、この事前設定に先行して、これら2つの結果RRJおよびRFを比較するためのテスト・ステップ7を実行し、これらの結果が対応する場合は再始動プロセスPB1での動作を避けることができる。
この予測最適化方法で使用される順序付けデータSQの識別は、前述のもの(図11および図12)と異なる変数で構成可能であるか、またはそれらと併せて編成および処理可能であることに留意されたい。
したがって、すべての非決定論的イベントの結果をロギングすることなく、非決定論的イベントを忠実かつ正確に記録およびリプレイできることが明らかである。この場合、ロギング時にターゲット・プロセスP1のリプレイ・ランに忠実な再始動プロセスPB1のリプレイ・ランの実行を保証しながら、これらのロギングおよびリプレイ・オペレーションを最適化することが可能である。
ロギング・オペレーションとノード内部での単純な計算オペレーションとの間の速度の差を考えると、たとえ使用される予測機能が非常に高い成功率を持たない場合であっても、このヒューリスティック最適化技法は有用な可能性がある。この差が大きい場合、50%未満の予測成功率でも有用な最適化を可能にすることができる。
このヒューリスティック最適化技法は、同じ予測機能を使用して、単一のイベントまたは内部イベントのグループをロギングした後、これらをリプレイするのであれば、いくつかの異なる予測機能を使用することも可能である。使用する予測機能の選択は、たとえば、知識データベースまたは規則から始まる、アプリケーションの状態またはその環境に従って実行することができる。この変更は、中間アプリケーションによって格納されたロギング・データに格納することができる。このヒューリスティック最適化技法は、ロギング時にその成功率を評価することによって、およびこの成功率の値またはその変化に基づいて当該機能の変更を開始することによって、自動的に適応するように使用することも可能である。
このヒューリスティック最適化技法で使用される予測機能の一例に、異なるクライアントからの内部イベントの順序に基づいた、内部イベントの発生順序の予測が含まれる。
図15および図16は、それぞれ3つの異なるクライアントによって起動される3つのタスクTa、Tb、Tcを実行する、それぞれ「a」、「b」、および「c」と格付けされた識別子を備える3つのプロセスProcA、ProcB、ProcCに参加する、外部および内部イベントの発生を示す。これら様々なタスクは、それぞれ、たとえば第1の外部イベントEa1、Eb1、Ec1と、第2の外部イベントEa2、Eb2、Ec2とを含む。各タスクは、これら第1と第2の外部イベントの間に、2つの内部非決定論的イベントの開始を含む。図15および図16では、タスクTaに関する連続する内部イベントはIa1およびIa2と呼ばれ、タスクTbのそれらはIb1およびIb2と呼ばれ、タスクTcのそれらはIc1およびIc2と呼ばれる。これらの内部イベントIa1乃至Ic2は、互いに異なるか、または、たとえば単一セットの共有メモリ領域へのロック割り振りなどの、単一の決められたリソースを含むことができる。
ほぼ同時のタスク時、および特にそれらが同様または共通の部分を有するか、もしくは同様の実行時間を有する、またはその両方である場合、予測機能は、中間内部イベントIa1、Ib1、Ic1の発生順序が、それらに先行する外部イベントの発生順序と同じになると予測する。
マスタ・アプリケーションが実行している間、オペレーション・ノードOP上での第1の外部イベントEa1、Eb1、Ec1の発生順序は、たとえば内部ロギング・プロセスPlogOPで、中間アプリケーションによって記録される。たとえばこの外部イベントの順序は、これら外部イベントに関連付けられたプロセスの一連の識別子または一連の値「a b c」を含む。
このリソースに関する新しい内部イベントが検出されるごとに、予測機能は、この内部イベントの結果、すなわちこのリソースに対するロックを取得することになるプロセスの識別子、すなわち、このロックを要求したプロセスの識別子、を予測する。次にこの予測結果は、このリソースに対するロックを取得した最後のプロセスの識別子と、外部イベントのこの順序とを比較することによって計算される。
したがって予測機能は、それぞれが破線で示され、その結果が右端に示されている、予測Pe1乃至Pe6のセットを作成する。
図15は、内部イベントが外部イベントの順序に従う場合に、これらの内部イベントの各発生に対して行われる予測の値を示す。外部イベントの順序「a b c」から、および発生した最後の内部イベントから、予測機能は、6つの文字で示される一連の値「a b c a b c」を形成する予測を行う。ヒューリスティック最適化のコンテキストでは、内部ロギング・プロセスPlogOPは、内部イベントが予測機能によって正しく予測されているため、これら内部イベントについてのロギング・データを転送する必要はない。
図16は、内部イベントが外部イベントの順序に従わず、「b」を識別するためのプロセスPrBのタスクTbが、他の2つのタスクよりも高速に実行されている場合に、これらの内部イベントの各発生に対して行われる予測の値を示す。外部イベントの順序「a b c」から、および発生した最後の内部イベントから、予測機能は、一連の値「a b c c a b」を形成する予測を行う。これは、2つの予測Pe3およびPe6が偽として示され、これによって内部ロギング・プロセスPlogOPが2つの発生時にロギング・データを転送することを表す。したがってこのロギング・データは、不正確として示された第3の予測Pe3の完了時の、伝送L1における値「c」、および次に、同様に不正確として示された第6の予測Pe6の完了時の、伝送L2における値「c」を含む。
これらの不正確な予測Pe3およびPe6にもかかわらず、このヒューリスティック最適化は、内部ロギング・プロセスPlogOPが、2つの伝送L1およびL2のみに影響を与えることが可能であることが明らかである。ヒューリスティック最適化がなければ、6つの伝送が発生したであろう。6つのうち4つの伝送を節減することで不要になった作業時間は、この最適化技法を実施するために必要な内部計算およびオペレーションの時間よりもかなり長く、したがって特にオペレーション・ノードでの性能をかなり向上させることができる。
さらに、オペレーティング・システムによる標準実施によって、非決定論的動作を生成することになるいくつかの内部イベントでは、セマンティクスの変更による最適化技法を使用することが可能である。この技法は、こうしたイベントに決定論的動作を与えるために、ノードにおけるこうしたイベントの実施に対する改定を含む。中間アプリケーションは、オペレーション・ノードおよび2次ノードにおいてこの改定を同一にし、それによってこれら変更された内部イベントの結果を予測可能にする。実施に対するこの改定は、ルーチンRを実施するオリジナル・イベントを、このイベントに対して改定済み動作を実施する改定済みルーチンRMに置き換える、「メタプロセス」を通じた介入技法によって動的に実行されることになる。この改定を実施するために使用される技法は、プロローグおよびエピローグに記録プローブを追加するための前述の技法(図9を参照)と同様であるが、改定済みルーチンに関する中央部分のコードへの改定を含むことができる。この実施改定は、マスタ・アプリケーションに対してトランスペアレントに生成され、オペレーティング・システムの既存の要素は変更しない。これらの改定済みルーチンのうちの1つをマスタ・アプリケーションで、永続的に、または少なくとも所定のおよび格納された実行間隔にわたって使用することによって、当該変更されたイベントの結果を格納する必要なしに、マスタ・アプリケーションの進展をロギングすることが可能である。同じ改定済みルーチンを、リプレイ・アプリケーションを実行する場合と同じ間隔にわたって使用することで、マスタ・アプリケーションの再現性を維持し、同時に、ロギングおよびリプレイの性能を向上させることができる。
この改定済み動作は、たとえば、オリジナル・ルーチンがいくつかの異なる結果を送信できた所与の状況から、改定済みルーチンが、オリジナル・ルーチンによって提供可能であった、したがってマスタ・アプリケーションおよびオペレーティング・システムによって想定される結果のみを提供するように計画することによって、オリジナルの動作と同じ仕様に準拠し、これに完全に適合できるように設計される。
セマンティック変更による最適化のこの技法は、再始動アプリケーションの復元時にリプレイできるように、その結果をオペレーション・ノードにログしなければならない、非決定論的内部イベントの数を削減することができる。
異なる当事者のオペレーションおよび対話の一例が、図22に図示される。
たとえばシステム・ソフトウェア内の処理エージェントは、結果DRをプロセス、たとえば被ロギング・プロセスP1に転送するオペレーションを実施する。特に内部の多くのオペレーションまたはイベントについて、当該オペレーションは、決定要素と呼ばれるリソースのセットRDetと比べて本質的に決定論的なオペレーション・プロセスTOによって実施される。
プロセスP1がアクセス可能なリソースのうちのいくつかを、このプロセスP1の状態についての知識から再現可能リソースRReprと呼ぶことができる。当該再現可能リソースは、特に、状態が排他的にプロセスP1に依存するリソースを含む。
処理エージェントATのオペレーションにおいて、TOオペレーションの処理は、たとえばプロセスP1の再現可能リソースRReprからのDERデータのみを使用することから、当該再現可能リソースに関して決定論的である処理部分TDを含むことができる。
オペレーション・プロセスTOが、プロセスP1の再現可能リソースRReprに含まれないSEM1からの個人データを使用する他の処理部分を含む場合、一般に、このTnD部分の結果、したがってすべてのTO処理の結果は、これを呼び出す処理P1に関して決定論的でない。
こうした状況において、このセマンティック変更技法は、管理エージェントAGを使用して、処理エージェントの動作またはこれが使用もしくは生成するデータを改定し、それにより、この改定の結果として生じるオペレーションが、再現可能リソースRReprと比べて決定論的であるように、構成することができる。
この管理エージェントは、TOオペレーティング・プロセスの内部オペレーションを改定するために、機能修正処理TMFを使用することができる。
この管理エージェントは、決定要素リソースRDetから出力されるがプロセスP1に関して再現可能(RRepr)ではない、入力データDEを使用して、当該同一プロセスP1に対して非決定論的ソースを構成することができる結果DRに対する変動を補償することもできる。こうした補償は、入力データDEを補償済み入力データDECに修正するTC1によって、または結果データDRを補償済み結果データDRCに修正するTC2によって、実施することができる。
この管理エージェントAGは、グローバル処理ATおよびAGの効率を最適化するために、1つまたは複数のセマンティック変更パラメータPCSに応じて、実行した修正TMF、TC1、TC2を選択または調整することもできる。ロギングJOPとリプレイRSBとの間の再現性を維持するためには、このセマンティック変更パラメータPCSに対する変動が、再現可能リソースRReprからのデータによってのみ決定されること、またはその変動がロギング時にログUL、KLに格納され、リプレイRSB時に同じ方法で読み取りおよび適用されることで、十分である。
この動作の変化は、特に、所与のリソースについて競合するいくつかのプロセスの管理に影響を与える局面に関する可能性がある。
図17および図18は、Unix(登録商標)タイプの環境において「read(読み取り)」ルーチンを使用することにより、受け取ったメッセージを読み取るために、オペレーションを決定論的にするための、セマンティック変更によるこの最適化技法の使用例を示す。
その標準実装では、アプリケーションによって開始された「read」ルーチンが、入力チャネルICH内のメッセージを読み取り、これらを当該アプリケーションに転送するために、バッファ・メモリBのゾーンを使用する。メッセージは、システム内で連続データの形で受け取られる。これらのデータは、着信すると、入力チャネルを形成するメモリ・ゾーン内に格納される。その構成によれば、「read」オペレーションは異なるサイズのバッファを使用することができるが、このバッファは全体として入力チャネルでの各読み取りに使用される。
この例では、アプリケーションは、入力チャネルICHを介して連続的に着信する3つのメッセージM1、M2、M3を受け取るために、サイズ「50」のバッファBに対して一連の「read」オペレーションを使用する。これら3つのメッセージは、それぞれ「20」、「30」、および「50」に等しいデータ・ボリュームを表す。しかしながら、一方ではデータが入力チャネル内で着信する速度、および他方では読み取りオペレーションの速度が、ロギングまたはリプレイの段階では予測不可能なように、互いに異なる場合がある。
図17は、オリジナルの「read」ルーチンを使用して同じ3つのメッセージを読み取るための、2つの異なる可能なシナリオを示す。
最初のシナリオSCAでは、サイズ「20」の第1のメッセージM1からのデータのみが着信したため、第1の読み取りRA1が行われる。バッファBは完全には満たされず、オペレーションはコンテンツ「M1」およびデータ・サイズ「20」に対応する結果を戻す。次に、第2のメッセージM2のみが着信した後に、第2の読み取りRA2が行われ、コンテンツ「M2」およびデータ・サイズ「30」に対応する結果を戻す。次に、第3のメッセージM3の着信後、第3の読み取りRA3が行われ、コンテンツ「M3」およびデータ・サイズ「50」に対応する結果を戻す。たとえば、アプリケーションによって受け取られたデータのサイズについては、この第1のシナリオSCAは「20、30、および50」に等しい3つの結果のセットを戻す。
第2のシナリオSCBでは、同じ第1および第2のメッセージM1、M2がすでに着信したとして第1の読み取りRB1が行われ、コンテンツ「M1、M2」およびデータ・サイズ「50」に対応する結果を戻す。次に、第3のメッセージM3の到着後、第2の読み取りRB2が行われ、コンテンツ「M3」およびデータ・サイズ「50」に対応する結果を戻す。アプリケーションによって受け取られたデータのサイズについては、この第2のシナリオSCBは、同じメッセージの読み取りに関する「50、50」に等しい2つの結果のセットを戻す。
したがってこれら2つのシナリオは、一方は「20、30、50」および他方は「50、50」の、異なる結果を戻す。ここで「read」オペレーションを実施する標準的なシステム・ルーチンは、マスタ・アプリケーションのロギングおよび再始動アプリケーションのリプレイについて、アプリケーションの観点から非決定論的なイベントを実施する。
図17と同じ状況で、図18は、オリジナルの「read」ルーチンの代わりに改定済み「readM」ルーチンを使用することによって得られる、単一のシナリオScUを表す。
この例では、改定済みルーチンは受け取られる各メッセージの実際の長さを認識し、たとえバッファBが満杯でなく、入力チャネルICH内で読み取るデータが依然として存在する場合であっても、単一のメッセージに対応するデータのみを入力チャネルICH内で読み取る。マスタ・アプリケーションのロギングの場合、改定済みルーチンは、メッセージM1、M2、M3の受け取りに対応する外部イベント・ロギング・メカニズム、たとえばIPlogOPモジュールを使用して、これらのメッセージM1、M2、M3の実際の長さを認識する。再始動アプリケーションの復元中に行われるリプレイの場合、改定済みルーチンは、メッセージM1、M2、M3の受け取りに対応する外部イベント・リプレイ・メカニズム、たとえばIPlogSBモジュールを使用して、これらのメッセージM1、M2、M3の実際の長さを認識する。
このようにして、これら2つの異なる着信シナリオSCA、SCBは、アプリケーションによって受け取られるデータのサイズに関して「20、30、50」に等しい3つの結果の単一セットの発生時に、読み取りオペレーションに対して単一の動作を与える。
同様に、バッファBの他のサイズについて、異なる結果セットを生成するオリジナルの「read」ルーチンが可能である。
したがって、バッファ・サイズ「20」の場合、以下の結果、たとえば「20、20、20、20、20」または「20、20、10、20、20、10」を得ることができる。
バッファ・サイズ「100」の場合、以下の結果、たとえば「20、30、50」または「50、50」または「20、80」、または「100」を得ることができる。
他方で、各バッファ・サイズについて、改定された「readM」ルーチンは単一の結果セットしか与えることができない。
したがって、バッファ・サイズ「20」の場合、得られる結果セットは「20、20、10、20、20、10」となる。
バッファ・サイズ「100」の場合、得られる結果セットは「20、30、50」となる。
したがって改定された「readM」ルーチンは、こうした読み取りオペレーションに対応する内部イベントのための決定論的動作を実施する。
図19乃至図21は、キューイング・ループを実施するアプリケーション・プロセスによって開始され、特にいくつかのファイル記述子に関連付けられたいくつかの入出力(I/O)チャネルからデータを受け取ることが可能な、決定論的な多重化読み取りオペレーションを行うために使用される、セマンティック変更によるこの最適化技法の他の使用例を示す。この例は、Unix(登録商標)タイプの環境における「select(選択)」ルーチンの使用に基づくものであるが、「poll(ポーリング)」ルーチンの使用にも適用可能である。
この例では、2つの異なるチャネルICH1、ICH2にアドレス指定された、それぞれ「a」、「b」、および「c」に等しいコンテンツを備えた3つのメッセージM1、M2、M3が、ノード・オペレーティング・システムOSによって受け取られる。
この例は、特に、第1のチャネルICH1による「ストリーム」の形でのデータ、および第2のチャネルICH2によるTCPタイプのメッセージまたはパケットの形でのデータの、受け取りに適用可能である。オペレーティング・システムOSでは、2つのTCPパケットと、それに続く「ストリーム」パケットが、それぞれ「a」、「b」、および「c」に等しいコンテンツを備えた3つの連続するメッセージM1、M2、M3として受け取られる。
これらをその作業負荷に従って受け取る場合、オペレーティング・システムOSは、チャネルICH1、ICH2内のこのデータを、それらのタイプに応じて処理および分配する。その実行中の所与の瞬間に、アプリケーションは、「select」ルーチンを呼び出して、メッセージ受け取りのために、異なるチャネルに対して読み取りオペレーションを開始する。
その標準的な実施において、「select」ルーチンは、第1のチャネルICH1内の、およびそれに続く第2のチャネルICH2内の、キューイング・データを読み取り、これを即時に、それらを読み取った順序でアプリケーションに転送する。
ここで、一方ではオペレーティング・システムOS内でデータが着信する速度、オペレーティング・システムによるその処理速度、および入力チャネル内でのその着信速度、ならびに他方では、一連の読み取りオペレーションのアプリケーションによる実行速度は、ロギングまたはリプレイの段階では予測できないようにそれぞれ異なる可能性がある。
図19に示された第1のシナリオSCAでは、アプリケーションは、2つの入力チャネルICH1、ICH2内に3つのメッセージがすでに着信しているため、第1の瞬間IAで「select」ルーチンによって多重化読み取りを開始する。「select」ルーチンはデータを読み取る場合、第1に、第1のチャネルICH1内に含まれる3番目のメッセージを読み取り、次に、第2のチャネルICH2内の最初の2つのメッセージM1、M2を読み取る。次に「select」ルーチンは、このデータを読み取り順に転送するため、読み取りオペレーションはデータ・セット「c、a、b」を含む結果を生成する。
図20に示された第2のシナリオSCBでは、アプリケーションは、第2の入力チャネルICH2内に最初の2つのメッセージしか着信していないため、第1の瞬間IBで「select」ルーチンによって多重化読み取りを開始する。「select」ルーチンはデータを読み取る場合、第2のチャネルICH2内の最初の2つのメッセージM1、M2のみを読み取り、このデータを読み取り順に、すなわちセット「a b」で、アプリケーションに転送する。次の読み取り時に、第3のメッセージM3が第1のチャネルICH1内に着信した後、「select」ルーチンはこの第3のメッセージを読み取り、これをアプリケーションに転送する。当該第2のシナリオSCBでは、オリジナルの「select」ルーチンによる読み取りオペレーションはデータ・セット「a、b、c」を含む結果を生成する。
これら2つの異なるシナリオSCA、SCBは、一方については「c、a、b」、他方については「a、b、c」という、異なる結果を戻す。ここで、「select」オペレーションを実施する標準システム・ルーチンは、マスタ・アプリケーションのロギングおよびリプレイ・アプリケーションのリプレイのために、アプリケーションの観点から非決定論的なイベントを実施する。
図19および図20と同じ状況について、図21は、オリジナルの「select」ルーチンの代わりに改定済み「selectM」ルーチンを使用することによって得られる、単一の結果を表す。
この例では、改定済みルーチンは、メッセージがオペレーティング・システムOS内に着信する順序を認識し、着信した順序でメッセージを読み取る。さらに、あいまいさのリスクを低減させるために、改定済みルーチンは毎回単一のファイル記述子のみを送信する。改定済みルーチンは、たとえば入力チャネルICH1、ICH2内のメッセージのコンテンツを検査することによって、またはロギングもしくはリプレイ・データから、メッセージが着信する順序に関する情報を取得することができる。
このようにして、これら2つの異なる着信シナリオSCA、SCBは、多重化読み取りオペレーションに単一の動作、結果として「a b c」に等しい3つの結果の単一セットを与える。
決定論的にするための標準の環境で、決定論的でなかった内部イベントの動作を実施するルーチンのオペレーション方法をこのように改定することにより、非決定論的イベントの数が削減されることが明らかである。この改定が、マスタ・アプリケーションでのロギング時と、再始動アプリケーションでのリプレイ時に、まったく同様に適用される場合、リプレイの完了時に、マスタ・アプリケーションの状態に対応する状態にあるか、当該マスタ・アプリケーションとの満足できるオペレーションの連続性を有する、再始動アプリケーションを取得可能にするためにロギングしなければならないイベントの数が削減される。
したがって、セマンティック変更によるこの最適化技法は、ロギングおよびリプレイ・オペレーションならびに中間アプリケーションの性能を向上させられることが明らかである。
実際、このセマンティック変更の技法が適用されるルーチンに従って、およびそれらに対して実行される改定の性質に従って、当該ルーチンにおける性能に、そのオリジナルの動作と比べてわずかな低下が発生する可能性がある。しかしながら、ロギング・オペレーションの速度低下を考えると、ロギングすることになるオペレーションの数に関して生じる節減により、中間アプリケーション内のマスタ・オペレーションの全体性能が大幅に向上できることになる。
この説明で、中間アプリケーションのメカニズムは、主に、オペレーション・ノードまたは2次ノードのユーザ・スペース内で実行されるプロセスまたはモジュールによって実施されることがわかる。これは特に、本明細書では、中間アプリケーションINT(図1)内で、符号「Plog」(図2)、「IPlogOP」および「IPlogSB」(図3)、「PlogOP」および「PlogSB」(図4)、「PRE」(図7)および「PRI」(図8)、「META」(図9)によって識別される、外部または内部の、ロギングまたはリプレイ・プロセスを意味する。
これとは対照的に、システム・スペース内で実行されるメカニズムは、とりわけ介入モジュール、またはアプリケーション・モジュールから管理される、機能を追加または改定するためのモジュールを備える。これは特に、本明細書では、符号「DISP」(図3)、および「ipfilter」(図7)によって識別されるモジュールを意味する。これらカーネル・モジュールのいくつかは、必要に応じて、アプリケーション・モジュールからロードまたはアンロードすることも可能である。
中間アプリケーションの実行および「存続(life)」がユーザ・スペース内で生じるという事実により、異なるノードのオペレーティング・システムとの対話を制限することができる。この特徴は、特に、配置および管理における柔軟性、オペレーティング・システムに対するある種の独立性、およびそれらの任意の異種混合性を提供し、タイプまたは解放の非互換性のリスクを制限し、関連しないノードのシステム・スペースにおいて、またはそれほどではなくとも当該中間アプリケーションの配置において、介入を制限することができる。このオペレーティング・システムに対する独立性は、システム・スペースの既存の要素への過大な介入を避けること、ならびに、これらのオペレーティング・システムおよびそれらを管理する組織のポリシーへの指定および変更に対するある種の商業的および技術的な独立性を維持することによって、開発時間およびコストを制限することもできる。
前述の中間アプリケーションは、ユーザまたはクラスタの管理者に、他のアプリケーションに関するサポートまたは管理サービスを提供するために、様々な方法で、および様々な組み合わせに従って、実施可能である。こうしたサービスは、特に、「ミドルウェア」のネットワーク・ソフトウェア製品の形で取得することが可能であり、クラスタにおける、オリジナル版(「レガシー」)の1つまたは複数のアプリケーションの管理、最適化、または信頼性の向上を可能にすると同時に、たとえばクラスタの性質に適合される、柔軟性または追加のセキュリティもしくは耐障害性の機能を提供する。
こうした中間アプリケーションの使用は、とりわけ、これらのアプリケーションによってクライアントに提供されるサービスを確保する形を取ることができる。したがって各アプリケーションは、マスタ・アプリケーションとして扱うこと、および、必要に応じてそのクライアントに対するマスタ・アプリケーションを置き換えるために、再始動アプリケーションの形で復元することが可能である。
所与のノードのすべてまたは一部で実行中のアプリケーションによって提供されるサービスは、オリジナルのノードを完全に解放することによって、動的にまたはオンデマンドで、1つまたは複数の他のノードに移行することもできる。したがって、保守、試行、アップグレード、または置換のいずれであっても、このノード上で望まれる、ハードウェアまたはソフトウェアによるすべての介入を実施することが可能となる。
こうした中間アプリケーションを使用して、特に、ネットワークにおける能力、可用性、またはその地理的状況、たとえばそのクライアントまたは使用されるデータからの遠隔性に従って、異なるハードウェアの使用を最適化するために、特に、異なるノード間で作業負荷を分散する(負荷平準化)ための機能を備える、「ミドルウェア」タイプの環境を実装することができる。
本発明はこれまで説明してきた例に限定されるものではなく、本発明の枠組みを逸脱することなく多数の改定が可能であることは明白である。
本発明を実施する中間アプリケーションの機能アーキテクチャを示す記号図である。 オペレーション・ノードにイベントをロギングするための機構を要約した記号図である。 オペレーション・ノードおよび2次ノード上のそのバックアップからの、外部イベントのロギングのオペレーションを示す、記号図である。 オペレーション・ノードおよび2次ノード上のそのバックアップからの、内部イベントのロギングのオペレーションを示す、記号図である。 一連の内部イベントからのロギング・データの集約伝送のためのメカニズムの、オペレーション・バージョンを示す図である。 一連の内部イベントからのロギング・データの集約伝送のためのメカニズムの、オペレーション・バージョンを示す図である。 2次ノードで再始動アプリケーションを更新する間の、被ロギング外部イベントのリプレイ機能を示す記号図である。 2次ノードで再始動アプリケーションを更新する間の、内部イベントのリプレイ機能を示す記号図である。 当該ルーチンの実行に補足命令を挿入するための、システム・ルーチンへの呼び出し時の介入技法の使用を示す記号図である。 ロギング時と同じ進行を取得するためにシステム・ルーチンへの補足命令の追加を使用する、2つの同時プロセスに関する内部イベントの進行を示す時間図である。 非決定論的イベントのみを処理するような内部イベントの、ロギング・オペレーションを示す図である。 非決定論的イベントのみを処理するような内部イベントの、リプレイ・オペレーションを示す図である。 ヒューリスティック圧縮による内部ロギングの最適化を示す図である。 ヒューリスティック圧縮解除による内部ロギングの最適化を示す図である。 オペレーション・ノード上のいくつかの同時プロセスにおける、2つの外部イベント間での内部イベントの異なるスケジューリング時の、ヒューリスティック圧縮による、非決定論的内部イベントのロギングの最適化の一例を示す記号図である。 オペレーション・ノード上のいくつかの同時プロセスにおける、2つの外部イベント間での内部イベントの異なるスケジューリング時の、ヒューリスティック圧縮による、非決定論的内部イベントのロギングの最適化の一例を示す記号図である。 「Unix(登録商標)」タイプのシステムにおける、「read」ルーチンによる読み取りオペレーションの非決定論を示す記号図である。 動的セマンティック変更によって決定論的となった、同じルーチンの一動作を示す記号図である。 「Unix(登録商標)」タイプのシステムにおける「select」および「poll」ルーチンによる、オペレーション・システムの2つの競合チャネルからのアプリケーションのデータ受け取りオペレーションの非決定論を示す、記号図である。 「Unix(登録商標)」タイプのシステムにおける「select」および「poll」ルーチンによる、オペレーション・システムの2つの競合チャネルからのアプリケーションのデータ受け取りオペレーションの非決定論を示す、記号図である。 動的セマンティック変更によって決定論的となった、同じルーチンの一動作を示す記号図である。 セマンティック変更によって使用される対話を示す図である。

Claims (20)

  1. 少なくとも1台のコンピュータ(OP、SB)によって実行され、被管理プロセス(P1、PB1)と呼ばれるアプリケーション・プロセスの実行中にプログラム命令によって開始される非決定論的ソフトウェア・オペレーション(EVInD)を管理するための方法であって
    前記オペレーションの実行により、実結果(DR、RRJ)と呼ばれる少なくとも1つの結果データが前記被管理プロセスに送信され、
    記オペレーション(EVInD)の前に前記被管理プロセスの状態またはそれが属するアプリケーション(AOP、ASB)の状態に基づいて、予測機能(FH)と呼ばれる決定論的ソフトウェア処理を実行して、前記オペレーションに対して前記実結果に対応する値を供給して予測結果(RP)を構成するステップと、
    予測結果(RP)の値が実結果(DR、RRJ)の値に対応するか否かを確定するための比較テスト・ステップと、
    先行するテストの結果に依存前記被管理プロセスに対するオペレーションの補足管理フェーズ(CH、DH)を実行するステップと、
    被ロギング(EVInD、図13)と呼ばれるオペレーションを管理して、1次ノード(OP)と呼ばれるコンピュータで実行される被ロギングプロセス(P1)の実行の一部を形成し、この管理が2次ノードによって実行されるリスタートプロセスをイネーブルするロギング・データの形式で被ロギング・オペレーションを記録して、前記被ロギング・オペレーションに対応する被リプレイと呼ばれるオペレーションをリプレイし、前記被ロギング・オペレーションの結果に対応する結果を前記リスタートプロセスに送信するステップとを、含み、
    補足管理フェーズ(CH)は、さらに、
    前記実結果(DR)が予測結果(RP)に対応しない場合に、予測されていないオペレーションと呼ばれるようになる前記被ロギング・オペレーション(EVlnD)の実結果(DR)の値を示す結果データを含むロギングデータを記憶し
    2次ノードと呼ばれるコンピュータで実行され、リスタートプロセス(PB1)の実行の一部を形成し被リプレイと呼ばれるシーケンスを管理し、ロギングデータ(JSem1)を用いて、非決定論的被リプレイ・オペレーションごとに、前記リスタートプロセスがロギングの間の戻された結果に対応し強制(RF)と呼ばれる結果を考慮するようにすることを含み
    補足管理フェーズ(DH)は、少なくともロギングデータがロギング結果を有しないオペレーション(EVinD)に対して、前記被リプレイ・オペレーションを示す順序付け値(SQ)をインクリメントすることを含む、方法。
  2. さらに、被ロギング(EVInD、図13)と呼ばれる被ロギング・オペレーションを管理して、1次ノード(OP)と呼ばれるコンピュータで実行されるロギングされたプロセス(P1)の実行の一部を形成し、2次ノードによって実行されるリスタートプロセスをイネーブルするロギング・データの形式で前記被ロギング・オペレーションを記録し、被ロギング・オペレーションに対応し被リプレイと呼ばれるオペレーションをリプレイして、前記被ロギング・オペレーションの結果に対応する結果を前記リスタートプロセスに送信し、
    前記補足管理のプロセスは、前記被ロギング・オペレーションに対して識別データを計算することを特徴とする請求項1に記載の方法。
  3. さらに、前記被ロギング・プロセスによって実行されるオペレーション被ロギングシーケンスを記録することを含み、
    前記シーケンスは、予測結果(RP)に対応しない実結果(DR)を、予測されていないと呼ばれる少なくとも1つの予測されていないオペレーション(EVID)に送信して前記リスタートプロセスをイネーブルする少なくとも1つのログファイル(JSem1)を記憶して、被ロギング・シーケンスのオペレーションに対応し被リプレイと呼ばれるシーケンスをリプレイし、
    前記ログファイルは、前記予測されていないオペレーションの被ロギング(DR)と呼ばれる実結果を示すデータを含み、前記データは前記予測されていないオペレーションに対応する被リプレイ・オペレーションの完了時に、リスタートプロセスが前記被ロギング結果に対応する結果を考慮の対象とするように使用可能であることを特徴とする請求項1に記載の方法。
  4. 前記予測される非決定論的被ロギング・オペレーション(EVInD)の実結果(DR)を表すロギング・データが、ログ(JSem1)に格納されることなく、少なくとも1つの予測される非決定論的オペレーションが被ロギング・プロセス・シーケンスのロギング時にロギングされることを特徴とする請求項1に記載の方法。
  5. 少なくとも1つの予測されていないオペレーション(EVInD)をロギングするために、ログ(JSem1)に格納されるロギング・データが、
    記予測されていないオペレーションに対応する順序付けデータの値(SQ)を表す識別データ、および
    記被ロギング・オペレーションによって送信された実結果を表す結果データ(DR)を含むことを特徴とする、請求項4に記載の方法。
  6. 少なくとも1つの被ロギング・シーケンスをログ(JSem1)記録し、この記録によって前記シーケンスに各被ロギング・オペレーションに対して少なくとも1タイプの非決定論的内部イベント(EVInD)を構成し、
    記オペレーションの前に、前記プロセス(P1)の状態またはそのアプリケーション(AOP)に基づいて決定論的ソフトウェア処理(FH)を行って、前記オペレーションに対して前記実結果に対応する値を供給して予測結果(RP)を供給するステップ(4)と、
    予測結果(RP)の値が実結果(DR)の値に対応するか否かを確定するための比較テスト・ステップ(5)と、
    予測されていない結果の場合、進行中のオペレーションに対応する順序付けデータ(SQ)の値、および、進行中のオペレーション(EVInD)によってロギングされたプロセスに送られる実結果の値を表す結果データ(DR)を、関連するようにロギング・データのログ(JSem1)に格納する(6)ステップとを有し
    これらステップを反復的繰り返すことを特徴とする、請求項2乃至5のいずれか一項に記載の方法。
  7. 2次ノード(SB)と呼ばれるコンピュータで実行され、リスタートプロセス(PB1)の実行の一部を形成するオペレーションについて被リプレイと呼ばれるシーケンスを管理し当該管理がロギング・データ(JSem1、図14)を用いて非決定論的被リプレイ・オペレーションごとに、ロギング時(JOP)に戻された結果に対応する強制(RF)と呼ばれる結果をリスタートプロセス考慮させ
    補足管理フェーズ(DH)は、ロギング時に少なくとも1つの予測されていない非決定論的オペレーション(EVInD)について、
    リプレイされているオペレーション(EVInD)に対応するオペレーションのロギング時に戻された結果を示し、被ロギング(RLi)と呼ばれる結果データの前記ロギング・データにおける読み取り(5)と、
    被リプレイ・オペレーションの結果(RRJ)のインターセプト、および被リプレイ・オペレーションから生じる結果(RRJ)に代わる強制された結果(RLi)のリスタートプロセス(PB1)への転送(8)と、
    を含むことを特徴とする、請求項1に記載の方法。
  8. 2次ノードと呼ばれるコンピュータで実行され、リスタートプロセス(PB1)の実行の一部を形成するオペレーションについて被リプレイと呼ばれるシーケンスを管理し当該管理がロギング・データ(JSem1)を用いて、非決定論的被リプレイ・オペレーションごとに、ロギング時に戻された結果に対応する強制(RF)と呼ばれる結果をリスタートプロセス考慮させ
    補足管理フェーズ(DH)は、ロギング時に予測された少なくとも1つの非決定論的オペレーションについて、
    前記オペレーションのロギングに用いられる予測機能に対応し、被リプレイ・オペレーションの予測結果(RP)を提供するリプレイ予測機能(FH)と呼ばれる決定論的ソフトウェア処理を実施するステップ(6)と、
    被リプレイ・オペレーションの結果(RRJ)をインターセプトし、被リプレイ・オペレーションから生じる結果(RRJ)に代わって予測結果(RP)をリプレイプロセスに転送するステップ(8)と、
    を含むことを特徴とする、請求項1乃至7のいずれか一項に記載の方法。
  9. 本質的に非決定論的であると識別されるすべてのオペレーションを管理するか、または本質的に非決定論的であると識別される結果を送信することを特徴とする、請求項3乃至8のいずれか一項に記載の方法。
  10. 被管理シーケンス内で、被管理プロセス(P1、PB1)、またはそのアプリケーション(AOP、ASB)、またはそれらを実行するコンピュータ(OP、SB)について、内部に非決定論的イベントを生成するすべてのオペレーションを管理することを特徴とする、請求項3乃至9のいずれか一項に記載の方法。
  11. 実行可能ファイル(EXE、図9)から実行された命令によって開始され、前記実行可能ファイルの外部にあるオリジナルと呼ばれるルーチン(R、RnD)への呼び出しを含む、少なくとも1つのオペレーション(EVInD)を管理し、前記命令の実行は、前記オリジナル・ルーチンではなく、被修正と呼ばれるルーチン(RM、RMnD)への呼び出しを実行し、この被修正ルーチンは、方法の実装を生成または開始することを特徴とする、請求項1乃至10のいずれか一項に記載の方法。
  12. 被修正ルーチン(RMnD)が、システム・ソフトウェア(OPS、SBS)内で実行される少なくとも1つの命令を含み、この命令が、少なくとも1つの管理ソフトウェア・エージェント(PlogOP、RPI)を呼び出し、この管理ソフトウェア・エージェントが、方法の実装を管理し、被管理プロセスのためにコンピュータのユーザ・メモリ・スペース(OPU、SBU)内で実行されることを特徴とする、請求項11に記載の方法。
  13. 被修正ルーチン(RMnD)は、ルーチンを呼び出した命令が、ロギングまたはリプレイのコンテキストで実行されるかどうかを検証するテスト命令を含み、このテストが、それぞれロギング・タイプ(PlogOP)またはリプレイ・タイプ(PRI)の管理エージェントへの呼び出しに影響を与えることを特徴とする、請求項11または12に記載の方法。
  14. 被管理プロセス(P1、PB1)の実行時に以前に発生した、少なくとも1タイプの1つまたは複数の外部イベントの特徴に依存する決定論的ソフトウェア・プロセスを含む、少なくとも1つの予測機能(FH)を使用することを特徴とする、請求項10乃至13のいずれか一項に記載の方法。
  15. 第1の予測機能を使用することによって少なくとも1つの第1のオペレーションを、また第2の予測機能を使用することによって第2のオペレーションを、ロギングすることを特徴とする、請求項3乃至14のいずれか一項に記載の方法。
  16. 決定論的選択または複数の所与の機能内での組み合わせによって選択された予測機能(FH)を使用することを特徴とする、請求項15に記載の方法。
  17. 使用される予測機能(FH)の選択が、被ロギング・プロセス(P1)の実行中に測定または計算された変数の変化に依存することを特徴とする、請求項15または16に記載の方法。
  18. 被ロギング(P1)と呼ばれる少なくとも1つのアプリケーション・プロセスの機能管理を実施し、
    リスタートと呼ばれる所与のポイントから、中断ポイントと呼ばれるポイントまでの、前記被ロギング・プロセスの実行時に発生した、少なくとも1つの所与のタイプのすべてのイベントをロギング(JOP)し、前記ロギングから発生するログ(UL、KL、JSem1)を格納するステップと、
    被ロギング・プロセスのリスタートポイント状態に対応する状態でリスタートプロセス(PB1)を開始し、前記リスタートプロセスによって前記格納したログであるジャーナルから前記イベントをリプレイ(RSB)し、リスタートプロセスを、中断ポイントでの被ロギング・プロセスの状態に対応する状態にするステップと、
    を含むことを特徴とする、請求項1乃至17のいずれか一項に記載の方法。
  19. 請求項1乃至18のいずれか一項に記載の方法の各ステップをコンピュータに実施させるプログラム。
  20. 少なくとも1台のコンピュータ(OP、SB)によって実行され、被管理プロセス(P1、PB1)と呼ばれるアプリケーション・プロセスの実行中にプログラム命令によって開始される非決定論的ソフトウェア・オペレーション(EVInD)を管理するためのシステムであって
    前記オペレーションの実行により、実結果(DR、RRJ)と呼ばれる少なくとも1つの結果データが前記被管理プロセスに送信され、
    記オペレーション(EVInD)の前に前記被管理プロセスの状態またはそれが属するアプリケーション(AOP、ASB)の状態に基づいて、予測機能(FH)と呼ばれる決定論的ソフトウェア処理を実行して、前記オペレーションに対して前記実結果に対応する値を供給して予測結果(RP)を構成する手段と、
    予測結果(RP)の値が実結果(DR、RRJ)の値に対応するか否かを確定するための比較テスト手段と、
    先行するテストの結果に依存前記被管理プロセスに対するオペレーションの補足管理フェーズ(CH、DH)を実行する手段と
    被ロギング(EVInD、図13)と呼ばれるオペレーションを管理して、1次ノード(OP)と呼ばれるコンピュータで実行される被ロギングプロセス(P1)の実行の一部を形成し、この管理が2次ノードによって実行されるリスタートプロセスをイネーブルするロギングデータの形式で被ロギング・オペレーションを記録して、前記被ロギング・オペレーションに対応する被リプレイと呼ばれるオペレーションをリプレイし、前記被ロギング・オペレーションの結果に対応する結果を前記リスタートプロセスに送信する手段とを、含み、
    補足管理フェーズ(CH)を実行する手段は、さらに、
    前記実結果(DR)が予測結果(RP)に対応しない場合に、予測されていないオペレーションと呼ばれるようになる前記被ロギング・オペレーション(EVlnD)の実結果(DR)の値を示す結果データを含むロギングデータを記憶し
    2次ノードと呼ばれるコンピュータで実行され、リスタートプロセス(PB1)の実行の一部を形成し被リプレイと呼ばれるシーケンスを管理し、ロギングデータ(JSem1)を用いて、非決定論的被リプレイ・オペレーションごとに、前記リスタートプロセスがロギングの間の戻された結果に対応し強制(RF)と呼ばれる結果を考慮するようにすることを含み
    補足管理フェーズ(DH)を実行する手段は、少なくともロギングデータがロギング結果を有しないオペレーション(EVinD)に対して、前記被リプレイ・オペレーションを示す順序付け値(SQ)をインクリメントすることを含む、システム。
JP2007551677A 2005-01-21 2006-01-20 アプリケーション・プロセス実行の範囲内での非決定論的オペレーションを管理、ロギング、またはリプレイするための予測方法 Expired - Fee Related JP5258019B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0500610A FR2881246B1 (fr) 2005-01-21 2005-01-21 Procede perdictif de gestion, de journalisation ou de rejeu d'operations non deterministes au sein du deroulement d'un processus applicatif
FR0500610 2005-01-21
PCT/EP2006/050339 WO2006077247A1 (en) 2005-01-21 2006-01-20 Predictive method for managing, logging or replaying non-deterministic operations within the execution of an application process

Publications (3)

Publication Number Publication Date
JP2008529112A JP2008529112A (ja) 2008-07-31
JP2008529112A5 JP2008529112A5 (ja) 2008-12-11
JP5258019B2 true JP5258019B2 (ja) 2013-08-07

Family

ID=34976322

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007551677A Expired - Fee Related JP5258019B2 (ja) 2005-01-21 2006-01-20 アプリケーション・プロセス実行の範囲内での非決定論的オペレーションを管理、ロギング、またはリプレイするための予測方法

Country Status (8)

Country Link
US (1) US8132190B2 (ja)
EP (1) EP1839152B1 (ja)
JP (1) JP5258019B2 (ja)
CN (1) CN101103337B (ja)
AT (1) ATE409908T1 (ja)
DE (1) DE602006002957D1 (ja)
FR (1) FR2881246B1 (ja)
WO (1) WO2006077247A1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2882448B1 (fr) * 2005-01-21 2007-05-04 Meiosys Soc Par Actions Simpli Procede de gestion, de journalisation ou de rejeu du deroulement d'un processus applicatif
US20070174695A1 (en) 2006-01-18 2007-07-26 Srinidhi Varadarajan Log-based rollback-recovery
US8752065B2 (en) * 2007-05-31 2014-06-10 Red Hat, Inc. Rules engine for a persistent message store
US7788542B2 (en) * 2007-05-31 2010-08-31 Red Hat, Inc. Debugging in a distributed system
US7937497B2 (en) * 2007-05-31 2011-05-03 Red Hat, Inc. Apparatus for selectively copying at least portions of messages in a distributed computing system
US9928071B1 (en) * 2008-05-02 2018-03-27 Azul Systems, Inc. Enhanced managed runtime environments that support deterministic record and replay
JP2010072854A (ja) * 2008-09-17 2010-04-02 Canon Inc 情報処理装置の支援装置、支援方法、およびコンピュータプログラム
US8499297B2 (en) * 2008-10-28 2013-07-30 Vmware, Inc. Low overhead fault tolerance through hybrid checkpointing and replay
US8135912B2 (en) 2009-05-18 2012-03-13 Hola Networks, Ltd. System and method of increasing cache size
US8560604B2 (en) 2009-10-08 2013-10-15 Hola Networks Ltd. System and method for providing faster and more efficient data communication
US8250405B2 (en) * 2010-05-27 2012-08-21 International Business Machines Corporation Accelerating recovery in MPI environments
CN102377586B (zh) * 2010-08-16 2014-12-10 研祥智能科技股份有限公司 一种网络旁路装置及其处理网络旁路的方法
US20120131559A1 (en) * 2010-11-22 2012-05-24 Microsoft Corporation Automatic Program Partition For Targeted Replay
US9740562B2 (en) * 2010-12-20 2017-08-22 Microsoft Technology Licensing, Llc Method for checkpointing and restoring program state
GB2492320B (en) * 2011-06-21 2020-03-25 Metaswitch Networks Ltd Process recovery method and system
US9923787B2 (en) * 2012-04-27 2018-03-20 International Business Machines Corporation Network configuration predictive analytics engine
US9317297B2 (en) * 2012-09-27 2016-04-19 Intel Corporation Replay execution of instructions in thread chunks in the chunk order recorded during previous execution
US9129058B2 (en) 2013-02-19 2015-09-08 Microsoft Technology Licensing, Llc Application monitoring through continuous record and replay
US9241044B2 (en) 2013-08-28 2016-01-19 Hola Networks, Ltd. System and method for improving internet communication by using intermediate nodes
US9098359B2 (en) * 2013-10-10 2015-08-04 Microsoft Technology Licensing, Llc Durable execution of long running applications
US10007592B2 (en) * 2013-10-22 2018-06-26 Purdue Research Foundation Debugging non-deterministic embedded systems
CN104461521B (zh) * 2014-11-26 2018-11-13 北京航空航天大学 一种应用程序重放方法及系统
US10713594B2 (en) 2015-03-20 2020-07-14 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing machine learning model training and deployment with a rollback mechanism
US9135559B1 (en) * 2015-03-20 2015-09-15 TappingStone Inc. Methods and systems for predictive engine evaluation, tuning, and replay of engine performance
US9886363B2 (en) 2015-03-27 2018-02-06 International Business Machines Corporation Identification of storage performance shortfalls
EP3121724A1 (en) * 2015-07-24 2017-01-25 Thomson Licensing Method for monitoring a software program and corresponding electronic device, communication system, computer readable program product and computer readable storage medium
US9858151B1 (en) 2016-10-03 2018-01-02 International Business Machines Corporation Replaying processing of a restarted application
CN109964207B (zh) * 2016-11-11 2022-09-27 微软技术许可有限责任公司 用于时间旅行调试和分析的计算机系统、计算机系统处实施的方法和硬件存储设备
US10318332B2 (en) 2017-04-01 2019-06-11 Microsoft Technology Licensing, Llc Virtual machine execution tracing
JP6988178B2 (ja) * 2017-06-14 2022-01-05 富士通株式会社 情報処理装置、ログ管理プログラム及びログ管理方法
US11190374B2 (en) 2017-08-28 2021-11-30 Bright Data Ltd. System and method for improving content fetching by selecting tunnel devices
LT3805958T (lt) 2017-08-28 2024-03-12 Bright Data Ltd. Būdas pagerinti turinio parsisiuntimą, pasirenkant tunelinius įrenginius
US11907091B2 (en) 2018-02-16 2024-02-20 Microsoft Technology Licensing, Llc Trace recording by logging influxes to an upper-layer shared cache, plus cache coherence protocol transitions among lower-layer caches
EP4177771A1 (en) 2019-02-25 2023-05-10 Bright Data Ltd. System and method for url fetching retry mechanism
EP4030318A1 (en) 2019-04-02 2022-07-20 Bright Data Ltd. System and method for managing non-direct url fetching service

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5363503A (en) * 1992-01-22 1994-11-08 Unisys Corporation Fault tolerant computer system with provision for handling external events
US5802272A (en) * 1994-12-19 1998-09-01 Digital Equipment Corporation Method and apparatus for tracing unpredictable execution flows in a trace buffer of a high-speed computer system
JPH0950365A (ja) * 1995-08-10 1997-02-18 Oki Electric Ind Co Ltd 命令履歴の符号化装置
GB9601584D0 (en) * 1996-01-26 1996-03-27 Hewlett Packard Co Fault-tolerant processing method
US5978912A (en) * 1997-03-20 1999-11-02 Phoenix Technologies Limited Network enhanced BIOS enabling remote management of a computer without a functioning operating system
US6182086B1 (en) * 1998-03-02 2001-01-30 Microsoft Corporation Client-server computer system with application recovery of server applications and client applications
US6732307B1 (en) * 1999-10-01 2004-05-04 Hitachi, Ltd. Apparatus and method for storing trace information
WO2002099573A2 (en) * 2001-06-04 2002-12-12 Sentiat Technologies, Inc. System and process for constructing and analyzing profiles for an application
AU2002327599A1 (en) * 2001-08-29 2003-03-18 Analog Devices, Inc. Generic serial port architecture and system
US6944788B2 (en) * 2002-03-12 2005-09-13 Sun Microsystems, Inc. System and method for enabling failover for an application server cluster
US6986076B1 (en) * 2002-05-28 2006-01-10 Unisys Corporation Proactive method for ensuring availability in a clustered system
JP4125169B2 (ja) * 2003-04-02 2008-07-30 キヤノン株式会社 ログ取得方法
US7415597B2 (en) * 2004-09-08 2008-08-19 Advanced Micro Devices, Inc. Processor with dependence mechanism to predict whether a load is dependent on older store

Also Published As

Publication number Publication date
US20080086730A1 (en) 2008-04-10
ATE409908T1 (de) 2008-10-15
CN101103337A (zh) 2008-01-09
DE602006002957D1 (de) 2008-11-13
FR2881246B1 (fr) 2007-03-23
CN101103337B (zh) 2011-11-23
EP1839152A1 (en) 2007-10-03
US8132190B2 (en) 2012-03-06
FR2881246A1 (fr) 2006-07-28
JP2008529112A (ja) 2008-07-31
EP1839152B1 (en) 2008-10-01
WO2006077247A1 (en) 2006-07-27

Similar Documents

Publication Publication Date Title
JP5258019B2 (ja) アプリケーション・プロセス実行の範囲内での非決定論的オペレーションを管理、ロギング、またはリプレイするための予測方法
JP5519909B2 (ja) アプリケーション・プロセスにおいて内部イベントをリプレイするための非侵入的方法およびこの方法を実装するシステム
US7613597B2 (en) Non-intrusive method for simulation or replay of external events related to an application process, and a system implementing said method
US8904361B2 (en) Non-intrusive method for logging of internal events within an application process, and system implementing this method
US8539434B2 (en) Method for the management, logging or replay of the execution of an application process
US7568131B2 (en) Non-intrusive method for logging external events related to an application process, and a system implementing said method
Scales et al. The design of a practical system for fault-tolerant virtual machines
JP5373770B2 (ja) 分散型、耐障害性、および高可用性を達成するための決定性コンピューティング・システム、方法、およびプログラム・ストレージ・デバイス(分散型、耐障害性、および高可用性のコンピューティング・システム)
US8370841B2 (en) Optimizing deterministic event record and replay operations
JP5102634B2 (ja) 決定的イベント・シーケンスのロギングおよび再生のための命令をカウントする方法
US7840940B2 (en) Semantic management method for logging or replaying non-deterministic operations within the execution of an application process
JP4866864B2 (ja) マルチ・プロセッサ環境において共有されるリソースへのアクセスを管理する方法およびプログラム
US7536587B2 (en) Method for the acceleration of the transmission of logging data in a multi-computer environment and system using this method
Goldstein et al. Ambrosia: Providing performant virtual resiliency for distributed applications
Rezaei et al. Snapify: Capturing snapshots of offload applications on xeon phi manycore processors
Jayaram et al. FfDL: A flexible multi-tenant deep learning platform
US7533296B2 (en) Method for optimizing the transmission of logging data in a multi-computer environment and a system implementing this method
Scales et al. The design and evaluation of a practical system for fault-tolerant virtual machines
Ghemawat et al. Towards modern development of cloud applications
Cooper Pilgrim: A debugger for distributed systems
Tardieu et al. Reliable actors with retry orchestration
Sadi et al. Communication-aware approaches for transparent checkpointing in cloud computing
Ma Mitigating Distributed Configuration Errors in Cloud Systems
Beck et al. Event Filter Summary Document
Raza Can silhouette execution mitigate VM boot storms?

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081014

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120209

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20120209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121204

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20130403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130417

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130419

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160502

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees