JP4112319B2 - Process restart method, process restart device, and process restart program - Google Patents

Process restart method, process restart device, and process restart program Download PDF

Info

Publication number
JP4112319B2
JP4112319B2 JP2002261260A JP2002261260A JP4112319B2 JP 4112319 B2 JP4112319 B2 JP 4112319B2 JP 2002261260 A JP2002261260 A JP 2002261260A JP 2002261260 A JP2002261260 A JP 2002261260A JP 4112319 B2 JP4112319 B2 JP 4112319B2
Authority
JP
Japan
Prior art keywords
group information
server
processes
group
restarted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002261260A
Other languages
Japanese (ja)
Other versions
JP2004102492A (en
Inventor
伸宏 木村
光 瀬社家
一樹 渡辺
隆弘 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Nippon Telegraph and Telephone Corp
Original Assignee
Fujitsu Ltd
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, Nippon Telegraph and Telephone Corp filed Critical Fujitsu Ltd
Priority to JP2002261260A priority Critical patent/JP4112319B2/en
Publication of JP2004102492A publication Critical patent/JP2004102492A/en
Application granted granted Critical
Publication of JP4112319B2 publication Critical patent/JP4112319B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、複数サーバ上で複数のプロセスが連携して複数の業務を実行するシステムにおける、プロセスおよびサーバ故障の再開(および復旧)処理を行うプロセス再開方法プロセス再開装置プロセス再開プログラムに関する。
【0002】
【従来の技術】
従来のサーバ再開機能は、単独サーバ再開の次のフェーズとしては、全サーバの再開になってしまい、その中断時間の影響からくるシステム全体への影響が懸念された。また、プロセスの実行管理についても、故障検出時に該当プロセスを再起動する、または、サーバ故障時に該当サーバ上のプロセスを他サーバで再起動するなどの手法が採られていた。これらの方式では、再起動したプロセスの初期化処理は実行されるが、関連プロセスの初期化処理が実行されず、また、他サーバヘの再起動を行うにしても、詳細な設定が行えないため、プロセス間の不整合が発生することが懸念される。その結果、システム全体の整合性が崩れ、事象を回避するためにシステム全体を再開させることになり、中断時間の増加に結びつくことが懸念される。
なお、従来技術において、直接的に本願発明を示す文献は、発見されなかったので明示することができない。
【0003】
【発明が解決しようとする課題】
上述したように、従来のサーバ再開方法では、あるサーバの再開により他サーバの再開も余儀なくされている。その具体例を図15に示す。ユーザが、特定のサーバSV−1,SV−2を再開させたい場合、サーバSV−1,SV−2に対する他のサーバSV−3,SV−4,SV−5の運用上の関係を考慮すると、システム全体を再開し、サーバSV−1,SV−2と他のサーバSV−3,SV−4,SV−5との整合を行うしかない。
【0004】
また、あるプロセス故障によって、システム全体の整合性が崩れ、その事象を回避するためにシステム全体の再開を余儀なくされている。その具体例を図16ないし図18に示す。まず、図16において、プロセス(A)とプロセス(B)とは、機能的に関連したプロセスであり、それぞれを運用するためには、互いの運用が必須条件であるとする。一方のプロセスが故障再起動してしまうと、様々な矛盾からくる障害が発生するため、他方のプロセスの再起動も必要となる。これを実現するためには、システム再開を行うしかない。
【0005】
次に、図17において、プロセス(C)は、他の市販アプリケーションと機能的に関連したプロセスであり、該市販アプリケーション10の運用が、システムの運用を行う上での必須条件であるとする。市販アプリケーション10に障害が発生すると、市販アプリケーション10については実行管理を行うことができないので、システム再開を行うしかない。
【0006】
次に、図18において、プロセス(A),プロセス(B),プロセス(C),プロセス(D)は、機能的に関連したプロセスであり、それぞれを運用するためには、互いの運用が必須条件であるとする。一方のサーバSV−1の再開が発生した場合、プロセス(A)、プロセス(B)の再開が行われるため、様々な矛盾からくる障害発生を考慮すると、サーバSV−2側のプロセス(C),プロセス(D)の再起動も必要となる。これを実現するためには、サーバSV−2も再開するしかない。
【0007】
次に、サーバ故障時の起動プロセスの救済方式についてだが、詳細な排他制御設定が行えず、該当プロセスの救済起動が行えないため、これもまた、システム全体の再開を余儀なくさせている。その具体例を図19に示す。図19において、プロセス(A),プロセス(B)は、それぞれの運用上、同一サーバでの起動が不可能な関係であるとする。サーバSV−1の再開が発生した場合、同サーバSV−1にて起動されていたプロセス(A)について、サーバSV−2への救済起動は、プロセス(B)の起動により、不可能であるが、サーバSV−3への起動は、論理的には可能である。しかしながら、プロセスおよびサーバ単位での詳細な排他設定が行えないため、プロセス(A)を救済起動できない。
【0008】
従来のサーバ再開方法では、これら3つの事象は、いずれにおいても、システム運用中断時間を長引かせるという問題がある。
【0009】
この発明は上述した事情に鑑みてなされたもので、一部の故障がシステム全体の再開(中断)に発展することを抑止することができ、システム全体としての中断時間を短縮することができるプロセス再開方法プロセス再開装置プロセス再開プログラムを提供することを目的とする。
【0010】
【課題を解決するための手段】
上述した問題点を解決するために、本発明は、複数のサーバで起動される複数のプロセスが連携して構築されている管理対象システムのプロセス再開方法において、前記複数のプロセスの各々に対して、故障したプロセスとの整合性を保障するために当該故障したプロセスと同時に再起動される他のプロセスと当該故障したプロセスとを含む予め定められるグループの中で当該プロセスを含む再起動プロセス数が最小となるグループプロセス名、グループ番号、プロセスが動作するサーバ名からなるプロセスグループ情報として定義し、いずれかのプロセスが障害で故障した際に、前記プロセスグループ情報に基づいて、再開するプロセス群を特定して前記複数のサーバのそれぞれに特定したプロセス群に含まれる該当プロセスのみの再開をさせること特徴とする。
【0011】
また、本発明は、上記に記載の発明において、一方のプロセスグループ情報と他方のプロセスグループ情報について、前記一方のプロセスグループ情報が、前記他方のプロセスグループ情報に定義されるプロセスを全て包含する包含関係を有する場合、前記他方のプロセスグループ情報に定義されるプロセスが障害で故障した場合は、当該他方のプロセスグループ情報内のプロセスのみを再起動し、前記一方のプロセスグループ情報にのみ定義されるプロセスが障害で故障した場合は、当該一方のプロセスグループ情報に定義される全てのプロセスを再起動することを特徴とする。
【0012】
また、本発明は、上記に記載の発明において、前記複数のプロセスのうち少なくとも1つ以上が市販アプリケーションであり、かつ少なくとも1つ以上が前記市販アプリケーションとの連携を前提として開発された独自プロセスである前記複数のプロセスの各々をプロセスグループ情報として定義することを特徴とする。
【0017】
また、上述した問題点を解決するために、本発明は、複数のサーバで起動される複数のプロセスが連携して構築されている管理対象システムのプロセス再開装置において、前記複数のプロセスの各々に対して、故障したプロセスとの整合性を保障するために当該故障したプロセスと同時に再起動される他のプロセスと当該故障したプロセスとを含む予め定められるグループの中で当該プロセスを含む再開起動プロセス数が最小となるグループプロセス名、グループ番号、プロセスが動作するサーバ名からなるプロセスグループ情報として記憶するプロセスグループ情報記憶手段と、いずれかのプロセスが障害で故障した際に、前記プロセスグループ情報記憶手段のプロセスグループ情報に基づいて、再開するプロセス群を特定して前記複数のサーバのそれぞれに特定したプロセス群に含まれる該当プロセスのみの再開をさせる再開プロセス特定手段とを具備することを特徴とする。
【0018】
また、本発明は、上記に記載の発明において、一方のプロセスグループ情報と他方のプロセスグループ情報について、前記プロセスグループ情報記憶手段が記憶する前記一方のプロセスグループ情報が、前記他方のプロセスグループ情報に定義されるプロセスを全て包含する包含関係を有する場合、前記再開プロセス特定手段は、前記他方のプロセスグループ情報に定義されるプロセスが障害で故障した場合には、当該他方のプロセスグループ情報内のプロセスのみを再起動し、前記一方のプロセスグループ情報にのみ定義されるプロセスが障害で故障した場合には、当該一方のプロセスグループ情報に定義される全てのプロセスを再起動することを特徴とする。
【0019】
また、本発明は、上記に記載の発明において、前記プロセスグループ情報記憶手段は、前記複数のプロセスのうち少なくとも1つ以上が市販アプリケーションであり、かつ少なくとも1つ以上が前記市販アプリケーションとの連携を前提として開発された独自プロセスである前記複数のプロセスの各々を含むことが定義された前記プロセスグループ情報を記憶することを特徴とする。
【0023】
また、上述した問題点を解決するために、本発明は、複数のサーバで起動され、管理対象システムを構築している複数のプロセスの各々に対して、故障したプロセスとの整合性を保障するために当該故障したプロセスと同時に再起動される他のプロセスと当該故障したプロセスとを含む予め定められるグループの中で当該プロセスを含む再開起動プロセス数が最小となるグループプロセス名、グループ番号、プロセスが動作するサーバ名からなるプロセスグループ情報として定義するステップと、いずれかのプロセスが障害で故障した際に、前記プロセスグループ情報に基づいて、再開するプロセス群を特定して前記複数のサーバのそれぞれに特定したプロセス群に含まれる該当プロセスのみの再開をさせるステップとをコンピュータに実行させることを特徴とする。
【0024】
また、本発明は、上記に記載の発明において、一方のプロセスグループ情報と他方のプロセスグループ情報について、前記一方のプロセスグループ情報が、前記他方のプロセスグループ情報に定義されるプロセスを全て包含する包含関係を有するプロセスグループ情報を定義するステップと、前記他方のプロセスグループ情報に定義されるプロセスが障害で故障した場合には、当該他方のプロセスグループ情報内のプロセスのみを再起動し、前記一方のプロセスグループ情報にのみ定義されるプロセスが障害で故障した場合には、当該一方のプロセスグループ情報に定義される全てのプロセスを再起動するステップとをコンピュータに実行させることを特徴とする。
【0028】
この発明では、複数のプロセスの各々に対して、故障したプロセスとの整合性を保障するために当該故障したプロセスと同時に再起動が必要な他のプロセスをプロセスグループ情報として定義し、いずれかのプロセスが障害で故障した際に、前記プロセスグループ情報に基づいて、再開するプロセス群を特定する。したがって、必要最低限範囲でのサーバ再開を実現、またプロセス故障発生時の影響範囲を局所化させ、グループ単位での整合性を担保すること、そして、プロセス間の関係を考慮した排他制御によるプロセス救済により、一部の故障がシステム全体の再開(中断)に発展することを抑止し、システム全体としての中断時間を短縮させることが可能となる。
【0029】
【発明の実施の形態】
以下、図面を用いて本発明の実施の形態を説明する。
A.実施形態の構成
図1は、本発明の実施形態によるサーバプロセス管理システムの構成を示すブロック図である。図1において、サーバプロセス管理システムは、サーバSV−1,SV−2,SV−3を具備する。サーバSV−1は、プロセスA,プロセスB(市販アプリケーション)、プロセスC(市販アプリケーション)および管理プロセスXを起動する。サーバSV−2は、プロセスD,プロセスEおよび管理プロセスYを起動する。サーバSV−3は、プロセスF,プロセスGおよび管理プロセスZを起動する。
【0030】
また、プロセスAおよびプロセスBは、プロセスグループPG1を構成する。また、プロセスC,プロセスD,プロセスEおよびプロセスFは、プロセスグループPG2を構成する。なお、プロセスグループとは、起動管理を行うプロセスにおいて、運用上、関係のあるプロセス群を、1つのグループとして見立てたものである。プロセスグループの適用範囲は、1つのサーバ内に閉じたものではなく、システムを構成する全てのサーバ間で有効である。また、本発明の機能は、自作プロセスに限ったものではなく、市販アプリケーションについても有効である。
【0031】
本実施形態によるサーバプロセス管理システムは、図2ないし図4に示す構成の条件ファイルを具備する。図2は、起動プロセス管理ファイル20の構成を示す概念図である。図3は、システム構成管理ファイル21の構成を示す概念図である。さらに、図4は、排他制御管理ファイル22の構成を示す概念図である。
【0032】
図2、図3に示す、起動プロセス管理ファイル20およびシステム構成管理ファイル21において、サーバ/プロセスグループ設定を行うには、各々、管理ファイルに事前に登録する。運用上管理が必要なサーバ/プロセス分、設定を行うこととし、各レコードの項目の中にグループ番号を設定する項目を設けている。管理プロセスは、これら設定内容に従って、各プロセスのグルーピング判断を行う。なお、1つのグループの設定数には上限がない。グループ番号に「0」が設定されていた場合、そのプロセスおよびサーバについては、グルーピング未設定と判断する。
【0033】
また、図4において、プロセスの救済起動に関する排他制御の設定を行うには、排他制御管理ファイル22に事前に登録する。設定方法については次の4パターンがある。1.サーバグループ単位での排他設定、2.サーバ単位での排他設定、3.プロセスグループ単位での排他設定、4.プロセス単位での排他設定である。いずれの設定であるかの識別子を設定し、その上に、各々、排他制御を設定する対象名、被対象名を設定する項目を設けている。管理プロセスは、これらの設定内容に従って、排他制御の有無を判断する。なお、設定数に上限はない。また、排他設定対象名/被対象名については、同一名で複数項目の設定も可能である。
【0034】
以下により詳細に説明する。本実施形態では、管理対象サーバ(群)において起動されているプロセスに関して、任意のプロセスが故障したときに当該プロセスとの整合性を保障するために当該プロセスと同時に再起動が必要な他のプロセスを管理対象サーバ(群)の運用前に抽出し、抽出した複数のプロセスをまとめでプロセスグループと定義する。なお、プロセスグループを定義する際、包含関係をもつプロセスグループは定義してよいが、一部のプロセスのみを共有するプロセスグループは定義しない。
【0035】
さらに、起動プロセス、当該起動プロセスが属する上記プロセスグループ、当該起動プロセスが起動しているサーバの少なくとも3つの情報を構成要素とする起動プロセス管理ファイル20も同様に、管理対象サーバ(群)の運用前に作成する。
【0036】
なお、包含関係をもつプロセスグループが定義されている場合、起動プロセスの属するプロセスグループが複数定義され得る。例えば、プロセスグループ間の包含関係(例えば、「プロセスグループαはプロセスグループβとプロセスグループνを包含する」)の情報と、各起動プロセスに対応するプロセスグループとして当該起動プロセスを含む起動プロセス数最小のプロセスグループ情報との2種類の情報を定義する。あるいは、各起動プロセスに対応した情報として、当該起動プロセスを含む起動プロセス数最小のプロセスグループ情報と、当該起動プロセスが含まれる前記以外の全てのプロセスグループ情報との2種類の情報を定義する。
【0037】
管理対象サーバを管理する管理プロセスは、任意のプロセスが故障した際に、上記起動プロセス管理ファイル20を参照することにより、再開起動プロセス数が最小となるように、上述した情報を用いて再開範囲を特定し「関連プロセスを含むグループ再開」の処理を実現する。
なお、一方のプロセスグループ情報に他方のプロセスグループ情報を含むとき、他方のプロセスグループ情報に含まれるプロセスが障害で故障した場合は、他方のプロセスグループ情報内のプロセスのみを再起動し、一方のプロセスグループ情報にのみ含まれるプロセスが障害で故障した場合は、他方のプロセスグループ情報を含む一方のプロセスグループ情報に属する全てのプロセスを再起動する。
【0038】
また、起動プロセスのみならず、任意の管理対象サーバそのものが再開した際にも、管理プロセスは、上記起動プロセス管理ファイル20を参照することにより、再開起動プロセス数が最小となるように、上述した情報を用いて再開範囲を特定し「関連プロセスを含むグループ再開」の処理を実現する。
【0039】
また、本実施形態では、管理対象サーバ(群)における起動プロセス群と同様に、管理対象サーバそのものに対してもシステム運用条件に合わせて、任意の管理対象サーバが故障したときに当該管理対象サーバとの整合性を保障するために当該管越対象サーバと同時に再起動が必要な他の管理対象サーバを管理対象サーバ(群)の運用前に抽出し、抽出した複数の管理対象サーバをまとめてサーバグループと定義する。なお、サーバグループを定義する際、包含関係をもつサーバグループは特定してよいが、一部の管理対象サーバのみを共有するサーバグループは定義しない。
【0040】
さらに、管理対象サーバ、当該管理対象サーバが属する上記サーバグループの少なくとも2つの情報を構成要素とするシステム構成管理ファイル21も同様に、管理対象サーバ(群)の運用前に作成する。
【0041】
なお、包含関係をもつサーバグループが定義されている場合、管理対象サーバの属するサーバグループが複数定義され得る。例えば、サーバグループ間の包含関係(例えば、「サーバグループαはサーバグループβとサーバグループを包含する」)の情報と、各管理対象サーバに対応するサーバグループとして当該管理対象サーバを含む管理対象サーバ数最小のサーバグループ情報との2種類の情報を定義する。あるいは、各管理対象サーバに対応した情報として、当該管理対象サーバを含む管理対象サーバ数最小のサーバグループ情報と、当該管理対象サーバが含まれる前記以外の全てのサーバグループ情報との2種類の情報を定義する。
【0042】
管理対象サーバを管理する管理プロセスは、任意の管理対象サーバが故障した際に、上記システム構成管理ファイル21を参照することにより、再開管理対象サーバ数が最小となるように、上述した情報を用いて再開範囲を特定し「サーバグループ再開」の処理を実現する。
なお、一方のサーバグループ情報に他方のサーバグループ情報を含むとき、他方のサーバグループ情報に含まれるサーバが障害で故障した場合は、他方のサーバグループ情報内のサーバのみを再起動し、一方のサーバグループ情報にのみ含まれるサーバが障害で故障した場合は、他方のサーバグループ情報を含む一方のサーバグループ情報に属する全てのサーバを再起動する。
【0043】
また、本実施形態では、任意の管理対象サーバもしくは起動プロセスの再開が行えない場合の、起動プロセス救済起動については、サーバグループ、サーバ、プロセスグループ、プロセスの少なくとも4つのパターンに関して、任意のサーバグループに属する管理対象サーバの起動プロセスは、同一サーバ上に起動されることが許容不可なプロセス、サーバ、プロセスグループ、サーバグループの関係を示す排他条件を、管理対象サーバ(群)の運用前に抽出し、排他制御管理ファイル22として作成する。
【0044】
排他条件としては、全て起動することができないサーバグループを特定するためのサーバグループの排他条件、任意の管理対象サーバの起動プロセスは全て起動することができない管理対象サーバを特定するためのサーバ排他条件、任意のプロセスグループに属する起動プロセスと同一管理対象サーバ上では起動することができないプロセスグループを特定するためのプロセスグループの排他条件、任意のプロセスと同一管理対象サーバ上では起動することができないプロセスを特定するためのプロセス排他条件がある。
【0045】
運用継統中の管理プロセスは、管理対象サーバ故障発生時に、上記排他制御管理ファイル22を参照することで、各管理対象サーバにて救済可能な起動プロセスを特定し、起動プロセスの救済起動処理を実現する。
【0046】
B.実施形態の動作
次に、本実施形態によるサーバプロセス管理システムの動作について説明する。まず、図5および図6は、グループ再開方法(グループプロセス再開発生時)の具体的な動作原理を説明するための概念図である。図5および図6では、プロセスDが故障した場合の各サーバの処理概要が示されている。
【0047】
まず、始めにサーバSV−2上の動作概要を、図5を参照して説明する。サーバSV−2上の管理プロセスYは、プロセスDの故障を検出し、起動プロセス管理ファイル20の参照を行う(Sa1)。プロセスDは、プロセスグループPG2に属するため、プロセスグループPG2に定義されているプロセスが起動するサーバであるサーバSV−1とサーバSV−3とにプロセスグループPG2の再起動要求を行う(Sa2)。そして、他サーバヘの再起動要求と同時に自サーバ内のプロセスグループPG2に定義されているプロセスEの再起動を行う(Sa3)。
【0048】
次に、サーバSV−1の動作概要を、図6を参照して説明する。サーバSV−1上の管理プロセスXは、サーバSV−2からのプロセスグループPG2の再起動要求を受信すると、自サーバ上で動作するプロセスグループPG2のプロセスを起動プロセス管理ファイル20から抽出し(Sb1)、プロセスグループPG2に属するプロセスCの再起動を行う(Sb2)。同様に、サーバSV−3においても、プロセスグループPG2に該当するプロセスの再起動を行う。
【0049】
次に、サーバSV−1の再開時のサーバSV−2における処理概要を説明する。ここで、図7および図8は、グループ再開方法(サーバ再開発生時)の具体的な動作原理を説明するための概念図である。
【0050】
まず、サーバSV−1の動作概要を、図7を参照して説明する。プロセスの故障等によりサーバSV−1の再開を実施した場合、各サーバへサーバSV−1の再開通知を行った後、自サーバの再開を行う。再起動時、起動プロセス管理ファイル20の参照を行い(Sc1)、自サーバに起動するプロセスA、プロセスB、プロセスCを起動する(Sc2)。
【0051】
次に、サーバSV−2の処理概要を、図8を参照して説明する。サーバSV−1からサーバの再開通知を受信後、起動プロセス管理ファイル20の参照を行い(Sd1)、サーバSV−1上で動作しているプロセスグループPG1、プロセスグループPG2が自サーバ上で動作しているかチェックを行う。そこでグループPG2が対象となるため、プロセスグループPG2内のプロセスD、プロセスEの再開を行う(Sd2)。同様に、サーバSV−3においても、プロセスグループPG1、プロセスグループPG2に該当するプロセスの再起動を行う。
【0052】
次に、図9は、サーバ種別(APLサーバ、WWWサーバ、DBサーバ等)とサーバグループとの構成例を示すブロック図である。図において、サーバグループとは、システムを構成する各サーバについて、運用上、関係のあるサーバ群を、1つのグループに見立てたものである。サーバグループSG1は、APLサーバSV−1およびWWWサーバSV−2から構成されている。サーバグループSG2は、APLサーバSV−3、APLサーバSV−4、ネーミングサーバSV−5から構成されている。なお、種類(種別)の異なるサーバは、同一のグループへ設定することも有効である。
【0053】
次に、図10および図11は、本実施形態によるサーバグループ再開方法の具体的な動作原理を説明するための概念図である。まず、保守者などからサーバグループSG1の再開要求を受信したサーバSV−1の処理概要を、図10を参照して説明する。サーバSV−1の管理プロセスは、サーバグループSG1の再開要求を受信後、システム構成管理ファイル21の参照を行う(Se1)。サーバSV−1は、他サーバSV−2ヘのサーバグループSG1の再開通知も行うとともに(Se2)、自身もサーバグループSG1であるので再開を実施する(Se3)。
【0054】
次に、サーバSV−2のサーバグループ再開の処理概要を、図11を参照して説明する。サーバSV−1との処理の違いは、要求元が保守者か他サーバかの違いのみであり、サーバグループSG1の再開要求を受信後、システム構成管理ファイルの参照を行い(Sf1)、サーバグループSG1に属するサーバSV−2も再開する(Sf2)。
【0055】
次に、図12は、プロセス排他制御導入時の救済起動方法において、排他制御管理ファイルに基づくサーバグループ・サーバ・プロセスグループ・プロセスの排他制御対象と排他制御被対象の関係を示すブロック図である。また、図13および図14は、サーバSV−1が故障した場合の排他制御概要を説明するための概念図である。なお、排他制御対象/被対象とは、システムを構成する上で、様々な制約事項から、同一サーバ上に起動されることを、許容できないプロセスを起動制御するために、サーバ、サーバグループ、プロセスの範囲にて制御対象を設けたものである。
【0056】
サーバSV−3の管理プロセスでは、サーバSV−1の故障を検出すると、自サーバ内でプロセスを救済可能かチェックするため、排他制御管理ファイル22およびシステム構成管理ファイル21の参照を行い、サーバグループ、サーバ、プロセスグループ、プロセスの排他情報を取得する。サーバグループSG1(SRVgrp−1)については、システム構成管理ファイル21からサーバグループを構成するサーバの情報を取得し、プロセスグループについては起動プロセス管理ファイル20から取得する。そして、これらの情報に従って、自サーバが排他対象であるかを決定する(Sg1)。
【0057】
この場合、サーバグループSG2(SRVgrp−2)に属しているサーバSV−3は、排他制御管理ファイルにおいてサーバグループSG1(SRVgrp−1)に対する排他制御が記述されているため、プロセスの救済対象とならない(Sg2)。
【0058】
また、グループ定義されていないサーバSV−5の場合、サーバグループSG1(SRVgrp−1)のサーバSV−1の故障に対する排他定義は無いが、プロセスグループPG1(PRCgrp−1)に対する排他定義がサーバSV−5上のプロセスグループPG2(PRCgrp−2)にあるため、プロセスの救済対象とならない。
【0059】
また、サーバSV−6の管理プロセスでは、サーバSV−1の故障を検出すると、自サーバ内でプロセスを救済可能かチェックするため、排他制御管理ファイル22およびシステム構成管理ファイル21の参照を行い、サーバグループ、サーバ、プロセスグループ、プロセスの排他情報を取得する。そして、サーバグループおよびサーバの観点で、サーバSV−1に対して自サーバが排他設定されているか確認する(Sh1)。この場合、サーバSV−6でのプロセスAの救済起動が可能であると判断される。但し、他に救済起動可能な他サーバ、この場合、サーバSV−2があるため、内部管理情報によりプロセス総数の比較を行い、最も起動総数の少ないサーバSV−2を救済起動先と決定する(Sh2)。
【0060】
【発明の効果】
以上説明したように、本発明によれば、複数のプロセスの各々に対して、故障したプロセスとの整合性を保障するために当該故障したプロセスと同時に再起動が必要な他のプロセスをプロセスグループ情報として定義し、いずれかのプロセスが障害で故障した際に、前記プロセスグループ情報に基づいて、再開するプロセス群を特定するようにしたので、必要最低限範囲でのサーバ再開を実現、またプロセス故障発生時の影響範囲を局所化させ、グループ単位での整合性を担保すること、そして、プロセス間の関係を考慮した排他制御によるプロセス救済により、一部の故障がシステム全体の再開(中断)に発展することを抑止し、システム全体としての中断時間を短縮させることができるという利点が得られる。
【図面の簡単な説明】
【図1】 本発明の実施形態によるサーバプロセス管理システムの構成を示すブロック図である。
【図2】 起動プロセス管理ファイルの構成を示す概念図である。
【図3】 システム構成管理ファイルの構成を示す概念図である。
【図4】 排他制御管理ファイルの構成を示す概念図である。
【図5】 グループ再開方法(グループプロセス再開発生時)の具体的な動作原理を説明するための概念図である。
【図6】 グループ再開方法(グループプロセス再開発生時)の具体的な動作原理を説明するための概念図である。
【図7】 グループ再開方法(サーバ再開発生時)の具体的な動作原理を説明するための概念図である。
【図8】 グループ再開方法(サーバ再開発生時)の具体的な動作原理を説明するための概念図である。
【図9】 サーバ種別(APLサーバ、WWWサーバ、DBサーバ等)とサーバグループとの構成例を示すブロック図である。
【図10】 本実施形態によるサーバグループ再開方法の具体的な動作原理を説明するための概念図である。
【図11】 本実施形態によるサーバグループ再開方法の具体的な動作原理を説明するための概念図である。
【図12】 プロセス排他制御導入時の救済起動方法において、排他制御管理ファイルに基づくサーバグループ・サーバ・プロセスグループ・プロセスの排他制御対象と排他制御被対象の関係を示すブロック図である。
【図13】 サーバSV−1が故障した場合の排他制御概要を説明するための概念図である。
【図14】 サーバSV−1が故障した場合の排他制御概要を説明するための概念図である。
【図15】 従来技術によるプロセス再開方法の問題点を説明するための概念図である。
【図16】 従来技術によるサーバ再開方法の問題点を説明するための概念図である。
【図17】 従来技術によるサーバ再開方法の問題点を説明するための概念図である。
【図18】 従来技術によるサーバ再開方法の問題点を説明するための概念図である。
【図19】 従来技術によるプロセス救済起動方式の問題点を説明するための概念図である。
【符号の説明】
20 起動プロセス管理ファイル(プロセスグループ情報、プロセスグループ情報記憶手段)
21 システム構成管理ファイル(サーバグループ情報、サーバグループ情報記憶手段)
22 排他制御管理ファイル(排他条件情報、排他条件情報記憶手段)
SV−1〜SV−6 サーバ
PG1,PG2 プロセスグループ
SG1,SG2 サーバグループ
A〜J プロセス
X,Y,Z 管理プロセス(再開プロセス特定手段、再開サーバ特定手段、サーバ特定手段)
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a process resumption method for resuming (and restoring) a process and a server failure in a system in which a plurality of processes cooperate with each other on a plurality of servers to execute a plurality of tasks. , Process restart device , It relates to a process restart program.
[0002]
[Prior art]
In the conventional server restart function, all servers are restarted as the next phase of the single server restart, and there is a concern about the influence on the entire system due to the influence of the interruption time. In addition, for process execution management, a method has been adopted in which a corresponding process is restarted when a failure is detected, or a process on the corresponding server is restarted on another server when a server fails. In these methods, the initialization process of the restarted process is executed, but the initialization process of the related process is not executed, and detailed settings cannot be made even if restarting to another server. There is concern that inconsistencies between processes will occur. As a result, the consistency of the entire system is lost, and the entire system is restarted to avoid an event, which may increase the interruption time.
In addition, in the prior art, a document that directly indicates the invention of the present application has not been found and cannot be clearly indicated.
[0003]
[Problems to be solved by the invention]
As described above, in the conventional server restart method, restart of another server is forced to restart another server. A specific example is shown in FIG. When a user wants to restart specific servers SV-1 and SV-2, considering the operational relationship of other servers SV-3, SV-4, and SV-5 with respect to servers SV-1 and SV-2 Then, the entire system must be restarted and the servers SV-1 and SV-2 can be matched with the other servers SV-3, SV-4, and SV-5.
[0004]
In addition, due to a certain process failure, the consistency of the entire system is lost, and the entire system must be restarted to avoid the event. Specific examples thereof are shown in FIGS. First, in FIG. 16, a process (A) and a process (B) are functionally related processes, and in order to operate each, it is assumed that mutual operation is an essential condition. If one process is restarted due to a failure, a failure resulting from various contradictions occurs, and the other process must be restarted. The only way to achieve this is to restart the system.
[0005]
Next, in FIG. 17, a process (C) is a process functionally related to another commercial application, and the operation of the commercial application 10 is an indispensable condition for operating the system. If a failure occurs in the commercial application 10, execution management cannot be performed for the commercial application 10, so the system must be restarted.
[0006]
Next, in FIG. 18, process (A), process (B), process (C), and process (D) are functionally related processes, and in order to operate each other, mutual operation is essential. Suppose that it is a condition. When one server SV-1 is restarted, the process (A) and the process (B) are restarted. Therefore, considering the occurrence of failures due to various contradictions, the process (C) on the server SV-2 side , It is also necessary to restart the process (D). In order to realize this, the server SV-2 can only be restarted.
[0007]
Next, regarding the recovery method of the startup process in the event of a server failure, detailed exclusive control setting cannot be performed, and the recovery startup of the corresponding process cannot be performed. This also necessitates restarting the entire system. A specific example is shown in FIG. In FIG. 19, it is assumed that the process (A) and the process (B) are in a relationship incapable of being activated on the same server in each operation. When the restart of the server SV-1 occurs, the rescue activation to the server SV-2 is impossible for the process (A) activated on the server SV-1 by the activation of the process (B). However, the activation to the server SV-3 is logically possible. However, since detailed exclusion setting cannot be performed in units of processes and servers, the process (A) cannot be rescued and activated.
[0008]
In the conventional server restart method, any of these three events has a problem of prolonging the system operation interruption time.
[0009]
The present invention has been made in view of the above-described circumstances, and is a process that can prevent a part of a failure from developing into resumption (interruption) of the entire system and shorten the interruption time of the entire system. How to resume , Process restart device , The purpose is to provide a process restart program.
[0010]
[Means for Solving the Problems]
In order to solve the above problems, the present invention provides: Launched on multiple servers In the process restarting method of a managed system in which a plurality of processes are linked to each other, each of the plurality of processes is restarted simultaneously with the failed process in order to ensure consistency with the failed process. Within a predetermined group that includes other processes to be processed and the failed process The number of restart processes including the process is minimized group The Consists of process name, group number, and server name Defined as process group information, and when any process fails due to a failure, the process group to be restarted is identified based on the process group information To restart only the corresponding process included in the specified process group in each of the plurality of servers. It is a feature.
[0011]
Also, In the invention described above, the present invention relates to one process group information and the other process group information. One process group information But said Other process group information If it has an inclusive relationship including all processes defined in Other process group information Defined in If the process fails due to failure, Concerned Restart only the processes in the other process group information, Said Only for one process group information Defined If the process fails due to failure, Concerned One process group information Defined in It is characterized by restarting all processes.
[0012]
Also, The present invention provides the above-described invention, Each of the plurality of processes is defined as process group information, wherein at least one of the plurality of processes is a commercial application, and at least one of the plurality of processes is a unique process developed on the premise of cooperation with the commercial application. It is characterized by doing.
[0017]
In order to solve the above-described problems, the present invention Launched on multiple servers In a process resumption device of a managed system in which a plurality of processes are linked to each other, each of the plurality of processes is restarted simultaneously with the failed process in order to ensure consistency with the failed process. In a predetermined group including other processes to be processed and the failed process The number of restart start processes including the process is minimized group The Consists of process name, group number, and server name Process group information storage means for storing as process group information, and when any process fails due to a failure, the process group to be restarted is specified based on the process group information in the process group information storage means To restart only the corresponding process included in the specified process group in each of the plurality of servers. And a restart process specifying means.
[0018]
Also, In the invention described above, the present invention relates to one process group information and the other process group information. Process group information storage means stores Said One process group information But said Other process group information If it has an inclusive relationship including all processes defined in The restart process identification means is Said Other process group information Defined in If the process fails due to failure, Concerned Restart only the processes in the other process group information, Said Only for one process group information Defined If the process fails due to failure, Concerned One process group information Defined in It is characterized by restarting all processes.
[0019]
Also, The present invention provides the above-described invention, The process group information storage means includes a plurality of processes in which at least one of the plurality of processes is a commercial application, and at least one is a unique process developed on the premise of cooperation with the commercial application. The process group information defined to include each of the process group information is stored.
[0023]
In order to solve the above-described problems, the present invention Launched on multiple servers, Restart each of the multiple processes that make up the managed system simultaneously with the failed process to ensure consistency with the failed process. Within a predetermined group that includes other processes to be processed and the failed process The number of restart start processes including the process is minimized group The Consists of process name, group number, and server name Steps defined as process group information, and when any process fails due to a failure, the process group to be restarted is identified based on the process group information To restart only the corresponding process included in the specified process group in each of the plurality of servers. And causing the computer to execute the steps.
[0024]
Also, In the invention described above, the present invention relates to one process group information and the other process group information. One process group information But said Other process group information Has an inclusive relationship that encompasses all processes defined in Defining process group information; Said Other process group information Defined in If the process fails due to failure, Concerned Restart only the processes in the other process group information, Said Only for one process group information Defined If the process fails due to failure, Concerned One process group information Defined in And causing the computer to execute a step of restarting all processes.
[0028]
In the present invention, for each of a plurality of processes, another process that needs to be restarted simultaneously with the failed process is defined as process group information in order to ensure consistency with the failed process. When a process fails due to a failure, a process group to be restarted is specified based on the process group information. Therefore, it is possible to restart the server within the minimum necessary range, to localize the range of influence when a process failure occurs, to ensure consistency in group units, and to use exclusive control considering the relationship between processes By the relief, it is possible to prevent a part of the failure from developing into resumption (interruption) of the entire system, and to shorten the interruption time of the entire system.
[0029]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
A. Configuration of the embodiment
FIG. 1 is a block diagram showing a configuration of a server process management system according to an embodiment of the present invention. In FIG. 1, the server process management system includes servers SV-1, SV-2, and SV-3. Server SV-1 starts process A, process B (commercial application), process C (commercial application), and management process X. The server SV-2 starts process D, process E, and management process Y. The server SV-3 starts process F, process G, and management process Z.
[0030]
Process A and process B constitute process group PG1. Process C, process D, process E, and process F constitute a process group PG2. Note that a process group is a process in which activation management is considered as a group of processes that are operationally related. The application range of the process group is not closed within one server, but is effective between all servers constituting the system. Further, the function of the present invention is not limited to a self-made process, but is effective for a commercial application.
[0031]
The server process management system according to the present embodiment includes a condition file having the configuration shown in FIGS. FIG. 2 is a conceptual diagram showing the configuration of the startup process management file 20. FIG. 3 is a conceptual diagram showing the configuration of the system configuration management file 21. FIG. 4 is a conceptual diagram showing the configuration of the exclusive control management file 22.
[0032]
In order to set the server / process group in the startup process management file 20 and the system configuration management file 21 shown in FIG. 2 and FIG. 3, each is registered in advance in the management file. Settings are made for servers / processes that require management in operation, and an item for setting a group number is provided in each record item. The management process makes a grouping decision for each process according to these settings. There is no upper limit to the number of settings for one group. When “0” is set in the group number, it is determined that the grouping is not set for the process and the server.
[0033]
In FIG. 4, in order to set exclusive control related to process rescue activation, registration is performed in advance in the exclusive control management file 22. Regarding the setting method, there are the following four patterns. 1. 1. Exclusive setting for each server group 2. Exclusive setting for each server. 3. Exclusive setting for each process group This is an exclusive setting for each process. An identifier indicating which setting is set is set, and items for setting a target name and a target name for setting exclusive control are provided on the identifier. The management process determines the presence or absence of exclusive control according to these settings. There is no upper limit to the number of settings. In addition, regarding the exclusive setting target name / subject name, a plurality of items can be set with the same name.
[0034]
This will be described in more detail below. In this embodiment, regarding a process that is activated in the managed server (group), when any process fails, another process that needs to be restarted at the same time as the process to ensure consistency with the process. Are extracted before operation of the managed server (group), and the extracted processes are collectively defined as a process group. Note that when defining a process group, a process group having an inclusion relationship may be defined, but a process group that shares only some processes is not defined.
[0035]
Further, the startup process management file 20 including at least three pieces of information of the startup process, the process group to which the startup process belongs, and the server on which the startup process is running is similarly operated by the managed server (group). Create before.
[0036]
If process groups having an inclusion relationship are defined, a plurality of process groups to which the startup process belongs can be defined. For example, information on the inclusion relationship between process groups (for example, “process group α includes process group β and process group ν”) and the minimum number of startup processes including the startup process as a process group corresponding to each startup process Two types of information are defined. Alternatively, as information corresponding to each activation process, two types of information are defined: process group information with the smallest number of activation processes including the activation process and all process group information other than the above including the activation process.
[0037]
The management process for managing the managed server refers to the restart range using the information described above so that the number of restart startup processes is minimized by referring to the startup process management file 20 when an arbitrary process fails. Is specified, and the process of “Restart group including related processes” is realized.
When one process group information includes the other process group information, if a process included in the other process group information fails due to a failure, only the process in the other process group information is restarted. When a process included only in the process group information fails due to a failure, all processes belonging to one process group information including the other process group information are restarted.
[0038]
In addition to the startup process, the management process refers to the startup process management file 20 so that the number of restart startup processes is minimized when any managed server itself restarts. The resumption range is specified using the information, and the “group resumption including related processes” process is realized.
[0039]
Further, in the present embodiment, similarly to the startup process group in the managed server (group), the managed server itself also fails when any managed server fails in accordance with the system operation conditions. Extract other managed servers that need to be restarted at the same time as the management target server to ensure consistency with the managed server (s) before operating the managed server (s). Define a server group. When defining a server group, a server group having an inclusion relationship may be specified, but a server group that shares only some managed servers is not defined.
[0040]
Further, the system configuration management file 21 including at least two pieces of information of the management target server and the server group to which the management target server belongs is similarly created before the management target server (group) is operated.
[0041]
When server groups having an inclusion relationship are defined, a plurality of server groups to which managed servers belong can be defined. For example, information on the inclusion relationship between server groups (for example, “server group α includes server group β and server group”), and a managed server that includes the managed server as a server group corresponding to each managed server Two types of information are defined: the smallest number of server group information. Alternatively, as information corresponding to each managed server, two types of information, that is, server group information with the minimum number of managed servers including the managed server and all other server group information including the managed server are included. Define
[0042]
The management process for managing the managed server uses the information described above so that the number of resume managed servers can be minimized by referring to the system configuration management file 21 when any managed server fails. To specify the restart range and implement the “server group restart” process.
When one server group information includes the other server group information, if a server included in the other server group information fails due to a failure, only the server in the other server group information is restarted. When a server included only in server group information fails due to a failure, all servers belonging to one server group information including the other server group information are restarted.
[0043]
Also, in this embodiment, when any managed server or boot process cannot be restarted, for boot process rescue boot, any server group with respect to at least four patterns of server group, server, process group, and process The startup process of managed servers belonging to the server extracts the exclusion conditions that indicate the relationship between processes, servers, process groups, and server groups that cannot be started on the same server before operating the managed server (s) And created as an exclusive control management file 22.
[0044]
Exclusion conditions include server group exclusion conditions for identifying server groups that cannot all be started, and server exclusion conditions for identifying managed servers that cannot start all the startup processes of any managed server Process group exclusion conditions for identifying process groups that cannot be started on the same managed server as the start process belonging to any process group, processes that cannot be started on the same managed server as any process There is a process exclusion condition to identify
[0045]
The management process during operation succession refers to the exclusive control management file 22 when a managed server failure occurs, identifies a startup process that can be repaired by each managed server, and performs a recovery startup process of the startup process. Realize.
[0046]
B. Operation of the embodiment
Next, the operation of the server process management system according to the present embodiment will be described. First, FIG. 5 and FIG. 6 are conceptual diagrams for explaining the specific operation principle of the group restart method (when a group process restart occurs). 5 and 6 show an outline of processing of each server when the process D fails.
[0047]
First, an outline of the operation on the server SV-2 will be described with reference to FIG. The management process Y on the server SV-2 detects the failure of the process D and refers to the startup process management file 20 (Sa1). Since the process D belongs to the process group PG2, a restart request for the process group PG2 is made to the servers SV-1 and SV-3, which are servers on which processes defined in the process group PG2 are started (Sa2). Then, simultaneously with the restart request to the other server, the process E defined in the process group PG2 in the own server is restarted (Sa3).
[0048]
Next, an outline of the operation of the server SV-1 will be described with reference to FIG. When the management process X on the server SV-1 receives the restart request for the process group PG2 from the server SV-2, it extracts the process of the process group PG2 operating on its own server from the startup process management file 20 (Sb1). ), The process C belonging to the process group PG2 is restarted (Sb2). Similarly, in the server SV-3, the process corresponding to the process group PG2 is restarted.
[0049]
Next, an outline of processing in the server SV-2 when the server SV-1 is restarted will be described. Here, FIG. 7 and FIG. 8 are conceptual diagrams for explaining the specific operation principle of the group restart method (when server restart occurs).
[0050]
First, an outline of the operation of the server SV-1 will be described with reference to FIG. When the server SV-1 is restarted due to a process failure or the like, the server SV-1 is restarted to each server, and then the server SV-1 is restarted. At the time of restart, the startup process management file 20 is referred to (Sc1), and the processes A, B, and C to be started on the own server are started (Sc2).
[0051]
Next, the processing outline of the server SV-2 will be described with reference to FIG. After receiving the server restart notification from the server SV-1, the startup process management file 20 is referred to (Sd1), and the process group PG1 and the process group PG2 operating on the server SV-1 operate on the own server. Check if it is. Therefore, since the group PG2 is targeted, the processes D and E in the process group PG2 are restarted (Sd2). Similarly, in the server SV-3, processes corresponding to the process group PG1 and the process group PG2 are restarted.
[0052]
Next, FIG. 9 is a block diagram showing a configuration example of server types (APL server, WWW server, DB server, etc.) and server groups. In the figure, a server group is a group of servers that are operationalally related to each server that constitutes the system. The server group SG1 is composed of an APL server SV-1 and a WWW server SV-2. The server group SG2 includes an APL server SV-3, an APL server SV-4, and a naming server SV-5. It is also effective to set servers of different types (types) to the same group.
[0053]
Next, FIG. 10 and FIG. 11 are conceptual diagrams for explaining the specific operation principle of the server group restart method according to the present embodiment. First, an overview of the process of server SV-1 that has received a restart request for server group SG1 from a maintenance person or the like will be described with reference to FIG. The management process of the server SV-1 references the system configuration management file 21 after receiving the restart request for the server group SG1 (Se1). The server SV-1 also performs resumption notification of the server group SG1 to the other server SV-2 (Se2), and performs resumption because the server SV-1 itself is also the server group SG1 (Se3).
[0054]
Next, an outline of server SV-2 server group restart processing will be described with reference to FIG. The only difference between the server SV-1 and the server SV-1 is whether the request source is a maintenance person or another server. After receiving the restart request for the server group SG1, the system configuration management file is referred to (Sf1). The server SV-2 belonging to SG1 is also restarted (Sf2).
[0055]
Next, FIG. 12 is a block diagram showing the relationship between the exclusive control target and the exclusive control target of the server group / server / process group / process based on the exclusive control management file in the rescue activation method when introducing the exclusive process control. . FIGS. 13 and 14 are conceptual diagrams for explaining an outline of exclusive control when the server SV-1 fails. Note that the exclusive control target / target is a server, server group, or process in order to control the startup of processes that cannot be allowed to start on the same server due to various restrictions in configuring the system. The control object is provided in the range of.
[0056]
In the management process of the server SV-3, when a failure of the server SV-1 is detected, the exclusive control management file 22 and the system configuration management file 21 are referred to in order to check whether the process can be relieved in the own server, and the server group Get exclusive information of server, process group and process. For the server group SG1 (SRVgrp-1), information on the servers constituting the server group is acquired from the system configuration management file 21, and the process group is acquired from the startup process management file 20. Then, according to these pieces of information, it is determined whether the own server is an exclusion target (Sg1).
[0057]
In this case, the server SV-3 belonging to the server group SG2 (SRVgrp-2) is not a process relief target because the exclusive control for the server group SG1 (SRVgrp-1) is described in the exclusive control management file. (Sg2).
[0058]
In the case of the server SV-5 that is not group-defined, there is no exclusive definition for the failure of the server SV-1 of the server group SG1 (SRVgrp-1), but the exclusive definition for the process group PG1 (PRCgrp-1) is the server SV. Since it is in the process group PG2 (PRCgrp-2) on −5, it is not a process relief target.
[0059]
Further, in the management process of the server SV-6, when a failure of the server SV-1 is detected, the exclusive control management file 22 and the system configuration management file 21 are referred to check whether the process can be relieved in the own server, Acquires exclusive information of server groups, servers, process groups, and processes. Then, from the viewpoint of the server group and the server, it is confirmed whether the own server is exclusively set for the server SV-1 (Sh1). In this case, it is determined that the rescue start of the process A on the server SV-6 is possible. However, since there is another server that can be rescue activated, in this case, server SV-2, the total number of processes is compared based on the internal management information, and the server SV-2 with the smallest total number of activation is determined as the rescue activation destination ( Sh2).
[0060]
【The invention's effect】
As described above, according to the present invention, for each of a plurality of processes, another process that needs to be restarted at the same time as the failed process is secured to the process group in order to ensure consistency with the failed process. It is defined as information, and when one of the processes fails due to a failure, the process group to be restarted is specified based on the process group information. Localization of the range of influence at the time of failure occurrence, guaranteeing consistency in group units, and process failure by exclusive control that considers the relationship between processes, some failures are restarted (suspended) of the entire system It is possible to obtain the advantage that it is possible to prevent the system from being developed, and to shorten the interruption time of the entire system.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a server process management system according to an embodiment of the present invention.
FIG. 2 is a conceptual diagram showing a configuration of a startup process management file.
FIG. 3 is a conceptual diagram showing a configuration of a system configuration management file.
FIG. 4 is a conceptual diagram showing a configuration of an exclusive control management file.
FIG. 5 is a conceptual diagram for explaining a specific operation principle of a group restart method (when a group process restarts).
FIG. 6 is a conceptual diagram for explaining a specific operation principle of a group restart method (when a group process restart occurs).
FIG. 7 is a conceptual diagram for explaining a specific operation principle of a group restart method (when a server restart occurs).
FIG. 8 is a conceptual diagram for explaining a specific operation principle of a group restart method (when a server restart occurs).
FIG. 9 is a block diagram showing a configuration example of server types (APL server, WWW server, DB server, etc.) and server groups.
FIG. 10 is a conceptual diagram for explaining a specific operation principle of the server group restart method according to the present embodiment.
FIG. 11 is a conceptual diagram for explaining a specific operation principle of the server group restart method according to the present embodiment.
FIG. 12 is a block diagram showing the relationship between exclusive control targets and exclusive control targets of server groups, servers, process groups, and processes based on an exclusive control management file in the rescue activation method when process exclusive control is introduced.
FIG. 13 is a conceptual diagram for explaining an overview of exclusive control when a server SV-1 fails.
FIG. 14 is a conceptual diagram for explaining an overview of exclusive control when a server SV-1 fails.
FIG. 15 is a conceptual diagram for explaining a problem of a process resumption method according to a conventional technique.
FIG. 16 is a conceptual diagram for explaining a problem of a server restart method according to the prior art.
FIG. 17 is a conceptual diagram for explaining a problem of a server restart method according to a conventional technique.
FIG. 18 is a conceptual diagram for explaining a problem of a server restart method according to the prior art.
FIG. 19 is a conceptual diagram for explaining a problem of a process rescue activation method according to a conventional technique.
[Explanation of symbols]
20 Startup process management file (process group information, process group information storage means)
21 System configuration management file (server group information, server group information storage means)
22 Exclusive control management file (exclusive condition information, exclusive condition information storage means)
SV-1 to SV-6 server
PG1, PG2 process group
SG1, SG2 server group
A ~ J Process
X, Y, Z management process (resumption process identification means, resumption server identification means, server identification means)

Claims (8)

複数のサーバで起動される複数のプロセスが連携して構築されている管理対象システムのプロセス再開方法において、
前記複数のプロセスの各々に対して、故障したプロセスとの整合性を保障するために当該故障したプロセスと同時に再起動される他のプロセスと当該故障したプロセスとを含む予め定められるグループの中で当該プロセスを含む再起動プロセス数が最小となるグループプロセス名、グループ番号、プロセスが動作するサーバ名からなるプロセスグループ情報として保持しておき
いずれかのプロセスが障害で故障した際に、前記プロセスグループ情報に基づいて、再開するプロセス群を特定して前記複数のサーバのそれぞれに特定したプロセス群に含まれる該当プロセスのみの再開をさせること特徴とするプロセス再開方法。
In the process restart method of the managed system in which multiple processes started on multiple servers are built in cooperation,
For each of the plurality of processes, in a predetermined group including other processes restarted simultaneously with the failed process and the failed process to ensure consistency with the failed process. Hold the group with the minimum number of restart processes including the process as process group information consisting of the process name, group number, and server name on which the process operates .
When any process fails due to a failure, the process group to be restarted is specified based on the process group information, and only the corresponding process included in the process group specified by each of the plurality of servers is restarted. A process resumption method characterized.
前記プロセス再開方法において、
一方のプロセスグループ情報と他方のプロセスグループ情報について、前記一方のプロセスグループ情報が、前記他方のプロセスグループ情報に定義されるプロセスを全て包含する包含関係を有する場合、前記他方のプロセスグループ情報に定義されるプロセスが障害で故障した場合は、当該他方のプロセスグループ情報内のプロセスのみを再起動し、前記一方のプロセスグループ情報にのみ定義されるプロセスが障害で故障した場合は、当該一方のプロセスグループ情報に定義される全てのプロセスを再起動することを特徴とする請求項1に記載のプロセス再開方法。
In the process restarting method,
For one process group information and the other process group information, if the one process group information has an inclusion relationship that includes all the processes defined in the other process group information, the process group information is defined in the other process group information. If a process to be failed fails due to a failure, only the process in the other process group information is restarted. If a process defined only in the one process group information fails due to a failure, the one process The process restarting method according to claim 1, wherein all processes defined in the group information are restarted.
前記複数のプロセスのうち少なくとも1つ以上が市販アプリケーションであり、かつ少なくとも1つ以上が前記市販アプリケーションとの連携を前提として開発された独自プロセスである前記複数のプロセスの各々をプロセスグループ情報として定義することを特徴とする請求項1または請求項2に記載のプロセス再開方法。  Each of the plurality of processes is defined as process group information, wherein at least one of the plurality of processes is a commercial application, and at least one of the plurality of processes is a unique process developed on the premise of cooperation with the commercial application. 3. The process restarting method according to claim 1, wherein the process is restarted. 複数のサーバで起動される複数のプロセスが連携して構築されている管理対象システムのプロセス再開装置において、
前記複数のプロセスの各々に対して、故障したプロセスとの整合性を保障するために当該故障したプロセスと同時に再起動される他のプロセスと当該故障したプロセスとを含む予め定められるグループの中で当該プロセスを含む再開起動プロセス数が最小となるグループプロセス名、グループ番号、プロセスが動作するサーバ名からなるプロセスグループ情報として記憶するプロセスグループ情報記憶手段と、
いずれかのプロセスが障害で故障した際に、前記プロセスグループ情報記憶手段のプロセスグループ情報に基づいて、再開するプロセス群を特定して前記複数のサーバのそれぞれに特定したプロセス群に含まれる該当プロセスのみの再開をさせる再開プロセス特定手段と
を具備することを特徴とするプロセス再開装置。
In the process restarting device of the managed system where multiple processes started on multiple servers are linked and built,
For each of the plurality of processes, in a predetermined group including other processes restarted simultaneously with the failed process and the failed process to ensure consistency with the failed process. and process group information storage means for storing a group to resume boot process number is minimized including the process process name, group number, as the process group information consisting of server name process works,
When any process fails due to a failure, the corresponding process included in the process group identified by each of the plurality of servers by identifying the process group to be resumed based on the process group information in the process group information storage unit A process resumption device comprising: a resumption process specifying means for resuming only a process.
前記プロセス再開装置において、
一方のプロセスグループ情報と他方のプロセスグループ情報について、前記プロセスグループ情報記憶手段が記憶する前記一方のプロセスグループ情報が、前記他方のプロセスグループ情報に定義されるプロセスを全て包含する包含関係を有する場合、
前記再開プロセス特定手段は、前記他方のプロセスグループ情報に定義されるプロセスが障害で故障した場合には、当該他方のプロセスグループ情報内のプロセスのみを再起動し、前記一方のプロセスグループ情報にのみ定義されるプロセスが障害で故障した場合には、当該一方のプロセスグループ情報に定義される全てのプロセスを再起動する
ことを特徴とする請求項4に記載のプロセス再開装置。
In the process restarting device,
For one process group information and the other process group information, the one process group information stored by the process group information storage means has an inclusive relationship including all processes defined in the other process group information. ,
When the process defined in the other process group information fails due to a failure, the restart process specifying means restarts only the process in the other process group information, and only the one process group information 5. The process restarting apparatus according to claim 4, wherein when a defined process fails due to a failure, all processes defined in the one process group information are restarted.
前記プロセスグループ情報記憶手段は、
前記複数のプロセスのうち少なくとも1つ以上が市販アプリケーションであり、かつ少なくとも1つ以上が前記市販アプリケーションとの連携を前提として開発された独自プロセスである前記複数のプロセスの各々を含むことが定義された前記プロセスグループ情報を記憶することを特徴とする請求項4または請求項5に記載のプロセス再開装置。
The process group information storage means includes
It is defined that at least one of the plurality of processes is a commercial application, and at least one of the plurality of processes includes each of the plurality of processes that is a unique process developed on the assumption of cooperation with the commercial application. 6. The process restarting apparatus according to claim 4, wherein the process group information is stored.
複数のサーバで起動され、管理対象システムを構築している複数のプロセスの各々に対して、故障したプロセスとの整合性を保障するために当該故障したプロセスと同時に再起動される他のプロセスと当該故障したプロセスとを含む予め定められるグループの中で当該プロセスを含む再開起動プロセス数が最小となるグループプロセス名、グループ番号、プロセスが動作するサーバ名からなるプロセスグループ情報として定義するステップと、
いずれかのプロセスが障害で故障した際に、前記プロセスグループ情報に基づいて、再開するプロセス群を特定して前記複数のサーバのそれぞれに特定したプロセス群に含まれる該当プロセスのみの再開をさせるステップと
をコンピュータに実行させることを特徴とするプロセス再開プログラム。
For each of a plurality of processes that are started on a plurality of servers and construct a managed system, and other processes that are restarted simultaneously with the failed process in order to ensure consistency with the failed process a step of defining the group resume boot process number is minimized, including the process in the predetermined is a group including a process that the failure process name, as the process group information consisting of server name group number, the process is operated ,
A step of specifying a process group to be restarted based on the process group information and restarting only a corresponding process included in the specified process group in each of the plurality of servers when any process fails due to a failure. A process restarting program that causes a computer to execute and.
前記プロセス再開プログラムであって、
一方のプロセスグループ情報と他方のプロセスグループ情報について、前記一方のプロセスグループ情報が、前記他方のプロセスグループ情報に定義されるプロセスを全て包含する包含関係を有するプロセスグループ情報を定義するステップと、
前記他方のプロセスグループ情報に定義されるプロセスが障害で故障した場合には、当該他方のプロセスグループ情報内のプロセスのみを再起動し、前記一方のプロセスグループ情報にのみ定義されるプロセスが障害で故障した場合には、当該一方のプロセスグループ情報に定義される全てのプロセスを再起動するステップと
をコンピュータに実行させることを特徴とする請求項7に記載のプロセス再開プログラム。
The process restart program,
For one process group information and the other process group information, the one process group information defines process group information having an inclusion relationship that includes all processes defined in the other process group information;
When the process defined in the other process group information fails due to a failure, only the process in the other process group information is restarted, and the process defined only in the one process group information fails. 8. The process restarting program according to claim 7, wherein, when a failure occurs, the computer is caused to execute a step of restarting all processes defined in the one process group information.
JP2002261260A 2002-09-06 2002-09-06 Process restart method, process restart device, and process restart program Expired - Lifetime JP4112319B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002261260A JP4112319B2 (en) 2002-09-06 2002-09-06 Process restart method, process restart device, and process restart program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002261260A JP4112319B2 (en) 2002-09-06 2002-09-06 Process restart method, process restart device, and process restart program

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2006280590A Division JP4343208B2 (en) 2006-10-13 2006-10-13 Relief activation method, relief activation device, relief activation program
JP2006280509A Division JP4689572B2 (en) 2006-10-13 2006-10-13 Server restart method, server restart device, server restart program

Publications (2)

Publication Number Publication Date
JP2004102492A JP2004102492A (en) 2004-04-02
JP4112319B2 true JP4112319B2 (en) 2008-07-02

Family

ID=32261687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002261260A Expired - Lifetime JP4112319B2 (en) 2002-09-06 2002-09-06 Process restart method, process restart device, and process restart program

Country Status (1)

Country Link
JP (1) JP4112319B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004051991A1 (en) * 2004-10-25 2006-04-27 Robert Bosch Gmbh Method, operating system and computing device for executing a computer program
JP5700370B2 (en) 2011-01-31 2015-04-15 独立行政法人海洋研究開発機構 node
US20130091197A1 (en) 2011-10-11 2013-04-11 Microsoft Corporation Mobile device as a local server
US9092247B2 (en) * 2012-03-29 2015-07-28 Microsoft Technology Licensing, Llc Persistent and resilient worker processes

Also Published As

Publication number Publication date
JP2004102492A (en) 2004-04-02

Similar Documents

Publication Publication Date Title
US11880679B2 (en) System and method for supporting patching in a multitenant application server environment
US10853056B2 (en) System and method for supporting patching in a multitenant application server environment
US10191820B2 (en) Virtual proxy based backup
CN1578300B (en) Checkpoint processor and method for managing checkpoint
US20080294937A1 (en) Distributed processing method
CN102833310B (en) Workflow engine trunking system based on virtualization technology
CN103226493B (en) The dispositions method and system of multi-operation system service
JP5543333B2 (en) Dynamic CLI mapping for clustered software entities
JPH11345219A (en) Application realizing method and application realizing device
JPWO2014076838A1 (en) Virtual machine synchronization system
JP2004295462A (en) Recovery processing method, execution system of the same, and processing program of the same
JP2004334698A (en) Computer system and fault computer substitution control program
CN104391777A (en) Cloud platform based on Linux operating system and operation monitoring method and device of cloud platform
JP4112319B2 (en) Process restart method, process restart device, and process restart program
US20020073409A1 (en) Telecommunications platform with processor cluster and method of operation thereof
JP4689572B2 (en) Server restart method, server restart device, server restart program
JP4343208B2 (en) Relief activation method, relief activation device, relief activation program
CN114443295B (en) Heterogeneous cloud resource management scheduling method, device and system
JPH07111685B2 (en) System operation maintenance method
JPH04338854A (en) Information collecting system for remote maintenance
KR20220074537A (en) Block commit method of virtual machine environment and, virtual system for performing the method
JP2005157462A (en) System switching method and information processing system
JPH0784846A (en) Guarantee system for consistency of multiple database access business processing
JP2004078438A (en) Network equipment setting processing system with function of defining roll back system for every service classification
JP2007233940A (en) Patch application control method

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040430

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060815

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070309

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070907

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20071012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080409

R150 Certificate of patent or registration of utility model

Ref document number: 4112319

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110418

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110418

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120418

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120418

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130418

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140418

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term