JP6109404B2

JP6109404B2 - 計算機装置及び計算機機構

Info

Publication number: JP6109404B2
Application number: JP2016506052A
Authority: JP
Inventors: 大樹増田; 敦攝津; 真一落合
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-03-07
Filing date: 2014-03-07
Publication date: 2017-04-05
Anticipated expiration: 2034-03-07
Also published as: US10089200B2; WO2015132953A1; US20160321149A1; CN106068501A; JPWO2015132953A1

Description

本発明は、計算機におけるデバイス管理に関する。

マルチコアＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）や大容量メモリが普及したことにより、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やアプリケーションプログラム（以下、アプリケーションという）が含まれるデータ処理システム（以下、単にシステムともいう）を一つの計算機に複数搭載した、マルチシステム計算機構成が多く用いられるようになってきている。
このような計算機はシステムの集積度が増したことにより、障害発生時の影響範囲が大きく、システム単位で障害の検出と系切り替えを行う技術が開発されている。

例えば特許文献１では、以下の技術が開示されている。
通常の業務を行う第１のＯＳと、第１のＯＳと異なる第２のＯＳを備え、第２のＯＳが第１のＯＳの保持する情報の内容を解析することで障害の兆候を捉える。
そして、第２のＯＳが、他の計算機に解析内容を伝達することで第１のＯＳの処理を他の計算機に引き継がせる。

また、例えば特許文献２では、以下の技術が開示されている。
第１のＯＳ上で稼動するプログラムの実行状態を監視する監視手段を設け、監視手段が、障害の予兆が検出された時に第２のＯＳ上で稼動する論理計算機管理手段に通知を行う。
そして、論理計算機管理手段が、第１のＯＳの処理を引き継ぐ第３のＯＳを新たに起動することで処理の継続を可能にする。

また、特許文献３では、以下の技術が開示されている。
複数のシングルシステム計算機に対応する仮想計算機を集約したマルチシステム計算機を用意し、いずれかのシングルシステム計算機に障害が発生したときにマルチシステム計算機上の仮想計算機が処理を引き継ぐことで処理継続を実現する。

一方で、モータ等の物理的な機器を制御するシステムの障害に備えた系切り替え装置では、以下の技術が存在する。
複数の系から制御信号が出ることによる制御不安定化を防ぐため、系切り替え装置が、実際に機器の制御を担当する運用系と障害に備えている待機系のうち、運用系のみが制御信号を出力できるように排他制御を行う。
例えば特許文献４では、以下の技術が開示さている。
アクチュエーターに対する制御信号を送信するユニットを二重化し、ユニット外に設置した主従選択モジュールが高速に運用系のユニットと待機系のユニットの状態を判定する。
運用系のユニットが異常な場合に正常な待機系のユニットを運用系に切り替えて運用系のみ制御信号を出力し、両系で制御信号の応答を受信する。

特開２００５−１１５７５１号公報特開２００４−３０３６３号公報特開２０１３−３７４３３号公報特開２００５−５６２４１号公報

１台の計算機上で１つのシステムが稼動しているシングルシステム計算機では、当該シングルシステム計算機上のシステムに障害が発生した場合（例えば、一部のインタフェース装置に故障が発生した場合）に、系の切り替えが必要になる。
シングルシステム計算機では、系の切り替えを行う場合は、当該シングルシステム計算機に接続されている全デバイスの出力を停止することができる。
このため、当該シングルシステム計算機の全デバイスの出力を無効化し、待機系計算機の全デバイスの出力を有効化して、系の切り替えが行われる。
複数のシステムが動作するマルチシステム計算機では、システムごとに１つの以上のデバイスを制御している。
上記のようなシングルシステム計算機における切り替え方式をマルチシステム計算機に適用した場合は、障害が発生したシステムが制御しているインタフェース装置だけでなく、障害が発生したシステムと無関係で当該障害から影響を受けない他のシステムが制御しているインタフェース装置も無効化されてしまう。
このため、マルチシステム計算機上の全システムの系切り替えを行う必要がある。
従って、不必要な系切り替えが発生することにより、パフォーマンスの低下や冗長度の低下などが発生するという課題がある。

この発明は、このような課題を解決することを主な目的とし、マルチシステム計算機において、データ処理システムごとの系切り替えを可能にすることを主な目的とする。

本発明に係る計算機装置は、
各々が複数のデバイスのうちのいずれかのデバイスに対応付けられ、対応付けられている対応デバイスと通信してデータ処理を行う複数のデータ処理システムが含まれる計算機装置であって、
データ処理システムごとに、データ処理システムの状態に応じて、データ処理システムと対応デバイスとの間の通信が許可されるか否かを判定する判定部と、
データ処理システムごとに、前記判定部の判定結果に合わせてデータ処理システムと対応デバイスとの間の通信を制御する通信制御部とを有することを特徴とする。

本発明では、データ処理システムの状態に応じて、データ処理システムごとに対応デバイスとの間の通信を制御することができる。
このため、障害が発生したデータ処理システムと対応デバイスとの間の通信のみを停止させることができ、障害が発生したデータ処理システムに限定した系切り替えが可能である。

実施の形態１に係る計算機機構の全体構成例を示す図。実施の形態１に係る参入通知の例を示す図。実施の形態１に係る状態変更通知の例を示す図。実施の形態１に係る系決定通知の例を示す図。実施の形態１に係る故障発生時の状態変化の例を示す図。実施の形態１に係る切替制御装置の動作例を示すフローチャート図。実施の形態１に係るハイパーバイザの動作例を示すフローチャート図。実施の形態１に係る計算機及び切替制御装置のハードウェア構成例を示す図。

実施の形態１．
本実施の形態では、マルチシステム計算機において、個々のシステムに限定した系切り替えを可能にする構成を説明する。

図１は、本実施の形態に係る計算機機構を示す。
図１に示す計算機機構は、マルチシステム計算機である計算機装置Ａ１００Ａと計算機装置Ｂ１００Ｂと、切替制御装置１１０とで構成される。
図１では、計算機装置Ａ１００Ａと計算機装置Ｂ１００Ｂとにより冗長化が図られている。
なお、以下では、計算機装置Ａ１００Ａは、計算機Ａ１００Ａともいい、計算機装置Ｂ１００Ｂは、計算機Ｂ１００Ｂともいう。
また、計算機装置Ａ１００Ａ、計算機装置Ｂ１００Ｂを区別する必要がないときは、両者を示す表記として、計算機１００と表記する。

図１において、計算機Ａ１００Ａと計算機Ｂ１００Ｂは切替制御装置１１０を経由して接続されている。
また、各計算機１００には、各計算機１００が制御する機器であるデバイス１及びデバイス２と接続されている。
デバイス１及びデバイス２は、例えばモータである。
各計算機１００にはＣＰＵを搭載したＣＰＵカード１２０が存在し、ＣＰＵカード１２０上のソフトウェアは切替Ｉ／Ｆ（インタフェース）１３０を通じて切替制御装置１１０と通信する。
また、ＣＰＵカード１２０には、デバイスを制御するためのインタフェースカードであるデバイスＩ／Ｆ１４０が接続されている。
ＣＰＵカード１２０上では、１台のＣＰＵカード１２０上で複数のＯＳを実行するハイパーバイザ１５０が実行されている。
ハイパーバイザ１５０上では、複数のＯＳ１６０が動作している。
ＯＳ１６０上では、デバイスを制御するアプリケーション１７０と、デバイスの状態やＯＳの状態から処理継続可否を判定する管理部１８０が動作している。

ＯＳ１６０とアプリケーション１７０と管理部１８０で１つのデータ処理システムを構成する。
つまり、計算機Ａ１００Ａでは、ＯＳ１６０−１Ａとアプリケーション１７０−１Ａと管理部１８０−１Ａで構成されるデータ処理システムと、ＯＳ１６０−２Ａとアプリケーション１７０−２Ａと管理部１８０−２Ａで構成されるデータ処理システムが含まれる。
また、計算機Ｂ１００Ｂでは、ＯＳ１６０−１Ｂとアプリケーション１７０−１Ｂと管理部１８０−１Ｂで構成されるデータ処理システムと、ＯＳ１６０−２Ｂとアプリケーション１７０−２Ｂと管理部１８０−２Ｂで構成されるデータ処理システムが含まれる。
計算機Ａ１００ＡのＯＳ１６０−１Ａとアプリケーション１７０−１Ａと管理部１８０−１Ａで構成されるデータ処理システムと、計算機Ｂ１００ＢのＯＳ１６０−１Ｂとアプリケーション１７０−１Ｂと管理部１８０−１Ｂで構成されるデータ処理システムを、以下ではシステムＡＢＣという。
システムＡＢＣは、このように計算機Ａ１００Ａ及び計算機Ｂ１００Ｂで冗長化されている。
システムＡＢＣは、デバイス１と通信して所定のデータ処理を行う。
システムＡＢＣが用いるデバイス１を、システムＡＢＣの対応デバイスという。
また、計算機Ａ１００ＡのＯＳ１６０−２Ａとアプリケーション１７０−２Ａと管理部１８０−２Ａで構成されるデータ処理システムと、計算機Ｂ１００ＢのＯＳ１６０−２Ｂとアプリケーション１７０−２Ｂと管理部１８０−２Ｂで構成されるデータ処理システムを、以下ではシステムＤＥＦという。
システムＤＥＦは、このように計算機Ａ１００Ａ及び計算機Ｂ１００Ｂで冗長化されている。
システムＤＥＦは、デバイス２と通信して所定のデータ処理を行う。
システムＤＥＦが用いるデバイス２を、システムＤＥＦの対応デバイスという。

ハイパーバイザ１５０には、各ＯＳ１６０に対して切替Ｉ／Ｆを模擬する切替Ｉ／Ｆ模擬部１９０とＯＳ１６０からデバイスＩ／Ｆ１４０の出力を制御する出力管理部２００がある。
より具体的には、出力管理部２００は、データ処理システムごとに、データ処理システムの状態に応じて、データ処理システムと対応デバイスとの間の通信が許可されるか否かを判定する。
例えば、出力管理部２００Ａは、計算機Ａ１００ＡのシステムＡＢＣ（ＯＳ１６０−１Ａとアプリケーション１７０−１Ａと管理部１８０−１Ａ）に障害が発生していれば、計算機Ａ１００ＡのシステムＡＢＣとデバイス１との間の通信を禁止する旨を決定する。
そして、出力管理部２００は、判定結果に合わせてデータ処理システムとデバイスとの間の通信を制御する。
出力管理部２００Ａは、計算機Ａ１００ＡのシステムＡＢＣとデバイス１との間の通信を許可する場合には、計算機Ａ１００ＡのシステムＡＢＣからデバイス１への信号をデバイスＩ／Ｆ１４０−１Ａに転送して、計算機Ａ１００ＡのシステムＡＢＣがデバイス１と通信できるようにする。
一方、計算機Ａ１００ＡのシステムＡＢＣとデバイス１との間の通信を禁止する場合には、出力管理部２００は、計算機Ａ１００ＡのシステムＡＢＣからデバイス１への信号を破棄して、計算機Ａ１００ＡのシステムＡＢＣがデバイス１と通信できないようにする。
出力管理部２００は、判定部及び通信制御部の例に相当する。

計算機１００上の１つのＯＳ１６０は系切り替えを制御するシステムとして稼動する。
具体的には、計算機Ａ１００Ａでは、ＯＳ１６０−３Ａが系切り替えのためのＯＳであり、計算機Ｂ１００Ｂでは、ＯＳ１６０−３Ｂが系切り替えのためのＯＳである。
ＯＳ１６０−３Ａ（ＯＳ１６０−３Ｂ）上では、デバイスＩ／Ｆ１４０とＯＳ１６０の対応付けを管理する構成管理部２１０Ａ（構成管理部２１０Ｂ）と、切替Ｉ／Ｆ１３０Ａ（切替Ｉ／Ｆ１３０Ｂ）を制御して切替制御装置１１０と通信する通知部２２０Ａ（通知部２２０Ｂ）が実行される。

切替制御装置１１０では、出力許可部１１１は、計算機１００単位で後述する出力許可信号の出力の可否を制御する。
出力許可部１１１は、許可信号出力部の例に相当する。
Ｉ／Ｆ通信部１１２は、計算機１００の切替Ｉ／Ｆ１３０と通信する。
Ｉ／Ｆ通信部１１２は、起動検知部の例に相当する。
切替通知部１１３は、切替内容を計算機１００の構成管理部２１０に送信する。
切替通知部１１３は、稼動指示部の例に相当する。
状態管理部１１４は、各計算機１００上の各システム及びデバイスの稼動状況を管理する。
状態管理部１１４は、代替選択部の例に相当する。

出力許可部１１１と各デバイスＩ／Ｆ１４０は出力許可信号線３００で接続されており、出力許可部１１１は、デバイスＩ／Ｆ１４０からデバイスへの信号出力を許可する信号である出力許可信号を出力許可信号線３００に送出する。
出力許可部１１１から信号許可信号が送出されると、デバイスＩ／Ｆ１４０の出力はデバイスに到達するようになっている。
出力許可信号線３００は、切替制御装置１１０が動作していない場合は出力許可信号を出さないようにハードウェアロジックで設定されている。

各計算機１００では、システムからデバイスへの信号出力が出力管理部２００により許可され、システムからの信号が出力管理部２００からデバイスＩ／Ｆ１４０へ転送され、かつ、出力許可部１１１から出力許可信号が出力されている場合のみに、デバイスＩ／Ｆ１４０からデバイスへ信号が送信される。

なお、図１では２台の計算機が接続された２重系として示しているが、Ｎ（Ｎ≧３）台が接続されたＮ重系であってもよい。

次に、図１の構成における動作の概要を説明する。

両計算機１００が稼動する前の初期状態において切替制御装置１１０の出力許可部１１１は両計算機１００に対して出力許可信号を出力しない（両計算機１００ともデバイスへの出力が禁止される）。
また、各計算機１００のハイパーバイザ１５０の出力管理部２００も各デバイスの出力を禁止する設定で起動する。

計算機Ａ１００Ａが起動し、ハイパーバイザ１５０Ａ及び計算機１００Ａ上の系切り替え診断システム（ＯＳ１６０−３Ａ、構成管理部２１０Ａ、通知部２２０Ａ）が動作できる状態になると、構成管理部２１０Ａは通知部２２０Ａを使用し、切替Ｉ／Ｆ１３０Ａから切替制御装置１１０のＩ／Ｆ通信部１１２に向けて計算機１００Ａのシステム構成を記した参入通知を送信する。
図２は参入通知の例である。
参入通知には、少なくとも、計算機１００を一意に特定するための計算機ＩＤ（Ｉｄｅｎｔｉｆｉｅｒ）Ｆ１００と、計算機１００内のシステム数Ｆ１１０と、計算機１００内のシステムを特定するためのシステムＩＤＦ１２０が含まれる。
図２の例では、計算機Ａ１００Ａ上でシステムＡＢＣとシステムＤＥＦが動作することを示している。
また、この参入通知をすべての計算機から切替制御装置１１０に集めることにより、システムごとの冗長度（２重系、３重系）を定義することができる。
例えば図２の例ではシステムＡＢＣは３重系で、システムＤＥＦとシステムＧＨＩは２重系である。
なお、図２及び後述の図３の例では、計算機Ａ〜計算機Ｃが切替制御装置１１０に接続されている構成を前提としている。

ハイパーバイザ１５０の起動後、デバイスを制御するアプリケーションを含んだシステム（図１において例えばＯＳ１６０−１Ａ、アプリケーション１７０−１Ａ、管理部１８０−１Ａ）が起動する。
管理部１８０−１Ａはハイパーバイザ１５０Ａの切替Ｉ／Ｆ模擬部１９０Ａを操作し、構成管理部２１０Ａにシステムの正常起動を通知する。
構成管理部２１０Ａは、通知部２２０Ａを使用してシステムの状態変更通知を切替制御装置１１０に送信する。
図３は状態変更通知の例である。
状態変更通知には、少なくとも、計算機の識別子となる計算機ＩＤＦ２００と、状態変更通知で状態の変更を通知するシステムの数を示す通知システム数Ｆ２１０と、各システムの状態を示すシステム状態Ｆ２２０が含まれる。
システム状態Ｆ２２０には、少なくともシステムＩＤＦ２２１と状態Ｆ２２２が含まれる。
ここで用いられる計算機ＩＤＦ２００やシステムＩＤＦ２２１は計算機起動時の参入通知で使用したものと同じ値が用いられる。
状態の変更が発生しなかったシステムは状態変更通知に含ませなくてもよい。
システムがとりうる状態は、運用状態、待機状態、異常状態である。
運用状態は、システムが運用系として動作している状態である。
待機状態は、システムが待機系として待機している状態である。
異常状態は、システムに異常が発生している状態である。
システム起動直後の状態は、正常起動した場合は待機状態、異常を検出し動作不能の場合は異常状態である。
各システムは後に述べるように切替Ｉ／Ｆ模擬部１９０Ａから運用状態に移行する指示を受けるまで運用状態の動作を行わない。

切替制御装置１１０は、Ｉ／Ｆ通信部１１２で受信したメッセージを解釈し、状態管理部１１４に計算機１００のシステム構成及び状態を登録する。
Ｉ／Ｆ通信部１１２は、計算機Ａ１００Ａから参入通知を受信した時点で、出力許可部１１１から、計算機Ａ１００Ａ側の出力許可信号線３００Ａに出力許可信号を送出させる。
次に、状態管理部１１４が、各計算機１００における各システムの稼動状態をチェックし、システム単位で１つを運用系、他を待機系に決定する。
状態管理部１１４は、系決定通知を切替通知部１１３を使用して各計算機１００に送信する。
切替通知部１１３は、Ｉ／Ｆ通信部１１２を通じて系決定通知を各計算機１００の構成管理部２１０に送信する。
図４は系決定通知の例である。
系決定通知は、少なくとも、計算機の識別子となる計算機ＩＤＦ３００と、系決定通知が通知の対象としているシステムの数を示す通知システム数Ｆ３１０と、各システムに対するシステム変更指示Ｆ３２０が含まれる。
システム変更指示Ｆ３２０には、少なくともシステムＩＤＦ３２１と変更後の状態を示す状態Ｆ２２２が含まれる。

計算機Ａ１００Ａにおいて、系決定通知を受信した構成管理部２１０Ａは通知内容に従い出力管理部２００Ａの設定を変更する。
すなわち、構成管理部２１０Ａは、該当するシステムが運用状態であれば、該当システムから対応デバイスへの信号出力を許可するとの設定を出力管理部２００Ａに行う。
また、該当するシステムが待機状態であれば、構成管理部２１０Ａは、該当システムから対応デバイスへの信号出力を禁止するとの設定を出力管理部２００Ａに行う。
また、構成管理部２１０Ａは、切替Ｉ／Ｆ模擬部１９０Ａを通じて該当するシステムの管理部１８０に系切り替えを通知する。
例えば管理部１８０−１Ａが運用系への変更通知を受信した場合、管理部１８０−１Ａはアプリケーション１７０−１Ａの動作モードを変更し、アプリケーション１７０−１Ａは通常運転状態への動作切り替えを行う。

以上が計算機１００の起動時の動作である。

次に、計算機Ｂ１００ＢのシステムＡＢＣ（ＯＳ１６０−１Ｂとアプリケーション１７０−１Ｂと管理部１８０−１Ｂで構成されるシステム）で障害が発生した場合の動作概要を図１を用いて説明する。
ここでは、デバイスＩ／Ｆ１４０−１Ｂが故障したために計算機Ｂ１００のシステムＡＢＣに障害が発生したものとする。
また、計算機Ｂ１００ＢのシステムＡＢＣが運用系であり、計算機Ａ１００ＡのシステムＡＢＣが待機系であるとする。

計算機Ｂ１００Ｂのアプリケーション１７０−１ＢはデバイスＩ／Ｆ１４０−１Ｂの異常を検出し、管理部１８０−１Ｂに異常の検出を通知する。
管理部１８０−１Ｂは、故障の影響度合いを判定し、動作継続不能と判断した場合は、切替Ｉ／Ｆ模擬部１９０Ａを操作し、処理継続不能を構成管理部２１０Ａに通知する。
構成管理部２１０Ａは、通知部２２０Ａを使用し、切替制御装置１１０に状態変更通知を送信する。
状態変更通知を受信した切替制御装置１１０は状態管理部１１４を更新する。
この後の動作は、上記の起動時の動作と同一である。
つまり、状態管理部１１４は、各計算機１００における各システムの稼動状態をチェックし、異常状態でない計算機Ａ１００ＡのシステムＡＢＣを運用系とし、計算機Ｂ１００ＢのシステムＡＢＣを待機系とする。
状態管理部１１４は、系決定通知を切替通知部１１３を使用して各計算機１００に送信する。

図５は、故障発生時の各計算機１００の状態遷移を時系列に並べたイメージ図である。

図５では、左から右方向に時間が流れており、まず、計算機Ｂ１００Ｂが稼動し、システムＡＢＣとシステムＤＥＦが運用状態で稼動している。
計算機Ａ１００Ａが起動した時点で、計算機Ａ１００Ａから切替制御装置１１０に参入通知が送信される。
この時点で計算機Ａ１００Ａのシステムは全て未起動のため異常状態である。
その後、計算機Ａ１００Ａの各システムが起動することにより待機状態に遷移し、計算機Ａ１００Ａは切替制御装置１１０に状態変更通知を発行する。
その後、計算機Ｂ１００ＢのシステムＡＢＣが異常を検出した場合、計算機Ｂ１００ＢのシステムＡＢＣは異常状態に遷移し、計算機Ｂ１００Ｂが切替制御装置１１０に状態変更通知を発行する。
切替制御装置１１０は計算機Ａ１００ＡのシステムＡＢＣが待機状態であるため、計算機Ａ１００ＡのシステムＡＢＣを運用状態にするための系変更通知を発行する。
系変更通知を受信した計算機Ａ１００Ａでは、システムＡＢＣが運用系としての稼働を開始する。
また、切替制御装置１１０は、計算機Ｂ１００Ｂにも系変更通知を送信する。
系変更通知を受信した計算機Ｂ１００Ｂでは、システムＡＢＣが稼働を停止する。
その後、計算機Ｂ１００ＢのシステムＡＢＣにおいて、デバイスの交換やＯＳの再起動により機能が復旧した場合、計算機Ｂ１００ＢのシステムＡＢＣは待機状態に遷移し、系変更通知を切替制御装置１１０に送信する。

図５の例では、切替制御装置１１０から計算機Ａ１００ＡのシステムＡＢＣを運用系にする旨の系変更通知を受信するまでは、計算機Ａ１００ＡのシステムＡＢＣは待機状態にあるので、計算機Ａ１００Ａの出力管理部２００Ａは、計算機Ａ１００ＡのシステムＡＢＣがデバイス１と通信できないように制御する。
そして、切替制御装置１１０から計算機Ａ１００ＡのシステムＡＢＣを運用系にする旨の系変更通知を受信すると、計算機Ａ１００ＡのシステムＡＢＣは運用状態になるので、計算機Ａ１００Ａの出力管理部２００Ａは、計算機Ａ１００ＡのシステムＡＢＣがデバイス１と通信できるように制御する。
一方、計算機Ｂ１００Ｂでは、システムＡＢＣに障害が発生するまでは、計算機Ｂ１００ＢのシステムＡＢＣは運用状態なので、計算機Ｂ１００Ｂの出力管理部２００Ｂは、計算機Ｂ１００ＢのシステムＡＢＣがデバイス１と通信できるように制御する。
そして、システムＡＢＣに障害が発生すると、計算機Ｂ１００ＢのシステムＡＢＣは異常状態になるので、計算機Ｂ１００Ｂの出力管理部２００Ｂは、計算機Ｂ１００ＢのシステムＡＢＣがデバイス１と通信できないように制御する。

次に、計算機シャットダウン時の動作を説明する。
計算機１００のシャットダウンを行う際、各システムはシャットダウンにより停止する。
このとき、構成管理部２１０は切替制御装置１１０にシステムが異常状態になった旨を伝える系変更通知を発行し、各システムの系切り替えを実施する。
その後、計算機１００の登録を状態管理部１１４から抹消するため、構成管理部２１０は離脱通知を切替制御装置１１０に送信する。
離脱通知を受信した切替制御装置１１０のＩ／Ｆ通信部１１２は状態管理部１１４の登録情報から該当計算機１００のエントリーを削除するとともに、出力許可部１１１を設定し、該当計算機１００への出力許可信号の送出を停止する。

次に、計算機１００全体が故障した場合の動作を説明する。
切替制御装置１１０は、各計算機１００が動作しているかを把握する。
把握の方法として、切替Ｉ／Ｆ１３０の電気信号のアップダウンを監視することで切替Ｉ／Ｆ１３０が通電しているかチェックする方法と、状態管理部１１４が定期的に状態通知の発行をリクエストするメッセージを発行し、計算機１００からの状態通知の発行状況を確認する等の方法がある。
切替制御装置１１０では、これらの方法で計算機１００全体の障害を検出した場合に、切替通知部１１３が、該当計算機１００で稼動中の全システムを他の計算機に切り替え、状態管理部１１４が該当計算機のエントリーを削除し、出力許可部１１１が該当計算機１００への出力許可信号の送出を停止する。

次に、切替制御装置１１０のＩ／Ｆ通信部１１２の動作フローを説明する。
図６は、切替制御装置１１０のＩ／Ｆ通信部１１２が計算機１００から通知を受信した際の動作フローである。
Ｓ１００は通知内容を把握する処理である。
Ｓ１０１、Ｓ１１１、Ｓ１２１は通知内容により分岐する処理である。
図６では、Ｓ１０１、Ｓ１１１、Ｓ１２１の順でチェックしているが順序は異なっていてもよい。
図６のフローは周期的に実行してもよいし、イベント駆動により実行してもよい。

Ｓ１００では、Ｉ／Ｆ通信部１１２は、いずれかの通知を受信したかどうかをチェックする。

計算機１００から参入通知を受信したことが判明した場合（Ｓ１０１でＹＥＳ）は、Ｓ１０２で、Ｉ／Ｆ通信部１１２は、参入通知の記述に従って、状態管理部１１４に計算機１００のシステム構成を記録する。
この時点では、該当計算機１００の各システムは未起動のため、Ｉ／Ｆ通信部１１２は、状態管理部１１４に各システムの状態として異常状態を記録する。

次に、Ｉ／Ｆ通信部１１２は、Ｓ１０３にて、出力許可部１１１の設定を行い該当計算機１００の出力を許可する。
つまり、出力許可部１１１に出力許可信号を送出させる。

計算機１００から離脱通知を受信したことが判明した場合（Ｓ１０１でＮＯ、Ｓ１１１でＹＥＳ）は、Ｉ／Ｆ通信部１１２は、Ｓ１１２にて、状態管理部１１４の該当計算機１００のシステム構成記録を抹消し、Ｓ１１３にて、出力許可部１１１の設定を行い該当計算機の出力を禁止する。
つまり、出力許可部１１１に出力許可信号の送出を停止させる。

計算機１００から状態変更通知を受信したことが判明した場合（Ｓ１０１でＮＯ、Ｓ１１１でＮＯ、Ｓ１２１でＹＥＳ）は、Ｉ／Ｆ通信部１１２は、Ｓ１２２にて、状態管理部１１４に記録されている情報を更新する。

次に、ハイパーバイザ１５０の出力管理部２００の動作フローを説明する。
図７は、ハイパーバイザ１５０の出力管理部２００の動作フローである。

デバイスを操作するシステムでは、アプリケーション１７０からの要求に従い、ＯＳ１６０がデバイスＩ／Ｆ１４０の操作要求をハイパーバイザ１５０に発行する。
操作要求には、ＯＳ１６０からデバイスへの信号が含まれる。

出力管理部２００は、操作要求に対し、Ｓ２００にて、該当システムがデバイスへの出力を許可されているか判定する。

該当システムがデバイスへの出力を許可されている場合（Ｓ２００でＹＥＳ）は、出力管理部２００は、Ｓ２０１にて要求通りにデバイスＩ／Ｆ１４０の操作を行う。
つまり、出力管理部２００は、ＯＳ１６０からデバイスへの信号をデバイスＩ／Ｆ１４０に転送し、デバイスＩ／Ｆ１４０からデバイスに信号を送信させる。
システムが運用状態のときに、デバイスへの出力が許可される。

一方、該当システムがデバイスへの出力を許可されていない場合（Ｓ２００でＮＯ）は、出力管理部２００は、Ｓ２１１にて、ＯＳ１６０からの操作要求に偽の応答を返すが、実際にはデバイスＩ／Ｆ１４０の操作を行わず、デバイスへの出力を防止する。
つまり、出力管理部２００は、ＯＳ１６０からデバイスへの信号を破棄するとともに、デバイスからの応答信号を模擬する模擬信号をＯＳ１６０に送信する。
システムが待機状態又は異常状態のときに、デバイスへの出力が禁止される。

以上の本実施の形態に係る動作における効果を説明する。

本実施の形態では、ハイパーバイザ１５０が出力管理部２００を備え、切替制御装置１１０の状態管理部１１４の判定に基づき、出力管理部２００が、システムからデバイスＩ／Ｆ１４０への出力可否を制御している。
このため、計算機１００内のシステム単位、デバイス単位で出力を制御でき、計算機１００内の一部のシステムで切り替えを行っても、他のシステムは動作し続けることができるという効果を得ることができる。
また、システムのＯＳやアプリケーションが異常動作を起こして許可されていない出力を行ってしまった場合でも、他のシステムに影響を与えることなく該当システムの出力のみを停止することができる。

また、本実施の形態では、切替制御装置１１０が出力許可部１１１を通じて出力許可信号線３００に出力許可信号を送出し、出力許可信号が送出されなければ各デバイスＩ／Ｆ１４０からの信号がデバイスに出力されないようになっている。
このため、切替制御装置１１０が故障している場合でも、複数の計算機１００から同一のデバイスに信号が送出されてしまう事態を回避することができ、デバイスが不安定な挙動となることがない。

また、本実施の形態では、計算機１００のハイパーバイザ１５０及び系切り替え診断システム（ＯＳ１６０−３、構成管理部２１０、通知部２２０）が正常起動したときに、切替制御装置１１０が参入通知を受信する。
このため、ハイパーバイザ１５０及び系切り替え診断システムが正常に起動できず、システム単位の系切り替えができない状態でデバイスＩ／Ｆ１４０からデバイスへの信号が出力される事態を回避することができ、デバイスが不安定な挙動となることがない。

また、本実施の形態では、状態管理部１１４が各計算機１００のシステム単位で系切り替えを判定する。
このため、計算機１００ごとに異なるシステムを搭載することができる。
また、重要度に応じて、あるシステムは２重系にし、あるシステムは３重系にするなど冗長度を可変にした計算機構成にするなどの柔軟な構成を得ることができるという効果を得ることができる。

最後に、本実施の形態で示した計算機１００及び切替制御装置１１０のハードウェア構成例を図８を参照して説明する。
計算機１００及び切替制御装置１１０はコンピュータであり、計算機１００及び切替制御装置１１０の各要素をプログラムで実現することができる。
計算機１００及び切替制御装置１１０のハードウェア構成としては、バスに、演算装置９０１、外部記憶装置９０２、主記憶装置９０３、通信装置９０４、入出力装置９０５が接続されている。

演算装置９０１は、プログラムを実行するＣＰＵカードである。
外部記憶装置９０２は、例えばＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やフラッシュメモリ、ハードディスク装置である。
主記憶装置９０３は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）である。
通信装置９０４は、例えばＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）である。
入出力装置９０５は、例えばマウス、キーボード、ディスプレイ装置等である。

プログラムは、通常は外部記憶装置９０２に記憶されており、主記憶装置９０３にロードされた状態で、順次演算装置９０１に読み込まれ、実行される。
プログラムは、図１に示す「〜部」として説明している機能を実現するプログラムである。
更に、外部記憶装置９０２にはハイパーバイザ及びＯＳも記憶されており、ハイパーバイザ及びＯＳの少なくとも一部が主記憶装置９０３にロードされ、演算装置９０１はハイパーバイザ及びＯＳを実行しながら、図１に示す「〜部」の機能を実現するプログラムを実行する。
また、アプリケーションも外部記憶装置９０２に記憶されており、主記憶装置９０３にロードされた状態で、順次演算装置９０１により実行される。
また、本実施の形態の説明において、「〜の判断」、「〜の判定」、「〜の制御」、「〜の許可」、「〜の禁止」、「〜の設定」、「〜の選択」、「〜の生成」、「〜の更新」、「〜の受信」等として説明している処理の結果を示す情報やデータや信号値や変数値が主記憶装置９０３にファイルとして記憶されている。

なお、図８の構成は、あくまでも計算機１００及び切替制御装置１１０のハードウェア構成の一例を示すものであり、計算機１００及び切替制御装置１１０のハードウェア構成は図８に記載の構成に限らず、他の構成であってもよい。

１００計算機装置、１１０切替制御装置、１１１出力許可部、１１２Ｉ／Ｆ通信部、１１３切替通知部、１１４状態管理部、１２０ＣＰＵカード、１３０切替Ｉ／Ｆ、１４０デバイスＩ／Ｆ、１５０ハイパーバイザ、１６０ＯＳ、１７０アプリケーション、１８０管理部、１９０切替Ｉ／Ｆ模擬部、２００出力管理部、２１０構成管理部、２２０通知部、３００出力許可信号線。

Claims

各々が複数のデバイスのうちのいずれかのデバイスに対応付けられ、対応付けられている対応デバイスと通信してデータ処理を行う複数のデータ処理システムが含まれる計算機装置であって、
データ処理システムごとに、データ処理システムの状態に応じて、データ処理システムと対応デバイスとの間の通信が許可されるか否かを判定する判定部と、
いずれかのデータ処理システムから送信された対応デバイスへの信号を受信し、前記信号の送信元のデータ処理システムが前記判定部により対応デバイスとの通信が許可された許可データ処理システムである場合に、前記許可データ処理システムからの信号を対応デバイスに対して転送し、前記信号の送信元のデータ処理システムが前記判定部により対応デバイスとの通信が禁止された禁止データ処理システムである場合に、前記禁止データ処理システムからの信号を破棄する通信制御部とを有することを特徴とする計算機装置。
前記通信制御部は、
前記禁止データ処理システムからの信号を破棄するとともに、前記禁止データ処理システムに対して、前記対応デバイスからの信号を模擬する模擬信号を送信することを特徴とする請求項１に記載の計算機装置。
前記判定部は、
異常が発生しているデータ処理システムと対応デバイスとの間の通信を禁止することを特徴とする請求項１に記載の計算機装置。
前記判定部は、
待機状態にあるデータ処理システムと対応デバイスとの間の通信を禁止することを特徴とする請求項１に記載の計算機装置。
複数の計算機装置と、前記複数の計算機装置を管理する管理装置とを有する計算機機構であって、
各計算機装置には、
各々が複数のデバイスのうちのいずれかのデバイスに対応付けられ、対応付けられている対応デバイスと通信してデータ処理を行う複数のデータ処理システムが含まれ、
各計算機装置は、
前記複数のデバイスと接続された複数のデバイスインタフェースと、
データ処理システムごとに、データ処理システムの状態に応じて、データ処理システムと対応デバイスとの間の通信が許可されるか否かを判定する判定部と、
データ処理システムごとに、前記判定部の判定結果に合わせてデータ処理システムと対応デバイスとの間の通信を制御する通信制御部とを有し、
前記管理装置は、
前記判定部と前記通信制御部とが起動された計算機装置を検知する起動検知部と、
各計算機装置のデバイスインタフェースに接続され、前記起動検知部により前記判定部と前記通信制御部とが起動されたことが検知された計算機装置のデバイスインタフェースに、デバイスとの通信を許可する許可信号を出力する許可信号出力部とを有することを特徴とする計算機機構。
各計算機装置において、
前記通信制御部は、
各データ処理システムから送信された対応デバイスへの信号を受信し、
前記信号の送信元のデータ処理システムが前記判定部により対応デバイスとの通信が許可された許可データ処理システムである場合に、前記許可データ処理システムからの信号を対応デバイスに接続されているデバイスインタフェースに転送し、
前記信号の送信元のデータ処理システムが前記判定部により対応デバイスとの通信が禁止された禁止データ処理システムである場合に、前記禁止データ処理システムからの信号を破棄することを特徴とする請求項５に記載の計算機機構。
各計算機装置において、
各デバイスインタフェースは、
前記通信制御部から、前記許可データ処理システムからの信号を受信した場合に、前記管理装置の前記許可信号出力部から許可信号を受信している場合に、前記許可データ処理システムの対応デバイスに前記許可データ処理システムからの信号を送信することを特徴とする請求項６に記載の計算機機構。
前記管理装置は、更に、
いずれかの計算機装置のいずれかのデータ処理システムに異常が発生している場合に、異常が発生している異常発生データ処理システムが含まれる計算機装置以外の計算機装置に含まれるデータ処理装置の中から前記異常発生データ処理システムを代替するデータ処理システムを代替データ処理システムとして選択する代替選択部と、
前記異常発生データ処理システムが含まれる計算機装置に、前記異常発生データ処理システムの稼動停止を指示するとともに、前記代替データ処理システムが含まれる計算機装置に、前記代替データ処理システムの稼動開始を指示する稼動指示部とを有することを特徴とする請求項５に記載の計算機機構。