JP6109404B2 - 計算機装置及び計算機機構 - Google Patents

計算機装置及び計算機機構 Download PDF

Info

Publication number
JP6109404B2
JP6109404B2 JP2016506052A JP2016506052A JP6109404B2 JP 6109404 B2 JP6109404 B2 JP 6109404B2 JP 2016506052 A JP2016506052 A JP 2016506052A JP 2016506052 A JP2016506052 A JP 2016506052A JP 6109404 B2 JP6109404 B2 JP 6109404B2
Authority
JP
Japan
Prior art keywords
data processing
computer
processing system
signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016506052A
Other languages
English (en)
Other versions
JPWO2015132953A1 (ja
Inventor
大樹 増田
大樹 増田
敦 攝津
敦 攝津
真一 落合
真一 落合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2015132953A1 publication Critical patent/JPWO2015132953A1/ja
Application granted granted Critical
Publication of JP6109404B2 publication Critical patent/JP6109404B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2005Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication controllers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2048Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Hardware Redundancy (AREA)

Description

本発明は、計算機におけるデバイス管理に関する。
マルチコアCPU(Central Processing Unit)や大容量メモリが普及したことにより、OS(Operating System)やアプリケーションプログラム(以下、アプリケーションという)が含まれるデータ処理システム(以下、単にシステムともいう)を一つの計算機に複数搭載した、マルチシステム計算機構成が多く用いられるようになってきている。
このような計算機はシステムの集積度が増したことにより、障害発生時の影響範囲が大きく、システム単位で障害の検出と系切り替えを行う技術が開発されている。
例えば特許文献1では、以下の技術が開示されている。
通常の業務を行う第1のOSと、第1のOSと異なる第2のOSを備え、第2のOSが第1のOSの保持する情報の内容を解析することで障害の兆候を捉える。
そして、第2のOSが、他の計算機に解析内容を伝達することで第1のOSの処理を他の計算機に引き継がせる。
また、例えば特許文献2では、以下の技術が開示されている。
第1のOS上で稼動するプログラムの実行状態を監視する監視手段を設け、監視手段が、障害の予兆が検出された時に第2のOS上で稼動する論理計算機管理手段に通知を行う。
そして、論理計算機管理手段が、第1のOSの処理を引き継ぐ第3のOSを新たに起動することで処理の継続を可能にする。
また、特許文献3では、以下の技術が開示されている。
複数のシングルシステム計算機に対応する仮想計算機を集約したマルチシステム計算機を用意し、いずれかのシングルシステム計算機に障害が発生したときにマルチシステム計算機上の仮想計算機が処理を引き継ぐことで処理継続を実現する。
一方で、モータ等の物理的な機器を制御するシステムの障害に備えた系切り替え装置では、以下の技術が存在する。
複数の系から制御信号が出ることによる制御不安定化を防ぐため、系切り替え装置が、実際に機器の制御を担当する運用系と障害に備えている待機系のうち、運用系のみが制御信号を出力できるように排他制御を行う。
例えば特許文献4では、以下の技術が開示さている。
アクチュエーターに対する制御信号を送信するユニットを二重化し、ユニット外に設置した主従選択モジュールが高速に運用系のユニットと待機系のユニットの状態を判定する。
運用系のユニットが異常な場合に正常な待機系のユニットを運用系に切り替えて運用系のみ制御信号を出力し、両系で制御信号の応答を受信する。
特開2005−115751号公報 特開2004−30363号公報 特開2013−37433号公報 特開2005−56241号公報
1台の計算機上で1つのシステムが稼動しているシングルシステム計算機では、当該シングルシステム計算機上のシステムに障害が発生した場合(例えば、一部のインタフェース装置に故障が発生した場合)に、系の切り替えが必要になる。
シングルシステム計算機では、系の切り替えを行う場合は、当該シングルシステム計算機に接続されている全デバイスの出力を停止することができる。
このため、当該シングルシステム計算機の全デバイスの出力を無効化し、待機系計算機の全デバイスの出力を有効化して、系の切り替えが行われる。
複数のシステムが動作するマルチシステム計算機では、システムごとに1つの以上のデバイスを制御している。
上記のようなシングルシステム計算機における切り替え方式をマルチシステム計算機に適用した場合は、障害が発生したシステムが制御しているインタフェース装置だけでなく、障害が発生したシステムと無関係で当該障害から影響を受けない他のシステムが制御しているインタフェース装置も無効化されてしまう。
このため、マルチシステム計算機上の全システムの系切り替えを行う必要がある。
従って、不必要な系切り替えが発生することにより、パフォーマンスの低下や冗長度の低下などが発生するという課題がある。
この発明は、このような課題を解決することを主な目的とし、マルチシステム計算機において、データ処理システムごとの系切り替えを可能にすることを主な目的とする。
本発明に係る計算機装置は、
各々が複数のデバイスのうちのいずれかのデバイスに対応付けられ、対応付けられている対応デバイスと通信してデータ処理を行う複数のデータ処理システムが含まれる計算機装置であって、
データ処理システムごとに、データ処理システムの状態に応じて、データ処理システムと対応デバイスとの間の通信が許可されるか否かを判定する判定部と、
データ処理システムごとに、前記判定部の判定結果に合わせてデータ処理システムと対応デバイスとの間の通信を制御する通信制御部とを有することを特徴とする。
本発明では、データ処理システムの状態に応じて、データ処理システムごとに対応デバイスとの間の通信を制御することができる。
このため、障害が発生したデータ処理システムと対応デバイスとの間の通信のみを停止させることができ、障害が発生したデータ処理システムに限定した系切り替えが可能である。
実施の形態1に係る計算機機構の全体構成例を示す図。 実施の形態1に係る参入通知の例を示す図。 実施の形態1に係る状態変更通知の例を示す図。 実施の形態1に係る系決定通知の例を示す図。 実施の形態1に係る故障発生時の状態変化の例を示す図。 実施の形態1に係る切替制御装置の動作例を示すフローチャート図。 実施の形態1に係るハイパーバイザの動作例を示すフローチャート図。 実施の形態1に係る計算機及び切替制御装置のハードウェア構成例を示す図。
実施の形態1.
本実施の形態では、マルチシステム計算機において、個々のシステムに限定した系切り替えを可能にする構成を説明する。
図1は、本実施の形態に係る計算機機構を示す。
図1に示す計算機機構は、マルチシステム計算機である計算機装置A100Aと計算機装置B100Bと、切替制御装置110とで構成される。
図1では、計算機装置A100Aと計算機装置B100Bとにより冗長化が図られている。
なお、以下では、計算機装置A100Aは、計算機A100Aともいい、計算機装置B100Bは、計算機B100Bともいう。
また、計算機装置A100A、計算機装置B100Bを区別する必要がないときは、両者を示す表記として、計算機100と表記する。
図1において、計算機A100Aと計算機B100Bは切替制御装置110を経由して接続されている。
また、各計算機100には、各計算機100が制御する機器であるデバイス1及びデバイス2と接続されている。
デバイス1及びデバイス2は、例えばモータである。
各計算機100にはCPUを搭載したCPUカード120が存在し、CPUカード120上のソフトウェアは切替I/F(インタフェース)130を通じて切替制御装置110と通信する。
また、CPUカード120には、デバイスを制御するためのインタフェースカードであるデバイスI/F140が接続されている。
CPUカード120上では、1台のCPUカード120上で複数のOSを実行するハイパーバイザ150が実行されている。
ハイパーバイザ150上では、複数のOS160が動作している。
OS160上では、デバイスを制御するアプリケーション170と、デバイスの状態やOSの状態から処理継続可否を判定する管理部180が動作している。
OS160とアプリケーション170と管理部180で1つのデータ処理システムを構成する。
つまり、計算機A100Aでは、OS160−1Aとアプリケーション170−1Aと管理部180−1Aで構成されるデータ処理システムと、OS160−2Aとアプリケーション170−2Aと管理部180−2Aで構成されるデータ処理システムが含まれる。
また、計算機B100Bでは、OS160−1Bとアプリケーション170−1Bと管理部180−1Bで構成されるデータ処理システムと、OS160−2Bとアプリケーション170−2Bと管理部180−2Bで構成されるデータ処理システムが含まれる。
計算機A100AのOS160−1Aとアプリケーション170−1Aと管理部180−1Aで構成されるデータ処理システムと、計算機B100BのOS160−1Bとアプリケーション170−1Bと管理部180−1Bで構成されるデータ処理システムを、以下ではシステムABCという。
システムABCは、このように計算機A100A及び計算機B100Bで冗長化されている。
システムABCは、デバイス1と通信して所定のデータ処理を行う。
システムABCが用いるデバイス1を、システムABCの対応デバイスという。
また、計算機A100AのOS160−2Aとアプリケーション170−2Aと管理部180−2Aで構成されるデータ処理システムと、計算機B100BのOS160−2Bとアプリケーション170−2Bと管理部180−2Bで構成されるデータ処理システムを、以下ではシステムDEFという。
システムDEFは、このように計算機A100A及び計算機B100Bで冗長化されている。
システムDEFは、デバイス2と通信して所定のデータ処理を行う。
システムDEFが用いるデバイス2を、システムDEFの対応デバイスという。
ハイパーバイザ150には、各OS160に対して切替I/Fを模擬する切替I/F模擬部190とOS160からデバイスI/F140の出力を制御する出力管理部200がある。
より具体的には、出力管理部200は、データ処理システムごとに、データ処理システムの状態に応じて、データ処理システムと対応デバイスとの間の通信が許可されるか否かを判定する。
例えば、出力管理部200Aは、計算機A100AのシステムABC(OS160−1Aとアプリケーション170−1Aと管理部180−1A)に障害が発生していれば、計算機A100AのシステムABCとデバイス1との間の通信を禁止する旨を決定する。
そして、出力管理部200は、判定結果に合わせてデータ処理システムとデバイスとの間の通信を制御する。
出力管理部200Aは、計算機A100AのシステムABCとデバイス1との間の通信を許可する場合には、計算機A100AのシステムABCからデバイス1への信号をデバイスI/F140−1Aに転送して、計算機A100AのシステムABCがデバイス1と通信できるようにする。
一方、計算機A100AのシステムABCとデバイス1との間の通信を禁止する場合には、出力管理部200は、計算機A100AのシステムABCからデバイス1への信号を破棄して、計算機A100AのシステムABCがデバイス1と通信できないようにする。
出力管理部200は、判定部及び通信制御部の例に相当する。
計算機100上の1つのOS160は系切り替えを制御するシステムとして稼動する。
具体的には、計算機A100Aでは、OS160−3Aが系切り替えのためのOSであり、計算機B100Bでは、OS160−3Bが系切り替えのためのOSである。
OS160−3A(OS160−3B)上では、デバイスI/F140とOS160の対応付けを管理する構成管理部210A(構成管理部210B)と、切替I/F130A(切替I/F130B)を制御して切替制御装置110と通信する通知部220A(通知部220B)が実行される。
切替制御装置110では、出力許可部111は、計算機100単位で後述する出力許可信号の出力の可否を制御する。
出力許可部111は、許可信号出力部の例に相当する。
I/F通信部112は、計算機100の切替I/F130と通信する。
I/F通信部112は、起動検知部の例に相当する。
切替通知部113は、切替内容を計算機100の構成管理部210に送信する。
切替通知部113は、稼動指示部の例に相当する。
状態管理部114は、各計算機100上の各システム及びデバイスの稼動状況を管理する。
状態管理部114は、代替選択部の例に相当する。
出力許可部111と各デバイスI/F140は出力許可信号線300で接続されており、出力許可部111は、デバイスI/F140からデバイスへの信号出力を許可する信号である出力許可信号を出力許可信号線300に送出する。
出力許可部111から信号許可信号が送出されると、デバイスI/F140の出力はデバイスに到達するようになっている。
出力許可信号線300は、切替制御装置110が動作していない場合は出力許可信号を出さないようにハードウェアロジックで設定されている。
各計算機100では、システムからデバイスへの信号出力が出力管理部200により許可され、システムからの信号が出力管理部200からデバイスI/F140へ転送され、かつ、出力許可部111から出力許可信号が出力されている場合のみに、デバイスI/F140からデバイスへ信号が送信される。
なお、図1では2台の計算機が接続された2重系として示しているが、N(N≧3)台が接続されたN重系であってもよい。
次に、図1の構成における動作の概要を説明する。
両計算機100が稼動する前の初期状態において切替制御装置110の出力許可部111は両計算機100に対して出力許可信号を出力しない(両計算機100ともデバイスへの出力が禁止される)。
また、各計算機100のハイパーバイザ150の出力管理部200も各デバイスの出力を禁止する設定で起動する。
計算機A100Aが起動し、ハイパーバイザ150A及び計算機100A上の系切り替え診断システム(OS160−3A、構成管理部210A、通知部220A)が動作できる状態になると、構成管理部210Aは通知部220Aを使用し、切替I/F130Aから切替制御装置110のI/F通信部112に向けて計算機100Aのシステム構成を記した参入通知を送信する。
図2は参入通知の例である。
参入通知には、少なくとも、計算機100を一意に特定するための計算機ID(Identifier)F100と、計算機100内のシステム数F110と、計算機100内のシステムを特定するためのシステムID F120が含まれる。
図2の例では、計算機A100A上でシステムABCとシステムDEFが動作することを示している。
また、この参入通知をすべての計算機から切替制御装置110に集めることにより、システムごとの冗長度(2重系、3重系)を定義することができる。
例えば図2の例ではシステムABCは3重系で、システムDEFとシステムGHIは2重系である。
なお、図2及び後述の図3の例では、計算機A〜計算機Cが切替制御装置110に接続されている構成を前提としている。
ハイパーバイザ150の起動後、デバイスを制御するアプリケーションを含んだシステム(図1において例えばOS160−1A、アプリケーション170−1A、管理部180−1A)が起動する。
管理部180−1Aはハイパーバイザ150Aの切替I/F模擬部190Aを操作し、構成管理部210Aにシステムの正常起動を通知する。
構成管理部210Aは、通知部220Aを使用してシステムの状態変更通知を切替制御装置110に送信する。
図3は状態変更通知の例である。
状態変更通知には、少なくとも、計算機の識別子となる計算機ID F200と、状態変更通知で状態の変更を通知するシステムの数を示す通知システム数F210と、各システムの状態を示すシステム状態F220が含まれる。
システム状態F220には、少なくともシステムID F221と状態F222が含まれる。
ここで用いられる計算機ID F200やシステムID F221は計算機起動時の参入通知で使用したものと同じ値が用いられる。
状態の変更が発生しなかったシステムは状態変更通知に含ませなくてもよい。
システムがとりうる状態は、運用状態、待機状態、異常状態である。
運用状態は、システムが運用系として動作している状態である。
待機状態は、システムが待機系として待機している状態である。
異常状態は、システムに異常が発生している状態である。
システム起動直後の状態は、正常起動した場合は待機状態、異常を検出し動作不能の場合は異常状態である。
各システムは後に述べるように切替I/F模擬部190Aから運用状態に移行する指示を受けるまで運用状態の動作を行わない。
切替制御装置110は、I/F通信部112で受信したメッセージを解釈し、状態管理部114に計算機100のシステム構成及び状態を登録する。
I/F通信部112は、計算機A100Aから参入通知を受信した時点で、出力許可部111から、計算機A100A側の出力許可信号線300Aに出力許可信号を送出させる。
次に、状態管理部114が、各計算機100における各システムの稼動状態をチェックし、システム単位で1つを運用系、他を待機系に決定する。
状態管理部114は、系決定通知を切替通知部113を使用して各計算機100に送信する。
切替通知部113は、I/F通信部112を通じて系決定通知を各計算機100の構成管理部210に送信する。
図4は系決定通知の例である。
系決定通知は、少なくとも、計算機の識別子となる計算機ID F300と、系決定通知が通知の対象としているシステムの数を示す通知システム数F310と、各システムに対するシステム変更指示F320が含まれる。
システム変更指示F320には、少なくともシステムID F321と変更後の状態を示す状態F222が含まれる。
計算機A100Aにおいて、系決定通知を受信した構成管理部210Aは通知内容に従い出力管理部200Aの設定を変更する。
すなわち、構成管理部210Aは、該当するシステムが運用状態であれば、該当システムから対応デバイスへの信号出力を許可するとの設定を出力管理部200Aに行う。
また、該当するシステムが待機状態であれば、構成管理部210Aは、該当システムから対応デバイスへの信号出力を禁止するとの設定を出力管理部200Aに行う。
また、構成管理部210Aは、切替I/F模擬部190Aを通じて該当するシステムの管理部180に系切り替えを通知する。
例えば管理部180−1Aが運用系への変更通知を受信した場合、管理部180−1Aはアプリケーション170−1Aの動作モードを変更し、アプリケーション170−1Aは通常運転状態への動作切り替えを行う。
以上が計算機100の起動時の動作である。
次に、計算機B100BのシステムABC(OS160−1Bとアプリケーション170−1Bと管理部180−1Bで構成されるシステム)で障害が発生した場合の動作概要を図1を用いて説明する。
ここでは、デバイスI/F140−1Bが故障したために計算機B100のシステムABCに障害が発生したものとする。
また、計算機B100BのシステムABCが運用系であり、計算機A100AのシステムABCが待機系であるとする。
計算機B100Bのアプリケーション170−1BはデバイスI/F140−1Bの異常を検出し、管理部180−1Bに異常の検出を通知する。
管理部180−1Bは、故障の影響度合いを判定し、動作継続不能と判断した場合は、切替I/F模擬部190Aを操作し、処理継続不能を構成管理部210Aに通知する。
構成管理部210Aは、通知部220Aを使用し、切替制御装置110に状態変更通知を送信する。
状態変更通知を受信した切替制御装置110は状態管理部114を更新する。
この後の動作は、上記の起動時の動作と同一である。
つまり、状態管理部114は、各計算機100における各システムの稼動状態をチェックし、異常状態でない計算機A100AのシステムABCを運用系とし、計算機B100BのシステムABCを待機系とする。
状態管理部114は、系決定通知を切替通知部113を使用して各計算機100に送信する。
図5は、故障発生時の各計算機100の状態遷移を時系列に並べたイメージ図である。
図5では、左から右方向に時間が流れており、まず、計算機B100Bが稼動し、システムABCとシステムDEFが運用状態で稼動している。
計算機A100Aが起動した時点で、計算機A100Aから切替制御装置110に参入通知が送信される。
この時点で計算機A100Aのシステムは全て未起動のため異常状態である。
その後、計算機A100Aの各システムが起動することにより待機状態に遷移し、計算機A100Aは切替制御装置110に状態変更通知を発行する。
その後、計算機B100BのシステムABCが異常を検出した場合、計算機B100BのシステムABCは異常状態に遷移し、計算機B100Bが切替制御装置110に状態変更通知を発行する。
切替制御装置110は計算機A100AのシステムABCが待機状態であるため、計算機A100AのシステムABCを運用状態にするための系変更通知を発行する。
系変更通知を受信した計算機A100Aでは、システムABCが運用系としての稼働を開始する。
また、切替制御装置110は、計算機B100Bにも系変更通知を送信する。
系変更通知を受信した計算機B100Bでは、システムABCが稼働を停止する。
その後、計算機B100BのシステムABCにおいて、デバイスの交換やOSの再起動により機能が復旧した場合、計算機B100BのシステムABCは待機状態に遷移し、系変更通知を切替制御装置110に送信する。
図5の例では、切替制御装置110から計算機A100AのシステムABCを運用系にする旨の系変更通知を受信するまでは、計算機A100AのシステムABCは待機状態にあるので、計算機A100Aの出力管理部200Aは、計算機A100AのシステムABCがデバイス1と通信できないように制御する。
そして、切替制御装置110から計算機A100AのシステムABCを運用系にする旨の系変更通知を受信すると、計算機A100AのシステムABCは運用状態になるので、計算機A100Aの出力管理部200Aは、計算機A100AのシステムABCがデバイス1と通信できるように制御する。
一方、計算機B100Bでは、システムABCに障害が発生するまでは、計算機B100BのシステムABCは運用状態なので、計算機B100Bの出力管理部200Bは、計算機B100BのシステムABCがデバイス1と通信できるように制御する。
そして、システムABCに障害が発生すると、計算機B100BのシステムABCは異常状態になるので、計算機B100Bの出力管理部200Bは、計算機B100BのシステムABCがデバイス1と通信できないように制御する。
次に、計算機シャットダウン時の動作を説明する。
計算機100のシャットダウンを行う際、各システムはシャットダウンにより停止する。
このとき、構成管理部210は切替制御装置110にシステムが異常状態になった旨を伝える系変更通知を発行し、各システムの系切り替えを実施する。
その後、計算機100の登録を状態管理部114から抹消するため、構成管理部210は離脱通知を切替制御装置110に送信する。
離脱通知を受信した切替制御装置110のI/F通信部112は状態管理部114の登録情報から該当計算機100のエントリーを削除するとともに、出力許可部111を設定し、該当計算機100への出力許可信号の送出を停止する。
次に、計算機100全体が故障した場合の動作を説明する。
切替制御装置110は、各計算機100が動作しているかを把握する。
把握の方法として、切替I/F130の電気信号のアップダウンを監視することで切替I/F130が通電しているかチェックする方法と、状態管理部114が定期的に状態通知の発行をリクエストするメッセージを発行し、計算機100からの状態通知の発行状況を確認する等の方法がある。
切替制御装置110では、これらの方法で計算機100全体の障害を検出した場合に、切替通知部113が、該当計算機100で稼動中の全システムを他の計算機に切り替え、状態管理部114が該当計算機のエントリーを削除し、出力許可部111が該当計算機100への出力許可信号の送出を停止する。
次に、切替制御装置110のI/F通信部112の動作フローを説明する。
図6は、切替制御装置110のI/F通信部112が計算機100から通知を受信した際の動作フローである。
S100は通知内容を把握する処理である。
S101、S111、S121は通知内容により分岐する処理である。
図6では、S101、S111、S121の順でチェックしているが順序は異なっていてもよい。
図6のフローは周期的に実行してもよいし、イベント駆動により実行してもよい。
S100では、I/F通信部112は、いずれかの通知を受信したかどうかをチェックする。
計算機100から参入通知を受信したことが判明した場合(S101でYES)は、S102で、I/F通信部112は、参入通知の記述に従って、状態管理部114に計算機100のシステム構成を記録する。
この時点では、該当計算機100の各システムは未起動のため、I/F通信部112は、状態管理部114に各システムの状態として異常状態を記録する。
次に、I/F通信部112は、S103にて、出力許可部111の設定を行い該当計算機100の出力を許可する。
つまり、出力許可部111に出力許可信号を送出させる。
計算機100から離脱通知を受信したことが判明した場合(S101でNO、S111でYES)は、I/F通信部112は、S112にて、状態管理部114の該当計算機100のシステム構成記録を抹消し、S113にて、出力許可部111の設定を行い該当計算機の出力を禁止する。
つまり、出力許可部111に出力許可信号の送出を停止させる。
計算機100から状態変更通知を受信したことが判明した場合(S101でNO、S111でNO、S121でYES)は、I/F通信部112は、S122にて、状態管理部114に記録されている情報を更新する。
次に、ハイパーバイザ150の出力管理部200の動作フローを説明する。
図7は、ハイパーバイザ150の出力管理部200の動作フローである。
デバイスを操作するシステムでは、アプリケーション170からの要求に従い、OS160がデバイスI/F140の操作要求をハイパーバイザ150に発行する。
操作要求には、OS160からデバイスへの信号が含まれる。
出力管理部200は、操作要求に対し、S200にて、該当システムがデバイスへの出力を許可されているか判定する。
該当システムがデバイスへの出力を許可されている場合(S200でYES)は、出力管理部200は、S201にて要求通りにデバイスI/F140の操作を行う。
つまり、出力管理部200は、OS160からデバイスへの信号をデバイスI/F140に転送し、デバイスI/F140からデバイスに信号を送信させる。
システムが運用状態のときに、デバイスへの出力が許可される。
一方、該当システムがデバイスへの出力を許可されていない場合(S200でNO)は、出力管理部200は、S211にて、OS160からの操作要求に偽の応答を返すが、実際にはデバイスI/F140の操作を行わず、デバイスへの出力を防止する。
つまり、出力管理部200は、OS160からデバイスへの信号を破棄するとともに、デバイスからの応答信号を模擬する模擬信号をOS160に送信する。
システムが待機状態又は異常状態のときに、デバイスへの出力が禁止される。
以上の本実施の形態に係る動作における効果を説明する。
本実施の形態では、ハイパーバイザ150が出力管理部200を備え、切替制御装置110の状態管理部114の判定に基づき、出力管理部200が、システムからデバイスI/F140への出力可否を制御している。
このため、計算機100内のシステム単位、デバイス単位で出力を制御でき、計算機100内の一部のシステムで切り替えを行っても、他のシステムは動作し続けることができるという効果を得ることができる。
また、システムのOSやアプリケーションが異常動作を起こして許可されていない出力を行ってしまった場合でも、他のシステムに影響を与えることなく該当システムの出力のみを停止することができる。
また、本実施の形態では、切替制御装置110が出力許可部111を通じて出力許可信号線300に出力許可信号を送出し、出力許可信号が送出されなければ各デバイスI/F140からの信号がデバイスに出力されないようになっている。
このため、切替制御装置110が故障している場合でも、複数の計算機100から同一のデバイスに信号が送出されてしまう事態を回避することができ、デバイスが不安定な挙動となることがない。
また、本実施の形態では、計算機100のハイパーバイザ150及び系切り替え診断システム(OS160−3、構成管理部210、通知部220)が正常起動したときに、切替制御装置110が参入通知を受信する。
このため、ハイパーバイザ150及び系切り替え診断システムが正常に起動できず、システム単位の系切り替えができない状態でデバイスI/F140からデバイスへの信号が出力される事態を回避することができ、デバイスが不安定な挙動となることがない。
また、本実施の形態では、状態管理部114が各計算機100のシステム単位で系切り替えを判定する。
このため、計算機100ごとに異なるシステムを搭載することができる。
また、重要度に応じて、あるシステムは2重系にし、あるシステムは3重系にするなど冗長度を可変にした計算機構成にするなどの柔軟な構成を得ることができるという効果を得ることができる。
最後に、本実施の形態で示した計算機100及び切替制御装置110のハードウェア構成例を図8を参照して説明する。
計算機100及び切替制御装置110はコンピュータであり、計算機100及び切替制御装置110の各要素をプログラムで実現することができる。
計算機100及び切替制御装置110のハードウェア構成としては、バスに、演算装置901、外部記憶装置902、主記憶装置903、通信装置904、入出力装置905が接続されている。
演算装置901は、プログラムを実行するCPUカードである。
外部記憶装置902は、例えばROM(Read Only Memory)やフラッシュメモリ、ハードディスク装置である。
主記憶装置903は、RAM(Random Access Memory)である。
通信装置904は、例えばNIC(Network Interface Card)である。
入出力装置905は、例えばマウス、キーボード、ディスプレイ装置等である。
プログラムは、通常は外部記憶装置902に記憶されており、主記憶装置903にロードされた状態で、順次演算装置901に読み込まれ、実行される。
プログラムは、図1に示す「〜部」として説明している機能を実現するプログラムである。
更に、外部記憶装置902にはハイパーバイザ及びOSも記憶されており、ハイパーバイザ及びOSの少なくとも一部が主記憶装置903にロードされ、演算装置901はハイパーバイザ及びOSを実行しながら、図1に示す「〜部」の機能を実現するプログラムを実行する。
また、アプリケーションも外部記憶装置902に記憶されており、主記憶装置903にロードされた状態で、順次演算装置901により実行される。
また、本実施の形態の説明において、「〜の判断」、「〜の判定」、「〜の制御」、「〜の許可」、「〜の禁止」、「〜の設定」、「〜の選択」、「〜の生成」、「〜の更新」、「〜の受信」等として説明している処理の結果を示す情報やデータや信号値や変数値が主記憶装置903にファイルとして記憶されている。
なお、図8の構成は、あくまでも計算機100及び切替制御装置110のハードウェア構成の一例を示すものであり、計算機100及び切替制御装置110のハードウェア構成は図8に記載の構成に限らず、他の構成であってもよい。
100 計算機装置、110 切替制御装置、111 出力許可部、112 I/F通信部、113 切替通知部、114 状態管理部、120 CPUカード、130 切替I/F、140 デバイスI/F、150 ハイパーバイザ、160 OS、170 アプリケーション、180 管理部、190 切替I/F模擬部、200 出力管理部、210 構成管理部、220 通知部、300 出力許可信号線。

Claims (8)

  1. 各々が複数のデバイスのうちのいずれかのデバイスに対応付けられ、対応付けられている対応デバイスと通信してデータ処理を行う複数のデータ処理システムが含まれる計算機装置であって、
    データ処理システムごとに、データ処理システムの状態に応じて、データ処理システムと対応デバイスとの間の通信が許可されるか否かを判定する判定部と、
    いずれかのデータ処理システムから送信された対応デバイスへの信号を受信し、前記信号の送信元のデータ処理システムが前記判定部により対応デバイスとの通信が許可された許可データ処理システムである場合に、前記許可データ処理システムからの信号を対応デバイスに対して転送し、前記信号の送信元のデータ処理システムが前記判定部により対応デバイスとの通信が禁止された禁止データ処理システムである場合に、前記禁止データ処理システムからの信号を破棄する通信制御部とを有することを特徴とする計算機装置。
  2. 前記通信制御部は、
    前記禁止データ処理システムからの信号を破棄するとともに、前記禁止データ処理システムに対して、前記対応デバイスからの信号を模擬する模擬信号を送信することを特徴とする請求項に記載の計算機装置。
  3. 前記判定部は、
    異常が発生しているデータ処理システムと対応デバイスとの間の通信を禁止することを特徴とする請求項1に記載の計算機装置。
  4. 前記判定部は、
    待機状態にあるデータ処理システムと対応デバイスとの間の通信を禁止することを特徴とする請求項1に記載の計算機装置。
  5. 複数の計算機装置と、前記複数の計算機装置を管理する管理装置とを有する計算機機構であって、
    各計算機装置には、
    各々が複数のデバイスのうちのいずれかのデバイスに対応付けられ、対応付けられている対応デバイスと通信してデータ処理を行う複数のデータ処理システムが含まれ、
    各計算機装置は、
    前記複数のデバイスと接続された複数のデバイスインタフェースと、
    データ処理システムごとに、データ処理システムの状態に応じて、データ処理システムと対応デバイスとの間の通信が許可されるか否かを判定する判定部と、
    データ処理システムごとに、前記判定部の判定結果に合わせてデータ処理システムと対応デバイスとの間の通信を制御する通信制御部とを有し、
    前記管理装置は、
    前記判定部と前記通信制御部とが起動された計算機装置を検知する起動検知部と、
    各計算機装置のデバイスインタフェースに接続され、前記起動検知部により前記判定部と前記通信制御部とが起動されたことが検知された計算機装置のデバイスインタフェースに、デバイスとの通信を許可する許可信号を出力する許可信号出力部とを有することを特徴とする計算機機構。
  6. 各計算機装置において、
    前記通信制御部は、
    各データ処理システムから送信された対応デバイスへの信号を受信し、
    前記信号の送信元のデータ処理システムが前記判定部により対応デバイスとの通信が許可された許可データ処理システムである場合に、前記許可データ処理システムからの信号を対応デバイスに接続されているデバイスインタフェースに転送し、
    前記信号の送信元のデータ処理システムが前記判定部により対応デバイスとの通信が禁止された禁止データ処理システムである場合に、前記禁止データ処理システムからの信号を破棄することを特徴とする請求項に記載の計算機機構。
  7. 各計算機装置において、
    各デバイスインタフェースは、
    前記通信制御部から、前記許可データ処理システムからの信号を受信した場合に、前記管理装置の前記許可信号出力部から許可信号を受信している場合に、前記許可データ処理システムの対応デバイスに前記許可データ処理システムからの信号を送信することを特徴とする請求項に記載の計算機機構。
  8. 前記管理装置は、更に、
    いずれかの計算機装置のいずれかのデータ処理システムに異常が発生している場合に、異常が発生している異常発生データ処理システムが含まれる計算機装置以外の計算機装置に含まれるデータ処理装置の中から前記異常発生データ処理システムを代替するデータ処理システムを代替データ処理システムとして選択する代替選択部と、
    前記異常発生データ処理システムが含まれる計算機装置に、前記異常発生データ処理システムの稼動停止を指示するとともに、前記代替データ処理システムが含まれる計算機装置に、前記代替データ処理システムの稼動開始を指示する稼動指示部とを有することを特徴とする請求項に記載の計算機機構。
JP2016506052A 2014-03-07 2014-03-07 計算機装置及び計算機機構 Expired - Fee Related JP6109404B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/055969 WO2015132953A1 (ja) 2014-03-07 2014-03-07 計算機装置及び計算機機構

Publications (2)

Publication Number Publication Date
JPWO2015132953A1 JPWO2015132953A1 (ja) 2017-03-30
JP6109404B2 true JP6109404B2 (ja) 2017-04-05

Family

ID=54054786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016506052A Expired - Fee Related JP6109404B2 (ja) 2014-03-07 2014-03-07 計算機装置及び計算機機構

Country Status (4)

Country Link
US (1) US10089200B2 (ja)
JP (1) JP6109404B2 (ja)
CN (1) CN106068501A (ja)
WO (1) WO2015132953A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5945637B2 (ja) * 2014-04-22 2016-07-05 オリンパス株式会社 データ処理システム及びデータ処理方法
DE112019007432B4 (de) 2019-06-27 2024-02-08 Mitsubishi Electric Corporation Elektronische steuereinheit und programm

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6316362A (ja) * 1986-07-08 1988-01-23 Nec Corp 通信システム評価方式
JPH11126195A (ja) * 1997-10-22 1999-05-11 Mitsubishi Electric Corp 分散システム
US7213246B1 (en) * 2002-03-28 2007-05-01 Veritas Operating Corporation Failing over a virtual machine
JP4054616B2 (ja) 2002-06-27 2008-02-27 株式会社日立製作所 論理計算機システム、論理計算機システムの構成制御方法および論理計算機システムの構成制御プログラム
JP4566531B2 (ja) 2003-08-06 2010-10-20 株式会社Ihi シリアル通信二重系制御装置
JP2005115751A (ja) * 2003-10-09 2005-04-28 Hitachi Ltd 計算機システム及び計算機システムの障害兆候の検知方法
JP4733399B2 (ja) 2005-01-28 2011-07-27 株式会社日立製作所 計算機システム、計算機、ストレージ装置及び管理端末
JP4585463B2 (ja) * 2006-02-15 2010-11-24 富士通株式会社 仮想計算機システムを機能させるためのプログラム
JP5262145B2 (ja) * 2008-02-04 2013-08-14 日本電気株式会社 クラスタシステムおよび情報処理方法
JP5028304B2 (ja) 2008-03-11 2012-09-19 株式会社日立製作所 仮想計算機システム及びその制御方法
JP5548489B2 (ja) * 2010-03-11 2014-07-16 株式会社日立製作所 計算機システム、仮想化機構、および計算機システムの障害回復方法
JP5754704B2 (ja) * 2011-04-19 2015-07-29 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 複数の産業制御システム間の通信を制御するシステム
JP5817308B2 (ja) 2011-08-04 2015-11-18 富士通株式会社 サーバ、サーバシステムおよびサーバの冗長切り替え方法
JP5846836B2 (ja) 2011-10-11 2016-01-20 株式会社日立製作所 仮想計算機、仮想計算機システム、及び仮想計算機制御方法
JP5856925B2 (ja) 2012-08-21 2016-02-10 株式会社日立製作所 計算機システム
JP5874879B2 (ja) * 2012-11-26 2016-03-02 株式会社日立製作所 I/oデバイスの制御方法及び仮想計算機システム

Also Published As

Publication number Publication date
US10089200B2 (en) 2018-10-02
WO2015132953A1 (ja) 2015-09-11
US20160321149A1 (en) 2016-11-03
CN106068501A (zh) 2016-11-02
JPWO2015132953A1 (ja) 2017-03-30

Similar Documents

Publication Publication Date Title
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
JP4585463B2 (ja) 仮想計算機システムを機能させるためのプログラム
JP4506594B2 (ja) 冗長パス制御方法
JP5463267B2 (ja) 仮想計算機システムおよび仮想計算機の移行方法
US7467322B2 (en) Failover method in a cluster computer system
US8775867B2 (en) Method and system for using a standby server to improve redundancy in a dual-node data storage system
US20110246720A1 (en) Storage system with multiple controllers
JP4315016B2 (ja) コンピュータシステムの系切替方法
US9471256B2 (en) Systems and methods for restoring data in a degraded computer system
JP2004302632A (ja) コンピュータ処理方法及びその実施システム並びにその処理プログラム
KR101027415B1 (ko) 차량용 운영체제의 관리 시스템, 관리 방법 및 오류 검출 방법
JP6109404B2 (ja) 計算機装置及び計算機機構
JPWO2010100757A1 (ja) 演算処理システム、再同期方法、およびファームプログラム
JP2009069963A (ja) マルチプロセッサシステム
JP2006285384A (ja) プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法
CN108268210B (zh) 一种信息处理方法、计算节点及存储节点
JP2009110218A (ja) 仮想化スイッチおよびそれを用いたコンピュータシステム
JP2007334668A (ja) メモリダンプ方法、クラスタシステム、それを構成するノードおよびプログラム
WO2016046951A1 (ja) 計算機システム及びそのファイル管理方法
JP5335150B2 (ja) 計算機装置及びプログラム
JP4640116B2 (ja) マルチノードコンピュータシステム、統合サービスプロセッサ、ステータス管理方法及びプログラム
JP5791524B2 (ja) Os動作装置及びos動作プログラム
JP2005115472A (ja) 運行管理装置
JP4788516B2 (ja) 動的置き換えシステム、動的置き換え方法およびプログラム
JPH09288590A (ja) 仮想計算機システム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170307

R150 Certificate of patent or registration of utility model

Ref document number: 6109404

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees