JP2010086363A - 情報処理装置及び装置構成組み換え制御方法 - Google Patents

情報処理装置及び装置構成組み換え制御方法 Download PDF

Info

Publication number
JP2010086363A
JP2010086363A JP2008255914A JP2008255914A JP2010086363A JP 2010086363 A JP2010086363 A JP 2010086363A JP 2008255914 A JP2008255914 A JP 2008255914A JP 2008255914 A JP2008255914 A JP 2008255914A JP 2010086363 A JP2010086363 A JP 2010086363A
Authority
JP
Japan
Prior art keywords
partition
configuration
priority
information processing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008255914A
Other languages
English (en)
Inventor
Takayuki Tamura
高之 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008255914A priority Critical patent/JP2010086363A/ja
Priority to US12/565,977 priority patent/US20100083034A1/en
Publication of JP2010086363A publication Critical patent/JP2010086363A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Hardware Redundancy (AREA)

Abstract

【課題】システムに障害が発生したときに、動的に装置構成を組み換えて迅速にシステムを復旧させることができる情報処理装置及び装置構成組み換え制御方法を提供する。
【解決手段】MMB11が、パーティション12内のハードウェアリソースに異常が発生したことを検出し、優先度DB106に記憶されている各々のパーティション12の優先度に基づいて、構成を組み換える対象とするパーティション12を選択パーティションとして選択する。そして、MMB11が、上記異常が発生したハードウェアリソースを選択パーティションが備えるハードウェアリソースに交換することによって、パーティション12の構成の組み換えを実行する。
【選択図】図1

Description

本発明は、情報処理装置及び装置構成組み換え制御方法に関し、情報処理装置のシステムに障害が発生したときに、動的に装置構成を組み換えて迅速にシステムを復旧させることができる情報処理装置及び装置構成組み換え制御方法に関する。
複数のパーティションを備える情報処理装置の具体例として、MC(Mission Critical)分野のサーバであるPRIMEQUEST(登録商標)等が挙げられる。図18に示す情報処理装置10は、CPUやメモリを持つシステムボード(SB:System Boad )111、HDD(Hard Disk Drive)やPCI(Peripheral Component Interconnect)カードスロットなどを実装したIOU(Input/Output Unit)112、SB111とIOU112とを接続するクロスバ113、パーティション20の構成設定を行う管理ボード(MMB:Management board) 114から構成される。
図18に示すように、情報処理装置10は、クロスバ113により、ハードウェアリソース(資源)であるSB111やIOU112の組み換えを可能とし、MMB114からの制御によって1又は複数のSB111やIOU112を論理的なパーティション20として構成することができる。パーティション20は、例えばSB111、IOU112等のハードウェアリソース(資源)を備える情報処理手段である。1筐体で構成可能な最大パーティション数は、例えば16個であり、各々のパーティション20に対応して様々な業務を構築することができる。この情報処理装置10の管理については、例えば、システム管理者が、MMBファームウェアのWeb−UIという管理ソフトを使用することで、情報処理装置10の筐体内のハードウェアリソース(MMB114、SB111、IOU112等)の障害監視、システム設定操作、パーティション20の障害監視、電源操作、及び、パーティション20の設定(例えば、追加又は削除)を行う。
図18を参照して説明した情報処理装置10における、障害発生から復旧までの流れを、以下の(1)〜(10)に示す。
(1)ハードウェアリソースの故障が発生する。
(2)情報処理装置10のユーザが、システム管理者が用いる処理装置であるシステム管理者装置に対して、電子メール、画面表示等によって、ハードウェアリソースの故障を通知する。
(3)ユーザが、MMB Web−UIを利用して故障箇所を特定する。
(4)ユーザが、空きリソースから交換対象リソースを選定する。交換対象リソースは、故障が発生したハードウェアリソースと交換されるリソースである。
(5−A)空きリソースがない場合、ユーザが、システム管理者と相談して、他のパーティションから交換対象リソースを割当可能かを決定する。
(5−B)空きリソースがある場合、ユーザが、以下の(6)〜(10)に示す手順を実行してシステムを復旧させる。
(6)ユーザが、MMB Web−UIを用いて対象パーティションの電源をオフ(OFF)する。対象パーティションは、故障したハードウェアリソースを備えるパーティションである。
(7)ユーザが、故障したハードウェアリソースを退避させる。
(8)ユーザが、交換対象リソースを組み込み、上記故障したハードウェアリソースと交換する。
(9)ユーザが、MMB Web−UIを用いて対象パーティションの電源をオン(ON)する。
(10)ユーザが、MMB Web−UIを用いて対象パーティションが正常に動作することを確認する。
なお、障害が発生したマシンが提供していたサービスのリソース条件を読み出し、このリソース条件と、障害が発生していない各マシンの負荷情報とに基づいて、障害が発生したマシンが提供していたサービスを代わりに実行するマシンを決定するサービス復旧システムが提案されている。
特開2001−155003号公報
図18を参照して説明した情報処理装置10等の、複数のパーティションを備える情報処理装置においては、パーティション内のハードウェアリソースに故障が発生した場合、上記(5−A)において前述したように、空きリソースがないときには、ユーザが、システム管理者と相談して、他のパーティションから交換対象リソースを割当可能かを決定する。従って、即座にパーティションのシステム復旧を行うことができない。また、空きリソースがある場合においても、ユーザが前述した(6)〜(10)に示す手順を手動で実行してシステムを復旧させる必要があるので、システムの停止時間が大きい。
本発明は、システムに障害が発生したときに、動的に装置構成を組み換えて迅速にシステムを復旧させることができる情報処理装置の提供を目的とする。
また、本発明は、システムに障害が発生したときに、動的に装置構成を組み換えて迅速にシステムを復旧させることができる装置構成組み換え制御方法の提供を目的とする。
本情報処理装置は、各々がハードウェアリソースを備え、情報処理可能な複数のパーティションと、前記複数のパーティションの構成を組み換え制御する制御手段とを備える情報処理装置である。前記制御手段が、各々のパーティションに対応する、パーティションの構成が維持される優先度を算出し、算出された優先度を記憶手段に記憶する優先度算出手段と、パーティション内のハードウェアリソースに異常が発生したときに、前記記憶手段内の優先度に基づいて、構成を組み換える対象とするパーティションを選択パーティションとして選択するパーティション選択手段と、前記異常が発生したハードウェアリソースを前記選択パーティションが備えるハードウェアリソースに交換することによって、パーティションの構成の組み換えを実行する組み換え実行手段とを備える。
また、装置構成組み換え制御方法は、各々がハードウェアリソースを備え、情報処理可能な複数のパーティションを備える情報処理装置の構成を組み換え制御する方法である。前記情報処理装置が、各々のパーティションに対応する、パーティションの構成が維持される優先度を算出し、算出された優先度を記憶手段に記憶し、前記情報処理装置が、パーティション内のハードウェアリソースに異常が発生したときに、前記記憶手段内の優先度に基づいて、構成を組み換える対象とするパーティションを選択パーティションとして選択し、前記異常が発生したハードウェアリソースを前記選択パーティションが備えるハードウェアリソースに交換することによって、パーティションの構成の組み換えを実行する。
本情報処理装置及び本装置構成組み換え制御方法は、情報処理装置が備えるパーティション内のハードウェアリソースに異常が発生したときに、パーティション毎の優先度に基づいて、構成を組み換える対象とする選択パーティションを動的に選択し、上記異常が発生したハードウェアリソースを選択パーティションが備えるハードウェアリソースに交換する。従って、本情報処理装置及び本装置構成組み換え制御方法によれば、情報処理装置のシステムに障害が発生したときに、動的に装置構成を組み換えて迅速にシステムを復旧させることが可能となる。
図1は、本実施形態の情報処理装置の構成例を示す図である。図1では、本実施形態の情報処理装置がサーバ装置1と管理用サーバ2とを備える場合を例にとって説明する。なお、図1中に示すシステム管理者装置3は、システム管理者が用いるコンピュータ装置であって、サーバ装置1との間で通信可能に構成されている。本実施形態の情報処理装置が、管理用サーバ2が省略された構成をとるようにしてもよい。
サーバ装置1は、MMB(ManageMent Board)11、複数のパーティション12、未使用リソース格納領域13を備える。MMB11は、パーティション12の構成を組み換え制御する制御手段としての機能を有するSVP(SerVice Processor:システム制御装置)である。各々のパーティション12は、例えばSB、IOUといったハードウェアリソースを備える情報処理手段であり、このハードウェアリソースを用いて情報処理可能に構成されている。上記SBは、例えばCPUやメモリ等を備えており、上記IOUは、例えばHDD等を備えている。未使用リソース格納領域13は、未使用のリソースが格納される領域である。
MMB11は、設定部31、異常検出部32、構成管理部33、構成変更実行部34、ポイント設定情報DB35、パーティション構成情報DB36を備える。設定部31は、システム管理者装置3がサーバ装置1に入力する各パーティション毎のポイント設定情報をポイント設定情報DB35に設定する。ポイント設定情報は、例えば、パーティション12上で稼働するソフトウェアに対して予め割り当てられた、ソフトウェアの重要度(ソフトウェアの稼働が必要な度合)を示すポイント値と、性能利用可否情報と、アラーム通知可否情報を含む情報である。性能利用可否情報は、管理用サーバ2が管理する、後述する性能情報を用いてパーティション12の構成を変更すべきであるかを判断するか否かを示す情報である。アラーム通知可否情報は、パーティション12内のハードウェアリソースに異常が発生したことをシステム管理者装置3にアラーム通知するか否かを示す情報である。なお、上記ソフトウェアの重要度を示すポイント値が、曜日毎及び/又は時間帯毎にポイント設定情報としてソフトウェアに予め割り当てられるようにしてもよい。
異常検出部32は、パーティション12内のハードウェアリソースに異常が発生したことを検出し、その異常の発生を構成管理部33の受付部102(図2を参照)に通知する。
構成管理部33は、パーティション12内のハードウェアリソースに異常が発生したことを異常検出部32から通知されると、優先度DB106内の優先度に基づいて、構成を組み換える対象とするパーティション12を選択パーティションとして選択する。上記優先度は、各々のパーティション12に対応するものであり、パーティション12の構成が維持される度合いである。構成管理部33は、ポイント設定情報DB35に設定されたポイント設定情報とパーティション構成情報DB36に予め記憶されたパーティション構成情報に基づいて、各々のパーティション12の優先度を算出し、優先度DB106に記憶する。構成管理部33は、常時、もしくは定期的に優先度を算出し、算出された優先度で優先度DB106に記憶されている優先度を最新の優先度に更新する。パーティション構成情報は、少なくとも各々のパーティション12が備えるハードウェアリソースの情報と、パーティション12上において稼働する、又はインストールされているソフトウェアの情報を含む。上記ハードウェアリソースの情報には、例えば、パーティション12が備えるSBとIOUの情報、SBが備えるCPU、メモリの情報、IOUが備えるHDDの情報が含まれる。
また、構成管理部33は、構成変更実行部34に対して、パーティション12の構成の組み換えの実行を指示する。具体的には、構成管理部33は、構成変更実行部34に対して、上記異常が発生したハードウェアリソースを上記選択パーティションが備えるハードウェアリソースに交換することを指示する。
構成管理部33が、ハードウェアリソースに異常が発生したときに、管理用サーバ2に対して、後述する性能情報の取得要求を送信し、この取得要求に応答して管理用サーバ2から送信された性能情報に基づいて、異常が発生したハードウェアリソースを備えるパーティション12の構成を変更すべきであるかを判断するようにしてもよい。そして、構成管理部33が、パーティション12の構成を変更すると判断した場合に、その時点における優先度DB106内の優先度に基づいて選択パーティションを選択するようにしてもよい。
構成変更実行部34は、構成管理部33の指示に従って、上記異常が発生したハードウェアリソースを選択パーティションが備えるハードウェアリソースに交換することによって、パーティション12の構成の組み換えを実行する。ポイント設定情報DB35には、上述したポイント設定情報が設定される。パーティション構成情報DB36には、上述したパーティション構成情報が予め記憶される。なお、構成変更実行部34が、システム管理者装置3からの指示に従ってパーティション12の構成の変更を実行するようにしてもよい。
管理用サーバ2は、サーバ装置1内の各々のパーティション12が備えるハードウェアリソースの性能情報を管理する管理装置である。具体的には、管理用サーバ2が備える性能管理部21が、常時もしくは定期的にサーバ装置1内の各々のパーティション12が備えるCPU、メモリの使用率の情報を性能情報として収集し、性能情報DB22に記憶する。また、性能管理部21が、サーバ装置1内の構成管理部33から性能情報の取得要求を受けて、構成管理部33に対して性能情報を送信する。システム管理者装置3は、システム管理者の指定入力に従って、ポイント設定情報を入力し、このポイント設定情報のポイント設定情報DB35への設定をサーバ装置1内の設定部31に対して指示する。なお、システム管理者装置3が、サーバ装置1内の構成変更実行部34に対してパーティション12の構成の変更の実行を指示するようにしてもよい。
図2は、構成管理部の構成例を示す図である。構成管理部33は、優先度算出部101、受付部102、構成変更判断部103、パーティション選択部104、実行指示部105、優先度DB106を備える。優先度算出部101は、ポイント設定情報DB35に設定されたポイント設定情報とパーティション構成情報DB36に予め記憶されたパーティション構成情報に基づいて、各々のパーティション12の優先度を算出し、優先度DB106に記憶する。優先度算出部101は、常時、もしくは定期的に優先度を算出し、算出された優先度で優先度DB106内の優先度を最新の優先度に更新する。
例えば、優先度算出部101は、パーティション構成情報DB36を参照して、パーティション12上で稼働するソフトウェアを認識する。そして、優先度算出部101は、ポイント設定情報に含まれる、パーティション12上において稼働するソフトウェアの重要度を示すポイント値の合計を、このパーティション12に対応する優先度として算出する。なお、上記ソフトウェアの重要度を示すポイント値が、曜日毎及び/又は時間帯毎にポイント設定情報としてソフトウェアに予め割り当てられている場合、優先度算出部101が、現在の曜日及び/又は時間帯に対応するソフトウェアのポイント値の合計を、このソフトウェアが稼働するパーティション12に対応する現在の曜日及び/又は時間帯についての優先度として算出するようにしてもよい。従って、ハードウェアリソースに異常が発生したときには、優先度算出部101は、ハードウェアリソースに異常が発生したときの曜日及び/又は時間帯に対応するソフトウェアのポイント値の合計を、このソフトウェアが稼働するパーティション12に対応する優先度として算出する。
受付部102は、異常検出部32(図1を参照)から、パーティション12内のハードウェアリソースに異常が発生したことを示す通知を受け付け、受け付けた内容を構成変更判断部103に通知する。構成変更判断部103は、受付部102から上記通知を受けると、ポイント設定情報DB35内のポイント設定情報に含まれる、前述した性能利用可否情報を参照して、性能情報を用いてパーティション12の構成を変更すべきであるかを判断するか否かを決定する。構成変更判断部103が、性能情報を用いてパーティション12の構成を変更すべきであるかを判断しないことを決定した場合は、パーティション選択部104が、選択パーティションの選択処理を実行する。構成変更判断部103が、性能情報を用いてパーティション12の構成を変更すべきであるかを判断することを決定した場合、構成変更判断部103は、上記異常が発生したハードウェアリソースを備えるパーティション12(以下、対象パーティションと記述)の性能情報の取得要求を管理用サーバ2の性能管理部21に送信して、性能管理部21からこの性能情報を取得する。そして、構成変更判断部103は、パーティション構成情報DB36から対象パーティションの構成情報を取得し、取得した構成情報と性能情報とに基づいて、対象パーティションの構成を変更するか否かを判断する。具体的には、構成変更判断部103は、性能情報に含まれる、ハードウェアリソースに異常が発生する前の対象パーティション内のハードウェアリソースの使用率に相当する処理を、この対象パーティション内の異常が発生していないハードウェアリソースが実行することができるか否かを判断し、異常が発生していないハードウェアリソースが上記ハードウェアリソースの使用率に相当する処理を実行することができないと判断される場合に、対象パーティションの構成を変更すると判断する。また、構成変更判断部103は、異常が発生していないハードウェアリソースが上記ハードウェアリソースの使用率に相当する処理を実行することができると判断される場合に、対象パーティションの構成を変更しないと判断する。
例えば、対象パーティションに含まれるCPU等のハードウェアリソースのうちの1台のハードウェアリソースに異常が発生した場合を想定する。対象パーティションの構成情報が示す対象パーティションに含まれるハードウェアリソースが3台であって、性能情報が示すこの3台全体での使用率が210%である場合、1台のハードウェアリソースに異常が発生したことによって、残りの2台のハードウェアリソースでは、1台当たりの使用率が105%となり100%を超えるため、異常発生前の使用率(210%)に相当する処理を実行することができない。従って、構成変更判断部103は、対象パーティションの構成を変更すると判断し、パーティション選択部104に対して、選択パーティションの選択処理の実行を指示する。また、例えば、性能情報が示す上記3台のハードウェアリソース全体での使用率が180%である場合、1台当たりの使用率が90%となり100%を下回るため、1台のハードウェアリソースに異常が発生しても、残りの2台のハードウェアリソースで、異常発生前の使用率(180%)に相当する処理を実行することができる。従って、構成変更判断部103は、対象パーティションの構成を変更しないと判断する。上述したように構成変更判断部103が対象パーティションの構成情報と性能情報とに基づいて、対象パーティションの構成を変更するか否かを判断することによって、例えば対象パーティションがハードウェアリソースに異常が発生する前の処理を継続して実行することができる場合には対象パーティションの構成の組み換えを不要とすることができる。
また、構成変更判断部103は、ポイント設定情報に含まれるアラーム通知可否情報が、パーティション12内のハードウェアリソースに異常が発生したことをシステム管理者装置3にアラーム通知することを示す場合に、ハードウェアリソースに異常が発生したことをシステム管理者装置3にアラーム通知する。
パーティション選択部104は、優先度DB106内の優先度に基づいて、構成を組み換える対象とするパーティションを選択パーティションとして選択する。具体的には、パーティション選択部104は、優先度が最も低いパーティション12を選択パーティションとして選択する。すなわち、パーティション選択部104は、パーティション12内のハードウェアリソースに異常が発生したときに、優先度DB106内の優先度に基づいて選択パーティションを選択するパーティション選択手段としての機能を有する。また、パーティション選択部104は、パーティション構成情報DB36を参照して、選択パーティションの構成情報を取得し、この構成情報が示す選択パーティションが備えるハードウェアリソースの情報と、異常が発生したハードウェアリソースの情報とを実行指示部105に通知する。実行指示部105は、異常が発生したハードウェアリソースを選択パーティションが備えるハードウェアリソースに交換することを指示する制御情報を作成し、この制御情報を構成変更実行部34に送信する。実行指示部105から上記制御情報を受信した構成変更実行部34は、制御情報に従って、異常が発生したハードウェアリソースを選択パーティションが備えるいずれかのハードウェアリソースに交換することによって、対象パーティション及び選択パーティションの構成を組み換える。
本実施形態の情報処理装置においては、上述したように、優先度算出部101が、パーティション12上において稼働するソフトウェアの重要度を示すポイント値の合計をこのソフトウェアが稼働するパーティション12の優先度として算出し、パーティション選択部104が、優先度が最も低いパーティション12を選択パーティションとして選択する。従って、本実施形態の情報処理装置によれば、パーティション12上で稼働するソフトウェア全体の重要度が最も低いパーティション12を優先的に構成組み換えの対象とすることができる。
また、本実施形態の情報処理装置においては、上述したように、優先度算出部101が、ハードウェアリソースに異常が発生したときの曜日及び/又は時間帯に対応するソフトウェアのポイント値の合計を、このソフトウェアが稼働するパーティション12に対応する優先度として算出する。従って、本実施形態の情報処理装置によれば、ハードウェアリソースに異常が発生したときの曜日及び/又は時間帯に対応する、パーティション12上で稼働するソフトウェア全体の重要度が最も低いパーティション12を優先的に構成組み換えの対象とすることができる。
図3は、ポイント設定情報DBに設定されるポイント設定情報の例を示す図である。図3に示す例では、ポイント設定情報は、IPアドレスブロック、アラーム通知可否情報、性能利用可否情報、ポイント値とを含む。IPアドレスブロックには、サーバ装置1が備えるMMB11のIPアドレスが設定される。アラーム通知可否情報には、例えば、yes又はnoが設定される。yesは、パーティション12内のハードウェアリソースに異常が発生したことをシステム管理者装置3にアラーム通知することを示し、noは、ハードウェアリソースに異常が発生したことをシステム管理者装置3にアラーム通知しないことを示す。性能利用可否情報には、例えば、yes又はnoが設定される。yesは、性能情報を用いてパーティション12の構成を変更すべきであるかを判断することを示し、noは、性能情報を用いてパーティション12の構成を変更すべきであるかを判断しないことを示す。ポイント値には、パーティション12上で稼働するソフトウェアに対して予め割り当てられた、ソフトウェアの重要度を示すポイント値が設定される。例えば、ポイント値には、図4に示すようなポイント値の割り当て情報に従う、パーティション12上で稼働する各々のソフトウェアに対するポイント値が、時間帯毎及び曜日毎に設定される。図3に示す例では、パーティション12上で稼働するソフトウェア(例えばソフトAとソフトB)の平日、土曜日、日曜日の日中、夜間それぞれについてのポイント値が設定される。
図4は、ポイント設定情報に含まれる、パーティション12上で稼働するソフトウェアに対するポイント値の割り当て情報の例を示す図である。図4中、例えば、日中は6時から18時、夜間は18時から6時の時間帯を示す。図4に示すポイント値の割り当て情報は、各々のソフトウェアの曜日毎及び時間帯毎のポイント値を示す。図4を参照すると、例えば、ソフトAというソフトウェアの平日の日中についてのポイント値は5であることがわかる。
図5は、構成管理部内の優先度算出部が算出するパーティション毎の優先度の例を示す図である。図5は、各パーティション12の平日(月〜金)と土曜についての、日中及び夜間の優先度を示している。例えば、パーティション番号が#1のパーティション12上で稼働するソフトウェアがソフトAとソフトB、パーティション番号が#2のパーティション12上で稼働するソフトウェアがソフトC、パーティション番号が#3のパーティション12上で稼働するソフトウェアがソフトDとソフトEであるものと想定する。優先度算出部101は、ポイント設定情報に含まれる、各々のパーティション12上で稼働するソフトウェアの、曜日毎及び時間帯毎のポイント値の合計を、各々のパーティション12の曜日毎及び時間帯毎の優先度として算出する。例えば図4に示すようなソフトウェアに対するポイント値の割り当て情報を参照すると、ソフトAの平日の日中に対応するポイント値は5であり、ソフトBの平日の日中に対応するポイント値は0であるので、ソフトAとソフトBとが稼働するパーティション番号が#1のパーティション12に対応するポイント設定情報においては、ソフトAの平日の日中に対応するポイント値が5、ソフトBの平日の日中に対応するポイント値が0に設定されている。従って、優先度算出部101は、図5に示すように、上記ポイント値5とポイント値0との合計であるポイント値5を、ソフトAとソフトBとが稼働するパーティション番号が#1のパーティション12の、平日の日中に対応する優先度として算出する。図5中に示す平日における各パーティション12の優先度の時間推移を図6に示す。また、図5中に示す土曜日における各パーティション12の優先度の時間推移を図7に示す。図6及び図7中、201、202、203は、それぞれ、パーティション番号が#1、#2、#3のパーティション12に対応する優先度の時間推移を示す。
図8は、ポイント設定情報DBへのポイント設定情報の設定処理フローの例を示す図である。まず、システム管理者装置3が、サーバ装置1のMMB11内の設定部31にポイント設定情報を入力する(ステップS1)。次に、設定部31が、ポイント設定情報に含まれるIPアドレスに対応するMMB11が存在するかを判断し、その判断結果に基づいて、サーバ装置1が存在するかを判断する(ステップS2)。設定部31が、上記IPアドレスに対応するMMB11が存在すると判断した場合には、設定部31は、サーバ装置1が存在すると判断する。設定部31が、上記IPアドレスに対応するMMB11が存在しないと判断した場合には、設定部31は、サーバ装置1が存在しないと判断する。設定部31が、サーバ装置1が存在しないと判断した場合、設定部31は、ポイント設定情報をポイント設定情報DB35に設定しない(ステップS3)。設定部31が、サーバ装置1が存在すると判断した場合、設定部31は、ポイント設定情報をポイント設定情報DB35に設定する(ステップS4)。
図9は、本実施形態の装置構成組み換え制御処理フローの例を示す図である。まず、異常検出部32がパーティション12内のハードウェアリソースに異常が発生したことを検出し(ステップS11)、検出結果を構成管理部33に通知する。次に、構成管理部33が、ポイント設定情報DB35内のポイント設定情報に含まれるアラーム通知可否情報に基づいて、システム管理者装置3にアラーム通知を行うか否かを判断する(ステップS12)。構成管理部33が、システム管理者装置3にアラーム通知を行うと判断した場合は、構成管理部33は、システム管理者装置3にアラーム通知を行う(ステップS13)。ステップS13においては、構成管理部33は、例えば、異常が発生したハードウェアリソースの情報、パーティション12毎の優先度、パーティション構成の変更案等をシステム管理者装置3に通知する。上記パーティション構成の変更案は、例えば、異常が発生したハードウェアリソースを優先度が最も低いパーティション12内のハードウェアリソースに交換する案である。
そして、構成変更実行部34が、システム管理者装置3からパーティション12の構成変更の実行指示を受け(ステップS14)、ステップS17に進む。構成管理部33が、システム管理者装置3にアラーム通知を行わないと判断した場合は、構成管理部33が、優先度DB106内の優先度が最も低いパーティション12を選択パーティションとして選択する(ステップS15)。続いて、構成管理部33が、構成変更実行部34に対して、パーティション12の構成変更の実行を指示する(ステップS16)。例えば、構成管理部33は、異常が発生したハードウェアリソースを選択パーティションが備えるハードウェアリソースに交換することを指示する制御情報を構成変更実行部34に送信する。そして、構成変更実行部34が、パーティション12の構成変更を実行する(ステップS17)。
図10乃至13を参照して、本実施形態の装置構成組み換え制御方法の第1の例を説明する。この例では、図10に示すように、サーバ装置1は、パーティション#1、#2、#3という3台のパーティション12を備える。また、パーティション#1、#2、#3は、それぞれ、SB#1及びIOU#1、SB#2及びIOU#2、SB#3及びIOU#3を備える。また、各SBはCPUとメモリを備え、各IOUはHDDを備える。図10のP1に示すように、パーティション#1内の斜線部に示すSB#1に、例えば水曜午後3時に異常が発生すると、パーティション#1のシステムがシャットダウンする(図10のP2を参照)。次に、サーバ装置1のMMB11が備える構成管理部33が、上記異常が発生したときの各々のパーティション12の優先度を優先度DB106から取得する(図10のP3を参照)。上記取得されたパーティション12の優先度の情報が、例えば図11に示される。図11を参照すると、最も優先度が低いパーティション12はパーティション#3であることがわかる。従って、構成管理部33は、パーティション#3を選択パーティションとして選択し(図10のP4を参照)、パーティション#1のSB#1をパーティション#3のSB#3に交換することによってパーティション12の構成を変更することを構成変更実行部34に対して指示する。続いて、構成変更実行部34が、上記構成管理部33からの指示に従って、パーティション#1のSB#1を未使用リソース格納領域13に退避させる(図12のP5を参照)。また、構成変更実行部34が、パーティション#3のシステムを停止させる(図12のP6を参照)。続いて、構成変更実行部34が、パーティション#3が備えるSB#3をパーティション#1のシステムに組み込む(図13のP7を参照)。そして、構成変更実行部34が、パーティション#1,#3のシステムを起動する。
図14乃至17を参照して、本実施形態の装置構成組み換え制御方法の第2の例を説明する。この例では、図14に示すように、サーバ装置1が備えるパーティション#1は、SB#1、SB#4及びIOU#1を備える。パーティション#2は、SB#2、SB#5及びIOU#2を備える。パーティション#3は、SB#3、SB#6及びIOU#3を備える。また、この例では、ポイント設定情報DB35内のポイント設定情報に含まれる性能利用可否情報として、yesが設定されているものとする。
図14のP1に示すように、パーティション#1内の斜線部に示すSB#1に水曜午後3時に異常が発生すると、パーティション#1のシステムがシャットダウンする(図14のP2を参照)。次に、MMB11が備える構成管理部33が、管理用サーバ2が備える性能管理部21からパーティション#1の性能情報を取得する(図15のP3を参照)。上記取得されるパーティション#1の性能情報は、例えば、SB#1に異常が発生する前の、SB#1とSB#4が備えるCPUの使用率の合計である。
続いて、構成管理部33が、取得した性能情報とパーティション構成情報DB36から取得したパーティション#1の構成情報とに基づいて、パーティション#1の構成を変更すべきであるかを判断する。具体的には、構成管理部33は、上記性能情報として取得されたSB#1とSB#4が備えるCPUの使用率の合計に相当する処理を、異常が発生していないSB#4が実行することができるかを判断することを通じて、パーティション#1の構成を変更すべきであるかを判断する。例えば、上記CPUの使用率の合計が100%を超える場合には、SB#4は、この100%を超えるCPUの使用率に相当する処理を実行することができないので、構成管理部33は、パーティション#1の構成を変更すべきであると判断する。また、例えば、上記CPUの使用率の合計が100%以下である場合には、SB#4が、この100%以下のCPUの使用率に相当する処理を実行することができるので、構成管理部33は、パーティション#1の構成を変更すべきでないと判断する。この例では、構成管理部33が、パーティション#1の構成を変更すべきであると判断したものとする(図15のP4を参照)。従って、構成管理部33は、優先度DB106内の優先度を参照して、例えば最も優先度が低いパーティション#3を選択パーティションとして選択し(図15のP5を参照)、パーティション#1のSB#1をパーティション#3の例えばSB#3に交換することによってパーティション12の構成を変更することを構成変更実行部34に対して指示する。続いて、構成変更実行部34が、上記構成管理部33からの指示に従って、パーティション#1のSB#1を未使用リソース格納領域13に退避させる(図16のP6を参照)。また、構成変更実行部34が、パーティション#3のシステムを停止させる(図16のP7を参照)。続いて、構成変更実行部34が、パーティション#3が備えるSB#3をパーティション#1のシステムに組み込む(図16のP8を参照)。そして、構成変更実行部34が、パーティション#1とパーティション#3のシステムを起動して、それぞれのパーティション12が実行していた情報処理を継続させる(図17のP9、P10を参照)。
本実施形態の情報処理装置の構成例を示す図である。 構成管理部の構成例を示す図である。 ポイント設定情報の例を示す図である。 パーティション上で稼働するソフトウェアに対するポイント値の割り当て情報の例を示す図である。 構成管理部内の優先度算出部が算出するパーティション毎の優先度を説明する図である。 平日における各パーティションの優先度の時間推移を示す図である。 土曜日における各パーティションの優先度の時間推移を示す図である。 ポイント設定情報DBへのポイント設定情報の設定処理フローの例を示す図である。 本実施形態の装置構成組み換え制御処理フローの例を示す図である。 装置構成組み換え制御方法の第1の例を説明する図である。 パーティションの優先度の情報を示す図である。 装置構成組み換え制御方法の第1の例を説明する図である。 装置構成組み換え制御方法の第1の例を説明する図である。 装置構成組み換え制御方法の第2の例を説明する図である。 装置構成組み換え制御方法の第2の例を説明する図である。 装置構成組み換え制御方法の第2の例を説明する図である。 装置構成組み換え制御方法の第2の例を説明する図である。 情報処理装置の構成例を示す図である。
符号の説明
1 サーバ装置
2 管理用サーバ
3 システム管理者装置
11 MMB
13 未使用リソース格納領域
12 パーティション
21 性能管理部
22 性能情報DB
31 設定部
32 異常検出部
33 構成管理部
34 構成変更実行部
35 ポイント設定情報DB
36 パーティション構成情報DB
106 優先度DB

Claims (10)

  1. 各々がハードウェアリソースを備え、情報処理可能な複数のパーティションと、
    前記複数のパーティションの構成を組み換え制御する制御手段とを備える情報処理装置であって、
    前記制御手段が、
    各々のパーティションに対応する、パーティションの構成が維持される優先度を算出し、算出された優先度を記憶手段に記憶する優先度算出手段と、
    パーティション内のハードウェアリソースに異常が発生したときに、前記記憶手段内の優先度に基づいて、構成を組み換える対象とするパーティションを選択パーティションとして選択するパーティション選択手段と、
    前記異常が発生したハードウェアリソースを前記選択パーティションが備えるハードウェアリソースに交換することによって、パーティションの構成の組み換えを実行する組み換え実行手段とを備える
    ことを特徴とする情報処理装置。
  2. 前記パーティション選択手段が、前記優先度が最も低いパーティションを前記選択パーティションとして選択する
    ことを特徴とする請求項1記載の情報処理装置。
  3. 前記パーティションに対応する前記優先度が、前記パーティション上において稼働するソフトウェアに対して予め割り当てられた、該ソフトウェアの重要度を示すポイント値の合計である
    ことを特徴とする請求項2記載の情報処理装置。
  4. 前記ソフトウェアの重要度を示すポイント値が、曜日毎及び/又は時間帯毎に前記ソフトウェアに予め割り当てられ、
    前記優先度算出手段が、前記ハードウェアリソースに異常が発生したときの曜日及び/又は時間帯に対応する前記ソフトウェアのポイント値の合計を前記パーティションに対応する優先度として算出する
    ことを特徴とする請求項2記載の情報処理装置。
  5. 各々のパーティションが備えるハードウェアリソースの性能情報を管理する管理装置を備え、
    前記制御手段が、更に、ハードウェアリソースに異常が発生したときに、前記管理装置が管理する性能情報に基づいて、前記異常が発生したハードウェアリソースを備えるパーティションの構成を変更するか否かを判断し、前記パーティションの構成を変更すると判断した場合に、前記パーティション選択手段に指示して、前記優先度に基づいて前記選択パーティションを選択させる構成変更判断手段を備える
    ことを特徴とする請求項1記載の情報処理装置。
  6. 各々がハードウェアリソースを備え、情報処理可能な複数のパーティションを備える情報処理装置の構成を組み換え制御する方法であって、
    前記情報処理装置が、各々のパーティションに対応する、パーティションの構成が維持される優先度を算出し、算出された優先度を記憶手段に記憶し、
    前記情報処理装置が、パーティション内のハードウェアリソースに異常が発生したときに、前記記憶手段内の優先度に基づいて、構成を組み換える対象とするパーティションを選択パーティションとして選択し、
    前記異常が発生したハードウェアリソースを前記選択パーティションが備えるハードウェアリソースに交換することによって、パーティションの構成の組み換えを実行する
    ことを特徴とする装置構成組み換え制御方法。
  7. 前記情報処理装置が、前記優先度が最も低いパーティションを前記選択パーティションとして選択する
    ことを特徴とする請求項6記載の装置構成組み換え制御方法。
  8. 前記パーティションに対応する前記優先度が、前記パーティション上において稼働するソフトウェアに対して予め割り当てられた、該ソフトウェアの重要度を示すポイント値の合計である
    ことを特徴とする請求項7記載の装置構成組み換え制御方法。
  9. 前記ポイント値が、曜日毎及び/又は時間帯毎に前記ソフトウェアに予め割り当てられ、
    前記情報処理装置が、前記ハードウェアリソースに異常が発生したときの曜日及び/又は時間帯に対応する前記ソフトウェアのポイント値の合計を前記パーティションに対応する優先度として算出する
    ことを特徴とする請求項7記載の装置構成組み換え制御方法。
  10. 前記情報処理装置が、各々のパーティションが備えるハードウェアリソースの性能情報を管理する管理装置を備え、
    前記情報処理装置が、ハードウェアリソースに異常が発生したときに、前記管理装置が管理する性能情報に基づいて、前記異常が発生したハードウェアリソースを備えるパーティションの構成を変更するか否かを判断し、前記パーティションの構成を変更すると判断した場合に、前記優先度に基づいて前記選択パーティションを選択する
    ことを特徴とする請求項6記載の装置構成組み換え制御方法。
JP2008255914A 2008-10-01 2008-10-01 情報処理装置及び装置構成組み換え制御方法 Withdrawn JP2010086363A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008255914A JP2010086363A (ja) 2008-10-01 2008-10-01 情報処理装置及び装置構成組み換え制御方法
US12/565,977 US20100083034A1 (en) 2008-10-01 2009-09-24 Information processing apparatus and configuration control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008255914A JP2010086363A (ja) 2008-10-01 2008-10-01 情報処理装置及び装置構成組み換え制御方法

Publications (1)

Publication Number Publication Date
JP2010086363A true JP2010086363A (ja) 2010-04-15

Family

ID=42058916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008255914A Withdrawn JP2010086363A (ja) 2008-10-01 2008-10-01 情報処理装置及び装置構成組み換え制御方法

Country Status (2)

Country Link
US (1) US20100083034A1 (ja)
JP (1) JP2010086363A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014112042A1 (ja) * 2013-01-15 2014-07-24 富士通株式会社 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
US10120610B2 (en) 2015-09-29 2018-11-06 Kyocera Document Solutions Inc. Electronic apparatus, information processing method, and non-transitory computer readable recording medium

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10061652B2 (en) 2016-07-26 2018-08-28 Microsoft Technology Licensing, Llc Fault recovery management in a cloud computing environment
US10747631B2 (en) * 2018-01-19 2020-08-18 DinoplusAI Holdings Limited Mission-critical AI processor with record and replay support

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2100540A1 (en) * 1992-10-19 1994-04-20 Jonel George System and method for performing resource reconfiguration in a computer system
JP3196004B2 (ja) * 1995-03-23 2001-08-06 株式会社日立製作所 障害回復処理方法
JP3794151B2 (ja) * 1998-02-16 2006-07-05 株式会社日立製作所 クロスバースイッチを有する情報処理装置およびクロスバースイッチ制御方法
CN1319237C (zh) * 2001-02-24 2007-05-30 国际商业机器公司 超级计算机中通过动态重新划分的容错
US7694303B2 (en) * 2001-09-25 2010-04-06 Sun Microsystems, Inc. Method for dynamic optimization of multiplexed resource partitions
US7529822B2 (en) * 2002-05-31 2009-05-05 Symantec Operating Corporation Business continuation policy for server consolidation environment
US7565398B2 (en) * 2002-06-27 2009-07-21 International Business Machines Corporation Procedure for dynamic reconfiguration of resources of logical partitions
US7529981B2 (en) * 2003-04-17 2009-05-05 International Business Machines Corporation System management infrastructure for corrective actions to servers with shared resources
US7900206B1 (en) * 2004-03-31 2011-03-01 Symantec Operating Corporation Information technology process workflow for data centers
US7340646B2 (en) * 2004-05-03 2008-03-04 International Business Machines Corporation Apparatus, system, and method for resource group backup
US7398427B2 (en) * 2004-07-08 2008-07-08 International Business Machines Corporation Isolation of input/output adapter error domains
US7409576B2 (en) * 2004-09-08 2008-08-05 Hewlett-Packard Development Company, L.P. High-availability cluster with proactive maintenance
US7444538B2 (en) * 2004-09-21 2008-10-28 International Business Machines Corporation Fail-over cluster with load-balancing capability
US20060085668A1 (en) * 2004-10-15 2006-04-20 Emc Corporation Method and apparatus for configuring, monitoring and/or managing resource groups
EP1806657B1 (en) * 2004-10-18 2010-05-26 Fujitsu Ltd. Operation management program, operation management method, and operation management device
US20070234114A1 (en) * 2006-03-30 2007-10-04 International Business Machines Corporation Method, apparatus, and computer program product for implementing enhanced performance of a computer system with partially degraded hardware
US8112758B2 (en) * 2008-01-08 2012-02-07 International Business Machines Corporation Methods and apparatus for resource allocation in partial fault tolerant applications

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014112042A1 (ja) * 2013-01-15 2014-07-24 富士通株式会社 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
JPWO2014112042A1 (ja) * 2013-01-15 2017-01-19 富士通株式会社 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
US10120610B2 (en) 2015-09-29 2018-11-06 Kyocera Document Solutions Inc. Electronic apparatus, information processing method, and non-transitory computer readable recording medium

Also Published As

Publication number Publication date
US20100083034A1 (en) 2010-04-01

Similar Documents

Publication Publication Date Title
JP4353005B2 (ja) クラスタ構成コンピュータシステムの系切替方法
US11321197B2 (en) File service auto-remediation in storage systems
US7802127B2 (en) Method and computer system for failover
JP5405320B2 (ja) 仮想計算機制御装置、仮想計算機制御方法及び仮想計算機制御プログラム
US8413144B1 (en) Providing application-aware high availability of virtual machines
US9191296B2 (en) Network event management
US11169854B2 (en) Node eligibility determinations
WO2012016175A1 (en) Providing application high availability in highly-available virtual machine environments
JP2005031771A (ja) ジョブスケジューリング管理方法及びシステム並びにプログラム
JP5659894B2 (ja) ソフトウェア更新装置、ソフトウェア更新方法、及びソフトウェア更新プログラム
WO2009150815A1 (ja) マルチプロセッサシステム
CN111352797A (zh) 用于监视软件应用程序进程的系统和方法
EP1943593B1 (en) Methods and apparatus for automatically multi-booting a computer system
JP5998577B2 (ja) クラスタ監視装置、クラスタ監視方法、及びプログラム
CN102110035A (zh) 多处理器计算机系统中的dmi冗余
JP2010086363A (ja) 情報処理装置及び装置構成組み換え制御方法
CN111538613A (zh) 一种集群系统异常恢复处理方法及装置
CN109753338A (zh) 虚拟gpu使用率的检测方法和装置
JP2009003537A (ja) 計算機
JP2009223519A (ja) クラスタシステム及び同システムにおいてマスタノードを選択する方法
JP5012850B2 (ja) クラスタ構成コンピュータシステムの排他制御方法
JP4892260B2 (ja) イベント通報装置およびイベント通報プログラム
US20160350147A1 (en) Control method and control device
JP2011227729A (ja) 管理サーバおよび仮想マシン配置制御方法
CN110018925B (zh) 系统安全冗余方法及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110708

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20111013