JP6103060B2 - 管理装置、管理方法及びプログラム - Google Patents

管理装置、管理方法及びプログラム Download PDF

Info

Publication number
JP6103060B2
JP6103060B2 JP2015526107A JP2015526107A JP6103060B2 JP 6103060 B2 JP6103060 B2 JP 6103060B2 JP 2015526107 A JP2015526107 A JP 2015526107A JP 2015526107 A JP2015526107 A JP 2015526107A JP 6103060 B2 JP6103060 B2 JP 6103060B2
Authority
JP
Japan
Prior art keywords
performance value
instruction
processors
cpu
processor configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015526107A
Other languages
English (en)
Other versions
JPWO2015004785A1 (ja
Inventor
小澤 誠
誠 小澤
眞司 阿形
眞司 阿形
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2015004785A1 publication Critical patent/JPWO2015004785A1/ja
Application granted granted Critical
Publication of JP6103060B2 publication Critical patent/JP6103060B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage

Description

本発明は、システム構成の動的変更技術に関する。
Dynamic Partitioning(以下、DPと呼ぶ。)とは、システムが稼働している間に、CPU(Central Processing Unit。プロセッサとも呼ぶ)やメモリ等を抜き差しする(活線挿抜とも呼ぶ)技術である。
一般的に、システムにおけるCPUやメモリの故障といったDP操作の契機を検出すると、システムの管理者は、CPU又はメモリについてDP操作を行う。しかしながら、システムが稼働中にCPU等の挿抜を行う場合には、CPU等の挿抜がシステムに与える影響を考慮すべきであり、検出された契機に応じてそのままDP操作を行うことが不適切な場合もある。
また、例えば、動的に資源を再構成するための技術として、再構成の提案動作が、資源配分の方針に従っているか否かを判断した上で提案動作を実行するというものがあるが、CPUについてのDP操作については深く考察されていない。
特開平7−295841号公報
従って、本発明の目的は、一側面においては、DP操作が適切であるか否かを確認できるようにするための技術を提供することである。
本発明に係る管理装置は、(A)複数のプロセッサを含むシステムにおけるプロセッサ構成の動的変更の指示を受け付ける受け付け部と、(B)上記指示に係る動的変更により生ずるプロセッサ構成に対応するシステムの性能値を特定し、特定されたシステムの性能値がシステムについての要求性能値以上であるかを判断し、特定されたシステムの性能値がシステムについての要求性能値以上である場合に、上記指示に係るプロセッサ構成の変更のための処理を実行する処理部とを有する。
DP操作が適切であるか否かを確認できるようになる。
図1は、本実施の形態に係るシステム全体構成図である。 図2は、本実施の形態に係る管理装置の機能ブロック図である。 図3は、CPUトポロジの変化を模式的に示す図である。 図4は、CPUトポロジに対応するシステムの性能値の一例を示す図である。 図5は、負荷予測データの一例を示す図である。 図6は、システム負荷予測データ格納部に格納されるデータの一例を示す図である。 図7は、本実施の形態に係る処理の処理フローを示す図である。 図8Aは、本実施の形態に係る事前チェック処理の処理フローを示す図である。 図8Bは、本実施の形態に係る事前チェック処理の処理フローを示す図である。 図9は、他のシステム構成例を示す図である。 図10は、コンピュータの機能ブロック図である。 図11は、コンピュータの機能ブロック図である。
図1に本実施の形態に係るシステム全体を示す。本実施の形態では、管理対象システム200と、管理対象システム200に対するDP操作の管理を行う管理装置100とは、ネットワークで接続されている。本実施の形態に係る管理対象システム200は、CPUとメモリとを各々含み且つ活線挿抜が可能な複数のセルが設けられたボード210(図1ではセルは3つ。但し、3つに限定されない。)を有している。さらに、管理対象システム200においては、ボード210と、ボード210上のセルの監視及び制御を行う制御部230と、制御部230による監視又は制御の結果などを格納するデータ格納部240とが、バス220を介して接続されている。
ボード210上のセルにおいて発生したエラーなどのデータは、データ格納部240においてエラーログとして蓄積される。また、制御部230は、ボード210上のCPUの負荷データ(例えばCPU使用率、メモリ使用量など)を取得することができるものとする。さらに、制御部230は、管理装置100からの要求等に応じてエラーログのデータ(エラーデータとも呼ぶ)や負荷データを、管理装置100に出力する。なお、管理対象システム200は、従来と同様である。
図2に、管理装置100の機能ブロック図を示す。管理装置100は、監視部110と、事前チェック処理部120と、入出力部130と、データ格納部140と、システム構成情報格納部150と、システム負荷予測データ格納部160とを有する。
監視部110は、管理対象システム200から、負荷データやエラーデータを、定期的に又は任意のタイミングで取得する。入出力部130は、管理対象システム200の管理者からの入力を受け付け、警告や事前チェック結果等を出力する。データ格納部140は、処理途中のデータを格納する。事前チェック処理部120は、DP操作実施の是非を事前に判断するための処理を実施する。
システム構成情報格納部150は、管理対象システム200におけるボード210上のメモリ構成のデータ、CPUトポロジデータ等のシステム構成情報を格納する。
メモリ構成のデータは、メモリRAS(Reliability Availability and Serviceability)機能(例えば、メモリミラーリングやメモリスペアリング、メモリエラーレポーティングなど)の適用状況を表すデータである。
また、CPUトポロジデータは、CPUトポロジ毎の性能値のデータである。3セルの各々にCPUが2つ含まれる例を用いて説明する。すなわち、CPU0及び1はセル1に含まれ、CPU2及び3はセル2に含まれ、CPU4及び5はセル3に含まれる。図3(a)に示すように、3セル6CPU構成において、各セル内のCPUは接続されており、さらにCPU4とCPU1とが接続され、CPU5とCPU2とが接続され、CPU0とCPU2とが接続され、CPU1とCPU3とが接続されているものとする。図3(a)の状態において、セル2(CPU2及び3)が除去されると、図3(b)の状態になる。すなわち、セル2を除去すると、セル1とセル3との接続は、CPU1とCPU4との接続だけになってしまい、CPU0とCPU5とが通信する場合にCPU1及び4を経由しなければならないため、性能劣化が生じてしまう。図3(a)の状態において、セル1が除去された場合においても、図3(b)のように性能劣化が生じる。一方、図3(a)の状態において、セル3(CPU4及び5)が除去されると、図3(c)の状態になる。セル3を除去しても、セル1及び2の間では、CPU0とCPU2が接続され、CPU1とCPU3とが接続されているので、例えばCPU2とCPU1が通信を行う場合にはCPU0又は3を経由するのみで通信できるので、性能劣化が生じない。図3(b)の状態からセル3が除去されるか、図3(c)の状態からセル2が除去されると、図3(d)の状態、すなわちセル1のみの状態となる。
このようなCPUトポロジの場合、図4に示すようなデータが、システム構成情報格納部150に格納される。図4の例では、CPUトポロジ(例えばセル構成パターン(例えばセル1及び2等))毎に、性能値が格納されるようになっている。図3の例では、1セルの2CPU構成と、3セルの6CPU構成とでは、どのようなセルが選択されても性能に変化はない。しかしながら、図3(b)及び(c)とで示したように、2セルの4CPU構成では、除去するセルによっては性能劣化がある場合もあれば、無い場合もある。従って、具体的に、セルを除去する場合には、どのセルを除去するかによってCPUトポロジが異なり、さらに性能劣化の有無も異なるので、区別する。なお、MP係数は、システムの設計を行う際にSMP(Symmetric Multiple Processor。対称型マルチプロセッサ)システムで、CPUの数を増加させた場合における性能の向上率を表す。例えばMP係数が1.8であれば、CPUを2つ搭載したマシンは、CPUを1つ搭載したマシンの1.8倍の性能を発揮することになる。そして、図4の例では、4CPU構成の場合に、性能劣化率=0.7の例を示しているが、これは、システムによって異なる値である。また、駆動周波数1GHzのCPU換算で性能を表しているが、これも一例に過ぎない。
また、システム負荷予測データ格納部160には、管理対象システム200の負荷予測データが格納される。負荷予測データは、例えば図5に示すようなデータである。
図5の例では、システム負荷の時間変化が表されている。具体的には、負荷は、おおよそ20時頃に10%で最小となるが、徐々に増加して6時頃に100%付近で最大となり、その後減少する。このように時間変化があるため、DP操作に時間が掛かると、完全にDP操作が完了するまでに負荷が変化してしまう。
なお、システム負荷予測データ格納部160は、図6に示すようなデータも格納するものとする。図6に示すように、最大要求CPU性能と、セルの交換にかかる時間とが格納されるようになっている。図5に示したシステム負荷(%)は、この最大要求CPU性能に対する割合として示されている。また、セルの交換にかかる時間は、DP操作を開始した後、交換部品を手に入れて実際に管理対象システム200のボード210上に装着させるまでにかかる時間である。このようなデータについても、管理対象システム200によって異なる。
次に、図7乃至図8Bを用いて、管理装置100の動作について説明する。まず、管理装置100の監視部110が、管理対象システム200から取得したエラーデータ又は負荷データに基づき、DP操作の契機を検出して、例えば入出力部130を介して管理者に対して通知を行った後に、管理者が、入出力部130を介してDP操作の操作内容が入力されるものとする。
例えば、CPUやメモリに訂正可能エラーを連続して検出した場合や、システム負荷が閾値を超えるといった、性能不足になる予兆を検出した場合、その他セルに発生した故障を検出した場合に、管理者に対して通知を行う。管理者は、エラーが検出されたセルを交換するためや、性能不足を回避するためにセルを追加するためにDP操作を行う。但し、実際にDP操作を行って良いのか否かを確認するために、DP操作を実際に行う前に、以下で述べる処理を管理装置100に実行させる。
なお、管理者は、一般的に、図3に示すようなCPUトポロジについての知識がないことが多く、図3(b)のようなセル構成で性能劣化が発生するといったことについては理解されていない場合が多い。その他、エラー発生状況、負荷状況、メモリRAS機能の設定状況についても、管理者が把握していない場合もある。従って、本実施の形態に係る処理を実行することで、DP操作をこのタイミングで実行することの是非について自動的に確認する。
まず、入出力部130は、管理者から、CPUに関連するDP操作内容の入力を受け付け、事前チェック処理部120に出力する(図7:ステップS1)。例えば、交換するセルの番号の入力を受け付ける。
そうすると、事前チェック処理部120は、事前チェック処理を実行する(ステップS3)。事前チェック処理については、図8A及び図8Bを用いて説明する。
まず、事前チェック処理部120は、監視部110及び管理対象システム200の制御部230を介して、管理対象システム200のデータ格納部240に格納されている所定期間分のエラーデータを取得し、データ格納部140に格納する(図8A:ステップS11)。
また、事前チェック処理部120は、監視部110を介して、制御部230から負荷データを取得し、データ格納部140に格納する(ステップS13)。
そして、事前チェック処理部120は、DP操作によって除去されるセルの番号から、システム構成情報格納部150に格納されているCPUトポロジについてのデータを用いて、DP操作により生ずるCPUトポロジ及び性能データを特定する(ステップS15)。例えば、現在のCPUトポロジ(すなわちセル構成)が図3(a)の状態であれば、セルを1つ除去するのであれば、その除去されるセルの番号からDP操作後に図3(b)と図3(c)のいずれの状態になるかを特定する。また、セルを2つ除去するのであれば、図3(d)の状態となることが特定される。なお、現在のCPUトポロジが図3(b)又は図3(c)であれば、DP操作により除去されるセルの番号からDP操作後に、図3(d)の状態となることが特定される。さらに、図4に示すCPUトポロジと性能との対応付けデータから、特定されたDP操作後のCPUトポロジに対応する性能データを特定する。
さらに、事前チェック処理部120は、システム負荷予測データ格納部160から、負荷予測データを読み出す(ステップS17)。図5に示すようなシステム負荷の時間変化を表すデータ、及び図6に示すようなデータを読み出す。
また、事前チェック処理部120は、システム構成情報格納部150から、メモリRAS機能の適用状況データを読み出す(ステップS18)。
ステップS11乃至S18については前処理であって、ステップS11についてはステップS19の直前に行えば良く、ステップS13についてはステップS21の直前に行えば良く、ステップS15についてはステップS23の直前に行えば良く、ステップS18についてはステップS25の直前に行えばよい。
処理は端子Aを介して図8Bの処理に移行して、事前チェック処理部120は、取得されたエラーデータから、バーストエラーが発生しているか否かを判断する(ステップS19)。バーストエラーは、所定時間内に所定基準以上のエラーが発生している(例えば1分間に数回以上エラーが発生している)といったようにエラーが頻発している状態を表す。このような状態でDP操作を行うと、システム全体が動作停止する状態になる可能性があるので、DP操作を行うことが危険だからである。
バーストエラーが発生している場合には、DP操作を行うことは不適切であるので、事前チェック処理部120は、事前チェック結果をNG(DP操作不可)に設定する(ステップS29)。そして呼出元の処理に戻る。
一方、バーストエラーが発生していない場合には、事前チェック処理部120は、取得された負荷データから、管理対象システム200が過負荷状態であるか否かを判断する(ステップS21)。現在の負荷(例えばCPU使用率、メモリ使用率など)が、閾値(例えば90%)であるか否かを判断する。過負荷状態でDP操作を行うと性能低下が発生するので、システム全体へのインパクトが大きくなってしまう場合があるためである。なお、このステップにおいても、現在時刻からセル交換にかかる時間(図6)までの間において図5に示すようなシステム負荷予測データから、システム負荷が所定レベルを超えることがあるか否かを確認するようにしても良い。
管理対象システム200が過負荷状態であれば、処理はステップS29に移行する。一方、過負荷状態ではない場合には、事前チェック処理部120は、DP操作によるセルの除去後のCPU性能がDP操作期間内において十分であるか否かを判断する(ステップS23)。
例えば、図3(a)から図3(b)へ遷移するようなDP操作、すなわちCPU2及び3を含むセル2を交換するようなDP操作を20時に行おうとする場合を考える。また、セルの交換にかかる時間が6時間(図6)であり、最大要求CPU性能が「1GHz×6CPU×MP係数」(図6)であるものとする。
ここで図5のようなシステム負荷予測であれば、20時から6時間内の負荷のピークは2時の60%であることが分かる。そうすると、DP操作期間中、最大要求CPU性能(1GHz×6CPU×MP係数)×60%(=3.6GHz×1CPU×MP係数)の負荷要求が発生する。
一方、ステップS15で特定され且つCPUトポロジに対応する性能は、性能劣化があるパターンであるから(1GHz×4CPU×MP係数)×0.7(=2.8GHz×1CPU×MP係数)となる。
そして、DP操作によりセルが除去された後のCPU性能と、DP操作期間中の負荷要求とを比較すると、後者の方が大きいので、DP操作期間中、負荷要求に対して性能が不足する状態となる。従って、このタイミングでDP操作を実行するのは問題であり、DP操作を抑止する。
一方、DP操作によりセルが除去された後のCPU性能がDP操作期間中の負荷要求以上となればDP操作を問題なく実施できる。
DP操作によりセルが除去された後のCPU性能がDP操作期間内において十分ではない場合には、処理はステップS29に移行する。一方、DP操作後のCPU性能がDP操作期間内において十分であれば、事前チェック処理部120は、メモリ関係の条件を満たすか判断する(ステップS25)。より具体的には、ステップS18で取得したデータからメモリRAS機能が適用されており、ステップS11で取得したデータからメモリRAS機能が適用されているメモリにおいて所定時間内にエラーが発生しているという条件を満たしているか否かを判断する。
ある管理対象システムでは、DP操作中にメモリRAS機能が無効になる。このようなシステムにおいてDP操作を実施する場合、DP操作中にメモリエラー等が発生するとシステムダウンになる場合がある。仮にDP操作しなければ、メモリスペアリングなどのメモリRAS機能によりエラーをリカバリして、システムの動作が継続できたかもしれない。従って、メモリRAS機能が適用されているメモリにおいて所定時間内にエラーが発生している場合には、このような危険を回避するために、DP操作を抑止する。なお、メモリRAS機能がサポートされており、セルにメモリが含まれる場合には、この条件を考慮するが、そもそもメモリRAS機能がサポートされていないシステムや、セルにメモリが含まれていない場合には、ステップS25については実行しない場合もある。
よって、このような条件が満たされる場合には、処理はステップS29に移行する。一方、このような条件が満たされない場合には、事前チェック処理部120は、事前チェック結果をOKに設定する(ステップS27)。そして呼出元の処理に戻る。
本実施の形態では、バーストエラー、過負荷、CPU性能、メモリ条件から、DP操作の実施の是非について判断しているが、より多くの条件について判断するようにしても良い。
図7の処理の説明に戻って、事前チェック処理部120は、事前チェック結果がOKであるか否かを判断する(ステップS5)。事前チェック結果がOKであれば、事前チェック処理部120は、監視部110を介して、管理対象システム200の制御部230にDP操作対象のセルの切り離し処理を実行させる(ステップS7)。この処理自体は従来と同じであり、管理者が実際にセルを取り出す前に行うべき処理を行うものである。その他の処理が含まれる場合もある。なお、事前チェック処理部120は、管理対象システム200の制御部230から切り離し完了通知を、監視部110を介して受け取ると、入出力部130を介してDP操作可能メッセージを管理者に対して通知するようにしても良い。
一方、事前チェック結果がNGであれば、事前チェック処理部120は、システム構成情報格納部150におけるシステム構成情報を、DP操作内容に応じて更新する(ステップS9)。次回、管理対象システム200の再起動を行う場合には、DP操作後のシステム構成で起動するためである。なお、管理対象システム200のデータ格納部240等に、更新後のシステム構成情報を、監視部110及び制御部230を介して格納するようにしても良い。
なお、事前チェック処理部120は、DP操作不可メッセージを、入出力部130に出力させる。これによって、現時点ではDP操作が不可能であることを認識できるようになる。
以上本実施の形態によれば、DP操作を実施することの適否を自動的に且つ事前に判断できるようになる。このようにすれば、管理対象システム200全体への影響を抑えつつDP操作ができることが確認できた上で、実際にDP操作を実施することになる。また、不適切なタイミングであれば、そのDP操作は抑止されることになる。
以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、図2に示した機能ブロック図は一例であって、プログラムモジュール構成とは一致しない場合もある。また、処理フローについても、処理結果が変わらない限り、処理順番を入れ替えたり、並列実行するようにしても良い。例えば図8Bのステップの順番は、入れ替え可能であり、並列に実行しても良い。
さらに、図1の例では、管理対象システム200と管理装置100とがネットワークで接続される例を示しているが、図9に示すように、管理装置100の機能を有する管理部260を、管理対象システム200に含めるような構成も採用しうる。場合によっては、制御部230と管理部260とが一体化されている場合もある。
また、管理装置100の機能を、複数のコンピュータで分担するようにしても良い。
なお、上で述べた管理装置100は、コンピュータ装置であって、図10に示すように、メモリ2501とCPU2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
また、図9に示すように、管理対象システム200内部に管理部260を設ける場合、管理部260自体も、コンピュータ装置であって、図11に示すように、RAM(Random Access Memory)4501とプロセッサ4503とROM(Read Only Memory)4507とがバス4519で接続されている。本実施の形態における処理を実施するための制御プログラム及び存在している場合にはOSは、ROM4507に格納されており、プロセッサ4503により実行される際にはROM4507からRAM4501に読み出される。また、処理途中のデータについては、RAM4501に格納される。なお、プロセッサ4503は、ROM4507を含む場合もあり、さらに、RAM4501を含む場合もある。本技術の実施の形態では、上で述べた処理を実施するための制御プログラムは、コンピュータ読み取り可能なリムーバブル・ディスクに格納されて頒布され、ROMライタによってROM4507に書き込まれる場合もある。このようなコンピュータ装置は、上で述べたプロセッサ4503、RAM4501、ROM4507などのハードウエアと制御プログラム(場合によってはOSも)とが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本実施の形態をまとめると以下のようになる。
本実施の形態に係る管理方法は、(A)複数のプロセッサを含むシステムにおけるプロセッサ構成の動的変更の指示を受け付けた場合、動的変更により生ずるプロセッサ構成に対応するシステムの性能値を特定し、(B)特定されたシステムの性能値がシステムについての要求性能値以上であるか否かを判断し、(C)特定されたシステムの性能値がシステムについての要求性能値以上である場合に、上記指示に係るプロセッサ構成の変更のための処理を実行する処理を含む。
このようにプロセッサ構成の動的変更によって生ずる性能劣化の程度が異なる場合もあるので、動的変更により生ずるプロセッサ構成に対応するシステムの性能値に基づき、要求性能値以上であるか否かを判断することで、プロセッサ構成の動的変更の是非を事前に判断できるようになる。
なお、上で述べた要求性能値が、システムにおける負荷に応じて算出される場合もある。システムの負荷によっては、プロセッサ構成の動的変更によって生ずる性能劣化を許容できる場合もあるためである。
さらに、上で述べた要求性能値が、現在から所定時間内におけるシステムの負荷に応じて算出されるようにしても良い。プロセッサ構成の動的変更実施中にシステム負荷が増加する場合に対処するためである。
さらに、上で述べた要求性能値が、現在から上記指示に係る動的変更にかかる所定時間内におけるシステムの負荷のピークに応じて算出されるようにしても良い。システムの負荷のピークを処理できれば、問題がないためである。
さらに、上で述べた管理方法が、システムにおいてエラーが第1の所定基準以上の頻度で発生しているという条件と、システムにおける負荷が第2の所定基準以上であるという条件と、システムにおいてメモリRAS(Reliability Availability and Serviceability)機能が適用されているメモリについてエラーが発生しているという条件との少なくともいずれかが満たされているかを判断するようにしても良い。プロセッサの性能値だけではなく、他にもシステム全体への影響を考慮すべき事項があるためである。
なお、上で述べたような処理をプロセッサに実施させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROMなどの光ディスク、光磁気ディスク、半導体メモリ(例えばROM)、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。なお、処理途中のデータについては、RAM等の記憶装置に一時保管される。

Claims (7)

  1. 複数のプロセッサを含み且つプロセッサ構成の動的変更が可能なシステムを管理する管理装置であって、
    前記プロセッサ構成の動的変更の指示を受け付ける受け付け部と、
    前記指示に係る動的変更後のプロセッサの数及びプロセッサ間の物理的な接続関係によって生ずる性能劣化の度合に基づき、前記指示に係る動的変更後のプロセッサ構成に対応する前記システムの性能値を特定し、
    特定された前記システムの性能値が前記システムについての要求性能値以上であるか否かを判断し、特定された前記システムの性能値が前記システムについての要求性能値以上である場合に、前記指示に係る動的変更のための処理を実行する処理部と、
    を有する管理装置。
  2. 前記要求性能値が、前記システムにおける負荷に応じて算出される
    請求項1記載の管理装置。
  3. 前記要求性能値が、現在から所定時間内における前記システムの負荷に応じて算出される
    請求項1記載の管理装置。
  4. 前記要求性能値が、現在から前記指示に係る動的変更にかかる所定時間内における前記システムの負荷のピークに応じて算出される
    請求項1記載の管理装置。
  5. 前記処理部が、前記システムにおいてエラーが第1の所定基準以上の頻度で発生しているという条件と、前記システムにおける負荷が第2の所定基準以上であるという条件と、前記システムにおいてメモリRAS(Reliability Availability and Serviceability)機能が適用されているメモリについてエラーが発生しているという条件との少なくともいずれかが満たされているかを判断する
    請求項1記載の管理装置。
  6. 複数のプロセッサを含み且つプロセッサ構成の動的変更が可能なシステムを管理するコンピュータに実行させるためのプログラムであって、
    前記プロセッサ構成の動的変更の指示を受け付けた場合、前記指示に係る動的変更後のプロセッサの数及びプロセッサ間の物理的な接続関係によって生ずる性能劣化の度合に基づき、前記指示に係る動的変更後のプロセッサ構成に対応する前記システムの性能値を特定し、
    特定された前記システムの性能値が前記システムについての要求性能値以上であるか否かを判断し、
    特定された前記システムの性能値が前記システムについての要求性能値以上である場合に、前記指示に係る動的変更のための処理を実行する
    処理を、前記コンピュータに実行させるためのプログラム。
  7. 複数のプロセッサを含み且つプロセッサ構成の動的変更が可能なシステムを管理するコンピュータにより実行される管理方法であって、
    前記プロセッサ構成の動的変更の指示を受け付けた場合、前記指示に係る動的変更後のプロセッサの数及びプロセッサ間の物理的な接続関係によって生ずる性能劣化の度合に基づき、前記指示に係る動的変更後のプロセッサ構成に対応する前記システムの性能値を特定し、
    特定された前記システムの性能値が前記システムについての要求性能値以上であるか否かを判断し、
    特定された前記システムの性能値が前記システムについての要求性能値以上である場合に、前記指示に係る動的変更のための処理を実行する
    処理を含み、前記コンピュータにより実行される管理方法。
JP2015526107A 2013-07-11 2013-07-11 管理装置、管理方法及びプログラム Expired - Fee Related JP6103060B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/069056 WO2015004785A1 (ja) 2013-07-11 2013-07-11 管理装置、管理方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2015004785A1 JPWO2015004785A1 (ja) 2017-02-23
JP6103060B2 true JP6103060B2 (ja) 2017-03-29

Family

ID=52279507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015526107A Expired - Fee Related JP6103060B2 (ja) 2013-07-11 2013-07-11 管理装置、管理方法及びプログラム

Country Status (3)

Country Link
US (1) US20160132356A1 (ja)
JP (1) JP6103060B2 (ja)
WO (1) WO2015004785A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105700975B (zh) * 2016-01-08 2019-05-24 华为技术有限公司 一种中央处理器cpu热移除、热添加方法及装置
US10802929B2 (en) 2018-01-03 2020-10-13 Tesla, Inc. Parallel processing system runtime state reload

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4800837B2 (ja) * 2006-05-22 2011-10-26 株式会社日立製作所 計算機システム、その消費電力低減方法、及びそのプログラム
US8176167B2 (en) * 2006-12-05 2012-05-08 Qualcomm Incorporated Methods and apparaus for requesting wireless communication device performance data and providing the data in optimal file size
CN102016748A (zh) * 2008-04-21 2011-04-13 自适应计算企业股份有限公司 用于管理计算环境中的能量消耗的系统和方法
WO2011118424A1 (ja) * 2010-03-25 2011-09-29 日本電気株式会社 マシン稼動計画作成装置、マシン稼動計画作成方法、及びマシン稼動計画作成用プログラム
US8489904B2 (en) * 2010-03-25 2013-07-16 International Business Machines Corporation Allocating computing system power levels responsive to service level agreements
US8484495B2 (en) * 2010-03-25 2013-07-09 International Business Machines Corporation Power management in a multi-processor computer system
JP5879117B2 (ja) * 2011-12-19 2016-03-08 株式会社日立製作所 情報処理システムおよび運用管理方法

Also Published As

Publication number Publication date
WO2015004785A1 (ja) 2015-01-15
JPWO2015004785A1 (ja) 2017-02-23
US20160132356A1 (en) 2016-05-12

Similar Documents

Publication Publication Date Title
US10846161B2 (en) Apparatus and method for managing part life in a datacenter
US8495618B1 (en) Updating firmware in a high availability enabled computer system
JP4920391B2 (ja) 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
US9389937B2 (en) Managing faulty memory pages in a computing system
CN110083494B (zh) 在多核心环境中管理硬件错误的方法和装置
US10353786B2 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
CN111124728B (zh) 业务自动恢复方法、系统、可读存储介质及服务器
CN111880906A (zh) 虚拟机高可用性管理方法、系统以及存储介质
JP5942509B2 (ja) バッチ処理システム
CN110109782B (zh) 一种故障PCIe设备的更换方法、装置及系统
JP4726915B2 (ja) コンピュータ構成においてデバイスのクリティカル性を判断する方法及びシステム
KR101017296B1 (ko) 정보 처리 장치, 에러 통지 프로그램, 에러 통지 방법
US7747893B2 (en) Method and system for managing resources during system initialization and startup
CN114168071B (zh) 一种分布式集群扩容方法、分布式集群扩容装置及介质
JP6103060B2 (ja) 管理装置、管理方法及びプログラム
CN114911644A (zh) 一种vpx服务器管理模块冗余备份方法及系统
KR20150001146A (ko) 스토리지 시스템 및 그의 동작 방법
US20200034269A1 (en) Apparatus and Method for Troubleshooting Poor Part Life Zones in a Datacenter
CN113590285A (zh) 一种用于线程池参数动态设置的方法、系统及设备
US11163630B2 (en) Using real-time analytics to manage application features
US11544091B2 (en) Determining and implementing recovery actions for containers to recover the containers from failures
US20200034268A1 (en) Apparatus and Method for Detecting Poor Component Life Zones in a Datacenter
US20130318310A1 (en) Processor processing method and processor system
JP6112205B2 (ja) 情報処理システム、装置、方法及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170213

R150 Certificate of patent or registration of utility model

Ref document number: 6103060

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees