JP5154238B2 - 複合型計算機システムの管理方法及び複合型計算機システム - Google Patents

複合型計算機システムの管理方法及び複合型計算機システム Download PDF

Info

Publication number
JP5154238B2
JP5154238B2 JP2008009485A JP2008009485A JP5154238B2 JP 5154238 B2 JP5154238 B2 JP 5154238B2 JP 2008009485 A JP2008009485 A JP 2008009485A JP 2008009485 A JP2008009485 A JP 2008009485A JP 5154238 B2 JP5154238 B2 JP 5154238B2
Authority
JP
Japan
Prior art keywords
pci
tree
computer
pci tree
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008009485A
Other languages
English (en)
Other versions
JP2009169842A (ja
Inventor
貴成 馬場
潤 沖津
雄次 對馬
延之 村中
敬太郎 上原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008009485A priority Critical patent/JP5154238B2/ja
Priority to EP08013954A priority patent/EP2083353A1/en
Priority to US12/222,225 priority patent/US7725632B2/en
Priority to KR1020080076633A priority patent/KR101115880B1/ko
Priority to CN2008101460331A priority patent/CN101488118B/zh
Publication of JP2009169842A publication Critical patent/JP2009169842A/ja
Application granted granted Critical
Publication of JP5154238B2 publication Critical patent/JP5154238B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4022Coupling between buses using switching circuits, e.g. switching matrix, connection or expansion network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/22Microcontrol or microprogram arrangements
    • G06F9/24Loading of the microprogram

Description

本発明は、複数の計算機と複数のPCIデバイスをPCIスイッチで接続した複合型計算機システムの装置管理技術に関し、特に、PCIデバイスを計算機に割当てる際の初期化や計算機の電源制御の技術や計算機に割当てたPCIデバイスの割当てを変更する際の制御技術に関するものである。
インターネットサイトに代表されるITシステムは、ユーザに対して情報を表示するWEBサーバ、情報を結合し処理するAP(Application)サーバ、情報を蓄積保存するDB(Data Base)サーバ等の様々なサーバから構成され、これらサーバにはCPU、メモリ、I/Oデバイス等から成る計算機が用いられている。上記のようにITシステムは、多くのサーバから構成されるため、近年、サーバの管理を容易にするために1つの装置に複数の計算機を搭載したブレードサーバが用いられるようになっている(例えば、特許文献1)。またCPUに複数のプロセッサコアを持つマルチコア化によりCPUの処理性能が向上し、それに伴い効率的にCPUを使用するため1つの計算機に複数の仮想的なサーバを稼動させる仮想サーバ技術が用いられるようになっている。
計算機では他の計算機とのネットワーク通信やストレージ装置の接続にNIC(Network Interface Card)やFC−HBA(Fiber Channel-Host Bus Adapter)等のI/Oデバイスが用いられるが、上記のように1つの計算機に複数のサーバを稼動させる場合は相対的に計算機当りのI/Oデバイス数が不足する。このような問題を補う技術として、複数の計算機と複数のI/OデバイスであるPCI(Peripheral Component Interconnect)デバイスとを接続可能とするマルチルートPCIスイッチ技術と、1つのPCIデバイスを複数の計算機で共有することを可能とするマルチルートI/O仮想化技術(IOV:IO Virtualization)とが知られている。前者のマルチルートPCIスイッチ技術では、1つの計算機に接続可能なPCIデバイスの個数をスケーラブルに変えることが可能である(例えば、特許文献2、非特許文献1等)。後者のマルチルートI/O仮想化技術では、1つのPCIデバイスを共有することで仮想的にPCIデバイスの数を増やすことが可能である。これらの技術を用いることで、仮想サーバを用いた場合のI/Oデバイス数の不足を解消することができる。
特開特開2002−32153号 米国特許第7058738号 「Advanced Switching Technology Tech Brief」、2005年発行、著者ASI-SIG、第1〜2頁
上記従来の計算機では、計算機に接続されるPCI(またはPCI Express)デバイスは、計算機とPCIデバイスが1対1に接続が固定であるが、複数の計算機と複数のPCIデバイスを接続するマルチルートPCIスイッチを用いた複合型計算機システムでは、計算機とPCIデバイスの接続が可変である。計算機とPCIデバイスの割当ての管理は、管理ソフトウェアであるPCIマネージャを計算機で実行することで行われる。
このようなマルチルートPCIスイッチを用いた複合型計算機システムでのPCIデバイスを計算機に割当てる際の初期化と計算機の電源制御、および、計算機に割当てたPCIデバイスの割当てを変更では、次のような問題点があることが本発明者により見い出された。
複合型計算機ではPCIデバイスの計算機への割当ては、PCIマネージャにより以下に示すように行われる。
計算機及びマルチルートPCIスイッチを含む複合型計算機に電源を投入した直後の初期状態では、マルチルートPCIスイッチに接続されたPCIデバイスはどの計算機にも割り当てられていない。
第1ステップとして、PCIマネージャはマルチルートPCIスイッチとPCIデバイスの接続関係を表すトポロジーの検索を行う。これによりマルチルートPCIスイッチとPCIデバイスの接続関係が分かるため、第2ステップとしてPCIマネージャはPCIデバイスと計算機の割当ての設定を行う。
この割当ての設定は、計算機毎に異なるトポロジー、いわゆる、PCIツリーの識別子をマルチルートPCIスイッチ、または、マルチルートPCIデバイスのレジスタに登録することで行う。ここでマルチルートPCIデバイスとは、IOVに対応した複数の計算機から共有が可能なPCIデバイスのことを指す。
一方、計算機の電源制御は管理サーバや複合型計算機システムの管理モジュール等の装置制御部が行うため、計算機に電源を投入する場合に、計算機に割当てられたPCIツリーの設定が完了していないと、計算機は正しいI/O構成で起動することができないという課題がある。
また、計算機に割当てられたPCIデバイスを削除、すなわち、割当てを解除する場合は、PCIマネージャが、マルチルートPCIスイッチ、または、マルチルートPCIデバイスのレジスタから、計算機に割当てられたPCIツリーの識別子を削除することで行う。
一方、PCIデバイスを使用するのは、計算機上のオペレーションシステム(OS)やデバイスドライバであるため、OSが稼動中にPCIマネージャによりPCIデバイスの削除を行うと、I/O切断によるOS障害が発生する可能性があり問題である。
特に、重要な業務を行うサーバではこのような障害の発生は許容されず大きな課題である。
そこで本発明は、上記問題点に鑑みてなされたもので、計算機に電源を投入する際に、当該計算機に割当てるPCIツリーの構成が完了していることを保証するものであり、また、計算機とPCIデバイスの割当てが可変である複合型計算機システムにおいても、従来の計算機とPCIデバイスが固定的に割当てられた計算機システムと同じレベルの使い易さと信頼性を確保することを目的とする。
本発明は、CPUとメモリとPCIインターフェースとを有する複数の計算機と、前記複数の計算機を前記PCIインターフェース経由で接続する1以上のPCIスイッチと、前記PCIスイッチに接続する複数のPCIデバイスと、前記計算機の制御を行う装置制御部と、前記PCIデバイスと前記計算機の割り当てを制御するPCIマネージャと、を備えて前記計算機とPCIマネージャとの割り当てを管理する複合型計算機システムの管理方法において、前記装置制御部が、前記複数の計算機の1つに電源を投入してオペレーションシステムを起動するステップと、前記装置制御部が、前記起動する計算機に割り当てられたPCIデバイスのトポロジーを示すPCIツリーについて、PCIツリーの識別子と、前記PCIツリーの状態を示すPCIツリー管理情報とを前記PCIマネージャから取得するステップと、前記取得したPCIツリー管理情報が初期化中または初期化未了を示す場合には、前記装置制御部が前記起動する計算機の電源投入を再実行または電源投入を中止するステップと、前記PCI管理情報が前記PCIツリーの初期化完了を示す場合には、前記装置制御部が、前記起動する計算機への電源投入を実施するステップと、を含み、前記装置制御部が、前記複数の計算機の1つに電源を投入してオペレーションシステムを起動するステップは、前記装置制御部が、前記起動する計算機からオペレーションシステムの起動の完了を検知するステップを含み、前記装置制御部が、前記起動する計算機に割り当てられたPCIデバイスのトポロジーを示すPCIツリーについて、PCIツリーの識別子と、PCIツリーの状態を示すPCIツリー管理情報とを前記PCIマネージャから取得するステップは、前記装置制御部が、前記オペレーションシステムが認識しているPCIデバイスのPCIツリーとPCIデバイスの種類情報を含むPCIツリー状態情報を取得するステップと、前記装置制御部が、前記起動する計算機と前記PCIデバイスの割当てと、前記PCIスイッチの設定情報を含むPCIツリー構成情報を取得するステップと、を含み、さらに、前記装置制御部が、前記PCIツリー構成情報から前記起動する計算機のオペレーションシステムが認識するPCIツリーを算出し、実際のPCIツリーであるPCIツリー状態情報と前記オペレーションシステムが認識するPCIツリーを比較するステップと、前記装置制御部は、前記比較の結果、前記PCIツリー状態情報とPCIツリーが一致しない場合は前記オペレーションシステムをシャットダウンして前記起動する計算機の電源切断を行うステップと、を含む。
したがって、本発明は、複数の計算機と複数のPCIデバイスとこれらの計算機とPCIデバイス間を接続するPCIスイッチで構成される複合型計算機システムにおいて、計算機に電源を投入する際に、当該計算機に割当てるPCIツリーの構成が完了していることを保証することができ、正しいPCIデバイス構成で計算機を起動することが可能となる。
これにより、計算機上で動作するオペレーションシステム、または、仮想マシンモニタ等、いわゆるシステムソフトウェアが認識する実際のPCIツリーとユーザが設定したPCIツリーとが一致していることを保証することが可能となる。
また、計算機に割当てられているPCIツリーの構成を変更する際に、システムソフトウェアが稼動していない、または、稼動中にPCIツリーが変更可能なシステムソフトウェアである、ことを保証することが可能となる。
さらに、ユーザまたは装置管理者は、計算機とPCIデバイスの割当てが可変である複合型計算機システムにおいても、従来の計算機とPCIデバイスが固定的に割当てられた計算機システムと同じレベルの使い易さと信頼性を享受することが可能となる。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するために全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は原則として省略する。
先ず本発明の第1の実施の形態による複合型計算機システムの構成について説明する。図1は本発明の第1の実施の形態による複合型計算機システムの構成図である。図1に示すように、本実施形態において複合型計算機システムは、計算機である1以上の物理ホスト1001、1002と、I/Oデバイスと物理ホスト100の接続状態を変更可能な1以上のマルチルートPCIスイッチ1011、1012と、1以上のPCIデバイス102と、複合型計算機システムの電源制御や状態管理を行う装置制御部(装置制御計算機)103、PCIデバイス102の物理ホスト100への割当てを管理するPCIマネージャ(PCI管理計算機)104、ユーザや装置管理者が複合型計算機システムを制御するための管理用端末105から構成されている。なお、図1においては、物理ホスト1001、1002が2つ、PCIスイッチが2つの構成を示し、2つの物理ホスト1001、1002は、物理ホスト1、物理ホスト2として識別し、2つのPCIスイッチ1011、1012は、PCIスイッチ1,PCIスイッチ2として識別する。装置制御部103、PCIマネージャ104については、図1では1つのみを示しているが、信頼性向上のため2以上構成しても良い。
物理ホスト1001、1002は、1以上のCPU(プロセッサ)108と、1以上のメモリ109、1以上のチップセット107と、管理コントローラであるBMC(Baseboard Management Controller)1203と、を含むハードウェア構成要素106から構成される。物理ホスト1001、1002上ではソフトウェア構成要素であるオペレーションシステムOS110が動作し、または、仮想サーバ技術を用いる場合は仮想マシンモニタ(以下、VMM)111上に複数の仮想サーバ112、112を構成し、仮想サーバ112上でゲストOS113が動作する。物理ホスト1001、1002とマルチルートPCIスイッチ1011、1012間、及びマルチルートPCIスイッチ1011、1012とPCIデバイス102間は、PCIの一形態であるPCIExpress114によって接続される。
また、物理ホスト1001、1002と装置制御部103間と、マルチルートPCIスイッチ1011、1012とPCIマネージャ104間、及び装置制御部103とPCIマネージャ104間は、それぞれ制御インターフェース117、118、116で接続される。制御インターフェースとしては、例えば、LAN(Local Area Network)やI2C(Inter-Integrated Circuit)を用いる。また、BMC1203は、物理ホストの構成情報や電源状態を収集し、装置制御部103に通知する。
マルチルートPCIスイッチ1011、1012は、物理ホスト1001、1002が接続されるポート1151と、PCIデバイス102が接続されるポート1152を備える。また、マルチルートPCIスイッチ1011、1012は、各ポート1151、1152間の接続状態を設定するレジスタ(図示省略)を備える。
装置制御部103と管理用端末105間、及びPCIマネージャ104と管理用端末105間は、それぞれ管理インターフェース120、119で接続される。管理インターフェースとしては、例えば、LANやRS−232Cを用いる。
本実施形態においては、PCIツリーの初期化と物理ホストの電源投入の手順の不整合、および、PCIツリーの構成変更と物理ホストの電源状態の不整合を防ぐために以下の構成要素を備えることを特徴とする。
装置制御部103は、物理ホスト1001、1002および仮想サーバ112の電源状態、物理ホスト1001、1002または仮想サーバ112に割当てられたPCIツリーの識別子の情報を管理する物理ホスト管理情報135と、各PCIツリーのOS110やVMM111から認識した状態を保持するPCIツリー状態情報136と、を保持する。
またPCIマネージャ104は、物理ホスト1001、1002に割当てるPCIツリーの状態を保持するPCIツリー管理情報139と、PCIマネージャが管理するマルチルートPCIスイッチ1011、1012内のPCI−to−PCIブリッジやPCIデバイス102のトポロジーと物理ホスト1001、1002へ割当てるPCIツリーの対応関係を保持するPCIツリー構成情報140と、を保持する。
また、装置制御部103は、少なくとも、PCIツリー識別子取得部131、物理ホスト起動判定部132、物理ホストPCIツリー状態取得部133、物理ホストPCIツリー確認部134、を含む。PCIツリー識別子取得部131は、PCIマネージャ104から物理ホスト1001、1002に割当てられたPCIツリーの識別子およびPCIツリーの初期化状態を取得する。
物理ホスト起動判定部132は、物理ホスト1001、1002に割当てられたPCIツリーを監視して、すべてのPCIツリーについて初期化が完了したときに物理ホスト1001、1002の電源の投入可能と判定し、それ以外の場合は電源の投入は不可であると判定する。
物理ホストPCIツリー状態取得部133は、物理ホスト1001、1002上のOS110またはVMM111から認識したPCIツリーの情報、すなわち、PCIツリー状態情報136を取得する。
物理ホストPCIツリー確認部134は、PCIマネージャ104からPCIツリー構成情報140を取得する。
次に、PCIマネージャ104は、少なくとも、PCIツリー初期化終了確認部137と、PCIツリー変更判定部138を備える。
PCIツリー初期化終了確認部137は、マルチルートPCIスイッチ1011、1012を監視してポート1151とポート1152間の接続状態が更新された否かを判定し、更新された場合にはPCIツリーの初期化が完了したことを確認し、PCIツリー管理情報139に初期化の完了を反映する。マルチルートPCIスイッチ1011、1012の監視は、例えば、マルチルートPCIスイッチ1011、1012内のレジスタをポーリングすることにより状態を取得し、レジスタの値が更新された場合にPCIツリー管理情報139に反映する。
PCIツリー変更判定部138は、装置制御部103からPCIツリーが割当てられた物理ホスト1001、1002の電源状態と、システムソフトウェアの種別と、PCIツリー状態情報136を取得する。
次に、複合型計算機システムが保持する情報について図2〜図10を用いて詳しく説明する。
図2は第1の実施の形態による複合型計算機システムの物理ホスト管理情報135の一例を示した説明図で、図3は第1の実施の形態による複合型計算機システムの物理ホスト1001、1002のうち物理ホスト1のPCIツリーの一例を示した説明図で、図4は第1の実施の形態による複合型計算機システムの物理ホスト1のPCIツリー状態情報136の一例を示した説明図で、図5は第1の実施の形態による複合型計算機システムの物理ホスト2のPCIツリーの一例を示した説明図で、図6は第1の実施の形態による複合型計算機システムの物理ホスト2のPCIツリー状態情報136の一例を示した説明図で、図7は第1の実施の形態による複合型計算機システムの物理ホスト2の仮想サーバ1のPCIツリー状態情報136の一例を示した説明図で、図8は第1の実施の形態による複合型計算機システムのPCIマネージャ104が管理するPCIツリーの変形例を示した説明図で、図9は第1の実施の形態による複合型計算機システムのPCIツリー管理情報139の一例を示した説明図で、図10は第1の実施の形態による複合型計算機システムの物理ホスト1のPCIツリー構成情報140の一例を示した説明図である。
装置制御部103が保持する物理ホスト管理情報135は表形式で表すと図2のFT2に示すように、少なくとも、複合型計算機システム内で物理ホスト1001、1002のうち物理ホスト1または物理ホスト2を特定する物理ホスト識別子K201と、物理ホスト内で仮想サーバ112を特定する仮想サーバ識別子K202と、物理ホストに割当てられたPCIツリーを示すPCIツリー識別子K203と、物理ホストまたは仮想サーバの電源状態を示す電源状態K204と、物理ホスト上で動作するOS110またはVMM111の種別または仮想サーバ112上で動作するOSの種別を表すOS/VMM種別K205と、OS110またはVMM111から認識したPCIツリーの状態であるPCIツリー状態情報136の有効または無効を示すPCIツリー状態情報K206と、の列で構成される。
電源状態K204の種類については、例えば、初期設定を実行中である初期化中、電源を投入できる状態であるスタンバイ、電源を投入されている状態であるアクティブの何れかが設定される。図2に示す例では、行G201の物理ホスト識別子K201が1の物理ホスト1については、VMMは動作していないので仮想サーバ識別子K202はNot Available(NA)であり、物理ホスト1に割当てられているPCIツリーの識別子K203はPT1、電源状態K204はスタンバイ、OS/VMM種別K205はOSx、PCIツリー状態情報K206は有効である。また、行G202〜G205の物理ホスト識別子K201が2の物理ホスト2については、VMM111が動作しており、仮想サーバ識別子K202に示すようにVM1、VM2、VM3の3つの仮想サーバが構成されている。
物理ホスト2(1002)ではPCIツリー識別子K203は、物理ホストを示す行G202に示すようにPCIツリーPT2、PT3が割当てられている。仮想サーバ111(VM1〜VM3)は物理ホスト2に割当てられたPCIツリーPT2、PT3を用いるため仮想サーバVM1〜VM3に関する他の行G203〜G205についてはNAである。すなわち、仮想サーバVM1〜VM3に割り当てるPCIツリーは、VMM111が割り当てるため、物理ホスト管理情報135においてはPCIツリー識別子K203の値を、Not Available(NA)とする。
物理ホスト2(1002)は、電源状態K204はアクティブ、OS/VMM種別K205はVMMy、PCIツリー状態情報K206は有効である。行203の物理ホスト2の仮想サーバ1は、電源状態K204はアクティブ、OS/VMM種別K205はOSy、PCIツリー状態情報K206は有効である。
次に、物理ホスト1と、物理ホスト2及び物理ホスト2の仮想サーバ1(VM1)のPCIツリー状態情報136について以下に説明する。
図3に示すように、物理ホスト1のOS110が認識するPCIツリーは、物理ホスト1(1001)とマルチルートPCIスイッチ1011、1012から割当てられるPCIツリーPT1(3061)から構成される。
物理ホスト1は、CPU、メモリを含むホストバス301と、PCI−to−PCIブリッジ3021と、NIC3031と、PCIバスBUS0(3050)から構成される。PCIツリーPT1(3061)は、マルチルートPCIスイッチ1(1011)、PCI−to−PCIブリッジ8011、8013、8015、NIC8041、HBA8051、8052、PCIバスBUS2(3052)、BUS3(3053)、BUS4(3054)から構成される。物理ホスト1とPCIツリーPT1(3061)は、PCIバスBUS1(3051)で接続される。
従って、物理ホスト1のPCIツリー状態情報136は、表形式で表すと図4のFT4に示すように、少なくとも、PCIデバイス102のPCIツリー内の場所を特定するBus Number(Bus#)K401と、Device Number(Dev#)K402と、Function Number(Func#)K403と、PCIデバイスの種類を示すデバイス種類K404、当該デバイスが属するPCIツリー識別子K405の列で構成される。
例えば、(Bus#、Dev#、Func#)=(0、1、0)については、デバイスの種類K404はPCI−PCIブリッジ3021で、図3に示すようにPCIツリーPT1に属さないためPCIツリー識別子K405はNAである。同様に、(Bus#、Dev#、Func#)=(0、2、0)については、デバイスの種類K404はネットワークコントローラ3031で、図3に示すようにPCIツリーPT1に属さないためPCIツリー識別子K405はNAとなる。
次に、図5に示すように、物理ホスト2のVMM111が認識するPCIツリーは、物理ホスト2、マルチルートPCIスイッチ1(1011)から割当てられるPCIツリーPT2(5062)と、マルチルートPCIスイッチ2(1012)から割当てられるPCIツリーPT3(5063)、から構成される。
物理ホスト2(1002)は、CPU、メモリを含むホストバス301、PCI−to−PCIブリッジ5011、5012、NIC5021、PCIバスBUS0(5050)から構成される。PCIツリーPT2(5062)は、マルチルートPCIスイッチ1(1011)、PCI−to−PCIブリッジ8012、8014、8015、NIC8042、HBA8053、8054、PCIバスBUS2(5052)、BUS3(5053)、BUS4(5054)から構成される。
PCIツリーPT3(5063)は、マルチルートPCIスイッチ2(1012)、PCI−to−PCIブリッジ8016、8018、8019、NIC8043、8044、HBA8055、PCIバスBUS6(5056)、BUS7(5057)、BUS8(5058)から構成される。
物理ホスト2(1002)とPCIツリーPT2(5062)は、PCIバスBUS1(5051)で接続され、物理ホスト2(1002)とPCIツリーPT3(5063)は、PCIバスBUS5(5055)で接続される。
物理ホスト2(1002)のようにVMM111上に複数の仮想サーバ112を構成する場合のPCIツリー状態情報136は、表形式で表すと図6のFT6に示すように、少なくとも、図4のFT4に示す項目と、PCIデバイスの仮想サーバへの割当てを示すVM割当てK606、の列で構成される。例えば、図6の(Bus#、Dev#、Func#)=(0、1、0)については、デバイスの種類K404はPCI−PCIブリッジ5011で、図5に示すようにPCIツリーPT2、PT3に属さないためPCIツリー識別子K405はNA(Not Available:該当なし)とする。この例ではPCI−PCIブリッジは特定の仮想サーバには割当てないためVM割当てK606はNAである。
また、(Bus#、Dev#、Func#)=(3、1、0)の行については、デバイスの種類K404はネットワークコントローラ8042で、図5に示すようにPCIツリー識別子K405はPT2、VM割当てK606はVM1である。この図5に示す例のように、1つの物理ホストに複数のPCIツリーを割当てても良い。
また、物理ホスト2の仮想サーバVM1のPCIツリー状態情報136は、図6で示した物理ホスト1と同様に、図7のFT7で示すようになる。
次に、PCIツリー管理情報139について説明する。PCIマネージャ104が認識するマルチルートPCIスイッチ1011、1012のPCIツリーは、例えば図8に示す構成となる。図8の例では、前記図1に物理ホスト3(1003)を加え、PCIマネージャ104は、CPUを含むホストバス806、BUS0(8070)から構成される。マルチルートPCIスイッチ1011、1012は、管理ポート1153経由で、PCIマネージャ104のBUS0(8070)に接続される。PCIマネージャ104は、PCIバスBUS0〜BUS7(8070〜8077)のPCIツリーを保持する。
物理ホスト1(1001)はマルチルートPCIスイッチ1(1011)のPort1に接続され、物理ホスト2(1002)はマルチルートPCIスイッチ1(1011)のPort2とマルチルートPCIスイッチ2(1012)のPort1に接続され、物理ホスト3(1003)はマルチルートPCIスイッチ2(1012)のPort2に接続される。
マルチルートPCIスイッチ1(1011)は、PCI−to−PCIブリッジ8011、8012、8013、8014、8015、8021、を備え、ポート1152にNIC8041、8042、HBA8051、8052、8053、8054が接続される。また、マルチルートPCIスイッチ2(1012)は、PCI−to−PCIブリッジ8016、8017、8018、8019、80110、8022、を備え、ポート1152にNIC8043、8044、及びHBA8055が接続される。
図8に示す構成において、PCIツリー管理情報139は、表形式で表すと図9のFT9に示すように、少なくとも、マルチルートPCIスイッチ1011または1012を特定するスイッチ番号K901、物理ホスト1001、1002が接続されるマルチルートPCIスイッチのポート番号K902、ポート番号K902がツリー構造のトップとなるPCIツリーを特定するPCIツリー識別子K903、PCIツリーの物理ホストへの割当て設定の状態を示すPCIツリー初期化状態K904、の列で構成される。
PCIツリー初期化状態K904の例としては、PCIツリーの設定が完了していない状態を示す「初期化未了」、設定中の「初期化中」、設定が完了した「初期化完了」がある。
次にPCIツリー構成情報140について説明する。PCIツリー構成情報140は、物理ホスト1001、1002とPCIデバイス102の割当て関係を示すマスターとなる構成情報である。この構成情報は、多くの場合、ユーザや装置管理者が管理用端末105経由で設定する。
図8に示す構成においてPCIツリー構成情報140は、表形式で表すと図10のFT10に示すように、少なくとも、PCIデバイス102のPCIツリー内の場所を特定するバス番号を格納するBus#K1001と、デバイスの識別子を格納するDev#K1002と、デバイスの機能を示す識別子を格納するFunc#K1003と、PCIデバイスの種類を示すデバイス種類K1004と、当該デバイスが属するPCIツリー識別子K1005と、当該PCIデバイスが属するマルチルートPCIスイッチの識別子を格納するスイッチ番号K1006と、当該PCIデバイスがマルチルートPCIスイッチ内のPCI−to−PCIブリッジの場合はそのブリッジに関係付けられたスイッチのポート番号を示すPort番号K1007と、から構成される。
次に本発明の第1の実施の形態による複合型計算機システムの制御について説明する。最初に、複合型計算機システムの物理ホスト1011または1012に電源を投入する場合の制御について説明する。
図11は本発明の第1の実施形態による複合型計算機システムの物理ホスト1(非仮想サーバ環境)に電源を投入する場合の制御の一例を示したフローチャートである。物理ホスト1001、1002に電源を投入する契機は、例えば、ユーザや装置管理者が管理用端末105を用いて装置制御部103に対し物理ホスト1(1001)の電源投入を指示する(ステップS1101)ことが契機となる。装置制御部103はPCIツリー識別子取得部131によりPCIマネージャ104から物理ホスト1(1001)に割当てられたPCIツリーの識別子およびそのPCIツリーの初期化状態を取得する(ステップS1102)。
ここで装置制御部103は、物理ホスト1(1001)が接続されているマルチルートPCIスイッチ1011、1012のスイッチ番号とポート番号を用いてPCIマネージャ104に取得要求を出すので、PCIマネージャ104は図9に示すPCIツリー管理情報139からPCIツリー識別子K903を選択することができる。また、PCIツリーの初期化状態は、PCIマネージャ104のPCIツリー初期化終了確認部137により、例えば、マルチルートPCIスイッチ1011、1012のレジスタ(図示省略)をポーリングすることにより状態取得を行い、状態に更新がある場合にPCIツリー管理情報139に反映される。
次に装置制御部103は物理ホスト起動判定部132により物理ホスト1(1001)に割当てられたPCIツリーすべてが初期化完了のときは物理ホスト1の電源の投入可能と判断し、それ以外の場合は電源の投入不可と判断する(ステップS1103)。
図9に示す例では、物理ホスト1(1001)に割当てられたPCIツリーPT1の初期化状態は初期化完了であるため当該物理ホストに対する電源の投入可能と判断する。装置制御部103は、このステップS1103で電源の投入不可と判断した場合は、例外処理として、例えば、電源投入処理を最初からやり直す、あるいは、エラーを管理用端末105に通知して電源投入処理を中止する、等の処理を行う(ステップS1105)。
一方、電源の投入可能と判断した場合、装置制御部103は、制御インターフェース117経由で物理ホスト1(1001)の電源投入を実行する(ステップS1104)。物理ホスト1(1001)の電源が投入されるとPCIツリーPT1のPCIデバイス102を、物理ホスト1のOS110から使用可能にするための初期設定を含む処理が行われ、その後、OS110が起動する。
装置制御部103は、制御インターフェース117を介して物理ホスト100でOS110が起動したことを検出する(ステップS1106)。
次に装置制御部103は、物理ホストPCIツリー状態取得部133により物理ホスト1(1001)からOS110が認識したPCIツリーの情報、すなわち、PCIツリー状態情報136を取得する(ステップS1107)。次に、ステップS1008では、
上記ステップS1101〜1107の処理は、図12のように行われる。
図12は第1の実施の形態による装置制御部103の物理ホストPCIツリー状態取得部133がPCIツリー状態情報136を取得する手順の一例を示したブロック図である。なお、図12に示すように、本実施形態ではOS110は、PCIデバイス102を使用するためにOS自身で認識したPCIツリーの情報であるPCIツリー状態情報1202を保持している。
OS110は、例えば、装置制御部103からPCIツリー状態取得要求を受けた場合、物理ホスト1101上の管理コントローラであるBMC1203経由でPCIツリー状態情報を通知する(経路1204、および、経路1205)。
次に物理ホストPCIツリー状態取得部133は、PCIツリー状態情報136を保存し(経路1207)、図2の物理ホスト管理情報135のPCIツリー状態情報K206にPCIツリー状態情報136が有効であることを設定する(経路1206)。なお、物理ホスト2では、OS110に代わってVMM111上に構成される仮想サーバ112上で動作するOS113を指す。また、OS110に代わって、BIOS(Basic Input/Output System)、EFI(Extensible Firmware Interface)等のシステムファームウェアが上述の処理を行っても良い。
次に装置制御部103は、物理ホストPCIツリー確認部134により、PCIマネージャ104からPCIツリー構成情報140を取得し(ステップS1108)、前述のPCIツリー状態情報136とPCIツリー構成情報140を比較することにより一致するか確認を行う(ステップS1109)。これにより、ユーザ、または、装置管理者が設定した物理ホスト1001、1002とPCIデバイス102の割当て設定とOS110等のシステムソフトウェアが認識するPCIデバイス102の実際の割当て状態とが一致することを確認することができる。つまり、設定が実際に正しく反映されているかを確認できる。このステップS1109で、構成情報と状態が一致している場合は、通常の物理ホスト1(1001)の稼動状態となる(ステップS1110)。一方、一致していない場合は、例外処理として、例えば、物理ホスト1(1001)を再起動したり、あるいは、エラーを管理用端末105に通知して物理ホスト1をシャットダウンする、等の処理を行う(ステップS1111)。
ここで、本実施形態のステップS1109におけるPCIツリー状態情報136とPCIツリー構成情報140の比較処理について、図13〜図15を用いて詳しく述べる。図13は第1の実施の形態による複合型計算機システムのPCIツリー状態情報136とPCIツリー構成情報140の比較処理の一例を示したフローチャートで、図14は第1の実施の形態による複合型計算機システムのシステムソフトウェア(OS110またはVMM111)が認識するPCIツリーの一例を示した説明図で、図15は第1の実施の形態による複合型計算機システムのシステムソフトウェアが認識するPCIツリーの一例を示した説明図である。
図13に示すように、装置制御部103の物理ホストPCIツリー確認部114は、物理ホスト管理情報135から物理ホスト1001、1002に割当てられているPCIツリー識別子PT1を取得する(ステップS1301)。また、物理ホストPCIツリー確認部114は、物理ホスト管理情報135から物理ホスト1001、1002上で動作するシステムソフトウェアの種別である図2のOS/VMM種別K205からOSxを取得する(ステップS1302)。PCIでは、PCIツリーのBus Numberはシステムソフトウェアの起動時に固有の方法で指定されるので、システムソフトウェアの種別ごとにPCIツリーのトポロジーが異なることがある。
例えば、物理ホスト1(1001)に割当てられたPCIツリーPT1をシステムソフトウェア(OS110)から認識すると図14に示すようなPCIバスBUS2(14012)、BUS3(14013)、BUS4(14014)のトポロジーとなり、別の種別のシステムソフトウェアから認識すると図15に示すようなPCIバスBUS2(15012)、BUS3(15013)、BUS4(15014)のトポロジーとなる。
すなわち、この図14、図15の例ではBUS3とBUS4が入れ替わったトポロジーとなる。従って、PCIツリー状態情報136とPCIツリー構成情報140を単純に比較しても、正しいトポロジーの比較ができない。そこで、本実施形態では物理ホストPCIツリー確認部114は、PCIツリー構成情報140とシステムソフトウェアの種別であるOSxのPCIツリー生成アルゴリズムに従って、OSxから認識されるPCIツリーを算出する(ステップS1303)。
物理ホストPCIツリー確認部114が算出したOSxから認識されるPCIツリーとPCIツリー状態情報136を比較し、両者が一致するか判定を行う(ステップS1304)。その結果として物理ホストPCIツリー確認部114は、一致(ステップS1305)、または、不一致(ステップS1306)の判定結果を出す。上記の方法では、装置制御部103の物理ホストPCIツリー確認部114がシステムソフトウェアから認識されるPCIツリーの算出を行った例を示したが、PCIマネージャ104が算出し、算出した結果のみを装置制御部103に知らせる方法でも良い。
図11に示した処理では非仮想サーバの場合について説明したが、次に仮想サーバ112を構成する物理ホスト1002に電源を投入する場合の制御について説明する。
図16は本発明の第1の実施形態による複合型計算機システムの物理ホスト2(仮想サーバ環境)に電源を投入する場合の制御の一例を示したフローチャートである。
図2で示したように、物理ホスト2(1002)は3つの仮想サーバVM1、VM2、VM3が構成される。図16に示す手順では、図11の本発明の第1の実施形態による複合型計算機システムの物理ホスト1に電源を投入する場合の処理で示したステップS1101〜S1105、S1107〜S1109、および、S1111と同じである。従って、以下では異なる部分についてのみ説明し、同じ部分については説明を省略する。
仮想サーバ112では、物理ホスト2の電源投入の実行後(ステップS1104)、VMM111が起動するので、装置制御部103は制御インターフェース117経由でVMM111が起動したことを確認する(ステップS1601)。また、PCIツリー状態情報136とPCIツリー構成情報140を比較することにより、2つの情報が一致するか否かの確認(ステップS1109)で一致と判断した場合に、装置制御部103は制御インターフェース117経由でVM2上のOS113を起動させ(ステップS1602)、制御インターフェース117経由でOS110が起動したことを確認する(ステップS1603)。その後、通常の物理ホスト2(1002)の稼動状態となる(ステップS1604)。本実施形態の複合型計算機システムの制御により、計算機に電源を投入する際にその計算機に割当てるPCIツリーの構成が完了していることを保証することができ、正しいPCIデバイス構成で計算機を起動することが可能となる。また、OS110、または、VMM111等のいわゆるシステムソフトウェアが認識する実際のPCIツリーとユーザが設定したPCIツリーとが一致していることを保証することが可能となる。
次に、複合型計算機システムの物理ホストに割当てられたPCIツリーの構成を変更する場合の制御について説明する。図17は本発明の第1の実施形態による複合型計算機システムの物理ホスト1(非仮想サーバ環境)に割当てられたPCIツリーの構成を変更する場合の制御の一例を示したフローチャートである。PCIツリーの構成を変更する契機は、例えば、ユーザや装置管理者が管理用端末105を用いてPCIマネージャ104に対し、物理ホスト1(1001)のPCIツリーPT1の構成変更指示(ステップS1701)による。PCIマネージャ104はPCIツリー変更判定部138により、装置制御部103からPCIツリーPT1が割当てられた物理ホスト1(1001)の電源状態と、システムソフトウェアの種別、PCIツリー状態情報を取得する(ステップS1702〜S1704)。
次に、PCIマネージャ104は、これらの物理ホスト1(1001)に関する情報を用いてPCIツリーPT1の構成変更が可能か判定する(ステップS1705)。この判定方法としては、例えば、物理ホスト1001の電源状態がアクティブのときは構成変更不可、システムソフトウェアの種別がPCIデバイスのホットプラグに対応していない場合は構成変更不可、PCIツリー状態情報からPCIデバイスの種類がホットプラグに対応していない場合は構成変更不可、等がある。この判定の結果PCIマネージャ104は、PCIツリーの構成変更可の場合は、PCIツリーPT1の構成変更を実行する(ステップS1706)。一方、判定が構成変更不可の場合は、例外処理として、例えば、エラーを管理用端末105に通知して構成変更処理を中止する等の処理を行う(ステップS1707)。
上記図17に示す処理では非仮想サーバの場合について説明したが、次に仮想サーバ112を構成する物理ホスト1002のPCIツリーの構成を変更する場合の制御について説明する。
図18は本発明の第1の実施形態による複合型計算機システムの物理ホスト2(仮想サーバ環境)に割当てられたPCIツリーの構成を変更する場合の制御の一例を示したフローチャートである。図2に示すように、物理ホスト2(1002)では3つの仮想サーバ VM1、VM2、VM3が構成される。図18に示す手順では、図17の本発明の第1の実施形態による複合型計算機システムの物理ホスト1にPCIツリーの構成を変更する場合の処理のステップS1701〜S1704と図18のステップS1801〜S1804は同様の処理である。従って、以下ではステップS1805以降の図17とは異なる部分について説明し、同じ部分については説明を省略する。
図18の例では、PCIツリーPT2の変更を行う場合の制御方法を示している。仮想サーバでは、PCIマネージャ104はPCIツリー変更判定部138により、PCIツリーPT2が割当てられた物理ホスト2の物理ホスト管理情報135、および、PCIツリー状態情報を取得後(ステップS1802〜S1804)、物理ホスト2に構成される仮想サーバVM1、VM2、VM3に関する電源状態、システムソフトウェアの種別、PCIツリー状態情報を取得する(ステップS1805〜S1807)。次に、これらの物理ホスト2(1002)と仮想サーバVM1、VM2、VM3に関する情報を用いてPCIツリーPT2の構成変更が可能か判定する(ステップS1808)。この判定方法としては、例えば、物理ホスト1002の電源状態がアクティブのときは構成変更不可、PT2が割当てられた仮想サーバ、すなわち、図2に示したようにVM1、VM2の電源状態がアクティブのときは構成変更不可、VM1上のシステムソフトウェアOSyがPCIデバイスのホットプラグに対応していない場合は構成変更不可、システムソフトウェアVMM yがPCIデバイスのホットプラグに対応していない場合は構成変更不可、等がある。
図17に示す制御と同様に、この判定の結果PCIマネージャ104は、PCIツリーの構成変更可の場合は、PCIツリーPT2の構成変更を実行する(ステップS1809)。一方、判定が構成変更不可の場合は、例外処理を行う(ステップS1810)。
本実施形態の複合型計算機システムの制御により、計算機に割当てられているPCIツリーの構成を変更する際に、システムソフトウェアが稼動していない、または、稼動中にPCIツリーが変更可能なシステムソフトウェアである、ことを保証することが可能となる。
<第2実施形態>
次に本発明の第2の実施の形態による複合型計算機システムの構成について説明する。第2の実施形態における複合型計算機システムの構成は、図1に示した第1の実施形態の複合型計算機システムの構成に対して、PCIマネージャ104とマルチルート1011、1012の接続を変更したもので、その他の構成は前記第1実施形態と同様である。従って、以下では第1の実施形態と異なる分部についてだけ説明し、同じ部分については説明を省略する。
図19は第2の実施の形態による複合型計算機システムのPCIマネージャ104が管理するPCIツリーの一例を示した説明図である。本実施形態では、マルチルートPCIスイッチ1011、1012にBMC1901を搭載し、PCIマネージャ104は制御インターフェース1902経由で各BMC1901と接続される。この場合は、PCIマネージャ104は、BMC1901経由で、マルチルートPCIスイッチ1011または1012に構成されるPCIデバイス(8041〜8055)のトポロジーを把握することが可能である。
<第3実施形態>
次に本発明の第3の実施の形態による複合型計算機システムの構成について説明する。第3の実施形態における複合型計算機システムの構成は、図1に示した第1の実施形態の複合型計算機システムに対して、物理ホストPCIツリー状態取得部133がPCIツリー状態を取得する方法を変更したもので、その他については前記第1実施形態と同様である。従って、以下では第1の実施形態と異なる分部についてのみ説明し、同じ部分については説明を省略する。
図20は第3の実施の形態による複合型計算機システムの物理ホストPCIツリー状態取得部133がPCIツリー状態情報136を取得する方法の一例を示した説明図である。なお、図20では、説明を簡易にするため、前記図1の物理ホスト1001とPCIスイッチ1011と、PCIマネージャ104と、装置制御部103のみを示し、その他を省略した。本実施形態では、装置制御部103がマルチルートPCIスイッチ1011にPCIデバイス102のコンフィグレーションレジスタにアクセスすることができ、コンフィグレーション情報を取得することが可能なPCIコンフィグ情報取得部130を備える。装置制御部103の物理ホストPCIツリー状態取得部133は、PCIコンフィグ情報取得部130からPCIマネージャ104経由(経路2001)でPCIツリー状態を取得する。次に、物理ホストPCIツリー状態取得部133は、PCIツリー状態情報136を保存し(経路2003)、図2の物理ホスト管理情報135のPCIツリー状態情報K206にPCIツリー状態情報136が有効であることを設定する(経路2002)。
次に、PCIコンフィグ情報取得部130の具体的な回路について説明する。図21は第3の実施の形態による複合型計算機システムのPCIコンフィグ情報取得部130の一例を示した回路図である。
本実施形態では、PCIコンフィグ情報取得部130は、PCIツリー状態情報の取得をコントロールするBMC1901とPCIのコンフィグレーションリクエストの送信と受信を行うPCI送受信部2102から構成される。
さらにPCI送受信部2102は、ホストバスに近いupstream2111からホストバスに遠いdownstream2138向きのPCIトランザクションを処理するoutbound制御部2104、downstream2138からupstream2111向きのPCIトランザクションを処理するinbound制御部2103、実行中のコンフィグレーションアクセスを保持する実行中コンフィグレーションバッファ2129、PCIツリー状態情報136を取得するためのコンフィグレーションアクセスを保持するスキャン中コンフィグレーションバッファ2130、から構成される。また、2137はAND論理回路である。
PCIコンフィグレーション情報取得部130が有効な場合は、BMC1901はoutboundのPCIトランザクションがコンフィグレーションリクエストであることを特定するコンフィグレーションリクエスト特定部2113とinboundのPCIトランザクションがコンフィグレーションコンプリーションであることを特定するコンフィグレーションコンプリーション特定部2120を制御インターフェース2114、2121により有効(Enable)にする。これによりPCIのトランザクションは以下のように処理される。
upstream2111からの非コンフィグレーションのPCIトランザクションは、経路2112、2116、2118によりdownstream2138に転送される。
upstream2111からのコンフィグレーションのPCIトランザクションは、経路2112、2117、2118によりdownstream2138に転送されると共に、実行中コンフィグレーションバッファ2129に保持される。
downstream2138からの非コンフィグレーションコンプリーションのPCIトランザクションは、経路2119、2123、2125によりupstream2111に転送される。
downstream2138からのコンフィグレーションコンプリーションのPCIトランザクションは、スキャン中コンフィグレーションコンプリーション特定部2133により、upstreamから来たコンフィグレーションに対するコンプリーションか、PCIコンフィグレーション情報取得部130が出したコンフィグレーションに対するコンプリーションかが特定される。
前者のupstreamからきたコンフィグレーションに対するコンプリーションの場合は、経路2119、2122、2124、2125によりupstream2111に転送される。後者のPCIコンフィグレーション情報取得部130が出したコンフィグレーションに対するコンプリーションの場合については、以下のPCIコンフィグレーション情報取得方法の中で説明する。
PCIコンフィグレーション情報取得部130がPCIデバイス102のコンフィグレーション情報を取得する方法は、先ずBMC1901がスキャン用コンフィグレーションRead生成部2126に対して制御インターフェース2127により、情報を取得する対象のPCIデバイス102の設定、すなわち、スキャン設定を行う。スキャン用コンフィグレーションRead生成部2126は、実行中コンフィグレーションバッファ2129を参照し、実行中のupstreamからきたコンフィグレーションのトランザクションが無いことを確認する。このコンフィグレーションのトランザクションが無い場合は、情報を取得する対象PCIデバイス102に対してスキャン用のコンフィグレーションReadを生成し、経路2128、2118によりdownstream2138に転送する。同時に、このコンフィグレーションReadをスキャン中コンフィグバッファ2130に保持する。
次に、スキャン用のコンフィグレーションReadに対するコンプリーションが、downstream2138から、経路2119、2122でinbound制御部2103に返ってくる。スキャン中コンフィグレーションコンプリーション特定部2133は、実行中コンフィグレーションバッファ2129とスキャン中コンフィグバッファ2130を参照して、このコンフィグレーションコンプリーションがスキャン用であることを特定する。
スキャン中コンフィグレーションコンプリーション特定部2133は、実行中コンフィグレーションバッファ2129、または、スキャン中コンフィグレーションバッファ2130に保持されているコンフィグレーションの該当するエントリを削除して更新を行う。
スキャン用のコンフィグレーションコンプリーションのコンプリーションは、経路2134によりスキャンデータバッファ2153を経由して経路2136によりBMC1901に転送される。これによりBMC1901は、PCIデバイス102のコンフィグレーション情報を取得することが可能である。
<第4実施形態>
次に本発明の第4の実施の形態による複合型計算機システムの制御について説明する。第4の実施形態における複合型計算機システムの制御は、図11および図16に示す第1の実施形態の複合型計算機システムの制御に、ユーザまたは装置管理者が設定するポリシーに応じて、物理ホスト1001、1002の電源投入の可否を判定する処理を追加したもので、その他は前記第1実施形態と同様である。従って、以下では第1の実施形態と異なる分部についてだけ説明し、同じ部分については説明を省略する。
図22は本発明の第4の実施形態による複合型計算機システムの物理ホストに電源を投入する場合の電源投入判断処理の一例を示したフローチャートである。前記第1実施形態の図11および図16に示したステップS1103で装置制御部103により物理ホスト1(1001)の電源投入判定が開始される(ステップS2201)。装置制御部103は物理ホスト1(1001)の電源を投入するポリシーの設定が有効か判定し(ステップS2202)、ポリシー設定が有効の場合は電源投入可と判断する(ステップS2204)。一方ポリシー設定が無効の場合は、物理ホスト1(1001)に割当てられているすべてのPCIツリーの初期化が完了したかを判定する(ステップS2203)。前記条件を満たしている場合は電源投入可と判断し(ステップS2204)、前記条件を満たしていない場合は電源投入不可と判断する(ステップS2205)。
本実施形態は、非仮想サーバ環境および仮想サーバ環境の両方に共通である。本実施形態により、ユーザまたは装置管理者が設定するポリシーにより物理ホストの電源投入を判断できるようになる。
<第5実施形態>
次に本発明の第5の実施の形態による複合型計算機システムの制御について説明する。第5の実施形態における複合型計算機システムの制御は、図17および図18に示した第1の実施形態の複合型計算機システムの制御に対して、ユーザまたは装置管理者が設定するポリシーによるPCIツリーの構成変更可否の判定処理を追加したもので、その他の構成については同様である。従って、以下では第1の実施形態と異なる分部についてだけ説明し、同じ部分については説明を省略する。
図23は本発明の第5の実施形態による複合型計算機システムの物理ホスト1(非仮想サーバ環境)に割当てられたPCIツリーの構成を変更する場合の構成変更可否を判断する方法の一例を示したフローチャート、図24は本発明の第5の実施形態による複合型計算機システムの物理ホスト2(仮想サーバ環境)に割当てられたPCIツリーの構成を変更する場合の構成変更可否を判断する方法の一例を示したフローチャートである。
図23に示すように、物理ホスト1001が非仮想サーバ環境である場合は、図17に示したステップS1705で、装置制御部103により物理ホスト1(1001)のPCIツリーPT1の構成変更可否の判定が開始される(ステップS2301)。PCIマネージャ104は、物理ホスト1がアクティブ状態のときでもPCIツリーの構成変更を許可するポリシーの設定が有効か否かを判定し(ステップS2302)、ポリシー設定が有効の場合は、PCIツリーPT1が割当てられた物理ホスト1(1001)上で動作するOS110の種別からアクティブ状態でPCIツリーの変更が可能か判定する(ステップS2303)。この判定結果がアクティブ状態でPCIツリーの変更が可能な場合は構成変更可と判断する(S2305)。一方、ステップS2302でポリシーの設定が無効、または、ステップS2303でアクティブ状態でPCIツリーの変更が不可な場合は、PCIツリーPT1が割当てられた物理ホスト1(1001)の電源状態がアクティブか否かを判定し、アクティブのときは構成変更不可と判断する(ステップS2306)。一方、物理ホスト1(1001)の電源状態がアクティブで無いときは構成変更可と判断する(ステップS2305)。
また、図24に示すように、物理ホストが仮想サーバ環境である場合は、図18に示したステップS1804で、装置制御部103により物理ホスト2(1002)のPCIツリーPT2の構成変更可否の判定が開始される(ステップS2301)。
PCIマネージャ104は、物理ホストがアクティブ状態のときでもPCIツリーの構成変更を許可するポリシーの設定が有効か判定し(ステップS2302)、ポリシー設定が有効の場合は、PCIツリーPT1が割当てられた物理ホスト2(1002)上で動作するVMM111の種別からアクティブ状態でPCIツリーの変更が可能か判定する(ステップS2401)。
ステップS2302でポリシー設定が無効の場合、または、ステップS2401でアクティブ状態でもPCIツリーの変更が不可の場合は、PCIツリーPT2が割当てられた物理ホスト2(1002)の電源状態がアクティブかどうか判定し(ステップS2304)、アクティブの場合は構成変更不可と判定する(S2406)。
ステップS2401でVMM111がアクティブ状態でもPCIツリーの変更が不可の場合、または、ステップS2304でアクティブでない場合は、物理ホスト2(1002)上に構成される仮想サーバ112がアクティブ状態のときでもPCIツリーの構成変更を許可するポリシー設定が有効か判定し(ステップS2402)、ポリシー設定が有効の場合はPCIツリーPT2が割当てられた仮想サーバ112上で動作するOS113の種別からアクティブ状態でPCIツリーの変更が可能か判定する(ステップS2403)。
アクティブ状態でPCIツリーの変更が可能な場合は構成変更可と判定する(ステップS2405)。ステップS2402でポリシーの設定が無効、または、ステップS2403でアクティブ状態でPCIツリーの変更が不可の場合は、PCIツリーPT2が割当てられた仮想サーバ112の電源状態がアクティブか否かを判定し、1以上の仮想サーバ112がアクティブのときは構成変更不可と判断する(ステップS2406)。
一方、すべての仮想サーバ112がアクティブでないときは構成変更可と判断する(ステップS2405)。本実施形態により、ユーザまたは装置管理者が設定するポリシーによりPCIツリーの構成変更可否を判断できるようになる。
<第6実施形態>
次に本発明の第6の実施の形態による複合型計算機システムの構成について説明する。第6の実施形態における複合型計算機システムの構成は、図1に示した第1の実施形態の複合型計算機システムに示したPCIマネージャ104と、装置制御部103の搭載場所を変更したものでその他の構成は前記第1実施形態と同様でである。従って、以下では第1の実施形態と異なる分部についてのみ説明し、同じ部分については説明を省略する。
図25は第6の実施の形態による複合型計算機システムの構成図である。図25に示すように、本実施形態では、PCIマネージャ104はマルチルートPCIスイッチ1011に搭載され、装置制御部103は複数の単体装置(計算機)である物理ホスト1001、1002、1003を管理する管理サーバ2501に搭載される。管理サーバ2501と物理ホスト1001、1002、1003と、管理サーバ2501とマルチルートPCIスイッチ1011と、管理サーバ2501と管理用端末105は、それぞれ管理LAN 2502で接続される。本実施形態では、本発明を複数のラック型サーバまたはペデスタル型サーバとマルチルートPCIスイッチ装置から構成されるシステムにも適用が可能である。
<第7実施形態>
次に本発明の第7の実施の形態による複合型計算機システムの構成について説明する。第7の実施形態における複合型計算機システムの構成は、図1に示した第1の実施形態の複合型計算機システムの構成のうち、PCIマネージャ104と、装置制御部103の搭載場所を変更したもので、その他の構成は前記第1実施形態と同様である。従って、以下では第1の実施形態と異なる分部についてだけ説明し、同じ部分については説明を省略する。
図26は第7の実施の形態による複合型計算機システムの構成図である。図26に示すように、本実施形態では、ブレードサーバ2601は、複数の物理ホスト1001、1002、1003と、マルチルートPCIスイッチ1011と、PCIデバイス102、ブレードサーバ内の物理ホスト1001、1002、1003と、マルチルートPCIスイッチ1011と、PCIデバイス等の管理を行う管理モジュール2602から構成される。なお、前記第1実施形態のマルチルートPCIスイッチ1012は図示を省略した。
PCIマネージャ104はマルチルートPCIスイッチ1011に搭載され、装置制御部103は管理モジュール2602に搭載される。管理モジュール2602と物理ホストは管理LAN2605で接続され、管理モジュール2602とマルチルートPCIスイッチ1011はI2C2604で接続され、管理モジュール2602と管理用端末105は管理LAN2603で接続される。
本実施形態では、本発明をマルチルートPCIスイッチ1011、1012を搭載するブレード型サーバのシステムにも適用が可能である。
<第8実施形態>
次に本発明の第8の実施の形態による複合型計算機システムの構成について説明する。第8の実施形態における複合型計算機システムの構成は、図1に示した第1の実施形態の複合型計算機システムのうち、PCIマネージャ104、装置制御部103の搭載場所を変更したもので、その他の構成は前記第1実施形態と同様である。従って、以下では第1の実施形態と異なる分部についてのみ説明し、同じ部分については説明を省略する。
図27は第8の実施の形態による複合型計算機システムの構成図である。図27に示すように、本実施形態では、複数のブレードサーバ2601、複数のIOシャーシ2701、管理用端末105から構成される。ブレードサーバ2601は、複数の物理ホスト1001、1002、1003と、マルチルートPCIスイッチ1011と、管理モジュール2602から構成される。なお、前記第1実施形態のマルチルートPCIスイッチ1012は図示を省略した。
IOシャーシ2701は、マルチルートPCIスイッチ1011、複数のPCIデバイス102から構成される。それぞれのマルチルートPCIスイッチ1011間は、PCI Express(例えば、ケーブル等)によって接続される。管理モジュール2602とマルチルートPCIスイッチ1011は管理LAN2701で接続され、複数の管理モジュールおよび管理用端末105は管理LAN2603で接続される。
本実施形態では、本発明をマルチルートPCIスイッチ1011、1012を搭載するブレード型サーバとIOシャーシから成るシステムにも適用が可能である。
<第9実施形態>
次に本発明の第9の実施の形態による複合型計算機システムの構成について説明する。第9の実施形態における複合型計算機システムの構成は、図1に示した第1の実施形態の複合型計算機システムのうち、管理用端末105のグラフィカルインターフェースの構成を変更したものでその他の構成は前記第1実施形態と同様である。従って、以下では第1の実施形態と異なる分部についてだけ説明し、同じ部分については説明を省略する。
図28は第9の実施の形態による複合型計算機システムのグラフィカルインターフェースの一例を示した説明図である。図28に示すように、管理用端末105のグラフィカルインターフェース2801は、PCIマネージャを設定するPCIマネージャ設定部2802に、少なくとも物理ホスト1001、1002の電源投入時にPCIツリーの初期化状態の確認を行うかを設定するPCIツリー初期化確認無効化入力部2803、物理ホスト1001、1002に割当てられたPCIツリーの構成変更時に物理ホスト1001、1002の状態の確認を行うかを設定する物理ホスト用のPCIツリー変更確認無効化入力部2804、仮想サーバ112に割当てられたPCIツリーの構成変更時に物理ホスト1001、1002の状態の確認を行うかを設定する仮想サーバ用のPCIツリー変更確認無効化入力部2805、設定確定入力部2806を備える。
PCIマネージャ設定部2802の各入力部2803、2804、2805、2806は、複合型計算機システムに1つ備えても良いし、個々の物理ホスト1001、1002毎に備えても良い。
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
本発明は、計算機とPCIデバイスの割当てが可変である複合型計算機システム、すなわち、マルチルートPCIスイッチを用いた計算機システムに適用することができる。
第1の実施の形態を示し、本発明を適用する複合型計算機システムのブロック図。 第1の実施の形態を示し、複合型計算機システムの物理ホスト管理情報の一例を示す説明図。 第1の実施の形態を示し、複合型計算機システムの物理ホスト1のPCIツリーの一例を示すブロック図。 第1の実施の形態を示し、物理ホスト1のPCIツリー状態情報の一例を示す説明図。 第1の実施の形態を示し、物理ホスト2のPCIツリーの一例を示すブロック図。 第1の実施の形態を示し、物理ホスト2のPCIツリー状態情報の一例を示す説明図。 第1の実施の形態を示し、物理ホスト2の仮想サーバVM1のPCIツリー状態情報の一例を示す説明図。 第1の実施の形態を示し、PCIマネージャが管理するPCIツリーの一例を示すブロック図。 第1の実施の形態を示し、PCIツリー管理情報の一例を示す説明図。 第1の実施の形態を示し、物理ホスト1のPCIツリー構成情報の一例を示す説明図。 第1の実施の形態を示し、物理ホスト1(非仮想サーバ環境)に電源を投入した場合の処理の一例を示すフローチャート。 第1の実施の形態を示し、物理ホストPCIツリー状態取得部がPCIツリー状態情報を取得する手順を示すブロック図。 第1の実施の形態を示し、PCIツリー状態情報136とPCIツリー構成情報140の比較処理の一例を示すフローチャート。 第1の実施の形態を示し、システムソフトウェアが認識するPCIツリーの一例を示すブロック図。 第1の実施の形態を示し、他のシステムソフトウェアが認識するPCIツリーの一例を示すブロック図。 第1の実施の形態を示し、物理ホスト2(仮想サーバ環境)に電源を投入した場合の処理の一例を示すフローチャート。 第1の実施の形態を示し、物理ホスト1(非仮想サーバ環境)に割当てられたPCIツリーの構成を変更する場合の処理の一例を示すフローチャート。 第1の実施の形態を示し、物理ホスト2(仮想サーバ環境)に割当てられたPCIツリーの構成を変更する場合の処理の一例を示すフローチャート。 第2の実施の形態を示し、複合型計算機システムのPCIマネージャが管理するPCIツリーの一例を示すブロック図。 第3の実施の形態を示し、複合型計算機システムの物理ホストPCIツリー状態取得部133がPCIツリー状態情報136を取得する処理の一例を示すブロック図。 第3の実施の形態を示し、複合型計算機システムのPCIコンフィグレーション情報取得部130の一例を示す回路図。 第4の実施の形態を示し、複合型計算機システムの物理ホストに電源を投入した場合の電源投入判定処理の一例を示すフローチャート。 第5の実施の形態を示し、複合型計算機システムの物理ホスト1(非仮想サーバ環境)に割当てられたPCIツリーの構成を変更する場合の構成変更可否を判定する処理の一例を示すフローチャート。 第5の実施の形態を示し、複合型計算機システムの物理ホスト2(仮想サーバ環境)に割当てられたPCIツリーの構成を変更する場合の構成変更可否を判定する処理の一例を示すフローチャート。 第6の実施の形態を示し、複合型計算機システムのブロック図。 第7の実施の形態を示し、複合型計算機システムのブロック図。 第8の実施の形態を示し、複合型計算機システムのブロック図。 第9の実施の形態を示し、管理用端末のグラフィカルインターフェースの一例を示す説明図。
符号の説明
1001、1002、1003 物理ホスト
1011、1012 マルチルートPCIスイッチ
102 PCIデバイス
103 装置制御部
104 PCIマネージャ
105 管理端末
106 ハードウェア構成要素
107 チップセット
108 CPU
109 メモリ
110 オペレーションシステム
111 仮想マシンモニタ
112 仮想サーバ
113 オペレーションシステム
114 PCI Express
1151、1152、1153 ポート
131 PCIツリー識別子取得部
132 物理ホスト起動判定手段
133 物理ホストPCIツリー状態取得手段
134 物理ホストPCIツリー確認手段
135 物理ホスト管理情報
136 PCIツリー状態情報
137 PCIツリー初期化終了確認手段
138 PCIツリー変更判定手段
139 PCIツリー管理情報
140 PCIツリー構成情報
301 CPU
3061 PCIツリーPT1
5062 PCIツリーPT2
5063 PCIツリーPT3
806 CPU
1203、1901 BMC

Claims (14)

  1. CPUとメモリとPCIインターフェースとを有する複数の計算機と、
    前記複数の計算機を前記PCIインターフェース経由で接続する1以上のPCIスイッチと、
    前記PCIスイッチに接続する複数のPCIデバイスと、
    前記計算機の制御を行う装置制御部と、
    前記PCIデバイスと前記計算機の割り当てを制御するPCIマネージャと、を備えて前記計算機とPCIマネージャとの割り当てを管理する複合型計算機システムの管理方法において、
    前記装置制御部が、前記複数の計算機の1つに電源を投入してオペレーションシステムを起動するステップと、
    前記装置制御部が、前記起動する計算機に割り当てられたPCIデバイスのトポロジーを示すPCIツリーについて、PCIツリーの識別子と、前記PCIツリーの状態を示すPCIツリー管理情報とを前記PCIマネージャから取得するステップと、
    前記取得したPCIツリー管理情報が初期化中または初期化未了を示す場合には、前記装置制御部が前記起動する計算機の電源投入を再実行または電源投入を中止するステップと、
    前記PCI管理情報が前記PCIツリーの初期化完了を示す場合には、前記装置制御部が、前記起動する計算機への電源投入を実施するステップと、を含み、
    前記装置制御部が、前記複数の計算機の1つに電源を投入してオペレーションシステムを起動するステップは、
    前記装置制御部が、前記起動する計算機からオペレーションシステムの起動の完了を検知するステップを含み、
    前記装置制御部が、前記起動する計算機に割り当てられたPCIデバイスのトポロジーを示すPCIツリーについて、PCIツリーの識別子と、PCIツリーの状態を示すPCIツリー管理情報とを前記PCIマネージャから取得するステップは、
    前記装置制御部が、前記オペレーションシステムが認識しているPCIデバイスのPCIツリーとPCIデバイスの種類情報を含むPCIツリー状態情報を取得するステップと、
    前記装置制御部が、前記起動する計算機と前記PCIデバイスの割当てと、前記PCIスイッチの設定情報を含むPCIツリー構成情報を取得するステップと、を含み、
    さらに、前記装置制御部が、前記PCIツリー構成情報から前記起動する計算機のオペレーションシステムが認識するPCIツリーを算出し、実際のPCIツリーであるPCIツリー状態情報と前記オペレーションシステムが認識するPCIツリーを比較するステップと、
    前記装置制御部は、前記比較の結果、前記PCIツリー状態情報とPCIツリーが一致しない場合は前記オペレーションシステムをシャットダウンして前記起動する計算機の電源切断を行うステップと、を含むことを特徴とする複合型計算機システムの管理方法。
  2. 前記起動する計算機に割当てられているPCIツリーに対して、PCIデバイスの追加またはPCIデバイスの削除の何れかを含む構成変更を行う場合に、前記PCIマネージャが前記構成変更を行うPCIツリーを割当てられた計算機の電源状態を取得するステップと、
    前記PCIマネージャが、前記構成変更を行うPCIツリーを割当てられた計算機で動作するオペレーションシステムの種別を取得するステップと、
    前記PCIマネージャが、前記構成変更を行うPCIツリーを割当てられた計算機の電源状態とオペレーションシステムの種別から前記起動する計算機に割当てられているPCIツリーの構成変更が可能か否かを判定するステップと、
    前記PCIマネージャが、前記判定の結果、前記PCIツリーの変更が不可の場合は構成変更を中止するステップと、
    をさらに含むことを特徴とする請求項1に記載の複合型計算機システムの管理方法。
  3. 前記計算機は複数の仮想サーバを生成する仮想マシンモニタを含み、
    前記装置制御部が、前記計算機の1つに電源を投入してオペレーションシステムを起動するステップは、
    前記計算機の1つに電源を投入して仮想マシンモニタを起動し、1以上の仮想サーバを構成して該仮想サーバ上にオペレーションシステムを起動するステップを含むことを特徴とする請求項1に記載の複合型計算機システムの管理方法。
  4. 前記計算機の1つに電源を投入して仮想マシンモニタを起動し、1以上の仮想サーバを構成して該仮想サーバ上にオペレーションシステムを起動するステップは、前記装置制御部が、前記起動する計算機から仮想マシンモニタの起動の完了を検出するステップを含み、
    前記装置制御部が、前記起動する計算機に割り当てられたPCIデバイスのトポロジーを示すPCIツリーについて、PCIツリーの識別子と、PCIツリーの状態を示すPCIツリー管理情報とを前記PCIマネージャから取得するステップは、
    前記装置制御部が、前記仮想マシンモニタが認識しているPCIデバイスのPCIツリーとPCIデバイスの種類情報を含むPCIツリー状態情報を取得するステップと、
    前記装置制御部が、前記起動する計算機と前記PCIデバイスの割当てと前記スイッチの設定情報を含むPCIツリー構成情報を取得するステップと、を含み、
    さらに、前記装置制御部は、前記PCIツリー構成情報から前記起動する計算機の仮想マシンモニタが認識するPCIツリーを算出し、実際のPCIツリーであるPCIツリー状態情報と前記仮想マシンモニタが認識するPCIツリーを比較するステップと、
    前記装置制御部は、前記比較の結果、前記PCIツリー状態情報とPCIツリーが一致しない場合は前記仮想マシンモニタをシャットダウンして前記起動する計算機の電源切断を行い、前記装置制御部は前記比較の結果、前記PCIツリー状態情報とPCIツリーが一致する場合は、1以上の仮想サーバを構成して該仮想サーバ上にオペレーションシステムを起動するステップと、
    を含むことを特徴とする請求項3に記載の複合型計算機システムの管理方法。
  5. 前記起動する計算機に割当てられているPCIツリーに対して、PCIデバイスの追加またはPCIデバイスの削除の何れかを含む構成変更を行う場合に、前記PCIマネージャが前記構成変更を行うPCIツリーを割当てられた計算機の電源状態を取得するステップと、
    前記PCIマネージャが、前記構成変更を行うPCIツリーを割当てられた計算機で動作する仮想マシンモニタの種別を取得するステップと、
    前記PCIマネージャが、前記構成変更を行うPCIツリーが割当てられたすべての仮想サーバの電源状態を取得するステップと、
    前記PCIマネージャが、前記構成変更を行うPCIツリーを割当てられた仮想サーバで動作するオペレーションシステムの種別を取得するステップと、
    前記PCIマネージャが、前記取得した計算機の電源状態と仮想マシンモニタの種別と、仮想サーバの電源状態とオペレーションシステムの種別から前記PCIツリーの構成変更が可能か否かを判定するステップと、
    前記PCIマネージャが、前記判定の結果、前記PCIツリーの変更が不可の場合は前記構成変更を中止するステップと、
    をさらに含むことを特徴とする請求項4に記載の複合型計算機システムの管理方法。
  6. 前記取得したPCIツリー管理情報が初期化中または初期化未了を示す場合には、前記装置制御部が前記起動する計算機の電源投入を再実行または電源投入を中止するステップは、
    前記PCIツリー管理情報が初期化中を示す場合でも電源投入を許可する設定がある場合には、前記取得したPCIツリー管理情報が初期化中の場合に前記起動する計算機の電源投入を実施することを特徴とする請求項1に記載の複合型計算機システムの管理方法。
  7. 前記起動する計算機は複数の仮想サーバを生成する仮想マシンモニタを含み、
    前記起動する計算機に割当てられているPCIツリーに対して、PCIデバイスの追加またはPCIデバイスの削除の何れかを含む構成変更を行う場合に、前記PCIマネージャが、前記起動する計算機の状態がアクティブでも前記起動する計算機に割当てられているPCIツリーの構成変更を許可する設定を有する場合は、前記起動する計算機の状態がアクティブのときに前記PCIツリーの構成変更を実施するステップをさらに含むことを特徴とする請求項6に記載の複合型計算機システムの管理方法。
  8. 前記起動する計算機は複数の仮想サーバを生成する仮想マシンモニタを含み、
    前記起動する計算機に割当てられているPCIツリーに対して、PCIデバイスの追加またはPCIデバイスの削除の何れかを含む構成変更を行う場合に、前記PCIマネージャが前記起動する計算機に割当てられたすべての仮想サーバの状態がアクティブの場合でも前記PCIツリーの構成変更を許可する設定を有する場合は、前記仮想サーバの状態がアクティブのときに前記起動する計算機に割当てられているPCIツリーの構成変更を実施するステップさらに含むことを特徴とする請求項6に記載の複合型計算機システムの管理方法。
  9. CPUとメモリとPCIインターフェースとを有する複数の計算機と、
    前記複数の計算機を前記PCIインターフェースで接続する1以上のPCIスイッチと、
    前記PCIスイッチに接続する複数のPCIデバイスと、
    前記計算機の制御を行う装置制御部と、
    前記PCIデバイスと前記計算機の割当てを制御するPCIマネージャと、を備えた複合型計算機システムにおいて、
    前記装置制御部は、
    前記計算機上で稼動するオペレーションシステムが認識するPCIツリー状態情報と、少なくとも前記計算機の識別子と前記計算機に割当てられたPCIデバイスのトポロジーを示すPCIツリーの識別子と、前記計算機の電源状態と、前記計算機上で動作するオペレーションシステムの種別から成る物理ホスト管理情報と、を備え、
    前記PCIマネージャは、
    少なくとも前記PCIスイッチの識別子と、前記PCIスイッチのポート番号と、前記ポートに割当てられた前記PCIツリーの識別子と、前記PCIツリーの初期化状態と、を含むPCIツリー管理情報と、
    前記PCIマネージャが管理するすべてのPCIデバイスのトポロジーを示すPCIツリー構成情報と、を備え、
    前記装置制御部が、前記複数の計算機の1つに電源を投入してオペレーションシステムを起動する場合に、
    前記装置制御部は、
    前記PCIマネージャから前記起動する計算機に割当てられた前記PCIツリーの識別子を取得するPCIツリー識別子取得部と、
    前記PCIマネージャから前記起動する計算機に割当てられたPCIツリーの前記初期化状態を取得し前記起動する計算機の電源投入が可能かどうか判定する物理ホスト起動判定部と、
    前記起動する計算機から該PCIツリーの前記PCIツリー状態情報を取得するPCIツリー状態情報取得部と、
    前記PCIマネージャから前記PCIツリー構成情報を取得し、前記起動する計算機上で動作するオペレーションシステム、または、仮想マシンモニタが認識するPCIツリーを算出し、前記算出したPCIツリーと前記取得したPCIツリー状態情報とを比較して一致するか否かを確認するPCIツリー確認部と、
    を備えたことを特徴とする複合型計算機システム。
  10. 前記PCIマネージャは、前記起動する計算機に割当てられているPCIツリーに対して、PCIデバイスの追加やPCIデバイスの削除の構成変更を行う場合に、前記装置制御部から構成変更を行う前記PCIツリーが割当てられている計算機または仮想サーバの電源状態と、前記起動する計算機上で動作するオペレーションシステムの種別または仮想マシンモニタの種別とを取得し、前記PCIツリーの構成変更が可能か否かを判定するPCIツリー変更判定部を備えたことを特徴とする請求項9に記載の複合型計算機システム。
  11. CPUとメモリとPCIインターフェースとを有する複数の計算機と、
    前記複数の計算機を前記PCIインターフェースで接続する1以上のPCIスイッチと、
    前記PCIスイッチに接続する複数のPCIデバイスと、
    前記計算機の制御を行う装置制御部と、
    前記PCIデバイスと前記計算機の割り当てを制御するPCIマネージャと、
    前記PCIマネージャ及び装置制御部を制御する管理端末と、を備え、前記管理端末で提供するユーザインターフェースを介して設定する複合型計算機システムにおいて、
    前記ユーザインターフェースは、
    前記計算機の電源を投入し起動する場合に、該起動する計算機に割当てられているPCIツリーの初期化状態を確認して電源投入の可否を判断するかどうかを設定する第1の項目と、
    前記起動する計算機に割当てられているPCIツリーに対して、PCIデバイスの追加またはPCIデバイスの削除の何れかを含む構成変更を行う場合に、前記起動する計算機の電源状態と前記起動する計算機上で動作するオペレーションシステムの種別を確認してPCIツリーの構成変更可否を判断するか否かを設定する第2の項目と、
    前記起動する計算機に割当てられているPCIツリーに対して、PCIデバイスの追加またはPCIデバイスの削除の何れかを含む構成変更を行う場合に、前記起動する計算機の電源状態と前記起動する計算機上で動作する仮想マシンモニタの種別と該仮想マシンモニタ上に構成される仮想サーバの電源状態と該仮想サーバ上で動作するオペレーションシステムの種別を確認してPCIツリーの構成変更可否を判断するか否かを設定する第3の項目と、のうち少なくとも1つ以上を含むことを特徴とする複合型計算機システム。
  12. 前記PCIスイッチは、1以上のPCIスイッチで構成する複数PCIツリーについて、個別にPCIツリーのトポロジー情報を取得するPCIコンフィグレーション情報取得部を備え、前記装置制御部から特定のPCIツリー状態情報を取得する要求がある場合に、前記PCIツリーのPCIコンフィグレーション情報を取得して前記装置制御部に通知することを特徴とする請求項11に記載の複合型計算機システム。
  13. 前記複数の計算機と前記PCIスイッチと管理LANに接続されて前記計算機の管理を行う管理サーバをさらに備え、
    前記管理サーバは前記装置制御部を含み、前記PCIスイッチは前記PCIマネージャを含むことを特徴とする請求項12に記載の複合型計算機システム。
  14. 前記複数の計算機と前記PCIスイッチと管理LANに接続されて前記計算機の管理を行う管理モジュールとを1つの筺体に備え、
    前記管理モジュールは前記装置制御部を含み、前記PCIスイッチは前記PCIマネージャを含み、前記管理モジュールと前記PCIスイッチは制御インターフェースで接続されたことを特徴とする請求項12に記載の複合型計算機システム。
JP2008009485A 2008-01-18 2008-01-18 複合型計算機システムの管理方法及び複合型計算機システム Expired - Fee Related JP5154238B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2008009485A JP5154238B2 (ja) 2008-01-18 2008-01-18 複合型計算機システムの管理方法及び複合型計算機システム
EP08013954A EP2083353A1 (en) 2008-01-18 2008-08-04 computer system and management method thereof
US12/222,225 US7725632B2 (en) 2008-01-18 2008-08-05 Computer system and management method thereof
KR1020080076633A KR101115880B1 (ko) 2008-01-18 2008-08-05 복합형 계산기 시스템의 관리 방법 및 복합형 계산기시스템
CN2008101460331A CN101488118B (zh) 2008-01-18 2008-08-06 复合型计算机系统的管理方法以及复合型计算机系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008009485A JP5154238B2 (ja) 2008-01-18 2008-01-18 複合型計算機システムの管理方法及び複合型計算機システム

Publications (2)

Publication Number Publication Date
JP2009169842A JP2009169842A (ja) 2009-07-30
JP5154238B2 true JP5154238B2 (ja) 2013-02-27

Family

ID=39865299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008009485A Expired - Fee Related JP5154238B2 (ja) 2008-01-18 2008-01-18 複合型計算機システムの管理方法及び複合型計算機システム

Country Status (5)

Country Link
US (1) US7725632B2 (ja)
EP (1) EP2083353A1 (ja)
JP (1) JP5154238B2 (ja)
KR (1) KR101115880B1 (ja)
CN (1) CN101488118B (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5074274B2 (ja) * 2008-04-16 2012-11-14 株式会社日立製作所 計算機システム及び通信経路の監視方法
JP5272265B2 (ja) 2008-09-29 2013-08-28 株式会社日立製作所 Pciデバイス共有方法
JP5401679B2 (ja) * 2009-02-19 2014-01-29 株式会社日立製作所 計算機システム、管理方法及び管理サーバ
JP5310175B2 (ja) * 2009-03-25 2013-10-09 富士通株式会社 スイッチシステム、及びスイッチシステムの制御方法
JP5074457B2 (ja) * 2009-06-04 2012-11-14 株式会社日立製作所 計算機システム、スイッチ切り替え方法及びpciスイッチ
US8959253B2 (en) * 2009-12-23 2015-02-17 Intel Corporation Virtualizing a powered down input/output device
JP5541021B2 (ja) 2010-09-09 2014-07-09 富士通株式会社 スイッチ装置
US8463977B2 (en) 2010-09-09 2013-06-11 Stephen Dale Cooper Use of PCI express for CPU-to-CPU communication
US20130326097A1 (en) * 2011-03-17 2013-12-05 Renesas Electronics Corporation Semiconductor device
EP2720111B1 (en) * 2011-06-08 2017-07-05 Nec Corporation Computer system, connection device, power supply control method, and power supply control program recording medium
US9411654B2 (en) 2011-12-16 2016-08-09 International Business Machines Corporation Managing configuration and operation of an adapter as a virtual peripheral component interconnect root to expansion read-only memory emulation
US9626207B2 (en) * 2011-12-16 2017-04-18 International Business Machines Corporation Managing configuration and system operations of a non-shared virtualized input/output adapter as virtual peripheral component interconnect root to single function hierarchies
US9311127B2 (en) 2011-12-16 2016-04-12 International Business Machines Corporation Managing configuration and system operations of a shared virtualized input/output adapter as virtual peripheral component interconnect root to single function hierarchies
US9973752B2 (en) * 2011-12-28 2018-05-15 Intel Corporation Intelligent MSI-X interrupts for video analytics and encoding
US9170627B2 (en) * 2012-08-20 2015-10-27 Dell Products L.P. Power management for PCIE switches and devices in a multi-root input-output virtualization blade chassis
US10114436B2 (en) 2013-05-29 2018-10-30 Hewlett Packard Enterprise Development Lp Aux power controller
CN103618780B (zh) * 2013-11-22 2017-10-10 华为技术有限公司 一种实现多虚拟机挂载外设部件的方法及装置
US9384158B2 (en) * 2014-03-14 2016-07-05 International Business Machines Corporation Dynamic universal port mode assignment
CN105302248B (zh) * 2015-11-13 2019-02-26 上海兆芯集成电路有限公司 芯片组以及服务器系统
CN105468562B (zh) * 2015-11-13 2018-09-14 上海兆芯集成电路有限公司 芯片组以及服务器系统
US11126420B2 (en) * 2019-01-08 2021-09-21 Dell Products L.P. Component firmware update from baseboard management controller
US11073897B2 (en) * 2019-07-29 2021-07-27 Micron Technology, Inc. Power management integrated circuit based system management bus isolation

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5771387A (en) * 1996-03-21 1998-06-23 Intel Corporation Method and apparatus for interrupting a processor by a PCI peripheral across an hierarchy of PCI buses
US6195717B1 (en) * 1997-05-13 2001-02-27 Micron Electronics, Inc. Method of expanding bus loading capacity
JP3565767B2 (ja) 2000-07-19 2004-09-15 トラストガード株式会社 カートリッジ型サーバユニットおよび該サーバユニット搭載用筐体ならびにサーバ装置
JP2002215598A (ja) * 2001-01-16 2002-08-02 Hitachi Ltd 情報処理方法及びその実施装置並びにその処理プログラム
US6662242B2 (en) * 2001-04-17 2003-12-09 International Business Machines Corporation Method for PCI IO using PCI device memory mapping in a logically partitioned system
US6766398B2 (en) * 2001-04-17 2004-07-20 International Business Machines Corporation Method for processing PCI interrupt signals in a logically partitioned guest operating system
US20030009654A1 (en) * 2001-06-29 2003-01-09 Nalawadi Rajeev K. Computer system having a single processor equipped to serve as multiple logical processors for pre-boot software to execute pre-boot tasks in parallel
US6996658B2 (en) * 2001-10-17 2006-02-07 Stargen Technologies, Inc. Multi-port system and method for routing a data element within an interconnection fabric
US7110413B2 (en) * 2001-12-31 2006-09-19 Hewlett-Packard Development Company Downstream broadcast PCI switch
US7000037B2 (en) * 2002-10-24 2006-02-14 Josef Rabinovitz Large array of mass data storage devices connected to a computer by a serial link
US7219183B2 (en) * 2003-01-21 2007-05-15 Nextio, Inc. Switching apparatus and method for providing shared I/O within a load-store fabric
US7320080B2 (en) * 2003-10-15 2008-01-15 Intel Corporation Power management over switching fabrics
US7058738B2 (en) 2004-04-28 2006-06-06 Microsoft Corporation Configurable PCI express switch which allows multiple CPUs to be connected to multiple I/O devices
JP4624746B2 (ja) * 2004-09-10 2011-02-02 株式会社日立製作所 複合型計算機装置およびその管理方法
US7478178B2 (en) * 2005-04-22 2009-01-13 Sun Microsystems, Inc. Virtualization for device sharing
US7293129B2 (en) * 2005-04-22 2007-11-06 Sun Microsystems, Inc. Flexible routing and addressing
US8223745B2 (en) * 2005-04-22 2012-07-17 Oracle America, Inc. Adding packet routing information without ECRC recalculation
US7356636B2 (en) * 2005-04-22 2008-04-08 Sun Microsystems, Inc. Virtualized PCI switch
US7334071B2 (en) * 2005-05-25 2008-02-19 Integrated Device Technology, Inc. Expansion of cross-domain addressing for PCI-express packets passing through non-transparent bridge
CN1323362C (zh) * 2005-09-21 2007-06-27 杭州华为三康技术有限公司 网络设备及其外围器件互连资源的分配方法
US7890686B2 (en) * 2005-10-17 2011-02-15 Src Computers, Inc. Dynamic priority conflict resolution in a multi-processor computer system having shared resources
US7363404B2 (en) * 2005-10-27 2008-04-22 International Business Machines Corporation Creation and management of destination ID routing structures in multi-host PCI topologies
JP4797636B2 (ja) * 2006-01-16 2011-10-19 株式会社日立製作所 複合型情報プラットフォーム装置とその情報処理装置構成方法
US20070165596A1 (en) * 2006-01-18 2007-07-19 Boyd William T Creation and management of routing table for PCI bus address based routing with integrated DID
US7380046B2 (en) * 2006-02-07 2008-05-27 International Business Machines Corporation Method, apparatus, and computer program product for routing packets utilizing a unique identifier, included within a standard address, that identifies the destination host computer system
US7484029B2 (en) * 2006-02-09 2009-01-27 International Business Machines Corporation Method, apparatus, and computer usable program code for migrating virtual adapters from source physical adapters to destination physical adapters
US7571273B2 (en) * 2006-12-06 2009-08-04 International Business Machines Corporation Bus/device/function translation within and routing of communications packets in a PCI switched-fabric in a multi-host environment utilizing multiple root switches
US7529860B2 (en) * 2006-12-19 2009-05-05 International Business Machines Corporation System and method for configuring an endpoint based on specified valid combinations of functions
US7657663B2 (en) * 2006-12-19 2010-02-02 International Business Machines Corporation Migrating stateless virtual functions from one virtual plane to another
JP5116497B2 (ja) * 2008-01-31 2013-01-09 株式会社日立製作所 情報処理システム、i/oスイッチ及びi/oパスの交替処理方法

Also Published As

Publication number Publication date
CN101488118B (zh) 2011-08-10
KR20090079784A (ko) 2009-07-22
EP2083353A1 (en) 2009-07-29
US7725632B2 (en) 2010-05-25
US20090187694A1 (en) 2009-07-23
JP2009169842A (ja) 2009-07-30
CN101488118A (zh) 2009-07-22
KR101115880B1 (ko) 2012-02-21

Similar Documents

Publication Publication Date Title
JP5154238B2 (ja) 複合型計算機システムの管理方法及び複合型計算機システム
JP5401679B2 (ja) 計算機システム、管理方法及び管理サーバ
US11789619B2 (en) Node interconnection apparatus, resource control node, and server system
US8359415B2 (en) Multi-root I/O virtualization using separate management facilities of multiple logical partitions
JP3887314B2 (ja) データ処理システム中の論理パーティションの電源を切る、または論理パーティションをリブートする、あるいはその両方の方法および装置
US7162560B2 (en) Partitionable multiprocessor system having programmable interrupt controllers
US8301917B2 (en) Method and apparatus for managing power from a sequestered partition of a processing system
CN103119560B (zh) 用于服务处理器复合体中的数据存储的基于需求的usb代理
US8909910B2 (en) Computer system for selectively accessing bios by a baseboard management controller
WO2005101205A1 (ja) コンピュータシステム
CN105549706B (zh) 一种热重启服务器的方法、装置及系统
US20100100892A1 (en) Managing hosted virtualized operating system environments
EP1958075B1 (en) Method and apparatus for assigning devices to a partition
EP2370897A2 (en) Composite device emulation
US20130173901A1 (en) Multi-processor computer systems and methods
JPWO2007099587A1 (ja) コンピュータシステム及びコンピュータシステム構成方法
US20140280663A1 (en) Apparatus and Methods for Providing Performance Data of Nodes in a High Performance Computing System
US11029973B1 (en) Logic for configuring processors in a server computer
US20120284711A1 (en) Method and Arrangement for Configuring a Resource for a Virtual Runtime Environment
US9933826B2 (en) Method and apparatus for managing nodal power in a high performance computer system
WO2022041839A1 (zh) 裸金属服务器在线迁移方法以及系统
CN117472596B (zh) 分布式资源管理方法、装置、系统、设备以及存储介质
US20230325227A1 (en) Reliable one-click cluster shutdown
US20220107829A1 (en) Environment agnostic remote management of heterogeneous servers and virtual machines
JP4871832B2 (ja) 計算機システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5154238

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees