JP5507660B2 - 仮想マシン用非一様仮想メモリーアーキテクチャー - Google Patents

仮想マシン用非一様仮想メモリーアーキテクチャー Download PDF

Info

Publication number
JP5507660B2
JP5507660B2 JP2012502133A JP2012502133A JP5507660B2 JP 5507660 B2 JP5507660 B2 JP 5507660B2 JP 2012502133 A JP2012502133 A JP 2012502133A JP 2012502133 A JP2012502133 A JP 2012502133A JP 5507660 B2 JP5507660 B2 JP 5507660B2
Authority
JP
Japan
Prior art keywords
virtual
memory
numa node
numa
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012502133A
Other languages
English (en)
Other versions
JP2012521610A5 (ja
JP2012521610A (ja
Inventor
オシンズ,ジェイコブ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2012521610A publication Critical patent/JP2012521610A/ja
Publication of JP2012521610A5 publication Critical patent/JP2012521610A5/ja
Application granted granted Critical
Publication of JP5507660B2 publication Critical patent/JP5507660B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/0284Multiple user address space allocation, e.g. using different base addresses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/06Addressing a physical block of locations, e.g. base addressing, module addressing, memory dedication
    • G06F12/0615Address space extension
    • G06F12/0623Address space extension for memory modules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/161Computing infrastructure, e.g. computer clusters, blade chassis or hardware partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45504Abstract machines for programme code execution, e.g. Java virtual machine [JVM], interpreters, emulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45583Memory management, e.g. access or allocation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1041Resource optimization

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、仮想化技術に関し、具体的には、仮想マシン用のメモリーアーキテクチャーに関する。
[0001]仮想化技術は、複数のパーティション間においてハードウェア資源を共有することを可能にし、各パーティションがゲストオペレーティングシステムをホスティングすることを可能にする。通常、仮想マシン技術は、サーバーを統合化し、それらの移植性を増大させるために利用され得る。仮想マシンがより大きくなりそれらの作業負荷が増大するにつれて、それらをある計算機システムから別の計算機システムへ容易に統合及び/又は移動させる機能は、より困難になっている。したがって、より大きな仮想マシンを統合化及び/又は移動させる能力を増大する技法が望まれている。
本発明の目的は、仮想マシン用の仮想NUMAアーキテクチャーを達成し、仮想NUMAノードにおけるメモリーを調整するための技法を提供することである。
[0002]本開示の実施形態例は、一方法を記述している。この例において、本方法はこれらに限定しないが、仮想マシンをインスタンス化するためのリクエストを受信するステップであってリクエストが、仮想マシンに関する特性を含んでいるものと、前記特性に基づいて仮想マシンに対する仮想NUMAノードトポロジーを選択するステップであって仮想NUMAノードトポロジーが、複数の仮想NUMAノードを含んでいるものと、計算機システム上の仮想マシンをインスタンス化するステップであって仮想マシンが、複数の仮想NUMAノードを含んでいるものと、特定の複数の仮想NUMAノードにおけるメモリー圧力に基づいて調整するステップであってゲストメモリー容量が、特定の仮想NUMAノードに割り当てられているものと、を含む。前述のものに加えて別の態様が、本開示の一部を形成する請求項、図面、及びテキストに記述される。
[0003]本開示の実施形態例は、一方法を記述している。この例において、本方法はこれらに限定しないが、仮想マシンを実行するステップであって仮想マシンが、複数の仮想NUMAノードを含むトポロジーを有しており、前記仮想マシンのトポロジーが、計算機システムの物理トポロジーから独立して生成されるものと、複数の仮想NUMAノードそれぞれにおけるメモリー圧力を決定するステップと、複数の仮想NUMAノードそれぞれにおけるメモリー圧力に基づいて調整するステップであってゲストメモリーが、複数の仮想NUMAノードの少なくとも1つに割り当てられているものと、を含む。前述のものに加えて別の態様が、本開示の一部を形成する請求項、図面、及びテキストに記述される。
[0004]本開示の実施形態例は、一方法を記述している。この例において、本方法はこれらに限定しないが、第1の仮想マシンを実行するステップであって仮想マシンが、複数の仮想NUMAノードを含むトポロジーを有しており、複数の仮想NUMAノードそれぞれが、仮想プロセッサー及びゲスト物理アドレスを含んでおり、仮想マシントポロジーが、計算機システムの物理トポロジーから独立して生成されるものと、増設の仮想プロセッサーを複数の仮想NUMAノードに追加するステップと、を含む。前述のものに加えて別の態様が、本開示の一部を形成する請求項、図面、及びテキストに記述される。
[0005]本開示の1つ以上の様々な態様は、本明細書に参照されている本開示の態様に作用するための回路及び/又はプログラムであって回路及び/又はプログラムが、システム設計者の設計選択に従って本明細書に参照されている態様に効果的になるように構成されたハードウェア、ソフトウェア、及び/又はファームウェアの実際の組み合わせのいずれかであり得るものを含むが、これらに制限しないことが当業者によって十分に理解されよう。
[0006]前述のものは概要であって、かくして必然的に、詳細の簡素化、一般化、及び省略を含む。当業者は、概要が例示に過ぎず、任意の方法に制限することを意図しないことを十分に理解されよう。
[0007] 本開示の態様が実装され得る計算機システムの例を表している。 [0008] 本開示の態様を実施するための動作環境を表している。 [0009] 本開示の態様を実施するための動作環境を表している。 [0010] 本開示の実施形態においてメモリーがどのように配置され得るか表している。 [0011] 本開示の態様を実施する動作環境の例を表している。 [0012] 本開示の態様を実施する動作環境の例を表している。 [0013] 本開示の態様を実施する動作環境の例を表している。 [0014] 本開示の態様を例示するブロック図の例を表している。 [0015] 本開示の態様を実施するための動作手順を表している。 [0016] 図9の動作手順の代替実施形態を表している。 [0017] 本開示の態様を実施するための動作手順を表している。 [0018] 図11の動作手順の代替実施形態を表している。 [0019] 図12の動作手順の代替実施形態を表している。 [0020] 図12の動作手順の代替実施形態を表している。 [0021] 本開示の態様を実施するための動作手順を表している。 [0022] 図15の動作手順の代替実施形態を表している。 [0023] 図16の動作手順の代替実施形態を表している。
[0024]実施形態は1つ以上の計算機上で実行し得る。図1及び以下の論述は、本開示が実装され得る適切な計算環境の簡潔な概説を提供することを意図している。当業者は、図1の計算機システムがいくつかの実施形態において、計算機システム(200)、(300)、(600)、及び(700)を達成可能なことを十分に理解できよう。これらの実施形態例において、計算機システムは、図1に記述されたコンポーネント及び本開示の態様を例示化するように構成される回路のいくつか又はすべてを含み得る。
[0025]本開示を介し使用されている用語「回路」は、ハードウェア割り込みコントローラー、ハードドライブ、ネットワークアダプター、グラフィックスプロセッサー、ハードウェアベースのビデオ/オーディオコーデックのようなハードウェアコンポーネント、及びそのようなハードウェアを操作するために使用されるファームウェア/ソフトウェアを含み得る。同一又は別の実施形態において、用語「回路」は、ファームウェア又は一定の方法で設定される切り換えによって機能(単数又は複数)を実行するように構成されるマイクロプロセッサーを含み得る。同一又は別の実施形態例において、用語「回路」は、1つ以上の論理プロセッサー、例えば1つ以上のコアであるマルチコア汎用演算処理装置を含み得る。この例において論理プロセッサー(単数又は複数)は、メモリー、例えば、RAM、ROM、ファームウェア、及び/又は仮想メモリーからロードされる機能(単数又は複数)を実行するように作動可能なロジックを具体化しているソフトウェア命令によって、構成され得る。回路がハードウェア及びソフトウェアの組み合わせを含む実施形態例において、実装者は、ロジックを具体化しているソースコードを書き出し得、その後、論理プロセッサーによって処理され得る計算機読み出し可能コードにコンパイルされる。最先端技術がハードウェア、ソフトウェア、又はハードウェア/ソフトウェアの組み合わせの間でほとんど差異がない点へ発展していることを当業者は十分に理解し得るので、機能を達成するハードウェア対ソフトウェアの選択は、単なる設計選択に過ぎない。かくして、当業者は、ソフトウェアプロセスが同等のハードウェア構造に変換され得ることと、ハードウェア構造がそれ自体、同等のソフトウェア処理に変換され得ることと、を十分に理解し得るので、ハードウェア実装対ソフトウェア実装の選択は、設計選択の1つであって実装者に任せられている。
[0026]ここで図1を参照すると、例示的な汎用計算システムが表されている。汎用計算システムは、従来の計算機(20)などを含み得、論理プロセッサー(21)、システムメモリー(22)、システムメモリーを含む様々なシステムコンポーネントを論理プロセッサー(21)と接続する及びシステムバス(23)を含んでいる。システムバス(23)は、いくつかのタイプのバス構造のいずれかであり得、メモリーバス、又はメモリーコントローラー、周辺機器用バス、様々なバスアーキテクチャのいずれかを使用するローカルバスを含んでいる。システムメモリーは、読み出し専用メモリー(ROM)(24)及びランダムアクセスメモリー(RAM)(25)を含み得る。始動中など、計算機(20)内部のエレメント間に情報を送信する支援をする基本的ルーチンを含んでいる基本入力/出力システム(BIOS)(26)は、ROM(24)にストアされている。計算機(20)は更に、(図示されていない)ハードディスクから読み込むか又はそれに書き出すためのハードディスクドライブ(27)、取り外し可能磁気ディスク(29)から読み出すか又は書き出すための磁気ディスクドライブ(28)、及びCD−ROM又はその他の光学式媒体のような取り外し可能光学式ディスク(31)から読み出すか又はそれに書き込むための光学式ディスクドライブ(30)を含み得る。ハードディスクドライブ(27)、磁気ディスクドライブ(28)、及び光ディスクドライブ(30)がそれぞれ、ハードディスクドライブインターフェース(32)、磁気ディスクドライブインターフェース(33)、及び光学式ドライブインターフェース(34)によってシステムバス(23)に関連付けられるように示されている。ドライブ及びそれらの関連する計算機可読記憶媒体は、計算機(20)に対する命令、データ構造、プログラムモジュール、及びその他のデータの不揮発性計算機可読記憶装置を提供する。本明細書に説明される例示的環境は、ハードディスク、取り外し可能磁気ディスク(29)、及び取り外し可能光学式ディスク(31)を使用しているが、磁気カセット、フラッシュメモリーカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリー(RAM)、読み出し専用メモリー(ROM)などのような計算機によってアクセス可能なデータをストアし得る別のタイプの計算機可読記憶媒体もまた例示的動作環境において使用され得ることが当業者によって十分に理解される必要がある。通常、実施形態の中にはそのような計算機可読記憶媒体が、本開示の態様を具体化するプロセッサー実行可能命令をストアするために使用され得るものもいくつかある。
[0027]多くのプログラムモジュールは、ハードディスク、磁気ディスク(29)、光ディスク(31)、ROM(24)、又はRAM(25)上にストアされ得、オペレーティングシステム(35)、1つ以上のアプリケーションプログラム(36)、その他のプログラムモジュール(37)、及びプログラムデータ(38)を含んでいる。ユーザーは、キーボード(40)及びポインティングデバイス(42)のような入力装置を介し、コマンド及び情報を計算機(20)へ入力し得る。その他の(図示されていない)入力装置は、マイクロフォン、ジョイスティック、ゲームパッド、衛星放送受信機、スキャナーなどを含み得る。これら及びその他の入力装置は多くの場合、システムバスに接続されるシリアルポートインターフェース(46)を介し、論理プロセッサー(21)に接続されるが、しかしながらパラレルポート、ゲームポート又は普遍的なシリアルバス(USB)のような別のインターフェースによって接続される。ディスプレイ(47)又はその他のタイプの表示装置もビデオアダプター(48)のようなインターフェースを介しシステムバス(23)に接続され得る。ディスプレイ(47)に加えて計算機は典型的に、スピーカー及びプリンターのような別の(図示されていない)周辺出力装置を含む。図1の例示的システムは、ホストアダプター(55)、小型コンピューター用周辺機器インターフェース(SCSI)バス(56)、及びSCSIバス(56)に接続される外部記憶装置(62)も含む。
[0028]計算機(20)は、リモートコンピューター(49)のような1つ以上のリモートコンピューターとの論理接続を利用するネットワーク環境において作動し得る。リモートコンピューター(49)は、別の計算機、サーバー、ルーター、ネットワークPC、ピア装置又はその他の一般的ネットワークノードであり得、典型的に、前述した計算機(20)に関連するエレメントの多く又はすべてを含み得るが、メモリー記憶装置(50)だけが図1に例示されている。図1に表された論理接続は、ローカルエリアネットワーク(LAN)(51)及び広域ネットワーク(WAN)(52)を含み得る。そのようなネットワーク環境は、オフィス、企業規模コンピューターネットワーク、イントラネット、及びインターネットにおいて一般的である。
[0029]LANネットワーク環境において利用されるとき、計算機(20)は、ネットワークインターフェース又はアダプター(53)を介しLAN(51)へ接続され得る。WANネットワーク環境において利用されるとき、計算機(20)は、典型的に、インターネットのような広域ネットワーク(52)を介した通信を確立するためのモデム(54)又はその他の手段を含み得る。内蔵又は外付けがあり得るモデム(54)が、シリアルポートインターフェース(46)を介しシステムバス(23)へ接続され得る。ネットワーク環境において、計算機(20)又はその一部に関連し表されたプログラムモジュールが、リモートメモリー記憶装置にストアされ得る。示されたネットワーク接続が例示的であって、計算機間において通信リンクを確立する別の手段が使用され得ることを十分に理解されよう。更に、本開示の多くの実施形態がコンピューター化されたシステムに対し特に適切であるように描かれているが、本書における開示をそのような実施形態に限定することは意図されていない。
[0030]ここで図2及び図3を参照すると、それらは計算機システムの高水準のブロック図を表している。図面によって示されているように、計算機システム(200)は、例えば、記憶装置(208)、ハードドライブ、ネットワークインターフェースコントローラー(NIC)(210)、グラフィックカード(234)、少なくとも1つの論理プロセッサー(212)、ランダムアクセスメモリー(RAM)(214)のような物理ハードウェアデバイスを含み得る。計算機システム(200)は、図1の計算機(20)と同様のコンポーネントも含み得る。1つの論理プロセッサーが例示されているが、別の実施形態において、計算機システム(200)は、複数の論理プロセッサー、例えば、プロセッサーあたり複数の実行コア及び/又は複数の実行コアをそれぞれ有する複数のプロセッサー、を有し得る。図2の説明を続けると、表されているものは、当技術分野において、仮想マシンモニターとしても参照され得るハイパーバイザー(202)である。表された実施形態において、ハイパーバイザー(202)は、計算機システム(200)のハードウェアへのアクセスを制御し、仲裁するための実行可能命令を含む。概してハイパーバイザー(202)は、子パーティション1から子パーティションN(Nは1より大きい整数)のようなパーティションと呼ばれる実行環境を生成し得る。実施形態において、子パーティションは、ハイパーバイザー(202)によって支援される分離単位と考えられ得、すなわち、子パーティションそれぞれが、ハイパーバイザー(202)及び/又は親パーティションの制御下にある一連のハードウェア資源、例えば、メモリー、デバイス、論理プロセッサーサイクルなどへマッピングされ得る。実施形態において、ハイパーバイザー(202)は、スタンドアロンソフトウェア製品、オペレーティングシステムの一部、マザーボードのファームウェア内埋め込み、専用集積回路、又はその組み合わせであり得る。
[0031]表された例において、計算機システム(200)は、オープンソースコミュニティにおいて、ドメイン0としても考えられ得る親パーティション(204)を含む。親パーティション(204)は、オープンソースコミュニティにおいて、バックエンドドライバーとしても知られている仮想化サービスプロバイダー(228)(VSP)(複数)を使用することによって、子パーティション(1〜N)を実行しているゲストオペレーティングシステムへリソースを提供するように構成され得る。このアーキテクチャー例において、親パーティション(204)は基本ハードウェアへのアクセスを開閉し得る。概してVSP(228)は、オープンソースコミュニティにおいて、フロントエンドドライバーとしても知られている仮想化サービスクライアント(VSC)を介し、ハードウェア資源に対するインターフェースを多重化するために使用され得る。子パーティションそれぞれは、ゲストオペレーティングシステム(220〜222)が管理し得、その上で実行するスレッドをスケジューリングし得る仮想プロセッサー(230〜232)のような1つ以上の仮想プロセッサーを含み得る。通常、仮想プロセッサー(230〜232)は、実行可能命令であって、特定のアーキテクチャーを有する物理プロセッサー表現を提供する関連状態情報である。例えば、1つの仮想マシンは、インテルx86プロセッサーの特性を有する仮想プロセッサーを有し得るが、一方で別の仮想プロセッサーは、パワーPCプロセッサーの特性を有し得る。この例において、仮想プロセッサーは、仮想プロセッサーを達成する命令が論理プロセッサーによって支援されるように、計算機システムの論理プロセッサーへマッピングされ得る。かくして、これらの実施形態例において、複数の仮想プロセッサーが、例えば、別の論理プロセッサーがハイパーバイザー命令を実行している間、同時に実行し得る。一般的に言えば、図面によって例示されるように、パーティションにおける仮想プロセッサー、様々なVSC、及びメモリーの組み合わせが、仮想マシン(240)又は(242)のような仮想マシンであると考えられ得る。
[0032]通常、ゲストオペレーティングシステム(220〜222)は、例えば、マイクロソフト(登録商標)、アップル(登録商標)、オープンソースコミュニティから提供されるオペレーティングシステムのような任意のオペレーティングシステムを含み得る。ゲストオペレーティングシステムは、ユーザー/カーネル動作モードを含み得、スケジューラー、メモリーマネージャーなどを含み得るカーネルを有し得る。ゲストオペレーティングシステム(220〜222)それぞれが、その上にストアされる電子商取引サーバー、電子メールサーバーのようなアプリケーションを有し得るファイルシステムと、ゲストオペレーティングシステム自体と、を関連付けている。ゲストオペレーティングシステム(220〜222)は、仮想プロセッサー(230〜232)上で実行するスレッドをスケジューリングし得、そのようなアプリケーションのインスタンスが達成され得る。
[0033]ここで図3を参照すると、それは使用され得る代替アーキテクチャーを例示している。図3は、図2のそれと同様のコンポーネントを表しているが、しかし、この実施形態例において、ハイパーバイザー(202)は仮想化サービスプロバイダー(228)及びデバイスドライバー(224)を含み得、親パーティション(204)は設定ユーティリティ(236)を含み得る。このアーキテクチャーにおいて、ハイパーバイザー(202)は、図2のハイパーバイザー(202)と同一か又は同様の機能を実行し得る。図3のハイパーバイザー(202)は、スタンドアロンのソフトウェア製品、オペレーティングシステムの一部、マザーボードのファームウェア内部に埋め込まれているか、又はハイパーバイザー(202)の一部が専用集積回路によって達成され得る。この例において、親パーティション(204)は、ハイパーバイザー(202)を構成するために使用され得る命令を有し得るが、しかし、ハードウェアアクセスリクエストは、親パーティション(204)へ渡される代わりにハイパーバイザー(202)によって処理され得る。
[0034]ここで図4を参照すると、それは仮想マシンを含む実施形態において、メモリーがどのように配置され得るか例示している。例えば、計算機システム(200)のような計算機システムは、メモリーアドレスを有しているRAM(214)を有し得る。システム物理メモリーアドレスを仮想マシンへ報告する代わりに、ハイパーバイザー(202)は、システム物理アドレス、例えば、ゲスト物理アドレス(GPA)に関する別のアドレスをゲストオペレーティングシステムのメモリーマネージャーへ提示し得る。ゲストオペレーティングシステムがその後、ゲスト物理アドレスを操作し得、ハイパーバイザー(202)がGPA及びSPAによる関係を維持する。図面によって示されるように、実施形態において、GPA及びSPAは、メモリーブロックの中へ配置され得る。概してメモリーブロックは、1つ以上のメモリーページを含み得る。GPAとSPAとの間の関係は、「Enhanced Shadow Page Table Algorithms」と題する米国特許出願No.11/128,665に記載されているようなシャドウページテーブルによって維持され得、その内容をすべて参照として本明細書に組み込む。作動中、ゲストオペレーティングシステムがブロック1のGPAにデータをストアしたとき、データは、実際にはシステム上のブロック6のような異なるSPAにストアされ得る。
[0035]手短に述べると図5は、本開示の態様を実施するための動作環境を表している。例えば、多くの計算機システム(504〜510)がデータセンター(500)に共に接続され得る(4つの計算機システムが表されているが、当業者はデータセンター(500)が、より多いか又はより少ない計算機システムを含み得ることを十分に理解できよう)。表されている計算機システムは、異なるトポロジーを有し得、その上、それらは、異なる特性、例えば、異なるRAM数、異なるRAM速度、異なる論理プロセッサー数、及び/又は異なる速度を持つ論理プロセッサーを有し得る。
[0036]管理システム(502)は、図1の計算機システム(20)、及び/又は計算機システム(200)、(300)、(600)、又は(700)と同様のコンポーネントを有し得る。すなわち、実施形態において、管理システム(502)は、図6又は図7に関し後述される対象項目を含む計算機システムであり得る。
[0037]図面の概要を続けると、図6は、完全対称型マルチプロセッシングトポロジー(SMP)又は「フラット」トポロジーを有する計算機システム(600)を表している。通常、SMPは、単一の共有メモリーに接続される複数のプロセッサーを含むコンピューターアーキテクチャーである。この手続きにおいては、メモリーコントローラー(602)が、メモリーへのデータフロー及びメモリーからのデータフローを管理し得る。メモリーアクセスは、論理プロセッサー(212A〜F)それぞれに対し一様であり得、論理プロセッサーそれぞれは、メモリー範囲全体、すなわち、システム物理アドレス(622〜632)をアクセスし得る。このトポロジーは、比較的少ない数のプロセッサーを用いた計算機システムに対し十分に動作するが、しかしながら計算機システムは多くのプロセッサーを含んでいて、すべてが共有メモリーバスへのアクセスを求めて競合し、システム性能が低下し得る。その上、計算機システムの複雑さが、著しく増加し、次々に1プロセッサーあたりの価格をつり上げる。
[0038]手短に述べると計算機システム(600)は、計算機(200)又は(300)と同一か又は同様のコンポーネントを含み得る。図面によって示されるように、計算機システム(600)は、RAM(214)へのアクセスを開閉するメモリーコントローラー(602)を介し連結された複数の論理プロセッサー(212A〜212F)を有し得る(6つの論理プロセッサーが表されているが、計算機システムはより多いか又は少ないものを有し得る)。前述のものと同様に、論理プロセッサー(212A〜212F)それぞれは、異なる特性、例えば、クロック速度、キャッシュサイズなどを有し得る。この手続きにおいては、メモリーコントローラー(602)が、RAM(214)へのデータフロー及びRAM(214)からのデータフローを管理し得る。
[0039]ハイパーバイザー(202)がインスタンス化され得、それが計算機システム(600)のハードウェアを制御し得る。ハイパーバイザー(202)が1つ以上の仮想マシン(240〜242)を管理し得、それぞれは、仮想NUMAノード(606〜612)のような仮想NUMAノードを有し得る。仮想NUMAノード(606〜612)が使用され得、ゲストアプリケーション又はゲストオペレーティングシステム(220)及び(222)のようなゲストオペレーティングシステムへ仮想トポロジーを報告することによって、仮想マシンのリソースを統合化し得る。図面によって示されるように、仮想NUMAノード(606〜612)それぞれは、1つ以上の仮想プロセッサー(230A〜D、232A〜D)、及びゲスト物理アドレス(614〜616)及び(618〜620)を有し得る。通常、ハイパーバイザー(202)は、1つ以上の論理プロセッサーを有する仮想NUMAノード(606〜612)それぞれと、RAM(214)からのシステム物理アドレスと、を支援し得る。すなわち、ハイパーバイザー(202)は、仮想プロセッサースレッドを実行するために使用され得る理想的なプロセッサーとして1つ以上の論理プロセッサーを設定し得る。
[0040]手短に述べると図7は、NUMAノード(702〜706)を含むトポロジーを有する計算機システム(700)を表している。NUMAノードを有する計算機システムは、通常、より小さな計算機システムから作り上げられた計算機として考えられ得る。この例において、NUMAノードそれぞれ(606〜612)は、1つ以上の論理プロセッサー及びローカルメモリーを含み得る。NUMAノードの内部メモリーは、ローカルメモリーであると考えられ、別のNUMAノードの内部メモリーは、ノード内部のプロセッサーだけが同一のメモリーバスと接続され得るので、リモートメモリーであると考えられる。NUMAノードは、キャッシュ一貫性ドメイン相互接続によって相互に接続され、1つのNUMAノード内のプロセッサーは、首尾一貫した方法で別のNUMAノード内のメモリーをアクセス可能にする。かくして、システム物理アドレス(622〜632)は、プロセッサーそれぞれに関し一様である。すなわち言い換えると、システム物理アドレス20,000は計算機システムにおいて、すべてのプロセッサーに対し同一である。相違は、いくつかのプロセッサーに関し、メモリーアドレス20,000が、例えば、それらのNUMAノード内部のローカルメモリーアドレスであって、別のプロセッサーに対するメモリーアドレス20,000が、例えば、それらのNUMAノードの外部、リモートであることである。通常、ローカルメモリーは、リモートメモリーよりも高速にアクセスされ得、ローカルアクセス時間対リモートアクセス時間の間の関係はNUMA比として参照される。NUMA比1対2は、特定のリモートシステム物理アドレスをアクセスするプロセッサーサイクル数が、ローカルシステム物理アドレスよりも2倍かかることを意味する。NUMAは、任意の1つのメモリーバス上のプロセッサー数を制限することによって、SMPシステムによってもたらせられるボトルネックを軽減し、通常、同一の論理プロセッサー数を有するSMP計算機システムよりも高価にならない。
[0041]計算機システム(700)は、計算機(200)又は(300)と同一か又は同様のコンポーネントを含み得る。図面によって示されるように、この動作環境において、計算機システム(700)は、相互接続(708)によって接続された3つのNUMAノード(702〜706)を含む(けれども計算機は多いか又は少ないものを有し得る)。図面によって例示されるように、NUMAノードそれぞれの内部のプロセッサー数は可変であり得、ノードそれぞれはそれ自身のRAMを有し得る。
[0042]図7と同様にハイパーバイザー(202)は、計算機システム(700)のハードウェアを制御し得る。ゲストオペレーティングシステム又はモノリスアプリケーションがブートしたとき、それが前述したものと同様の仮想マシン(240)及び(242)のトポロジーを検出し得る。仮想NUMAノード(606〜612)それぞれが、仮想プロセッサースレッドを実行するために使用され得る同一のNUMAノードから1つ以上の理想的なプロセッサー及びシステム物理アドレスを割り当てられ得る。
[0043]計算機システム(600)及び(700)が2つの仮想マシン(240)及び(242)を含んでいるように表されているが、別の実施形態において、それらは、より多いか又はより少ない仮想マシンを実行し得る。その上、仮想マシンそれぞれが2つの仮想NUMAノードを有しているように表されているが、別の実施形態において、仮想マシンは、より多いか又はより少ない仮想NUMAノードを有し得る。仮想NUMAノードも2つの仮想プロセッサーを有するように表されているが、別の実施形態において、仮想NUMAノードは、より多いか又はより少ない仮想プロセッサーを有し得る。更に、仮想NUMAノードそれぞれは、別の仮想NUMAノードと異なるトポロジーを有し得、例えば、ある仮想NUMAノードは4つの仮想プロセッサー及び8ギガバイトRAMを有し得るが、別の仮想NUMAノードは2つの仮想プロセッサー及び4ギガバイトRAMとを有し得る。
[0044]図8は、本開示の態様において使用され得る環境のブロック図を表している。図面によって示されるように、ダイナミックメモリー仮想化サービスプロバイダー(DMVSP)(802)として知られ得る、仮想マシンに割り当てられるメモリーを管理するコンポーネントが例示されていて、仮想NUMAノードにアクセス可能なメモリー容量を調整するために使用され得る。図面によって示されるように、DMVSP(802)は、仮想化サービスクライアント、すなわち、ダイナミックメモリー仮想化サービスクライアント(DMVSC)(804)及び/又は(806)として知られ得る1つ以上のバルーニングドライバーに関連付けられ得る(仮想NUMAノードあたり1つのDMVSCが表されているが、別の実施形態において、1パーティションあたり1つのDMVSCが使用され得る)。概してDMVSC(804)及び/又は(806)は、DMVSP(802)によって使用され得る仮想NUMAノードのメモリーを調整するための情報を提供し得、DMVSCそれぞれも、それが関連付けられる仮想NUMAノードからメモリーをコミット及びデコミットする支援をし得る。DMVSC(804)、(806)、及びDMVSP(802)は、「Partition Bus」と題する米国特許出願No.11/128,647に記載されている仮想化バスを介し通信し得、その内容全体をすべて参照として組み込む。その上、更にDMVSC及びDMVSPの態様は「Dynamic Virtual Machine Memory Management」と題する米国特許出願No.12/345,469に記載されていて、その内容全体をすべて参照として組み込む。
[0045]図8の説明を続けると、本システムは、ワーカープロセス(812)を含み得、子パーティション(単数又は複数)を管理可能に表されている。ワーカープロセス(812)は、メモリーを子パーティションに割り当て得る仮想基盤ドライバー(VID)(810)と連動して作動し得る。例えば、VID(810)は、ゲスト物理アドレスとシステム物理アドレスとの間の関係を確立及び解除し得る。図8は、メモリーマネージャー(808)を含み得るゲストオペレーティングシステム(220)のような、ゲストオペレーティングシステムを含み得るパーティションも表している。通常、メモリーマネージャー(808)は、それらのリクエスト時、メモリーをアプリケーションに割り当て、それがもはやアプリケーションによって必要とされないとき、メモリーを解放し得る。
[0046]以下は、プロセスの実装を表している一連の流れ図である。理解を容易にするため、流れ図は、最初の流れ図が「大画像」の観点を介する実装を表し、その後の流れ図が更なる追加及び/又は詳細を提供するように統合化されている。更に当業者は、点線によって表された動作手順が、任意に考えられることを十分に理解されよう。
[0047]ここで図9に移ると、それは動作(900〜910)を含む本開示の態様を実施するための動作手順を表している。動作手順は、動作(900)で開始し、動作(902)は、仮想マシンをインスタンス化するためのリクエストを受信するステップであってリクエストが、仮想マシンに関する特性を含んでいるもの、を例示していている。例えば、図6又は図7を参照すると、ハイパーバイザー(202)は、仮想マシン(240)などの仮想マシンを作成するためのリクエストを受信し得る例えば、リクエストは、管理システム(502)の図2又は図3の親パーティション(204)などから受信され得る、リクエストは、新しい仮想マシンに対するものであり得るか又はそれは、前にセーブされた仮想マシンをインスタンス化するためのリクエストであり得る。仮想マシン(240)が新しい仮想マシンであるとき、仮想マシンの特性、例えば、仮想マシンに割り当てられるRAM数、仮想プロセッサー数、又は仮想マシンが有する必要があるI/O装置のタイプ、が例えば管理者によって設定され得る。
[0048]図9の説明を続けると、動作(904)は、特性に基づいて仮想マシン用の仮想NUMAノードトポロジー選択をするステップであって仮想NUMAノードトポロジーが、複数の仮想NUMAノードを含んでいるもの、を示している。例えば、親パーティション(204)におけるプロセス(及び/又はハイパーバイザー(202))は、受信された特性に基づいて仮想マシン(240)に関するトポロジーを決定し得る。例えば、親パーティション(204)は、仮想NUMAノード(606)などの仮想NUMAノードに関するデフォルトサイズを識別する情報を含み得る。親パーティション(204)におけるプロセスは、仮想マシン(240)に対する仮想NUMA数を決定するためのデフォルトサイズ及び所望の特性を記述している情報を使用し得る。特定の例において、所望される特性は、10ギガバイトのRAMを有する6つのプロセッサー仮想マシンであり得る。仮想NUMAノードのデフォルトサイズが2つの仮想プロセッサー及び4ギガバイトのRAMを含む場合、管理システム(502)は、仮想マシン(240)が3つの仮想NUMAノードを含むことを示す構成ファイルを生成し得る。
[0049]実施形態において、デフォルトの仮想NUMAノードサイズは、管理者によるか又は管理システム(502)によって設定され得る。図5に移ると、管理システム(502)は、データセンター(500)における計算機システム(504〜510)の物理トポロジーを識別する情報、例えば、計算機システム(504〜510)それぞれが(もしあれば)いくつのNUMAノードを有しているか、RAM速度、計算機システム(504〜510)それぞれがどのくらいの容量RAMを有しているか、RAMがどのように配列されているか、プロセッサー速度、それぞれのプロセッサーがいくつのコアを有しているかなどを識別する情報、を取得し得る1つ以上のプログラムを実行し得る。
[0050]通常、仮想NUMAノードサイズが、データセンター(500)の仮想マシンの動作に影響する。例えば、仮想NUMAノードサイズは、例えば、メモリー及び/又はプロセッサーにおいて増加するにつれて、仮想NUMAノードの移植性が減少する。すなわち言い換えると、大きな仮想NUMAノードが、仮想マシンを移動させることがより困難とし得る。このことは、仮想NUMAノードが、仮想NUMAノードを達成するために「フラット」リソースを有するNUMAノード又は計算機システムのどちらか一方に割り当てられる必要があるため生じる。例えば、仮想NUMAノードあまりに大きな、例えば、それが非常に大きなRAMか又はあまりに多くの仮想プロセッサーを有する場合、データセンター(500)において、より小さいNUMAノードに適合させることが不可能であって、かくして、仮想マシンを移動させる能力を制限する。その上、より大きな仮想NUMAノードが単に、より小さな複数のNUMAノードに割り当てられた場合、仮想マシンノードの性能は、ローカルメモリーアクセス時間とリモートメモリーアクセス時間との間に存在する相違による理由によって減少する。
[0051]他方では、仮想NUMAノードのサイズが減少するにつれて、ゲストオペレーティングシステムの性能は悪影響を及ぼされ得る。この非効率性は、ゲストオペレーティングシステムがアプリケーションを分離しようとし、それが単一の仮想NUMAノードに対する自身の実行であるために生じ得る。ゲストオペレーティングシステムは、この場合、抑制され、性能が低下する。
[0052]したがって、実施形態において、管理システム(502)は、データセンター(500)に対する最適な仮想NUMAノードサイズを決定することによって、移植性と効率性との間のバランスを決めることができる。例えば、実施形態において、管理システム(502)の論理プロセッサーがプログラムを実行し得、データセンターにおける平均NUMAノードサイズ、例えば平均論理プロセッサー数、平均RAM数などを決定し得、システムにおいて仮想NUMAノードのサイズを平均NUMAノードと同一か又はそれよりも小さくするように設定し得る。別の実施形態において、プログラムは、データセンター(500)における仮想NUMAノードサイズを最小NUMAノードよりもわずかに小さく設定するように構成され得る。実施形態において、仮想NUMAノードサイズが平均サイズ又は最小サイズよりわずかに小さいように設定され得、計算機システムが大量にコミットされた場合、2つ以上の仮想NUMAノードが単一のNUMAノードへ割り当てられ得る。特定の例において、最小のNUMAノードが4つの論理プロセッサー及び8ギガバイトRAMを有する場合、仮想NUMAノードサイズは、例えば、2つの仮想プロセッサー及び4ギガバイトRAMに設定され得る。
[0053]動作(906)は、計算機システム上に仮想マシンをインスタンス化するステップであって仮想マシンが、複数の仮想NUMAノードを含んでいるもの、を示している。実施形態において、ハイパーバイザー(202)が論理プロセッサーによって実行され得、複数の仮想NUMAノードを有する仮想マシンがインスタンス化され得る。
そして図6及び/又は図7を参照すると、例えば、仮想NUMAノード(606〜608)を有する仮想マシン(240)は、計算機システム(600)又は(700)によって達成され得る。すなわち、VID(810)は、RAMからのシステム物理アドレスを有する仮想マシン(240)のゲスト物理アドレスと、1つ以上の論理プロセッサーを有する仮想プロセッサーと、を支援し得る。例えば、ゲスト物理アドレスブロック(614)がシステム物理アドレスブロック(622)を用いて支援され得、ゲスト物理アドレスブロック(616)がシステム物理アドレスブロック(624)によって支援され得る。ハイパーバイザースレッドがその後、仮想プロセッサーを支援している論理プロセッサー上にスケジューリングされ得、仮想プロセッサーの命令指標が実行され得る。図6及び図7によって示されるように、仮想マシンそれぞれのトポロジーが、基本ハードウェアトポロジーから独立して生成され得る。すなわち、仮想マシンのトポロジーそれぞれは、それを達成する計算機システムの基本物理トポロジーから分離されている。
[0054]実施形態において、仮想マシンBIOS又はブートファームウェアは、仮想マシンのトポロジーを記述し得、例えば、それは仮想NUMAノード、任意の仮想NUMAノードサイズ、及び仮想NUMAノードに関するNUMA比をモノリスアプリケーションのゲストオペレーティングシステムに対し有しているか否か説明し得る。データ構造は処理され得、ゲストOS(220)又はアプリケーション及びそれが、仮想NUMAノードの存在利点を取り入れるために、OS又はアプリケーションによって使用され得る。例えば、ゲストオペレーティングシステム(220)は、アプリケーションの実行がローカルのままであるように、NUMA非認識アプリケーションスレッドを仮想NUMAノードと一体化しようとし得る。別の例において、SQLサーバーのようなデータベース管理プログラムは、ロックを仮想NUMAノードへローカルに割り当て得、データベースが、仮想NUMAノード全域の読み出し/書き出しリクエストを分割し得る。更に別の例において、ゲストオペレーティングシステム(220)は、仮想マシンに仮想NUMAノードそれぞれに関するページプールを生成し得る。
[0055]図9の説明を続けると、動作(908)は、特定の仮想NUMAノードに割り当てられるゲストメモリー容量を、特定の複数の仮想NUMAノードにおけるメモリー圧力に基づいて調整するステップを示している。例えば、論理プロセッサー、例えば、図6又は図7の論理プロセス(212A)は、DMVSP(802)の命令指標を実行し得、仮想NUMAノード(606)のような仮想NUMAノードが、利用可能なゲスト物理アドレス量を調整し得る。すなわち、DMVSP(802)が実行され得、メモリーが仮想NUMAノードが経験している圧力に基づいてコミット又はデコミットされ得る。
[0056]実施形態において、仮想NUMAノード(606〜608)それぞれが、利用可能なメモリー容量によって、ゲストオペレーティングシステム(220)の性能がどのくらい影響されるかをメモリー圧力が識別し得る。この情報は、DMVSC(804)及び/又は(806)のような例えば、1つ以上のDMVSCによってゲストオペレーティングシステム(220)のランタイム中に算出され得、DMVSP(802)へ送信され得る。例えば、メモリー圧力は、仮想NUMAノードにおける異なるメモリー圧力レベルを識別し得る一連の値によって提示され得る。仮想NUMAノードにおけるリソースが、より圧迫されるにつれて、すなわち、仮想NUMAノード上の現在の作業負荷を効率的に実行するために要求されるメモリー容量が増加するにつれて、DMVSC(804)が値を改定し得、この情報をDMVSP(802)へ伝達し得る。
[0057]実施形態において、メモリー圧力情報が、ゲストオペレーティングシステム(220)から受信された情報からDMVSC(804)によって算出され得る。例えば、DMVSC(804)が、仮想NUMAノード(606)に関するオペレーティングシステムのページング情報をメモリーマネージャー(808)から受信するように構成され得る。ゲストオペレーティングシステムのページングレートが、メモリーマネージャー(808)及びキャッシュマネージャによって公開される2つのカウンター、すなわち、ページングレート及びキャッシュ回転速度を介しモニターされ得る。
[0058]同一又は別の実施形態において、DMVSC(804)が、メモリーマネージャー(808)からノード(606)を仮想NUMAに関連付けられた物理メモリー通知を受信し、この情報を使用し得、仮想NUMAノード(606)のメモリー圧力を計算し得る。例えば、メモリーマネージャー(808)は、仮想NUMAノード(606)に関連付けられたゲストオペレーティングシステム(220)における活動に基づいて、高いメモリーの通知及び低いメモリーの通知を出力し得る。メモリーマネージャー(808)は、低メモリー閾値(LMT)及び高メモリー閾値(HMT)に基づいてこれらの通知を起動し得る。特定の実施形態例において、低メモリーリソース通知イベントを信号送出する有効メモリーのデフォルトレベルは、およそ4GBあたり約32MB、最大64MBであり得る。例えば、高メモリーリソースの通知イベントを信号送出するデフォルトレベルは、デフォルトの低メモリーの値の3倍であり得る。2つの間の中間メモリーの有効レベルは、高メモリーの閾値レベルと低メモリーの閾値レベルとの間隔を分割することによって決定され得る。当業者は、これらの値が例示的であり得、変更が本開示の趣旨から逸脱せずに実施され得ることを十分に理解できよう。
[0059]これらの通知が、別のものと一緒にDMVSC(804)によって使用され得、仮想NUMAノード(606)のメモリー圧力を算出し得る。例えば、レベルそれぞれは、例えば0〜4の値に関連付けられ得、別の任意のパフォーマンスカウンターを考慮に入れた場合、それらの値も関連付けられ得る。パフォーマンスカウンターそれぞれに関する値はその後、仮想NUMAノード(606)の現在のメモリー圧力を算出し得るために使用され得る。特定の例において、メモリー圧力が、より大きいか又は小さいパフォーマンスカウンター値を取ることによって算出され得る。別の例において、パフォーマンスカウンターの平均値が、メモリー圧力として使用され得る。更に別の実施形態において、より洗練されたアルゴリズムが使用され得、計算において、以前のパフォーマンスカウンターを考慮に入れ、相対重量に作用するスカラーをパフォーマンスカウンターそれぞれに割り当て、メモリー圧力を算出し得る。
[0060]メモリーをコミットするための決定が実行されたとき、DMVSP(802)は、様々な技法を使用し得、その1つがホット(hot)追加動作である。例えば、オペレーティングシステムの中には、物理メモリー範囲が、システムのリブートを必要とせずに実行中のオペレーティングシステムに追加されることを可能にするホット追加を支援し得るものもいくつかある。すなわち、メモリーマネージャー(808)は、実行中のシステムへメモリーの動的追加を支援するように構成され得る。ホット追加の実施形態において、DMVSC(804)が、メモリーマネージャー(808)のホット追加インターフェースをアクセスするように構成され得、DMVSC(804)が、ホット追加されたGPA及びそれらがその仮想NUMAノードに関連付けられていることを記述しているメッセージをゲストオペレーティングシステム(220)へ送信し得る。メモリーマネージャー(808)がその後、ゲストオペレーティングシステム(220)が利用可能な新しいメモリー、仮想NUMAノード(606)上で実行しているドライバー、アプリケーション、又は別の任意のプロセスを生成し得る。例えば、DMVSC(804)は、V1D(810)がGPAとSPAとの間に関係を生成した後、DMVSP(802)からホット追加メモリーアドレスを受信し得る。
[0061]同様に、ホット移動動作が使用され得、仮想NUMAノード(606)のような仮想NUMAノードからメモリーアドレスをデコミットし得る。例えば、DMVSC(804)は、メモリーがホット移動されたことを示すメッセージをゲストオペレーティングシステム(220)へ送信し得る。DMVSC(804)は、メモリーマネージャー(808)が、仮想NUMAノード(606)からGPAブロックを移動用に提供するようにリクエストし得る。この例において、DMVSC(804)はその後、メモリーマネージャー(808)の移動APIを呼び出し得、ゲストオペレーティングシステム(220)からGPAを移動し得る。ホット移動が使用される実施形態において、移動されるメモリーは、ゲストの現在のコミットに対し数えられず、メモリーマネージャー(808)は、オペレーティングシステムによってメモリーを移動するために使用される同様の技法を使用し、内部カウンターを調整し得、マザーボードから物理的に移動される。
[0062]別の実施形態において、メモリーは、バルーニング技法を使用することによって、仮想NUMAノードへデコミットされ得る。すなわち、メモリーは、仮想NUMA(606)ノードにおけるゲスト物理アドレスを、それらを支援している物理アドレスから分離することによってデコミットされ得る。例えば、論理プロセッサー(212B)は、DMVSC(804)の命令指標を実行し得、メモリーマネージャー(808)が、DMVSC(804)によって、例えば1つ以上のメモリーブロックを使用するための一定のメモリー容量を予約するリクエストメッセージをメモリーマネージャー(808)へ送信し得る。メモリーマネージャー(808)は、DMVSC(804)及びDMVSC(804)の内部で排他的に使用するためにメモリーをロックし得、メモリーのGPAをDMVSP(802)へ送信し得る。この例において、DMVSP(802)は、GPAをVID(810)へ送信し得、VID(810)は、これらのGPAに関するエントリーをシャドウページテーブル内のSPAへ移動し得る。この例において、メモリーマネージャー(808)は、GPAがまだ利用可能であるが、しかしながら実際には、GPAがもはやシステム物理アドレスによって支援されないことを識別する情報を含み得る。この例において、メモリーマネージャー(808)は、ロックされたGPAを使用しないでそれらを支援するSPAが再び割り当てられ得る。
[0063]分離されたゲスト物理アドレスは、物理アドレスに再度関連付けられ得る。この例において、メモリーページをコミットするためのリクエストがVID(810)によって受信され得、VID(810)は、リクエストを満たしSPAを取得し得、アドレスの範囲をDMVSP(802)へ送信し得る。実施形態において、VID(810)は、システム効率性を増大するために隣接するSPAの範囲を取得するように構成され得る。この例において、VID(810)は、仮想NUMAノード(606)に関連付けられるDMVSC(804)によって、排他的に使用するためにロックされるGPAを有するゲストオペレーティングシステム(220)を決定し得る。VID(810)は、ロックされたGPAとSPAとの間に関係を生成し得、メッセージをDMVSP(802)へ送信し得る。DMVSP(802)はその後、メッセージをDMVSC(804)へ送信し得、DMVSC(804)は、GPAがアンロックされ、仮想NUMAノード(606)に関連付けられたメモリーマネージャー(808)のメモリープールへ返却され得ることを示すメモリーマネージャー(808)へメッセージを送信し得る。
[0064]実施形態において、VID(810)は、ホット追加技法、又はGPAが膨張するか否かによってバルーニング技法を使用するかどちらか一方を決定し得る。例えば、VID(810)がNUMAノード(606)へコミットするSPAを受信したとき、それは、任意のGPAがDMVSC(804)によってロックされるか否か決定し得る。ロックされたGPAが存在する例において、VID(810)は、それがメモリーをホット追加する前にSPAを用いてそれらを支援し得る。メモリーが仮想NUMAノード(606)へコミットされる前に、それは0になり得、それに関連するキャッシュラインが、セキュリティのためにフラッシュされ得る。メモリーを0にすることによって、1つのパーティションに以前関付けられたメモリーのコンテンツが別のパーティションへリークされない。
[0065]ここで図10に移ると、それは図9の追加的動作(1010〜1020)を含んでいる動作手順の代替実施形態を表している。動作(1010)は、第2の複数の仮想NUMAノードにおけるメモリー圧力が、所定の値よりも大きいことを決定するステップと、第2のNUMAノードを計算機システムの第2の仮想NUMAノードへ移動させるステップと、を示している。そして図7に移ると、例えば、実施形態において、第2の仮想NUMAノード(608)におけるメモリー圧力が増大し得る。すなわち、メモリー圧力の指標値が、仮想NUMAノード(608)が圧迫されていることを示すDMVSP(802)によって、受信され得る。この例において、仮想マシン(240)又は個々の仮想NUMAノード(608)は、目標の圧力値を有し得、現在の圧力値が管理者によって設定された目標値よりも大きい場合がある。目標の圧力値は、DMVSP(802)によってアクセスされ得るデータ構造でストアされ得る。実行中の仮想マシン又は仮想NUMAノードの現在の圧力値は、その後受信され得る。DMVSP(802)は、実行中の仮想マシン又は仮想NUMAノードリストを介し連続的にステップし得、メモリー圧力値を目標の値に減少させるためにメモリーをコミットし得、圧力を目標の値に増大するためにメモリーをデコミットし得る。
[0066]例において、DMVSP(802)は、NUMAノード仮想NUMAノード(606)及び(608)を現在ホスティングしていて、例えば、NUMAノード(702)がその仮想NUMAノード双方に対する目標メモリー圧力値を取得するためのメモリーを十分に割り当てることが不可能なことを決定するように構成され得る。この例において、DMVSP(802)は、ハイパーバイザー(202)へ信号を送信するように構成され得、ハイパーバイザー(202)は、仮想NUMAノードの1つをNUMAノード(702)上へ移動しようと試みるように構成され得る。ハイパーバイザー(202)は、NUMAノード(702〜706)の現在の作業負荷をチェックし得、例えば、NUMAノード(704)が、仮想NUMAノードをホスティングし得、それに十分なリソースを割り当て得、メモリー圧力を目標の値に減少させ得ることを決定し得る。この例において、ハイパーバイザー(202)は、仮想NUMAノード(608)をNUMAノード(704)に再度割り当てるように構成され得る。すなわち、ハイパーバイザー(202)はVID(810)と連動してゲスト物理アドレス(616)をシステム物理アドレス(714)へ再度マッピングし得、論理プロセッサー(212E及びF)を仮想プロセッサー(230C及びD)に対する理想的なプロセッサーとして設定し得る。
[0067]図10の説明を続けると、動作(1012)は、ゲストメモリーの少なくとも1つのメモリーブロックを特定の仮想NUMAノードからデコミットするステップと、デコミットされたゲストメモリーの少なくとも1つのメモリーブロックを第2の仮想NUMAノードへコミットするステップと、を例示している。例えば、DMVSP(802)は、例えば、メモリーを仮想NUMAノード(606)からデコミットし、メモリーを仮想NUMAノード(608)へコミットするように構成され得る。この例において、仮想NUMAノード(606)及び(608)は、単一のNUMAノード又は「フラット」アーキテクチャーによって支援され得る。この実施形態例において、DIMIVSP(802)は、例えば、仮想NUMAノード(608)へコミットされ得る利用可能な有効メモリーが存在しないとき、仮想NUMAノード(606)からメモリーをフリーにしようと試み得る。別の例において、DMVSP(802)は、例えば、メモリーを仮想NUMAノード(610)からデコミットし、メモリーを仮想NUMAノード(608)へコミットするように構成され得る。すなわち、メモリーがある仮想マシンから取得され得、別の仮想マシンに与えられ得る。
[0068]そして図6を参照すると、特定の例において、仮想NUMAノード(606)及び(608)が計算機システム(600)のリソースへマッピングされ得る。この例において、DMVSP(802)は、別の仮想NUMAノードを、例えば仮想マシン(240)における低優先順位の仮想NUMAノード又は例えば、最低優先順位の仮想マシンを開始するメモリー優先順位でチェックし得る。例えば、目標の閾値よりも小さなメモリー圧力値を有する仮想NUMAノード(606)のような仮想NUMAノードが検出された場合、DMVSP(802)は、メモリーをデコミット開始し得、仮想NUMAノード(606)からメモリーを移動し得る。デコミットが完了した後、コミット動作が開始され得、メモリーは、仮想NUMAノード(608)へホット追加され得るか又は膨張したゲスト物理アドレスがシステム物理アドレスに再度関連付けられ得る。
[0069]そして図7を参照すると、特定の例において、DMVSP(802)は、例えば、メモリーの優先順位で同一のNUMAノード(702)によって支援される別の仮想NUMAノードをチェックし得る。例えば、仮想NUMAノード(608)と同一のNUMAノード上の仮想NUMAノードが、目標の閾値よりも小さなメモリー圧力値を有していることが検出された場合、DMVSP(802)はメモリーをデコミット開始し得る。デコミットが完了した後にコミット動作が開始され得、メモリーが仮想NUMAノード(608)へホット追加され得るか又は膨張されたゲスト物理アドレスがシステム物理アドレスと再度関連付けられ得る。
[0070]図10の説明を続けると、動作(1014)は、特定の仮想NUMAノードの少なくとも1つのゲストメモリーブロックが、システムメモリーと分離されることを決定するステップと、ゲストメモリーの少なくとも1つのメモリーブロックをシステムメモリーの少なくとも1つのメモリーブロック上へマッピングするステップと、を表している。例えば、実施形態において、DMVSP(802)が論理プロセッサーによって実行され得、SPA(624)を用いて仮想NUMAノード(606)におけるGPAを支援する決定が実行され得る。例えば、GPAがDMVSC(804)によって予約され得、SPAが別の仮想NUMAノード又は親パーティション(204)のどちらか一方へ再度割り当てされ得る。この例において、メモリーページをコミットするためのリクエストがVID(810)によって受信され得、VID(810)がリクエストを満足するSPAを取得し得、アドレス範囲をDMVSP(802)へ送信し得る。実施形態において、VID(810)は、システム効率を増大するために隣接したSPAの範囲を取得するように構成され得る。NUMA実施形態において、VID(810)は、仮想NUMAノード(606)を実行中の同一のNUMAノードから隣接したSPAの範囲を取得するように構成され得る。VID(810)は、ロックされたGPAとSPAとの間に関係を生成し得、メッセージをDMVSP(802)へ送信し得る。DMVSP(802)はその後、メッセージをDMVSC(804)へ送信し得、DMVSC(804)は、GPAがアンロックされ得、仮想NUMAノード(606)と関連付けられたメモリープールへ返却され得ることを示すメッセージをメモリーマネージャー(808)へ送信し得る。
[0071]図10の説明を続けると、動作(1016)は、特定の仮想NUMAノードを計算機システムの第1のNUMAノード上へマッピングするステップと、特定の仮想NUMAノードを計算機システムの第2のNUMAノード上へ移動させるステップと、を例示している。そして図7を参照すると、例えば、ゲストオペレーティングシステム(220)は、NUMAノード(702)及び(704)のような少なくとも2つのNUMAノード全域に拡大され得る。そして図7を参照すると、例えば、ハイパーバイザー(202)は、仮想NUMAノード(606)及び(608)が、NUMAノード(702)上で実行するようにスケジューリングし得る。この例において、ハイパーバイザー(202)は、NUMAノード(702)が圧迫されていることを示す信号を受信し得る。例えば、ゲストオペレーティングシステム(220)は、仮想NUMAノード(606)及び(608)がメモリー上において低いことを示す信号を生成し得る。この例において、ハイパーバイザー(202)は、NUMAノード(702)上に仮想NUMAノード(608)を移動することによって、圧迫されているNUMAノードの作業負荷を減少させるように構成され得る。
[0072]図10の説明を続けると、動作(1018)は、仮想プロセッサーを特定の仮想NUMAノードへ追加するステップを例示している。例えば、実施形態において、仮想プロセッサー(230B)のような仮想プロセッサーが、仮想マシン(240)のランタイム実行中に例えば、プロセッサーのホット追加動作を使用して追加され得る。すなわち、仮想NUMAノード(606)は、ある地点において単一の仮想プロセッサー(230A)だけを有し得、その後、別のプロセッサーが追加される。実施形態において、新たに追加されたプロセッサーが、仮想プロセッサー(230A)を支援しているプロセッサーへ割り当てられ得るか、又は別の論理プロセッサーが、仮想プロセッサー(230B)のスレッドへ割り当てられ得、実行され得る。NUMA実施形態において、別の論理プロセッサーが使用され、仮想プロセッサー(230B)を支援している場合、それが仮想NUMAノード(606)において別の仮想プロセッサーを支援している同一のNUMAノード(702)から割り当てられ得る。
[0073]図10の説明を続けると、動作(1020)は、仮想マシンの仮想プロセッサーと、論理プロセッサーに割り当てられた仮想プロセッサーと、NUMAノードに割り当てられた論理プロセッサーと、仮想NUMAノードに割り当てられた仮想プロセッサーと、を実行するためのリクエストを受信するステップと、論理プロセッサーが仮想プロセッサーを実行不可能であることを決定するステップと、仮想プロセッサーを実行するための第2の論理プロセッサーを選択するステップであって第2の論理プロセッサーが、第2のNUMAノードから提供されているものと、を例示している。そして図7を参照すると、例えば、実施形態において、ハイパーバイザー(202)は、仮想プロセッサー(230A)から仮想プロセッサースレッドを実行するためのリクエストを受信し得、理想プロセッサー(212A)、例えば仮想プロセッサー(230A)を支援するプロセッサー上にスレッドをスケジューリングしようと試み得る。この例において、ハイパーバイザー(202)は、論理プロセッサー(212A)が過度にコミットされていて、仮想プロセッサースレッドを実行不可能なことを検出し得る。この場合、ハイパーバイザー(202)が実行され得、それが、仮想プロセッサースレッドを実行するための別の論理プロセッサーを選択し得る。例えば、ハイパーバイザー(202)は、同一のNUMAノード上において異なる論理プロセッサーを選択しようと試み得る。例えば、NUMAノードが過度にコミットされている場合、ハイパーバイザー(202)は、仮想プロセッサー(230A)、例えば論理プロセッサー(212E)を実行するためのリモートプロセッサーを選択するように構成され得る。この例において、リモートノード上のスレッドを待つか又はスケジューリングすることに関する決定が、NUMAノード(704)に関連するNUMA比を使用し実行され得る。NUMA比が低い場合、かつ、理想的なプロセッサーを待つ予測時間が長い場合、NUMAノード(704)上にスレッドをスケジューリングする決定が実行され得る。他方では、NUMA比が高い場合、かつ、待つ予測時間が短い場合、待機する決定が実行され得る。
[0074]ここで図11に移ると、それは動作(1100)、(1102)、(1104)、及び(1106)を含んでいる本開示の態様を実施するための動作手順を表している。動作(1100)が動作手順を開始し、動作(1102)は、仮想マシンを実行するステップであって仮想マシンが、複数の仮想NUMAノードを含むトポロジーを有しているものと、仮想マシンのトポロジーが、計算機システムの物理トポロジーから独立して生成されていることを示している。例えば、ハイパーバイザー(202)は、複数の仮想NUMAノードを有する仮想マシンを実行し得る。図6によって示されるような仮想NUMAノード(606)及び(608)を含む仮想マシン(240)が作成され得る。仮想NUMAノードはそれぞれ、1つ以上の仮想プロセッサー(230A〜D)と、ゲスト物理アドレス(614)及び(616)とを有し得る。この実施形態において、仮想NUMAノード(606)及び(608)が基本ハードウェアトポロジーから独立して生成され得る。すなわち、仮想マシンのトポロジーは、図6及び図7によって表されるような基本ハードウェアと関係しない。かくして、この実施形態において、仮想マシンのトポロジーそれぞれは、それを達成する計算機システムの基本物理トポロジーから分離されている。
[0075]図11の説明を続けると、動作(1104)は、複数の仮想NUMAノードそれぞれにおけるメモリー圧力を決定するステップを例示している。そして図8を参照すると、例えば、仮想NUMAノード(606)及び(608)それぞれに対するメモリー圧力が取得され得、例えば、生成され及び/又は受信され得る。メモリー圧力情報は、ゲストの実績が仮想NUMAノード(606〜608)それぞれが利用可能なメモリー容量によってどのように作用されるか識別し得る。この情報は、例えば、DMVSC(804)及び/又は(806)のような1つ以上のDMVSCによってゲストオペレーティングシステム(220)のランタイム中に算出され得、DMVSP(802)へ送信され得る。すなわち、特定の実施形態において、論理プロセッサーは、DMVSC(804)又は(806)の命令指標を実行し得、仮想NUMAノードそれぞれに対するメモリー圧力情報を生成し得る。この情報はその後、例えば、DMVSP(802)へ送信され得る。
[0076]実施形態例において、メモリー圧力情報は、0〜4の範囲の一連の値を含み得、それぞれの値は、ゲストOSが、仮想NUMAノード(606〜608)のリソースによる経験をしている異なるレベルのメモリー圧力を識別し得る。ゲストオペレーティングシステムが、より圧迫されるにつれて、すなわち、現在の作業負荷を効率的に実行するために必要なメモリー容量が増加するにつれて、DMVSC(804)及び(806)は、それらの値を改め、この情報をDMVSP(802)へ伝達し得る。
[0077]図11の説明を続けると、動作(1106)は、複数の仮想NUMAノードの少なくとも1つに割り当てられるゲストメモリーを複数の仮想NUMAノードそれぞれにおけるメモリー圧力に基づいて調整するステップを示している。動作(1206)を含む実施形態において、論理プロセッサー(212A)は、DMVSP(802)の命令指標を実行し得、例えば、仮想NUMAノード(606)におけるゲスト物理アドレス量を調整し得る。すなわち、DMVSP(802)は、仮想NUMAノード(606)におけるメモリー圧力に基づいてメモリーをコミット又はデコミットし得、例えばプロセスが、圧迫されている仮想NUMAノード(606)に割り当てられた場合、メモリーがコミットされ得る。
[0078]実施形態において、DMVSP(802)によって構成される論理プロセッサー(212)がメモリーをコミットするか又はデコミットする決定をしたとき、それがメモリーブロックベース単位でそのように実行し得る。例えば、DMVSP(802)は、メモリーブロックをコミット又はデコミットし得、メモリーステータスがどのように変化するかチェックし得る。メモリーステータスが変化していない場合、DMVSP(802)は、別のメモリーブロックをコミット又はデコミットし得る。
[0079]ここで図12に移ると、それは動作(1208〜1216)を含んでいる図11の動作手順1(100)の代替実施形態を表している。図面によって例示されるように動作(1208)は、仮想マシンを第2の計算機システムへ送信するステップを示している。そして図5を参照すると、例えば、実施形態において、仮想マシンの状態が1つ以上の構成ファイルにセーブされ得、別の計算機システムへ、例えば、計算機(504)から(506)へ送信され得る。計算機システム(506)のハイパーバイザーは、ファイルを読み出し得るか又はファイル仮想マシンをインスタンス化し得る。
[0080]仮想マシンのトポロジーは、仮想マシンへ移動させてリストアする能力に作用する。具体的には、基本ハードウェアトポロジーを検出可能にする決定及び仮想NUMAノードサイズが、仮想マシンがどのくらい十分に実行するか及びそれが容易に移動され得るか否かに影響する。例えば、仮想NUMAノードサイズは、移動させる機能に作用し、例えば、仮想NUMAノードサイズが増加するにつれて仮想NUMAノードの移植性が減少し、仮想NUMAノードサイズが減少するにつれて仮想マシンの性能も低下する。加えると、基本計算機のトポロジーを検出し得る仮想マシンは、NUMA認識オペレーティングシステム及びアプリケーションが、ブート時間に仮想マシンが検出する第1のトポロジーに基づいて自らを最適化するという事実のために容易に移動され得ず、これらの最適化は、将来、仮想マシンが移動され得る計算機上において十分に実行し得ない。かくして、仮想NUMAノードをゲストオペレーティングシステムに公開することによって、それがブートしたとき、オペレーティングシステムがNUMAノードを使用するように最適化され得る。仮想NUMAノードを正確にサイジングすることによって、仮想マシンが、データセンター(500)における多くの様々な計算機システムに対し最適化され得る。
[0081]そして図6を参照すると、例えば、仮想マシン(240)は2つ以上の仮想NUMAノード(606)及び(608)を含み得る。ハイパーバイザー(202)は、論理プロセッサー(212A〜D)を用いて仮想プロセッサー(230A〜D)を支援し得る。ゲストオペレーティングシステム(220)がブートしたとき、それが仮想NUMAノード(606)及び(608)を検出し得、仮想NUMAノード(606)及び(608)を使用するプロセスをスケジューリング及び実行を最適化するように構成され得る。しばらくして仮想マシン(240)は、図7によって表されたものと同様の物理トポロジーを有する計算機システムへ移動され得る。図7のハイパーバイザー(202)は、論理プロセッサー(212A及びB)を用いて仮想プロセッサー(230A及びB)を支援し得、論理プロセッサー(212E及びF)を用いて仮想プロセッサー(230C及びD)を支援し得る。ゲストオペレーティングシステム(220)は、基本計算機トポロジーがSMPからNUMAへ変更した時でも図6の計算機システム上で実行したときと同一の方法で作動し続け得る。
[0082]図12の説明を続けると、動作(1210)は、第1の複数の仮想NUMAノードを計算機システムの第1のNUMAノードへマッピングするステップと、第2の複数の仮想NUMAノードを計算機システムの第1のNUMAノードへマッピングするステップと、を示している。そして図7を参照すると、例えば、論理プロセッサー(212A)のような論理プロセッサーは、ハイパーバイザー命令を実行し得、仮想NUMAノード(606)及び(608)のような仮想NUMAノードをNUMAノード(702)のようなNUMAノードへ一体化し得る。より具体的には、論理プロセッサーは、システム物理アドレスを用いてNUMAノード(702)のRAM(214)からゲスト物理アドレス(614)及び(616)を支援し得、論理プロセッサー(212A〜D)を用いて仮想プロセッサー(230A〜D)を支援し得る。
[0083]図12の説明を続けると、動作(1212)は、第1の複数の仮想NUMAノードを計算機システムの第1のNUMAノード上へマッピングするステップと、第2の複数の仮想NUMAノードを計算機システムの第2のNUMAノード上へマッピングするステップと、を示している。そして図7を参照すると、例えば、論理プロセッサー(212A)のような論理プロセッサーは、ハイパーバイザー命令を実行し得、仮想NUMAノード(606)をNUMAノード(702)へ割り当て得、仮想NUMAノード(608)をNUMAノード(704)へ割り当て得る。この例において、ハイパーバイザー(202)が実行されるとき、ハイパーバイザースケジューラーは、仮想プロセッサー(230A〜B)からのスレッドを論理プロセッサー(212A〜D)上にスケジュールし得、仮想プロセッサー(230C又はD)からのスレッドを論理プロセッサー(212E〜G)上にスケジュールし得る。
[0084]ここで図13に移ると、それは図12の動作手順の代替実施形態を例示していて、第2の仮想NUMAノードにおけるメモリー圧力が、所定の値よりも大きいことを決定するステップと、第2の仮想NUMAノードを計算機システムの第2のNUMAノードに移動させるステップと、を示している動作(1314)を含んでいる。そして図7に移ると、例えば、実施形態において、第2の仮想NUMAノード(608)におけるメモリー圧力が増大し得る。すなわち、メモリー圧力の値の指標は、仮想NUMAノード(608)が圧迫されていることを示すDMVSP(802)を受信し得る。この例において、仮想NUMAノード(606〜612)及び/又は仮想マシン(240〜242)それぞれは、目標の圧力値を有し得、仮想NUMAノード(608)に対する現在の圧力値が管理者によって設定された目標値よりも大きい場合がある。目標圧力値は、DMVSP(802)によってアクセスされ得るデータ構造でストアされ得る。現在実行中の仮想マシン又は仮想NUMAノードの圧力値がその後、受信され得る。DMVSP(802)は、実行中の仮想マシン又は仮想NUMAノードの一覧を介し順次にステップし、メモリー圧力値を目標値に減少させるようにメモリーをコミットし、目標値に対する圧力を増やすようにメモリーをデコミットする。
[0085]ここで図14に移ると、それは図12の動作手順の代替実施形態を例示していて、第2の仮想マシンメモリー圧力が、所定の値よりも大きいことを決定するステップと、仮想マシンの第2の仮想NUMAノードを計算機システムの第1のNUMAノードへ移動させるステップと、を示している動作(1416)を含んでいる。実施形態において、少なくとも2つの仮想マシン、例えば、仮想マシン(240)及び(242)が実行され得る。
この例において、仮想マシン(240)の仮想NUMAノードが、例えば、図7のNUMAノード(702)及び(704)へマッピングされ得、仮想マシン(242)の仮想NUMAノードが、例えば、NUMAノード(706)へマッピングされ得る。この例において、仮想マシン(240)及び(242)それぞれ及び/又は仮想NUMAノード(606〜612)それぞれは目標の圧力値を有し得、DMVSP(802)によってアクセスされ得るデータ構造でストアされ得る。この例において、第2の仮想マシンのメモリー圧力(242)は、仮想マシン、例えば、多くの読み出し又は書き出しリクエストを受信した仮想マシン(242)における活動のために増大し得、その値がDMVSP(802)によって受信され得る。DMVSP(802)が、実行中の仮想マシン又は仮想NUMAノードの現在の圧力値を受信し得、実行中の仮想マシン又は仮想NUMAノードのリストを介し連続的にステップし得、メモリー圧力を軽減するために、メモリーが仮想マシン(242)にコミットされ得るか否か決定し得る。
[0086]圧力が、メモリーをコミット又はデコミットすることによって軽減できない状況において、DMVSP(802)は、ハイパーバイザー(202)へ信号を送信するように構成され得、ハイパーバイザー(202)は、メモリー圧力を軽減するために、計算機システムのリソースを再度割り当てしようと試み得る。例えば、ハイパーバイザー(202)は、NUMAノード(702〜706)の現在の作業負荷をチェックし得、例えば、NUMAノード(702)が、仮想マシン(240)から仮想NUMAノードをホスティングし得、仮想NUMAノード(608)をNUMAノード(702)へ再度割当てし得ることを決定できる。すなわち、ハイパーバイザー(202)は、VID(810)と連動してゲスト物理アドレス(616)をシステム物理アドレス(712)へ再度マッピングし得、論理プロセッサー(212A及びD)を仮想プロセッサー(230C及びD)に対する理想的なプロセッサーとして設定し得る。その後、ハイパーバイザーは、仮想NUMAノード(610)をNUMAノード(704)に再度マッピングし得、仮想マシン(242)の仮想NUMAノード(610〜612)それぞれの内部のメモリーを、そのメモリー圧力を減少させるために調整し得る。
[0087]ここで図15に移ると、それは動作(1500)、(1502)、及び(1504)を含んでいる本開示の態様を実施するための動作手順を例示している。動作(1500)が動作手順を開始し、動作(1502)は、第1の仮想マシンを実行するステップであって仮想マシンが、複数の仮想NUMAノードを含むトポロジーを有しているものと、複数の仮想NUMAノードそれぞれが、仮想プロセッサー及びゲスト物理アドレスを含んでいるものと、仮想マシンのトポロジーが、計算機システムの物理トポロジーから独立して生成されていることを示している。例えば、図7のハイパーバイザー(202)は、複数の仮想NUMAノード(608〜610)を有している仮想マシン(240)を実行し得る。仮想NUMAノード(606)及び(608)はそれぞれ、1つ以上の仮想プロセッサー(230A〜D)と、ゲスト物理アドレス(614)及び(616)と、を有し得る。この実施形態において、仮想NUMAノード(606)及び(608)が計算機システム(700)のリソースへマッピングされ得る。例えば、論理プロセッサー(212A及び212B)は仮想プロセッサー(230A及び230B)に対する理想的なプロセッサーとして設定され得、ゲスト物理アドレス(614)がシステム物理アドレス(710)によって支援され得る。同様に論理プロセッサー(212E)及び(212F)が仮想プロセッサー(230C)及び(230D)に対する理想的なプロセッサーとして設定され得、ゲスト物理アドレス(616)がシステム物理アドレス(714)へマッピングされ得る。この実施形態において、仮想NUMAノード(606)及び(608)は、基本ハードウェアトポロジーから独立している。すなわち、仮想マシンのトポロジーは、図6及び図7によって表されるような基本ハードウェアと関係しない。かくして、この実施形態において、仮想マシンのトポロジーは、それを達成する計算機システムの基本物理トポロジーから分離されている。
[0088]図15の説明を続けると、動作(1504)は、増設の仮想プロセッサーを複数の仮想NUMAノードに追加するステップを示している。例えば、実施形態において、増設の仮想プロセッサーが、例えば、仮想NUMAノード(606)のような仮想NUMAノードに追加され得る。
この例において、仮想プロセッサーのような仮想プロセッサーが、例えば、プロセッサーのホット追加動作を使用し仮想マシン(240)のランタイム実行中に追加され得る。実施形態において、新しく追加された仮想プロセッサーが仮想プロセッサー(230A)を支援しているプロセッサーへ割り当てられ得るか、又は別の論理プロセッサーが新しく追加された仮想プロセッサーのスレッドを実行する理想的なプロセッサーとして設定され得る。NUMA実施形態において、論理プロセッサーは、仮想NUMAノード(606)を支援している同一のNUMAノード(702)から割り当てられ得る。
[0089]ここで図16に移ると、それは付加的な動作(1606〜1612)を含んでいる図15によって表されている動作手順の代替実施形態を示している。動作(1606)は、複数の仮想NUMAノードそれぞれにおけるメモリー圧力を決定するステップと、複数の仮想NUMAノードそれぞれにおけるメモリー圧力に基づいて複数の仮想NUMAノードの少なくとも1つに割り当てられるゲストメモリーを調整するステップと、を示している。図8を参照すると、仮想NUMAノード(606)及び(608)のそれぞれに対するメモリー圧力が取得され得、例えば生成され及び/又は受信され得る。メモリー圧力情報は、仮想NUMAノードそれぞれが利用可能なメモリー容量によってゲスト性能がどのように作用されるか識別し得る。DMVSC(804)及び(806)は、例えば、メモリーマネージャー(808)から物理メモリー通知及び/又はゲストオペレーティングシステムのページング情報を受信し、それを利用し、仮想NUMAノード(606)及び(608)それぞれのメモリー圧力を計算するように構成され得る。
[0090]本例を続けると、論理プロセッサー(212A)は例えば、DMVSP(802)の命令指標を実行し得、例えば、仮想NUMAノード(606)におけるゲスト物理アドレス量を調整し得る。すなわち、DMVSP(802)は、ゲストOSがリソースのために仮想NUMAノード(606)において経験しているメモリー圧力に基づいて、メモリーをコミット又はデコミットする。
[0091]図16の説明を続けると、動作(1608)は、複数の仮想NUMAノードから仮想プロセッサーを移動するステップを例示している。(1706)を含む実施形態において、ハイパーバイザー(202)が論理プロセッサーによって実行され得、仮想プロセッサーが仮想NUMAノード(606)から移動され得る。例えば、ハイパーバイザー(202)は、ゲストオペレーティングシステム(220)のホット移動APIをアクセスし得、例えば、仮想プロセッサー(230B)を仮想NUMAノード(608)から移動し得る。
[0092]ここで動作(1610)に移ると、それは複数の仮想NUMAノードに関するNUMA比をゲストオペレーティングシステムへ報告するステップを示している。例えば、実施形態において、ハイパーバイザー(202)は、仮想NUMAノード(606〜608)に関するNUMA比を生成し得、この情報が図6又は図7のどちらか一方のゲストオペレーティングシステム(220)へ報告され得る。実施形態において、ハイパーバイザー(202)は、仮想NUMAノードに関するNUMA比を示しているデータ構造を仮想マシンのファームウェアテーブルに生成し得、ゲストオペレーティングシステム(220)がブートしたとき、ゲストが、テーブルを読み出し得、情報を利用し得、スケジューリング決定を実行し得る。例えば、ゲストオペレーティングシステム又はNUMA認識アプリケーションが、NUMA比を利用し得、リモートNUMAノードからのリソースを使用するか否か決定し得る。例えば、オペレーティングシステムは、実行される準備をしている保留中のスレッドを有し得る。この例において、オペレーティングシステムも、フリーになる理想的なプロセッサーを一定の時間、待つように構成され得るか、さもなければ、それは、所定よりも小さなNUMA比を有するスレッドをリモートプロセッサー上にスケジューリングする。この場合、スケジューラーが受け入れる時間はNUMA比に依存している。
[0093]ここで動作(1612)に移ると、それは仮想マシンを第1のNUMAノードから複数のNUMAノードへ移動させるステップを示している。例えば、実施形態において、ハイパーバイザー命令は論理プロセッサーによって実行され得、仮想マシン(240)は複数のNUMAノード(704)及び(706)へマッピングされ得る。この例において、計算機システム(700)は乱用され得、例えば仮想マシン(242)は、リソースの大部分を使用している場合があって、そのため、仮想マシン(242)が計算機(700)から移動される。この状況において、ハイパーバイザー(202)は、計算機システム(700)のリソースを再割り当てし得、仮想マシン(240)をNUMAノード(704)及び(706)へ再マッピングし得る。
[0094]ここで図17に移ると、それは図16の動作手順の動作(1714)及び(1716)を含む代替実施形態を表している。実施形態において、動作(1606)は、仮想NUMAノードの現在のメモリー圧力が、目標の閾値よりも低いという決定に基づいて第1の複数の仮想NUMAノードからメモリーをデコミットするステップを示している動作(1714)を含み得る。例えば、実施形態において、DMVSP(802)は、仮想NUMAノード(608)のメモリー圧力が、目標範囲よりも低いとき、仮想NUMAノード(606)からメモリーをデコミットするように構成され得る。例えば、実施形態において、DMVSP(802)は、例えば、コミットされ得る親パーティションにおいてメモリーも利用可能でないとき、及び仮想NUMAノード(608)が受け入れられない圧力を経験しているとき、仮想NUMAノード(606)からメモリーをフリーにしようと試み得る。メモリーが仮想NUMAノード(606)からデコミットされた場合、非同期メッセージが、メモリーをデコミットする指示するためのDMVSC(804)が送信され得る。ゲストOS(220)に関連するDMVSC(804)が応答したとき、それは仮想NUMAノード(606)内部の新しいメモリー圧力を示し得る。場合によっては、メモリー圧力が、メモリーの移動動作に応答し増大され得るものもある。
[0095]図17の説明を続けると、動作(1716)は、ゲストオペレーティングシステムの現在のメモリー圧力が目標の閾値よりも大きいという決定に基づいて、第1の複数の仮想NUMAノードへメモリーをコミットするステップを示している。例えば、実施形態において、DMVSP(802)は、仮想NUMAノード(606)のメモリー圧力が目標範囲よりも大きいとき、メモリーを仮想NUMAノード(606)へコミットするように構成され得る。この場合、メモリーが利用可能な場合、それが仮想NUMAノード(606)に割り当てられ得る。すなわち、DMVSP(802)は、利用可能なメモリー容量によって仮想NUMAノード(606)の性能がどのように作用されるか識別するメモリー圧力情報を取得し得、メモリーを仮想NUMAノード(606)へ追加し得る。特定の例において、メモリー圧力情報は数値であり得る。この例において、DMVSP(802)は、現在のメモリー圧力値を仮想NUMAノード(606)に対する最小値を示す情報テーブルと比較し得、仮想NUMAノード(606)のメモリー圧力が最小と等しくなるまでメモリーを調整し得る。例えば、管理者は、仮想NUMAノード(606)及び(608)に対する最小値を有する不可欠なアプリケーションを実行するゲストオペレーティングシステムを構成し得る。
[0096]前述の詳細な説明は、例及び/又は動作図面を介し、システム及び/又はプロセスの様々な実施形態を詳細に説明している。そのようなブロック図及び/又は例が1つ以上の機能及び/又は動作を含む場合、そのようなブロック図又は例の中の機能及び/又は動作それぞれは、様々な範囲のハードウェア、ソフトウェア、ファームウェア、又は実際にはその任意の組み合わせによって個別に及び/又はまとめて実装され得ることが当業者によって理解されよう。
[0097]本明細書に記述された本対象事項の具体的な態様が示され、説明されているが、当業者にとって、本明細書の教示に基づく変更及び修正が本明細書に記述された対象項目及びそのより広い態様から離れずに実行され得ることは明らかであって、したがって、添付の請求項は、それらの変更及び修正すべてが本明細書に記述された対象項目の本当の趣旨及び範囲内にあるようにその範囲内に包含される。
20 計算機システム
21 論理プロセッサー
22 システムメモリー
23 システムバス
24 読み出し専用メモリー(ROM)
25 ランダムアクセスメモリー(RAM)
26 基本入力/出力システム(BIOS)
27 ハードディスクドライブ
28 磁気ディスクドライブ
29 取り外し可能磁気ディスク
30 光学式ディスクドライブ
31 取り外し可能光学式ディスク
32 ハードディスクドライブインターフェース
33 磁気ディスクドライブインターフェース
34 光学式ドライブインターフェース
35 オペレーティングシステム
36 アプリケーションプログラム
37 その他のプログラムモジュール
38 プログラムデータ
40 キーボード
42 ポインティングデバイス
46 シリアルポートインターフェース
47 ディスプレイ
48 ビデオアダプター
49 リモートコンピューター
50 メモリー記憶装置
51 ローカルエリアネットワーク(LAN)
52 広域ネットワーク(WAN)
53 アダプター
54 モデム
55 ホストアダプター
56 小型コンピューター用周辺機器インターフェース(SCSI)バス
62 外部記憶装置
200 計算機システム
202 ハイパーバイザー
204 親パーティション
208 記憶装置
210 ネットワークインターフェースコントローラー(NIC)
212 論理プロセッサー
214 ランダムアクセスメモリー(RAM)
216 仮想化サービスクライアント(VSC)
218 仮想化サービスクライアント(VSC)
220 ゲストオペレーティングシステム
222 ゲストオペレーティングシステム
224 デバイスドライバー
228 仮想化サービスプロバイダー
230 仮想プロセッサー
232 仮想プロセッサー
234 画像処理装置
236 設定ユーティリティ
240 仮想マシン
242 仮想マシン
300 計算機システム
500 データセンター
502 管理システム
504 計算機システム
506 計算機システム
508 計算機システム
510 計算機システム
600 計算機システム
602 メモリーコントローラー
606 仮想NUMAノード
608 仮想NUMAノード
610 仮想NUMAノード
612 仮想NUMAノード
614 ゲスト物理アドレス
616 ゲスト物理アドレス
618 ゲスト物理アドレス
620 ゲスト物理アドレス
622 システム物理アドレスブロック
624 システム物理アドレスブロック
626 システム物理アドレスブロック
628 システム物理アドレスブロック
630 システム物理アドレスブロック
632 システム物理アドレスブロック
700 計算機システム
702 NUMAノード
704 NUMAノード
706 NUMAノード
708 相互接続
802 ダイナミックメモリー仮想化サービスプロバイダー(DMVSP)
804 ダイナミックメモリー仮想化サービスクライアント(DMVSC)
806 ダイナミックメモリー仮想化サービスクライアントDMVSC
808 ゲストオペレーティングシステムメモリーマネージャー
810 仮想基盤ドライバー(VID)
812 ワーカープロセス

Claims (20)

  1. 仮想マシンをインスタンス化するためのリクエストを受信するステップであって前記リクエストが、前記仮想マシンに関する特性を含んでいるものと、
    前記特性に基づいて、前記仮想マシンに関する仮想非一様メモリ・アーキテクチャ(NUMA:Non-Uniform Memory Architecture)ノードトポロジーを選択するステップであって前記仮想NUMAノードトポロジーが、複数の仮想NUMAノードを含んでいるものと、
    前記仮想マシンを計算機システム上でインスタンス化するステップであって前記仮想マシンが、前記複数の仮想NUMAノードを含んでいるものと、
    前記複数の仮想NUMAノードの内の特定の仮想NUMAノードにおけるメモリー圧力に基づいて、前記特定の仮想NUMAノードに割り当てられるゲストメモリー容量を調整するステップと、を含む方法。
  2. 更に、
    前記複数の仮想NUMAノードの内の第2の仮想NUMAノードにおけるメモリー圧力が所定の値よりも大きいことを決定するステップと、
    前記第2の仮想NUMAノードを前記計算機システムの第2のNUMAノードへ移動させるステップと、を含む請求項1記載の方法。
  3. 前記ゲストメモリー容量を調整するステップが更に、
    ゲストメモリーの少なくとも1つのメモリーブロックを前記特定の仮想NUMAノードからデコミットするステップと、
    前記ゲストメモリーの少なくとも1つのデコミットされたメモリーブロックを第2の仮想NUMAノードへコミットするステップと、を含むことを特徴とする請求項1記載の方法。
  4. 前記ゲストメモリー容量を調整するステップが更に、
    前記特定の仮想NUMAノードの少なくとも1つのゲストメモリーブロックがシステムメモリーと分離されていることを決定するステップと、
    前記ゲストメモリーの少なくとも1つのメモリーブロックをシステムメモリーの少なくとも1つのメモリーブロック上へマッピングするステップと、を含むことを特徴とする請求項1記載の方法。
  5. 更に、
    前記特定の仮想NUMAノードを前記計算機システムの第1のNUMAノード上へマッピングするステップと、
    前記特定の仮想NUMAノードを前記計算機システムの第2のNUMAノード上へ移動させるステップと、を含む請求項1記載の方法。
  6. 更に、
    仮想プロセッサーを特定の前記仮想NUMAノードに追加するステップを含む請求項1記載の方法。
  7. 更に、
    前記仮想マシンの仮想プロセッサーと、論理プロセッサーに割り当てられた前記仮想プロセッサーと、NUMAノードに割り当てられ前記論理プロセッサーと、及び前記複数の仮想NUMAノードの内の1つに割り当てられた前記仮想プロセッサーと、を実行するためのリクエストを受信するステップと、
    前記論理プロセッサーが前記仮想プロセッサーを実行不可能なことを決定するステップと、
    前記仮想プロセッサーを実行する第2の論理プロセッサーを選択するステップであって前記第2の論理プロセッサーが、第2のNUMAノードから提供されているもの、を含む請求項1記載の方法。
  8. 計算機システムであって、
    仮想マシンを実行するための回路であって前記仮想マシンが、複数の仮想非一様メモリ・アーキテクチャ(NUMA:Non-Uniform Memory Architecture)ノードを含むトポロジーを有しており、前記仮想マシンの前記トポロジーが、前記計算機システムの物理トポロジーから独立して生成されるものと、
    前記複数の仮想NUMAノードの内の仮想NUMAノードそれぞれにおけるメモリー圧力を決定するための回路と、
    前記複数の仮想NUMAノードの内の仮想NUMAノードそれぞれにおける前記メモリー圧力に基づいて、前記複数の仮想NUMAノードの少なくとも1つに割り当てられるゲストメモリーを調整するための回路と、を含む計算機システム。
  9. 更に、
    前記仮想マシンを第2の計算機システムへ送信するための回路を含む請求項8記載の計算機システム。
  10. 更に、
    前記複数の仮想NUMAノードの内の第1の仮想NUMAノードを前記計算機システムの第1のNUMAノード上へマッピングするための回路と、
    前記複数の仮想NUMAノードの内の第2の仮想NUMAノードを前記計算機システムの前記第1のNUMAノード上へマッピングするための回路と、を含む請求項8記載の計算機システム。
  11. 更に、
    前記複数の仮想NUMAノードの内の第1の仮想NUMAノードを前記計算機システムの第1のNUMAノード上へマッピングするための回路と、
    前記複数の仮想NUMAノードの内の第2の仮想NUMAノードを前記計算機システムの第2のNUMAノード上へマッピングするための回路と、を含む請求項8記載の計算機システム。
  12. 更に、
    前記第2の仮想NUMAノードにおけるメモリー圧力が所定の値よりも大きいことを決定するための回路と、
    前記第2の仮想NUMAノードを前記計算機システムの第2のNUMAノードへ移動させるための回路と、を含む請求項10記載の計算機システム。
  13. 更に、
    前記第2の仮想NUMAノードのメモリー圧力が所定の値よりも大きいことを決定するための回路と、
    前記仮想マシンの前記第2の仮想NUMAノードを前記計算機システムの前記第1のNUMAノードへ移動させるための回路と、を含む請求項11記載の計算機システム。
  14. プロセッサー実行可能命令を含む計算機可読記憶媒体であって、
    第1の仮想マシンを実行するための命令であって前記仮想マシンが、複数の仮想非一様メモリ・アーキテクチャ(NUMA:Non-Uniform Memory Architecture)ノードを含むトポロジーを有しており、前記複数の仮想NUMAノードの内の仮想NUMAノードそれぞれが、仮想プロセッサー及びゲスト物理アドレスを含んでおり、前記仮想マシンの前記トポロジーが、計算機システムの物理トポロジーから独立して生成されるものと、
    前記第1の仮想マシンのランタイム実行中に、増設の仮想プロセッサーを前記複数の仮想NUMAノードの内の仮想NUMAノードに追加するための命令と、を含む前記計算機可読記憶媒体。
  15. 更に、
    前記複数の仮想NUMAノードの内の仮想NUMAノードそれぞれにおけるメモリー圧力を決定するための命令と、
    前記複数の仮想NUMAノードの内の仮想NUMAノードそれぞれにおける前記メモリー圧力に基づいて、複数の仮想NUMAノードの内の仮想NUMAノードの少なくとも1つに割り当てられるゲストメモリーを調整するための命令と、を含む請求項14記載の計算機可読記憶媒体。
  16. 更に、
    前記複数の仮想NUMAノードの内の仮想NUMAノードから仮想プロセッサーを移動するための命令を含む請求項14記載の計算機可読記憶媒体。
  17. 更に、
    前記複数の仮想NUMAノードに関するNUMA比をゲストオペレーティングシステムへ報告するための命令を含む請求項14記載の計算機可読記憶媒体。
  18. 更に、
    前記仮想マシンを第1のNUMAノードから複数のNUMAノードへ移動させるための命令を含む請求項14記載の計算機可読記憶媒体。
  19. 前記ゲストメモリーを調整するための前記命令が更に、
    前記複数の仮想NUMAノードの内の第1の仮想NUMAノードの現在の前記メモリー圧力が目標の閾値よりも低いという決定に基づいて、前記第1の仮想NUMAノードからメモリーをデコミットするための命令を含むことを特徴とする請求項15記載の計算機可読記憶媒体。
  20. 前記ゲストメモリーを調整するための前記命令が更に、
    ストオペレーティングシステムの現在のメモリー圧力が目標の閾値よりも大きいという決定に基づいて、前記複数の仮想NUMAノードの内の第1の仮想NUMAノードへメモリーをコミットするための命令を含むことを特徴とする請求項15記載の計算機可読記憶媒体。
JP2012502133A 2009-03-26 2010-03-19 仮想マシン用非一様仮想メモリーアーキテクチャー Active JP5507660B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/412,272 2009-03-26
US12/412,272 US9529636B2 (en) 2009-03-26 2009-03-26 System and method for adjusting guest memory allocation based on memory pressure in virtual NUMA nodes of a virtual machine
PCT/US2010/028034 WO2010111149A2 (en) 2009-03-26 2010-03-19 Virtual non-uniform memory architecture for virtual machines

Publications (3)

Publication Number Publication Date
JP2012521610A JP2012521610A (ja) 2012-09-13
JP2012521610A5 JP2012521610A5 (ja) 2013-03-28
JP5507660B2 true JP5507660B2 (ja) 2014-05-28

Family

ID=42781790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012502133A Active JP5507660B2 (ja) 2009-03-26 2010-03-19 仮想マシン用非一様仮想メモリーアーキテクチャー

Country Status (9)

Country Link
US (2) US9529636B2 (ja)
EP (1) EP2411915B1 (ja)
JP (1) JP5507660B2 (ja)
KR (1) KR101661783B1 (ja)
CN (1) CN102365625B (ja)
BR (1) BRPI1009277B1 (ja)
CA (1) CA2753228C (ja)
RU (1) RU2569805C2 (ja)
WO (1) WO2010111149A2 (ja)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9535767B2 (en) 2009-03-26 2017-01-03 Microsoft Technology Licensing, Llc Instantiating a virtual machine with a virtual non-uniform memory architecture
US9529636B2 (en) 2009-03-26 2016-12-27 Microsoft Technology Licensing, Llc System and method for adjusting guest memory allocation based on memory pressure in virtual NUMA nodes of a virtual machine
US20110153715A1 (en) * 2009-12-17 2011-06-23 Microsoft Corporation Lightweight service migration
US9389895B2 (en) * 2009-12-17 2016-07-12 Microsoft Technology Licensing, Llc Virtual storage target offload techniques
US9086921B2 (en) 2010-11-16 2015-07-21 Vmware, Inc. Dynamic database memory management according to swap rates
US8943259B2 (en) * 2010-11-16 2015-01-27 Vmware, Inc. Relieving memory pressure in a host using database memory management
US8935456B2 (en) * 2010-11-16 2015-01-13 Vmware, Inc. Method and system for integrating database memory management in virtual machines
US9250863B1 (en) * 2010-12-28 2016-02-02 Amazon Technologies, Inc. Managing virtual machine migration
US9183030B2 (en) 2011-04-27 2015-11-10 Microsoft Technology Licensing, Llc Virtual processor allocation techniques
US8706869B2 (en) * 2011-06-14 2014-04-22 International Business Machines Corporation Distributed cloud placement software
WO2012106908A1 (zh) * 2011-07-20 2012-08-16 华为技术有限公司 多处理器体系结构远端内存访问的模拟方法及模拟器
US9176780B2 (en) * 2011-08-23 2015-11-03 Vmware, Inc. Dynamically balancing memory resources between host and guest system based on relative amount of freeable memory and amount of memory allocated to hidden applications
US8627036B2 (en) 2011-09-12 2014-01-07 Microsoft Corporation Memory management techniques
US20130093776A1 (en) * 2011-10-14 2013-04-18 Microsoft Corporation Delivering a Single End User Experience to a Client from Multiple Servers
WO2012149812A1 (zh) * 2011-10-27 2012-11-08 华为技术有限公司 一种防止节点控制器死锁的方法及节点控制器
US8793459B2 (en) 2011-10-31 2014-07-29 International Business Machines Corporation Implementing feedback directed NUMA mitigation tuning
WO2013115565A2 (ko) * 2012-01-30 2013-08-08 엘지전자 주식회사 가상 머신 관리 방법 및 이를 위한 장치
US9286131B2 (en) * 2012-11-14 2016-03-15 Red Hat Israel, Ltd. Processor unplug in virtualized computer system
US20140229940A1 (en) * 2013-02-14 2014-08-14 General Dynamics C4 Systems, Inc. Methods and apparatus for synchronizing multiple processors of a virtual machine
US9178815B2 (en) * 2013-03-05 2015-11-03 Intel Corporation NIC flow switching
US9471394B2 (en) * 2013-03-13 2016-10-18 Cloubrain, Inc. Feedback system for optimizing the allocation of resources in a data center
US9699093B2 (en) * 2013-06-12 2017-07-04 Dell Products L.P. Migration of virtual machine based on proximity to peripheral device in NUMA environment
US9600551B2 (en) 2013-10-24 2017-03-21 Sap Se Coexistence of message-passing-like algorithms and procedural coding
US9684685B2 (en) * 2013-10-24 2017-06-20 Sap Se Using message-passing with procedural code in a database kernel
US9553822B2 (en) 2013-11-12 2017-01-24 Microsoft Technology Licensing, Llc Constructing virtual motherboards and virtual storage devices
US9582223B2 (en) * 2014-04-14 2017-02-28 International Business Machines Corporation Efficient reclamation of pre-allocated direct memory access (DMA) memory
US9940167B2 (en) * 2014-05-20 2018-04-10 Red Hat Israel, Ltd. Identifying memory devices for swapping virtual machine memory pages
US9483299B2 (en) 2014-06-30 2016-11-01 Bmc Software, Inc. Capacity risk management for virtual machines
US9800523B2 (en) 2014-08-22 2017-10-24 Shanghai Jiao Tong University Scheduling method for virtual processors based on the affinity of NUMA high-performance network buffer resources
CN104199718B (zh) * 2014-08-22 2017-08-11 上海交通大学 一种基于numa高性能网络缓存资源亲和度的虚拟处理器的调度方法
CN104216784B (zh) * 2014-08-25 2018-01-23 杭州华为数字技术有限公司 热点均衡控制方法及相关装置
US9495192B2 (en) * 2014-09-30 2016-11-15 Vmware, Inc. NUMA I/O aware network queue assignments
US9256467B1 (en) * 2014-11-11 2016-02-09 Amazon Technologies, Inc. System for managing and scheduling containers
JP2016115253A (ja) * 2014-12-17 2016-06-23 富士通株式会社 情報処理装置、メモリ管理方法およびメモリ管理プログラム
JP6645275B2 (ja) 2016-03-04 2020-02-14 富士通株式会社 情報処理装置、仮想マシン移動方法、および仮想マシン制御プログラム
US10237169B2 (en) * 2016-04-01 2019-03-19 Intel Corporation Technologies for quality of service based throttling in fabric architectures
CN109213539B (zh) * 2016-09-27 2021-10-26 华为技术有限公司 一种内存回收方法及装置
CN107368353B (zh) * 2017-07-26 2020-12-01 郑州云海信息技术有限公司 一种实现虚拟机内存热添加的方法和装置
US10572289B2 (en) 2017-08-28 2020-02-25 Red Hat Israel, Ltd. Guest-initiated announcement of virtual machine migration
CN107948072B (zh) * 2017-10-31 2021-04-27 新华三技术有限公司 报文转发方法和装置
US10789090B2 (en) 2017-11-09 2020-09-29 Electronics And Telecommunications Research Institute Method and apparatus for managing disaggregated memory
US10664300B2 (en) 2017-12-01 2020-05-26 Red Hat, Inc. Resetting persistent balloon memory for fragmentation reduction
US12117940B2 (en) * 2017-12-05 2024-10-15 Red Hat, Inc. Host address space identifier for non-uniform memory access locality in virtual machines
US10719344B2 (en) 2018-01-03 2020-07-21 Acceture Global Solutions Limited Prescriptive analytics based compute sizing correction stack for cloud computing resource scheduling
US10430227B2 (en) * 2018-01-09 2019-10-01 Microsoft Technology Licensing, Llc Fast instantiation of virtual machines in distributed computing systems
US10664323B2 (en) 2018-03-07 2020-05-26 Microsoft Technology Licensing, Llc Live migration of virtual machines in distributed computing systems
CN109032510B (zh) * 2018-06-29 2021-07-09 山石网科通信技术股份有限公司 基于分布式结构的处理数据的方法和装置
KR101932522B1 (ko) 2018-07-16 2018-12-26 서강대학교 산학협력단 가상 머신에 가상 gpu 메모리의 슬롯을 동적으로 할당하는 방법 및 이를 구현하는 컴퓨팅 장치
US10503543B1 (en) * 2019-02-04 2019-12-10 Cohesity, Inc. Hosting virtual machines on a secondary storage system
WO2021086839A1 (en) * 2019-10-30 2021-05-06 TidalScale, Inc. Goal-directed software-defined numa working set management
KR20230005628A (ko) * 2021-07-01 2023-01-10 삼성전자주식회사 스토리지 장치, 스토리지 장치의 동작 방법, 그리고 전자 장치

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04274519A (ja) * 1991-02-28 1992-09-30 Nec Corp プログラム高速化自動実行方式
US6075938A (en) * 1997-06-10 2000-06-13 The Board Of Trustees Of The Leland Stanford Junior University Virtual machine monitors for scalable multiprocessors
US6785888B1 (en) * 1997-08-29 2004-08-31 International Business Machines Corporation Memory allocator for a multiprocessor computer system
US6336170B1 (en) * 1998-10-13 2002-01-01 International Business Machines Corporation Method and system in a distributed shared-memory data processing system for determining utilization of shared-memory included within nodes by a designated application
US7140020B2 (en) * 2000-01-28 2006-11-21 Hewlett-Packard Development Company, L.P. Dynamic management of virtual partition computer workloads through service level optimization
US7433951B1 (en) * 2000-09-22 2008-10-07 Vmware, Inc. System and method for controlling resource revocation in a multi-guest computer system
US7035963B2 (en) 2000-12-27 2006-04-25 Intel Corporation Method for resolving address space conflicts between a virtual machine monitor and a guest operating system
JP2002202959A (ja) * 2000-12-28 2002-07-19 Hitachi Ltd 動的な資源分配をする仮想計算機システム
US6785773B2 (en) * 2001-03-29 2004-08-31 International Business Machines Corporation Verification of global coherence in a multi-node NUMA system
US6842857B2 (en) * 2001-04-12 2005-01-11 International Business Machines Corporation Method and apparatus to concurrently boot multiple processors in a non-uniform-memory-access machine
US7536697B2 (en) 2001-06-19 2009-05-19 Accenture Global Services Gmbh Integrating enterprise support systems
US6886079B2 (en) * 2001-06-21 2005-04-26 International Business Machines Corporation Dynamic history based mechanism for the granting of exclusive data ownership in a non-uniform memory access (NUMA) computer system
US7159216B2 (en) 2001-11-07 2007-01-02 International Business Machines Corporation Method and apparatus for dispatching tasks in a non-uniform memory access (NUMA) computer system
DE10159522A1 (de) 2001-12-05 2003-06-26 G L I Global Light Ind Gmbh Verfahren zur Herstellung von LED-Körpern
US7451459B2 (en) * 2003-05-05 2008-11-11 Microsoft Corporation Systems, methods, and apparatus for indicating processor hierarchical topology
US8776050B2 (en) * 2003-08-20 2014-07-08 Oracle International Corporation Distributed virtual machine monitor for managing multiple virtual resources across multiple physical nodes
US8417913B2 (en) * 2003-11-13 2013-04-09 International Business Machines Corporation Superpage coalescing which supports read/write access to a new virtual superpage mapping during copying of physical pages
US20050132362A1 (en) * 2003-12-10 2005-06-16 Knauerhase Robert C. Virtual machine management using activity information
US7231504B2 (en) * 2004-05-13 2007-06-12 International Business Machines Corporation Dynamic memory management of unallocated memory in a logical partitioned data processing system
EP1769353A2 (en) * 2004-05-21 2007-04-04 Computer Associates Think, Inc. Method and apparatus for dynamic memory resource management
US8621458B2 (en) 2004-12-21 2013-12-31 Microsoft Corporation Systems and methods for exposing processor topology for virtual machines
US20060184938A1 (en) * 2005-02-17 2006-08-17 Intel Corporation Method, apparatus and system for dynamically reassigning memory from one virtual machine to another
US7334076B2 (en) 2005-03-08 2008-02-19 Microsoft Corporation Method and system for a guest physical address virtualization in a virtual machine environment
US20060206891A1 (en) * 2005-03-10 2006-09-14 International Business Machines Corporation System and method of maintaining strict hardware affinity in a virtualized logical partitioned (LPAR) multiprocessor system while allowing one processor to donate excess processor cycles to other partitions when warranted
RU47116U1 (ru) 2005-04-06 2005-08-10 Оао Акб "Автобанк-Никойл" Система поддержки распределенного документооборота
US7299337B2 (en) 2005-05-12 2007-11-20 Traut Eric P Enhanced shadow page table algorithms
US20070100845A1 (en) 2005-10-31 2007-05-03 Juergen Sattler Customer relationship management integration system and method
US7945913B2 (en) * 2006-01-19 2011-05-17 International Business Machines Corporation Method, system and computer program product for optimizing allocation of resources on partitions of a data processing system
US7596654B1 (en) * 2006-01-26 2009-09-29 Symantec Operating Corporation Virtual machine spanning multiple computers
US7984438B2 (en) * 2006-02-08 2011-07-19 Microsoft Corporation Virtual machine transitioning from emulating mode to enlightened mode
US20070250784A1 (en) 2006-03-14 2007-10-25 Workstone Llc Methods and apparatus to combine data from multiple computer systems for display in a computerized organizer
JP4702127B2 (ja) 2006-03-22 2011-06-15 日本電気株式会社 仮想計算機システム及びその物理リソース再構成方法並びにプログラム
US7434002B1 (en) * 2006-04-24 2008-10-07 Vmware, Inc. Utilizing cache information to manage memory access and cache utilization
US8607009B2 (en) 2006-07-13 2013-12-10 Microsoft Corporation Concurrent virtual machine snapshots and restore
US8453132B2 (en) * 2006-07-28 2013-05-28 Hewlett-Packard Development Company, L.P. System and method for recompiling code based on locality domain and thread affinity in NUMA computer systems
US20080071642A1 (en) 2006-09-15 2008-03-20 Leiba Lior System and method for connecting external product catalog data to business applications
US7788464B2 (en) * 2006-12-22 2010-08-31 Microsoft Corporation Scalability of virtual TLBs for multi-processor virtual machines
US8195866B2 (en) * 2007-04-26 2012-06-05 Vmware, Inc. Adjusting available persistent storage during execution in a virtual computer system
CN100489815C (zh) 2007-10-25 2009-05-20 中国科学院计算技术研究所 一种内存共享的系统和装置及方法
CN101271401B (zh) 2008-04-23 2010-04-14 北京航空航天大学 一种具备单一系统映像的服务器机群系统
US8799892B2 (en) * 2008-06-09 2014-08-05 International Business Machines Corporation Selective memory donation in virtual real memory environment
US8037280B2 (en) * 2008-06-11 2011-10-11 Vmware, Inc. System and method for improving memory locality of virtual machines
US8490094B2 (en) * 2009-02-27 2013-07-16 International Business Machines Corporation Non-uniform memory access (NUMA) enhancements for shared logical partitions
US9535767B2 (en) 2009-03-26 2017-01-03 Microsoft Technology Licensing, Llc Instantiating a virtual machine with a virtual non-uniform memory architecture
US9529636B2 (en) 2009-03-26 2016-12-27 Microsoft Technology Licensing, Llc System and method for adjusting guest memory allocation based on memory pressure in virtual NUMA nodes of a virtual machine

Also Published As

Publication number Publication date
KR101661783B1 (ko) 2016-10-10
CA2753228C (en) 2016-09-27
WO2010111149A2 (en) 2010-09-30
EP2411915A4 (en) 2014-09-24
EP2411915A2 (en) 2012-02-01
KR20120000066A (ko) 2012-01-03
RU2569805C2 (ru) 2015-11-27
WO2010111149A3 (en) 2011-01-13
CN102365625B (zh) 2013-11-27
EP2411915B1 (en) 2018-07-11
US20170068562A1 (en) 2017-03-09
CN102365625A (zh) 2012-02-29
JP2012521610A (ja) 2012-09-13
US10705879B2 (en) 2020-07-07
US20100250868A1 (en) 2010-09-30
BRPI1009277A2 (pt) 2016-03-08
BRPI1009277B1 (pt) 2020-04-07
CA2753228A1 (en) 2010-09-30
US9529636B2 (en) 2016-12-27
RU2011139151A (ru) 2013-03-27

Similar Documents

Publication Publication Date Title
JP5507660B2 (ja) 仮想マシン用非一様仮想メモリーアーキテクチャー
JP5507661B2 (ja) 仮想マシン用非一様仮想メモリーアーキテクチャー
US20170322829A1 (en) Dynamic virtual machine memory management
US10162658B2 (en) Virtual processor allocation techniques
US8443376B2 (en) Hypervisor scheduler
US8910153B2 (en) Managing virtualized accelerators using admission control, load balancing and scheduling
US8327372B1 (en) Virtualization and server imaging system for allocation of computer hardware and software
US8898664B2 (en) Exposure of virtual cache topology to a guest operating system
WO2006103687A1 (en) Partitioned resource reallocation system and method
KR20130100689A (ko) 확장가능한 맞춤형 균형 부하 물리 메모리 관리 구조
CN116324706A (zh) 分离式存储器池分配

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130205

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140319

R150 Certificate of patent or registration of utility model

Ref document number: 5507660

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250