JP6653786B2 - I/o制御方法およびi/o制御システム - Google Patents

I/o制御方法およびi/o制御システム Download PDF

Info

Publication number
JP6653786B2
JP6653786B2 JP2019506925A JP2019506925A JP6653786B2 JP 6653786 B2 JP6653786 B2 JP 6653786B2 JP 2019506925 A JP2019506925 A JP 2019506925A JP 2019506925 A JP2019506925 A JP 2019506925A JP 6653786 B2 JP6653786 B2 JP 6653786B2
Authority
JP
Japan
Prior art keywords
data
virtual machine
request
access method
data redundancy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019506925A
Other languages
English (en)
Other versions
JPWO2018173300A1 (ja
Inventor
水野 和彦
和彦 水野
健 杉本
健 杉本
弘明 圷
弘明 圷
尚也 岡田
尚也 岡田
敬太郎 上原
敬太郎 上原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2018173300A1 publication Critical patent/JPWO2018173300A1/ja
Application granted granted Critical
Publication of JP6653786B2 publication Critical patent/JP6653786B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/20Handling requests for interconnection or transfer for access to input/output bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/382Information transfer, e.g. on bus using universal interface adapter
    • G06F13/385Information transfer, e.g. on bus using universal interface adapter for adaptation of a particular data processing system to different peripheral devices
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M13/00Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
    • H03M13/03Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words
    • H03M13/05Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words using block codes, i.e. a predetermined number of check bits joined to a predetermined number of information bits
    • H03M13/13Linear codes
    • H03M13/15Cyclic codes, i.e. cyclic shifts of codewords produce other codewords, e.g. codes defined by a generator polynomial, Bose-Chaudhuri-Hocquenghem [BCH] codes
    • H03M13/151Cyclic codes, i.e. cyclic shifts of codewords produce other codewords, e.g. codes defined by a generator polynomial, Bose-Chaudhuri-Hocquenghem [BCH] codes using error location or error correction polynomials
    • H03M13/154Error and erasure correction, e.g. by using the error and erasure locator or Forney polynomial
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M13/00Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
    • H03M13/37Decoding methods or techniques, not specific to the particular type of coding provided for in groups H03M13/03 - H03M13/35
    • H03M13/373Decoding methods or techniques, not specific to the particular type of coding provided for in groups H03M13/03 - H03M13/35 with erasure correction and erasure determination, e.g. for packet loss recovery or setting of erasures for the decoding of Reed-Solomon codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45579I/O management, e.g. providing access to device drivers or storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/38Universal adapter
    • G06F2213/3808Network interface controller

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明はI/O制御方法およびI/O制御システムに関し、例えばI/O処理を実行するI/Oデバイスを有する計算機で稼働する仮想計算機のI/O要求に係る制御を行うI/O制御方法およびI/O制御システムに適用して好適なものである。
近年、企業内ITシステムの高度化に伴い、企業が蓄積・管理するデータ量は、飛躍的に増大している。各主要ITベンダでは、多種・大量なデータを処理するシステムを迅速かつ効率的に導入するために、ハードウェア、OS(Operating System)等の全てを垂直統合した統合プラットフォームを提供している。
統合プラットフォームでは、サーバ機能とストレージ機能とをソフトウェア化した上で、物理サーバ上に統合し、各サーバに対して必要に応じてリソースを割り当てるHyper Converged PF(platform)が注目を集めている。このHyper Converged PFでは、例えば、低コストの2Uサーバを用い、これをスケールアウトすることでストレージの大容量化を行うことができる。
上述したHyper Converged PFのような統合プラットフォームでは、ソフトウェアによりサーバおよびストレージを統合管理するため、例えば、本プラットフォームで仮想サーバを稼働させている場合に必要なリソースを容易に割り当てることができるためスケールアウトにより性能向上を提供し、更に高いアジリティを提供することができる。
また、ストレージシステムにおいては、データを冗長化させるMulti−stage Erasure Codingの研究が進められ、高容量効率と信頼性の並立を図る技術が開示されている(特許文献1参照)。
国際公開第2016/052665号
ここで、KVM(Kernel−based Virtual Machine)などの仮想環境では、エミュレーション処理等によりI/O処理を柔軟に制御すること、例えばEC(Erasure Coding)と連携することが可能であるが、かかるI/O処理は、I/Oに対するストレージ処理がサーバ上で動作することになり、VMM(Virtual Machine Monitor)による仮想化のオーバヘッドの影響を受けてI/O性能が大幅に低下する可能性がある。
この点、I/O処理をNIC(Network Interface Card)側にオフロードさせることでVMMの処理を省き、ハードウェアで処理を行うSR−IOV(Single Root I/O Virtualization)が知られている。しかしながら、NICのVF(Virtual Function)を割り当てたVM(Virtual Machine)では、書き込み先となるFlash等のボリュームに直接I/Oを発行することしかできないため、特許文献1に記載の技術が開示されているにもかかわらず、EC等のストレージ機能との連携ができないという問題がある。
本発明は以上の点を考慮してなされたもので、仮想化のオーバヘッドを抑え、かつ、EC等のデータ冗長化機構と連携可能なI/O制御方法およびI/O制御システムを提案しようとするものである。
かかる課題を解決するため本発明においては、I/O処理を実行するI/Oデバイスを有する計算機で稼働する仮想計算機のI/O要求に係る制御を行うI/O制御方法であって、I/O分析部が、前記仮想計算機のI/O要求と、データ冗長化処理の実行可否を識別可能な設定情報とに基づいて、前記I/O要求についてのデータ冗長化処理の実行可否を判定する第1のステップと、コントローラ部が、前記第1のステップの判定結果に基づいてデータ冗長化処理を実行するデータ冗長化機構に前記I/O要求に係るI/Oコマンドを送信する第2のステップと、を設けるようにした。
また本発明においては、I/O処理を実行するI/Oデバイスを有する計算機で稼働する仮想計算機のI/O要求に係る制御を行うI/O制御システムであって、前記仮想計算機のI/O要求と、データ冗長化処理の実行可否を識別可能な設定情報とに基づいて、前記I/O要求についてのデータ冗長化処理の実行可否を判定するI/O分析部と、前記I/O分析部の判定結果に基づいてデータ冗長化処理を実行するデータ冗長化機構に前記I/O要求に係るI/Oコマンドを送信するコントローラ部と、を設けるようにした。
本発明によれば、I/OデバイスによりI/O処理が行われ、仮想計算機のI/O要求に基づいてデータ冗長化処理が実行されるので、仮想化のオーバヘッドを抑え、かつ、データ冗長化機構と連携することができる。
本発明によれば、I/O処理の高速化とデータ冗長化とを並立するI/O制御方法およびI/O制御システムを実現することができる。
第1の実施の形態によるI/O制御システムの構成例を示す図である。 第1の実施の形態による物理ノードにおけるソフトウェアのスタック構成の一例を示す図である。 第1の実施の形態によるデータ管理テーブルの一例を示す図である。 第1の実施の形態によるEC利用管理テーブルの一例を示す図である。 第1の実施の形態による仮想サーバにてRead要求が発生したときに行われるRead処理に係る概念図である。 第1の実施の形態による仮想サーバにてWrite要求が発生したときに行われるWrite処理に係る概念図である。 第1の実施の形態による仮想サーバにてWrite要求が発生したときに行われるWrite処理の詳細に係る概念図である。 第1の実施の形態によるEC処理実行可否判定処理に係る処理内容の一例を示す図である。 第2の実施の形態による仮想サーバにてWrite要求が発生したときに行われるWrite処理に係る概念図である。 第2の実施の形態によるEC処理実行可否判定処理に係る処理内容の一例を示す図である。 第3の実施の形態によるEC処理実行可否判定処理に係る処理内容の一例を示す図である。 第4の実施の形態によるEC処理実行可否判定処理に係る処理内容の一例を示す図である。 第5の実施の形態によるEC処理実行可否の設定処理に係る処理内容の一例を示す図である。 第5の実施の形態による仮想サーバの構成情報およびECの利用条件を管理するための管理画面の一例を示す図である。
以下図面について、本発明の一実施の形態を詳述する。
以下に示す実施の形態のI/O制御システムでは、仮想化ソフトウェアによりサーバおよびストレージが統合された計算機と計算機に係る設定情報を管理する管理装置とがネットワークを介して接続される。
計算機は、物理的なネットワークデバイスであるPF(Physical Function)、およびPFに対応する仮想的なネットワークデバイスであるVF(Vulirtual Function)を含む、I/O処理を実行するI/Oデバイス(例えばSR−IOV対応のNIC)を備える。
かかる計算機では、仮想計算機(VM)とVF(ストレージデバイス)との間の通信処理でハイパバイザ(VMM)の処理が省かれ、I/OデバイスでI/O処理が行われる。また、設定情報に含まれるデータ冗長化処理(例えばEC処理)の実行可否を判定可能な情報とVMのI/O要求とに基づいてデータ冗長化処理の実行可否が判定され、I/O要求に応じて適切にデータの冗長化が行われる(バックアップが取得される)。
かかるI/O制御システムによれば、I/OデバイスでのI/O処理により仮想化によるオーバヘッドを削減させることが可能となり、かつ、VMのI/O要求に基づいてデータ冗長化処理を適切に実行することができるようになる。
(1)第1の実施の形態
図1において、1は全体として第1の実施の形態によるI/O制御システムを示す。このI/O制御システム1では、サーバ機能とストレージ機能とが統合された仮想化基盤(HCI:Hyper Converged Infrastructure)である物理ノード100(本例では、物理ノード100−1〜物理ノード100−n)と管理サーバ112とがネットワーク111を介して接続される。なお、物理ノード100−1〜100−nは、同じ構成を有するので、以下では、物理ノード100−1を例に挙げて説明し、その他の物理ノード100−2〜100−nについては、その説明を省略する。
物理ノード100−1では、1つ以上のCPU(Central Processing Unit)108(本例ではCPU108−1〜CPU108−n)と、メモリ106と、1つ以上のフラッシュメモリ(以下「Flash」と適宜称する。本例では、Flash110−1〜Flash110−n)110と、物理NIC109とが、データの受け渡しを管理するChipSet107と接続される。
CPU108は、制御装置の一例であり、各種の処理を実行する。
メモリ106は、記憶装置の一例であり、RAM(Random Access Memory)等であり、各種のプログラム、テーブルなどを記憶する。メモリ106のプログラムをCPU108が実行することで、フラッシュドライバ101、EC102、ハイパバイザ103、およびハイパバイザ103が制御する仮想サーバ105で稼働するゲストOS104が実現される。
Flash110は、ストレージデバイスの一例であり、HDD(Hard Disk Drive)等であってもよい。なお、ストレージデバイスについては、1台のストレージデバイス、複数台のストレージデバイス、複数台のストレージデバイスを含むRAID(Redundant Arrays of Inexpensive Disks)装置、および複数のRAID装置など、適宜の構成を採用できる。
物理NIC109は、仮想化をサポートする機能(例えばSR−IOV機能)を有し、デバイス共有処理を実装する。より具体的には、物理NIC109は、1つの物理NICに相当するPFと、PFを介して外部と通信する1または複数の仮想NICに相当するVFとを有する。かかる構成により、ソフトウェアによるNIC共有に比べ、PFと同等の最大帯域を確保できる。また帯域は、VF毎に制限(例えば100Mbps単位)を掛けることができ、性能確保が必要なポートに対し、リソースを確実に割り当てることができる。さらに、CPU108(ハイパバイザ103)のデバイス共有処理に関わる負荷をゼロにできるため、広帯域通信が可能となる。
かかる物理ノード100−1の構成によれば、例えば、1または複数の物理ノード100のストレージデバイスによってストレージプールを実現する仮想的なストレージシステムを実現することができる。
管理サーバ112は、各物理ノード100に各種の設定を行うための設定情報を管理する。例えば、管理サーバ112は、ユーザ操作に基づいて各種の設定情報(設定値など)を入力し、入力された設定情報を各物理ノード100に送信する。各物理ノード100は、設定情報を受信すると、メモリ106の所定の記憶領域に記憶する。なお、管理サーバ112の送信については、適宜のタイミングに行うことができ、例えば、リアルタイムに行われてもよいし、周期的に行われてもよいし、ユーザにより指定された時間に行われてもよし、その他のタイミングに行われてもよい。
図2は、物理ノード100におけるソフトウェアのスタック構成の一例を示す図である。
図2に示すように、物理ノード100では、ハイパバイザ103がメモリ106にロードされ、ハイパバイザ103により仮想サーバ105が制御される。より具体的には、ハイパバイザ103は、仮想化機構の一例であり、CPU108、メモリ106、物理NIC109などのハードウェアを論理的に分割してなる論理リソースを仮想サーバ105に仮想リソースとして割り当てる。これにより、仮想サーバ105が実現される。
仮想サーバ105には、物理NIC109において論理的にパーティションが切られたVF209(VF−1〜VF−m)に対応してVF210が割り当てられ、ゲストOS104には、VFドライバ211がインストールされる。
ゲストOS104は、仮想サーバ105の仮想リソースを通常のリソースとして認識し、例えば、VF210を介して、Flash110、ネットワーク111などに接続される。付言するならば、ハイパバイザ103がVF209のリソースをVF210として仮想サーバ105に割り当て、仮想サーバ105上のゲストOS104に設けられるVFドライバ211により、VF210、VF209、およびPF208を介して、Flash110にI/Oコマンドが送信されたり(データ領域205のデータの読み書きが行われたり)、外部との通信が行われたりする。
また物理ノード100には、フラッシュドライバ101が設けられる。フラッシュドライバ101は、仮想サーバ105のI/O要求をポーリングにより取得するI/Oポーリング部200と、I/Oポーリング部200で取得されたI/O要求を分析するI/O分析部201と、I/O分析部201の分析結果に基づいてWriteキューを制御するキューコントローラ部202とを備える。
I/Oポーリング部200は、VF209を管理するPF208を監視(モニタリング)し、仮想サーバ105のI/O要求を取得する。
I/O分析部201は、I/Oの発行先となるFlash110を特定可能な情報を記憶するデータ管理テーブル203と、EC処理の実行可否を判定可能な情報を記憶するEC利用管理テーブル204とを備える。I/O分析部201は、データ管理テーブル203の情報と、EC利用管理テーブル204の情報とに基づいて、仮想サーバ105からのI/O要求を分析し、EC処理の実行可否を判定等する。なお、データ管理テーブル203については図3を用いて後述し、EC利用管理テーブル204については図4を用いて後述する。
キューコントローラ部202は、コントローラ部の一例であり、I/O分析部201の判定結果に基づいて、例えばI/O分析部201でEC処理を実行すると判定された場合、I/O要求に係るデータをキューに格納(キューイング)し、適宜のタイミングでEC102に送信する。
また物理ノード100には、EC処理を実行するEC102が設けられる。EC102は、データ冗長化機構の一例であり、EC処理において、(データ領域205に格納される)オリジナルデータからパリティを生成し、生成したパリティおよびオリジナルデータのフラグメント(以下「冗長化データ」と総称する。)を分散して保存する。より具体的には、EC102は、キューコントローラ部202から送信されたデータ(オリジナルデータ)をデータ領域205に格納し、当該データを符号化した冗長化データを所定のFlash110の冗長化データ領域206に格納する。
例えば、仮想サーバ105においてI/O要求としてWrite要求が発生し、EC処理を実行すると判定される場合、VF209(PF208)は、Write対象のデータを書き込むためのWriteコマンドを仮想サーバ105に対応付けられたFlash110に送信し、当該Flash110は、Write対象のデータをデータ領域205に書き込む。他方、EC102は、キューコントローラ部202より適宜のタイミングでWrite要求のデータを含むデータを受け取り、当該データから冗長化データを生成し、冗長化データを書き込むためのWriteコマンドを上記Flash110とは異なる他のFlash110に送信し、他のFlash110は、冗長化データを冗長化データ領域206に書き込む。
図3は、データ管理テーブル203の一例を示す図である。データ管理テーブル203は、物理ノード100のコンソール等の入出力装置(図示せず。)、管理サーバ112などを介して入力される、I/O要求の発行先となるFlash110を特定可能な情報を格納する。
より具体的には、データ管理テーブル203には、Node#301、VM#302、HostMemoryAddress303、GuestMemoryAddress304、およびDataStoredArea305の情報が対応付けられて格納される。Node#301には、物理ノード100を識別可能な情報が格納される。VM#302には、仮想サーバ105を識別可能な情報が格納される。HostMemoryAddress303には、物理ノード100から見たメモリ106のホストメモリアドレスを示す情報が格納される。GuestMemoryAddress304には、ゲストOS104から見た仮想メモリ(メモリ106で該当領域を仮想サーバ105に対して論理的に割り当てたメモリ領域)のアドレスを示す情報が格納される。DataStoredArea305には、データ領域205があるFlash110を識別可能な情報が格納される。ここでの識別可能な情報とは、例えば、任意の通し番号でもよいし、各々を区別できる記号や識別子でもよい。
図4は、EC利用管理テーブル204の一例を示す図である。EC利用管理テーブル204は、物理ノード100のコンソール等の入出力装置(図示せず。)、管理サーバ112などを介して入力される、EC処理の実行可否を判定可能な情報を格納する。
より具体的には、EC利用管理テーブル204には、Node#401、VM#402、HostMemoryAddress403、DataAccessMethod404、DataPath405、およびEC Flag406の情報が対応付けられて格納される。Node#401には、物理ノード100を識別可能な情報が格納される。VM#402には、仮想サーバ105を識別可能な情報が格納される。HostMemoryAddress403には、物理ノード100から見たメモリ106のホストメモリアドレスを示す情報が格納される。DataAccessMethod404には、データのアクセス方式を識別可能な情報が格納される。EC Flag406には、EC処理の実行可否を示す情報が格納される。ここでの識別可能な情報とは、例えば、任意の通し番号でもよいし、各々を区別できる記号や識別子でもよい。
ここで、EC Flag406の情報は、仮想サーバ105(VM#402)と仮想サーバ105のデータアクセス方式(DataAccessMethod404)と仮想サーバ105が使用するファイルパス(DataPath405)とに対応して設けられる構成を示したが、この構成に限られるものではない。例えば、仮想サーバ105に対応して設けられてもよい(DataAccessMethod404およびDataPath405の情報が設けられていなくてもよい)。また例えば、仮想サーバ105と仮想サーバ105のデータアクセス方式とに対応して設けられてもよい(DataPath405の情報が設けられていなくてもよい)。また例えば、仮想サーバ105と仮想サーバ105が使用するファイルパスとに対応して設けられてもよい(DataAccessMethod404の情報が設けられていなくてもよい)。
本例では、データアクセス方式として、オブジェクト単位でのアクセスを可能にする「Object」、ブロック単位でのアクセスを可能にする「Block Device」、ファイル単位でのアクセスを可能にする「File System」を示しているが、他のデータアクセス方式であってもよい。
図5は、仮想サーバ105にてRead要求が発生したときに行われるRead処理に係る概念図である。
仮想サーバ105にて発生したI/O要求について、VFドライバ211は、ハイパバイザ103を介さずに、直接VF209にI/O要求を送信する。フラッシュドライバ101は、当該I/O要求がRead要求であるかWrite要求であるかを判定し、Read要求であると判定した場合、VF209は、Flash110に対してRead要求(ReadSQ:Read Send Queue)を送信(Readコマンドを発行)し、Read完了(ReadCQ:Read Complete Queue)を受信することで、仮想サーバ105に対応付けられているFlash110のデータ領域205からRead対象のデータを取得する。
図6は、仮想サーバ105にてWrite要求が発生したときに行われるWrite処理に係る概念図である。
仮想サーバ105にて発生したI/O要求について、VFドライバ211は、ハイパバイザ103を介さずに、直接VF209にI/O要求を送信する。フラッシュドライバ101は、当該I/O要求がRead要求であるかWrite要求であるかを判定し、Write要求であると判定した場合、EC利用管理テーブル204を参照してEC処理の実行可否を判定する。フラッシュドライバ101は、EC処理を実行すると判定した場合、Write要求をEC102に通知し、EC102は、Write対象のデータについてEC処理を行い、EC処理後のデータ(冗長化データ)を所定のFlash110の冗長化データ領域206に書き込む。
また、フラッシュドライバ101によりWrite要求であると判定された場合、VF209は、Flash110に対してWrite要求(WriteSQ:Write Send Queue)を送信(Writeコマンドを発行)し、Write完了(WriteCQ:Write Complete Queue)を受信することで、仮想サーバ105に対応付けられているFlash110のデータ領域205にWrite対象のデータを書き込む。
図7は、仮想サーバ105にてWrite要求が発生したときに行われるWrite処理の詳細に係る概念図であり、特にフラッシュドライバ101の処理の詳細に係る概念図である。
フラッシュドライバ101のI/Oポーリング部200は、VF209を管理するPF208をポーリング(監視)し、仮想サーバ105にて発生したI/O要求を取得した場合、取得したI/O要求をI/O分析部201に通知する。
I/O分析部201は、データ管理テーブル203を参照してI/O要求の発行先となるFlash110を特定し、当該I/O要求がRead要求であるかWrite要求であるかを判定し、Write要求であると判定した場合、EC利用管理テーブル204のEC Flag406を参照してEC処理の実行可否を判定する。
I/O分析部201は、EC処理を実行させると判定した場合、キューコントローラ部202にI/O要求と発行先となるFlash110の情報とを通知する。
キューコントローラ部202は、I/O要求に対応するWriteQueueを生成してキューに入れ、所定のデータ量または所定数のWriteQueueが溜まると割込みを発生させて、EC102にWriteコマンドを送信する。
なお、複数のWrite要求をまとめてEC処理が行われるように、WriteQueueをキューに格納する構成を示したが、この構成に限られるものではない。例えば、Write要求を溜めることなく、Write要求ごとにEC処理が行われるように構成してもよい。また、例えば、仮想サーバ105ごとにキューを設け、同じ仮想サーバ105のWrite要求をまとめてEC処理が行われるように、WriteQueueをキューに格納する構成としてもよい。
EC102は、Writeコマンドを受信すると、EC処理を行い、1または複数の冗長化データ(本例では、フラグメント「D1」、フラグメント「D2」、およびパリティ「E1」)を生成し、生成した冗長化データをデータ領域205が設けられていないFlash110の冗長化データ領域206に格納する。この際、EC処理としては、例えば、上述の特許文献1に記載の技術を適用することができる。なお、データ領域205が設けられているFlash110に一部または全部の冗長化データを格納するように構成してもよい。
また、I/O分析部201によりWrite要求であると判定された場合、VF209は、Flash110に対してWrite要求を送信することで、仮想サーバ105に対応付けられているFlash110のデータ領域205にWrite対象のデータを書き込む。
図8は、EC処理実行可否判定処理に係る処理内容の一例を示す。
まず、I/Oポーリング部200は、仮想サーバ105のI/O要求を取得し、I/O分析部201に通知する(ステップS801)。
続いて、I/O分析部201は、仮想サーバ105のI/O要求のパケット内容を解析し、I/O要求がRead要求であるか否かを判定する(ステップS802)。このとき、I/O分析部201は、Read要求であると判定した場合、ステップS805に処理を移し、Read要求でないと判定した場合、ステップS803に処理を移す。
ステップS803では、I/O分析部201は、仮想サーバ105のI/O要求のパケット内容を解析し、仮想サーバ105を特定し、仮想サーバ105に対応するEC利用管理テーブル204のEC Flag406の値を参照し、値が「0」であるか否かを判定する。このとき、I/O分析部201は、値が「0」(EC処理を実行しないことを示す値)であると判定した場合、ステップS805に処理を移し、値が「0」でない、値が「1」(EC処理を実行することを示す値)であると判定した場合、ステップS804に処理を移す。
なお、EC Flag406の値が仮想サーバ105と仮想サーバ105のデータアクセス方式とに対応して設けられている場合、例えば、I/O分析部201は、仮想サーバ105のI/O要求のパケット内容を解析し、仮想サーバ105と仮想サーバ105のデータアクセス方式とを特定し、仮想サーバ105と仮想サーバ105のデータアクセス方式とに対応するEC利用管理テーブル204のEC Flag406の値を参照する。
また、EC Flag406の値が仮想サーバ105と仮想サーバ105が使用するファイルパスとに対応して設けられている場合、例えば、I/O分析部201は、仮想サーバ105のI/O要求のパケット内容を解析し、仮想サーバ105と仮想サーバ105が使用するファイルパスとを特定し、仮想サーバ105と仮想サーバ105が使用するファイルパスとに対応するEC利用管理テーブル204のEC Flag406の値を参照する。
また、EC Flag406の値が仮想サーバ105と仮想サーバ105のデータアクセス方式と仮想サーバ105が使用するファイルパスとに対応して設けられている場合、例えば、I/O分析部201は、仮想サーバ105のI/O要求のパケット内容を解析し、仮想サーバ105と仮想サーバ105のデータアクセス方式と仮想サーバ105が使用するファイルパスとを特定し、仮想サーバ105と仮想サーバ105のデータアクセス方式と仮想サーバ105が使用するファイルパスとに対応するEC利用管理テーブル204のEC Flag406の値を参照する。
ステップS804では、キューコントローラ部202は、適宜のタイミングで割込みを発生させてEC102にWriteコマンドを送信し、ステップS805に処理を移す。
ステップS805では、フラッシュドライバ101は、VF209からFlash110にI/O要求に対応するI/Oコマンドを送信させ、I/O処理を終了する。より具体的には、VF209は、仮想サーバ105のI/O要求がRead要求である場合、Read対象のデータの読込み先のFlash110にReadコマンドを送信し、仮想サーバ105のI/O要求がWrite要求である場合、Write対象のデータの書込み先のFlash110にWriteコマンドを送信する。
付言するならば、ステップS805の処理は、ステップS802〜ステップS804の処理の後に行われる構成に限られるものではなく、VF209がVFドライバ211からI/O要求を受け取ったときに、フラッシュドライバ101の処理とは非同期に行われてもよい。
上述した本実施の形態によれば、物理ノード100では、I/O処理を物理NIC109にオフロードすることでハイパバイザ103によるオーバヘッドを削減しつつ、I/O要求をフラッシュドライバ101にて分析することでI/O要求ごとにEC処理を制御できるので、I/O処理の高速化とデータ冗長化とを並立することができる。
(2)第2の実施の形態
本実施の形態では、仮想サーバ105のWrite要求時、データアクセス方式に基づいてEC処理の実行可否を判定し、EC処理を実行しない場合、Write対象のデータを中間データとして中間データ領域900に格納する点が第1の実施の形態と異なるので、その点について主に説明する。
図9は、仮想サーバ105にてWrite要求が発生したときに行われるWrite処理に係る概念図である。
仮想サーバ105にて発生したI/O要求について、VFドライバ211は、ハイパバイザ103を介さずに、直接VF209にI/O要求を送信する。
ここで、フラッシュドライバ101は、仮想サーバ105にて発生したI/O要求を取得した場合、EC利用管理テーブル204を参照してEC処理の実行可否を判定する。より具体的には、フラッシュドライバ101は、仮想サーバ105のデータアクセス方式がEC実行条件として指定されたデータアクセス方式であるか否かを判定する。
フラッシュドライバ101は、仮想サーバ105のデータアクセス方式がEC実行条件として指定されたデータアクセス方式であると判定した場合、EC処理を行うようにEC102にWriteコマンドを送信する。また、VF209は、Flash110に対してWrite要求を送信することで、仮想サーバ105に対応付けられているFlash110のデータ領域205にWrite対象のデータを書き込む。
他方、フラッシュドライバ101は、仮想サーバ105のデータアクセス方式がEC実行条件として指定されていないデータアクセス方式であると判定した場合、EC処理を行うように指示することなく、Write対象のデータを中間データとして書き込む仮想サーバ105に対応して設けられる中間データ領域900のあるFlash110にWriteコマンドを送信することで、当該中間データ領域900にWrite対象のデータを中間データとして書き込む。
なお、詳細は後述するが、第3の実施の形態では、データアクセス方式に替えてデータパス形式を用いてEC処理の実行可否を判定し、第4の実施の形態では、データアクセス方式に加えてデータパス形式を用いてEC処理の実行可否を判定する。
図10は、EC処理実行可否判定処理に係る処理内容の一例を示す。なお、ステップS1001〜ステップS1003、およびステップS1006は、ステップS801、ステップS802、ステップS804、およびステップS805と同様の処理であるので、その説明を省略する。
ステップS1004では、I/O分析部201は、I/O要求を分析して仮想サーバ105を特定し、少なくとも仮想サーバ105とデータアクセス方式とが対応付けられた情報を格納するEC利用管理テーブル204より対象情報、より具体的には仮想サーバ105に対応するDataAccessMethod404の値(値は、1つしか設定されていないこともあるし、複数設定されていることもある。)を取得する。
続いて、I/O分析部201は、I/O要求を分析して仮想サーバ105のデータアクセス方式を特定し、仮想サーバ105のデータアクセス方式がEC処理を実行すると指定(設定)されたデータアクセス方式(ステップS1004で取得した値:本例では、「Object」または「File System」)であるか否かを判定する(ステップS1005)。このとき、I/O分析部201は、EC処理を実行すると指定されたデータアクセス方式であると判定した場合、ステップS1006に処理を移し、EC処理を実行すると指定されたデータアクセス方式でないと判定した場合、ステップS1007に処理を移す。
ステップS1007では、キューコントローラ部202は、Write対象のデータを中間データとして書き込む仮想サーバ105に対応して設けられる中間データ領域900のあるFlash110にWriteコマンドを送信し、処理を終了する。
なお、中間データ領域900のあるFlash110については、仮想サーバ105と中間データ領域900とが対応付けられる情報がメモリ106の所定の領域に記憶され、当該情報を用いて決定されていてもよいし、データ管理テーブル203に基づいてI/O要求の発行先となるFlash110が特定され、特定されたFlash110以外のFlash110が決定されてもよいし、その他の方法により決定されてもよい。
上述した本実施の形態によれば、第1の実施の形態の効果を奏すると共に、仮想サーバ105のデータアクセス方式ごとにEC処理を制御できるので、データアクセス方式に基づいてEC処理が必要なデータ(実データとして書き込みたいデータ)と不要なデータ(分析用のデータ等として一時的に保管したい中間データ)とを切り分けてデータ冗長化を行うことができる。更に、上述した本実施の形態によれば、仮想サーバ105のデータアクセス方式に基づいてEC処理が必要なデータと不要なデータとを切り分けて異なるFlash110に記憶させることができる。
(3)第3の実施の形態
本実施の形態では、Write要求時、データパスに基づいてEC処理の実行可否を判定し、EC処理を実行しない場合、Write対象のデータを中間データとして中間データ領域900に格納する点が第1の実施の形態と異なるので、その点について主に説明する。
図11は、EC処理実行可否判定処理に係る処理内容の一例を示す。なお、ステップS1101〜ステップS1103、およびステップS1106は、ステップS801、ステップS802、ステップS804、およびステップS805と同様の処理であるので、その説明を省略する。
ステップS1104では、I/O分析部201は、I/O要求を分析して仮想サーバ105を特定し、少なくとも仮想サーバ105とデータパスとが対応付けられた情報を格納するEC利用管理テーブル204より対象情報、より具体的には仮想サーバ105に対応するDataPath405の値(値は、1つしか設定されていないこともあるし、複数設定されていることもある。)を取得する。
続いて、I/O分析部201は、I/O要求を分析して仮想サーバ105が使用するデータバスを特定し、仮想サーバ105が使用するデータパスがEC処理を実行すると指定(設定)されたデータパス(ステップS1104で取得した値:本例では、「/dev/ecpool」)であるか否かを判定する(ステップS1105)。このとき、I/O分析部201は、EC処理を実行すると指定されたデータパスであると判定した場合、ステップS1106に処理を移し、EC処理を実行すると指定されたデータパスでないと判定した場合、ステップS1107に処理を移す。
ステップS1107では、キューコントローラ部202は、Write対象のデータを中間データとして書き込む仮想サーバ105に対応して設けられる中間データ領域900のあるFlash110にWriteコマンドを送信し、処理を終了する。
上述した本実施の形態によれば、第1の実施の形態の効果を奏すると共に、仮想サーバ105が使用するデータパスごとにEC処理を制御できるので、データパスに基づいてEC処理が必要なデータ(実データとして書き込みたいデータ)と不要なデータ(分析用のデータ等として一時的に保管したい中間データ)とを切り分けてデータ冗長化を行うことができる。更に、上述した本実施の形態によれば、仮想サーバ105が使用するデータパスに基づいてEC処理が必要なデータと不要なデータとを切り分けて異なるFlash110に記憶させることができる。
(4)第4の実施の形態
本実施の形態では、Write要求時、仮想サーバ105のデータアクセス方式および仮想サーバ105が使用するデータパスに基づいてEC処理の実行可否を判定し、EC処理を実行しない場合、Write対象のデータを中間データとして中間データ領域900に格納する点が第1の実施の形態と異なるので、その点について主に説明する。
図12は、EC処理実行可否判定処理に係る処理内容の一例を示す。なお、ステップS1201〜ステップS1203、およびステップS1207は、ステップS801、ステップS802、ステップS804、およびステップS805と同様の処理であるので、その説明を省略する。
ステップS1204では、I/O分析部201は、I/O要求を分析して仮想サーバ105を特定し、少なくとも仮想サーバ105とデータアクセス方式およびデータパスとが対応付けられた情報を格納するEC利用管理テーブル204より対象情報、より具体的には仮想サーバ105に対応するDataAccessMethod404の値、および仮想サーバ105に対応するDataPath405の値を取得する。
続いて、I/O分析部201は、I/O要求を分析して仮想サーバ105のデータアクセス方式を特定し、仮想サーバ105のデータアクセス方式がEC処理を実行すると指定(設定)されたデータアクセス方式(ステップS1204で取得した値:本例では、「Object」または「File System」)であるか否かを判定する(ステップS1205)。このとき、I/O分析部201は、EC処理を実行すると指定されたデータアクセス方式であると判定した場合、ステップS1206に処理を移し、EC処理を実行すると指定されたデータアクセス方式でないと判定した場合、ステップS1208に処理を移す。
ステップS1206では、I/O分析部201は、I/O要求を分析して仮想サーバ105が使用するデータパスを特定し、仮想サーバ105が使用するデータパスがEC処理を実行しないと指定(設定)されたデータパス(本例では、「/dev/normal」)であるか否かを判定する。このとき、I/O分析部201は、EC処理を実行しないと指定されたデータパスであると判定した場合、ステップS1203に処理を移し、EC処理を実行しないと指定されたデータパスでないと判定した場合、ステップS1207に処理を移す。
ステップS1208では、I/O分析部201は、I/O要求を分析して仮想サーバ105が使用するデータパスを特定し、仮想サーバ105が使用するデータパスがEC処理を実行すると指定(設定)されたデータパス(ステップS1204で取得した値:本例では、「/dev/ecpool」)であるか否かを判定する。このとき、I/O分析部201は、EC処理を実行すると指定されたデータパスであると判定した場合、ステップS1207に処理を移し、EC処理を実行すると指定されたデータパスでないと判定した場合、ステップS1209に処理を移す。
ステップS1209では、キューコントローラ部202は、Write対象のデータを中間データとして書き込む仮想サーバ105に対応して設けられる中間データ領域900のあるFlash110にWriteコマンドを送信し、処理を終了する。
上述した本実施の形態によれば、第1の実施の形態の効果を奏すると共に、仮想サーバ105のデータアクセス方式および仮想サーバ105が使用するデータパスごとにEC処理を制御できるので、データアクセス方式およびデータパスに基づいてEC処理が必要なデータ(実データとして書き込みたいデータ)と不要なデータ(分析用のデータ等として一時的に保管したい中間データ)とを詳細に切り分けてデータ冗長化を行うことができる。更に、上述した本実施の形態によれば、仮想サーバ105のデータアクセス方式および仮想サーバ105が使用するデータバスに基づいてEC処理が必要なデータと不要なデータとを切り分けて異なるFlash110に記憶させることができる。
(5)第5の実施の形態
本実施の形態では、上述した実施の形態のEC利用管理テーブル204の情報を、管理画面を介して設定する点について説明する。
図13は、管理サーバ112におけるEC処理実行可否の設定処理に係る処理内容の一例を示す。
まず、管理サーバ112は、管理画面(例えば、図14に示す仮想サーバ105の設定画面1400)を介して、仮想サーバ105の構成情報(仮想リソースに係る情報)をユーザによる入力デバイス(図示せず。)の操作(ユーザ操作)に基づいて入力する(ステップS1301)。
続いて、管理サーバ112は、管理画面を介して、EC102の利用条件(EC処理の実行可否を識別可能な情報)をユーザ操作に基づいて入力する(ステップS1302)。
続いて、管理サーバ112は、EC利用管理テーブル204を記憶デバイス(図示せず。)に記憶(更新)する(ステップS1303)。
続いて、管理サーバ112は、EC利用管理テーブル204を物理ノード100(フラッシュドライバ101)に送信し(ステップS1304)、処理を終了する。
なお、管理サーバ112に記憶されるEC利用管理テーブル204を更新する場合、または物理ノード100によりEC利用管理テーブル204が更新される構成を採用する場合、管理サーバ112は、ステップS1301の前に、最新のEC利用管理テーブル204を取得する。
図14は、仮想サーバ105の構成情報およびEC102の利用条件を管理するための管理画面の一例(仮想サーバ105の設定画面1400)を示す図である。
図14に示すように、設定画面1400では、仮想サーバ105の構成情報として、VM名称、CPUコア数、およびメモリ容量の情報を入力可能(設定可能)である。
また、設定画面1400では、仮想サーバ105の構成情報として、デバイス割当(Flash110の割当)を行い、デバイス(「/dev/sda」、「/dev/sdb」等)ごとにデバイス名称(「/dev/ecpool0」、「/dev/normal0」等)を入力可能である。この際、ユーザは、データパスに対応するようにデバイス名称を入力する。
また、設定画面1400では、EC実行条件として、仮想サーバ105においてEC処理を利用するか否かを決定するためのEC使用、EC処理の実行を行う対象を指定するためのデータアクセス方式、EC処理の実行を行う対象を指定するためのデータパスの情報を入力可能である。例えば、仮想サーバ105においてEC処理を行いたい場合、EC使用にチェックを入れることで、データアクセス方式およびデータパスの入力欄が表示され、所望の条件を設定可能となる。
本実施の形態によれば、上述した実施の形態の効果を奏すると共に、EC処理の実行可否を判定するための情報が管理画面に表示されるので、ユーザは、EC処理に係る設定を容易に行うことができるようになる。
(6)他の実施の形態
なお上述の第1〜第5の実施の形態においては、本発明をI/O制御システム1に適用するようにした場合について述べたが、本発明はこれに限らず、この他種々のI/O制御システムに広く適用することができる。
また上述の第1〜第5の実施の形態において、物理ノード100の仮想環境としては、ハイパバイザ型、ホストOS型、KVM型など、様々な仮想環境を適用することができる。
また上述の第1〜第5の実施の形態においては、フラッシュドライバ101をメモリ106に設ける場合について述べたが、本発明はこれに限らず、フラッシュドライバ101を回路等として物理NIC109に設けるようにしてもよい。
また上述の第1〜第5の実施の形態においては、I/Oポーリング部200によりI/O要求を取得する場合について述べたが、本発明はこれに限らず、I/O要求が発行されるごとにI/O要求を受信するI/O受信部を物理ノード100に設け、I/O受信部によりI/O要求を取得するようにしてもよい。I/O受信部は、ソフトウェアにより実現されてもよいし、ハードウェアにより実現されてもよい。
また上述の第1〜第5の実施の形態においては、PF208がVF209を管理し、I/Oポーリング部200がPF208をポーリングする場合について述べたが、本発明はこれに限らず、VF209を管理するPF208とは異なるハードウェアをI/Oポーリング部200がポーリングするようにしてもよい。
また上述の第1〜第5の実施の形態においては、冗長化データを一の物理ノードに格納する場合について述べたが、本発明はこれに限らず、冗長化データを1または複数の他の物理ノードに格納するようにしてもよい。
また上述の第5の実施の形態においては、仮想サーバ105の構成情報およびEC102の利用条件を管理サーバ112が入力する場合について述べたが、本発明はこれに限らず、仮想サーバ105の構成情報を管理サーバ112が入力し、物理ノード100(例えばフラッシュドライバ101)が当該構成情報に基づいてEC102の利用条件を入力するようにしてもよい。
1……I/O制御システム、100……物理ノード、101……フラッシュドライバ、102……EC、103……ハイパバイザ、104……ゲストOS、105……仮想サーバ、106……メモリ、107……ChipSet、108……CPU、109……物理NIC、110……Flash、111……ネットワーク、112……管理サーバ

Claims (8)

  1. I/O処理を実行するI/Oデバイスを有する計算機で稼働する仮想計算機のI/O要求に係る制御を行うI/O制御方法であって、
    I/O分析部が、前記仮想計算機のI/O要求と、データ冗長化処理の実行可否を識別可能な設定情報とに基づいて、前記I/O要求についてのデータ冗長化処理の実行可否を判定する第1のステップと、
    コントローラ部が、前記第1のステップの判定結果に基づいてデータ冗長化処理を実行するデータ冗長化機構に前記I/O要求に係るI/Oコマンドを送信する第2のステップと、
    を備え、
    前記設定情報は、データ冗長化処理の実行可否と前記仮想計算機のデータアクセス方式とが対応付けられた情報であり、
    前記仮想計算機のデータアクセス方式は、前記仮想計算機に対応して設けられ、前記仮想計算機を特定することにより特定されるものであり、
    前記I/O分析部は、前記仮想計算機のI/O要求と、前記設定情報と、前記仮想計算機のデータアクセス方式と、に基づいて、前記仮想計算機のI/O要求についてのデータ冗長化処理の実行可否を判定する、
    ことを特徴とするI/O制御方法。
  2. I/O処理を実行するI/Oデバイスを有する計算機で稼働する仮想計算機のI/O要求に係る制御を行うI/O制御方法であって、
    I/O分析部が、前記仮想計算機のI/O要求と、データ冗長化処理の実行可否を識別可能な設定情報とに基づいて、前記I/O要求についてのデータ冗長化処理の実行可否を判定する第1のステップと、
    コントローラ部が、前記第1のステップの判定結果に基づいてデータ冗長化処理を実行するデータ冗長化機構に前記I/O要求に係るI/Oコマンドを送信する第2のステップと、
    を備え、
    前記設定情報は、データ冗長化処理の実行可否と前記仮想計算機のデータアクセス方式と前記仮想計算機が使用するデータパスとが対応付けられた情報であり、
    前記仮想計算機のデータアクセス方式は、前記仮想計算機に対応して設けられ、前記仮想計算機を特定することにより特定されるものであり、
    前記仮想計算機が使用するデータパスは、前記仮想計算機に対応して設けられ、前記仮想計算機を特定することにより特定されるものであり、
    前記I/O分析部は、前記仮想計算機のI/O要求と、前記設定情報と、前記仮想計算機のデータアクセス方式と、前記仮想計算機が使用するデータパスと、に基づいて、前記仮想計算機のI/O要求についてのデータ冗長化処理の実行可否を判定する、
    ことを特徴とするI/O制御方法。
  3. 管理装置が、前記設定情報を入力する第3のステップと、
    前記管理装置が、前記設定情報を前記計算機に送信する第4のステップと、
    を更に備えることを特徴とする請求項1または2に記載のI/O制御方法。
  4. I/O処理を実行するI/Oデバイスを有する計算機で稼働する仮想計算機のI/O要求に係る制御を行うI/O制御方法であって、
    I/O分析部が、前記仮想計算機のI/O要求と、データ冗長化処理の実行可否を識別可能な設定情報とに基づいて、前記I/O要求についてのデータ冗長化処理の実行可否を判定する第1のステップと、
    コントローラ部が、前記第1のステップの判定結果に基づいてデータ冗長化処理を実行するデータ冗長化機構に前記I/O要求に係るI/Oコマンドを送信する第2のステップと、
    を備え、
    前記I/Oデバイスは、SR−IOV(Single Root I/O Virtualization)対応の物理NIC(Network Interface Card)であり、
    前記データ冗長化機構は、EC(Erasure Coding)であり、
    前記設定情報は、前記ECによるデータ冗長化処理の実行可否と前記仮想計算機のデータアクセス方式と前記仮想計算機が使用するデータパスとが対応付けられた情報であり、
    前記仮想計算機のデータアクセス方式は、前記仮想計算機に対応して設けられ、前記仮想計算機を特定することにより特定されるものであり、
    前記仮想計算機が使用するデータパスは、前記仮想計算機に対応して設けられ、前記仮想計算機を特定することにより特定されるものであり、
    I/Oポーリング部が、前記仮想計算機のI/O要求を取得し、
    前記I/O分析部は、前記I/Oポーリング部で取得されたI/O要求がRead要求であるかWrite要求であるかを判定し、前記I/O要求がWrite要求であると判定した場合、前記仮想計算機のデータアクセス方式が前記ECによるデータ冗長化処理の実行に対応付けられたデータアクセス方式であるか否かを判定し、前記仮想計算機のデータアクセス方式が前記ECによるデータ冗長化処理の実行に対応付けられたデータアクセス方式であると判定したとき、前記仮想計算機が使用するデータパスが前記ECによるデータ冗長化処理の実行に対応付けられていないデータパスであるか否かを判定し、前記仮想計算機のデータアクセス方式が前記ECによるデータ冗長化処理の実行に対応付けられたデータアクセス方式でないと判定したとき、前記仮想計算機が使用するデータパスが前記ECによるデータ冗長化処理の実行に対応付けられたデータパスであるか否かを判定し、
    前記コントローラ部は、前記I/O分析部によりWrite要求であると判定され、かつ、
    前記仮想計算機のデータアクセス方式が前記ECによるデータ冗長化処理の実行に対応付けられたデータアクセス方式であると判定され、前記仮想計算機が使用するデータパスが前記ECによるデータ冗長化処理の実行に対応付けられていないデータパスでないと判定された場合、または、前記仮想計算機のデータアクセス方式が前記ECによるデータ冗長化処理の実行に対応付けられたデータアクセス方式でないと判定され、前記仮想計算機のデータパスが前記ECによるデータ冗長化処理の実行に対応付けられたデータパスであると判定された場合、前記ECにWriteコマンドを送信すると共に、前記I/Oデバイスに、前記Write要求に係るWriteコマンドを、前記ECによるデータ冗長化処理が必要なデータを記憶するための記憶デバイスに送信させ、
    前記仮想計算機のデータアクセス方式が前記ECによるデータ冗長化処理の実行に対応付けられたデータアクセス方式でないと判定され、前記仮想計算機のデータパスが前記ECによるデータ冗長化処理の実行に対応付けられたデータパスでないと判定された場合、前記ECによるデータ冗長化処理が不要なデータを記憶するための前記記憶デバイスとは異なる記憶デバイスにWriteコマンドを送信する、
    ことを特徴とするI/O制御方法。
  5. I/O処理を実行するI/Oデバイスを有する計算機で稼働する仮想計算機のI/O要求に係る制御を行うI/O制御システムであって、
    前記仮想計算機のI/O要求と、データ冗長化処理の実行可否を識別可能な設定情報とに基づいて、前記I/O要求についてのデータ冗長化処理の実行可否を判定するI/O分析部と、
    前記I/O分析部の判定結果に基づいてデータ冗長化処理を実行するデータ冗長化機構に前記I/O要求に係るI/Oコマンドを送信するコントローラ部と、
    を備え、
    前記設定情報は、データ冗長化処理の実行可否と前記仮想計算機のデータアクセス方式とが対応付けられた情報であり、
    前記仮想計算機のデータアクセス方式は、前記仮想計算機に対応して設けられ、前記仮想計算機を特定することにより特定されるものであり、
    前記I/O分析部は、前記仮想計算機のI/O要求と、前記設定情報と、前記仮想計算機のデータアクセス方式と、に基づいて、前記仮想計算機のI/O要求についてのデータ冗長化処理の実行可否を判定する、
    ことを特徴とするI/O制御システム。
  6. I/O処理を実行するI/Oデバイスを有する計算機で稼働する仮想計算機のI/O要求に係る制御を行うI/O制御システムであって、
    前記仮想計算機のI/O要求と、データ冗長化処理の実行可否を識別可能な設定情報とに基づいて、前記I/O要求についてのデータ冗長化処理の実行可否を判定するI/O分析部と、
    前記I/O分析部の判定結果に基づいてデータ冗長化処理を実行するデータ冗長化機構に前記I/O要求に係るI/Oコマンドを送信するコントローラ部と、
    を備え、
    前記設定情報は、データ冗長化処理の実行可否と前記仮想計算機のデータアクセス方式と前記仮想計算機が使用するデータパスとが対応付けられた情報であり、
    前記仮想計算機のデータアクセス方式は、前記仮想計算機に対応して設けられ、前記仮想計算機を特定することにより特定されるものであり、
    前記仮想計算機が使用するデータパスは、前記仮想計算機に対応して設けられ、前記仮想計算機を特定することにより特定されるものであり、
    前記I/O分析部は、前記仮想計算機のI/O要求と、前記設定情報と、前記仮想計算機のデータアクセス方式と、前記仮想計算機が使用するデータパスと、に基づいて、前記仮想計算機のI/O要求についてのデータ冗長化処理の実行可否を判定する、
    ことを特徴とするI/O制御システム。
  7. 前記設定情報を入力する管理装置を更に備え、
    前記管理装置は、前記設定情報を前記計算機に送信する、
    ことを特徴とする請求項5または6に記載のI/O制御システム。
  8. I/O処理を実行するI/Oデバイスを有する計算機で稼働する仮想計算機のI/O要求に係る制御を行うI/O制御システムであって、
    前記仮想計算機のI/O要求と、データ冗長化処理の実行可否を識別可能な設定情報とに基づいて、前記I/O要求についてのデータ冗長化処理の実行可否を判定するI/O分析部と、
    前記I/O分析部の判定結果に基づいてデータ冗長化処理を実行するデータ冗長化機構に前記I/O要求に係るI/Oコマンドを送信するコントローラ部と、
    を備え、
    前記I/Oデバイスは、SR−IOV(Single Root I/O Virtualization)対応の物理NIC(Network Interface Card)であり、
    前記データ冗長化機構は、EC(Erasure Coding)であり、
    前記設定情報は、前記ECによるデータ冗長化処理の実行可否と前記仮想計算機のデータアクセス方式と前記仮想計算機が使用するデータパスとが対応付けられた情報であり、
    前記仮想計算機のデータアクセス方式は、前記仮想計算機に対応して設けられ、前記仮想計算機を特定することにより特定されるものであり、
    前記仮想計算機が使用するデータパスは、前記仮想計算機に対応して設けられ、前記仮想計算機を特定することにより特定されるものであり、
    前記仮想計算機のI/O要求を取得するI/Oポーリング部を更に備え、
    前記I/O分析部は、前記I/Oポーリング部で取得されたI/O要求がRead要求であるかWrite要求であるかを判定し、前記I/O要求がWrite要求であると判定した場合、前記仮想計算機のデータアクセス方式が前記ECによるデータ冗長化処理の実行に対応付けられたデータアクセス方式であるか否かを判定し、前記仮想計算機のデータアクセス方式が前記ECによるデータ冗長化処理の実行に対応付けられたデータアクセス方式であると判定したとき、前記仮想計算機が使用するデータパスが前記ECによるデータ冗長化処理の実行に対応付けられていないデータパスであるか否かを判定し、前記仮想計算機のデータアクセス方式が前記ECによるデータ冗長化処理の実行に対応付けられたデータアクセス方式でないと判定したとき、前記仮想計算機が使用するデータパスが前記ECによるデータ冗長化処理の実行に対応付けられたデータパスであるか否かを判定し、
    前記コントローラ部は、前記I/O分析部によりWrite要求であると判定され、かつ、
    前記仮想計算機のデータアクセス方式が前記ECによるデータ冗長化処理の実行に対応付けられたデータアクセス方式であると判定され、前記仮想計算機が使用するデータパスが前記ECによるデータ冗長化処理の実行に対応付けられていないデータパスでないと判定された場合、または、前記仮想計算機のデータアクセス方式が前記ECによるデータ冗長化処理の実行に対応付けられたデータアクセス方式でないと判定され、前記仮想計算機のデータパスが前記ECによるデータ冗長化処理の実行に対応付けられたデータパスであると判定された場合、前記ECにWriteコマンドを送信すると共に、前記I/Oデバイスに、前記Write要求に係るWriteコマンドを前記ECによるデータ冗長化処理が必要なデータを記憶するための記憶デバイスに送信させ、
    前記仮想計算機のデータアクセス方式が前記ECによるデータ冗長化処理の実行に対応付けられたデータアクセス方式でないと判定され、前記仮想計算機のデータパスが前記ECによるデータ冗長化処理の実行に対応付けられたデータパスでないと判定された場合、前記ECによるデータ冗長化処理が不要なデータを記憶するための前記記憶デバイスとは異なる記憶デバイスにWriteコマンドを送信する、
    ことを特徴とするI/O制御システム。
JP2019506925A 2017-03-24 2017-03-24 I/o制御方法およびi/o制御システム Active JP6653786B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/012194 WO2018173300A1 (ja) 2017-03-24 2017-03-24 I/o制御方法およびi/o制御システム

Publications (2)

Publication Number Publication Date
JPWO2018173300A1 JPWO2018173300A1 (ja) 2019-06-27
JP6653786B2 true JP6653786B2 (ja) 2020-02-26

Family

ID=63585196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019506925A Active JP6653786B2 (ja) 2017-03-24 2017-03-24 I/o制御方法およびi/o制御システム

Country Status (3)

Country Link
US (1) US10628349B2 (ja)
JP (1) JP6653786B2 (ja)
WO (1) WO2018173300A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210101693A (ko) * 2020-02-10 2021-08-19 삼성전자주식회사 스토리지를 포함하는 전자 장치 및 이를 이용한 스토리지로 파일 시스템의 디스카드 커맨드 전달 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8458287B2 (en) * 2009-07-31 2013-06-04 Microsoft Corporation Erasure coded storage aggregation in data centers
US8775774B2 (en) * 2011-08-26 2014-07-08 Vmware, Inc. Management system and methods for object storage system
WO2016051512A1 (ja) 2014-09-30 2016-04-07 株式会社日立製作所 分散型ストレージシステム
US9792231B1 (en) * 2014-12-15 2017-10-17 Amazon Technologies, Inc. Computer system for managing I/O metric information by identifying one or more outliers and comparing set of aggregated I/O metrics
JP2017010102A (ja) 2015-06-17 2017-01-12 株式会社日立製作所 二重系システム

Also Published As

Publication number Publication date
WO2018173300A1 (ja) 2018-09-27
JPWO2018173300A1 (ja) 2019-06-27
US20190361824A1 (en) 2019-11-28
US10628349B2 (en) 2020-04-21

Similar Documents

Publication Publication Date Title
US20200278880A1 (en) Method, apparatus, and system for accessing storage device
US10362101B2 (en) Mechanism for providing load balancing to an external node utilizing a clustered environment for storage management
EP3553655B1 (en) Distributed policy-based provisioning and enforcement for quality of service
EP4050477B1 (en) Virtual machine migration techniques
US8555279B2 (en) Resource allocation for controller boards management functionalities in a storage management system with a plurality of controller boards, each controller board includes plurality of virtual machines with fixed local shared memory, fixed remote shared memory, and dynamic memory regions
US20170031699A1 (en) Multiprocessing Within a Storage Array System Executing Controller Firmware Designed for a Uniprocessor Environment
JP5512833B2 (ja) ストレージの仮想化機能と容量の仮想化機能との両方を有する複数のストレージ装置を含んだストレージシステム
KR20200017363A (ko) 호스트 스토리지 서비스들을 제공하기 위한 NVMe 프로토콜에 근거하는 하나 이상의 호스트들과 솔리드 스테이트 드라이브(SSD)들 간의 관리되는 스위칭
US10628196B2 (en) Distributed iSCSI target for distributed hyper-converged storage
US10289564B2 (en) Computer and memory region management method
JP2013530573A (ja) マルチキュー・ネットワーク・アダプタの動的再構成によるリソース・アフィニティ
JP7100941B2 (ja) アプリケーションによって制御された早期書込み確認応答をサポートするメモリ・アクセス・ブローカ・システム
US20200396306A1 (en) Apparatuses and methods for a distributed message service in a virtualized computing system
JP2011154697A (ja) Raidと関連するアプリケーションの実行のための方法およびシステム
WO2015145598A1 (ja) 並列演算処理システムのデータ配分装置、データ配分方法、及びデータ配分プログラム
CN115202827A (zh) 处理虚拟化中断的方法、中断控制器、电子设备和芯片
US10776173B1 (en) Local placement of resource instances in a distributed system
KR102001641B1 (ko) 가상화 환경에서의 gpu 자원 관리 방법 및 장치
JP6653786B2 (ja) I/o制御方法およびi/o制御システム
US8140810B2 (en) Storage management command control in virtualized environment
JP7107981B2 (ja) 計算機システム
EP4260185A1 (en) System and method for performing workloads using composed systems
JP2012146280A (ja) 記憶操作のためのキュー及び作業負荷による選択インタフェースの方法及び装置
JP7047906B2 (ja) 入出力処理割り当て制御装置、入出力処理割り当て制御システム、入出力処理割り当て制御方法、及び、入出力処理割り当て制御プログラム
CN117806557A (zh) 主机系统、数据计算方法及独立可计算存储器冗余系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200128

R150 Certificate of patent or registration of utility model

Ref document number: 6653786

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150