JP2018504689A - リモート・ダイレクト・メモリ・アクセス操作を実行するデータ転送方法、システム、およびプログラム - Google Patents

リモート・ダイレクト・メモリ・アクセス操作を実行するデータ転送方法、システム、およびプログラム Download PDF

Info

Publication number
JP2018504689A
JP2018504689A JP2017533309A JP2017533309A JP2018504689A JP 2018504689 A JP2018504689 A JP 2018504689A JP 2017533309 A JP2017533309 A JP 2017533309A JP 2017533309 A JP2017533309 A JP 2017533309A JP 2018504689 A JP2018504689 A JP 2018504689A
Authority
JP
Japan
Prior art keywords
protocol header
file
data
transport layer
memory device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017533309A
Other languages
English (en)
Other versions
JP6737981B2 (ja
JP2018504689A5 (ja
Inventor
ドルーカー、ヴラディスラフ
アミット、ジョナサン
ロン、ザール
ローセン、ガル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2018504689A publication Critical patent/JP2018504689A/ja
Publication of JP2018504689A5 publication Critical patent/JP2018504689A5/ja
Application granted granted Critical
Publication of JP6737981B2 publication Critical patent/JP6737981B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/20Handling requests for interconnection or transfer for access to input/output bus
    • G06F13/28Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0607Improving or facilitating administration, e.g. storage management by facilitating the process of upgrading existing storage systems, e.g. for improving compatibility between host and storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0661Format or protocol conversion arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/08Protocols for interworking; Protocol conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/30Definitions, standards or architectural aspects of layered protocol stacks
    • H04L69/32Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
    • H04L69/322Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
    • H04L69/326Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the transport layer [OSI layer 4]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/30Definitions, standards or architectural aspects of layered protocol stacks
    • H04L69/32Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
    • H04L69/322Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
    • H04L69/329Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the application layer [OSI layer 7]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Communication Control (AREA)
  • Bus Control (AREA)

Abstract

【課題】 リモート・ダイレクト・メモリ・アクセス(RDMA)操作におけるデータ転送のための方法をコンピューティング・システムに提供。【解決手段】データのファイル・プロトコル・ヘッダがブロック・プロトコル・ヘッダに置き換えられる。ブロック・プロトコル・ヘッダは、CPUによる外部からの操作なしに、ソースからターゲットへの、トランスポート層を通る直接データ経路上での転送を可能にする。前記ファイル・プロトコル・ヘッダを置き換えることと併せて、関連する前記データのチャンクへの少なくとも1つのポインタを設定することをさらに含む。前記ファイル・プロトコル・ヘッダが表すファイルのディスク割り当てスキームを解決することをさらに含む。【選択図】 図2

Description

本発明は、一般に、コンピューティング・システムに関し、より特定的には、リモート・ダイレクト・メモリ・アクセス(Remote Direct Memory Access、RDMA)操作を実施するクラスタ化されたコンピューティング・システムにおける効率的なデータ転送のための種々の実施形態に関する。
最新技術を用いる今日では、大量のデータをディスク及びフラッシュ・ドライブ上に格納可能であり、これらのドライブは、コンピューティング・ストレージ・ネットワークのような大規模ストレージ環境内に単独のエンティティとして又はより広い構成の一部として存在し得る。今日の情報ベースの社会における膨大な量のデータが増大し続けるにつれて、コンピューティング及びコンピューティング・ストレージ・ネットワークのサイズ及び複雑さも増大し続ける。今日、幾つかの個々のコンピュータのグループ又はクラスタが、データ・ストレージ及び転送を容易にするのは珍しいことではない。
リモート・ダイレクト・メモリ・アクセス(RDMA)操作における効率的なデータ転送のための方法、システム及びコンピュータ・プログラムを提供する
現在のファイル・ストレージ・アレイは、入力/出力(I/O)要求を、分離層において間接的な方法で処理する。その際、I/O要求のレイテンシがもたらされ、性能が低下することがある。新しいフラッシュ技術の実装には、ファイル・ストレージが超低レイテンシで何百万ものI/O作業を収容できる、対応する必要性が付随する。
リモート・ダイレクト・メモリ・アクセス(RDMA)は、いずれのコンピュータのオペレーティング・システム(OS)も関与しない、1つのコンピュータのメモリから別のコンピュータのメモリへの直接メモリ・アクセス操作である。RDMAデータ転送は、高スループット、低レイテンシのネットワーキングを可能にし、そのことは、例えば、ストレージ・ソリューションにおいて特に有利である。
ファイル・ストレージ・アレイは、一般に、割り込み駆動型モデルを使用する。このモデルには、ボトルネック及びレイテンシの増大といった潜在的な問題が付随する。ストレージ・アレイ・アーキテクチャも、膨大な量のコンテキスト・スイッチを使用する。これらのスイッチング操作は、単一のファイル操作要求の実行経路において、異なるユーザとカーネル・スレッドとの間で行われる。これはレイテンシをさらに大きくする傾向があり、性能をさらに低下させる。
従って、上記に鑑みて、コンピューティング・ストレージ環境におけるレイテンシを危うくすることなく、大量のデータ及び/又は多くのI/O操作を行うことができる機構に対する必要性が存在する。
この必要性に対処するために、メモリ・デバイスによる、リモート・ダイレクト・メモリ・アクセス(RDMA)操作における効率的なデータ転送のための種々の実施形態が提供される。一実施形態において、単なる例として、メモリ・デバイスによる、RDMA操作における効率的なデータ転送のための方法が提供される。データのファイル・プロトコル・ヘッダがブロック・プロトコル・ヘッダに置き換えられる。ブロック・プロトコル・ヘッダは、中央処理ユニット(CPU)による外部からの操作なしに、ソースからターゲットへの、トランスポート層を通る直接データ経路上での転送を可能にする。
他のシステム及びコンピュータ・プログラムの実施形態が提供され、関連した利点を提供する。
本発明の利点を容易に理解するために、添付図面に示される特定の実施形態を参照することによって、上記に簡単に説明される本発明のさらに具体的な説明が与えられる。これらの図面は本発明の典型的な実施形態を示すものに過ぎず、従って、その範囲を限定していると考えるべきではないことを理解した上で、添付図面を用いて付加的な具体性及び詳細さをもって本発明を記載し、説明する。
本発明の態様を実現することができる、リモート・ダイレクト・メモリ・アクセス(RDMA)操作において効率的なデータ転送を行うための例示的なハードウェア構造を示すブロック図である。 本発明の態様を実現することができる、ファイルからブロックへのヘッダ変換(file to block header transformation)のための例示的なファイルのブロック図である。 グローバル・パラレル・ファイル・システム(Global Parallel File System、GPFS)のようなファイル・システムにおける従来のデータ転送のブロック図である。 本発明の態様を実現することができる、ファイル・システムにおける直接データ経路データ転送のブロック図である。 ここで再び本発明の態様を実現することができる、ヘッダ変換及びダイレクトデータ経路データ転送のための例示的方法のフローチャート図である。 ここで再び本発明の態様を実現することができる、ヘッダ変換及び直接データ経路データ転送のための付加的な例示的方法の付加的なフローチャート図である。
前述のように、現在のファイル・ストレージ・アレイは、入力/出力(I/O)要求を、分離層において間接的な方法で処理する。その際に、I/O要求におけるレイテンシが結果として生じ、性能が低下することがある。新しいフラッシュ技術の実装には、ファイル・ストレージが超低(ultra low)レイテンシで何百万ものI/O操作を収容できる対応する必要性が付随する。
リモート・ダイレクト・メモリ・アクセス(RDMA)は、いずれのコンピュータのオペレーティング・システム(OS)も関与することのない、1つのコンピュータのメモリから別のコンピュータのメモリへの直接メモリ・アクセス操作である。RDMAデータ転送は、高スループット、低レイテンシのネットワーキングを可能にし、そのことは、例えば、ストレージ・ソリューションにおいて特に有利である。
ファイル・ストレージ・アレイは、一般に、割り込み駆動型モデルを使用する。このモデルは、ボトルネック及びレイテンシの増大といった付随する潜在的な問題を有する。ストレージ・アレイ・アーキテクチャもまた、膨大な量のコンテキスト・スイッチを使用する。これらのスイッチング操作は、単一のファイル操作要求の実行経路において異なるユーザとカーネル・スレッドとの間で行われる。これはレイテンシをさらに大きくする傾向があり、性能をさらに低下させる。
従って、上記に鑑みて、コンピューティング・ストレージ環境におけるレイテンシを危うくすることなく、大量のデータ及び/又は多くのI/O操作を行うことができる機構に対する必要性が存在する。
示される実施形態は、ファイル・ストレージ・アレイに対して直接データ・フローの革新的な機構を導入し、ファイル・ストレージにおける超低レイテンシを達成することにより、この必要性に対処する。これは、例えば、RDMA読み取り及びRDMA書き込み操作におけるファイル・プロトコルからブロック・プロトコルへのヘッダ変換を用いることによって実施される。
示される実施形態の機構は、何百万もの秒当たりの入力/出力操作(Input/Output Operations Per Second、IOPS)の容易化及び処理を可能にし、超低レイテンシを実現する。この機構により、新しい技術のいかなる性能特性の損失もなしに、ファイル操作の新しいフラッシュ技術の使用が可能になる。
一実施形態において、これらの利点は、トランスポート層がアプリケーション層に関する知識をもって(knowledgeable)おり、逆もまた同様である、新しいモノリシック・モデルの使用により達成される。この層間の共有知識の結果、性能向上のための抽象化(abstraction for better performance)は行われない。
図示される実施形態において、中央処理ユニット、すなわちCPUは、データのコピーを処理しない。どちらかと言えば、データは、入力エンドポイント及び出力エンドポイントの両方でRDMAを用いて転送される。
ここで図1を参照すると、コンピューティング・システム環境の例示的なアーキテクチャ10が示される。一実施形態において、アーキテクチャ10は、本発明の機構を実施するためのシステムの少なくとも部分として実装することができる。コンピュータ・システム10は、通信ポート18及びメモリ・デバイス16に接続された中央処理ユニット(CPU)12を含む。通信ポート18は、通信ネットワーク20と通信する。通信ネットワーク20及びストレージ・ネットワークは、サーバ(ホスト)24及びストレージ・デバイス14を含むことができるストレージ・システムと通信するように構成することができる。ストレージ・システムは、ハード・ディスク・ドライブ(HDD)デバイス、ソリッド・ステート・デバイス(SSD)等を含むことができ、これらは、redundant array of independent disks(RAID)で構成することができる。通信ポート18、通信ネットワーク20、及び簡潔にするために図示されていない当業者には公知の他のコンポーネントは、ファイバ・チャネル・ケーブル、ファイバ・チャネル・ポート、ホスト・バス・アダプタ(HBA)、コンバージド・ネットワーク・アダプタ(Converged Network Adapter、CNA)、ネットワーク・スイッチ及びスイッチング・コンポーネント、並びに当業者には公知の同様の通信機構のようなハードウェア・コンポーネントを含むことができる。さらに説明されるようなこれらのコンポーネントの1つ又は複数を用いて、図示される実施形態の種々の態様を実現することができる。
以下に記載される動作は、システム10又は他の場所に配置され、独立して及び/又は他のCPUデバイス12と共に動作する複数のメモリ・デバイス16を有するストレージ・デバイス14上で実行することができる。本明細書で提示されるようなメモリ・デバイス16は、電気的消去可能プログラム可能読み出し専用メモリ(EEPROM)のようなメモリ、RDMA操作の実行を任されるデバイス(RDMAカードなど)、又は関連するデバイスのホストを含むことができる。メモリ・デバイス16及びストレージ・デバイス14は、信号搬送媒体を介してCPU12に接続される。さらに、CPU12は、通信ポート18を通じて、取り付けられた複数の付加的なコンピュータ・ホスト・システム24を有する通信ネットワーク20に接続される。さらに、メモリ・デバイス16及びCPU12は、コンピュータ・システム10の各コンポーネント内に埋め込むこと及び含ませることができる。各ストレージ・システムはまた、別個のメモリ・デバイス16及び/又はCPU12と共に、又は別個のメモリ・デバイス16及び/又はCPU12として動作する別個の及び/又は異なるメモリ・デバイス16及び/又はCPU12を含むこともできる。
アーキテクチャ10は、コンピュータのクラスタの部分を表すと考えることができ、そこで、CPU12は、別のコンピュータ・システム22内のCPU28及び大容量記憶装置30と通信する。図示のように、メモリ16と26の間のデータ転送を容易にする直接データ経路32と共に、トランスポート層34の一部及びアプリケーション層36も、アーキテクチャ10の部分として示される。
当業者であれば、クラスタ化されたコンピューティング環境内の可能なコンピューティング・コンポーネントの全体を必ずしも示していないことを認識するが、ブロック・アーキテクチャは、示される実施形態に関連するような機能を示すように意図される。例えば、アプリケーション層36の部分は、トランスポート層34の部分と通信するように示される。これは、ブロック図の観点から、トランスポート層34がアプリケーション層36に関する知識をもつようにされ、逆もまた同様である、前述のモノリシック・モデルを示すように意図される。メモリ16及び26、並びに直接データ経路32と関連した特定の機能をさらに説明する。
次の図2は、ブロック図の形態で、クライアント・ホスト内のファイル・プロトコル・デバイス202から、示されるプロセスを通して、ブロック・プロトコル・デバイス206になる例示的な変換200を示す。より具体的には、当業者であれば理解するように、変換200は、組み込まれたユーザ空間208及びファイル・システム210を有するファイラ204を示す。
ファイル・システム210において、ファイル・プロトコル・デバイス202は、RDMAファイル入力/出力(I/O)機能212によって変換プロセスを入力する。プロセスにおける後のステップとして、ファイルには、ファイルからブロックへのヘッダ変換操作214が施され、そこで適切なブロック・プロトコル・ヘッダが生成され、ファイル・プログラム・ヘッダ空間において置換される。プロセスにおける後のステップにおいて、RDMAブロックI/O機能216は、ファイル・プロトコル・デバイスからブロック・プロトコル・デバイス206への変換を完了するように動作する。
次の図3は、同じくブロック図の形態で、この後に続き、後で説明する図4との比較のために、グローバル・パラレル・ファイル・システム(Global Parallel File System、GPFS)のようなファイル・システム(しかし、任意の一般的なファイル・システムを含むことができる)を通じた、I/O要求300の形態の例示的な従来のデータ移動を示す。図3及び図4は、GPFSに関連する機能を説明することができるが、当業者であれば、示される実施形態の種々の機構は、任意のファイル・システムの実装に適用可能であり、特定の状況に応じて変化し得ることを理解するであろう。
要求300は、ユーザ空間302、カーネル空間304、及びファイルシステム・コア306との関連で示される。最初に、要求300を、示されるようなネットワーク・ファイル・システム(Network File System、NFS)のリモート・データ・メモリ・アクセス(RDMA)操作308として受け取り、この要求300は、関連するNFSサーバ310に対して作製され/送られ、次に仮想ファイル・システム(Virtual File System、VFS)312に送られ、次にカーネル拡張314として提供される。
この時点で、メールボックス/メールボックス・メッセージ処理により、ファイルシステム・コア306による前述した適切なカーネル拡張314の通信が可能になる。メッセージ処理は、ファイルシステム・コア316と拡張314との間で送られ、その時点で、ブロック・デバイス316が構築される。次に、ブロック・デバイス316は、1つ又は複数のSmall Computing Systems Interface(SCSI)層(SCSIアプリケーション層などの)、SCSIトランスポート・プロトコル層(STPL)、又はSCSI相互接続層(SIL)を通じて通信される。次に、ブロック・デバイスは、例えば、SCSI RDMAプロトコル(SRP)RDMA操作320を用いて、別のコンピュータに送られる。
次の図4は、比較して、同じくブロック図の形態で、本発明の種々の機構が実装されるファイル・システムにおける例示的なデータ移動を示す。図4において、ユーザ空間402及びカーネル空間404も再び示される。要求400を、ユーザ空間402内に受け取り、この要求400は、関連のあるNFSサーバ410により実施される操作と共に、NFS RDMA操作408として開始される。
VFS312及びカーネル拡張314の関与といった、以前に図3に示される種々の付加的なプロセス・ステップとは対照的に、図4に示されるプロセス・ステップは、最新式である。ここで、直接データ経路により、NFS RDMA操作408が、SCSIイニシエータ412の容易化を伴って実施されるSRP RDMA操作と接続される。次に、SRP RDMAプロトコル414を用いて、データを別のコンピュータに送ることができる。
ここで図5を参照すると、方法500として前述したようなヘッダ変換機能を通じて、効率的なデータ転送を実施するための例示的な方法である。方法500が開始し(ステップ502)、ファイル・プロトコル・ヘッダをブロック・プロトコル・ヘッダに置き換え、CPU操作なしに、直接データ経路転送を可能にする(ステップ504)。ヘッダ情報だけを置換し、基礎となるデータ自体には触れないことに留意することが重要である。次に、方法500は終了する(ステップ506)。
次の図6における方法600は、より詳細に前述した例示的なヘッダ変換機能を示す。方法600が開始し(ステップ602)、RDMAハードウェアを用いて、入ってくるファイル・プロトコル要求を受け取る(ステップ604)。次に、入ってくる要求に従って、ファイル・プロトコル・ヘッダを構文解析する(ステップ606)。ファイルのディスク割り当てスキーム(すなわち、ファイル・システム論理演算)を解決する(ステップ608)。この結果、例えば、一対多マッピングがもたらされ得る。
次のステップ610において、以前のファイル・システムにおける情報に基づいて、適切なブロック・プロトコル・ヘッダ情報を生成する。要求関連データ・バッファへの関連したデータ・チャンクへのポインタを設定する(ステップ612)。次に、必要とされる操作に従って、ブロック関連操作が実施され、RDMAハードウェアを用いて、ブロック・プロトコル・ヘッダ及び関連したデータ・チャンク・ポインタを生成する(ステップ614)。
後の時点で、次に、逆変換がファイルに実施され、結果のファイル・プロトコル・ヘッダ及び随意的なデータ(読み取り操作における)を生成する(ステップ616)。次に、方法600は終了する(ステップ618)。
NFS書き込み操作との関連で前述した方法600のステップの次の例を考える。NFS書き込み操作ヘッダは、書き込まれるべきデータと一緒に、ファイルID、オフセット、及びサイズを含む。図6を参照すると、ステップ610において、ファイル・システム論理は、データ自体に触れることなく、この前述のファイルID、オフセット及びサイズ・ヘッダ情報を、基礎となるストレージのブロック数を含む関連するヘッダに置き換える。
前述のように、示される実施形態の機構は、適用可能なトランスポート層がアプリケーションを認識しており、逆もまた同様であるモノリシック・ソリューションを用いることにより可能にされる。言い換えれば、例えば、トランスポート層及びアプリケーション層の両方とも、互い他方の本質的知識(intrinsic knowledge)を有し、データ移動操作を実施するためのRDMAベースのプロトコル及びハードウェアを使用する。
示される実施形態の態様の1つにおいて、RDMAハードウェア及び関連したプロトコルのセットのみが、配線との間でデータ・バッファに出入りする直接伝送を可能にすることに再度留意されたい。これは、操作又は移動(例えば、カーネル拡張からユーザ空間への移動)なしに、データに触れないことを可能にする。対照的に、示される実施形態の機構は、ヘッダ情報のみを操作する、これは、RDMAデータが生来位置合わせされているために可能になり、従って、変換プロセス中に行われるブロック・ストレージの位置合わせ制約を処理する。
本発明は、システム、方法、及び/又はコンピュータ・プログラム製品とすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実施させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納することができる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの:即ち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可能読み取り専用メモリ(EPROM又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、パンチカード又は命令が記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び/又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び/又はエッジ・サーバを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体内に格納する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、又は、「C」プログラミング言語若しくは類似のプログラミング言語などの通常の手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述することができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいては、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)若しくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネット・サービス・プロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、コンピュータ可読プログラム命令の状態情報を用いて、電子回路を個人化することによりコンピュータ可読プログラム命令を実行し、本発明の態様を実施することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/又はブロック図を参照して説明される。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロック内で指定された機能/動作を実装するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実装する命令を含む製品を製造するようにすることもできる。
コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生成し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実行するためのプロセスを提供するようにすることもできる。
図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び/又はフローチャート図の各ブロック、及びブロック図及び/又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
10:アーキテクチャ
12、28:中央処理ユニット(CPU)
14:ストレージ・デバイス
16、26:メモリ・デバイス
18:通信ポート
20:通信ネットワーク
22:コンピュータ・システム
24:サーバ
30:大容量記憶装置
32:直接データ経路
34:トランスポート層
36:アプリケーション層
200:変換
202:ファイル・プロトコル・デバイス
204:ファイラ
206、316:ブロック・プロトコル・デバイス
208、302、402:ユーザ空間
210:ファイル・システム
212:ファイル入力/出力(I/O)機能
214:ファイルからブロックへのヘッダ変換操作
216:RDMAブロックI/O機能
300、400:要求
304、404:カーネル空間
306:ファイルシステム・コア
308、322:リモート・データ・メモリ・アクセス(RDMA)操作
310、410:ネットワーク・ファイル・システム(NFS)サーバ
312:仮想ファイル・システム(VFS)
314:カーネル拡張
408:NFS RDMA操作
500、600:方法

Claims (21)

  1. メモリ・デバイスによる、リモート・ダイレクト・メモリ・アクセス(RDMA)操作における効率的なデータ転送のための方法であって、
    前記データのファイル・プロトコル・ヘッダをブロック・プロトコル・ヘッダに置き換えることを含み、前記ブロック・プロトコル・ヘッダは、中央処理ユニット(CPU)による外部からの操作なしに、ソースからターゲットまでの、トランスポート層を通る直接データ経路上での転送を可能にする、方法。
  2. 前記ファイル・プロトコル・ヘッダを置き換えることと併せて、関連する前記データのチャンクへの少なくとも1つのポインタを設定することをさらに含む、請求項1に記載の方法。
  3. 前記ファイル・プロトコル・ヘッダが表すファイルのディスク割り当てスキームを解決することをさらに含む、請求項1に記載の方法。
  4. 前記ブロック・プロトコル・ヘッダを生成することをさらに含む、請求項3に記載の方法。
  5. 前記ファイル・プロトコル・ヘッダを構文解析することをさらに含む、請求項1に記載の方法。
  6. 入ってくるファイル・プロトコル要求を受け取ることをさらに含む、請求項1に記載の方法。
  7. 前記トランスポート層を通る前記直接データ経路を開始することをさらに含み、前記直接データ経路上での前記データの伝送を容易にするように、前記トランスポート層はアプリケーション層を認識するように構成され、前記アプリケーション層はトランスポート層を認識するように構成される、請求項1に記載の方法。
  8. リモート・ダイレクト・メモリ・アクセス(RDMA)操作における効率的なデータ転送のためのシステムであって、
    メモリ・デバイスを含み、前記メモリ・デバイスは、
    前記データのファイル・プロトコル・ヘッダをブロック・プロトコル・ヘッダに置き換え、前記ブロック・プロトコル・ヘッダは、中央処理ユニット(CPU)による外部からの操作なしに、ソースからターゲットまでの、トランスポート層を通る直接データ経路上での転送を可能にする、システム。
  9. 前記メモリ・デバイスは、前記ファイル・プロトコル・ヘッダを置き換えることと併せて、関連する前記データのチャンクへの少なくとも1つのポインタを設定する、請求項8に記載のシステム。
  10. 前記メモリ・デバイスは、前記ファイル・プロトコル・ヘッダが表すファイルのディスク割り当てスキームを解決する、請求項8に記載のシステム。
  11. 前記メモリ・デバイスは、前記ブロック・プロトコル・ヘッダを生成する、請求項10に記載のシステム。
  12. 前記メモリ・デバイスは、前記ファイル・プロトコル・ヘッダを構文解析する、請求項8に記載のシステム。
  13. 前記メモリ・デバイスは、入ってくるファイル・プロトコル要求を受け取る、請求項8に記載のシステム。
  14. 前記メモリ・デバイスと通信するトランスポート層及びアプリケーション層をさらに含み、前記メモリ・デバイスは、前記トランスポート層を通る前記直接データ経路を開始し、前記直接データ経路上での前記データの伝送を容易にするように、前記トランスポート層はアプリケーション層を認識するように構成され、前記アプリケーション層はトランスポート層を認識するように構成される、請求項8に記載のシステム。
  15. メモリ・デバイスによる、リモート・ダイレクト・メモリ・アクセス(RDMA)操作における効率的なデータ転送のためのコンピュータ・プログラムであって、前記コンピュータ・プログラムは、コンピュータ可読プログラム・コード部分を含み、前記コンピュータ可読プログラム・コード部分は、
    前記データのファイル・プロトコル・ヘッダをブロック・プロトコル・ヘッダに置き換える第1の実行可能部分を含み、前記ブロック・プロトコル・ヘッダは、中央処理ユニット(CPU)による外部からの操作なしに、ソースからターゲットまでの、トランスポート層を通る直接データ経路上での転送を可能にする、コンピュータ・プログラム。
  16. 前記ファイル・プロトコル・ヘッダを置き換えることと併せて、関連する前記データのチャンクへの少なくとも1つのポインタを設定する第2の実行可能部分をさらに含む、請求項15に記載のコンピュータ・プログラム。
  17. 前記ファイル・プロトコル・ヘッダが表すファイルのディスク割り当てスキームを解決する第2の実行可能部分をさらに含む、請求項15に記載のコンピュータ・プログラム。
  18. 前記ブロック・プロトコル・ヘッダを生成する第3の実行可能部分をさらに含む、請求項17に記載のコンピュータ・プログラム。
  19. 前記ファイル・プロトコル・ヘッダを構文解析する第2の実行可能部分をさらに含む、請求項15に記載のコンピュータ・プログラム。
  20. 入ってくるファイル・プロトコル要求を受け取る第2の実行可能部分をさらに含む、請求項15に記載のコンピュータ・プログラム。
  21. 前記トランスポート層を通る前記直接データ経路を開始する第2の実行可能部分をさらに含み、前記直接データ経路上での前記データの伝送を容易にするように、前記トランスポート層はアプリケーション層を認識するように構成され、前記アプリケーション層はトランスポート層を認識するように構成される、請求項15に記載のコンピュータ・プログラム。
JP2017533309A 2015-01-05 2015-12-22 リモート・ダイレクト・メモリ・アクセス操作を実行するデータ転送方法、システム、およびプログラム Active JP6737981B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/589,758 2015-01-05
US14/589,758 US10469581B2 (en) 2015-01-05 2015-01-05 File storage protocols header transformation in RDMA operations
PCT/EP2015/080915 WO2016110410A1 (en) 2015-01-05 2015-12-22 File storage protocols header transformation in rdma operations

Publications (3)

Publication Number Publication Date
JP2018504689A true JP2018504689A (ja) 2018-02-15
JP2018504689A5 JP2018504689A5 (ja) 2020-01-23
JP6737981B2 JP6737981B2 (ja) 2020-08-12

Family

ID=55068987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017533309A Active JP6737981B2 (ja) 2015-01-05 2015-12-22 リモート・ダイレクト・メモリ・アクセス操作を実行するデータ転送方法、システム、およびプログラム

Country Status (5)

Country Link
US (1) US10469581B2 (ja)
JP (1) JP6737981B2 (ja)
DE (1) DE112015005887T5 (ja)
GB (1) GB2550308B (ja)
WO (1) WO2016110410A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10331613B2 (en) 2015-10-30 2019-06-25 Netapp, Inc. Methods for enabling direct memory access (DMA) capable devices for remote DMA (RDMA) usage and devices therof
US11146416B2 (en) * 2015-12-24 2021-10-12 Intel Corporation Universal interface for sensor devices
CN117651084B (zh) * 2024-01-26 2024-04-19 井芯微电子技术(天津)有限公司 一种异构协议报文处理方法、装置、电子设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226680B1 (en) 1997-10-14 2001-05-01 Alacritech, Inc. Intelligent network interface system method for protocol processing
US20030126247A1 (en) * 2002-01-02 2003-07-03 Exanet Ltd. Apparatus and method for file backup using multiple backup devices
US7181439B1 (en) 2003-04-25 2007-02-20 Network Appliance, Inc. System and method for transparently accessing a virtual disk using a file-based protocol
US7685254B2 (en) * 2003-06-10 2010-03-23 Pandya Ashish A Runtime adaptable search processor
US20060034283A1 (en) 2004-08-13 2006-02-16 Ko Michael A Method and system for providing direct data placement support
US7797440B2 (en) * 2005-03-09 2010-09-14 Vudu, Inc. Method and system for managing objects distributed in a network
US8073899B2 (en) * 2005-04-29 2011-12-06 Netapp, Inc. System and method for proxying data access commands in a storage system cluster
US7761766B2 (en) * 2005-11-15 2010-07-20 I365 Inc. Methods and apparatus for modifying a backup data stream including logical partitions of data blocks to be provided to a fixed position delta reduction backup application
US9331955B2 (en) 2011-06-29 2016-05-03 Microsoft Technology Licensing, Llc Transporting operations of arbitrary size over remote direct memory access
US8982703B2 (en) * 2012-12-18 2015-03-17 Mellanox Technologies Ltd. Routing support for lossless data traffic

Also Published As

Publication number Publication date
GB2550308B (en) 2019-05-01
US20160197992A1 (en) 2016-07-07
US10469581B2 (en) 2019-11-05
JP6737981B2 (ja) 2020-08-12
DE112015005887T5 (de) 2017-09-28
GB2550308A (en) 2017-11-15
GB201711856D0 (en) 2017-09-06
WO2016110410A1 (en) 2016-07-14

Similar Documents

Publication Publication Date Title
CN108228082B (zh) 存储系统和用于存储控制的方法
US8793448B2 (en) Transparent data migration within a computing environment
US20140289462A9 (en) Processor agnostic data storage in a pcie based shared storage environment
US10678437B2 (en) Method and device for managing input/output (I/O) of storage device
US9256377B2 (en) Consistent distributed storage communication protocol semantics in a clustered storage system
US9654497B2 (en) Virus-release-date-based priority virus scanning
WO2017162175A1 (zh) 一种数据传输方法及装置
US20110258290A1 (en) Bandwidth-Proportioned Datacenters
US9442672B2 (en) Replicating data across controllers
US9420033B2 (en) Managing file transfer commands
JP6737981B2 (ja) リモート・ダイレクト・メモリ・アクセス操作を実行するデータ転送方法、システム、およびプログラム
US9460182B2 (en) Networking-assisted input/output order preservation for data replication
US20070121621A1 (en) Integrated active-active fibre channel capability in SATA and SAS devices
CN112783419B (zh) 分布式存储方法及装置、电子设备和存储介质
US11038798B2 (en) Storing data in association with a key within a hash table and retrieving the data from the hash table using the key
US10841378B2 (en) Storage network tiering
US9715477B2 (en) Shared-bandwidth multiple target remote copy
US9396023B1 (en) Methods and systems for parallel distributed computation
US11194742B2 (en) Detecting potentially overlapping input/output queues
US7698424B1 (en) Techniques for presenting multiple data storage arrays to iSCSI clients as a single aggregated network array
Dalessandro et al. iSER storage target for object-based storage devices
US20180337883A1 (en) In-band ldap over ficon
US20070121633A1 (en) Active-active fibre channel capability in SATA and SAS devices
US20230026565A1 (en) Method of inputting and outputting data, electronic device and computer program product
US20220244878A1 (en) Method, device, and computer program product for managing storage system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170713

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180817

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190716

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20191113

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20191113

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20191113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20191114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200420

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20200420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200417

R150 Certificate of patent or registration of utility model

Ref document number: 6737981

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150