JP2021072107A

JP2021072107A - ストレージ周辺の階層的ソート加速のためのストレージシステム及び方法

Info

Publication number: JP2021072107A
Application number: JP2020171938A
Authority: JP
Inventors: サハンドサラナト，; Salamat Sahand; フゥイヂァン; Hui Zhang; 周桓李; Ju-Hwan Yi; 亮ソク奇; Yang Seok Ki
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-10-29
Filing date: 2020-10-12
Publication date: 2021-05-06
Anticipated expiration: 2040-10-12
Also published as: US11249651B2; TW202117532A; JP7381429B2; KR102663759B1; US20210124500A1; CN112749107A; KR20210052188A; CN112749107B

Abstract

【課題】ストレージ周辺の階層的ソート加速のためのストレージシステム及び方法を提供する。【解決手段】本発明のストレージシステムは、ソート演算に関連するデータエレメントの配列を格納するストレージ装置と、ストレージ装置とホストコンピュータとの間の通信を可能にするストレージインターフェースと、ストレージ装置に通信可能に接続された再構成可能な処理装置と、を備え、再構成可能な処理装置は、ストレージ装置からリードされ、ストレージ装置に格納されたデータエレメントの配列に対応する入力データを格納するメモリと、ホストコンピュータから受信されたソートコマンドに応じて、メモリに格納された入力データに対するソート演算を実行する１つ以上の演算コンポーネントを有するカーネルを含み、再構成可能な処理装置は、ソート演算を加速化する１つ以上の演算コンポーネントを動的にインスタンス化する。【選択図】図１

Description

本発明は、ストレージシステムに関し、より詳細には、ストレージ周辺の階層的ソート加速のためのストレージシステム及び方法に関する。

一般的に、ソート演算（ｓｏｒｔｏｐｅｒａｔｉｏｎ）は、エレメントの比較に基づいて配列（ａｒｒａｙ）又はリスト（ｌｉｓｔ）からエレメントをリアレンジ（ｒｅａｒｒａｎｇｅ）するために使用され、非線形タイミングの複雑性（ｎｏｎｌｉｎｅａｒｔｉｍｉｎｇｃｏｍｐｌｅｘｉｔｙ）により計算的に複雑である。ソート演算は、データベース・アプリケーション（ａｐｐｌｉｃａｔｉｏｎ）からグラフ化アルゴリズム（ｇｒａｐｈｉｎｇａｌｇｏｒｉｔｈｍ）まで多様なアプリケーションにおいて広く用いられる。例えば、ＧＲＯＵＰＢＹ、ＪＯＩＮなどのようなデータベース・アプリケーションは、それ自体の構築演算（又は基本演算）として一般的にソート演算を使用するため、データベース・アプリケーションの性能において、ソート演算は、大体核心的要因である。

しかし、異なるデータベース・アプリケーションは、多様で異なる演算及び仕様を有し得るため、異なるデータベース・アプリケーションに対するソート演算を実施する際に、異なる演算及び要求事項がサポートされることを必要とする。例えば、多様で異なるデータベース・アプリケーションに対してソート演算を実施するために固定のソーティングエンジン（ｆｉｘｅｄｓｏｒｔｉｎｇｅｎｇｉｎｅ）は、異なるデータベース・アプリケーションに固定のソーティングエンジンを適用するため、ユーザーの要求事項及びリソース（資源）の要求事項に基づいて設計される。しかし、この場合、多様で異なる要求事項に応じて固定のソーティングエンジンを設計（又は適用）するため、相当の設計−時間のオーバーヘッド（ｏｖｅｒｈｅａｄ）が消費される。

本背景技術として上述した内容は、本発明の背景に対する理解を増進させるためのものであり、従来技術を構成していない情報を含み得る。

米国特許第９２５１２１９号明細書米国特許第９３３６２７４号明細書米国特許第９４９５１３９号明細書米国特許第９６１９４９９号明細書米国特許第９７４０５１１号明細書米国特許第９１７６７７５号明細書米国特許出願公開第２０１５０１４９６９１号明細書

ＣＨＥＮ，Ｒｅｎｅｔａｌ．， "ＥｎｅｒｇｙａｎｄＭｅｍｏｒｙＥｆｆｉｃｉｅｎｔＭａｐｐｉｎｇｏｆＢｉｔｏｎｉｃＳｏｒｔｉｎｇｏｎＦＰＧＡ，" Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１５ＡＣＭ／ＳＩＧＤＡＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＦｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙｓ，ＡＣＭ，２０１５，３７ｐａｇｅｓ．ＪＵＮ，Ｓａｎｇ−Ｗｏｏｅｔａｌ．， "ＴｅｒａｂｙｔｅＳｏｒｔｏｎＦＰＧＡ−ＡｃｃｅｌｅｒａｔｅｄＦｌａｓｈＳｔｏｒａｇｅ，" ２０１７ＩＥＥＥ２５ｔｈＡｎｎｕａｌＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＦｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＣｕｓｔｏｍＣｏｍｐｕｔｉｎｇＭａｃｈｉｎｅｓ，ＩＥＥＥ，２０１７，８ｐａｇｅｓ．ＭＵＥＬＬＥＲ，Ｒｅｎｅｅｔａｌ．， "ＳｏｒｔｉｎｇＮｅｔｗｏｒｋｓｏｎＦＰＧＡｓ，" ＴｈｅＶＬＤＢＪｏｕｒｎａｌ−ＴｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｎＶｅｒｙＬａｒｇｅＤａｔａＢａｓｅｓ，２０１２，２５ｐａｇｅｓ．ＭＵＳＬＩＭ，ＦａｈａｄＢｉｎｅｔａｌ．，"ＥｆｆｉｃｉｅｎｔＦＰＧＡＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＯｐｅｎＣＬＨｉｇｈ−ＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｉｎｇＡｐｐｌｉｃａｔｉｏｎｓｖｉａＨｉｇｈ−ＬｅｖｅｌＳｙｎｔｈｅｓｉｓ，" ＩＥＥＥＡｃｃｅｓｓ，Ｖｏｌ．５，２０１７，１６ｐａｇｅｓ．ＳＲＩＶＡＳＴＡＶＡ，Ａｊｉｔｅｓｈｅｔａｌ．， "ＡＨｙｂｒｉｄＤｅｓｉｇｎｆｏｒＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＬａｒｇｅ−ｓｃａｌｅＳｏｒｔｉｎｇｏｎＦＰＧＡ，" ２０１５ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｅＣｏｎＦｉｇｕｒａｂｌｅＣｏｍｐｕｔｉｎｇａｎｄＦＰＧＡｓ，ＩＥＥＥ，２０１５，６ｐａｇｅｓ．

本発明は、上記従来の問題点に鑑みてなされたものであって、本発明の目的は、ストレージ周辺の階層的ソート加速のためのストレージシステム及び方法を提供することにある。

上記目的を達成するためになされた本発明の一態様によるストレージシステムは、ソート演算（ｏｐｅｒａｔｉｏｎ）に関連するデータエレメントの配列を格納するストレージ装置と、前記ストレージ装置とホストコンピュータとの間の通信を可能に（ｆａｃｉｌｉｔａｔｅ）するストレージインターフェースと、前記ストレージ装置に通信可能に接続された再構成可能な処理装置（ｒｅｃｏｎｆｉｇｕｒａｂｌｅｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅ）と、を備え、前記再構成可能な処理装置は、前記ストレージ装置からリード（ｒｅａｄ）され、前記ストレージ装置に格納された前記データエレメントの配列に対応する入力データを格納するメモリと、前記ホストコンピュータから受信されたソートコマンド（ＳＯＲＴｃｏｍｍａｎｄ）に応じて、前記メモリに格納された入力データに対する前記ソート演算を実行する１つ以上の演算コンポーネント（ｃｏｍｐｕｔｅｃｏｍｐｏｎｅｎｔ）有するカーネルを含み、前記再構成可能な処理装置は、前記ソート演算を加速化する前記１つ以上の演算コンポーネントを動的にインスタンス化（ｉｎｓｔａｎｔｉａｔｅ）する。

前記ストレージ装置は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）を含み、前記再構成可能な処理装置は、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を含み得る。
前記入力データは、前記ホストコンピュータによって前記ＳＳＤからリードされて前記ホストコンピュータの１次メモリ（ｐｒｉｍａｒｙｍｅｍｏｒｙ）にロード（ｌｏａｄ）され、前記ＦＰＧＡの前記メモリは、前記ホストコンピュータの１次メモリから前記入力データを受信し得る。
前記ストレージシステムは、前記メモリと前記ＳＳＤとの間の直接相互接続（ｄｉｒｅｃｔｉｎｔｅｒｃｏｎｎｅｃｔ）を更に含み、前記ＦＰＧＡは、前記直接相互接続を通じて前記ＳＳＤから前記メモリに前記入力データをリードする前記ＳＳＤに直接アクセスし得る。
前記ＦＰＧＡ及び前記ＳＳＤは、同一の回路ボード上に実装され得る。
前記ＦＰＧＡは、前記ＳＳＤからデータをリードする場合、前記ホストコンピュータをバイパスするためにＰ２Ｐ（Ｐｏｉｎｔ−ｔｏ−Ｐｏｉｎｔ）通信を使用する前記直接相互接続を通じて前記ＳＳＤにアクセスし得る。
前記メモリは、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍ−ＡｃｃｅｓｓＭｅｍｏｒｙ）を含み得る。
前記１つ以上の演算コンポーネントは、複数の処理エレメント（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）を含み、前記複数の処理エレメントの各々は、ソーティングアルゴリズムに基づいて前記入力データに対応する前記データエレメントの配列のセグメントをソートし得る。
前記複数の処理エレメントの各々は、ローカルコンパレータ及びローカルマージャーを含み、前記ローカルコンパレータ及び前記ローカルマージャーは、前記ソーティングアルゴリズムを使用して前記セグメントから部分的にソートされた配列を生成し得る。
前記１つ以上の演算コンポーネントは、前記複数の処理エレメントの各々の出力に接続された処理ユニット（ｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）を更に含み、前記処理ユニットは、前記ソーティングアルゴリズムに基づいて前記複数の処理エレメントの前記出力をソートし得る。
前記処理ユニットは、グローバルコンパレータ及びグローバルマージャーを含み、前記グローバルコンパレータ及び前記グローバルマージャーは、前記ソーティングアルゴリズムを使用して、前記複数の処理エレメントによって前記部分的にソートされた配列から前記入力データの完全にソートされた配列を生成し得る。
前記ソーティングアルゴリズムは、バイトニックソートアルゴリズム（Ｂｉｔｏｎｉｃｓｏｒｔｉｎｇａｌｇｏｒｉｔｈｍ）であり得る。
前記再構成可能な処理装置は、前記データエレメントの配列のサイズに応じてランタイム（ｒｕｎ−ｔｉｍｅ）に多数の前記複数の処理エレメント及び前記処理ユニットを動的にインスタンス化し得る。
前記再構成可能な処理装置は、前記データエレメントの配列のサイズを識別し、１つ以上のしきい値と前記データエレメントの配列のサイズとを比較し、前記比較に基づいて、多数の前記複数の処理エレメント及び前記処理ユニットをインスタンス化し得る。

上記目的を達成するためになされた本発明の一態様による方法は、ソート演算に関連するデータエレメントの配列を格納するストレージ装置、前記ストレージ装置とホストコンピュータとの間の通信を可能にするストレージインターフェース、及び前記ストレージ装置に通信可能に連結された再構成可能な処理装置を備えるストレージシステムのソート演算を動的にスケーリング（調整）（ｓｃａｌｉｎｇ）する方法であって、前記方法は、前記再構成可能な処理装置によって、前記ホストコンピュータからソートコマンドに関連するデータエレメントの配列のサイズを識別するステップと、前記再構成可能な処理装置によって、前記配列のサイズと１つ以上のしきい値とを比較するステップと、前記再構成可能な処理装置によって、前記ソート演算を加速化するために、前記比較に基づいて１つ以上の演算コンポーネントをインスタンス化（ｉｎｓｔａｎｔｉａｔｅ）するステップと、を有する。

前記ストレージ装置は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）を含み、前記再構成可能な処理装置は、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を含み得る。
前記１つ以上の演算コンポーネントをインスタンス化するステップは、１つ以上のロジックブロック、及び前記ＦＰＧＡのカーネルの１つ以上の相互接続を再構成するステップを含み得る。
前記方法は、少なくとも１つのローカルソート演算コンポーネント（ｌｏｃａｌｓｏｒｔｃｏｍｐｕｔｅｃｏｍｐｏｎｅｎｔ）によって、前記データエレメントの配列の少なくとも１つのセグメントをソートするステップと、前記少なくとも１つのローカルソート演算コンポーネントによって、前記少なくとも１つセグメントのソートされた配列を生成するステップと、を更に含み、前記１つ以上の演算コンポーネントをインスタンス化するステップは、前記再構成可能な処理装置によって、前記少なくとも１つのローカルソート演算コンポーネントをインスタンス化するステップを含み得る。
前記方法は、複数のローカルソート演算コンポーネントの各々によって、前記データエレメントの配列の異なるセグメントをソートするステップと、前記複数のローカルソート演算コンポーネントの各々によって、対応するセグメントの部分的にソートされた配列を生成するステップと、を更に含み、前記１つ以上の演算コンポーネントをインスタンス化するステップは、前記再構成可能な処理装置によって、前記複数のローカルソート演算コンポーネントをインスタンス化するステップを含み得る。
前記方法は、グローバルソート演算コンポーネント（ｇｌｏｂａｌｓｏｒｔｃｏｍｐｕｔｅｃｏｍｐｏｎｅｎｔ）によって、前記複数のローカルソート演算コンポーネントの各々によって生成された前記部分的にソートされた配列をソートするステップと、前記グローバルソート演算コンポーネントによって、前記部分的にソートされた配列のソートから前記データエレメントの配列に対応する完全にソートされた配列を生成するステップと、を更に含み、前記１つ以上の演算コンポーネントをインスタンス化するステップは、前記再構成可能な処理装置によって、前記複数のローカルソート演算コンポーネントの各々の出力に接続された前記グローバルソート演算コンポーネントをインスタンス化するステップを更に含み得る。

本発明によると、多様な要求事項、資源（リソース）の利用可能性、及び／又はその他のエレメントに基づいて再構成可能なデザインとして広範囲な性能と領域とのトレードオフ（ｔｒａｄｅ−ｏｆｆ）を提供するという側面で、ストレージシステムの設計適応性及び拡張性が向上する。
また、本発明によると、ソート演算の実行時間が短くなり、ソート演算によるエネルギー消費を減少させることができる。
また、本発明によると、ホストコンピュータによって課されたボトルネック現象（例えば、ＣＰＵ利用率、及びＰＣＩの帯域幅など）を減らすか又は除去することで、ソート演算の拡張性を向上させることができる。

本発明の一実施形態によるストレージシステムのシステム図である。本発明の一実施形態によるストレージシステムのブロック図である。本発明の一実施形態によるソート演算の例である。本発明の一実施形態によるストレージシステムの処理エレメントのブロック図である。本発明の一実施形態によるストレージシステムの処理ユニットのブロック図である。本発明の一実施形態によるソート演算を動的にスケーリングする方法を示すフローチャートである。本発明の一実施形態によるストレージシステムの他の例のシステム図である。

以下、本発明を実施するための形態の具体例を、図面を参照しながら詳細に説明する。本明細書に開示された態様及び特徴は、本発明の実施形態の詳細な説明から、当業者（当業者）により明らかになるであろう。

図面全体に亘って同一の参照符号は同一のコンポーネントを指す。但し、本発明は、多様な他の形態に実施される場合があり、ここで説明する内容に限定されて解釈されてはならない。むしろ、本明細書の実施形態は、本発明が徹底且つ完全なものになるための例として提供され、当業者に本発明の態様及び特徴を完璧に伝えるはずである。従って、本発明の技術分野における通常の知識を有する者が本発明の特徴及び機能を完全に理解するために必要としないプロセス、エレメント、並びに技術は、説明しない場合がある。特に言及しない限り、同一の参照符号は、図面及び明細書の説明で、同一のコンポーネントを指し、それに対する説明は繰り返されない。なお、図面で、コンポーネント、レイヤー（階層、ｌａｙｅｒ）、及び領域の相対的なサイズは、明確性のために誇張、及び／又は簡素化され得る。

本発明の実施形態によると、ソートの加速化ための階層構造が提供され、多様な要求事項、資源の利用可能性、及び／又はその他のエレメントに基づいて再構成可能なデザインとして、広範囲な性能と領域とのトレードオフ（ｔｒａｄｅ−ｏｆｆ）を提供するという側面から、設計適応性（柔軟性）及び拡張性が向上する。例えば、概括すると、テンプレートベースの（ｔｅｍｐｌａｔｅ−ｂａｓｅｄ）の階層構造が提供され、１つ以上のテンプレートベースの演算コンポーネント（ｃｏｍｐｕｔｅｃｏｍｐｏｎｅｎｔ）は、高度に最適化される。いくつかの実施形態で、演算のコンポーネントは、ソート演算の効率を増加させるために、多様な静的及び／又は動的要求事項（例えば、ユーザーの要求事項、資源の要求事項、データサイズなど）に応じて動的にインスタンス化（ｉｎｓｔａｎｔｉａｔｅ）される。例えば、いくつかの実施形態で、演算のコンポーネントは、入力データの配列（ａｒｒａｙ）のサイズに応じて増加及び／又は減少する（例えば、リアルタイム又は略リアルタイムで）。この場合、例えば固定されたソーティングエンジンによって課される入力データの配列に対する固定されたサイズの制限が減少又は除去される。

いくつかの実施形態で、ソート演算の性能は、ホストコンピュータではない再構成可能な処理装置でソートステップを実行することにより、向上又は最適化される。例えば、ソート演算を実行するために、ホストコンピュータのリソース（例えば、ＣＰＵ利用率）を用いずに、再構成可能な処理装置によってソート演算が実行される場合があるため、ホストコンピュータのリソースは、他の演算及び機能のために用いられる。従って、ホストコンピュータのリソース利用率（例えば、ＣＰＵ利用率）を減少させることによって、エネルギー消費量を減少させることができる。なお、いくつかの実施形態で、再構成可能な処理装置は、データレベル並列化（ｄａｔａ−ｌｅｖｅｌｐａｒａｌｌｅｌｉｓｍ）のために構成される場合があり、再構成可能な処理装置によって複数のソートステップを並列に（例えば、同時に）遂行するために、適切な並列ソーティングアルゴリズム（例えば、バイトニックソート（ＢｉｔｏｎｉｃＳｏｒｔ））が使用される。従って、ソート演算の実行時間は短くなり、ソート演算によるエネルギー消費は減少する。

いくつかの実施形態で、ホストコンピュータによって課されたボトルネック現象の（例えば、ＣＰＵ利用率、ＰＣＩの帯域幅など）を減らすか又は除去することで、ソート演算の拡張性は向上する。例えば、いくつかの実施形態で、再構成可能な処理装置とストレージ装置との間の直接相互接続（ｄｉｒｅｃｔｉｎｔｅｒｃｏｎｎｅｃｔ）が提供される場合があるため、データ伝送において、ホストコンピュータを関連させずに再構成可能な処理装置とストレージ装置との間の直接的なデータ伝送を可能にする。このような場合、例えばホストコンピュータがソートのためにストレージ装置から再構成可能な処理装置に入力データの配列を伝送する代わりに、再構成可能な処理装置は、ストレージ装置から直接相互接続を通じて入力データの配列に直接アクセスすることができる。従って、ホストコンピュータによって課されたボトルネック現象（例えば、ＣＰＵ利用率、ＰＣＩの帯域幅など）は減少又は除去され、例えばＣＰＵ利用率、実行時間などを減少させることによって、ホストコンピュータによるエネルギー消費が減少する。

図１は、本発明の一実施形態によるストレージシステムのシステム図である。

図１を参照すると、ストレージシステム１００は、ホストコンピュータ１０２、ストレージ装置１０４、及び再構成可能な処理装置（ｒｅｃｏｎｆｉｇｕｒａｂｌｅｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅ：ＲＰ）１０６（例えば、再構成可能な処理回路又は内蔵された処理装置）を含む。ホストコンピュータ１０２は、ストレージ装置１０４及び再構成可能な処理装置１０６に通信可能に連結され、コマンドに応じてストレージ装置１０４に格納されたデータエレメントを処理するためのコマンドをストレージ装置１０４及び再構成可能な処理装置１０６に提供する。例えば、ホストコンピュータ１０２は、再構成可能な処理装置１０６がストレージ装置１０４に格納されたデータエレメントの配列をソートするように、ソートコマンド（ＳＯＲＴｃｏｍｍａｎｄ）を提供する。

ホストコンピュータ１０２は、ホストプロセッサ１０８及びホストメモリ１１０を含む。ホストプロセッサ１０８は、ホストコンピュータ１０２の例としてＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）のような汎用プロセッサである。ホストメモリ１１０は、ホストコンピュータ１０２の高性能メインメモリ（例えば、１次メモリ）として見なされる。例えば、一実施形態で、ホストメモリ１１０は、ダイナミックランダムアクセスメモリ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＤＲＡＭ）のような揮発性メモリを含む（又は揮発性メモリである）。しかし、本発明はこれに限定されず、ホストメモリ１１０は、当業者（通常の技術者）に知られているように、ホストコンピュータ１０２に対する任意の適合する高性能メインメモリ（例えば、１次メモリ）の代替物を含み得る（又はホストコンピュータ１０２の任意の適合する高性能メインメモリ代替物であり得る）。例えば、他の実施形態で、ホストメモリ１１０は、Ｚ−ＮＡＮＤ^ＴＭ（サムスン（ｓａｍｓｕｎｇ）から提供される）、３ＤＸ−ＰＯＩＮＴ^ＴＭ（Ｉｎｔｅｌ及びＭｉｃｒｏｎＴｅｃｈｎｏｌｏｇｙから提供される）、相変化メモリ（ＰｈａｓｅＣｈａｎｇｅＭｅｍｏｒｙ）、抵抗メモリ（ＲｅｓｉｓｔｉｖｅＲＡＭ：ＲｅＲＡＭ）、ＳＴＴＲＡＭなどのように、高速アクセス、低い入力／出力（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ：Ｉ／Ｏ）レイテンシ（ｌａｔｅｎｃｙ）を提供することができる比較的高性能の不揮発性メモリである。

ストレージ装置１０４は、ホストコンピュータ１０２によってアクセスされるか及び／又はコマンド（ｃｏｍｍａｎｄ）（例えば、ソート（ＳＯＲＴ））に基づいて再構成可能な処理装置１０６によって処理されるデータエレメントを永続的に格納する２次メモリとして見なされる。このような文脈において、ストレージ装置１０４は、ホストメモリ１１０の高性能メモリと比較して、相対的により遅いメモリを含むか又は相対的により遅いメモリである。例えば、一実施形態で、ストレージ装置１０４は、データエレメントを永続的に格納する不揮発性メモリ（例えば、ＮＡＮＤフラッシュメモリ（ＮＡＮＤｆｌａｓｈｍｅｍｏｒｙ））を含み、ソリッドステートドライブ（Ｓｏｌｉｄ −ＳｔａｔｅＤｒｉｖｅ：ＳＳＤ）を含むか又はソリッドステートドライブである。しかし、本発明はこれに限定されず、他の実施形態で、ストレージ装置１０４は、ホストコンピュータ１０２のコマンド（例えば、ソートコマンド）に応じて再構成可能な処理装置１０６によって処理される（例えば、ソートされる）データエレメントの配列（ａｒｒａｙ）を永続的に格納するための、当業者に知られている任意の適切なメモリを有する任意の適切なストレージ装置を含むか又は任意の適切なストレージ装置である。更に他の実施形態で、ストレージ装置１０４は、ソートのために再構成可能な処理装置１０６にデータを伝送する任意の適切な装置を含む。例えば、一実施形態で、ストレージ装置１０４は、ネットワークカード（ｎｅｔｗｏｒｋｃａｒｄ）、イーサネット（登録商標）ＳＳＤ（Ｅｔｈｅｒｎｅｔ（登録商標）ＳＳＤ）、ウェーブカード（ｗａｖｅｃａｒｄ）などを含む。多様な実施形態で、ストレージ装置１０４は、大型フォームファクター標準（ｌａｒｇｅｆｏｒｍｆａｃｔｏｒｓｔａｎｄａｒｄ）（例えば、３．５インチハードドライブのフォームファクター）、小型フォームファクター標準（ｓｍａｌｌｆｏｒｍｆａｃｔｏｒｓｔａｎｄａｒｄ）（例えば、２．５インチハードドライブのフォームファクター）、Ｍ．２フォームファクターなどに符合する。他の実施形態で、ストレージ装置１０４は、このようなフォームファクターに適するか又は要求される任意の派生物に符合する。

本実施形態で、ストレージ装置１０４は、ホストコンピュータ１０２とストレージ装置１０４との間の通信（例えば、コネクタ及びプロトコルを使用して）を容易にするためのストレージインターフェース１１２を含む。一実施形態で、ストレージインターフェース１１２は、ホストコンピュータ１０２とストレージ装置１０４との間のストレージ要請及び応答の交換を容易にする。一実施形態で、ストレージインターフェース１１２は、ストレージ装置１０４からホストコンピュータ１０２のホストメモリ１１０へのデータ伝送、及びホストメモリからストレージ装置１０４へのデータ伝送を容易にする。例えば、一実施形態で、ストレージインターフェース１１２（例えば、コネクタ及びそのプロトコル）は、ＰＣＩｅ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＥｘｐｒｅｓｓ）、イーサネット（登録商標）を介するＲＤＭＡ（ＲｅｍｏｔｅＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）、ＳＡＴＡ（ＳｅｒｉａｌＡｄｖａｎｃｅｄＴｅｃｈｎｏｌｏｇｙＡｔｔａｃｈｍｅｎｔ）、ファイバーチャネル（ＦｉｂｒｅＣｈａｎｎｅｌ）、ＳＡＳ（ＳｅｒｉａｌＡｔｔａｃｈｅｄＳＣＳＩ）、不揮発性メモリエクスプレス（Ｎｏｎ−ＶｏｌａｔｉｌｅＭｅｍｏｒｙＥｘｐｒｅｓｓ：ＮＶＭＥｘｐｒｅｓｓ）などを含む（又は、これらに符合する）。他の実施形態で、ストレージインターフェース１１２（例えば、コネクタ及びそのプロトコル）は、例としてイーサネットやＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などのような多様な汎用インターフェースを含むか又は多様な汎用インターフェースに符合する。

再構成可能な処理装置１０６は、ホストコンピュータ１０２のコマンドに基づいてストレージ装置１０４に格納されたデータエレメントを処理する。例えば、一実施形態で、再構成可能な処理装置１０６は、ホストコンピュータ１０２のソートコマンドに基づいてストレージ装置１０４に格納されたデータエレメントの配列をソートする。再構成可能な処理装置１０６は、ホストコンピュータ１０２の代わりにソートコマンドを実行するため、ホストコンピュータ１０２の資源使用量（例えば、ＣＰＵ利用率など）が減少する。従って、再構成可能な処理装置１０６は、ストレージ装置１０４に格納されたデータエレメントにアクセスするために、ストレージ装置１０４と通信可能に連結される。例えば、多様な実施形態で、再構成可能な処理装置１０６は、ホストコンピュータ１０２及び／又は直接（又は専用）相互接続を通じてストレージ装置１０４に通信可能に連結され、これは図６を参照してより詳細に説明する。このような文脈において、再構成可能な処理装置１０６は、ホストプロセッサ１０８から分離・区別されるストレージ装置１０４のためのストレージプロセッサ（又は補助プロセッサ）と見なされる。多様な実施形態で、再構成可能な処理装置１０６は、集積回路（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＩＣ）として実装され、ストレージ装置１０４と同一のボード（例えば、同一の回路ボード）上に内蔵されるか又はストレージ装置１０４から分離されたボード（例えば、分離された回路ボード）上に実装される。

一実施形態で、再構成可能な処理装置１０６は、多様な処理ステップが並列に（例えば、同時に）実行されるように、データエレメントの並列処理のために構成される。例えば、一実施形態で、再構成可能な処理装置１０６は、データエレメントの配列の行（ｒｏｗ）及び／又は列（ｃｏｌｕｍｎ）を並列に（又は同時に）ソートするのに適したアルゴリズムで構成されたＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を含むか又はそのようなＦＰＧＡであるが、これに限定されるものではない。例えば、他の実施形態で、再構成可能な処理装置１０６は、データエレメントを並列に（又は同時に）ソートするのに適したアルゴリズム、或いはデータエレメントを逐次プロセスでソートするのに適したアルゴリズムで構成された再構成可能な（ｒｅｃｏｎｆｉｇｕｒａｂｌｅ）特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）（例えば、動的プログラマブル（ｄｙｎａｍｉｃａｌｌｙｐｒｏｇｒａｍｍａｂｌｅ）ＡＳＩＣ）を含むか又はそのようなＡＳＩＣである。

より詳細に、本実施形態で、再構成可能な処理装置１０６は、再構成可能な処理メモリ（ＲｅｃｏｎｆｉｇｕｒａｂｌｅＰｒｏｃｅｓｓｉｎｇＭｅｍｏｒｙ）１１４、及び再構成可能な処理アクセラレータ（ＲｅｃｏｎｆｉｇｕｒａｂｌｅＰｒｏｃｅｓｓｉｎｇＡｃｃｅｌｅｒａｔｏｒ）１１６を含む。一施形態で、再構成可能な処理メモリ１１４は、ホストメモリ１１０及びストレージ装置１０４のメモリとは異なる（例えば、区別される）再構成可能な処理装置１０６の内部メモリと見なされる。一実施形態で、再構成可能な処理メモリ１１４は、再構成可能な処理装置１０６によってストレージ装置１０４から検索（回収）されたデータエレメント（例えば、ホストコンピュータ１０２を通して又は直接相互接続を通じて検索されたデータエレメント）をキャッシング（ｃａｃｈｉｎｇ）（例えば、貯蔵又は一時的貯蔵）し、ホストコンピュータ１０２のソートコマンドに基づいて再構成可能な処理メモリ１１４からキャッシュされた（ｃａｃｈｅｄ）データエレメントをソートするために用いられる。この文脈において、再構成可能な処理メモリ１１４は、ホストメモリ１１０の容量とストレージ装置１０４のメモリの容量とを比較した場合、低容量メモリと見なされる。多様な実施形態で、再構成可能な処理メモリ１１４は、ＤＲＡＭのような揮発性メモリを含むか又は揮発性メモリであるが、これに限定されず、他の実施形態で、再構成可能な処理メモリ１１４は、当業者に知られている任意の適切な揮発性メモリ又は不揮発性メモリを含むか又は任意の適切な揮発性メモリ若しくは不揮発性メモリである。例えば、多様な実施形態で、再構成可能な処理メモリ１１４は、Ｚ−ＮＡＮＤ^ＴＭ、３ＤＸ−ＰＯＩＮＴ^ＴＭ、ＴＣＭ（Ｔｉｇｈｔｌｙ−ＣｏｕｐｌｅｄＭｅｍｏｒｙ）、相変化メモリ（ＰｈａｓｅＣｈａｎｇｅＭｅｍｏｒｙ）、抵抗メモリ（ＲｅｓｉｓｔｉｖｅＲＡＭ：ＲｅＲＡＭ）、ＳＴＴＲＡＭなどを含むか又はそれらである。

一実施形態で、再構成可能な処理アクセラレータ１１６は、コマンド（例えば、ソートコマンド）に関連する動作を容易に（例えば、加速）するように構成される。例えば、再構成可能な処理アクセラレータ１１６は、データエレメント（例えば、データエレメントの配列）をソートするための任意の適切なソーティングアルゴリズムを実装するように構成された複数の演算コンポーネントを含む。例えば、演算コンポーネントは、１つ以上の処理エレメント（ＰｒｏｃｅｓｓｉｎｇＥｌｅｍｅｎｔ）及び／又は１つ以上の処理ユニット（ＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を含み、以下でより詳細に説明する。一実施形態で、演算コンポーネント（例えば、処理ユニット及び処理エレメント）は、合成（構成）可能な場合があり（ｃｏｍｐｏｓａｂｌｅ）、ユーザーの要求事項、アプリケーションのタイプ（例えば、データベース・アプリケーション、グラフィックスアプリケーションなど）、データエレメントの配列のサイズ、再構成可能な処理装置１０６の資源制約（例えば、メモリ、チャンネルの数など）、再構成可能な処理装置１０６によって演算されるか又は演算されるのを待機する（例えば、同時に処理されるか又は逐次に処理される）他の動作の数などに応じて動的に構成可能な場合があり、以下でより詳細に説明する。

図２は、本発明の一実施形態によるストレージシステムのブロック図である。図２に示すストレージシステム２００は、図１に示したストレージシステム１００（図１参照）と同一であるか又は実質的に同一であり（又は類似であり）、それに応じて重複する説明は簡略化されるか又は繰り返されない場合が有る。以下、便宜上、ＳＳＤ１０４ａはストレージ装置１０４（図１参照）の代表的な例として説明し、ＤＲＡＭ１１４ａは再構成可能な処理メモリ１１４（図１参照）の代表的な例として説明し、ＦＰＧＡ１０６ａは再構成可能な処理装置１０６（図１参照）の代表的な例として説明する。しかし、上述したように、本発明は、このような代表的な例に限定されず、ストレージ装置１０４、再構成可能な処理メモリ１１４、及び再構成可能な処理装置１０６のそれぞれは、これに関連して上述した例の中の適切なものを含む（又は適切なものである）か、及び／又は当業者に知られている他の適切な例を含む。

図２を参照すると、本実施形態で、ストレージシステム２００は、ホストコンピュータ１０２、ＳＳＤ１０４ａ、及びＦＰＧＡ１０６ａを含む。ホストコンピュータ１０２は、ＳＳＤ１０４ａ及びＦＰＧＡ１０６ａに通信可能に連結され、ＳＳＤ１０４ａに格納されたデータエレメントを処理するためのコマンドを提供する。例えば、ホストコンピュータ１０２はソートコマンドを提供し、ＦＰＧＡ１０６ａは適切なソーティングアルゴリズムに基づいてＳＳＤ１０４ａに格納されたデータエレメントの配列をソートする。本実施形態で、ＦＰＧＡ１０６ａは、ＤＲＡＭ１１４ａ、ＦＰＧＡアクセラレータ１１６ａ、及びＤＲＡＭ１１４ａとＦＰＧＡアクセラレータ１１６ａとの間の通信を容易にするためのインターフェース２０４を有するＦＰＧＡボード２０２（例えば、ＦＰＧＡ回路ボード）を含む。例えば、一実施形態で、ＤＲＡＭ１１４ａはＦＰＧＡボード２０２上に複数のメモリセルとして実装され、ＦＰＧＡアクセラレータ１１６ａはＦＰＧＡボード２０２のカーネル（例えば、ソートカーネル）上に実装される。

本明細書で、「メモリセル」は、データを格納するメモリの最小単位を意味する。例えば、ＤＲＡＭメモリセルは、１ビットのデータを格納し、電荷を貯蔵するためのキャパシタ（ｃａｐａｃｉｔｏｒ）、及び１ビットのデータとしてキャパシタを選択的に充電するためのトランジスタ（ｔｒａｎｓｉｓｔｏｒ）を含む。

一実施形態で、ＤＲＡＭ１１４ａは入力データ（例えば、ＳＳＤ１０４ａのソートされるデータエレメント）をキャッシュし、インターフェース２０４はＤＲＡＭ１１４ａからＦＰＧＡアクセラレータ１１６ａのＢＲＡＭ（ＢｌｏｃｋＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０６に入力データをリード（ｒｅａｄ）するのに使用される。例えば、インターフェース２０４は５１２ビットＡＸＩ（ＡｄｖａｎｃｅｄＥｘｔｅｎｓｉｂｌｅＩｎｔｅｒｆａｃｅ）を含むか又は５１２ビットＡＸＩであるが、本発明はこれに限定されるものではなく、インターフェース２０４は、当業者に知られているように、ＤＲＡＭ１１４ａからＢＲＡＭ２０６に入力データをリードするための任意の適切なプロトコルを使用する任意の適切なインターフェースを含むか又は任意の適切なインターフェースである。

ＦＰＧＡアクセラレータ１１６ａは、ＢＲＡＭ２０６、ＢＲＡＭバッファ２０８、複数の演算コンポーネント２１０、及びデータリオーダラ（ｒｅｏｒｄｅｒｅｒ、再整列器）２１２を含む。ＦＰＧＡアクセラレータ１１６ａは、任意の適切なソーティングアルゴリズムを利用してＢＲＡＭ２０６の入力データをソートし、ソートされた入力データをＢＲＡＭバッファ２０８に格納する。一実施形態で、ＦＰＧＡアクセラレータ１１６ａによって使用されるソーティングアルゴリズムは、再構成可能な処理装置１０６の装置タイプ、再構成可能な処理装置１０６の処理能力及び／又は機能に応じて決定され（例えば、予め決定され）、その結果としてソート演算（動作）は向上する（例えば、加速され、改善され、及び／又は最適化される）。

一実施形態で、再構成可能な処理装置１０６がＦＰＧＡ１０６ａである場合、使用されるソーティングアルゴリズムは、例えばバイトニックソートのように、ＦＰＧＡ１０６ａの並列処理機能を活用する並列ソーティングアルゴリズムである。一実施形態によると、他のソーティングアルゴリズムと比較した場合、バイトニックソートは、並列処理の実装において、性能を向上又は最適化することができる。バイトニックソートの各ステップ（例えば、全てのステップ）で、動作の数は同一に維持され、バイトニックソートの主な動作は、比較及びスワップ（ｓｗａｐ）である。例えば、２つの数値が比較され、ソート方向に基づいて２つの数値はスワップされる。なお、バイトニックソートで、全てのソートステップは互いに並列に（例えば、同時に）実行される。従って、バイトニックソートの全てのステップにおいて、割り当てられた全てのリソースが使用される。従って、バイトニックソートは、他のソーティングアルゴリズム（例えば、クイックソート（ＱｕｉｃｋＳｏｒｔ）、マージソート（ＭｅｒｇｅＳｏｒｔ）など）と比較すると、より高いタイミングの複雑性を有するが、バイトニックソートは、例えばＦＰＧＡ、ＧＰＵｓ（ＧｒａｐｈｉｃａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）などのように、並列演算機能を有するプロセッサに好ましい。同様に、ＦＰＧＡ１０６ａはデータレベルの並列化のために構成されるため、ＦＰＧＡ１０６ａは、他のソーティングアルゴリズムと比較すると、バイトニックソートの加速を更に向上させたり最適化させたりすることができる。しかし、本発明はこれに限定されるものではなく、例えばクイックソート、マージソート、挿入ソート（ＩｎｓｅｒｔｉｏｎＳｏｒｔ）、選択ソート、又はこれらの組み合わせのように、入力データをソートするために任意の適切な並列又は逐次ソートアルゴリズムが使用される。

図３を簡単に参照すると、図３は、本発明の一実施形態によるソート演算の例である。この例で、図３は、８つのランダムな入力に対するバイトニックソートの例を示している。バイトニックソートは、ソートされた配列を生成するためにバイトニックシーケンスを使用する並列ソーティングアルゴリズムである。例えば、バイトニックソートは、バイトニックシーケンスを単調に（ｍｏｎｏｔｏｎｉｃａｌｌｙ）ソートされたシーケンスに変換する。バイトニックシーケンスは、１つが昇順でソートされ且つもう１つが降順でソートされた２つのソートされたセグメントを含む部分的にソートされた配列と見なされる。例えば、サイズがＮである２つのソートされた配列は、サイズが２Ｎであるソートされた配列を生成するために結合されてマージされる（ここで、Ｎは整数）。２番目の配列は、バイトニックシーケンスを生成するために反転されて１番目の配列に連結される。例えば、バイトニックシーケンス（１、２、２、４、５、６、８、５、４、３、２、１）は、昇順及び降順の２つのソートされた単調のサブシーケンスを含む部分的にソートされたリストと見なされる。バイトニックシーケンスは、バイトニックシーケンスをソートされた配列に変換するために（例えば、バイトニックマージを使用して）マージされる。

図３に示すように、８つのランダム入力に対して、バイトニックソートは３つのステップ（３０２、３０４、３０６）を含み、各ステップは矢印により表示された４つの比較を含む。実線の矢印は昇順の比較を示し、点線の矢印は降順の比較を示す。比較毎に２つの数値が比較され、ソートの方向に沿ってスワップされる。バイトニックソートで、エレメントは事前に定義された順序で比較され、比較の順序は入力データに依存しない。従って、バイトニックソートの各ステップ（例えば、全てのステップ）（３０２、３０４、３０６）で、割り当てられた全てのリソースが使用され、各ステップは、並列に（例えば、同時に）実行される。以下、便宜上バイトニックソートは、ソート演算を加速化するためのＦＰＧＡアクセラレータ１１６ａによって使用されるソーティングアルゴリズムの代表的な例として記述される。しかし、上述したように、本発明は、ソーティングアルゴリズムとしてバイトニックソートを使用する代表的な例に限定されず、ＦＰＧＡアクセラレータ１１６ａによって使用されるソーティングアルゴリズムは、上述した他の例としての分類アルゴリズムの適切ないずれか１つを含むか又は適切ないずれか１つであり、当業者に知られているソーティングアルゴリズムの中の他の適した例を含み得る。

上述した図２を再び参照すると、複数の演算コンポーネント２１０（図２参照）は、バイトニックソーティングアルゴリズム（又は任意の他の適切なソーティングアルゴリズム）を利用して、ＢＲＡＭ２０６（図２参照）に格納された入力データ（例えば、データエレメント）をソートするように構成される。本実施形態で、複数の演算コンポーネント２１０は、１つ以上の処理エレメント（ＰＥ、図２を参照）及び／又は１以上の処理ユニット（ＰＵ、図２を参照）を含む。例えば、一実施形態で、複数の演算コンポーネント２１０は１つ以上の処理ユニット（ＰＵ）を含み、各処理ユニット（ＰＵ）は要求事項（例えば、ユーザーの要求事項、アプリケーションの要求事項、データサイズの要求事項など）に依存する複数の処理エレメント（ＰＥ）を含む。他の例で、演算コンポーネント２１０は１つの処理ユニット（ＰＵ）を含み、１つの処理ユニット（ＰＵ）は要求事項に依存する任意の適切な又は所望の個数の処理エレメント（ＰＥ）を含む。更に他の例で、演算コンポーネント２１０は、要求事項に依存する単一の処理エレメント（ＰＥ）を含み、この場合、どのような処理ユニット（ＰＵ）も含まないことが有る。

即ち、処理エレメント（ＰＥ）はＢＲＡＭ２０６からリードされたデータエレメント（例えば、整数エレメント）をソートする下位のソート演算のコンポーネント（例えば、ローカル（局部）ソート演算コンポーネント）と見なされ、処理ユニット（ＰＵ）は処理エレメント（ＰＥ）の出力をソートする上位ソート演算のコンポーネント（例えば、グローバル（全域）ソート演算コンポーネント）として見なされる。例えば、処理ユニット（ＰＵ）は複数の処理エレメント（ＰＥ）を含み、処理ユニット（ＰＵ）は複数の処理エレメント（ＰＥ）の出力をソートする。なお、複数の処理ユニット（ＰＵ）がある場合、データリオーダラ（再整列器）２１２は、複数の処理ユニット（ＰＵ）の出力をソート（例えば、整列及び／又はマージ）する。しかし、本発明はこれに限定されず、データリオーダラ（再整列器）２１２は省略され得る。例えば、ＦＰＧＡ１０６ａ（図２を参照）が単一の処理エレメント（ＰＥ）のみを含むか又は複数の処理エレメント（ＰＥ）を含む単一の処理ユニット（ＰＵ）のみを含む場合、データリオーダラ（再整列器）２１２は省略される。

一実施形態で、各々の処理ユニット（ＰＵ）及び処理エレメント（ＰＥ）は、動的に合成及び／又は構成される場合が有る。例えば、一実施形態で、ＦＰＧＡ１０６ａは、例えばソート演算の効率を高めたり向上させたりするために、必要又は希望により任意の所望の又は適切な固数の処理エレメント（ＰＥ）及び／又は処理ユニット（ＰＵ）を動的にインスタンス化する。例えば、異なるデータベース・アプリケーションは多様な演算及び仕様を有し、従ってＦＰＧＡ１０６ａ上で異なるデータベース・アプリケーションを加速化するために、異なる演算及びカーネルがＦＰＧＡ１０６ａ上で実装される。この場合、ＦＰＧＡ１０６ａの利用可能な資源はカーネル（例えば、ソートカーネルとしてＦＰＧＡアクセラレータ１１６ａ（図２を参照））の中で配置され、従って各カーネルの利用可能な資源の量は異なるアプリケーション毎に異なる。

従って、一実施形態で、ＦＰＧＡ１０６ａは、多様なユーザーの要求事項、アプリケーションの要求事項、他の動作（例えば、リード動作、ライト（ｗｒｉｔｅ）動作など）をサポートするための要求事項、データサイズの要求事項、資源（リソース）の要求事項などに応じて処理ユニット（ＰＵ）及び／又は処理エレメント（ＰＥ）の個数を増加又は減少させる。例えば、ＦＰＧＡ１０６ａは、プログラム可能な（ｐｒｏｇｒａｍｍａｂｌｅ）ロジックブロック（ｌｏｇｉｃｂｌｏｃｋ）及び多様で異なる構成において、ロジックブロックを連結する複数の再構成可能な相互接続（ｒｅｃｏｎｆｉｇｕｒａｂｌｅｉｎｔｅｒｃｏｎｎｅｃｔ）を含む。ロジックブロック及び相互接続は、適切なハードウェア記述言語（ＨａｒｄｗａｒｅＤｅｓｃｒｉｐｔｉｏｎＬａｎｇｕａｇｅ：ＨＤＬ）を利用してプログラム（例えば、再プログラミング又は再構成）される。この場合、ＦＰＧＡ１０６ａは、多様で静的な及び／又は変更される要求事項に基づいて、ランタイム（例えば、リアルタイム又は略リアルタイム）及び／又は設定時にロジックブロック及び／又は相互接続を動的に再プログラミング又は再構成することで、任意の適切な又は所望の個数の処理ユニット（ＰＵ）及び／又は処理エレメント（ＰＥ）をインスタンス化することができる。一実施形態で、並列処理のソーティングアルゴリズムが使用される場合、ＦＰＧＡ１０６ａは、並列に分類段階を遂行する処理エレメント（ＰＥ）及び／又は処理ユニット（ＰＵ）の数を増加又は減少させることによって、ソート演算の並列化を増加又は減少させる。処理ユニット（ＰＵ）及び処理エレメント（ＰＥ）の例としての構造及び／又は構成の実装は、次の図４及び図５を参照して、より詳細に説明する。

図４は、本発明の一実施形態によるストレージシステムの処理エレメント（例えば、ローカルソート演算コンポーネント（ｌｏｃａｌｓｏｒｔｃｏｍｐｕｔｅｃｏｍｐｏｎｅｎｔ））のブロック図である。図４に示す処理エレメント（ＰｒｏｃｅｓｓｉｎｇＥｌｅｍｅｎｔ：ＰＥ）４００は、上述した図３を参照して説明した処理エレメント（ＰＥ、図３を参照）と同一であるか又は実質的に同一（又は類似）であり、従って重複する説明は簡略化されるか又は繰り返されない。

図４を参照すると、処理エレメント４００は、コントローラ４０２、ローカルコンパレータ４０４（例えば、配列コンパレータ）、及びローカルマージャー４０６（例えば、バイトニックマージャー）を含む。コントローラ４０２は、ＢＲＡＭバッファ２０８から、図４に示すバイトニックソート４５０のような適切なソーティングアルゴリズムを使用して処理エレメント４００によってソートされる入力データをリードする。例えば、ローカルコンパレータ４０４はＢＲＡＭバッファ２０８からリードされた入力データを比較し、ローカルマージャー４０６は入力データのソートされた配列を生成するためのソーティングアルゴリズムに基づいて入力データをマージする。ソートされた配列は、ＢＲＡＭバッファ２０８に格納される。

代表的な例として、処理エレメント４００は、（例えば、ローカルコンパレータ４０４及びローカルのマージャー４０６を用いて、）図４の参照符号４５０で示すように、各行が６４個のエレメントを有する１０２４個の行をソートするローカルソート演算を遂行することにより、６４Ｋの整数エレメントをローカルにソートする。例えば、１０２４個の個別にソートされた行は、ローカルマージャー４０６を利用して併合（例えば、バイトニックマージ）を遂行した後、６４Ｋエレメント（Ｋ＝１０２４）にソートされた配列になる。しかし、本発明は、図４に示す代表的な例に限定されず、処理エレメント４００は処理エレメント４００のために割り当てられたＦＰＧＡ１０６ａ（図２を参照）のリソース（例えば、ＤＲＡＭ１１４ａ（図２を参照）及び／又はＢＲＡＭ２０６（図２参照）のサイズ及び／又は容量）に応じて、任意の適切な又は所望の数の整数エレメントをソートすることができる。

一実施形態で、処理エレメント４００によってソートされた入力データは、ホストコンピュータ１０２（図１参照）のソートコマンドに関連付けられたデータエレメントのセグメント（例えば、部分又はサブセット）である。例えば、一実施形態で、ソート要請に関連付けられたデータエレメントの配列のサイズは、単一の処理エレメント４００を利用して効率的にソートするデータの量を超過する。この場合、ＦＰＧＡ１０６ａは１つ以上の追加的な処理エレメント４００をインスタンス化し、各処理エレメント４００はデータエレメントの部分的なソート配列を生成するためにソートコマンドに関連付けられたデータエレメントの異なるセグメント（例えば、異なる部分又は異なるサブセット）をソートする。一実施形態で、処理エレメント４００は、それらの対応する部分的にソートされた配列を互いに並列に（例えば、同時に）生成する。例えば、処理エレメント４００によって使用されるソーティングアルゴリズムがバイトニックソートである場合、処理エレメント４００の各々は、入力データに対する比較を互いに並列に（例えば、同時に）遂行する。一実施形態で、複数の処理エレメント４００は、データエレメントの一部のセグメントを互いに並列にソートし、その後データエレメントの他の部分の付加的なセグメントを互いに並列にソートする（例えば、入力データが多すぎて一度に全てソートすることができない場合）。一実施形態で、次の図５を参照して、より詳細に説明するように、ＦＰＧＡ１０６ａは、データエレメントの完全にソートされた配列を生成するために、複数の処理エレメント４００の出力をソートする１つ以上の処理ユニット（ＰＵ）（図２を参照）を更にインスタンス化する。

図５は、本発明の一実施形態によるストレージシステムの処理ユニット（例えば、グローバル（全域）ソート演算のコンポーネント（ｇｌｏｂａｌｓｏｒｔｃｏｍｐｕｔｅｃｏｍｐｏｎｅｎｔ））のブロック図である。図５に示す処理ユニット５００は、上述した図３を参照して説明した処理ユニット（ＰＵ）図２を参照）と同一であるか又は実質的に同一（又は類似）であり、従って重複する説明は簡略化されるか又は繰り返されない。

図５を参照すると、処理ユニット５００は、複数の処理エレメント（ＰＥ０〜ＰＥ７）、アービタ（ａｒｂｉｔｅｒ）５０２、コントローラ５０４、アドレス変換器５０６、グローバル（全域）コンパレータ５０８、及びグローバル（全域）マージャー５１０を含む。各処理エレメント（ＰＥ０〜ＰＥ７）は、上述した図４を参照して説明した処理エレメント４００（図４参照）と同一であるか又は実質的に同一（又は類似）であり、従って重複する説明は簡略化されるか又は繰り返されない。

上述したように、一実施形態で、複数の処理エレメント（ＰＥ０〜ＰＥ７）の各々はソートコマンドに関連付けられたデータエレメントのセグメント（例えば、部分的又はサブセット）の部分的にソートされた配列を生成し、処理ユニット５００は、データエレメントの完全にソートされた配列を生成するために、複数の処理エレメント（ＰＥ０〜ＰＥ７）の出力をソート（例えば、グローバルにソート）する。図５は、８つの処理エレメント（ＰＥ０〜ＰＥ７）を示すが、本発明はこれに限定されず、処理ユニット５００は、要求事項（例えば、ユーザーの要求事項、アプリケーションの要求事項、データサイズの要求事項、資源の要求事項など）に応じて任意の適切な個数の処理エレメント（ＰＥ）を含む。

より詳細に、コントローラ５０４は、ソート（例えば、バイトニックソート）演算するための制御信号を提供する。アービタ５０２は、部分ソート（例えば、各処理エレメント（ＰＥ０〜ＰＥ７）による部分ソート出力）の多重繰り返しを処理する。例えば、アービタ５０２はアドレス変換器５０６にＢＲＡＭバッファ２０８（図４参照）上に格納された各処理エレメント（ＰＥ０〜ＰＥ７）の出力に対するアクセスを提供するため、処理エレメント（ＰＥ０〜ＰＥ７）の出力は処理ユニット５００によって追加でソートされる。例えば、アドレス変換器５０６は、処理ユニット５００によって（例えば、グローバルコンパレータ５０８及びグローバルマージャー５１０によって）追加でソートされるようにするために、処理エレメント（ＰＥ０〜ＰＥ７）の出力を処理ユニット５００のバッファにマッピングする。例えば、処理ユニット５００は、処理ユニット５００によるソートのために処理エレメント（ＰＥ０〜ＰＥ７）の出力を格納し、グローバルコンパレータ５０８及びグローバルマージャー５１０から出力されたソート結果を格納するＵＲＡＭ（ＵｎｉｆｉｅｄＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）バッファを含む。（例えば、処理エレメント（ＰＥ０〜ＰＥ７）の各々によって）全てのセグメントがソートされた後、部分配列の結果はグローバルコンパレータ５０８によってグローバル（全域的）に（例えば、バイトニックソーティングアルゴリズムに基づいて）ソートされ、全域的に配列をソートするためにソートされたセグメントはグローバルマージャー５１０を利用して（例えば、バイトニックマージアルゴリズムに基づいて）マージされる。入力データの配列がソートされる追加的なセグメントを含む場合、追加的なセグメントは処理エレメント（ＰＥ）によって部分的にソートされ、処理エレメントによって部分的にソートされた配列は処理ユニット５００によって追加的にソートされる。従って、ソート演算を遂行するために処理エレメント（ＰＥ）及び処理ユニット５００の任意の適切な組み合わせを動的にインスタンス化することで、ソート演算を加速化（例えば、向上及び／又は最適化）するための動的に拡張可能な階層構造が提供される。

図６は、本発明の一実施形態によるソート演算を動的にスケーリングする方法を示すフローチャートである。しかし、本発明は、図６に示す方法６００の動作の順序又は個数に限定されず、当業者によって認識される動作の任意の所望の順序又は個数に変更され得る。例えば、一実施形態で、動作の順序が変わるか又は動作がより少ないか若しくは追加の動作を含む。

図６を参照すると、方法６００は、開始し、ステップ６０５で、ホストコンピュータ１０２（図１参照）からソートコマンドを受信する。例えば、ソートコマンドは、ＳＳＤ１０４ａ（図２を参照）に格納された入力データの配列をソートするためのホストコンピュータ１０２によるコマンドを指す。ステップ６１０で、入力データ配列のサイズが識別される。例えば、一実施形態で、ＦＰＧＡ１０６ａ（図２を参照）は、入力データ配列のサイズを識別するためにソートコマンドを分析する。ステップ６１５で、入力データ配列のサイズは、しきい値（例えば、基準サイズ）と比較される。例えば、一実施形態で、入力データ配列のサイズに応じてインスタンス化される演算コンポーネント２１０（図２、図４、及び図５を参照）の適切な構成を決定するために、ＦＰＧＡ１０６ａは、入力データ配列のサイズを１つ以上のしきい値サイズ（例えば、１つ以上の基準サイズ）と比較する。即ち、１つ以上のしきい値は、入力データの配列のサイズ及び／又は多様な要求事項（例えば、ユーザーの要求事項、アプリケーションのタイプ、リソース割り当ての要求事項、他の動作をサポートするための要求事項など）に基づいて、入力データの配列を効率的にソートするのに使用される処理エレメント（ＰＥ）及び／又は処理ユニット（ＰＵ）の異なる構成に対応する。

例えば、一実施形態で、１つ以上のしきい値はルックアップテーブル（Ｌｏｏｋ−ＵｐＴａｂｌｅ：ＬＵＴ）などに格納され、１つ以上のしきい値の各々は入力データ配列のサイズに応じて入力データ配列を効率的にソートするようにインスタンス化される処理エレメント（ＰＥ）及び／又は処理ユニット（ＰＵ）の適切な又は所望の組み合わせ（例えば、予め決められた組み合わせ）と相関する。例えば、第１のしきい値未満の入力データ配列のサイズは、単一の処理エレメント（ＰＥ）が入力データの配列を効率的にソートするのに十分であることを示す。他の例で、第１のしきい値以上で第２のしきい値未満の入力データ配列のサイズは、単一の処理ユニット（ＰＵ）に接続された複数の処理エレメント（ＰＥ）が入力データの配列を効率的にソートするのに十分であることを示す。他の例で、第２のしきい値以上の入力データ配列のサイズは、各々が複数の処理エレメント（ＰＥ）を含む複数の処理ユニット（ＰＵ）が入力データの配列を効率的にソートするのに十分であることを示す。しかし、本発明はこのような例示に限定されず、しきい値は、処理エレメント（ＰＥ）及び／又は処理ユニット（ＰＵ）の多様な粒状の（ｇｒａｎｕｌａｒ）の組み合わせに応じて、多様なユーザーの要求事項、資源割り当ての要求事項、アプリケーションのタイプ、サポートされる他の動作になどによって分割されることが理解されるべきである。

図６を再び参照すると、ステップ６１５で、入力データ配列のサイズがしきい値よりも小さい場合（「いいえ」の場合）、単一の処理エレメント（ＰＥ）は、上述したように入力データの配列を効率的にソートするのに十分であると決定される。従って、単一の処理エレメント（ＰＥ）はステップ６２０でインスタンス化され、ステップ６２５で、入力データの配列の完全にソートされた配列を生成するために、単一の処理エレメント（ＰＥ）は入力データの配列全体をソートする（例えば、並列プロセス又は逐次プロセスで）。ステップ６４５で、完全にソートされた配列は、ホストコンピュータ１０２に返され（リターンされ）、方法は終了する。

一方、ステップ６１５で、入力データ配列のサイズがしきい値よりも大きい場合（「はい」の場合）、複数の処理エレメント（ＰＥ）を含む少なくとも１つの処理ユニット（ＰＵ）は、上述したように入力データの配列を効率的にソートするのに十分であると決定される。例えばこの場合、ステップ６１５は、入力データの配列が効率的にソートされるようにインスタンス化される処理ユニット（ＰＵ）及び処理エレメント（ＰＥ）の適切な個数を決定するために、１つ以上のしきい値と入力データ配列のサイズとの１つ以上の比較を含む。従って、ステップ６３０で、複数の処理エレメント（ＰＥ）を含む少なくとも１つの処理ユニット（ＰＵ）はインスタンス化され、ステップ６３５で、入力データの配列の部分的にソートされた配列を生成するために、複数の処理エレメント（ＰＥ）は、入力データの配列の異なるセグメント（例えば、異なる部分又は異なるサブセット）をソートする。例えば、入力データ配列は複数の処理エレメント（ＰＥ）の間でセグメント化され、各処理エレメント（ＰＥ）は入力データのセグメントに対応する部分的にソートされた配列を生成する。

ステップ６４０で、入力データ配列の完全にソートされた配列を生成するために部分的にソートされた配列は、処理ユニット（ＰＵ）によってソートされる。例えば、処理エレメント（ＰＥ）による出力された部分的にソートされた配列は、入力データ配列の完全にソートされた配列を生成するために、処理ユニット（ＰＵ）によって追加的にソート（例えば、グローバルソート）される。ステップ６４５で、完全にソートされた配列は、ホストコンピュータ１０２に提供され、方法は終了する。

図７は、本発明の一実施形態によるストレージシステムの他の例のシステム図である。図７に示すストレージシステム７００は、図１に示したストレージシステム１００（図１参照）と同一であるか又は実質的に同一であるため（類似するため）、重複する説明は簡略化されるか又は繰り返されない。しかし、図１に示したストレージシステム１００とは異なり、図７に示すストレージシステム７００は、再構成可能な処理装置１０６（図１参照）（例えば、ＦＰＧＡ１０６ａ）とストレージ装置１０４（図１参照）（例えば、ＳＳＤ１０４ａ）との間の直接（又は個別に）相互接続７０２を更に含む。例えば、一実施形態で、直接相互接続７０２は、ＦＰＧＡ１０６ａによってＳＳＤ１０４ａに格納された入力データの配列に直接アクセスし、ホストコンピュータ１０２（図１参照）を必要とせずにＦＰＧＡＤＲＡＭ１１４ａに入力データ配列をリードするために使用される。従って、ホストコンピュータ１０２によって課されたレイテンシ（ｌａｔｅｎｃｙ）とスループット制限（ｔｈｒｏｕｇｈｐｕｔｌｉｍｉｔａｔｉｏｎ）が減少する。

より具体的に、図１の実施形態を参照すると、ホストコンピュータ１０２は、ストレージ装置１０４（例えば、ＳＳＤ１０４ａ）から入力データ配列をリードし、ホストメモリ１１０に入力データ配列をロード（ｌｏａｄ）する。その後、ホストコンピュータ１０２は、ソートを開始するために、ホストメモリ１１０から再構成可能な処理メモリ１１４（例えば、ＦＰＧＡＤＲＡＭ１１４ａ）に入力データ配列を伝送する。この場合、ホストコンピュータ１０２、ストレージ装置１０４（例えば、ＳＳＤ１０４ａ）、及び再構成可能な処理装置１０６（例えば、ＦＰＧＡ１０６ａ）の間の通信コストが増加し、レイテンシとスループットの制限が増加する。なお、ホストコンピュータ１０２のような汎用プロセッサは、ＣＰＵのオーバーヘッドが大きく、多数のＳＳＤでのＰＣＩの帯域幅を共有するため、多数のＳＳＤと通信する場合に拡張性に限界が有る。

図７に示す実施形態を参照して比較すると、ＦＰＧＡ１０６ａは、ホストコンピュータ１０２を伴わず、Ｐ２Ｐ（Ｐｏｉｎｔ−ｔｏ−Ｐｏｉｎｔ）通信を使用する直接相互接続７０２を通じて１つ以上のＳＳＤ１０４ａに直接アクセスする。例えば、最初にデータをホストメモリ１１０にロードしてからソートを開始するためにデータをＦＰＧＡＤＲＡＭ１１４ａに伝送する代わりに、ＦＰＧＡ１０６ａは、配列のエレメントをリードするためにＳＳＤ１０４ａに直接アクセスする。ソート後に、ソートされたセグメントはＦＰＧＡＤＲＡＭ１１４ａに格納され、次のセグメントはロード及びソートされる。直接相互接続７０２を通じてＦＰＧＡ１０６ａとＳＳＤ１０４ａとの間のＰ２Ｐ通信は、ホストメモリ１１０からリードしてホストメモリ１１０にライトするオーバーヘッドを減らすか又は除去し、ホストコンピュータ１１０を通した通信に関連付けられたオーバーヘッドを除去又は減少させることによって、動作上のレイテンシを減少させることができる。

本実施形態によると、演算をストレージ装置の近くにすることで、入力／出力（Ｉ／Ｏ）のコストが減少し、より大規模なストレージシステムを管理する観点から、システムの拡張性が増加される。例えば、多数のＳＳＤとしてより大きなストレージシステムを管理するための拡張性は、一般的に大容量のホストメモリ、データリードに対するＣＰＵのオーバーヘッド、及びリソース間のＰＣＩの帯域幅の共有によって制限される。直接相互接続７０２を通じたＰ２Ｐ通信を使用することにより、そのようなボトルネックの現象を除去又は軽減するため、システムの拡張性は増加する。なお、直接相互接続７０２を通じたＰ２Ｐ通信は、ソートされるデータが演算装置（例えば、ホストコンピュータ１０２）のメインメモリ（例えば、一般的にＤＲＡＭ）に適合しない場合に使用される外部ソートに特に有用であるため、例えばＳＳＤ１０４ａのように遅い外部ストレージにデータが移行される。ＳＳＤ１０４ａに多数のリード及びライトを要求する外部ソートの場合、減少されたデータへのアクセスレイテンシは、ＦＰＧＡ１０６ａ内部の演算資源の利用率を向上させる。

本明細書で、「第１」、「第２」、「第３」などの用語は、多様なエレメント、成分、コンポーネント、領域、レイヤー、及び／又はセクションを説明するために使用されるとしても、このようなエレメント、成分、コンポーネント、領域、レイヤー、及び／又はセクションは、このような用語によって限定されないものとして理解すべきである。このような用語は、他のエレメント、コンポーネント、領域、レイヤー、又はセクションから１つのエレメント、コンポーネント、領域、レイヤー、又はセクションを区分するために使用される。従って、本発明の思想及び範囲を逸脱せずに、本明細書の第１のエレメント、コンポーネント、領域、レイヤー、又はセクションは、第２のエレメント、コンポーネント、領域、レイヤー、又はセクションを指す。

１つのコンポーネント又はレイヤーが他のコンポーネント又はレイヤー「上に」、「接続された」、又は「結合された」と言及する場合、それは他のエレメント又はレイヤーに直接接続されるか、接続されるか、又は１つ以上の介在するエレメント又はレイヤーが存在するものと理解すべきである。

本明細書で使用される用語は、特定の実施形態を説明するためのものであり、本発明を限定しようとするものとして意図されない。本明細書で使用されるように、文脈上明らかに別の意味を示していると判定されない限り、単数形「１つ」は複数形も含むものとして意図される。「構成される」、「構成する」、「含む」及び「含んでいる」、「有する」及び「有している」との用語は、本明細書で使用される場合、このような用語は、定められた特徴、整数、ステップ、動作、エレメント、及び／又は成分の存在を明示するが、１つ以上の他の特徴、整数、ステップ、動作、エレメント、成分、及び／又はそれらのグループの追加又は存在を排除しない。本明細書で使用される「及び／又は」との用語は、１つ以上のリストされた項目に関連付けられた任意且つ全ての組み合わせを含む。「少なくとも１つ」のような表現は、エレメント全体のリストを修正し、リストの個別のエレメントを修正しない。

本明細書で使用されるように、「大体」、「大略」のような用語及びこれと類似する用語は、程度の用語ではない近似値の用語として使用され、当業者によって認識される測定又は計算された値の固有な変動を考慮するためのものとして意図される。なお、本発明の実施形態を記述するにあたって、「できる」の使用は、「本発明の１つ以上の実施形態」を意味する。本明細書で使用されるように、「使用」、「使用される」、及び「使用された」のような用語は、「利用」、「利用される」、及び「利用された」のような用語の同義語としてそれぞれみなされる。

別の方法で定義されない限り、本明細書で使用される全ての用語（技術的、科学的な用語を含む）は、本発明が属する技術分野における通常の知識を有する者によって一般的に理解されるのと同一の意味を有する。なお、一般的に使用される辞書に定義された用語のような用語は、関連技術及び／又は本明細書の文脈で、その意味に一致する意味を有するものと解釈されるべきであり、本明細書で明示的に定義しない限り、理想的且つ過度に公式的な意味で解釈されてはならない。

以上、本発明の実施形態について図面を参照しながら詳細に説明したが、本発明は上述の実施形態に限定されるものではなく、本発明の技術的思想から逸脱しない範囲内で多様に変更実施することが可能である。

１００、２００ストレージシステム
１０２ホストコンピュータ
１０４ストレージ装置
１０４ａＳＳＤ
１０６再構成可能な処理装置
１０６ａＦＰＧＡ
１０８ホストプロセッサ
１１０ホストメモリ
１１２ストレージインターフェース
１１４再構成可能な処理メモリ
１１４ａＦＰＧＡＤＲＡＭ
１１６再構成可能な処理アクセラレータ
１１６ａＦＰＧＡアクセラレータ（ソートカーネル）
２０２ＦＰＧＡボード
２０４インターフェース
２０６ＢＲＡＭ
２０８ＢＲＡＭバッファ
２１０演算コンポーネント
２１２データリオーダラ（再整列器）
４００処理エレメント（ＰＥ）
４０２、５０４コントローラ
４０４ローカルコンパレータ
４０６ローカルマージャー
４５０バイトニックソート
５００処理ユニット
５０２アービタ
５０６アドレス変換器
５０８グローバルコンパレータ
５１０グローバルマージャー
７０２直接相互接続

Claims

ソート演算に関連するデータエレメントの配列を格納するストレージ装置と、
前記ストレージ装置とホストコンピュータとの間の通信を可能にするストレージインターフェースと、
前記ストレージ装置に通信可能に接続された再構成可能な処理装置と、を備え、
前記再構成可能な処理装置は、
前記ストレージ装置からリードされ、前記ストレージ装置に格納された前記データエレメントの配列に対応する入力データを格納するメモリと、
前記ホストコンピュータから受信されたソートコマンドに応じて、前記メモリに格納された入力データに対する前記ソート演算を実行する１つ以上の演算コンポーネントを有するカーネルを含み、
前記再構成可能な処理装置は、前記ソート演算を加速化する前記１つ以上の演算コンポーネントを動的にインスタンス化することを特徴とするストレージシステム。
前記ストレージ装置は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）を含み、
前記再構成可能な処理装置は、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を含むことを特徴とする請求項１に記載のストレージシステム。
前記入力データは、前記ホストコンピュータによって前記ＳＳＤからリードされて前記ホストコンピュータの１次メモリにロードされ、
前記ＦＰＧＡの前記メモリは、前記ホストコンピュータの１次メモリから前記入力データを受信することを特徴とする請求項２に記載のストレージシステム。
前記メモリと前記ＳＳＤとの間の直接相互接続を更に含み、
前記ＦＰＧＡは、前記直接相互接続を通じて前記ＳＳＤから前記メモリに前記入力データをリードする前記ＳＳＤに直接アクセスすることを特徴とする請求項２に記載のストレージシステム。
前記ＦＰＧＡ及び前記ＳＳＤは、同一の回路ボード上に実装されることを特徴とする請求項４に記載のストレージシステム。
前記ＦＰＧＡは、前記ＳＳＤからデータをリードする場合、前記ホストコンピュータをバイパスするためにＰ２Ｐ（Ｐｏｉｎｔ−ｔｏ−Ｐｏｉｎｔ）通信を使用する前記直接相互接続を通じて前記ＳＳＤにアクセスすることを特徴とする請求項４に記載のストレージシステム。
前記メモリは、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含むことを特徴とする請求項４に記載のストレージシステム。
前記１つ以上の演算コンポーネントは、複数の処理エレメントを含み、
前記複数の処理エレメントの各々は、ソーティングアルゴリズムに基づいて前記入力データに対応する前記データエレメントの配列のセグメントをソートすることを特徴とする請求項１に記載のストレージシステム。
前記複数の処理エレメントの各々は、ローカルコンパレータ及びローカルマージャーを含み、
前記ローカルコンパレータ及び前記ローカルマージャーは、前記ソーティングアルゴリズムを使用して前記セグメントから部分的にソートされた配列を生成することを特徴とする請求項８に記載のストレージシステム。
前記１つ以上の演算コンポーネントは、前記複数の処理エレメントの各々の出力に接続された処理ユニットを更に含み、
前記処理ユニットは、前記ソーティングアルゴリズムに基づいて前記複数の処理エレメントの出力をソートすることを特徴とする請求項９に記載のストレージシステム。
前記処理ユニットは、グローバルコンパレータ及びグローバルマージャーを含み、
前記グローバルコンパレータ及び前記グローバルマージャーは、前記ソーティングアルゴリズムを使用して、前記複数の処理エレメントによって前記部分的にソートされた配列から前記入力データの完全にソートされた配列を生成することを特徴とする請求項１０に記載のストレージシステム。
前記ソーティングアルゴリズムは、バイトニック（Ｂｉｔｏｎｉｃ）ソーティングアルゴリズムであることを特徴とする請求項１１に記載のストレージシステム。
前記再構成可能な処理装置は、前記データエレメントの配列のサイズに応じてランタイムに多数の前記複数の処理エレメント及び前記処理ユニットを動的にインスタンス化することを特徴とする請求項１１に記載のストレージシステム。
前記再構成可能な処理装置は、
前記データエレメントの配列のサイズを識別し、
１つ以上のしきい値と前記データエレメントの配列のサイズとを比較し、
前記比較に基づいて、多数の前記複数の処理エレメント及び前記処理ユニットをインスタンス化することを特徴とする請求項１３に記載のストレージシステム。
ソート演算に関連するデータエレメントの配列を格納するストレージ装置、前記ストレージ装置とホストコンピュータとの間の通信を可能にするストレージインターフェース、及び前記ストレージ装置に通信可能に接続された再構成可能な処理装置を備えるストレージシステムのソート演算を動的にスケーリングする方法であって、
前記再構成可能な処理装置によって、前記ホストコンピュータからソートコマンドに関連するデータエレメントの配列のサイズを識別するステップと、
前記再構成可能な処理装置によって、前記配列のサイズと１つ以上のしきい値のサイズとを比較するステップと、
前記再構成可能な処理装置によって、前記ソート演算を加速化するために、前記比較に基づいて１つ以上の演算コンポーネントをインスタンス化するステップと、を有することを特徴とする方法。
前記ストレージ装置は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）を含み、
前記再構成可能な処理装置は、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を含むことを特徴とする請求項１５に記載の方法。
前記１つ以上の演算コンポーネントをインスタンス化するステップは、１つ以上のロジックブロック、及び前記ＦＰＧＡのカーネルの１つ以上の相互接続を再構成するステップを含むことを特徴とする請求項１６に記載の方法。
少なくとも１つのローカルソート演算コンポーネントによって、前記データエレメントの配列の少なくとも１つのセグメントをソートするステップと、
前記少なくとも１つのローカルソート演算コンポーネントによって、前記少なくとも１つのセグメントのソートされた配列を生成するステップと、を更に含み、
前記１つ以上の演算コンポーネントをインスタンス化するステップは、前記再構成可能な処理装置によって、前記少なくとも１つのローカルソート演算コンポーネントをインスタンス化するステップを含むことを特徴とする請求項１６に記載の方法。
複数のローカルソート演算コンポーネントの各々によって、前記データエレメントの配列の異なるセグメントをソートするステップと、
前記複数のローカルソート演算コンポーネントの各々によって、対応するセグメントの部分的にソートされた配列を生成するステップと、を更に含み、
前記１つ以上の演算コンポーネントをインスタンス化するステップは、前記再構成可能な処理装置によって、前記複数のローカルソート演算コンポーネントをインスタンス化するステップを含むことを特徴とする請求項１６に記載の方法。
グローバルソート演算コンポーネントによって、前記複数のローカルソート演算コンポーネントの各々によって生成された前記部分的にソートされた配列をソートするステップと、
前記グローバルソート演算コンポーネントによって、前記部分的にソートされた配列のソートから前記データエレメントの配列に対応する完全にソートされた配列を生成するステップと、を更に含み、
前記１つ以上の演算コンポーネントをインスタンス化するステップは、前記再構成可能な処理装置によって、前記複数のローカルソート演算コンポーネントの各々の出力に接続された前記グローバルソート演算コンポーネントをインスタンス化するステップを更に含むことを特徴とする請求項１９に記載の方法。