JP2008293149A - 予知型データ移行を行う階層ストレージシステム - Google Patents

予知型データ移行を行う階層ストレージシステム Download PDF

Info

Publication number
JP2008293149A
JP2008293149A JP2007136119A JP2007136119A JP2008293149A JP 2008293149 A JP2008293149 A JP 2008293149A JP 2007136119 A JP2007136119 A JP 2007136119A JP 2007136119 A JP2007136119 A JP 2007136119A JP 2008293149 A JP2008293149 A JP 2008293149A
Authority
JP
Japan
Prior art keywords
volume
file
storage system
storage
directory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007136119A
Other languages
English (en)
Other versions
JP4375435B2 (ja
Inventor
Kazuhisa Fujimoto
藤本和久
Naoto Matsunami
松並直人
Hirotoshi Akaike
赤池洋俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007136119A priority Critical patent/JP4375435B2/ja
Priority to CN2008100828242A priority patent/CN101311911B/zh
Priority to GB0805309A priority patent/GB2449521B/en
Priority to DE102008015185A priority patent/DE102008015185A1/de
Priority to US12/052,900 priority patent/US7882136B2/en
Publication of JP2008293149A publication Critical patent/JP2008293149A/ja
Application granted granted Critical
Publication of JP4375435B2 publication Critical patent/JP4375435B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • G06F3/0649Lifecycle management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0613Improving I/O performance in relation to throughput
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0685Hybrid storage combining heterogeneous device types, e.g. hierarchical storage, hybrid arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】
高性能と大容量を兼ね備えた低価格の階層ストレージシステムを提供する。
【課題を解決するための手段】
複数の計算機に接続されるファイルサーバと、該ファイルサーバに接続される第一のストレージ装置と、該第一のストレージ装置に接続される第二のストレージ装置とを有するストレージシステムであって、第二のストレージ装置は第二のボリューム、第一のストレージ装置は第一のボリュームと上記第二のボリュームを自装置のボリュームとして仮想化した仮想ボリュームとを有し、上記ファイルサーバは、第一のボリュームを第一のディレクトリとしてマウントし、前記仮想ボリュームを第二のディレクトリとしてマウントし、上記第二のディレクトリ内の予め定められたファイルを、第一のディレクトリへコピーする。
【選択図】 図1

Description

本発明は、計算機(以下「サーバ」とも言う)のデータを格納する記憶装置システム(以下「ストレージシステム」とも言う)、特に複数のディスク装置から構成されるストレージ装置複数台を階層構成とし、ファイル入出力のためにNAS(Network Attached Storage)を接続したストレージシステムにおける階層ストレージ装置間でのデータ移行と階層ストレージが提供するボリュームのNASが提供するディレクトリへの割り当て方法に関する。
近年、HPC(High Performance Computing)向け計算機、所謂、スーパーコンピュータの計算能力の向上は目覚しく、今後数年でペタフロップス(Peta FLOPS:Floating Operation Per Second)級の計算性能を持つスーパーコンピュータ、約10年後にはエクサフロップス(Exa FLOPS)級の計算性能をもつスーパーコンピュータが登場するものと予測されている。それに伴って、スーパーコンピュータを利用して行う科学計算等の大規模計算の規模も大きくなり、スーパーコンピュータに入出力される個々のファイルのサイズもギガバイト(GB:Giga Byte)からテラバイト(TB:Tera Byte)超へと大きくなっていくことが予想される。したがって、スーパーコンピュータに接続されるストレージシステムに対しても、ペタバイト(PB:Peta Byte)からエクサバイト(EB:Exa Byte)級の容量が必要とされるようになると予測されている。また、TB級のファイルの入出力を高速に行う必要性から、ストレージ装置のI/O処理性能も、現状の1〜2桁程度の向上が必要になると考えられている。
従来、スーパーコンピュータ向けのストレージシステムでは、コストパフォーマンスの良いミッドレンジクラスのストレージ装置をスーパーコンピュータのノード数に見合う数だけ横に並べて、並列稼動させることにより、サーバの要求するI/O処理性能に見合うストレージのI/O処理性能を提供していた。
また、スーパーコンピュータ向けのストレージに要求される性能要件はさまざまで、サイズの大きいファイルを高速に入出力するために高いシーケンシャル性能が要求されたり、多数のファイルを同時に入出力するために高いトランザクション性能が要求されたりする。
このような性能要件に対応するために、計算機やアプリケーションが要求する性能に応じてファイルを格納するボリュームを振り分けるという技術が特許文献1に開示されている。その方法は、業務アプリケーション毎に、そのアプリケーションのファイルの格納要件(ファイルを格納するボリュームに要求する性能や信頼性等の要件)を予め決めておき、さらに、ストレージ装置側では予め自身が有するファイル格納用ボリュームの性能等の仕様のテーブルを有しておき、アプリケーションの格納要件毎にファイル単位で上記テーブルを参照して格納先ボリュームを振り分けるという方法であった。
特開2004−70403
スーパーコンピュータ向けのストレージシステムは、サイズの大きいファイルや多数ファイルの入出力を高速に行うための高性能、かつ、大容量のシステムを低価格で構成することが要求されている。
しかし、今後、必要となるPB〜EB級の容量の大規模なシステムを、従来のミッドレンジクラスのストレージ装置を複数台横に並べて構成する方法では、必要とされる性能を実現するためには、数百台から千台以上のミッドレンジクラスのストレージ装置が必要となり、低価格のシステムを提供することが難しいという問題があった。
また、スーパーコンピュータ向けのストレージシステムに対するさまざまな性能要件に対応する方法として、特許文献1に開示されている従来技術で対処しようとすると以下の課題があった。すなわち、従来技術で、個々のファイルの特性に合った格納用ボリュームに振り分けてファイルを格納することにより、ファイルの入出力の高速化を図ろうとした場合、スーパーコンピュータで実行される科学計算等のプログラムで入出力に使われるファイルの種類は多種多様であるため、計算毎に予めファイルの格納用ボリュームに対する性能や信頼性の必要要件を決めておくことは難しいという問題があった。
上述した課題を解決するために、本発明では、複数の計算機に接続されるファイルサーバと、上記ファイルサーバに接続される第一のストレージ装置と、第一のストレージ装置に接続される第二のストレージ装置と、上記ファイルサーバ、第一のストレージ装置、及び第二のストレージ装置に接続されるストレージ管理装置からなるストレージシステムであって、上記第一のストレージ装置は、自装置内の磁気ディスク装置上に形成された第一のボリュームを有しており、上記第二のストレージ装置は、自装置内の磁気ディスク装置上に形成された第二のボリュームを有しており、上記第一のストレージ装置は、上記第二のボリュームを自装置のボリュームとして仮想化した仮想ボリュームを有しており、上記ファイルサーバは、上記仮想ボリュームを第二のディレクトリとしてマウントしており、予め定められた第一のタイミングにおいて、上記第一のボリュームを第一のディレクトリとしてマウントし、上記第二のディレクトリ内の予め定められたファイルを、上記第一のディレクトリへコピーし、予め定められた第二のタイミングにおいて、上記第一のディレクトリ内の予め定められたファイルを、上記第二のディレクトリへコピーする。
そして、上記ストレージ管理装置は、上記計算機の計算実行ジョブ情報を収集する手段と、上記計算実行ジョブ情報を解析する手段と、上記第一及び第二のタイミングを決定する手段を備えている。
また、上記ストレージ管理装置は、上記計算実行ジョブ情報から、計算のために入出力されるファイルの特性を抽出する手段と、ファイルを格納する上記第一のボリュームを選択する手段を備え、上記ファイルサーバは、選択された上記第一のボリュームを上記第一のディレクトリとしてマウントする。ここで、上記ファイルを格納する上記第一のボリュームを選択する手段は、ファイルサイズが予め定められた第一の値より大きい場合は、予め定められた第二の値以上の数の磁気ディスク装置から構成された第一のボリュームを選択する。
また、上記ファイルを格納する上記第一のボリュームを選択する手段は、ファイル数が予め定められた第三の値より多い場合は、予め定められた第四の値以上の数のボリュームを選択し、上記ファイルサーバは、選択された上記複数の第一のボリュームをそれぞれ別個の上記第一のディレクトリとしてマウントし、複数のファイルを、上記複数の第一のディレクトリに分散してコピーする。
さらに、上記ファイルサーバは、上記予め定められた第二のタイミングにおいて、上記第一のディレクトリ内の予め定められたファイルを、上記第二のディレクトリへコピーした後、上記第一のディレクトリをアンマウントし、アンマウントした上記第一のボリュームを他の計算のファイル格納用ボリュームとして提供する。
その他、本願が開示する課題、及びその解決方法は、発明の実施形態の欄及び図面により明らかにされる。
本発明によれば、スーパーコンピュータ向けに要求される高性能と大容量の両方を兼ね備えたストレージシステムを最小限のストレージ装置台数で提供することが可能となる。
図1は、第一の実施形態のストレージ装置を含むシステムの構成例を示す図である。計算機システム1は、ストレージシステム2、IPスイッチ16、計算機14、及び計算機管理サーバ18を有する。また、ストレージシステム2は、ファイルサーバ13、第一階層ストレージ装置11、第二階層ストレージ装置12、ファイバチャネル(FC:Fibre Channel)スイッチ17、及びストレージ管理サーバ19を有する。
図1に示すように、IPスイッチ16を介してファイルサーバ13と計算機14を接続することにより、ストレージシステム2と計算機14は接続されている。また、計算機管理サーバ18とストレージ管理サーバ19は直接接続、またはLAN(Local Area Network)を介して互いに接続される。さらに、ストレージ管理サーバ19と、ファイルサーバ13、第一階層ストレージ装置、及び第二階層ストレージ装置間は直接接続、またはLAN(Local Area Network)を介して互いに接続される。
第一階層ストレージ装置11は、ファイルサーバ13に直接接続される。接続インターフェースとしては、ファイバチャネル、iSCSI等のブロックデータを送るプロトコルのインターフェースを用いるのが一般的である。ここで、第一階層ストレージ装置11はスイッチを介してファイルサーバ13に接続されていても問題ない。
第二階層ストレージ装置12は、FCスイッチ17を介して第一階層ストレージ装置12に接続される。接続インターフェースとしては、ファイバチャネル以外にiSCSI等のブロックデータを送るプロトコルのインターフェースを用いても問題ない。
第一階層ストレージ装置11は、ファイルサーバ13が入出力処理を行うファイルを格納するためのファイル格納用第一ボリューム51を有する。第二階層ストレージ装置12は、ファイルサーバ13が入出力処理を行うファイルを格納するためのファイル格納用第二ボリューム52を有する。また、第一階層ストレージ装置11は、第二階層ストレージ12が有するボリュームを当該第一階層ストレージ装置11が計算機14に提供するボリューム、ファイル格納用仮想ボリューム61として仮想的に提供する仮想化機能を有する。
図2に第一階層ストレージ装置11の構成の一例を示す。コントローラ31は、ファイルサーバ3、あるいは計算機14等の上位装置からのデータの書き込み/読み出しアクセスを制御するチャネルIF(インターフェース)部32、複数のハードディスク42に接続され、ハードディスク42へのデータの書き込み/読出しアクセスを制御するディスクIF(インターフェース)部33、ハードディスク42への書き込み/読み出しデータを一時的に格納するキャッシュメモリ34、及びチャネルIF部32、ディスクIF部33、及びキャッシュメモリ34を接続する結合部35を有する。結合部35は、1つ以上のスイッチから構成されるのが一般的であるが、1本以上の共通バスから構成しても問題ない。
チャネルIF部32は上位装置からのデータの書き込み/読み出しアクセスを受けた際に、キャッシュメモリ34との間のデータ転送を制御し、ディスクIF部33は、ハードディスク42へのデータの書き込み/読出し時にキャッシュメモリ34との間のデータ転送を制御する。このようなキャッシュメモリ34を介したチャネルIF部32とディスクIF部33の間のデータのやり取りにより、上位装置からハードディスク42へのデータの書き込み/読出しを行う。このような制御を行うため、チャネルIF部32、ディスクIF部33は1つ以上のプロセッサ(図示していない)を有する。このプロセッサには内部LAN37が接続される。さらに、ストレージ装置外部のストレージ管理サーバ19が内部LAN37に接続される。
ここで、上述のコントローラ31の構成は一実施例に過ぎず、構成を上記に限定するものではない。コントローラ31は、計算機からのデータの書き込み/読み出し要求に応じてハードディスク42へのデータの書き込み/読出しを行う機能を有していれば問題ない。
さらに、コントローラ31はハードディスク42の電源のオン/オフ(投入/遮断)を制御する電源制御部36を有していても良く、その場合、電源制御部36は内部LAN37に接続される。
ハードディスク搭載部41は、複数のハードディスク42と、個々のハードディスク32へ電源を供給するハードディスク電源43を有する。複数のハードディスク42は複数台のハードディスク42から構成されるRAIDグループ(Gr.)にグルーピングされる。
ここで、ハードディスク電源43は、個々のハードディスク42毎、またはRAID Gr.毎に1個または2個(冗長構成を組む場合)程度設けても問題ない。
コントローラ31内の電源制御部36は、ハードディスク電源43に接続され、電源のオン/オフの制御を行う。
ここで、電源制御部36は、コントローラ31の中ではなく、ハードディスク搭載部41の中にあっても問題ない。また、電源制御部36はストレージ管理サーバ19に直接接続されていても問題ない。
図1の説明で述べたファイル格納用第一ボリューム51は、複数台のハードディスク42から構成されるRAIDグループ(Gr.)の領域上に形成される。
図3に、第二階層ストレージ装置12の構成の一例を示す。コントローラ71は、第一階層ストレージ装置11等の上位装置を接続する計算機接続ポート76、複数のハードディスク42を接続するディスク接続ポート78、ハードディスク42への書き込み/読み出しデータを一時的に格納する共有メモリ73、及びプロセッサ72を有する。また、計算機接続ポート76、ディスク接続ポート78、プロセッサ72、及び共有メモリ73は結合部74を介して接続される。結合部74は、スイッチから構成されるのが一般的であるが、共通バスから構成しても問題ない。
プロセッサ72は上位装置からのデータの書き込み/読み出しアクセスを受けた際に、計算機接続ポート76と共有メモリ73との間のデータ転送を制御するとともに、ハードディスク42へのデータの書き込み/読出し時に、ハードディスク42と共有メモリ73との間のデータ転送を制御する。このような共有メモリ73を介した計算機接続ポート76とハードディスク42の間のデータのやり取りにより、上位装置からハードディスク42へのデータの書き込み/読出しを行う。
プロセッサ72には内部LAN77が接続される。さらに、ストレージ装置外部のストレージ管理サーバ19が内部LAN77に接続される。
ここで、上述のコントローラ71の構成は一実施例に過ぎず、構成を上記に限定するものではない。コントローラ71は計算機からのデータの書き込み/読み出し要求に応じてハードディスク42へのデータの書き込み/読出しを行う機能を有していれば問題ない。
さらに、コントローラ71はハードディスク42の電源のオン/オフ(投入/遮断)を制御する電源制御部75を有していても良く、その場合、電源制御部75は内部LAN37に接続される。
ハードディスク搭載部41については、図2で示した第一階層ストレージ装置の構成と同様である。
図1の説明で述べたファイル格納用第二ボリューム52は、複数台のハードディスク42から構成されるRAIDグループ(Gr.)の領域上に形成される。
図2、図3において第一階層ストレージ装置11、第二階層ストレージ装置12の構成について、一般的な構成についてそれぞれ述べたが、それらは上記した構成に限定されるものではない。第一階層ストレージ装置11として要求されるI/O処理性能としては、第二階層ストレージ装置12を上回るI/O処理性能を有する装置であれば良い。また、第二階層ストレージ装置12として要求される仕様としては、上記計算機が必要とする容量を、第一階層ストレージ装置11に比べて少ない台数のハードディスクで実現できる装置であればよい。
図7に、計算機管理サーバ18及びストレージ管理サーバ19の機能を示す。
計算機管理サーバ18は、計算機14で実行するJOBを管理するJOB管理部21、計算機にJOBの実行を依頼するユーザを管理するユーザ管理部22、計算機で実行されるJOB情報をストレージ管理サーバ19に提供するインターフェースとなる情報提供部23を有する。
なお、本実施例中の構成要素を説明する際に用いる、JOB管理部等の各機能部は、ソフトウェアにより論理的な構成されてもよいし、専用LSI等によりハードウェア的に構成されてもよいし、さらには、ソフトウェアとハードウェアの組み合わせにより実現されても良い。なお、論理的に構成される場合、各機能部は、メモリ上に格納され、プロセッサに実行されることで、その機能が実現される。
JOB管理部21は、投入JOB管理部201、JOBスケジューラー202、終了JOB管理部206を有する。また、JOBスケジューラー202は、待ちキュー203と実行キュー205を有する。
ユーザは、計算機14で計算JOBを実行するために、図9に示す計算実行スクリプト234を作成し、計算機管理サーバ18に入力する。その入力は、例えば、計算機管理サーバ18が備えるGUI(Graphical User Interface)やCLI(Command Line Interfase)により、計算機管理サーバ18に直接か、計算機管理サーバに接続されるクライアント端末を通して行う。
入力された計算実行スクリプト234は、投入JOB管理部201で管理され、待ちキュー203内に優先度の高い順に用意されているキュー1:211、キュー2:212、キュー3:213、あるいはキュー4:214のいずれかに振り分けられる。その振分け方、つまり、優先度の付け方は、例えば、計算実行スクリプト234の中に記述された、計算時間の長短、使用する主記憶容量の多少等で判断することや、ユーザが計算実行スクリプト234の中で明示的に優先順位を指定すること等がある。JOBは各キューに並んだ順番に実行される。また、キュー1〜4のJOBの実行順は、優先度の高いキュー1から順次実行される。優先度の高いキューのJOBが実行に入った後、計算機14のCPUリソースに空きがあり、次の優先度のJOBが実行可能であるならば、そのJOBについても空いているCPU上で並行して実行する。その次の優先度のJOBについても同様である。実行中のJOBは実行キュー205の中で管理され、JOBが終了すると終了JOB管理部206へ管理が移される。
ユーザ管理部22は、計算機管理サーバ18や、計算機管理サーバ18に接続されたクライアント端末から計算機14を利用するユーザの管理、すなわち、ユーザ認証やユーザが計算に使用するファイルを格納するためのユーザディレクトリの管理を行う。この管理のために、例えば、NIS(Network Information Service)やLDAP(Lightweight Directory Access Protocol)等のプロトコルが用いられる。
また、情報提供部23は、ストレージ管理サーバ19に対して各JOBの計算実行スクリプト234とJOBの実行順序を示す情報、及び計算機14を使用するユーザ及びそのユーザが使用するユーザディレクトリの情報を送付する。
ストレージ管理サーバ19は、計算機管理サーバ18の情報提供部23から計算機14で実行されるJOB情報を受け取る情報収集部24と、JOB情報をストレージ装置で利用するために解析を行う情報解析部25、解析した情報を元に、ファイルサーバ13が管理するユーザディレクトリへの第一階層ストレージ装置11、第二階層ストレージ装置12が有するボリュームのマウント/アンマウントや、そのユーザディレクトリ間でのファイルのステージング/デステージングの管理を行うボリューム管理部26、ファイルサーバ13が取り扱うユーザディレクトリを管理するユーザエリア管理部27、ファイルサーバ13、第一階層ストレージ装置11、及び第二階層ストレージ装置12へボリュームの割り当てやボリュームのマウント/アンマウントを指示するストレージ管理部28を有する。
次に、ユーザが計算を実行する際のユーザディレクトリの管理手順を図4乃至6を用いて説明する。
図4は、ユーザが計算を開始する前のユーザディレクトリとボリュームの関係の一例を示している。ファイルサーバ13は、ストレージ管理部28の指示に基づいて、ファイル格納用仮想ボリューム61をユーザディレクトリであるファイル格納用ディレクトリ81としてマウントする。
第一階層ストレージ装置11内のコントローラ31は、ストレージ管理部の指示に基づいて、第二階層ストレージ装置12内のファイル格納用第二ボリューム52を、第一階層ストレージ装置11内のファイル格納用仮想ボリューム61として仮想化し、第一階層ストレージ装置11が管理する。こうすることにより、第一階層ストレージ装置11が第二階層ストレージ装置12のボリュームも一括して管理することができるため、ボリューム管理を簡単化することができる。
ここで、ファイル格納用第二ボリューム52を、直接、ファイル格納用ディレクトリ81としてマウントしてもよい。
ディレクトリ・ツリー91に、ユーザディレクトリとファイル格納用第二ボリューム52との関係の一例を示す。ここでは、usr0下のディレクトリdir0,dir1と、usr1下のディレクトリdir0,dir1,dir2毎に別個のファイル格納用第二ボリューム52を割り当てている。
ここで、上記のユーザディレクトリとファイル格納用第二ボリューム52との対応関係(マッピング)は、ストレージ管理部19内のユーザエリア管理部27で管理される。またこの対応関係は、ストレージ管理サーバ19に接続されるクライアント端末からユーザが要求を出した際に、作成、または変更される。
図6は、本発明の階層ストレージシステムでのファイルのステージング/デステージングの手順を示している。まずステップ501で、ストレージ管理サーバ19の情報収集部24は、計算機管理サーバ18の情報提供部23から待ちキュー203内にある全てのJOBの計算実行スクリプト234と、JOBの実行順序を示す情報を受け取る。
ここで、JOBスケジューラー202がJOBの実行順を制御する方法としては、(1)JOBの実行が終わると次の順番のJOBを実行に移す方法、(2)投入JOB管理部201に複数のJOBを投入し、投入された複数のJOBの計算実行スクリプト234内に記述された計算時間から各JOBの実行開始時間と実行終了時間をスケジューリングし、そのスケジュールに基づいて順番にJOBを実行する方法がある。
したがって、(1)の場合、情報収集部24は、待ちキュー203内に並んでいる全ての計算実行スクリプト234とその計算実行スクリプト234が待ちキュー203内のどのキューの何番目のJOBかというJOBの実行順序を示す情報を情報提供部23から受け取る。そして、待ちキュー203内のキュー(キュー1〜4)毎に、計算実行スクリプト234に順番付けを行う。ここで、この順番付けを情報提供部23で実施して、その結果を情報収集部24へ送っても問題ない。
また(2)の場合、情報収集部24は、計算機管理サーバ18がスケジューリングした各JOBの実行開始時間と実行終了時間を示す表を情報提供部23から受け取る。
次にステップ502で、計算実行スクリプト234の解析を行う。
その解析について説明する前に、計算機14で実行される実行ジョブ(あるいは計算)の情報を記述した計算実行スクリプト234の一例を図9に示す。複数のユーザが計算実行スクリプト234を投入するので、図9では複数の計算実行スクリプトがあるイメージを示している。ファイルサーバ13が管理するユーザディレクトリへの第一階層ストレージ装置11、第二階層ストレージ装置12が有するボリュームのマウント/アンマウントのスケジューリングや、そのユーザディレクトリ間でのファイルのステージング/デステージングのスケジューリング、ファイルサーバ13が取り扱うユーザディレクトリを管理するためには、計算実行スクリプト234は少なくとも計算のパラメータや計算の実行結果を格納するディレクトリの情報300を含む。
さらに、計算実行時間(CPU TIME)301、計算繰り返し回数302、計算結果を出力する繰り返し回数間隔303を含むことが好ましい。これら情報により、計算機がファイルを出力する時間が正確に求めることが可能となる。
ここで、図9の計算実行スクリプトのフォーマットは一実施例に過ぎず、フォーマットを図のように限定するものではない。上記に述べた情報が少なくとも含まれていれば問題ない。
情報解析部25では、各JOBの計算実行スクリプト234から、計算時間、入出力用ファイルのディレクトリ、入出力されるファイルの特性を抽出する。ここで、ファイルの特性とは、例えば、ファイルサイズ、ファイル数である。
次にステップ503で、ボリューム管理部26において、ファイルの特性から、計算に使用するファイルを格納するためのファイル格納用第一ボリューム51に必要な仕様を決定する。仕様の決定方法の例を以下に述べる。
まず1つの例としては、計算に使用するファイルサイズが予め定められたファイルサイズより大きい場合(例えば、ファイルサイズが1TB以上の場合)は、該計算で使用するボリュームを構成するハードディスクの数を、第一階層ストレージ装置11で設定可能な最大のハードディスク数(例えば、16台)とする。ここでは仮に、用意するファイル格納用第一ボリューム51をtmp0としてそのボリュームを構成するハードディスクの数をtmp0の仕様として定める。
ファイルはボリュームを構成するハードディスク全てに跨って格納されるため、ボリュームを構成するハードディスクの数を増やすことにより、ファイルの読み出しの並列度を上げることができ、ファイルの読み出しのスループットが向上する。
他の例としては、ファイル数が予め定められた数より多い場合は、ファイル格納用第一ボリューム51の数を、ファイル数毎に予め定められた数以上とする。例えば、ファイル数が1000個以上の場合、ファイル格納用第一ボリューム51の数をファイル数の1/100に設定する。ここでは、仮にファイル格納用ボリューム51の数を8個として、それをtmp1〜8とする。
これは、例えば1つのボリュームに全てのファイルを格納した場合、そのボリュームのファイルの読み出しスループットがネックとなるためである。ファイル数に応じて定められた複数のボリュームにファイルを分散して格納することにより、ファイルの読み出しスループットが向上する。
ここで、上記2つの例において各ボリューム(tmp0〜8)の容量をそれぞれのボリュームに格納する全てのファイルの総サイズ以上にすることは言うまでもない。
次にステップ504で、ボリューム管理部26において、ファイル格納用ディレクトリ81とファイル格納用第一ボリューム51(tmp0〜tmp8)の対応関係(マッピング)を決定する。
その関係の一例を、図5を用いて説明する。図4で説明した計算開始前のユーザ用のファイル格納用ディレクトリ81とファイル格納用第二ボリューム52の対応関係に、ファイル格納用第一ボリューム51が加わる。ここでは、ファイル格納用第一ボリューム51として、tmp0〜8の関係が加わる。ディレクトリ・ツリー92に示すように、それらはファイルサーバ13により、ディレクトリusr0の下のtmp0、usr1の下のディレクトリtmp1〜8としてそれぞれマウントされる。
すなわち、usr0が計算に使用する、ファイルサイズが予め定められたサイズより大きいファイルが、ファイル格納用第二ボリュームusr0/dir0に格納されており、そのファイルを格納する第一階層ストレージ装置11内のファイル格納用第一ボリューム51としてtmp0がvdir0の下のディレクトリtmp0にマウントされる。
また、usr1が計算に使用するファイルは予め定められた数より多く、それらのファイルはファイル格納用第二ボリュームusr1/dir0〜dir2に格納されており、そのファイルを格納する第一階層ストレージ装置11内のファイル格納用第一ボリューム51としてtmp1〜8が、vdir0〜2の3つのディレクトリの下のtmp1〜8にマウントされる。
ここでは、ファイル格納用第二ボリュームをマウントしたディレクトリと、ファイル格納用第一ボリュームをマウントしたディレクトリの間で対応関係がはっきり分かるように、両者で同じファイルを格納している場合、ファイル格納用第二ボリュームの方がdir0〜2としていた場合、対応する第一ボリュームの方のディレクトリをvdir0〜2とした。但し、両者の対応関係が分かるように管理されていれば、この例のようにディレクトリ名の付け方を工夫しなくても良い。
次にステップ505で、ボリューム管理部26において、ステップ503で仕様を決定したファイル格納用第一ボリュームの選定/作成の時間、及びそのファイル格納用第一ボリュームをユーザディレクトリにマウントする時間をスケジューリングする。
上記のマウント/アンマウント時間の決め方は、JOBスケジューラー202がJOBの実行順を制御することにより定められる。そして、このJOBスケジューラー202がJOBの実行順を制御する方法には、(1)JOBの実行が終わると次の順番のJOBを実行に移す方法と、(2)投入JOB管理部201に複数のJOBを投入し、投入された複数のJOBの計算実行スクリプト234内に記述された計算時間から各JOBの実行開始時間と実行終了時間をスケジューリングし、そのスケジュールに基づいて順番にJOBを実行する方法がある。それらについて以下に説明する。
(1)の場合、キューの中にある対象となっているJOBが計算に利用するファイルのステージング時間を計算し、さらにそのJOBの一つ前のJOBの計算所要時間をチェックする。ここで、ファイルのステージング時間は、ステージングするファイルの数、それぞれのファイルサイズと第二階層ストレージ装置12から第一階層ストレージ11へのデータ転送スループットから計算される時間に、ある程度余裕を見て、例えば計算した時間の10%程度を加算した値とする。ステージングの時間が一つ前のJOBの計算時間より短い場合は、マウント時間は決めず、一つ前のJOBが実行に移ったら、実行を開始したという情報を計算機管理サーバ18より、当該ボリューム管理部に通知してもらうようにする。ステージングの時間が一つ前のJOBの計算時間より長い場合は、1つ前のJOBのファイルのステージングが終了したら、ステージが終了したという情報を計算機管理サーバ18より当該ボリューム管理部に通知してもらうようにする。この場合、一つ前のJOBの計算所要時間によっては、その一つ前のJOBが終了しても、該当のJOBのファイルのステージングが終了していない場合がある。そうした場合、該当JOBは実行できない。このような状況を防ぐため、ストレージ管理サーバ19は、各JOBに必要なファイルのステージングが終了しているか否かを示す情報を計算機管理サーバ18に通知する。計算機管理サーバ18では、上記ストレージ管理サーバ19から送信されるステージング完了情報に基づき、各JOBの実行開始前に、そのJOBの実行に必要なファイルのステージングが完了しているかどうかをチェックして、ステージングが完了していればJOBを実行し、完了していなければステージングが完了した後にJOBを実行するように制御する。
なお、アンマウントする時間は、該当JOBが実行に移された時間に該当JOBの計算時間を加えた時間とする。したがって、(1)の場合、アンマウントする時間は該当JOBの実行開始後に決定されることになる。
(2)の場合、ボリューム管理部は、計算機管理サーバ18から受け取った前述の情報から各JOBの実行開始時間と実行終了時間を取得する。したがって、マウント開始時間は、JOB実行開始時間の一定時間前に設定する。その一定時間は、ステージングするファイルの数、それぞれのファイルサイズと第二階層ストレージ装置12から第一階層ストレージ11へのデータ転送スループットから計算される時間に、例えば、計算した時間に、その10%程度のマージンを加算した値とする。
アンマウント時間は、JOB実行終了時間の一定時間後に設定する。その一定時間は、そのJOBの計算結果を出力するために要する時間で、ファイルサイズ毎に第一階層ストレージ装置の書き込みスループットとファイルサイズから計算される値を元に予め定められた値とする。
次にステップ506で、指定時間(時刻を意味する)1になるまで待つ。(1)の場合、指定時間1は予め決められておらず、計算機管理サーバ18から通知される該当JOBの一つ前のJOBが実行に移ったタイミング、または該当JOBの一つ前のJOBのファイルのステージングが完了したタイミングとなる。(2)の場合、指定時間1は、ステップ505で決定した時間より、ファイル格納用第一ボリュームの選定、あるいは作成の処理に要する時間以上前の時間となる。ここで、まず、必要とする仕様のボリュームが第一階層ストレージ装置51内あるか否かを判断し、ある場合は“選定時間”、ない場合は、“作成処理に要する時間”が必要になる。
指定時間1になったら、ステップ507において、ボリューム管理部26は、ストレージ管理部28を介して、ステップ503で決定した仕様のファイル格納用第一ボリューム51を選定、あるいは作成を、第一階層ストレージ装置11に指示する。
次に、ストレージ管理部28は、ステップ508でボリュームの選定あるいは作成の完了をチェックし、完了したらステップ509へ進む。
ステップ509では、ボリューム管理部26は、ステップ504で決定したディレクトリ・ツリーに従い、ステップ507で選定/作成したファイル格納用第一ボリュームのユーザディレクトリへのマウントと該当JOBで使用するファイルのステージングを、ストレージ管理部28を介してファイルサーバ13へ指示する。そして、ファイルサーバ13はマウントを実行し、マウントが完了した後、該当JOBで使用するファイルをステージングする。
図5で説明した例の場合、usr0/dir0のファイルをusr/vdir0/tmp0へコピーすることでステージングされる。また、usr1/dir0のファイルをusr1/vdir0/tmp1、2に分散して、usr1/dir1のファイルをusr1/vdir1/tmp3〜6に分散して、usr1/dir2のファイルをusr1/vdir2/tmp7、8に分散してコピーすることでステージングされる。
ステップ510で、ストレージ管理部28はファイルサーバ13からのステージング完了報告をチェックし、完了報告があったらステップ511へ進む。
ステップ511では、ストレージ管理部28は、情報収集部24を介して、該当JOBに必要なファイルのステージング完了を計算機管理サーバ18へ通知する。
次にステップ512で、指定時間(時刻を意味する)2になるまで待つ。(1)の場合、先にも述べたように、指定時間2は該当JOBの実行後に決められ、該当JOBが実行に移された時間に該当JOBの計算時間を加えた時間とされる。ここで、指定時間2になってもJOBが終了していない場合、例えば、計算に要した時間が予定よりも延びた場合、ファイルのデステージング及びボリュームのアンマウントを行うことができない。そのため、JOBの完了通知を計算機管理サーバ18から受け取るようにする。この情報を元に、指定時間2になった際に、該当JOBが終了しているかどうかをチェックし、終了していない場合は、該当JOBの終了通知をストレージ管理サーバ19が受け取るまでステップ513の実行を待つ。(2)の場合、指定時間2は、ステップ505で決定した時間となる。ここで、指定時間2になってもJOBが終了していない場合は、(1)の場合と同様の処理を行う。
指定時間2になったら、ステップ513において、ストレージ管理部28は、該当ファイルのデステージングをファイルサーバ13へ指示し、ファイルサーバ13は指示を受けデステージングを行う。すなわち、ステップ509で説明したコピー元ディレクトリをコピー先ディレクトリ、コピー先ディレクトリをコピー元として、該当ファイルをコピーする。そして、該当ファイルのデステージングが終了したら、ファイルサーバ13が該当するファイル格納用第一ボリューム51をユーザディレクトリからアンマウントし、図4に示す状態に、ユーザディレクトリを戻す。次にステップ514で、ストレージ管理部28は、ファイルサーバ13からのアンマウント完了報告をチェックし、完了報告を受けたらステップ515へ移る。
次にステップ515で、ストレージ管理サーバ19は、アンマウントされたファイル格納用第一ボリュームを他のJOBが使用するファイル格納用ボリュームのために開放する。この後は、ステップ506からステップ515の処理を繰り返す。
本実施形態によれば、計算機14で実行されるJOBが必要なときに、必要なファイルを第一階層ストレージ装置11にステージングできるため、第一階層ストレージ装置11の高性能を活かして計算機14へのファイルの入出力を高速化することが可能となる。また、第一階層ストレージ装置11の容量を最小限にすることが可能となり、ストレージシステムのコストを削減することができる。
本実施形態では、JOBファイル格納用第一ボリューム51をユーザディレクトリとしてマウントした後、計算機14でのJOB実行が終了し、出力されたファイルをデステージングするまでは、ファイル格納用第一ボリューム51をアンマウントし、開放することはしない。
しかし、図6に示す手順において、ステップ511でストレージ管理サーバ19が計算機管理サーバ18へステージング完了通知をし、計算機14が該当ファイルをユーザディレクトリから読み出した後、該当ディレクトリからファイル格納用第一ボリューム51をアンマウントし、そのボリュームを他のJOBが使用するファイル格納用第一ボリューム51として確保し、他のユーザディレクトリにマウントしても良い。この場合、ボリュームをアンマウントしたユーザディレクトリを使用しているJOBが終了する前に、改めて必要なボリュームを確保しそのボリュームを当該ユーザディレクトリにマウントすればよい。
また、入力ファイル用ディレクトリ及びボリュームと、出力用ディレクトリ及びボリュームを分離して用意しておき、入力用ボリュームは該当JOBの実行開始後、入力用ディレクトリからアンマウントし、そのボリュームは他のJOB用に開放しても良い。
また、指定時間1では入力用ディレクトリ及びボリュームのみ用意しておき、該当JOBの実行開始後は、入力用ディレクトリからアンマウントし、そのボリュームは他のJOB用に開放し、指定時間2の前に、出力用ボリュームを確保し、そのボリュームを出力用ディレクトリにマウントしても良い。
上記の制御をすることで、第一階層ストレージ装置11に必要な容量をさらに削減することができ、ストレージシステム1の低コスト化が可能となる。
もし、指定時間2において、第一階層ストレージ装置11の容量不足のために出力用ボリュームが確保できない場合は、当該JOBのファイルは、第二階層ストレージ装置12の当該JOBのファイルを格納するファイル格納用第二ボリューム52をマウントしたユーザディレクトリに直接書き込むことにより、第一階層ストレージ装置11の容量不足を回避することが可能となる
また次に、本実施形態のストレージシステム2において、消費電力を下げる方法の例を図10を用いて説明する。その方法では、実行JOBに関連するファイルを第二階層ストレージ装置12と第一階層ストレージ装置11の間で、ステージング、デステージングする時のみ第二階層ストレージ装置12の関連するファイルが格納されているボリュームを構成するハードディスクの電源をONにし、それ以外のとき、またファイルのステージング、デステージングを行わないボリュームを構成するハードディスクの電源をOFFするという方法である。
図10にその手順を示す。基本の処理の流れは図6に示す流れと同様である。異なるのは以下の点である。
まず、ステップ411(図6のステップ509に相当)の前に、ステップ409で、ストレージ管理サーバ19は、第二階層ストレージ装置12に対して、ステージングの対象となっているファイルを格納しているファイル格納用第二ボリュームを構成するハードディスクの電源をONにする指示を出す。ストレージ管理サーバ19は、ファイル格納用第二ボリュームとそのボリュームを構成するハードディスクの対応関係を示すテーブルを有している。
そして、ステップ410において、ストレージ管理サーバ19は、第二階層ストレージ装置12からのHDD電源ONの完了報告をチェックし、完了報告を受けたら、ステップ411の処理へ移る。
また、ステップ413の後に、ファイルのステージングが完了したファイルが格納されているファイル格納用第二ボリューム52を構成するハードディスクの電源を再びOFFするよう、ストレージ管理サーバ19は第二階層ストレージ装置12に指示を出す。
次に、指定時間2になったら、ステップ416で、該当JOBに関連するファイル格納用第二ボリューム52を構成するハードディスクの電源を再びONするよう、ストレージ管理サーバ19は第二階層ストレージ装置12に指示を出す。
そして、ステップ417において、ストレージ管理サーバ19は、第二階層ストレージ装置12からのHDD電源ONの完了報告をチェックし、完了報告を受けたら、ステップ418の処理へ移る。
また、ステップ420の後に、ステップ421で、ファイルのデステージングが完了したファイルが格納されているファイル格納用第二ボリューム52を構成するハードディスクの電源を再びOFFするよう、ストレージ管理サーバ19は第二階層ストレージ装置12に指示を出す。その後、ステップ406からステップ421の処理を繰り返す。
また、さらに、ステップ413の後、計算機14が入力ファイルを読み込んだ後、当該ファイルが格納されていたファイル格納用第一ボリューム51を構成するハードディスクの電源をOFFするよう、ストレージ管理サーバ19は第一階層ストレージ装置11に指示を出しても良い。その場合、ステップ416の後、上記電源OFFしたハードディスクの電源を再びONするよう、ストレージ管理サーバ19は第一階層ストレージ装置11に指示を出す。ストレージ管理サーバ19は、ファイル格納用第一ボリュームとそのボリュームを構成するハードディスク”の対応関係を示すテーブルを有している。
これにより、第二階層ストレージ装置12のみのハードディスクの電源をOFFする処理を行う場合に比べ、さらに消費電力を下げることが可能となる。
次に、本発明の第二の実施形態について説明する。
図8に、第二の実施形態のストレージ装置を含むシステムの構成例を示す。図8に示すシステムの構成は、以下の点を除いて、図1に示すシステムの構成と同様である。
異なる点は、第一階層ストレージ装置11がダンプ用ボリューム53を有する点と、計算機14とFCスイッチ15を介して接続されている点である。
本実施例のシステムでは、JOBの実行中に定期的に、計算機14の中のJOB実行に使用されている全てのプロセッサの主記憶(プロセッサが計算中に使用するデータ)の内容をそのままブロックデータとして、ダンプ用ボリューム53へ書き込む。この主記憶の内容をダンプ用ボリューム53へ書き出すタイミングをチェックポイントと呼ぶ。このように、チェックポイント毎に計算に使用されているプロセッサの主記憶の内容をダンプ用ボリューム53へ書き出しておくことによって、計算機の障害によりJOBの実行がストップした場合、その直前のチェックポイントでダンプ用ボリューム53に書き出した主記憶の内容を計算機14の主記憶に読み込むことにより、その時点から計算を再開し継続することが可能となる。
このような処理を行わない場合、計算機の障害によりJOBの実行がストップした場合、最初から計算をやり直す必要があり、計算時間の無駄となる。
この処理を行うシステムでは、第一階層ストレージ装置11内に、計算機14へのファイルの入出力用ボリューム(ファイル格納用第一ボリューム51)の他に、ダンプ用ボリューム53を用意する必要があるため、ダンプ用ボリュームがない場合に比べ多くの容量を必要とし、ストレージシステム1のコストアップの要因となる。これを防ぐために、以下に示すダンプ用ボリューム53の割り当てを実施する。
まず、ダンプ用ボリューム53として確保するボリュームの数と容量は、前記計算機管理サーバ18から、計算機14内の計算に使用される主記憶容量と計算機14の主記憶内に格納されたデータをダンプ用ボリューム53に書き込む回数、すなわちチェックポイントの回数の情報を、ストレージ管理サーバ19が受けとり、当該ストレージ管理サーバ19がその情報を元に設定する。例えば、ダンプ用ボリューム53を1個として、そのボリュームに全てのチェックポイントにおける主記憶の内容を書き出す場合は、ダンプ用ボリューム53の容量を(主記憶容量)×(チェックポイントの数)に設定する。また、ダンプ用ボリューム53をチェックポイントの数だけ用意する場合は、各ダンプ用ボリューム53の容量は主記憶容量と等しくするか余裕を見て、主記憶容量より少し例えば5%程度多い容量とする。
次に、ダンプ用ボリューム53の割り当て方法を説明する。以下の方法は、ストレージ管理サーバの指示に基づき、第一階層ストレージ装置11が実行することで実現される。第一階層ストレージ装置11でのボリュームの割り当てでは、ファイル格納用第一ボリューム51の割り当てを優先し、残ったボリュームをダンプ用ボリューム53に割り当てる。これは、ファイル格納用第一ボリューム51はJOBを実行させるために必要なファイルを格納するためのボリュームであり、そのボリュームが確保できないとJOBを実行させることができないためである。
このような考え方でボリュームの割り当てを行うため、チェックポイントと計算に使う主記憶容量から計算したダンプ用ボリュームの数とそれぞれのボリュームの容量を確保すると、第一階層ストレージ装置11の最大容量を超える場合は、チェックポイントの回数を再設定するように計算機管理サーバ18を介してユーザへ通知する。
あるいは、必要な数のダンプ用ボリューム53を用意せず、残りのボリュームの範囲内で割り当てられる最大の数のダンプ用ボリューム53を割り当てる。そして、計算の途中で用意された数のダンプ用ボリューム53を使い果たした場合、最も古いチェックポイントのデータ格納したダンプ用ボリューム53へ新しいチェックポイントのデータの上書きを行う。この場合、この処理を実施することを、計算機管理サーバ18を介してユーザに通知し、ユーザにこの処理を行うか、チェックポイントの数を再設定するかを選択させてもよい。
あるいは、ダンプ用ボリューム53を2〜3個のみとし、その数の範囲内でボリュームを使いまわしても良い。すなわち、ボリュームの数が足りなくなったら、古いチェックポイントのボリュームへ新しいチェックポイントのデータの上書きを行う。
また、最初に上記の3つの割り当て方法をユーザに提示し、選択させても良い。
また、JOBの計算開始時間と終了時間が予め分かっており、かつボリュームの割り当て替えとユーザディレクトリへのマウント/アンマウントに要する時間比べて、計算時間が長い場合、計算開始後に、入力ファイルを格納するために使用したファイル格納用ボリューム53をユーザディレクトリからアンマウントし、ダンプ用ボリューム53として割り当て替えても良い。この場合、計算終了時間の一定時間前に、JOBの出力ファイルを格納するのに必要なボリューム分のダンプ用ボリュームを開放し、出力用ファイルを格納するボリュームとして再割り当てを行い、ユーザディレクトリとしてマウントする。
こうすることにより、第一階層ストレージ装置11に必要な容量を削減することが可能となり、ストレージシステム1のコストを削減することができる。
ここで、上記で説明してきたダンプ用ボリューム53に格納したチェックポイントにおける主記憶の内容を、ユーザが指定したチェックポイントについて、第二階層ストレージ装置12に用意したダンプ用ボリュームへデステージングしても良い。そうすることにより、計算終了後にあるチェックポイントから再計算を行いたい場合に、計算時間を短縮することが可能となる。
本発明のストレージシステムとそれに繋がる計算機、管理サーバの構成例を示す図である。 本発明の第一階層ストレージ装置の構成の例を示す図である。 本発明の第二階層ストレージ装置の構成の例を示す図である。 ファイル格納用ディレクトリと、ファイル格納用仮想ボリューム、ファイル格納用ボリュームの対応関係の例を示す図である。 ファイル格納用ディレクトリと、ファイル格納用仮想ボリューム、ファイル格納用第一、第二ボリュームの対応関係の例を示す図である。 本発明のファイルサーバ、第一、第二階層ストレージ装置間でのファイルのステージング/デステージングの手順の一例を示す図である。 本発明の計算機管理サーバとストレージ管理サーバの構成の一例を示す図である。 本発明のストレージシステムとそれに繋がる計算機、管理サーバの他の構成例を示す図である。 計算機実行スクリプトの例を示す図である。 本発明のファイルサーバ、第一、第二階層ストレージ装置間でのファイルのステージング/デステージングの手順の他の一例を示す図である。
符号の説明
1…計算機システム、2…ストレージシステム、11…第一階層ストレージ装置、12…第二階層ストレージ装置、13…ファイルサーバ、14…計算機、16…IPスイッチ、17…FCスイッチ、18…計算機管理サーバ、19…ストレージ管理サーバ、21…JOB管理部、22…ユーザ管理部、23…情報管理部、24…情報収集部、25…情報解析部、26…ボリューム管理部、27…ユーザエリア管理部、28…ストレージ管理部、51…ファイル格納用第一ボリューム、52…ファイル格納用第二ボリューム、61…ファイル格納用仮想ボリューム

Claims (20)

  1. 複数の計算機と、
    前記複数の計算機に接続されるファイルサーバと、
    前記ファイルサーバに接続され、第1のボリュームを有する第一のストレージ装置と、
    前記第一のストレージ装置に接続され、第2のボリュームを有する第二のストレージ装置と、
    前記ファイルサーバ、前記第一のストレージ装置、及び前記第二のストレージ装置に接続される管理装置を有するストレージシステムであって、
    前記第一のストレージ装置は、前記第2のボリュームを自装置のボリュームとして仮想化した仮想ボリュームを有し、
    前記ファイルサーバは、前記管理装置の指示に基づき、
    前記仮想ボリュームを第二のディレクトリとしてマウントし、
    予め定められた第一のタイミングで、前記第一のボリュームを第一のディレクトリとしてマウントし、
    前記第二のディレクトリ内のファイルを、前記第一のディレクトリへコピーし、
    予め定められた第二のタイミングにおいて、前記第一のディレクトリ内の予め定められたファイルを、前記第二のディレクトリへコピーする手段を有することを特徴とするストレージシステム。
  2. 請求項1記載のストレージシステムであって、
    前記管理装置は、
    前記計算機の計算実行ジョブ情報を収集する収集手段と、
    前記収集した計算実行ジョブ情報を解析する解析手段と、
    前記解析した計算実行ジョブ情報に基づき、入出力されるファイルの特性を抽出する抽出手段と、
    前記ファイルの特性に基づき、ファイルを格納する前記第一のボリュームを選択する選択手段を有することを特徴とするストレージシステム。
  3. 請求項2記載のストレージシステムであって、
    前記抽出手段は、ファイルの特性としてファイルサイズを抽出し、
    前記選択手段は、前記抽出されたファイルサイズが予め定められた値より大きい場合、予め定められたディスク数以上の数の磁気ディスク装置から構成された第一のボリュームを選択することを特徴とするストレージシステム。
  4. 請求項2記載のストレージシステムであって、
    前記抽出手段は、ファイルの特性としてファイル数を抽出し、
    前記選択手段は、前記抽出されたファイル数が予め定められた値よりより多い場合、予め定められたボリューム数以上のボリュームを第一のボリュームとして選択することを特徴とするストレージシステム。
  5. 請求項4記載のストレージシステムであって、
    前記ファイルサーバは、選択された前記複数の第一のボリュームをそれぞれ別の前記第一のディレクトリとしてマウントし、前記第2のボリュームに格納されている複数のファイルを、前記複数の第一のディレクトリに分散してコピーすることを特徴とするストレージシステム。
  6. 請求項1記載のストレージシステムであって、
    前記ファイルサーバは、前記予め定められた第二のタイミングで、前記第一のディレクトリ内の予め定められたファイルを、前記第二のディレクトリへコピーした後、前記第一のディレクトリをアンマウントするアンマウント手段と、
    アンマウントした前記第一のボリュームを他の計算のファイル格納用ボリュームとして提供するボリューム提供手段、とを有することを特徴とするストレージシステム。
  7. 請求項1記載のストレージシステムであって、
    前記ファイルの特性に基づき、ファイルを格納する前記第一のボリュームを選択する選択手段を有し、
    前記選択手段は、前記第二のタイミングの所定時間前に、計算結果を出力するファイル格納用ボリュームとして、前記第一のボリュームとは異なる第三のボリュームを選択するし、
    前記ファイルサーバは、前記第三のボリュームを第三のディレクトリとしてマウントすることを有することを特徴とするストレージシステム。
  8. 請求項1記載のストレージシステムであって、
    前記第一のタイミングにおいて、前記第一のボリュームを前記第一のディレクトリとしてマウントし、前記第二のディレクトリ内の予め定められたファイルを第一のディレクトリへコピーした後、前記第二のボリュームを構成する磁気ディスク装置の電源を切る手段を有することを特徴とするストレージシステム。
  9. 請求項8記載のストレージシステムであって、
    前記ファイルサーバは、前記計算機が、前記第一のディレクトリから所望のファイルを読み出した後、前記第一のボリュームをアンマウントする手段を有し、
    当該ストレージシステムは、前記アンマウントされた第一のボリュームを構成する磁気ディスク装置の電源を切る手段を有することを特徴とするストレージシステム。
  10. 請求項1記載のストレージシステムであって、
    前記第一及び第二のタイミングを決定するタイミング決定手段を有し、
    当該タイミング決定手段は、前記第1のタイミングとして、前記管理装置から通知されるジョブの一つ前のジョブが実行に移ったタイミングを選択することを特徴とするストレージシステム。
  11. 請求項1記載のストレージシステムであって、
    前記第一及び第二のタイミングを決定するタイミング決定手段を有し、
    当該タイミング決定手段は、前記第1のタイミングとして、実行対象ジョブの一つ前のジョブのファイルのステージングが完了したタイミングを選択することを特徴とするストレージシステム。
  12. 請求項1記載のストレージシステムであって、
    前記第一及び第二のタイミングを決定するタイミング決定手段を有し、
    当該タイミング決定手段は、前記第1のタイミングとして、実行対象ジョブの実行予定時間より、ファイル格納用第一ボリュームの選定あるいは作成の処理に要する時間以上前のタイミングを選択することを特徴とするストレージシステム。
  13. 請求項1記載のストレージシステムであって、
    前記第一及び第二のタイミングを決定するタイミング決定手段を有し、
    当該タイミング決定手段は、前記第2のタイミングとして、実行対象ジョブの実行開始時間に、当該ジョブの計算時間を加えたタイミングを選択することを特徴とするストレージシステム。
  14. 複数の計算機と、
    前記複数の計算機に接続されるファイルサーバと、
    前記ファイルサーバに接続され、第1のボリュームと第3のボリュームを有する第一のストレージ装置と、
    前記第一のストレージ装置に接続され、第2のボリュームを有する第二のストレージ装置と、
    前記ファイルサーバ、前記第一のストレージ装置、及び前記第二のストレージ装置に接続される管理装置を有するストレージシステムであって、
    前記第一のストレージ装置は、前記第二のボリュームを自装置のボリュームとして仮想化した仮想ボリュームを有し、
    前記計算機は、当該計算機の主記憶に格納されたデータを、前記第三のボリュームに対して書込みあるいは読出し、前記ファイルサーバは、前記管理装置の指示に基づき、
    前記仮想ボリュームを第二のディレクトリとしてマウントし、
    予め定められた第一のタイミングで、前記第一のボリュームを第一のディレクトリとしてマウントし、
    前記第二のディレクトリ内のファイルを、前記第一のディレクトリへコピーし、
    予め定められた第二のタイミングにおいて、前記第一のディレクトリ内の予め定められたファイルを、前記第二のディレクトリへコピーする手段を有することを特徴とするストレージシステム。
  15. 請求項14記載のストレージシステムであって、
    前記管理装置は、前記計算機の計算実行ジョブ情報を収集する収集手段と、前記収集した計算実行ジョブ情報を解析する解析手段と、
    前記管理装置から通知された前記計算実行ジョブ情報から、前記計算機内の計算に使用される主記憶容量と前記計算機内の主記憶内に格納されたデータを前記第三のボリュームに書き込む回数とに基づき、前記第三のボリュームの数と容量を計算する手段を備えることを特徴とするストレージシステム。
  16. 請求項15記載のストレージシステムであって、
    前記管理装置は、前記第1のストレージ装置内のボリュームの割り当てにおいて、まず前記第一のボリュームを割り当てた後、残りのボリュームを前記第三のボリュームとして割り当てることを特徴とするストレージシステム。
  17. 請求項16記載のストレージシステムであって、
    前記管理装置は、前記残りのボリュームの容量が、前記計算実行ジョブ情報から計算した第三のボリュームとして必要な総容量に足りない場合は、前記第三のボリュームに書き込む回数を再設定するように前記計算機へ指示することを特徴とするストレージシステム。
  18. 請求項16記載のストレージシステムであって、
    前記管理装置は、前記残りのボリュームの容量が、前記計算実行ジョブ情報から計算した第三のボリュームとして必要な総容量に足りない場合は、前記残りのボリュームの範囲内で第三のボリュームを割り当て、容量不足で計算の実行中に前記第三のボリュームにデータを書き込めなくなった場合は、最も古いデータを削除することを特徴とするストレージシステム。
  19. 請求項16記載のストレージシステムであって、
    計算実行開始後、前記ファイルサーバは前記第一のボリュームをアンマウントし、
    前記管理装置は、前記アンマウントした第一のボリュームを前記第三のボリュームとして割り当てることを特徴とするストレージシステム。
  20. 請求項19記載のストレージシステムであって、
    前記管理装置は、計算終了前に、前記第三のボリュームを第一のボリュームとして割り当て替え、
    前記ファイルサーバは、前記割り当て変えた第一のボリュームを前記第一のディレクトリとして再マウントすることを特徴とするストレージシステム。
JP2007136119A 2007-05-23 2007-05-23 予知型データ移行を行う階層ストレージシステム Expired - Fee Related JP4375435B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2007136119A JP4375435B2 (ja) 2007-05-23 2007-05-23 予知型データ移行を行う階層ストレージシステム
CN2008100828242A CN101311911B (zh) 2007-05-23 2008-02-28 分级存储系统及其数据迁移方法
GB0805309A GB2449521B (en) 2007-05-23 2008-03-20 Foresight data transfer type hierarchical storage system
DE102008015185A DE102008015185A1 (de) 2007-05-23 2008-03-20 Hierarchisches Speichersystem mit vorausschauender Datenübertragung
US12/052,900 US7882136B2 (en) 2007-05-23 2008-03-21 Foresight data transfer type hierarchical storage system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007136119A JP4375435B2 (ja) 2007-05-23 2007-05-23 予知型データ移行を行う階層ストレージシステム

Publications (2)

Publication Number Publication Date
JP2008293149A true JP2008293149A (ja) 2008-12-04
JP4375435B2 JP4375435B2 (ja) 2009-12-02

Family

ID=39386621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007136119A Expired - Fee Related JP4375435B2 (ja) 2007-05-23 2007-05-23 予知型データ移行を行う階層ストレージシステム

Country Status (5)

Country Link
US (1) US7882136B2 (ja)
JP (1) JP4375435B2 (ja)
CN (1) CN101311911B (ja)
DE (1) DE102008015185A1 (ja)
GB (1) GB2449521B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138321A (ja) * 2009-12-28 2011-07-14 Hitachi Ltd ストレージ管理システム、ストレージ階層管理方法及び管理サーバ
JP2011215677A (ja) * 2010-03-31 2011-10-27 Hitachi Ltd ストレージシステム、その負荷分散管理方法及びプログラム
JP2011227898A (ja) * 2010-04-19 2011-11-10 Hitachi Ltd 階層情報管理方法及び装置

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5081498B2 (ja) 2007-05-24 2012-11-28 株式会社日立製作所 計算機システム、および、その制御方法
GB2453318A (en) * 2007-09-03 2009-04-08 Idan Zuta Method and system for authoring a patent application
US8225066B2 (en) * 2009-05-13 2012-07-17 Hitachi, Ltd. Storage system and utilization management method for storage system
US8356054B2 (en) * 2009-11-10 2013-01-15 International Business Machines Corporation Management of resources in a host system
JP5209591B2 (ja) * 2009-11-16 2013-06-12 株式会社日立製作所 省電力機能を有するストレージシステム
CN102063473B (zh) * 2010-12-21 2012-10-10 南京壹进制信息技术有限公司 一种可在线扩展存储空间的方法
US9021299B2 (en) * 2011-02-18 2015-04-28 Ab Initio Technology Llc Restarting processes
US9116759B2 (en) 2011-02-18 2015-08-25 Ab Initio Technology Llc Restarting data processing systems
US8606878B2 (en) * 2011-02-28 2013-12-10 Red Hat, Inc. Systems and methods for de-populating cloud data store
CN102508789A (zh) * 2011-10-14 2012-06-20 浪潮电子信息产业股份有限公司 一种系统分级存储的方法
CN102521419A (zh) * 2011-12-31 2012-06-27 曙光信息产业股份有限公司 分级存储的实现方法和系统
US8909734B2 (en) * 2012-02-07 2014-12-09 International Business Machines Corporation Migrating data between networked computing environments
US9189167B2 (en) 2012-05-31 2015-11-17 Commvault Systems, Inc. Shared library in a data storage system
JP6131170B2 (ja) * 2013-10-29 2017-05-17 株式会社日立製作所 計算機システム、及びデータ配置制御方法
CN104503924B (zh) * 2014-12-16 2018-02-13 华为技术有限公司 一种分层存储系统中的区域分配方法及装置
US10192065B2 (en) * 2015-08-31 2019-01-29 Commvault Systems, Inc. Automated intelligent provisioning of data storage resources in response to user requests in a data storage management system
CN107132991B (zh) * 2016-02-26 2020-11-20 深信服科技股份有限公司 虚拟存储系统的分层存储方法及虚拟存储系统
CN107612960B (zh) * 2017-07-21 2021-01-01 国网重庆市电力公司 电网调度中一体化控制系统
US11003372B2 (en) 2018-05-31 2021-05-11 Portworx, Inc. Protecting volume namespaces from corruption in a distributed container orchestrator
CN109324763B (zh) * 2018-10-18 2022-01-07 爱云保(上海)科技有限公司 识别移动互联网内移动终端中低重要度文件的方法及系统

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4128206B2 (ja) 1993-06-21 2008-07-30 株式会社日立製作所 計算機システムおよび二次記憶装置
JP3832485B2 (ja) 1993-06-21 2006-10-11 株式会社日立製作所 計算機システムおよび二次記憶装置
US5619690A (en) 1993-06-21 1997-04-08 Hitachi, Ltd. Computer system including a computer which requests an access to a logical address in a secondary storage system with specification of a local address in the secondary storage system
JP3747788B2 (ja) 1993-06-21 2006-02-22 株式会社日立製作所 計算機システムおよび二次記憶装置
JP3747937B2 (ja) 1993-06-21 2006-02-22 株式会社日立製作所 計算機システムおよび二次記憶装置
JPH0717357A (ja) 1993-06-30 1995-01-20 Aisin Seiki Co Ltd プリローダ装置
JP2625382B2 (ja) 1993-07-23 1997-07-02 日本電気株式会社 ファイル割り当てシステム
US5440737A (en) 1993-07-23 1995-08-08 Nec Corporation File-allocation control system for allocating files according to user-program priority and storage volume performance
US5564037A (en) * 1995-03-29 1996-10-08 Cheyenne Software International Sales Corp. Real time data migration system and method employing sparse files
JP3779592B2 (ja) 2001-10-31 2006-05-31 株式会社東芝 情報記憶制御装置
JP2004070403A (ja) 2002-08-01 2004-03-04 Hitachi Ltd ファイル格納先ボリューム制御方法
US7290168B1 (en) * 2003-02-28 2007-10-30 Sun Microsystems, Inc. Systems and methods for providing a multi-path network switch system
JP2003263279A (ja) 2003-03-27 2003-09-19 Hitachi Ltd ディスクアレイ制御装置
CN101566928B (zh) * 2003-08-14 2012-06-27 克姆佩棱特科技公司 虚拟磁盘驱动系统和方法
JP4349871B2 (ja) 2003-09-09 2009-10-21 株式会社日立製作所 ファイル共有装置及びファイル共有装置間のデータ移行方法
US7467238B2 (en) 2004-02-10 2008-12-16 Hitachi, Ltd. Disk controller and storage system
JP4405277B2 (ja) 2004-02-16 2010-01-27 株式会社日立製作所 ディスク制御装置
US20060069689A1 (en) * 2004-06-08 2006-03-30 Gregory Karklins Method for accessing and browsing a PLC provided within a network
US8751616B2 (en) * 2004-06-08 2014-06-10 Siemens Industry, Inc. System for accessing and browsing a PLC provided within a network
JP4239008B2 (ja) * 2004-07-08 2009-03-18 日本電気株式会社 情報処理方法、情報処理装置およびプログラム
US7131027B2 (en) * 2004-07-09 2006-10-31 Hitachi, Ltd. Method and apparatus for disk array based I/O routing and multi-layered external storage linkage
CN1290019C (zh) * 2004-12-01 2006-12-13 威盛电子股份有限公司 进行硬盘阵列数据迁移的方法与相关装置
JP2007058728A (ja) 2005-08-26 2007-03-08 Hitachi Ltd データ移行方式
JP4694333B2 (ja) 2005-09-30 2011-06-08 株式会社日立製作所 計算機システム及びストレージ装置とシステム管理装置並びにディスク装置電源制御方法
US8924269B2 (en) * 2006-05-13 2014-12-30 Sap Ag Consistent set of interfaces derived from a business object model
JP4526509B2 (ja) 2006-06-02 2010-08-18 株式会社日立製作所 ディスクアレイ制御装置
JP4331742B2 (ja) * 2006-10-25 2009-09-16 株式会社日立製作所 I/oの割り振り比率に基づいて性能を管理する計算機システム、計算機及び方法
US20090003172A1 (en) * 2006-12-29 2009-01-01 Hiroshi Yahata Playback device, recording device, disc medium, and method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138321A (ja) * 2009-12-28 2011-07-14 Hitachi Ltd ストレージ管理システム、ストレージ階層管理方法及び管理サーバ
JP2011215677A (ja) * 2010-03-31 2011-10-27 Hitachi Ltd ストレージシステム、その負荷分散管理方法及びプログラム
JP2011227898A (ja) * 2010-04-19 2011-11-10 Hitachi Ltd 階層情報管理方法及び装置

Also Published As

Publication number Publication date
GB2449521B (en) 2009-04-22
JP4375435B2 (ja) 2009-12-02
DE102008015185A1 (de) 2008-12-04
GB2449521A (en) 2008-11-26
US7882136B2 (en) 2011-02-01
GB0805309D0 (en) 2008-04-30
CN101311911A (zh) 2008-11-26
CN101311911B (zh) 2011-03-02
US20080294698A1 (en) 2008-11-27

Similar Documents

Publication Publication Date Title
JP4375435B2 (ja) 予知型データ移行を行う階層ストレージシステム
JP4884198B2 (ja) ストレージネットワークの性能管理方法、並びに、その方法を用いた計算機システム及び管理計算機
US10042869B1 (en) Method for data transfer between compute clusters and file system
EP1837751B1 (en) Storage system, storage extent release method and storage apparatus
JP4438457B2 (ja) 記憶領域割当方法、システム及び仮想化装置
US8346934B2 (en) Method for executing migration between virtual servers and server system used for the same
JP3997061B2 (ja) 記憶サブシステムおよび記憶サブシステムの制御方法
JP4464378B2 (ja) 同一データを纏める事で格納領域を節約する計算機システム、ストレージシステム及びそれらの制御方法
JP2008015888A (ja) 負荷分散制御システム及び負荷分散制御方法
JP2005215947A (ja) 複数インタフェースを有する記憶装置、および、その記憶装置の制御方法
JP2006268534A (ja) 記憶装置システムの制御技術
JP2005056077A (ja) データベース制御方法
US20110296422A1 (en) Switch-Aware Parallel File System
JP2009053921A (ja) ストレージシステム、計算機及び計算機システム
JP6294569B2 (ja) ストレージシステム及びキャッシュ制御方法
JP6028415B2 (ja) 仮想サーバ環境のデータ移行制御装置、方法、システム
Shu et al. Disaggregated RAID storage in modern datacenters
JP6069962B2 (ja) 情報処理装置、領域解放制御プログラム、および領域解放制御方法
US9239681B2 (en) Storage subsystem and method for controlling the storage subsystem
Kosar A new paradigm in data intensive computing: Stork and the data-aware schedulers
JP5246872B2 (ja) ストレージシステムおよびストレージ管理方法
US20080005745A1 (en) Management server and server system
US20140115019A1 (en) Distribution processing unit of shared storage
JP4160817B2 (ja) ディスクサブシステム、計算機システム、それを管理するためのストレージ管理方法、および、管理プログラム
JP2012146280A (ja) 記憶操作のためのキュー及び作業負荷による選択インタフェースの方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090818

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090831

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120918

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120918

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130918

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees