JP2022126099A

JP2022126099A - 情報処理プログラム、情報処理方法及び情報処理装置

Info

Publication number: JP2022126099A
Application number: JP2021023978A
Authority: JP
Inventors: 健飯澤; Takeshi Iizawa
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2022-08-30
Also published as: US20220261724A1

Abstract

【課題】オブジェクトストレージにおける適切なデータ配置を行う情報処理プログラム、情報処理方法及び情報処理装置を提供する。【解決手段】情報処理プログラムは、データベースファイルを複数のデータ集合に分類させ、分類した前記データ集合を基にオブジェクトを生成させ、生成した各前記オブジェクトをオブジェクトストレージ３０における管理条件が異なる第１階層３１及び第２階層３２に分割配置させる処理をコンピュータに実行させる。【選択図】図１

Description

本発明は、情報処理プログラム、情報処理方法及び情報処理装置に関する。

今日のコンピューティングに関する爆発的に拡大するデータ量と、従来とは異なる種類のデータの増加により、ストレージに対して従来とは異なる機能が要求されてきている。小さなファイルを対象とする処理が中心だった時代にはディレクトリ構造のファイルシステムが有効であったが、動画ファイルなどのデータ数の増大はストレージのＩ／Ｏ（Input/Output）にボトルネックを生じさせるようになった。こうした問題を解決するための技術の１つとして、オブジェクトストレージが注目を集めている。

オブジェクトストレージは、データをファイル単位やブロック単位ではなく、オブジェクトという単位で扱う。オブジェクトストレージでは、ディレクトリのような階層構造は存在せず、ストレージプールというオブジェクトの入れ物が作成され、メタデータによって管理される。オブジェクト同士はフラットな関係で、データの移動で階層構造が変わることはない。また、オブジェクト数に制限はない。このように、オブジェクトストレージは、ディレクトリ構造で管理するファイルストレージとは異なり、データサイズやデータ数の保存制限がないため、大容量データの保存に適している。そのため、オブジェクトストレージは、安価で長期保存に適したストレージとして広く普及している。

オブジェクトストレージは、一般にクライアントからのリクエストを、ゲートウェイと呼ばれるコンポーネントを介して受け付ける。リクエストは、クライアントがアクセスしたいオブジェクト名と、それに対する操作との組である。操作とは、具体的には、ＰｕｔやＧｅｔなどのオブジェクトインタフェースである。

さらに、オブジェクトストレージには、データベースファイルのデータセットとして行と列からなる構造化データを保持するものがある。行と列からなる構造化データは、例えば、同一の列が記憶媒体上の連続領域に格納される列指向形式を有する。具体的な格納方法としては、列指向形式の構造化データは、列毎に含まれるデータが列における順番で記憶媒体上の連続するアドレスに格納される。

また、オブジェクトストレージ上のデータを用いるアプリケーションは、例えば、データベースマネージメントシステム（ＤＢＭＳ：Data Base Management System）経由でオブジェクトストレージに格納されたデータベースファイルへアクセスする。アプリケーションは、ＤＢＭＳに対してＳＱＬ（Structured Query Language）等の標準化されたＡＰＩ（Application Programming Interface）を用いてアクセスを行なう。オブジェクトストレージは、各列の記憶媒体上の格納位置が記録されたインデックスを有する。データベースマネージメントシステムは、インデックスを参照することで、各列を直接読み出すことができる。

列指向形式の構造化データに対してＤＢＭＳ経由でアクセスするアプリケーションを用いる場合、データへのアクセスは以下の特徴を有する。このようなアプリケーションは、ファイル全体ではなく、一部の列にアクセスを行なう。その結果、各列でアクセス頻度に差が生じる。すなわち、データベースファイルの中で、アクセス頻度が高い列群と、アクセス頻度が低い列群とが発生する。アクセス頻度が高い列群は、さらに、同時にアクセスされる複数のグループに分類することが可能である。

ここで、オブジェクトストレージは、目的に合わせて階層分割されて利用される場合がある。例えば、オブジェクトストレージを用いたサービスとして、従量課金制のパブリック・クラウド・ストレージがある。パブリック・クラウド・ストレージで発生する料金には、オブジェクトストレージへのアクセスに対して課金される「アクセス料金」と、保存データ量に対して課金される「保存料金」とが存在する。例えば、アクセス料金の単位は、円／回であり、保存料金の単位は、ＧＢ・月／円である。そして、パブリック・クラウド・ストレージには、例えば、性能は同じだが料金プランが異なる２つの階層が用意される。１つ目の階層である第１階層は、保存料金は高いがアクセス料金が安く、２つ目の階層である第２階層は、保存料金が安いがアクセス料金が高い。

このようなパブリック・クラウド・ストレージにおいてゲートウェイは、以下の２つの機能を備える場合がある。１つ目は、オブジェクトストレージに格納されたオブジェクトに対するＰｕｔやＧｅｔなどのアクセス履歴を分析して、アクセス頻度が高いオブジェクトを特定するプロファイラ（Profiler）と呼ばれる機能である。２つ目は、プロファイラが特定したアクセス頻度が高いオブジェクトを、定期的に第２階層から第１階層へ移動するデータムーバ（Data Mover）と呼ばれる機能である。ただし、クライアントは、ゲートウェイ経由でデータにアクセスするため、オブジェクトが存在する階層を意識せずアクセスすることができる。

なお、データアクセスの従来技術として、データブロック別にアクセス頻度を調査し、アクセス頻度が予め指定した上限を上回る場合は高性能グループの記憶装置に移動し、下限を下回る場合は低性能のグループの記憶装置に移動する技術がある。また、アクセス頻度の高いデータと、低いデータとに分類して、アクセス頻度の高いデータを格納する領域を特定のドライブに集中させ、アクセス頻度の低いデータを格納するドライブをスリーブ化させることによって省電力化を図る技術がある。さらに、記憶装置に対するアクセス要求により連続してアクセスされたデータのペア毎にアクセス頻度に基づくデータ間の関連度を監視し、関連度の分布の傾向の経時的変化に基づいて、データ配置処理を実行する技術がある。

特開２００３－１０８３１７号公報特開２００９－１１０４５１号公報国際公開第２０１６／１４７２７９号

しかしながら、従来は、データベースファイルは、１つのオブジェクトとして、アクセス頻度に応じて第１階層又は第２階層のいずれかに全体がまとめて格納されていた。これは、従来はプロファイラが取得するアクセス履歴のアクセス単位がファイル全体であるためであった。典型的には、プロファイラが、データベースファイルへのアクセス頻度が特定の閾値より高いと判定した場合は第１階層にそのデータベースファイルを格納し、特定の閾値より低いと判定した場合は第２階層にそのデータベースファイルを格納していた。この場合、以下の問題が生じるおそれがある。

データベースファイルが第１階層に格納される場合、アクセス頻度が低い列も第１階層に格納されることになる。そのため、そのアクセス頻度が低い列に関しては、アクセス料金が安いという第１階層の恩恵を受けないにも関わらず保存コストが高くなる。また、データベースファイルが第２階層に格納される場合、アクセス頻度が高い列も第２階層に格納される。そのため、そのアクセス頻度が高い列に関しては、第２階層はアクセス料金が高いためコストが高くなる。このように、従来のオブジェクトストレージへの格納技術では、格納場所の階層分割による利益を十分に受けるための適切なデータ配置を行なうことが困難であった。

これらは、アクセス頻度に応じて高性能グループの記憶装置又は低性能のグループの記憶装置に移動するデータアクセスの技術や、アクセス頻度の高いデータを格納する領域を特定のドライブに集中させるデータアクセスの技術でも同様である。また、データのペア毎のアクセス頻度に基づいてデータ配置を行なう技術を用いても、格納場所の条件に応じた適切なデータ配置やオブジェクトの取り扱いは考慮されておらず、同様の問題が発生する。

開示の技術は、上記に鑑みてなされたものであって、オブジェクトストレージにおける適切なデータ配置を行う情報処理プログラム、情報処理方法及び情報処理装置を提供することを目的とする。

本願の開示する情報処理プログラム、情報処理方法及び情報処理装置の一つの態様において、情報処理プログラムは、データベースファイルを複数のデータ集合に分類させ、分類した前記データ集合を基にオブジェクトを生成させ、生成した各前記オブジェクトをオブジェクトストレージにおける管理条件が異なる階層に分割配置させる処理をコンピュータに実行させる。

１つの側面では、本発明は、オブジェクトストレージにおける適切なデータ配置を行うことができる。

図１は、ストレージシステムのブロック図である。図２は、実施例１に係るゲートウェイの詳細を示すブロック図である。図３は、データベースファイルの一例を示す図である。図４は、実施例１におけるデータベースファイルの格納状態を表す図である。図５は、実施例１に係るゲートウェイによるオブジェクトストレージへの格納処理のフローチャートである。図６は、実施例２に係るゲートウェイの詳細を示すブロック図である。図７は、実施例２におけるデータベースファイルの第１階層への格納状態を表す図である。図８は、実施例２に係るゲートウェイによるオブジェクトストレージへの格納処理のフローチャートである。図９は、アクセス頻度の高い列群を最適な分割サイズで等分してオブジェクトとした場合の格納例を示す図である。図１０は、アクセス頻度の高い列群の各列を１つのオブジェクトとした場合の格納例を示す図である。図１１は、ゲートウェイのハードウェア構成の一例を示す図である。

以下に、本願の開示する情報処理プログラム、情報処理方法及び情報処理装置の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する情報処理プログラム、情報処理方法及び情報処理装置が限定されるものではない。

図１は、ストレージシステムのブロック図である。ストレージシステム１は、ゲートウェイ１０、端末装置２０及びオブジェクトストレージ３０を有する。

端末装置２０は、オブジェクトストレージ３０に格納されたデータベースファイルを利用するアプリケーションが動作する。端末装置２０で動作するアプリケーションは、オブジェクトストレージ３０に対して、ゲートウェイ１０を介してリクエストを送信することで、データベースファイルの読み出し及び書き込みを行なう。リクエストでは、アクセス対象となるオブジェクトの列が指定される。具体的には、リクエストにより、アクセス対象となるオブジェクトのオフセットが指定され、そのオフセットの値によりアクセス対象となる列が指定される。

オブジェクトストレージ３０は、オブジェクト単位でデータを扱うストレージである。オブジェクトストレージ３０は、データを管理する領域として第１階層３１及び第２階層３２の２つの領域を有する。第１階層３１及び第２階層３２は、それぞれでのデータの管理条件が異なる。

例えば、本実施例に係るオブジェクトストレージ３０は、従量課金制のパブリック・クラウド・ストレージである。第１階層３１及び第２階層３２は、性能は同じだが料金プランが異なる。第１階層３１は、データの保存料金は高いがデータに対するアクセス料金が安い。また、第２階層３２は、データの保存料金は安いがデータに対するアクセス料金が高い。

オブジェクトストレージ３０は、ゲートウェイ１０が有するデータムーバ１４からの指示を受けて、データをオブジェクト毎に第１階層３１又は第２階層３２のいずれかに配置する。そして、オブジェクトストレージ３０は、配置して各オブジェクトに含まれる列の位置の情報を後述するゲートウェイ１０が有するＤＢＭＳ１２に通知する。また、オブジェクトストレージ３０は、ゲートウェイ１０が有するＤＢＭＳ１２からリクエストを受けて、指定されたオブジェクトの読み出し又は書き込みを、各オブジェクトが格納された第１階層３１又は第２階層３２に対して行う。

ゲートウェイ１０は、端末装置２０とオブジェクトストレージ３０との間のデータの送受信を仲介する。また、ゲートウェイ１０は、オブジェクトストレージ３０における第１階層３１と第２階層３２との間のデータベースファイルの配置を管理する。ゲートウェイ１０は、プロファイラ１１、ＤＢＭＳ１２、データリオーガナイザ１３及びデータムーバ１４を有する。図２は、実施例１に係るゲートウェイの詳細を示すブロック図である。図２を参照してゲートウェイ１０の詳細について説明する。

図３は、データベースファイルの一例を示す図である。ここでは、図３に示すデータベースファイル２００を取り扱う場合を例に説明する。データベースファイル２００は、列数が１６であり列指向形式を有する構造化データである。初期状態ではデータベースファイル２００は、どの様な状態でオブジェクトストレージ３０に格納されていてもよい。ここでは、一例として、データベースファイル２００が１つのオブジェクトとして第１階層３１又は第２階層３２のいずれかにまとめて格納されている状態を初期状態として説明する。

図２に戻って説明を続ける。プロファイラ１１は、データベースファイル２００の各列へのアクセス履歴を基に各列のアクセス状況を判定する。プロファイラ１１は、リクエスト取得部１１１、アクセス履歴収集部１１２及び列群分類部１１３を有する。

リクエスト取得部１１１は、端末装置２０から送信されたデータベースファイル２００に対するアクセスを要求するリクエストを取得する。そして、リクエスト取得部１１１は、取得したリクエストを、アクセス履歴収集部１１２及びＤＢＭＳ１２へ出力する。

アクセス履歴収集部１１２は、リクエストの入力をリクエスト取得部１１１から受ける。そして、アクセス履歴収集部１１２は、リクエストで指定されたオブジェクトのアクセス対象となった列の情報を収集して蓄積する。ここで、アクセス履歴収集部１１２は、保存したアクセス履歴が格納領域のサイズを超えた場合、古いものから削除して新しい情報を追加する。

列群分類部１１３は、オブジェクトストレージ３０の第１階層３１と第２階層３２とに格納する列を分類するためのアクセス頻度閾値を予め有する。列群分類部１１３は、１日１回の決まった時刻など周期的にアクセス履歴をアクセス履歴収集部１１２から取得する。そして、列群分類部１１３は、取得したアクセス履歴を解析して、データベースファイル２００の列毎のクセス頻度を求める。

次に、列群分類部１１３は、各列のアクセス頻度とアクセス頻度閾値とを比較して、アクセス頻度がアクセス頻度閾値以上である列をアクセス頻度の高い列として抽出する。例えば、列群分類部１１３は、図３のデータベースファイル２００において、斜線のパターンで表される列２０１及びドットのパターンで表される列２０２をアクセス頻度の高い列として抽出する。

また、列群分類部１１３は、アクセス頻度がアクセス頻度閾値未満である列をアクセス頻度の低い列として抽出する。例えば、列群分類部１１３は、図３のデータベースファイル２００において、無地のパターンで表される列２０３をアクセス頻度が低い列として抽出する。

そして、列群分類部１１３は、データベースファイル２００をアクセス頻度が高い列とアクセス頻度が低い列とに分類したプロファイル結果をデータリオーガナイザ１３へ出力する。

ＤＢＭＳ１２は、データベースファイル２００を形成するオブジェクトの各列のオブジェクトストレージ３０における位置を表すインデックスを有する。ＤＢＭＳ１２は、データベースファイル２００に対するアクセスを要求するリクエストの入力をリクエスト取得部１１１から受ける。次に、ＤＢＭＳ１２は、リクエストで指定されたオブジェクト及びその列の情報を取得する。次に、ＤＢＭＳ１２は、インデックスを参照して、アクセス対象であるオブジェクトの列のオブジェクトストレージ３０における位置を特定する。そして、ＤＢＭＳ１２は、特定した位置に格納されたデータベースファイル２００のデータに対してリクエストで指定された処理を行う。例えば、リクエストがＧｅｔ命令である場合、ＤＢＭＳ１２は、特定した位置に格納されたデータベースファイル２００のデータをオブジェクトストレージ３０から取得する。そして、ＤＢＭＳ１２は、リクエストの送信元である端末装置２０に応答を返す。

また、ＤＢＭＳ１２は、データベースファイル２００に含まれる各列の情報の取得要求をオブジェクト生成部１３２から受ける。そして、ＤＢＭＳ１２は、データベースファイル２００に含まれる各列のオブジェクトストレージ３０における位置を表す情報をインデックスから取得してオブジェクト生成部１３２へ出力する。その後、ＤＢＭＳ１２は、移動後の各オブジェクトの各列の位置を表す情報をオブジェクトストレージ３０から取得してインデックスを更新する。

データリオーガナイザ１３は、データベースファイル２００を各列のアクセス頻度に応じて分割して複数のオブジェクトを作成し、各オブジェクトをオブジェクトストレージ３０の第１階層３１又は第２階層３２に格納させる。データリオーガナイザ１３は、プロファイル結果取得部１３１、オブジェクト生成部１３２及びオブジェクト移動指示部１３３を有する。

プロファイル結果取得部１３１は、データベースファイル２００の各列のアクセス頻度による分類結果を表すプロファイル結果の入力を列群分類部１１３から取得する。次に、プロファイル結果取得部１３１は、取得したプロファイル結果をオブジェクト生成部１３２へ出力する。

オブジェクト生成部１３２は、データベースファイル２００の列毎のクセス頻度による分類結果を表すプロファイル結果の入力をプロファイル結果取得部１３１から受ける。また、オブジェクト生成部１３２は、データベースファイル２００に含まれる各列の情報の取得要求をＤＢＭＳ１２へ行う。その後、オブジェクト生成部１３２は、データベースファイル２００に含まれる各列のオブジェクトストレージ３０における位置を表す情報をＤＢＭＳ１２から取得する。

そして、オブジェクト生成部１３２は、ＤＢＭＳ１２から取得した各列の情報を用いてデータベースファイル２００を列毎に分割して、アクセス頻度の高い列をまとめて１つのオブジェクトとする。さらに、オブジェクト生成部１３２は、このオブジェクトの配置先を第１階層３１と決定する。また、オブジェクト生成部１３２は、ＤＢＭＳ１２から取得した各列の情報を用いてデータベースファイル２００を列毎に分割して、アクセス頻度の低い列をまとめて１つのオブジェクトとする。さらに、オブジェクト生成部１３２は、このオブジェクトの配置先を第２階層３２と決定する。

その後、オブジェクト生成部１３２は、各オブジェクトに含まれる列を表す情報を含むオブジェクトの情報及び各オブジェクトを配置する階層の情報をオブジェクト移動指示部１３３へ出力する。すなわち、オブジェクト生成部１３２は、アクセス頻度が高い列群を含むオブジェクトの情報及びそのオブジェクトの配置先として第１階層３１を指定する情報をオブジェクト移動指示部１３３へ出力する。また、オブジェクト生成部１３２は、アクセス頻度が低い列群を含むオブジェクトの情報及びそのオブジェクトの配置先として第２階層３２を指定する情報をオブジェクト移動指示部１３３へ出力する。

オブジェクト移動指示部１３３は、オブジェクト生成部１３２により生成されたオブジェクトの情報及び各オブジェクトの格納先の階層の入力を受ける。そして、オブジェクト移動指示部１３３は、指定された階層への各オブジェクトの格納をデータムーバ１４に指示する。

データムーバ１４は、各オブジェクトの格納の指示をオブジェクト移動指示部１３３から受ける。そして、データムーバ１４は、各オブジェクトに含まれるデータベースファイル２００の列をまとめて、オブジェクトストレージ３０の指定された階層に移動してオブジェクトとして格納する。すなわち、データムーバ１４は、アクセス頻度の高い列群のオブジェクトを第１階層３１に移動し、アクセス頻度の低い列群のオブジェクトを第２階層３２に移動する。

例えば、オブジェクトストレージ３０が従量課金制のパブリック・クラウド・ストレージの場合、ゲートウェイ１０は、保存料金が高くアクセス料金が安い階層を第１階層３１として、保存料金が安くアクセス料金が高い階層を第２階層３２とする。そして、ゲートウェイ１０は、アクセス頻度が高い列群を含むオブジェクトを第１階層３１に格納させ、アクセス頻度が低い列群を含むオブジェクトを第２階層３２に格納させる。

図４は、実施例１におけるデータベースファイルの格納状態を表す図である。例えば、図３に示すデータベースファイル２００であれば、アクセス頻度が高い列２０１及び２０２がまとめられて１つのオブジェクト３０１として第１階層３１に格納される。また、アクセス頻度が低い列２０３がまとめられて１つのオブジェクトとして第２階層３２に格納される。

次に、図５を参照して、本実施例に係るゲートウェイ１０によるデータベースファイル２００のオブジェクトストレージ３０への格納処理の流れを説明する。図５は、実施例１に係るゲートウェイによるオブジェクトストレージへの格納処理のフローチャートである。

プロファイル結果取得部１３１は、各列のアクセス頻度をアクセス履歴収集部１１２から取得する。そして、プロファイル結果取得部１３１は、各列のアクセス頻度とアクセス頻度閾値とを比較して、アクセス頻度がアクセス頻度閾値以上であるアクセス頻度の高い列とアクセス頻度閾値未満であるアクセス頻度の低い列とに分類する（ステップＳ１０１）。

プロファイル結果取得部１３１は、データベースファイル２００の列毎のクセス頻度による分類結果を表すプロファイル結果の入力を列群分類部１１３から取得する。そして、プロファイル結果取得部１３１は、取得したプロファイル結果をオブジェクト生成部１３２へ出力する。オブジェクト生成部１３２は、ＤＢＭＳ１２から取得した各列の情報を用いてデータベースファイル２００を列毎に分割して、アクセス頻度の高い列とアクセス頻度の低い列とをそれぞれ１つのオブジェクトにまとめる（ステップＳ１０２）。

オブジェクト生成部１３２は、各オブジェクトに含まれる列を表す情報を含むオブジェクトの情報及び各オブジェクトを配置する階層の情報をオブジェクト移動指示部１３３へ出力する。オブジェクト移動指示部１３３は、指定された階層への各オブジェクトの格納をデータムーバ１４に指示する。データムーバ１４は、アクセス頻度の高い列群のオブジェクトを第１階層３１に移動し、アクセス頻度の低い列群のオブジェクトを第２階層３２に移動する（ステップＳ１０３）。

以上に説明したように、本実施例に係るストレージシステムは、列指向形式を有する構造化データの各列のアクセス頻度に応じてデータを分類して個別にオブジェクトを生成し、それぞれのオブジェクトを管理条件が異なる階層に格納する。これにより、格納場所の階層分割による利益を十分に受けるための適切なデータ配置を行なうことが可能となる。

例えば、従量課金制のパブリック・クラウド・ストレージでは、ゲートウェイは、保存料金が高くアクセス料金が安い階層に高アクセス頻度の列群のオブジェクトを格納し、保存料金が安くアクセス料金が高い階層に低アクセス頻度の列群のオブジェクトを格納する。これにより、保存コストとアクセスコストとの合計である利用コストを低く抑えることが可能となる。

図６は、実施例２に係るゲートウェイの詳細を示すブロック図である。本実施例に係るゲートウェイ１０は、同時にアクセスされるアクセス頻度が高い列群をグループ化しさらに最適な分割サイズに分割し、それぞれを１つのオブジェクトとしてオブジェクトストレージ３０に格納することが実施例１と異なる。以下の説明では、実施例１と同様の各部の機能については説明を省略する。

本実施例に係るプロファイラ１１は、リクエスト取得部１１１、アクセス履歴収集部１１２及び列群分類部１１３に加えて、グループ分類部１１４を有する。

列群分類部１１３は、データベースファイル２００の列毎のアクセス履歴及びアクセス頻度閾値を用いて、アクセス頻度が高い列群とアクセス頻度が低い列群とにデータベースファイル２００の各列を分類する。そして、列群分類部１１３は、アクセス頻度が低い列群の情報をプロファイル結果取得部１３１へ出力する。また、列群分類部１１３は、アクセス頻度が高い列群の情報をグループ分類部１１４へ出力する。

グループ分類部１１４は、アクセス頻度が高い列群の情報の入力を列群分類部１１３から受ける。次に、グループ分類部１１４は、アクセス頻度が高い列群に含まれる各列のアクセス履歴をアクセス履歴収集部１１２から取得する。そして、グループ分類部１１４は、取得したアクセス履歴を解析して、同時にアクセスされる頻度の高い列を抽出してグループ化する。例えば、グループ分類部１１４は、クラスター解析などを利用して列のグループ化を行なう。その後、グループ分類部１１４は、グループ毎の属する列の情報を含む各グループの情報をプロファイル結果取得部１３１へ出力する。

例えば、図３に示すデータベースファイル２００の場合、グループ分類部１１４は、斜線パターンで表される列２０１のグループと、ドットパターンで表される列２０２のグループという２つのグループを生成する。

本実施例に係るデータリオーガナイザ１３は、プロファイル結果取得部１３１、オブジェクト生成部１３２及びオブジェクト移動指示部１３３に加えて、パラメータ取得部１３４を有する。

プロファイル結果取得部１３１は、アクセス頻度が低い列群の情報の入力を列群分類部１１３から受ける。また、プロファイル結果取得部１３１は、グループ化されたアクセス頻度が高い列群の各グループの情報の入力をグループ分類部１１４から受ける。そして、プロファイル結果取得部１３１は、アクセス頻度が低い列群の情報及びグループ化されたアクセス頻度が高い列群の各グループの情報をプロファイル結果としてオブジェクト生成部１３２へ出力する。

パラメータ取得部１３４は、最適な分割サイズを含むパラメータの情報の入力を管理者端末４０から受ける。ここで、最適な分割サイズとは、オブジェクトストレージ３０における読み出し性能が最大となる分割サイズを表し、これ以上小さなサイズに分割しても読み出し性能は向上しない分割サイズである。具体的には、最適な分割サイズは、オブジェクトストレージ３０においてファイルのサイズと分割したオブジェクトのサイズとを変更しつつファイルの読み出し性能を測定することで求められる。パラメータ取得部１３４は、取得したパラメータの情報をオブジェクト生成部１３２へ出力する。

オブジェクト生成部１３２は、プロファイル結果の入力をプロファイル結果取得部１３１から受ける。また、オブジェクト生成部１３２は、パラメータの情報の入力をパラメータ取得部１３４から受ける。

オブジェクト生成部１３２は、ＤＢＭＳ１２から取得した各列の情報を用いてデータベースファイル２００を列毎に分割して、アクセス頻度の低い列を１つのオブジェクトにまとめる。また、オブジェクト生成部１３２は、ＤＢＭＳ１２から取得した各列の情報を用いてデータベースファイル２００を列毎に分割して、アクセス頻度の高い列を各グループにまとめる。次に、オブジェクト生成部１３２は、各グループを最適な分割サイズに分割して、それぞれを１つのオブジェクトとする。

その後、オブジェクト生成部１３２は、アクセス頻度の低い列群のオブジェクトの第２階層３２への格納の指示をオブジェクト移動指示部１３３へ出力する。また、オブジェクト生成部１３２は、アクセス頻度の高い列群の各グループを最適な分割サイズに分割して生成したオブジェクトのそれぞれの第１階層３１への格納の指示をオブジェクト移動指示部１３３へ出力する。

データムーバ１４は、各オブジェクトの格納の指示をオブジェクト移動指示部１３３から受ける。そして、データムーバ１４は、アクセス頻度の低い列群のオブジェクトをオブジェクトストレージ３０の第２階層３２へ格納する。また、データムーバ１４は、アクセス頻度の高い列群の各グループを最適な分割サイズに分割することで生成されたオブジェクトをそれぞれのオブジェクトストレージ３０の第１階層３１へ格納する。

図７は、実施例２におけるデータベースファイルの第１階層への格納状態を表す図である。例えば、図３に示すデータベースファイル２００であれば、アクセス頻度が高く同時にアクセスされる頻度の高い列２０１のグループがオブジェクト３１１及び３１２に分割されて、第１階層３１に格納される。また、アクセス頻度が高く同時にアクセスされる頻度の高い列２０２のグループがオブジェクト３１３及び３１４に分割されて、第１階層３１に格納される。

このように、同時にアクセスされる頻度の高い列をグループ化して最適な分割サイズで分割したものをそれぞれ１つのオブジェクトとすることで、１回のアクセスでの複数列の読み出しを増やすことができ、アクセス回数を減らすことが可能となる。また、最適な読み出し性能を実現する並列アクセス数での読み出しを行なうことができ、読み出し性能を向上させることができる。

次に、図８を参照して、本実施例に係るゲートウェイ１０によるデータベースファイル２００のオブジェクトストレージ３０への格納処理の流れを説明する。図８は、実施例２に係るゲートウェイによるオブジェクトストレージへの格納処理のフローチャートである。

プロファイル結果取得部１３１は、各列のアクセス頻度をアクセス履歴収集部１１２から取得する。そして、プロファイル結果取得部１３１は、各列のアクセス頻度とアクセス頻度閾値とを比較して、アクセス頻度がアクセス頻度閾値以上であるアクセス頻度の高い列とアクセス頻度閾値未満であるアクセス頻度の低い列とに分類する（ステップＳ２０１）。

グループ分類部１１４は、アクセス頻度が高い列群の情報の入力を列群分類部１１３から受ける。次に、グループ分類部１１４は、アクセス頻度が高い列群に含まれる各列のアクセス履歴を解析して、アクセス相関に基づきグループ化する（ステップＳ２０２）。

プロファイル結果取得部１３１は、アクセス頻度が低い列群の情報を列群分類部１１３から取得する。また、プロファイル結果取得部１３１は、グループ化されたアクセス頻度が高い列群の情報をグループ分類部１１４から取得する。オブジェクト生成部１３２は、アクセス頻度が低い列群の情報及びグループ化されたアクセス頻度が高い列群の情報を含むプロファイル結果をプロファイル結果取得部１３１から取得する。そして、オブジェクト生成部１３２は、ＤＢＭＳ１２から取得した各列の情報を用いてデータベースファイル２００を列毎に分割して、アクセス頻度の低い列を１つのオブジェクトにまとめる（ステップＳ２０３）。

また、オブジェクト生成部１３２は、ＤＢＭＳ１２から取得した各列の情報を用いてデータベースファイル２００を列毎に分割して、アクセス頻度の高い列を各グループにまとめる。次に、オブジェクト生成部１３２は、各グループを最適な分割サイズに分割して、それぞれを１つのオブジェクトとする（ステップＳ２０４）。

オブジェクト生成部１３２は、各オブジェクトに含まれる列を表す情報を含むオブジェクトの情報及び各オブジェクトを配置する階層の情報をオブジェクト移動指示部１３３へ出力する。オブジェクト移動指示部１３３は、指定された階層への各オブジェクトの格納をデータムーバ１４に指示する。データムーバ１４は、アクセス頻度の高い列群のオブジェクトを第１階層３１に移動し、アクセス頻度の低い列群のオブジェクトを第２階層３２に移動する（ステップＳ２０５）。

以上に説明したように、本実施例に係るストレージシステムは、同時にアクセスされる頻度の高い列をグループ化して最適な分割サイズで分割したものをそれぞれ１つのオブジェクトとして、第１階層に格納する。これにより、１回のアクセスでの複数列の読み出しを増やすことができ、アクセス回数を減らすことが可能となる。

また、データベースファイルを１つのオブジェクトとして格納する従来技術では読み出し性能が出ないおそれがある。オブジェクトストレージは、一般に高い並列アクセス性能を有し、同一データを複数のオブジェクトに分割して格納して、読み出し時にはオブジェクトを並列に読み出すことで読み出し性能が向上する。しかし、ファイル全体を１つのオブジェクトとして格納した場合、並列アクセス数が１つに制限されため、読み出し性能の向上が見込めないためである。このように、従来のオブジェクトストレージへの格納技術では、読み出し性能を向上させることが困難であった。これに対して、本実施例に係るストレージシステムの場合、最適な読み出し性能を実現するアクセスを並列で行うことができ、読み出し性能を向上させることができる。したがって、本実施例に係るストレージシステムは、読み出し回数及び読み出しコストの増大を押さえつつ、各グループを最大の読み出し性能で読み出すことが可能となる。

さらに、本実施例に係る格納手法と他の格納手法とを比較して、本実施例に係る格納手法の効果を数量的に説明する。上述したように、本実施例に係るストレージシステムでは、最適な分割サイズのオブジェクトからのデータの最大読み出し性能でデータを読み出すことができる。したがって、１つのグループに属する複数のオブジェクトからデータを読み出す場合、オブジェクトの個数に応じた最大の読み出し性能をｂとすると、ｂでデータを読み出すことが可能となる。ただし、異なるグループを読み出す場合は、それぞれのグループにおいて、それぞれ最大の読み出し性能であるｂに制限される。

ここで、データベースファイルをオブジェクトに分割する他の方法として、例えば、同時にアクセスされる頻度の高い列群を考慮せず、アクセス頻度の高い列群を最適な分割サイズで等分する手法が考えられる。図９は、アクセス頻度の高い列群を最適な分割サイズで等分してオブジェクトとした場合の格納例を示す図である。この場合、オブジェクト３２１は、どれも同時にアクセスされる頻度の低い列のデータが含まれる。

図９のレイアウトの場合、コストの問題が発生する。図９のレイアウトでは、アクセス頻度の高い列群全体を読み出す場合であれば高速に読み出すことができ、最大の読み出し性能であるｂで読み出すことが可能である。ただし、実際にはアクセスはグループ単位で行われるため、各グループの四出し性能は、図９の場合であれば、（４列）／（８列）×ｂ＝ｂ／２まで低下する。また、各グループのデータが全てのオブジェクト３２１に分散しているため、各グループを読み出すためには全てのオブジェクトにアクセスすることになり、アクセスコストがかさむという問題もある。

他のレイアウトとして、各列を１つのオブジェクトすることも可能である。図１０は、アクセス頻度の高い列群の各列を１つのオブジェクトとした場合の格納例を示す図である。図１０では、アクセス頻度の高い列２０１及び２０２がそれぞれ個別に１つのオブジェクトとして第１階層３１に格納される。この場合、各列のサイズは最適な分割サイズよりも小さいため、各グループの読み出し性能はｂとなる。ただし、この場合でも、各グループを読み出すためには、図９の場合と同様に４回のアクセスが行われる。したがって、アクセスコストが嵩むという問題がある。

これに対して、本実施例に係る格納方法では、いずれのグループについても図９及び１０の場合の半分の２回のアクセスで読み出すことが可能である。したがって、本実施例に係る各右脳方法の場合、アクセス回数を低減させて、アクセスコストを抑えることが可能である。

（ハードウェア構成）
図１１は、ゲートウェイのハードウェア構成の一例を示す図である。ゲートウェイ１０は、例えば、図１１に示すように、ＣＰＵ（Central Processing Unit）９１、メモリ９２、記憶装置９３及び通信インタフェース９４を有する。ＣＰＵ９１は、メモリ９２、記憶装置９３及び通信インタフェース９４とバスで相互に接続される。

通信インタフェース９４は、ゲートウェイ１０と外部装置との間で通信を行うためのインタフェースである。通信インタフェース９４は、例えば、端末装置２０、オブジェクトストレージ３０及び管理者端末４０とＣＰＵ９１との間の通信を中継する。

記憶装置９３は、例えば、ハードディスクやＳＳＤ（Solid State Drive）である。記憶装置９３は、図１、２及び６に例示したプロファイラ１１、ＤＢＭＳ１２、データリオーガナイザ１３及びデータムーバ１４の機能を実現するためのプログラムを含む各種プログラムを格納する。

ＣＰＵ９１は、記憶装置９３から各種プログラムを読み出してメモリ９２に展開して実行することで、図１、２及び６に例示したプロファイラ１１、ＤＢＭＳ１２、データリオーガナイザ１３及びデータムーバ１４の機能を実現する。

１ストレージシステム
１０ゲートウェイ
１１プロファイラ
１２ＤＢＭＳ
１３データリオーガナイザ
１４データムーバ
２０端末装置
３０オブジェクトストレージ
３１第１階層
３２第２階層
４０管理者端末
１１１リクエスト取得部
１１２アクセス履歴収集部
１１３列群分類部
１１４グループ分類部
１３１プロファイル結果取得部
１３２オブジェクト生成部
１３３オブジェクト移動指示部
１３４パラメータ取得部

Claims

データベースファイルを複数のデータ集合に分類し、
分類した前記データ集合を基にオブジェクトを生成し、
生成した各前記オブジェクトをオブジェクトストレージにおける管理条件が異なる階層に分割配置する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
前記データベースファイルの各列に対するアクセス履歴を取得し、
取得した前記アクセス履歴を基に前記データベースファイルを複数の前記列が属する前記データ集合に分割する
処理をコンピュータに実行させることを特徴とする請求項１に記載の情報処理プログラム。
前記データベースファイルに含まれる各データが行列で表され、且つ、列毎に連続する前記データが格納され、
前記アクセス履歴を基に算出したアクセス頻度が所定の閾値以上であるアクセス頻度が高い列群と前記アクセス頻度が前記閾値未満であるアクセス頻度が低い列群とに分類し、
前記アクセス頻度が高い列群を基に生成される前記オブジェクトを第１階層に配置し、
前記アクセス頻度が低い列群を基に生成される前記オブジェクトを第２階層に配置する
処理をコンピュータに実行させることを特徴とする請求項２に記載の情報処理プログラム。
前記アクセス履歴に基づくアクセス相関を基に、前記データ集合に含まれる前記列をグループ化して複数のグループを作成し、
前記グループ化された前記データ集合については前記グループ毎にオブジェクトを作成する
処理をコンピュータに実行させることを特徴とする請求項２又は３に記載の情報処理プログラム。
前記オブジェクトストレージにおいて読み出し性能が最大となるサイズで各前記グループを分割してそれぞれを前記オブジェクトとする処理をコンピュータに実行させることを特徴とする請求項４に記載の情報処理プログラム。
データベースファイルを複数のデータ集合に分類し、
分類した前記データ集合からオブジェクトを生成し、
生成した各前記オブジェクトをオブジェクトストレージにおける管理条件が異なる階層に分割配置する
ことを特徴とする情報処理方法。
データベースファイルを複数のデータ集合に分類するプロファイラと、
前記プロファイラにより分類された前記データ集合からオブジェクトを生成するオブジェクト生成部と、
前記オブジェクト生成部により生成された各前記オブジェクトをオブジェクトストレージにおける管理条件が異なる階層に分割配置するオブジェクト移動指示部と
を備えたことを特徴とする情報処理装置。