JP2000148549A - データ格納管理装置 - Google Patents
データ格納管理装置Info
- Publication number
- JP2000148549A JP2000148549A JP10325328A JP32532898A JP2000148549A JP 2000148549 A JP2000148549 A JP 2000148549A JP 10325328 A JP10325328 A JP 10325328A JP 32532898 A JP32532898 A JP 32532898A JP 2000148549 A JP2000148549 A JP 2000148549A
- Authority
- JP
- Japan
- Prior art keywords
- data
- clustering
- stored
- storage
- searched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 データベースに保存されるデータ群の物理的
格納位置を制御するデータ格納管理装置に関し、クラス
タリング効果を事前に見積ることにより、ユーザがクラ
スタリング対象を決定する支援を行う手段を提供するこ
とを目的とする。 【解決手段】 管理情報により関係付けられて記憶装置
に格納されたデータ群から与えられた関係を持つ複数の
データを探索するデータ探索手段1と、探索されたデー
タのデータ長を積算するデータ長積算手段2と、探索さ
れたデータの格納された記憶装置内位置の分布を、あら
かじめ設定された記憶区画単位で記録するデータ分布記
録手段3と、探索されたデータが格納された記憶区画単
位の数と上記積算されたデータ長に基づいて上記探索さ
れた複数のデータをクラスタリングする効果を評価する
クラスタリング評価手段とを備えるように構成する。
格納位置を制御するデータ格納管理装置に関し、クラス
タリング効果を事前に見積ることにより、ユーザがクラ
スタリング対象を決定する支援を行う手段を提供するこ
とを目的とする。 【解決手段】 管理情報により関係付けられて記憶装置
に格納されたデータ群から与えられた関係を持つ複数の
データを探索するデータ探索手段1と、探索されたデー
タのデータ長を積算するデータ長積算手段2と、探索さ
れたデータの格納された記憶装置内位置の分布を、あら
かじめ設定された記憶区画単位で記録するデータ分布記
録手段3と、探索されたデータが格納された記憶区画単
位の数と上記積算されたデータ長に基づいて上記探索さ
れた複数のデータをクラスタリングする効果を評価する
クラスタリング評価手段とを備えるように構成する。
Description
【発明の属する技術分野】本発明はデータベースに保存
されるデータ群の物理的格納位置を制御するデータ格納
管理装置に関する。データベースが格納されているファ
イルからデータを読み書きする単位としてページという
概念が用いられる。通常ページには複数のデータが格納
され、ファイルの入出力はこのページを単位として行わ
れる。すなわち、参照しようとするデータを含むページ
をシステムのバッファサイズ、例えば4Kバイト分がひ
とかたまりとして入力されて、別のページを読み込むた
めに必要となるまではシステムバッファに一時的に保持
される。すなわち、次に参照されるデータが上記保持さ
れたシステムバッファ内に存在すれば新たな入出力を行
わずに、バッファ内のデータを直接利用できるようにな
っている。すなわち、続いて参照されるデータがシステ
ムバッファに保持されている確率が高ければ、ファイル
に対する入出力操作を実行する回数を削減することがで
きる。データベース操作を行うときこの入出力時間を少
なくすることが処理効率の向上につながる。従って、同
一のページ内に、関連して参照されるデータを格納する
ようにすれば、データベースの処理の効率を向上させる
ことができる。また、関連して参照されるデータ群が多
く、複数のページにわたって格納される場合でも、でき
るだけ少ないページ数に納まるようにデータ群を近接さ
せて格納することが同様に効率向上につながる。このよ
うに、処理操作上関連を持ったデータ群をデータベース
内で近接させて格納することをクラスタリングという。
されるデータ群の物理的格納位置を制御するデータ格納
管理装置に関する。データベースが格納されているファ
イルからデータを読み書きする単位としてページという
概念が用いられる。通常ページには複数のデータが格納
され、ファイルの入出力はこのページを単位として行わ
れる。すなわち、参照しようとするデータを含むページ
をシステムのバッファサイズ、例えば4Kバイト分がひ
とかたまりとして入力されて、別のページを読み込むた
めに必要となるまではシステムバッファに一時的に保持
される。すなわち、次に参照されるデータが上記保持さ
れたシステムバッファ内に存在すれば新たな入出力を行
わずに、バッファ内のデータを直接利用できるようにな
っている。すなわち、続いて参照されるデータがシステ
ムバッファに保持されている確率が高ければ、ファイル
に対する入出力操作を実行する回数を削減することがで
きる。データベース操作を行うときこの入出力時間を少
なくすることが処理効率の向上につながる。従って、同
一のページ内に、関連して参照されるデータを格納する
ようにすれば、データベースの処理の効率を向上させる
ことができる。また、関連して参照されるデータ群が多
く、複数のページにわたって格納される場合でも、でき
るだけ少ないページ数に納まるようにデータ群を近接さ
せて格納することが同様に効率向上につながる。このよ
うに、処理操作上関連を持ったデータ群をデータベース
内で近接させて格納することをクラスタリングという。
【従来の技術】従来、クラスタリングの対象データ群は
ユーザが経験および直観により直接指定するのが一般的
である。また、自動的にクラスタリング対象を登録する
方法もあった。すなわち、対象データ群は運用している
データベースシステムにおいて、利用者がキーボードな
どを操作してデータベース管理システムのデータ参照操
作を指示する度に、入力されたデータ参照操作の履歴情
報を蓄積し、履歴情報のそれぞれから参照対象を示すデ
ータを抽出し、様々なデータの組み合わせからなるデー
タ群ごとに、全てのデータについて同時に関連して参照
された頻度を求め、得られた頻度が所定の閾値以上であ
るデータ群を抽出してクラスタとして登録する方法であ
る。クラスタリングは上記のようにユーザが直接関連す
るデータ群を指定して登録したり、自動的に参照操作の
履歴情報を解析して登録したクラスタ情報に応じて、該
当するクラスタそれぞれに含まれるデータが同一のペー
ジあるいはできるだけ少ないページ群内に収まるよう
に、ファイル内でのデータの格納位置を変更するように
なっている。 このように、クラスタリングを適用する
ことにより、情報の格納位置を自動的に調整して、同時
に参照される確率の高いデータの集まりがデータ群とし
て同一のあるいはまとまったページ内に格納されている
確率を高くし、ファイルに対する入出力動作の回数を低
減するようにしている。
ユーザが経験および直観により直接指定するのが一般的
である。また、自動的にクラスタリング対象を登録する
方法もあった。すなわち、対象データ群は運用している
データベースシステムにおいて、利用者がキーボードな
どを操作してデータベース管理システムのデータ参照操
作を指示する度に、入力されたデータ参照操作の履歴情
報を蓄積し、履歴情報のそれぞれから参照対象を示すデ
ータを抽出し、様々なデータの組み合わせからなるデー
タ群ごとに、全てのデータについて同時に関連して参照
された頻度を求め、得られた頻度が所定の閾値以上であ
るデータ群を抽出してクラスタとして登録する方法であ
る。クラスタリングは上記のようにユーザが直接関連す
るデータ群を指定して登録したり、自動的に参照操作の
履歴情報を解析して登録したクラスタ情報に応じて、該
当するクラスタそれぞれに含まれるデータが同一のペー
ジあるいはできるだけ少ないページ群内に収まるよう
に、ファイル内でのデータの格納位置を変更するように
なっている。 このように、クラスタリングを適用する
ことにより、情報の格納位置を自動的に調整して、同時
に参照される確率の高いデータの集まりがデータ群とし
て同一のあるいはまとまったページ内に格納されている
確率を高くし、ファイルに対する入出力動作の回数を低
減するようにしている。
【発明が解決しようとする課題】しかし、上述した自動
的なクラスタリング手法を適用するためには、膨大な履
歴情報を蓄積しておく必要があり、また、この膨大な履
歴情報を分析するために、十分な処理能力を割り当てる
必要がある。このため、情報格納領域および処理能力が
小さい小規模のシステムでは、有効に機能しない場合が
あった。一方、利用者は日常の業務などを通して、常識
的にあるいは経験的にデータ群を指定するときには、ク
ラスタリングすることによってどの程度の効果が期待で
きるのかが把握できないと、ユーザは適切なクラスタリ
ングを行えない。また、現状では、これらの問題を解決
するためにクラスタリングの効果を見積ったり、クラス
タリング対象を決定する支援装置は提供されていない。
本発明は、クラスタリング効果を事前に見積もることに
より、ユーザがクラスタリング対象を決定する支援を行
うデータ格納管理装置を提供することを目的とする。
的なクラスタリング手法を適用するためには、膨大な履
歴情報を蓄積しておく必要があり、また、この膨大な履
歴情報を分析するために、十分な処理能力を割り当てる
必要がある。このため、情報格納領域および処理能力が
小さい小規模のシステムでは、有効に機能しない場合が
あった。一方、利用者は日常の業務などを通して、常識
的にあるいは経験的にデータ群を指定するときには、ク
ラスタリングすることによってどの程度の効果が期待で
きるのかが把握できないと、ユーザは適切なクラスタリ
ングを行えない。また、現状では、これらの問題を解決
するためにクラスタリングの効果を見積ったり、クラス
タリング対象を決定する支援装置は提供されていない。
本発明は、クラスタリング効果を事前に見積もることに
より、ユーザがクラスタリング対象を決定する支援を行
うデータ格納管理装置を提供することを目的とする。
【課題を解決するための手段】上記の課題は下記の如く
に構成されたデータ格納管理装置によって解決される。
図1は、本発明の構成図である。図において、1は管理
情報により関係付けられて記憶装置に格納されたデータ
群から、与えられた関係を持つ複数のデータを探索する
データ探索手段であり、2は探索されたデータのデータ
長を積算するデータ長積算手段、3は探索されたデータ
の格納された記憶装置内位置の分布を、あらかじめ設定
された記憶区画単位で記録するデータ分布記録手段、4
は上記1以上の探索されたデータが格納された記憶区画
単位の数と上記積算されたデータ長とに基づいて上記探
索された複数のデータをクラスタリングする効果を評価
するクラスタリング評価手段である。
に構成されたデータ格納管理装置によって解決される。
図1は、本発明の構成図である。図において、1は管理
情報により関係付けられて記憶装置に格納されたデータ
群から、与えられた関係を持つ複数のデータを探索する
データ探索手段であり、2は探索されたデータのデータ
長を積算するデータ長積算手段、3は探索されたデータ
の格納された記憶装置内位置の分布を、あらかじめ設定
された記憶区画単位で記録するデータ分布記録手段、4
は上記1以上の探索されたデータが格納された記憶区画
単位の数と上記積算されたデータ長とに基づいて上記探
索された複数のデータをクラスタリングする効果を評価
するクラスタリング評価手段である。
【発明の実施の形態】図2は本発明の実施の形態の構成
図である。本実施の形態においては、パーソナルコンピ
ューター、ワークステーション等の汎用的な目的で使用
される計算機上で実行するコンピュータプログラムによ
り実現する形態を示す。本発明のデータ格納管理装置
は、処理装置、主記憶装置、補助記憶装置、入出力装置
などから構成される計算機上で、コンピュータプログラ
ムを実行して実現される。また、コンピュータプログラ
ムは、フロッピーディスクやCD−ROM等の可搬型媒
体やネットワーク接続された他の計算機の主記憶装置や
補助記憶装置等に格納されて提供される。本発明の記録
媒体は、上記可搬型媒体、主記憶装置、補助記憶装置に
該当する。提供されたコンピュータプログラムは、可搬
型媒体から直接計算機の主記憶装置にロードされ、また
は、可搬型媒体から一旦補助記憶装置にコピーまたはイ
ンストール後に、主記憶装置にロードされて実行する。
また、ネットワーク接続された他の装置に格納されて提
供された場合も、他の装置からネットワークを経由して
受信後に、補助記憶装置にコピー、主記憶装置にロード
され実行するものである。本発明のデータ格納管理装置
の実施の形態はデータベース23の指定された特定のデ
ータ群の格納状況を調べ、これらを近接した格納位置に
再配置、すなわちクラスタリングすると実際のデータベ
ース参照操作の性能がいかに向上するか、つまり発生す
るI/O動作の削減がどの程度改善されるかを評価する
システムである。21は入出力操作部であり利用者がデ
ータ群としてどのようなものを対象とするのかをデータ
探索条件として指定する。22はクラスタリング対象デ
ータ探索部である。上記指定されたデータ探索条件によ
りデータベースを検索し、条件にあったデータを検出す
る度にそのデータのデータサイズおよび格納されていた
物理的な位置をデータベースの入出力単位であるページ
を単位としてページ番号を一時記憶する。記憶したこれ
らのデータサイズ、ページ番号はデータ格納状態記録部
24に受け渡される。データ格納状態記録部24は受け
渡されるこれらの情報を集計する。すなわち、データサ
イズについてはこれらの積算を行う。ページ番号につい
ては、どのページとどのページに上記データ群が格納さ
れていたかを記録して記憶装置上の位置のリストを作成
する。クラスタリング評価算出部25は上記のように該
当するデータ全てについて集計したデータサイズ積算
値、分布ページリストに基づいてクラスタリングを行っ
たときと現状のデータの配置でのデータベース参照操作
における入出力時間に対応した性能の指標を算出してク
ラスタリングの効果を評価するようしたものである。結
果は入出力操作部21に出力し利用者に供する。図3に
は対象とするデータ構成の説明図を示す。データベース
23には種々のデータがそれぞれ関係付けられて格納さ
れている。ここには例として、ある企業の部門に属する
作業者が作業をした結果を作業票に記載して実績報告す
る場合に関連する3種類の形式のデータを表形式で格納
する形式を示している。(a)には作業者データ(これ
を「A]と名付ける)の表を示す。これは、作業者個人
に関する情報として作業者名、所属する部門名、その他
個人の属性を記憶する。各データはA01、A02、A
03のように番号を付けて区別する。(b)には作業者
が所属する部門のデータ「B]を部門名、その他の部門
属性として表形式で格納している。(c)は作業票デー
タ[C」の表である。C01〜C06は作業者が作業実
績を作業票で申告した情報のそれぞれを示している。作
業票の項目は作業票番号、作業項目名、作業者名、実績
の作業時間などである。データベースに格納された各表
の行で示されているデータは各表ごとに管理情報により
リンクされており順次参照することが可能となってい
る。また、各表間のデータの参照は同一項目名の内容の
一致により関連付けられている。図4には上記説明した
表データ「A」、「B」、「C」の各行のデータがデー
タベース内の物理的アクセス単位である各ページに格納
されている様子が例示されている。この図は各ページへ
のデータの配置を示すものでそれぞれのデータの大きさ
を示しているものではない。○で示したデータはその他
のデータあるいは空きの領域を意味するものである。こ
こには図3に表形式で示したデータ、A01〜A04、
B01〜B03、C01〜C06がページP01〜P0
6に分布した状態がわかる。例えばA01はP01に格
納され、C06はP03に配置されていることがわか
る。データベース内の各データは、特に規制がなければ
データの大きさなどにより空き領域を見つけてシステム
が格納すべき位置すなわちページを決定する。ここで規
制とは例えば本発明の課題であるクラスタリングのよう
なものである。既に説明したようにデータベースのデー
タのアクセスはシステムが備えるバッファにページ単位
で読み込みバッファ内にあるデータを処理のためにアク
セスするようになっている。上記したような関連するデ
ータ群「A」、「B」、「C」はそれらが管理情報によ
りリンクされたり、各データ群の項目に記憶された内容
により関連付けられており、アプリケーションプログラ
ムの論理により順次にあるいはランダムにアクセスされ
る。システムが備えるバッファが数多くあるときは何回
も繰り返し複数のデータをアクセスしてもデータベース
が格納されたファイル装置からの読み込み動作は最初の
1回のみで繰り返しのアクセスはバッファ上のデータが
対象となる。しかし、限られたバッファを多くのデータ
アクセスに共用するときにはバッファ上にないデータを
必要としたときは改めて入力動作が必要となる。図3に
示した作業者データ、部門データ、作業票データを集計
して「部門別作業者一覧表」、「作業者別作業実績
表」、「部門別作業項目別工数集計表」などを作成する
様なアプリケーションは関連するデータ群が多くのペー
ジにまたがって配置されているとファイル装置のI/O
動作が頻発して処理時間が長くなる要因となる。そこ
で、関連の強いデータ群についてはなるべく同じページ
に集約するようにデータ格納に規制をかけることが考え
られた。すなわち、クラスタリングである。上記例に示
したアプリケーションにおける関連の強いデータは作成
しようとする集計表の作成頻度も考慮すると、作業者デ
ータと作業票データが候補として考えられる。これらの
データがクラスタリングにより同じページ群に格納され
るようになればどのような効果があるか、クラスタリン
グを行わないときとの比較でこれを評価してみる。図5
に図4におけるデータ群「A」、データ群「C」をまと
めてクラスタリングしたときの各データ配置例を示す。
ここでクラスタリングはデータ群の配置換えで行ったが
クラスタリングの指定すなわちデータの格納規制を行っ
たあとは指定されたデータ群に属するデータが新規に発
生したときには格納位置について同様に規制されて決定
されるようになる。図5に見るようにデータ「A」、
「C」はP01〜P03に分布していたものがP04に
まとめて格納されている。データ「B」は元の位置に格
納された状態である。クラスタリングの指定は図6
(a)にあるようなクラスタリング登録テーブルにクラ
スタ名と対象とするデータ群、ここでは作業者データ
「A」、作業票データ「C]が記憶されている。また図
6(b)には格納されるデータの形式が示されている。
データ管理情報としてデータの長さ、データ群のリン
ク、所属するクラスタの情報が記録されておりデータの
格納、データの検索に利用される。次に、本発明のクラ
スタリング評価について説明する。図7(a)には現状
のデータ格納状態を調べる対象や、クラスタリングする
対象のデータ群の指示例を示す。上記説明してきたデー
タ「A」の格納状態を知りたいときには、「SELEC
T A」のように指示する。この場合は作業者データが
どのようにデータベース上のページに格納されているの
か、また指定されたデータ群のデータの長さの合計(単
位はキロバイト)が示される。同様に作業者データ
「A」と作業票データ「C」を一緒に格納状況を調べる
時には、「SELECT A,C」のように指定する。
これにより図7(b)の番号(1)、(4)に示すよう
な結果が得られる。(1)では、作業者データ「A」は
Σデータサイズの項にA01〜A04のデータ長の合計
が2KBあり、それらが2ページにわたって分布してい
ることを示している。実際図4によればP01およびP
02に分布していることがわかる。(4)ではデータ
「A」とデータ「C」をひとまとめにするとデータ長の
合計が3.5KBで、3ページに分布していることが表
示されている。図7(a)のに示すように「SELE
CT CL1(A,C)」と指示するとデータ「A」と
データ「C」をまとめてクラスタリングの対象とした場
合のデータ群の格納状態が算出される。結果は図7
(5)のように配置をかえたことによるデータ群の分布
が変化することを示している。すなわち、3.5KBの
データをまとめて格納するには1ページ4KBとすると
1ページを必要とする、また逆に1ページに格納するこ
とができることを示している。図7の「入出力回数比」
の項目は各データ群の分布状態とデータ長の合計値から
入出力動作の発生回数の程度を見積り示している。ここ
では、システムバッファが1個(4KB)とし、データ
群が均一にページ間に分布し、ランダムに且つ均一にア
クセスされると仮定したときのバッファ上にないデータ
のアクセスしてI/O動作を必要とする確率を表示して
いる。すなわち、アプリケーションプログラムの集中し
たアクセスがこれらのデータ群に発生するときこのため
のバッファが1個専有して使用できるとした場合には既
にバッファ上にあるデータの参照はI/O動作の必要な
く行えるがバッファに入りきらない分のページに分布す
るデータを必要とするときは新たなページの入力が必要
になる。上記のような条件ではバッファに入りきらない
部分のデータがデータ群の格納され分布しているページ
数に対する割合で上記確率が算出できる。図7(b)の
(4)すなわちクラスタリング前の状態でのデータ
「A」、「C」の参照操作では入出力回数比が2/3つ
まりI/O動作が必要となる確率が約0.7であり、図
7(b)の(5)のようにクラスタリングした状態では
これら対象のデータ群は1ページにまとめて格納される
ため初回のI/O動作のあとは常にデータ群全体がシス
テムのバッファに存在する状態であるので入出力回数比
は0、つまりI/O動作を必要とせずに一連のデータベ
ース参照操作が行えることが分かる。図8に上記に説明
した本発明の実施の形態によるクラスタリング評価の動
作のフローチャートを示す。以下にフローチャートによ
る動作の説明を示す。ステップS81ではクラスタリン
グ対象とするデータ探索条件を入力する。探索条件は図
7(a)のようにどのデータ群をクラスタリングするか
を条件として与える。ステップS82ではデータベース
からデータ探索条件に合致するクラスタリング対象デー
タを探す。図6(b)に示すデータ形式にあるデータ管
理情報によりリンクをたどることにより対象となるデー
タを順次アクセスすることができる。ステップS83で
指定のデータ群が終わりでなければ、ステップS84で
はクラスタリング対象データについて各データサイズを
積算し、格納されているページ番号のリストを作成す
る。このようにして、指定されたデータ群のデータ長の
合計値と物理的な格納状態を格納されているページ番号
のリストで取得できる。これによりデータ群が格納され
ているページの数も分かるのでどの程度分散されて分布
しているのかが判明する。このようにすべての対象デー
タ群のデータ長の積算とページ分布が分かると、ステッ
プS85においてクラスタリング効果見積を行う。すな
わち、クラスタリング適用有無によるI/O動作発生の
確率を算出して比較する。算出方法の説明はすでに図7
(b)の説明で行った通りである。ステップS86で利
用者に結果を出力する。利用者はクラスタリング前のデ
ータベースの状態を知るとともに指定したデータ群をま
とめて格納する指定をすることでどの程度データベース
の参照操作の効率が改善できるのかを実際にクラスタリ
ングしないでも見積りして比較評価することができる。
本発明の実施の形態では参照操作として入力動作に着目
したが更新を伴う操作についても同様の考え方で拡張す
ることができる。またバッファの割当が多く期待できる
ときにもI/O動作の発生の仕組みを追加して変形する
ことで同様に入出力回数比、I/O動作の必要な確率を
算出することができる。さらに、クラスタのデータ群の
アクセスがランダムで均一であることを前提としたがデ
ータの種類ごとにアクセス頻度が異なるときは頻度別に
データ群を分けてクラスタリングした時の効果を算出し
て比較することもできるので適用することが可能であ
る。
図である。本実施の形態においては、パーソナルコンピ
ューター、ワークステーション等の汎用的な目的で使用
される計算機上で実行するコンピュータプログラムによ
り実現する形態を示す。本発明のデータ格納管理装置
は、処理装置、主記憶装置、補助記憶装置、入出力装置
などから構成される計算機上で、コンピュータプログラ
ムを実行して実現される。また、コンピュータプログラ
ムは、フロッピーディスクやCD−ROM等の可搬型媒
体やネットワーク接続された他の計算機の主記憶装置や
補助記憶装置等に格納されて提供される。本発明の記録
媒体は、上記可搬型媒体、主記憶装置、補助記憶装置に
該当する。提供されたコンピュータプログラムは、可搬
型媒体から直接計算機の主記憶装置にロードされ、また
は、可搬型媒体から一旦補助記憶装置にコピーまたはイ
ンストール後に、主記憶装置にロードされて実行する。
また、ネットワーク接続された他の装置に格納されて提
供された場合も、他の装置からネットワークを経由して
受信後に、補助記憶装置にコピー、主記憶装置にロード
され実行するものである。本発明のデータ格納管理装置
の実施の形態はデータベース23の指定された特定のデ
ータ群の格納状況を調べ、これらを近接した格納位置に
再配置、すなわちクラスタリングすると実際のデータベ
ース参照操作の性能がいかに向上するか、つまり発生す
るI/O動作の削減がどの程度改善されるかを評価する
システムである。21は入出力操作部であり利用者がデ
ータ群としてどのようなものを対象とするのかをデータ
探索条件として指定する。22はクラスタリング対象デ
ータ探索部である。上記指定されたデータ探索条件によ
りデータベースを検索し、条件にあったデータを検出す
る度にそのデータのデータサイズおよび格納されていた
物理的な位置をデータベースの入出力単位であるページ
を単位としてページ番号を一時記憶する。記憶したこれ
らのデータサイズ、ページ番号はデータ格納状態記録部
24に受け渡される。データ格納状態記録部24は受け
渡されるこれらの情報を集計する。すなわち、データサ
イズについてはこれらの積算を行う。ページ番号につい
ては、どのページとどのページに上記データ群が格納さ
れていたかを記録して記憶装置上の位置のリストを作成
する。クラスタリング評価算出部25は上記のように該
当するデータ全てについて集計したデータサイズ積算
値、分布ページリストに基づいてクラスタリングを行っ
たときと現状のデータの配置でのデータベース参照操作
における入出力時間に対応した性能の指標を算出してク
ラスタリングの効果を評価するようしたものである。結
果は入出力操作部21に出力し利用者に供する。図3に
は対象とするデータ構成の説明図を示す。データベース
23には種々のデータがそれぞれ関係付けられて格納さ
れている。ここには例として、ある企業の部門に属する
作業者が作業をした結果を作業票に記載して実績報告す
る場合に関連する3種類の形式のデータを表形式で格納
する形式を示している。(a)には作業者データ(これ
を「A]と名付ける)の表を示す。これは、作業者個人
に関する情報として作業者名、所属する部門名、その他
個人の属性を記憶する。各データはA01、A02、A
03のように番号を付けて区別する。(b)には作業者
が所属する部門のデータ「B]を部門名、その他の部門
属性として表形式で格納している。(c)は作業票デー
タ[C」の表である。C01〜C06は作業者が作業実
績を作業票で申告した情報のそれぞれを示している。作
業票の項目は作業票番号、作業項目名、作業者名、実績
の作業時間などである。データベースに格納された各表
の行で示されているデータは各表ごとに管理情報により
リンクされており順次参照することが可能となってい
る。また、各表間のデータの参照は同一項目名の内容の
一致により関連付けられている。図4には上記説明した
表データ「A」、「B」、「C」の各行のデータがデー
タベース内の物理的アクセス単位である各ページに格納
されている様子が例示されている。この図は各ページへ
のデータの配置を示すものでそれぞれのデータの大きさ
を示しているものではない。○で示したデータはその他
のデータあるいは空きの領域を意味するものである。こ
こには図3に表形式で示したデータ、A01〜A04、
B01〜B03、C01〜C06がページP01〜P0
6に分布した状態がわかる。例えばA01はP01に格
納され、C06はP03に配置されていることがわか
る。データベース内の各データは、特に規制がなければ
データの大きさなどにより空き領域を見つけてシステム
が格納すべき位置すなわちページを決定する。ここで規
制とは例えば本発明の課題であるクラスタリングのよう
なものである。既に説明したようにデータベースのデー
タのアクセスはシステムが備えるバッファにページ単位
で読み込みバッファ内にあるデータを処理のためにアク
セスするようになっている。上記したような関連するデ
ータ群「A」、「B」、「C」はそれらが管理情報によ
りリンクされたり、各データ群の項目に記憶された内容
により関連付けられており、アプリケーションプログラ
ムの論理により順次にあるいはランダムにアクセスされ
る。システムが備えるバッファが数多くあるときは何回
も繰り返し複数のデータをアクセスしてもデータベース
が格納されたファイル装置からの読み込み動作は最初の
1回のみで繰り返しのアクセスはバッファ上のデータが
対象となる。しかし、限られたバッファを多くのデータ
アクセスに共用するときにはバッファ上にないデータを
必要としたときは改めて入力動作が必要となる。図3に
示した作業者データ、部門データ、作業票データを集計
して「部門別作業者一覧表」、「作業者別作業実績
表」、「部門別作業項目別工数集計表」などを作成する
様なアプリケーションは関連するデータ群が多くのペー
ジにまたがって配置されているとファイル装置のI/O
動作が頻発して処理時間が長くなる要因となる。そこ
で、関連の強いデータ群についてはなるべく同じページ
に集約するようにデータ格納に規制をかけることが考え
られた。すなわち、クラスタリングである。上記例に示
したアプリケーションにおける関連の強いデータは作成
しようとする集計表の作成頻度も考慮すると、作業者デ
ータと作業票データが候補として考えられる。これらの
データがクラスタリングにより同じページ群に格納され
るようになればどのような効果があるか、クラスタリン
グを行わないときとの比較でこれを評価してみる。図5
に図4におけるデータ群「A」、データ群「C」をまと
めてクラスタリングしたときの各データ配置例を示す。
ここでクラスタリングはデータ群の配置換えで行ったが
クラスタリングの指定すなわちデータの格納規制を行っ
たあとは指定されたデータ群に属するデータが新規に発
生したときには格納位置について同様に規制されて決定
されるようになる。図5に見るようにデータ「A」、
「C」はP01〜P03に分布していたものがP04に
まとめて格納されている。データ「B」は元の位置に格
納された状態である。クラスタリングの指定は図6
(a)にあるようなクラスタリング登録テーブルにクラ
スタ名と対象とするデータ群、ここでは作業者データ
「A」、作業票データ「C]が記憶されている。また図
6(b)には格納されるデータの形式が示されている。
データ管理情報としてデータの長さ、データ群のリン
ク、所属するクラスタの情報が記録されておりデータの
格納、データの検索に利用される。次に、本発明のクラ
スタリング評価について説明する。図7(a)には現状
のデータ格納状態を調べる対象や、クラスタリングする
対象のデータ群の指示例を示す。上記説明してきたデー
タ「A」の格納状態を知りたいときには、「SELEC
T A」のように指示する。この場合は作業者データが
どのようにデータベース上のページに格納されているの
か、また指定されたデータ群のデータの長さの合計(単
位はキロバイト)が示される。同様に作業者データ
「A」と作業票データ「C」を一緒に格納状況を調べる
時には、「SELECT A,C」のように指定する。
これにより図7(b)の番号(1)、(4)に示すよう
な結果が得られる。(1)では、作業者データ「A」は
Σデータサイズの項にA01〜A04のデータ長の合計
が2KBあり、それらが2ページにわたって分布してい
ることを示している。実際図4によればP01およびP
02に分布していることがわかる。(4)ではデータ
「A」とデータ「C」をひとまとめにするとデータ長の
合計が3.5KBで、3ページに分布していることが表
示されている。図7(a)のに示すように「SELE
CT CL1(A,C)」と指示するとデータ「A」と
データ「C」をまとめてクラスタリングの対象とした場
合のデータ群の格納状態が算出される。結果は図7
(5)のように配置をかえたことによるデータ群の分布
が変化することを示している。すなわち、3.5KBの
データをまとめて格納するには1ページ4KBとすると
1ページを必要とする、また逆に1ページに格納するこ
とができることを示している。図7の「入出力回数比」
の項目は各データ群の分布状態とデータ長の合計値から
入出力動作の発生回数の程度を見積り示している。ここ
では、システムバッファが1個(4KB)とし、データ
群が均一にページ間に分布し、ランダムに且つ均一にア
クセスされると仮定したときのバッファ上にないデータ
のアクセスしてI/O動作を必要とする確率を表示して
いる。すなわち、アプリケーションプログラムの集中し
たアクセスがこれらのデータ群に発生するときこのため
のバッファが1個専有して使用できるとした場合には既
にバッファ上にあるデータの参照はI/O動作の必要な
く行えるがバッファに入りきらない分のページに分布す
るデータを必要とするときは新たなページの入力が必要
になる。上記のような条件ではバッファに入りきらない
部分のデータがデータ群の格納され分布しているページ
数に対する割合で上記確率が算出できる。図7(b)の
(4)すなわちクラスタリング前の状態でのデータ
「A」、「C」の参照操作では入出力回数比が2/3つ
まりI/O動作が必要となる確率が約0.7であり、図
7(b)の(5)のようにクラスタリングした状態では
これら対象のデータ群は1ページにまとめて格納される
ため初回のI/O動作のあとは常にデータ群全体がシス
テムのバッファに存在する状態であるので入出力回数比
は0、つまりI/O動作を必要とせずに一連のデータベ
ース参照操作が行えることが分かる。図8に上記に説明
した本発明の実施の形態によるクラスタリング評価の動
作のフローチャートを示す。以下にフローチャートによ
る動作の説明を示す。ステップS81ではクラスタリン
グ対象とするデータ探索条件を入力する。探索条件は図
7(a)のようにどのデータ群をクラスタリングするか
を条件として与える。ステップS82ではデータベース
からデータ探索条件に合致するクラスタリング対象デー
タを探す。図6(b)に示すデータ形式にあるデータ管
理情報によりリンクをたどることにより対象となるデー
タを順次アクセスすることができる。ステップS83で
指定のデータ群が終わりでなければ、ステップS84で
はクラスタリング対象データについて各データサイズを
積算し、格納されているページ番号のリストを作成す
る。このようにして、指定されたデータ群のデータ長の
合計値と物理的な格納状態を格納されているページ番号
のリストで取得できる。これによりデータ群が格納され
ているページの数も分かるのでどの程度分散されて分布
しているのかが判明する。このようにすべての対象デー
タ群のデータ長の積算とページ分布が分かると、ステッ
プS85においてクラスタリング効果見積を行う。すな
わち、クラスタリング適用有無によるI/O動作発生の
確率を算出して比較する。算出方法の説明はすでに図7
(b)の説明で行った通りである。ステップS86で利
用者に結果を出力する。利用者はクラスタリング前のデ
ータベースの状態を知るとともに指定したデータ群をま
とめて格納する指定をすることでどの程度データベース
の参照操作の効率が改善できるのかを実際にクラスタリ
ングしないでも見積りして比較評価することができる。
本発明の実施の形態では参照操作として入力動作に着目
したが更新を伴う操作についても同様の考え方で拡張す
ることができる。またバッファの割当が多く期待できる
ときにもI/O動作の発生の仕組みを追加して変形する
ことで同様に入出力回数比、I/O動作の必要な確率を
算出することができる。さらに、クラスタのデータ群の
アクセスがランダムで均一であることを前提としたがデ
ータの種類ごとにアクセス頻度が異なるときは頻度別に
データ群を分けてクラスタリングした時の効果を算出し
て比較することもできるので適用することが可能であ
る。
【発明の効果】以上の説明から明らかなように本発明に
よれば従来勘に頼ってクラスタリングの指定を行った
り、大量の時間と資源を使ってクラスタリングすべきデ
ータ群を決定してきたが、本発明により、利用者の経験
と勘を生かしながらクラスタリングを行う前にその効果
を見積り評価することが可能となり、システム資源と作
業時間の削減と容易なクラスタリングの活用によるシス
テム処理効率の向上、という工業的効果がある。
よれば従来勘に頼ってクラスタリングの指定を行った
り、大量の時間と資源を使ってクラスタリングすべきデ
ータ群を決定してきたが、本発明により、利用者の経験
と勘を生かしながらクラスタリングを行う前にその効果
を見積り評価することが可能となり、システム資源と作
業時間の削減と容易なクラスタリングの活用によるシス
テム処理効率の向上、という工業的効果がある。
【図1】 本発明の構成図
【図2】 本発明の実施の形態の構成図
【図3】 対象とするデータ構成の説明図
【図4】 クラスタリングの説明図(その1)
【図5】 クラスタリングの説明図(その2)
【図6】 クラスタリング登録とデータ形式の説明図
【図7】 データ格納状態とクラスタリング評価の説明
図
図
【図8】 クラスタリング評価の動作フローチャート
1 データ探索手段 2 データ長積算手段 3 データ分布記録手段 4 クラスタリング評価手段
Claims (2)
- 【請求項1】 管理情報により関係付けられて記憶装置
に格納されたデータ群から、与えられた関係を持つ複数
のデータを探索するデータ探索手段と、 探索されたデータのデータ長を積算するデータ長積算手
段と、 探索されたデータの格納された記憶装置内位置の分布
を、あらかじめ設定された記憶区画単位で記録するデー
タ分布記録手段と、 上記1以上の探索されたデータが格納された記憶区画単
位の数と上記積算されたデータ長とに基づいて上記探索
された複数のデータをクラスタリングする効果を評価す
るクラスタリング評価手段と、を有するデータ格納管理
装置。 - 【請求項2】 コンピュータを、 管理情報により関係付けられて記憶装置に格納されたデ
ータ群から、与えられた関係を持つ複数のデータを探索
するデータ探索手段、 探索されたデータのデータ長を積算するデータ長積算手
段、 探索されたデータの格納された記憶装置内位置の分布
を、あらかじめ設定された記憶区画単位で記録するデー
タ分布記録手段、 上記1以上の探索されたデータが格納された記憶区画単
位の数と上記積算されたデータ長とに基づいて上記探索
された複数のデータをクラスタリングする効果を評価す
るクラスタリング評価手段、として機能させるためのプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10325328A JP2000148549A (ja) | 1998-11-16 | 1998-11-16 | データ格納管理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10325328A JP2000148549A (ja) | 1998-11-16 | 1998-11-16 | データ格納管理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000148549A true JP2000148549A (ja) | 2000-05-30 |
Family
ID=18175592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10325328A Withdrawn JP2000148549A (ja) | 1998-11-16 | 1998-11-16 | データ格納管理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000148549A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5120451B2 (ja) * | 2008-05-30 | 2013-01-16 | 富士通株式会社 | 配置方法及び配置システム |
-
1998
- 1998-11-16 JP JP10325328A patent/JP2000148549A/ja not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5120451B2 (ja) * | 2008-05-30 | 2013-01-16 | 富士通株式会社 | 配置方法及び配置システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10387411B2 (en) | Determining a density of a key value referenced in a database query over a range of rows | |
US6801903B2 (en) | Collecting statistics in a database system | |
US6832227B2 (en) | Database management program, a database managing method and an apparatus therefor | |
US6584474B1 (en) | Method and apparatus for fast and comprehensive DBMS analysis | |
US8239343B2 (en) | Database reorganization technique | |
JP3742177B2 (ja) | 並列データベースシステムルーチン実行方法 | |
JP3510042B2 (ja) | データベース管理方法及びシステム | |
JP4214712B2 (ja) | データベースのページ確保処理方法 | |
US7895171B2 (en) | Compressibility estimation of non-unique indexes in a database management system | |
CN103077197A (zh) | 一种数据存储方法装置 | |
US10810174B2 (en) | Database management system, database server, and database management method | |
US20190163795A1 (en) | Data allocating system and data allocating method | |
US20080091642A1 (en) | Advising the generation of a maintained index over a subset of values in a column of a table | |
US20230325375A1 (en) | Measuring and improving index quality in a distrubuted data system | |
JPH06259478A (ja) | 分散データベースのデータ再配置方式 | |
US8341181B2 (en) | Method for performance tuning a database | |
CN109189343B (zh) | 一种元数据落盘方法、装置、设备及计算机可读存储介质 | |
US8280869B1 (en) | Sharing intermediate results | |
CN117609181A (zh) | 一种用于TChouse数据库迁移方法和系统 | |
US7392359B2 (en) | Non-blocking distinct grouping of database entries with overflow | |
US20060085464A1 (en) | Method and system for providing referential integrity constraints | |
JP2000148549A (ja) | データ格納管理装置 | |
US20160232187A1 (en) | Dump analysis method, apparatus and non-transitory computer readable storage medium | |
KR100516929B1 (ko) | 작업관리 분석장치 및 방법과 그 프로그램을 저장한기록매체 | |
JP3616567B2 (ja) | メモリ使用効率の最適化方法及び情報処理装置並びに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060207 |