JP2000148549A

JP2000148549A - データ格納管理装置

Info

Publication number: JP2000148549A
Application number: JP10325328A
Authority: JP
Inventors: Miyuki Ono; 美由紀小野; Naomi Yoshizawa; 直美吉沢
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1998-11-16
Filing date: 1998-11-16
Publication date: 2000-05-30

Abstract

(57)【要約】【課題】データベースに保存されるデータ群の物理的
格納位置を制御するデータ格納管理装置に関し、クラス
タリング効果を事前に見積ることにより、ユーザがクラ
スタリング対象を決定する支援を行う手段を提供するこ
とを目的とする。【解決手段】管理情報により関係付けられて記憶装置
に格納されたデータ群から与えられた関係を持つ複数の
データを探索するデータ探索手段１と、探索されたデー
タのデータ長を積算するデータ長積算手段２と、探索さ
れたデータの格納された記憶装置内位置の分布を、あら
かじめ設定された記憶区画単位で記録するデータ分布記
録手段３と、探索されたデータが格納された記憶区画単
位の数と上記積算されたデータ長に基づいて上記探索さ
れた複数のデータをクラスタリングする効果を評価する
クラスタリング評価手段とを備えるように構成する。

Description

【発明の詳細な説明】

【発明の属する技術分野】本発明はデータベースに保存
されるデータ群の物理的格納位置を制御するデータ格納
管理装置に関する。データベースが格納されているファ
イルからデータを読み書きする単位としてページという
概念が用いられる。通常ページには複数のデータが格納
され、ファイルの入出力はこのページを単位として行わ
れる。すなわち、参照しようとするデータを含むページ
をシステムのバッファサイズ、例えば４Ｋバイト分がひ
とかたまりとして入力されて、別のページを読み込むた
めに必要となるまではシステムバッファに一時的に保持
される。すなわち、次に参照されるデータが上記保持さ
れたシステムバッファ内に存在すれば新たな入出力を行
わずに、バッファ内のデータを直接利用できるようにな
っている。すなわち、続いて参照されるデータがシステ
ムバッファに保持されている確率が高ければ、ファイル
に対する入出力操作を実行する回数を削減することがで
きる。データベース操作を行うときこの入出力時間を少
なくすることが処理効率の向上につながる。従って、同
一のページ内に、関連して参照されるデータを格納する
ようにすれば、データベースの処理の効率を向上させる
ことができる。また、関連して参照されるデータ群が多
く、複数のページにわたって格納される場合でも、でき
るだけ少ないページ数に納まるようにデータ群を近接さ
せて格納することが同様に効率向上につながる。このよ
うに、処理操作上関連を持ったデータ群をデータベース
内で近接させて格納することをクラスタリングという。

【従来の技術】従来、クラスタリングの対象データ群は
ユーザが経験および直観により直接指定するのが一般的
である。また、自動的にクラスタリング対象を登録する
方法もあった。すなわち、対象データ群は運用している
データベースシステムにおいて、利用者がキーボードな
どを操作してデータベース管理システムのデータ参照操
作を指示する度に、入力されたデータ参照操作の履歴情
報を蓄積し、履歴情報のそれぞれから参照対象を示すデ
ータを抽出し、様々なデータの組み合わせからなるデー
タ群ごとに、全てのデータについて同時に関連して参照
された頻度を求め、得られた頻度が所定の閾値以上であ
るデータ群を抽出してクラスタとして登録する方法であ
る。クラスタリングは上記のようにユーザが直接関連す
るデータ群を指定して登録したり、自動的に参照操作の
履歴情報を解析して登録したクラスタ情報に応じて、該
当するクラスタそれぞれに含まれるデータが同一のペー
ジあるいはできるだけ少ないページ群内に収まるよう
に、ファイル内でのデータの格納位置を変更するように
なっている。このように、クラスタリングを適用する
ことにより、情報の格納位置を自動的に調整して、同時
に参照される確率の高いデータの集まりがデータ群とし
て同一のあるいはまとまったページ内に格納されている
確率を高くし、ファイルに対する入出力動作の回数を低
減するようにしている。

【発明が解決しようとする課題】しかし、上述した自動
的なクラスタリング手法を適用するためには、膨大な履
歴情報を蓄積しておく必要があり、また、この膨大な履
歴情報を分析するために、十分な処理能力を割り当てる
必要がある。このため、情報格納領域および処理能力が
小さい小規模のシステムでは、有効に機能しない場合が
あった。一方、利用者は日常の業務などを通して、常識
的にあるいは経験的にデータ群を指定するときには、ク
ラスタリングすることによってどの程度の効果が期待で
きるのかが把握できないと、ユーザは適切なクラスタリ
ングを行えない。また、現状では、これらの問題を解決
するためにクラスタリングの効果を見積ったり、クラス
タリング対象を決定する支援装置は提供されていない。
本発明は、クラスタリング効果を事前に見積もることに
より、ユーザがクラスタリング対象を決定する支援を行
うデータ格納管理装置を提供することを目的とする。

【課題を解決するための手段】上記の課題は下記の如く
に構成されたデータ格納管理装置によって解決される。
図１は、本発明の構成図である。図において、１は管理
情報により関係付けられて記憶装置に格納されたデータ
群から、与えられた関係を持つ複数のデータを探索する
データ探索手段であり、２は探索されたデータのデータ
長を積算するデータ長積算手段、３は探索されたデータ
の格納された記憶装置内位置の分布を、あらかじめ設定
された記憶区画単位で記録するデータ分布記録手段、４
は上記１以上の探索されたデータが格納された記憶区画
単位の数と上記積算されたデータ長とに基づいて上記探
索された複数のデータをクラスタリングする効果を評価
するクラスタリング評価手段である。

【発明の実施の形態】図２は本発明の実施の形態の構成
図である。本実施の形態においては、パーソナルコンピ
ューター、ワークステーション等の汎用的な目的で使用
される計算機上で実行するコンピュータプログラムによ
り実現する形態を示す。本発明のデータ格納管理装置
は、処理装置、主記憶装置、補助記憶装置、入出力装置
などから構成される計算機上で、コンピュータプログラ
ムを実行して実現される。また、コンピュータプログラ
ムは、フロッピーディスクやＣＤ−ＲＯＭ等の可搬型媒
体やネットワーク接続された他の計算機の主記憶装置や
補助記憶装置等に格納されて提供される。本発明の記録
媒体は、上記可搬型媒体、主記憶装置、補助記憶装置に
該当する。提供されたコンピュータプログラムは、可搬
型媒体から直接計算機の主記憶装置にロードされ、また
は、可搬型媒体から一旦補助記憶装置にコピーまたはイ
ンストール後に、主記憶装置にロードされて実行する。
また、ネットワーク接続された他の装置に格納されて提
供された場合も、他の装置からネットワークを経由して
受信後に、補助記憶装置にコピー、主記憶装置にロード
され実行するものである。本発明のデータ格納管理装置
の実施の形態はデータベース２３の指定された特定のデ
ータ群の格納状況を調べ、これらを近接した格納位置に
再配置、すなわちクラスタリングすると実際のデータベ
ース参照操作の性能がいかに向上するか、つまり発生す
るＩ／Ｏ動作の削減がどの程度改善されるかを評価する
システムである。２１は入出力操作部であり利用者がデ
ータ群としてどのようなものを対象とするのかをデータ
探索条件として指定する。２２はクラスタリング対象デ
ータ探索部である。上記指定されたデータ探索条件によ
りデータベースを検索し、条件にあったデータを検出す
る度にそのデータのデータサイズおよび格納されていた
物理的な位置をデータベースの入出力単位であるページ
を単位としてページ番号を一時記憶する。記憶したこれ
らのデータサイズ、ページ番号はデータ格納状態記録部
２４に受け渡される。データ格納状態記録部２４は受け
渡されるこれらの情報を集計する。すなわち、データサ
イズについてはこれらの積算を行う。ページ番号につい
ては、どのページとどのページに上記データ群が格納さ
れていたかを記録して記憶装置上の位置のリストを作成
する。クラスタリング評価算出部２５は上記のように該
当するデータ全てについて集計したデータサイズ積算
値、分布ページリストに基づいてクラスタリングを行っ
たときと現状のデータの配置でのデータベース参照操作
における入出力時間に対応した性能の指標を算出してク
ラスタリングの効果を評価するようしたものである。結
果は入出力操作部２１に出力し利用者に供する。図３に
は対象とするデータ構成の説明図を示す。データベース
２３には種々のデータがそれぞれ関係付けられて格納さ
れている。ここには例として、ある企業の部門に属する
作業者が作業をした結果を作業票に記載して実績報告す
る場合に関連する３種類の形式のデータを表形式で格納
する形式を示している。（ａ）には作業者データ（これ
を「Ａ］と名付ける）の表を示す。これは、作業者個人
に関する情報として作業者名、所属する部門名、その他
個人の属性を記憶する。各データはＡ０１、Ａ０２、Ａ
０３のように番号を付けて区別する。（ｂ）には作業者
が所属する部門のデータ「Ｂ］を部門名、その他の部門
属性として表形式で格納している。（ｃ）は作業票デー
タ［Ｃ」の表である。Ｃ０１〜Ｃ０６は作業者が作業実
績を作業票で申告した情報のそれぞれを示している。作
業票の項目は作業票番号、作業項目名、作業者名、実績
の作業時間などである。データベースに格納された各表
の行で示されているデータは各表ごとに管理情報により
リンクされており順次参照することが可能となってい
る。また、各表間のデータの参照は同一項目名の内容の
一致により関連付けられている。図４には上記説明した
表データ「Ａ」、「Ｂ」、「Ｃ」の各行のデータがデー
タベース内の物理的アクセス単位である各ページに格納
されている様子が例示されている。この図は各ページへ
のデータの配置を示すものでそれぞれのデータの大きさ
を示しているものではない。○で示したデータはその他
のデータあるいは空きの領域を意味するものである。こ
こには図３に表形式で示したデータ、Ａ０１〜Ａ０４、
Ｂ０１〜Ｂ０３、Ｃ０１〜Ｃ０６がページＰ０１〜Ｐ０
６に分布した状態がわかる。例えばＡ０１はＰ０１に格
納され、Ｃ０６はＰ０３に配置されていることがわか
る。データベース内の各データは、特に規制がなければ
データの大きさなどにより空き領域を見つけてシステム
が格納すべき位置すなわちページを決定する。ここで規
制とは例えば本発明の課題であるクラスタリングのよう
なものである。既に説明したようにデータベースのデー
タのアクセスはシステムが備えるバッファにページ単位
で読み込みバッファ内にあるデータを処理のためにアク
セスするようになっている。上記したような関連するデ
ータ群「Ａ」、「Ｂ」、「Ｃ」はそれらが管理情報によ
りリンクされたり、各データ群の項目に記憶された内容
により関連付けられており、アプリケーションプログラ
ムの論理により順次にあるいはランダムにアクセスされ
る。システムが備えるバッファが数多くあるときは何回
も繰り返し複数のデータをアクセスしてもデータベース
が格納されたファイル装置からの読み込み動作は最初の
１回のみで繰り返しのアクセスはバッファ上のデータが
対象となる。しかし、限られたバッファを多くのデータ
アクセスに共用するときにはバッファ上にないデータを
必要としたときは改めて入力動作が必要となる。図３に
示した作業者データ、部門データ、作業票データを集計
して「部門別作業者一覧表」、「作業者別作業実績
表」、「部門別作業項目別工数集計表」などを作成する
様なアプリケーションは関連するデータ群が多くのペー
ジにまたがって配置されているとファイル装置のＩ／Ｏ
動作が頻発して処理時間が長くなる要因となる。そこ
で、関連の強いデータ群についてはなるべく同じページ
に集約するようにデータ格納に規制をかけることが考え
られた。すなわち、クラスタリングである。上記例に示
したアプリケーションにおける関連の強いデータは作成
しようとする集計表の作成頻度も考慮すると、作業者デ
ータと作業票データが候補として考えられる。これらの
データがクラスタリングにより同じページ群に格納され
るようになればどのような効果があるか、クラスタリン
グを行わないときとの比較でこれを評価してみる。図５
に図４におけるデータ群「Ａ」、データ群「Ｃ」をまと
めてクラスタリングしたときの各データ配置例を示す。
ここでクラスタリングはデータ群の配置換えで行ったが
クラスタリングの指定すなわちデータの格納規制を行っ
たあとは指定されたデータ群に属するデータが新規に発
生したときには格納位置について同様に規制されて決定
されるようになる。図５に見るようにデータ「Ａ」、
「Ｃ」はＰ０１〜Ｐ０３に分布していたものがＰ０４に
まとめて格納されている。データ「Ｂ」は元の位置に格
納された状態である。クラスタリングの指定は図６
（ａ）にあるようなクラスタリング登録テーブルにクラ
スタ名と対象とするデータ群、ここでは作業者データ
「Ａ」、作業票データ「Ｃ］が記憶されている。また図
６（ｂ）には格納されるデータの形式が示されている。
データ管理情報としてデータの長さ、データ群のリン
ク、所属するクラスタの情報が記録されておりデータの
格納、データの検索に利用される。次に、本発明のクラ
スタリング評価について説明する。図７（ａ）には現状
のデータ格納状態を調べる対象や、クラスタリングする
対象のデータ群の指示例を示す。上記説明してきたデー
タ「Ａ」の格納状態を知りたいときには、「ＳＥＬＥＣ
ＴＡ」のように指示する。この場合は作業者データが
どのようにデータベース上のページに格納されているの
か、また指定されたデータ群のデータの長さの合計（単
位はキロバイト）が示される。同様に作業者データ
「Ａ」と作業票データ「Ｃ」を一緒に格納状況を調べる
時には、「ＳＥＬＥＣＴＡ，Ｃ」のように指定する。
これにより図７（ｂ）の番号（１）、（４）に示すよう
な結果が得られる。（１）では、作業者データ「Ａ」は
Σデータサイズの項にＡ０１〜Ａ０４のデータ長の合計
が２ＫＢあり、それらが２ページにわたって分布してい
ることを示している。実際図４によればＰ０１およびＰ
０２に分布していることがわかる。（４）ではデータ
「Ａ」とデータ「Ｃ」をひとまとめにするとデータ長の
合計が３．５ＫＢで、３ページに分布していることが表
示されている。図７（ａ）のに示すように「ＳＥＬＥ
ＣＴＣＬ１（Ａ，Ｃ）」と指示するとデータ「Ａ」と
データ「Ｃ」をまとめてクラスタリングの対象とした場
合のデータ群の格納状態が算出される。結果は図７
（５）のように配置をかえたことによるデータ群の分布
が変化することを示している。すなわち、３．５ＫＢの
データをまとめて格納するには１ページ４ＫＢとすると
１ページを必要とする、また逆に１ページに格納するこ
とができることを示している。図７の「入出力回数比」
の項目は各データ群の分布状態とデータ長の合計値から
入出力動作の発生回数の程度を見積り示している。ここ
では、システムバッファが１個（４ＫＢ）とし、データ
群が均一にページ間に分布し、ランダムに且つ均一にア
クセスされると仮定したときのバッファ上にないデータ
のアクセスしてＩ／Ｏ動作を必要とする確率を表示して
いる。すなわち、アプリケーションプログラムの集中し
たアクセスがこれらのデータ群に発生するときこのため
のバッファが１個専有して使用できるとした場合には既
にバッファ上にあるデータの参照はＩ／Ｏ動作の必要な
く行えるがバッファに入りきらない分のページに分布す
るデータを必要とするときは新たなページの入力が必要
になる。上記のような条件ではバッファに入りきらない
部分のデータがデータ群の格納され分布しているページ
数に対する割合で上記確率が算出できる。図７（ｂ）の
（４）すなわちクラスタリング前の状態でのデータ
「Ａ」、「Ｃ」の参照操作では入出力回数比が２／３つ
まりＩ／Ｏ動作が必要となる確率が約０．７であり、図
７（ｂ）の（５）のようにクラスタリングした状態では
これら対象のデータ群は１ページにまとめて格納される
ため初回のＩ／Ｏ動作のあとは常にデータ群全体がシス
テムのバッファに存在する状態であるので入出力回数比
は０、つまりＩ／Ｏ動作を必要とせずに一連のデータベ
ース参照操作が行えることが分かる。図８に上記に説明
した本発明の実施の形態によるクラスタリング評価の動
作のフローチャートを示す。以下にフローチャートによ
る動作の説明を示す。ステップＳ８１ではクラスタリン
グ対象とするデータ探索条件を入力する。探索条件は図
７（ａ）のようにどのデータ群をクラスタリングするか
を条件として与える。ステップＳ８２ではデータベース
からデータ探索条件に合致するクラスタリング対象デー
タを探す。図６（ｂ）に示すデータ形式にあるデータ管
理情報によりリンクをたどることにより対象となるデー
タを順次アクセスすることができる。ステップＳ８３で
指定のデータ群が終わりでなければ、ステップＳ８４で
はクラスタリング対象データについて各データサイズを
積算し、格納されているページ番号のリストを作成す
る。このようにして、指定されたデータ群のデータ長の
合計値と物理的な格納状態を格納されているページ番号
のリストで取得できる。これによりデータ群が格納され
ているページの数も分かるのでどの程度分散されて分布
しているのかが判明する。このようにすべての対象デー
タ群のデータ長の積算とページ分布が分かると、ステッ
プＳ８５においてクラスタリング効果見積を行う。すな
わち、クラスタリング適用有無によるＩ／Ｏ動作発生の
確率を算出して比較する。算出方法の説明はすでに図７
（ｂ）の説明で行った通りである。ステップＳ８６で利
用者に結果を出力する。利用者はクラスタリング前のデ
ータベースの状態を知るとともに指定したデータ群をま
とめて格納する指定をすることでどの程度データベース
の参照操作の効率が改善できるのかを実際にクラスタリ
ングしないでも見積りして比較評価することができる。
本発明の実施の形態では参照操作として入力動作に着目
したが更新を伴う操作についても同様の考え方で拡張す
ることができる。またバッファの割当が多く期待できる
ときにもＩ／Ｏ動作の発生の仕組みを追加して変形する
ことで同様に入出力回数比、Ｉ／Ｏ動作の必要な確率を
算出することができる。さらに、クラスタのデータ群の
アクセスがランダムで均一であることを前提としたがデ
ータの種類ごとにアクセス頻度が異なるときは頻度別に
データ群を分けてクラスタリングした時の効果を算出し
て比較することもできるので適用することが可能であ
る。

【発明の効果】以上の説明から明らかなように本発明に
よれば従来勘に頼ってクラスタリングの指定を行った
り、大量の時間と資源を使ってクラスタリングすべきデ
ータ群を決定してきたが、本発明により、利用者の経験
と勘を生かしながらクラスタリングを行う前にその効果
を見積り評価することが可能となり、システム資源と作
業時間の削減と容易なクラスタリングの活用によるシス
テム処理効率の向上、という工業的効果がある。

【図面の簡単な説明】

【図１】本発明の構成図

【図２】本発明の実施の形態の構成図

【図３】対象とするデータ構成の説明図

【図４】クラスタリングの説明図（その１）

【図５】クラスタリングの説明図（その２）

【図６】クラスタリング登録とデータ形式の説明図

【図７】データ格納状態とクラスタリング評価の説明
図

【図８】クラスタリング評価の動作フローチャート

【符号の説明】

１データ探索手段２データ長積算手段３データ分布記録手段４クラスタリング評価手段

Claims

【特許請求の範囲】

【請求項１】管理情報により関係付けられて記憶装置
に格納されたデータ群から、与えられた関係を持つ複数
のデータを探索するデータ探索手段と、探索されたデータのデータ長を積算するデータ長積算手
段と、探索されたデータの格納された記憶装置内位置の分布
を、あらかじめ設定された記憶区画単位で記録するデー
タ分布記録手段と、上記１以上の探索されたデータが格納された記憶区画単
位の数と上記積算されたデータ長とに基づいて上記探索
された複数のデータをクラスタリングする効果を評価す
るクラスタリング評価手段と、を有するデータ格納管理
装置。
【請求項２】コンピュータを、管理情報により関係付けられて記憶装置に格納されたデ
ータ群から、与えられた関係を持つ複数のデータを探索
するデータ探索手段、探索されたデータのデータ長を積算するデータ長積算手
段、探索されたデータの格納された記憶装置内位置の分布
を、あらかじめ設定された記憶区画単位で記録するデー
タ分布記録手段、上記１以上の探索されたデータが格納された記憶区画単
位の数と上記積算されたデータ長とに基づいて上記探索
された複数のデータをクラスタリングする効果を評価す
るクラスタリング評価手段、として機能させるためのプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体。