JP2002222108A

JP2002222108A - 部分レプリカの生成装置および生成方法

Info

Publication number: JP2002222108A
Application number: JP2001018803A
Authority: JP
Inventors: Masami Yamashita; 正美山下; Koichi Shimazaki; 康一嶋崎; Takashi Itaya; 孝板谷; Seiichi Takeguchi; 成一竹口
Original assignee: Hitachi Software Engineering Co Ltd; Hitachi Ltd
Current assignee: Hitachi Software Engineering Co Ltd; Hitachi Ltd
Priority date: 2001-01-26
Filing date: 2001-01-26
Publication date: 2002-08-09

Abstract

(57)【要約】【課題】低記憶装置容量、低更新処理コストで、かつ利
用率の高いレプリカを生成する。【解決手段】分散データベース環境において、データ
ベースを管理するサーバ１６，１７に対するクライアン
ト１１，１２からの問い合わせにより取得したデータを
部分レプリカ１５として記憶装置にキャッシングする部
分レプリカの生成装置であって、該装置は、複数の問い
合わせ条件からなる問い合わせ群をグループ化する処理
手段と、前記グループ化した問い合わせ条件毎に問い合
わせ条件の集合を求める処理手段と、前記問い合わせ条
件の集合を、条件の重複範囲に基づいて条件を分別し、
分別した各条件に対してその重複回数に応じて有効度を
設定する処理手段を備え、前記分別した条件の内、有効
度の高いものを優先して問い合わせ条件として部分レプ
リカを生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は部分レプリカの生成
装置にかかり、特に問い合わせに対する利用率の高い部
分レプリカを生成することのできる部分レプリカの生成
装置に関する。

【０００２】

【従来の技術】企業は、ビジネス活動の結果として、多
量の顧客データあるいは商品販売データなどの履歴デー
タを蓄積している。これら大量のデータはデータベース
として蓄積し、今後の市場動向や顧客の嗜好変化の判断
材料とすることができる。このように構成されたデータ
ベースはデータウェアハウスとも呼ばれている。

【０００３】一般にデータウェアハウスには膨大で、か
つ詳細なデータが格納されている。このため、クライア
ントからのデータ収集要求に対する回答に遅れを生じる
場合がある。すなわち、分散環境下で前記データウェア
ハウスに対するクライアントからのデータ収集要求に対
する応答の迅速化は重要な問題である。この問題を解決
する方法の一つとして、キャッシュ技術が知られてい
る。

【０００４】キャッシュ技術は得られた結果を一時的に
残しておくことで、次の要求に迅速に応答する技術であ
る。例えば、特開平１０―０４９４２２号公報には、サ
ーバからファイルを取得してキャッシングする際にファ
イル格納部の空き容量がない場合の処理に関し、ファイ
ル転送時間、単位時間当たりのキャッシュヒット回数と
ファイル更新回数を考慮して、キャッシングしようとす
るファイルがどの程度ファイル転送時間の節約が見込め
るかの期待値を計算し、計算結果に基づいて期待値の小
さいものからファイルを削除して、ファイル格納部の空
き容量を確保する技術が示されている。

【０００５】

【発明が解決しようとする課題】前記従来技術は、キャ
ッシュが記憶容量の許容量を超えた段階ではじめて既存
のキャッシュを消去する技術であり、キャッシュサイズ
の最適化の点で配慮がなされていない。また、記憶装置
容量あるいは更新処理コストの点でも問題がある。

【０００６】本発明は前記問題点に鑑みてなされたもの
で、低記憶装置容量、低更新処理コストで、かつ利用率
の高いレプリカを生成することのできる部分レプリカの
生成装置を提供する。

【０００７】

【課題を解決するための手段】本発明は、上記の課題を
解決するために次のような手段を採用した。

【０００８】分散データベース環境において、データベ
ースを管理するサーバに対するクライアントからの問い
合わせにより取得したデータを部分レプリカとして記憶
装置にキャッシングする部分レプリカの生成装置であっ
て、該装置は、複数の問い合わせ条件からなる問い合わ
せ群をグループ化する処理手段と、前記グループ化した
問い合わせ条件毎に問い合わせ条件の集合を求める処理
手段と、前記問い合わせ条件の集合を、条件の重複範囲
に基づいて条件を分別し、分別した各条件に対してその
重複回数に応じて有効度を設定する処理手段を備え、前
記分別した条件の内、有効度の高いものを優先して問い
合わせ条件として部分レプリカを生成する。

【０００９】

【発明の実施の形態】以下に本発明の実施形態を図１な
いし図６を用いて説明する。図１は本発明に適用するこ
とのできるデータベースを備えた分散環境を説明する図
である。図において、１１ないし１２はクライアント、
１３はデータ収集手段、１４はネットワーク、１５は部
分レプリカ、１６ないし１７はサーバ、１８ないし１９
はそれぞれサーバ１６ないし１７が備えるデータベース
に格納したテーブルである。

【００１０】例えば、クライアント１１はデータ収集手
段１３に対して問い合わせを発行する。データ収集手段
１３は前記問い合わせを解析し、部分レプリカ１５、あ
るいは部分レプリカから得られない部分はネットワーク
１４を介してサーバ１６あるいは１７から差分データと
して収集し、収集したデータをクライアント１１に返
す。前記、問合せには、問い合わせ言語として広く用い
られているＳＱＬ（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙ
Ｌａｎｇｕａｇｅ）を用いることができる。

【００１１】図２は本実施形態にかかる部分レプリカの
生成装置の処理手順の概略を示す図である。本処理は、
問合せのグループ化処理（ステップ２０１）、条件の和
集合生成処理（ステップ２０２）および条件の選択処理
（ステップ２０３）の順に行われる。これらのステップ
の終了後、すなわち部分レプリカの生成後にクライアン
トからの問い合わせが開始されることになる。

【００１２】図３は、問合せのグループ化処理（ステッ
プ２０１）を説明する図である。図において、３１，３
２，３３はそれぞれ問い合わせ文からなる問い合わせあ
り、また、３４，３５はそれぞれ前記複数の問い合わせ
からなる問い合わせグループである。問合せ３１、３
２、３３をグループ化するには、そのデータ収集先、つ
まりＦＲＯＭ句に書かれたテーブル名に着目して行う。
この例では、「問合せ１」と「問合せ３」はＦＲＯＭ句
のテーブル名が「Ｔ1とＴ２」であり、「問合せ２」の
ＦＲＯＭ句のテーブル名は「Ｔ３」である。したがっ
て、ＦＲＯＭ句のテーブルが共通である問合せをグルー
プにまとめると、「問合せ１」と「問合せ３」はＦＲＯ
Ｍ句のテーブルが同じ「Ｔ１とＴ２」であるからグルー
プ化される。同様に「問合せ２」３２も、ＦＲＯＭ句の
テーブルが「Ｔ３」である他の問合せとグループ化され
る。このようにして、全ての問合せについて本処理は実
行される。

【００１３】次に、条件の和集合生成処理（ステップ２
０２）について、図４、５、６を用いて説明する。図４
は処理の手順を示すもので、ステップ４０１において、
先のグループ化処理（ステップ２０１）で求めた問合せ
のグループ毎に、ＷＨＥＲＥ句にある問合せの条件の選
言標準形への書換えを行う。ＳＱＬではＷＨＥＲＥ句に
ある問合せの条件が成立する（真）か、成立しない
（偽）かにより、それぞれ問合わせの結果として異なる
データを収集する。すなわち、ＷＨＥＲＥ句に記述され
る条件は論理式となる。任意の論理式は数学の定理とし
て、それと等価な標準形が存在する。論理式の形が、
（ａ_１１ＯＲａ_１２ＯＲ … ＯＲａ _１ｉ）Ａ
ＮＤ…ＡＮＤ（ａ_ｊ１ＯＲａ_ｊ２ＯＲ … ＯＲ
ａ_ｊｋ）となる連言標準形と、（ａ_１１ＡＮＤａ
_１２ＡＮＤ … ＡＮＤａ_１ｉ）ＯＲ…ＯＲ（ａ
_ｊ１ＡＮＤａ_ｊ２ＡＮＤ … ＡＮＤａ_ｊｋ）
となる選言標準形にわけられる。

【００１４】図５は選言標準形への書換えを具体的に示
す図、図６は連言の分割と有効度をセットする例を示す
図である。問合せ５１の問合せ条件を選言標準形へ書き
換えると、問合せ５２のようになる。

【００１５】ステップ４０２において、選言標準形で表
現された論理式の、ＯＲで連接する論理式の単位（以下
連言と呼ぶ）を取り出す処理を行う。ステップ４０３に
おいて、取り出した連言について他の連言との重複状態
の判断を行う。

【００１６】ステップ４０３において、新たに取り出し
た連言が既知の連言と重複するか否かを判断し重複する
場合はステップ４０４に進み、そうでない場合はステッ
プ４０８に進む。図６に示す例においては、問合せグル
ープを構成する問合せ６１、６２、６３について、６１
の連言「Ｔ１．Ｃ１＞＝０ＡＮＤＴ１．Ｃ１＜３
０」が最初に取り出された場合は、処理済みの連言がな
い状態であり、重複する連言がないため、ステップ４０
３ではＮＯが選択され、ステップ４０８において、この
連言が問合せのグループ内で、どの程度頻繁に利用され
るかを示す有効度に対して初期値１をセットし、ステッ
プ４０９で条件の集合６４の連言として記憶する。

【００１７】次の問合せ６２の連言「Ｔ１．Ｃ１＞＝０
ＡＮＤＴ１．Ｃ１＜２０」については、前記処理し
記憶した条件の集合６４の連言との重複する部分がある
ため、ステップ４０３でＹＥＳが選択され、ステップ４
０４で条件の集合６４の連言を、重複する部分と非重複
部分とに分け、ステップ４０５において重複部分の連言
について有効度を一つあげる。これにより、条件の集合
は図６における６４の状態から６５の状態に遷移する。

【００１８】次の問合せ６３の連言「Ｔ１．Ｃ１＞＝１
０ＡＮＤＴ１．Ｃ１＜４０」については、前記処理
し記憶した条件の集合６５の連言との重複部分があるた
め、先の問合せ６２と同様の処理を行うが、問合せ６３
の連言の場合、重複部分の削除処理（ステップ４０６）
を行う。ステップ４０７において、未処理の連言の有無
を判定し、未処理の連言がある場合はステップ４０８に
進み、そうでない場合はステップステップ４１０に進
む。図６に示す例においては、連言「Ｔ１．Ｃ１＞＝３
０ＡＮＤＴ１．Ｃ１＜４０」が残るため、ステップ
４０７でＹＥＳが選択され、対象の新連言の有効度を初
期値に設定し（ステップ４０８）、該新連言を集合に追
加する（ステップ４０９）ステップ４１０において、対象の問合せに連言が存在す
るか否かを判定し、存在する場合はステップ４０３に戻
り、そうでない場合はステップ４１１に進む。ステップ
４１１において、問い合わせが存在するか否かを判定
し、存在する場合はステップ４０１に進み、そうでない
場合は処理を終了する。

【００１９】次に、条件の選択処理（ステップ３０３）
について、図７および図６の条件の和集合６６を用いて
説明する。ステップ７０１において、前記条件の和集合
生成処理（ステップ２０２）で得られる条件の集合の要
素である各連言を単独で使用した場合に得られるレコー
ド数を求める。求め方としては、例えば和集合６６の有
効度３の連言の場合、「ＳＥＬＥＣＴＣＯＵＮＴ
（＊）ＦＲＯＭＴ１ＷＨＥＲＥＴ１．Ｃ１＞１０
ＡＮＤＴ１．Ｃ１＜２０」なるＳＱＬ文により簡単
に求められる。他の連言についても同様にレコード数を
求めることができる。ステップ７０２において、データ
の収集先のテーブルのカラムのデータ型とステップ７０
１で求めたレコード件数から、取得するデータの予想量
を計算する。計算方法としては、例えば和集合６６の各
連言の場合、取得するテーブルのカラム「Ｔ１．Ｃ１と
Ｔ１．Ｃ２」のカラムのデータ型がともに、整数（４バ
イト長）の場合、各連言のレコード数×（４＋４）が連
言毎の取得するデータの予想量となる。ステップ７０３
において、部分レプリカの生成を行う。条件の和集合６
６より、部分レプリカの生成のためのＳＱＬ文を作成を
行い、このＳＱＬ文の実行結果として取得されるデータ
を部分レプリカとする。ＳＱＬ文の作成は、６６の連言
の有効度の大きい順に、ステップ７０２で計算した連言
のデータの予想量を加算していく。データ予想量が、部
分レプリカとして保持し得る許容データ量を超える場
合、その連言は部分レプリカ生成の条件には含めない。
有効度の大きいものを優先的に、部分レプリカの生成条
件とし、かつ部分レプリカとしてのデータ量を制御する
ことで、ヒット率が高く、記憶装置容量、部分レプリカ
の更新コストが最適な部分レプリカの生成条件を決定で
きる。

【００２０】図８は、サーバに格納されるテーブル「Ｔ
１」の一具体例を示す図、図９は条件の和集合６６のう
ち有効度２以上の連言を生成条件として生成された部分
レプリカの一具体例を示す図である。図８のテーブル
「Ｔ１」に格納されるデータは人事情報であり、項番８
１、従業員番号８２、氏名８３、役職８４、給与８５、
勤続年数８６等の項目を備え、前記問い合わせにおける
「Ｃ１」は項番を示す。図８をもとに、条件の和集合６
６のうち有効度２以上の連言を生成条件として部分レプ
リカを生成すると図９のようになる。生成条件は「０＜
＝Ｔ１．Ｃ１＜３０」であり、図では項番０〜２０まで
のデータが部分レプリカとして記憶装置に格納されてい
るから、確かに有効度２以上の３つの連言を条件に部分
レプリカが生成されている。

【００２１】図１０は、部分レプリカの更新処理を説明
する図である。アプリケーションを変更して問い合わせ
る場合のように、問合せ群が変更される場合、部分レプ
リカの更新が必要となる。まず、ステップ１００１にお
いて、データ収集手段１３はクライアントからアプリケ
ーションの変更を受け付けたか否かを判定し、変更を受
け付けた場合にはステップ１００２に進み、そうでない
場合は処理を終了する。ステップ１００２において、新
しい問い合わせに応じた新しい部分レプリカの生成条件
の和集合を求める。ステップ１００３において、前記新
しい部分レプリカの生成条件の和集合と、従前の部分レ
プリカの生成条件の和集合を比較する。ステップ１００
４において、比較した結果、重複する生成条件で生成し
たデータは削除せず、前記従前の部分レプリカのうち重
複しない条件で生成したデータのみを削除する。ステッ
プ１００５において、新しい部分レプリカの生成条件の
うち重複しない条件で生成したデータをサーバを介して
データベースから収集し前記記憶手段に追加する。

【００２２】図１１は、前記部分レプリカの更新処理の
具体例を示す図である。図において、１１１は新しい部
分レプリカの条件の和集合、１１２は従前の部分レプリ
カの条件の和集合である。前記ステップ１００３に示す
ように、前記両和集合を比較し、重複する条件の和集合
（１１３）、重複しない条件の和集合（１１４）を抽出
し、重複しない条件和集合（１１４）のデータを、既存
の部分レプリカから削除する。次いで、前記ステップ１
００５に示すように、新しい部分レプリカの条件（１１
１）のうち、重複しない条件の和集合（１１５）のデー
タを前記各サーバを介してデータベースから収集し、重
複部分のデータに追加して部分レプリカを更新する。

【００２３】以上説明したように、有効度の大きさに基
づいて部分レプリカ生成するので、問合せに対して利用
率が高い部分レプリカを生成することができ、ネットワ
ーク負荷を削減でき、問合せの応答時間の短縮が可能と
なる。また、記憶装置容量を考慮した部分レプリカを生
成することができ、記憶装置容量、更新処理コストを削
減することが可能となる。また、新しい部分レプリカの
条件のうち、従前の部分レプリカの条件と重複しない条
件のデータのみをデータベースから収集し、重複部分の
データに追加することにより、従前の部分レプリカ全て
を削除し、新しい部分レプリカを生成するのに比べ、更
新コストを削減することができる。

【００２４】

【発明の効果】以上説明したように本発明によれば、低
記憶装置容量、低更新処理コストで、かつ利用率の高い
レプリカを生成することができる。

【図面の簡単な説明】

【図１】本発明の適用することのできるデータベースを
備えた分散環境を説明する図である。

【図２】部分レプリカの生成装置の処理手順の概略を示
す図である。

【図３】問い合わせのグループ化処理を説明する図であ
る。

【図４】条件の和集合生成処理を示す図である。

【図５】選言標準型への書き換えを示す図である。

【図６】連言の分割と有効度をセットする例を示す図で
ある。

【図７】条件の選択処理を示す図である。

【図８】サーバに格納されるテーブルの具体例を示す図
である。

【図９】部分レプリカの具体例を示す図である。

【図１０】部分レプリカの更新処理を示す図である。

【図１１】部分レプリカの更新処理の具体例を示す図で
ある。

【符号の説明】

１１，１２…クライアント１３データ収集手段１４ネットワーク１５部分レプリカ１６，１７…サーバ１８，１９…テーブル３１，３２，３３，５１，６１，６２，６３問合せ３４，３５問合せグループ５２条件を選言標準形に書換えた問合せ６４，６５，６６条件の和集合

───────────────────────────────────────────────────── フロントページの続き (72)発明者嶋崎康一神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア事業部内 (72)発明者板谷孝神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア事業部内 (72)発明者竹口成一神奈川県横浜市中区尾上町６丁目81番地日立ソフトウェアエンジニアリング株式会社内Ｆターム(参考） 5B075 ND40 NR03 NR20 5B082 FA12 GA08 HA08

Claims

【特許請求の範囲】

【請求項１】分散データベース環境において、データ
ベースを管理するサーバに対するクライアントからの問
い合わせにより取得したデータを部分レプリカとして記
憶装置にキャッシングする部分レプリカの生成装置であ
って、複数の問い合わせ条件からなる問い合わせ群をグループ
化する処理手段と、前記グループ化した問い合わせ条件毎に問い合わせ条件
の集合を求める処理手段と、前記問い合わせ条件の集合を、条件の重複範囲に基づい
て条件を分別し、分別した各条件に対してその重複回数
に応じて有効度を設定する処理手段と、前記分別した条件の内、有効度の高いものを優先して問
い合わせ条件としての部分レプリカを生成する処理手段
と、からなることを特徴とする部分レプリカの生成装
置。
【請求項２】請求項１の記載において、前記問い合わ
せ群をグループ化する処理手段は、前記問い合わせ群を
データ収集先を基準にグループ化することを特徴とする
部分レプリカの生成装置。
【請求項３】請求項１ないし請求項２の何れか１の記
載において、前記処理手段は、問い合わせ条件の集合を
連言を含む選言標準形に変形することを特徴とする部分
レプリカの生成装置。
【請求項４】分散データベース環境において、データ
ベースを管理するサーバに対するクライアントからの問
い合わせにより取得したデータを部分レプリカとして記
憶装置にキャッシングする部分レプリカの生成方法であ
って、複数の問い合わせ条件からなる問い合わせ群をグループ
化する処理と、前記グループ化した問い合わせ条件毎に問い合わせ条件
の集合を求める処理と、前記問い合わせ条件の集合を、条件の重複範囲に基づい
て条件を分別し、分別した各条件に対してその重複回数
に応じて有効度を設定する処理と、前記分別した条件の内、有効度の高いものを優先して問
い合わせ条件としての部分レプリカを生成する処理と、
からなることを特徴とする部分レプリカの生成方法。
【請求項５】分散データベース環境において、データ
ベースを管理するサーバに対するクライアントからの問
い合わせにより取得したデータを部分レプリカとして記
憶装置にキャッシングする部分レプリカの生成処理であ
って、複数の問い合わせ条件からなる問い合わせ群をグループ
化する処理と、前記グループ化した問い合わせ条件毎に問い合わせ条件
の集合を求める処理と、前記問い合わせ条件の集合を、条件の重複範囲に基づい
て条件を分別し、分別した各条件に対してその重複回数
に応じて有効度を設定する処理と、前記分別した条件の内、有効度の高いものを優先して問
い合わせ条件としての部分レプリカを生成する処理とを
コンピュータに実行させるプログラムとして記録したコ
ンピュータ読み取り可能な記録媒体。