JP6158623B2

JP6158623B2 - データベース分析装置及び方法

Info

Publication number: JP6158623B2
Application number: JP2013154615A
Authority: JP
Inventors: 康範橋本; 三部　良太; 良太三部; 吉村　健太郎; 健太郎吉村; 博文団野; 敬志大島; 貞裕石川; 山口　潔; 潔山口
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2013-07-25
Filing date: 2013-07-25
Publication date: 2017-07-05
Anticipated expiration: 2033-07-25
Also published as: US20150032708A1; CN104346419A; JP2015026188A; CN104346419B

Description

本発明は、データベース分析装置及び方法に関する。特に、複数属性値で構成されるカテゴリ間の相関ルールを、人手を解することなく自動的に生成する方法に関する。

本技術分野の背景技術として、特開２０００−２５９６１２号公報（特許文献１）がある。この公報には、「生成したルール中に含まれるアイテム群が含まれるトランザクションについて、属性値に関して効率良く統計値を生成すると共に、相関ルールを求める際にサポートと確信度に加えて、属性値に関する統計値での絞り込みを可能にする。」と記載されている（要約参照）。

特開２０００−２５９６１２号公報

特許文献１には、データベースに格納されているトランザクションテーブルが保持する、テーブルカラムの属性値群から、それらの属性値に関する相関ルールを生成するためのメカニズムについて記載されている。このうち確信度が高い相関ルールのみを抽出することにより、テーブルカラム間に存在する依存関係や制約条件を推測することができる。推測される情報をユーザに提供することで、ユーザによるデータベースの仕様理解を支援することができる。

しかし、前記文献の技術においては、テーブルカラムが保持する属性値群のカテゴリ化方法については述べられていない。すなわち、属性値をカテゴリ分けした上での相関ルールを得ることができない。または、カテゴリ化方法を別途用意する必要があるが、その場合のカテゴリ化方法は、相関ルール生成手段と連携することができない。

例えば数値の属性値のみを含むテーブルカラムであれば、「５以上」「５未満」などの特定の範囲で属性値群を分けることにより、属性値群をカテゴリ化することが可能である。また、時刻のみの場合も同様に扱える。しかしながら、文字列など、一概にカテゴリ分けの境界を決められない属性値もある。また、大量のテーブルカラムが存在する状況において、それらすべてのカテゴリ分け方法を人間が指定するのでは、作業工数が大きく、現実的ではない。さらに、相関ルールと無関係に、テーブルカラム間の関係を考慮しない方法でカテゴリ化方法を決めても、そのカテゴリ化方法によって有効な相関ルールを生成できる保証がない。

そこで本発明は、あるデータベースの属性値に関する相関ルールを生成する際に、期待される有効な相関ルールに求められる確信度などの特徴に合わせ、属性値をカテゴリ化する仕組みを提供することを目的とする。これにより例えば、既存技術でも抽出可能であった具体的な１属性値間の相関ルールに加え、複数属性値で構成されるカテゴリ間の相関ルールを、人手を介することなく自動的に生成し、発明の利用者へ提供することができる。

上記目的を達成するために、例えば下記の構成を採用する。
データベースが保持する複数のテーブルのうち、テーブルを構成する２つ以上のテーブルカラムに着目し、各テーブルカラムが保持するデータの同時出現の傾向から、テーブルカラム間に存在する依存関係や制約条件、即ち、テーブルカラムのデータの同時発生の確率を分析するための相関ルール分析手段を有したデータベース分析装置であって、複数のテーブルカラムのデータ群から生成した相関ルールから、データ群のカテゴリ化方法を計算するデータカテゴリ計算手段と、前記カテゴリ化結果に基づき、相関ルールを再構成することにより、最適な粒度の相関ルールを生成する、即ち、同時発生の確率がほぼ１００％となるようにルールを再構成する、相関ルール再構成手段を有する。

その結果、本発明では、個々の相関ルールを組み合わせて、同時発生の確率が１００％の相関ルールを抽出する。

本発明によれば、データベースが保持するデータを、当該データベースに関する知識なしに分析し、テーブルカラム間の相関ルールを、１属性値間の相関ルールに限定することなく、生成することができる。これにより例えば、本発明の利用者は、テーブルカラム間に存在する複数属性値間の依存関係や制約条件に関する情報を取得することができる。

データベース分析装置の構成図の例を示す図である。データベース分析装置の処理を説明するフローチャートの例を示す図である。データベースから読み込むテーブルデータを説明するイメージ図の例を示す図である。テーブルデータから相関ルールを生成する処理の前半を説明するイメージ図の例である。テーブルデータから相関ルールを生成する処理の前半を説明するイメージ図の例である。テーブルデータから相関ルールを生成する処理の後半を説明するイメージ図の例を示す図である。支持度および確信度を埋めた相関ルール表のイメージ図の例を示す図である。計算済みの相関ルールに基づき属性値の類似性を計算する処理を説明するイメージ図の例を示す図である。類似性の高い属性値を同一のカテゴリにまとめる処理を説明するイメージ図の例を示す図である。類似性の高い属性値を同一のカテゴリにまとめた結果を説明するイメージ図の例を示す図である。相関ルールを再構成する処理を説明するイメージ図の例を示す図である。確信度が高い相関ルールを選定する処理を説明するイメージ図の例を示す図である。データパターン高確信度相関ルールを視覚的に理解容易な形式に変換する処理を説明するイメージ図の例を示す図である。

以下、実施例を、図面を用いて説明する。

本実施例では、データベース分析装置の例を説明する。

図１は、本実施例のデータベース分析装置の構成図の例である。
データベース分析装置１００は、ＣＰＵ１０１、メモリ１０２、入力装置１０３、出力装置１０４、外部記憶装置１０５を有する。外部記憶装置１０５は、テーブルデータ記憶部１０６、暫定相関ルール記憶部１０７、データカテゴリ記憶部１０８、高確信度相関ルール記憶部１０９を保持しており、さらに処理プログラム１１０を保持する。処理プログラム１１０は、相関ルール生成処理部１１１、データカテゴリ計算処理部１１２、相関ルール再構成処理部１１３、不要ルール除去処理部１１４、相関ルール視覚化処理部１１５を保持する。

処理プログラム１１０は実行時にメモリ１０２に読み込まれ、ＣＰＵ１０１によって実行されるものとする。

入力装置１０３を介して外部から入力されたデータベースのテーブルデータは、テーブルデータ記憶部１０６に書き込む。相関ルール生成処理部１１１は、テーブルデータ記憶部１０６から読み出したデータベースのデータを参照しながら、各データ（およびその組み合わせ）の出現回数をカウントし、算術処理をおこなうことで、相関ルールを生成し、暫定相関ルール記憶部１０７に書き込む。データカテゴリ計算処理部１１２は、暫定相関ルール記憶部１０７から読み出した相関ルールを参照し、相関ルールを構成する属性値のカテゴリ化方法を決定し、データカテゴリ記憶部１０８に書き込む。相関ルール再構成処理部１１３は、暫定相関ルール記憶部１０７から相関ルールを読み出し、データカテゴリ記憶部１０８から読み出した属性値カテゴリ化方法を参照しながら、相関ルールを再計算し、暫定相関ルール記憶部１０７に書き込む。不要ルール除去処理部１１４は、暫定相関ルール記憶部１０７から相関ルールを読み出し、確信度が閾値より高い相関ルールのみを選定し、高確信度相関ルール記憶部１０９に書き込む。相関ルール視覚化処理部１１５は、高確信度相関ルール記憶部１０９から相関ルールを読み出し、視覚的に理解容易な形式に変換した後、出力装置１０４に出力する。

図２は、本実施例のデータベース分析装置の処理を説明するフローチャートの例である。以降、図２のフローチャートに基づいて、図１の各部の動作を説明する。

ステップ２００は、データベース分析装置への入力情報として、データベースのテーブルデータを入力するステップである。入力操作は、装置の利用者が実施する。ステップ２００では、入力装置１０３から入力されたデータベースのテーブルを、テーブルデータ記憶部１０６に書き込む。

図３は、本実施例のデータベースから読み込むテーブルデータを説明するイメージ図の例である。ここでは、分析対象のテーブルデータ３００は、テーブルカラム識別子３０１として、ユーザＩＤ３０２、支払方法３０３、および、ユーザ区分３０4を保持している。また、テーブルカラム識別子３０１の各要素に対応する情報を持った行単位の情報であるレコード３０５を、計２５件保持している。

以下のステップ２０１から２０４までは、入力情報をもとにした機械的な処理であり、人手を介することなくデータベース分析装置のみで実施できる処理である。
ステップ２０１では、相関ルール生成処理部１１１が、テーブルデータ記憶部１０６から読み出したデータベースのデータを参照しながら、相関ルールを生成し、暫定相関ルール記憶部１０７に書き込む。

図４Ａは、本実施例のテーブルデータから相関ルールを生成する処理の前半を説明するイメージ図の例である。

まず、相関ルール生成処理部１１１は、テーブルデータ記憶部１０６からデータ３００を読み出し、テーブルカラム識別子３０１を取得する。取得したテーブルカラム識別子３０１の要素のうち、まだ相関ルールを抽出していないテーブルカラムの組み合わせのうちのひとつを選択する。ここでは、支払方法３０３とユーザ区分３０４を作選択する。なお、テーブルカラム組み合わせの抽出にあたっては、関連元４０１と関連先４０２の違いを考慮する。例えば、支払方法３０３を関連元４０１とし、ユーザ区分３０４を関連先４０２とした場合と、ユーザ区分３０４を関連元４０１とし、支払方法３０３を関連先４０２とした場合とは、異なる組み合わせであると判断する。

さらに相関ルール生成処理部１１１は、図４Ｂに示すように、前記決定した組み合わせに対応する相関ルール表４００を作成する。相関ルール表が保持する各相関ルールは、関連元４０１、関連先４０２、支持度４０３、確信度４０４の情報を持つ。関連元４０１と関連先４０２に対しては、前記組み合わせを構成する支払方法３０３、ユーザ区分３０４を、それぞれ対応づける。また、相関ルール表のデータとして、テーブルデータ３００における支払方法３０３とユーザ区分３０４の組み合わせを網羅したパターンを入力しておく。テーブルデータ３００において、支払方法３０３は「クレジットカード」「振込み」「電子マネー」の３通りであり、また、ユーザ区分３０４は「ゲスト」「一般」「プレミアム」の３通りであることから、相関ルール４００のデータは、３×３＝９通りのパターンを用意する。

相関ルールを生成する処理の前半においては、支持度４０３および確信度４０４の値については、入力されていない状態であって良い。

なお、本ステップの実行開始時点において、全てのテーブルカラムの組み合わせについて相関ルールを既に生成している場合は、相関ルールの生成をおこなわず、ステップ１１５に移行する。

図５は、本実施例のテーブルデータから相関ルールを生成する処理の後半を説明するイメージ図の例である。

まず、相関ルール生成処理部１１１は、テーブル表４００の中から、支持度および確信度が入力されていない相関ルール５００を選択する。その後、選択した相関ルール５００の関連元４０１に記載された値を、関連元４０１に設定されたテーブルカラムの値として持つレコードを、テーブルデータ３００から探し出す。本例においては、支払方法３０３が「クレジットカード」であるレコード群５０１が抽出される。さらに相関ルール生成処理部１１１は、選択中の相関ルール５００の関連先４０２に記載された値を、関連先４０２に設定されたテーブルカラムの値として持つレコードを、前記抽出したレコード群５０１から探し出す。本例においては、ユーザ区分３０４が「ゲスト」であるレコード群５０２が抽出される。

その後、相関ルール生成処理部１１１は、前記各レコード群に含まれるレコードの数を算術処理することにより、関連先データの多さを示す指標である支持度４０３、および関連元と先のペアの多さの指標である確信度４０４を計算する。支持度４０３については、テーブルデータ３００が持つレコード数のうち、抽出したレコード群５０２（関連先と関連元とが特定の値となるデータ）の割合を計算することにより、決定する。本例においては、全２５件のうち６件であるため、（６／２５）×１００＝２４．００％となる。また、確信度４０４については、抽出したレコード群５０１のうち、抽出したレコード群５０２（特定の関連元のデータ）の割合を計算することにより、決定する。本例においては、１１件中６件であるため、（６／１１）×１００≒５４．５４％となる。

前記、相関ルール生成処理部１１１が支持度および確信度を計算する処理を、相関ルール表４００が持つすべての相関ルールについて実施し、結果を暫定相関ルール記憶部１０７に記憶することにより、ステップ２０１を完了する。

図６は、本実施例の支持度および確信度を埋めた相関ルール表のイメージ図の例である。本実施例におけるステップ２０１完了後には、相関ルール表４００が持つ全ての相関ルールについて、全ての項目が記載されている状態となっている。

なお、一般的な相関ルール計算アルゴリズムにおいては、「支持度」や「確信度」が一定より低い値である相関ルールの抽出を省略することにより、計算処理の高速化を実現するものがある。ステップ２０１の代替手段として、このようなアルゴリズムを使っている場合、図６において、「支持度」「確信度」が埋まらないケースが考えられる。このような場合は、例えば「支持度」「確信度」が記入されていない欄を「0.00％」の値で補完し、以降のステップに進むものとする。

ステップ２０２では、データカテゴリ計算処理部１１２が、暫定相関ルール記憶部１０７から読み出した相関ルールを参照し、相関ルールを構成する属性値のカテゴリ化方法を決定し、データカテゴリ記憶部１０８に書き込む。

本実施例においては、属性値のカテゴリを、各属性値について説明する相関ルールの類似性に基づき、算出するものとする。類似した傾向を示す属性値を同一のカテゴリにまとめることを狙いとする。

図７は、本実施例の計算済みの相関ルールに基づき属性値の類似性を計算する処理を説明するイメージ図の例である。

まず、データカテゴリ計算処理部１１２は、暫定ルール記憶部１０７から、相関ルール表４００を読み出し、その関連元４０１の値を行のラベル７０１として、また、関連先４０２の値を列のラベル７０２として、それぞれ保持する確信度行列７００を作成する。更にデータカテゴリ計算処理部１１２は、相関ルール表４００を構成する相関ルールを読み出し、その確信度の値を、相関ルール表４００の対応する箇所に書き込む。例えば、相関ルール表４００において、関連元４０１の値が「クレジットカード」、関連先４０２の値が「ゲスト」の相関ルールが持つ確信度４０４の値「54.54％」を、確信度行列７００のうち、行のラベルが「クレジットカード」、列のラベルが「ゲスト」である箇所に書き込む。

相関ルール表４００が持つ全ての相関ルールについて前記処理をおこなうことにより、データカテゴリ計算処理部１１２は、確信度行列７００を完成させる。

その後、データカテゴリ計算処理部１１２は、確信度行列７００の列（関連先）のラベル７０２を行（関連元）のラベル７０４および列のラベル７０５として持つ確信度距離行列７０３を作成する。確信度距離行列７０３の各値は、確信度行列７００の列毎の値を比較することにより、算出する。ここでは、確信度行列７００の各行の値を「平均０、分散１」で標準化した後、列間の差の二乗和の平方根（ユークリッド距離）を計算することにより、列間の距離を算出している。

図７の下段の表の各値は上段の表の各値を用いて計算される。例えば、関連先が「ゲスト」で、関連元が「一般」の場合、上段の表の値を用いて、((1)−(2))^２＋((4)−(5)) ^２＋((7)−(8))^２を計算することにより、「2.9506975」が得られる。なお、( )内の番号は、上段の表の各データに付した番号である。

このような距離を全ての属性値間について求めることにより、確信度距離行列７０３を完成させ、属性値の類似性を計算する処理を完了する。確信度距離行列７０３の対応する値が小さいものほど、類似性の高い属性であることを示している。

図８は、本実施例の類似性の高い属性値を同一のカテゴリにまとめる処理を説明するイメージ図の例である。

まず、データカテゴリ計算処理部１１２は、確信度距離行列７０３から、階層的クラスタ８００を構成する。ここでは、確信度距離行列７０３が保持する属性値間の距離情報に基づき、群平均法に基づき、クラスタを構成している。すなわち、「プレミアム」と「一般」とが距離およそ0.8で、また、「プレミアム」「一般」と「ゲスト」とが距離およそ2.9で、それぞれ接続されている構成となっている。群平均法とは、ある群に含まれる各点と群に含まれない点との距離の平均値によって、ある群と点との距離を評価する手法である。群平均法では、互いに距離が小さいもの同士でクラスタを作り、残りのものは距離の平均値で置き換える。

さらに、データカテゴリ計算処理部１１２は、階層的クラスタ８００を分断する距離の値８０１を計算する。ここでは、分断する距離の値８０１の計算方法を、「階層的クラスタ８００の中の最大距離の２分の１」として算出するものとする。本例における値８０１は、およそ1.5となる。

その後、データカテゴリ計算処理部１１２は、値８０１により、階層的クラスタ８００を分断する。本例においては、値８０１はおよそ1.5であるため、それ以下の距離で接続されている「プレミアム」「一般」が同一のカテゴリ８０２としてまとめられる。「ゲスト」と値８０１以下で接続されている属性値はないため、「ゲスト」は単独の属性値で構成されるカテゴリ８０３となる。

図９は、本実施例の類似性の高い属性値を同一のカテゴリにまとめた結果を説明するイメージ図の例である。

データカテゴリ計算処理部１１２は、前記導出したカテゴリを、属性値カテゴリ化方法９００として、データカテゴリ記憶部１０８に書き込む。属性値カテゴリ化方法９００が持つカテゴリ１の情報９０１には前記カテゴリ８０２が、カテゴリ２の情報９０２には前記カテゴリ８０３が、それぞれ対応している。

なお、ステップ２０２を開始する段階で、カテゴリ分けの対象である属性値の数が２以下である場合、各属性値をそれぞれ別のカテゴリに分類した属性値カテゴリ化方法９００を作成し、データカテゴリ記憶部１０８に書き込むことで、ステップ２０２を完了する。

ステップ２０３では、相関ルール再構成処理部１１３は、暫定相関ルール記憶部１０７から相関ルールを読み出し、データカテゴリ記憶部１０８から読み出した属性値カテゴリ化方法を参照しながら、相関ルールを再計算し、暫定相関ルール記憶部１０７に書き込む。

図１０は、本実施例の相関ルールを再構成する処理を説明するイメージ図の例である。
相関ルール再構成処理部１１３は、暫定相関ルール記憶部１０７から図６の相関ルール表４００を読み出し、関連元４０１および関連先４０２の値を関連元１００１および関連１００２の値としてコピーする形で、相関ルール表１０００を作成する。ただし、データカテゴリ記憶部１０８から読み出した属性値カテゴリ化方法９００において、同一のカテゴリに含まれている属性値については、ひとつの相関ルールとして纏めるものとする。

さらに、相関ルール再構成処理部１１３は、暫定相関ルール記憶部１０７から読み出した相関ルール表４００に記載の支持度４０３および確信度４０４の値から、相関ルール表１０００の相関ルールの支持度１００３および確信度１００４の値を計算する。本例においては、関連先４０２を複数の属性値として関連先１００２にまとめていることから、相関ルール表１０００の相関ルールは、相関ルール表４００の対応する相関ルールにおける支持度４０３および確信度４０４の和をそれぞれ計算することにより、支持度１００３および確信度１００４をそれぞれ算出できる。計算結果の相関ルール表１０００を暫定相関ルール記憶部１０７に書き込むことにより、ステップ２０３を完了する。

なお、本例のステップ２０２および２０３においては、相関ルールにおける関連先の属性値のみをカテゴリ分けしているが、関連元の属性値についても、同じ方法または別の方法を用い、カテゴリ分けしても良い。

ステップ２０４では、不要ルール除去処理部１１４は、暫定相関ルール記憶部１０７から相関ルールを読み出し、確信度が閾値より高い相関ルールのみを選定し、高確信度相関ルール記憶部１０９に書き込む。

図１１は、本実施例の確信度が高い相関ルールを選定する処理を説明するイメージ図の例である。

不要ルール除去処理部１１４は、暫定相関ルール記憶部１０７から相関ルール１０００を読み出し、そのうち閾値より高い確信度を持つ相関ルール群１１００を抽出することにより、高確信度相関ルール表１１０１を作成する。本例においては、確信度の閾値を９５％とする。作成した高確信度相関ルール表１１０１を高確信度相関ルール記憶部１０９に追加して書き込むことにより、ステップ２０４を完了する。

ステップ２０４完了時点で、テーブルデータ記憶部が保持するテーブルデータのすべてのテーブルカラム組み合わせについて、高確信度相関ルールの抽出を完了している場合、ステップ２０５に進む。高確信度相関ルールの抽出を完了していない組み合わせが残っている場合、再度ステップ２０１に戻り、残っている組み合わせについて同様の処理をおこなう。

ステップ２０５は、開発者が、データベース分析装置１００によるデータの分析結果を、出力装置１０４を通じて取得するステップである。相関ルール視覚化処理部１１５は、高確信度相関ルール記憶部１０９から相関ルールを読み出し、視覚的に理解容易な形式に変換した後、出力装置１０４に出力する。なお、出力は、計算機で扱えるようテキストデータ又はバイナリデータとして出力しても良いし、開発者が閲覧できるようモニタに文字又はグラフィックを表示してもよい。

以上に述べた処理により、図１０の上に示した個々の相関ルールを組み合わせて、図１１の下に示すように、同時発生の確率がほぼ１００％の相関ルールが抽出される。

図１２は、本実施例のデータパターン高確信度相関ルールを視覚的に理解容易な形式に変換する処理を説明するイメージ図の例である。相関ルール視覚化処理部１１５は、高確信度相関ルール記憶部１０９が保持する高確信度相関ルール表をひとつ読み出す。さらに、読み出した高確信度相関ルール表１２００が保持する各相関ルールの関連元ラベル１２０１、関連元属性値１２０２、関連先ラベル１２０３、関連先属性値１２０４をそれぞれ、関連元名称１２０５、関連元属性値１２０６、関連先名称１２０７、関連先属性値１２０８として、出力する。

高確信度相関ルール記憶部１０９が保持する全ての高確信度相関ルール表について前述の処理をおこなうことにより、ステップ２０５を完了する。

本実施例における相関ルールの再構成により、新しい相関ルールの確信度はほぼ１００％になるため、利用者は、支持度を参照しながら、これら再構成された相関ルールの中から適切なものを選択する。即ち、支持度は、新たに相関ルールをカテゴライズするかどうかの判断に用いられる。

１００：データベース分析装置、１０１：ＣＰＵ、１０２：メモリ、１０３：入力装置、１０４：出力装置、１０５：外部記憶装置、１０６：テーブルデータ記憶部、１０７：暫定相関ルール記憶部、１０８：データカテゴリ記憶部、１０９：高確信度相関ルール記憶部、１１０：処理プログラム、１１１：相関ルール生成処理部、１１２：データカテゴリ計算処理部、１１３：相関ルール再構成処理部、１１４：不要ルール除去処理部、１１５：相関ルール視覚化処理部

Claims

データベースが保持する複数のテーブルのうち、テーブルを構成する２つ以上のテーブルカラムに着目し、各テーブルカラムが保持するデータの同時出現の傾向から、テーブルカラム間に存在する依存関係又は制約条件を、自動的に分析するためのデータベース分析装置であって、
複数のテーブルカラムのデータ群から生成した相関ルールから、データ群のカテゴリ化方法を計算するデータカテゴリ計算手段と、
前記データカテゴリ計算手段によるカテゴリ化結果に基づき、相関ルールを再構成する相関ルール再構成手段と
前記再構成した相関ルールから一部の相関ルールを抽出する不要ルール除去手段を有し、
前記データカテゴリ計算手段は、相関ルールを構成するテーブルカラムの一つを関連元、他の一つを関連先として、関連元と関連先が同一の値をとるレコード数を該当する関連元のレコード数で除算した値を、前記相関ルールの確信度とし、前記確信度の類似度が近い関連先のテーブルカラムの値を同一のデータカテゴリに含まれるとし、
前記相関ルール再構成手段は、同一のデータカテゴリに属する関連先を有する相関ルールを一つに纏めて、再構成した相関ルールとし、纏める前の相関ルールの有する確信度の和を前記再構成した相関ルールの確信度の和とし、
前記不要ルール除去手段は、ある閾値より高い確信度を有する相関ルールを抽出することを特徴とするデータベース分析装置。
前記データベース分析装置は、各データカテゴリの妥当性の指標を計算するデータカテゴリ妥当性計算手段を有することを特徴と請求項１に記載のデータベース分析装置。
前記データカテゴリ計算手段は、相関ルールを構成するテーブルカラムの一つを関連元、他の一つを関連先として、関連元と関連先が同一の値をとるレコード数を対象とする全レコード数で除算した値を、前記相関ルールの支持度とし、前記支持度を計算することを特徴とする請求項１に記載のデータベース分析装置。
前記データベース分析装置は、入力として用いる相関ルールが、全てのデータの組み合わせについて得られていないときに、得られていない相関ルールの前記確信度又は前記支持度を適切な値で補完する相関ルール補完手段を有することを特徴とする請求項３に記載のデータベース分析装置。
前記データベース分析装置は、
さらに、
前記不要ルール除去手段により抽出した相関ルールを、テーブルカラム間に存在する依存関係又は制約条件として視覚的に理解容易な形式に変換する相関ルール視覚化手段を有することを特徴とする請求項１に記載のデータベース分析装置。
計算機を用いて、データベースが保持する複数のテーブルのうち、テーブルを構成する２つ以上のテーブルカラムに着目し、各テーブルカラムが保持するデータの同時出現の傾向から、テーブルカラム間に存在する依存関係又は制約条件を、自動的に分析するデータベース分析方法であって、
複数のテーブルカラムのデータ群から生成した相関ルールから、データ群のカテゴリ化方法を計算するデータカテゴリ計算ステップと、
前記データカテゴリ計算ステップによるカテゴリ化結果に基づき、相関ルールを再構成する相関ルール再構成ステップと、
前記再構成した相関ルールから一部の相関ルールを抽出する不要ルール除去ステップを有し、
前記データカテゴリ計算ステップで、相関ルールを構成するテーブルカラムの一つを関連元、他の一つを関連先として、関連元と関連先が同一の値をとるレコード数を該当する関連元のレコード数で除算した値を、前記相関ルールの確信度とし、前記確信度の類似度が近い関連先のテーブルカラムの値を同一のデータカテゴリに含まれるとし、
前記相関ルール再構成ステップで、同一のデータカテゴリに属する関連先を有する相関ルールを一つに纏めて、再構成した相関ルールとし、纏める前の相関ルールの有する確信度の和を前記再構成した相関ルールの確信度の和とし、
前記不要ルール除去ステップで、ある閾値より高い確信度を有する相関ルールを抽出することを特徴とするデータベース分析方法。
前記データベース分析方法は、各データカテゴリの妥当性の指標を計算するデータカテゴリ妥当性計算ステップを有することを特徴と請求項６に記載のデータベース分析方法。
前記データカテゴリ計算ステップで、相関ルールを構成するテーブルカラムの一つを関連元、他の一つを関連先として、関連元と関連先が同一の値をとるレコード数を対象とする全レコード数で除算した値を、前記相関ルールの支持度とし、前記支持度を計算することを特徴とする請求項７に記載のデータベース分析方法。
前記データベース分析方法は、入力として用いる相関ルールが、全てのデータの組み合わせについて得られていないときに、得られていない相関ルールの前記確信度又は前記支持度を適切な値で補完する相関ルール補完ステップを有することを特徴とする請求項８に記載のデータベース分析方法。
前記データベース分析方法は、
さらに、
前記不要ルール除去ステップにより抽出した相関ルールを、テーブルカラム間に存在する依存関係又は制約条件として視覚的に理解容易な形式に変換する相関ルール視覚化ステップを有することを特徴とする請求項６に記載のデータベース分析方法。
計算機を用いて、データベースが保持する複数のテーブルのうち、テーブルを構成する２つ以上のテーブルカラムに着目し、各テーブルカラムが保持するデータの同時出現の傾向から、テーブルカラム間に存在する依存関係又は制約条件を、自動的に分析するデータベース分析方法を実行するためのプログラムであって、
前記分析方法は、
複数のテーブルカラムのデータ群から生成した相関ルールから、データ群のカテゴリ化方法を計算するデータカテゴリ計算ステップと、
前記データカテゴリ計算ステップによるカテゴリ化結果に基づき、相関ルールを再構成する相関ルール再構成ステップと、
前記データカテゴリ計算ステップで、相関ルールを構成するテーブルカラムの一つを関連元、他の一つを関連先として、関連元と関連先が同一の値をとるレコード数を該当する関連元のレコード数で除算した値を、前記相関ルールの確信度とし、前記確信度の類似度が近い関連先のテーブルカラムの値を同一のデータカテゴリに含まれるとし、
前記相関ルール再構成ステップで、同一のデータカテゴリに属する関連先を有する相関ルールを一つに纏めて、再構成した相関ルールとし、纏める前の相関ルールの有する確信度の和を前記再構成した相関ルールの確信度の和とし、
前記不要ルール除去ステップで、ある閾値より高い確信度を有する相関ルールを抽出することを特徴とするプログラム。