JP6158623B2 - データベース分析装置及び方法 - Google Patents

データベース分析装置及び方法 Download PDF

Info

Publication number
JP6158623B2
JP6158623B2 JP2013154615A JP2013154615A JP6158623B2 JP 6158623 B2 JP6158623 B2 JP 6158623B2 JP 2013154615 A JP2013154615 A JP 2013154615A JP 2013154615 A JP2013154615 A JP 2013154615A JP 6158623 B2 JP6158623 B2 JP 6158623B2
Authority
JP
Japan
Prior art keywords
rule
correlation
rules
association
correlation rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013154615A
Other languages
English (en)
Other versions
JP2015026188A5 (ja
JP2015026188A (ja
Inventor
康範 橋本
康範 橋本
三部 良太
良太 三部
吉村 健太郎
健太郎 吉村
博文 団野
博文 団野
敬志 大島
敬志 大島
貞裕 石川
貞裕 石川
山口 潔
潔 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2013154615A priority Critical patent/JP6158623B2/ja
Priority to CN201410264683.1A priority patent/CN104346419B/zh
Priority to US14/339,829 priority patent/US20150032708A1/en
Publication of JP2015026188A publication Critical patent/JP2015026188A/ja
Publication of JP2015026188A5 publication Critical patent/JP2015026188A5/ja
Application granted granted Critical
Publication of JP6158623B2 publication Critical patent/JP6158623B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データベース分析装置及び方法に関する。特に、複数属性値で構成されるカテゴリ間の相関ルールを、人手を解することなく自動的に生成する方法に関する。
本技術分野の背景技術として、特開2000−259612号公報(特許文献1)がある。この公報には、「生成したルール中に含まれるアイテム群が含まれるトランザクションについて、属性値に関して効率良く統計値を生成すると共に、相関ルールを求める際にサポートと確信度に加えて、属性値に関する統計値での絞り込みを可能にする。」と記載されている(要約参照)。
特開2000−259612号公報
特許文献1には、データベースに格納されているトランザクションテーブルが保持する、テーブルカラムの属性値群から、それらの属性値に関する相関ルールを生成するためのメカニズムについて記載されている。このうち確信度が高い相関ルールのみを抽出することにより、テーブルカラム間に存在する依存関係や制約条件を推測することができる。推測される情報をユーザに提供することで、ユーザによるデータベースの仕様理解を支援することができる。
しかし、前記文献の技術においては、テーブルカラムが保持する属性値群のカテゴリ化方法については述べられていない。すなわち、属性値をカテゴリ分けした上での相関ルールを得ることができない。または、カテゴリ化方法を別途用意する必要があるが、その場合のカテゴリ化方法は、相関ルール生成手段と連携することができない。
例えば数値の属性値のみを含むテーブルカラムであれば、「5以上」「5未満」などの特定の範囲で属性値群を分けることにより、属性値群をカテゴリ化することが可能である。また、時刻のみの場合も同様に扱える。しかしながら、文字列など、一概にカテゴリ分けの境界を決められない属性値もある。また、大量のテーブルカラムが存在する状況において、それらすべてのカテゴリ分け方法を人間が指定するのでは、作業工数が大きく、現実的ではない。さらに、相関ルールと無関係に、テーブルカラム間の関係を考慮しない方法でカテゴリ化方法を決めても、そのカテゴリ化方法によって有効な相関ルールを生成できる保証がない。
そこで本発明は、あるデータベースの属性値に関する相関ルールを生成する際に、期待される有効な相関ルールに求められる確信度などの特徴に合わせ、属性値をカテゴリ化する仕組みを提供することを目的とする。これにより例えば、既存技術でも抽出可能であった具体的な1属性値間の相関ルールに加え、複数属性値で構成されるカテゴリ間の相関ルールを、人手を介することなく自動的に生成し、発明の利用者へ提供することができる。
上記目的を達成するために、例えば下記の構成を採用する。
データベースが保持する複数のテーブルのうち、テーブルを構成する2つ以上のテーブルカラムに着目し、各テーブルカラムが保持するデータの同時出現の傾向から、テーブルカラム間に存在する依存関係や制約条件、即ち、テーブルカラムのデータの同時発生の確率を分析するための相関ルール分析手段を有したデータベース分析装置であって、複数のテーブルカラムのデータ群から生成した相関ルールから、データ群のカテゴリ化方法を計算するデータカテゴリ計算手段と、前記カテゴリ化結果に基づき、相関ルールを再構成することにより、最適な粒度の相関ルールを生成する、即ち、同時発生の確率がほぼ100%となるようにルールを再構成する、相関ルール再構成手段を有する。
その結果、本発明では、個々の相関ルールを組み合わせて、同時発生の確率が100%の相関ルールを抽出する。
本発明によれば、データベースが保持するデータを、当該データベースに関する知識なしに分析し、テーブルカラム間の相関ルールを、1属性値間の相関ルールに限定することなく、生成することができる。これにより例えば、本発明の利用者は、テーブルカラム間に存在する複数属性値間の依存関係や制約条件に関する情報を取得することができる。
データベース分析装置の構成図の例を示す図である。 データベース分析装置の処理を説明するフローチャートの例を示す図である。 データベースから読み込むテーブルデータを説明するイメージ図の例を示す図である。 テーブルデータから相関ルールを生成する処理の前半を説明するイメージ図の例である。 テーブルデータから相関ルールを生成する処理の前半を説明するイメージ図の例である。 テーブルデータから相関ルールを生成する処理の後半を説明するイメージ図の例を示す図である。 支持度および確信度を埋めた相関ルール表のイメージ図の例を示す図である。 計算済みの相関ルールに基づき属性値の類似性を計算する処理を説明するイメージ図の例を示す図である。 類似性の高い属性値を同一のカテゴリにまとめる処理を説明するイメージ図の例を示す図である。 類似性の高い属性値を同一のカテゴリにまとめた結果を説明するイメージ図の例を示す図である。 相関ルールを再構成する処理を説明するイメージ図の例を示す図である。 確信度が高い相関ルールを選定する処理を説明するイメージ図の例を示す図である。 データパターン高確信度相関ルールを視覚的に理解容易な形式に変換する処理を説明するイメージ図の例を示す図である。
以下、実施例を、図面を用いて説明する。
本実施例では、データベース分析装置の例を説明する。
図1は、本実施例のデータベース分析装置の構成図の例である。
データベース分析装置100は、CPU101、メモリ102、入力装置103、出力装置104、外部記憶装置105を有する。外部記憶装置105は、テーブルデータ記憶部106、暫定相関ルール記憶部107、データカテゴリ記憶部108、高確信度相関ルール記憶部109を保持しており、さらに処理プログラム110を保持する。処理プログラム110は、相関ルール生成処理部111、データカテゴリ計算処理部112、相関ルール再構成処理部113、不要ルール除去処理部114、相関ルール視覚化処理部115を保持する。
処理プログラム110は実行時にメモリ102に読み込まれ、CPU101によって実行されるものとする。
入力装置103を介して外部から入力されたデータベースのテーブルデータは、テーブルデータ記憶部106に書き込む。相関ルール生成処理部111は、テーブルデータ記憶部106から読み出したデータベースのデータを参照しながら、各データ(およびその組み合わせ)の出現回数をカウントし、算術処理をおこなうことで、相関ルールを生成し、暫定相関ルール記憶部107に書き込む。データカテゴリ計算処理部112は、暫定相関ルール記憶部107から読み出した相関ルールを参照し、相関ルールを構成する属性値のカテゴリ化方法を決定し、データカテゴリ記憶部108に書き込む。相関ルール再構成処理部113は、暫定相関ルール記憶部107から相関ルールを読み出し、データカテゴリ記憶部108から読み出した属性値カテゴリ化方法を参照しながら、相関ルールを再計算し、暫定相関ルール記憶部107に書き込む。不要ルール除去処理部114は、暫定相関ルール記憶部107から相関ルールを読み出し、確信度が閾値より高い相関ルールのみを選定し、高確信度相関ルール記憶部109に書き込む。相関ルール視覚化処理部115は、高確信度相関ルール記憶部109から相関ルールを読み出し、視覚的に理解容易な形式に変換した後、出力装置104に出力する。
図2は、本実施例のデータベース分析装置の処理を説明するフローチャートの例である。以降、図2のフローチャートに基づいて、図1の各部の動作を説明する。
ステップ200は、データベース分析装置への入力情報として、データベースのテーブルデータを入力するステップである。入力操作は、装置の利用者が実施する。ステップ200では、入力装置103から入力されたデータベースのテーブルを、テーブルデータ記憶部106に書き込む。
図3は、本実施例のデータベースから読み込むテーブルデータを説明するイメージ図の例である。ここでは、分析対象のテーブルデータ300は、テーブルカラム識別子301として、ユーザID302、支払方法303、および、ユーザ区分304を保持している。また、テーブルカラム識別子301の各要素に対応する情報を持った行単位の情報であるレコード305を、計25件保持している。
以下のステップ201から204までは、入力情報をもとにした機械的な処理であり、人手を介することなくデータベース分析装置のみで実施できる処理である。
ステップ201では、相関ルール生成処理部111が、テーブルデータ記憶部106から読み出したデータベースのデータを参照しながら、相関ルールを生成し、暫定相関ルール記憶部107に書き込む。
図4Aは、本実施例のテーブルデータから相関ルールを生成する処理の前半を説明するイメージ図の例である。
まず、相関ルール生成処理部111は、テーブルデータ記憶部106からデータ300を読み出し、テーブルカラム識別子301を取得する。取得したテーブルカラム識別子301の要素のうち、まだ相関ルールを抽出していないテーブルカラムの組み合わせのうちのひとつを選択する。ここでは、支払方法303とユーザ区分304を作選択する。なお、テーブルカラム組み合わせの抽出にあたっては、関連元401と関連先402の違いを考慮する。例えば、支払方法303を関連元401とし、ユーザ区分304を関連先402とした場合と、ユーザ区分304を関連元401とし、支払方法303を関連先402とした場合とは、異なる組み合わせであると判断する。
さらに相関ルール生成処理部111は、図4Bに示すように、前記決定した組み合わせに対応する相関ルール表400を作成する。相関ルール表が保持する各相関ルールは、関連元401、関連先402、支持度403、確信度404の情報を持つ。関連元401と関連先402に対しては、前記組み合わせを構成する支払方法303、ユーザ区分304を、それぞれ対応づける。また、相関ルール表のデータとして、テーブルデータ300における支払方法303とユーザ区分304の組み合わせを網羅したパターンを入力しておく。テーブルデータ300において、支払方法303は「クレジットカード」「振込み」「電子マネー」の3通りであり、また、ユーザ区分304は「ゲスト」「一般」「プレミアム」の3通りであることから、相関ルール400のデータは、3×3=9通りのパターンを用意する。
相関ルールを生成する処理の前半においては、支持度403および確信度404の値については、入力されていない状態であって良い。
なお、本ステップの実行開始時点において、全てのテーブルカラムの組み合わせについて相関ルールを既に生成している場合は、相関ルールの生成をおこなわず、ステップ115に移行する。
図5は、本実施例のテーブルデータから相関ルールを生成する処理の後半を説明するイメージ図の例である。
まず、相関ルール生成処理部111は、テーブル表400の中から、支持度および確信度が入力されていない相関ルール500を選択する。その後、選択した相関ルール500の関連元401に記載された値を、関連元401に設定されたテーブルカラムの値として持つレコードを、テーブルデータ300から探し出す。本例においては、支払方法303が「クレジットカード」であるレコード群501が抽出される。さらに相関ルール生成処理部111は、選択中の相関ルール500の関連先402に記載された値を、関連先402に設定されたテーブルカラムの値として持つレコードを、前記抽出したレコード群501から探し出す。本例においては、ユーザ区分304が「ゲスト」であるレコード群502が抽出される。
その後、相関ルール生成処理部111は、前記各レコード群に含まれるレコードの数を算術処理することにより、関連先データの多さを示す指標である支持度403、および関連元と先のペアの多さの指標である確信度404を計算する。支持度403については、テーブルデータ300が持つレコード数のうち、抽出したレコード群502(関連先と関連元とが特定の値となるデータ)の割合を計算することにより、決定する。本例においては、全25件のうち6件であるため、(6/25)×100=24.00% となる。また、確信度404については、抽出したレコード群501のうち、抽出したレコード群502(特定の関連元のデータ)の割合を計算することにより、決定する。本例においては、11件中6件であるため、(6/11)×100≒54.54%となる。
前記、相関ルール生成処理部111が支持度および確信度を計算する処理を、相関ルール表400が持つすべての相関ルールについて実施し、結果を暫定相関ルール記憶部107に記憶することにより、ステップ201を完了する。
図6は、本実施例の支持度および確信度を埋めた相関ルール表のイメージ図の例である。本実施例におけるステップ201完了後には、相関ルール表400が持つ全ての相関ルールについて、全ての項目が記載されている状態となっている。
なお、一般的な相関ルール計算アルゴリズムにおいては、「支持度」や「確信度」が一定より低い値である相関ルールの抽出を省略することにより、計算処理の高速化を実現するものがある。ステップ201の代替手段として、このようなアルゴリズムを使っている場合、図6において、「支持度」「確信度」が埋まらないケースが考えられる。このような場合は、例えば「支持度」「確信度」が記入されていない欄を「0.00%」の値で補完し、以降のステップに進むものとする。
ステップ202では、データカテゴリ計算処理部112が、暫定相関ルール記憶部107から読み出した相関ルールを参照し、相関ルールを構成する属性値のカテゴリ化方法を決定し、データカテゴリ記憶部108に書き込む。
本実施例においては、属性値のカテゴリを、各属性値について説明する相関ルールの類似性に基づき、算出するものとする。類似した傾向を示す属性値を同一のカテゴリにまとめることを狙いとする。
図7は、本実施例の計算済みの相関ルールに基づき属性値の類似性を計算する処理を説明するイメージ図の例である。
まず、データカテゴリ計算処理部112は、暫定ルール記憶部107から、相関ルール表400を読み出し、その関連元401の値を行のラベル701として、また、関連先402の値を列のラベル702として、それぞれ保持する確信度行列700を作成する。更にデータカテゴリ計算処理部112は、相関ルール表400を構成する相関ルールを読み出し、その確信度の値を、相関ルール表400の対応する箇所に書き込む。例えば、相関ルール表400において、関連元401の値が「クレジットカード」、関連先402の値が「ゲスト」の相関ルールが持つ確信度404の値「54.54%」を、確信度行列700のうち、行のラベルが「クレジットカード」、列のラベルが「ゲスト」である箇所に書き込む。
相関ルール表400が持つ全ての相関ルールについて前記処理をおこなうことにより、データカテゴリ計算処理部112は、確信度行列700を完成させる。
その後、データカテゴリ計算処理部112は、確信度行列700の列(関連先)のラベル702を行(関連元)のラベル704および列のラベル705として持つ確信度距離行列703を作成する。確信度距離行列703の各値は、確信度行列700の列毎の値を比較することにより、算出する。ここでは、確信度行列700の各行の値を「平均0、分散1」で標準化した後、列間の差の二乗和の平方根(ユークリッド距離)を計算することにより、列間の距離を算出している。
図7の下段の表の各値は上段の表の各値を用いて計算される。例えば、関連先が「ゲスト」で、関連元が「一般」の場合、上段の表の値を用いて、((1)−(2))+((4)−(5)) +((7)−(8))を計算することにより、「2.9506975」が得られる。なお、( )内の番号は、上段の表の各データに付した番号である。
このような距離を全ての属性値間について求めることにより、確信度距離行列703を完成させ、属性値の類似性を計算する処理を完了する。確信度距離行列703の対応する値が小さいものほど、類似性の高い属性であることを示している。
図8は、本実施例の類似性の高い属性値を同一のカテゴリにまとめる処理を説明するイメージ図の例である。
まず、データカテゴリ計算処理部112は、確信度距離行列703から、階層的クラスタ800を構成する。ここでは、確信度距離行列703が保持する属性値間の距離情報に基づき、群平均法に基づき、クラスタを構成している。すなわち、「プレミアム」と「一般」とが距離およそ0.8で、また、「プレミアム」「一般」と「ゲスト」とが距離およそ2.9で、それぞれ接続されている構成となっている。群平均法とは、ある群に含まれる各点と群に含まれない点との距離の平均値によって、ある群と点との距離を評価する手法である。群平均法では、互いに距離が小さいもの同士でクラスタを作り、残りのものは距離の平均値で置き換える。
さらに、データカテゴリ計算処理部112は、階層的クラスタ800を分断する距離の値801を計算する。ここでは、分断する距離の値801の計算方法を、「階層的クラスタ800の中の最大距離の2分の1」として算出するものとする。本例における値801は、およそ1.5となる。
その後、データカテゴリ計算処理部112は、値801により、階層的クラスタ800を分断する。本例においては、値801はおよそ1.5であるため、それ以下の距離で接続されている「プレミアム」「一般」が同一のカテゴリ802としてまとめられる。「ゲスト」と値801以下で接続されている属性値はないため、「ゲスト」は単独の属性値で構成されるカテゴリ803となる。
図9は、本実施例の類似性の高い属性値を同一のカテゴリにまとめた結果を説明するイメージ図の例である。
データカテゴリ計算処理部112は、前記導出したカテゴリを、属性値カテゴリ化方法900として、データカテゴリ記憶部108に書き込む。属性値カテゴリ化方法900が持つカテゴリ1の情報901には前記カテゴリ802が、カテゴリ2の情報902には前記カテゴリ803が、それぞれ対応している。
なお、ステップ202を開始する段階で、カテゴリ分けの対象である属性値の数が2以下である場合、各属性値をそれぞれ別のカテゴリに分類した属性値カテゴリ化方法900を作成し、データカテゴリ記憶部108に書き込むことで、ステップ202を完了する。
ステップ203では、相関ルール再構成処理部113は、暫定相関ルール記憶部107から相関ルールを読み出し、データカテゴリ記憶部108から読み出した属性値カテゴリ化方法を参照しながら、相関ルールを再計算し、暫定相関ルール記憶部107に書き込む。
図10は、本実施例の相関ルールを再構成する処理を説明するイメージ図の例である。
相関ルール再構成処理部113は、暫定相関ルール記憶部107から図6の相関ルール表400を読み出し、関連元401および関連先402の値を関連元1001および関連1002の値としてコピーする形で、相関ルール表1000を作成する。ただし、データカテゴリ記憶部108から読み出した属性値カテゴリ化方法900において、同一のカテゴリに含まれている属性値については、ひとつの相関ルールとして纏めるものとする。
さらに、相関ルール再構成処理部113は、暫定相関ルール記憶部107から読み出した相関ルール表400に記載の支持度403および確信度404の値から、相関ルール表1000の相関ルールの支持度1003および確信度1004の値を計算する。本例においては、関連先402を複数の属性値として関連先1002にまとめていることから、相関ルール表1000の相関ルールは、相関ルール表400の対応する相関ルールにおける支持度403および確信度404の和をそれぞれ計算することにより、支持度1003および確信度1004をそれぞれ算出できる。計算結果の相関ルール表1000を暫定相関ルール記憶部107に書き込むことにより、ステップ203を完了する。
なお、本例のステップ202および203においては、相関ルールにおける関連先の属性値のみをカテゴリ分けしているが、関連元の属性値についても、同じ方法または別の方法を用い、カテゴリ分けしても良い。
ステップ204では、不要ルール除去処理部114は、暫定相関ルール記憶部107から相関ルールを読み出し、確信度が閾値より高い相関ルールのみを選定し、高確信度相関ルール記憶部109に書き込む。
図11は、本実施例の確信度が高い相関ルールを選定する処理を説明するイメージ図の例である。
不要ルール除去処理部114は、暫定相関ルール記憶部107から相関ルール1000を読み出し、そのうち閾値より高い確信度を持つ相関ルール群1100を抽出することにより、高確信度相関ルール表1101を作成する。本例においては、確信度の閾値を95%とする。作成した高確信度相関ルール表1101を高確信度相関ルール記憶部109に追加して書き込むことにより、ステップ204を完了する。
ステップ204完了時点で、テーブルデータ記憶部が保持するテーブルデータのすべてのテーブルカラム組み合わせについて、高確信度相関ルールの抽出を完了している場合、ステップ205に進む。高確信度相関ルールの抽出を完了していない組み合わせが残っている場合、再度ステップ201に戻り、残っている組み合わせについて同様の処理をおこなう。
ステップ205は、開発者が、データベース分析装置100によるデータの分析結果を、出力装置104を通じて取得するステップである。相関ルール視覚化処理部115は、高確信度相関ルール記憶部109から相関ルールを読み出し、視覚的に理解容易な形式に変換した後、出力装置104に出力する。なお、出力は、計算機で扱えるようテキストデータ又はバイナリデータとして出力しても良いし、開発者が閲覧できるようモニタに文字又はグラフィックを表示してもよい。
以上に述べた処理により、図10の上に示した個々の相関ルールを組み合わせて、図11の下に示すように、同時発生の確率がほぼ100%の相関ルールが抽出される。
図12は、本実施例のデータパターン高確信度相関ルールを視覚的に理解容易な形式に変換する処理を説明するイメージ図の例である。相関ルール視覚化処理部115は、高確信度相関ルール記憶部109が保持する高確信度相関ルール表をひとつ読み出す。さらに、読み出した高確信度相関ルール表1200が保持する各相関ルールの関連元ラベル1201、関連元属性値1202、関連先ラベル1203、関連先属性値1204をそれぞれ、関連元名称1205、関連元属性値1206、関連先名称1207、関連先属性値1208として、出力する。
高確信度相関ルール記憶部109が保持する全ての高確信度相関ルール表について前述の処理をおこなうことにより、ステップ205を完了する。
本実施例における相関ルールの再構成により、新しい相関ルールの確信度はほぼ100%になるため、利用者は、支持度を参照しながら、これら再構成された相関ルールの中から適切なものを選択する。即ち、支持度は、新たに相関ルールをカテゴライズするかどうかの判断に用いられる。
100:データベース分析装置、101:CPU、102:メモリ、103:入力装置、104:出力装置、105:外部記憶装置、106:テーブルデータ記憶部、107:暫定相関ルール記憶部、108:データカテゴリ記憶部、109:高確信度相関ルール記憶部、110:処理プログラム、111:相関ルール生成処理部、112:データカテゴリ計算処理部、113:相関ルール再構成処理部、114:不要ルール除去処理部、115:相関ルール視覚化処理部

Claims (11)

  1. データベースが保持する複数のテーブルのうち、テーブルを構成する2つ以上のテーブルカラムに着目し、各テーブルカラムが保持するデータの同時出現の傾向から、テーブルカラム間に存在する依存関係又は制約条件を、自動的に分析するためのデータベース分析装置であって、
    複数のテーブルカラムのデータ群から生成した相関ルールから、データ群のカテゴリ化方法を計算するデータカテゴリ計算手段と、
    前記データカテゴリ計算手段によるカテゴリ化結果に基づき、相関ルールを再構成する相関ルール再構成手段
    前記再構成した相関ルールから一部の相関ルールを抽出する不要ルール除去手段を有し、
    前記データカテゴリ計算手段は、相関ルールを構成するテーブルカラムの一つを関連元、他の一つを関連先として、関連元と関連先が同一の値をとるレコード数を該当する関連元のレコード数で除算した値を、前記相関ルールの確信度とし、前記確信度の類似度が近い関連先のテーブルカラムの値を同一のデータカテゴリに含まれるとし、
    前記相関ルール再構成手段は、同一のデータカテゴリに属する関連先を有する相関ルールを一つに纏めて、再構成した相関ルールとし、纏める前の相関ルールの有する確信度の和を前記再構成した相関ルールの確信度の和とし、
    前記不要ルール除去手段は、ある閾値より高い確信度を有する相関ルールを抽出することを特徴とするデータベース分析装置。
  2. 前記データベース分析装置は、各データカテゴリの妥当性の指標を計算するデータカテゴリ妥当性計算手段を有することを特徴と請求項1に記載のデータベース分析装置。
  3. 前記データカテゴリ計算手段は、相関ルールを構成するテーブルカラムの一つを関連元、他の一つを関連先として、関連元と関連先が同一の値をとるレコード数を対象とする全レコード数で除算した値を、前記相関ルールの支持度とし、前記支持度を計算することを特徴とする請求項1に記載のデータベース分析装置。
  4. 前記データベース分析装置は、入力として用いる相関ルールが、全てのデータの組み合わせについて得られていないときに、得られていない相関ルールの前記確信度又は前記支持度を適切な値で補完する相関ルール補完手段を有することを特徴とする請求項3に記載のデータベース分析装置。
  5. 前記データベース分析装置は、
    さらに、
    前記不要ルール除去手段により抽出した相関ルールを、テーブルカラム間に存在する依存関係又は制約条件として視覚的に理解容易な形式に変換する相関ルール視覚化手段を有することを特徴とする請求項1に記載のデータベース分析装置。
  6. 計算機を用いて、データベースが保持する複数のテーブルのうち、テーブルを構成する2つ以上のテーブルカラムに着目し、各テーブルカラムが保持するデータの同時出現の傾向から、テーブルカラム間に存在する依存関係又は制約条件を、自動的に分析するデータベース分析方法であって、
    複数のテーブルカラムのデータ群から生成した相関ルールから、データ群のカテゴリ化方法を計算するデータカテゴリ計算ステップと、
    前記データカテゴリ計算ステップによるカテゴリ化結果に基づき、相関ルールを再構成する相関ルール再構成ステップと、
    前記再構成した相関ルールから一部の相関ルールを抽出する不要ルール除去ステップを有し、
    前記データカテゴリ計算ステップで、相関ルールを構成するテーブルカラムの一つを関連元、他の一つを関連先として、関連元と関連先が同一の値をとるレコード数を該当する関連元のレコード数で除算した値を、前記相関ルールの確信度とし、前記確信度の類似度が近い関連先のテーブルカラムの値を同一のデータカテゴリに含まれるとし、
    前記相関ルール再構成ステップで、同一のデータカテゴリに属する関連先を有する相関ルールを一つに纏めて、再構成した相関ルールとし、纏める前の相関ルールの有する確信度の和を前記再構成した相関ルールの確信度の和とし、
    前記不要ルール除去ステップで、ある閾値より高い確信度を有する相関ルールを抽出することを特徴とするデータベース分析方法。
  7. 前記データベース分析方法は、各データカテゴリの妥当性の指標を計算するデータカテゴリ妥当性計算ステップを有することを特徴と請求項6に記載のデータベース分析方法。
  8. 前記データカテゴリ計算ステップで、相関ルールを構成するテーブルカラムの一つを関連元、他の一つを関連先として、関連元と関連先が同一の値をとるレコード数を対象とする全レコード数で除算した値を、前記相関ルールの支持度とし、前記支持度を計算することを特徴とする請求項7に記載のデータベース分析方法。
  9. 前記データベース分析方法は、入力として用いる相関ルールが、全てのデータの組み合わせについて得られていないときに、得られていない相関ルールの前記確信度又は前記支持度を適切な値で補完する相関ルール補完ステップを有することを特徴とする請求項8に記載のデータベース分析方法。
  10. 前記データベース分析方法は、
    さらに、
    前記不要ルール除去ステップにより抽出した相関ルールを、テーブルカラム間に存在する依存関係又は制約条件として視覚的に理解容易な形式に変換する相関ルール視覚化ステップを有することを特徴とする請求項6に記載のデータベース分析方法。
  11. 計算機を用いて、データベースが保持する複数のテーブルのうち、テーブルを構成する2つ以上のテーブルカラムに着目し、各テーブルカラムが保持するデータの同時出現の傾向から、テーブルカラム間に存在する依存関係又は制約条件を、自動的に分析するデータベース分析方法を実行するためのプログラムであって、
    前記分析方法は、
    複数のテーブルカラムのデータ群から生成した相関ルールから、データ群のカテゴリ化方法を計算するデータカテゴリ計算ステップと、
    前記データカテゴリ計算ステップによるカテゴリ化結果に基づき、相関ルールを再構成する相関ルール再構成ステップと、
    前記データカテゴリ計算ステップで、相関ルールを構成するテーブルカラムの一つを関連元、他の一つを関連先として、関連元と関連先が同一の値をとるレコード数を該当する関連元のレコード数で除算した値を、前記相関ルールの確信度とし、前記確信度の類似度が近い関連先のテーブルカラムの値を同一のデータカテゴリに含まれるとし、
    前記相関ルール再構成ステップで、同一のデータカテゴリに属する関連先を有する相関ルールを一つに纏めて、再構成した相関ルールとし、纏める前の相関ルールの有する確信度の和を前記再構成した相関ルールの確信度の和とし、
    前記不要ルール除去ステップで、ある閾値より高い確信度を有する相関ルールを抽出することを特徴とするプログラム。
JP2013154615A 2013-07-25 2013-07-25 データベース分析装置及び方法 Active JP6158623B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013154615A JP6158623B2 (ja) 2013-07-25 2013-07-25 データベース分析装置及び方法
CN201410264683.1A CN104346419B (zh) 2013-07-25 2014-06-13 数据库分析装置及方法
US14/339,829 US20150032708A1 (en) 2013-07-25 2014-07-24 Database analysis apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013154615A JP6158623B2 (ja) 2013-07-25 2013-07-25 データベース分析装置及び方法

Publications (3)

Publication Number Publication Date
JP2015026188A JP2015026188A (ja) 2015-02-05
JP2015026188A5 JP2015026188A5 (ja) 2016-06-02
JP6158623B2 true JP6158623B2 (ja) 2017-07-05

Family

ID=52391362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013154615A Active JP6158623B2 (ja) 2013-07-25 2013-07-25 データベース分析装置及び方法

Country Status (3)

Country Link
US (1) US20150032708A1 (ja)
JP (1) JP6158623B2 (ja)
CN (1) CN104346419B (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016157707A1 (ja) * 2015-03-30 2016-10-06 日本電気株式会社 表操作システム、方法およびプログラム
US20170060919A1 (en) * 2015-08-31 2017-03-02 Salesforce.Com, Inc. Transforming columns from source files to target files
JP6419667B2 (ja) * 2015-09-28 2018-11-07 株式会社日立製作所 テストdbデータ生成方法及び装置
JP2017091329A (ja) * 2015-11-13 2017-05-25 株式会社日立製作所 データベース分析装置およびデータベース分析方法
CN107291749B (zh) * 2016-03-31 2020-11-10 菜鸟智能物流控股有限公司 一种数据指标关联关系的确定方法及装置
US11243938B2 (en) * 2016-05-31 2022-02-08 Micro Focus Llc Identifying data constraints in applications and databases
JP6736450B2 (ja) * 2016-10-25 2020-08-05 株式会社日立製作所 データ分析支援装置及びデータ分析支援システム
JP6903595B2 (ja) * 2018-01-22 2021-07-14 株式会社日立製作所 データ分析支援システム及びデータ分析支援方法
WO2020152804A1 (ja) * 2019-01-23 2020-07-30 日本電気株式会社 情報提供システム、方法およびプログラム
JP7247060B2 (ja) * 2019-09-02 2023-03-28 株式会社日立製作所 データの利活用のためのデータ準備を支援するシステム、及び、その方法
CN111310113B (zh) * 2020-02-13 2021-01-15 北京工业大数据创新中心有限公司 基于时序数据的专家规则系统的反例生成方法及装置
CN111506671B (zh) * 2020-03-17 2021-02-12 北京捷通华声科技股份有限公司 处理实体对象的属性的方法、装置、设备及存储介质
CN112612671A (zh) * 2020-12-16 2021-04-06 深圳前海微众银行股份有限公司 系统监控方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877010A (ja) * 1994-09-07 1996-03-22 Hitachi Ltd データ分析方法および装置
US5790645A (en) * 1996-08-01 1998-08-04 Nynex Science & Technology, Inc. Automatic design of fraud detection systems
US6385301B1 (en) * 1998-03-26 2002-05-07 Bell Atlantic Services Network, Inc. Data preparation for traffic track usage measurement
US6762699B1 (en) * 1999-12-17 2004-07-13 The Directv Group, Inc. Method for lossless data compression using greedy sequential grammar transform and sequential encoding
US20020049720A1 (en) * 2000-05-11 2002-04-25 Chase Manhattan Bank System and method of data mining
US20020169735A1 (en) * 2001-03-07 2002-11-14 David Kil Automatic mapping from data to preprocessing algorithms
US6684206B2 (en) * 2001-05-18 2004-01-27 Hewlett-Packard Development Company, L.P. OLAP-based web access analysis method and system
US7426497B2 (en) * 2004-08-31 2008-09-16 Microsoft Corporation Method and apparatus for analysis and decomposition of classifier data anomalies

Also Published As

Publication number Publication date
US20150032708A1 (en) 2015-01-29
CN104346419A (zh) 2015-02-11
JP2015026188A (ja) 2015-02-05
CN104346419B (zh) 2018-01-26

Similar Documents

Publication Publication Date Title
JP6158623B2 (ja) データベース分析装置及び方法
US7584189B2 (en) Sentence classification device and method
US20160004757A1 (en) Data management method, data management device and storage medium
US20150007120A1 (en) Clustering using n-dimensional placement
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
JP2019503541A (ja) 電子データ構造から属性を抽出するための注釈システム
US11120143B2 (en) Data analysis server, data analysis system, and data analysis method
CN109710306B (zh) 源代码解析装置、源代码解析方法、计算机可读记录介质
Thomas et al. Detecting symmetry in scalar fields using augmented extremum graphs
JP2022037955A (ja) 学習モデルを選択するシステム
CN111492344A (zh) 用于监测结构化查询语言(sql)查询的执行的系统和方法
US9436713B2 (en) Database analyzer and database analysis method
US11288266B2 (en) Candidate projection enumeration based query response generation
CN115237410A (zh) 一种用户界面的生成方法及装置
JP6244274B2 (ja) 相関ルール分析装置および相関ルール分析方法
US20220051132A1 (en) Identifying noise in verbal feedback using artificial text from non-textual parameters and transfer learning
US11113314B2 (en) Similarity calculating device and method, and recording medium
JP2015130165A (ja) ハイパーグラフソルバーのためのグラフ入力の自動編集
JP7292235B2 (ja) 分析支援装置及び分析支援方法
JP6457290B2 (ja) グラフを剪定する方法、前記グラフを剪定する方法をコンピュータに行なわせる命令を記録している非一時的なコンピュータ可読記憶媒体、及びグラフの剪定を行うためのコンピュータシステム
US10509808B2 (en) Data analysis support system and data analysis support method
JP6123372B2 (ja) 情報処理システム、名寄せ判定方法及びプログラム
JP5487078B2 (ja) ソフトウェア資産整理方法及び装置
JP5020274B2 (ja) 意味ドリフトの発生評価方法及び装置
JP2020166443A (ja) データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160411

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170207

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170608

R150 Certificate of patent or registration of utility model

Ref document number: 6158623

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150