JPH09297686A

JPH09297686A - データマイニング装置

Info

Publication number: JPH09297686A
Application number: JP11254496A
Authority: JP
Inventors: Satoshi Yasuda; 智安田; Atsushi Ishii; 篤石井; Nobuyoshi Wada; 信義和田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1996-05-07
Filing date: 1996-05-07
Publication date: 1997-11-18

Abstract

(57)【要約】【課題】既知の相関ルールの蓄積である業務知識ベー
スを利用し、有効な相関ルールを効率的に生成可能なデ
ータマイニング装置を得ることを課題とする。【解決手段】相関ルールの取捨選択の基準である支持
度と確信度とが格納された取捨基準情報に基づき、デー
タベース１１中のデータの属性間に存在する相関ルール
１５を生成する相関ルール生成手段１２と、この生成さ
れた相関ルール１５と有効性が予め確認されている相関
ルールの集合である業務知識ベース１４とから相関ルー
ルの仮説である仮説相関ルール１７を生成する仮説相関
ルール生成手段１６と、この生成された仮説相関ルール
１７がデータベース１１中のデータにおいて成立する確
率を調べ、この確率が前記取捨基準情報の確信度を上ま
わる仮説相関ルール１７を補足相関ルールとして採用す
る仮説相関ルール検証手段１８とを備えたものである。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、データベース中
の大量データの中からそのデータに含まれる属性間の相
関ルールを生成するデータマイニング装置に関するもの
である。

【０００２】

【従来の技術】データマイニングでは、例えば第２９回
人工知能セミナー講演テキスト５３ページから６２ペー
ジの「流通業におけるデータマイニングの応用」（森下
真一、福田剛志著、１９９５年７月４日人工知能学会発
行）に記載されているように、データベース中の大量デ
ータの中から、そのデータに含まれる属性間の相関ルー
ルを生成する相関分析を行なう。相関ルールとは、属性
間に存在する規則性のことであり、代表的な相関分析の
例としてバスケット分析と呼ばれるものがある。これ
は、小売業において、客が同時にバスケット（＝買い物
かご）に入れる商品の相関関係を求めるもので、同時購
買分析とも呼ばれる。これにより求められる相関ルール
は、例えば、「パンを買う客は、同時に牛乳も買う」と
いう形のもので、「パン→牛乳」という形式で表現され
る。

【０００３】データマイニングにおける相関分析の基本
的な処理は、相関ルールの候補の生成とその検証であ
る。つまり、相関ルールの候補として、全ての属性の組
み合わせを全て列挙し、これが成り立っているかどうか
をデータベースを検索してひとつずつ調べるという方法
である。しかし、これでは効率が悪いので、従来のデー
タマイニングでは、有効な相関ルールを効率よく発見す
るため、この処理の中で支持度と確信度という基準を用
いた足切り処理を行っている。

【０００４】支持度とは、その相関ルールの一般性を表
わす尺度であり、確信度とは、その相関ルールの正確さ
を表わす尺度である。相関ルールは一般に、この支持度
と確信度と呼ばれる値を伴って、「Ａ→Ｂ」という形の
論理式で表わされる（但し、ＡとＢは空でないアイテム
集合であり、交わらない）。この場合、支持度は、全デ
ータのうち「ＡＵＢ」（Ｕは、和集合を表す）を含むデ
ータの占める割合で表わされ、確信度は、Ａを含むデー
タのうち、Ｂも同時に含むデータの割合で表わされる。
例えば、前述の「パン→牛乳」の例で言えば、全販売デ
ータ件数のうち、パンを購入した客の割合が２０％で、
パンと牛乳両方を購入した客の割合が１２％だとする
と、相関ルール「パン→牛乳」の支持度は１２％、確信
度は６０％（＝１２％／２０％）ということになる。

【０００５】従来のデータマイニング装置では、相関ル
ールの生成を実行する前に支持度と確信度の下限値をそ
れぞれ設定し、この下限値をともに上回る全ての相関ル
ールを抽出する、という方法でデータマイニングを行っ
ている。つまり、まず、支持度が下限値を上回る相関ル
ールの候補のみを生成し、下限値を下回る候補はこの時
点で棄却する。つまり、それ以上処理を行わない。次
に、生成された相関ルールの候補ひとつひとつについて
確信度（どれくらいの確率で成立しているか）を求めて
いき、その結果、確信度が下限値を上回る候補のみを採
用して相関ルールとする、という方法である。

【０００６】

【発明が解決しようとする課題】従来のデータマイニン
グ装置では、支持度の下限値を低く設定すると、確信度
を検証する相関ルールの候補数が爆発的に増加するため
にパフォーマンスが大幅に低下し、またユーザが必要と
しないような一般性の低い相関ルールまでが大量に生成
されてしまうという事態が発生するため、支持度の下限
値はあまり下げることができない。ところがその一方
で、支持度の下限値を高くすると、今度は価値ある有効
な相関ルールが支持度の低さ故に棄却されてしまう危険
性が高くなってしまうという問題点があった。

【０００７】また、データベースの全てのデータを一度
に全部用いてデータマイニングするため、生成される相
関ルールが全データを通じて平均的ものになってしま
い、ある特定の条件下で特徴的である相関ルールを生成
することができないという問題点があった。

【０００８】さらに、実際にデータマイニングを行なう
際には、常識的、経験的に予想できる相関ルールの形式
や内容があらかじめ存在している場合が多く、データマ
イニングを実行する時にこれらの情報を使用できれば、
より効率的に有効な相関ルールを生成できる可能性が高
いが、従来の方法ではこれを取り込む手段がなかった。

【０００９】この発明は上記のような問題点を解消する
ためになされたもので、支持度を低く設定しても、価値
のある相関ルールが棄却されてしまう危険性を減ずるこ
とができるデータマイニング装置を得ることを目的とし
ており、さらに、ある条件下において特徴的な相関ルー
ルを生成することができるデータマイニング装置を得る
ことを目的とする。また、より有効なルールを効率的に
発見できるデータマイニング装置を得ることを目的とし
ている。

【００１０】

【課題を解決するための手段】第１の発明に係るデータ
マイニング装置は、相関ルールの取捨選択の基準である
支持度と確信度とが格納された取捨基準情報に基づき、
データベース中のデータの属性間に存在する相関ルール
を生成する相関ルール生成手段と、有効性が予め確認さ
れている相関ルールの集合である業務知識ベースと、前
記相関ルール生成手段により生成された相関ルールと前
記業務知識ベースとから相関ルールの仮説である仮説相
関ルールを生成する仮説相関ルール生成手段と、前記仮
説相関ルール生成手段により生成された仮説相関ルール
が前記データベース中のデータにおいて成立する確率を
調べ、この確率が前記取捨基準情報の確信度を上まわる
前記仮説相関ルールを補足相関ルールとして採用する仮
説相関ルール検証手段とを備えたものである。

【００１１】第２の発明に係るデータマイニング装置
は、相関ルールの取捨選択の基準である支持度と確信度
とが格納された第１の記憶手段と、前記仮説相関ルール
を補足相関ルールとして採用する基準である確信度が格
納された第２の記憶手段とを備え、前記相関ルール生成
手段は、前記第１の記憶手段に格納された前記支持度と
前記確信度とに基づいて相関ルールを生成し、前記仮説
相関ルール生成手段は、前記第２の記憶手段に格納され
た確信度に基づいて補足相関ルールを採用するものであ
る。

【００１２】第３の発明に係るデータマイニング装置
は、前記相関ルール生成手段により生成された相関ルー
ルに対し、前記業務知識ベース中の相関ルールを用いて
両方向推論することにより仮説相関ルールを生成する仮
説相関ルール生成手段を備えたものである。

【００１３】第４の発明に係るデータマイニング装置
は、データベース中のデータをクラスタ分割するクラス
タリング手段と、このクラスタリング手段により分割さ
れたクラスタ毎に生成された相関ルールから前記クラス
タ毎に特徴的な相関ルールを生成する特徴的相関ルール
生成手段とを備え、前記相関ルール生成手段は、前記ク
ラスタ毎に相関ルールを生成するものである。

【００１４】第５の発明に係るデータマイニング装置
は、ユーザより指定されたクラスタ分割方法を示すクラ
スタリング情報を格納するクラスタリング情報記憶手段
を備え、前記クラスタリング手段は、前記クラスタリン
グ情報記憶手段に格納されたクラスタリング情報に基づ
いてクラスタ分割するものである。

【００１５】第６の発明に係るデータマイニング装置
は、所定の前記クラスタについて生成された相関ルール
が、他の前記クラスタについて生成された相関ルールの
中に存在する確率に基づいて、前記クラスタ毎に特徴的
な相関ルールを生成する特徴的相関ルール生成手段を備
えたものである。

【００１６】第７の発明に係るデータマイニング装置
は、所定の前記クラスタについて生成された相関ルール
が、データベース全体のデータを対象に生成された相関
ルール中に存在するか否かに基づいて、前記クラスタ毎
に特徴的な相関ルールを生成する特徴的相関ルール生成
手段を備えたものである。

【００１７】第８の発明に係るデータマイニング装置
は、前記クラスタを更に分割した子クラスタについて生
成された相関ルールが、前記クラスタについて生成され
た相関ルールの中に存在するか否かに基づいて、前記ク
ラスタ毎に特徴的な相関ルールを生成する特徴的相関ル
ール生成手段を備えたものである。

【００１８】第９の発明に係るデータマイニング装置
は、前記業務知識ベースの中からデータベースの定義情
報を格納したスキーマに記述された属性と同じ名称の属
性を含む相関ルールを抽出し、この相関ルールに含まれ
る属性を選択する属性選択手段を備え、前記相関ルール
生成手段は、前記属性選択手段により選択された属性間
の相関ルールを生成するものである。

【００１９】第１０の発明に係るデータマイニング装置
は、前記スキーマに記述された属性の名称に関する同義
語、上位概念語又は下位概念語を格納した用語辞書と、
前記業務知識ベース中の相関ルールに含まれる属性と前
記スキーマに記述された属性とを前記用語辞書を用いて
照合する用語照合手段とを備え、前記属性選択手段は、
前記用語照合手段の照合結果に基づいて前記業務知識ベ
ースの中から相関ルールを抽出するものである。

【００２０】

【発明の実施の形態】

実施の形態１．以下、この発明の一実施の形態を図につ
いて説明する。図１は実施の形態１のデータマイニング
装置の構成を示す図であり、図において、１１はデータ
ベース、１２はデータベース１１中のデータの属性間に
存在する相関ルールを生成し出力する相関ルール生成手
段、１３は「支持度」と「確信度」の２つの情報が格納
され、相関ルール生成手段１２により生成された相関ル
ールの取捨選択を行うための取捨基準情報、１４は有効
性があらかじめ確認されている相関ルールの集合である
業務知識ベース、１５は相関ルール生成手段１２により
生成された相関ルール、１６は相関ルール生成手段１２
により生成された相関ルール１５と業務知識ベース１４
とから相関ルールの仮説である仮説相関ルール１７を生
成する仮説相関ルール生成手段、１８は仮説相関ルール
生成手段１６により生成された仮説相関ルール１７がデ
ータベース１１中のデータにおいて成立する確率である
確信度を調べ、この確信度が基準値を上まわる仮説相関
ルール１７を補足相関ルール１９として出力する仮説相
関ルール検証手段である。このデータマイニング装置に
おいて、相関ルール生成手段１２は、データベース１１
と取捨基準情報１３とを入力し、相関ルール１５を出力
する。仮説相関ルール生成手段１６は、相関ルール１５
と業務知識ベース１４とを入力し、仮説相関ルール１８
を出力する。仮説相関ルール検証手段１９は、仮説相関
ルール１８と取捨基準情報１３とを入力し、補足相関ル
ール１７を出力する。結果として得られる出力は、相関
ルール１５とこれを補足する相関ルールである補足相関
ルール１９である。

【００２１】次に、図２のフローチャートを用いて、こ
のデータマイニング装置における処理の流れを説明す
る。

【００２２】まず、ステップ２１において、相関ルール
生成手段１２は、データベース１１から相関ルール１５
を生成する。この相関ルール生成手段１２は公知の手段
である。ここでは、例えば、従来の技術として先に挙げ
たアルゴリズムを用いるものとする。このアルゴリズム
において使用される「支持度」と「確信度」の２つの情
報は、取捨基準情報１３として与えられている。

【００２３】次に、ステップ２２において、仮説相関ル
ール生成手段１６は、相関ルール生成手段１２が出力し
た相関ルール１５と、予め与えられた有効な相関ルール
の集合である業務知識ベース１４とから仮説相関ルール
１７を生成する。

【００２４】仮説相関ルール生成手段１６の処理は、ま
ず、図１中の相関ルール１５に含まれる相関ルールをひ
とつ取り出し、業務知識ベース１４に含まれる相関ルー
ルを推論規則とした両方向推論を行なって、仮説相関ル
ール１７を生成、これを相関ルール１５に含まれる全て
の相関ルールについて行なう、というものである。

【００２５】ここで、この仮説相関ルール生成手段１６
の処理である、両方向推論による仮説相関ルールの生成
について説明する。なお、両方向推論自体は公知の手法
である。これは、例えば、相関ルール１５の中に「Ａ→
Ｂ」という相関ルールがあった時に、業務知識ベース１
４中の相関ルールを使ってこの両辺から連鎖的に木をつ
なげて伸ばしていき、つながらなくなったところで、こ
れをつなげるために必要な相関ルールを仮説相関ルール
１７として生成するという処理である。具体的な例を図
３を用いて説明する。図３は、図１の相関ルール１５か
ら取り出した相関ルール「Ａ→Ｂ」を、業務知識ベース
１４中に含まれる相関ルールを用いて両方向推論する場
合の例を示したものである。まず、「Ａ→Ｂ」という相
関ルールについて、左辺、右辺の両側から、業務知識ベ
ース１４に含まれる相関ルールを用いた推論を行なう。
図３の例において、業務知識ベース１４には、「Ｃ→
Ｄ」「Ａ→Ｃ」「Ｅ→Ｂ」「Ｆ→Ｂ」「Ｘ→Ｙ」「Ｙ→
Ｚ」という相関ルールが含まれている。この業務知識ベ
ース１４を用いて「Ａ→Ｂ」を両方向推論するには、ま
ず、業務知識ベース１４中から左辺がＡであるルールと
右辺がＢである相関ルールを探す。その結果、左辺がＡ
である相関ルールとして「Ａ→Ｃ」、右辺がＢである相
関ルールとして「Ｅ→Ｂ」「Ｆ→Ｂ」が見つかるので、
これを用いて、図３のａ）からｂ）のように両方向から
木を伸ばす。さらに木を伸ばすために、今度は左辺がＣ
である相関ルールと、右辺がＥまたはＦである相関ルー
ルを業務知識ベース１４から探す。その結果、左辺がＣ
である相関ルールとして「Ｃ→Ｄ」が見つかるので、こ
れを用いて、図３のｂ）の木を図３のｃ）のように拡張
する。右辺がＥまたはＦである相関ルールは見つからな
かったので、この時点で右から左へ向かう推論は終了と
なり、ここからは、左から右に向かう推論のみ続ける。
左辺がＤである相関ルールを業務知識ベース１４から探
すと、見つからないので、ここで左から右に向かう推論
も終了する。最終的に両方向からの木はつながらなかっ
たので、この木をつなげるために必要な相関ルールを仮
説相関ルール１７として生成する。この例の場合、「Ｄ
→Ｅ」「Ｄ→Ｆ」が生成される仮説相関ルール１７とな
る。

【００２６】再び図２のフローチャートに戻る。次に、
ステップ２３において、仮説相関ルール検証手段１８
は、仮説相関ルール生成手段１６が出力した仮説相関ル
ール１７に含まれる仮説相関ルールひとつひとつについ
て、確信度を求める。ステップ２４において、この確信
度を取捨基準情報１３として与えられた基準と比較し、
確信度が取捨基準情報１３の基準を上回っていたらステ
ップ２５に進み、その仮説相関ルール１７を相関ルール
として採用する。下回っていたらステップ２６に進み、
その仮説相関ルール１７は棄却する。ステップ２５で採
用された仮説相関ルール１７は補足相関ルール１９とし
て出力される。

【００２７】この補足相関ルール１９は、相関ルール生
成手段１２が相関ルール１５を生成する際に支持度の低
さを理由に棄却した相関ルールのうちで、相関ルール１
５の相関ルールを成立させるための構成要素となってい
る相関ルールであると捉えることができ、相関ルール１
５を補う貴重な相関ルールだと言える。

【００２８】例えば、相関ルール１５に「くるま海老→
クッキングペーパー」という相関ルールが含まれている
とし、業務知識ベース１４には「くるま海老→天ぷら
粉」「くるま海老→パン粉」「天ぷら油→クッキングペ
ーパー」「サラダ油→クッキングペーパー」という相関
ルールが含まれているとする。相関ルール１５に含まれ
るルール「くるま海老→クッキングペーパー」を、業務
知識ベース１４に含まれる相関ルールを用いて両方向推
論していくと、図３のｄ）のような結果になるので、つ
ながらなかったところをつなぐための仮説相関ルールと
して「天ぷら粉→天ぷら油」「天ぷら粉→サラダ油」
「パン粉→天ぷら油」「パン粉→サラダ油」の４つを生
成する。この４つの仮説相関ルールの確信度をそれぞれ
求めた結果、「天ぷら粉→天ぷら油」「パン粉→サラダ
油」の２つが下限値を上回っていたとすると、この２つ
が補足相関ルール１９として出力される。この場合、こ
の２つのルールは、支持度が低いために相関ルール１５
としては生成されなかったルールであるが、相関ルール
１５として生成されたルール「くるま海老→クッキング
ペーパー」が成立するための背景となっている重要なル
ールである。

【００２９】以上のようにこの実施の形態によれば、相
関ルール生成手段１２が生成した相関ルール１５の他
に、この相関ルール１５を成立させるための構成要素
（背景）となっている相関ルールを補足相関ルール１９
として生成しており、また、この補足相関ルール１９と
して生成するかどうかの判定を確信度の高さのみにより
決定しているため、支持度は低いが価値の高い相関ルー
ルを補足相関ルール１９として生成できる可能性が高く
なる。これにより、支持度の下限値を低く設定しても、
価値のある相関ルールが棄却されてしまう危険性を減ず
ることができる。

【００３０】なお、この実施の形態では、相関ルール生
成手段１２と仮説相関ルール検証手段１８は同一の取捨
基準情報１３を入力している例について説明したが、そ
れぞれ別の取捨基準情報を入力するようにしてもよい。

【００３１】また、この実施の形態では、相関ルール生
成手段１２が支持度と確信度の２つの情報を取捨基準情
報１３から得る例について説明したが、相関ルール生成
手段１２があらかじめこの２つの情報を内蔵している場
合には、この実施の形態で相関ルール生成手段１２が入
力している取捨基準情報１３はなくてもよい。

【００３２】さらにまた、この実施の形態では、仮説相
関ルール検証手段１８が確信度の情報を取捨基準情報１
３から得る例について説明したが、仮説相関ルール検証
手段１８があらかじめこの確信度の情報を内蔵している
場合には、本実施の形態で仮説相関ルール検証手段１８
が入力している取捨基準情報１３はなくてもよい。

【００３３】実施の形態２．データベースをクラスタリ
ングし、そのクラスタに特有な（つまり、ある条件下で
特徴的な）相関ルールを生成する場合について、図を用
いて説明する。図４は実施の形態２のデータマイニング
装置の構成を示す図であり、図において、３０はデータ
ベース１１中のデータをクラスタ分割するクラスタリン
グ手段、３１はどの属性について、どのようにクラスタ
リングを行なうかという情報が格納されているクラスタ
リング情報、３３はクラスタリング手段３０が分割した
各クラスタ毎に特有な相関ルールである特徴的相関ルー
ル３４を生成する特徴的相関ルール生成手段、３５は特
徴的相関ルール生成手段３３が基準値とする確率の情報
が格納されている特徴性判定基準情報である。このデー
タマイニング装置において、クラスタリング手段３０
は、データベース１１をクラスタリング、つまりデータ
分割する。相関ルール生成手段１２は、クラスタリング
手段３０によってクラスタリングされたデータをクラス
タ毎に入力し、クラスタ毎に相関ルール１５を出力す
る。特徴的相関ルール生成手段３３は、クラスタ毎に生
成された相関ルール１５を入力し、特徴性判定基準情報
３５に基づいて各クラスタ毎に特徴的な相関ルール３４
を出力する。

【００３４】次に図５のフローチャートを用いて、この
データマイニング装置における処理の流れを説明する。
まず、ステップ４２において、クラスタリング手段３０
は、クラスタリング情報３１に基づきデータベース１１
のデータをクラスタリングする。ここでいうクラスタリ
ングとは、データをある属性についてグループわけする
ことであり、クラスタとはそのグループのことである。
例えば、１日の２４時間を早朝、朝、昼、夕方、夜、深
夜というクラスタに分ける、所在地を東北、関東、中
部、近畿等のクラスタに分ける、といったグループ分け
である。

【００３５】次にステップ４３において、相関ルール生
成手段１２は、クラスタリング手段３０によってクラス
タリングされたデータをクラスタ毎に入力し、クラスタ
毎に相関ルール１５を生成する。この相関ルール生成手
段１２のアルゴリズムは、実施の形態１で説明したもの
と同様のものである。「支持度」「確信度」の２つの情
報が取捨基準情報１３として与えられるのも実施の形態
１の場合と同様である。

【００３６】次にステップ４４において、あるクラスタ
から生成された相関ルール１５をひとつ取り出し、この
相関ルール１５と同じルールが、他のクラスタから生成
された相関ルール１５の中に存在する確率を求める。つ
まり、全クラスタ数の内、何％のクラスタからその相関
ルール１５と同じルールが生成されているかを求める。
ステップ４５において、この確率が、特徴性判定基準情
報３５によって与えられた基準値を上回るかどうかの判
定を行い、下回っていればステップ４６に進み、そのク
ラスタの特徴的な相関ルールとして採用する。上回って
いればステップ４７に進み、その相関ルール１５を棄却
する。このステップ４４からステップ４７までを、全て
のクラスタの全ての相関ルール１５について行う。ステ
ップ４４からステップ４７までの処理は特徴的相関ルー
ル生成手段３３が行なう。

【００３７】以上の処理により、特定のクラスタにおい
て特徴的な相関ルールを得ることができる。具体的な例
として、小売業において同時に買われる商品の相関ルー
ル（以下同時購買のルールと記す）を生成する時に、時
間帯毎の特徴的なルールを生成するケースを考える。ま
ず、売上データを売り上げ時間の属性値を用いて、１０
〜１２時、１２〜１４時というように、時間帯でクラス
タリングし、この各クラスタ毎に別々に同時購買のルー
ルを生成する。次に、各クラスタから得られた同時購買
のルールのひとつひとつについて、そのルールと同じル
ールが他のクラスタから得られたルールの中に現れる確
率を調べる。この確率が高い程、そのルールはデータ全
体を通じて平均的なルール、つまりこの場合「時間帯」
にあまり依存しない一般性の高いルールであると考える
ことができる。逆にこの確率が低い程、そのルールはそ
のクラスタの性質と強い関連を持つルール、つまりこの
場合「時間帯」との関連が強いルールであり、その時間
帯において特徴的なルールであると考えることができる
ので、この確率が基準値より下回る同時購買のルール
を、そのクラスタ（この場合、時間帯）に特徴的なルー
ルとして生成する。例えば、売上時間１２：００〜１
４：００のクラスタから得られたルールの中に「弁当→
プリン（弁当を買う人は同時にプリンを買う）」という
確信度７２％のルールがあって、このルールと同じルー
ルが他のクラスタから得られたルールの中に存在する確
率が基準値より低かった場合、「１２時から１４時の間
に弁当を買う人の７２％は同時にプリンを買う」といっ
た、特定のクラスタ（時間帯）において特徴的なルール
を生成することができる。

【００３８】以上のようにこの実施の形態によれば、デ
ータベースをクラスタ分割し、各クラスタ毎に相関ルー
ルを生成し、この生成したルールと同じルールが他のク
ラスタから得られたルールの中に現れる確率に基づい
て、特徴的な相関ルールを採用するので、ある特定の条
件下において特徴的な相関ルールを生成することができ
る。

【００３９】なお、この実施の形態では、相関ルール生
成手段１２が支持度と確信度の２つの情報を取捨基準情
報１３から得る例について説明したが、相関ルール生成
手段１２があらかじめこの２つの情報を内蔵している場
合、本実施の形態で相関ルール生成手段１２が入力して
いる取捨基準情報１３がなくてよいのは実施の形態１の
場合と同様である。

【００４０】また、この実施の形態では、特徴的相関ル
ール生成手段３３が基準値とする確率の情報を特徴性判
定基準情報３５から得る例について説明したが、特徴的
相関ルール生成手段３３があらかじめこの情報を内蔵し
ている場合には、特徴的相関ルール生成手段３３が入力
している特徴性判定基準情報３５はなくてもよい。

【００４１】実施の形態３．実施の形態２では、ある属
性の値によってデータをクラスタリングし、そのクラス
タ毎に生成した相関ルールが他のクラスタに含まれる確
率に基づいて特徴的な相関ルールを生成する例を示した
が、データベース全体を対象として生成した相関ルール
と、このデータベースをクラスタリングしたクラスタを
対象として生成した相関ルールとの比較で、そのクラス
タ毎に特徴的な相関ルールを生成することもできる。そ
の場合の実施の形態を図を用いて説明する。図６は実施
の形態３のデータマイニング装置の構成を示す図であ
り、図において、１５ａはデータベース１１全体を対象
として生成された相関ルール、１５ｂはクラスタ毎に生
成された相関ルールである。クラスタリング手段３０
は、データベース１１をクラスタリング、つまりデータ
分割する。相関ルール生成手段１２は、クラスタリング
手段３０によってクラスタリングされたデータをクラス
タ毎に入力し、クラスタ毎の相関ルール１５ｂを出力す
るとともに、データベース１１全体を対象とした相関ル
ール１５ａを出力する。特徴的相関ルール生成手段３３
は、クラスタ毎に生成された相関ルール１５ｂとデータ
ベース１１全体を対象として生成された相関ルール１５
ａとを入力し、各クラスタ毎に特徴的な相関ルール３４
を出力する。

【００４２】次に図７のフローチャートを用いて、この
データマイニング装置における処理の流れを説明する。
まず、ステップ６２において、相関ルール生成手段１２
は、データベース１１の全データを対象にした相関ルー
ル１５ａを生成する。続いて、ステップ６３において、
クラスタリング手段３０は、クラスタリング情報３１に
基づきデータベース１１のデータをクラスタリングし、
ステップ６４において、相関ルール生成手段１２は、ク
ラスタ毎に相関ルール１５ｂを生成する。この相関ルー
ル生成手段１２のアルゴリズムは、実施の形態１で説明
したものと同様のものである。「支持度」「確信度」の
２つの情報が取捨基準情報１３として与えられるのも実
施の形態１の場合と同様である。

【００４３】次にステップ６５において、あるクラスタ
の相関ルール１５ｂに含まれる相関ルールをひとつ取り
出し、この相関ルールが、データベース１１の全データ
を対象にした相関ルール１５ａの中に存在するかどうか
を調べる。もし存在しなければ、ステップ６６に進み、
そのクラスタの特徴的な相関ルールとして採用する。も
し存在すればステップ６７に進み、その相関ルールは棄
却する。このステップ６５からステップ６７までを、全
てのクラスタの全ての相関ルールについて行なう。ステ
ップ６５からステップ６７までの処理は特徴的相関ルー
ル生成手段３３が行なう。

【００４４】以上の処理により、特定のクラスタにおい
て特徴的な相関ルールを得ることができる。具体的な例
として、同時購買のルールを生成する時に、時間帯毎の
特徴的なルールを生成する場合を考える。まず、売上デ
ータの全データを用いて、商品の同時購買のルールを生
成する。次に、売上データを売上時間の属性値を用い
て、１０〜１２時、１２〜１４時というように、時間帯
でクラスタリングし、この各クラスタ毎に別々に同時購
買のルールを生成する。次に、各クラスタから得られた
同時購買のルールのひとつひとつについて、そのルール
と同じルールが、全データを対象として生成した同時購
買のルールの中に存在するかどうかを調べる。もし存在
しなければ、その同時購買のルールはそのクラスタ（つ
まりその時間帯）において特徴的な同時購買のルールで
あるとみなせる。これにより、例えば、１２：００〜１
４：００のクラスタから得られたルールの中に「サンド
ウィッチ→プリン（サンドウィッチを買う人は同時にプ
リンを買う）」という確信度５２％のルールがあって、
このルールが全データを対象として生成した同時購買の
ルールの中に存在しなかった場合、「１２時から１４時
の間にサンドウィッチを買う人の５２％は同時にプリン
を買う」といった、ある特定のクラスタにおいて特徴的
なルールの生成ができる。

【００４５】以上のようにこの実施の形態によれば、デ
ータベースをクラスタ分割し、各クラスタ毎に生成した
相関ルールと、データベースの全データを対象にして生
成した相関ルールとを比較することにより、実施の形態
２の場合と同様に、ある特定の条件下において特徴的な
相関ルールを生成することができる。

【００４６】なお、この実施の形態では、相関ルール生
成手段１２が支持度と確信度の２つの情報を取捨基準情
報１３から得る例について説明したが、相関ルール生成
手段１２があらかじめこの２つの情報を内蔵している場
合、本実施の形態で相関ルール生成手段１２が入力して
いる取捨基準情報１３がなくてよいのは実施の形態１の
場合と同じである。

【００４７】また、この実施の形態では、データを「デ
ータベース全体とそのクラスタ」という階層で扱った例
について説明したが、この階層は「あるクラスタとその
クラスタを更にクラスタリングしたクラスタ」という関
係であってもよい。

【００４８】実施の形態４．図８は、実施の形態４のデ
ータマイニング装置の構成を示す図であり、図におい
て、７１はデータベース１１のスキーマ、７２はスキー
マ７１と業務知識ベース１４とを用いて相関ルールを生
成する属性を選択する属性選択手段である。属性選択手
段７２は、データベース１１のスキーマ７１と、業務知
識ベース１４とを入力とし、どの属性に着目した相関ル
ール生成を行なうかを決定する。相関ルール生成手段１
２はデータベース１１を入力とし、属性選択手段７２が
選択した属性間の相関ルールを生成し、相関ルール１５
として出力する。

【００４９】次に、実施の形態４における処理の流れに
ついて説明する。まず、属性選択手段７２は、業務知識
ベース１４に含まれる相関ルールのひとつひとつについ
て、その相関ルールに含まれる属性と、スキーマ７１で
用いられている属性を名称で比較していき、マッチする
相関ルールを抽出する。続いて、抽出された相関ルール
に含まれる属性を選択する。相関ルール生成手段１２
は、この選択された属性について相関ルールの生成を行
い、相関ルール１５を出力する。相関ルール生成手段１
２のアルゴリズムは実施の形態１で説明したものと同様
のものである。「支持度」「確信度」の２つの情報が取
捨基準情報１３として与えられるのも実施の形態１の場
合と同様である。

【００５０】さらに、図８と図９を用いて具体例を説明
する。図９において、７１は、図８におけるスキーマ７
１の具体例を示したイメージ図であり、１４は、図８に
おける業務知識ベース１４の内容の具体例を表現したも
のである。この例において、業務知識ベース１４には
「商品Ａを購入する人は同時に商品Ｂも購入する」とい
う形式の同時購買のルールが蓄えられているものとする
が、以下、この形式の相関ルールを「Ａ→Ｂ」と表現す
ることにして説明を進める。

【００５１】さて、この例において、業務知識ベース１
４には、「ドレス→帽子」「スカート→ブラウス」「靴
→靴下」「ドレス→靴」「リボン→ドレス」という５つ
の相関ルールが蓄えられており、「帽子」「スカート」
「ドレス」「靴」の４つの属性がデータベース１１のス
キーマとして用いられているとする。ここで、属性選択
手段７２は、業務知識ベース１４に含まれる５つの相関
ルールひとつひとつについて、相関ルールに含まれる属
性をデータベース１１のスキーマとして用いられている
属性と名称で比較していくと、「ドレス→帽子」「ドレ
ス→靴」という相関ルールがマッチしているので、この
相関ルールを抽出する。他の３つの相関ルールは、スキ
ーマとして用いられていない属性を含んでおりマッチし
ないので除外する。今抽出した「ドレス→帽子」「ドレ
ス→靴」という相関ルールに含まれる属性である「ドレ
ス」と「帽子」と「靴」の３つの属性が選択される。最
後に相関ルール生成手段１２は、この属性間に存在する
相関ルールを生成する。この場合、相関ルール生成手段
１２は、支持度が下限値を上回る相関ルールの候補のう
ちで、選択された３つの属性だけで構成されるものを候
補として生成する。次いで、それぞれの候補の確信度を
求め、下限値を上回る候補を相関ルールとして生成す
る。

【００５２】以上のようにこの実施の形態によれば、属
性選択手段７２により、業務知識ベース１４の内容か
ら、有効な相関ルールが生成できる可能性が高い属性を
選択し、この属性を用いた相関ルールを相関ルール生成
手段１２により生成するので、より有効なルールを効率
的に発見することが可能となる。

【００５３】なお、この実施の形態では、相関ルール生
成手段１２が支持度と確信度の２つの情報を取捨基準情
報１３から得る例について説明したが、相関ルール生成
手段１２があらかじめこの２つの情報を内蔵している場
合、取捨基準情報１３がなくてよいのは実施の形態１の
場合と同じである。

【００５４】実施の形態５．前述の実施の形態４におい
て、データベースのスキーマに用いられる属性と業務知
識ベースの中のルールに含まれる属性を比較する場合、
双方で、必ずしも同じ名称が使われているとは限らな
い。例えば、「靴」と「シューズ」といった同義語が使
われている場合や、「米」と「コシヒカリ」といった抽
象度の違う表現が使用されている場合などである。実施
の形態５は、このようなケースを考慮した例である。こ
の実施の形態について、図１０、図１１を用いて説明す
る。図１０は、実施の形態５のデータマイニング装置の
構成を示す図であり、図において、７３はスキーマ７１
に用いられている属性と業務知識ベース１４の中のルー
ルに含まれる属性とを比較照合する用語照合手段、７４
は上位概念語、下位概念語、同義語などが記述されてい
る用語辞書である。用語照合手段７３は用語辞書７４を
用いて属性の名称の比較、照合を行う。図１０に示した
構成は、前述の実施の形態４で説明した図８に用語照合
手段７３と用語辞書７４とを付加したものである。

【００５５】なお、ここでいう上位概念語とは、抽象度
の高い表現をした名称のことであり、その逆が下位概念
語である。例えば、「米」という名称は、「コシヒカ
リ」や「古々米」といった名称の上位概念語であり、
「穀物」や「農作物」という名称の下位概念語である。

【００５６】次に、実施の形態５における処理の流れに
ついて説明する。まず、属性選択手段７２は、用語照合
手段７３を用い、業務知識ベース１４に含まれる相関ル
ールのひとつひとつについて、相関ルールに含まれる属
性と、スキーマ７１で用いられている属性を名称で比較
していき、マッチする相関ルールを業務知識ベース１４
から抽出する。用語照合手段７３は、用語辞書７４を用
い、同義語や上位概念語、下位概念語を正しく考慮し
て、属性の名称の比較を行なう。続いて、属性選択手段
７２は、抽出された相関ルールに含まれる属性を選択
し、相関ルール生成手段１２が、この属性間の相関ルー
ルを生成する。

【００５７】さらに、図１０と図１１を用いて具体例を
説明する。図１１において、７１は、図１０におけるス
キーマ７１の具体例を示したイメージ図であり、１４
は、図１０における業務知識ベース１４の具体例を表わ
したものである。図１１の７４は、図１０における用語
辞書７４に登録された内容の具体例を表わしたものであ
る。ここで、業務知識ベース１４には、「商品Ａを購入
する人は同時に商品Ｂも購入する」という形式の同時購
買のルールが蓄えられているものとし、以下、この形式
の相関ルールを「Ａ→Ｂ」と表現することにして説明を
進める。また、用語辞書７４に登録されている内容につ
いては、図１１の７４において「Ａ＝Ｂ」または「Ａ＞
Ｂ」という表現を使用しているが、これは、前者が「Ａ
とＢは同義語である」後者が「ＡはＢの上位概念語であ
る」という意味を表わすこととする。

【００５８】さて、この例において、業務知識ベース１
４には、「衣類→シューズ」という相関ルールが蓄えら
れており、「帽子」「スカート」「ドレス」「靴」の４
つの属性がスキーマ７１で用いられているとする。さら
に、用語辞書７４には、「スカート」「ドレス」「帽
子」の共通の上位概念語として、「衣類」という用語が
登録されており、「靴」という用語の同義語として「シ
ューズ」という用語が登録されている。

【００５９】まず、属性選択手段７２は、用語照合手段
７３を用い、業務知識ベース１４に含まれる相関ルール
「衣類→シューズ」について、相関ルールに含まれる属
性をスキーマ７１で用いられている属性と名称で比較
し、マッチする相関ルールを抽出する。この場合、名称
をそのまま比較したのではマッチしないが、用語照合手
段７３は、用語辞書７４を参照した結果から「靴」と
「シューズ」が同義語であり、同時に「衣類」は「帽
子」「スカート」「ドレス」の上位概念語であることを
認識できるので、「衣類→シューズ」という相関ルール
はスキーマ７１で用いられている属性にマッチしている
という結果を導き、属性選択手段７２はこの相関ルール
を抽出する。さらに、属性選択手段７２は、実施の形態
４の場合と同様に、この相関ルールに含まれる属性であ
る「衣類」「シューズ」の２つの属性を選択するわけで
あるが、「シューズ」という属性は、スキーマ７１では
「靴」として用いられており、また、「衣類」という属
性は、スキーマ７１では「帽子」「スカート」「ドレ
ス」という上位概念語として用いられている。従って、
属性選択手段７２は相関ルール生成を行なう対象とする
属性として、「靴」「帽子」「スカート」「ドレス」の
４つの属性を選択する。最後に相関ルール生成手段１２
は、この属性間に存在する相関ルールを生成する。この
場合、相関ルール生成手段１２は、支持度が下限値を上
回る相関ルールの候補のうちで、選択された４つの属性
だけで構成されるものを候補として生成する。次いで、
それぞれの候補の確信度を求め、下限値を上回る候補を
相関ルールとして生成する。

【００６０】以上のようにこの実施の形態によれば、実
施の形態４の場合と同様に、業務知識ベースの内容から
有効な相関ルールが生成できる可能性が高い属性の見当
を付けて相関ルールの生成を行なうようにしたことによ
り、より有効なルールを効率的に発見することが可能と
なるが、さらに、属性の名称が完全に一致しないような
場合をも考慮することにより、実施の形態４の例よりも
更に柔軟な属性選択が行えるようになる。

【００６１】また、この実施の形態では、相関ルール生
成手段１２が支持度と確信度の２つの情報を取捨基準情
報１３から得る例について説明したが、相関ルール生成
手段１２があらかじめこの２つの情報を内蔵している場
合、取捨基準情報１３がなくてよいのは実施の形態１の
場合と同じである。

【００６２】

【発明の効果】第１の発明によれば、相関ルール生成手
段により生成された相関ルールと業務知識ベースとから
仮説相関ルールを生成する仮説相関ルール生成手段と、
仮説相関ルール生成手段により生成された仮説相関ルー
ルがデータベース中のデータにおいて成立する確率を調
べ、この確率が取捨基準情報の確信度を上まわる仮説相
関ルールを補足相関ルールとして採用する仮説相関ルー
ル検証手段とを備えたことにより、支持度は低いが価値
の高い相関ルールを補足相関ルールとして生成できる可
能性が高くなるため、支持度の下限値を低く設定して
も、価値のある相関ルールが棄却されてしまう危険性を
減ずることができる。

【００６３】第２の発明によれば、相関ルール生成手段
は、第１の記憶手段に格納された支持度と確信度とに基
づいて相関ルールを生成し、仮説相関ルール生成手段
は、第２の記憶手段に格納された確信度に基づいて補足
相関ルールを採用するので、支持度の下限値を低く設定
しても、価値のある相関ルールが棄却されてしまう危険
性を減ずることができる。

【００６４】第３の発明によれば、仮説相関ルール生成
手段は、相関ルール生成手段により生成された相関ルー
ルに対し、業務知識ベース中の相関ルールを用いて両方
向推論することにより仮説相関ルールを生成するので、
仮説相関ルールを効率良く生成できる。

【００６５】第４の発明によれば、相関ルール生成手段
は、クラスタリング手段により分割されたクラスタ毎に
相関ルールを生成し、特徴的相関ルール生成手段は、ク
ラスタ毎に生成された相関ルールからクラスタ毎に特徴
的な相関ルールを生成するので、ある特定の条件下にお
いて特徴的な相関ルールを生成することができる。

【００６６】第５の発明によれば、クラスタリング手段
は、ユーザより指定されたクラスタ分割方法を示すクラ
スタリング情報に基づいてクラスタ分割するので、クラ
スタ分割方法をユーザは自由に指定することができる。

【００６７】第６の発明によれば、特徴的相関ルール生
成手段は、所定のクラスタについて生成された相関ルー
ルが、他のクラスタについて生成された相関ルールの中
に存在する確率に基づいて、クラスタ毎に特徴的な相関
ルールを生成するので、他のクラスタの相関ルールとは
異なる相関ルールを生成することができる。

【００６８】第７の発明によれば、特徴的相関ルール生
成手段は、所定のクラスタについて生成された相関ルー
ルが、データベース全体のデータを対象に生成された相
関ルール中に存在するか否かに基づいて、クラスタ毎に
特徴的な相関ルールを生成するので、データベース全体
の中で特徴的な相関ルールを生成することができる。

【００６９】第８の発明によれば、特徴的相関ルール生
成手段は、クラスタを更に分割した子クラスタについて
生成された相関ルールが、クラスタについて生成された
相関ルールの中に存在するか否かに基づいて、クラスタ
毎に特徴的な相関ルールを生成するので、子クラスタ毎
に特徴的な相関ルールを生成することができる。

【００７０】第９の発明によれば、属性選択手段は、業
務知識ベースの内容から、有効な相関ルールが生成でき
る可能性が高い属性を選択し、相関ルール生成手段は、
前記選択された属性を用いた相関ルールを生成するの
で、より有効なルールを効率的に発見することが可能と
なる。

【００７１】第１０の発明によれば、用語照合手段は、
業務知識ベース中の相関ルールに含まれる属性とスキー
マに記述された属性とを、属性の名称に関する同義語、
上位概念語又は下位概念語を格納した用語辞書を用いて
照合するので、柔軟な属性選択が行えるようになる。

【図面の簡単な説明】

【図１】実施の形態１におけるデータマイニング装置
の構成図である。

【図２】実施の形態１におけるデータマイニング装置
の処理の流れを示すフローチャートである。

【図３】実施の形態１におけるデータマイニング装置
の仮説相関ルール生成手段の処理である、両方向推論に
よる仮説相関ルールの生成について説明する図である。

【図４】実施の形態２におけるデータマイニング装置
の構成図である。

【図５】実施の形態２におけるデータマイニング装置
の処理の流れを示すフローチャートである。

【図６】実施の形態３におけるデータマイニング装置
の構成図である。

【図７】実施の形態３におけるデータマイニング装置
の処理の流れを示すフローチャートである。

【図８】実施の形態４におけるデータマイニング装置
の構成図である。

【図９】実施の形態４の具体例を説明する図である。

【図１０】実施の形態５におけるデータマイニング装
置の構成図である。

【図１１】実施の形態５の具体例を説明する図であ
る。

【符号の説明】

１１データベース、１２相関ルール生成手段、１３
取捨基準情報、１４業務知識ベース、１５相関ルー
ル、１６仮説相関ルール生成手段、１７仮説相関ルー
ル、１８仮説相関ルール検証手段、１９補足相関ル
ール、３０クラスタリング手段、３１クラスタリング
情報、３３特徴的相関ルール生成手段、３４特徴的
相関ルール、３５特徴性判定基準情報、７１スキー
マ、７２属性選択手段、７３用語照合手段、７４
用語辞書。

Claims

【特許請求の範囲】

【請求項１】相関ルールの取捨選択の基準である支持
度と確信度とが格納された取捨基準情報に基づき、デー
タベース中のデータの属性間に存在する相関ルールを生
成する相関ルール生成手段と、有効性が予め確認されている相関ルールの集合である業
務知識ベースと、前記相関ルール生成手段により生成された相関ルールと
前記業務知識ベースとから相関ルールの仮説である仮説
相関ルールを生成する仮説相関ルール生成手段と、前記仮説相関ルール生成手段により生成された仮説相関
ルールが前記データベース中のデータにおいて成立する
確率を調べ、この確率が前記取捨基準情報の確信度を上
まわる前記仮説相関ルールを補足相関ルールとして採用
する仮説相関ルール検証手段とを備えたことを特徴とす
るデータマイニング装置。
【請求項２】相関ルールの取捨選択の基準である支持
度と確信度とが格納された第１の記憶手段と、前記仮説相関ルールを補足相関ルールとして採用する基
準である確信度が格納された第２の記憶手段とを備え、前記相関ルール生成手段は、前記第１の記憶手段に格納
された前記支持度と前記確信度とに基づいて相関ルール
を生成し、前記仮説相関ルール生成手段は、前記第２の記憶手段に
格納された確信度に基づいて補足相関ルールを採用する
ことを特徴とする請求項１記載のデータマイニング装
置。
【請求項３】前記仮説相関ルール生成手段は、前記相関ルール生成手段により生成された相関ルールに
対し、前記業務知識ベース中の相関ルールを用いて両方
向推論することにより仮説相関ルールを生成することを
特徴とする請求項１記載のデータマイニング装置。
【請求項４】データベース中のデータをクラスタ分割
するクラスタリング手段と、このクラスタリング手段により分割されたクラスタ毎に
生成された相関ルールから前記クラスタ毎に特徴的な相
関ルールを生成する特徴的相関ルール生成手段とを備
え、前記相関ルール生成手段は、前記クラスタ毎に相関ルー
ルを生成することを特徴とする請求項１記載のデータマ
イニング装置。
【請求項５】ユーザより指定されたクラスタ分割方法
を示すクラスタリング情報を格納するクラスタリング情
報記憶手段を備え、前記クラスタリング手段は、前記クラスタリング情報記
憶手段に格納されたクラスタリング情報に基づいてクラ
スタ分割することを特徴とする請求項４記載のデータマ
イニング装置。
【請求項６】前記特徴的相関ルール生成手段は、所定の前記クラスタについて生成された相関ルールが、
他の前記クラスタについて生成された相関ルールの中に
存在する確率に基づいて、前記クラスタ毎に特徴的な相
関ルールを生成することを特徴とする請求項４記載のデ
ータマイニング装置。
【請求項７】前記特徴的相関ルール生成手段は、所定の前記クラスタについて生成された相関ルールが、
データベース全体のデータを対象に生成された相関ルー
ル中に存在するか否かに基づいて、前記クラスタ毎に特
徴的な相関ルールを生成することを特徴とする請求項４
記載のデータマイニング装置。
【請求項８】前記特徴的相関ルール生成手段は、前記クラスタを更に分割した子クラスタについて生成さ
れた相関ルールが、前記クラスタについて生成された相
関ルールの中に存在するか否かに基づいて、前記クラス
タ毎に特徴的な相関ルールを生成することを特徴とする
請求項４記載のデータマイニング装置。
【請求項９】前記業務知識ベースの中からデータベー
スの定義情報を格納したスキーマに記述された属性と同
じ名称の属性を含む相関ルールを抽出し、この相関ルー
ルに含まれる属性を選択する属性選択手段を備え、前記相関ルール生成手段は、前記属性選択手段により選
択された属性間の相関ルールを生成することを特徴とす
る請求項１記載のデータマイニング装置。
【請求項１０】前記スキーマに記述された属性の名称
に関する同義語、上位概念語又は下位概念語を格納した
用語辞書と、前記業務知識ベース中の相関ルールに含まれる属性と前
記スキーマに記述された属性とを前記用語辞書を用いて
照合する用語照合手段とを備え、前記属性選択手段は、前記用語照合手段の照合結果に基
づいて前記業務知識ベースの中から相関ルールを抽出す
ることを特徴とする請求項９記載のデータマイニング装
置。