JPH09297686A - データマイニング装置 - Google Patents
データマイニング装置Info
- Publication number
- JPH09297686A JPH09297686A JP11254496A JP11254496A JPH09297686A JP H09297686 A JPH09297686 A JP H09297686A JP 11254496 A JP11254496 A JP 11254496A JP 11254496 A JP11254496 A JP 11254496A JP H09297686 A JPH09297686 A JP H09297686A
- Authority
- JP
- Japan
- Prior art keywords
- correlation rule
- rule
- correlation
- generated
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007418 data mining Methods 0.000 title claims description 52
- 230000000295 complement effect Effects 0.000 claims abstract description 15
- 238000012795 verification Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 7
- 230000000153 supplemental effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 15
- 239000000047 product Substances 0.000 description 7
- 235000008429 bread Nutrition 0.000 description 6
- 235000011962 puddings Nutrition 0.000 description 6
- 241000238557 Decapoda Species 0.000 description 5
- 238000010411 cooking Methods 0.000 description 5
- 235000013336 milk Nutrition 0.000 description 5
- 239000008267 milk Substances 0.000 description 5
- 210000004080 milk Anatomy 0.000 description 5
- 240000008415 Lactuca sativa Species 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 4
- 235000012813 breadcrumbs Nutrition 0.000 description 4
- 239000000843 powder Substances 0.000 description 4
- 235000012045 salad Nutrition 0.000 description 4
- 241000209094 Oryza Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 238000010219 correlation analysis Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 235000013339 cereals Nutrition 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
(57)【要約】
【課題】 既知の相関ルールの蓄積である業務知識ベー
スを利用し、有効な相関ルールを効率的に生成可能なデ
ータマイニング装置を得ることを課題とする。 【解決手段】 相関ルールの取捨選択の基準である支持
度と確信度とが格納された取捨基準情報に基づき、デー
タベース11中のデータの属性間に存在する相関ルール
15を生成する相関ルール生成手段12と、この生成さ
れた相関ルール15と有効性が予め確認されている相関
ルールの集合である業務知識ベース14とから相関ルー
ルの仮説である仮説相関ルール17を生成する仮説相関
ルール生成手段16と、この生成された仮説相関ルール
17がデータベース11中のデータにおいて成立する確
率を調べ、この確率が前記取捨基準情報の確信度を上ま
わる仮説相関ルール17を補足相関ルールとして採用す
る仮説相関ルール検証手段18とを備えたものである。
スを利用し、有効な相関ルールを効率的に生成可能なデ
ータマイニング装置を得ることを課題とする。 【解決手段】 相関ルールの取捨選択の基準である支持
度と確信度とが格納された取捨基準情報に基づき、デー
タベース11中のデータの属性間に存在する相関ルール
15を生成する相関ルール生成手段12と、この生成さ
れた相関ルール15と有効性が予め確認されている相関
ルールの集合である業務知識ベース14とから相関ルー
ルの仮説である仮説相関ルール17を生成する仮説相関
ルール生成手段16と、この生成された仮説相関ルール
17がデータベース11中のデータにおいて成立する確
率を調べ、この確率が前記取捨基準情報の確信度を上ま
わる仮説相関ルール17を補足相関ルールとして採用す
る仮説相関ルール検証手段18とを備えたものである。
Description
【0001】
【発明の属する技術分野】この発明は、データベース中
の大量データの中からそのデータに含まれる属性間の相
関ルールを生成するデータマイニング装置に関するもの
である。
の大量データの中からそのデータに含まれる属性間の相
関ルールを生成するデータマイニング装置に関するもの
である。
【0002】
【従来の技術】データマイニングでは、例えば第29回
人工知能セミナー講演テキスト53ページから62ペー
ジの「流通業におけるデータマイニングの応用」(森下
真一、福田剛志著、1995年7月4日人工知能学会発
行)に記載されているように、データベース中の大量デ
ータの中から、そのデータに含まれる属性間の相関ルー
ルを生成する相関分析を行なう。相関ルールとは、属性
間に存在する規則性のことであり、代表的な相関分析の
例としてバスケット分析と呼ばれるものがある。これ
は、小売業において、客が同時にバスケット(=買い物
かご)に入れる商品の相関関係を求めるもので、同時購
買分析とも呼ばれる。これにより求められる相関ルール
は、例えば、「パンを買う客は、同時に牛乳も買う」と
いう形のもので、「パン→牛乳」という形式で表現され
る。
人工知能セミナー講演テキスト53ページから62ペー
ジの「流通業におけるデータマイニングの応用」(森下
真一、福田剛志著、1995年7月4日人工知能学会発
行)に記載されているように、データベース中の大量デ
ータの中から、そのデータに含まれる属性間の相関ルー
ルを生成する相関分析を行なう。相関ルールとは、属性
間に存在する規則性のことであり、代表的な相関分析の
例としてバスケット分析と呼ばれるものがある。これ
は、小売業において、客が同時にバスケット(=買い物
かご)に入れる商品の相関関係を求めるもので、同時購
買分析とも呼ばれる。これにより求められる相関ルール
は、例えば、「パンを買う客は、同時に牛乳も買う」と
いう形のもので、「パン→牛乳」という形式で表現され
る。
【0003】データマイニングにおける相関分析の基本
的な処理は、相関ルールの候補の生成とその検証であ
る。つまり、相関ルールの候補として、全ての属性の組
み合わせを全て列挙し、これが成り立っているかどうか
をデータベースを検索してひとつずつ調べるという方法
である。しかし、これでは効率が悪いので、従来のデー
タマイニングでは、有効な相関ルールを効率よく発見す
るため、この処理の中で支持度と確信度という基準を用
いた足切り処理を行っている。
的な処理は、相関ルールの候補の生成とその検証であ
る。つまり、相関ルールの候補として、全ての属性の組
み合わせを全て列挙し、これが成り立っているかどうか
をデータベースを検索してひとつずつ調べるという方法
である。しかし、これでは効率が悪いので、従来のデー
タマイニングでは、有効な相関ルールを効率よく発見す
るため、この処理の中で支持度と確信度という基準を用
いた足切り処理を行っている。
【0004】支持度とは、その相関ルールの一般性を表
わす尺度であり、確信度とは、その相関ルールの正確さ
を表わす尺度である。相関ルールは一般に、この支持度
と確信度と呼ばれる値を伴って、「A→B」という形の
論理式で表わされる(但し、AとBは空でないアイテム
集合であり、交わらない)。この場合、支持度は、全デ
ータのうち「AUB」(Uは、和集合を表す)を含むデ
ータの占める割合で表わされ、確信度は、Aを含むデー
タのうち、Bも同時に含むデータの割合で表わされる。
例えば、前述の「パン→牛乳」の例で言えば、全販売デ
ータ件数のうち、パンを購入した客の割合が20%で、
パンと牛乳両方を購入した客の割合が12%だとする
と、相関ルール「パン→牛乳」の支持度は12%、確信
度は60%(=12%/20%)ということになる。
わす尺度であり、確信度とは、その相関ルールの正確さ
を表わす尺度である。相関ルールは一般に、この支持度
と確信度と呼ばれる値を伴って、「A→B」という形の
論理式で表わされる(但し、AとBは空でないアイテム
集合であり、交わらない)。この場合、支持度は、全デ
ータのうち「AUB」(Uは、和集合を表す)を含むデ
ータの占める割合で表わされ、確信度は、Aを含むデー
タのうち、Bも同時に含むデータの割合で表わされる。
例えば、前述の「パン→牛乳」の例で言えば、全販売デ
ータ件数のうち、パンを購入した客の割合が20%で、
パンと牛乳両方を購入した客の割合が12%だとする
と、相関ルール「パン→牛乳」の支持度は12%、確信
度は60%(=12%/20%)ということになる。
【0005】従来のデータマイニング装置では、相関ル
ールの生成を実行する前に支持度と確信度の下限値をそ
れぞれ設定し、この下限値をともに上回る全ての相関ル
ールを抽出する、という方法でデータマイニングを行っ
ている。つまり、まず、支持度が下限値を上回る相関ル
ールの候補のみを生成し、下限値を下回る候補はこの時
点で棄却する。つまり、それ以上処理を行わない。次
に、生成された相関ルールの候補ひとつひとつについて
確信度(どれくらいの確率で成立しているか)を求めて
いき、その結果、確信度が下限値を上回る候補のみを採
用して相関ルールとする、という方法である。
ールの生成を実行する前に支持度と確信度の下限値をそ
れぞれ設定し、この下限値をともに上回る全ての相関ル
ールを抽出する、という方法でデータマイニングを行っ
ている。つまり、まず、支持度が下限値を上回る相関ル
ールの候補のみを生成し、下限値を下回る候補はこの時
点で棄却する。つまり、それ以上処理を行わない。次
に、生成された相関ルールの候補ひとつひとつについて
確信度(どれくらいの確率で成立しているか)を求めて
いき、その結果、確信度が下限値を上回る候補のみを採
用して相関ルールとする、という方法である。
【0006】
【発明が解決しようとする課題】従来のデータマイニン
グ装置では、支持度の下限値を低く設定すると、確信度
を検証する相関ルールの候補数が爆発的に増加するため
にパフォーマンスが大幅に低下し、またユーザが必要と
しないような一般性の低い相関ルールまでが大量に生成
されてしまうという事態が発生するため、支持度の下限
値はあまり下げることができない。ところがその一方
で、支持度の下限値を高くすると、今度は価値ある有効
な相関ルールが支持度の低さ故に棄却されてしまう危険
性が高くなってしまうという問題点があった。
グ装置では、支持度の下限値を低く設定すると、確信度
を検証する相関ルールの候補数が爆発的に増加するため
にパフォーマンスが大幅に低下し、またユーザが必要と
しないような一般性の低い相関ルールまでが大量に生成
されてしまうという事態が発生するため、支持度の下限
値はあまり下げることができない。ところがその一方
で、支持度の下限値を高くすると、今度は価値ある有効
な相関ルールが支持度の低さ故に棄却されてしまう危険
性が高くなってしまうという問題点があった。
【0007】また、データベースの全てのデータを一度
に全部用いてデータマイニングするため、生成される相
関ルールが全データを通じて平均的ものになってしま
い、ある特定の条件下で特徴的である相関ルールを生成
することができないという問題点があった。
に全部用いてデータマイニングするため、生成される相
関ルールが全データを通じて平均的ものになってしま
い、ある特定の条件下で特徴的である相関ルールを生成
することができないという問題点があった。
【0008】さらに、実際にデータマイニングを行なう
際には、常識的、経験的に予想できる相関ルールの形式
や内容があらかじめ存在している場合が多く、データマ
イニングを実行する時にこれらの情報を使用できれば、
より効率的に有効な相関ルールを生成できる可能性が高
いが、従来の方法ではこれを取り込む手段がなかった。
際には、常識的、経験的に予想できる相関ルールの形式
や内容があらかじめ存在している場合が多く、データマ
イニングを実行する時にこれらの情報を使用できれば、
より効率的に有効な相関ルールを生成できる可能性が高
いが、従来の方法ではこれを取り込む手段がなかった。
【0009】この発明は上記のような問題点を解消する
ためになされたもので、支持度を低く設定しても、価値
のある相関ルールが棄却されてしまう危険性を減ずるこ
とができるデータマイニング装置を得ることを目的とし
ており、さらに、ある条件下において特徴的な相関ルー
ルを生成することができるデータマイニング装置を得る
ことを目的とする。また、より有効なルールを効率的に
発見できるデータマイニング装置を得ることを目的とし
ている。
ためになされたもので、支持度を低く設定しても、価値
のある相関ルールが棄却されてしまう危険性を減ずるこ
とができるデータマイニング装置を得ることを目的とし
ており、さらに、ある条件下において特徴的な相関ルー
ルを生成することができるデータマイニング装置を得る
ことを目的とする。また、より有効なルールを効率的に
発見できるデータマイニング装置を得ることを目的とし
ている。
【0010】
【課題を解決するための手段】第1の発明に係るデータ
マイニング装置は、相関ルールの取捨選択の基準である
支持度と確信度とが格納された取捨基準情報に基づき、
データベース中のデータの属性間に存在する相関ルール
を生成する相関ルール生成手段と、有効性が予め確認さ
れている相関ルールの集合である業務知識ベースと、前
記相関ルール生成手段により生成された相関ルールと前
記業務知識ベースとから相関ルールの仮説である仮説相
関ルールを生成する仮説相関ルール生成手段と、前記仮
説相関ルール生成手段により生成された仮説相関ルール
が前記データベース中のデータにおいて成立する確率を
調べ、この確率が前記取捨基準情報の確信度を上まわる
前記仮説相関ルールを補足相関ルールとして採用する仮
説相関ルール検証手段とを備えたものである。
マイニング装置は、相関ルールの取捨選択の基準である
支持度と確信度とが格納された取捨基準情報に基づき、
データベース中のデータの属性間に存在する相関ルール
を生成する相関ルール生成手段と、有効性が予め確認さ
れている相関ルールの集合である業務知識ベースと、前
記相関ルール生成手段により生成された相関ルールと前
記業務知識ベースとから相関ルールの仮説である仮説相
関ルールを生成する仮説相関ルール生成手段と、前記仮
説相関ルール生成手段により生成された仮説相関ルール
が前記データベース中のデータにおいて成立する確率を
調べ、この確率が前記取捨基準情報の確信度を上まわる
前記仮説相関ルールを補足相関ルールとして採用する仮
説相関ルール検証手段とを備えたものである。
【0011】第2の発明に係るデータマイニング装置
は、相関ルールの取捨選択の基準である支持度と確信度
とが格納された第1の記憶手段と、前記仮説相関ルール
を補足相関ルールとして採用する基準である確信度が格
納された第2の記憶手段とを備え、前記相関ルール生成
手段は、前記第1の記憶手段に格納された前記支持度と
前記確信度とに基づいて相関ルールを生成し、前記仮説
相関ルール生成手段は、前記第2の記憶手段に格納され
た確信度に基づいて補足相関ルールを採用するものであ
る。
は、相関ルールの取捨選択の基準である支持度と確信度
とが格納された第1の記憶手段と、前記仮説相関ルール
を補足相関ルールとして採用する基準である確信度が格
納された第2の記憶手段とを備え、前記相関ルール生成
手段は、前記第1の記憶手段に格納された前記支持度と
前記確信度とに基づいて相関ルールを生成し、前記仮説
相関ルール生成手段は、前記第2の記憶手段に格納され
た確信度に基づいて補足相関ルールを採用するものであ
る。
【0012】第3の発明に係るデータマイニング装置
は、前記相関ルール生成手段により生成された相関ルー
ルに対し、前記業務知識ベース中の相関ルールを用いて
両方向推論することにより仮説相関ルールを生成する仮
説相関ルール生成手段を備えたものである。
は、前記相関ルール生成手段により生成された相関ルー
ルに対し、前記業務知識ベース中の相関ルールを用いて
両方向推論することにより仮説相関ルールを生成する仮
説相関ルール生成手段を備えたものである。
【0013】第4の発明に係るデータマイニング装置
は、データベース中のデータをクラスタ分割するクラス
タリング手段と、このクラスタリング手段により分割さ
れたクラスタ毎に生成された相関ルールから前記クラス
タ毎に特徴的な相関ルールを生成する特徴的相関ルール
生成手段とを備え、前記相関ルール生成手段は、前記ク
ラスタ毎に相関ルールを生成するものである。
は、データベース中のデータをクラスタ分割するクラス
タリング手段と、このクラスタリング手段により分割さ
れたクラスタ毎に生成された相関ルールから前記クラス
タ毎に特徴的な相関ルールを生成する特徴的相関ルール
生成手段とを備え、前記相関ルール生成手段は、前記ク
ラスタ毎に相関ルールを生成するものである。
【0014】第5の発明に係るデータマイニング装置
は、ユーザより指定されたクラスタ分割方法を示すクラ
スタリング情報を格納するクラスタリング情報記憶手段
を備え、前記クラスタリング手段は、前記クラスタリン
グ情報記憶手段に格納されたクラスタリング情報に基づ
いてクラスタ分割するものである。
は、ユーザより指定されたクラスタ分割方法を示すクラ
スタリング情報を格納するクラスタリング情報記憶手段
を備え、前記クラスタリング手段は、前記クラスタリン
グ情報記憶手段に格納されたクラスタリング情報に基づ
いてクラスタ分割するものである。
【0015】第6の発明に係るデータマイニング装置
は、所定の前記クラスタについて生成された相関ルール
が、他の前記クラスタについて生成された相関ルールの
中に存在する確率に基づいて、前記クラスタ毎に特徴的
な相関ルールを生成する特徴的相関ルール生成手段を備
えたものである。
は、所定の前記クラスタについて生成された相関ルール
が、他の前記クラスタについて生成された相関ルールの
中に存在する確率に基づいて、前記クラスタ毎に特徴的
な相関ルールを生成する特徴的相関ルール生成手段を備
えたものである。
【0016】第7の発明に係るデータマイニング装置
は、所定の前記クラスタについて生成された相関ルール
が、データベース全体のデータを対象に生成された相関
ルール中に存在するか否かに基づいて、前記クラスタ毎
に特徴的な相関ルールを生成する特徴的相関ルール生成
手段を備えたものである。
は、所定の前記クラスタについて生成された相関ルール
が、データベース全体のデータを対象に生成された相関
ルール中に存在するか否かに基づいて、前記クラスタ毎
に特徴的な相関ルールを生成する特徴的相関ルール生成
手段を備えたものである。
【0017】第8の発明に係るデータマイニング装置
は、前記クラスタを更に分割した子クラスタについて生
成された相関ルールが、前記クラスタについて生成され
た相関ルールの中に存在するか否かに基づいて、前記ク
ラスタ毎に特徴的な相関ルールを生成する特徴的相関ル
ール生成手段を備えたものである。
は、前記クラスタを更に分割した子クラスタについて生
成された相関ルールが、前記クラスタについて生成され
た相関ルールの中に存在するか否かに基づいて、前記ク
ラスタ毎に特徴的な相関ルールを生成する特徴的相関ル
ール生成手段を備えたものである。
【0018】第9の発明に係るデータマイニング装置
は、前記業務知識ベースの中からデータベースの定義情
報を格納したスキーマに記述された属性と同じ名称の属
性を含む相関ルールを抽出し、この相関ルールに含まれ
る属性を選択する属性選択手段を備え、前記相関ルール
生成手段は、前記属性選択手段により選択された属性間
の相関ルールを生成するものである。
は、前記業務知識ベースの中からデータベースの定義情
報を格納したスキーマに記述された属性と同じ名称の属
性を含む相関ルールを抽出し、この相関ルールに含まれ
る属性を選択する属性選択手段を備え、前記相関ルール
生成手段は、前記属性選択手段により選択された属性間
の相関ルールを生成するものである。
【0019】第10の発明に係るデータマイニング装置
は、前記スキーマに記述された属性の名称に関する同義
語、上位概念語又は下位概念語を格納した用語辞書と、
前記業務知識ベース中の相関ルールに含まれる属性と前
記スキーマに記述された属性とを前記用語辞書を用いて
照合する用語照合手段とを備え、前記属性選択手段は、
前記用語照合手段の照合結果に基づいて前記業務知識ベ
ースの中から相関ルールを抽出するものである。
は、前記スキーマに記述された属性の名称に関する同義
語、上位概念語又は下位概念語を格納した用語辞書と、
前記業務知識ベース中の相関ルールに含まれる属性と前
記スキーマに記述された属性とを前記用語辞書を用いて
照合する用語照合手段とを備え、前記属性選択手段は、
前記用語照合手段の照合結果に基づいて前記業務知識ベ
ースの中から相関ルールを抽出するものである。
【0020】
実施の形態1.以下、この発明の一実施の形態を図につ
いて説明する。図1は実施の形態1のデータマイニング
装置の構成を示す図であり、図において、11はデータ
ベース、12はデータベース11中のデータの属性間に
存在する相関ルールを生成し出力する相関ルール生成手
段、13は「支持度」と「確信度」の2つの情報が格納
され、相関ルール生成手段12により生成された相関ル
ールの取捨選択を行うための取捨基準情報、14は有効
性があらかじめ確認されている相関ルールの集合である
業務知識ベース、15は相関ルール生成手段12により
生成された相関ルール、16は相関ルール生成手段12
により生成された相関ルール15と業務知識ベース14
とから相関ルールの仮説である仮説相関ルール17を生
成する仮説相関ルール生成手段、18は仮説相関ルール
生成手段16により生成された仮説相関ルール17がデ
ータベース11中のデータにおいて成立する確率である
確信度を調べ、この確信度が基準値を上まわる仮説相関
ルール17を補足相関ルール19として出力する仮説相
関ルール検証手段である。このデータマイニング装置に
おいて、相関ルール生成手段12は、データベース11
と取捨基準情報13とを入力し、相関ルール15を出力
する。仮説相関ルール生成手段16は、相関ルール15
と業務知識ベース14とを入力し、仮説相関ルール18
を出力する。仮説相関ルール検証手段19は、仮説相関
ルール18と取捨基準情報13とを入力し、補足相関ル
ール17を出力する。結果として得られる出力は、相関
ルール15とこれを補足する相関ルールである補足相関
ルール19である。
いて説明する。図1は実施の形態1のデータマイニング
装置の構成を示す図であり、図において、11はデータ
ベース、12はデータベース11中のデータの属性間に
存在する相関ルールを生成し出力する相関ルール生成手
段、13は「支持度」と「確信度」の2つの情報が格納
され、相関ルール生成手段12により生成された相関ル
ールの取捨選択を行うための取捨基準情報、14は有効
性があらかじめ確認されている相関ルールの集合である
業務知識ベース、15は相関ルール生成手段12により
生成された相関ルール、16は相関ルール生成手段12
により生成された相関ルール15と業務知識ベース14
とから相関ルールの仮説である仮説相関ルール17を生
成する仮説相関ルール生成手段、18は仮説相関ルール
生成手段16により生成された仮説相関ルール17がデ
ータベース11中のデータにおいて成立する確率である
確信度を調べ、この確信度が基準値を上まわる仮説相関
ルール17を補足相関ルール19として出力する仮説相
関ルール検証手段である。このデータマイニング装置に
おいて、相関ルール生成手段12は、データベース11
と取捨基準情報13とを入力し、相関ルール15を出力
する。仮説相関ルール生成手段16は、相関ルール15
と業務知識ベース14とを入力し、仮説相関ルール18
を出力する。仮説相関ルール検証手段19は、仮説相関
ルール18と取捨基準情報13とを入力し、補足相関ル
ール17を出力する。結果として得られる出力は、相関
ルール15とこれを補足する相関ルールである補足相関
ルール19である。
【0021】次に、図2のフローチャートを用いて、こ
のデータマイニング装置における処理の流れを説明す
る。
のデータマイニング装置における処理の流れを説明す
る。
【0022】まず、ステップ21において、相関ルール
生成手段12は、データベース11から相関ルール15
を生成する。この相関ルール生成手段12は公知の手段
である。ここでは、例えば、従来の技術として先に挙げ
たアルゴリズムを用いるものとする。このアルゴリズム
において使用される「支持度」と「確信度」の2つの情
報は、取捨基準情報13として与えられている。
生成手段12は、データベース11から相関ルール15
を生成する。この相関ルール生成手段12は公知の手段
である。ここでは、例えば、従来の技術として先に挙げ
たアルゴリズムを用いるものとする。このアルゴリズム
において使用される「支持度」と「確信度」の2つの情
報は、取捨基準情報13として与えられている。
【0023】次に、ステップ22において、仮説相関ル
ール生成手段16は、相関ルール生成手段12が出力し
た相関ルール15と、予め与えられた有効な相関ルール
の集合である業務知識ベース14とから仮説相関ルール
17を生成する。
ール生成手段16は、相関ルール生成手段12が出力し
た相関ルール15と、予め与えられた有効な相関ルール
の集合である業務知識ベース14とから仮説相関ルール
17を生成する。
【0024】仮説相関ルール生成手段16の処理は、ま
ず、図1中の相関ルール15に含まれる相関ルールをひ
とつ取り出し、業務知識ベース14に含まれる相関ルー
ルを推論規則とした両方向推論を行なって、仮説相関ル
ール17を生成、これを相関ルール15に含まれる全て
の相関ルールについて行なう、というものである。
ず、図1中の相関ルール15に含まれる相関ルールをひ
とつ取り出し、業務知識ベース14に含まれる相関ルー
ルを推論規則とした両方向推論を行なって、仮説相関ル
ール17を生成、これを相関ルール15に含まれる全て
の相関ルールについて行なう、というものである。
【0025】ここで、この仮説相関ルール生成手段16
の処理である、両方向推論による仮説相関ルールの生成
について説明する。なお、両方向推論自体は公知の手法
である。これは、例えば、相関ルール15の中に「A→
B」という相関ルールがあった時に、業務知識ベース1
4中の相関ルールを使ってこの両辺から連鎖的に木をつ
なげて伸ばしていき、つながらなくなったところで、こ
れをつなげるために必要な相関ルールを仮説相関ルール
17として生成するという処理である。具体的な例を図
3を用いて説明する。図3は、図1の相関ルール15か
ら取り出した相関ルール「A→B」を、業務知識ベース
14中に含まれる相関ルールを用いて両方向推論する場
合の例を示したものである。まず、「A→B」という相
関ルールについて、左辺、右辺の両側から、業務知識ベ
ース14に含まれる相関ルールを用いた推論を行なう。
図3の例において、業務知識ベース14には、「C→
D」「A→C」「E→B」「F→B」「X→Y」「Y→
Z」という相関ルールが含まれている。この業務知識ベ
ース14を用いて「A→B」を両方向推論するには、ま
ず、業務知識ベース14中から左辺がAであるルールと
右辺がBである相関ルールを探す。その結果、左辺がA
である相関ルールとして「A→C」、右辺がBである相
関ルールとして「E→B」「F→B」が見つかるので、
これを用いて、図3のa)からb)のように両方向から
木を伸ばす。さらに木を伸ばすために、今度は左辺がC
である相関ルールと、右辺がEまたはFである相関ルー
ルを業務知識ベース14から探す。その結果、左辺がC
である相関ルールとして「C→D」が見つかるので、こ
れを用いて、図3のb)の木を図3のc)のように拡張
する。右辺がEまたはFである相関ルールは見つからな
かったので、この時点で右から左へ向かう推論は終了と
なり、ここからは、左から右に向かう推論のみ続ける。
左辺がDである相関ルールを業務知識ベース14から探
すと、見つからないので、ここで左から右に向かう推論
も終了する。最終的に両方向からの木はつながらなかっ
たので、この木をつなげるために必要な相関ルールを仮
説相関ルール17として生成する。この例の場合、「D
→E」「D→F」が生成される仮説相関ルール17とな
る。
の処理である、両方向推論による仮説相関ルールの生成
について説明する。なお、両方向推論自体は公知の手法
である。これは、例えば、相関ルール15の中に「A→
B」という相関ルールがあった時に、業務知識ベース1
4中の相関ルールを使ってこの両辺から連鎖的に木をつ
なげて伸ばしていき、つながらなくなったところで、こ
れをつなげるために必要な相関ルールを仮説相関ルール
17として生成するという処理である。具体的な例を図
3を用いて説明する。図3は、図1の相関ルール15か
ら取り出した相関ルール「A→B」を、業務知識ベース
14中に含まれる相関ルールを用いて両方向推論する場
合の例を示したものである。まず、「A→B」という相
関ルールについて、左辺、右辺の両側から、業務知識ベ
ース14に含まれる相関ルールを用いた推論を行なう。
図3の例において、業務知識ベース14には、「C→
D」「A→C」「E→B」「F→B」「X→Y」「Y→
Z」という相関ルールが含まれている。この業務知識ベ
ース14を用いて「A→B」を両方向推論するには、ま
ず、業務知識ベース14中から左辺がAであるルールと
右辺がBである相関ルールを探す。その結果、左辺がA
である相関ルールとして「A→C」、右辺がBである相
関ルールとして「E→B」「F→B」が見つかるので、
これを用いて、図3のa)からb)のように両方向から
木を伸ばす。さらに木を伸ばすために、今度は左辺がC
である相関ルールと、右辺がEまたはFである相関ルー
ルを業務知識ベース14から探す。その結果、左辺がC
である相関ルールとして「C→D」が見つかるので、こ
れを用いて、図3のb)の木を図3のc)のように拡張
する。右辺がEまたはFである相関ルールは見つからな
かったので、この時点で右から左へ向かう推論は終了と
なり、ここからは、左から右に向かう推論のみ続ける。
左辺がDである相関ルールを業務知識ベース14から探
すと、見つからないので、ここで左から右に向かう推論
も終了する。最終的に両方向からの木はつながらなかっ
たので、この木をつなげるために必要な相関ルールを仮
説相関ルール17として生成する。この例の場合、「D
→E」「D→F」が生成される仮説相関ルール17とな
る。
【0026】再び図2のフローチャートに戻る。次に、
ステップ23において、仮説相関ルール検証手段18
は、仮説相関ルール生成手段16が出力した仮説相関ル
ール17に含まれる仮説相関ルールひとつひとつについ
て、確信度を求める。ステップ24において、この確信
度を取捨基準情報13として与えられた基準と比較し、
確信度が取捨基準情報13の基準を上回っていたらステ
ップ25に進み、その仮説相関ルール17を相関ルール
として採用する。下回っていたらステップ26に進み、
その仮説相関ルール17は棄却する。ステップ25で採
用された仮説相関ルール17は補足相関ルール19とし
て出力される。
ステップ23において、仮説相関ルール検証手段18
は、仮説相関ルール生成手段16が出力した仮説相関ル
ール17に含まれる仮説相関ルールひとつひとつについ
て、確信度を求める。ステップ24において、この確信
度を取捨基準情報13として与えられた基準と比較し、
確信度が取捨基準情報13の基準を上回っていたらステ
ップ25に進み、その仮説相関ルール17を相関ルール
として採用する。下回っていたらステップ26に進み、
その仮説相関ルール17は棄却する。ステップ25で採
用された仮説相関ルール17は補足相関ルール19とし
て出力される。
【0027】この補足相関ルール19は、相関ルール生
成手段12が相関ルール15を生成する際に支持度の低
さを理由に棄却した相関ルールのうちで、相関ルール1
5の相関ルールを成立させるための構成要素となってい
る相関ルールであると捉えることができ、相関ルール1
5を補う貴重な相関ルールだと言える。
成手段12が相関ルール15を生成する際に支持度の低
さを理由に棄却した相関ルールのうちで、相関ルール1
5の相関ルールを成立させるための構成要素となってい
る相関ルールであると捉えることができ、相関ルール1
5を補う貴重な相関ルールだと言える。
【0028】例えば、相関ルール15に「くるま海老→
クッキングペーパー」という相関ルールが含まれている
とし、業務知識ベース14には「くるま海老→天ぷら
粉」「くるま海老→パン粉」「天ぷら油→クッキングペ
ーパー」「サラダ油→クッキングペーパー」という相関
ルールが含まれているとする。相関ルール15に含まれ
るルール「くるま海老→クッキングペーパー」を、業務
知識ベース14に含まれる相関ルールを用いて両方向推
論していくと、図3のd)のような結果になるので、つ
ながらなかったところをつなぐための仮説相関ルールと
して「天ぷら粉→天ぷら油」「天ぷら粉→サラダ油」
「パン粉→天ぷら油」「パン粉→サラダ油」の4つを生
成する。この4つの仮説相関ルールの確信度をそれぞれ
求めた結果、「天ぷら粉→天ぷら油」「パン粉→サラダ
油」の2つが下限値を上回っていたとすると、この2つ
が補足相関ルール19として出力される。この場合、こ
の2つのルールは、支持度が低いために相関ルール15
としては生成されなかったルールであるが、相関ルール
15として生成されたルール「くるま海老→クッキング
ペーパー」が成立するための背景となっている重要なル
ールである。
クッキングペーパー」という相関ルールが含まれている
とし、業務知識ベース14には「くるま海老→天ぷら
粉」「くるま海老→パン粉」「天ぷら油→クッキングペ
ーパー」「サラダ油→クッキングペーパー」という相関
ルールが含まれているとする。相関ルール15に含まれ
るルール「くるま海老→クッキングペーパー」を、業務
知識ベース14に含まれる相関ルールを用いて両方向推
論していくと、図3のd)のような結果になるので、つ
ながらなかったところをつなぐための仮説相関ルールと
して「天ぷら粉→天ぷら油」「天ぷら粉→サラダ油」
「パン粉→天ぷら油」「パン粉→サラダ油」の4つを生
成する。この4つの仮説相関ルールの確信度をそれぞれ
求めた結果、「天ぷら粉→天ぷら油」「パン粉→サラダ
油」の2つが下限値を上回っていたとすると、この2つ
が補足相関ルール19として出力される。この場合、こ
の2つのルールは、支持度が低いために相関ルール15
としては生成されなかったルールであるが、相関ルール
15として生成されたルール「くるま海老→クッキング
ペーパー」が成立するための背景となっている重要なル
ールである。
【0029】以上のようにこの実施の形態によれば、相
関ルール生成手段12が生成した相関ルール15の他
に、この相関ルール15を成立させるための構成要素
(背景)となっている相関ルールを補足相関ルール19
として生成しており、また、この補足相関ルール19と
して生成するかどうかの判定を確信度の高さのみにより
決定しているため、支持度は低いが価値の高い相関ルー
ルを補足相関ルール19として生成できる可能性が高く
なる。これにより、支持度の下限値を低く設定しても、
価値のある相関ルールが棄却されてしまう危険性を減ず
ることができる。
関ルール生成手段12が生成した相関ルール15の他
に、この相関ルール15を成立させるための構成要素
(背景)となっている相関ルールを補足相関ルール19
として生成しており、また、この補足相関ルール19と
して生成するかどうかの判定を確信度の高さのみにより
決定しているため、支持度は低いが価値の高い相関ルー
ルを補足相関ルール19として生成できる可能性が高く
なる。これにより、支持度の下限値を低く設定しても、
価値のある相関ルールが棄却されてしまう危険性を減ず
ることができる。
【0030】なお、この実施の形態では、相関ルール生
成手段12と仮説相関ルール検証手段18は同一の取捨
基準情報13を入力している例について説明したが、そ
れぞれ別の取捨基準情報を入力するようにしてもよい。
成手段12と仮説相関ルール検証手段18は同一の取捨
基準情報13を入力している例について説明したが、そ
れぞれ別の取捨基準情報を入力するようにしてもよい。
【0031】また、この実施の形態では、相関ルール生
成手段12が支持度と確信度の2つの情報を取捨基準情
報13から得る例について説明したが、相関ルール生成
手段12があらかじめこの2つの情報を内蔵している場
合には、この実施の形態で相関ルール生成手段12が入
力している取捨基準情報13はなくてもよい。
成手段12が支持度と確信度の2つの情報を取捨基準情
報13から得る例について説明したが、相関ルール生成
手段12があらかじめこの2つの情報を内蔵している場
合には、この実施の形態で相関ルール生成手段12が入
力している取捨基準情報13はなくてもよい。
【0032】さらにまた、この実施の形態では、仮説相
関ルール検証手段18が確信度の情報を取捨基準情報1
3から得る例について説明したが、仮説相関ルール検証
手段18があらかじめこの確信度の情報を内蔵している
場合には、本実施の形態で仮説相関ルール検証手段18
が入力している取捨基準情報13はなくてもよい。
関ルール検証手段18が確信度の情報を取捨基準情報1
3から得る例について説明したが、仮説相関ルール検証
手段18があらかじめこの確信度の情報を内蔵している
場合には、本実施の形態で仮説相関ルール検証手段18
が入力している取捨基準情報13はなくてもよい。
【0033】実施の形態2.データベースをクラスタリ
ングし、そのクラスタに特有な(つまり、ある条件下で
特徴的な)相関ルールを生成する場合について、図を用
いて説明する。図4は実施の形態2のデータマイニング
装置の構成を示す図であり、図において、30はデータ
ベース11中のデータをクラスタ分割するクラスタリン
グ手段、31はどの属性について、どのようにクラスタ
リングを行なうかという情報が格納されているクラスタ
リング情報、33はクラスタリング手段30が分割した
各クラスタ毎に特有な相関ルールである特徴的相関ルー
ル34を生成する特徴的相関ルール生成手段、35は特
徴的相関ルール生成手段33が基準値とする確率の情報
が格納されている特徴性判定基準情報である。このデー
タマイニング装置において、クラスタリング手段30
は、データベース11をクラスタリング、つまりデータ
分割する。相関ルール生成手段12は、クラスタリング
手段30によってクラスタリングされたデータをクラス
タ毎に入力し、クラスタ毎に相関ルール15を出力す
る。特徴的相関ルール生成手段33は、クラスタ毎に生
成された相関ルール15を入力し、特徴性判定基準情報
35に基づいて各クラスタ毎に特徴的な相関ルール34
を出力する。
ングし、そのクラスタに特有な(つまり、ある条件下で
特徴的な)相関ルールを生成する場合について、図を用
いて説明する。図4は実施の形態2のデータマイニング
装置の構成を示す図であり、図において、30はデータ
ベース11中のデータをクラスタ分割するクラスタリン
グ手段、31はどの属性について、どのようにクラスタ
リングを行なうかという情報が格納されているクラスタ
リング情報、33はクラスタリング手段30が分割した
各クラスタ毎に特有な相関ルールである特徴的相関ルー
ル34を生成する特徴的相関ルール生成手段、35は特
徴的相関ルール生成手段33が基準値とする確率の情報
が格納されている特徴性判定基準情報である。このデー
タマイニング装置において、クラスタリング手段30
は、データベース11をクラスタリング、つまりデータ
分割する。相関ルール生成手段12は、クラスタリング
手段30によってクラスタリングされたデータをクラス
タ毎に入力し、クラスタ毎に相関ルール15を出力す
る。特徴的相関ルール生成手段33は、クラスタ毎に生
成された相関ルール15を入力し、特徴性判定基準情報
35に基づいて各クラスタ毎に特徴的な相関ルール34
を出力する。
【0034】次に図5のフローチャートを用いて、この
データマイニング装置における処理の流れを説明する。
まず、ステップ42において、クラスタリング手段30
は、クラスタリング情報31に基づきデータベース11
のデータをクラスタリングする。ここでいうクラスタリ
ングとは、データをある属性についてグループわけする
ことであり、クラスタとはそのグループのことである。
例えば、1日の24時間を早朝、朝、昼、夕方、夜、深
夜というクラスタに分ける、所在地を東北、関東、中
部、近畿等のクラスタに分ける、といったグループ分け
である。
データマイニング装置における処理の流れを説明する。
まず、ステップ42において、クラスタリング手段30
は、クラスタリング情報31に基づきデータベース11
のデータをクラスタリングする。ここでいうクラスタリ
ングとは、データをある属性についてグループわけする
ことであり、クラスタとはそのグループのことである。
例えば、1日の24時間を早朝、朝、昼、夕方、夜、深
夜というクラスタに分ける、所在地を東北、関東、中
部、近畿等のクラスタに分ける、といったグループ分け
である。
【0035】次にステップ43において、相関ルール生
成手段12は、クラスタリング手段30によってクラス
タリングされたデータをクラスタ毎に入力し、クラスタ
毎に相関ルール15を生成する。この相関ルール生成手
段12のアルゴリズムは、実施の形態1で説明したもの
と同様のものである。「支持度」「確信度」の2つの情
報が取捨基準情報13として与えられるのも実施の形態
1の場合と同様である。
成手段12は、クラスタリング手段30によってクラス
タリングされたデータをクラスタ毎に入力し、クラスタ
毎に相関ルール15を生成する。この相関ルール生成手
段12のアルゴリズムは、実施の形態1で説明したもの
と同様のものである。「支持度」「確信度」の2つの情
報が取捨基準情報13として与えられるのも実施の形態
1の場合と同様である。
【0036】次にステップ44において、あるクラスタ
から生成された相関ルール15をひとつ取り出し、この
相関ルール15と同じルールが、他のクラスタから生成
された相関ルール15の中に存在する確率を求める。つ
まり、全クラスタ数の内、何%のクラスタからその相関
ルール15と同じルールが生成されているかを求める。
ステップ45において、この確率が、特徴性判定基準情
報35によって与えられた基準値を上回るかどうかの判
定を行い、下回っていればステップ46に進み、そのク
ラスタの特徴的な相関ルールとして採用する。上回って
いればステップ47に進み、その相関ルール15を棄却
する。このステップ44からステップ47までを、全て
のクラスタの全ての相関ルール15について行う。ステ
ップ44からステップ47までの処理は特徴的相関ルー
ル生成手段33が行なう。
から生成された相関ルール15をひとつ取り出し、この
相関ルール15と同じルールが、他のクラスタから生成
された相関ルール15の中に存在する確率を求める。つ
まり、全クラスタ数の内、何%のクラスタからその相関
ルール15と同じルールが生成されているかを求める。
ステップ45において、この確率が、特徴性判定基準情
報35によって与えられた基準値を上回るかどうかの判
定を行い、下回っていればステップ46に進み、そのク
ラスタの特徴的な相関ルールとして採用する。上回って
いればステップ47に進み、その相関ルール15を棄却
する。このステップ44からステップ47までを、全て
のクラスタの全ての相関ルール15について行う。ステ
ップ44からステップ47までの処理は特徴的相関ルー
ル生成手段33が行なう。
【0037】以上の処理により、特定のクラスタにおい
て特徴的な相関ルールを得ることができる。具体的な例
として、小売業において同時に買われる商品の相関ルー
ル(以下同時購買のルールと記す)を生成する時に、時
間帯毎の特徴的なルールを生成するケースを考える。ま
ず、売上データを売り上げ時間の属性値を用いて、10
〜12時、12〜14時というように、時間帯でクラス
タリングし、この各クラスタ毎に別々に同時購買のルー
ルを生成する。次に、各クラスタから得られた同時購買
のルールのひとつひとつについて、そのルールと同じル
ールが他のクラスタから得られたルールの中に現れる確
率を調べる。この確率が高い程、そのルールはデータ全
体を通じて平均的なルール、つまりこの場合「時間帯」
にあまり依存しない一般性の高いルールであると考える
ことができる。逆にこの確率が低い程、そのルールはそ
のクラスタの性質と強い関連を持つルール、つまりこの
場合「時間帯」との関連が強いルールであり、その時間
帯において特徴的なルールであると考えることができる
ので、この確率が基準値より下回る同時購買のルール
を、そのクラスタ(この場合、時間帯)に特徴的なルー
ルとして生成する。例えば、売上時間12:00〜1
4:00のクラスタから得られたルールの中に「弁当→
プリン(弁当を買う人は同時にプリンを買う)」という
確信度72%のルールがあって、このルールと同じルー
ルが他のクラスタから得られたルールの中に存在する確
率が基準値より低かった場合、「12時から14時の間
に弁当を買う人の72%は同時にプリンを買う」といっ
た、特定のクラスタ(時間帯)において特徴的なルール
を生成することができる。
て特徴的な相関ルールを得ることができる。具体的な例
として、小売業において同時に買われる商品の相関ルー
ル(以下同時購買のルールと記す)を生成する時に、時
間帯毎の特徴的なルールを生成するケースを考える。ま
ず、売上データを売り上げ時間の属性値を用いて、10
〜12時、12〜14時というように、時間帯でクラス
タリングし、この各クラスタ毎に別々に同時購買のルー
ルを生成する。次に、各クラスタから得られた同時購買
のルールのひとつひとつについて、そのルールと同じル
ールが他のクラスタから得られたルールの中に現れる確
率を調べる。この確率が高い程、そのルールはデータ全
体を通じて平均的なルール、つまりこの場合「時間帯」
にあまり依存しない一般性の高いルールであると考える
ことができる。逆にこの確率が低い程、そのルールはそ
のクラスタの性質と強い関連を持つルール、つまりこの
場合「時間帯」との関連が強いルールであり、その時間
帯において特徴的なルールであると考えることができる
ので、この確率が基準値より下回る同時購買のルール
を、そのクラスタ(この場合、時間帯)に特徴的なルー
ルとして生成する。例えば、売上時間12:00〜1
4:00のクラスタから得られたルールの中に「弁当→
プリン(弁当を買う人は同時にプリンを買う)」という
確信度72%のルールがあって、このルールと同じルー
ルが他のクラスタから得られたルールの中に存在する確
率が基準値より低かった場合、「12時から14時の間
に弁当を買う人の72%は同時にプリンを買う」といっ
た、特定のクラスタ(時間帯)において特徴的なルール
を生成することができる。
【0038】以上のようにこの実施の形態によれば、デ
ータベースをクラスタ分割し、各クラスタ毎に相関ルー
ルを生成し、この生成したルールと同じルールが他のク
ラスタから得られたルールの中に現れる確率に基づい
て、特徴的な相関ルールを採用するので、ある特定の条
件下において特徴的な相関ルールを生成することができ
る。
ータベースをクラスタ分割し、各クラスタ毎に相関ルー
ルを生成し、この生成したルールと同じルールが他のク
ラスタから得られたルールの中に現れる確率に基づい
て、特徴的な相関ルールを採用するので、ある特定の条
件下において特徴的な相関ルールを生成することができ
る。
【0039】なお、この実施の形態では、相関ルール生
成手段12が支持度と確信度の2つの情報を取捨基準情
報13から得る例について説明したが、相関ルール生成
手段12があらかじめこの2つの情報を内蔵している場
合、本実施の形態で相関ルール生成手段12が入力して
いる取捨基準情報13がなくてよいのは実施の形態1の
場合と同様である。
成手段12が支持度と確信度の2つの情報を取捨基準情
報13から得る例について説明したが、相関ルール生成
手段12があらかじめこの2つの情報を内蔵している場
合、本実施の形態で相関ルール生成手段12が入力して
いる取捨基準情報13がなくてよいのは実施の形態1の
場合と同様である。
【0040】また、この実施の形態では、特徴的相関ル
ール生成手段33が基準値とする確率の情報を特徴性判
定基準情報35から得る例について説明したが、特徴的
相関ルール生成手段33があらかじめこの情報を内蔵し
ている場合には、特徴的相関ルール生成手段33が入力
している特徴性判定基準情報35はなくてもよい。
ール生成手段33が基準値とする確率の情報を特徴性判
定基準情報35から得る例について説明したが、特徴的
相関ルール生成手段33があらかじめこの情報を内蔵し
ている場合には、特徴的相関ルール生成手段33が入力
している特徴性判定基準情報35はなくてもよい。
【0041】実施の形態3.実施の形態2では、ある属
性の値によってデータをクラスタリングし、そのクラス
タ毎に生成した相関ルールが他のクラスタに含まれる確
率に基づいて特徴的な相関ルールを生成する例を示した
が、データベース全体を対象として生成した相関ルール
と、このデータベースをクラスタリングしたクラスタを
対象として生成した相関ルールとの比較で、そのクラス
タ毎に特徴的な相関ルールを生成することもできる。そ
の場合の実施の形態を図を用いて説明する。図6は実施
の形態3のデータマイニング装置の構成を示す図であ
り、図において、15aはデータベース11全体を対象
として生成された相関ルール、15bはクラスタ毎に生
成された相関ルールである。クラスタリング手段30
は、データベース11をクラスタリング、つまりデータ
分割する。相関ルール生成手段12は、クラスタリング
手段30によってクラスタリングされたデータをクラス
タ毎に入力し、クラスタ毎の相関ルール15bを出力す
るとともに、データベース11全体を対象とした相関ル
ール15aを出力する。特徴的相関ルール生成手段33
は、クラスタ毎に生成された相関ルール15bとデータ
ベース11全体を対象として生成された相関ルール15
aとを入力し、各クラスタ毎に特徴的な相関ルール34
を出力する。
性の値によってデータをクラスタリングし、そのクラス
タ毎に生成した相関ルールが他のクラスタに含まれる確
率に基づいて特徴的な相関ルールを生成する例を示した
が、データベース全体を対象として生成した相関ルール
と、このデータベースをクラスタリングしたクラスタを
対象として生成した相関ルールとの比較で、そのクラス
タ毎に特徴的な相関ルールを生成することもできる。そ
の場合の実施の形態を図を用いて説明する。図6は実施
の形態3のデータマイニング装置の構成を示す図であ
り、図において、15aはデータベース11全体を対象
として生成された相関ルール、15bはクラスタ毎に生
成された相関ルールである。クラスタリング手段30
は、データベース11をクラスタリング、つまりデータ
分割する。相関ルール生成手段12は、クラスタリング
手段30によってクラスタリングされたデータをクラス
タ毎に入力し、クラスタ毎の相関ルール15bを出力す
るとともに、データベース11全体を対象とした相関ル
ール15aを出力する。特徴的相関ルール生成手段33
は、クラスタ毎に生成された相関ルール15bとデータ
ベース11全体を対象として生成された相関ルール15
aとを入力し、各クラスタ毎に特徴的な相関ルール34
を出力する。
【0042】次に図7のフローチャートを用いて、この
データマイニング装置における処理の流れを説明する。
まず、ステップ62において、相関ルール生成手段12
は、データベース11の全データを対象にした相関ルー
ル15aを生成する。続いて、ステップ63において、
クラスタリング手段30は、クラスタリング情報31に
基づきデータベース11のデータをクラスタリングし、
ステップ64において、相関ルール生成手段12は、ク
ラスタ毎に相関ルール15bを生成する。この相関ルー
ル生成手段12のアルゴリズムは、実施の形態1で説明
したものと同様のものである。「支持度」「確信度」の
2つの情報が取捨基準情報13として与えられるのも実
施の形態1の場合と同様である。
データマイニング装置における処理の流れを説明する。
まず、ステップ62において、相関ルール生成手段12
は、データベース11の全データを対象にした相関ルー
ル15aを生成する。続いて、ステップ63において、
クラスタリング手段30は、クラスタリング情報31に
基づきデータベース11のデータをクラスタリングし、
ステップ64において、相関ルール生成手段12は、ク
ラスタ毎に相関ルール15bを生成する。この相関ルー
ル生成手段12のアルゴリズムは、実施の形態1で説明
したものと同様のものである。「支持度」「確信度」の
2つの情報が取捨基準情報13として与えられるのも実
施の形態1の場合と同様である。
【0043】次にステップ65において、あるクラスタ
の相関ルール15bに含まれる相関ルールをひとつ取り
出し、この相関ルールが、データベース11の全データ
を対象にした相関ルール15aの中に存在するかどうか
を調べる。もし存在しなければ、ステップ66に進み、
そのクラスタの特徴的な相関ルールとして採用する。も
し存在すればステップ67に進み、その相関ルールは棄
却する。このステップ65からステップ67までを、全
てのクラスタの全ての相関ルールについて行なう。ステ
ップ65からステップ67までの処理は特徴的相関ルー
ル生成手段33が行なう。
の相関ルール15bに含まれる相関ルールをひとつ取り
出し、この相関ルールが、データベース11の全データ
を対象にした相関ルール15aの中に存在するかどうか
を調べる。もし存在しなければ、ステップ66に進み、
そのクラスタの特徴的な相関ルールとして採用する。も
し存在すればステップ67に進み、その相関ルールは棄
却する。このステップ65からステップ67までを、全
てのクラスタの全ての相関ルールについて行なう。ステ
ップ65からステップ67までの処理は特徴的相関ルー
ル生成手段33が行なう。
【0044】以上の処理により、特定のクラスタにおい
て特徴的な相関ルールを得ることができる。具体的な例
として、同時購買のルールを生成する時に、時間帯毎の
特徴的なルールを生成する場合を考える。まず、売上デ
ータの全データを用いて、商品の同時購買のルールを生
成する。次に、売上データを売上時間の属性値を用い
て、10〜12時、12〜14時というように、時間帯
でクラスタリングし、この各クラスタ毎に別々に同時購
買のルールを生成する。次に、各クラスタから得られた
同時購買のルールのひとつひとつについて、そのルール
と同じルールが、全データを対象として生成した同時購
買のルールの中に存在するかどうかを調べる。もし存在
しなければ、その同時購買のルールはそのクラスタ(つ
まりその時間帯)において特徴的な同時購買のルールで
あるとみなせる。これにより、例えば、12:00〜1
4:00のクラスタから得られたルールの中に「サンド
ウィッチ→プリン(サンドウィッチを買う人は同時にプ
リンを買う)」という確信度52%のルールがあって、
このルールが全データを対象として生成した同時購買の
ルールの中に存在しなかった場合、「12時から14時
の間にサンドウィッチを買う人の52%は同時にプリン
を買う」といった、ある特定のクラスタにおいて特徴的
なルールの生成ができる。
て特徴的な相関ルールを得ることができる。具体的な例
として、同時購買のルールを生成する時に、時間帯毎の
特徴的なルールを生成する場合を考える。まず、売上デ
ータの全データを用いて、商品の同時購買のルールを生
成する。次に、売上データを売上時間の属性値を用い
て、10〜12時、12〜14時というように、時間帯
でクラスタリングし、この各クラスタ毎に別々に同時購
買のルールを生成する。次に、各クラスタから得られた
同時購買のルールのひとつひとつについて、そのルール
と同じルールが、全データを対象として生成した同時購
買のルールの中に存在するかどうかを調べる。もし存在
しなければ、その同時購買のルールはそのクラスタ(つ
まりその時間帯)において特徴的な同時購買のルールで
あるとみなせる。これにより、例えば、12:00〜1
4:00のクラスタから得られたルールの中に「サンド
ウィッチ→プリン(サンドウィッチを買う人は同時にプ
リンを買う)」という確信度52%のルールがあって、
このルールが全データを対象として生成した同時購買の
ルールの中に存在しなかった場合、「12時から14時
の間にサンドウィッチを買う人の52%は同時にプリン
を買う」といった、ある特定のクラスタにおいて特徴的
なルールの生成ができる。
【0045】以上のようにこの実施の形態によれば、デ
ータベースをクラスタ分割し、各クラスタ毎に生成した
相関ルールと、データベースの全データを対象にして生
成した相関ルールとを比較することにより、実施の形態
2の場合と同様に、ある特定の条件下において特徴的な
相関ルールを生成することができる。
ータベースをクラスタ分割し、各クラスタ毎に生成した
相関ルールと、データベースの全データを対象にして生
成した相関ルールとを比較することにより、実施の形態
2の場合と同様に、ある特定の条件下において特徴的な
相関ルールを生成することができる。
【0046】なお、この実施の形態では、相関ルール生
成手段12が支持度と確信度の2つの情報を取捨基準情
報13から得る例について説明したが、相関ルール生成
手段12があらかじめこの2つの情報を内蔵している場
合、本実施の形態で相関ルール生成手段12が入力して
いる取捨基準情報13がなくてよいのは実施の形態1の
場合と同じである。
成手段12が支持度と確信度の2つの情報を取捨基準情
報13から得る例について説明したが、相関ルール生成
手段12があらかじめこの2つの情報を内蔵している場
合、本実施の形態で相関ルール生成手段12が入力して
いる取捨基準情報13がなくてよいのは実施の形態1の
場合と同じである。
【0047】また、この実施の形態では、データを「デ
ータベース全体とそのクラスタ」という階層で扱った例
について説明したが、この階層は「あるクラスタとその
クラスタを更にクラスタリングしたクラスタ」という関
係であってもよい。
ータベース全体とそのクラスタ」という階層で扱った例
について説明したが、この階層は「あるクラスタとその
クラスタを更にクラスタリングしたクラスタ」という関
係であってもよい。
【0048】実施の形態4.図8は、実施の形態4のデ
ータマイニング装置の構成を示す図であり、図におい
て、71はデータベース11のスキーマ、72はスキー
マ71と業務知識ベース14とを用いて相関ルールを生
成する属性を選択する属性選択手段である。属性選択手
段72は、データベース11のスキーマ71と、業務知
識ベース14とを入力とし、どの属性に着目した相関ル
ール生成を行なうかを決定する。相関ルール生成手段1
2はデータベース11を入力とし、属性選択手段72が
選択した属性間の相関ルールを生成し、相関ルール15
として出力する。
ータマイニング装置の構成を示す図であり、図におい
て、71はデータベース11のスキーマ、72はスキー
マ71と業務知識ベース14とを用いて相関ルールを生
成する属性を選択する属性選択手段である。属性選択手
段72は、データベース11のスキーマ71と、業務知
識ベース14とを入力とし、どの属性に着目した相関ル
ール生成を行なうかを決定する。相関ルール生成手段1
2はデータベース11を入力とし、属性選択手段72が
選択した属性間の相関ルールを生成し、相関ルール15
として出力する。
【0049】次に、実施の形態4における処理の流れに
ついて説明する。まず、属性選択手段72は、業務知識
ベース14に含まれる相関ルールのひとつひとつについ
て、その相関ルールに含まれる属性と、スキーマ71で
用いられている属性を名称で比較していき、マッチする
相関ルールを抽出する。続いて、抽出された相関ルール
に含まれる属性を選択する。相関ルール生成手段12
は、この選択された属性について相関ルールの生成を行
い、相関ルール15を出力する。相関ルール生成手段1
2のアルゴリズムは実施の形態1で説明したものと同様
のものである。「支持度」「確信度」の2つの情報が取
捨基準情報13として与えられるのも実施の形態1の場
合と同様である。
ついて説明する。まず、属性選択手段72は、業務知識
ベース14に含まれる相関ルールのひとつひとつについ
て、その相関ルールに含まれる属性と、スキーマ71で
用いられている属性を名称で比較していき、マッチする
相関ルールを抽出する。続いて、抽出された相関ルール
に含まれる属性を選択する。相関ルール生成手段12
は、この選択された属性について相関ルールの生成を行
い、相関ルール15を出力する。相関ルール生成手段1
2のアルゴリズムは実施の形態1で説明したものと同様
のものである。「支持度」「確信度」の2つの情報が取
捨基準情報13として与えられるのも実施の形態1の場
合と同様である。
【0050】さらに、図8と図9を用いて具体例を説明
する。図9において、71は、図8におけるスキーマ7
1の具体例を示したイメージ図であり、14は、図8に
おける業務知識ベース14の内容の具体例を表現したも
のである。この例において、業務知識ベース14には
「商品Aを購入する人は同時に商品Bも購入する」とい
う形式の同時購買のルールが蓄えられているものとする
が、以下、この形式の相関ルールを「A→B」と表現す
ることにして説明を進める。
する。図9において、71は、図8におけるスキーマ7
1の具体例を示したイメージ図であり、14は、図8に
おける業務知識ベース14の内容の具体例を表現したも
のである。この例において、業務知識ベース14には
「商品Aを購入する人は同時に商品Bも購入する」とい
う形式の同時購買のルールが蓄えられているものとする
が、以下、この形式の相関ルールを「A→B」と表現す
ることにして説明を進める。
【0051】さて、この例において、業務知識ベース1
4には、「ドレス→帽子」「スカート→ブラウス」「靴
→靴下」「ドレス→靴」「リボン→ドレス」という5つ
の相関ルールが蓄えられており、「帽子」「スカート」
「ドレス」「靴」の4つの属性がデータベース11のス
キーマとして用いられているとする。ここで、属性選択
手段72は、業務知識ベース14に含まれる5つの相関
ルールひとつひとつについて、相関ルールに含まれる属
性をデータベース11のスキーマとして用いられている
属性と名称で比較していくと、「ドレス→帽子」「ドレ
ス→靴」という相関ルールがマッチしているので、この
相関ルールを抽出する。他の3つの相関ルールは、スキ
ーマとして用いられていない属性を含んでおりマッチし
ないので除外する。今抽出した「ドレス→帽子」「ドレ
ス→靴」という相関ルールに含まれる属性である「ドレ
ス」と「帽子」と「靴」の3つの属性が選択される。最
後に相関ルール生成手段12は、この属性間に存在する
相関ルールを生成する。この場合、相関ルール生成手段
12は、支持度が下限値を上回る相関ルールの候補のう
ちで、選択された3つの属性だけで構成されるものを候
補として生成する。次いで、それぞれの候補の確信度を
求め、下限値を上回る候補を相関ルールとして生成す
る。
4には、「ドレス→帽子」「スカート→ブラウス」「靴
→靴下」「ドレス→靴」「リボン→ドレス」という5つ
の相関ルールが蓄えられており、「帽子」「スカート」
「ドレス」「靴」の4つの属性がデータベース11のス
キーマとして用いられているとする。ここで、属性選択
手段72は、業務知識ベース14に含まれる5つの相関
ルールひとつひとつについて、相関ルールに含まれる属
性をデータベース11のスキーマとして用いられている
属性と名称で比較していくと、「ドレス→帽子」「ドレ
ス→靴」という相関ルールがマッチしているので、この
相関ルールを抽出する。他の3つの相関ルールは、スキ
ーマとして用いられていない属性を含んでおりマッチし
ないので除外する。今抽出した「ドレス→帽子」「ドレ
ス→靴」という相関ルールに含まれる属性である「ドレ
ス」と「帽子」と「靴」の3つの属性が選択される。最
後に相関ルール生成手段12は、この属性間に存在する
相関ルールを生成する。この場合、相関ルール生成手段
12は、支持度が下限値を上回る相関ルールの候補のう
ちで、選択された3つの属性だけで構成されるものを候
補として生成する。次いで、それぞれの候補の確信度を
求め、下限値を上回る候補を相関ルールとして生成す
る。
【0052】以上のようにこの実施の形態によれば、属
性選択手段72により、業務知識ベース14の内容か
ら、有効な相関ルールが生成できる可能性が高い属性を
選択し、この属性を用いた相関ルールを相関ルール生成
手段12により生成するので、より有効なルールを効率
的に発見することが可能となる。
性選択手段72により、業務知識ベース14の内容か
ら、有効な相関ルールが生成できる可能性が高い属性を
選択し、この属性を用いた相関ルールを相関ルール生成
手段12により生成するので、より有効なルールを効率
的に発見することが可能となる。
【0053】なお、この実施の形態では、相関ルール生
成手段12が支持度と確信度の2つの情報を取捨基準情
報13から得る例について説明したが、相関ルール生成
手段12があらかじめこの2つの情報を内蔵している場
合、取捨基準情報13がなくてよいのは実施の形態1の
場合と同じである。
成手段12が支持度と確信度の2つの情報を取捨基準情
報13から得る例について説明したが、相関ルール生成
手段12があらかじめこの2つの情報を内蔵している場
合、取捨基準情報13がなくてよいのは実施の形態1の
場合と同じである。
【0054】実施の形態5.前述の実施の形態4におい
て、データベースのスキーマに用いられる属性と業務知
識ベースの中のルールに含まれる属性を比較する場合、
双方で、必ずしも同じ名称が使われているとは限らな
い。例えば、「靴」と「シューズ」といった同義語が使
われている場合や、「米」と「コシヒカリ」といった抽
象度の違う表現が使用されている場合などである。実施
の形態5は、このようなケースを考慮した例である。こ
の実施の形態について、図10、図11を用いて説明す
る。図10は、実施の形態5のデータマイニング装置の
構成を示す図であり、図において、73はスキーマ71
に用いられている属性と業務知識ベース14の中のルー
ルに含まれる属性とを比較照合する用語照合手段、74
は上位概念語、下位概念語、同義語などが記述されてい
る用語辞書である。用語照合手段73は用語辞書74を
用いて属性の名称の比較、照合を行う。図10に示した
構成は、前述の実施の形態4で説明した図8に用語照合
手段73と用語辞書74とを付加したものである。
て、データベースのスキーマに用いられる属性と業務知
識ベースの中のルールに含まれる属性を比較する場合、
双方で、必ずしも同じ名称が使われているとは限らな
い。例えば、「靴」と「シューズ」といった同義語が使
われている場合や、「米」と「コシヒカリ」といった抽
象度の違う表現が使用されている場合などである。実施
の形態5は、このようなケースを考慮した例である。こ
の実施の形態について、図10、図11を用いて説明す
る。図10は、実施の形態5のデータマイニング装置の
構成を示す図であり、図において、73はスキーマ71
に用いられている属性と業務知識ベース14の中のルー
ルに含まれる属性とを比較照合する用語照合手段、74
は上位概念語、下位概念語、同義語などが記述されてい
る用語辞書である。用語照合手段73は用語辞書74を
用いて属性の名称の比較、照合を行う。図10に示した
構成は、前述の実施の形態4で説明した図8に用語照合
手段73と用語辞書74とを付加したものである。
【0055】なお、ここでいう上位概念語とは、抽象度
の高い表現をした名称のことであり、その逆が下位概念
語である。例えば、「米」という名称は、「コシヒカ
リ」や「古々米」といった名称の上位概念語であり、
「穀物」や「農作物」という名称の下位概念語である。
の高い表現をした名称のことであり、その逆が下位概念
語である。例えば、「米」という名称は、「コシヒカ
リ」や「古々米」といった名称の上位概念語であり、
「穀物」や「農作物」という名称の下位概念語である。
【0056】次に、実施の形態5における処理の流れに
ついて説明する。まず、属性選択手段72は、用語照合
手段73を用い、業務知識ベース14に含まれる相関ル
ールのひとつひとつについて、相関ルールに含まれる属
性と、スキーマ71で用いられている属性を名称で比較
していき、マッチする相関ルールを業務知識ベース14
から抽出する。用語照合手段73は、用語辞書74を用
い、同義語や上位概念語、下位概念語を正しく考慮し
て、属性の名称の比較を行なう。続いて、属性選択手段
72は、抽出された相関ルールに含まれる属性を選択
し、相関ルール生成手段12が、この属性間の相関ルー
ルを生成する。
ついて説明する。まず、属性選択手段72は、用語照合
手段73を用い、業務知識ベース14に含まれる相関ル
ールのひとつひとつについて、相関ルールに含まれる属
性と、スキーマ71で用いられている属性を名称で比較
していき、マッチする相関ルールを業務知識ベース14
から抽出する。用語照合手段73は、用語辞書74を用
い、同義語や上位概念語、下位概念語を正しく考慮し
て、属性の名称の比較を行なう。続いて、属性選択手段
72は、抽出された相関ルールに含まれる属性を選択
し、相関ルール生成手段12が、この属性間の相関ルー
ルを生成する。
【0057】さらに、図10と図11を用いて具体例を
説明する。図11において、71は、図10におけるス
キーマ71の具体例を示したイメージ図であり、14
は、図10における業務知識ベース14の具体例を表わ
したものである。図11の74は、図10における用語
辞書74に登録された内容の具体例を表わしたものであ
る。ここで、業務知識ベース14には、「商品Aを購入
する人は同時に商品Bも購入する」という形式の同時購
買のルールが蓄えられているものとし、以下、この形式
の相関ルールを「A→B」と表現することにして説明を
進める。また、用語辞書74に登録されている内容につ
いては、図11の74において「A=B」または「A>
B」という表現を使用しているが、これは、前者が「A
とBは同義語である」後者が「AはBの上位概念語であ
る」という意味を表わすこととする。
説明する。図11において、71は、図10におけるス
キーマ71の具体例を示したイメージ図であり、14
は、図10における業務知識ベース14の具体例を表わ
したものである。図11の74は、図10における用語
辞書74に登録された内容の具体例を表わしたものであ
る。ここで、業務知識ベース14には、「商品Aを購入
する人は同時に商品Bも購入する」という形式の同時購
買のルールが蓄えられているものとし、以下、この形式
の相関ルールを「A→B」と表現することにして説明を
進める。また、用語辞書74に登録されている内容につ
いては、図11の74において「A=B」または「A>
B」という表現を使用しているが、これは、前者が「A
とBは同義語である」後者が「AはBの上位概念語であ
る」という意味を表わすこととする。
【0058】さて、この例において、業務知識ベース1
4には、「衣類→シューズ」という相関ルールが蓄えら
れており、「帽子」「スカート」「ドレス」「靴」の4
つの属性がスキーマ71で用いられているとする。さら
に、用語辞書74には、「スカート」「ドレス」「帽
子」の共通の上位概念語として、「衣類」という用語が
登録されており、「靴」という用語の同義語として「シ
ューズ」という用語が登録されている。
4には、「衣類→シューズ」という相関ルールが蓄えら
れており、「帽子」「スカート」「ドレス」「靴」の4
つの属性がスキーマ71で用いられているとする。さら
に、用語辞書74には、「スカート」「ドレス」「帽
子」の共通の上位概念語として、「衣類」という用語が
登録されており、「靴」という用語の同義語として「シ
ューズ」という用語が登録されている。
【0059】まず、属性選択手段72は、用語照合手段
73を用い、業務知識ベース14に含まれる相関ルール
「衣類→シューズ」について、相関ルールに含まれる属
性をスキーマ71で用いられている属性と名称で比較
し、マッチする相関ルールを抽出する。この場合、名称
をそのまま比較したのではマッチしないが、用語照合手
段73は、用語辞書74を参照した結果から「靴」と
「シューズ」が同義語であり、同時に「衣類」は「帽
子」「スカート」「ドレス」の上位概念語であることを
認識できるので、「衣類→シューズ」という相関ルール
はスキーマ71で用いられている属性にマッチしている
という結果を導き、属性選択手段72はこの相関ルール
を抽出する。さらに、属性選択手段72は、実施の形態
4の場合と同様に、この相関ルールに含まれる属性であ
る「衣類」「シューズ」の2つの属性を選択するわけで
あるが、「シューズ」という属性は、スキーマ71では
「靴」として用いられており、また、「衣類」という属
性は、スキーマ71では「帽子」「スカート」「ドレ
ス」という上位概念語として用いられている。従って、
属性選択手段72は相関ルール生成を行なう対象とする
属性として、「靴」「帽子」「スカート」「ドレス」の
4つの属性を選択する。最後に相関ルール生成手段12
は、この属性間に存在する相関ルールを生成する。この
場合、相関ルール生成手段12は、支持度が下限値を上
回る相関ルールの候補のうちで、選択された4つの属性
だけで構成されるものを候補として生成する。次いで、
それぞれの候補の確信度を求め、下限値を上回る候補を
相関ルールとして生成する。
73を用い、業務知識ベース14に含まれる相関ルール
「衣類→シューズ」について、相関ルールに含まれる属
性をスキーマ71で用いられている属性と名称で比較
し、マッチする相関ルールを抽出する。この場合、名称
をそのまま比較したのではマッチしないが、用語照合手
段73は、用語辞書74を参照した結果から「靴」と
「シューズ」が同義語であり、同時に「衣類」は「帽
子」「スカート」「ドレス」の上位概念語であることを
認識できるので、「衣類→シューズ」という相関ルール
はスキーマ71で用いられている属性にマッチしている
という結果を導き、属性選択手段72はこの相関ルール
を抽出する。さらに、属性選択手段72は、実施の形態
4の場合と同様に、この相関ルールに含まれる属性であ
る「衣類」「シューズ」の2つの属性を選択するわけで
あるが、「シューズ」という属性は、スキーマ71では
「靴」として用いられており、また、「衣類」という属
性は、スキーマ71では「帽子」「スカート」「ドレ
ス」という上位概念語として用いられている。従って、
属性選択手段72は相関ルール生成を行なう対象とする
属性として、「靴」「帽子」「スカート」「ドレス」の
4つの属性を選択する。最後に相関ルール生成手段12
は、この属性間に存在する相関ルールを生成する。この
場合、相関ルール生成手段12は、支持度が下限値を上
回る相関ルールの候補のうちで、選択された4つの属性
だけで構成されるものを候補として生成する。次いで、
それぞれの候補の確信度を求め、下限値を上回る候補を
相関ルールとして生成する。
【0060】以上のようにこの実施の形態によれば、実
施の形態4の場合と同様に、業務知識ベースの内容から
有効な相関ルールが生成できる可能性が高い属性の見当
を付けて相関ルールの生成を行なうようにしたことによ
り、より有効なルールを効率的に発見することが可能と
なるが、さらに、属性の名称が完全に一致しないような
場合をも考慮することにより、実施の形態4の例よりも
更に柔軟な属性選択が行えるようになる。
施の形態4の場合と同様に、業務知識ベースの内容から
有効な相関ルールが生成できる可能性が高い属性の見当
を付けて相関ルールの生成を行なうようにしたことによ
り、より有効なルールを効率的に発見することが可能と
なるが、さらに、属性の名称が完全に一致しないような
場合をも考慮することにより、実施の形態4の例よりも
更に柔軟な属性選択が行えるようになる。
【0061】また、この実施の形態では、相関ルール生
成手段12が支持度と確信度の2つの情報を取捨基準情
報13から得る例について説明したが、相関ルール生成
手段12があらかじめこの2つの情報を内蔵している場
合、取捨基準情報13がなくてよいのは実施の形態1の
場合と同じである。
成手段12が支持度と確信度の2つの情報を取捨基準情
報13から得る例について説明したが、相関ルール生成
手段12があらかじめこの2つの情報を内蔵している場
合、取捨基準情報13がなくてよいのは実施の形態1の
場合と同じである。
【0062】
【発明の効果】第1の発明によれば、相関ルール生成手
段により生成された相関ルールと業務知識ベースとから
仮説相関ルールを生成する仮説相関ルール生成手段と、
仮説相関ルール生成手段により生成された仮説相関ルー
ルがデータベース中のデータにおいて成立する確率を調
べ、この確率が取捨基準情報の確信度を上まわる仮説相
関ルールを補足相関ルールとして採用する仮説相関ルー
ル検証手段とを備えたことにより、支持度は低いが価値
の高い相関ルールを補足相関ルールとして生成できる可
能性が高くなるため、支持度の下限値を低く設定して
も、価値のある相関ルールが棄却されてしまう危険性を
減ずることができる。
段により生成された相関ルールと業務知識ベースとから
仮説相関ルールを生成する仮説相関ルール生成手段と、
仮説相関ルール生成手段により生成された仮説相関ルー
ルがデータベース中のデータにおいて成立する確率を調
べ、この確率が取捨基準情報の確信度を上まわる仮説相
関ルールを補足相関ルールとして採用する仮説相関ルー
ル検証手段とを備えたことにより、支持度は低いが価値
の高い相関ルールを補足相関ルールとして生成できる可
能性が高くなるため、支持度の下限値を低く設定して
も、価値のある相関ルールが棄却されてしまう危険性を
減ずることができる。
【0063】第2の発明によれば、相関ルール生成手段
は、第1の記憶手段に格納された支持度と確信度とに基
づいて相関ルールを生成し、仮説相関ルール生成手段
は、第2の記憶手段に格納された確信度に基づいて補足
相関ルールを採用するので、支持度の下限値を低く設定
しても、価値のある相関ルールが棄却されてしまう危険
性を減ずることができる。
は、第1の記憶手段に格納された支持度と確信度とに基
づいて相関ルールを生成し、仮説相関ルール生成手段
は、第2の記憶手段に格納された確信度に基づいて補足
相関ルールを採用するので、支持度の下限値を低く設定
しても、価値のある相関ルールが棄却されてしまう危険
性を減ずることができる。
【0064】第3の発明によれば、仮説相関ルール生成
手段は、相関ルール生成手段により生成された相関ルー
ルに対し、業務知識ベース中の相関ルールを用いて両方
向推論することにより仮説相関ルールを生成するので、
仮説相関ルールを効率良く生成できる。
手段は、相関ルール生成手段により生成された相関ルー
ルに対し、業務知識ベース中の相関ルールを用いて両方
向推論することにより仮説相関ルールを生成するので、
仮説相関ルールを効率良く生成できる。
【0065】第4の発明によれば、相関ルール生成手段
は、クラスタリング手段により分割されたクラスタ毎に
相関ルールを生成し、特徴的相関ルール生成手段は、ク
ラスタ毎に生成された相関ルールからクラスタ毎に特徴
的な相関ルールを生成するので、ある特定の条件下にお
いて特徴的な相関ルールを生成することができる。
は、クラスタリング手段により分割されたクラスタ毎に
相関ルールを生成し、特徴的相関ルール生成手段は、ク
ラスタ毎に生成された相関ルールからクラスタ毎に特徴
的な相関ルールを生成するので、ある特定の条件下にお
いて特徴的な相関ルールを生成することができる。
【0066】第5の発明によれば、クラスタリング手段
は、ユーザより指定されたクラスタ分割方法を示すクラ
スタリング情報に基づいてクラスタ分割するので、クラ
スタ分割方法をユーザは自由に指定することができる。
は、ユーザより指定されたクラスタ分割方法を示すクラ
スタリング情報に基づいてクラスタ分割するので、クラ
スタ分割方法をユーザは自由に指定することができる。
【0067】第6の発明によれば、特徴的相関ルール生
成手段は、所定のクラスタについて生成された相関ルー
ルが、他のクラスタについて生成された相関ルールの中
に存在する確率に基づいて、クラスタ毎に特徴的な相関
ルールを生成するので、他のクラスタの相関ルールとは
異なる相関ルールを生成することができる。
成手段は、所定のクラスタについて生成された相関ルー
ルが、他のクラスタについて生成された相関ルールの中
に存在する確率に基づいて、クラスタ毎に特徴的な相関
ルールを生成するので、他のクラスタの相関ルールとは
異なる相関ルールを生成することができる。
【0068】第7の発明によれば、特徴的相関ルール生
成手段は、所定のクラスタについて生成された相関ルー
ルが、データベース全体のデータを対象に生成された相
関ルール中に存在するか否かに基づいて、クラスタ毎に
特徴的な相関ルールを生成するので、データベース全体
の中で特徴的な相関ルールを生成することができる。
成手段は、所定のクラスタについて生成された相関ルー
ルが、データベース全体のデータを対象に生成された相
関ルール中に存在するか否かに基づいて、クラスタ毎に
特徴的な相関ルールを生成するので、データベース全体
の中で特徴的な相関ルールを生成することができる。
【0069】第8の発明によれば、特徴的相関ルール生
成手段は、クラスタを更に分割した子クラスタについて
生成された相関ルールが、クラスタについて生成された
相関ルールの中に存在するか否かに基づいて、クラスタ
毎に特徴的な相関ルールを生成するので、子クラスタ毎
に特徴的な相関ルールを生成することができる。
成手段は、クラスタを更に分割した子クラスタについて
生成された相関ルールが、クラスタについて生成された
相関ルールの中に存在するか否かに基づいて、クラスタ
毎に特徴的な相関ルールを生成するので、子クラスタ毎
に特徴的な相関ルールを生成することができる。
【0070】第9の発明によれば、属性選択手段は、業
務知識ベースの内容から、有効な相関ルールが生成でき
る可能性が高い属性を選択し、相関ルール生成手段は、
前記選択された属性を用いた相関ルールを生成するの
で、より有効なルールを効率的に発見することが可能と
なる。
務知識ベースの内容から、有効な相関ルールが生成でき
る可能性が高い属性を選択し、相関ルール生成手段は、
前記選択された属性を用いた相関ルールを生成するの
で、より有効なルールを効率的に発見することが可能と
なる。
【0071】第10の発明によれば、用語照合手段は、
業務知識ベース中の相関ルールに含まれる属性とスキー
マに記述された属性とを、属性の名称に関する同義語、
上位概念語又は下位概念語を格納した用語辞書を用いて
照合するので、柔軟な属性選択が行えるようになる。
業務知識ベース中の相関ルールに含まれる属性とスキー
マに記述された属性とを、属性の名称に関する同義語、
上位概念語又は下位概念語を格納した用語辞書を用いて
照合するので、柔軟な属性選択が行えるようになる。
【図1】 実施の形態1におけるデータマイニング装置
の構成図である。
の構成図である。
【図2】 実施の形態1におけるデータマイニング装置
の処理の流れを示すフローチャートである。
の処理の流れを示すフローチャートである。
【図3】 実施の形態1におけるデータマイニング装置
の仮説相関ルール生成手段の処理である、両方向推論に
よる仮説相関ルールの生成について説明する図である。
の仮説相関ルール生成手段の処理である、両方向推論に
よる仮説相関ルールの生成について説明する図である。
【図4】 実施の形態2におけるデータマイニング装置
の構成図である。
の構成図である。
【図5】 実施の形態2におけるデータマイニング装置
の処理の流れを示すフローチャートである。
の処理の流れを示すフローチャートである。
【図6】 実施の形態3におけるデータマイニング装置
の構成図である。
の構成図である。
【図7】 実施の形態3におけるデータマイニング装置
の処理の流れを示すフローチャートである。
の処理の流れを示すフローチャートである。
【図8】 実施の形態4におけるデータマイニング装置
の構成図である。
の構成図である。
【図9】 実施の形態4の具体例を説明する図である。
【図10】 実施の形態5におけるデータマイニング装
置の構成図である。
置の構成図である。
【図11】 実施の形態5の具体例を説明する図であ
る。
る。
11 データベース、12 相関ルール生成手段、13
取捨基準情報、14業務知識ベース、15 相関ルー
ル、16 仮説相関ルール生成手段、17仮説相関ルー
ル、18 仮説相関ルール検証手段、19 補足相関ル
ール、30クラスタリング手段、31 クラスタリング
情報、33 特徴的相関ルール生成手段、34 特徴的
相関ルール、35 特徴性判定基準情報、71 スキー
マ、72 属性選択手段、73 用語照合手段、74
用語辞書。
取捨基準情報、14業務知識ベース、15 相関ルー
ル、16 仮説相関ルール生成手段、17仮説相関ルー
ル、18 仮説相関ルール検証手段、19 補足相関ル
ール、30クラスタリング手段、31 クラスタリング
情報、33 特徴的相関ルール生成手段、34 特徴的
相関ルール、35 特徴性判定基準情報、71 スキー
マ、72 属性選択手段、73 用語照合手段、74
用語辞書。
Claims (10)
- 【請求項1】 相関ルールの取捨選択の基準である支持
度と確信度とが格納された取捨基準情報に基づき、デー
タベース中のデータの属性間に存在する相関ルールを生
成する相関ルール生成手段と、 有効性が予め確認されている相関ルールの集合である業
務知識ベースと、 前記相関ルール生成手段により生成された相関ルールと
前記業務知識ベースとから相関ルールの仮説である仮説
相関ルールを生成する仮説相関ルール生成手段と、 前記仮説相関ルール生成手段により生成された仮説相関
ルールが前記データベース中のデータにおいて成立する
確率を調べ、この確率が前記取捨基準情報の確信度を上
まわる前記仮説相関ルールを補足相関ルールとして採用
する仮説相関ルール検証手段とを備えたことを特徴とす
るデータマイニング装置。 - 【請求項2】 相関ルールの取捨選択の基準である支持
度と確信度とが格納された第1の記憶手段と、 前記仮説相関ルールを補足相関ルールとして採用する基
準である確信度が格納された第2の記憶手段とを備え、 前記相関ルール生成手段は、前記第1の記憶手段に格納
された前記支持度と前記確信度とに基づいて相関ルール
を生成し、 前記仮説相関ルール生成手段は、前記第2の記憶手段に
格納された確信度に基づいて補足相関ルールを採用する
ことを特徴とする請求項1記載のデータマイニング装
置。 - 【請求項3】 前記仮説相関ルール生成手段は、 前記相関ルール生成手段により生成された相関ルールに
対し、前記業務知識ベース中の相関ルールを用いて両方
向推論することにより仮説相関ルールを生成することを
特徴とする請求項1記載のデータマイニング装置。 - 【請求項4】 データベース中のデータをクラスタ分割
するクラスタリング手段と、 このクラスタリング手段により分割されたクラスタ毎に
生成された相関ルールから前記クラスタ毎に特徴的な相
関ルールを生成する特徴的相関ルール生成手段とを備
え、 前記相関ルール生成手段は、前記クラスタ毎に相関ルー
ルを生成することを特徴とする請求項1記載のデータマ
イニング装置。 - 【請求項5】 ユーザより指定されたクラスタ分割方法
を示すクラスタリング情報を格納するクラスタリング情
報記憶手段を備え、 前記クラスタリング手段は、前記クラスタリング情報記
憶手段に格納されたクラスタリング情報に基づいてクラ
スタ分割することを特徴とする請求項4記載のデータマ
イニング装置。 - 【請求項6】 前記特徴的相関ルール生成手段は、 所定の前記クラスタについて生成された相関ルールが、
他の前記クラスタについて生成された相関ルールの中に
存在する確率に基づいて、前記クラスタ毎に特徴的な相
関ルールを生成することを特徴とする請求項4記載のデ
ータマイニング装置。 - 【請求項7】 前記特徴的相関ルール生成手段は、 所定の前記クラスタについて生成された相関ルールが、
データベース全体のデータを対象に生成された相関ルー
ル中に存在するか否かに基づいて、前記クラスタ毎に特
徴的な相関ルールを生成することを特徴とする請求項4
記載のデータマイニング装置。 - 【請求項8】 前記特徴的相関ルール生成手段は、 前記クラスタを更に分割した子クラスタについて生成さ
れた相関ルールが、前記クラスタについて生成された相
関ルールの中に存在するか否かに基づいて、前記クラス
タ毎に特徴的な相関ルールを生成することを特徴とする
請求項4記載のデータマイニング装置。 - 【請求項9】 前記業務知識ベースの中からデータベー
スの定義情報を格納したスキーマに記述された属性と同
じ名称の属性を含む相関ルールを抽出し、この相関ルー
ルに含まれる属性を選択する属性選択手段を備え、 前記相関ルール生成手段は、前記属性選択手段により選
択された属性間の相関ルールを生成することを特徴とす
る請求項1記載のデータマイニング装置。 - 【請求項10】 前記スキーマに記述された属性の名称
に関する同義語、上位概念語又は下位概念語を格納した
用語辞書と、 前記業務知識ベース中の相関ルールに含まれる属性と前
記スキーマに記述された属性とを前記用語辞書を用いて
照合する用語照合手段とを備え、 前記属性選択手段は、前記用語照合手段の照合結果に基
づいて前記業務知識ベースの中から相関ルールを抽出す
ることを特徴とする請求項9記載のデータマイニング装
置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11254496A JPH09297686A (ja) | 1996-05-07 | 1996-05-07 | データマイニング装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11254496A JPH09297686A (ja) | 1996-05-07 | 1996-05-07 | データマイニング装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH09297686A true JPH09297686A (ja) | 1997-11-18 |
Family
ID=14589316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11254496A Pending JPH09297686A (ja) | 1996-05-07 | 1996-05-07 | データマイニング装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH09297686A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020087612A (ko) * | 2001-05-15 | 2002-11-23 | (주)코어로직스 | 고객 관계 관리를 위한 데이터 베이스 생성 장치 및 그 방법 |
JP2003067401A (ja) * | 2001-08-24 | 2003-03-07 | Fujitsu Ltd | 知識発見支援装置および支援方法 |
JP2006235848A (ja) * | 2005-02-23 | 2006-09-07 | Mitsubishi Electric Corp | データマイニング補助装置 |
US7698235B2 (en) | 2003-09-29 | 2010-04-13 | Nec Corporation | Ensemble learning system and method |
JP2012113744A (ja) * | 2000-09-28 | 2012-06-14 | Oracle Internatl Corp | エンタープライズウェブマイニングシステム及び方法 |
JP2013537655A (ja) * | 2010-06-22 | 2013-10-03 | プライマル フュージョン インコーポレイテッド | 複雑な知識表現を分析および合成するシステムおよび方法 |
KR20150008462A (ko) * | 2012-05-09 | 2015-01-22 | 모르포 | 사람들에 관한 데이터베이스의 데이터를 검증하는 방법 |
WO2018033946A1 (en) * | 2016-08-18 | 2018-02-22 | Nec Corporation | An information processing system, an information processing method and a computer readable storage medium |
-
1996
- 1996-05-07 JP JP11254496A patent/JPH09297686A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012113744A (ja) * | 2000-09-28 | 2012-06-14 | Oracle Internatl Corp | エンタープライズウェブマイニングシステム及び方法 |
KR20020087612A (ko) * | 2001-05-15 | 2002-11-23 | (주)코어로직스 | 고객 관계 관리를 위한 데이터 베이스 생성 장치 및 그 방법 |
JP2003067401A (ja) * | 2001-08-24 | 2003-03-07 | Fujitsu Ltd | 知識発見支援装置および支援方法 |
US7698235B2 (en) | 2003-09-29 | 2010-04-13 | Nec Corporation | Ensemble learning system and method |
JP2006235848A (ja) * | 2005-02-23 | 2006-09-07 | Mitsubishi Electric Corp | データマイニング補助装置 |
JP2013537655A (ja) * | 2010-06-22 | 2013-10-03 | プライマル フュージョン インコーポレイテッド | 複雑な知識表現を分析および合成するシステムおよび方法 |
KR20150008462A (ko) * | 2012-05-09 | 2015-01-22 | 모르포 | 사람들에 관한 데이터베이스의 데이터를 검증하는 방법 |
CN104520846A (zh) * | 2012-05-09 | 2015-04-15 | 摩福公司 | 检验数据库中与人相关的数据的方法 |
CN104520846B (zh) * | 2012-05-09 | 2019-03-19 | 摩福公司 | 检验数据库中与人相关的数据的方法 |
WO2018033946A1 (en) * | 2016-08-18 | 2018-02-22 | Nec Corporation | An information processing system, an information processing method and a computer readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190080207A1 (en) | Deep neural network visual product recognition system | |
US6915308B1 (en) | Method and apparatus for information mining and filtering | |
US6847979B2 (en) | Conceptual factoring and unification of graphs representing semantic models | |
US8412718B1 (en) | System and method for determining originality of data content | |
JPH11232330A (ja) | マーケティングシステム | |
WO2013118923A1 (en) | System and method for association extraction for surf-shopping | |
JP2003530643A (ja) | 電子カタログ | |
KR102043440B1 (ko) | 이미지 내 복수의 객체들의 조화에 기반한 조화 검색 방법 및 시스템 | |
JP2022501726A (ja) | スタイル推薦方法、装置及びコンピュータプログラム | |
CN112163160B (zh) | 基于知识图谱的敏感识别方法 | |
CN105808656B (zh) | 一种用于自助取数的处理架构及其取数方法 | |
CN111986007A (zh) | 一种商品聚合并计算相似度的方法 | |
JPH09297686A (ja) | データマイニング装置 | |
Zhou et al. | Fashion sensitive clothing recommendation using hierarchical collocation model | |
EP3829376A1 (en) | Ensemble generation for retail marketing | |
CN107146095B (zh) | 一种邮件的展示信息处理方法、装置及邮件系统 | |
JP4868484B2 (ja) | サーチプロファイルの比較方法 | |
Güllüoğlu | Segmenting customers with data mining techniques | |
Li et al. | Interpretation of association rules in multi-tier structures | |
KR102622779B1 (ko) | 상품 이미지에 속성 관련 키워드를 부여하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체 | |
JP2002149675A (ja) | テキストデータ分析装置とその方法、およびそのためのプログラムとそれを記録した記録媒体 | |
US20220100792A1 (en) | Method, device, and program for retrieving image data by using deep learning algorithm | |
KR102455007B1 (ko) | 상품 정보 검색 장치 및 방법 | |
JP3365407B2 (ja) | データ処理装置及び方法 | |
Lu et al. | A framework for segmenting customers based on probability density of transaction data |