JPH09251467A

JPH09251467A - データマイニングシステムおよびデータマイニング方法

Info

Publication number: JPH09251467A
Application number: JP5875096A
Authority: JP
Inventors: Yasushi Obata; 康小幡
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1996-03-15
Filing date: 1996-03-15
Publication date: 1997-09-22

Abstract

(57)【要約】【課題】膨大なデータを高速に処理するために超並列
計算機を用いなければなかったデータマイニングを、一
般的なマシンで行うための処理方法を提供する。【解決手段】予め想定されるルールを設定したルール
ベースと、商品とこの商品の有する属性情報とを対応さ
せた商品データと、生の購買データであるレシートデー
タの集合であるレシートデータベースと、前記ルールベ
ースと前記商品データによりルールの生成に最適な商品
の属性を求めると共に、求めた属性を基に前記レシート
データベースを用いて多次元データを生成し、この多次
元データを基に生成するルールの候補を設定し、設定し
たルールを構成する要素の全ての組み合わせから与えら
れた支持度を満足するルールを選択し、選択したルール
の中で与えられた確信度を満足するルールを選択するデ
ータマイニング手段とを設ける。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、製造業、流通
業、電力等のサービス業で用いられるデータベースの個
別の属性間からルールを抽出するデータマイニングシス
テムに関するものである。

【０００２】

【従来の技術】まず、データベースの中のデータから知
識を発見していくデータマイニングの一つの例としてバ
スケット分析について説明する。これは同時購買の傾向
を示すルールを膨大な購買データの中から抽出していく
もので、そのルールとしては、例えば「パンを買う時
は、同時に牛乳を買う」といったものが挙げられる。こ
れを通常「パン→牛乳」といった形で該当する購買品か
ら成る論理式で記述する。当然、「パンを買っている
が、牛乳は買っていない」購買データも存在することが
考えられ、全ての購買データがこのルールを満たす訳で
はないため、成り立つデータの割合が高いルールのみが
抽出されることになる。このルールの抽出、棄却の目安
となる二つの数値として「ルールの対象となる購買デー
タの購買データ全体に対する割合」（これを支持度と称
す）と「ルールの左辺に該当するデータに対する、ルー
ルの左辺と右辺と同時に満たすデータの割合」（これを
確信度と称す）があり、前者はルールの一般性、後者は
ルールの正確さを示している。バスケット分析では、こ
の二つの数値に対するしきい値をあらかじめ決めてお
き、候補となるルールの数値がそのしきい値を越えるか
否かを求めることによってルールとしての抽出の有無を
判断する。

【０００３】従って、あるルールの候補が与えられた場
合、各々の購買データについて左辺の商品を含むか、ま
たそれと同時に右辺の商品を含むかどうかを調べて全体
の集計を求めるのが処理の基本となる。

【０００４】図１０は、電子情報通信学会技術研究報告
Ｖｏｌ．９５Ｎｏ．４０８ＣＰＹＳ９５−９５「Ｉ
ＢＭにおけるデータマイニング技術」に開示されている
超並列計算機を用いたバスケット分析によるデータマイ
ニングシステムを模式的に示したものである。並列化の
アルゴリズムそのものについては、同文献のｐ３０に示
されている。図に示すように、このシステムは、システ
ム全体を制御する制御用マシン２０と複数の超並列マシ
ン３０とで構成されている。制御用マシン２０は、生の
購買データの集合を大容量のディスク装置等に格納した
購買データベース２１と、この購買データベース２１を
分割して複数の超並列マシン３０に転送する購買データ
分割手段２２とルールとなる候補を設定して検証するル
ール候補設定・検証手段２３を備え、各超並列マシン３
０は、分割して転送されてきた購買データを大容量のデ
ィスク装置等に格納した分割購買データベース３２
（ｎ）（ｎは正の整数）と、購買データの検索と集計を
行う購買データ検索・集計手段３１とを備えている。

【０００５】以下、動作について説明する。購買データ
ベース２１は購買データ分割手段２２によって分割さ
れ、超並列マシン３０の有する大容量のディスク装置等
に分割購買データベース３２（ｎ）として格納される。
システム全体を制御する制御用マシン２０ではルール候
補設定・検証手段２３がルールと考えられる候補を生成
し、各並列マシン３０に送る。次に各並列マシン３０で
は購買データ検索・集計手段３１によってルール検証に
必要なデータを検索し、その集計値を制御用マシン２０
に返す。ルール候補設定、検証手段２３では各超並列マ
シン３０の集計した値を合計し、購買データ全体での集
計値を出し、ルールの検証を行う。以上の動作を候補と
して挙げられるルール全てについて繰り返す。

【０００６】

【発明が解決しようとする課題】以上のように、従来に
おいては、極めて大容量の購買データ全てについて検索
する必要があり、全件検索を高速化するために超並列計
算機を用いて性能を出していた。そのためハードウェア
のコストが高価である上、超並列計算機を動作させるた
めの特別な並列プログラミングを組まねばならず、それ
ができるシステムコンサルタントの援助を必要としてい
た。

【０００７】また、従来においては、購買品の組み合わ
せ全てを対等に扱うためルールの候補の全てを検証しな
ければならず、「どのようなルールが生成され易いか、
あるいは重要か」というバイアスを反映させることによ
る検証するルールの絞り込みを行うことができなかっ
た。

【０００８】この発明は、上記のような問題点を解決す
るためになされたもので、通常のマシンでのマイニング
を実現し、従来の通常のマシンと同様のプログラミング
による処理を可能とし、コストの削減を可能にすること
を目的とする。

【０００９】また、検証するルールをバイアスを用いる
ことにより、購買データの検索を行う以前に絞り込むこ
とにより処理の効率化を図ることを目的とする。

【００１０】

【課題を解決するための手段】この発明に係わるデータ
マイニングシステムは、予め想定されるルールを設定し
たルールベースと、商品とこの商品の有する属性情報と
を対応させた商品データと、生の購買データであるレシ
ートデータの集合であるレシートデータベースと、前記
ルールベースと前記商品データによりルールの生成に最
適な商品の属性を求めると共に、求めた属性を基に前記
レシートデータベースを検索して多次元データを生成
し、この多次元データを基に生成するルールの候補を設
定し、設定したルールを構成する要素の全ての組み合わ
せから与えられた支持度を満足するルールを選択し、選
択したルールの中で与えられた確信度を満足するルール
を選択するデータマイニング手段と、を備えるようにし
たものである。

【００１１】また、前記データマイニング手段は、ルー
ルの生成に最適な商品の属性をルールを構成する要素に
ついての重複度を用いて求めるようにしたものである。

【００１２】また、前記ルールベースは、専門家が有す
るノウハウを基に作成したルールによって構築するよう
にしたものである。

【００１３】また、前記ルールベースは、過去のデータ
マイニングによって生成されたルールによって構築する
ようにしたものである。

【００１４】また、前記ルールベースは、前記レシート
データベースからサンプリングにより数を限定して事前
のマイニングによって生成されたルールを用いて構築す
るようにしたものである。

【００１５】また、前記データマイニング手段にレシー
トデータから商品名を含む第１のテーブルを、前記商品
データと前記求めた属性とを対応付けた第２のテーブル
とを生成する手段を設け、この第１のテーブルと第２の
テーブルにより多次元データを生成するソータ装置を備
えるようにしたものである。

【００１６】また、前記多次元データを多面的に表示す
る表示制御手段を備えるようにしたものである。

【００１７】この発明に係わるデータマイニング方法
は、以下の工程を有するものである。（ａ）予め想定されるルールをルールベースとして生成
する工程、（ｂ）商品とこの商品の属性情報を対応させ
た商品データベースを生成する工程、（ｃ）前記ルール
ベースと前記商品データベースとを用いてルールを生成
するのに最適な商品の属性を求める工程、（ｄ）求めた
属性を基にレシートデータから多次元データを生成する
工程、（ｅ）生成した多次元データを基にルール候補を
生成して、このルール候補の要素を構成するすべての組
み合わせからシステムに設定された支持度を満足するル
ールを選択する工程、（ｆ）選択したルールの中からシ
ステムに設定された確信度を満足するルールを選択する
工程。

【００１８】また、前記最適な商品の属性を求める工程
は、ルールを構成する要素についての重複度を用いて求
める工程とするものである。

【００１９】

【発明の実施の形態】図１は、この発明によるデータマ
イニングシステムの一実施の形態を示す構成図である。
図において、１はデータマイニングを実行するサーバマ
シンで、このサーバマシン１は多次元データの生成、デ
ータを検索する検索式の生成および処理結果を出力する
データマイニング手段２、販売店における購買品に関す
る商品データ、即ち商品名とこの商品名に対応する品
目、販売場所、メーカ名等の属性情報で構成された商品
データを格納した商品データベース６、後述のルールベ
ース生成方法により予め生成されるルールが格納された
ルールベース７、販売店における生の購買データである
レシートデータを大容量のディスク装置等に格納したレ
シートデータベース９を管理すると共にレシートデータ
およびその検索命令を受けて、検索結果を出力する大福
帳データベース手段８、およびデータマイニング手段２
により生成・参照される多次元データを格納した多次元
データベース１１を管理すると共に多次元データ操作命
令を受けて、操作結果を出力する多次元データベース手
段１０を備えている。１３はトランザクションデータを
処理するサーバマシンで、このサーバマシン１３は実時
間で発生するトランザクションデータ（購買データ）を
格納したトランザクションデータベース１５とトランザ
クションデータを管理すると共にトランザクションデー
タを受けて、購買データ（レシートデータ）を出力する
オンラインデータベース手段１４を備えている。

【００２０】サーバマシン１とサーバマシン１３とは例
えば、ＬＡＮにより接続されていてトランザクションデ
ータが発生するたびに、その情報は、サーバマシン１の
データマイニング手段２に伝達され、大福帳データベー
ス手段８によりレシートデータベース９に格納される。
また、データマイニング手段２は、多次元データ作成手
段３、ルール候補設定・検証手段４および多次元データ
構造決定手段５を備えている。また、多次元データベー
ス手段１０には、データの高速処理を行うために高速ソ
ータ装置１２の接続が可能な構成となっている。なお、
この明細書においては、データベースとは、データの集
合とデータを格納するディスク装置等の器の両方を指す
ものとし、データベース手段とは、データベースをアク
セスするアクセスメソッドを指すものとする。

【００２１】この実施の形態におけるデータマイニング
システムおよびデータマイニング方法は、データマイニ
ングの対象となる販売店における生のレシートデータを
集積して、この集計データをバスケット分析を用いて同
時購買ルールの抽出を行うものである。

【００２２】以下、図を参照しながら、この実施の形態
における動作について詳細に説明する。まず、オンライ
ンデータベース手段１４について説明する。オンライン
データベース手段１４はオンライントランザクション処
理に用いられる基幹系のデータを取扱う。この実施の形
態におけるオンラインデータベース手段１４は、一般的
なリレーショナルデータベースが有する基本的な機能と
共に、データの更新を行う毎に、発生したレシートデー
タをデータマイニング手段２を経由して大福帳データベ
ース手段８に転送する機能を備えている。

【００２３】次に大福帳データベース手段８について説
明する。従来から大福帳システムと呼ばれるものがあ
り、ここで使用されるデータベースは、データを発生順
に格納していくもので、データの更新は行われず、基本
的にはデータの追加のみがなされるものである。この実
施の形態で使用する大福帳データベース手段８は、この
従来の大福帳システムにおけるベータベースのアクセス
メソッドを用いて、発生順にレシートデータを大容量デ
ータベース（レシートデータベース９）に格納してデー
タベースを管理するものである。

【００２４】次に多次元データベース手段１０について
説明する。多次元データベース手段１０は多次元データ
を生成する機能を有すると共に生成された多次元データ
を管理し、それに対するアクセスメソッドを提供するも
のである。この多次元データベース１１については従来
からデータベースのキーの数に相当する次元を作るＯＬ
ＡＰ（ＯｎＬｉｎｅＡｎａｌｙｔｉｃａｌＰｒｏ
ｃｅｓｓｉｎｇ）と呼ばれるものがあり、この実施の形
態では、このＯＬＡＰを用いるものとする。他の形式の
データから多次元データを生成する際には高速ソータ装
置１２を用いて変換するデータをソートすることによっ
て、高速処理を実現することも可能である。また、多次
元データベース手段１０に表示制御機能を付加すること
により、様々な検索要求に対して多次元データベース１
１にダイシングあるいはスライシング処理を施して検索
結果をあらゆる角度から多面的に表示することが可能で
ある。

【００２５】次にこの実施の形態における最も特徴とす
るデータマイニング手段２について説明する。データマ
イニング手段２は多次元データに対する検索要求を作成
し、その結果に対して統計処理を施してルールを抽出す
る手段である。ルールは「Ａ→Ｂ」という形をしてお
り、これは、「商品Ａを買う人は商品Ｂも買う」という
ことを意味している。また、このデータマイニング手段
２は、上述のように多次元データ操作手段３、ルール候
補設定・検証手段４、多次元データ構造決定手段５の３
つの手段から成り立っている。以下にこのデータマイニ
ング手段２が他の手段と連携してルール生成を行う手順
について説明する。

【００２６】図２は、この実施に形態におけるデータマ
イニングの処理の流れを示すフローチャート図である。
図２に示すように、このデータマイニング処理は、大き
く３つのステップから成り立っている。まず、ステップ
１００における購買品のカテゴリ化では、商品データベ
ース６とルールベース７をバイアスとして購買品のカテ
ゴリ化、多次元データの構造決定を行う。ステップ２０
０におけるデータ集計では、集計値を格納した多次元デ
ータベース１１の生成、更新が行われる。ステップ３０
０におけるルール生成では、ルール候補の設定と、集計
値を基にしたルール候補の検証が行われる。以下に各ス
テップの詳細について説明する。

【００２７】まず最初のステップ１００における購買品
のカテゴリ化ついて説明する。このステップ１００はデ
ータマイニング手段２を構成する一手段である多次元デ
ータ構造決定手段５によって実行される。まず多次元デ
ータ作成のためのバイアスを設定するためにルールベー
ス７に格納されているルールデータの検索を行う。ルー
ルベース７上の各ルールは「商品Ａ→商品Ｂ」という形
式で、同時にその重要度を示す数値である価値を有して
おり、この価値は実際の購買データ上で成り立つ数（支
持度）、確度（確信度）、専門家の判断によって与えら
れた数値等によって決められる。なお、ルールベースの
作成方法としては、以下の３つの方法を用意している。

【００２８】（１）第一の方法第一の方法は専門家が、経験を基に格納するルールを決
定するものである。各ルールの価値はそれを格納するこ
とを決定した専門家自身の判断によって数値が与えられ
る。

【００２９】（２）第二の方式第二の方式は過去のデータマイニングによる結果によっ
てルールベースを構築するものである。各ルールの価値
はその支持度と確信度の積で決定される。

【００３０】（３）第三の方式第三の方式はレシートデータの集合からランダムに抜き
出されたより少ないレシートデータでルール抽出を行
い、その結果によってルールベースを構築するものであ
る。各ルールの価値はその支持度と確信度の積で決定さ
れる。この方法によるルール抽出はデータ量が少ないた
め処理を高速に行うことができる。

【００３１】図３は、ステップ１００におけるカテゴリ
化の詳細な処理を示すフローチャート図である。また、
図４は、データマイニング手段２が有する商品データベ
ース６のデータ形式を示す図で、各購買品は、商品名と
それに該当する品目、販売場所、メーカ等の属性からな
るテーブルによって構成される。このデータの形式、構
造は専門家によって決められ、一旦作成されると扱う購
買品が変わらない限り固定のデータである。

【００３２】以下、図３のフローチャート図を参照しな
がら、データマイニング手段２がルールデータベース７
と商品データベース６を用いてデータマイニングのバイ
アス設定としての購買品のカテゴリ化を行う手順を説明
する。

【００３３】ここでは、例として、ルールデータベース
７の中にルールデータとして「Ａ，Ｂ→Ｃ：価値１０」
が格納されているものとして説明する。まずステップ１
１０において、このルールの中に出現する購買品（即ち
Ａ，Ｂ，Ｃ）を抽出し、ステップ１２０において、生成
された集合（Ａ，Ｂ，Ｃ）について商品データベース６
の検索を行う。次にステップ１３０において、商品デー
タベース７に設定された購買品の各属性について重複度
を計算する。この例では、属性を品目とする場合には
（Ａ，Ｂ，Ｃ）が（弁当、飲料、菓子）と全て異なるの
で重複度は０、属性を販売場所とする場合には（棚１、
棚２、棚１）でＡとＣが棚１で一致するので重複度は
１、属性をメーカとする場合には（Ｍ社、Ｍ社、Ｍ社）
と全てが一致するので重複度は２となる。次にステップ
１４０において、重複度と価値の積を計算する。そして
これをルールデータベース７に格納されている全てのル
ールについて計算し、ステップ１５０において、その和
を以下の計算により求める。 Σ（ルールベース中の全ルールについて）重複度＊価値これを、商品データベース６の各属性毎（即ち、品目、
販売場所、メーカ名等）に計算する。そして、ステップ
１６０において、最も値の少ない属性をカテゴリ化に使
う属性として決定する。何故ならば、即ち、この属性を
用いるのがルールとして最も適切と判断されるからであ
る。以下の説明では、品目が属性として決定されたこと
として説明を続ける。この場合には、商品は（品目が弁
当に該当する購買品）、（品目が飲料に該当する購買
品）、（品目が菓子に該当する購買品）といったように
カテゴリ化される。

【００３４】次にステップ２００のデータ集計について
説明する。このステップ２００はデータマイニング手段
２を構成する一手段である多次元データ操作手段３によ
って実行される。ここでは大福帳データベース手段８が
管理するレシートデータベース９とデータマイニング手
段２が管理する商品データベース６とカテゴリ化属性か
ら（この場合、属性としては品目）、多次元データが作
成される。作成される多次元データは図５のように各次
元に相当する購買品が並べられ対応するセルにその集計
値、例えば（弁当次元＝Ａ、菓子次元＝Ｃ、飲料次元＝
Ｄ）のセルには購買品Ａ，Ｃ，Ｄを含むレシートデータ
の数が入る。なお、この実施の形態では大福帳データベ
ース手段８には図５に示すような形式のレシートデータ
の集積がレシートデータの発生順に格納されているとす
る。大福帳データベース手段８はレシートデータが一件
発生する毎に何番目に発生したかを示すレシート番号を
付与し、データベース９の最後尾にそれを加える。この
データから多次元データを作成する方法としては以下の
２つの方式を用意してある。

【００３５】第一の方法第一の方法では、データマイニング手段２はレシートデ
ータが発生する度にそのレシートデータを大福帳データ
ベース手段８を通じて検索して、検索された購買品を商
品データベース６と照らし合わせてカテゴリに分類し、
カテゴリ毎の全ての組み合わせを生成し、各組み合わせ
の該当する多次元データのセルの集計値を１増やす命令
を多次元データベース手段１０に送る。図６の例におい
てレシート番号１のレシートデータが発生した時には、
まず購買品を分類すると弁当（Ａ）、菓子（Ｃ，Ｅ）、
飲料（Ｄ）となり、組み合わせは（Ａ，Ｃ，Ｄ）と
（Ａ，Ｅ，Ｄ）が生成され、多次元データの（弁当次
元、菓子次元、飲料次元）＝（Ａ，Ｃ，Ｄ），（Ａ，
Ｅ，Ｄ）の二つのセルの集計値が一つ増えることにな
る。

【００３６】第二の方式第二の方式では、まずデータマイニング手段２は大福帳
データベース手段８にレシートデータ９の検索命令を出
し、レシートデータの中から必要な属性の絞り込みを行
い、図７のようなテーブルを作成する。次にデータマイ
ニング手段２はカテゴリ化を行う属性と商品データベー
ス６から図８のようなテーブルを作成する。そして図７
と図８の二つのテーブルを多次元データベース手段１０
に送り、さらに各次元に配置されるカテゴリである品目
を指定した集計値の多次元データ生成命令を多次元デー
タベース手段１０に送る。多次元データベース手段１０
では図７のテーブルと図８のテーブルを高速ソータ装置
１２に用いてソートした後結合し、各レシート番号毎に
各カテゴリ全ての組み合わせを生成し、図９に示すよう
なテーブルを作成する。そして、図９に示すテーブル形
式のデータを再度高速ソータ装置１２でソートして多次
元データの各次元の値に対応するレシートの数を集計
し、その値を多次元データの該当するセルに格納する。

【００３７】次にステップ３００のルール生成について
説明する。このステップ３００はデータマイニング手段
２を構成する手段であるルール候補設定・検証手段５と
多次元データ操作手段３によって実行される。以下に多
次元データベース手段１０で生成された集計値の多次元
データ１１から、ルール生成を行う手順を説明する。ル
ール候補設定・検証手段４では多次元データの各次元に
相当するカテゴリ間の購買品の全ての組み合わせからル
ールの候補を生成し、ユーザからシステムに対して予め
指定された支持度、確信度を満たすかどうか判断する。
例えば（弁当、菓子、飲料）＝（Ａ，Ｃ，Ｄ）の組み合
わせの中からは［Ａ，Ｃ，Ｄ］，［Ａ，Ｃ］，［Ａ，
Ｄ］，［Ｃ，Ｄ］，［Ａ］，［Ｃ］，［Ｄ］の各々の集
計値の検索が行われる。このうち、例えば［Ａ，Ｃ，
Ｄ］については多次元データの該当するセルの集計値、
［Ａ，Ｃ］では弁当がＡ、飲料がＣのセル全ての集計値
の合計、［Ａ］では弁当がＡのセル全ての集計値の合計
が採られる。合計値は多次元データの作成時、あるいは
更新時に多次元データベース手段１０によって自動的に
計算、更新される。多次元データ操作手段３では各々の
集計値を多次元データ１１から検索するための検索式を
作成し、多次元データベース手段１０に送る。検索結果
は多次元データ操作手段３へ返されそれを基にルール候
補設定・検証手段４による候補ルールの検証が行われ
る。例えば検索結果として［Ａ，Ｃ，Ｄ］と［Ａ，Ｃ］
の集計が与えられ支持度を上回り、［Ａ，Ｃ，Ｄ］の集計値／［Ａ，Ｃ］の集計値が与えられた確信度を上回る時、［Ａ，Ｃ→Ｄ］なるル
ールが抽出されることになる。この実施の形態における
データマイニングでは以上の検証を全ての多次元上の組
み合わせについて行い、ルールを抽出する。

【００３８】

【発明の効果】以上のように、この発明によれば、予め
想定されるルールを設定したルールベースと、商品とこ
の商品の有する属性情報とを対応させた商品データと、
生の購買データであるレシートデータの集合であるレシ
ートデータベースと、前記ルールベースと前記商品デー
タによりルールの生成に最適な商品の属性を求めると共
に、求めた属性を基に前記レシートデータベースを用い
て多次元データを生成するようにしたので、ルールの抽
出および検証に大容量のデータベースを使用する必要が
無く、一般的なマシンで処理することが可能となる。ま
た、検証するルールをカテゴリ間でのルールに絞ること
ができ、生成するルールはルールベースによるバイアス
を反映したものとなる。

【００３９】また、多次元データを生成するための商品
の属性を商品の有する属性の重複度を用いて求めるよう
にしたので、ルールベース中のルールの特徴を生かした
ルールのみに候補を絞ることができる。

【００４０】また、ルールベースを専門家が有するノウ
ハウを基に作成したルールによって構築するようにした
ので、専門家のノウハウを活用できるので、初めてルー
ルベースを構築するときには有効である。

【００４１】また、ルールベースを過去のデータマイニ
ングによって生成されたルールによって構築するように
したので、学習効果を生かすことができ適切なルールベ
ースを構築することができる。

【００４２】また、ルールベースをレシートデータベー
スからサンプリングにより数を限定して事前のマイニン
グによって作成されたルールにより構築するようにした
ので、ルールベースの構築が容易となる。

【００４３】また、高速ソータ装置を設けるようにした
ので、異なる形式のデータから多次元データを高速に作
成することができる。

【００４４】また、前記多次元データを多面的に表示す
るようにしたので、表示された集計値の多次元データを
事前にユーザが分析することによって、どの部分に重点
を置いてデータマイニングを行うか等の目安が立て易く
なる。

【００４５】また、予め想定されるルールをルールベー
スとして生成する工程と、商品とこの商品の属性情報を
対応させた商品データベースを生成する工程と、前記
ルールベースと前記商品データベースとを用いてルール
を生成するのに最適な商品の属性を求める工程と、を有
するようにしたので、検証するルールをカテゴリ間での
ルールに絞ることができ、生成するルールはルールベー
スによるバイアスを反映したものとなる。従って、デー
タの処理量が従来に比べると遥かに少なくて済み、一般
的なマシンでデータマイニングを実行することができ
る。

【００４６】また、最適な商品の属性を求める工程にお
いて、多次元データを生成するための商品の属性を商品
の有する属性の重複度を用いて求めるようにしたので、
ルールベース中のルールの特徴を生かしたルールのみに
候補を絞ることができる。

【図面の簡単な説明】

【図１】この発明によるデータマイニングシステムの
一実施の形態の構成を示す図である。

【図２】実施の形態におけるデータマイニングの処理
手順を示すフローチャート図である。

【図３】購買品のカテゴリ化の詳細を示すフローチャ
ート図である。

【図４】商品データの１例を示すである。

【図５】集計値の多次元データの例を示す図である。

【図６】レシートデータの１例を示す図である。

【図７】レシートデータの属性絞り込みによって生成
されるテーブルを示す図である。

【図８】商品データとカテゴリ化の属性によって生成
されるテーブルを示す図である。

【図９】レシート番号と多次元データ上で可能な購買
品の組み合わせを示すテーブル図である。

【図１０】従来のデータマイニングシステムの構成を
示す図である。

【符号の説明】

２データマイニング手段、３多次元データ操作手
段、４ルール候補設定・検証手段、５多次元データ
構造決定手段、６商品データベース、７ルールベー
ス、８大福帳データベース手段、９レシートデータ
ベース、１０多次元データベース手段、１１多次元
データベース、１２高速ソータ装置、１４オンライ
ンデータベース手段、１５トランザクションデータベ
ース。

Claims

【特許請求の範囲】

【請求項１】予め想定されるルールを設定したルール
ベースと、商品とこの商品の有する属性情報とを対応さ
せた商品データと、生の購買データであるレシートデー
タの集合であるレシートデータベースと、前記ルールベ
ースと前記商品データによりルールの生成に最適な商品
の属性を求めると共に、求めた属性を基に前記レシート
データベースを検索して多次元データを生成し、この多
次元データを基に生成するルールの候補を設定し、設定
したルールを構成する要素の全ての組み合わせから与え
られた支持度を満足するルールを選択し、選択したルー
ルの中で与えられた確信度を満足するルールを選択する
データマイニング手段と、を備えたことを特徴とするデ
ータマイニングシステム。
【請求項２】前記データマイニング手段は、ルールの
生成に最適な商品の属性をルールを構成する要素につい
ての重複度を用いて求めることを特徴とする請求項１に
記載のデータマイニングシステム。
【請求項３】前記ルールベースは、専門家が有するノ
ウハウを基に作成したルールによって構築されているこ
とを特徴とする請求項１または請求項２に記載のデータ
マイニングシステム。
【請求項４】前記ルールベースは、過去のデータマイ
ニングによって生成されたルールによって構築されてい
ることを特徴とする請求項１または請求項２に記載のデ
ータマイニングシステム。
【請求項５】前記ルールベースは、前記レシートデー
タベースからサンプリングにより数を限定して事前のマ
イニングによって作成されたルールにより構築されてい
ることを特徴とする請求項１または請求項２に記載のデ
ータマイニングシステム。
【請求項６】前記データマイニング手段にレシートデ
ータから商品名を含む第１のテーブルと、前記商品デー
タと前記求めた属性とを対応付けた第２のテーブルとを
生成する手段を設け、この第１のテーブルと第２のテー
ブルにより多次元データを生成するソータ装置を備えた
ことを特徴とする請求項１乃至請求項５のいずれかに記
載のデータマイニングシステム。
【請求項７】前記多次元データを多面的に表示する表
示制御手段を備えたことを特徴とする請求項１乃至請求
項５のいずれかに記載のデータマイニングシステム。
【請求項８】以下の工程を有するデータマイニング方
法（ａ）予め想定されるルールをルールベースとして生成
する工程、（ｂ）商品とこの商品の属性情報を対応させ
た商品データベースを生成する工程、（ｃ）前記ルール
ベースと前記商品データベースとを用いてルールを生成
するのに最適な商品の属性を求める工程、（ｄ）求めた
属性を基にレシートデータから多次元データを生成する
工程、（ｅ）生成した多次元データを基にルール候補を
生成して、このルール候補の要素を構成するすべての組
み合わせからシステムに設定された支持度を満足するル
ールを選択する工程、（ｆ）選択したルールの中からシ
ステムに設定された確信度を満足するルールを選択する
工程。
【請求項９】前記最適な商品の属性を求める工程は、
ルールを構成する要素についての重複度を用いて求める
工程であることを特徴とする請求項８に記載のデータマ
イニング方法。