JPH09251467A - データマイニングシステムおよびデータマイニング方法 - Google Patents

データマイニングシステムおよびデータマイニング方法

Info

Publication number
JPH09251467A
JPH09251467A JP5875096A JP5875096A JPH09251467A JP H09251467 A JPH09251467 A JP H09251467A JP 5875096 A JP5875096 A JP 5875096A JP 5875096 A JP5875096 A JP 5875096A JP H09251467 A JPH09251467 A JP H09251467A
Authority
JP
Japan
Prior art keywords
data
rule
product
database
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5875096A
Other languages
English (en)
Inventor
Yasushi Obata
康 小幡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP5875096A priority Critical patent/JPH09251467A/ja
Publication of JPH09251467A publication Critical patent/JPH09251467A/ja
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 膨大なデータを高速に処理するために超並列
計算機を用いなければなかったデータマイニングを、一
般的なマシンで行うための処理方法を提供する。 【解決手段】 予め想定されるルールを設定したルール
ベースと、商品とこの商品の有する属性情報とを対応さ
せた商品データと、生の購買データであるレシートデー
タの集合であるレシートデータベースと、前記ルールベ
ースと前記商品データによりルールの生成に最適な商品
の属性を求めると共に、求めた属性を基に前記レシート
データベースを用いて多次元データを生成し、この多次
元データを基に生成するルールの候補を設定し、設定し
たルールを構成する要素の全ての組み合わせから与えら
れた支持度を満足するルールを選択し、選択したルール
の中で与えられた確信度を満足するルールを選択するデ
ータマイニング手段とを設ける。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、製造業、流通
業、電力等のサービス業で用いられるデータベースの個
別の属性間からルールを抽出するデータマイニングシス
テムに関するものである。
【0002】
【従来の技術】まず、データベースの中のデータから知
識を発見していくデータマイニングの一つの例としてバ
スケット分析について説明する。これは同時購買の傾向
を示すルールを膨大な購買データの中から抽出していく
もので、そのルールとしては、例えば「パンを買う時
は、同時に牛乳を買う」といったものが挙げられる。こ
れを通常「パン→牛乳」といった形で該当する購買品か
ら成る論理式で記述する。当然、「パンを買っている
が、牛乳は買っていない」購買データも存在することが
考えられ、全ての購買データがこのルールを満たす訳で
はないため、成り立つデータの割合が高いルールのみが
抽出されることになる。このルールの抽出、棄却の目安
となる二つの数値として「ルールの対象となる購買デー
タの購買データ全体に対する割合」(これを支持度と称
す)と「ルールの左辺に該当するデータに対する、ルー
ルの左辺と右辺と同時に満たすデータの割合」(これを
確信度と称す)があり、前者はルールの一般性、後者は
ルールの正確さを示している。バスケット分析では、こ
の二つの数値に対するしきい値をあらかじめ決めてお
き、候補となるルールの数値がそのしきい値を越えるか
否かを求めることによってルールとしての抽出の有無を
判断する。
【0003】従って、あるルールの候補が与えられた場
合、各々の購買データについて左辺の商品を含むか、ま
たそれと同時に右辺の商品を含むかどうかを調べて全体
の集計を求めるのが処理の基本となる。
【0004】図10は、電子情報通信学会技術研究報告
Vol.95 No.408 CPYS95−95「I
BMにおけるデータマイニング技術」に開示されている
超並列計算機を用いたバスケット分析によるデータマイ
ニングシステムを模式的に示したものである。並列化の
アルゴリズムそのものについては、同文献のp30に示
されている。図に示すように、このシステムは、システ
ム全体を制御する制御用マシン20と複数の超並列マシ
ン30とで構成されている。制御用マシン20は、生の
購買データの集合を大容量のディスク装置等に格納した
購買データベース21と、この購買データベース21を
分割して複数の超並列マシン30に転送する購買データ
分割手段22とルールとなる候補を設定して検証するル
ール候補設定・検証手段23を備え、各超並列マシン3
0は、分割して転送されてきた購買データを大容量のデ
ィスク装置等に格納した分割購買データベース32
(n)(nは正の整数)と、購買データの検索と集計を
行う購買データ検索・集計手段31とを備えている。
【0005】以下、動作について説明する。購買データ
ベース21は購買データ分割手段22によって分割さ
れ、超並列マシン30の有する大容量のディスク装置等
に分割購買データベース32(n)として格納される。
システム全体を制御する制御用マシン20ではルール候
補設定・検証手段23がルールと考えられる候補を生成
し、各並列マシン30に送る。次に各並列マシン30で
は購買データ検索・集計手段31によってルール検証に
必要なデータを検索し、その集計値を制御用マシン20
に返す。ルール候補設定、検証手段23では各超並列マ
シン30の集計した値を合計し、購買データ全体での集
計値を出し、ルールの検証を行う。以上の動作を候補と
して挙げられるルール全てについて繰り返す。
【0006】
【発明が解決しようとする課題】以上のように、従来に
おいては、極めて大容量の購買データ全てについて検索
する必要があり、全件検索を高速化するために超並列計
算機を用いて性能を出していた。そのためハードウェア
のコストが高価である上、超並列計算機を動作させるた
めの特別な並列プログラミングを組まねばならず、それ
ができるシステムコンサルタントの援助を必要としてい
た。
【0007】また、従来においては、購買品の組み合わ
せ全てを対等に扱うためルールの候補の全てを検証しな
ければならず、「どのようなルールが生成され易いか、
あるいは重要か」というバイアスを反映させることによ
る検証するルールの絞り込みを行うことができなかっ
た。
【0008】この発明は、上記のような問題点を解決す
るためになされたもので、通常のマシンでのマイニング
を実現し、従来の通常のマシンと同様のプログラミング
による処理を可能とし、コストの削減を可能にすること
を目的とする。
【0009】また、検証するルールをバイアスを用いる
ことにより、購買データの検索を行う以前に絞り込むこ
とにより処理の効率化を図ることを目的とする。
【0010】
【課題を解決するための手段】この発明に係わるデータ
マイニングシステムは、予め想定されるルールを設定し
たルールベースと、商品とこの商品の有する属性情報と
を対応させた商品データと、生の購買データであるレシ
ートデータの集合であるレシートデータベースと、前記
ルールベースと前記商品データによりルールの生成に最
適な商品の属性を求めると共に、求めた属性を基に前記
レシートデータベースを検索して多次元データを生成
し、この多次元データを基に生成するルールの候補を設
定し、設定したルールを構成する要素の全ての組み合わ
せから与えられた支持度を満足するルールを選択し、選
択したルールの中で与えられた確信度を満足するルール
を選択するデータマイニング手段と、を備えるようにし
たものである。
【0011】また、前記データマイニング手段は、ルー
ルの生成に最適な商品の属性をルールを構成する要素に
ついての重複度を用いて求めるようにしたものである。
【0012】また、前記ルールベースは、専門家が有す
るノウハウを基に作成したルールによって構築するよう
にしたものである。
【0013】また、前記ルールベースは、過去のデータ
マイニングによって生成されたルールによって構築する
ようにしたものである。
【0014】また、前記ルールベースは、前記レシート
データベースからサンプリングにより数を限定して事前
のマイニングによって生成されたルールを用いて構築す
るようにしたものである。
【0015】また、前記データマイニング手段にレシー
トデータから商品名を含む第1のテーブルを、前記商品
データと前記求めた属性とを対応付けた第2のテーブル
とを生成する手段を設け、この第1のテーブルと第2の
テーブルにより多次元データを生成するソータ装置を備
えるようにしたものである。
【0016】また、前記多次元データを多面的に表示す
る表示制御手段を備えるようにしたものである。
【0017】この発明に係わるデータマイニング方法
は、以下の工程を有するものである。 (a)予め想定されるルールをルールベースとして生成
する工程、(b)商品とこの商品の属性情報を対応させ
た商品データベースを生成する工程、(c)前記ルール
ベースと前記商品データベースとを用いてルールを生成
するのに最適な商品の属性を求める工程、(d)求めた
属性を基にレシートデータから多次元データを生成する
工程、(e)生成した多次元データを基にルール候補を
生成して、このルール候補の要素を構成するすべての組
み合わせからシステムに設定された支持度を満足するル
ールを選択する工程、(f)選択したルールの中からシ
ステムに設定された確信度を満足するルールを選択する
工程。
【0018】また、前記最適な商品の属性を求める工程
は、ルールを構成する要素についての重複度を用いて求
める工程とするものである。
【0019】
【発明の実施の形態】図1は、この発明によるデータマ
イニングシステムの一実施の形態を示す構成図である。
図において、1はデータマイニングを実行するサーバマ
シンで、このサーバマシン1は多次元データの生成、デ
ータを検索する検索式の生成および処理結果を出力する
データマイニング手段2、販売店における購買品に関す
る商品データ、即ち商品名とこの商品名に対応する品
目、販売場所、メーカ名等の属性情報で構成された商品
データを格納した商品データベース6、後述のルールベ
ース生成方法により予め生成されるルールが格納された
ルールベース7、販売店における生の購買データである
レシートデータを大容量のディスク装置等に格納したレ
シートデータベース9を管理すると共にレシートデータ
およびその検索命令を受けて、検索結果を出力する大福
帳データベース手段8、およびデータマイニング手段2
により生成・参照される多次元データを格納した多次元
データベース11を管理すると共に多次元データ操作命
令を受けて、操作結果を出力する多次元データベース手
段10を備えている。13はトランザクションデータを
処理するサーバマシンで、このサーバマシン13は実時
間で発生するトランザクションデータ(購買データ)を
格納したトランザクションデータベース15とトランザ
クションデータを管理すると共にトランザクションデー
タを受けて、購買データ(レシートデータ)を出力する
オンラインデータベース手段14を備えている。
【0020】サーバマシン1とサーバマシン13とは例
えば、LANにより接続されていてトランザクションデ
ータが発生するたびに、その情報は、サーバマシン1の
データマイニング手段2に伝達され、大福帳データベー
ス手段8によりレシートデータベース9に格納される。
また、データマイニング手段2は、多次元データ作成手
段3、ルール候補設定・検証手段4および多次元データ
構造決定手段5を備えている。また、多次元データベー
ス手段10には、データの高速処理を行うために高速ソ
ータ装置12の接続が可能な構成となっている。なお、
この明細書においては、データベースとは、データの集
合とデータを格納するディスク装置等の器の両方を指す
ものとし、データベース手段とは、データベースをアク
セスするアクセスメソッドを指すものとする。
【0021】この実施の形態におけるデータマイニング
システムおよびデータマイニング方法は、データマイニ
ングの対象となる販売店における生のレシートデータを
集積して、この集計データをバスケット分析を用いて同
時購買ルールの抽出を行うものである。
【0022】以下、図を参照しながら、この実施の形態
における動作について詳細に説明する。まず、オンライ
ンデータベース手段14について説明する。オンライン
データベース手段14はオンライントランザクション処
理に用いられる基幹系のデータを取扱う。この実施の形
態におけるオンラインデータベース手段14は、一般的
なリレーショナルデータベースが有する基本的な機能と
共に、データの更新を行う毎に、発生したレシートデー
タをデータマイニング手段2を経由して大福帳データベ
ース手段8に転送する機能を備えている。
【0023】次に大福帳データベース手段8について説
明する。従来から大福帳システムと呼ばれるものがあ
り、ここで使用されるデータベースは、データを発生順
に格納していくもので、データの更新は行われず、基本
的にはデータの追加のみがなされるものである。この実
施の形態で使用する大福帳データベース手段8は、この
従来の大福帳システムにおけるベータベースのアクセス
メソッドを用いて、発生順にレシートデータを大容量デ
ータベース(レシートデータベース9)に格納してデー
タベースを管理するものである。
【0024】次に多次元データベース手段10について
説明する。多次元データベース手段10は多次元データ
を生成する機能を有すると共に生成された多次元データ
を管理し、それに対するアクセスメソッドを提供するも
のである。この多次元データベース11については従来
からデータベースのキーの数に相当する次元を作るOL
AP(On Line Analytical Pro
cessing)と呼ばれるものがあり、この実施の形
態では、このOLAPを用いるものとする。他の形式の
データから多次元データを生成する際には高速ソータ装
置12を用いて変換するデータをソートすることによっ
て、高速処理を実現することも可能である。また、多次
元データベース手段10に表示制御機能を付加すること
により、様々な検索要求に対して多次元データベース1
1にダイシングあるいはスライシング処理を施して検索
結果をあらゆる角度から多面的に表示することが可能で
ある。
【0025】次にこの実施の形態における最も特徴とす
るデータマイニング手段2について説明する。データマ
イニング手段2は多次元データに対する検索要求を作成
し、その結果に対して統計処理を施してルールを抽出す
る手段である。ルールは「A→B」という形をしてお
り、これは、「商品Aを買う人は商品Bも買う」という
ことを意味している。また、このデータマイニング手段
2は、上述のように多次元データ操作手段3、ルール候
補設定・検証手段4、多次元データ構造決定手段5の3
つの手段から成り立っている。以下にこのデータマイニ
ング手段2が他の手段と連携してルール生成を行う手順
について説明する。
【0026】図2は、この実施に形態におけるデータマ
イニングの処理の流れを示すフローチャート図である。
図2に示すように、このデータマイニング処理は、大き
く3つのステップから成り立っている。まず、ステップ
100における購買品のカテゴリ化では、商品データベ
ース6とルールベース7をバイアスとして購買品のカテ
ゴリ化、多次元データの構造決定を行う。ステップ20
0におけるデータ集計では、集計値を格納した多次元デ
ータベース11の生成、更新が行われる。ステップ30
0におけるルール生成では、ルール候補の設定と、集計
値を基にしたルール候補の検証が行われる。以下に各ス
テップの詳細について説明する。
【0027】まず最初のステップ100における購買品
のカテゴリ化ついて説明する。このステップ100はデ
ータマイニング手段2を構成する一手段である多次元デ
ータ構造決定手段5によって実行される。まず多次元デ
ータ作成のためのバイアスを設定するためにルールベー
ス7に格納されているルールデータの検索を行う。ルー
ルベース7上の各ルールは「商品A→商品B」という形
式で、同時にその重要度を示す数値である価値を有して
おり、この価値は実際の購買データ上で成り立つ数(支
持度)、確度(確信度)、専門家の判断によって与えら
れた数値等によって決められる。なお、ルールベースの
作成方法としては、以下の3つの方法を用意している。
【0028】(1)第一の方法 第一の方法は専門家が、経験を基に格納するルールを決
定するものである。各ルールの価値はそれを格納するこ
とを決定した専門家自身の判断によって数値が与えられ
る。
【0029】(2)第二の方式 第二の方式は過去のデータマイニングによる結果によっ
てルールベースを構築するものである。各ルールの価値
はその支持度と確信度の積で決定される。
【0030】(3)第三の方式 第三の方式はレシートデータの集合からランダムに抜き
出されたより少ないレシートデータでルール抽出を行
い、その結果によってルールベースを構築するものであ
る。各ルールの価値はその支持度と確信度の積で決定さ
れる。この方法によるルール抽出はデータ量が少ないた
め処理を高速に行うことができる。
【0031】図3は、ステップ100におけるカテゴリ
化の詳細な処理を示すフローチャート図である。また、
図4は、データマイニング手段2が有する商品データベ
ース6のデータ形式を示す図で、各購買品は、商品名と
それに該当する品目、販売場所、メーカ等の属性からな
るテーブルによって構成される。このデータの形式、構
造は専門家によって決められ、一旦作成されると扱う購
買品が変わらない限り固定のデータである。
【0032】以下、図3のフローチャート図を参照しな
がら、データマイニング手段2がルールデータベース7
と商品データベース6を用いてデータマイニングのバイ
アス設定としての購買品のカテゴリ化を行う手順を説明
する。
【0033】ここでは、例として、ルールデータベース
7の中にルールデータとして「A,B→C:価値10」
が格納されているものとして説明する。まずステップ1
10において、このルールの中に出現する購買品(即ち
A,B,C)を抽出し、ステップ120において、生成
された集合(A,B,C)について商品データベース6
の検索を行う。次にステップ130において、商品デー
タベース7に設定された購買品の各属性について重複度
を計算する。この例では、属性を品目とする場合には
(A,B,C)が(弁当、飲料、菓子)と全て異なるの
で重複度は0、属性を販売場所とする場合には(棚1、
棚2、棚1)でAとCが棚1で一致するので重複度は
1、属性をメーカとする場合には(M社、M社、M社)
と全てが一致するので重複度は2となる。次にステップ
140において、重複度と価値の積を計算する。そして
これをルールデータベース7に格納されている全てのル
ールについて計算し、ステップ150において、その和
を以下の計算により求める。 Σ(ルールベース中の全ルールについて)重複度*価値 これを、商品データベース6の各属性毎(即ち、品目、
販売場所、メーカ名等)に計算する。そして、ステップ
160において、最も値の少ない属性をカテゴリ化に使
う属性として決定する。何故ならば、即ち、この属性を
用いるのがルールとして最も適切と判断されるからであ
る。以下の説明では、品目が属性として決定されたこと
として説明を続ける。この場合には、商品は(品目が弁
当に該当する購買品)、(品目が飲料に該当する購買
品)、(品目が菓子に該当する購買品)といったように
カテゴリ化される。
【0034】次にステップ200のデータ集計について
説明する。このステップ200はデータマイニング手段
2を構成する一手段である多次元データ操作手段3によ
って実行される。ここでは大福帳データベース手段8が
管理するレシートデータベース9とデータマイニング手
段2が管理する商品データベース6とカテゴリ化属性か
ら(この場合、属性としては品目)、多次元データが作
成される。作成される多次元データは図5のように各次
元に相当する購買品が並べられ対応するセルにその集計
値、例えば(弁当次元=A、菓子次元=C、飲料次元=
D)のセルには購買品A,C,Dを含むレシートデータ
の数が入る。なお、この実施の形態では大福帳データベ
ース手段8には図5に示すような形式のレシートデータ
の集積がレシートデータの発生順に格納されているとす
る。大福帳データベース手段8はレシートデータが一件
発生する毎に何番目に発生したかを示すレシート番号を
付与し、データベース9の最後尾にそれを加える。この
データから多次元データを作成する方法としては以下の
2つの方式を用意してある。
【0035】第一の方法 第一の方法では、データマイニング手段2はレシートデ
ータが発生する度にそのレシートデータを大福帳データ
ベース手段8を通じて検索して、検索された購買品を商
品データベース6と照らし合わせてカテゴリに分類し、
カテゴリ毎の全ての組み合わせを生成し、各組み合わせ
の該当する多次元データのセルの集計値を1増やす命令
を多次元データベース手段10に送る。図6の例におい
てレシート番号1のレシートデータが発生した時には、
まず購買品を分類すると弁当(A)、菓子(C,E)、
飲料(D)となり、組み合わせは(A,C,D)と
(A,E,D)が生成され、多次元データの(弁当次
元、菓子次元、飲料次元)=(A,C,D),(A,
E,D)の二つのセルの集計値が一つ増えることにな
る。
【0036】第二の方式 第二の方式では、まずデータマイニング手段2は大福帳
データベース手段8にレシートデータ9の検索命令を出
し、レシートデータの中から必要な属性の絞り込みを行
い、図7のようなテーブルを作成する。次にデータマイ
ニング手段2はカテゴリ化を行う属性と商品データベー
ス6から図8のようなテーブルを作成する。そして図7
と図8の二つのテーブルを多次元データベース手段10
に送り、さらに各次元に配置されるカテゴリである品目
を指定した集計値の多次元データ生成命令を多次元デー
タベース手段10に送る。多次元データベース手段10
では図7のテーブルと図8のテーブルを高速ソータ装置
12に用いてソートした後結合し、各レシート番号毎に
各カテゴリ全ての組み合わせを生成し、図9に示すよう
なテーブルを作成する。そして、図9に示すテーブル形
式のデータを再度高速ソータ装置12でソートして多次
元データの各次元の値に対応するレシートの数を集計
し、その値を多次元データの該当するセルに格納する。
【0037】次にステップ300のルール生成について
説明する。このステップ300はデータマイニング手段
2を構成する手段であるルール候補設定・検証手段5と
多次元データ操作手段3によって実行される。以下に多
次元データベース手段10で生成された集計値の多次元
データ11から、ルール生成を行う手順を説明する。ル
ール候補設定・検証手段4では多次元データの各次元に
相当するカテゴリ間の購買品の全ての組み合わせからル
ールの候補を生成し、ユーザからシステムに対して予め
指定された支持度、確信度を満たすかどうか判断する。
例えば(弁当、菓子、飲料)=(A,C,D)の組み合
わせの中からは[A,C,D],[A,C],[A,
D],[C,D],[A],[C],[D]の各々の集
計値の検索が行われる。このうち、例えば[A,C,
D]については多次元データの該当するセルの集計値、
[A,C]では弁当がA、飲料がCのセル全ての集計値
の合計、[A]では弁当がAのセル全ての集計値の合計
が採られる。合計値は多次元データの作成時、あるいは
更新時に多次元データベース手段10によって自動的に
計算、更新される。多次元データ操作手段3では各々の
集計値を多次元データ11から検索するための検索式を
作成し、多次元データベース手段10に送る。検索結果
は多次元データ操作手段3へ返されそれを基にルール候
補設定・検証手段4による候補ルールの検証が行われ
る。例えば検索結果として[A,C,D]と[A,C]
の集計が与えられ支持度を上回り、 [A,C,D]の集計値/[A,C]の集計値 が与えられた確信度を上回る時、[A,C→D]なるル
ールが抽出されることになる。この実施の形態における
データマイニングでは以上の検証を全ての多次元上の組
み合わせについて行い、ルールを抽出する。
【0038】
【発明の効果】以上のように、この発明によれば、予め
想定されるルールを設定したルールベースと、商品とこ
の商品の有する属性情報とを対応させた商品データと、
生の購買データであるレシートデータの集合であるレシ
ートデータベースと、前記ルールベースと前記商品デー
タによりルールの生成に最適な商品の属性を求めると共
に、求めた属性を基に前記レシートデータベースを用い
て多次元データを生成するようにしたので、ルールの抽
出および検証に大容量のデータベースを使用する必要が
無く、一般的なマシンで処理することが可能となる。ま
た、検証するルールをカテゴリ間でのルールに絞ること
ができ、生成するルールはルールベースによるバイアス
を反映したものとなる。
【0039】また、多次元データを生成するための商品
の属性を商品の有する属性の重複度を用いて求めるよう
にしたので、ルールベース中のルールの特徴を生かした
ルールのみに候補を絞ることができる。
【0040】また、ルールベースを専門家が有するノウ
ハウを基に作成したルールによって構築するようにした
ので、専門家のノウハウを活用できるので、初めてルー
ルベースを構築するときには有効である。
【0041】また、ルールベースを過去のデータマイニ
ングによって生成されたルールによって構築するように
したので、学習効果を生かすことができ適切なルールベ
ースを構築することができる。
【0042】また、ルールベースをレシートデータベー
スからサンプリングにより数を限定して事前のマイニン
グによって作成されたルールにより構築するようにした
ので、ルールベースの構築が容易となる。
【0043】また、高速ソータ装置を設けるようにした
ので、異なる形式のデータから多次元データを高速に作
成することができる。
【0044】また、前記多次元データを多面的に表示す
るようにしたので、表示された集計値の多次元データを
事前にユーザが分析することによって、どの部分に重点
を置いてデータマイニングを行うか等の目安が立て易く
なる。
【0045】また、予め想定されるルールをルールベー
スとして生成する工程と、商品とこの商品の属性情報を
対応させた商品データベースを生成する工程と、前 記
ルールベースと前記商品データベースとを用いてルール
を生成するのに最適な商品の属性を求める工程と、を有
するようにしたので、検証するルールをカテゴリ間での
ルールに絞ることができ、生成するルールはルールベー
スによるバイアスを反映したものとなる。従って、デー
タの処理量が従来に比べると遥かに少なくて済み、一般
的なマシンでデータマイニングを実行することができ
る。
【0046】また、最適な商品の属性を求める工程にお
いて、多次元データを生成するための商品の属性を商品
の有する属性の重複度を用いて求めるようにしたので、
ルールベース中のルールの特徴を生かしたルールのみに
候補を絞ることができる。
【図面の簡単な説明】
【図1】 この発明によるデータマイニングシステムの
一実施の形態の構成を示す図である。
【図2】 実施の形態におけるデータマイニングの処理
手順を示すフローチャート図である。
【図3】 購買品のカテゴリ化の詳細を示すフローチャ
ート図である。
【図4】 商品データの1例を示すである。
【図5】 集計値の多次元データの例を示す図である。
【図6】 レシートデータの1例を示す図である。
【図7】 レシートデータの属性絞り込みによって生成
されるテーブルを示す図である。
【図8】 商品データとカテゴリ化の属性によって生成
されるテーブルを示す図である。
【図9】 レシート番号と多次元データ上で可能な購買
品の組み合わせを示すテーブル図である。
【図10】 従来のデータマイニングシステムの構成を
示す図である。
【符号の説明】
2 データマイニング手段、3 多次元データ操作手
段、4 ルール候補設定・検証手段、5 多次元データ
構造決定手段、6 商品データベース、7 ルールベー
ス、8 大福帳データベース手段、9 レシートデータ
ベース、10 多次元データベース手段、11 多次元
データベース、12 高速ソータ装置、14 オンライ
ンデータベース手段、15 トランザクションデータベ
ース。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 予め想定されるルールを設定したルール
    ベースと、商品とこの商品の有する属性情報とを対応さ
    せた商品データと、生の購買データであるレシートデー
    タの集合であるレシートデータベースと、前記ルールベ
    ースと前記商品データによりルールの生成に最適な商品
    の属性を求めると共に、求めた属性を基に前記レシート
    データベースを検索して多次元データを生成し、この多
    次元データを基に生成するルールの候補を設定し、設定
    したルールを構成する要素の全ての組み合わせから与え
    られた支持度を満足するルールを選択し、選択したルー
    ルの中で与えられた確信度を満足するルールを選択する
    データマイニング手段と、を備えたことを特徴とするデ
    ータマイニングシステム。
  2. 【請求項2】 前記データマイニング手段は、ルールの
    生成に最適な商品の属性をルールを構成する要素につい
    ての重複度を用いて求めることを特徴とする請求項1に
    記載のデータマイニングシステム。
  3. 【請求項3】 前記ルールベースは、専門家が有するノ
    ウハウを基に作成したルールによって構築されているこ
    とを特徴とする請求項1または請求項2に記載のデータ
    マイニングシステム。
  4. 【請求項4】 前記ルールベースは、過去のデータマイ
    ニングによって生成されたルールによって構築されてい
    ることを特徴とする請求項1または請求項2に記載のデ
    ータマイニングシステム。
  5. 【請求項5】 前記ルールベースは、前記レシートデー
    タベースからサンプリングにより数を限定して事前のマ
    イニングによって作成されたルールにより構築されてい
    ることを特徴とする請求項1または請求項2に記載のデ
    ータマイニングシステム。
  6. 【請求項6】 前記データマイニング手段にレシートデ
    ータから商品名を含む第1のテーブルと、前記商品デー
    タと前記求めた属性とを対応付けた第2のテーブルとを
    生成する手段を設け、この第1のテーブルと第2のテー
    ブルにより多次元データを生成するソータ装置を備えた
    ことを特徴とする請求項1乃至請求項5のいずれかに記
    載のデータマイニングシステム。
  7. 【請求項7】 前記多次元データを多面的に表示する表
    示制御手段を備えたことを特徴とする請求項1乃至請求
    項5のいずれかに記載のデータマイニングシステム。
  8. 【請求項8】 以下の工程を有するデータマイニング方
    法 (a)予め想定されるルールをルールベースとして生成
    する工程、(b)商品とこの商品の属性情報を対応させ
    た商品データベースを生成する工程、(c)前記ルール
    ベースと前記商品データベースとを用いてルールを生成
    するのに最適な商品の属性を求める工程、(d)求めた
    属性を基にレシートデータから多次元データを生成する
    工程、(e)生成した多次元データを基にルール候補を
    生成して、このルール候補の要素を構成するすべての組
    み合わせからシステムに設定された支持度を満足するル
    ールを選択する工程、(f)選択したルールの中からシ
    ステムに設定された確信度を満足するルールを選択する
    工程。
  9. 【請求項9】 前記最適な商品の属性を求める工程は、
    ルールを構成する要素についての重複度を用いて求める
    工程であることを特徴とする請求項8に記載のデータマ
    イニング方法。
JP5875096A 1996-03-15 1996-03-15 データマイニングシステムおよびデータマイニング方法 Pending JPH09251467A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5875096A JPH09251467A (ja) 1996-03-15 1996-03-15 データマイニングシステムおよびデータマイニング方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5875096A JPH09251467A (ja) 1996-03-15 1996-03-15 データマイニングシステムおよびデータマイニング方法

Publications (1)

Publication Number Publication Date
JPH09251467A true JPH09251467A (ja) 1997-09-22

Family

ID=13093226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5875096A Pending JPH09251467A (ja) 1996-03-15 1996-03-15 データマイニングシステムおよびデータマイニング方法

Country Status (1)

Country Link
JP (1) JPH09251467A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306186A (ja) * 1998-04-16 1999-11-05 Hitachi Ltd 組合せ分析情報作成装置及び組合せ分析情報作成プログラムを記録した記録媒体
JP2001522095A (ja) * 1997-11-04 2001-11-13 インターナショナル・ビジネス・マシーンズ・コーポレーション オンライン・データベース・マイニング
KR20020018777A (ko) * 2000-09-04 2002-03-09 박대희 패턴 분류를 위한 점증적 갱신의 데이터 마이닝 방법
JP2002189737A (ja) * 2000-12-21 2002-07-05 Toshiba Corp データ分析方法および情報処理装置およびプログラム
KR20020087612A (ko) * 2001-05-15 2002-11-23 (주)코어로직스 고객 관계 관리를 위한 데이터 베이스 생성 장치 및 그 방법
KR20030032096A (ko) * 2001-10-10 2003-04-26 이창환 데이터 마이닝 방법 및 컴퓨터로 판독가능한 기록 매체
KR100497212B1 (ko) * 2002-03-02 2005-06-23 (주)비엘시스템스 데이터 마이닝에서의 앙상블 기법에 적용되는 연관성 규칙생성 장치 및 그 방법
JP2007094592A (ja) * 2005-09-27 2007-04-12 Fusion Kk マーケティングデータ収集分析システム、サーバシステム及びマーケティングデータ収集分析プログラム
JP2007515020A (ja) * 2003-12-19 2007-06-07 プロクラリティ コーポレイション 意味のある変動を明らかにする自動監視及び動的プロセスメトリクスの統計分析
KR100727555B1 (ko) * 2005-12-05 2007-06-14 성균관대학교산학협력단 시간 가중치 엔트로피를 이용한 결정 트리 생성 방법 및이를 기록한 기록매체
JP2008077662A (ja) * 2006-09-21 2008-04-03 Catalina Marketing Corp 予測された行動に基づくターゲット化インセンティブの向上
US7458001B2 (en) 2005-08-01 2008-11-25 Kabushiki Kaisha Toshiba Sequential pattern extracting apparatus
JP2011523150A (ja) * 2008-06-13 2011-08-04 マイクロソフト コーポレーション 通信文書の組で受信された受領書の処理
US8788350B2 (en) 2008-06-13 2014-07-22 Microsoft Corporation Handling payment receipts with a receipt store

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100382296B1 (ko) * 1997-11-04 2003-05-09 인터내셔널 비지네스 머신즈 코포레이션 온라인 데이터베이스 마이닝
JP2001522095A (ja) * 1997-11-04 2001-11-13 インターナショナル・ビジネス・マシーンズ・コーポレーション オンライン・データベース・マイニング
JPH11306186A (ja) * 1998-04-16 1999-11-05 Hitachi Ltd 組合せ分析情報作成装置及び組合せ分析情報作成プログラムを記録した記録媒体
KR20020018777A (ko) * 2000-09-04 2002-03-09 박대희 패턴 분류를 위한 점증적 갱신의 데이터 마이닝 방법
JP2002189737A (ja) * 2000-12-21 2002-07-05 Toshiba Corp データ分析方法および情報処理装置およびプログラム
KR20020087612A (ko) * 2001-05-15 2002-11-23 (주)코어로직스 고객 관계 관리를 위한 데이터 베이스 생성 장치 및 그 방법
KR20030032096A (ko) * 2001-10-10 2003-04-26 이창환 데이터 마이닝 방법 및 컴퓨터로 판독가능한 기록 매체
KR100497212B1 (ko) * 2002-03-02 2005-06-23 (주)비엘시스템스 데이터 마이닝에서의 앙상블 기법에 적용되는 연관성 규칙생성 장치 및 그 방법
JP2007515020A (ja) * 2003-12-19 2007-06-07 プロクラリティ コーポレイション 意味のある変動を明らかにする自動監視及び動的プロセスメトリクスの統計分析
US7458001B2 (en) 2005-08-01 2008-11-25 Kabushiki Kaisha Toshiba Sequential pattern extracting apparatus
JP2007094592A (ja) * 2005-09-27 2007-04-12 Fusion Kk マーケティングデータ収集分析システム、サーバシステム及びマーケティングデータ収集分析プログラム
KR100727555B1 (ko) * 2005-12-05 2007-06-14 성균관대학교산학협력단 시간 가중치 엔트로피를 이용한 결정 트리 생성 방법 및이를 기록한 기록매체
JP2008077662A (ja) * 2006-09-21 2008-04-03 Catalina Marketing Corp 予測された行動に基づくターゲット化インセンティブの向上
JP2011523150A (ja) * 2008-06-13 2011-08-04 マイクロソフト コーポレーション 通信文書の組で受信された受領書の処理
US8788350B2 (en) 2008-06-13 2014-07-22 Microsoft Corporation Handling payment receipts with a receipt store

Similar Documents

Publication Publication Date Title
Lam et al. One button machine for automating feature engineering in relational databases
Jagabathula et al. A nonparametric joint assortment and price choice model
Sagin et al. Determination of association rules with market basket analysis: application in the retail sector
KR102246538B1 (ko) 그래프 데이터베이스를 이용한 상품 추천 방법 및 장치
JPH09251467A (ja) データマイニングシステムおよびデータマイニング方法
US7069197B1 (en) Factor analysis/retail data mining segmentation in a data mining system
CZ294171B6 (cs) Způsob přímého vyhledávání v rozsáhlé databázi
CN103309869B (zh) 数据对象的展示关键词推荐方法及系统
CN107016001A (zh) 一种数据查询方法及装置
CN111428007B (zh) 基于跨平台的同步推送反馈方法
JP2013517562A (ja) オンライン商取引プラットフォームにおける広告ソースおよびキーワードセットの適合
CN106997390A (zh) 一种设备配件或零部件商品交易信息搜索方法
GB2366024A (en) Data mining of weighted data
Kanakamedala et al. Sentiment analysis of online customer reviews for handicraft product using machine learning: A case of Flipkart
Feng et al. Rainbow product ranking for upgrading e-commerce
CN115937341A (zh) 一种基于ai技术的电商海报生成系统及其生成方法
CN113076322A (zh) 一种商品搜索处理方法及装置
CN106815732A (zh) 计算方法及计算系统
Tang et al. Business intelligence system based on big data technology
Yong et al. Empirical study on credit classification of E-commerce sellers based on FCM algorithm
Yilmaz et al. A heuristic for mining association rules in polynomial time
JP2005135167A (ja) データ分析装置、データ分析方法及びデータ分析プログラム
JPH11259509A (ja) 情報検索分類方法および情報検索分類システム
CN117035947B (zh) 基于大数据处理的农产品数据分析方法及云平台
Fitriana et al. Menu Sales Prediction at Kiyo Café Using Machine Learning