JP4512832B2 - 記号及び数値バスケット分析方法と記号及び数値バスケット分析装置 - Google Patents
記号及び数値バスケット分析方法と記号及び数値バスケット分析装置 Download PDFInfo
- Publication number
- JP4512832B2 JP4512832B2 JP2006547667A JP2006547667A JP4512832B2 JP 4512832 B2 JP4512832 B2 JP 4512832B2 JP 2006547667 A JP2006547667 A JP 2006547667A JP 2006547667 A JP2006547667 A JP 2006547667A JP 4512832 B2 JP4512832 B2 JP 4512832B2
- Authority
- JP
- Japan
- Prior art keywords
- numerical
- symbol
- transaction
- items
- data group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、データマイニングと呼ばれる、データベースからの知識発見手法の一つであるバスケット分析方法及びその分析方法を用いたバスケット分析装置に関し、特に、個別事象に対応する記号アイテムと、それと関連した数値アイテムとが混在する多数のトランザクションにより構成されたトランザクションデータベースから、所定の頻度閾値を満足する各トランザクション内に共起するアイテムの組合せを探索する記号及び数値バスケット分析方法及び記号及び数値バスケット分析装置に関する。
この種のバスケット分析は、例えば、コビニストアやスーパーマーケットにおいて、陳列した商品のどれとどれが同時に購入されやすいかといった問題などを分析し、購買上の相関性を発見することに用いられている。著名な相関ルールの例として、例えば「スーパーマーケットでは金曜日にビールと紙おむつが同時によく売れる」といったものがバスケット分析により見出される。このような相関ルールを見出すことにより、重点商品とは一見すると繋がりのない他の商品との品揃えの強化策の立案や販売促進計画に反映させることができる。
バスケット分析は上記の小売業などの購買データ分析に活用されるにとどまらず、携帯電話会社が各オプションの申し込み関係を解析したり、半導体製造メーカが半導体製造ラインの品質管理に応用したり、さまざまな分野で活用されている。また、最近は、小売業においても、特許文献1に開示されているように、Webサイト上で商品を販売する際に、商品の売れ筋動向や商品購入予測の分析にも利用されている。
特開2002−157394
従来のバスケット分析は、例えば、コンビニストアのレジにおいて男性顧客が牛乳とパンを買った記録のように、個別事象発生名称、即ち名称記号(これを記号アイテムという。例:牛乳を買った事実。)の集合であるトランザクション(例:1人の顧客の1回の買い物。)が多数に含まれるデータベース(例:全国チェーンの顧客購入データベース。)について、一定以上の頻度で各トランザクション内に共起するアイテムの組合せ(例:顧客全体の10%以上が牛乳とパンを同時に購入する。)を網羅探索している。
コンビニストアなどの量販小売業では、従来より購買の大半が伝統的に現金で行われてきた。現金取引は匿名であり、トランザクションに顧客を特定できる情報がないので、店舗側では顧客について何の情報も持たない。一方、最近は、クレジットカード、デビットカードの普及により匿名による取引が減少し、顧客情報が購買に関連して入手できるようになっている。このため、小売業において、トランザクションに顧客プロファイルを含むことが可能となっている。また、病院や銀行などの産業では、患者番号や口座番号などの取引者の識別情報を含むトランザクションが存在する。
ところで、バスケット分析は、記号アイテムの他に、例えば、110円の牛乳を買った事実といった、個別事象発生を表す名称とそれを特徴づける定量的数値などの数値アイテムを含む集合であるトランザクションが多数含まれるデータベースを探索対象とすることができる。購買や取引における数値化データ、例えば上記の顧客情報や取引者の識別情報における年齢や取引時の時間、気温などは数値アイテムとなる。
従来のバスケット分析方法では、アイテムのそれぞれの組み合わせごとに出現頻度を計数し、相関ルールを見出している。しかし、計数探索の対象となる記号アイテムの組合せは、例えば、5000種類の品物を売るコンビニストアでは2の5000乗通りになり、記号アイテム種類数に応じて指数的に増大し、組合せ爆発問題を生じる。したがって、従来の単純な計数探索によるバスケット分析においては計数処理時間の制約上、限られた記号アイテムに基づく定性的解析が行えるだけであり、分析精度に限界があった。マーケティングや品質管理、通信ネット管理では数値定量的解析が極めて重要であり、具体的には、男性顧客が100〜115円の牛乳と70〜93円のパンを購入するといった、事象共起関係の数値定量的解析、すなわち数値アイテムを含むトランザクションを探索対象として、より高精度の分析が求められているが、記号アイテムと数値アイテムを含めた探索では、より一層組み合わせ数が膨大になり、従来のバスケット分析では到底処理することができなかった。
従って、本発明は、上記の課題に鑑み、記号アイテム及び数値アイテムを含む多数のトランザクションを探索対象として、事象共起関係の数値定量的解析を簡易かつ高精度に行える記号及び数値バスケット分析方法及び記号及び数値バスケット分析装置の提供を目的とする。
本発明は上記課題を解決するためになされたものであり、本発明の第1の形態は、個別事象に対応する記号アイテムと、それと関連した数値アイテムとが混在する多数のトランザクションにより構成されたトランザクションデータベースから、所定の頻度閾値を満足する各トランザクション内に共起するアイテムの組合せを探索する記号及び数値バスケット分析方法であって、前記トランザクションデータベースにおける複数の数値アイテムのそれぞれに対して数値密集基準を設定し、一つの数値アイテムの初期数値群から前記数値密集基準を満たす有効数値群を抽出して、前記数値密集基準を満たさない数値群を前記初期数値群から除去し、この有効数値群について、前記頻度閾値を越えることを条件として、前記有効数値群を次の数値アイテムの初期数値群とし、前記複数の数値アイテムについて有効数値群の抽出を、前記数値密集基準により除去される数値群が出現しなくなるまで繰り返し、前記頻度閾値を満足する各トランザクション内に共起するアイテムの組合せを探索する記号及び数値バスケット分析方法である。
本発明の第2の形態は、個別事象に対応する記号アイテムと、それと関連した数値アイテムとが混在する多数のトランザクションにより構成されたトランザクションデータベースから、所定の頻度閾値を満足する各トランザクション内に共起するアイテムの組合せを探索する記号及び数値バスケット分析方法であって、前記記号アイテムに関して前記頻度閾値を満足するトランザクションを前記トランザクションデータベースから選択してトランザクションデータを抽出し、前記トランザクションデータにおける複数の数値アイテムのそれぞれに対して数値密集基準を設定し、一つの数値アイテムの初期数値群から前記数値密集基準を満たす有効数値群を抽出して、前記数値密集基準を満たさない数値群を前記初期数値群から除去し、この有効数値群について、前記頻度閾値を越えることを条件として、前記有効数値群を次の数値アイテムの初期数値群とし、前記複数の数値アイテムについて有効数値群の抽出を、前記数値密集基準により除去される数値群が出現しなくなるまで繰り返し、前記トランザクションデータにおいて、前記頻度閾値を満足する各トランザクション内に共起するアイテムの組合せを探索する記号及び数値バスケット分析方法である。
本発明の第3の形態は、前記第1又は第2の形態において、前記数値密集基準を満足する数値アイテムの数値密集基準区間は前記有効数値群の抽出の実行により区間幅が縮小可能に可変設定される記号及び数値バスケット分析方法である。
本発明の第4の形態は、前記第3の形態において、前記数値密集基準区間は数値アイテムのうち最小許容距離内にある数値を許容する数値区間である記号及び数値バスケット分析方法である。
本発明の第5の形態は、前記第4の形態において、前記数値密集基準区間は前記最小許容距離内にある数値を所定最小個数以上含む数値区間である記号及び数値バスケット分析方法である。
本発明の第6の形態は、前記第5の形態において、前記数値密集基準区間は、前記数値アイテムに含まれる数値を所定の数値軸上に射影したとき、前記最小許容距離内における前記射影された数値の累積個数が前記所定最小個数以上含む記号及び数値バスケット分析方法である。
本発明の第7の形態は、前記第6の形態において、前記所定最小個数は、前記数値軸上に射影された数値の総個数により導出される平均個数密度に基づいて決められる記号及び数値バスケット分析方法である。
本発明の第8の形態は、前記第7の形態において、前記総個数N、前記最小許容距離Δ、前記数値軸上における数値区間の最大値Max、及びその最小値Minとしたとき、前記所定最小個数は、前記最小許容距離Δあたりの平均個数密度(N/((Max−Min)/Δ))である記号及び数値バスケット分析方法である。
本発明の第9の形態は、前記第1〜第8のいずれかの形態において、前記個別事象が物品やサービス等の取引であり、前記アイテムには前記取引の実行者に関わる識別情報が含まれる記号及び数値バスケット分析方法である。
本発明の第10の形態は、個別事象に対応する記号アイテムと、それと関連した数値アイテムとが混在する多数のトランザクションにより構成されたトランザクションデータベースを記憶するトランザクションデータベース記憶手段と、前記トランザクションデータベース記憶手段における複数の数値アイテムのそれぞれに対して数値密集基準を設定する数値密集基準設定手段と、一つの数値アイテムの初期数値群から前記数値密集基準設定手段より設定された前記数値密集基準を満たす有効数値群を抽出し、かつ前記数値密集基準を満たさない数値群を前記初期数値群から除去する有効数値群抽出手段と、前記有効数値群抽出手段により抽出された有効数値群について、前記頻度閾値を越えることを条件として、前記有効数値群を次の数値アイテムの初期数値群とし、前記複数の数値アイテムについて有効数値群の抽出を、前記数値密集基準により除去される数値群が出現しなくなるまで繰り返して、前記頻度閾値を満足する各トランザクション内に共起するアイテムの組合せを探索する探索手段とを有する記号及び数値バスケット分析装置である。
本発明の第11の形態は、個別事象に対応する記号アイテムと、それと関連した数値アイテムとが混在する多数のトランザクションにより構成されたトランザクションデータベースを記憶するトランザクションデータベース記憶手段と、前記記号アイテムに関して前記頻度閾値を満足するトランザクションを前記トランザクションデータベース記憶手段から選択してトランザクションデータを抽出するトランザクションデータ抽出手段と、前記トランザクションデータにおける複数の数値アイテムのそれぞれに対して数値密集基準を設定する数値密集基準設定手段と、一つの数値アイテムの初期数値群から前記数値密集基準設定手段より設定された前記数値密集基準を満たす有効数値群を抽出し、かつ前記数値密集基準を満たさない数値群を前記初期数値群から除去する有効数値群抽出手段と、前記有効数値群抽出手段により抽出された有効数値群について、前記頻度閾値を越えることを条件として、前記有効数値群を次の数値アイテムの初期数値群とし、前記複数の数値アイテムについて有効数値群の抽出を、前記数値密集基準により除去される数値群が出現しなくなるまで繰り返して、前記トランザクションデータにおいて、前記頻度閾値を満足する各トランザクション内に共起するアイテムの組合せを探索する探索手段とを有する記号及び数値バスケット分析装置である。
本発明の第12の形態は、前記第10又は第11の形態において、前記数値密集基準設定手段により設定された前記数値密集基準を満足する数値アイテムの数値密集基準区間は前記有効数値群の抽出の実行により区間幅が縮小可能に可変設定される記号及び数値バスケット分析装置である。
本発明の第13の形態は、前記第12の形態において、前記数値密集基準区間は数値アイテムのうち最小許容幅内にある数値を許容する数値区間である記号及び数値バスケット分析装置である。
本発明の第14の形態は、前記第13の形態において、前記数値密集基準区間は前記最小許容距離内にある数値を所定最小個数以上含む数値区間である記号及び数値バスケット分析装置である。
本発明の第15の形態は、前記第14の形態において、前記数値密集基準区間は、前記数値アイテムに含まれる数値を所定の数値軸上に射影したとき、前記最小許容距離内における前記射影された数値の累積個数が前記所定最小個数以上含む記号及び数値バスケット分析装置である。
本発明の第16の形態は、前記第15の形態において、前記所定最小個数は、前記数値軸上に射影された数値の総個数により導出される平均個数密度に基づいて決められる記号及び数値バスケット分析装置である。
本発明の第17の形態は、前記第16の形態において、前記総個数N、前記最小許容距離Δ、前記数値軸上における数値区間の最大値Max、及びその最小値Minとしたとき、前記所定最小個数は、前記最小許容距離Δあたりの平均個数密度(N/((Max−Min)/Δ))である記号及び数値バスケット分析装置である。
本発明の第18の形態は、前記第10〜第17のいずれかの形態において、前記トランザクションデータベース記憶手段は、物品やサービス等の取引に関する個別事象における取引実行者に関わる識別情報を含むアイテムを記憶する記号及び数値バスケット分析装置である。
本発明の第19の形態は、前記第10〜第18のいずれかの形態において、前記トランザクションデータベース記憶手段は、POS(Point of Sales)端末から伝送される取引データを記憶する記号及び数値バスケット分析装置である。
本発明の第1の形態にかかる記号及び数値バスケット分析方法によれば、前記トランザクションデータベースにおける複数の数値アイテムのそれぞれに対して数値密集基準を設定し、一つの数値アイテムの初期数値群から前記数値密集基準を満たす有効数値群を抽出して、前記数値密集基準を満たさない数値群を前記初期数値群から除去し、この有効数値群について、前記頻度閾値を越えることを条件として、前記有効数値群を次の数値アイテムの初期数値群とし、前記複数の数値アイテムについて有効数値群の抽出を、前記数値密集基準により除去される数値群が出現しなくなるまで繰り返すので、前記数値密集基準を満たす数値アイテムの数値区間の組み合わせを探索することにより、数値の連続性から数値区間の可能な組合せは少数の数値アイテムでも無限近く存在しても、記号及び数値アイテムの各組み合わせについて無限に近い場合の数から前記頻度閾値と前記数値密集基準を満たす唯一の組合せを高速で探索することができ、簡易かつ高精度に事象共起関係の数値定量的解析を得ることができる。
本発明の第2の形態にかかる記号及び数値バスケット分析方法によれば、前記記号アイテムに関して前記頻度閾値を満足するトランザクションを前記トランザクションデータベースから選択してトランザクションデータファイルを抽出し、前記トランザクションデータファイルにおける複数の数値アイテムのそれぞれに対して数値密集基準を設定し、一つの数値アイテムの初期数値群から前記数値密集基準を満たす有効数値群を抽出して、前記数値密集基準を満たさない数値群を前記初期数値群から除去し、この有効数値群について、前記頻度閾値を越えることを条件として、前記有効数値群を次の数値アイテムの初期数値群とし、前記複数の数値アイテムについて有効数値群の抽出を、前記数値密集基準により除去される数値群が出現しなくなるまで繰り返すので、前記トランザクションデータベースから選択された前記トランザクションデータファイルにおいて、数値の連続性から数値区間の可能な組合せが少数の数値アイテムでも無限近く存在しても、記号及び数値アイテムの各組み合わせについて無限に近い場合の数から前記頻度閾値と前記数値密集基準を満たす唯一の組合せを高速で探索することができ、簡易かつ高精度に事象共起関係の数値定量的解析を得ることができる。
本発明の第3の形態によれば、前記第1又は第2の形態にかかる記号及び数値バスケット分析方法おいて、前記数値密集基準を満足する数値アイテムの数値密集基準区間は前記有効数値群の抽出の実行により区間幅が縮小可能に可変設定されるので、前記有効数値群の抽出の繰り返しにより、前記頻度閾値と前記数値密集基準を満たす唯一の組合せに高速で収斂させ、簡易かつ高精度な数値定量的解析処理を円滑に行うことができる。
本発明の第4の形態によれば、前記第3の形態において、前記数値密集基準区間は数値アイテムのうち最小許容距離内にある数値を許容する数値区間であるので、前記有効数値群の抽出の繰り返しにより、区間幅が単調に狭まっていく単調減少区間となって、前記頻度閾値と前記数値密集基準を満たす唯一の組合せに高速で収斂させ、簡易かつ高精度な数値定量的解析処理を円滑に行うことができる。殊に、店舗マーケティングの例に留まらず、千近い加工工程で各々数十の事象が重なって生産される半導体の生産品質管理などで威力を発揮する。この種の生産品質管理などにおいては、例えば、回路焼付けの温度やガス圧など連続的数値定量的条件が本質的に重要であるが、それらの条件と製品歩留まりの関係などについて前記最小許容距離内に前記数値密集基準区間を用いた網羅的解析が可能となる。なお、前記数値密集基準区間は少なくとも前記最小許容距離内にある数値が1個あればよい。また、数値アイテムのうち前記最小許容距離内に数値が必要数値個数K個以上(必要数値個数Kは人間が指定する解析パラメータである。)あるとき、それら数値の最大のものと最小のものから前記数値密集基準区間を設定するようにしてもよい。
本発明の第5の形態によれば、前記第4の形態において、前記数値密集基準区間は前記最小許容距離内にある数値を所定最小個数以上含む数値区間であるので、前記頻度閾値と前記数値密集基準を満たす唯一の組合せに高速で収斂させ、簡易かつ高精度な数値定量的解析処理を円滑に行うことができる。
本発明の第6の形態によれば、前記第5の形態において、前記数値密集基準区間は、前記数値アイテムに含まれる数値を所定の数値軸上に射影したとき、前記最小許容距離内における前記射影された数値の累積個数が前記所定最小個数以上含むので、前記数値軸上に射影した数値のみを用いて前記数値密集基準区間を決定する場合と比べて、有意な数値区間を遺漏することなく、高精度に数値定量的解析処理を行うことができる。
本発明の第7の形態によれば、前記第6の形態において、前記所定最小個数は、前記数値軸上に射影された数値の総個数により導出される平均個数密度に基づいて決められるので、前記数値の累積個数によって有意な数値区間の収集が可能となり、高精度に数値定量的解析処理を行うことができる。平均個数密度は、例えば、トランザクションデータベースの中で所与の数値軸により構成される数値アイテム空間に存在するデータの個数及びそれらの数値軸に関する最大値及び最小値から求められる。
本発明の第8の形態によれば、前記第7の形態において、前記総個数N、前記最小許容距離Δ、前記数値軸上における数値区間の最大値Max、及びその最小値Minとしたとき、前記所定最小個数は、前記最小許容距離Δあたりの平均個数密度(N/((Max−Min)/Δ))であるから、前記数値の累積個数によって有意な数値区間の収集が可能となり、また前記平均個数密度による有意な数値区間の割り出しの際に急激に外れ値を減少させ、高精度な数値定量的解析処理を円滑かつ迅速に行うことができる。
本発明の第9の形態によれば、前記第1〜第8のいずれかの形態において、前記個別事象が物品やサービス等の取引であり、前記アイテムには前記取引の実行者に関わる識別情報(記号アイテム及び/又は数値アイテム、例えば顧客の年齢、性別、職業など)が含まれるので、多数かつ多様なトランザクションをデータベースとした事象共起関係につき、より精密な数値定量的解析を行うことができる。
本発明の第10の形態にかかる記号及び数値バスケット分析装置は、前記トランザクションデータベースに記憶された前記トランザクションデータベースにおいて、前記第1の形態の記号及び数値バスケット分析方法により、数値の連続性から数値区間の可能な組合せが少数の数値アイテムでも無限近く存在しても、記号及び数値アイテムの各組み合わせについて無限に近い場合の数から前記頻度閾値と前記数値密集基準を満たす唯一の組合せを高速で探索することができ、簡易かつ高精度に事象共起関係の数値定量的解析を行うことができる。
本発明の第11の形態にかかる記号及び数値バスケット分析装置は、前記トランザクションデータファイル抽出手段により抽出された前記トランザクションデータファイルにおいて、前記第2の形態の記号及び数値バスケット分析方法により、数値の連続性から数値区間の可能な組合せが少数の数値アイテムでも無限近く存在しても、記号及び数値アイテムの各組み合わせについて無限に近い場合の数から前記頻度閾値と前記数値密集基準を満たす唯一の組合せを高速で探索することができ、簡易かつ高精度に事象共起関係の数値定量的解析を行うことができる。
本発明の第12の形態によれば、前記第10又は第11の形態において、前記数値密集基準設定手段により設定された前記数値密集基準を満足する数値アイテムの数値密集基準区間は前記有効数値群の抽出の実行により区間幅が縮小可能に可変設定されるので、前記有効数値群の抽出の繰り返しにより、前記頻度閾値と前記数値密集基準を満たす唯一の組合せに高速で収斂させ、簡易かつ高精度な数値定量的解析処理を円滑に行うことができる。
本発明の第13形態によれば、前記第12の形態において、前記数値密集基準区間は数値アイテムのうち最小許容幅内にある数値を許容する数値区間であるので、前記有効数値群の抽出の繰り返しにより、前記頻度閾値と前記数値密集基準を満たす唯一の組合せに高速で収斂させ、簡易かつ高精度な数値定量的解析処理を円滑に行うことができ、例えば半導体の生産品質管理などで威力を発揮する記号及び数値バスケット分析装置を実現することができる。
本発明の第14の形態によれば、前記第13の形態において、前記数値密集基準区間は前記最小許容距離内にある数値を所定最小個数以上含む数値区間であるので、前記頻度閾値と前記数値密集基準を満たす唯一の組合せに高速で収斂させ、簡易かつ高精度な数値定量的解析処理を円滑に行うことができる記号及び数値バスケット分析装置を実現することができる。
本発明の第15の形態によれば、前記第14の形態において、前記数値密集基準区間は、前記数値アイテムに含まれる数値を所定の数値軸上に射影したとき、前記最小許容距離内における前記射影された数値の累積個数が前記所定最小個数以上含むので、前記数値軸上に射影した数値のみを用いて前記数値密集基準区間を決定する場合と比べて、有意な数値区間を遺漏することなく、高精度に数値定量的解析処理を行うことができる記号及び数値バスケット分析装置を実現することができる。
本発明の第16の形態によれば、前記第15の形態において、前記所定最小個数は、前記数値軸上に射影された数値の総個数により導出される平均個数密度に基づいて決められるので、前記数値の累積個数によって有意な数値区間の収集が可能となり、高精度に数値定量的解析処理を行うことができる記号及び数値バスケット分析装置を実現することができる。
本発明の第17の形態によれば、前記第16の形態において、前記総個数N、前記最小許容距離Δ、前記前記数値軸上における数値区間の最大値Max、及びその最小値Minとしたとき、前記所定最小個数は、前記最小許容距離Δあたりの平均個数密度(N/((Max−Min)/Δ))であるので、高精度な数値定量的解析処理を円滑に行うことができる記号及び数値バスケット分析装置を実現することができる。
本発明の第18の形態によれば、前記第10〜第17のいずれかの形態において、前記トランザクションデータベース記憶手段は、物品やサービス等の取引に関する個別事象における取引実行者に関わる識別情報を含むアイテム((記号アイテム及び/又は数値アイテム、例えば顧客の年齢、性別、職業など)が含まれるので、多数かつ多様なトランザクションをデータベースとした事象共起関係につき、より精密な数値定量的解析を行える記号及び数値バスケット分析装置を実現することができる。
本発明の第19の形態によれば、前記第10〜第18のいずれかの形態において、前記トランザクションデータベース記憶手段は、POS端末から伝送される取引データを記憶するので、例えば店舗のPOS端末から収集した販売履歴などの前記トランザクションについて、高速でかつ精密な数値定量的解析を行える記号及び数値バスケット分析装置を実現することができる。
1 POS端末
2 購入履歴情報作成装置
3 購入情報入力装置
4 顧客情報読取装置
5 購入履歴情報記憶装置
6 記号及び数値バスケット分析装置
7 トランザクションデータ処理部
8 データ記憶部
9 バスケット分析プログラム記憶部
10 入力指示装置
11 分析結果出力部
100 トランザクションデータベース
Di 数値群
X1 数値軸
X2 数値軸
Δ 最小許容距離
k1 最小値
k16 最大値
D1 数値データ
D2 数値データ
D3 数値データ
d 平均個数密度
SS1 超球
SS2 超球
2 購入履歴情報作成装置
3 購入情報入力装置
4 顧客情報読取装置
5 購入履歴情報記憶装置
6 記号及び数値バスケット分析装置
7 トランザクションデータ処理部
8 データ記憶部
9 バスケット分析プログラム記憶部
10 入力指示装置
11 分析結果出力部
100 トランザクションデータベース
Di 数値群
X1 数値軸
X2 数値軸
Δ 最小許容距離
k1 最小値
k16 最大値
D1 数値データ
D2 数値データ
D3 数値データ
d 平均個数密度
SS1 超球
SS2 超球
以下に、本発明に係る記号及び数値バスケット分析方法及びそれを用いた記号及び数値バスケット分析装置の実施形態を添付する図面を参照して詳細に説明する。
図1は本発明に係る記号及び数値バスケット分析装置を含むバスケット分析システムを示す。
本実施形態に係るバスケット分析システムは、小売業のPOS端末における商品購入情報を収集し、消費者の購買動向を分析するためのものである。このバスケット分析システムは、購入履歴情報作成装置2、購入情報入力装置3及び顧客情報読取装置4からなるPOS端末1と、POS端末1とデータ通信可能にネットワークによって接続されているセンタ側の購入履歴情報記憶装置5と、購入履歴情報記憶装置5の記憶データにより、本発明に係る記号及び数値バスケット分析方法によるバスケット分析を行う記号及び数値バスケット分析装置6とからなる。顧客情報読取装置4はセンタのホストコンピュータ(図示せず)に接続され、顧客管理データファイルとして使用される。
図1は本発明に係る記号及び数値バスケット分析装置を含むバスケット分析システムを示す。
本実施形態に係るバスケット分析システムは、小売業のPOS端末における商品購入情報を収集し、消費者の購買動向を分析するためのものである。このバスケット分析システムは、購入履歴情報作成装置2、購入情報入力装置3及び顧客情報読取装置4からなるPOS端末1と、POS端末1とデータ通信可能にネットワークによって接続されているセンタ側の購入履歴情報記憶装置5と、購入履歴情報記憶装置5の記憶データにより、本発明に係る記号及び数値バスケット分析方法によるバスケット分析を行う記号及び数値バスケット分析装置6とからなる。顧客情報読取装置4はセンタのホストコンピュータ(図示せず)に接続され、顧客管理データファイルとして使用される。
購入情報入力装置3は、例えば、店頭に設置されたバーコードリーダ又はキー入力装置であり、商品等から読み取られたデータあるいはキー入力されたデータは、購入履歴情報作成装置2において、購入された商品の商品名や商品分類コード、価格等の商品購入情報が作成され、購入履歴情報記憶装置5へ転送される。複数の商品を購入した場合は、複数の商品購入情報が一括して送信される。顧客情報読取装置4は、例えば、ICカードリーダ等であり、顧客ごとに登録されているICカード等の記録媒体を介して、商品を購入した顧客に関する顧客情報(例えば、年齢、性別、職業等、顧客の特徴を表す属性など)を読み出して購入履歴情報作成装置2に送信する。
購入履歴情報作成装置2は、購入情報入力装置3から商品購入情報を、また顧客情報読取装置4から顧客情報を取得し、商品購入情報及び顧客情報を顧客ID等を用いて紐付けして商品購入履歴を作成し、また、必要に応じて、店舗情報や時刻等の情報をその履歴に付加して、購入履歴情報記憶装置5に転送する。
購入履歴情報作成装置2から購入履歴情報記憶装置5に転送され、記憶されるPOSデータの構成を図4の(4A)に示す。このPOSデータには、店舗情報、顧客情報、取引日時、取引天候情報、購入商品データ、購入金額、消費税などが含まれる。なお、図4の(4B)に、別の履歴情報の態様として、半導体メーカの生産品質管理に使用されるシリコン半導体製造管理データ構成例を示す。このシリコン半導体製造管理データには、製造工場情報、担当者情報、製造日時、シリコンインゴットの製造原料情報、シリコンウエハの加工条件、拡散工程処理条件などが含まれる。
記号及び数値バスケット分析装置6は、図2に示すように、トランザクションデータ処理部7、データ記憶部8、バスケット分析プログラム記憶部9、入力指示装置10及び分析結果出力部11からなる。トランザクションデータ処理部7はメインコンピュータを含み、購入履歴情報記憶装置5を介して購入履歴情報作成装置2から受信した購入履歴情報を入手して分類、整理してデータベースとしてデータ記憶部8に保存する。また、トランザクションデータ処理部7の制御により、バスケット分析プログラム記憶部9に格納されている記号及び数値バスケット分析プログラム及び、データ記憶部8に記憶した、顧客情報を含む購入履歴情報からなるをデータベースに基づき、記号アイテム及び数値アイテムを含む多数のトランザクションを探索対象とした事象共起関係の数値定量的解析処理が行われ、その分析結果をデータ記憶部8に保存するとともに、液晶ディスプレイやプリンタなどの分析結果出力部11に出力する。なお、本実施形態においては記号及び数値バスケット分析装置6は顧客情報読取装置4から分析対象データをデータ記憶部8に取り込むが、記号及び数値バスケット分析装置6は購入情報だけからでも、売れ筋の商品組合せの分析などに使うことができる。その場合、記号及び数値バスケット分析装置6はPOS端末1からの取引データを直接、データ記憶部8に取り込むようにしてよい。
購入履歴情報記憶装置5において受信した購入履歴情報は上記のように、分類、整理され、図3に示すように、トランザクションデータベース100としてデータ記憶部8に記憶される。トランザクションT1〜Tnは、それぞれ、記号アイテム群(M1〜Mn)及び数値データ群(N1〜Nn)からなり、それらの情報により構成される数値アイテムを含む。記号アイテムは図4の(4A)におけるPOSデータのうち、例えば「牛乳を買った事実」などの個別事象発生名称、すなわち名称記号のデータである。数値アイテムはPOSデータのうち、例えば「110円の牛乳を買った事実」などの個別事象発生を表す名称とそれを特徴づける定量的数値のデータである。具体的には、例えば「男性顧客」というアイテムは記号アイテムなので記号アイテム群Mに含まれる。牛乳を110円で購入したという事実を表す、「牛乳:110円」という数値アイテムは、「牛乳」という部分の記号アイテムと数値からなり、当該「牛乳」という部分は記号アイテム群Mに含まれる。
バスケット分析プログラム記憶部9には図5及び図6に示す分析プログラムが格納されている。トランザクションデータ処理部7によるバスケット分析処理を図5及び図6により以下に説明する。
まず、解析者が入力指示装置10により探索条件の設定入力を行う(ステップS1)。探索条件のひとつは、各トランザクション内に共起するアイテムの組合せの頻度閾値、つまり全対象データに対する割合(「最小支持度」という。)である。例えば、顧客全体の10%以上が牛乳とパンを同時に購入するといった指定値(10%)が最小支持度となる。
なお、図12は、本発明者が試算した例であり、最小支持度sと、バスケット分析の計算に要する処理時間Tとの関係を示す。図12から分かるように、最小支持度sを増やすと、相関性を調べるための対象となるアイテムパターン数が減少するため必要な計算時間は少なくなる。
まず、解析者が入力指示装置10により探索条件の設定入力を行う(ステップS1)。探索条件のひとつは、各トランザクション内に共起するアイテムの組合せの頻度閾値、つまり全対象データに対する割合(「最小支持度」という。)である。例えば、顧客全体の10%以上が牛乳とパンを同時に購入するといった指定値(10%)が最小支持度となる。
なお、図12は、本発明者が試算した例であり、最小支持度sと、バスケット分析の計算に要する処理時間Tとの関係を示す。図12から分かるように、最小支持度sを増やすと、相関性を調べるための対象となるアイテムパターン数が減少するため必要な計算時間は少なくなる。
解析者が経験則や調査目的等に基づいて頻度閾値を指定して、データベース内のそれ以上の割合のトランザクションデータに共起する全ての記号アイテムと数値アイテムの組合せを探索する探索処理に移行するが、このとき顧客が例えば、男性かつ110円の牛乳と80円のパンを同時に購入するというようなデータ個別の値の組合せについて頻度を計数すると、実際には顧客によって様々な価格の牛乳やパンが同時購入されるため、個別値の組合せの生起頻度は非常に少ない。110円の牛乳と80円のパンの同時に購入と111円の牛乳と82円のパンの同時に購入は解析者にはほぼ同じ事象として計数を行う必要がある。そこで、データベース内の各数値アイテム毎にその値が密集していると認める数値密集基準(数値アイテムの値の密度(例えば、買った牛乳の1円価格幅にデータが10個以上存在する。)や値の間隔が一定以下(例えば、買った牛乳の価格が1円以内の間隔で密集している。)など。)を解析者が探索条件として指定する。この数値密集基準の指定により、全ての記号アイテムと数値アイテムの組合せについて、各数値アイテムに関して設定数値密集基準を満たしかつ頻度閾値を超える数値区間(例えば、100〜115円の牛乳。)が以下の処理により網羅的に探索される。上記のように、本実施形態においては数値密集基準を数値アイテムのデータ範囲内で可変設定可能になっており、種々の分析を行える自由度を付与している。
最小支持度及び数値密集基準の指定が行われると、トランザクションデータベース100から探索対象のトランザクションを抽出し、そのデータファイル(記号アイテムパターンPTN1〜PTNnの導出)をデータ記憶部8に作成する(ステップS2)。
ここで、n個の記号アイテムパターンは最小支持度以上の1つの多頻度アイテム集合をいう。すなわち、従来の記号バスケット分析と同様に、多数の多頻度記号アイテム集合を求め、その中の1つの多頻度アイテム集合を入力として処理するように、トランザクションデータベース100から1つの入力多頻度アイテム集合を記号アイテム群に含むトランザクションをすべて抽出したトランザクションデータファイルが作成される。なお、本実施形態においては、探索対象のトランザクションを抽出し、それをデータファイル化しているが、必ずしもデータファイル化は必要とせず、コンピュータ上のメモリにトランザクションデータを展開させ、処理するようにしてもよい。
ここで、n個の記号アイテムパターンは最小支持度以上の1つの多頻度アイテム集合をいう。すなわち、従来の記号バスケット分析と同様に、多数の多頻度記号アイテム集合を求め、その中の1つの多頻度アイテム集合を入力として処理するように、トランザクションデータベース100から1つの入力多頻度アイテム集合を記号アイテム群に含むトランザクションをすべて抽出したトランザクションデータファイルが作成される。なお、本実施形態においては、探索対象のトランザクションを抽出し、それをデータファイル化しているが、必ずしもデータファイル化は必要とせず、コンピュータ上のメモリにトランザクションデータを展開させ、処理するようにしてもよい。
ついで、上記入力多頻度アイテム集合中の数値アイテム群の抽出処理を行い(ステップS3)、その抽出された数値アイテム群を初期数値群として有効数値群の抽出処理(ステップS4)を実行する。ステップS3の抽出処理おいては、記号アイテムは既に入力多頻度アイテム集合として与えられているので、その中ののいずれのアイテムが図3の数値データ群の中に数値情報を伴っているか、即ち数値アイテムであるか否かを検索サーチする。
有効数値群抽出処理(ステップS4)により、入力された1つの多頻度アイテム集合について、その中に含まれる数値アイテムに関する数値密集区間をすべて求めてしまえば分析処理は終了する。
有効数値群抽出処理(ステップS4)の詳細を図6に示す。まず、ステップS4で抽出した数値アイテム群の各数値アイテムの種類に関する数値軸にデータを配置する(ステップS21)。さらに、その数値軸データが、予め設定した数値密集基準を読み出して、それを満たす数値密集基準区間を決定し、設定する(ステップS22)。
有効数値群抽出処理(ステップS4)の詳細を図6に示す。まず、ステップS4で抽出した数値アイテム群の各数値アイテムの種類に関する数値軸にデータを配置する(ステップS21)。さらに、その数値軸データが、予め設定した数値密集基準を読み出して、それを満たす数値密集基準区間を決定し、設定する(ステップS22)。
図7は2つの数値アイテムa,b間の数値軸を2次元配置した例を示す。●は数値アイテムデータを示し、RaとRbはそれぞれ、数値アイテムa,bに対して数値密集基準を満たす数値密集基準区間を示す。
ここで、本実施形態に使用する数値密集基準を詳述する。数値密集基準は上記のように、解析者が任意に設定可能であり、数値軸上の数値アイテムデータ間の距離の最小値、すなわち最小許容距離Δを決めるものである。したがって、数値密集基準により、最小許容距離Δを許容する数値アイテムデータの数値密集基準区間が求められる。最小許容距離Δによる数値密集基準によれば、有効数値群の抽出の繰り返しにより、区間幅が単調に狭まっていく単調減少区間となって、頻度閾値と数値密集基準を満たす唯一の組合せに高速で収斂させ、簡易かつ高精度な数値定量的解析処理を円滑に行うことができる。
ここで、本実施形態に使用する数値密集基準を詳述する。数値密集基準は上記のように、解析者が任意に設定可能であり、数値軸上の数値アイテムデータ間の距離の最小値、すなわち最小許容距離Δを決めるものである。したがって、数値密集基準により、最小許容距離Δを許容する数値アイテムデータの数値密集基準区間が求められる。最小許容距離Δによる数値密集基準によれば、有効数値群の抽出の繰り返しにより、区間幅が単調に狭まっていく単調減少区間となって、頻度閾値と数値密集基準を満たす唯一の組合せに高速で収斂させ、簡易かつ高精度な数値定量的解析処理を円滑に行うことができる。
特に、最小許容距離Δを使用すれば、回路焼付けの温度やガス圧など連続的物理的数値を扱う場合、許容幅を微小にして数値密集基準区間の特定を行える利点がある。例えば、図10は半導体の拡散工程における拡散時間と拡散温度との関係を示すが、拡散時間及び拡散温度をそれぞれ10分、3℃といった最小許容距離Δを設定するだけで数値密集基準区間として、Ta〜Tc、t1〜t3を求めることができ、数値密集基準の指定作業を簡易に行える。なお、ここで最小許容距離Δを選択する際に注意を要するのは極端に大きくしない点である。図9は本発明者が試算した最小許容距離Δと分析計算に要する時間との関係を示す。図9から分かるように、最小許容距離Δをある程度まで増やすと数値密集基準区間の数が増えるため、分析計算に要する時間が長くなる。
本実施形態においては、最小許容距離内にある数値が1個あれば、2つの数値の間を数値密集基準区間としているが、数値アイテムのうち最小許容距離内に数値が必要数値個数K個以上(必要数値個数Kは人間が指定する解析パラメータである。)あるとき、それら数値の最大のものと最小のもので数値密集基準区間とするようにしてもよい。
ステップS23において数値密集基準区間(RaとRb)を決定した後、それらによって包囲される有効数値群を抽出する(ステップS23)。図7の例では、RaとRbによって決まる有効数値群Rcが2個導出されている。有効数値群Rcが導出されない場合の例を図8に示す。有効数値群を抽出すると、有効数値群以外の数値密集基準を満たさない数値群は以降の処理対象から除去される(ステップS23)。ついで、抽出有効数値群のデータが最初に設定された最小支持度の条件を満足するか否か判断される(ステップS24)。抽出有効数値群のデータが最小支持度の条件を満足しない場合は数値密集区間がないので処理を終了する。処理(ステップS22〜ステップS24)において、上記除去処理が施された数値群は新たな初期数値群として、以上の有効数値群の抽出、数値密集基準を満たさない数値群除去、及び有効数値群の収斂確認がデータが収斂するか、あるいは頻度閾値条件を満たさなくなるまで繰り返し行われる。
抽出有効数値群のデータが最小支持度の条件を満足する場合、処理(ステップS22〜ステップS24)の繰り返しにより変動しなくなったとき、探索点までデータが収斂したものとして、その収斂データがデータ記憶部8の収斂データ記憶エリアに格納される(ステップS25、ステップS26)。図7においては2次元による数値軸例を示したが、実際は2以上の数値アイテム間相互において各数値密集基準に基づく数値密集基準区間が抽出され、数値アイテム集合の多次元抽出領域を得ることができる。
以上の有効数値群抽出処理(ステップS4)はもちろんプログラム自体が各多頻度アイテム集合について呼び出すことにより、全てのバスケット分析処理は完了することができる。このプログラムを上位プログラムがどのように呼び出すかは多様に設定可能である。すべての記号多頻度アイテム集合を求めてから、それぞれについて呼び出すことも可能であり、あるいは記号多頻度アイテム集合が1つ見つかる都度に呼び出すことも可能である。いずれにしても分析結果は同じになるが、後者の場合すべての記号多頻度アイテム集合を記憶しておく必要がないのでメモリの使用量などを節約することができる。
すべての記号アイテムパターンPTNから得られた収斂済の有効数値群データが分析結果出力部11に出力され(ステップS5)、解析者に、例えば、顧客全体の10%以上が男性かつ価格帯が100〜115円の牛乳と70〜93円のパンを同時に購入するといった分析結果がもたらされる。
更に、本発明における数値射影法を用いた数値密集基準区間の決定及び有効数値群抽出処理について詳述する。図14は数値射影法を用いた有効数値群抽出処理を説明するための図である。数値アイテムに含まれる数値群Di(図中の○)は数値軸X1、X2の領域に分布している。数値射影法によれば、数値群Diを一つの数値軸X1上に射影したとき、最小許容距離Δ内において数値軸X1上に射影された数値の累積個数が所定最小個数以上含む数値区間を数値密集基準区間として求められる。
図15はこの数値射影法による数値密集基準区間の決定及び有効数値群抽出処理の手順フローを示す。まず、予め平均個数密度を求める(ステップS31)。平均個数密度は、トランザクションデータベースの中で所与の数値軸により構成される数値アイテム空間に存在するデータの個数及びそれらの数値軸に関する最大値及び最小値から求められる。すなわち、本実施形態においては、累積個数の総和(総個数)N(=33)を求め、更に最小許容距離Δ、数値軸X1上における数値区間の最大値Max、及びその最小値Minとして、最小許容距離Δあたりの平均個数密度d(=N/((Max−Min)/Δ))を所定最小個数として決定する(ステップS31)。
ついで、各数値データの数値軸上への射影を行う(ステップS32)。数値軸X1上に各数値データを鉛直方向に射影すると、最小値k1(Min)と最大値k16(Max)の間に最小許容距離Δ間隔毎に射影された数値の射影点k2〜k15が得られる(ステップS33)。例えば、射影点k6における数値データ(D1、D2、D3)の累積個数は3である。射影点k6に最小許容距離Δをおいて隣接する射影点k7、k8には数値データが存在しないので、累積個数は0である。次の射影点k9においては数値データが3個存在し、累積個数は3である。このようにして、数値軸X1上に射影された数値の射影点k2〜k15の累積個数が求められる(ステップS33)。
次に、上記の平均個数密度d(≒2)を用いて、各射影点における有意性を逐次判断していく(ステップS34)。例えば、射影点k6においては累積個数3(>d)であるから、射影点k6とk7の間の区間は有意な数値区間となる。同様にして、射影点k7、k8における累積個数は0(<d)であるから、それらの間の区間は有意な数値区間とならない。このように、最小許容距離Δ間隔で、平均個数密度dを用いて、数値軸X1上の最小値k1(Min)と最大値k16(Max)の間における有意な数値区間を割り出すことにより、数値密集基準区間を決定する。同様に、数値射影法による数値密集基準区間の決定処理を数値軸X2に関しても、射影数値に基づいて数値密集基準区間の決定処理を行うことにより、数値軸X1、X2の各数値密集基準区間によって区画された2次元の数値密集基準区間を確定することができる。
次に、数値軸X1、X2の数値密集基準区間を決定した後、それらによって包囲される有効数値群を抽出し、ステップS23と同様に、有効数値群以外の数値密集基準を満たさない数値群を以降の処理対象から除去する(ステップS35)。再び、この除去処理後の数値データにより、数値の射影及び各射影点における累積個数を求める(ステップS32、S33)。再び、平均個数密度dを用いて、新たな各射影点における有意性を逐次判断して、数値軸X1、X2における数値密集基準区間を決定する(ステップS34)。更に、新たに決定された数値密集基準区間のデータに基づき、数値密集基準を満たさない数値群の除去処理を行う(ステップS35)。そして、数値軸X1、X2についてそれぞれ有効数値群の抽出、数値密集基準を満たさない数値群除去、及び有効数値群の収斂確認がデータが収斂するまで繰り返し行われる(ステップS36)。
上記最小許容距離Δあたりの平均個数密度dを用いた数値射影法によれば、数値の累積個数によって有意な数値区間の収集が可能となり、また平均個数密度による有意な数値区間の割り出しの際に急激に外れ値を減少させ、高精度な数値定量的解析処理を円滑かつ迅速に行うことができる。
数値射影法による数値密集基準区間は、平均個数密度dを用いずに決定してもよいが、次の理由から平均個数密度dを使用するのが好ましい。平均個数密度dを使用しない場合、つまり数値軸上に射影した数値のみを用いて数値密集基準区間を決定すると、例えば、射影点k6に有意な数値データ(D1、D2、D3)があるにも拘わらず、射影点k6、k7における最小許容距離Δ区間にはデータがないため、有意でない数値区間と判断され、数値密集基準区間データから遺漏されてしまう。従って、平均個数密度dを使用することにより、累積個数のあるものを見落とすことなく割り出すため、数値密集基準区間の決定を綿密に行え、高精度な数値定量的解析処理に寄与することができる。
なお、数値密集基準区間の決定に際しては、処理時間を考慮しないならば、数値データから平均個数密度dを求めずに、予め経験則等により予想される任意の個数密度を使用してもよい。例えば、少し大きめの経験値(個数密度)から出発して、数値密集基準区間の決定及び除去処理を繰り返し行い、その都度、個数密度データを1又はそれ以上縮小可変させて数値密集基準区間を決定していくようにしてもよい。
上記数値射影法は2次元を超える高次元による数値密集基準区間の決定に応用可能である。高次元の数値データ空間における数値密集基準区間の決定に関しては、超球分析法を用いることができる。
図16は超球分析法による数値区間である超球を模式的に示す。高次元軸Xn、Xn+1、・・・、Xm、Xm+1の数値データ空間において、一つの数値データ点e1を中心に、最小許容距離の半径rの超球SS1を取り出し、超球SS1の体積内に存在する数値データ点群(超球SS1内の個数:3)を数値区間に相当するものとして取り扱うことができる。同様に、別の数値データ点e2を中心に半径rの超球SS2による数値区間データを決める(超球SS1内の個数:4)。順次、数値データ空間全体に対して超球SSi(i:1,2,3・・・・)による数値区間の割り出しを繰り返し行って、数値データ空間全領域における数値密集基準区間を決定することができる。この超球分析法によれば、3次元以上の高次元の数値データ空間におけるバスケット分析処理に好適である。
図16は超球分析法による数値区間である超球を模式的に示す。高次元軸Xn、Xn+1、・・・、Xm、Xm+1の数値データ空間において、一つの数値データ点e1を中心に、最小許容距離の半径rの超球SS1を取り出し、超球SS1の体積内に存在する数値データ点群(超球SS1内の個数:3)を数値区間に相当するものとして取り扱うことができる。同様に、別の数値データ点e2を中心に半径rの超球SS2による数値区間データを決める(超球SS1内の個数:4)。順次、数値データ空間全体に対して超球SSi(i:1,2,3・・・・)による数値区間の割り出しを繰り返し行って、数値データ空間全領域における数値密集基準区間を決定することができる。この超球分析法によれば、3次元以上の高次元の数値データ空間におけるバスケット分析処理に好適である。
最小許容距離Δを用いない場合は図11に示すように、数値アイテムデータから決まるヒストグラムなどの分布データを求め、その分布状態を見定めてから所望の数値密集基準の指定作業を行うようにしてもよい。図11の(11A)はパンと牛乳の各数値アイテムを示す。例えば、図11の(11B)に示すように、パンについてのヒストグラムからデータ量の比較的多いと見積もれるデータ群を抽出する。この場合、数値密集基準値は例えば度数2〜4程度以上とする。
以上のように、従来法では記号アイテムデータに基づく定性的解析しかできなかったが、本発明にかかる記号及び数値バスケット分析方法により、男性顧客が100〜115円の牛乳と70〜93円のパンを購入するというように、事象共起関係の数値定量的解析が可能になり、マーケティングや品質管理、通信ネット管理など実用性が飛躍的に向上する。すなわち、少数の記号アイテム組合せで頻度が閾値以上のものを網羅探索し、更にそれを含むより多数の記号アイテム組合せで頻度が閾値以上のものを網羅探索する。さらにそれに加えて、数値密集基準を満たす数値アイテムの数値区間組合せを網羅探索する。数値の連続性から数値区間の可能な組合せは少数の数値アイテムでも無限に存在し、記号及び数値アイテムの各組み合わせについて無限の場合の数から頻度閾値と数値密集基準を満たす唯一の組合せを高速探索する。
特に、この高速探索性は次のように数学的に確認することができる。すなわち、初期数値群のトランザクションデータ数Nに対して、上記の数値密集基準による有効数値群の絞込みを1回行うと、その数はαNに減少する。ここで、0<α<1。これを2回、3回・・・とk回繰り返していくと、その数はαkNとなる。最終的に得られる相関性データ数αkNは最小支持度sより大きいか同程度なので、αkN〜sとなる。ここで、αkN=sとして数式を展開すると、k=(logs−logN)/logαとなり、logsは一定であり、またlogα=A(一定)であるから、k〜logNが得られる。
したがって、初期数値群のトランザクションデータ数Nに対して、バスケット分析上必要な計算時間(約kN)はNlogNに比例し、分析処理時間を大幅に削減することができる。本発明者が分析用コンピュータを用いて試算した結果を図13に示す。図13はトランザクションデータ数Nに対する計算処理に要する時間Tとの関係を示す。これから分かるように、トランザクションデータ数が増えてもNlogNに比例して増えるだけであり、従来、指数関数的に処理時間が増加するといわれていた記号及び数値アイテムの各組み合わせについてのバスケット分析を、多量のトランザクションデータを網羅探索して高精度かつ高速処理することができる。
本発明は上記実施形態に限定されるものではなく、本発明の技術的思想を逸脱しない範囲における種々の変形例、設計変更などをその技術的範囲内に包含することは云うまでもない。
第1又は第2の形態の発明によれば、記号及び数値アイテムの各組み合わせについて無限に近い場合の数から前記頻度閾値と前記数値密集基準を満たす唯一の組合せを高速で探索することができ、簡易かつ高精度に事象共起関係の数値定量的解析を得ることのできる記号及び数値バスケット分析方法の提供が可能となる。
第3の形態の発明によれば、前記有効数値群の抽出の繰り返しにより、前記頻度閾値と前記数値密集基準を満たす唯一の組合せに高速で収斂させ、簡易かつ高精度な数値定量的解析処理を円滑に行うことのできる記号及び数値バスケット分析方法の提供が可能となる。
第4の形態の発明によれば、例えば、半導体の生産品質管理などにおける、回路焼付けの温度やガス圧など連続的数値定量的条件と製品歩留まりなどの事象共起関係についての高速分析に好適な記号及び数値バスケット分析方法の提供が可能となる。
第5の形態の発明によれば、頻度閾値と前記数値密集基準を満たす唯一の組合せに高速で収斂させ、簡易かつ高精度な数値定量的解析処理を円滑に行うことができる記号及び数値バスケット分析方法の提供が可能となる。
第6の形態の発明によれば、数値射影法を用いて有意な数値区間を正確かつ迅速に割り出して、高精度な数値定量的解析処理を円滑に行うことができる記号及び数値バスケット分析方法の提供が可能となる。
第7又は第8の形態の発明によれば、前記平均個数密度を用いて有意な数値区間の収集を正確かつ迅速に行え、高精度な数値定量的解析処理を円滑に行うことができる記号及び数値バスケット分析方法の提供が可能となる。
第9の形態の発明によれば、前記アイテムに前記取引の実行者に関わる識別情報(記号アイテム及び/又は数値アイテム、例えば顧客の年齢、性別、職業など)が含まれる物品やサービス等の取引における、多数かつ多様なトランザクションをデータベースとした事象共起関係につき、より精密な数値定量的解析を行える記号及び数値バスケット分析方法の提供が可能となる。
第10又は第11の形態の発明によれば、数値の連続性から数値区間の可能な組合せが少数の数値アイテムでも無限近く存在しても、記号及び数値アイテムの各組み合わせについて無限に近い場合の数から前記頻度閾値と前記数値密集基準を満たす唯一の組合せを高速で探索することができ、簡易かつ高精度に事象共起関係の数値定量的解析を行うことのできる記号及び数値バスケット分析装置の提供が可能となる。
第12の形態の発明によれば、前記有効数値群の抽出の繰り返しにより、前記頻度閾値と前記数値密集基準を満たす唯一の組合せに高速で収斂させ、簡易かつ高精度な数値定量的解析処理を円滑に行うことのできる記号及び数値バスケット分析装置の提供が可能となる。
第13の形態の発明によれば、例えば、半導体の生産品質管理などにおける、回路焼付けの温度やガス圧など連続的数値定量的条件と製品歩留まりなどの事象共起関係についての高速分析に好適な記号及び数値バスケット分析装置の提供が可能となる。
第14の形態の発明によれば、前記頻度閾値と前記数値密集基準を満たす唯一の組合せに高速で収斂させ、簡易かつ高精度な数値定量的解析処理を円滑に行うことができる記号及び数値バスケット分析装置の提供が可能になる。
第15又は第16の形態の発明によれば、例えば、数値射影法を用いて有意な数値区間を正確かつ迅速に割り出して、高精度な数値定量的解析処理を円滑に行うことができる記号及び数値バスケット分析装置の提供が可能となる。
第17の形態の発明によれば、前記平均個数密度を用いて有意な数値区間の収集を正確かつ迅速に行え、高精度な数値定量的解析処理を円滑に行うことができる記号及び数値バスケット分析装置の提供が可能となる。
第18の形態の発明によれば、物品やサービス等の取引に関する個別事象における取引実行者に関わる識別情報を含むアイテム(記号アイテム及び/又は数値アイテム、例えば顧客の年齢、性別、職業など)が含まれた多数かつ多様なトランザクションをデータベースとした事象共起関係につき、より精密な数値定量的解析を行える記号及び数値バスケット分析装置の提供が可能となる。
第19の形態の発明によれば、例えば店舗のPOS端末から収集した販売履歴などの前記トランザクションについて、高速でかつ精密な数値定量的解析を行える記号及び数値バスケット分析装置の提供が可能となる。
Claims (19)
- メインコンピュータを含むトランザクションデータ処理部、個別事象に対応する記号アイテムと、それと関連した数値アイテムとが混在する多数のトランザクションにより構成されたトランザクションデータベース及び分析結果を記憶するデータ記憶部、バスケット分析プログラム記憶部及び入力指示装置からなる記号及び数値バスケット分析装置を用いて、各トランザクション内に共起するアイテムの組合せの全対象データに対する割合である所定の頻度閾値が前記トランザクションデータ処理部に設定され、前記トランザクションデータ処理部のコンピュータ制御により、前記バスケット分析プログラム記憶部に格納されている記号及び数値バスケット分析プログラムに基づき、前記データ記憶部に記憶したトランザクションデータベースから前記所定の頻度閾値を満足するアイテムの組合せを探索して事象共起関係の数値定量的解析処理を行う記号及び数値バスケット分析方法であって、前記トランザクションデータ処理部は、前記トランザクションデータベースにおける複数の数値アイテムのそれぞれに関する数値アイテムデータの距離である数値密集基準が前記入力指示装置により入力設定される数値密集基準設定手段を含み、前記数値密集基準設定手段の設定数値密集基準を満たす数値データ群を、前記複数の数値アイテムのうちの一つの数値アイテムに関する初期数値データ群から抽出し、かつ前記設定数値密集基準を満たさない数値データ群を前記初期数値データ群から除去した有効数値データ群を前記データ記憶部に記憶する有効数値データ群抽出ステップと、前記有効数値データ群抽出ステップにより抽出された有効数値データ群について、前記所定の頻度閾値を越えることを条件として、前記有効数値データ群を前記複数の数値アイテムの別の数値アイテムに関する初期数値データ群とし、前記設定数値密集基準により除去される数値データ群が出現しなくなるまで、有効数値データ群の抽出を前記複数の数値アイテムに対して繰り返し行い、前記所定の頻度閾値を満足する各トランザクション内に共起するアイテムの組合せを探索する探索ステップとからなる記号及び数値バスケット分析プログラムに基づく前記数値定量的解析処理を行うことを特徴とする記号及び数値バスケット分析方法。
- メインコンピュータを含むトランザクションデータ処理部、個別事象に対応する記号アイテムと、それと関連した数値アイテムとが混在する多数のトランザクションにより構成されたトランザクションデータベース及び分析結果を記憶するデータ記憶部、バスケット分析プログラム記憶部及び入力指示装置からなる記号及び数値バスケット分析装置を用いて、各トランザクション内に共起するアイテムの組合せの全対象データに対する割合である所定の頻度閾値が前記トランザクションデータ処理部に設定され、前記トランザクションデータ処理部のコンピュータ制御により、前記バスケット分析プログラム記憶部に格納されている記号及び数値バスケット分析プログラムに基づき、前記データ記憶部に記憶したトランザクションデータベースから前記所定の頻度閾値を満足するアイテムの組合せを探索して事象共起関係の数値定量的解析処理を行う記号及び数値バスケット分析方法であって、前記トランザクションデータ処理部は、前記トランザクションデータベースにおける複数の数値アイテムのそれぞれに関する数値アイテムデータの距離である数値密集基準が前記入力指示装置により入力設定される数値密集基準設定手段を含み、前記記号アイテムに関して前記所定の頻度閾値を満足するトランザクションを前記トランザクションデータベースから選択してトランザクションデータを抽出し、前記データ記憶部に記憶するトランザクションデータ抽出ステップと、前記トランザクションデータ抽出ステップにより抽出、記憶されたトランザクションデータにおいて、前記数値密集基準設定手段の設定数値密集基準を満たす数値データ群を、前記複数の数値アイテムのうちの一つの数値アイテムに関する初期数値データ群から抽出し、かつ前記設定数値密集基準を満たさない数値データ群を前記初期数値データ群から除去した有効数値データ群を前記データ記憶部に記憶する有効数値データ群抽出ステップと、前記有効数値データ群抽出ステップにより抽出された有効数値データ群について、前記所定の頻度閾値を越えることを条件として、前記有効数値データ群を前記複数の数値アイテムの別の数値アイテムに関する初期数値データ群とし、前記設定数値密集基準により除去される数値データ群が出現しなくなるまで、有効数値データ群の抽出を前記複数の数値アイテムに対して繰り返し行い、前記所定の頻度閾値を満足する各トランザクション内に共起するアイテムの組合せを探索する探索ステップとからなる記号及び数値バスケット分析プログラムに基づく前記数値定量的解析処理を行うことを特徴とする記号及び数値バスケット分析方法。
- 前記設定数値密集基準を満足する数値アイテムの数値密集基準区間の区間幅は前記有効数値データ群の抽出の実行により縮小可能に可変設定される請求項1又は2に記載の記号及び数値バスケット分析方法。
- 前記数値密集基準区間は数値アイテムのうち最小許容距離内にある数値を許容する数値区間である請求項3に記載の記号及び数値バスケット分析方法。
- 前記数値密集基準区間は前記最小許容距離内にある数値を所定最小個数以上含む数値区間である請求項4に記載の記号及び数値バスケット分析方法。
- 前記数値密集基準区間は、前記数値アイテムに含まれる数値を所定の数値軸上に射影したとき、前記最小許容距離内における前記射影された数値の累積個数が前記所定最小個数以上含む請求項5に記載の記号及び数値バスケット分析方法。
- 前記所定最小個数は、前記数値軸上に射影された数値の総個数により導出される平均個数密度に基づいて決められる請求項6に記載の記号及び数値バスケット分析方法。
- 前記総個数N、前記最小許容距離Δ、前記数値軸上における数値区間の最大値Max、及びその最小値Minとしたとき、前記所定最小個数は、前記最小許容距離Δあたりの平均個数密度(N/((Max−Min)/Δ))である請求項7に記載の記号及び数値バスケット分析方法。
- 前記個別事象が物品やサービス等の取引であり、前記アイテムには前記取引の実行者に関わる識別情報が含まれる請求項1〜8のいずれかに記載の記号及び数値バスケット分析方法。
- メインコンピュータを含むトランザクションデータ処理部、個別事象に対応する記号アイテムと、それと関連した数値アイテムとが混在する多数のトランザクションにより構成されたトランザクションデータベース及び分析結果を記憶するデータ記憶部、バスケット分析プログラム記憶部及び入力指示装置からなり、各トランザクション内に共起するアイテムの組合せの全対象データに対する割合である所定の頻度閾値が前記トランザクションデータ処理部に設定され、前記トランザクションデータ処理部のコンピュータ制御により、前記バスケット分析プログラム記憶部に格納されている記号及び数値バスケット分析プログラムに基づき、前記トランザクションデータベースから前記所定の頻度閾値を満足するアイテムの組合せを探索して事象共起関係の数値定量的解析処理を行う記号及び数値バスケット分析装置であって、前記トランザクションデータ処理部は、前記トランザクションデータベースにおける複数の数値アイテムのそれぞれに関する数値アイテムデータの距離である数値密集基準を前記入力指示装置により入力して設定する数値密集基準設定手段を含み、前記記号及び数値バスケット分析プログラムは、前記複数の数値アイテムのうちの一つの数値アイテムに関する初期数値データ群から前記数値密集基準設定手段により設定された前記数値密集基準を満たす数値データ群を抽出し、かつ前記数値密集基準を満たさない数値データ群を前記初期数値データ群から除去した有効数値データ群を前記データ記憶部に記憶する有効数値データ群抽出ステップと、前記有効数値データ群抽出ステップにより抽出された有効数値データ群について、前記所定の頻度閾値を越えることを条件として、前記有効数値データ群を前記複数の数値アイテムの別の数値アイテムに関する初期数値データ群とし、前記数値密集基準により除去される数値データ群が出現しなくなるまで、有効数値データ群の抽出を前記複数の数値アイテムに対して繰り返し行い、前記所定の頻度閾値を満足する各トランザクション内に共起するアイテムの組合せを探索する探索ステップとからなることを特徴とする記号及び数値バスケット分析装置。
- メインコンピュータを含むトランザクションデータ処理部、個別事象に対応する記号アイテムと、それと関連した数値アイテムとが混在する多数のトランザクションにより構成されたトランザクションデータベース及び分析結果を記憶するデータ記憶部、バスケット分析プログラム記憶部及び入力指示装置からなり、各トランザクション内に共起するアイテムの組合せの全対象データに対する割合である所定の頻度閾値が前記トランザクションデータ処理部に設定され、前記トランザクションデータ処理部のコンピュータ制御により、前記バスケット分析プログラム記憶部に格納されている記号及び数値バスケット分析プログラムに基づき、前記データ記憶部に記憶したトランザクションデータベースから前記所定の頻度閾値を満足するアイテムの組合せを探索して事象共起関係の数値定量的解析処理を行う記号及び数値バスケット分析装置であって、前記トランザクションデータ処理部は、前記トランザクションデータベースにおける複数の数値アイテムのそれぞれに関する数値アイテムデータの距離である数値密集基準を前記入力指示装置により入力して設定する数値密集基準設定手段を含み、前記記号及び数値バスケット分析プログラムは、前記記号アイテムに関して前記頻度閾値を満足するトランザクションを前記トランザクションデータベースから選択してトランザクションデータを抽出し、前記データ記憶部に記憶するトランザクションデータ抽出ステップと、前記トランザクションデータ抽出ステップにより抽出、記憶されたトランザクションデータにおいて、前記複数の数値アイテムのうちの一つの数値アイテムの初期数値データ群から前記数値密集基準設定手段より設定された前記数値密集基準を満たす数値データ群を抽出し、かつ前記数値密集基準を満たさない数値データ群を前記初期数値データ群から除去した有効数値データ群を前記データ記憶部に記憶する有効数値データ群抽出ステップと、前記有効数値群抽出ステップにより抽出された有効数値データ群について、前記所定の頻度閾値を越えることを条件として、前記有効数値データ群を前記複数の数値アイテムのうちの別の数値アイテムの初期数値データ群とし、前記数値密集基準により除去される数値データ群が出現しなくなるまで前記複数の数値アイテムに対して繰り返し行い、前記所定の頻度閾値を満足する各トランザクション内に共起するアイテムの組合せを探索する探索ステップとからなることを特徴とする記号及び数値バスケット分析装置。
- 前記数値密集基準設定手段により設定される前記数値密集基準を満足する数値アイテムの数値密集基準区間の区間幅は前記有効数値データ群の抽出の実行により縮小可能に可変設定される請求項10又は11に記載の記号及び数値バスケット分析装置。
- 前記数値密集基準区間は数値アイテムのうち最小許容幅内にある数値を許容する数値区間である請求項12に記載の記号及び数値バスケット分析装置。
- 前記数値密集基準区間は前記最小許容距離内にある数値を所定最小個数以上含む数値区間である請求項13に記載の記号及び数値バスケット分析装置。
- 前記数値密集基準区間は、前記数値アイテムに含まれる数値を所定の数値軸上に射影したとき、前記最小許容距離内における前記射影された数値の累積個数が前記所定最小個数以上含む請求項14に記載の記号及び数値バスケット分析装置。
- 前記所定最小個数は、前記数値軸上に射影された数値の総個数により導出される平均個数密度に基づいて決められる請求項15に記載の記号及び数値バスケット分析装置。
- 前記総個数N、前記最小許容距離Δ、前記数値軸上における数値区間の最大値Max、及びその最小値Minとしたとき、前記所定最小個数は、前記最小許容距離Δあたりの平均個数密度(N/((Max−Min)/Δ))である請求項16に記載の記号及び数値バスケット分析装置。
- 前記データ記憶部に記憶した前記トランザクションデータベースは、物品やサービス等の取引に関する個別事象における取引実行者に関わる識別情報を含むアイテムからなる請求項10〜17のいずれかに記載の記号及び数値バスケット分析装置。
- 前記データ記憶部に記憶した前記トランザクションデータベースは、POS端末から伝送される取引データからなる請求項10〜18のいずれかに記載の記号及び数値バスケット分析装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004343126 | 2004-11-26 | ||
JP2004343126 | 2004-11-26 | ||
PCT/JP2005/017836 WO2006057105A1 (ja) | 2004-11-26 | 2005-09-28 | 記号及び数値バスケット分析方法と記号及び数値バスケット分析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2006057105A1 JPWO2006057105A1 (ja) | 2008-06-05 |
JP4512832B2 true JP4512832B2 (ja) | 2010-07-28 |
Family
ID=36497849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006547667A Active JP4512832B2 (ja) | 2004-11-26 | 2005-09-28 | 記号及び数値バスケット分析方法と記号及び数値バスケット分析装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4512832B2 (ja) |
WO (1) | WO2006057105A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5668651B2 (ja) | 2011-09-09 | 2015-02-12 | 富士通株式会社 | 情報処理装置、プログラム、および要素抽出方法 |
JPWO2014208728A1 (ja) * | 2013-06-27 | 2017-02-23 | 日本電気株式会社 | ルール発見方法と情報処理装置並びにプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004040477A1 (ja) * | 2002-11-01 | 2004-05-13 | Fujitsu Limited | 特徴パターン出力装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002157394A (ja) * | 2000-11-20 | 2002-05-31 | Sheena Kk | ネットワークマーケティングシステム |
-
2005
- 2005-09-28 JP JP2006547667A patent/JP4512832B2/ja active Active
- 2005-09-28 WO PCT/JP2005/017836 patent/WO2006057105A1/ja not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004040477A1 (ja) * | 2002-11-01 | 2004-05-13 | Fujitsu Limited | 特徴パターン出力装置 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2006057105A1 (ja) | 2008-06-05 |
WO2006057105A1 (ja) | 2006-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2010246009B2 (en) | Demographic analysis using time-based consumer transaction histories | |
Mishra et al. | Predictive analytics: A survey, trends, applications, oppurtunities & challenges | |
JPH07302202A (ja) | ファジー論理エンティティ動作プロファイルを決定するシステム及び方法 | |
CN112884547A (zh) | 一种商品智能推荐方法、装置、介质及终端设备 | |
CN115578163A (zh) | 一种组合商品信息的个性化推送方法及系统 | |
Gangurde et al. | Building prediction model using market basket analysis | |
Allegue et al. | RFMC: a spending-category segmentation | |
JP4512832B2 (ja) | 記号及び数値バスケット分析方法と記号及び数値バスケット分析装置 | |
JP2001216369A (ja) | 商品購入データ処理システム及び商品購入データ処理方法 | |
JP2010277534A (ja) | データ分析システム | |
JP2001216372A (ja) | 売上げ予測装置、売上げ予測方法、記憶媒体 | |
JP6682585B2 (ja) | 情報処理装置及び情報処理方法 | |
Nodeh et al. | Analyzing and processing of supplier database based on the cross-industry standard process for data mining (CRISP-DM) algorithm | |
KR100738899B1 (ko) | 신용카드 결제 시스템을 이용한 창업 및 경영 지원 서비스제공 시스템 | |
CN112819404A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
WO2023162238A1 (ja) | 顧客分析装置、顧客分析方法、及び、記録媒体 | |
Reddy et al. | Market basket analysis using machine learning algorithms | |
Nikitin et al. | Shopping Basket Analisys for Mining Equipment: Comparison and Evaluation of Modern Methods | |
Purnomo et al. | Effective Marketing Strategy Determination Based on Customers Clustering Using Machine Learning Technique | |
KR19990075415A (ko) | 기업의 활동 정보를 이용한 경영 분석 방법 | |
Dinçoğlu et al. | Comparison of Forecasting Algorithms on Retail Data | |
Samidi et al. | Comparison of the RFM Model's Actual Value and Score Value for Clustering | |
KR100785717B1 (ko) | 신용카드 결제 시스템을 이용한 창업 및 경영 지원 서비스제공 방법 | |
Sen | An overview of data mining and marketing | |
Buchwitz et al. | Time Series Event Forecasting in Consumer Electronic Markets using Random Forests |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091110 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100413 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |