JPH11306185A - 重み付け関連ルールを生成する方法および装置 - Google Patents

重み付け関連ルールを生成する方法および装置

Info

Publication number
JPH11306185A
JPH11306185A JP10330816A JP33081698A JPH11306185A JP H11306185 A JPH11306185 A JP H11306185A JP 10330816 A JP10330816 A JP 10330816A JP 33081698 A JP33081698 A JP 33081698A JP H11306185 A JPH11306185 A JP H11306185A
Authority
JP
Japan
Prior art keywords
items
item
weight
support
item set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10330816A
Other languages
English (en)
Inventor
D Ramkumar G
ディー ラムクマー ジー
Ranka Sanjai
ランカ サンジャイ
Tsuaa Sharom
ツァー シャロム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPH11306185A publication Critical patent/JPH11306185A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】項目および/または取引に対して所定の価値の
重み付けを与えることにより、ユーザが定義した重要度
の閾値に合致する関連ルールを生成するデータマイニン
グ方法および装置を提供する。 【解決手段】ユーザにとって価値の高い項目および/ま
たは取引に対して重み値を割り当てることによって、よ
り重要度の高い関連ルールを生成するデータマイニング
方法および装置を開示する。スーパーセット生成時に
は、保守的方法、積極的方法、または両者の組合せを用
いることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、大きなデータベー
ス内の項目間の関係(relationships)もしくは関連(asso
ciation)ルールを見いだすための方法および装置に係
り、特に、異なるユーザ重要度のレベルを有する項目や
トランザクションの組を特定するための関連ルールを生
成する際に項目やデータベーストランザクションレコー
ドに対して所定の価値である”重み”を与える方法およ
び装置に関する。
【0002】
【従来の技術】近年、商業ビジネスは、カスタマイズさ
れたマーケティング戦略やプログラムを開発し実現する
ために、データベース技術により管理される情報主導マ
ーケティングプロセス(information-driven marketing
process)の使用を増大してきている。情報オートメーシ
ョンの発展によって、膨大な量の商業的な数値、事実、
統計が収集・蓄積されるまでに商業コンピュータデータ
ベースの規模が大型化してきた。残念ながら、このよう
なデータベースから抽出される何らかの重要度を持つ情
報は少なくなっている。データベースの規模がますます
管理困難となってきたためである。問題は、従来のコン
ピュータデータベースはデータを蓄積する方法において
効率的ではあるが、有用な情報を抽出するためにデータ
内をサーチする方法においては非効率的である。簡単に
言えば、ビジネスおよびネットワークへの応用における
コンピュータの使用が原因で、データを効率的に処理し
分析する能力を越える速さでデータが生成されてきた。
【0003】この問題に応じて、データベースにおける
データ”マイニング(発掘)”もしくは知識発見が盛ん
になってきている。これは、コンピュータシステムが、
データの直感的かつ判定的な解釈を効率的にかつ正確に
行うことができないからである。しかし、コンピュータ
システムは、データマイニングの定量的な局面を把握す
ることはできる。なぜなら、コンピュータシステムは、
人間にとって多大な時間および集中を要求するある種の
仕事を迅速かつ正確に実行できるからである。データマ
イニングシステムは、理想的には、膨大な量のデータを
かみ砕いて、データ内の類型(カテゴリー)や関係を明
らかにする、時間のかかる退屈な仕事に適している。こ
れらの関係は、次に、人間のエキスパート(専門家)が
直感的に分析することができる。
【0004】データマイニングシステムは、意味のある
パターンや規則性を”見いだし(see)”、何が注目する
価値があり何がそうでないかを確認するために、マーケ
ティング、顧客セールス、製造、金融および実験データ
の膨大な集合をふるいに掛けることにより、利用可能な
データベース内に含まれているパターンや関係から重要
な情報を特定し、抽出する。例えば、クレジットカード
会社、電話会社および保険業者は、彼らの膨大なデータ
の集合を掘り起こして、リスクの高い顧客や今まさに発
生しようとしている不正な取引を特定するために、何千
もの顧客取引の中の微妙なパターンを見つけようとして
いる。データマイニングは、また、通信において発生す
る大量な数の警告(alarms)およびネットワーク警告デー
タを分析するために利用されている。スーパーマーケッ
トなどの小売り組織でのバーコード技術の発達により、
発掘すれば、購買者が購入する種々の品目中の購買関係
を示すことができるであろう何百万もの電子レコードが
発生している。大量のスーパーマーケットの買物かごデ
ータ(個人購買者により購入された品目群)を分析すれ
ば、例えば、牛乳、パン、バター等のように一緒に購入
される品目の頻度が分かる。この結果は、在庫レベル、
生産促進、価格決定、店舗レイアウト、その他の商売の
条件の変更のために調整できる要因に関する決定に有用
であり得る。
【0005】ここで、スーパーマーケットの買物かごデ
ータのデータマイニングを考える。このような場合、ス
ーパーマーケットは一組(1セット)の品目(そのスー
パーマーケットの商品群)を有し、そのうち各購買者の
取引すなわち購買はそのサブセット(部分集合)であ
る。サブセットの量を分析する際、種々の品目(項目)
が有意な回数頻度で現れる取引を見つけることが望まし
い。特定の項目の組(”項目セット”ともいう)が現れ
る取引群の割合(fraction of transactions)は、ある項
目セットの”サポート(support)”として知られてい
る。このサポートが所定の閾値を越えるとき、その項目
セットは”ラージ(large)”と呼ばれる。他のすべての
組み合わせは、”スモール(small)”な項目セットとし
て知られる。一つの項目セットIを含むとともに他の特
定の項目セットJを含む取引群の部分は、”コンフィデ
ンス(confidence)”として知られる。例えば、購買者取
引についてのマーケット買物かご分析において、牛乳を
含む取引の60%がパンも含み、かつ、全取引の15%
がこれらの両項目を含むとすれば、15%がサポートで
あり、60%がコンフィデンスである。
【0006】データマイニングシステムの目的は、サポ
ートおよびコンフィデンスという要因に基づいて取引群
内の種々の項目セットの出現間の関係(relationships)
または関連(associations)(”関連ルール”と呼ぶ)を
見いだすことにある。データマイニング処理の最終結果
は、項目セット群に対するユーザの指定した最小限のサ
ポートおよびコンフィデンス制約(constraints)を満足
する関連ルールの生成である。これらのルールは、多数
のレコード内で見いだされた異なる項目間の頻度関連を
表す公式化された確率ルールである。
【0007】
【発明が解決しようとする課題】ラージ項目セットを発
見するためのより良く知られた方法の一つは、刊行物"F
ast Algorithms of Mining Association Rules” by R.
Agrawal and R. Srikant - Proceedings of the 20th
VLDB Conference; Santiago, Chile, 1994に記載された
演繹法(Apriori method)である。ラージ項目セットを発
見するために、演繹法は、取引レコード群を多数回(mul
tiple passes)参照し、個々の項目のサポートを計数す
ることにより、それらのどれがラージであるか、すなわ
ち、最小限のサポートを有するか、かつ、それらのどれ
がスモールであるかを決定する。後続の各パス(pass)で
は、前回のパスでラージであると分かった項目セットの
シードセット(seed set)から本方法を開始する。このシ
ードセットは、”候補”項目セットと呼ばれる、新たな
潜在的なラージ項目セットを生成するために使用され、
これらの候補項目セットの実際のサポートが当該データ
のパスの間に計数される。取引群に対する当該パスの最
後には、実際にラージである候補項目セットが特定さ
れ、これらが次のパスのシードとなる。
【0008】演繹法の基本的な前提は、ラージ項目セッ
トの任意のサブセットもラージでなければならないとい
うことである。したがって、既にラージであると判明し
た項目セット同士を結合するとともに、ラージであると
判明していないサブセットを含むラージ候補項目セット
を除去することにより、候補ラージ項目セットを生成す
ることができる。この処理は、もはや新たなラージ項目
セットが見つからなくなるまで、データに対して何回も
継続される。関連ルールは、発見されたラージ項目セッ
ト群から、コンフィデンス閾値を越える項目セット群に
ついて確立される。
【0009】演繹法の一つの欠点は、データベースの規
模が大きくなるにつれて、サーチ対象の項目数が増加
し、同様に、生成される関連ルールの数も増加すること
である。非常に大きなデータベースでは、 大量の関連
情報がユーザに残される。しかし、実際には、ユーザ
は、1サブセットの関連にのみ、例えば、際だって異な
る重要度レベルを有する項目サブセットからの項目を含
む関連にのみ興味があることが多い。マーケット買物か
ごの例では、キャビアやロブスターのようなある種の項
目(品目)は、キャンディのような項目より高い価値を
有する。{ロブスター,キャビア}に関する関連ルール
は、キャンディに関する関連ルールより小さいサポート
しか有さないが、店舗が得る利益の観点からは遥かに重
要である。演繹法の下では、{ロブスター,キャビア}
という項目セットはサポートが低く、見いだされる関連
ルールには含まれないであろう。
【0010】演繹法のある種の制約を回避しようとする
より最近のデータマイニングに、 H. Toivonenにより開
示された "Sampling Large Databases for Association
Rules, H. Toivonen, Proceedings of the 22nd VLDB
Conference, Bombay, India,1996がある。Toivonenは、
データベースから1サンプルレコードをランダムに取り
上げ、これを用いて、全データベースに対して成り立つ
という仮定の下で関係もしくはパターンを決定し、その
結果をデータベースの残りについて検証するデータベー
スマイニング方法を提案している。
【0011】この方法は、ランダムサンプルを用いて、
データに対して一連のパスを行うことにより、どの項目
が高頻度に出現するかを決定する。この方法により、高
頻度に出現した項目の集合からスーパーセット(superse
t)が発見されるまで、高頻度に出現した項目群の前回の
集合に対して各パスが実行される。このアプローチはデ
ータベースに対して1回だけのフルパスを試み、最悪の
場合でも2回のパスを行う。精度を上げるために、この
方法は、その評価法においてかなり保守的であり、その
ため、1回のパスで実際に必要である以上に多数の項目
セットを計数しなければならない。
【0012】この方法は、関係(relation)のランダムな
サンプルを用いて近似的な関連(associations)を見いだ
し、これらの結果をデータベース全体に適用する。しか
し、このToivonenの方法の重大な欠点は、正確な解釈に
不利に働く大量の関連ルールを生成し、項目セット群に
対するユーザ定義価値属性(user-defined value attrib
utes)の能力を欠いている。
【0013】殆どの問題領域において、データマイニン
グ分析に関与したすべての項目に等しい重要度を割り当
てることは意味をなさない。現実のデータマイニング応
用において関連ルールを生成するための現存の方法は、
次の二つの基本的な欠点を有することが理解されよう。
【0014】(i)典型的には結果の量が極めて大き
く、ユーザにとって、生成された多数の関連ルールから
結論を導き出すのが困難であること、および(ii)個々
の項目または取引の重要度レベルが大きく異なる項目セ
ット群から生成されるある種の結果が含まれないこと。
【0015】現在のデータマイニング技術の欠点のため
に、必要なのは、正確に大量の項目セット群を見いだし
つつ、データベース内の異なる項目または取引に別個の
価値または属性を割り当て、それによって、より質的な
関連ルールを得る能力をユーザに与える方法および装置
である。
【0016】したがって、本発明の目的は、項目および
/または取引に対して所定の価値の重み付けを与えるこ
とにより、ユーザが定義した重要度の閾値に合致する関
連ルールを生成するデータマイニング方法および装置を
提供することにある。
【0017】本発明の他の目的は、設計および使用法が
簡単で、かつ、データベース作業の遂行が効率的なデー
タマイニング方法および装置を用いることにより、上述
した目的を達成することにある。
【0018】本発明の上述した目的および効果は、本発
明により得られるそれらの例示であり、実現できる潜在
的な効果を除外したり制限したりする意図はない。すな
わち、本発明の上記および他の目的・効果は本明細書の
記載から明らかであり、また、本発明の実施化により学
習することができ、いずれも、ここに実施され、または
当業者には明らかな任意の変更の観点から変形されると
おりである。したがって、本発明は、ここに図示され、
説明された、新規な方法、構成、組み合わせ、および、
改良の中に位置する。
【0019】
【課題を解決するための手段】本発明のこれらおよび他
の目的に従って、本発明の簡単な概要を説明する。以下
の概要では、ある種の簡略化と省略とを行っており、こ
れは本発明の幾つかの局面を強調し、紹介する意図であ
り、発明の範囲を制限する意図ではない。当業者が本発
明の概念を生成および使用可能とするために適した好適
な模範的実施例を以下に説明する。
【0020】本発明の広義の局面によれば、データレコ
ードの集合を検索して、項目および/または選択された
取引のセット(項目セット)を有するレコードを検出す
ることにより、当該品目および取引に割り当てられた重
み付け値に基づいて当該検出された項目セットに対応す
る関連ルールを形成する方法を開示する。この方法は、
(i)連続的にデータレコードを読み出し、(ii)項目およ
び取引に重みを割り当て、(iii)各項目セット、および
レコード内で検出された各選択された取引のための別個
の重みカウンタをインクリメントし、(iv)項目セットお
よび選択された取引の重み付けされたサポートを、所定
のサポート閾値と比較し、(v)この所定のサポート閾値
より大きい重み付けサポートを有する項目セットから新
たなスーパーセットを生成し、(vi)前記所定のサポート
閾値より大きい重み付けサポートを有する項目セットを
含むものとして特定されたレコードを読み出し、(vii)
レコード内で検出された各スーパーセット用の別個の重
みカウンタをインクリメントし、(viii)各スーパーセッ
トの重み付けサポートを、前記所定のサポート閾値と比
較するステップを含む。重み付けされた項目セットを計
数するステップおよび、重み付けサポート閾値について
チェックされる候補スーパーセットを生成するステップ
は、すべての項目セットが計数されるまで繰り返され
る。一旦、データベースレコードが横断参照(traverse
d)されると、計数された項目セットから関連ルールが生
成される。この生成された関連ルールは、ユーザが定義
した重要度の閾値に合致するものであり、単に、見出さ
れた項目セットの量的な観点に基づくものではない。
【0021】サブセットが計数されない場合であっても
重要な項目セットが特定されることを保証するために、
本発明は、有利には、小さい項目セットであっても後に
それから大きな項目セットが導かれるようなものを計数
して一時的に記憶しておく。本発明は、どの項目セット
を一時的に計数して後の読み出しのために記憶しておく
かを決定する幾つかの方法を用いる。これらの方法
は、”保守的(conservative)”方法、”積極的(aggress
ive)”方法、および基本的には保守的方法および積極的
方法を組み合わせた”混成(hybrid)”方法である。これ
らの方法において、或る項目セットが、その重み付けさ
れたスーパーセットを見出すことができるほど大きいか
否かを判定するための要件を緩和するために,重み付け
サポートがスケーリング(変倍)される。
【0022】本発明の他の広義の観点によれば、電子デ
ータベース内に集合的に保存されたレコードの1ファイ
ルを検索するための、プログラム可能な汎用コンピュー
タ装置が開示される。この検索によって、項目および/
または選択されたレコードに割り当てられた重み付け値
に基づき、項目セットが特定される。この装置は、意思
決定、制御動作およびデータ処理を行うプロセッサと、
検索処理の途中でメモリ記憶装置内にレコードを保存す
るためのアドレス入力およびデータ入出力を有するメモ
リ記憶アレイと、メモリ記憶装置のアドレス入力に結合
されたアドレス出力を有し、メモリ記憶装置内の異なる
位置をアクセスするためのアドレスを生成するアドレス
生成ユニットと、アドレス生成ユニットのアドレス出力
に接続されたアドレス入力を有するインタフェースユニ
ットとを備える。
【0023】
【発明の実施の形態】本発明は、ユーザにとっての価値
に基づいて、項目および/または取引に重み付け値を割
り当てることによって、より重要な関連ルールを生成す
るデータマイニング方法および装置を企図する。許容可
能な性能のトレードオフに基づいて、スーパーセットを
生成する際に、保守的方法、積極的方法または両者を組
み合わせた方法を用いることができる。
【0024】以下、図面を参照するが、同様の部品また
はステップには同様の番号を付してある。図1は、本発
明の好適な実施例の広義の局面を示す。図1は、ここで
重み付け項目セットサポート(WIS: Weighted Itemset S
upport)システム1と呼ぶデータマイニングシステムの
概略構成を示す。このシステム1は、項目および/また
は取引に対して異なる”重み付け”値または重要度を割
り当てることにより、データマイニング動作で生成され
る関連ルールに対して重み付けサポートを与える。
【0025】本発明の好適な実施例においては、WIS
システム1は、反復動作を高速に実行することによりデ
ータの大バッファを処理する汎用コンピュータまたは同
様のプロセッサベース電子装置とともに動作する。しか
し、本発明に関連はするが本発明の一部を構成するもの
ではない、汎用コンピュータに典型的にみられる特定の
部品に対する言及は単に説明のためのものであることを
理解されたい。このようなコンピュータ部品への言及
は、本発明が既知の型のデータ処理アプリケーションと
ともにどのように実施されるかの理解を容易にするため
である。さらに、本発明で意図したWISシステム1の
種々の部品は、複数のカスタムICの直接電気接続、プ
ログラミング、または回路およびプログラミングの組み
合わせにより実現できる。その際、本発明の教示内容か
ら逸脱することなくここに記載された機能を提供するた
めに当業界で既知の任意の方法を用いることができる。
当業者は、ここに開示された本発明の内容から、なお本
発明の範囲内にあるであろうWIS1の機能を実際に具
現するための多数の代替例が、市販用半導体集積回路技
術から示唆されることが理解されよう。
【0026】本発明の一実施例によれば、WIS1は、
当該部品として、プロセッサユニット2(好ましくはマ
イクロプロセッサ)、アドレス生成ユニット3、および
インタフェースユニット4を有する。WIS1はまたデ
ータ保存メモリアレイ5を有する。データ保存メモリア
レイ5は、リードオンリメモリ(ROM)およびランダ
ムアクセスメモリ(RAM)の保存位置、および好まし
くは両方の組み合わせにより構成される。プロセッサ
2,アドレス生成ユニット3,インタフェースユニット
4およびメモリアレイ5のすべては、当業界で行われて
いるように、適当な通信バス8を介して相互に接続され
ている。メモリアレイ5は、自己内の異なる保存位置に
データを書き込み、読み出すためのアドレス入力、デー
タ入出力を有する。アドレス生成ユニット3は、メモリ
アレイ5のアドレス入力およびインタフェースユニット
4のアドレス入力に結合されたアドレス出力を有する。
インタフェースユニット4は、また、外部大容量記憶ユ
ニット6を有する。
【0027】プロセッサ2は、判定動作および制御動作
を行うものであり、汎用の記憶レジスタと、アキュムレ
ータ、カウンタ、ポインタのような特定目的のレジスタ
との両方の複数のレジスタ7をさらに有する。当業界で
行われているように、プロセッサ2は、インタフェース
ユニット4を介して、ディスクドライブユニットのよう
な外部大容量記憶ユニット6と通信を行う。メモリ5と
同様、ディスクドライブユニット6は、自己に対してデ
ータの読み書きができるように、データ入力、データ出
力およびアドレス入力を有する。データベース(この上
でWISシステム1が動作する)はディスクドライブ6
上に維持され、そのデータベースの一部はメモリアレイ
5にコピーされ、プロセッサ2が当該データを操作でき
るようにしている。
【0028】背景理解のために図2に、電子データベー
スD、すなわち、個々の取引を表す一連の複数のファイ
ルまたはレコード12を含む一組のデータ取引群(data
transactions)10を示す。ここに示した従来のデータ
マイニングの演繹方法は、取引群の開始位置(g)か
ら、認識された1項目セット(1つの項目、例えば、ス
ーパーマーケットの買物かごの場合、当該1つの項目は
ミルクの購入を含む取引である)を計数することからス
タートする。この処理は、すべてのレコード12を横断
参照して、データ取引群10の最後(h)に達するまで
続く。データ取引群10に対する1回目のパスの後、2
項目セット(例えばミルクとクッキーのような2つの項
目を含む項目セット)を求めて、レコード12上を移動
開始する。この処理は、1項目セットを有する取引レコ
ード12の開始位置(i)からスタートしてレコード1
2を通過していき、データ取引群10の最後(j)に達
するまで続く。次に、3項目セットについて、データ取
引群10の開始点から再スタートし新たな項目セットを
生成する同様の処理が繰り返され、以後、同様である。
すべての項目およびレコード12は等しい価値をもつも
のと考えられ、多数の重要でない関連ルールを含む大量
の結果を生成するこの方法は、ある種の項目や取引の重
要度を、それらのユーザにとっての重要性に基づいて変
更する能力を欠如している。
【0029】これに対して、本発明の好適な実施例で
は、WISシステム1は、生成された関連ルールにバイ
アスを与えるために、項目セットおよび/またはレコー
ド12に対してユーザ定義価値すなわち”重み”を用
い、これにより、ユーザにとって高い重要性をもつ項目
セットに適用されるルールがよりよく見いだされるよう
にする。一般に、ユーザが選択した複数の重み、例え
ば、ある種の項目の1単位を販売することにより得られ
るそれぞれの利益が、レジスタ7またはメモリ5の指定
されたアドレスに、正の実数として保存される。プロセ
ッサ2は、この実数の重みwをある種の項目iに割り当
て、これにより、それらの項目の他の項目に対する”重
要度”を反映させることができる。
【0030】本発明によれば、ユーザが選択した重み
は、例えば、顧客の頻繁な型(frequent types of custo
mers)のパターン規則性を決定するために、取引に割り
当ててもよい。スーパーマーケット買物かごの場合、ユ
ーザは、取引重みとして、トータル取引で当該店舗から
生じた利益、または、顧客の重要度に対応するある種の
価値を選択してもよい。例えば、頻繁な顧客、大口の顧
客等の取引に対して、異なる値を割り当ててもよい。例
えば、介護患者滞在(health care patient stay)に対し
て取引重みを割り当てれば、高額費用の少数の患者、あ
るいは、少額費用の多数の患者を特定することができる
関連ルールを生成できる。
【0031】前述のように、データマイニング操作は、
有意なパターンを特定するために生成されるような関連
ルールのサポートおよび信頼性に依存している。関連ル
ールは、AandB→DandEの形式で生成される。これ
は、次のことを示す。すなわち、レコード12内で一緒
に発生する項目AおよびBは、通常、そのレコード12
内に項目DおよびEも存在するということを意味する。
本発明では、ユーザはAandB→DandEのような関連ル
ールに対して重み付けサポート閾値(”W”)を指定す
ることができ、これにより、全体利益尺度(overall pro
fit measure)のような予め定めた値を超える項目セット
および/または取引を見つけだすことができる。例え
ば、ユーザは、店舗が少なくとも25ドルのトータル利
益を得る項目の同時販売(joint sale)による利益に興味
があるかもしれない。
【0032】重み付けされた項目についてのみ、1つの
項目セット(J)が重み付けサポート閾値Wに合致また
は越えるかどうかを確認するため、WIS1は、まず、
比較のための項目セットの重み付けサポート(”w
s”)を決定しなければならない。上記の例において、
WIS1により生成される1項目のこの重み付けサポー
トは、データベース取引群10に含まれるすべてのレコ
ード12内のすべての項目の累積した重みに対する、項
目セット{A,B,C,D}を含むレコード12の重み
の割合(fraction)または比である。本発明によれば、項
目セットJ={J1,・・・Jk}に対する重み付けサポ
ート(ws)は、プロセッサ2により、次のように算出
される。
【0033】
【数1】
【0034】ここに、w(t),w(j)はそれぞれ取
引tおよび項目jに対する重み、kは定数である。正規
化された重み付けサポート(”wns”)は、基本的に
は、すべてのレコード12に見いだされた重みの総和に
より除算された重み付けサポートws(J)であり、次
のように算出される。
【0035】
【数2】
【0036】ここに、jはレコード12(または取引
t)内に含まれた各項目に渡る。Tはt個の取引の組で
表される。
【0037】ユーザがある価値または重みを項目に対し
てのみ用いることを選択した場合、プロセッサ2はkを
0値に設定する。これによって、WIS1は、見いださ
れる異なる項目セットのために、可変サイズ頻度レベル
を設定することができる。多数の項目を有する項目セッ
トの出現頻度は低く、少数の項目を有する出現頻度は高
いことが理解されよう。例えば、プロセッサ2によりす
べての項目の重みが1に設定されたとすると、見いださ
れようとする与えられた項目セットの頻度は、当該項目
セットに含まれる項目数に逆比例するであろう。
【0038】所定の価値または重みが取引(すなわちレ
コード12)に対してのみ割り当てられる場合、取引係
数kは、非0値に設定される(項目に対する重みはプロ
セッサ2により0にセットされる。)これにより、WI
S1は、例えば、特定の顧客の項目セットパターンを見
いだすために、異なる取引に対して不均一な値をセット
することができる。計算目的のために、このような顧客
は、特定の店舗での他の顧客の購買回数と比較されるよ
うな当該顧客が購入を行った回数で、または当該顧客に
より得られた利益で、または、相対的な取引購入で特定
することができる。
【0039】ここで、図3を参照して、データベースD
または1組のデータ取引群10上での、WIS1の一実
施例の動作を概念的に説明する。図3頂部のステップ1
00からスタートし、プロセッサ2は、すべてのポイン
タ、レジスタ7、および重み付けサポート閾値wを保存
するために用いられるメモリ5の専用領域、とりわけ、
個々のレコード12を有するデータベースD(通常、外
部大容量記憶ユニット6上にある)の部分をリセットす
る。ステップ100ではまた、レジスタ7を初期化し
て、最大項目セット濃度パラメータ(muximum itemset c
ardinality parameter)βを保存する。この濃度パラメ
ータβは、計数対象の項目セットのサイズの選択的なユ
ーザ定義制限値を表す(例えば、βが5の場合、全5項
目セットを計数後に処理が終了するよう設定される) データ取引群10内の{i1,i2,・・・in}のよう
に特定される項目i(例えば、スーパーマーケットで販
売される製品)について、各個別の項目iには、項目セ
ット計数に先立って、または、データベースレコード群
10に対する1パスでの項目計数中、プロセッサ2によ
り実数の重みを割り当てることができる。本発明の一実
施例では、項目i1,i2,・・・inは、それぞれの重
みが割り当てられ、最大から最小の重みの順で割り当て
重みによりソートされ、さらに、項目セット計数の前に
メモリ5の指定されたアレイ内に保存される。
【0040】ステップ102では、専用のレジスタ7が
初期化され、高速カウンタkとして用いられる。このk
は、まず、データベースDに対する最初のパスのために
1にセットされる。プロセッサ2は、データベースレコ
ード12を通過していき、すべての1項目セットを計数
する。このためには、従来の演繹法を用いてもよい。あ
るいは、米国特許出願第08/853,757号に開示
され、ここに参照して取り込まれる動的項目セット計数
システムのような他の技術を採用してもよい。本発明の
好適な実施例では、この動的項目セット計数システムを
用いる。動的項目セット計数システムの顕著な機能は後
述するが、本発明は、いずれの特定の項目セット計数技
術に制限されるものではないことを理解されたい。
【0041】各レコード12が読み出されると、WIS
1は、検出される項目セットを4つのクラス、すなわち
(i)予想的ラージ(suspected large)、(ii)予想的ス
モール、(iii)確定的ラージ(confirmed large)、(iv)確
定的スモールのうちの一つに分類する。予想的な”ラー
ジ”または”スモール”の項目セットは、なお計数中の
項目セットであり、確定的な項目セットは、すべてのレ
コード12が読み出され項目セットが計数されたときの
そのような項目セットとして指定される。例えば、プロ
セッサ2がデータ取引10の第1のレコード12を読み
出したとき、プロセッサ2は、もしそのレコード12が
1項目セットの基準に合致するならば”予想的スモー
ル”と分類する(もしレコード12が空であれば”確定
的ラージ”と分類する)。
【0042】これら4つの分類の各クラスにおいて指定
されたレコード12の個数を記憶しておくため、別個の
カウンタまたはレジスタ7が用いられる。これらのカウ
ンタは、各項目セットおよびその分類計数を監視および
記憶する専用レジスタであってもよい。あるいは、項目
セットデータを意味するために特別に用意されたメモリ
5の指定領域であってもよい。本発明の好適な実施例で
は、高速カウンタとして専用レジスタ7を用いている。
各レコード12が読み出されると、適当なカウンタおよ
び分類レジスタ7がインクリメントされる。予想的スモ
ール項目セットの計数が、予め定めたサポート閾値を越
えたら、当該項目セットは予想的ラージに分類されるよ
うになる。
【0043】プロセッサ2が、各特定の項目セットにつ
いてすべてのレコード12を横断参照したとき(これは
データ取引群10の完全ループ内のすべてのレコード1
2を含む)、その予想的ラージまたは予想的スモールの
分類は、そのケースがいずれであれ、確定的ラージまた
は確定的スモールになる。すべての特定された1項目セ
ットの組C1は、次に、特定のレジスタ7、または選択
的に、メモリ5の専用領域に保存される。本発明の好適
な実施例では、プロセッサ2は、データベースDに対す
るパスで見いだされる各ラージ項目セットCのためのカ
ウンタとして専用レジスタ7を用いる。
【0044】この動作(ステップ100内)の始めにお
いて項目セット{i1,i2,・・・in}のすべての項
目についてもし重み付け値の割り当てが行われていなけ
れば、特定されたラージ項目セット内の各項目iには、
データベースDに対する最初の横断参照における1項目
セット計数の間に、所定の重み付け値が割り当てられ
る。次に、これらの項目i1,i2,・・・inは、レジ
スタ7またはメモリ5に保存される前に、最大から最小
の重みの順で、割り当てられた重みによりソートされ
る。
【0045】データベースDに対する最初のパスでは、
単に、各項目の発生の回数を計数することによりラージ
1項目セットを決定し、場合によって、その項目および
取引に重みを割り当てる。最初のパスから得られたラー
ジ項目セットCを用いて候補項目セットCkが生成され
る。レジスタ7を用いて、Ck内の各項目セットに対し
て重みカウンタが設けられる(ステップ104)。次の
パスでは、後述するように、Ck内の候補のサポートが
計数される。与えられたレコード12に含まれるCk内
の候補を効率的に決定するために、本発明では、ハッシ
ュツリーデータ構造(hash tree data structure)を採用
し、可変サイズ入力を受けて固定サイズビット列(デー
タを表す)を返す変換に基づいて、データを保存し読み
出す。
【0046】図4に、候補項目セットCkを生成するた
めの例示的なハッシュツリー構造を示す。ここに、項目
A,B,C,Dは説明のために示したものである。プロ
セッサ2は、例示的な項目A,B,C,Dを含む項目セ
ットの認識に関与する。空の項目セットは、ルートノー
ド(4)に、符号{ }で示されている。各項目セット
は、ルートノード(4)からそれぞれのノードへの経路
により表される。図から分かるように、すべての項目セ
ット(A,B,C,D)はルートノード(4)に接続さ
れている。例えば要素ABCを有する項目セットは、ル
ートノード(4)からノード(1)への経路により表さ
れ、要素ABを有する項目セットはノード(2)への経
路により表される。計数中または計数済みの項目セット
の各々は、そのプレフィクス(prefixes)のすべてと同
様、それに関連した特定のノードへの経路を有する。枝
(branches)は、サブセット(例えばノード(6)におけ
るBC、ノード(5)におけるD)を表す。
【0047】図4に示した破線(7)は、例示的な項目
セットABCのデータツリーを通過する経路を示す。こ
の経路の左側にあるノードは、レコード群12に対する
各パスの間にプロセッサ2によりインクリメントされな
ければならないレジスタ7に対応している。要素ABC
の項目セットに対して、レジスタ7 A,AB,AB
C,AC,B,BCおよびCがこの順番にインクリメン
トされる。
【0048】上述したように、データベースDに対する
1パスの間に取引レコード群12が読み出された後、サ
ポート閾値レベルがレジスタ7内の項目セットの計数値
と比較され、この計数値に基づいて、ハッシュツリーの
各ノードがラージかスモールかが決定される。ここか
ら、次の予想的ラージの項目セット(2項目セット、3
項目セット等)が、そのスーパーセットも含めて、生成
される。新たな予想的な項目セット(スモール、ラー
ジ)は、検出対象の特定の項目を狙って、前もって生成
してもよい。例えば、子供用穀物食品(シリアル)の生
産者は、シリアルとクッキー(2項目セットにおける)
の販売間の関連を期待しているかもしれない。このよう
な場合、各パスで生成されるべき項目セットは、前もっ
てプログラムまたは選択しておいてもよい。
【0049】WIS1自体は、レコード群12に対す
る、先行のパスにおいて見いだされた項目の計数値に基
づいて新たな予想的項目セットを生成し、その結果、未
知の規則性が発見されるということが起こる可能性が高
い(また、好ましい)。加えるに、項目AおよびBを含
む2項目セット並びに項目AおよびCを含む2項目セッ
トは、これらを組み合わせて項目A,B,Cのスーパー
セットにすることができる。組合せによりスーパーセッ
トを構成する項目セット(AB,AC)は、勿論、スー
パーセット(ABC)のサブセットである。サーチ中に
生成され、そのサブセットのすべてが予想的ラージまた
は確定的ラージに分類されるあらゆるスーパーセットを
記憶しておくために追加的なレジスタ7が設けられる。
このようなスーパーセットは、当初、そのスーパーセッ
トに対するサポート閾値に達するまでは、予想的スモー
ルと分類されている。
【0050】動的項目セット計数システムにおいて生成
されたスーパーセットのすべてのサブセットは、各々が
予想的ラージであるかどうかがチェックされる。もし、
すべてのサブセットが予想的ラージのサブセットである
ならば、そのスーパーセットは図4のハッシュツリー構
造の一つの枝として追加される。この処理は、ハッシュ
ツリーの予想的ラージのノードの各々について、予想的
ラージの項目セットのすべてに対応する全レコード12
をプロセッサ2が読み出すまで繰り返される。スーパー
セットの複数のサブセットの一つが予想的ラージでない
場合には、そのスーパーセットはハッシュツリーには追
加されない。
【0051】次に、図3に戻り、項目セットを計数する
ためのデータベースDに対する次のパス期間中、プロセ
ッサは取引群内で生じたCk内の項目セットのレジスタ
7内の重みカウンタをインクリメントする(ステップ1
06)。レジスタ7は、予め定めた項目重みおよび/ま
たは取引重みずつ、インクリメントされる。もし項目重
みが既に割り当てられていれば(ステップ107)、計
数される各項目セットの重み付けサポートws(J)
は、ユーザが選択した重み付けサポート閾値wと比較さ
れる(ステップ108)。
【0052】ステップ110において、予想的ラージ項
目セットの次のグループCk+1は、すべてのk+1項目
セットに対してプロセッサ2により、重み付けサポート
閾値wより大きい重み付けサポートws(J)を有する
項目セットに基づいて、確立される。加えるに、kのカ
ウンタとして使用されるレジスタ7は1だけインクリメ
ントされる。データベースDに対する次のパスでは、プ
ロセッサ2は候補項目セットを計数し、ステップ108
と同様に、所定の重み付けサポートwより大きい重み付
けサポートws(J)を有するCk+1内の候補項目セット
からすべてのラージ項目セットを特定する。この処理
は、データベースDに対して、所定の重み付けサポート
wより大きい重み付けサポートws(J)を有するすべ
てのラージ項目セットが見いだされるまで繰り返される
(ステップ114)。重み付けサポートwより大きい計
数値を有するラージ項目セットのすべてが見つかった
ら、関連ルールを導き出すことができる(ステップ11
6)。
【0053】生成される関連ルールの形式は次の如くで
ある。もし、A1が真、かつ、A2が真、・・・、かつ、
Anが真、であれば、C1が真、かつ、C2が真、・・
・、かつ、Ckが真、である可能性が高い。A1,A2,
・・・,Anはルールの前件(antecedents)であり、C
1,C2,・・・,Ckはルールの結論である。任意の与
えられた項目セットについて、多数の関連ルールを生成
することができる。すなわち、例えば、ある項目セット
がABCを含む場合、生成しうる関連ルールには、AB
→C,A→BC,BC→A,B→AC,AC→B、が含
まれる。ここに、”→”は”then(ならば)”を意味す
る。生成された任意の項目セットについて、WIS1
は、重み付けサポート閾値より大きい計数値を有する項
目セットについて、それらの項目セットとして出現する
個々の項目の確率に関連する関連ルールを生成する。望
むならば、信頼性測定(confidence measurement)または
ゲージング(gauging)のような既知のフィルタリング方
法を用いることにより、関連ルールの個数を低減するこ
とができる。この項目セットからの関連ルールの生成
は、本発明により開示される装置の一部品である。
【0054】スーパーマーケット買物かごの例では、項
目セットABCがフルーツジュース、クッキー、子供用
シリアルという項目に対応するとすれば、生成される関
連ルールであるBC→Aの翻訳から次のことが判明す
る。すなわち、クッキーと子供用シリアルとを購入する
顧客は、ws(J)回、フルーツジュースをも購入す
る。ここに、ws(J)はおそらく、予め定めた重み付
けサポート閾値より大きい。
【0055】ユーザが項目および/または取引に対して
重み付けを行う(ステップ107)本発明の実施例で
は、WIS1は、有利には、幾つかのサブセットがスモ
ールであっても、ラージである項目セットを見いだす。
これは、従来の演繹法に用いられている重大な動作上の
仮定(すなわち、項目セットがラージであればそのサブ
セットのすべてがラージである)とは対照的である。先
に述べたように、演繹法は既にラージであると発見され
ている項目セットに項目を追加することにより、サイズ
が拡張していくラージ項目セットを生成する。しかし、
本発明では、ある項目セットは、たとえそのサブセット
の一つがスモールであるとしても、ラージとして決定さ
れうる。この理由は、取引内に存在しない項目の重み
が、そのスーパーセット内の項目セットの重み付けサポ
ートを大きく増加させることができるからである。例え
ば、項目セット{A,B}の重み付けサポートはスモー
ルであるかもしれないが、そのスーパーセット{A,
B,C}は、項目Cに割り当てられた重み付け値に起因
して、ラージである可能性がある。
【0056】スモールサブセット{A,B}が通常計数
されない場合でも項目セット{A,B,C}が特定され
ることを保証するために、本発明は、一時レジスタ7お
よび/またはメモリ5の領域(ここから後にラージ項目
セットが導き出される可能性がある)においてスモール
項目セットを計数・保存しておく。本発明は、後の読み
出しのためにどの項目セットを一時的に計数・保存して
おくべきかを決定するために幾つかの方法を用いる。こ
れらの方法には、”保守的”方法、”積極的”方法、お
よび、基本的に保守的方法と積極的方法を組み合わせ
た”混成”方法が含まれる(ステップ109)。
【0057】次に図5を参照して、保守的発見方法およ
び積極的発見方法について、候補項目セット決定を概念
的に説明する。図5の底部には、第1レベルの例示的1
項目項目セットであるA,B,C,Dが示されている。
次の上位のレベルでは、2項目セット候補が示され、そ
の上に、3項目セット候補が示される、という風になっ
ている。必要なスーパーセット候補(すなわち、2項目
セット、3項目セット等)が特定されることを保証する
ために、サブセットの計数値は、ユーザが定義した重み
付けサポート閾値wの代わりに、より小さいすなわち低
減された重み付けサポート閾値と比較される。この低減
重みサポート閾値Wr(J)は、変倍率(scaling facto
r)φ(J)でwを変倍することにより得られる。この変
倍係数を重み付けサポートwに対して直接掛けることに
より、低減されたサポート(低減サポート)閾値Wr
(J)を得る。すなわち、 Wr(J)=φ(J)* w この変倍係数φ(J)は、ユーザが指定した濃度パラメ
ータβに基づいてプロセッサ2が生成する(図3のステ
ップ100参照)。前述したように、βはユーザが興味
のある項目セットサイズにおける最大の項目個数を表す
(例えば5項目セット)。ある項目セットJについて、
許容可能な最大濃度βの最大項目セット重み付けサポー
トを有する、導出されたスーパーセットJ’は、 j’=j1,j2,・・・,jk,,in-β+k+1,in-β+
k+2,・・・,in (項目セットはi1・・・inの順番に重みでソートされ
ることに留意されたい。ここにinが最大の重みを有す
る) 項目セットJを計数するか否かを決定する際の最悪ケー
スは、Jを含むすべてのレコード12がスーパーセット
J’をも含み、かつ、スーパーセットJ’が大きい項目
セット重みを有するためにラージであるという事態であ
る。この場合、項目セットJが重み付けサポート閾値を
越えるならば、J’は重み付けサポート閾値wを越える
であろう。変倍係数φ(J)は、Jの項目のトータル重
みのJ’のそれに対する比率としてプロセッサ2により
算出される。この比率だけ、J’の重み付けサポートは
最悪ケースにおけるJの重み付けサポートより大きくな
る(すなわち、J’が存在する取引の組が、Jが存在す
るそれらと同じであるならば)。よって、φ(J)は、
Jと残りの項目の項目重みに基づいて次のように算出さ
れる。
【0058】
【数3】
【0059】たとえ、あるサブセットが重み付けサポー
ト閾値より小さく、それが計数される際に保存がなされ
なかったとしても、十分な重み付けサポートを有する任
意のスーパーセットについて、そのサブセットが計数さ
れ一時的に保存されるように、変倍比率φ(J)は生成
される。換言すれば、変倍係数φ(J)は、項目セット
Jの重み付けサポート閾値上の制約を”緩和”するもの
であり、これによって、その導出されたスーパーセット
のいずれかがラージであれば、項目セットJを計数し、
後の読み出しのために一時的に保存するために利用可能
とする。
【0060】この変倍係数φ(J)を用いて、プロセッ
サ2は、濃度βまたはこれより小さい項目セットを先に
見る(looks ahead)。変倍係数φ(J)は、低減重み付
けサポート閾値Wr(J)を越える小さい濃度の項目セ
ットの個数を低減する。したがって、プロセッサが計数
する項目セットの個数が低減される。
【0061】図5において項目セットをスーパーセット
と接続している太線で示した積極的方法では、プロセッ
サ2は、(太線経路のみに沿って)最大から最小の重み
付けの順に項目が並んだサブセットを有する候補スーパ
ーセットを先に見る。図5において、項目セットAの重
みは項目セットBより大きい値を有し、項目セットBは
項目セットCより大きい。項目セットABCは項目セッ
トABDより大きい値を有する、という具合である。し
たがって、項目セットが計数されるべきか否かをチェッ
クする際、積極的方法は候補スーパーセットJを先に見
て、項目が連続した一連の重み順になっていない候補項
目セットJのサブセット(例えば、ABD,ACD等の
サブセット:以下”間接”サブセットと呼ぶ)をチェッ
クする。1つのサブセット内の項目(または項目セッ
ト)は、連続的な重み付け順に(最大から最小へ)配置
され、したがって、間接項目セットは、通常、”直接”
項目セットより累積重みが小さい。”直接”項目セット
内では、項目は連続的に順番になっている(例えば、A
BC,BCD、等)。この積極的方法では、間接項目セ
ットに先立ち、与えられた項目セットの直接スーパーセ
ットのみが計数される。
【0062】項目セットをスーパーセットと接続してい
る通常線および太線で図示された保守的方法では、プロ
セッサ2は、一つの項目セットのすべてのスーパーセッ
トを先に見る。考慮中の一つのスーパーセットのすべて
のサブセットが計数される。混成方法は、項目セットレ
ベル(itemset levels)で区別しながら、保守的方法およ
び積極的方法を組み合わせる。例えば、混成方法の一実
施例は1項目セットおよび2項目セットについては保守
的方法を用い、残りの項目セットについてはβ項目セッ
トレベルに達するまで積極的方法を用いる。
【0063】より詳しくこれらの方法を理解するため
に、図6〜図8に保守的方法、積極的方法および混成方
法の動作のフロー図を示す。まず図6に、保守的方法の
詳細を示す。概して保守的方法では、プロセッサ2は、
直接および間接のすべてのサブセットの中から最大の重
みサブセットをチェックすることにより、項目セットJ
の低減重み付けサポート閾値Wr(J)を設定する。
【0064】図6に示したフロー図の頂部から始めて、
プロセッサ2はハッシュツリーレジスタ7を初期化し
(ステップ140)、データベースDすなわち一組のデ
ータ取引群10内の一つのレコード12から最初の取引
を読み出す。レコード12に含まれるすべての項目はプ
ロセッサ2により計数され、特定の項目セットカウンタ
として用いられる適当なレジスタ7が更新される。ここ
で、一つの取引に含まれる各項目セットの重みは、ユー
ザが定めた重み付け値だけインクリメントされる。この
情報は専用レジスタ7にも保存される。
【0065】取引重みが割り当てられない(すなわち、
項目にだけ重みが割り当てられる)場合、取引定数kは
0に設定され、取引自体は一定の重み付け値のままとな
る(ステップ142)。この処理は、取引の回数Nだ
け、データベースD(すなわちデータ取引群10)に対
して繰り返される。Nはユーザが定めた数値であり、本
実施例では10,000取引にセットされる(ステップ
144)。各候補セット(ハッシュツリー構造内の一つ
のノードとして表されるスーパーセット)について、項
目セットの低減重み付けサポートは、プロセッサ2によ
り保守的方法を用いて算出される。これは、直接および
間接サブセットの両方のすべてのサブセットについて、
低減重み付けサポートを算出することを伴う(ステップ
146)。
【0066】プロセッサ2は、ついで、当該低減重み付
けサポートを、ユーザが選択した、当該項目セットの重
み付けサポートと比較する。低減重み付けサポートが当
該重み付けサポート閾値を越えるならば、その項目セッ
トはラージ項目セットであると認識される。低減重み付
けサポートが重み付けサポート閾値より小さいならば、
その項目セットはスモール項目セットとされる(ステッ
プ148)。
【0067】次のステップでは、プロセッサ2は新たな
ラージ候補セットを選択し、その直接および間接の両方
のサブセットをチェックする(ステップ150)。生成
されたスーパーセットのすべてのサブセットが既に確定
的ラージの項目セットであれば(ステップ152)、そ
のスーパーセットはラージであると確認される(そし
て、ハッシュツリー構造に追加される)(ステップ15
4)。残りのラージ候補スーパーセットが検討され、す
べての予想的ラージノードがステップ152〜154で
処理されるまで、すべての直接および間接サブセットが
チェックされる(ステップ156)。もし上記演繹法を
用いた場合には、検出時にすべてのラージノードが確認
される。生成されたスーパーセットのいずれかがラージ
でなければ(ステップ152)、当該スーパーセットは
ハッシュツリー構造には追加されない。プロセッサ2
は、βまたはこれより小さいサイズのすべての項目セッ
トが検討されるまで(ステップ158)、次の取引を読
み込み項目セットを計数し続ける(ステップ158へ戻
る)。
【0068】一旦、プロセッサ2が、検討されるレコー
ド12内のすべての項目セットを見いだしたら、プロセ
ッサ2は、重み付けサポート閾値wを越える重み付け値
を有する項目セットの計数値を、メモリアレイ5の指定
された領域に保存する。この好適実施例では、得られた
項目セットをメモリアレイ5内に保存するが、より高速
な処理のために専用レジスタ7を用いてもよい。これら
の保存された項目セット計数値から、重み付け値に対応
する関連ルールが生成され、分析のためにユーザに対し
て出力され、または、将来取り出すためにメモリアレイ
5内に保存される(ステップ160)。
【0069】上述した保守的方法では、有利なことに、
与えられた候補セットのすべての項目スーパーセットが
プロセッサ2により計数される。これによって、計数さ
れるより小さい濃度の項目セットの個数を増加させると
ともに、生成されたすべてのルールが等しい重要性をも
つものではない。当業者に既知のフィルタリングデバイ
スを追加採用して、価値のあるルールを特定するように
してもよい。例えば、本発明において、その範囲を逸脱
することなく、信頼性測定またはゲージングのようなフ
ィルタリング技術を採用することができる。
【0070】積極的方法については、項目セットJの低
減閾値は、候補項目セットJ内の項目を有する直接サブ
セットのみの中で、最大重みサブセットをチェックする
ことにより設定される。間接サブセットは、(一つのサ
ブセット内の項目が最大から最小の重み順に配置されて
いるので)通常、より小さい累積重み値を有し、よっ
て、積極的方法では利用されない。サブセットに追加さ
れる項目は項目セットJに含まれる項目より小さい値の
重みを有する筈である。したがって、プロセッサ2は、
項目セットJの重みに対する最大重み直接サブセットの
重みの比率として係数φ(J)を設定することにより、
低減重み付けサポートを算出する。
【0071】次に、図7を参照する。積極的方法の実施
は、保守的方法について図6に示したフロー処理の実施
に対応する。しかし、ステップ168で、プロセッサ2
は、上述した方法で算出された積極的なφ(J)係数を
用いて、すなわち、φ(J)を算出する際の候補項目セ
ットJ内の項目を有する直接サブセットのうちの最大の
重みを用いて、低減重み付けサポート閾値を計算する。
この項目セットの低減重み付けサポートは、ユーザが定
義した重み付けサポートと比較される。低減重み付けサ
ポートがユーザ定義重み付けサポートを越えるとき、そ
の項目はラージであるとされ、そうでないとき、スモー
ルであるとされる(ステップ170)。ステップ17
2、174では、ラージまたは小分類の新たに生成され
た候補セットから、直接サブセットのみがチェックされ
る。積極的方法により関連ルールを生成するため、間接
サブセットはプロセッサから無視される。
【0072】この方法では、与えられたスーパーセット
の直接サブセットのみが計数された。これにより、ある
種の場合に計数される、より大きい濃度の項目セットの
個数が増加する。具体例として、項目セットJが生成さ
れたならば、Jieという形をした直接スーパーセット
(1つの余分な項目:ieを含む)のすべてが生成される
筈である。ここに、ieの重みはJの各項目の重みより小
さい。積極的発見方法は候補セットの直接サブセットの
みをチェックするので、Jieの全サブセットのうちJ
(およびその直接サブセット)のみがチェックされるこ
とになる。その結果、潜在的に大きい個数の項目セット
(ほぼ項目の個数と同じ)が単一の項目セットJを介し
て生成される。
【0073】図8に示した混成方法は、殆どの点におい
て、保守的方法および積極的方法に匹敵する。しかし、
混成方法においては概して、積極的方法では計数されな
かったであろう追加的な項目セットが計数され、後の読
み出しのために保存される。例えば、濃度2以下の項目
セットを有するすべてのスーパーセットは、その項目セ
ットが候補スーパーセットの直接サブセットであるか否
かに関わらず、計数される。したがって、この例では、
2以下の項目セットについては保守的方法が利用され、
3以上の項目セットについては積極的方法が利用され
る。
【0074】図8において、ステップ184〜188は
上述した保守的方法におけるステップ140〜144に
対応し、本処理のその部分の詳細な説明はここでは繰り
返えさない。但し、ステップ190において、プロセッ
サ2は、保守的方法および積極的方法についてユーザが
選択した濃度を用いて各候補セットの低減サポートを計
算する。この候補セットの重みは、ステップ190で算
出された低減サポートと比較され、当該セットがラージ
に分類されるべきかスモールに分類されるべきかが決定
される(ステップ192)。新たなラージ候補セットが
決定され、そのスーパーセットがプロセッサにより生成
される。混成方法においては、スーパーセットのすべて
または一部は、保守的方法を積極的方法と組み合わせる
ユーザの設計的選択に基づいて生成される。図8に示さ
れた例では、全スーパーセットは、2項目セットまたは
それ以下を含む候補セットについて生成される(保守的
方法)。3項目セットまたはそれ以上の候補セットにつ
いては、積極的方法が利用される(ステップ194)。
【0075】次に、ステップ194で生成されたスーパ
ーセットの直接サブセットのサポートが、低減重み付け
サポートと比較され(濃度すなわち項目セット番号に応
じて保守的または積極的)、これにより当該サブセット
がラージに分類されるべきかスモールに分類されるべき
かが決まる。2項目セットまたはそれ以下を含むスーパ
ーセットについては、すべてのそのようなスーパーセッ
トは、ラージまたはスモールステータスについてチェッ
クされる(ステップ196)。ラージスーパーセットは
ハッシュツリー構造に追加され(ステップ198)、残
りの処理ステップ200〜204は保守的方法のステッ
プ156〜160にしたがって行われる。以上から関連
ルールが生成される(ステップ204)。
【0076】データベースDについて発明者らにより行
われた、保守的方法、積極的方法、および混成方法に基
づいて、重み付けされたサポートを有する関連ルールを
生成する実験的試行の結果を次の表に示す。
【0077】 項目 重み 取引 A 11 ABCDE B 5 CDE C 4 DEG D 1 DFG E 0 BD F 0 BCD G 0 DEFG AC BCEF BEFG CFG EFG DEF ルール A→Bの生成 最小サポート閾値 方法 計数される項目セット WIS 0.37 積極的 17 保守的 24 混成 23 演繹 0.15 54 積極的方法によりラージ項目セットJが生成されるとす
ると、そのサブセットI(IはJのサブセット)のすべ
ては、前述のように計数されなかったおそれがある。特
に、サブセットIはラージではなくJの直接サブセット
ではないとすれば、これは計数されない。しかし、関連
ルール生成の最終ステップにおいては、本発明では、ル
ールI→J−1の信頼性をテストするために、Iの計数
値を知る必要はない。ルールI→J−1の信頼性の信頼
性がテストされるのは項目セットJがラージだからであ
り、項目セットIからのルールはI自体がラージでない
限りテストされない。項目セットJがラージであると分
かったとき、プロセッサ2は各サブセットが計数中であ
るか否かをチェックする。計数中でなければ、プロセッ
サ2はその計数を開始する。
【0078】以上、特に好適な実施例を参照して本発明
を詳細に説明したが、本発明には他の異なる実施例が可
能であり、その詳細は種々の明らかな点において変更が
可能であることが理解されよう。当業者に明らかなよう
に、本発明の精神および範囲にありながら、変形および
変更を行うことが可能である。したがって、上記説明お
よび図面は単に説明のためのものであり、いかなる方法
においても本発明を制限するものではなく、本発明は請
求の範囲によってのみ定められる。
【図面の簡単な説明】
【図1】汎用コンピュータ上で動的項目セット計数シス
テムの実施例のブロック図である。
【図2】演繹法による従来のデータマイニング構成の図
である。
【図3】本発明の重み付けされた項目セットサポートシ
ステムの一般的な具現例の図である。
【図4】本発明の一実施の形態における、シリアル処理
のためのハッシュツリー構成の斜視図である。
【図5】本発明の一実施の形態における、保守的かつ積
極的処理のためのハッシュツリー構成を示す概要図であ
る。
【図6】本発明の他の実施の形態による重み付けされた
項目セットサポートシステムの保守的動作を示すフロー
チャートである。
【図7】本発明の他の実施の形態による重み付けされた
項目セットサポートシステムの積極的動作を示すフロー
チャートである。
【図8】本発明の他の実施の形態による重み付けされた
項目セットサポートシステムの保守的かつ積極的動作を
示すフローチャートである。
【符号の説明】
1…重み付け項目セットサポート(WIS: Weighted Items
et Support)システム、2…プロセッサユニット、3…
アドレス生成ユニット、4…インタフェースユニット、
5…データ保存メモリアレイ、6…外部大容量記憶ユニ
ット、7…カウンタ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 シャロム ツァー アメリカ合衆国、カリフォルニア州 94040、マウンテン ビュー、エル モン テ アヴェニュー 1076

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】データマイニングシステムにおいて、電子
    データベースに集合的に保存された複数のレコードに含
    まれる、選択された項目および取引の存在を特定するた
    めの方法であって、この方法は、 項目および取引に、所定の価値の重みを割り当て、 電子データベース内の各レコードをほぼ順次的なフロー
    で読み出し、 複数のレコード中に各項目が現れる回数を計数し、 計数された各項目について、当該項目を含むレコードの
    累積重みを全レコード内の全項目の累積重みで割った商
    (重み付けサポート)を、所定のサポート閾値と比較
    し、 前記所定のサポート閾値を越える前記重み付けサポート
    を有する項目の少なくとも一部を含む項目セットを生成
    し、 前記予め定めたサポート閾値を越える重み付けサポート
    を有する項目のセットを含む前記レコードを読み出し、 前記各項目セットが全レコード中に現れる回数を計数
    し、 生成された各項目セットについて、前記生成された項目
    セットの重み付けサポートを前記所定のサポート閾値と
    比較し、 前記所定のサポート閾値を超える新たな項目が検出でき
    なくなるまで、新たな項目セットの生成、レコードの読
    み出し、および前記生成された項目セットと前記所定の
    サポート閾値との比較のステップを繰り返すことを特徴
    とする方法。
  2. 【請求項2】データマイニングシステムにおける請求項
    1による方法であって、さらに、電子データベース内に
    保存されたレコード内で検出された項目セットを分析す
    ることにより、複数のレコード内の異なる項目間の頻度
    関連を示す確率ルールを算出する方法。
  3. 【請求項3】データマイニングシステムにおける請求項
    1による方法であって、ある項目Jの前記重み付けサポ
    ート(ws(J))は次式で算出される。 ここに、w(t)は取引tの重み、w(j)は項目jの
    重み、kは定数であり、jは取引tに含まれる各項目に
    渡り、Tはt個の取引のセットとして定義される。
  4. 【請求項4】データマイニングシステムにおける請求項
    1による方法であって、前記項目に重みを割り当てるこ
    とを含み、さらに、当該項目セット内の項目の累積重み
    を、前記予め定めたサポート閾値を越える重み付けサポ
    ートを有する項目を少なくとも幾つかを含むように生成
    された項目セットのうちで最大の重みを持つ項目セット
    内の項目の累積重みで割った比で、項目セットの前記重
    み付けサポートを変倍することを含む方法。
  5. 【請求項5】データマイニングシステムにおける請求項
    4による方法であって、前記項目に重みを割り当てるこ
    とを含み、前記重み付けサポートの前記変倍は、セット
    当たり所定の項目個数まで、生成された項目セットに適
    用される方法。
  6. 【請求項6】データマイニングシステムにおける請求項
    1による方法であって、前記項目に重みを割り当てるこ
    とを含み、さらに、当該項目セット内の項目の累積重み
    を、前記予め定めたサポート閾値を越える重み付けサポ
    ートを有する項目を少なくとも幾つかを含み、かつ、よ
    り小さい重みの他の項目を含むように生成された項目セ
    ットのうちで最大の重みを持つ項目セット内の項目の累
    積重みで割った比で、項目セットの前記重み付けサポー
    トを変倍することを含む方法。
  7. 【請求項7】データマイニングシステムにおける請求項
    6による方法であって、前記項目に重みを割り当てるこ
    とを含み、前記重み付けサポートの前記変倍は、セット
    当たり所定の項目個数までの生成された項目セットに適
    用される方法。
  8. 【請求項8】データマイニングシステムにおける請求項
    1による方法であって、前記項目に重みを割り当てるこ
    とを含み、さらに、当該項目セット内の項目の累積重み
    を、前記生成された項目セットの最大の重みを持つ項目
    セット内の項目の累積重みで割った比で、所定の項目サ
    イズより小さいすべてのセットについての項目セットの
    前記重み付けサポートを変倍するとともに、当該項目セ
    ット内の項目の累積重みを、所定の項目サイズまでの直
    接生成された項目セットの最大の重みを持つ項目セット
    内の項目の累積重みで割った比で、所定の項目サイズよ
    り大きいすべての項目セットについての項目セットの重
    み付けサポートを変倍することを含む方法。
  9. 【請求項9】データマイニングシステムにおける請求項
    1による方法であって、前記項目に重みを割り当てるこ
    とを含み、さらに、電子記憶手段内に前記価値重み値を
    保存することを含む方法。
  10. 【請求項10】項目のセット(項目セット)および/ま
    たは選択された取引を有するレコードを検出し、項目お
    よび取引に割り当てられた重み値に基づいて検出された
    項目セットに対応する関連ルールを形成するために、デ
    ータレコードの集合を検索する方法であって、 a.連続的にデータレコードを読み出し、 b.項目および取引に前記重みを割り当て、 c.1レコード内で検出された各項目毎に、および各選
    択された取引毎に、別個の重みカウンタをインクリメン
    トし、 d.項目セットおよび選択された取引の重み付けサポー
    トを、所定のサポート閾値と比較し、 e.前記所定のサポート閾値より大きい重み付けサポー
    トを有する項目セットから新たなスーパーセットを生成
    し、 f.前記所定のサポート閾値より大きい重み付けサポー
    トを有する項目セットを含むものとして特定されたレコ
    ードを読み出し、 g.1レコード内で検出された各スーパーセット毎に別
    個の重みカウンタをインクリメントし、 h.各スーパーセットの重み付けサポートを前記所定の
    サポート閾値と比較し、 i.すべての項目セットが計数されるまでステップa〜
    hを繰り返し、 j.ステップa〜iにおける項目セットよび選択された
    取引から関連ルールを生成する ステップを備える方法。
  11. 【請求項11】請求項10に記載の、データレコードの
    集合を検索する方法であって、前記項目への重みの割り
    当てを含み、さらに、当該項目セット内の項目の累積重
    みを、所定の項目サイズまでの最大重みスーパーセット
    における項目の累積重みで割った比で、項目セットの重
    み付けサポートを変倍することを含む方法。
  12. 【請求項12】請求項10に記載の、データレコードの
    集合を検索する方法であって、前記項目への重みの割り
    当てを含み、さらに、当該項目セット内の項目の累積重
    みを、所定の項目サイズまでの直接スーパーセットの最
    大の重みを持つ項目セット内の項目の累積重みで割った
    比で、項目セットの重み付けサポートを変倍することを
    含む方法。
  13. 【請求項13】請求項10に記載の、データレコードの
    集合を検索する方法であって、前記項目への重みの割り
    当てを含み、さらに、当該項目セット内の項目の累積重
    みを、最大の重みスーパーセットにおける項目の累積重
    みで割った比で、所定の項目サイズより小さいすべての
    項目セットについての項目セットの前記重み付けサポー
    トを変倍するとともに、当該項目セット内の項目の累積
    重みを、所定の項目サイズまでの直接スーパーセットの
    最大の重みを持つ項目セット内の項目の累積重みで割っ
    た比で、所定の項目サイズより大きいすべての項目セッ
    トについての項目セットの重み付けサポートを変倍する
    ことを含む方法。
  14. 【請求項14】電子データベースに集合的に保存された
    レコードのファイルを検索する、プログラム可能な汎用
    のコンピュータ装置であって、前記レコードは少なくと
    も1つの項目を含み、前記検索は、項目の組(項目セッ
    ト)を決定し、当該項目および/またはレコードに割り
    当てられた重み値に基づいてレコードの中から当該生成
    された項目セットを検索する装置であって、 判定実行、制御動作、およびデータ操作を行うプロセッ
    サ手段と、 アドレス入力およびデータ入出力を有し、検索中に前記
    メモリ記憶手段内に前記レコードを保存するメモリ記憶
    手段のアレイと、 前記メモリ記憶手段のアドレス入力に接続されたアドレ
    ス出力を有し、前記メモリ記憶手段の異なる位置にアク
    セスするためのアドレスを生成するアドレス生成手段
    と、 前記アドレス生成ユニットのアドレス出力に接続された
    アドレス入力を有するインタフェース手段とを備える装
    置。
  15. 【請求項15】請求項14による、レコードのファイル
    を検索するための、プログラム可能な汎用のコンピュー
    タ装置であって、さらに、複数のコンピュータを有し、
    前記コンピュータの各々は前記プロセッサ手段により検
    出された個別の項目セットの計数値を保存する装置。
  16. 【請求項16】請求項14による、レコードのファイル
    を検索するための、プログラム可能な汎用のコンピュー
    タ装置であって、さらに、前記インタフェース手段に接
    続された複数の外部記憶装置を有し、前記電子データベ
    ースのレコードは前記外部記憶装置に保存される装置。
  17. 【請求項17】項目のセット(項目セット)および/ま
    たは選択された取引を有するレコードを検出し、項目お
    よび取引に割り当てられた重み値に基づいて検出された
    項目セットに対応する関連ルールを形成するために、デ
    ータレコードの集合を検索する方法であって、 a)項目および取引に前記重みを割り当て、 b)データレコードを連続的に読み出し、 c)1レコード内で検出された各項目および選択された
    取引について、別個の重みカウンタをインクリメント
    し、 d)項目セットおよび各選択された取引の重み付けサポ
    ートを、所定のサポート閾値と比較し、 e)前記所定のサポート閾値より大きい重み付けサポー
    トを有する項目セットから新たなスーパーセットを生成
    し、 f)前記所定のサポート閾値より大きい重み付けサポー
    トを有する項目セットを含むものとして特定されたレコ
    ードを読み出し、 g)1レコード内で検出された各スーパーセット毎に別
    個の重みカウンタをインクリメントし、 h)各スーパーセットの重み付けサポートを前記所定の
    サポート閾値と比較し、 i)すべての項目セットが計数されるまでステップa〜
    hを繰り返し、 j)ステップa〜iにおける項目セットよび選択された
    取引から関連ルールを生成する ステップを備える方法。
  18. 【請求項18】請求項17に記載の、データレコードの
    集合を検索する方法であって、前記項目への重みの割り
    当てを含み、さらに、当該項目セット内の項目の累積重
    みを、所定の項目サイズまでの最大重みスーパーセット
    における項目の累積重みで割った比で、項目セットの重
    み付けサポートを変倍することを含む方法。
  19. 【請求項19】請求項17に記載の、データレコードの
    集合を検索する方法であって、前記項目への重みの割り
    当てを含み、さらに、当該項目セット内の項目の累積重
    みを、所定の項目サイズまでの直接スーパーセットの最
    大重みを持つ項目セット内の項目の累積重みで割った比
    で、項目セットの重み付けサポートを変倍することを含
    む方法。
  20. 【請求項20】請求項17に記載の、データレコードの
    集合を検索する方法であって、前記項目に重みを割り当
    てることを含み、さらに、当該項目セット内の項目の累
    積重みを、最大重みスーパーセットにおける項目の累積
    重みで割った比で、項目セットの重み付けサポートを変
    倍するとともに、当該項目セット内の項目の累積重み
    を、所定の項目サイズまでの直接スーパーセットの最大
    重みを持つ項目セット内の項目の累積重みで割った比
    で、所定の項目サイズより大きいすべての項目セットに
    ついての項目セットの重み付けサポートを変倍すること
    を含む方法。
JP10330816A 1998-04-24 1998-11-20 重み付け関連ルールを生成する方法および装置 Pending JPH11306185A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/065,837 US6173280B1 (en) 1998-04-24 1998-04-24 Method and apparatus for generating weighted association rules
US09/065,837 1998-04-24

Publications (1)

Publication Number Publication Date
JPH11306185A true JPH11306185A (ja) 1999-11-05

Family

ID=22065449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10330816A Pending JPH11306185A (ja) 1998-04-24 1998-11-20 重み付け関連ルールを生成する方法および装置

Country Status (2)

Country Link
US (1) US6173280B1 (ja)
JP (1) JPH11306185A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002092518A (ja) * 2000-09-19 2002-03-29 Toppan Forms Co Ltd 利用明細書の印刷封入方法及び決済システム
US7707068B2 (en) 2003-10-29 2010-04-27 Hewlett-Packard Development Company, L.P. Method and device for calculating trust values on purchases
KR101105736B1 (ko) 2009-03-03 2012-01-17 충북대학교 산학협력단 대용량 트랜잭션 데이터베이스 환경에서 효율적인 빈발 항목 집합 탐색 방법
KR101443285B1 (ko) * 2012-11-19 2014-09-22 충북대학교 산학협력단 유용성 높은 패턴의 마이닝 방법
JP2021518311A (ja) * 2018-03-16 2021-08-02 テトラ ラバル ホールディングス アンド ファイナンス エス エイ ハッシュツリーを用いて食品安全データを追跡する食品包装機

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6094645A (en) * 1997-11-21 2000-07-25 International Business Machines Corporation Finding collective baskets and inference rules for internet or intranet mining for large data bases
US7010536B1 (en) * 1998-01-30 2006-03-07 Pattern Intelligence, Inc. System and method for creating and manipulating information containers with dynamic registers
US6480844B1 (en) * 1998-03-25 2002-11-12 At&T Corp. Method for inferring behavioral characteristics based on a large volume of data
US20060010136A1 (en) * 1999-01-28 2006-01-12 Deangelo Michael System and method for creating and manipulating information containers with dynamic registers
US6278997B1 (en) * 1999-02-05 2001-08-21 International Business Machines Corporation System and method for constraint-based rule mining in large, dense data-sets
US6532458B1 (en) * 1999-03-15 2003-03-11 Microsoft Corporation Sampling for database systems
US6389418B1 (en) * 1999-10-01 2002-05-14 Sandia Corporation Patent data mining method and apparatus
US6651048B1 (en) * 1999-10-22 2003-11-18 International Business Machines Corporation Interactive mining of most interesting rules with population constraints
US6651049B1 (en) * 1999-10-22 2003-11-18 International Business Machines Corporation Interactive mining of most interesting rules
JP4478263B2 (ja) * 1999-11-12 2010-06-09 ソニー株式会社 情報処理装置および方法、並びにプログラム格納媒体
US6415287B1 (en) * 2000-01-20 2002-07-02 International Business Machines Corporation Method and system for mining weighted association rule
US7299194B1 (en) * 2000-02-22 2007-11-20 International Business Machines Corporation Method and system for researching sales effects of advertising using association analysis
US8145507B2 (en) * 2000-10-23 2012-03-27 Deloitte Development Llc Commercial insurance scoring system and method
US6643646B2 (en) 2001-03-01 2003-11-04 Hitachi, Ltd. Analysis of massive data accumulations using patient rule induction method and on-line analytical processing
US20030130991A1 (en) * 2001-03-28 2003-07-10 Fidel Reijerse Knowledge discovery from data sets
WO2003040878A2 (en) * 2001-11-02 2003-05-15 Siemens Medical Solutions Usa, Inc. Patient data mining for clinical trials
US20030088491A1 (en) * 2001-11-07 2003-05-08 International Business Machines Corporation Method and apparatus for identifying cross-selling opportunities based on profitability analysis
US8200511B2 (en) * 2001-11-28 2012-06-12 Deloitte Development Llc Method and system for determining the importance of individual variables in a statistical model
US7457731B2 (en) * 2001-12-14 2008-11-25 Siemens Medical Solutions Usa, Inc. Early detection of disease outbreak using electronic patient data to reduce public health threat from bio-terrorism
US8036919B2 (en) 2002-07-10 2011-10-11 Deloitte & Touche Llp Licensed professional scoring system and method
US7680086B2 (en) 2002-09-09 2010-03-16 Siemens Canada Limited Wireless local area network with clients having extended freedom of movement
US20040167897A1 (en) * 2003-02-25 2004-08-26 International Business Machines Corporation Data mining accelerator for efficient data searching
TWI226561B (en) * 2003-09-29 2005-01-11 Benq Corp Data associative analysis system and method thereof and computer readable storage medium
JP2005326975A (ja) * 2004-05-12 2005-11-24 Fujitsu Ltd 情報検索装置、情報検索プログラム及び情報検索方法
CA2580007A1 (en) * 2004-09-10 2006-03-23 Deloitte Development Llc Method and system for estimating insurance loss reserves and confidence intervals using insurance policy and claim level detail predictive modeling
US7395254B2 (en) * 2005-04-21 2008-07-01 Xerox Corporation Method for dynamic knowledge capturing in production printing workflow domain
US20060265253A1 (en) * 2005-05-18 2006-11-23 Rao R B Patient data mining improvements
US8538848B1 (en) * 2005-07-29 2013-09-17 IVP Holdings I, LLC Revenue allocation for bundled intellectual property transactions
US7953740B1 (en) * 2006-02-13 2011-05-31 Amazon Technologies, Inc. Detection of behavior-based associations between search strings and items
US7313502B2 (en) * 2006-02-23 2007-12-25 Rockwell Automation Technologies, Inc. System and method to combine and weight multiple sensors with overlapping sensing range to create a measurement system utilized in a high integrity or safety environment
US8341415B1 (en) * 2008-08-04 2012-12-25 Zscaler, Inc. Phrase matching
US9342621B1 (en) 2008-08-04 2016-05-17 Zscaler, Inc. Phrase matching
US9569326B2 (en) 2010-04-15 2017-02-14 Ca, Inc. Rule organization for efficient transaction pattern matching
US10943676B2 (en) 2010-06-08 2021-03-09 Cerner Innovation, Inc. Healthcare information technology system for predicting or preventing readmissions
JP5455978B2 (ja) * 2011-06-08 2014-03-26 株式会社東芝 パターン抽出装置及び方法
US9679036B2 (en) * 2012-05-15 2017-06-13 Hewlett Packard Enterprise Development Lp Pattern mining based on occupancy
US20150324099A1 (en) * 2014-05-07 2015-11-12 Microsoft Corporation Connecting Current User Activities with Related Stored Media Collections
US11481703B1 (en) * 2014-12-08 2022-10-25 Blue Yonder Group, Inc. System and method of an attribute-value combination and assortment planner
US10089675B1 (en) * 2015-10-20 2018-10-02 Amazon Technologies, Inc. Probabilistic matrix factorization system based on personas
US10157351B1 (en) 2015-10-20 2018-12-18 Amazon Technologies, Inc. Persona based data mining system
CN107870913B (zh) * 2016-09-23 2021-12-14 腾讯科技(深圳)有限公司 有效时间的高期望权重项集挖掘方法、装置及处理设备
CN108009180B (zh) * 2016-10-28 2021-09-21 哈尔滨工业大学深圳研究生院 一种高质量模式项集挖掘方法、装置及数据处理设备
US10325485B1 (en) 2018-09-11 2019-06-18 Rockwell Automation Technologies, Inc. System or process to detect, discriminate, aggregate, track, and rank safety related information in a collaborative workspace
CN111260138B (zh) * 2020-01-18 2023-05-26 湖南大学 加权和自适应并行关联规则的火电机组能耗动态优化方法
US11494097B2 (en) * 2020-12-07 2022-11-08 Western Digital Technologies, Inc. Fast initialization of secure HMB

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819266A (en) * 1995-03-03 1998-10-06 International Business Machines Corporation System and method for mining sequential patterns in a large database
US5842200A (en) * 1995-03-31 1998-11-24 International Business Machines Corporation System and method for parallel mining of association rules in databases
US5943667A (en) * 1997-06-03 1999-08-24 International Business Machines Corporation Eliminating redundancy in generation of association rules for on-line mining
US5987470A (en) * 1997-08-21 1999-11-16 Sandia Corporation Method of data mining including determining multidimensional coordinates of each item using a predetermined scalar similarity value for each item pair

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002092518A (ja) * 2000-09-19 2002-03-29 Toppan Forms Co Ltd 利用明細書の印刷封入方法及び決済システム
US7707068B2 (en) 2003-10-29 2010-04-27 Hewlett-Packard Development Company, L.P. Method and device for calculating trust values on purchases
KR101105736B1 (ko) 2009-03-03 2012-01-17 충북대학교 산학협력단 대용량 트랜잭션 데이터베이스 환경에서 효율적인 빈발 항목 집합 탐색 방법
KR101443285B1 (ko) * 2012-11-19 2014-09-22 충북대학교 산학협력단 유용성 높은 패턴의 마이닝 방법
JP2021518311A (ja) * 2018-03-16 2021-08-02 テトラ ラバル ホールディングス アンド ファイナンス エス エイ ハッシュツリーを用いて食品安全データを追跡する食品包装機

Also Published As

Publication number Publication date
US6173280B1 (en) 2001-01-09

Similar Documents

Publication Publication Date Title
JPH11306185A (ja) 重み付け関連ルールを生成する方法および装置
US6185559B1 (en) Method and apparatus for dynamically counting large itemsets
US5983224A (en) Method and apparatus for reducing the computational requirements of K-means data clustering
JP3575602B2 (ja) オンライン・データベース・マイニング
US6988090B2 (en) Prediction analysis apparatus and program storage medium therefor
US6236985B1 (en) System and method for searching databases with applications such as peer groups, collaborative filtering, and e-commerce
JPH08314981A (ja) データベースにおける一般化された関連規則を発見するためのシステム及び方法
US8799193B2 (en) Method for training and using a classification model with association rule models
US20030212651A1 (en) Mining emergent weighted association rules utilizing backlinking reinforcement analysis
JP2002328937A (ja) 大量蓄積データの解析方法
JP5753217B2 (ja) 商品コード分析システム及び商品コード分析プログラム
CN115544242B (zh) 基于大数据的同类商品选型推荐方法
Pillai et al. User centric approach to itemset utility mining in Market Basket Analysis
Gangurde et al. Building prediction model using market basket analysis
JPH10307808A (ja) 商品の流行予測を加味した売上予測装置及びその予測方法
Alawadh et al. A survey on methods and applications of intelligent market basket analysis based on association rule.
US20070011162A1 (en) System, detecting method and program
Kaur et al. Market basket analysis of sports store using association rules
Singh et al. Study on market basket analysis with apriori algorithm approach
JP2003122572A (ja) データ分析装置及び記録媒体
Janhavi et al. Sentiment Analysis of Customer Reviews on Laptop Products for Flipkart
JP3452308B2 (ja) データ分析装置
CN108537654A (zh) 客户关系网络图的渲染方法、装置、终端设备及介质
CN116934418B (zh) 一种异常订单的检测预警方法、系统、设备及存储介质
Aksenova Weka explorer tutorial