JP2007287139A

JP2007287139A - 消費者に製品を推奨するためのコンピュータ実施方法及びシステム

Info

Publication number: JP2007287139A
Application number: JP2007092278A
Authority: JP
Inventors: Daniel N Nikovski; ダニエル・エヌ・ニコヴスキ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2006-04-14
Filing date: 2007-03-30
Publication date: 2007-11-01
Also published as: US20070244747A1

Abstract

【課題】購買履歴における頻出アイテム集合の発見に基づいてコンパクトで最適な推奨ポリシーを誘導するための方法を提供する。
【解決手段】方法及びシステムは、消費者に製品を推奨する。消費者の購買履歴がメモリに記憶される隣接格子により表される。訓練例が隣接格子から抽出され、決定木が訓練例を使用して構築される。決定木のサイズが低減され、消費者に製品を推奨するために、サイズ低減した決定木が探索される。
【選択図】図１

Description

本発明は、包括的には消費者に製品を推奨するためのシステム及び方法に関し、より詳細には頻出アイテム集合発見に基づくパーソナライズドリコメンデーションシステムに関する。

パーソナライズドリコメンデーションシステムは、ベンダにより記録される購買履歴に基づいてどの製品を消費者に推奨するかを決定する。通常、推奨方法は、消費者が製品を購入する確率を最大化すると共におそらくベンダの収益を最大化するように試みる。

この機能は、購買履歴の幅広い可用性、及び計算集約的な統計的データマイニング技法の発展によって可能になっている。今日では、パーソナルリコメンデーションはオンライン「電子商取引（ｅ−ｃｏｍｍｅｒｃｅ）」ウェブサイトの主要な特徴である。パーソナルリコメンデーションはダイレクトマーケティングにおいてかなりの部分を占めており、どの消費者がどのカタログを受け取るか、またカタログに含まれる製品を決定するために使用される。

反応モデリングとしての推奨

通常、推奨方法は、ベンダの製品のセット

から所与の製品Ａ_ｉが買履歴Ｈ（ここで、

）に基づいて購入される、確率Ｐｒ（Ａ_ｉ＝Ｔｒｕｅ｜Ｈ）を推定する。

過去の購入が将来の購入と高く相関していることが仮定され、消費者の嗜好に関する情報は消費者の購買履歴から抽出することができる。通常の場合には、全てのエビデンスがポジティブである。製品Ａ_ｊの購入が或るベンダにより記録されていない場合、たとえ消費者がこの製品を別のベンダから購入していた可能性があっても、Ａ_ｊ＝Ｆａｌｓｅと仮定される。このタスクは、消費者が推奨された製品を購入する確率を定量的にモデル化しようとするため、反応モデリングとしても知られている（B. Ratner著「Statistical Modeling and Analysis for Database Marketing」（Boca Raton: Chapman and Hall, CRC, 2003））。

各入手可能な製品を購入する確率が推定されると、推奨するのに最適な製品を推奨ポリシーに従っていくつかの方法で決定することができる。最も単純な推奨ポリシーは購入の可能性が最も高い製品Ａ^＊を推奨する。
Ａ^＊＝ａｒｇｍａｘ_Ａｉ＝_ＴｒｕｅＰｒ（Ａ_ｉ｜Ｈ）

この推奨が真に最適であるためには、３つの条件が保持されなければならない。第１に、各製品からの収益は同じでなければならない。第２に、消費者は１つの製品のみを選択しなければならず、そうでない場合、将来の購入はその選択とは無関係でなければならない。第３に、各製品を購入する確率は、それが推奨されていない場合は、一定でなければならない。実際には、これらの３つの条件はほとんど保持されず、それにより最適な推奨のいくつかのより現実的な定義を生んでいる。

製品間の様々な収益ｒ（Ａ_ｉ）は、予測される最大収益をもたらす製品Ａ^＊を推奨するポリシーによって求めることができる。
Ａ^＊＝ａｒｇｍａｘ_ＡｉＰｒ（Ａ_ｉ＝Ｔｒｕｅ｜Ｈ）ｒ（Ａ_ｉ）

推奨されていない製品を購入する確率が変動する場合には、推奨による確率の増加が最大である製品を推奨するポリシーを有することがより有益である。これは、製品が推奨された場合及び製品が推奨されていない別の場合に対する消費者の反応を別個に推定することを必要とする。第３の条件から逸脱することに対しては、目先の収益よりも推奨から生じる累積収益を最適化する逐次的なマルコフ決定過程（ＭＤＰ）モデルを解くことにより対処することができる。このシナリオはまた、個々の製品からの収益及び推移確率がＭＤＰを特定するのに必要とされる全てのものであるため、反応モデリングに帰着する。

反応確率の推定

全てのブール変数Ａ_ｉ、ｉ＝１、Ｎ、

の結合確率関数（ＪＰＦ）が既知である場合、任意のＡ_ｉ及びＨについてＰｒ（Ａ_ｉ＝Ｔｒｕｅ｜Ｈ）を推定することは常に可能である。
Ｐｒ（Ａ_ｉ＝Ｔｒｕｅ｜Ｈ）＝（Ｐｒ（Ａ_ｉ∪Ｈ））／Ｐｒ（Ｈ）
ここで、Ｐｒ（Ａ_ｉ∪Ｈ）及びＰｒ（Ｈ）はＪＰＦから得ることができる。

実際には、ＪＰＦは先験的に分かっていない。その代わりに、ＪＰＦは適した計算法により求められる。購買履歴がＪＰＦの推定に使用されると、これは密度推定の問題に帰着し、既知のデータマイニングプロセスによる分析に従う。

パーソナライズドリコメンデーションの分野では、この手法は、既存の消費者のグループの記録された嗜好及び購入パターンを、同じ消費者のグループに対して推奨するために利用することから、協調フィルタリングとしても知られている。

しかしながら、データマイニングおよび統計的な機械学習の観点からすると、製品領域のＪＰＦのあらゆるエントリを直接推定することは、少なくとも２つの理由のために通常は実行不可能である。第１に、指数的に多くのこのようなエントリが存在し、それらの表現のためのメモリ要件は、製品の品揃え

のサイズにより指数的に大きくなる。第２に、メモリにおいてＪＰＦの全てのエントリを表すことがどうにか可能であったとしても、それらの値は、履歴のサイズもまた

において指数的に大きくならない限り、購買履歴からカウントする頻度を用いて確実に推定することはできないであろう。しかしながら、購買履歴のサイズは通常、製品の品揃えのサイズにおいて指数的であるというよりもむしろベンダが事業をしている期間に応じて線形的である。この問題に対処するための通常の方法は、ＪＰＦに何らかの構造を付加することである。

１つの解決策は、ロジスティック回帰を含み、これは「反応モデリングの主力」と呼ばれている。ロジスティック回帰の問題点は、購買履歴Ｈにおける変数間の相互作用をモデル化することができず、個別の製品の影響を独立して考慮するということである。

ニューラルネットワーク、サポートベクターマシン、又は分類器を構築するための任意の他の機械学習方法等のさらに発展したデータマイニング技法を使用することにより、有意な改良を達成することができる。このことは、推奨される製品に、特に依存ネットワークの誘導に実際的影響を与えるが、大規模なデータベース上の分類器の誘導における進歩に大きく依存しているため、これは容易に解決される問題ではない。

本発明の実施の形態は、購買履歴における頻出アイテム集合の発見に基づいてコンパクトな最適な推奨ポリシーを誘導するための方法を提供する。決定木学習プロセスはその後、メモリに記憶される推奨ポリシーを単純化及びコンパクト化するために使用することができる。

このようなポリシーの構築は、従来の頻出アイテム集合発見プロセスが単独で可能にするよりもはるかに効率的に消費者の購買履歴の空間を分割するために利用されることができる。

本発明は、頻出アイテム集合（ＦＩ）格子の発見、及び続く決定木として表される直接のコンパクトな推奨ポリシーの抽出に基づく方法を使用する。決定木の誘導のためのプロセスは、頻出アイテム集合マイニングを用いることにより発見される最適な推奨ポリシーを大幅に単純化するように利用される。

パーソナライズ化された製品推奨のための頻出アイテム集合発見プロセスが記載される。方法は、決定木誘導プロセスを用いて推奨ポリシーを圧縮する。全ての頻出アイテム集合の隣接行列は多くのメモリを消費し且つ結果としてルックアップ時間がかなり長くなるため、決定木を用いて推奨ポリシーを圧縮する。この目的のために、決定木を「学習する」ためのプロセスが訓練サンプルに適用される。本発明者等は、決定木が実際には結果的によりコンパクトな推奨ポリシーになることを発見した。

本発明の方法はまた、より精巧な推奨ポリシー、例えば頻出系列の抽出に基づくポリシーにも適用することができる。頻出系列の発見は頻出アイテム集合の発見ほど困難ではないため、このようなポリシーは、時間的関連よりもはるかに良好に消費者の選択の逐次的な性質をモデル化する。頻出系列の隣接格子は頻出アイテム集合の隣接格子と同様に圧縮できることが予想される。したがって、本発明の手法は逐次的な推奨ポリシーに一般化することができる。

本発明を好適な実施の形態の例として説明するが、本発明の精神及び範囲内で、様々な他の適用及び変更を行うことができることを理解すべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入る全てのこのような変形及び変更を網羅することである。

図１は、本発明の一実施の形態による、消費者に製品を推奨する方法を示す。購買履歴１０１が、所定の閾値１０２を使用してメモリ１１２に記憶される隣接格子１１１として表される（１１０）。隣接格子１１１は最適な推奨ポリシーの訓練サンプル１２１を抽出する（１２０）のに使用される。訓練サンプルは決定木１３１を構築する（１３０）のに使用される。本発明では、サイズ低減した決定木１４１になるように、決定木１３１のサイズを低減する（１４０）。サイズ低減した木１４１はその後製品推奨１５１を作成するために探索される（１５０）ことができる。

頻出アイテム発見

ベンダから入手可能なアイテムの集合がＴ＝｛Ａ，Ｂ，Ｃ，Ｄ｝である。購買履歴１０１はトランザクションＴを含む。各トランザクションは識別情報及びアイテム集合を含むアイテム対（ＩＤ、アイテム集合）（表Ａを参照）である。

アイテム集合Ｘ⊆Ｔのサポート、ｓｕｐｐ（Ｘ）は、Ｘ⊆Ｙとなるような、トランザクション履歴Ｔにおける購入の数Ｙである。アイテム集合Ｘ⊆Ｔは、そのサポートが所定の閾値θ１０２以上である場合に頻出である。表Ｂは閾値θ＝１を有するＴにおける全ての頻出アイテム集合を示す。

隣接格子

アイテム集合がどのようにパーソナライズドリコメンデーションのために使用されるかを説明する前に、アイテム集合の隣接格子１１１について説明する。図２に示すように、Ｔにおける全ての可能なアイテム集合の隣接格子１１１を表すために有向非巡回グラフを使用する。Ｙが１つのアイテムを加えることによりＸから入手できる場合、そしてその場合にのみ、アイテム集合Ｘは別のアイテム集合Ｙに隣接する。本発明では親をＸ、子をＹと指定する。

隣接格子１１１は利用可能なアイテムの全てのサブセットをまとめる１つの方法であり、これは例えば小さなサブセットから大きなサブセットへの進行におけるＮ元分割表等の他の代替の方法とは異なる。特に、同じレベルの格子の全てのサブセットは同じ濃度を有する。問題領域の全ＪＰＦを表したい場合には、各サブセットの確率を表すために隣接格子を使用することができる。

しかしながら、確率が閾値１０２を超えるサブセットのみを記憶する場合にはメモリ要件を低減することができる。このようなアイテムのサブセットは頻出アイテム集合と呼ばれ、データマイニングのアクティブサブフィールドは効率的なプロセス頻出アイテム集合マイニング（ＦＩＭ）に関する。

閾値１０２が与えられると、これらのプロセスはサポートが閾値を超えるアイテム集合を位置付け、アイテム毎にそのアイテムをサポートする正確なトランザクション数を記録する。この表現はロスレスではないことに留意されたい。頻出アイテム集合のみを記憶すると共にあまり頻出ではないアイテムを捨てることにより、ＪＰＦの精度とメモリサイズとを引き換える。

アプリオリ（Apriori）プロセスにより所与のトランザクションデータベース（購買履歴１０１）Ｔの隣接格子１１１、及び閾値θ１０２を生成することができる。R. Agrawal, T. Imielinski及びA. Swami著「Mining association rules between sets of items in very large databases」（Proc. of the ACM SIGMOD Conference on Management of Data, pp. 207-216, May 1993（参照により本明細書に援用される））。

まず、プロセスは全ての頻出アイテム集合Ｘ（ここで、｜Ｘ｜＝１）を生成する。その後、全ての頻出アイテム集合Ｙが生成され（ここで、｜Ｙ｜＝２）、以下同様である。各アイテム集合が生成されると、プロセスは閾値θより低いサポートを有するアイテム集合を削除する。閾値１０２は、全ての頻出アイテム集合がメモリに収まるように選択される。通常、問題領域の全ＪＰＦがメモリに収まることはないが、本発明では頻出アイテム集合（ＦＩ）隣接格子１１１は、サポート閾値を上げることにより常に利用可能なメモリに収めることができることに留意されたい。確実に、閾値が低いほど、ＪＰＦは完全なものになる。

疎なＦＩ格子が生成された後、格子は全ＪＰＦを使用することができるのと同様に推奨ポリシーを定義するのに使用されることができる。推奨ポリシーは、欠損しているエントリに対処するためのいくつかの規定を有する。最も簡単なケースは、消費者の購買履歴に対応するアイテム集合Ｈが格子で表され、格子に子孫Ｑの少なくとも１つがまた存在する場合である。その場合、最適な推奨は格子にあるＨの直接の子孫Ｑのサポートを最大化する集合Ｈの拡張Ａ＝Ｑ＼Ｈである。明らかに、隣接格子にあるＨの子孫頻出アイテムは１つの要素のみにおいてＨとは異なっており、それにより最適な推奨を探索することが促進される。最適な推奨を見つけるために、存在する子孫ＦＩのみが試験されることに留意されたい。全ての他の可能な子孫が頻出ではない場合、それらのサポートは頻出アイテム集合のサポートを下回り、それらをもたらす拡張は最適ではあり得ない。

完全な購買履歴ＨがＦＩ集合ではない場合、より複雑なケースが発生する。このケースに対処するためのいくつかの方法がある。これらはめったに起こらないため、上述した主なケースほど重要ではない。それでもなお、１つの合理的な手法は、頻出且つ少なくとも１つの頻出子孫を有するＨの最大のサブセットを見つけ、その最大のサブセットに対する最適な推奨を使用することである。

実際に、本プロセスは、格子に存在する極大頻出サブセットを見つけ、その親に対する最適な推奨を使用する。同じ濃度のいくつかの最大のサブセットが存在する場合、結合をランダムに破壊することができ、又はいくつかの局所的なモデルを１つの大域に収容するためのさらに精巧なプロセスを使用することができる。H. Mannila, D. Pavlov及びP. Smyth著「Predictions with local patterns using cross-entropy」（Proc. of Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 357-361, ACM Press, 1999（参照により本明細書に援用される））。

最適な推奨の定義は１度のみ実行される。推奨はその集合のサポートと共に格子に記憶することができる。表Ｃは最小のサポート閾値１を有するアイテム集合毎の、格子から抽出される推奨を示す。

本発明では、過去の購入から推奨される最適な製品までのマッピングを推奨ポリシーと呼ぶ。この最適性の定義は製品推奨の最も単純な目的に対応し、すなわち推奨された製品が購入される確率を最大化する。しかしながら、上述した任意の数のより複雑な最適性の形式を推奨ポリシーを定義するのに使用することもできるが、これらは異なる推奨ポリシーをもたらすことができるが、それでもなお購買履歴から推奨される製品までのマッピングという同じ形態を有する。

図３に示すように、隣接格子は通常全ての格子端を明確に示さないプレフィックス木として記憶される。B. Goethals著「Efficient Frequent Pattern Mining」（PhD Thesis, Transnational University of Limburg, Diepenbeek, Belgium, December 2002）。図３に示すように、欠損している端は破線で示す。

例えば、集合｛Ａ，Ｂ，Ｃ｝は集合｛Ａ，Ｂ，Ｃ，Ｄ｝の親であるが、集合｛Ｂ，Ｃ，Ｄ｝は集合｛Ａ，Ｂ，Ｃ，Ｄ｝の親ではない。集合｛Ａ，Ｂ，Ｃ，Ｄ｝は集合｛Ｂ，Ｃ，Ｄ｝の間接的な子と呼ばれる。しかしながら、間接的な子を探索することは大きな問題ではない。実際には、本プロセスは次に全ての可能な拡張を生成し、対応するアイテム集合を位置付けるためにプレフィックス木を使用し、アイテム集合が頻出である時に最適な推奨ポリシーを定義するためにアイテム集合を考慮する。

決定木を用いて推奨ポリシーを表しコンパクト化するという着想について考察する前に、本発明の方法と相関ルールに基づくパーソナライズドリコメンデーションとを比較する。W. Lin, S. A. Alvarez及びC. Ruiz著「Efficient adaptive-support association rule mining for recommender systems」（Data Mining and Knowledge Discovery, vol. 6, no. 1, pp. 83-105, 2002）、並びにB. Mobasher, H. Dai, T. Luo, M.及びNakagawa著「Effective personalization based on association rule discovery from web usage data」（Proc. of the Third International Workshop on Web information and Data Management, ACM Press, New York, pp. 9-15, 2001）。

それらは「ＨであればＰの確率でｙである」という形態の相関ルールが購買履歴に対する全てのルールの前例に一致し、製品購入の確率を推定する最も具体的なルールを使用するか、又は最後のステップとして、相反するルールを解決するための何らかの他のアービトレーションメカニズムを使用することを記述する。

しかしながら、本発明の目的は、消費者の反応確率を推定する際にこれらのプロセスの精度を向上させることではなく、またＦＩベースのリコメンダの精度とロジスティック回帰に基づく別の方法、例えばニューラルネット、の精度とを比較することでもない。その代わりに、本発明に一致する目的は、頻出アイテム集合の発見を用いて導出される最適な推奨を記憶し且つ生成するのに要求される時間及びメモリを低減することである。

この目的に対する動機は、これらのプロセスが購買履歴とルールとを一致させるのに非効率的であるという観察である。その理由は、追加のデータ構造が使用されない限り、ルールが逐次的に探索される必要があるためである。プレフィックス木以上に単純なものが存在する可能性は低い。

対照的に、プレフィックス木により表される隣接行列における探索は、プレフィックス木において表されるアイテム集合の数において対数的である。さらに、相関ルールの誘導のための一般的なプロセスはあまりに多くのルールを生成するため、実用的な用途において処理することができない。１つの領域には２Ｎ個のアイテム集合が存在するのに対して、３Ｎ個の可能な相関ルールが存在するため、それはメモリ要件においては大きな差をもたらす。

しかしながら、格子に記憶される推奨ポリシーもまた不利益を有する。第１に、それは移植可能性が低い。予測モデルマークアップ言語（ＰＭＭＬ）を使用して記憶及び交換されることができる相関ルールの集合とは異なり、プレフィックス木又は隣接格子を表す好都合なＰＭＭＬは存在しない。第２に、これはより重要なことであるが、格子は疎なＪＰＦを符号化する一方、本発明では推奨ポリシーのみを必要とする。

ＪＰＦの複雑さとＪＰＦにより示される最適な推奨ポリシーの複雑さとの間には大きなずれが存在する可能性がある。一例として、購買に全く相関関係がないＮ個の製品の領域を考慮する。依然として、このことを知らずにＪＰＦはおよそ２Ｎ個のエントリを有する。頻出アイテム集合のみを表すことによりそれらの表現に必要とされるメモリが低減する。しかしながら、それらの個別の購入頻度が類似している場合、これは大きな助けにはならない。

過去の購買履歴は将来の購入とは相関がないため、最適な推奨ポリシーは消費者が未だ所有していない最も人気のあるアイテムを推奨することである。すなわち、消費者が最も人気のあるアイテムを購入していない場合はそれを推奨し、そうではなく消費者が２番目に人気のあるアイテムを購入していない場合は代わりにそれを推奨し、以下同様に、既にあらゆる商品を購入した消費者には最も人気のないアイテムが推奨されるまで続く。明らかに、そのような推奨ポリシーはＮにおいて線形的であるのみである一方、問題領域のＪＰＦはＮにおいて指数的である。

これは構築された極端な一例であり、アイテム間の相関は実際の購入領域においては確かに存在し、そうでない場合、パーソナライズドリコメンデーションという考えの全体が無益になるが、我々の仮説は、ＪＰＦの複雑さと推奨ポリシーの複雑さとの間のこのずれは依然としてかなりの程度実際の領域に存在するというものである。

隣接格子からの決定木の構築

決定木はデータマイニング、分類及び回帰のために頻繁に使用される。決定木はルートノード、属性すなわち変数が試験される中間ノード、及び購入決定が記憶されるリーフノードを含む。

推奨ポリシーは購買履歴（入力）と最適な製品推奨（出力）との間のマッピングであるため、決定木は推奨ポリシーを表すための実行可能な構造である。

推奨ポリシーを決定木として表すことを望む場合、１つの手法は、隣接格子のプレフィックス木を決定木に直接変換することである。ｎ個の子孫を有するプレフィックス木の各ノードは、ｎ個の二分ノードとして表される。ノードは、消費者が子孫ノードにつながる端をラベル付けする対応するｎ個のアイテムのそれぞれを購入したか否かを決定するために順次試験することができる。

この手法が終了すると、結果としての決定木は元の格子よりもはるかに大きくなる。その代わりに、本発明の手法は、推奨ポリシーを符号化するという問題を機械学習問題として取り扱うことである。本発明の予想は、推奨ポリシーを表す目的でのアイテム集合空間の最適な分割は、購入パターンのＪＰＦを記憶する目的でのアイテム集合空間の最適な分割とは大きく異なっているということ、及び決定木の誘導のための既存のプロセスにより前者の分割を発見することができるということである。

決定木の誘導のためにこれらのプロセスを使用するために、本発明では訓練例１２１を抽出する（１２０）。格子において各アイテム集合毎に１つの例がある。各頻出アイテム集合はブール変数の完全な集合として表され、これは入力変数として使用される。推奨される最適な製品は出力のクラスラベルとして与えられる。

表Ｄは、データ変換の一例を示し、図４は対応する隣接格子を示す。

本発明は、決定木１３１を構築するために訓練例１２１としてアイテム集合及び推奨のこのリストを使用する。

所与の訓練例の集合を正確に分類することができる多数の可能な決定木がある。いくつかは他のものよりも大きい。例えば、表Ｄにおいて例をあげると、可能な決定木は図５に示される。しかしながら、この木はやや大きい。

図６はちょうど良い、そしてかなり小さい決定木を示す。最もコンパクトな決定木を見つけることは些細な問題ではないが、本発明の手法はＩＤ３及びＣ４．５等の貪欲なプロセスを使用することである。J. R. Quinlan著「Induction of decision trees」（Machine Learning, vol. 1, no. 1, pp. 81-106, 1986）及びJ. R. Quinlan著「C4. 5: Programs for Machine Learning」（San Mateo: Morgan Kaugmann, 1993（参照により本明細書に援用される））。これらの手順は優れた分類特性を有する非常にコンパクトな決定木を生成することができる。

上記のように訓練例を抽出した後、決定木の誘導のためのこれらの一般的なプロセスに依存して新たな決定木１３１のサイズを低減する（１４０）。下記の比較結果が、大規模な購入履歴において、本発明の方法がノード数の点で良好に機能すること、及び同じデータの格子表現と比較して決定木で表されるより単純なデータ構造を生成することを示す。

ここで、サイズ低減した決定木１４１は推奨を見つけるために探索される（１５０）ことができる。

適用

本発明の方法を頻出アイテム集合マイニングを評価するのに頻繁に使用される既知の小売データセットに適用する。T. Brijs, G. Swinnen, K. Vanhoof及びG. Wets著「The use of association rules for product assortment decisions: a case study」（Proc. of the Fifth International Conference on KDD, pp. 254-260, August 1999（参照により本明細書に援用される））。データセットが４１，３７３個の記録を有する。この評価において、本発明は上記のゴーサルズのアプリオリの実施態様を使用した。訓練例を生成した後、決定木が生成される。決定木の誘導中、相互情報（エントロピー）基準を使用して分割属性が選択される。全ての場合において、完全に同一の木が生成される。各訓練例は独自の入力を有するため、これは常に可能である。

図７はともにサポート閾値に対してプロットされる、プレフィックス木（ＦＩ）のノード数と決定木（ＤＴ）のノード及びリーフの数との比較を示す。決定木の場合には、ノードは「ｉｎｔｒｍ」により示される中間（決定）ノードと、「ｌｅａｖｅｓ」により示される推奨とに分解される。リーフノードが推奨を記録できることは留意すべきである。

図７は、決定木が実際によりコンパクトな推奨ポリシーをもたらすことを示す。さらに、省略の割合は一定ではない。省略の度合いはポリシーのサイズに応じて増大する。場合によっては、決定木構築プロセスはポリシーを符号化するのに必要なノード数を最大で８０％低減することができる。このことは、発見された推奨ポリシーに実際に有意な構造が存在すること、及び学習プロセスがそれを発見することができたということを示す。

さらに、一般的に、プレフィックス木は二分ではないため、二分決定木を記憶することは、同じ数のノードを有するプレフィックス木を記憶するよりもはるかに良い。さらに、決定木はＰＭＭＬフォーマットに変換することができる。誘導された木は、たとえその全購買履歴が隣接格子において明確に示されていない場合であっても、新たな消費者に直接対処する。

本発明の一実施の形態による、消費者に製品を推奨する方法のフロー図である。購買履歴における全ての可能なアイテム集合の隣接格子を表す有向非巡回グラフである。隣接格子を表すプレフィックス木である。例示の隣接格子である。例示の決定木である。図５の木に対応するコンパクトな決定木である。プレフィックス木のノード数と決定のノード数とを比較するグラフである。

Claims

消費者に製品を推奨するためのコンピュータ実施方法であって、
消費者の購買履歴を隣接格子として表すステップと、
前記隣接格子から訓練例を抽出するステップと、
前記訓練例を使用して決定木を構築するステップと、
サイズ低減した決定木になるように前記決定木のサイズを低減するステップと、
前記消費者に製品を推奨するために前記サイズ低減した決定木を探索するステップと
を含む、消費者に製品を推奨するためのコンピュータ実施方法。
前記抽出することは所定の閾値による、請求項１に記載の方法。
前記購買履歴はアイテムを含み、各アイテムはそれぞれ識別及びアイテム集合を有する、請求項１に記載の方法。
前記隣接格子は有向非巡回グラフの形態である、請求項１に記載の方法。
前記決定木はルートノード、属性を記憶するための中間ノード、及び購買決定を記憶するためのリーフノードを含む、請求項１に記載の方法。
前記構築することは機械学習プロセスを使用する、請求項１に記載の方法。
前記決定木は二分木である、請求項１に記載の方法。
消費者に製品を推奨するためのシステムであって、
消費者の購買履歴を表す隣接格子を記憶するように構成されるメモリと、
前記隣接格子から訓練例を抽出する手段と、
前記訓練例を使用して決定木を構築する手段と、
サイズ低減した決定木になるように前記決定木のサイズを低減する手段と、
前記消費者に製品を推奨するために前記サイズ低減した決定木を探索する手段と
を備える、消費者に製品を推奨するためのシステム。
前記購買履歴はアイテムを含み、各アイテムはそれぞれ識別及びアイテム集合を有する、請求項８に記載のシステム。