JP2007287139A - 消費者に製品を推奨するためのコンピュータ実施方法及びシステム - Google Patents

消費者に製品を推奨するためのコンピュータ実施方法及びシステム Download PDF

Info

Publication number
JP2007287139A
JP2007287139A JP2007092278A JP2007092278A JP2007287139A JP 2007287139 A JP2007287139 A JP 2007287139A JP 2007092278 A JP2007092278 A JP 2007092278A JP 2007092278 A JP2007092278 A JP 2007092278A JP 2007287139 A JP2007287139 A JP 2007287139A
Authority
JP
Japan
Prior art keywords
decision tree
consumer
product
purchase history
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007092278A
Other languages
English (en)
Inventor
Daniel N Nikovski
ダニエル・エヌ・ニコヴスキ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2007287139A publication Critical patent/JP2007287139A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】購買履歴における頻出アイテム集合の発見に基づいてコンパクトで最適な推奨ポリシーを誘導するための方法を提供する。
【解決手段】方法及びシステムは、消費者に製品を推奨する。消費者の購買履歴がメモリに記憶される隣接格子により表される。訓練例が隣接格子から抽出され、決定木が訓練例を使用して構築される。決定木のサイズが低減され、消費者に製品を推奨するために、サイズ低減した決定木が探索される。
【選択図】図1

Description

本発明は、包括的には消費者に製品を推奨するためのシステム及び方法に関し、より詳細には頻出アイテム集合発見に基づくパーソナライズドリコメンデーションシステムに関する。
パーソナライズドリコメンデーションシステムは、ベンダにより記録される購買履歴に基づいてどの製品を消費者に推奨するかを決定する。通常、推奨方法は、消費者が製品を購入する確率を最大化すると共におそらくベンダの収益を最大化するように試みる。
この機能は、購買履歴の幅広い可用性、及び計算集約的な統計的データマイニング技法の発展によって可能になっている。今日では、パーソナルリコメンデーションはオンライン「電子商取引(e−commerce)」ウェブサイトの主要な特徴である。パーソナルリコメンデーションはダイレクトマーケティングにおいてかなりの部分を占めており、どの消費者がどのカタログを受け取るか、またカタログに含まれる製品を決定するために使用される。
反応モデリングとしての推奨
通常、推奨方法は、ベンダの製品のセット
Figure 2007287139
から所与の製品Aが買履歴H(ここで、
Figure 2007287139
)に基づいて購入される、確率Pr(A=True|H)を推定する。
過去の購入が将来の購入と高く相関していることが仮定され、消費者の嗜好に関する情報は消費者の購買履歴から抽出することができる。通常の場合には、全てのエビデンスがポジティブである。製品Aの購入が或るベンダにより記録されていない場合、たとえ消費者がこの製品を別のベンダから購入していた可能性があっても、A=Falseと仮定される。このタスクは、消費者が推奨された製品を購入する確率を定量的にモデル化しようとするため、反応モデリングとしても知られている(B. Ratner著「Statistical Modeling and Analysis for Database Marketing」(Boca Raton: Chapman and Hall, CRC, 2003))。
各入手可能な製品を購入する確率が推定されると、推奨するのに最適な製品を推奨ポリシーに従っていくつかの方法で決定することができる。最も単純な推奨ポリシーは購入の可能性が最も高い製品Aを推奨する。
=argmaxAiTruePr(A|H)
この推奨が真に最適であるためには、3つの条件が保持されなければならない。第1に、各製品からの収益は同じでなければならない。第2に、消費者は1つの製品のみを選択しなければならず、そうでない場合、将来の購入はその選択とは無関係でなければならない。第3に、各製品を購入する確率は、それが推奨されていない場合は、一定でなければならない。実際には、これらの3つの条件はほとんど保持されず、それにより最適な推奨のいくつかのより現実的な定義を生んでいる。
製品間の様々な収益r(A)は、予測される最大収益をもたらす製品Aを推奨するポリシーによって求めることができる。
=argmaxAiPr(A=True|H)r(A
推奨されていない製品を購入する確率が変動する場合には、推奨による確率の増加が最大である製品を推奨するポリシーを有することがより有益である。これは、製品が推奨された場合及び製品が推奨されていない別の場合に対する消費者の反応を別個に推定することを必要とする。第3の条件から逸脱することに対しては、目先の収益よりも推奨から生じる累積収益を最適化する逐次的なマルコフ決定過程(MDP)モデルを解くことにより対処することができる。このシナリオはまた、個々の製品からの収益及び推移確率がMDPを特定するのに必要とされる全てのものであるため、反応モデリングに帰着する。
反応確率の推定
全てのブール変数A、i=1、N、
Figure 2007287139
の結合確率関数(JPF)が既知である場合、任意のA及びHについてPr(A=True|H)を推定することは常に可能である。
Pr(A=True|H)=(Pr(A∪H))/Pr(H)
ここで、Pr(A∪H)及びPr(H)はJPFから得ることができる。
実際には、JPFは先験的に分かっていない。その代わりに、JPFは適した計算法により求められる。購買履歴がJPFの推定に使用されると、これは密度推定の問題に帰着し、既知のデータマイニングプロセスによる分析に従う。
パーソナライズドリコメンデーションの分野では、この手法は、既存の消費者のグループの記録された嗜好及び購入パターンを、同じ消費者のグループに対して推奨するために利用することから、協調フィルタリングとしても知られている。
しかしながら、データマイニングおよび統計的な機械学習の観点からすると、製品領域のJPFのあらゆるエントリを直接推定することは、少なくとも2つの理由のために通常は実行不可能である。第1に、指数的に多くのこのようなエントリが存在し、それらの表現のためのメモリ要件は、製品の品揃え
Figure 2007287139
のサイズにより指数的に大きくなる。第2に、メモリにおいてJPFの全てのエントリを表すことがどうにか可能であったとしても、それらの値は、履歴のサイズもまた
Figure 2007287139
において指数的に大きくならない限り、購買履歴からカウントする頻度を用いて確実に推定することはできないであろう。しかしながら、購買履歴のサイズは通常、製品の品揃えのサイズにおいて指数的であるというよりもむしろベンダが事業をしている期間に応じて線形的である。この問題に対処するための通常の方法は、JPFに何らかの構造を付加することである。
1つの解決策は、ロジスティック回帰を含み、これは「反応モデリングの主力」と呼ばれている。ロジスティック回帰の問題点は、購買履歴Hにおける変数間の相互作用をモデル化することができず、個別の製品の影響を独立して考慮するということである。
ニューラルネットワーク、サポートベクターマシン、又は分類器を構築するための任意の他の機械学習方法等のさらに発展したデータマイニング技法を使用することにより、有意な改良を達成することができる。このことは、推奨される製品に、特に依存ネットワークの誘導に実際的影響を与えるが、大規模なデータベース上の分類器の誘導における進歩に大きく依存しているため、これは容易に解決される問題ではない。
本発明の実施の形態は、購買履歴における頻出アイテム集合の発見に基づいてコンパクトな最適な推奨ポリシーを誘導するための方法を提供する。決定木学習プロセスはその後、メモリに記憶される推奨ポリシーを単純化及びコンパクト化するために使用することができる。
このようなポリシーの構築は、従来の頻出アイテム集合発見プロセスが単独で可能にするよりもはるかに効率的に消費者の購買履歴の空間を分割するために利用されることができる。
本発明は、頻出アイテム集合(FI)格子の発見、及び続く決定木として表される直接のコンパクトな推奨ポリシーの抽出に基づく方法を使用する。決定木の誘導のためのプロセスは、頻出アイテム集合マイニングを用いることにより発見される最適な推奨ポリシーを大幅に単純化するように利用される。
パーソナライズ化された製品推奨のための頻出アイテム集合発見プロセスが記載される。方法は、決定木誘導プロセスを用いて推奨ポリシーを圧縮する。全ての頻出アイテム集合の隣接行列は多くのメモリを消費し且つ結果としてルックアップ時間がかなり長くなるため、決定木を用いて推奨ポリシーを圧縮する。この目的のために、決定木を「学習する」ためのプロセスが訓練サンプルに適用される。本発明者等は、決定木が実際には結果的によりコンパクトな推奨ポリシーになることを発見した。
本発明の方法はまた、より精巧な推奨ポリシー、例えば頻出系列の抽出に基づくポリシーにも適用することができる。頻出系列の発見は頻出アイテム集合の発見ほど困難ではないため、このようなポリシーは、時間的関連よりもはるかに良好に消費者の選択の逐次的な性質をモデル化する。頻出系列の隣接格子は頻出アイテム集合の隣接格子と同様に圧縮できることが予想される。したがって、本発明の手法は逐次的な推奨ポリシーに一般化することができる。
本発明を好適な実施の形態の例として説明するが、本発明の精神及び範囲内で、様々な他の適用及び変更を行うことができることを理解すべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入る全てのこのような変形及び変更を網羅することである。
図1は、本発明の一実施の形態による、消費者に製品を推奨する方法を示す。購買履歴101が、所定の閾値102を使用してメモリ112に記憶される隣接格子111として表される(110)。隣接格子111は最適な推奨ポリシーの訓練サンプル121を抽出する(120)のに使用される。訓練サンプルは決定木131を構築する(130)のに使用される。本発明では、サイズ低減した決定木141になるように、決定木131のサイズを低減する(140)。サイズ低減した木141はその後製品推奨151を作成するために探索される(150)ことができる。
頻出アイテム発見
ベンダから入手可能なアイテムの集合がT={A,B,C,D}である。購買履歴101はトランザクションTを含む。各トランザクションは識別情報及びアイテム集合を含むアイテム対(ID、アイテム集合)(表Aを参照)である。
Figure 2007287139
アイテム集合X⊆Tのサポート、supp(X)は、X⊆Yとなるような、トランザクション履歴Tにおける購入の数Yである。アイテム集合X⊆Tは、そのサポートが所定の閾値θ102以上である場合に頻出である。表Bは閾値θ=1を有するTにおける全ての頻出アイテム集合を示す。
Figure 2007287139
隣接格子
アイテム集合がどのようにパーソナライズドリコメンデーションのために使用されるかを説明する前に、アイテム集合の隣接格子111について説明する。図2に示すように、Tにおける全ての可能なアイテム集合の隣接格子111を表すために有向非巡回グラフを使用する。Yが1つのアイテムを加えることによりXから入手できる場合、そしてその場合にのみ、アイテム集合Xは別のアイテム集合Yに隣接する。本発明では親をX、子をYと指定する。
隣接格子111は利用可能なアイテムの全てのサブセットをまとめる1つの方法であり、これは例えば小さなサブセットから大きなサブセットへの進行におけるN元分割表等の他の代替の方法とは異なる。特に、同じレベルの格子の全てのサブセットは同じ濃度を有する。問題領域の全JPFを表したい場合には、各サブセットの確率を表すために隣接格子を使用することができる。
しかしながら、確率が閾値102を超えるサブセットのみを記憶する場合にはメモリ要件を低減することができる。このようなアイテムのサブセットは頻出アイテム集合と呼ばれ、データマイニングのアクティブサブフィールドは効率的なプロセス頻出アイテム集合マイニング(FIM)に関する。
閾値102が与えられると、これらのプロセスはサポートが閾値を超えるアイテム集合を位置付け、アイテム毎にそのアイテムをサポートする正確なトランザクション数を記録する。この表現はロスレスではないことに留意されたい。頻出アイテム集合のみを記憶すると共にあまり頻出ではないアイテムを捨てることにより、JPFの精度とメモリサイズとを引き換える。
アプリオリ(Apriori)プロセスにより所与のトランザクションデータベース(購買履歴101)Tの隣接格子111、及び閾値θ102を生成することができる。R. Agrawal, T. Imielinski及びA. Swami著「Mining association rules between sets of items in very large databases」(Proc. of the ACM SIGMOD Conference on Management of Data, pp. 207-216, May 1993(参照により本明細書に援用される))。
まず、プロセスは全ての頻出アイテム集合X(ここで、|X|=1)を生成する。その後、全ての頻出アイテム集合Yが生成され(ここで、|Y|=2)、以下同様である。各アイテム集合が生成されると、プロセスは閾値θより低いサポートを有するアイテム集合を削除する。閾値102は、全ての頻出アイテム集合がメモリに収まるように選択される。通常、問題領域の全JPFがメモリに収まることはないが、本発明では頻出アイテム集合(FI)隣接格子111は、サポート閾値を上げることにより常に利用可能なメモリに収めることができることに留意されたい。確実に、閾値が低いほど、JPFは完全なものになる。
疎なFI格子が生成された後、格子は全JPFを使用することができるのと同様に推奨ポリシーを定義するのに使用されることができる。推奨ポリシーは、欠損しているエントリに対処するためのいくつかの規定を有する。最も簡単なケースは、消費者の購買履歴に対応するアイテム集合Hが格子で表され、格子に子孫Qの少なくとも1つがまた存在する場合である。その場合、最適な推奨は格子にあるHの直接の子孫Qのサポートを最大化する集合Hの拡張A=Q\Hである。明らかに、隣接格子にあるHの子孫頻出アイテムは1つの要素のみにおいてHとは異なっており、それにより最適な推奨を探索することが促進される。最適な推奨を見つけるために、存在する子孫FIのみが試験されることに留意されたい。全ての他の可能な子孫が頻出ではない場合、それらのサポートは頻出アイテム集合のサポートを下回り、それらをもたらす拡張は最適ではあり得ない。
完全な購買履歴HがFI集合ではない場合、より複雑なケースが発生する。このケースに対処するためのいくつかの方法がある。これらはめったに起こらないため、上述した主なケースほど重要ではない。それでもなお、1つの合理的な手法は、頻出且つ少なくとも1つの頻出子孫を有するHの最大のサブセットを見つけ、その最大のサブセットに対する最適な推奨を使用することである。
実際に、本プロセスは、格子に存在する極大頻出サブセットを見つけ、その親に対する最適な推奨を使用する。同じ濃度のいくつかの最大のサブセットが存在する場合、結合をランダムに破壊することができ、又はいくつかの局所的なモデルを1つの大域に収容するためのさらに精巧なプロセスを使用することができる。H. Mannila, D. Pavlov及びP. Smyth著「Predictions with local patterns using cross-entropy」(Proc. of Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 357-361, ACM Press, 1999(参照により本明細書に援用される))。
最適な推奨の定義は1度のみ実行される。推奨はその集合のサポートと共に格子に記憶することができる。表Cは最小のサポート閾値1を有するアイテム集合毎の、格子から抽出される推奨を示す。
Figure 2007287139
本発明では、過去の購入から推奨される最適な製品までのマッピングを推奨ポリシーと呼ぶ。この最適性の定義は製品推奨の最も単純な目的に対応し、すなわち推奨された製品が購入される確率を最大化する。しかしながら、上述した任意の数のより複雑な最適性の形式を推奨ポリシーを定義するのに使用することもできるが、これらは異なる推奨ポリシーをもたらすことができるが、それでもなお購買履歴から推奨される製品までのマッピングという同じ形態を有する。
図3に示すように、隣接格子は通常全ての格子端を明確に示さないプレフィックス木として記憶される。B. Goethals著「Efficient Frequent Pattern Mining」(PhD Thesis, Transnational University of Limburg, Diepenbeek, Belgium, December 2002)。図3に示すように、欠損している端は破線で示す。
例えば、集合{A,B,C}は集合{A,B,C,D}の親であるが、集合{B,C,D}は集合{A,B,C,D}の親ではない。集合{A,B,C,D}は集合{B,C,D}の間接的な子と呼ばれる。しかしながら、間接的な子を探索することは大きな問題ではない。実際には、本プロセスは次に全ての可能な拡張を生成し、対応するアイテム集合を位置付けるためにプレフィックス木を使用し、アイテム集合が頻出である時に最適な推奨ポリシーを定義するためにアイテム集合を考慮する。
決定木を用いて推奨ポリシーを表しコンパクト化するという着想について考察する前に、本発明の方法と相関ルールに基づくパーソナライズドリコメンデーションとを比較する。W. Lin, S. A. Alvarez及びC. Ruiz著「Efficient adaptive-support association rule mining for recommender systems」(Data Mining and Knowledge Discovery, vol. 6, no. 1, pp. 83-105, 2002)、並びにB. Mobasher, H. Dai, T. Luo, M.及びNakagawa著「Effective personalization based on association rule discovery from web usage data」(Proc. of the Third International Workshop on Web information and Data Management, ACM Press, New York, pp. 9-15, 2001)。
それらは「HであればPの確率でyである」という形態の相関ルールが購買履歴に対する全てのルールの前例に一致し、製品購入の確率を推定する最も具体的なルールを使用するか、又は最後のステップとして、相反するルールを解決するための何らかの他のアービトレーションメカニズムを使用することを記述する。
しかしながら、本発明の目的は、消費者の反応確率を推定する際にこれらのプロセスの精度を向上させることではなく、またFIベースのリコメンダの精度とロジスティック回帰に基づく別の方法、例えばニューラルネット、の精度とを比較することでもない。その代わりに、本発明に一致する目的は、頻出アイテム集合の発見を用いて導出される最適な推奨を記憶し且つ生成するのに要求される時間及びメモリを低減することである。
この目的に対する動機は、これらのプロセスが購買履歴とルールとを一致させるのに非効率的であるという観察である。その理由は、追加のデータ構造が使用されない限り、ルールが逐次的に探索される必要があるためである。プレフィックス木以上に単純なものが存在する可能性は低い。
対照的に、プレフィックス木により表される隣接行列における探索は、プレフィックス木において表されるアイテム集合の数において対数的である。さらに、相関ルールの誘導のための一般的なプロセスはあまりに多くのルールを生成するため、実用的な用途において処理することができない。1つの領域には2N個のアイテム集合が存在するのに対して、3N個の可能な相関ルールが存在するため、それはメモリ要件においては大きな差をもたらす。
しかしながら、格子に記憶される推奨ポリシーもまた不利益を有する。第1に、それは移植可能性が低い。予測モデルマークアップ言語(PMML)を使用して記憶及び交換されることができる相関ルールの集合とは異なり、プレフィックス木又は隣接格子を表す好都合なPMMLは存在しない。第2に、これはより重要なことであるが、格子は疎なJPFを符号化する一方、本発明では推奨ポリシーのみを必要とする。
JPFの複雑さとJPFにより示される最適な推奨ポリシーの複雑さとの間には大きなずれが存在する可能性がある。一例として、購買に全く相関関係がないN個の製品の領域を考慮する。依然として、このことを知らずにJPFはおよそ2N個のエントリを有する。頻出アイテム集合のみを表すことによりそれらの表現に必要とされるメモリが低減する。しかしながら、それらの個別の購入頻度が類似している場合、これは大きな助けにはならない。
過去の購買履歴は将来の購入とは相関がないため、最適な推奨ポリシーは消費者が未だ所有していない最も人気のあるアイテムを推奨することである。すなわち、消費者が最も人気のあるアイテムを購入していない場合はそれを推奨し、そうではなく消費者が2番目に人気のあるアイテムを購入していない場合は代わりにそれを推奨し、以下同様に、既にあらゆる商品を購入した消費者には最も人気のないアイテムが推奨されるまで続く。明らかに、そのような推奨ポリシーはNにおいて線形的であるのみである一方、問題領域のJPFはNにおいて指数的である。
これは構築された極端な一例であり、アイテム間の相関は実際の購入領域においては確かに存在し、そうでない場合、パーソナライズドリコメンデーションという考えの全体が無益になるが、我々の仮説は、JPFの複雑さと推奨ポリシーの複雑さとの間のこのずれは依然としてかなりの程度実際の領域に存在するというものである。
隣接格子からの決定木の構築
決定木はデータマイニング、分類及び回帰のために頻繁に使用される。決定木はルートノード、属性すなわち変数が試験される中間ノード、及び購入決定が記憶されるリーフノードを含む。
推奨ポリシーは購買履歴(入力)と最適な製品推奨(出力)との間のマッピングであるため、決定木は推奨ポリシーを表すための実行可能な構造である。
推奨ポリシーを決定木として表すことを望む場合、1つの手法は、隣接格子のプレフィックス木を決定木に直接変換することである。n個の子孫を有するプレフィックス木の各ノードは、n個の二分ノードとして表される。ノードは、消費者が子孫ノードにつながる端をラベル付けする対応するn個のアイテムのそれぞれを購入したか否かを決定するために順次試験することができる。
この手法が終了すると、結果としての決定木は元の格子よりもはるかに大きくなる。その代わりに、本発明の手法は、推奨ポリシーを符号化するという問題を機械学習問題として取り扱うことである。本発明の予想は、推奨ポリシーを表す目的でのアイテム集合空間の最適な分割は、購入パターンのJPFを記憶する目的でのアイテム集合空間の最適な分割とは大きく異なっているということ、及び決定木の誘導のための既存のプロセスにより前者の分割を発見することができるということである。
決定木の誘導のためにこれらのプロセスを使用するために、本発明では訓練例121を抽出する(120)。格子において各アイテム集合毎に1つの例がある。各頻出アイテム集合はブール変数の完全な集合として表され、これは入力変数として使用される。推奨される最適な製品は出力のクラスラベルとして与えられる。
表Dは、データ変換の一例を示し、図4は対応する隣接格子を示す。
Figure 2007287139
本発明は、決定木131を構築するために訓練例121としてアイテム集合及び推奨のこのリストを使用する。
所与の訓練例の集合を正確に分類することができる多数の可能な決定木がある。いくつかは他のものよりも大きい。例えば、表Dにおいて例をあげると、可能な決定木は図5に示される。しかしながら、この木はやや大きい。
図6はちょうど良い、そしてかなり小さい決定木を示す。最もコンパクトな決定木を見つけることは些細な問題ではないが、本発明の手法はID3及びC4.5等の貪欲なプロセスを使用することである。J. R. Quinlan著「Induction of decision trees」(Machine Learning, vol. 1, no. 1, pp. 81-106, 1986)及びJ. R. Quinlan著「C4. 5: Programs for Machine Learning」(San Mateo: Morgan Kaugmann, 1993(参照により本明細書に援用される))。これらの手順は優れた分類特性を有する非常にコンパクトな決定木を生成することができる。
上記のように訓練例を抽出した後、決定木の誘導のためのこれらの一般的なプロセスに依存して新たな決定木131のサイズを低減する(140)。下記の比較結果が、大規模な購入履歴において、本発明の方法がノード数の点で良好に機能すること、及び同じデータの格子表現と比較して決定木で表されるより単純なデータ構造を生成することを示す。
ここで、サイズ低減した決定木141は推奨を見つけるために探索される(150)ことができる。
適用
本発明の方法を頻出アイテム集合マイニングを評価するのに頻繁に使用される既知の小売データセットに適用する。T. Brijs, G. Swinnen, K. Vanhoof及びG. Wets著「The use of association rules for product assortment decisions: a case study」(Proc. of the Fifth International Conference on KDD, pp. 254-260, August 1999(参照により本明細書に援用される))。データセットが41,373個の記録を有する。この評価において、本発明は上記のゴーサルズのアプリオリの実施態様を使用した。訓練例を生成した後、決定木が生成される。決定木の誘導中、相互情報(エントロピー)基準を使用して分割属性が選択される。全ての場合において、完全に同一の木が生成される。各訓練例は独自の入力を有するため、これは常に可能である。
図7はともにサポート閾値に対してプロットされる、プレフィックス木(FI)のノード数と決定木(DT)のノード及びリーフの数との比較を示す。決定木の場合には、ノードは「intrm」により示される中間(決定)ノードと、「leaves」により示される推奨とに分解される。リーフノードが推奨を記録できることは留意すべきである。
図7は、決定木が実際によりコンパクトな推奨ポリシーをもたらすことを示す。さらに、省略の割合は一定ではない。省略の度合いはポリシーのサイズに応じて増大する。場合によっては、決定木構築プロセスはポリシーを符号化するのに必要なノード数を最大で80%低減することができる。このことは、発見された推奨ポリシーに実際に有意な構造が存在すること、及び学習プロセスがそれを発見することができたということを示す。
さらに、一般的に、プレフィックス木は二分ではないため、二分決定木を記憶することは、同じ数のノードを有するプレフィックス木を記憶するよりもはるかに良い。さらに、決定木はPMMLフォーマットに変換することができる。誘導された木は、たとえその全購買履歴が隣接格子において明確に示されていない場合であっても、新たな消費者に直接対処する。
本発明の一実施の形態による、消費者に製品を推奨する方法のフロー図である。 購買履歴における全ての可能なアイテム集合の隣接格子を表す有向非巡回グラフである。 隣接格子を表すプレフィックス木である。 例示の隣接格子である。 例示の決定木である。 図5の木に対応するコンパクトな決定木である。 プレフィックス木のノード数と決定のノード数とを比較するグラフである。

Claims (9)

  1. 消費者に製品を推奨するためのコンピュータ実施方法であって、
    消費者の購買履歴を隣接格子として表すステップと、
    前記隣接格子から訓練例を抽出するステップと、
    前記訓練例を使用して決定木を構築するステップと、
    サイズ低減した決定木になるように前記決定木のサイズを低減するステップと、
    前記消費者に製品を推奨するために前記サイズ低減した決定木を探索するステップと
    を含む、消費者に製品を推奨するためのコンピュータ実施方法。
  2. 前記抽出することは所定の閾値による、請求項1に記載の方法。
  3. 前記購買履歴はアイテムを含み、各アイテムはそれぞれ識別及びアイテム集合を有する、請求項1に記載の方法。
  4. 前記隣接格子は有向非巡回グラフの形態である、請求項1に記載の方法。
  5. 前記決定木はルートノード、属性を記憶するための中間ノード、及び購買決定を記憶するためのリーフノードを含む、請求項1に記載の方法。
  6. 前記構築することは機械学習プロセスを使用する、請求項1に記載の方法。
  7. 前記決定木は二分木である、請求項1に記載の方法。
  8. 消費者に製品を推奨するためのシステムであって、
    消費者の購買履歴を表す隣接格子を記憶するように構成されるメモリと、
    前記隣接格子から訓練例を抽出する手段と、
    前記訓練例を使用して決定木を構築する手段と、
    サイズ低減した決定木になるように前記決定木のサイズを低減する手段と、
    前記消費者に製品を推奨するために前記サイズ低減した決定木を探索する手段と
    を備える、消費者に製品を推奨するためのシステム。
  9. 前記購買履歴はアイテムを含み、各アイテムはそれぞれ識別及びアイテム集合を有する、請求項8に記載のシステム。
JP2007092278A 2006-04-14 2007-03-30 消費者に製品を推奨するためのコンピュータ実施方法及びシステム Pending JP2007287139A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/404,940 US20070244747A1 (en) 2006-04-14 2006-04-14 Method and system for recommending products to consumers by induction of decision trees

Publications (1)

Publication Number Publication Date
JP2007287139A true JP2007287139A (ja) 2007-11-01

Family

ID=38605952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007092278A Pending JP2007287139A (ja) 2006-04-14 2007-03-30 消費者に製品を推奨するためのコンピュータ実施方法及びシステム

Country Status (2)

Country Link
US (1) US20070244747A1 (ja)
JP (1) JP2007287139A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287550A (ja) * 2007-05-18 2008-11-27 Nippon Telegr & Teleph Corp <Ntt> 購買順序を考慮したリコメンド装置、リコメンド方法、リコメンドプログラムおよびそのプログラムを記録した記録媒体
US8831271B2 (en) 2008-10-07 2014-09-09 Ochanomizu University Subgraph detection device, subgraph detection method, program, data structure of data, and information recording medium
JP2020532004A (ja) * 2017-08-24 2020-11-05 オラクル・インターナショナル・コーポレイション 顧客間の影響に基づいて顧客の行動を予測し、電子メッセージの配布を制御するコンピュータシステムおよび方法

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8301665B2 (en) * 2009-09-08 2012-10-30 International Business Machines Corporation Accelerated drill-through on association rules
US8515889B2 (en) * 2010-03-23 2013-08-20 Ebay Inc. Systems and methods for trend aware self-correcting entity relationship extraction
US11727249B2 (en) 2011-09-28 2023-08-15 Nara Logics, Inc. Methods for constructing and applying synaptic networks
US10789526B2 (en) 2012-03-09 2020-09-29 Nara Logics, Inc. Method, system, and non-transitory computer-readable medium for constructing and applying synaptic networks
US10467677B2 (en) 2011-09-28 2019-11-05 Nara Logics, Inc. Systems and methods for providing recommendations based on collaborative and/or content-based nodal interrelationships
US8732101B1 (en) 2013-03-15 2014-05-20 Nara Logics, Inc. Apparatus and method for providing harmonized recommendations based on an integrated user profile
US8170971B1 (en) 2011-09-28 2012-05-01 Ava, Inc. Systems and methods for providing recommendations based on collaborative and/or content-based nodal interrelationships
US11151617B2 (en) 2012-03-09 2021-10-19 Nara Logics, Inc. Systems and methods for providing recommendations based on collaborative and/or content-based nodal interrelationships
US9256687B2 (en) * 2013-06-28 2016-02-09 International Business Machines Corporation Augmenting search results with interactive search matrix
US9986299B2 (en) 2014-09-22 2018-05-29 DISH Technologies L.L.C. Scheduled programming recommendation system
US20160125501A1 (en) * 2014-11-04 2016-05-05 Philippe Nemery Preference-elicitation framework for real-time personalized recommendation
US20160127319A1 (en) * 2014-11-05 2016-05-05 ThreatMetrix, Inc. Method and system for autonomous rule generation for screening internet transactions
US9467733B2 (en) 2014-11-14 2016-10-11 Echostar Technologies L.L.C. Intuitive timer
US9503791B2 (en) * 2015-01-15 2016-11-22 Echostar Technologies L.L.C. Home screen intelligent viewing
RU2632133C2 (ru) 2015-09-29 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования
SG10201510132UA (en) * 2015-12-10 2017-07-28 Mastercard International Inc Methods and apparatus for soliciting donations to a charity
CN105719189B (zh) * 2016-01-15 2019-12-27 天津大学 一种社交网络中有效提高标签多样性的标签推荐方法
US9924217B1 (en) 2016-11-22 2018-03-20 Echostar Technologies L.L.C. Home screen recommendations determination
CN106649714B (zh) * 2016-12-21 2020-08-04 重庆邮电大学 针对数据不均匀及数据稀疏的topN推荐系统及方法
RU2693324C2 (ru) 2017-11-24 2019-07-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер преобразования значения категориального фактора в его числовое представление
RU2692048C2 (ru) 2017-11-24 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для преобразования значения категориального фактора в его числовое представление и для создания разделяющего значения категориального фактора
US20190180255A1 (en) * 2017-12-12 2019-06-13 Capital One Services, Llc Utilizing machine learning to generate recommendations for a transaction based on loyalty credits and stored-value cards
US11501340B2 (en) * 2019-08-29 2022-11-15 Oracle International Corporation Enriching taxonomy for audience targeting and active modelling
CN113378842A (zh) * 2021-05-18 2021-09-10 浙江大学 基于分割图像特征提取的推荐方法
CN113360681B (zh) * 2021-06-01 2023-06-23 北京百度网讯科技有限公司 确定推荐信息的方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787274A (en) * 1995-11-29 1998-07-28 International Business Machines Corporation Data mining method and system for generating a decision tree classifier for data records based on a minimum description length (MDL) and presorting of records

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6269353B1 (en) * 1997-11-26 2001-07-31 Ishwar K. Sethi System for constructing decision tree classifiers using structure-driven induction
US6727914B1 (en) * 1999-12-17 2004-04-27 Koninklijke Philips Electronics N.V. Method and apparatus for recommending television programming using decision trees
US6519599B1 (en) * 2000-03-02 2003-02-11 Microsoft Corporation Visualization of high-dimensional data
US7016887B2 (en) * 2001-01-03 2006-03-21 Accelrys Software Inc. Methods and systems of classifying multiple properties simultaneously using a decision tree
JP2002334201A (ja) * 2001-01-10 2002-11-22 Supreme System Consulting Corp 営業支援システム及び営業支援方法
US6889219B2 (en) * 2002-01-22 2005-05-03 International Business Machines Corporation Method of tuning a decision network and a decision tree model

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787274A (en) * 1995-11-29 1998-07-28 International Business Machines Corporation Data mining method and system for generating a decision tree classifier for data records based on a minimum description length (MDL) and presorting of records

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JPN6012023267; KIM, Jong Woo et al.: '"Application of Decision-Tree Induction Techniques to Personalized Advertisements on Internet Storef' International Journal of Electronic Commerce vol. 5, no. 3, 200103, pp. 45-62. *
JPN6012023270; MOBASHER, Bamshad et al.: '"Effective Personalization Based on Association Rule Discovery from Web Usage Data"' Proceedings of the 3rd International Workshop on Web Information and Data Management (WIDM '01) , 200111, pp. 9-15. *
JPN6012023273; BORGELT, Christian: '"Efficient Implementations of Apriori and Eclat" [online]' Proceedings of the 1st IEEE ICDM Workshop on Frequent Itemset Mining Implementations (FIMI '03) [検索日 2012年 4月27日], 200311 *
JPN6012023275; BODON, Ferenc: '"Surprising Results of Trie-based FIM Algorithms" [online]' Proceedings of the 2nd IEEE ICDM Workshop on Frequent Itemset Mining Implementations (FIMI '04) [検索日 2012年 4月27日], 200411 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287550A (ja) * 2007-05-18 2008-11-27 Nippon Telegr & Teleph Corp <Ntt> 購買順序を考慮したリコメンド装置、リコメンド方法、リコメンドプログラムおよびそのプログラムを記録した記録媒体
US8831271B2 (en) 2008-10-07 2014-09-09 Ochanomizu University Subgraph detection device, subgraph detection method, program, data structure of data, and information recording medium
JP2020532004A (ja) * 2017-08-24 2020-11-05 オラクル・インターナショナル・コーポレイション 顧客間の影響に基づいて顧客の行動を予測し、電子メッセージの配布を制御するコンピュータシステムおよび方法

Also Published As

Publication number Publication date
US20070244747A1 (en) 2007-10-18

Similar Documents

Publication Publication Date Title
JP2007287139A (ja) 消費者に製品を推奨するためのコンピュータ実施方法及びシステム
CN109255586B (zh) 一种面向电子政务办事的在线个性化推荐方法
EP3121738A1 (en) Data storage extract, transform and load operations for entity and time-based record generation
US9792388B2 (en) Pattern extraction apparatus and control method therefor
CA2796061C (en) Ascribing actionable attributes to data that describes a personal identity
CN103258025B (zh) 生成共现关键词的方法、提供关联搜索词的方法以及系统
JP2008027072A (ja) データベース分析プログラム、データベース分析装置、データベース分析方法
WO2014109388A1 (ja) テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体
Shim et al. Predicting movie market revenue using social media data
Abbas Deposit subscribe prediction using data mining techniques based real marketing dataset
CN112669113A (zh) 产品的推荐方法和装置、存储介质、电子装置
US10846352B1 (en) System and method for identifying potential clients from aggregate sources
Lin Association rule mining for collaborative recommender systems.
CN110910235A (zh) 一种基于用户关系网络的贷中异常行为检测方法
JP5555238B2 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
Zimmermann Objectively evaluating condensed representations and interestingness measures for frequent itemset mining
Appavu et al. Knowledge-based system for text classification using ID6NB algorithm
JP4460417B2 (ja) 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置
Ersoz Data mining and text mining with big data: review of differences
Ait-Mlouk et al. Multi-criteria decisional approach for extracting relevant association rules
CN116932832B (zh) 数据资产目录生成方法、设备及计算机可读存储介质
Tejasree et al. An improved differential bond energy algorithm with fuzzy merging method to improve the document clustering for information mining
Sharma Identifying Factors Contributing to Lead Conversion Using Machine Learning to Gain Business Insights
EP1681643A1 (en) Method and system for information extraction
Błaszczyński et al. Mining direct marketing data by ensembles of weak learners and rough set methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121016