JP5548900B2

JP5548900B2 - 複数の属性を利用したＷｅｂページ推薦方法

Info

Publication number: JP5548900B2
Application number: JP2009263152A
Authority: JP
Inventors: 治夫横田; 拓明岡本
Original assignee: Tokyo Institute of Technology NUC; Gourmet Navigator Inc
Current assignee: Tokyo Institute of Technology NUC; Gourmet Navigator Inc
Priority date: 2009-11-18
Filing date: 2009-11-18
Publication date: 2014-07-16
Anticipated expiration: 2029-11-18
Also published as: JP2011108034A

Description

本発明は、Ｗｅｂサイトを訪れたユーザを適切なページに導くためのＷｅｂページ推薦方法に関し、特に、Ｗｅｂページの持つ複数の属性に着目し、それらの組み合わせのパターンを抽出することでＷｅｂページの推薦を行う方法に関する。

近年、Ｗｅｂサイトにおける情報量の増大から、Ｗｅｂサイトのユーザの選択肢が増え、提供したい情報にユーザがたどりつけない場合も多くなっている。このため、Ｗｅｂサイトに訪れたユーザを適切なページに導くためのＷｅｂページ推薦の重要性が高まってきている。
例えば、飲食店情報検索サイトなどで飲食店を探す場合に、当該サイトに掲載されている飲食店の情報が非常に多い場合は、サイトを訪れたユーザが自分の要求にあった飲食店の情報までたどりつくことは必ずしも容易ではない。このため、訪れたユーザに対してそのユーザが望んでいると推測される飲食店のＷｅｂページを候補として推薦することが重要となる。

Ｗｅｂページ推薦方法には、大別すると、ユーザの評価情報を直接収集し分析する方法と、Ｗｅｂサイトに残るアクセス履歴を解析する方法がある。前者は、アクセスしたＷｅｂページをどのように評価しているかという情報を収集するためにユーザに評価を求め、各ユーザに労力を要求することから、導入の障壁が高いとともに、適切な評価が得られるかどうかがそれぞれのユーザに依存し、ばらつくことが考えられる。
一方、後者は、一般のアクセス履歴中のパターンを解析するために、ユーザには特別な労力を求めず、全てのユーザから同レベルの情報を得ることが可能となるため、前者に比べると導入が容易で評価のばらつきも少ないと言える。

後者のアクセス履歴を解析する方法としては、アクセス履歴の中からユーザのセッションを抽出し、そのセッション中にアクセスされた各Ｗｅｂページをアイテムとして、マイニングアルゴリズムを適用し相関ルールを抽出して推薦する方法（非特許文献２、３参照）、Ｗｅｂページの頻出アクセスパターンを抽出して推薦する方法、アクセスパターンのＬＣＳ(Longest Common Subsequence)を抽出して推薦する方法（特許文献１参照）等が提案されている。

相関ルールを抽出する方法は、アクセスの順番を考慮しないため、ユーザのアクセス動向を的確に抽出できないという問題がある。また、Ｗｅｂページの頻出アクセスパターンを抽出する方法は、全く同一のアクセスパターンでないと推薦できないため、特にＷｅｂページ数が増えて発生パターンの種類が膨大になると、十分な頻度を持ったパターンを抽出することができない。アクセスパターンのＬＣＳを抽出する方法は、アクセスの順番が完全に一致しない場合でも、アクセスした順番の特徴を抽出することができるため、他の方法に比較すると有効であるという結果が報告されている（非特許文献６参照）。
しかし、Ｗｅｂページの数が膨大になると、ＬＣＳを抽出する方法であってもパターンの種類が多くなり、アクセスパターンをそのまま利用する方法と同様に、十分な頻度を持ったパターンを抽出することが困難となる。

上述のＷｅｂページのアクセス履歴に相関ルールマイニング方法を適用するＷｅｂページ推薦方法では、アクティブセッション中のＷｅｂページに対して、今までにアクセスしたＷｅｂページと共起頻度の高いＷｅｂページを推薦する（非特許文献２参照）。しかし、新規のページにアクセスした場合は推薦できないという問題があり、改良した方法も提案されているが（非特許文献３参照）、ユーザがブックマーク情報を提供する必要があるなどコストが大きい。さらに、いずれの方法もＷｅｂページアクセスの順番を考慮していない。本発明に係る方法が対象としているような、順番にＷｅｂページを絞り込んでいくようなＷｅｂサイトにおいては、順番を考慮する必要がある。

また、書籍を販売するサイトにおける商品推薦を目的として、協調フィルタリングを用いた方法や（非特許文献１参照）、ユーザの評価履歴を基にユーザの嗜好性モデルを作成し、それを基に推薦を行う方法も提案されている（非特許文献５参照）。しかしながら、どちらの方法についてもユーザの評価を何らかの形で登録しておく必要があるため、やはりコストが大きい。
一方、コンテンツの内容や性質を定量化し、ユーザごとに評価値を予測するモデルも提案されているが（非特許文献４参照）、実際の事例に適用するためにどのように定量化するかが課題となっている。

上記の飲食店情報を提示するサービスなど、Ｗｅｂサイト上でサービスを提供する事業においては、複数のユーザのアクセス動向を把握して推薦することが重要であり、そのためには各ユーザのアクセスの順番を考慮することが有用となる。このため、順番を考慮しない相関ルールを抽出する方法は適さない。しかし、アクセスパターンの頻度をそのまま利用すると、全く同一のアクセスの順番にしか推薦できないため、推薦できるものが限られてしまうことになる。このため、アクセスのシーケンスの中からＬＣＳを抽出して利用する方法が、相関ルールを使う方法や頻出アクセスパターンをそのまま使う方法よりも有効である。

シーケンスｘの部分シーケンスとシーケンスｙの部分シーケンスの中で両方のシーケンスに含まれるものを共通部分シーケンス(Common Subsequence)というが、共通部分シーケンスの中で最も長いものを最長共通部分シーケンス(Longest Common Subsequence)と呼び、「ＬＣＳ」と略する。例えば、ｘ＝Ａ−Ｆ−Ｂ−Ｄとｙ＝Ａ−Ｂ−Ｃ−ＤのＬＣＳは「Ａ−Ｂ−Ｄ」である。アクセス履歴中から抽出したユーザセッションのＷｅｂページのリストから抽出されたＬＣＳを記憶しておくことで、途中の横道にそれたアクセス等を除いた多くのユーザが通るパターンを抽出することができる。この記憶しておいたＬＣＳの中から推薦対象のアクティブセッションのＷｅｂページのアクセス順に前半が対応するＬＣＳを探し出して、その後半のＷｅｂページを示すことで、前半に似たアクセスパターンを持つ多くのユーザがその後にアクセスしたＷｅｂページを推薦することができる（非特許文献６参照）。

図１は、ＷｅｂページアクセスパターンからＬＣＳを抽出してＷｅｂページ推薦を行う従来の方法における処理の流れを示す図である。この方法の概要を、図１と対応させて以下に述べる。
［ステップ１］
まず、ユーザのアクセス履歴中に含まれるＩＰアドレス情報とクッキー情報を基に同一ユーザであると判定されたＷｅｂページアクセス履歴を結合することによって、ユーザセッションを抽出する。ここでは、ユーザセッションはＷｅｂページのＩＤのシーケンスとなる。図１では、同じＩＰアドレス（ＩＰ１）を持つＷｅｂページのアクセス履歴を結合し、ユーザセッションＡ−Ｆ−Ｂ−Ｄを抽出している。
［ステップ２］
次に、抽出されたユーザ１からユーザｎまでの全てのユーザセッションに対して、その任意の２セッションに含まれるＬＣＳを算出し、その頻度情報とともに蓄積する。図１の例では、ユーザセッションの組Ａ−Ｆ−Ｂ−ＤとＡ−Ｂ−Ｃ−ＤからはそのＬＣＳであるＡ−Ｂ−Ｄを、別のセッションの組であるＡ−Ｂ−Ｃ−ＤとＢ−Ａ−Ｃ−ＤからそのＬＣＳであるＡ−Ｃ−Ｄと、Ｂ−Ｃ−Ｄを得ている。
［ステップ３］
推薦の対象となる現在のアクティブセッションと、上で求め蓄積しておいたＬＣＳを比較し、推薦候補を得る。図１の例では、ユーザＸのアクティブセッションＡ−Ｂに対して、蓄積されているＬＣＳの中のＡ−Ｂ−Ｄの前半とパターンマッチし、推薦候補のＷｅｂページＤを得ている。

この方法では、出現頻度の高いアクセスパターンを重視することで、精度の高い推薦を実現している（非特許文献６参照）。しかし、推薦対象となるＷｅｂページ数が増大すると、ＷｅｂページアクセスパターンのＬＣＳを用いても、適切なＷｅｂページを推薦できなくなる。ここで、実際にある飲食店サイトの２００８年１１月１日のアクセス履歴から１，０００セッションをサンプリングし、ＬＣＳを抽出した結果、表１に示す長さと種類のＬＣＳを抽出できたが、表から分かるように十分な長さを持ったＬＣＳは少なかった。

さらに、この抽出したＬＣＳを用いて、同一の飲食店サイトに対して２００９年８月２１日からサンプリングした１，０００アクティブセッションに対して推薦候補の抽出を試みたところ、実際に推薦候補を見つけることができたセッションは２６セッションにとどまった。これは、適用した飲食店サイトにおいては、推薦対象となるＷｅｂページの飲食店の数が非常に多く存在し、抽出したＬＣＳの数に対して、ユーザのアクセスしたパターンの数のほうがはるかに大きい為と言える。

特開２００４−１５２２０９号公報

Linden, G., B.Smith and J.York: Amazon.com recommendations: Item-to-item collaborative filtering,, IEEE Internet Comput., Vol.4, No.1 (2003). Mobasher, B., Dai, H., Luo, T. and Nakagawa, M.: Effective personalization based on association rule discovery from Web usage data, Proc. 3rd Intl. Workshop on Web information and data management, pp.9-15 (2001). Mobasher, B., Dai, H., Luo, T. and Nakagawa, M.: Using sequential and non-sequential patterns in predictive Web usage mining tasks, Proc. IEEE International Conference on Data Mining (ICDM'02), pp.669-672 (2002). 麻生英樹，小野智弘，本村陽一，黒川茂莉，櫻井彰人：協調フィルタリングと属性ベースフィルタリングの統合について，信学技報NC2006-54(2006-10) (2006). 黒川茂莉，小野智弘，本村陽一，麻生英樹，櫻井彰人：映画コンテンツ推薦のためのユーザ嗜好性モデルの実験的評価，信学技報NC2004-182(2005-03) (2004). 山元理絵，小林大，吉原朋宏，小林隆志，横田治夫：アクセスログに基づくＷｅｂページ推薦におけるＬＣＳの利用とその解析，情報処理学会論文誌データベース No.SIG11(TOD34)， Vol.48 (2007).

本発明は、上述のような事情に鑑み為されたものであり、ＷｅｂページそのもののアクセスパターンのＬＣＳではなく、各Ｗｅｂページが持つ複数の属性に着目し、Ｗｅｂページ間における属性の組合わせのパターンの頻出する関係（以下「頻出Ｗｅｂページ間関係」という。）を抽出することでＷｅｂページの推薦を行う方法を提供することを目的とする。

本発明は、Ｗｅｂサイトを訪れたユーザ（Ｘ）のアクティブセッションを解析して、前記ユーザ（Ｘ）に対して次にアクセスすべきＷｅｂページ（Ｒ）を推薦するための、プログラムされたコンピュータによる、Ｗｅｂページ推薦方法に関するものであり、本発明の上記目的は、前記Ｗｅｂページ（Ｒ）が複数の属性情報１を有するものであり、前記Ｗｅｂページ推薦方法は、前記コンピュータが、複数のユーザ（１〜ｎ）のアクセス履歴から、前記複数のユーザ（１〜ｎ）の複数のＷｅｂページ（Ａ）に関するユーザセッションを抽出するステップ１と、前記複数のＷｅｂページ（Ａ）から複数の属性情報２を抽出し、前記ユーザ（１〜ｎ）の前記ユーザセッションを、前記複数のＷｅｂページ（Ａ）の前記属性情報２の属性ベクトル列に変換するステップ２と、前記ユーザ（１〜ｎ）間における前記属性ベクトル列の頻出Ｗｅｂページ間関係を抽出するステップ３と、前記Ｗｅｂサイトを訪れた前記ユーザ（Ｘ）のアクティブセッションから、前記アクティブセッションに含まれるすべてのＷｅｂページの属性情報３を属性ベクトルとして抽出し、前記抽出された属性ベクトルと、前記頻出Ｗｅｂページ間関係の一部とを比較し、一致する前記頻出Ｗｅｂページ間関係の部分１が存在した場合に、当該一致した前記部分１を除いた部分２の属性ベクトルを有するＷｅｂページ（Ｒ）を推薦するステップ４とを備えることによって達成される。

また、本発明の上記目的は、前記属性ベクトル列の頻出Ｗｅｂページ間関係を頻出シーケンスとして抽出するステップが、ＬＣＳアルゴリズムを用いて行うこと、或いは、頻出Ｗｅｂページ間関係を頻出集合として相関ルールマイニングを用いて行うことを特徴とする複数属性を利用したＷｅｂページ推薦方法によって効果的に達成される。

本発明に係る方法によれば、一つのＷｅｂサイト内には多数のＷｅｂページが存在していても、属性に基づいて多くの利用者に共通する傾向を適切に把握し、それを推薦に利用することができる。サイト訪問者に対してサイト内の閲覧履歴から、より的確に閲覧ページの推薦ができるという効果がある。
また、属性を利用するため、新規のＷｅｂページを含むアクティブセッションを対象にすることも、新規のＷｅｂページを推薦することも可能となる。

ＷｅｂページアクセスパターンのＬＣＳを用いた従来のＷｅｂページ推薦方法を説明するための図である。本発明に係る複数属性に着目したＷｅｂページ推薦方法（ＬＣＳ法）を説明するための図である。本発明に係る方法（ＬＣＳ法）の処理の流れを示すフローチャートである。本発明に係る複数属性に着目したＷｅｂページ推薦方法(相関ルールマイニング法)を説明するための図である。本発明に係る方法（相関ルールマイニング法）の処理の流れを示すフローチャートである。属性の粒度と抽出されるＬＣＳの関係を示す図である。

以下に、本発明に係る方法である複数の属性を用いたアクセス履歴からのＷｅｂページ推薦方法について、図面を参照しつつ、詳細に説明する。
なお、本発明に係るＷｅｂページ推薦方法は、Ｗｅｂサイトに残るユーザのアクセス履歴を解析することによって行うものであり、Ｗｅｂページのアクセス履歴を蓄積することが前提となっている（ステップ０）。Ｗｅｂページのアクセス履歴を蓄積する方法は既存の技術にて可能であるので、ここでは詳しくは述べない。また、この方法は、所定のコンピュータプログラムがインストールされたＷｅｂサイトを運用するＷｅｂサーバ（図示せず。）によって実行される。従って、Ｗｅｂページのアクセス履歴は蓄積されていることを前提として、以下説明する。

本発明に係るＷｅｂページの複数属性に着目した方法のうち、頻出Ｗｅｂページ間関係の抽出をＬＣＳアルゴリズムによって行う処理の流れを、図２及び図３と対応させて以下に説明する。
まず、従来のＷｅｂページ単位のＬＣＳ抽出方法と同様に、ユーザのアクセス履歴からユーザセッションを抽出する（ステップ１）。
次に、ユーザセッション中に含まれるＷｅｂページのシーケンスを各Ｗｅｂページの持つ属性をベクトルで表現したもの（以下、「属性ベクトル」という。）のシーケンスに変換する（ステップ２）。図２の例では、ページＡが、（α１，β２，γ１）という属性を、ページＢが（α３，β１，γ２）という属性を、ページＤが（α３，β３，γ２）という属性を、ページＦが（α３，β２，γ１）という属性を持っており、Ａ−Ｆ−Ｂ−Ｄというユーザセッションは、（α１，β２，γ１）−（α３，β２，γ１）−（α３，β１，γ２）−（α３，β３，γ２）という属性ベクトルのシーケンスに変換されたことを示している。
なお、Ｗｅｂページから、それが有する属性を抽出する方法としては、例えば、ページの記載内容からキーワード検索で行ったり、予めページを作成する段階でメタ情報等で属性を埋め込んでおいたりすることが考えられる。

上で求めた属性ベクトルのシーケンスに対して、属性ベクトルどうしの全要素が等しい場合に同一と判断してＬＣＳを抽出し、これを蓄積しておく（ステップ３）。図２の例でいえば、ユーザ１のＡ−Ｆ−Ｂ−Ｄと、ユーザ２のＡ−Ｂ−Ｃ−Ｄというユーザセッションに対応する属性ベクトルのシーケンスの組からは、（α１，β２，γ１）−（α３，β１，γ２）−（α３，β３，γ２）という属性ベクトルのＬＣＳが抽出される。

一方、ユーザＸに対するページ推薦対象のアクティブセッションに対しても、ユーザＸがアクセスしたＷｅｂページを属性ベクトルに変換する（ステップ４）。図２の例では、ページＰが（α１，β２，γ１）、ページＱが（α３，β１，γ２）という属性ベクトルを持っていたとする。

アクティブセッションの属性ベクトルのシーケンスと属性ベクトルのＬＣＳの前半部分どうしを比較し、パターンマッチを行い（ステップ５）、マッチする属性ベクトルのＬＣＳの後半部分の属性ベクトルを推薦候補とする。図２の例では、（α３，β３，γ２）が推薦候補の属性ベクトルとなる。そこで推薦候補の属性ベクトルと同じ属性ベクトルを持つＷｅｂページを推薦する（ステップ６）。図２の例では、ページＲが（α３，β３，γ２）という属性ベクトルを持っているため、推薦される。本発明に係る方法では、属性ベクトルを用いることにより、同一のＷｅｂページでなくとも、複数の属性が一致していれば同一と判定することで、長いＬＣＳができる可能性が高くなる。
さらに、そのＬＣＳを用いた推薦においても、属性ベクトルを用いることで、アクセス履歴には含まれなかったＷｅｂページであっても推薦することが可能となる。図２の例では、アクティブセッションのＷｅｂページＰ、Ｑや、推薦対象のＷｅｂページＲのように、アクセス履歴に含まれていないページの場合にも推薦可能である。
なお、ページ推薦の具体的な方法であるが、ＰというページとＱというページを見たユーザに対して、本発明に係る方法によって次にＲというページを推薦することになった場合、今見ているＱのページの中に、Ｒのページに関する情報を含めることが考えられる（例えば、Ｒのページのクリッカブルなサムネイルを置くこと。）。これは、ＰのページからＱのページに行く（クリックして進む）時に、Ｑの中にＲのページを含んだ形のページに進むことで実現できる。また、クッキーを使用すれば、Ｑのページの中に動的にＲのページの情報を埋め込むことができるので、さらに柔軟な対応が可能となる。

これに対して、図１で示した従来のＷｅｂページ単位のＬＣＳによる推薦では、アクティブセッションに現れるＷｅｂページも、推薦対象のＷｅｂページもアクセス履歴に含まれていなければならなかった。
一般に、各Ｗｅｂページは複数の属性を持つことが想定できる。１属性だけを用いると、その属性に偏って推薦を行ってしまうため、ユーザに対して適切なページに誘導できない可能性がある。
そこで、本発明に係る方法では複数の属性のベクトルを用いることとした。この複数の属性として、どのような種類の属性で、どのような粒度を用いるかが重要となる。

次に、本発明に係るＷｅｂページの複数属性に着目した方法のうち、頻出Ｗｅｂページ間関係を順番を持たない頻出集合と考えた場合に、頻出Ｗｅｂページ間関係の抽出を相関ルールマイニングによって行う処理の流れを、図４及び図５と対応させて以下に説明する。

まず、従来のＷｅｂページ単位の頻出アイテム集合抽出方法と同様に、ユーザのアクセス履歴からユーザセッションを抽出する（ステップ１１）。
次に、ユーザセッション中に含まれるＷｅｂページの集合を各Ｗｅｂページの持つ属性をベクトルで表現したもの（以下、「属性ベクトル」という。）の集合に変換する（ステップ１２）。図４の例では、ページＡが、（α１，β２，γ１）という属性を、ページＢが（α３，β１，γ２）という属性を、ページＤが（α３，β３，γ２）という属性を、ページＦが（α３，β２，γ１）という属性を持っており、Ａ−Ｆ−Ｂ−Ｄというユーザセッションは、[（α１，β２，γ１）,（α３，β２，γ１）,（α３，β１，γ２）,（α３，β３，γ２）]という属性ベクトルの集合に変換されたことを示している。

上で求めた属性ベクトルの集合に対して、属性ベクトルどうしの全要素が等しい場合に同一と判断して頻出集合を相関ルールマイニングを用いて抽出し、これを蓄積しておく（ステップ１３）。図４の例でいえば、ユーザ１のＡ−Ｆ−Ｂ−Ｄと、ユーザ２のＡ−Ｂ−Ｃ−Ｄというユーザセッションに対応する属性ベクトルのシーケンスの組からは、[（α１，β２，γ１）,（α３，β１，γ２）,（α３，β３，γ２）]という属性ベクトルの頻出集合が抽出される。

一方、ユーザＸに対するページ推薦対象のアクティブセッションに対しても、ユーザＸがアクセスしたＷｅｂページを属性ベクトルに変換する（ステップ１４）。図４の例では、ページＰが（α１，β２，γ１）、ページＱが（α３，β１，γ２）という属性ベクトルを持っていたとする。

アクティブセッションの属性ベクトルの集合と属性ベクトルの頻出集合の部分集合を比較し、パターンマッチを行い（ステップ１５）、マッチする属性ベクトルの頻出集合の部分集合に含まれなかった属性ベクトルを推薦候補とする。図４の例では、（α３，β３，γ２）が推薦候補の属性ベクトルとなる。そこで推薦候補の属性ベクトルと同じ属性ベクトルを持つＷｅｂページを推薦する（ステップ１６）。図４の例では、ページＲが（α３，β３，γ２）という属性ベクトルを持っているため、推薦される。本発明に係る方法では、属性ベクトルを用いることにより、同一のＷｅｂページでなくとも、複数の属性が一致していれば同一と判定することで、要素数の多い頻出集合が抽出できる可能性が高くなる。
さらに、その頻出集合を用いた推薦においても、属性ベクトルを用いることで、アクセス履歴には含まれなかったＷｅｂページであっても推薦することが可能となる。図４の例では、アクティブセッションのＷｅｂページＰ、Ｑや、推薦対象のＷｅｂページＲのように、アクセス履歴に含まれていないページの場合にも推薦可能である。

以下、上述の頻出Ｗｅｂページ間関係の抽出をＬＣＳアルゴリズムを用いて行った場合の実施例について説明する。まず属性の種類に関して検討し、次にその粒度について具体例を挙げて検討する。

〔属性の種類〕
Ｗｅｂページ推薦が有用であると想定されるＷｅｂサイトにおいて、推薦対象となる各Ｗｅｂページが持つと思われる属性の候補を考えてみると以下のようなものを挙げることができる。
（１）飲食店のＷｅｂページ：業態、平均予算、エリア、口コミ数、個室有無等
（２）旅館やホテルのＷｅｂページ：ホテル／旅館の別、宿泊代、エリア、温泉の有無等
（３）マンションや賃貸物件のＷｅｂページ：賃貸料、広さ、エリア、新築／中古の別等
（４）ニュースや記事などのＷｅｂページ：記事種類、記事タイトル、日時等
（５）本やＣＤなどの商品のＷｅｂページ：ジャンル、著作者、価格、発行年、サイズ等
（６）音楽ダウンロードサイト等における楽曲のＷｅｂページ：ジャンル、歌手名、価格、発表年等

このような属性例の観測から、属性を以下のタイプ別に分類する。
［カテゴリ］
飲食店推薦における「業態（洋食、和食、居酒屋などの分類）」や本・ＣＤ推薦における「ジャンル」が代表的で、主に質的データになる。このカテゴリの分け方は、その推薦の行われているＷｅｂサイトの検索の仕様であることが多い。
［範囲］
飲食店推薦における平均予算、ホテル推薦における宿泊代、マンション推薦における賃貸料等が代表的な量的データである。ユーザの希望では下限や上限、あるいは両方が決まっているなど、ある一定の範囲を取ることが多い。
［距離］
飲食店推薦におけるエリアや、ホテル推薦におけるエリア、マンション推薦におけるエリアになる。単なる位置的情報以外にも「駅から○○分」といった形の形式を取ることもある。
［評価］
各推薦における人気ランキングやアクセス数ランキングなどである。過度に重視すると、特定のＷｅｂページに推薦が偏る可能性が有り、取り扱いに注意すべきである。
［付加情報］
飲食店推薦における「個室有り、駐車場の有無、喫煙・禁煙の可否の区分」や、マンション推薦における「風呂トイレ別」など、持っていることに対して特定のユーザのみがメリットを感じる情報である。
上記で大別した属性のタイプのうち、「評価」と「付加情報」は扱いに考慮が必要なことから、この実施例では、「カテゴリ」、「範囲」、「距離」という３つの属性を評価の対象とする。

〔属性の粒度〕
Ｗｅｂページの各属性には分類の粒度（細分化の単位）がある。例えば飲食店Ｗｅｂページにおける［カテゴリ］の属性は飲食店の業態にあたるが、和食、洋食、中華といった大きな分類から、和食の中でも、懐石、割烹、寿司、田舎料理といった細かな分類まである。［距離］であるエリアも、東京の中でも、新宿、渋谷といった広いレベルから、新宿西口・都庁前、新宿三丁目・新宿御苑周辺、渋谷道玄坂・神泉といった少し狭いレベルまである。
［範囲］である食事の平均予算も、四捨五入でまるめて、１００円単位から、５００円単位、１０００円単位といった粒度にすることができる。

当該実施形態においては、業態を「大業態」と「小業態」の２種類に、エリアを「大エリア」、「中エリア」、「小エリア」の３種類に分類する。２００９年８月時点での飲食店サイトの状態は、「大業態」として１２分類、「小業態」として１２７分類になっている。同様に「大エリア」は１８１分類、「小エリア」は７０４分類となっている。
属性の粒度を変えた場合に抽出されるＬＣＳの関係を考えると、一般には、図６に示すように、粒度を粗くするほど得られるＬＣＳの長さは長くなり、ＬＣＳの種類も多くなる。
なお、この比較の上では、もっとも粒度が小さいのは、属性に着目しないＷｅｂページ単位の場合となる。

ここで、前述の実際の飲食店サイトの２００８年１１月１日のアクセス履歴から１，０００セッションをサンプリングしたデータに対して、業態（カテゴリ）、エリア（距離）、平均予算（範囲）について、それぞれの粒度を変化させた場合に得られたＬＣＳの数、種類の数、平均ＬＣＳ長、最長ＬＣＳ長を表２に示す。

Ｗｅｂページ単位で抽出したＬＣＳに関しても比較のために示すが、どの属性を用いたとしても、得られるＬＣＳの種類は増加し、ＬＣＳ長も長くなっていることが分かる。
また、上で解析したように、粒度が粗いほどＬＣＳの種類が増え、長さが長くなっていることも分かる。ＬＣＳが長くなればなるほど、アクティブセッションと共通の属性を含む可能性が高くなるため、推薦できるアクティブセッションの割合も高くなり、推薦すべき属性を包含する可能性も高くなる。
また、得られるＬＣＳが多くなればなるほど、推薦すべき属性を包含する可能性も高くなるが、属性が粗くなるため、推薦すべきではないＷｅｂページを含む確率も上がる。これらは情報検索の分野における、適合率と再現率の関係と同じと考える。属性を粗くしすぎると、再現率は上昇するが、適合率は下がる可能性がある。つまり、両者はトレードオフの関係にあると言え、最も良い粒度の属性を調整する必要がある。

このようにＷｅｂページの複数の属性を用いてＬＣＳを抽出する場合、属性の組合わせによって、抽出されるＬＣＳの数や長さも変わってくる。また、一つの属性に着目しても、どのような粒度で分類するかによって変わってくる。このことから、適切なＷｅｂページ推薦を行うためには、Ｗｅｂページのどのような属性をどのような粒度で用い、どのように組み合わせるかが重要となる。本発明の実施例では、実際の飲食店サイトのアクセス履歴に対して本発明に係る方法を適用し、従来のＷｅｂページ単位のＬＣＳの抽出と比較して評価するとともに、属性の選択と粒度の影響を調べた。その結果を以下に述べる。

従来のＷｅｂページ単位でＬＣＳを抽出する方法と、本発明に係る方法であるユーザセッションを複数属性ベクトルに変換する方法によるＷｅｂページ推薦を、前述の飲食店サイトの実際のアクセス履歴に対して適用し、時期を変えた別のアクセス履歴をテストセッションとして、従来のＷｅｂページ単位の推薦に対する本発明に係る方法の優位性を実証する評価実験を行った。結果は以下の通りである。

（１）評価対象データ
評価対象のデータとして、前述の飲食店サイトへの２００８年１１月１日付けのリクエストに対するアクセス履歴を用いた。このアクセス履歴に含まれるクッキー情報を用いてアクセス履歴を繋ぎ合せることでユーザセッションを作成した。少ないＷｅｂページにしかアクセスしないユーザセッションでは推薦に利用できないと考え、作成したユーザセッションの内、セッション中にアクセスしたアイテム数が３以上のセッション４０，３１２セッションを対象にした。推薦に対して良い属性の粒度を求めることを主眼とし、実行時間に限りがあることから、上記のセッションの内、ランダムに１，０００セッションを抽出し、そのセッションの総当たりを行いアクセスしたＷｅｂページでのＬＣＳの抽出と、セッションを業態、平均予算、エリアの属性に変換してＬＣＳの抽出を行った。抽出したＬＣＳを用いて、非特許文献６に記載されているＷＲＡＰＬ−ＦＬ法を用いて推薦を行った。この方法は、あるアクティブセッションに対して推薦を行う際に、まず、あらかじめＬＣＳを抽出しておき、次に、抽出したＬＣＳとアクティブセッションに共通するＷｅｂページを抜き出し、ＬＣＳからその共通部分の最後までを除去する。
例えば、アクティブセッションがＡ−Ｂ、ＬＣＳがＡ−Ｃ−Ｂ−Ａ−Ｄだと仮定すると、ＬＣＳからＡ−Ｃ−Ｂ−Ａの部分を除去し、推薦候補となるＤを得る。このようにして、除去して残ったＷｅｂページに対して出現頻度分の得点を加算し、全てのＬＣＳとの得点加算が終了したときに、得点の一番高かったＷｅｂページを推薦候補とするものである。評価のため、２００９年８月２１日にアクセスのあった１，０００セッションをテストセットとし、そのユーザセッション中の前２アクセスをアクティブセッションとし、その後に実際にアクセスしたＷｅｂページを正解ページの集合として扱った。

（２）実験結果に対する評価と考察
実験結果に対して以下に定義する適合率(Precision)、再現率(Recall)、およびＦ値(F-measure)を用いて評価を行う。
［定義式］
Precision＝｜Recom∩Eval｜／｜Recom｜（∩：積集合）
Recall＝｜Recom∩Eval｜／｜Eval｜
F-measure＝２×Precision×Recall／(Precision＋Recall)
ここで、Recom、Evalは、それぞれ、対象アクティブセッションから導かれた推薦ページの組、対象アクティブセッションに続いて実際にアクセスされた正解ページの組を表す。適合率(Precision)は、推薦されるページ数に対する正解ページ数の割合、再現率(Recall)は、評価セットのページ数に対する正解ページの割合を表す。Ｆ値は適合率と再現率の調和平均である。

Ｗｅｂページ単位でＬＣＳを抽出する方法と、本発明に係る方法において、業態に関して大小の２種類の粒度、エリアに関して大中小の３種類の粒度、平均予算を１００円単位、５００円単位、１０００円単位の粒度に変化させてＬＣＳを抽出したものの適合率、再現率、Ｆ値の結果を表３に示す。

前述したように、推薦に対して良い属性の粒度を求めることを主眼として、実験回数を増やすためにＬＣＳ作成のためのセッションをランダムサンプリングとし、テストセットのセッションも少ないものを使ったことから、再現率、適合率とも高くはならなかったが、属性の粒度を変えたことによる違いは出た。
表３から分かるように、Ｗｅｂページ単位でのＬＣＳによって推薦を行うと、再現率・適合率共に最も低くなる。これは、ユーザセッションから求めたアクセスパターンに対して、アクティブセッションのユーザのアクセスパターンの方が多すぎた為と思われる。

これに対して、業態、エリア、平均予算の属性に変換してから推薦を行った方法については、Ｗｅｂページに対して推薦を行うよりも再現率も適合率も向上した。これは、複数の属性を用いることでＷｅｂページ単位の推薦では対応できなかったアクセスパターンに関しても対応できるようになったためと考える。また、時期が異なる新しいＷｅｂページがある場合にも対応できていることも示している。
また、小業態・小エリア・１００円単位平均予算を用いた方法について、Ｗｅｂページ単位で推薦した場合よりも適合率は上昇したものの、再現率については、ほとんど変化がなかった。
これは、サンプリングによって差が出にくかったことと、Ｗｅｂページに対する粒度の粗さの違いがあまりなかったことを示していると思われる。しかし、さらに粒度を粗くしていくと適合率・再現率ともに上昇した。これは粒度による影響が表れていることを示している。
さらに粒度を粗くすると適合率が下がり始めるが、これは前述したように粒度を粗くしすぎたことにより推薦すべきでないＷｅｂページも含まれるようになってしまったためではないかと思われる。ただ、ここでの評価の範囲では、Ｆ値としては粒度を上げても上昇している。

なお、平均予算の代わりに、業態、エリアの属性と一緒に座席数の属性を用いた実験も行った（ここでは、詳細な結果は省く）。座席数によるＬＣＳを用いた推薦に対する適合率・再現率は、業態、エリア属性の粒度を変化させても、Ｗｅｂページ単位のものに比較して十分な優位性を示すことはできなかった。これは、座席数は実際の店舗選択に影響をあまり与えないためではないかと思われる。
以上のことから、推薦を行うＷｅｂページの属性の選択、および選択した属性の粒度が推薦に大きく影響することが言える。上記の実験ではカテゴリ、範囲、距離のタイプの属性を考慮したが、対象とするＷｅｂページによっては、ここで検討したような属性が必ずしも存在するとは限らない。この属性の選択や粒度を自動的に調節することができれば、推薦精度を更に向上させることができるはずである。

また、得られた属性ベクトルから推薦するＷｅｂページに対して、今回は特に絞り込みを行わなかったが、実際の推薦においては大量のＷｅｂページが推薦候補として表示されるとユーザビリティが下がるため、なんらかの順位付けを行って絞り込むことが必要になる。
例えば、複数の属性について属性間の距離を考慮したり、対象とする属性に優先順位を付けたりする方法が考えられる。
このほか、上記実験では平均予算に関しては、範囲をいくつかに区切って用いたが、ユーザにとっては「予算は５，０００円以下」というような指定はあっても、「５，０００円でなければならない。」といった要求は少ないと考える。そこで範囲のパラメータについては、事前にクラスタリングを行い、そのクラスタにしたがって本発明に係る方法を適用することで、更に効率の良い推薦を行うことも可能である。
さらに、上述のような属性に加えて、Ｗｅｂページの持っているテキストデータや画像から抽出されるデータを使って推薦を行うことも考えられる。例えば、テキストデータに含まれる「有機野菜」、「アットホームな雰囲気」といった特長語は、ユーザが店舗を検索する際に重要な要素となり得ると考えられる。

Claims

Ｗｅｂサイトを訪れたユーザ（Ｘ）のアクティブセッションを解析して、前記ユーザ（Ｘ）に対して次にアクセスすべきＷｅｂページ（Ｒ）を推薦するための、プログラムされたコンピュータによる、Ｗｅｂページ推薦方法において、
前記Ｗｅｂページ（Ｒ）が複数の属性情報１を有するものであり、
前記Ｗｅｂページ推薦方法は、前記コンピュータが、
複数のユーザ（１〜ｎ）のアクセス履歴から、前記複数のユーザ（１〜ｎ）の複数のＷｅｂページ（Ａ）に関するユーザセッションを抽出するステップ１と、
前記複数のＷｅｂページ（Ａ）から複数の属性情報２を抽出し、前記ユーザ（１〜ｎ）の前記ユーザセッションを、前記複数のＷｅｂページ（Ａ）の前記属性情報２の属性ベクトル列に変換するステップ２と、
前記ユーザ（１〜ｎ）間における前記属性ベクトル列の頻出Ｗｅｂページ間関係を抽出するステップ３と、
前記Ｗｅｂサイトを訪れた前記ユーザ（Ｘ）のアクティブセッションから、前記アクティブセッションに含まれるすべてのＷｅｂページの属性情報３を属性ベクトルとして抽出し、前記抽出された属性ベクトルと、前記頻出Ｗｅｂページ間関係の一部とを比較し、一致する前記頻出Ｗｅｂページ間関係の部分１が存在した場合に、当該一致した前記部分１を除いた部分２の属性ベクトルを有するＷｅｂページ（Ｒ）を推薦するステップ４と、
を備えたことを特徴とする複数属性を利用したＷｅｂページ推薦方法。
前記ステップ３における前記頻出Ｗｅｂページ間関係の抽出を、ＬＣＳアルゴリズムを用いて行うことを特徴とする請求項１に記載の複数属性を利用したＷｅｂページ推薦方法。
前記ステップ３における前記頻出Ｗｅｂページ間関係の抽出を、相関ルールマイニング法を用いて行うことを特徴とする請求項１に記載の複数属性を利用したＷｅｂページ推薦方法。
前記属性情報（１又は２）に加え、前記Ｗｅｂページ(Ａ又はＲ)の持っているテキストデータ又は画像から抽出されるデータを属性情報として使用して前記推薦を行うことを特徴とする請求項１乃至３のいずれかに記載の複数属性を利用したＷｅｂページ推薦方法。
前記推薦するＷｅｂページ（Ｒ）の候補が複数ある場合は、その複数候補に順位を付け候補を絞るステップ５を備えたことを特徴とする請求項１乃至４のいずれかに記載の複数属性を利用したＷｅｂページ推薦方法。
前記ユーザ(１〜ｎ又はＸ)のクッキー情報を利用して、前記ユーザ(１〜ｎ又はＸ)のアクセスしている前記複数のＷｅｂページ（Ａ又はＲ）に、動的に推薦情報を埋め込むことを特徴とする請求項１乃至５のいずれかに記載の複数属性を利用したＷｅｂページ推薦方法。
Ｗｅｂサイトを訪れたユーザ（Ｘ）のアクティブセッションを解析して、前記ユーザ（Ｘ）に対して次にアクセスすべきＷｅｂページ（Ｒ）を推薦することをコンピュータに実行させるためのコンピュータプログラムであって、前記Ｗｅｂページ（Ｒ）が複数の属性情報１を有するものであり、
前記コンピュータプログラムが、前記コンピュータに、
複数のユーザ（１〜ｎ）のアクセス履歴から、前記複数のユーザ（１〜ｎ）の複数のＷｅｂページ（Ａ）に関するユーザセッションを抽出するステップ１と、
前記複数のＷｅｂページ（Ａ）から複数の属性情報２を抽出し、前記ユーザ（１〜ｎ）の前記ユーザセッションを、前記複数のＷｅｂページ（Ａ）の前記属性情報２の属性ベクトル列に変換するステップ２と、
前記ユーザ（１〜ｎ）間における前記属性ベクトル列の頻出Ｗｅｂページ間関係を抽出するステップ３と、
前記Ｗｅｂサイトを訪れた前記ユーザ（Ｘ）のアクティブセッションから、前記アクティブセッションに含まれるすべてのＷｅｂページの属性情報３を属性ベクトルとして抽出し、前記抽出された属性ベクトルと、前記頻出Ｗｅｂページ間関係の一部とを比較し、一致する前記頻出Ｗｅｂページ間関係の部分１が存在した場合に、当該一致した前記部分１を除いた部分２の属性ベクトルを有するＷｅｂページ（Ｒ）を推薦するステップ４と、
を実行させることを特徴とするコンピュータプログラム。