JP6025796B2

JP6025796B2 - 行動予測装置、行動予測方法及びプログラム

Info

Publication number: JP6025796B2
Application number: JP2014206241A
Authority: JP
Inventors: 健司江崎; 澤田　宏; 宏澤田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-10-07
Filing date: 2014-10-07
Publication date: 2016-11-16
Anticipated expiration: 2034-10-07
Also published as: JP2016076097A

Description

本発明は、行動予測装置、行動予測方法及びプログラムに関する。特に、本発明は、複数のドメインにおけるユーザの行動履歴を用いて、同一のユーザプロファイルを適用するドメイン群を抽出し、ユーザの行動を予測する行動予測装置に関する。

近年個人の行動履歴を蓄積する技術が進み、パーソナライズしたサービスの重要性が高まってきている。例えば、ユーザごとにWebサイトの表示を変えたり、携帯端末のアプリの表示を変えたり、ウェアラブルコンピュータへの表示を変えたりするサービスなどが挙げられる。パーソナライズしない場合には、全体の人気を用いた表示をする方法がある。例えば、最近一番売れている商品群を提示することや、今一番利用されているキーワード群を提示することなどが挙げられる。

パーソナライズの方法の一つとして、トピックモデルを用いたユーザプロファイルを使った方法がある。トピックモデルはZ個の代表的な行動確率を考える。購買を例にすると、買われる商品群のパタンと購買される確率をZ個用意する。トピックモデルは各ユーザをZ個のパタンの混合であらわすとモデル化し、その混合率はユーザプロファイルとみなす。以降、ユーザプロファイルをトピック混合率とも呼ぶ。例えば、どれか一つのパタンであらわされる極端なユーザを考えた場合（混合率がどれか一つだけ１で他は０の場合）、そのユーザの行動をもっとも説明するZ個の購買傾向のうち一つのパタンを用いてパーソナライズする。これは、ユーザがZ個のどのセグメントに属するかを判断し、そのセグメントで人気の商品群を提示しパーソナライズすることと同義である。トピック混合率を用いることで、ある商品が売れやすいトピックに属するユーザを抽出してターゲットユーザとすることや、トピック混合率で各トピックの行動確率を混合したモデルを用いて、ユーザの行動を予測することが可能になる（非特許文献１参照）。

岩田具治ほか「購買行動解析のためのトピック追跡モデル」電子情報通信学会誌ＤVol.J93-D, No.6, pp.978-987 Gui-Rong Xueほか「Topic-bridged PLSA for Cross-Domain Text Classification」SIGIR '08 Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval, Pages 627-634

一方で、最近マルチドメインのデータが手に入るようになってきている。例えば、ポータルサイトにおいて同一IDを利用して音楽、ファッション、食事、検索などの複数ドメインを利用したデータが取得可能になっている。この場合、各ドメインにおいてパーソナライズした結果をユーザに提示することになる。パーソナライズしない場合では、あるドメインにおける全体の人気を用いた表示を行うことになる。そこで、この場合も同様にドメインごとにZ個の代表的な行動パタンとその確率を考え、そのドメインでのユーザの行動をその混合でモデル化する。しかし、この場合にはユーザのトピック混合率をドメインごとに算出することになるが、ユーザは全ドメインを利用するわけではないのでユーザが未利用のドメインではパーソナライズすることができない。そこで、もっとも基本的なモデルとしてユーザの混合率は全ドメインで同一とする方法がある。こうすれば、他のドメインの行動から算出されたトピック混合率を用いて、未知のドメインでのパーソナライズを実現できる。

ここで、ドメインとは、トピックモデルにおいてユーザの行動を分析するための予め決められた範囲を表す。ドメインの例は次のものが考えられる。例えば複数サイトでの行動履歴を考えれば、ドメインはサイトと考えられる。以下、ドメインをサイトで置き換えることとする。ドメインは、ショップ、カテゴリ、地域、ジャンルなど行動履歴によって様々なものが考えられる。以下はドメインをサイトと置き換えた例とし、ドメインをサイトと呼ぶこととする。

ドメインをサイトと置き換えた例において、どれか一つのパタンであらわされる極端なユーザを再び考えると、そのユーザはどのサイトでも同一のトピック混合率でモデル化することになる。しかし、ユーザはサイトによって行動傾向を変えることが考えられるため、正しくモデル化できない。

例えば、音楽配信サイト、CD販売サイト、CDレンタルサイトなどの音楽サイトでユーザが選択する行動傾向は近いと考えられる。例えばクラシック好きな人が選ぶ曲には傾向が存在する。また、グルメ検索サイト、飲食店評価サイト、料理レシピサイトなどの食事関連サイトでユーザが選択する行動も近いと考えられる。しかし、クラシック好きの人が洋食好きである場合もあれば、和食好きである場合もあるように、異なるサイト群では傾向が異なる可能性がある。

本発明は、複数のドメインにおけるユーザの行動履歴を用いて、同一のユーザプロファイルを適用するドメイン群を抽出し、ユーザの行動を予測する行動予測装置、行動予測方法及びプログラムを提供することを目的とする。

本発明の一形態に係る行動予測装置は、
複数のドメインにおけるユーザの行動履歴を用いて、ユーザの行動を予測する行動予測装置であって、
ユーザごと且つドメインごとにユーザの行動が集計されたユーザ行動履歴群を取得するデータ入力部と、
前記ユーザ行動履歴群から、あるユーザがあるドメインである行動を選択した回数を算出する統計量算出部と、
前記算出された回数から、ユーザのドメイン利用を１つ以上のパタンの混合でモデル化した場合のトピックであるドメイントピックと、ユーザの行動を１つ以上のパタンの混合で表した場合のトピックとを決定し、ドメイントピックごとのドメインの利用確率を示すドメイントピック−ドメイン利用確率と、ドメイントピックごとのユーザのトピック混合率を示すドメイン別ユーザ−トピック帰属確率と、ドメインにおけるユーザの行動確率を示すドメイン別トピック−行動選択確率とを学習するモデル学習部と、
前記ドメイントピック−ドメイン利用確率、前記ドメイン別ユーザ−トピック帰属確率及び前記ドメイン別トピック−行動選択確率を出力するデータ出力部と、
を有することを特徴とする。

また、本発明の一形態に係る行動予測方法は、
複数のドメインにおけるユーザの行動履歴を用いて、ユーザの行動を予測する行動予測装置における行動予測方法であって、
ユーザごと且つドメインごとにユーザの行動が集計されたユーザ行動履歴群を取得するステップと、
前記ユーザ行動履歴群から、あるユーザがあるドメインである行動を選択した回数を算出するステップと、
前記算出された回数から、ユーザのドメイン利用を１つ以上のパタンの混合でモデル化した場合のトピックであるドメイントピックと、ユーザの行動を１つ以上のパタンの混合で表した場合のトピックとを決定し、ドメイントピックごとのドメインの利用確率を示すドメイントピック−ドメイン利用確率と、ドメイントピックごとのユーザのトピック混合率を示すドメイン別ユーザ−トピック帰属確率と、ドメインにおけるユーザの行動確率を示すドメイン別トピック−行動選択確率とを学習するステップと、
前記ドメイントピック−ドメイン利用確率、前記ドメイン別ユーザ−トピック帰属確率及び前記ドメイン別トピック−行動選択確率を出力するステップと、
を有することを特徴とする。

また、本発明の一形態に係るプログラムは、
複数のドメインにおけるユーザの行動履歴を用いて、ユーザの行動を予測するために、コンピュータを、
ユーザごと且つドメインごとにユーザの行動が集計されたユーザ行動履歴群を取得するデータ入力手段、
前記ユーザ行動履歴群から、あるユーザがあるドメインである行動を選択した回数を算出する統計量算出手段、
前記算出された回数から、ユーザのドメイン利用を１つ以上のパタンの混合でモデル化した場合のトピックであるドメイントピックと、ユーザの行動を１つ以上のパタンの混合で表した場合のトピックとを決定し、ドメイントピックごとのドメインの利用確率を示すドメイントピック−ドメイン利用確率と、ドメイントピックごとのユーザのトピック混合率を示すドメイン別ユーザ−トピック帰属確率と、ドメインにおけるユーザの行動確率を示すドメイン別トピック−行動選択確率とを学習するモデル学習手段、及び
前記ドメイントピック−ドメイン利用確率、前記ドメイン別ユーザ−トピック帰属確率及び前記ドメイン別トピック−行動選択確率を出力するデータ出力手段、
として機能させるためのプログラム。

として機能させることを特徴とする。

本発明によれば、複数のドメインにおけるユーザの行動履歴を用いて、同一のユーザプロファイルを適用するドメイン群を抽出し、ユーザの行動を予測することが可能になる。

本発明の実施形態に係るユーザのサイト利用のモデル化の概念図本発明の実施形態に係るマルチドメインユーザプロファイル抽出・行動予測装置の構成を示すブロック図ユーザ行動履歴群の例を示す図モデルパラメータの例を示す図ユーザ・ドメイン・行動頻度の例を示す図ユーザ−DomainTopic帰属確率の例を示す図 DomainTopic−ドメイン利用確率の例を示す図ドメイン別ユーザ−トピック帰属確率の例を示す図ドメイン別トピック−行動選択確率の例を示す図 DomainTopic−トピック生成確率の例を示す図共通プロファイル利用ドメイン群の例を示す図マルチユーザプロファイルの例を示す図ドメイン別トピック−行動選択確率の例を示す図本発明の実施形態に係るマルチドメインユーザプロファイル抽出・行動予測装置の動作を示すフローチャート

以下、図面を参照して本発明の実施形態を詳細に説明する。

＜本発明の実施形態の概要＞
ユーザの行動を支援する方法として人気順に行動を提示することが考えられる。それをパーソナライズするために、トピックモデルを用いた方法がある。その方法では、代表的なZ個の行動確率をトピックとして抽出し、その混合率でユーザプロファイルを記述する。本発明の実施形態では、ドメインごとに人気順をパーソナライズするが、その際ドメイン群ごとに異なるユーザプロファイルを抽出する。それによりユーザが未利用なドメインであっても、他のユーザのドメインの利用履歴を用いて抽出された同一のドメイン群のユーザプロファイルを用いて、高精度な予測を可能にするとともに、同一ユーザプロファイルを用いるドメイン群を抽出することも可能にする。

図１は、本発明の実施形態に係るユーザのサイト利用のモデル化の概念図である。各ドメインA,B,C,...において商品群I_A,I_B,I_C,...を扱っており、ドメインAの商品群I_AがドメインCの商品群I_Cに類似している場合には、ドメインAのトピック混合率はドメインCのトピック混合率と類似していると想定できる。

すなわち、本発明の実施形態では、ユーザは複数のトピック混合率を持っているがサイト群、各サイトごとではなく類似するサイト群ごとにトピック混合率を持っていると仮定する。そして、その類似するサイト群はユーザのサイト利用をトピックモデルを用いてモデル化した場合に同一トピックである場合とする。これ以降、サイト利用をモデル化した場合のトピックをドメイントピック（以降DomainTopicと呼ぶ）と呼び、ユーザの行動を１つ以上のパタンの混合でモデル化する際のトピックと区別する。DomainTopicの例として音楽サイト、食事関連サイト、書籍関連サイトなどが挙げられる。また、トピックの例としてクラッシック、ジャズ、洋食、和食、コミック、文庫本などが挙げられる。

本発明の実施形態では、類似するサイト群はK個あるとし、ユーザのサイト利用をK個の代表的なパタンの混合でモデル化した場合のDomainTopicごとにユーザはトピック混合率を持つとする。これ以降、同一DomainTopicで利用されるサイト群を、同一のユーザプロファイルを適用するドメイン群と呼ぶ。あるDomainTopicにおいてサイトを利用する確率を記述したものを共通プロファイル利用ドメイン群１２と呼び、DomainTopicごとのユーザのトピック混合率をマルチユーザプロファイル１３と呼ぶ。また、ユーザごとにDomainTopicを利用する確率１１も求められる。

このモデル化は、ユーザが同時に利用しやすいサイト群は同一のトピック混合率を用いるとモデル化するため、サイトごとにトピック混合率が異なるモデル化と、全サイトでトピック混合率が同一なモデルの中間を実現できる。これにより、各サイトにおけるユーザの行動（ドメイン別の行動確率）を適切に予測することが可能になる。

＜本発明の実施形態に係る購買予測装置の構成＞
図２は、本発明の実施形態に係るマルチドメインユーザプロファイル抽出・行動予測装置１００の構成を示すブロック図である。マルチドメインユーザプロファイル抽出・行動予測装置１００は、複数のドメインにおけるユーザの行動履歴を用いて、同一のユーザプロファイルを適用するドメイン群を抽出し、ユーザの行動を予測する装置である。マルチドメインユーザプロファイル抽出・行動予測装置１００は、複数サイトでの商品の購買データを用いて、購買予測を行う購買予測装置としても実現可能である。

マルチドメインユーザプロファイル抽出・行動予測装置１００は、プロセッサ等のＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）等のメモリ装置、ハードディスク等の記憶装置等から構成されたコンピュータでもよい。例えば、以下に説明するマルチドメインユーザプロファイル抽出・行動予測装置１００の各機能及び処理は、記憶装置又はメモリ装置に格納されているデータやプログラムをＣＰＵが実行することによって実現される。

マルチドメインユーザプロファイル抽出・行動予測装置１００は、データ入力部１０、統計量算出部２０、モデル学習部３０、及びデータ出力部４０を有する。

データ入力部１０は、ユーザ行動履歴群５１１とモデルパラメータ５１２を入力として受け付ける。ユーザ行動履歴群５１１は、ユーザごと且つドメインごとにユーザの行動が集計されたデータであり、複数サイトにおける商品の購買履歴などを集計することにより生成される。モデルパラメータ５１２はマルチドメインユーザプロファイル抽出・行動予測装置１００の周辺機器又は外部装置から入力されてもよく、システム内で予め決められてもよい。

ユーザ行動履歴群５１１は図３に示す通り、あるユーザに固有のID（ユーザID）と、その履歴が残った時刻、そのユーザが行った行動の種類に固有のID（行動種類）、その行動が行われたドメインに固有のID（ドメイン）が含まれる。あるユーザが同一時刻に複数の行動（同一IDの行動の場合も含む）をした場合には、異なる行として履歴が保存され区別する。商品の購買予測の場合には、例えば、ユーザが購入した商品に固有のIDが行動種類に保存され、商品を購入したサイトに固有のIDがドメインに保存される。

モデルパラメータ５１２は図４に示す通り、トピック数とDomainTopic数が与えられる。上記のように、DomainTopicの例として音楽サイト、食事関連サイト、書籍関連サイトなどが挙げられる。また、トピックの例としてクラッシック、ジャズ、洋食、和食、コミック、文庫本などが挙げられる。以降、トピック数はZ個、DomainTopic数はK個であるとする。これは、ユーザの行動履歴をトピックモデルを用いてトピック数（Z）次元の低ランク表現でモデル化することと、ユーザのドメイン利用履歴をトピックモデルを用いて、DomainTopic数（K）次元の低ランク表現でモデル化することを示す。

統計量算出部２０は、モデル学習部３０で利用するユーザ・ドメイン・行動頻度を算出する。ユーザ・ドメイン・行動頻度は図５に示す通り、あるユーザuがあるドメインsである行動iを選択した回数n_i,s,uであり、ユーザ・ドメイン・行動頻度バッファ２１１に格納される。

モデル学習部３０は、DomainTopicとドメインとを決定し、訪問傾向が似ているサイト群を抽出するためのユーザごとのDomainTopicの帰属確率を示すユーザ−DomainTopic帰属確率と、DomainTopicごとのサイトの利用確率を示すDomainTopic−ドメイン利用確率と、マルチユーザプロファイルであるドメイン別ユーザ−トピック帰属確率と、行動予測のためのドメインにおけるユーザの行動確率を示すドメイン別トピック−行動選択確率とを学習するパラメータ算出部３１０と、パラメータの算出に必要なDomainTopic−トピック生成確率を学習する潜在変数確率算出部３２０とを有する。

ユーザ−DomainTopic帰属確率は図６に示す通り、あるユーザuがDomainTopic k（k=0,...,K-1）を選択する確率を示しており、ユーザ−DomainTopic帰属確率バッファ３１１に格納される。

DomainTopic−ドメイン利用確率は図７に示す通り、あるDomainTopic kがドメインsを利用する確率を示しており、DomainTopic−ドメイン利用確率バッファ３１２に格納される。

ドメイン別ユーザ−トピック帰属確率は図８に示す通り、あるユーザuがあるDomainTopic kにおいてトピックz（z=0,...,Z-1）を選択する確率を示しており、ドメイン別ユーザ−トピック帰属確率バッファ３１３に格納される。

ドメイン別トピック−行動選択確率は図９に示す通り、あるドメインsのあるトピックzにおいて行動iを選択する確率を示しており、ドメイン別トピック−行動選択確率バッファ３１４に格納される。

潜在変数確率算出部３２０は、ユーザ−DomainTopic帰属確率バッファ３１１、DomainTopic−ドメイン利用確率バッファ３１２、ドメイン別ユーザ−トピック帰属確率バッファ３１３及びドメイン別トピック−行動選択確率バッファ３１４にそれぞれ格納された値から、パラメータの算出に必要なDomainTopic−トピック生成確率を学習する。DomainTopic−トピック生成確率は図１０に示す通り、あるユーザuがあるドメインsで選択する行動iをDomainTopic k及びトピックz別に示しており、DomainTopic−トピック生成確率バッファ３２１に格納される。

パラメータ算出部３１０は、ユーザ・ドメイン・行動頻度バッファ２１１に格納された回数n_i,s,uと、DomainTopic−トピック生成確率バッファ３２１に格納されたDomainTopic−トピック生成確率とに基づいて、ユーザ−DomainTopic帰属確率バッファ３１１、DomainTopic−ドメイン利用確率バッファ３１２、ドメイン別ユーザ−トピック帰属確率バッファ３１３及びドメイン別トピック−行動選択確率バッファ３１４を更新する。

データ出力部４０は、DomainTopic−ドメイン利用確率バッファ３１２に格納された値を、図１１に示す通り共通のプロファイルを利用するドメイン群を示す共通プロファイル利用ドメイン群５２１として出力する。また、データ出力部４０は、ドメイン別ユーザ−トピック帰属確率バッファ３１３に格納された値を、図１２に示す通りマルチユーザプロファイル５２２として出力し、ドメイン別トピック−行動選択確率バッファ３１４に格納された値を、図１３に示す通りドメイン別トピック−行動確率５２３として出力する。

＜本発明の実施形態に係る購買予測装置の動作＞
図１４は、本発明の実施形態に係るマルチドメインユーザプロファイル抽出・行動予測装置の動作を示すフローチャートである。

まずステップＳ１０１において、データ入力部１０がユーザ行動履歴群５１１、モデルパラメータ５１２を読み込む。

次にステップＳ１０２において、統計量算出部２０がデータ入力部１０からユーザ行動履歴群５１１を入力として受け付ける。そして統計量算出部２０はユーザ・ドメイン・行動頻度バッファ２１１を更新する。ここで、ユーザ・ドメイン・行動頻度バッファ２１１はユーザ行動履歴群５１１からユーザuがあるドメインsである行動iをとった回数をn_i,s,uとして抽出する。これは、時刻を考えずユーザ・ドメイン・行動種類がユニークになるように行数を数えることに対応する。

モデル学習部３０はトピックモデルを用いて、あるユーザuがあるドメインsである行動iをとる確率を下記式でモデル化する。

この式はPLSA（Probabilistic Latent Semantic Analysis）を元にしたもので（非特許文献２参照）、ドメインの利用確率とドメインごとの行動確率をモデル化している。ここで、P(k|u)はあるユーザuがDomainTopic kを選択する確率である。また、P(s|k)はあるDomainTopic kがドメインsを利用する確率である。また、P(z|k,u)はあるユーザuがDomainTopic kでトピックzを選択する確率である。また、P(i|z,s)はあるドメインsのトピックzで行動iを選択する確率である。

また、モデル学習部３０は潜在変数の生成確率として次のパラメータを定義する。P(z,k|i,s,u)は、あるユーザuがドメインsで行動iの選択が、DomainTopic kでトピックzから生成する確率である。

次にステップＳ１０３において、モデル学習部３０のパラメータ算出部３１０がユーザ−DomainTopic帰属確率バッファ３１１、DomainTopic−ドメイン利用確率バッファ３１２、ドメイン別ユーザ−トピック帰属確率バッファ３１３、ドメイン別トピック−行動選択確率バッファ３１４をランダムに初期化する。各バッファは確率値を持つので正規化し確率値に変換する。ここで、図６に示す通りユーザ−DomainTopic帰属確率バッファ３１１はあるユーザuがK個のDomainTopic kを選ぶ確率P(k|u)が記述されており、ある固有のユーザIDとDomainTopicIDの確率を含んでいる。また、図７に示す通りDomainTopic−ドメイン利用確率バッファ３１２はあるDomainTopic kにおいてドメインsを利用する確率P(s|k)が記述されており、ある固有のDomainTopicIDとドメインIDの確率を含んでいる。また、図８に示す通りドメイン別ユーザ−トピック帰属確率バッファ３１３はあるユーザuがZ個のTopic zを選ぶ確率P(z|k,u)が記述されており、あるDomainTopicIDにおける固有のユーザIDとトピックIDの確率を含んでいる。ただし、ドメイン別と名うってあるがユーザプロファイルは異なるドメインであってもDomainTopicが同一であれば同じユーザプロファイルを利用するためDomainTopicIDごとに記述される。また、図９に示す通りドメイン別トピック−行動選択確率バッファ３１４はあるドメインsでトピックzにおける行動iの選択確率P(i|z,s)が記述されており、ある固有ドメインIDとトピックIDと行動種類IDの確率を含んでいる。

次にステップＳ１０４において、モデル学習部３０の潜在変数確率算出部３２０がDomainTopic−トピック生成確率バッファ３２１を下記式に従って更新する。ここで、図１０に示す通りDomainTopic−トピック生成確率バッファ３２１はあるユーザuのドメインsでの行動iの選択がDomainTopic kでトピックzから生成する確率P(z,k|i,s,u)が記述されており、ある固有のユーザIDとドメインIDと行動種類IDとDomainTopicIDとトピックIDの確率を含んでいる。このパラメータの更新式は、モデル学習部30の確率を用いて次のようにあらわされる。

ただし、Cは正規化項で

である。

次にステップＳ１０５において、モデル学習部３０のパラメータ算出部３１０がユーザ−DomainTopic帰属確率バッファ３１１、DomainTopic−ドメイン利用確率バッファ３１２、ドメイン別ユーザ−トピック帰属確率バッファ３１３、ドメイン別トピック−行動選択確率バッファ３１４を下記式に従って更新する。

次に、ステップＳ１０６で予め設定した学習回数Nに達していなかったらステップＳ１１０４へ進み、達していたらＳ１０７に進む。

次に、ステップＳ１０７でデータ出力部４０が図１１に示す共通プロファイル利用ドメイン群５２１、図１２に示すマルチユーザプロファイル５２２、図１３に示すドメイン別トピック−行動確率５２３に、それぞれDomainTopic−ドメイン利用確率バッファ３１２、ドメイン別ユーザ−トピック帰属確率バッファ３１３、ドメイン別トピック−行動選択確率バッファ３１４の値を出力し動作を終了する。

＜本発明の実施形態の効果＞
以上説明したように、本発明の実施形態によれば、ドメイン群ごとに異なるユーザプロファイルを抽出することで行動予測精度が向上し、各ドメインでプロファイルを構成するトピックごとの行動確率を抽出することで行動予測精度が向上し、同一のユーザプロファイルを利用するドメイン群を抽出することでドメイン間の関係やユーザにとって未知のドメインでの行動予測精度が向上するという効果が得られる。

本発明の実施形態に係るマルチドメインユーザプロファイル抽出・行動予測装置は、複数サイトでの商品の購買データを用いて、購買予測を行う購買予測装置としても適用可能である。

説明の便宜上、本発明の実施形態に係るマルチドメインユーザプロファイル抽出・行動予測装置は機能的なブロック図を用いて説明しているが、本発明の実施形態に係るマルチドメインユーザプロファイル抽出・行動予測装置は、ハードウェア、ソフトウェアまたはそれらの組み合わせで実現されてもよい。例えば、本発明の実施形態は、コンピュータに対して本発明の実施形態に係るマルチドメインユーザプロファイル抽出・行動予測装置の各機能を実現させるプログラム、コンピュータに対して本発明の実施形態に係る方法の各手順を実行させるプログラム等により、実現されてもよい。また、各機能部が必要に応じて組み合わせて使用されてもよい。また、本発明の実施形態に係る方法は、実施形態に示す順序と異なる順序で実施されてもよい。

以上、複数のドメインにおけるユーザの行動履歴を用いて、同一のユーザプロファイルを適用するドメイン群を抽出し、ユーザの行動を予測するための手法について説明したが、本発明は、上記の実施形態に限定されることなく、特許請求の範囲内において、種々の変更・応用が可能である。

１００マルチドメインユーザプロファイル抽出・行動予測装置
１０データ入力部
２０統計量算出部
３０モデル学習部
４０データ出力部
２１１ユーザ・ドメイン・行動頻度バッファ
３１１ユーザ−DomainTopic帰属確率バッファ
３１２ DomainTopic−ドメイン利用確率バッファ
３１３ドメイン別ユーザ−トピック帰属確率バッファ
３１４ドメイン別トピック−行動選択確率バッファ
３２１ DomainTopic−トピック生成確率バッファ
５１１ユーザ行動履歴群
５１２モデルパラメータ
５２１共通プロファイル利用ドメイン群
５２２マルチユーザプロファイル
５２３ドメイン別トピック−行動確率

Claims

複数のドメインにおけるユーザの行動履歴を用いて、ユーザの行動を予測する行動予測装置であって、
ユーザごと且つドメインごとにユーザの行動が集計されたユーザ行動履歴群を取得するデータ入力部と、
前記ユーザ行動履歴群から、あるユーザがあるドメインである行動を選択した回数を算出する統計量算出部と、
前記算出された回数から、ユーザのドメイン利用を１つ以上のパタンの混合でモデル化した場合のトピックであるドメイントピックと、ユーザの行動を１つ以上のパタンの混合で表した場合のトピックとを決定し、ドメイントピックごとのドメインの利用確率を示すドメイントピック−ドメイン利用確率と、ドメイントピックごとのユーザのトピック混合率を示すドメイン別ユーザ−トピック帰属確率と、ドメインにおけるユーザの行動確率を示すドメイン別トピック−行動選択確率とを学習するモデル学習部と、
前記ドメイントピック−ドメイン利用確率、前記ドメイン別ユーザ−トピック帰属確率及び前記ドメイン別トピック−行動選択確率を出力するデータ出力部と、
を有する行動予測装置。
前記モデル学習部は、
あるユーザがドメイントピックを選択する確率を示すユーザ−ドメイントピック帰属確率を格納するユーザ−ドメイントピック帰属確率バッファと、
あるドメイントピックがドメインを利用する確率を示すドメイントピック−ドメイン利用確率を格納するドメイントピック−ドメイン利用確率バッファと、
あるユーザがあるドメイントピックにおいてトピックを選択する確率を示すドメイン別ユーザ−トピック帰属確率を格納するドメイン別ユーザ−トピック帰属確率バッファと、
あるドメインのあるトピックにおいて行動を選択する確率を示すドメイン別トピック−行動選択確率を格納するドメイン別トピック−行動選択確率バッファと、
前記ユーザ−ドメイントピック帰属確率バッファ、前記ドメイントピック−ドメイン利用確率バッファ、前記ドメイン別ユーザ−トピック帰属確率バッファ及び前記ドメイン別トピック−行動選択確率バッファにそれぞれ格納された値から、あるユーザがあるドメインで選択する行動をドメイントピック及びトピック別に示すドメイントピック−トピック生成確率を求める潜在変数確率算出部と、
前記算出された回数と、前記ドメイントピック−トピック生成確率とに基づいて、前記ユーザ−ドメイントピック帰属確率バッファ、前記ドメイントピック−ドメイン利用確率バッファ、前記ドメイン別ユーザ−トピック帰属確率バッファ及び前記ドメイン別トピック−行動選択確率バッファを更新するパラメータ算出部と、
を有する、請求項１に記載の行動予測装置。
前記ユーザ−ドメイントピック帰属確率を、ユーザuがドメイントピックkを選択する確率P(k|u)で表し、前記ドメイントピック−ドメイン利用確率を、ドメイントピックkがドメインsを利用する確率P(s|k)で表し、前記ドメイン別ユーザ−トピック帰属確率を、ユーザuがドメイントピックkにおいてトピックzを選択する確率P(z|k,u)で表し、前記ドメイン別トピック−行動選択確率を、ドメインsのトピックzにおいて行動iを選択する確率P(i|z,s)としたとき、
前記潜在変数確率算出部は、

ただし、Cは以下の正規化項

によって、前記ドメイントピック−トピック生成確率P(z,k|i,s,u)を求め、
前記パラメータ算出部は、

によって、それぞれ前記ユーザ−ドメイントピック帰属確率バッファ、前記ドメイントピック−ドメイン利用確率バッファ、前記ドメイン別ユーザ−トピック帰属確率バッファ及び前記ドメイン別トピック−行動選択確率バッファを更新する、請求項２に記載の行動予測装置。
前記潜在変数確率算出部は、所定回数に達するまで、前記ユーザ−ドメイントピック帰属確率バッファ、前記ドメイントピック−ドメイン利用確率バッファ、前記ドメイン別ユーザ−トピック帰属確率バッファ及び前記ドメイン別トピック−行動選択確率バッファを更新する、請求項２又は３に記載の行動予測装置。
複数のドメインにおけるユーザの行動履歴を用いて、ユーザの行動を予測する行動予測装置における行動予測方法であって、
ユーザごと且つドメインごとにユーザの行動が集計されたユーザ行動履歴群を取得するステップと、
前記ユーザ行動履歴群から、あるユーザがあるドメインである行動を選択した回数を算出するステップと、
前記算出された回数から、ユーザのドメイン利用を１つ以上のパタンの混合でモデル化した場合のトピックであるドメイントピックと、ユーザの行動を１つ以上のパタンの混合で表した場合のトピックとを決定し、ドメイントピックごとのドメインの利用確率を示すドメイントピック−ドメイン利用確率と、ドメイントピックごとのユーザのトピック混合率を示すドメイン別ユーザ−トピック帰属確率と、ドメインにおけるユーザの行動確率を示すドメイン別トピック−行動選択確率とを学習するステップと、
前記ドメイントピック−ドメイン利用確率、前記ドメイン別ユーザ−トピック帰属確率及び前記ドメイン別トピック−行動選択確率を出力するステップと、
を有する行動予測方法。
複数のドメインにおけるユーザの行動履歴を用いて、ユーザの行動を予測するために、コンピュータを、
ユーザごと且つドメインごとにユーザの行動が集計されたユーザ行動履歴群を取得するデータ入力手段、
前記ユーザ行動履歴群から、あるユーザがあるドメインである行動を選択した回数を算出する統計量算出手段、
前記算出された回数から、ユーザのドメイン利用を１つ以上のパタンの混合でモデル化した場合のトピックであるドメイントピックと、ユーザの行動を１つ以上のパタンの混合で表した場合のトピックとを決定し、ドメイントピックごとのドメインの利用確率を示すドメイントピック−ドメイン利用確率と、ドメイントピックごとのユーザのトピック混合率を示すドメイン別ユーザ−トピック帰属確率と、ドメインにおけるユーザの行動確率を示すドメイン別トピック−行動選択確率とを学習するモデル学習手段、及び
前記ドメイントピック−ドメイン利用確率、前記ドメイン別ユーザ−トピック帰属確率及び前記ドメイン別トピック−行動選択確率を出力するデータ出力手段、
として機能させるためのプログラム。