JP2018190409A - 推薦装置、推薦方法、及びプログラム - Google Patents

推薦装置、推薦方法、及びプログラム Download PDF

Info

Publication number
JP2018190409A
JP2018190409A JP2018082998A JP2018082998A JP2018190409A JP 2018190409 A JP2018190409 A JP 2018190409A JP 2018082998 A JP2018082998 A JP 2018082998A JP 2018082998 A JP2018082998 A JP 2018082998A JP 2018190409 A JP2018190409 A JP 2018190409A
Authority
JP
Japan
Prior art keywords
user
probability
class
optimal
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018082998A
Other languages
English (en)
Inventor
前田 康成
Yasunari Maeda
康成 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kitami Institute of Technology NUC
Original Assignee
Kitami Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kitami Institute of Technology NUC filed Critical Kitami Institute of Technology NUC
Publication of JP2018190409A publication Critical patent/JP2018190409A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】個々のユーザの特性を考慮した適切な推薦が可能な推薦装置、推薦方法、及びプログラムを提供する。【解決手段】推薦システムは、最適政策算出部151と、行動決定部152と、出力部と、を備える。最適政策算出部151は、ユーザの初期状態とユーザのクラスの事前確率と制御期間とが与えられると、当該制御期間における期待総利得を最大にする最適政策を算出する。行動決定部152は、最適政策算出部151によりユーザの状態と時点とが与えられると、遷移確率テーブル141及び利得テーブル142からユーザのクラスの遷移確率、ユーザの状態遷移確率及び期待利得を参照して、当該時点以降の期待総利得を最大にする最適行動及び期待総利得の最大値を決定し、最適政策算出部151に出力する。出力部は、最適政策算出部151が決定した最適政策に関する情報を出力する。【選択図】図2

Description

本発明は、推薦装置、推薦方法、及びプログラムに関する。
近年、インターネット上でユーザ(顧客)に商品やサービスを販売する通信販売サイトが広く普及している。通信販売サイトでは、ユーザがWebサイトを閲覧した際に、その嗜好やニーズに合わせて適切な商品やサービスを推薦する推薦システムが用いられている。
例えば、特許文献1には、特定のユーザと他のユーザとの属性の重複度合いを表す指標に基づいて、特定のユーザの好みに適した商品やサービスを推薦する推薦システムが開示されている。
また、非特許文献1には、マルコフ決定過程を用いて作成した予測モデルを用いて、ユーザに商品を推薦する推薦システムが開示されている。非特許文献1の推薦システムでは、商品の好みなどが似たユーザが同一のクラスに属すると仮定し、クラス未知のユーザに対して当該ユーザの売上高を統計的決定理論に基づきベイズ基準のもとで最大化している。
特開2008−146610号公報
岩井秀輔、外3名、「推薦対象ユーザのクラスが未知の推薦問題におけるマルコフ決定過程を用いた推薦システムに関する一考察」、電子情報通信学会技術研究報告IT、Vol.114、No.138、pp.49−54(2014)
実際のユーザでは、時間の経過とともにユーザの健康状態や趣味等が変化するため、ユーザのクラスも徐々に変化することが想定される。例えば、いかなる食品や薬品を購入するかは、時間の経過とともに変化するユーザの健康状態等に依存する。しかし、特許文献1及び非特許文献1の推薦システムでは、ユーザのクラス変化を考慮しておらず、ユーザのクラス変化に応じた適切な商品やサービスを推薦できない、という問題がある。また、特許文献1及び非特許文献1の推薦システムでは、関連する情報を全く保有していない新規ユーザの場合を考慮しておらず、新規ユーザに適切な商品やサービスを推薦できない、という問題がある。そして、これらの問題は、ユーザに商品やサービスを推薦する場合に限られず、ユーザに他の被推薦対象を推薦する場合にも存在している。
本発明は、このような背景に基づいてなされたものであり、個々のユーザの特性を考慮した適切な推薦が可能な推薦装置、推薦方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の第1の観点に係る推薦装置は、
ユーザの初期状態とユーザのクラスの事前確率と制御期間とが与えられると、当該制御期間における期待総利得を最大にする最適政策を算出する最適政策算出部と、
前記最適政策算出部によりユーザの状態と時点とが与えられると、遷移確率テーブル及び利得テーブルからユーザのクラスの遷移確率、ユーザの状態遷移確率及び期待利得を参照して、当該時点以降の期待総利得を最大にする最適行動及び期待総利得の最大値を決定し、前記最適政策算出部に出力する行動決定部と、
前記最適政策算出部が決定した最適政策に関する情報を出力する出力部と、
を備え、
前記最適政策算出部は、前記制御期間内の各時点とその時点でのユーザの状態とを前記行動決定部に与え、前記行動決定部から各時点における最適行動及び期待総利益の最大値を取得し、取得された各時点における最適行動及び期待総利益の最大値に基づいて最適政策を算出する。
前記最適政策算出部は、前記制御期間におけるマルコフ決定過程問題を動的計画法で解くことにより最適政策を算出してもよい。
マルコフ連鎖に従って変化するユーザのクラスの遷移確率とユーザの状態遷移確率と期待利得とを記憶する記憶部を備え、
前記最適政策算出部は、前記記憶部に記憶されたユーザのクラスの遷移確率とユーザの状態遷移確率と期待利得とに基づいて、前記制御期間における期待総利得を最大にする最適政策を算出してもよい。
前記最適政策算出部は、ユーザの初期状態を起点にして、前記制御期間の各時点におけるユーザの状態の遷移を各々のノードに展開したDP木を作成し、前記制御期間内の各時点とその時点におけるユーザの状態とを、DP木の末端のノードから順に前記行動決定部に与え、
前記行動決定部は、前記最適政策算出部が作成したDP木の与えられた時点のノードにおいて選択し得る行動毎の期待総利得を、与えられたユーザの状態と各々の行動に対応する遷移確率と期待利得とから算出して、期待総利得が最大となる行動を最適行動として決定してもよい。
前記最適政策算出部は、前記行動決定部が決定したDP木の全ノードにおける最適行動と各ノード以降の期待総利得の最大値とに基づいて算出した最適政策を出力してもよい。
ユーザのクラスが既知である履歴情報とユーザのクラスが未知である履歴情報とに基づいて半教師付学習を実行することで、ユーザのクラスの事前確率、ユーザのクラスの遷移確率及びユーザの状態遷移確率を推定する確率推定部を備え、
前記最適政策算出部に与えられるユーザのクラスの事前確率は、前記確率推定部により推定されたユーザのクラスの事前確率であり、
前記行動決定部が参照するユーザのクラスの遷移確率及びユーザの状態遷移確率は、前記確率推定部により推定されたユーザのクラスの遷移確率及びユーザの状態遷移確率であってもよい。
前記最適政策算出部は、ユーザの初期状態とクラスの事前確率と質問回数と推薦回数とが与えられると、当該制御期間における期待総利得を最大にする最適政策を算出し、
前記行動決定部は、ユーザに対する質問及び当該質問へのユーザの回答並びにユーザに対する推薦及び当該推薦へのユーザの反応を含む履歴と、時点と、が与えられると、当該時点以降の期待総利得を最大にする最適行動と期待総利得の最大値とを決定してもよい。
上記目的を達成するために、本発明の第2の観点に係る推薦方法は、
ユーザの初期状態とユーザのクラスの事前確率と制御期間とを取得するデータ取得ステップと、
ユーザの状態と時点とが与えられると、ユーザのクラスの遷移確率、ユーザの状態遷移確率及び期待利得を参照して、当該時点以降の期待総利得を最大にする最適行動及び期待総利得の最大値を決定する行動決定ステップと、
前記行動決定ステップで決定された各時点における最適行動及び期待総利益の最大値に基づいて、前記制御期間における期待総利得を最大にする最適政策を算出する最適政策算出ステップと、
前記最適政策算出ステップが決定した最適政策に関する情報を出力する出力ステップと、
を含む。
上記目的を達成するために、本発明の第3の観点に係るプログラムは、
コンピュータを、
ユーザの初期状態とユーザのクラスの事前確率と制御期間とが与えられると、当該制御期間における期待総利得を最大にする最適政策を算出する最適政策算出部、
前記最適政策算出部によりユーザの状態と時点とが与えられると、ユーザのクラスの遷移確率、ユーザの状態遷移確率及び期待利得を参照して、当該時点以降の期待総利得を最大にする最適行動及び期待総利得の最大値を決定し、前記最適政策算出部に出力する行動決定部、
前記最適政策算出部が決定した最適政策に関する情報を出力する出力部、
として機能させる。
本発明によれば、個々のユーザの特性を考慮した適切な推薦が可能な推薦装置、推薦方法、及びプログラムを提供できる。
本発明の実施の形態1に係る推薦システムの構成を示すブロック図である。 本発明の実施の形態1に係る推薦装置の構成を示すブロック図である。 (a)は、遷移確率テーブルのデータテーブルの一例、(b)は、利得テーブルのデータテーブルの一例を示す図である。 本発明の実施の形態1に係る推薦装置の制御部の構成を示すブロック図である。 本発明の実施の形態1に係るユーザ端末の構成を示すブロック図である。 本発明の実施の形態1に係る最適政策算出処理の流れを示すフローチャートである。 本発明の実施の形態1に係るDP木の一例を示す図である。 本発明の実施の形態1に係る行動決定処理の流れを示すフローチャートである。 本発明の実施の形態2に係る推薦装置の構成を示すブロック図である。 本発明の実施の形態2に係る確率推定処理の流れを示すフローチャートである。 本発明の実施の形態3に係る推薦装置の制御部の構成を示すブロック図である。 本発明の実施の形態3に係るDP木の一例を示す図である。 実施例2における数値計算結果を示す図である。 (a)、(b)は、実施例3における商品推薦に対するユーザの反応確率、(c)は、実施例3における質問に対する回答確率を示す図である。 実施例4における数値計算結果を示す図である。
以下、本発明に係る推薦装置、推薦方法、及びプログラムの実施の形態を、図面を参照しながら詳細に説明する。各図面においては、同一又は同等の部分に同一の符号を付す。以下、ユーザに商品を推薦する場合を例に説明するが、本発明に係る推薦装置、推薦方法、及びプログラムがユーザに推薦する被推薦対象は商品に限られない。
(実施の形態1)
図1〜図8を参照して、実施の形態1に係る推薦装置、推薦方法、及びプログラムを説明する。実施の形態1に係る推薦システムは、ユーザのクラスの変化をマルコフ連鎖(Markov Chain)で表現し、マルコフ決定過程(Markov Decision Process:MDP)の問題を解くことにより、ユーザのクラスの変化に応じてユーザに適切な商品を推薦する。MDPは、確率システムの動的な最適化問題を定式化できる数理モデルである。
実施の形態1に係る推薦システムでは、ユーザのクラスが未知、各種確率分布を支配する真のパラメータが既知であると仮定する。そして、実施の形態1に係る推薦システムでは、ユーザの初期状態、未知であるクラスの事前確率及び制御期間(推薦回数)を受け付けると、期待利得値(売上高)をベイズ基準のもとで最大化するように、各時点及び各履歴における商品の推薦方法を最適政策として出力する。状態は、前回の推薦商品と反応に関する情報(履歴)であり、初期状態は、初期段階の状態、言い換えると初期段階から一つ前の段階の推薦商品と反応に関する情報である。また、クラスの事前確率は、初期段階においてユーザが属するクラスを決定する確率である。
図1は、推薦システム1の構成を示すブロック図である。図1に示すように、推薦システム1は、推薦装置100と、ユーザ端末200と、を備える。
推薦装置100は、ユーザの嗜好やニーズ(ユーザのクラス)に合わせて商品又はサービスを推薦する。推薦装置100は、例えば、プログラムに基づいて動作するサーバ等の情報処理装置である。推薦装置100は、専用のシステムで実現してもよく、小型汎用コンピュータを用いて実現してもよい。ユーザ端末200は、ユーザに対して入出力のインターフェースを提供する。ユーザ端末200は、例えば、スマートフォン、タブレット、パーソナルコンピュータ等の情報処理端末である。
推薦システム1のデータの流れの概要について説明する。ユーザ端末200は、ユーザの指示を受け付けることによって、通信ネットワーク(例えば、インターネット)を介して、推薦装置100に所望のWebページをリクエストする。推薦装置100は、リクエストされたWebページに関する情報を記憶しているものとする。推薦装置100は、記憶されたユーザの過去の商品又はサービスの購入履歴等に基づいて、ユーザに推薦する商品又はサービスを決定する。そして、推薦装置100は、ユーザがリクエストしたWebページの情報と、ユーザに推薦する商品又はサービスの画像に関する情報と、をユーザ端末200に送信する。ユーザ端末200は、推薦装置100から情報を受信し、ユーザがリクエストしたWebページと、推薦された商品又はサービスに関する画像と、をユーザに向けて表示する。
次に、図2を参照して、推薦装置100の構成について説明する。図2は、推薦装置100の構成を示すブロック図である。推薦装置100は、指示受付部110と、表示部120と、通信部130と、記憶部140と、制御部150と、を備える。指示受付部110、表示部120、通信部130及び記憶部140は、制御部150と有線又は無線の通信回線を介して相互に通信可能に接続されている。
指示受付部110は、ユーザの指示を受け付け、受け付けた操作に対応する操作信号を制御部150に供給する。指示受付部110は、ユーザの初期状態、未知であるクラスの事前確率及び制御期間等に関する情報を受け付ける。指示受付部110は、例えば、ボタン、キーボード、マウス等であってもよく、外部の指示装置等を接続可能なコネクタ等であってもよい。
表示部120は、制御部150から供給される各種の画像データ等に基づいて各種の画像等を表示する。表示部120は、例えば、液晶パネル、有機EL(Electro Luminescence)パネルを備える。また、表示部120は、推薦システム1に設けられたコネクタを介して接続可能な外部の表示装置等であってもよい。
なお、指示受付部110と表示部120とは、タッチパネルによって一体に構成されてもよい。タッチパネルは、所定の操作を受け付ける操作画面を表示すると共に、操作画面においてユーザが接触操作を行った位置に対応する操作信号を制御部150に供給する。
通信部130は、インターネット等の通信ネットワークに接続することが可能なインターフェースである。通信部130は、ユーザ端末200、外部サーバ、メモリ等(図示せず)と通信ネットワークを介して通信する。通信部130は、推薦装置100により推薦された最適な商品又はサービスに関するに関する情報を出力する出力部の一例である。
記憶部140は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、ハードディスク装置等を備え、制御部150により実行され、制御部150を後述する最適政策算出部151、行動決定部152として機能させるプログラムや各種データを記憶する。また、記憶部140は、制御部150が処理を実行するためのワークメモリとして機能する。
記憶部140は、遷移確率テーブル141と、利得テーブル142と、を備える。以下、図3のデータテーブルを参照して、各テーブルについて説明する。
図3(a)は、遷移確率テーブル141を示すデータテーブルの一例である。遷移確率テーブル141は、マルコフ連鎖に従って変化するユーザのクラスの遷移確率p(wt+1|w,φ)及びユーザの状態遷移確率p(z|yt−1,zt−1,y,w,θ)を記憶する。遷移確率テーブル141は、全ユーザに対して共通である。
図3(b)は、利得テーブル142を示すデータテーブルの一例である。利得テーブル142は、MDPにおける商品又はサービスの利得r(n)を記憶する。利得テーブル142は、遷移確率テーブル141と同様に、全ユーザに対して共通である。
さらに、記憶部140は、ユーザ端末200に配信するWebページに関する情報を記憶する。
図2に戻り、制御部150は、例えば、CPU(Central Processing Unit)等のプロセッサを備え、推薦装置100の各部の制御を行う。制御部150は、記憶部140に記憶されているプログラムを実行することにより、図6の最適政策算出処理及び図8の行動決定処理を実行する。
制御部150は、機能的には、最適政策算出部151と、行動決定部152と、を備える。以下、図4を参照して、制御部150の機能的な構成を説明する。図4は、制御部150の機能的な構成を示すブロック図である。
最適政策算出部151は、ユーザの初期状態x、クラスの事前確率p(w)及び制御期間Tが与えられると、制御期間Tの期待総利得を最大にする最適政策を算出する。より詳細に説明すると、最適政策算出部151は、ユーザの初期状態x、クラスの事前確率p(w)及び制御期間Tが与えられると、行動決定部152と連携して動的計画法(Dynamic Programming:DP)の問題を解くことにより、マルコフ連鎖に従って変化するユーザのクラスの遷移確率とユーザの状態の遷移確率と期待利得とに基づいて、制御期間Tの期待総利得を最大にする最適政策を算出する。DPは、最適性原理を持つ多段階決定過程に対して適用され、DP木(DPグラフ)で表現される全探索問題を解くための手法である。
最適政策算出部151は、DP木作成部151aと、DP実施部151bと、を備える。DP木作成部151aは、ユーザの初期状態x、クラスの事前確率p(w)及び制御期間Tに基づいて、DPで用いられるDP木を作成する。
DP実施部151bは、DP木作成部151aにより作成されたDP木において制御期間Tの最後の時点から遡りながらDPの問題を解くことにより、制御期間Tの期待総利得を最大にする最適政策を算出する。
行動決定部152は、最適政策算出部151からユーザの状態xを含む履歴と時点tとが与えられると、当該時点tの当該履歴のもとで、それ以降の期待総利得を最大にする最適行動及び期待総利得の最大値を算出する。行動決定部152は、マルコフ連鎖に従って変化するユーザのクラスの遷移確率と、ユーザの状態遷移確率と、期待利得と、に基づいて、期待総利得を最大にする最適行動を決定する。
推薦装置100が実行する処理は、例えば、上述の物理的な構成を備える装置が、記憶部140に記憶されたプログラムを実行することによって実現される。本発明は、プログラムとして実現されてもよく、そのプログラムが記録されたフレキシブルディスク、CD−ROM(Compact Disk Read-Only Memory)、DVD(Digital Versatile Disk)、MO(Magneto-Optical disk)等のコンピュータ読み取り可能な記憶媒体として実現されてもよい。
図5は、ユーザ端末200の構成を示すブロック図である。ユーザ端末200は、指示受付部210と、表示部220と、通信部230と、記憶部240と、制御部250と、を備える。指示受付部210、表示部220、通信部230及び記憶部240は、制御部250と有線又は無線の通信回線を介して相互に通信可能に接続されている。
指示受付部210は、ユーザの指示を受け付け、受け付けた操作に対応する操作信号を制御部250に供給する。指示受付部210は、例えば、ユーザが訪問したいWebページに関する指示を受け付ける。
表示部220は、制御部250から供給される各種の画像データ等に基づいて各種の画像等を表示する。表示部220は、表示部120と同様の構成を備えている。表示部220は、例えば、ユーザがリクエストしたWebページと、推薦装置100により推薦された商品又はサービスに関する画像と、を表示する。表示部220は、推薦装置100により推薦された最適な商品又はサービスに関するに関する情報を出力する。
なお、指示受付部210と表示部220とは、タッチパネルによって一体に構成されてもよい。タッチパネルは、所定の操作を受け付ける操作画面を表示すると共に、操作画面においてユーザが接触操作を行った位置に対応する操作信号を制御部250に供給する。
通信部230は、インターネット等の通信ネットワークに接続することが可能なインターフェースである。通信部230は、推薦装置100、外部サーバ、メモリ等と通信ネットワークを介して通信する。
記憶部240は、RAM、ROM、フラッシュメモリ等を備え、制御部250により実行されるプログラムや各種データ、アプリケーションを記憶する。また、記憶部240は、制御部250が処理を実行するためのワークメモリとして機能する。
制御部250は、例えば、CPU等のプロセッサを備え、ユーザ端末200の各部の制御を行う。制御部250は、記憶部240に記憶されているプログラムを実行することにより各種処理を実行する。
次に、MDPを利用した商品の推薦方法の数理モデルを説明する。ここでは、初期状態から商品の推薦をT回行うMDP問題を扱うこととする。また、ユーザのクラスは、前述のように未知であり、マルコフ連鎖に従って変化するものとする。以下、商品を推薦する時点をt(1≦t≦T)とする。t=1のとき、初期段階であり、t=Tのとき、最後の推薦を行う時点である。
まず、推薦方法の数理モデルで使用する記号を以下に定義する。理解を容易にするために、推薦システム1がユーザに対して書籍を推薦する場合を例に説明する。
,c∈C(iは自然数)は、ユーザのクラスであり、C={c,c,…,c|C|}(|C|は自然数)は、ユーザのクラスの集合である。ユーザのクラスcは、例えば、推理小説を好むクラス、エッセイを好むクラス、漫画を好むクラス等である。
,m∈M は、推薦対象の商品であり、M={m,m,…,m|M|}(|M|は自然数)は、推薦対象の商品の集合(商品集合)である。商品mの推薦は、MDPにおける行動選択に相当する。推薦対象の商品mは、例えば、推理小説、エッセイ、漫画等のジャンルに属する書籍である。
,n∈N は、推薦に対するユーザの反応であり、N={n,n,…,n|N|}(|N|は自然数)は、推薦に対するユーザの反応の集合(反応集合)である。1≦i≦|M|では、n=mであり、ユーザの反応nは、商品mの購入に相当する。|N|と|M|とは|N|=|M|+1の関係にあり、n|M|+1はユーザが何も購入しなかったことを示す。
r(n)は、1≦i≦|M|において、商品mの売上高を示し、MDPの利得に相当する。i=|M|+1の場合、r(n|M|+1)=0である。商品mの売上高r(n)は、例えば、通販サイト上で販売されている推理小説、エッセイ、漫画等の販売価格である。
,y∈Mは、t回目の推薦商品を示し、MDPのt期の行動に相当する。
,z∈Nは、t回目の推薦に対するユーザのt期の反応を示す。
,w∈Cは、t期のユーザのクラスを示す。前述のとおりt期のユーザのクラスwは未知である。初期段階のユーザのクラスも未知であるため、初期段階においてユーザが属するクラスを決定する確率であるクラスの事前確率p(w)を導入する。クラスの事前確率p(w)は、既知である。
クラスの事前確率p(w)は、例えば、ユーザ本人及び他のユーザのプロファイル情報(例えば、通販サイトでの会員登録時のアンケートへの回答結果等)、ユーザ本人及び他のユーザの履歴情報、通販サイトで扱っている商品に関する専門家等の経験則、多数のユーザを対象にした趣味や嗜好に関する調査結果、各クラスを代表する商品の過去の売上高等のいずれか一つ又はこれらの組み合わせに基づいて推定される。例えば、クラスが既知の履歴情報は、ユーザの自己申告、専門家の経験等に基づいて推定できる。また、事前の履歴情報等が存在しない場合、クラスの事前確率p(w)は、例えば、等確率に設定できる。
また、クラスの事前確率p(w)は、ユーザ本人及び他のユーザのクラス既知の履歴情報又はクラス未知の履歴情報を用いて、統計学的に推定してもよく、専門家の経験則に基づいて推定してもよい。例えば、クラスの事前確率p(w)の推定には、最尤推定法を用いてもよい。また、クラス未知の履歴情報の場合又はクラス未知の履歴情報とクラス既知のクラス情報が混在する場合、クラスの事前確率p(w)の推定にEM(Expectation Maximization)アルゴリズムを用いてもよい。
は、t回目の推薦を受ける際のユーザの状態で、MDPのt期の状態に相当する。t回目のユーザの状態xは、1期前(t−1回目)の推薦商品yt−1と、それに対するユーザの反応zt−1と、により構成されるため、(yt−1,zt−1)とも表現される。
通販サイトを初めて利用する新規のユーザの場合、初期状態xは、前回の推薦商品と反応に相当する情報がないため、空列である。この場合、反応集合Nに「何も買わない」、商品集合Mにも「何も推薦しない」との要素を含めておき、初期状態xを「何も買わない」との要素及び「何も推薦しない」との要素の少なくとも一つで表現してもよい。また、通販サイトを以前から利用しているユーザの場合、初期状態xは、前回(履歴情報中の最後)の推薦商品と反応とで構成できる。
p(wt+1|w,φ)は、ユーザのクラスの遷移確率を示す。ユーザのクラスの遷移確率p(wt+1|w,φ)は、例えば、ユーザ本人又は他のユーザの履歴情報、通販サイトで扱っている商品に関する専門家等の経験等に基づいて設定される。また、ユーザのクラスの遷移確率p(wt+1|w,φ)は、ユーザ本人及び他のユーザのクラス既知の履歴情報又はクラス未知の履歴情報を用いて統計学的に推定してもよく、専門家の経験則に基づいて推定してもよい。
p(xt+1|x,y,w,θ) は、ユーザの状態遷移確率を示し、MDPの状態遷移確率に相当する。ユーザの状態遷移確率p(xt+1|x,y,w,θ)は、1期前(t−1回目)の推薦商品yt−1に対する反応がzt−1の場合に、クラスwのユーザが推薦商品yに対する反応がzとなる確率であるため、p(z|yt−1,zt−1,y,w,θ)とも表現される。ユーザの状態遷移確率p(xt+1|x,y、w,θ)は、ユーザ本人又は他のユーザの履歴情報、当該通販サイトで扱っている商品に関する専門家等の経験等に基づいて設定される。また、ユーザの状態遷移確率p(xt+1|x,y,w,θ)は、ユーザ本人及び他のユーザのクラス既知の履歴情報又はクラス未知の履歴情報を用いて統計学的に推定してもよく、専門家の経験則に基づいて推定してもよい。
φ、θ は、確率分布を支配する真のパラメータであり、既知である。また、xは、履歴(系列)であり、x…xを示す。
次に、統計的決定理論に基づいて推薦方法の数理モデルを定式化する。パラメータφ、θのもとで決定関数d(・,・)によって商品yを推薦し、履歴xへと遷移した場合の総利得(総売上)を示す効用関数U(d(・,・),x,θ,φ)は、以下の式で表される。
Figure 2018190409
ここで、決定関数d(・、・)は、t期までの履歴xt−1t−1と、期を示すtとを受けとって、t期の推薦商品yを出力する関数である。
次に、ユーザの初期状態x、ユーザの初期のクラスw、パラメータθ、φのもとで、決定関数d(・,・)を用いた場合の総利得の期待値である期待効用EU(d(・,・),x,w,θ,φ)は、式(1)の効用関数U(d(・,・),x,θ,φ)を用いて以下の式で表される。
Figure 2018190409
ただし、x = x…x、w = w…wである。クラスwは未知であるため、期待効用EU(d(・,・),x,w,θ,φ)に事前確率p(w)を導入する必要がある。式(2)の期待効用EU(d(・,・),x,w,θ,φ)に事前確率p(w)を導入したベイズ期待効用BEU(d(・,・),x,p(w),θ,φ)は、以下の式で表される。
Figure 2018190409
式(3)のベイズ期待効用BEU(d(・,・),x,p(w),θ,φ)を最大にする決定関数d(・,・)がベイズ基準のもとで総売上を最大にする最適な推薦方法に相当する。式(3)のベイズ期待効用BEU(d(・,・),x,p(w),θ,φ)を書き下すと、T期間の入れ子構造になるため、プログラムの構造を再帰的に繰り返されるように記述できる。この入れ子構造にDPを適用することにより、最適な推薦商品(最適政策)を算出する数理モデルを導出できる。
次に、指定されたノード(時点、履歴)以降の期待総利得の最大値を算出する方法を説明する。t=T(T期目)の場合、行動決定部152は、以下に表される式を用いて、指定されたノード以降の期待総利得の最大値V(xT−1T−1,T)を算出する。
Figure 2018190409
ただし、式(4)は、以下の式(5)〜式(7)を満たす。
Figure 2018190409
Figure 2018190409
Figure 2018190409
式(5)のp(z|y,zT−1,yT−1,y,θ)は、ユーザの反応確率の事後確率p(w|yT−1T−1) による期待値であり、式(4)のV(xT−1T−1,T) は最後の期t=Tの期待利得の最大値である。式(4)の右辺を最大化する行動yが推薦商品である。p(z|yT−1,zT−1,y,w,θ)とp(w|wT−1、φ)は遷移確率テーブル141から読み取ったものであり、r(z)は利得テーブル142 から読み取ったものである。
1≦t≦T−1の場合、行動決定部152は、以下に表される式を用いて、t時点目以降の期待総利得V(xt−1t−1,t)を算出する。式(8)の右辺を最大化する行動yが推薦商品である。
Figure 2018190409
次に、図6のフローチャートを参照して、実施の形態1に係る最適政策算出部151が実行する最適政策算出処理について説明する。最適政策算出処理は、期待値をベイズ基準のもとで最大化する最適政策を算出する処理である。
まず、最適政策算出部151は、ユーザの初期状態x、未知クラスの事前確率p(w)及び制御期間Tに関するデータを取得する(ステップS101)。ユーザの初期状態x、未知クラスの事前確率p(w)及び制御期間Tは、最適政策算出処理を実行する前に記憶部140に記憶されているものとする。
次に、DP木作成部151aは、ユーザの初期状態x、未知クラスの事前確率p(w)及び制御期間Tに基づいて、T期間の期待総利得を最大化するためのDPの問題を解くためのDP木を作成する(ステップS102)。DP木は、式(3)に基づいて作成する。
図7は、商品数が2つの場合にDP木作成部151aが作成するDP木の一例である。図7のDP木では、1時点目はユーザの初期状態xで表現され、2時点目からT時点目までは、ユーザの想定される履歴(当該時点までに推薦された商品yと当該商品への反応z)で表現される。例えば、2時点目の上部には、状態x、商品m、反応n、状態xからなる履歴が載せられている。なお、t時点目の状態xは、t−1時点目の推薦商品と反応(yt−1,zt−1)で表される。推薦システム1を適用する以前の履歴データが存在しない新規ユーザの場合、初期状態xは空列(履歴なしの状態)である。
次に、DP実施部151bは、DP木の末端(T時点目)ノードから遡りながら順にノードを選択し、当該ノードでの最適な行動(最適な推薦商品)と当該ノード以降の期待総利得の最大値とを、図8の行動決定処理を実行する行動決定部152と連携して決定する(ステップS103)。
ここで、図8のフローチャートを参照して、行動決定部152が実行する行動決定処理を説明する。行動決定処理は、各ノードにおける最適な行動と各ノード以降の期待総利得の最大値とを決定する処理である。
まず、行動決定部152は、ノードの時点tと、ユーザの履歴(t時点目までの系列xt−1t−1)と、を取得する(ステップS201)。
次いで、行動決定部152は、ステップS201で受け取った時点tとユーザの履歴(t時点目までの系列xt−1t−1)とに応じて、当該ノードにおける最適行動を決定し、当該ノード以降の期待総利得の最大値を算出する(ステップS202)。具体的には、行動決定部152は、遷移確率テーブル141及び利得テーブル142から読み取った遷移確率p(wt+1|w,φ)、p(z|yt−1,zt−1,y,w,θ)及び利得r(n)を参照して、式(4)又は式(8)の右辺を最大化する行動yを推薦商品とする。最大化された式(4)又は式(8)の右辺の値は、期待総利得の最大値である。
次に、行動決定部152は、当該ノードにおける最適行動と当該ノード以降の期待総利得の最大値とをDP実施部151bへ出力し(ステップS203)、処理をリターンする。以上が行動決定処理の流れである。
再び図6に戻り、ステップS103の処理の終了後、最適政策算出部151は、DPの問題をDP木の1時点目のノードまで全て解き終わったかどうかを判定する(ステップS104)。
DPの問題をDP木の1時点目のノードまで全て解き終わった場合(ステップS104:YES)、最適政策算出部151は、DP木の全ノードにおける最適な行動と当該ノード以降の期待総利得の最大値を最適政策として出力し(ステップS105)、処理を終了する。
他方、DPの問題をDP木の1時点目のノードまで全て解き終わっていない場合(ステップS104:NO)、最適政策算出部151は、処理をステップS103に戻し、DPの問題を全て解き終わるまでステップS103、ステップS104の処理を繰り返す。以上が、最適政策算出処理の流れである。
制御部150は、最適政策算出処理により算出された最適政策に関する情報を記憶部140に記憶させ、通信部130からユーザ端末200の通信部230に送信させる。ユーザ端末200は、最適政策に関する情報を通信部230に受信させ、表示部220に表示させる。
以上説明したように、実施の形態1に係る推薦装置100は、ユーザの初期状態xとユーザのクラスの事前確率p(w)と制御期間Tとに基づいて、当該制御期間Tにおける期待総利得を最大にする最適政策を算出する最適政策算出部151と、ユーザの状態xと時点tとが与えられると、当該時点t以降の期待総利得を最大にする最適行動及び期待総利得の最大値を決定する行動決定部152と、を備える。このため、ユーザのクラスの変化に対応して制御期間Tにおける期待総利得を最大にする最適政策を出力でき、ユーザのクラスの変化に応じて適切な商品を推薦できる。
(実施の形態2)
図9及び図10を参照して、実施の形態2に係る推薦装置、推薦方法、及びプログラムを説明する。実施の形態1に係る推薦装置100は、各種確率を支配する真のパラメータθ*、φが既知であると仮定していたが、実施の形態2に係る推薦装置100は、履歴を含む学習系列に基づく半教師付き学習を実行することで各種確率を推定する。
図9は、実施の形態2に係る推薦装置100の構成を示すブロック図である。記憶部140は、学習系列テーブル143をさらに備える。学習系列テーブル143は、ユーザのクラスが既知である完全データの学習系列と、ユーザのクラスが未知である不完全データの学習系列と、を記憶する。
制御部150は、機能的には、確率推定部153をさらに備える。確率推定部153は、完全データの学習系列と不完全データの学習系列とに基づいて半教師付き学習を実行することで各種確率を推定する。以下、確率推定部153がEMアルゴリズムを用いて半教師付き学習を実行する場合を例に説明する。
まず、完全データ及び不完全データの学習系列を説明する。データ数Lcの完全データの学習系列W’Y’Z’は、
W’Y’Z’W’Y’Z’…W’LCY’ LCZ’ LC
で表される。
W’、Y’、Z’は、それぞれi本目の完全データにおけるユーザのクラス系列、推薦商品系列、ユーザの反応系列であり、すべて既知である。W’Y’Z’は、以下の式で表される。
Figure 2018190409
w’i,j、y’i,j、z’i,jは、それぞれi本目の完全データにおけるj期目のユーザのクラス、推薦商品、反応を示し、T’は、i本目の完全データの推薦回数(i本目の完全データの長さ)である。なお、y’i,0、z’i,0 は、1期目のMDPの状態を構成するための情報(1期前の推薦と反応)であるため、推薦回数に含めない。
他方、データ数Luの不完全データの学習系列YZは、ユーザのクラスに関する系列を含まないため、
…YLcLc
で表される。
、Z は、それぞれi本目の不完全データにおける推薦商品系列、ユーザの反応系列であり、すべて既知である。Yは、
i,0i,0i,1i,1…yi,Tii,Ti
と表される。
i,j 、zi,j は、それぞれi本目の不完全データにおけるj期目の推薦商品、反応を示し、Ti はi本目の不完全データの推薦回数(i本目の不完全データの長さ)である。なお、yi,0、zi,0 は1期目のMDPの状態を構成するための情報(1期前の推薦と反応)であるため、推薦回数には含めない。
次に、不完全データに対してEMアルゴリズムを適用する手法を説明する。EMアルゴリズムは、期待値ステップ(Eステップ)と最大化ステップ(Mステップ)を交互に繰り返すことで、確率モデルのパラメータを最尤推定する。Eステップでは、現在推定されている潜在変数の分布に基づいて、尤度の期待値を算出する。Mステップでは、Eステップで算出された尤度の期待値を最大化するパラメータを算出する。Mステップで算出されたパラメータは、次のEステップで用いられる潜在変数の分布を決定するために用いられる。
まず、EMアルゴリズムの適用に必要な不完全データに対する各種確率の更新式を導出する。不完全データの生起確率p(YZ|θ)は、以下のとおりである。ただし、W は、不完全データに対応する未知であるユーザのクラス系列である。
Figure 2018190409
Figure 2018190409
以下、各種確率の更新式の導出を容易にするために、各種記号の簡略化した書き方を定義する。ρは、ユーザのクラスの初期確率を示す。aijは、ユーザが所属するクラスが1期先に変化する確率であるユーザのクラスの遷移確率を示す。bijklqは、1期前の推薦商品と反応がm,nでクラスcの顧客が推薦商品mに対して反応がnとなる確率であるユーザの状態遷移確率を示す。
Figure 2018190409
Figure 2018190409
Figure 2018190409
また、EMアルゴリズムの計算に必要な以下の確率を定義する。αv,t(i)βv,t(i)は、v本目の不完全データの長さTの推薦商品系列Yとユーザの反応系列Zが発生し、かつt期目のユーザのクラスwv,tがcである確率を示す。なお、αv,t(i)は、長さT中の1期目からt期目までの推薦商品系列yv,1…yv,tとユーザの反応系列zv,1…zv,t及びt期目の顧客クラスcが発生する確率であり、βv,t(i)は、t期目の顧客クラスがcという条件のもとで、t+1期目以降の推薦商品系列yv,t+1…yv,Tvとユーザの反応系列zv,t+1…zv,Tvが発生する確率である。
Figure 2018190409
Figure 2018190409
Figure 2018190409
αv,t(i)及びβv,t(i)は、以下の式を用いて再帰的に計算される。αv,t(i)は、1期目から再帰的に計算され、βv,t(i)は、最後の期(T期目)から遡りながら再帰的に計算される。2≦t≦Tvの場合、αv,t(i)は、以下に示すように再帰的に計算できる。
Figure 2018190409
Figure 2018190409
Figure 2018190409
他方、1≦t≦Tv−1の場合、βv,t(i)は、以下の式で表される。
Figure 2018190409
Figure 2018190409
不完全データのv本目の推薦商品系列Yと顧客の反応系列Zとが得られた場合、t期目のユーザのクラスwv,t がcである確率は、以下の式で表される。
Figure 2018190409
不完全データのv本目の推薦商品系列Yと顧客の反応系列Zとが得られた場合、t期目のユーザのクラスWv,tがcであって、t+1期目の顧客クラスwv,t+1 がcである確率は、以下の式で表される。
Figure 2018190409
次に、EMアルゴリズムにおいて最大化するQ(θ,θ)関数を説明する。Q(θ,θ)は、EMアルゴリズムの処理の導出を容易にする観点から、以下の式で表される。ただし、θはθの更新後のパラメータである。また、以下のρ、A、Bは、それぞれρ、aij、bijklqを簡略的に表記したものである。
Figure 2018190409
関数Q(θ,ρ)、Q(θ,A)、Q(θ,B)は、それぞれ以下の式で表される。
Figure 2018190409
Figure 2018190409
Figure 2018190409
次に、関数Q(θ,ρ)の最大化する確率ρの推定値を導出する。関数Q(θ,ρ)は、以下のように変形できる。
Figure 2018190409
Figure 2018190409
ρの総和(i=1〜|c|)が1であるとの制約条件のもとで、f=Q(θ,ρ)を最大化する確率ρをラグランジュの未定乗数法によって求める。ラグランジュの未定乗数法より、
Figure 2018190409
として、Lを確率ρで偏微分して0とおくと以下の式が得られる。
Figure 2018190409
Figure 2018190409
式(33)の両辺をiについて足し合わせて上記の制約を考慮すると、以下の式が得られる。
Figure 2018190409
よって、関数Q(θ,ρ)を最大化する確率ρの推定値ρ^は、以下の式で表される。
Figure 2018190409
関数Q(θ,A)最大化する確率aijの推定値a^ijは、関数Q(θ,ρ)の場合と同様に、i毎に関数Q(θ,A)を最大化する確率aijをラグランジュの未定乗数法によって求めることで導出できる。確率の推定値a^ijは、以下の式で表される。
Figure 2018190409
Figure 2018190409
関数Q(θ,ρ)を最大化する確率bijklqの推定値b^ijklqは、関数Q(θ,ρ)の場合と同様に、i,j,k,lの組み合わせ毎に関数Q(θ,B)を最大化する確率bijklqをラグランジュの未定乗数法によって求めることで導出できる。確率の推定値b^ijklqは、以下の式で表される。
Figure 2018190409
Figure 2018190409
Figure 2018190409
Figure 2018190409
次に、不完全データに対する各種確率ρ、aij、bijklqの更新式である式(35)、式(36)、式(38)を、完全データに対応するように拡張する。
式(35)の分子は、データ数Luの不完全データ系列において先頭のユーザのクラスがcの頻度の期待値である。データ数Lcの完全データでは、ユーザのクラスが既知であるため、完全データ中で先頭のユーザのクラスがcである頻度をgとすると、完全データを追加した場合の確率ρの推定値ρ^は、以下の式で表される。
Figure 2018190409
式(36)の分子は、データ数Luの不完全データ系列においてユーザのクラスcからcへ遷移した頻度の期待値であり、式(36)の分母は、遷移元がユーザのクラスcの頻度の期待値である。完全データでは、ユーザのクラスは既知であるため、完全データ中でユーザのクラスcからcへ遷移した頻度をgijとすると、完全データを追加した場合の確率aijの推定値a^ijは、以下の式で表される。
Figure 2018190409
式(38)の分子は、データ数Luの不完全データ系列においてユーザのクラスcの顧客が1期前に商品mを推薦されて反応nを返し、当該期に商品mを推薦されて反応nを返す頻度の期待値である。式(38)の分母は、クラスcのユーザが1期前に商品mを推薦されて反応nを返し、当該期に商品mを推薦される頻度の期待値である。完全データでは、ユーザのクラスが既知であるため、完全データを追加した場合の確率bijklqの推定値b^ijklqは、以下の式で表される。ただし、gijklqは、完全データ中でユーザのクラスcの顧客が1期前に商品mを推薦されて反応nを返し、当該期に商品mを推薦されて反応nを返した頻度である。
Figure 2018190409
図10を参照して、最適政策算出部151が最適政策算出処理を実行する前に、確率推定部153が実行する確率推定処理の流れを説明する。
まず、確率推定部153は、各種確率ρ、aij、bijklqの初期値を設定する(ステップS301)。各種確率ρ、aij、bijklqの初期値は、例えば、一様乱数で与えられる。
次に、確率推定部153は、式(42)〜式(44)を用いて各種確率ρ、aij、bijklqを推定して更新する(ステップS302)。式(42)〜式(44)の計算には、式(18)〜式(24)を用いる。
次に、確率推定部153は、各種確率ρ、aij、bijklqの全ての推定結果が収束しているかどうかを判定する(ステップS303)。各種確率ρ、aij、bijklqの全ての推定結果が収束したかどうかは、例えば、各種確率の直近の差分が所定の閾値以下であるかどうかで判定する。各種確率ρ、aij、bijklqの全ての推定結果が収束している場合(ステップS303;YES)、ステップS304に移動する。他方、各種確率ρ、aij、bijklqの全ての推定結果が収束していない場合(ステップS303;NO)、確率推定部153は、推定結果が収束するまで各種確率ρ、aij、bijklqを更新する処理(ステップS302)を繰り返す。
ステップS303でYESの場合、確率推定部153は、収束した各種確率ρ、aij、bijklqを記憶部140(遷移確率テーブル141)に記憶させ(ステップS304)、処理を終了する。以上が、確率推定処理の流れである。
その後、最適政策算出部151は、図10の確率推定処理で推定された各種確率に基づいて図6の最適政策算出処理及び図8の行動決定処理を実行し、制御期間における最適政策を算出する。そして、制御部150は、最適政策算出部151により算出された最適政策に関する情報を出力する。
以上説明したように、実施の形態2に係る推薦装置100は、ユーザのクラスが既知である履歴情報とユーザのクラスが未知である履歴情報とに基づいて半教師付学習を実行することで各種確率を推定する確率推定部153を備える。このため、真のパラメータが未知の場合であっても、適切な商品を推薦できる。
(実施の形態3)
図11及び図12を参照して、本発明の実施の形態3に係る推薦装置、推薦方法、及びプログラムを説明する。実施の形態3に係る推薦装置100は、新規顧客であるユーザに対する質問と当該質問に対するユーザの回答とに基づいて、期待総利得を最大にする最適政策を算出する。
図11は、実施の形態3に係る制御部150の構成を示すブロック図である。最適政策算出部151は、ユーザの初期状態x、未知クラスの事前確率p(w)、質問回数T’及び推薦回数Tが与えられると、行動決定部152と連携して各時点tのユーザの各履歴xのもとでの各行動に対する期待利得を取得し、推薦期間における期待総利得を最大にする最適政策を算出する。
行動決定部152は、ユーザに対する質問及び当該質問への回答並びにユーザへの推薦商品及び当該推薦商品への反応を含む履歴(状態)xと時点tが与えられると、当該時点tの当該履歴xのもとで、当該時点t以降の期待総利得を最大にする最適行動(最適な質問及び最適な推薦商品)と期待総利得の最大値とを決定する。
まず、推薦方法の数理モデルで使用する各種記号を説明する。以下、実施の形態3に係る推薦システムでは、新規ユーザに対してT’回の質問を行った後、T回の商品の推薦を行うため、T’+T期間のMDP問題を扱うこととする。
,q∈Cは、新規ユーザに関する情報を入手するための質問を示し、Q={q、q,…,q|Q|}は質問集合である。a,a∈Aは、質問qに対する回答を示し、A={a、a,…,a|A|}は回答集合である。なお、質問qに対して利得r(n)は発生しないものとする。
は、MDPにおけるt期の行動を示す。行動yは、質問期間(1≦t≦T’)の場合、t回目の質問y∈Qに相当し、推薦期間(T’+1≦t≦T’+T)の場合、t回目の商品の推薦y∈Mに相当する。新規ユーザのアクセス時にT’回の質問と1回目の推薦yT’+1を実施し、当該ユーザの2回目のアクセス時に2回目の推薦yT’+2を実施する。
は、MDPにおける行動yに対するユーザの回答又は反応を示す。反応zは、質問期間(1≦t≦T’)の場合、t回目の質問y∈Qに対する回答z∈Aに相当し、推薦期間(T’+1≦t≦T’+T)の場合、t回目の商品の推薦y∈Mに対する反応z∈Nに相当する。
w,w∈C は、MDPにおける新規ユーザのクラスを示し、未知である。以下、理解を容易にするために、クラスの事前確率p(w)は、既知とし、ユーザのクラスは変化しないものとする。
は、t回目(t≧T’+2)の推薦を受ける時点のユーザの状態で、MDPのt期の状態に相当する。状態xは、1期前の推薦商品とユーザの反応で構成されるため、x=(yt−1,zt−1)である。質問期間及び1回目の推薦の時点における状態xが未定義であるが、系列yt−1t−1を計算に用いることでDPの問題を解くことができる。
p(a|q,c,φ)は、クラスcに属するユーザが質問qに対して回答aを返す確率を示す。p(pass|ε)は、質問期間において新規ユーザが質問に回答せずに推薦期間に移行する確率(質問回避確率)である。新規ユーザが実際に質問に回答するかどうかは不確実であるため、これらの確率を導入する。
p(n|m,n,m,c,θ)は、クラスcに属するユーザが1期前の推薦m及び反応nのもとで、商品mを推薦されたときに反応nを返す確率を示す。確率p(xt+1|x,y,w,θ)は、MDPにおける状態遷移確率に相当し、以下の式で表される。ただし、t≧T’+2である。
Figure 2018190409
p(n|m,c,θ)は、1回目の推薦(t=T’+1)において、クラスcに属するユーザが商品mを推薦されたときに反応nを返す確率である。確率p(xt+1|y,w,θ)は、MDPにおける状態xT’+2の生起確率に相当し、以下の式で表される。
Figure 2018190409
θ 、ψ 、ε は、各種確率を支配する真のパラメータであり、既知であると仮定する。
T+T’ T’+2T+T’T+T’は、推薦期間終了後の系列を示し、xT+T’ T’+2=xT’+2T’+3…xT+T’、yT+T’=y…yT+T’、zT+T’=z…zT+T’である。質問期間の場合、状態xが未定義であるため、系列は、質問及び回答のみのyになる。
d(・,・)は、期を示すtと当該期までの系列とを受け取って当該期tの行動yを返す決定関数である。
次に、統計的決定理論に基づいて数理モデルを定式化する。パラメータθ 、ψ 、εのもとで、クラスwに属する新規ユーザに対して決定関数d(・,・)を使って、T’回の質問とT回の商品の推薦yT’+Tを行って、新規ユーザの質問への回答と推薦への反応がzT’+Tだった場合の総利得を示す効用関数Uは、以下の式で表される。
Figure 2018190409
期待効用 はパラメータθ 、ψ 、εのもとで、クラスwに属する新規顧客に対して決定関数d(・,・)を使って質問と商品の推薦を行う場合の総売上(総利得)の期待値を示す期待効用EUは、効用関数Uを用いて以下の式で表される。
Figure 2018190409
新規ユーザのクラスwは未知であるため、事前確率p(w)を導入する必要がある。式(48)の期待効用EUに事前確率p(w)を導入したベイズ期待効用BEUは、以下の式で表される。
Figure 2018190409
式(49)のベイズ期待効用BEUを最大にする決定関数d(・,・)は、ベイズ基準のもとで総売上を最大にする最適な質問及び推薦方法に相当し、以下の式で表される。
Figure 2018190409
式(49)のベイズ期待効用BEUを書き下すと、T’+T期間の入れ子構造になる。このため、最適政策算出部151は、当該入れ子構造にDPを適用してDPの木を作成することで、各時点における最適な質問及び推薦商品を含む最適政策を算出できる。
次に、DPの問題を解くために用いる事後確率を算出する方法を説明する。事後確率は、データを考慮に入れた条件での変数の条件付確率であり、ベイズの定理により事前確率に尤度関数の出力値を乗算することで導出できる。t期(1≦t≦T’+1)に使用する事後確率p(w|yt−1t−1)は、以下の式で表される。ただし、p(w|y)=p(w)である。
Figure 2018190409
質問期間のt期(1≦t≦T) にユーザが質問を回避して推薦期間に進んだ場合には、推薦期間の最初の期である期で使用する事後確率は、p(w|yT’T’)=p(w|yt−1t−1)とする。
t期(t=T’+2)に使用する事後確率p(w|x T’+2t−1t−1)は、以下の式で表される。
Figure 2018190409
t期(T’+3≦t≦T’+T)に使用する事後確率p(w|x T’+2t−1t−1)は、以下の式で表される。ただし、p(zt−1|xt−1,yt−1,w,θ)=p(zt−1|yt−2,zt−2,yt−1,w,θ)である。
Figure 2018190409
次に、行動決定部152が指定されたノード以降の期待総利得の最大値を算出する方法を説明する。T’+T 期目のすべての遷移系列 に対して、以下の式(54)の右辺を最大化する行動yT’+Tをベイズ最適な最後の推薦商品として決定する。V(xT’+T T’+2T’+T−1T’+T−1,T’+T)は、最後の期の期待利得の最大値であり、p(zT’+T|xT’+T T’+2T’+T−1T’+T−1,yT’+T,θ)は、ユーザの反応確率の事後確率p(w|xT’+T T’+2T’+T−1T’+T−1)による期待値である。
Figure 2018190409
Figure 2018190409
t期目(T’+2≦t≦T’+T−1)のすべての遷移系列 に対して、以下の式(56)の右辺を最大化する行動yT’+Tをベイズ最適なt期の推薦商品として決定する。V(x T’+2t−1t−1,t)は、t期以降の期待利得の最大値である。
Figure 2018190409
Figure 2018190409
t期目(t=T’+1)のすべての遷移系列yt−1t−1に対して、式(58)の右辺を最大化する行動 をベイズ最適なt期の推薦商品として決定する。V(yt−1t−1,t)は、t期以降の期待利得の最大値である。
Figure 2018190409
Figure 2018190409
t期目(1≦t≦T’)のすべての遷移系列 yt−1t−1に対して、式(60)の右辺を最大化する行動yをベイズ最適なt期の質問として決定する。V(yt−1t−1,t)はT+1期以降の期待総利得の最大値である。なお、式(60)では、質問回避確率p(pass|ε)を導入することで、新規ユーザが質問に回答せずに推薦期間に移行する場合を考慮している。また、Q−yt−1は未実施の質問集合である。
Figure 2018190409
Figure 2018190409
以下、図6を参照して、最適政策算出部151が実行する最適政策算出処理の流れを説明する。まず、最適政策算出部151は、記憶部140から、ユーザの初期状態、未知クラスの事前確率、質問回数及び推薦回数を取得する(ステップS101)。
次に、DP木作成部151aは、推薦期間の期待総利得を最大化するためのDP問題を解くためのDP木を作成する(ステップS102)。DP木作成部151aは、例えば、図12に示すようなDP木を作成する。DP木の1期目はユーザの初期状態、2期目からT’+1期目までは想定される質問及び回答のすべての履歴(系列)、T’+2期目からT’+T期目までは想定される質問及び回答並びに推薦商品及び反応のすべての履歴(系列)で表現される。初期の履歴に相当する初期状態は、新規ユーザが推薦対象であるため、空列である。なお、図12では、理解を容易にするために、1期前の推薦と反応で表現される各ノードの状態を省略している。
次に、DP実施部151bは、行動決定部152に図8の行動決定処理を実行させ、末端のT’+T期目のノードから遡りながらDPでT’+T期間のMDPを解くことによって、各ノードにおける推薦期間の期待総利得を最大化するのに最適な行動と当該ノード以降の期待総利得の最大値とを決定する(ステップS103)。より詳細に説明すると、DP実施部151bは、DP木の末端の各ノードから順に、当該ノードの時点とユーザの履歴(履歴を表現する系列)を行動決定部152に提供する。そして、DP実施部151bは、行動決定部152から当該ノードにおける最適行動と当該ノード以降の期待総利得の最大値とを取得する。行動は、質問期間において質問の選択であり、推薦期間において推薦商品の選択である。
次に、DPの問題をDP木の末端のT’+T期目のノードから1時点目のノードまで全て解き終わったかどうかを判定する(ステップS104)。ステップS104でYESの場合、最適政策算出部151は、DP木の全ノードにおける最適行動と当該ノード以降の期待総利得の最大値とを最適政策として出力する(ステップS105)。以上が、最適政策算出処理の流れである。
以上説明したように、実施の形態3に係る推薦装置は、ユーザの初期状態とクラスの事前確率と質問回数と推薦回数とが与えられると、当該制御期間における期待総利得を最大にする最適政策を算出する最適政策算出部151と、ユーザに対する質問と当該質問へのユーザの回答、ユーザに対する推薦と当該推薦へのユーザの反応を含む履歴と時点とが与えられると、当該時点以降の期待総利得を最大にする最適行動と期待総利得の最大値とを決定する行動決定部152と、を備える。このため、新規顧客のようにユーザのクラスが未知の場合であっても、ユーザに対する質問と当該質問へのユーザの回答を得ることで、期待総利得を最大にする最適政策を算出できる。
(実施の形態4)
実施の形態4に係る推薦装置、推薦方法、及びプログラムを説明する。実施の形態3に係る推薦装置は、ユーザのクラスが変化せず、各種確率を支配する真のパラメータθ、φ、εが既知であると仮定していたが、実施の形態4に係る推薦装置は、実施の形態2、3に係る推薦装置を組み合わせて、ユーザのクラスが変化し、真のパラメータが未知の場合であっても、半教師付学習を実行することで真のパラメータを推定する。
以下、理解を容易にするために、質問回避確率p(pass|ε)がゼロ(既知)であり、その他の確率が未知である場合を例に説明するが、質問回避確率(pass|ε)が未知の場合でも半教師付学習を実行することで真のパラメータを推定できる。
確率推定部153は、ユーザに対する質問と当該質問へのユーザの回答を含んでおり、ユーザのクラスが既知である完全データとユーザのクラスが未知である不完全データを有する学習系列に基づいて、EMアルゴリズムを適用することで半教師付学習を実行して各種確率を推定する。
実施の形態2の場合と同様に、不完全データにEMアルゴリズムを適用する場合のパラメータの更新式を導出し、当該更新式を完全データに対応するように拡張することで、確率推定部153が用いるEMアルゴリズムのQ関数を最大化する以下の更新式が得られる。以下の更新式は、実施の形態2と同様の手順で導出できるため、具体的な導出方法については説明を省略する。
p(c|θ)は、ユーザクラスの生起確率を示す。p(c|θ)の推定値p^(c|θ)は、以下の式で表される。ただし、H’(c)は、完全データ中でユーザのクラスがcである頻度を示す。
Figure 2018190409
p(ak3|qk2,ck1,θ)は、クラスcklに属する顧客が質問qk2に対して回答ak3を返す確率を示す。p(ak3|qk2,ck1,θ)の推定値p^(ak3|qk2,ck1,θ)は、以下の式で表される。ただし、H’(ck1,qk2,ak3)は、完全データ中でクラスがck1であるユーザが質問qk2を質問され、回答ak3を返した頻度を示す。また、H’(ck1,qk2)は、完全データ中でクラスck1のユーザが質問qk2を質問される頻度を示す。
Figure 2018190409
p(nk3|mk2,ck1,θ)は、1回目の推薦(t=T’+1)において,クラスcklに属するユーザが商品mk2を推薦されたときに反応nk3を返す確率である。p(nk3|mk2,ck1,θ)の推定値p^(nk3|mk2,ck1,θ)は、以下の式で表される。ただし、H’(ck1,mk2,nk3)は、完全データ中でクラスがck1であるユーザが1回目の推薦で商品mk2を推薦され、反応nk3を返した頻度を示す。また、H’(ck1,mk2)は、完全データ中でクラスck1のユーザが1回目の推薦で商品mk2を推薦される頻度を示す。
Figure 2018190409
p(nk5|mk2,nk3,mk4,ck1,θ)は、2回目以降の推薦(t≧T’+2)において、クラスcklに属する顧客が1期前の推薦と反応がmk2とnk3のもとで商品mk4を推薦されたときに反応nk5を返す確率を示す。p(nk5|mk2,nk3,mk4,ck1,θ)の推定値p^(nk5|mk2,nk3,mk4,ck1,θ)は、以下の式で表される。ただし、H’ (ck1,mk2,nk3,mk4,nk5)は、完全データ中でクラスがck1であるユーザが、2回目以降の推薦で1期前の推薦と反応がmk2とnk3という状況で、商品mk4を推薦されて反応nk5を返した頻度を示す。また、H’ (ck1,mk2,nk3,mk4)は、完全データ中でクラスがck1であるユーザが、2回目以降の推薦で1期前の推薦と反応がmk2とnk3という状況で、商品mk4を推薦された頻度を示す。
Figure 2018190409
図10を参照して、EMアルゴリズムを用いた確率推定処理の流れを説明する。まず、確率推定部153は、各種確率p^(c|θ)、p^(a|qk2,ck1,θ)、p(nk3|mk2,ck1,θ)、p^(nk5|mk2,nk3,mk4,ck1,θ)の初期値を設定する(ステップS301)。
次に、確率推定部153は、式(62)〜式(65)を用いて各種確率p^(c|θ)、p^(a|qk2,ck1,θ)、p(nk3|mk2,ck1,θ)、p^(nk5|mk2,nk3,mk4,ck1,θ)が収束するまで更新を繰り返す(ステップS302、ステップS303)。各種確率を更新するには、事後確率の更新式である以下の式(67)〜式(71)を用いればよい。質問期間(1≦k≦T’)の場合、事後確率の更新式は、以下の式で表される。
Figure 2018190409
Figure 2018190409
Figure 2018190409
Figure 2018190409
1回目の推薦(k=T’+1)の場合、事後確率の更新式は、以下の式で表される。
Figure 2018190409
2回目以降の推薦(T’+2≦k≦T’+T)の場合、事後確率の更新式は、以下の式で表される。
Figure 2018190409
ステップS303でYESの場合、確率推定部153は、推定された各種確率を記憶部140(遷移確率テーブル141)に記憶させ(ステップS304)、処理を終了する。以上が、確率推定処理の流れである。
以上説明したように、実施の形態4に係る推薦装置100は、ユーザに対する質問と当該質問へのユーザの回答を含み、ユーザのクラスが既知である完全データとユーザのクラスが未知である不完全データを有する学習系列に基づいて、半教師付学習を実行することで各種確率を推定する確率推定部153を備える。このため、真のパラメータが未知の場合であっても、適切な商品を推薦できる。
以下、実施例を挙げて本発明を具体的に説明する。ただし、本発明はこれらの実施例に限定されるものではない。
(実施例1)
実施例1では、実施の形態1に係る推薦装置100の有効性を検証するために数値計算を実施した。ユーザのクラス数|C|=3、商品数|M|=8、推薦回数T= 4とし、クラスの事前確率p(w)は等確率とした。ユーザの反応確率p(z|yT−1,zT−1,y,w,θ)及びクラスの遷移確率p(wT+1|w,ψ)を支配する真のパラメータθ、ψは、一様乱数に従って設定し、商品の利得r(n)は、10以上100以下の一様乱数で設定した。
本実施例では、上記の設定のもとで期待総利得の最大値を算出した。空列を含む{M(M+1)+1}個の初期状態xの各候補に対するT回の推薦での期待総利得の最大値の算出を、上記の一様乱数による設定で500パターンに対して行った。履歴のあるユーザの初期状態の候補数は、M(M+1)個であり、履歴のない新規ユーザの初期状態の候補数は、1個である。また、比較例として、クラス遷移を無視した場合の最適な推薦における期待総利得の最大値も算出した。
数値計算の結果、実施の形態1に係る推薦装置100を用いた場合、期待総利得の最大値の平均値は264.21であった。また、クラス遷移を無視した場合、期待総利得の最大値の平均値は254.33であった。このことは、ユーザのクラスが時間経過に伴い変化することが想定される場合、クラス遷移を考慮することで期待総利得の最大値が増加することを示している。したがって、実施の形態1に係る推薦装置100を商品又はサービスの推薦、例えば、インターネット上の通販サイトを構成する情報システムに適用した場合、商品又はサービスの売上高の増加を実現できる。
(実施例2)
実施例2では、実施の形態2に係る推薦装置の有効性を検証するために、以下の数値計算を実施した。ユーザのクラス数|C|=3、商品数|M|=4、推薦回数T= 4とし、各種確率ρ、aij、bijklqと商品の利得r(n)を一様乱数によって200 パターンで設定した。商品の利得r(n)は、100〜1000の範囲、100きざみで設定した。EM アルゴリズムの初期値は、一様乱数で設定し、EMアルゴリズムの繰り返し回数は、1000とした。
学習データの完全データ数Lc及び不完全データ数Luは、それぞれ10、100、1000とし、データ数の組み合わせを9組に設定した。学習データの系列長は、推薦回数T=4と同じとした。学習データは、各シミュレーションパターンの真のパラメータに従って生成した。完全データW’Y’Z’、不完全データYZ及び0期の推薦商品とユーザの反応は、一様乱数で生成した。比較例として、真のパラメータが既知の場合の数値計算も実行した。この比較例のクラス事前確率としてはρを用いた。
図13は、実施例2における数値計算結果を示す。図13の数値は、真のパラメータ既知の場合の総利得に対する、実施の形態2に係る推薦方法による総利得の割合(達成率)である。なお、各数値は、MDPの試行を1000回実施した結果を平均したものである。本検証により、完全データが少量の場合でも不完全データが増加すれば総利得が大きくなることが確認できた。また、学習データの増加に伴い総利得も増加するため、十分なデータ数があれば真のパラメータが既知の場合と同等の利得を得られることも確認できた。
(実施例3)
実施の形態3に係る推薦装置の有効性を検証するために、以下の数値計算を実施した。ユーザのクラス数|C|=2、商品数|M|=2、質問回数T’=1、推薦回数T=3、質問数|Q|=2、回答数|A|=2、質問の回避確率p(pass|ε)=0.2とし、クラスの事前確率p(w)は、等確率とした。また、商品推薦に対するユーザの反応確率p(n|m,n,m,c,θ)、p(n|m,c,θ)、質問回答確率p(a|q,c,φ)は、それぞれ図14(a)〜図14(c)に示すとおりに設定した。比較例として、質問を用いない場合、質問選択にエントロピー関数を利用する場合の数値計算も実行した。
数値計算の結果、実施の形態3に係る推薦方法の期待総利得は、185,395であり、質問を用いない場合の期待総利得は、171,125であり、質問選択にエントロピー関数を利用する場合の期待総利得は、171,225であった。以上より、小規模な数値計算例であるが、売上高の最大化を目的とする質問選択の有効性を確認できた。
(実施例4)
実施例4では、実施の形態4に係る推薦装置の有効性を検証するために、以下の数値計算を実施した。ユーザのクラス数|C|=4、質問数|Q|=3、回答数|A|=2、商品数|M|=5、質問回数T’=2、推薦回数T=4とした。また、真のパラメータ及び商品の利得r(n)は、一様乱数で100パターン設定した。商品の利得r(n)は、10〜100の範囲内で10きざみに設定した。
EMアルゴリズムの初期値は、一様乱数で設定し、EMアルゴリズムの繰り返し回数は、収束を考慮して1000とした。完全データW’Y’Z’のデータ数Lc及び不完全データYZのデータ数Luは、それぞれ10、100、1000、10000とし、データ数の組み合わせを16組に設定した。学習データの系列長は、質問回数T’=2、推薦回数T=4と同じにした。学習データは、各シミュレーションパターンの真のパラメータに従って生成した。また、比較例として、ユーザのクラスの生起確率をクラスの事前確率とし、真のパラメータが既知である場合の数値計算も実行した。
図15は、実施例4における数値計算結果を示す。図15の数値は、真のパラメータ既知の場合の期待総利得の最大値に対する、実施の形態4に係る推薦方法で得られた期待総利得の割合(達成率)である。完全データ数が少量の10の場合でも、不完全データ数の増加に伴い達成率が88.50%(不完全データ数10)から94.98%(不完全データ数10000)まで増加した。また、学習データ全体が増加するにつれて達成率が増加する傾向を確認できた。完全データ数Lcと不完全データ数Luとがいずれも10000の場合、98.85%という高い達成率が得られた。
そして、本発明はこれに限られず、以下に述べる変形も可能である。
(変形例)
上記実施の形態では、推薦装置100とユーザ端末200とは個別の装置として構成されているが、本発明はこれに限られない。推薦装置100とユーザ端末200とは、一体に構成されてもよく、同じコンピュータ上に構成されていてもよい。
上記実施の形態では、推薦装置100はリクエストされたWebページに関する情報を記憶部140から読み取り、ユーザ端末200に送信していたが、本発明はこれに限られない。例えば、Webページに関する情報を記憶し、リクエストに応じてWebページに関する情報を推薦装置100又はユーザ端末200に送信するWebサーバを、推薦装置100と別体に設けてもよい。
上記実施の形態では、各種データは記憶部140に記憶されていたが、本発明はこれに限定されない。例えば、各種データは、その全部又は一部がLAN(Local Area Network)等を介して外部のサーバ、コンピュータ等に記憶されてもよい。また、各種データを複数の場所、例えば、複数のコンピュータから構成されるクラウドシステム上に分散配置してもよい。
上記実施の形態では、制御部150は記憶部140に記憶されたプログラムに基づいて動作していたが、本発明はこれに限定されない。例えば、プログラムにより実現された機能的な構成をハードウェアにより実現してもよい。
上記実施の形態では、推薦対象が商品、ユーザのクラスがユーザの嗜好や趣味、利得が商品の販売価格であったが、本発明はこれに限られない。例えば、推薦対象を治療法及び医薬品、患者のクラスを患者の健康状態、利得を患者の健康状態に依存する血圧、血糖値等に関連する指標であるとして、患者の健康状態の向上を図るために推薦システム1を適用してもよい。
上記実施の形態では、マルコフ連鎖によりユーザのクラスの変化を表現してMDP問題を解いていたが、本発明はこれに限られない。ユーザのクラスの変化を表現可能な数理モデルであれば、いかなる数理モデルを採用してもよい。
上記実施の形態では、DPを用いてMDP問題を解いていたが、本発明はこれに限られない。例えば、DPを用いずに想定される政策を全て列挙し、各政策における期待総利得を算出し、期待総利得が最大の政策を最適政策として出力してもよい。
上記実施の形態は例示であり、本発明はこれらに限定されるものではなく、特許請求の範囲に記載した発明の趣旨を逸脱しない範囲でさまざまな実施の形態が可能である。各実施の形態や変形例で記載した構成要素は自由に組み合わせることが可能である。また、特許請求の範囲に記載した発明と均等な発明も本発明に含まれる。
1 推薦システム
100 推薦装置
110 指示受付部
120 表示部
130 通信部
140 記憶部
141 遷移確率テーブル
142 利得テーブル
143 学習系列テーブル
150 制御部
151 最適政策算出部
151a DP木作成部
151b DP実施部
152 行動決定部
153 確率推定部
200 ユーザ端末
210 指示受付部
220 表示部
230 通信部
240 記憶部
250 制御部

Claims (9)

  1. ユーザの初期状態とユーザのクラスの事前確率と制御期間とが与えられると、当該制御期間における期待総利得を最大にする最適政策を算出する最適政策算出部と、
    前記最適政策算出部によりユーザの状態と時点とが与えられると、遷移確率テーブル及び利得テーブルからユーザのクラスの遷移確率、ユーザの状態遷移確率及び期待利得を参照して、当該時点以降の期待総利得を最大にする最適行動及び期待総利得の最大値を決定し、前記最適政策算出部に出力する行動決定部と、
    前記最適政策算出部が決定した最適政策に関する情報を出力する出力部と、
    を備え、
    前記最適政策算出部は、前記制御期間内の各時点とその時点でのユーザの状態とを前記行動決定部に与え、前記行動決定部から各時点における最適行動及び期待総利益の最大値を取得し、取得された各時点における最適行動及び期待総利益の最大値に基づいて最適政策を算出する推薦装置。
  2. 前記最適政策算出部は、前記制御期間におけるマルコフ決定過程問題を動的計画法で解くことにより最適政策を算出する、
    請求項1に記載の推薦装置。
  3. マルコフ連鎖に従って変化するユーザのクラスの遷移確率とユーザの状態遷移確率と期待利得とを記憶する記憶部を備え、
    前記最適政策算出部は、前記記憶部に記憶されたユーザのクラスの遷移確率とユーザの状態遷移確率と期待利得とに基づいて、前記制御期間における期待総利得を最大にする最適政策を算出する、
    請求項2に記載の推薦装置。
  4. 前記最適政策算出部は、ユーザの初期状態を起点にして、前記制御期間の各時点におけるユーザの状態の遷移を各々のノードに展開したDP木を作成し、前記制御期間内の各時点とその時点におけるユーザの状態とを、DP木の末端のノードから順に前記行動決定部に与え、
    前記行動決定部は、前記最適政策算出部が作成したDP木の与えられた時点のノードにおいて選択し得る行動毎の期待総利得を、与えられたユーザの状態と各々の行動に対応する遷移確率と期待利得とから算出して、期待総利得が最大となる行動を最適行動として決定する、
    請求項1から3のいずれか1項に記載の推薦装置。
  5. 前記最適政策算出部は、前記行動決定部が決定したDP木の全ノードにおける最適行動と各ノード以降の期待総利得の最大値とに基づいて算出した最適政策を出力する、
    請求項4に記載の推薦装置。
  6. ユーザのクラスが既知である履歴情報とユーザのクラスが未知である履歴情報とに基づいて半教師付学習を実行することで、ユーザのクラスの事前確率、ユーザのクラスの遷移確率及びユーザの状態遷移確率を推定する確率推定部を備え、
    前記最適政策算出部に与えられるユーザのクラスの事前確率は、前記確率推定部により推定されたユーザのクラスの事前確率であり、
    前記行動決定部が参照するユーザのクラスの遷移確率及びユーザの状態遷移確率は、前記確率推定部により推定されたユーザのクラスの遷移確率及びユーザの状態遷移確率である、
    請求項1から5のいずれか1項に記載の推薦装置。
  7. 前記最適政策算出部は、ユーザの初期状態とクラスの事前確率と質問回数と推薦回数とが与えられると、当該制御期間における期待総利得を最大にする最適政策を算出し、
    前記行動決定部は、ユーザに対する質問及び当該質問へのユーザの回答並びにユーザに対する推薦及び当該推薦へのユーザの反応を含む履歴と、時点と、が与えられると、当該時点以降の期待総利得を最大にする最適行動と期待総利得の最大値とを決定する、
    請求項1から6のいずれか1項に記載の推薦装置。
  8. ユーザの初期状態とユーザのクラスの事前確率と制御期間とを取得するデータ取得ステップと、
    ユーザの状態と時点とが与えられると、ユーザのクラスの遷移確率、ユーザの状態遷移確率及び期待利得を参照して、当該時点以降の期待総利得を最大にする最適行動及び期待総利得の最大値を決定する行動決定ステップと、
    前記行動決定ステップで決定された各時点における最適行動及び期待総利益の最大値に基づいて、前記制御期間における期待総利得を最大にする最適政策を算出する最適政策算出ステップと、
    前記最適政策算出ステップが決定した最適政策に関する情報を出力する出力ステップと、
    を含む推薦方法。
  9. コンピュータを、
    ユーザの初期状態とユーザのクラスの事前確率と制御期間とが与えられると、当該制御期間における期待総利得を最大にする最適政策を算出する最適政策算出部、
    前記最適政策算出部によりユーザの状態と時点とが与えられると、ユーザのクラスの遷移確率、ユーザの状態遷移確率及び期待利得を参照して、当該時点以降の期待総利得を最大にする最適行動及び期待総利得の最大値を決定し、前記最適政策算出部に出力する行動決定部、
    前記最適政策算出部が決定した最適政策に関する情報を出力する出力部、
    として機能させるプログラム。
JP2018082998A 2017-04-28 2018-04-24 推薦装置、推薦方法、及びプログラム Pending JP2018190409A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017089174 2017-04-28
JP2017089174 2017-04-28

Publications (1)

Publication Number Publication Date
JP2018190409A true JP2018190409A (ja) 2018-11-29

Family

ID=64480340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018082998A Pending JP2018190409A (ja) 2017-04-28 2018-04-24 推薦装置、推薦方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2018190409A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506643A (zh) * 2019-01-31 2020-08-07 北京沃东天骏信息技术有限公司 用于生成信息的方法、装置和系统
CN112579910A (zh) * 2020-12-28 2021-03-30 北京嘀嘀无限科技发展有限公司 信息处理方法、信息处理装置、存储介质和电子设备
WO2021192232A1 (ja) * 2020-03-27 2021-09-30 日本電気株式会社 商品推薦システム、商品推薦装置、商品推薦方法、及び、商品推薦プログラムが格納された記録媒体
WO2023053176A1 (ja) * 2021-09-28 2023-04-06 日本電気株式会社 学習装置、行動推薦装置、学習方法、行動推薦方法及び記憶媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506643A (zh) * 2019-01-31 2020-08-07 北京沃东天骏信息技术有限公司 用于生成信息的方法、装置和系统
CN111506643B (zh) * 2019-01-31 2023-09-29 北京沃东天骏信息技术有限公司 用于生成信息的方法、装置和系统
WO2021192232A1 (ja) * 2020-03-27 2021-09-30 日本電気株式会社 商品推薦システム、商品推薦装置、商品推薦方法、及び、商品推薦プログラムが格納された記録媒体
CN112579910A (zh) * 2020-12-28 2021-03-30 北京嘀嘀无限科技发展有限公司 信息处理方法、信息处理装置、存储介质和电子设备
WO2023053176A1 (ja) * 2021-09-28 2023-04-06 日本電気株式会社 学習装置、行動推薦装置、学習方法、行動推薦方法及び記憶媒体

Similar Documents

Publication Publication Date Title
JP2018190409A (ja) 推薦装置、推薦方法、及びプログラム
Jung et al. AK-fold averaging cross-validation procedure
US10332015B2 (en) Particle thompson sampling for online matrix factorization recommendation
Weber et al. CMARS: a new contribution to nonparametric regression with multivariate adaptive regression splines supported by continuous optimization
Ferrari et al. Simulating ordinal data
Ta Factorization machines with follow-the-regularized-leader for CTR prediction in display advertising
CN110097193B (zh) 训练模型的方法及系统和预测序列数据的方法及系统
Kastius et al. Dynamic pricing under competition using reinforcement learning
CN108230057A (zh) 一种智能推荐方法及系统
Urena et al. GDM-R: A new framework in R to support fuzzy group decision making processes
Cafri et al. Predicting risk for adverse health events using random forest
CN111581516B (zh) 投资产品的推荐方法及相关装置
Ramprasad et al. Online bootstrap inference for policy evaluation in reinforcement learning
US11429992B2 (en) Systems and methods for dynamic pricing
US10402840B2 (en) Systems and methods for setting product prices
EP3152640A1 (en) Systems and methods for serving product recommendations
CN115087970A (zh) 使用贝叶斯图卷积网络的推荐系统
Croux et al. Robust estimation of mean and dispersion functions in extended generalized additive models
Chen et al. Parametric demand learning with limited price explorations in a backlog stochastic inventory system
JP2008287550A (ja) 購買順序を考慮したリコメンド装置、リコメンド方法、リコメンドプログラムおよびそのプログラムを記録した記録媒体
CN114139724A (zh) 增益模型的训练方法及装置
CN110689110A (zh) 处理交互事件的方法及装置
JP2009110341A (ja) 時間情報を用いた予測装置、予測方法、予測プログラムおよびそのプログラムを記録した記録媒体
US10956930B2 (en) Dynamic Hierarchical Empirical Bayes and digital content control
White et al. Variable selection in kernel regression using measurement error selection likelihoods

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20180518