JP6700146B2 - 評価値に基づいて推奨するコンテンツを決定するシステム - Google Patents

評価値に基づいて推奨するコンテンツを決定するシステム Download PDF

Info

Publication number
JP6700146B2
JP6700146B2 JP2016180181A JP2016180181A JP6700146B2 JP 6700146 B2 JP6700146 B2 JP 6700146B2 JP 2016180181 A JP2016180181 A JP 2016180181A JP 2016180181 A JP2016180181 A JP 2016180181A JP 6700146 B2 JP6700146 B2 JP 6700146B2
Authority
JP
Japan
Prior art keywords
content
evaluation value
value
feature
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016180181A
Other languages
English (en)
Other versions
JP2018045476A (ja
JP2018045476A5 (ja
Inventor
フォン グエン
フォン グエン
高行 秋山
高行 秋山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2016180181A priority Critical patent/JP6700146B2/ja
Publication of JP2018045476A publication Critical patent/JP2018045476A/ja
Publication of JP2018045476A5 publication Critical patent/JP2018045476A5/ja
Application granted granted Critical
Publication of JP6700146B2 publication Critical patent/JP6700146B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は評価値に基づいて推奨するコンテンツを決定するシステムに関する。
従来、バナー、サイネージ、又は何らかの情報の推奨コンテンツ(おすすめコンテンツ)は、静的な態様で示されており、視聴者の嗜好に対応するように変化することはない。従来のシステムは、誰が、又はどのようなタイプの人が、コンテンツを視聴しているかについて、情報を有していない。ユーザについての情報を、クッキ、ブラウジングの履歴、又は行動追跡によって集めることができるオンライン環境と異なり、オフライン環境は、そのような情報を有していない。異なる視聴者が異なる嗜好を有することを鑑みれば、静的にコンテンツを全てのタイプの視聴者に表示する従来の方法は、非効率である。
繰り返し複数のコンテンツを表示する方法がある。しかし、これらコンテンツは、視聴者の興味に必ずしも沿ったものではなく、また、人手により適宜更新しないと、シーズンの傾向から外れたものとなってしまう。
推奨コンテンツを視聴している視聴者のタイプを認識し、最も適切なコンテンツを選択して視聴者に表示し、さらに、以前に表示されたコンテンツに対する視聴者の反応に基づいて、より良い選択をするように調整できる、自動情報レコメントシステムが望まれる。自動情報レコメンドシステムは、Q学習を使用して、この目的を達成できる。
Q学習は、モデルフリーの強化学習技術であり、エージェントが、その状態及び行動空間を探索し、所与の状態において実行する最善の行動を見出す。何が最善の行動であるかを判定するために、エージェントは、一般に、一つの行動を試し、取った行動から報酬又はペナルティを経験する。
Q値は、(状態、行動)ペアの評価値を示すものであって、多くの繰り返しによって、所与の状態における最善の行動を見つけるために、計算及び更新される。一般のQ学習方法は、「次元の呪い」と呼ばれる問題を有している。これは、状態と行動の数が増加すると、指数的に必要な計算量が増加する問題である。
Q学習を使用した情報リコメンドシステムの設定においては、行動空間は、視聴者に提供しようとしているコンテンツプールで表わすことができる。視聴者に提供するコンテンツの可能なオプションが増加するにつれて、より多くの状態と行動の組み合わせを探索することが必要となり、結果的に、長い学習時間が必要となる。
視聴者に表示するために入手可能なコンテンツの数は膨大である。視聴者に全ての可能なオプションを示すには、実行不能な量の学習時間がかかり得る。学習時、システムは、まだ適切な行動を行わない。従って、長い学習時間により、多くの利益を失い、学習のために多くのコストがかかる。
行動空間を階層的にクラスタリングする技術が知られている。各行動は、一意のコンテンツを選択し、同一クラスタ内の全ての行動を同様に扱って、行動空間における行動の数を低減する。このような技術は、例えば、特開2007−164406号公報に開示されている。
特開2007−164406号公報
しかし、上記アプローチは、同一クラスタ内の行動が異なり、異なるクラスタの行動が類似している場合に、正確ではない。このように、従来の技術は、上記のような孤立した大きな行動空間の課題を解決する具体的な方法を有していない。従って、短い学習時間において、視聴者に対してより適切なコンテンツを選択して提示できる、システムが望まれる。
本発明の一態様は、評価値に基づいて推奨するコンテンツを決定するシステムであって、記憶装置と、前記記憶装置に格納されているプログラムに従って動作するプロセッサと、を含み、前記記憶装置は、複数コンテンツの評価値を管理する評価値管理情報を格納し、前記プロセッサは、前記評価値管理情報が示す前記評価値に基づいて、前記複数コンテンツから、提示する第1コンテンツを選択し、提示された前記第1コンテンツに対する視聴者の反応の情報を取得し、前記反応の情報と予め定められた基準とに基づいて、前記第1コンテンツに対する報酬値を決定し、前記報酬値に基づいて、前記評価値管理情報において、前記第1コンテンツの評価値を更新し、前記第1コンテンツの評価値に基づいて、前記評価値管理情報において、前記第1コンテンツに類似するコンテンツの評価値を更新する。
本発明の一態様によれば、短い学習時間において、視聴者に対してより適切なコンテンツを選択して提示できる。
実施例1に係る情報レコメンドシステムの構成例を示す。 実施例1に係る情報レコメントシステムの機能ブロック図を示す。 実施例1に係る行動データベースの構成例を示す。 実施例1に係る行動特徴量データベースの構成例を示す。 実施例1に係るQ値データベースの構成例を示す。 実施例1に係る行動選択部のフローチャートを示す。 実施例1に係る行動類似性計算部のフローチャートを示す。 実施例1に係るQ値更新部のフローチャートを示す。 実施例2に係る、情報レコメンドシステムの構成例を示す。 実施例2に係る情報レコメンドシステムの機能ブロック図を示す。 実施例2に係るQ値データベースの構成例を示す。 実施例3に係る情報レコメンドシステムの構成例を示す。 実施例3に係る情報レコメンドシステムの機能ブロック図を示す。 実施例3に係る行動選択部のフローチャートを示す。 実施例3に係る情報ゲイン計算部のフローチャートを示す。
以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。各図において共通の構成については同一の参照符号が付されている。
以下に開示される情報レコメンドシステムは、提示されたコンテンツに対する視聴者の反応に基づいて、視聴者により適切なコンテンツを提示する。以下に開示する情報レコメンドシステは、例えば、空港、ショッピングモール、駅のような、オフライン環境において動作する。提示されるコンテンツは、バナー、サイネージ、音楽、映像等である。情報レコメンドシステムは、提示するコンテンツそれぞれの評価値(各コンテンツを提示する場合の評価値)を管理し、評価値に基づいて提示するコンテンツを選択する。
情報レコメンドシステムは、提示されたコンテンツに対する視聴者の反応に基づいて、提示したコンテンツの評価値を更新すると共に、提示したコンテンツに類似するコンテンツの評価値を更新する(学習)。これにより、提示したコンテンツに加え、実際に提示をしていないコンテンツを提示した場合の効果を、効果的に学習することができ、短い学習時間で、より適切なコンテンツを提示することができる。
一例において、情報レコメンドシステムは、コンテンツの複数の特徴量を管理し、特徴量に基づいてコンテンツ間の類似性を判定する。たとえば、情報レコメンドシステムは、値が一致する特徴量が規定数以上のコンテンツを、互いに類似するコンテンツと判定する。
例えば、情報レコメンドシステムは、提示したコンテンツにおいて、類似するコンテンツと同一値の特徴量を特定し、当該特徴量に対する評価値に基づいて、類似するコンテンツの評価値を更新する。これにより、提示したコンテンツと類似するコンテンツとの間の類似度に応じて、類似するコンテンツの評価値を更新できる。
図1〜8を参照して、実施例1を説明する。情報レコメンドシステムは、サーバ100、表示端末200、そして観測端末300を含む。表示端末200は、推奨コンテンツ(お勧めコンテンツ)を視聴者に表示する。観測端末300は、表示されたコンテンツに対する視聴者の反応を認識し、サーバ100にその情報を送信する。
サーバ100は、その情報を使用して報酬を計算し、Q値データベース133を更新する。Q値データベース133は、行動(表示コンテンツ)と状態のペアのQ値管理する。Q値は、評価値である。行動選択プログラム121は、Q学習アルゴリズムに従って次に表示するコンテンツを決定し、そのコンテンツを表示端末200に送信する。
図1は、実施例1に係る情報レコメンドシステムの構成例を示す。表示端末200を、まず説明する。表示端末200は、プロセッサ210、メモリデバイス220、表示デバイス230、通信インタフェース240を含む。各構成要素はバスによって互いに接続されている。デジタルサイネージシステムは、表示端末200の一例である。しかし、表示端末200は、デジタルサイネージシステムに限定されず、サーバ100からの要求に応じて、特定のコンテンツを視聴者に対して提示できればよい。
プロセッサ210は、メモリデバイス220に格納されたプログラムに従って、様々な演算処理を実行する。メモリデバイス220は、コンテンツ表示プログラム221を格納する。コンテンツ表示プログラム221は、特定のコンテンツを表示デバイス230において表示させる。表示デバイス230は、表示パネルに加え、スピーカ及び/又はタッチパネルを含んでもよく、表示デバイス230に代えてスピーカが実装されてもよい。
通信インタフェース240は表示端末200をネットワーク150に接続する。コンテンツ表示プログラム221は、メモリデバイス220に格納され、ネットワーク150及び通信インタフェース240を介して、サーバ100から、選択されたコンテンツを受信する。
次に、観測端末300を説明する。観測端末300は、プロセッサ310、メモリデバイス320、カメラ330、通信インタフェース340を含む。各構成要素はバスによって互いに接続されている。観測端末300の一例は、高機能カメラシステムであり、画像処理技術を記録された視聴者の映像に適用して、観測結果から情報を抽出する。
観測端末300は、高機能カメラシステムに限定されず、表示されたコンテンツに対する視聴者の反応を捉えることができればよい。例えば、観測端末300は、表示端末200に対する視聴者の入力(例えばタッチパネルでの選択)、視聴者が保持するスマートフォンから得られた情報、等の情報を使用できる。
プロセッサ310は、メモリデバイス320に格納されたプログラムに従って、様々な演算処理を実行する。メモリデバイス320は記憶装置であって、反応認識プログラム321を格納する。反応認識プログラム321は、カメラ330により補足された画像データを介して、公知の画像処理技術により、視聴者の反応を抽出する。反応の情報は、サーバ100に、通信インタフェース340を介して送信される。通信インタフェース340は、観測端末300をネットワーク150に接続する。
次に、サーバ100を説明する。サーバ100は、プロセッサ110、メモリデバイス120、補助記憶デバイス130、通信インタフェース140を含む。構成要素はバスで接続されている。通信インタフェース140は、サーバ100をネットワーク150に接続する。メモリデバイス120、補助記憶デバイス130又はこれらの組み合わせは、記憶装置である。
プロセッサ110は、メモリデバイス120が格納するプログラムに従って、様々な演算処理を実行する。メモリデバイス120は、行動選択プログラム121、Q値更新プログラム122、行動類似性計算プログラム123、報酬計算プログラム124、を格納する。一意のコンテンツの選択は、一意の行動と考えられる。従って、コンテンツの選択は、行動の選択と言える。
行動選択プログラム121は、εパラメータを有する。行動選択プログラム121は、表示端末200に送信して視聴者に表示するための行動(コンテンツ)を選択する二つのストラテジを有する。行動選択プログラム121は、εパラメータの値(0〜1)に基づいて、ストラテジを選択する。一方のストラテジは、Q値と独立に、行動データベースから行動を選択する。本実施例はランダムに行動を選択する。もう一方のストラテジは、Q値データベース133において最も高いQ値の行動を選択する。
Q値更新プログラム122は、Q値データベース133の更新において、Q値計算式と、行動類似性計算プログラム123の出力と、を使用する。行動類似性計算プログラム123は、選択された行動(コンテンツ)と他の残りの行動(コンテンツ)との間の類似性を、行動特徴量DB132に基づいて比較する。報酬計算プログラム124は、観測端末300から受信した、表示されたコンテンツに対する視聴者の反応に関する情報に基づいて、報酬値を計算する。
補助記憶デバイス130は、例えば不揮発性記憶媒体を含み、行動データベース131、行動特徴量データベース132、Q値データベース133を格納する。行動データベース131は、視聴者に推奨するために使用される(表示される)コンテンツを集めたものである。そのデータサイズは、通常大きなものであり、多くのコンテンツが含まれる。行動データベース131の構成例は、後に、図3を参照して詳述される。
行動特徴量データベース132は、各コンテンツの特徴量情報を格納しており、特徴量の組み合わせは、一意のコンテンツを示す。行動特徴量データベース132の構成例は、後に、図4を参照して詳述される。
Q値データベース133は、状態及び行動のペアと関連付けられる、総計Q値と部分Q値とを格納する。定義される状態の例は、「コンテンツ表示の開始」(0)と「コンテンツ表示の終了」(1)、である。「コンテンツ表示の開始」(0)と「コンテンツ表示の終了」(1)は、「コンテンツ表示の開始」及び「コンテンツ表示の終了」の状態が、0及び1で表わされることを示す。
一つの行動は、行動データベース131からの一意のコンテンツの選択又は表示であり、一つの行動は一つのコンテンツに対応する。総計Q値は、状態と行動のペアの評価値であり、つまり、ある状態で表示するコンテンツの評価値である。総計Q値が高い程、そのコンテンツを視聴者に対して表示することがより適切であることを意味する。
部分Q値は、コンテンツの特徴量に対して与えられる。部分Q値と総計Q値との関係は予め定義されている。なお、部分Q値は使用しなくてもよく、部分Q値の定義によっては、Q値データベース133に格納されていなくてもよい。部分Q値、部分Q値と総計Q値との関係の詳細は後述される。Q値データベース133の構成例は、後に、図5を参照して詳述される。
図2は、実施例1に係る情報レコメントシステムの機能ブロック図を示す。例えば、観測端末300の不図示のプログラムが、画像データから、表示端末200に近づいている潜在的視聴者を検知すると、それを行動選択部1210に通知する。行動選択部1210は、状態が、「コンテンツ表示の終了」(1)から「コンテンツ表示の開始」(0)に変化したと判定する。
行動選択部1210は、ランダムに、又は、Q値データベース133における最高Q値に基づいて、行動データベース131からコンテンツを選択する。行動選択部1210は、行動選択プログラム121を実行するプロセッサ110により実現される。コンテンツデータは、コンテンツ表示部2210に送信される。行動選択部1210の処理フローは、後に、図6を参照して詳述される。
コンテンツ表示部2210は、行動選択部1210からコンテンツデータを受信し、画面において視聴者にコンテンツを可視化する。コンテンツ表示部2210は、コンテンツ表示プログラム221を実行するプロセッサ210により実現される。
コンテンツが視聴者に表示された後、視聴者が表示されたコンテンツに対して反応する。視聴者は、推奨されているコンテンツを気に入り、推奨されているコンテンツに従って行動を起こすことを決定するかもしれない。または、視聴者は、推奨されているコンテンツを気に入らず、推奨されているコンテンツに対して何も行動を起こさないかもしれない。
例えば、コメディのコンテンツが視聴者に表示された場合、視聴者が気に入れば、視聴者は微笑むであろうし、そうでばければ、微笑まないであろう。画面に表示されたポスタによって視聴者に行先が推奨される場合、視聴者が気に入れば、推奨された場所に行くであろうし、そうでないならば、推奨された場所に行かないであろう。
反応認識部3110は、そのような視聴者からの反応を認識することができる。例えば、反応認識部3110は、視聴者の画像データに対して公知の画像処理を行うことで、視聴者の動作を特定し、当該動作から視聴者のコンテンツへの興味の有無を判定する。または、反応認識部3110は、視聴者のスマートフォンから取得した情報から、視聴者が訪れた場所の情報を取得する。
反応認識部3110は、反応認識プログラム321を実行するプロセッサ310により実現される。反応認識部3110が取得する情報は、例えば、コンテンツを視聴している視聴者の数、そのコンテンツを気に入った視聴者の数、そのコンテンツが気に入らない視聴者の数、等である。なお、これらに限定はされない。反応認識部3110が取得する情報は、報酬計算部1240に送信される。
報酬計算部1240は、反応認識部3210から、表示されたコンテンツを見た視聴者の反応についての情報データを受信する。報酬計算部1240は、受信したデータを変換して、表示されたコンテンツがどれほど有効であるかを決定するための、報酬と呼ばれる一つのメトリックを生成する。
変換の一例は、視聴者の総数に対する、ポジティブな反応を示した者の比である。報酬rは、0から1の範囲の値を有する。なお、これは一例であって、報酬rの決定方法はこれに限定されるものではない。また、報酬計算部1240が、反応認識部3210からデータを受信することは、システムが視聴者から反応を得たことを示し、システムは、状態を「コンテンツ表示の開始」(0)から「コンテンツ表示の終了」(1)に変更する。
行動類似性計算部1230は、表示されたコンテンツと、行動特徴量データベース132における残りのコンテンツとを、比較する。行動類似性計算部1230は、プロセッサ110が行動類似性計算プログラム123を実行することで実現される。各コンテンツにおける特徴量の値を比較することによって、行動類似性計算部1230は、表示されたコンテンツに類似するコンテンツを見出すことができる。
例えば、行動類似性計算部1230は、規定数(例えば一つ)以上の特徴量の値が同一である場合に、二つのコンテンツが類似していると判定する。これにより、簡便かつ適切に類似コンテンツを見る蹴ることができる。行動類似性計算部1230は、行動特徴量データベース132を参照して、表示されたコンテンツに対して、各類似コンテンツのどの特徴量が同一であるか、特定することができる。行動類似性計算部1230の処理フローは、後に、図7を参照して詳述される。
Q値更新部1220は、Q値データベース133における総計Q値及び部分Q値を更新する。Q値更新部1220は、Q値更新プログラム122を実行するプロセッサ110により実現される。視聴者に対して表示されたコンテンツの総計Q値は、次の式に従って更新できる。
Figure 0006700146
ここで、Qtotal(s、a)は、表示されたコンテンツの総計Q値である。sは、現在の状態であり、視聴者にコンテンツが表示されている場合、その状態は、「コンテンツ表示の開始」(0)である。aは現在の行動(コンテンツ)である。αは、学習レートである。0から1の値を取り、システムが、どの程度、最新の情報から学習すべきかを示す。この値は、システム設計者によって、システムに応じて予め設定される。一般に、最初の行動において1に設定され、その後、0.5が選択される。
rは表示されたコンテンツに対する視聴者の反応から計算される報酬である。γは、ディスクカウントファクタである。0から1の値を取り、より先の未来における報酬よりも、より近い未来における報酬対してより多くの重みを与える。この値は、システム設計者によって、システムに応じて予め設定される。一般に、1に設定される。
s’は次の状態であり、a’は、次の状態における行動(次の行動)である。maxa’total(s’,a’)は、次の状態s’において最も高い総計Q値のコンテンツ(行動)a’を選択した場合の総計Q値である。「コンテンツ表示の開始」(0)と「コンテンツ表示の終了」(1)が定義されている例において、「コンテンツ表示の開始」(0)の次の状態は「コンテンツ表示の終了」(1)である。
以下に記載する例において、状態「コンテンツ表示の終了」(1)における全ての総計Q値は0である。つまり、maxa’total(s’,a’)は0である。例えば、状態「コンテンツ表示の終了」(1)に対して、数式(1)は適用されない、又は、γが0である。状態「コンテンツ表示の終了」(1)において視聴者が存在しないため、報酬rは0である。
上述のように、視聴者は、コンテンツ全体に対して反応を示し、その反応に対する報酬rに基づいて、総計Q値が更新される。表示するコンテンツは、総計Q値に基づいて選択される。コンテンツが初めて表示されるとき、表示されたコンテンツに類似するコンテンツとして、更新前の総計Q値が初期値から更新されていることがある。この場合、更新前の総計Q値が維持される、又は、初期値にリセットされてもよい。類似コンテンツとしてのQ値を維持することで、これまでの学習を利用することができる。リセットすることで、当該コンテンツに対する実際の視聴者の反応に応じたQ値を得ることができる。
次に、一つの特徴に対して与えれる部分Q値は、次の式で決定される。
Figure 0006700146
ここで、kは、各行動(コンテンツ)における特徴量の数である。視聴者は、コンテンツ全体に対して反応を示すため、総計Q値が特徴量それぞれに等分に割り当てられる。異なる特徴量に対して異なる部分Q値が割り当てられてもよい。表示されたコンテンツの総計Q値から部分Q値を決定することで、適切に部分Q値を決定できる。
次に、表示されたコンテンツに類似するコンテンツの総計Q値と部分Q値の更新で使用される数式を説明する。類似コンテンツの部分Q値は、次の式に従って更新される。更新される部分Q値は、表示されたコンテンツと類似するコンテンツとの間において類似する特徴量の部分Q値である。本例においては、表示コンテンツと類似コンテンツとにおいて、同一の値を有する特徴量の部分Q値が更新される。
Figure 0006700146
Q’feature(s,asimilar)は、類似コンテンツの一つの特徴量に対する部分Q値である。asimilarは、表示されたコンテンツに類似するコンテンツ(行動)である。表示コンテンツの部分Q値(Qfeature)の値は、視聴者の反応に応じた更新後の値である。
maxa’Q’feature(s’,a’)は、次の状態s’において、当該特徴量の値が同一であるコンテンツ(類似するコンテンツ)(行動)の内、最も高い部分Q値(最も高い部分Q値のコンテンツ(行動)を選択した場合の部分Q値)である。上述のように、以下に記載する例において、この値は0である。
類似コンテンツの総計Q値は、次の数式に従って更新される。
Figure 0006700146
feature_iは、特徴量iの部分Q値である。数式(4)において、各部分Q値に重み係数が与えられてもよい。数式(3)が示すように、類似するコンテンツの特徴量の部分Q値は、表示コンテンツの同一特徴量の部分Q値に基づき更新される。数式(4)が示すように、類似するコンテンツの総計Q値は、更新された部分Q値に基づき更新される。特徴量単位で類似コンテンツのQ値を更新することで、表示コンテンツと類似コンテンツとの間の類似度に応じて類似コンテンツの総計Q値を更新することができる。
Q値更新部1220は、他の方法によって、類似するコンテンツの総計Q値を更新してもよい。例えば、Q値更新部1220は、類似するコンテンツにおける、表示されたコンテンツと同一の特徴量の数(割合)と、表示されたコンテンツの更新された総計Q値に基づき、類似するコンテンツの総計Q値を更新してもよい。
Q値を更新した後、状態が「コンテンツ表示の開始」(1)に切り替わると、行動選択部1210が呼び出される。Q値更新部1220の処理フローは、後に、図8を参照して詳述する。
図3は、実施例1に係る行動データベース131の構成例を示す。行動データベース131は、行動IDカラム301、コンテンツ名カラム302、表示コンテンツカラム303を有する。
行動IDカラム301は、表示されるコンテンツを一意に同定する整数を示す。コンテンツ名カラム302は、表示されるコンテンツの名前を示す。例えば、東京タワーや、明示神宮と言った名称である。表示コンテンツカラム303は、例えば、視聴者に表示される実際の画像を格納する、又は、画像ファイルの格納位置(パス)を示す。これにより、コンテンツ表示プログラム221は、関連するコンテンツを認識し、表示できる。
図4は、実施例1に係る行動特徴量データベース132の構成例を示す。行動特徴量データベース132は、行動IDカラム401、特徴量1カラム402、特徴量2カラム403、特徴量3カラム404を有する。
行動IDカラム401は、行動データベース131の行動IDカラム301の値と関連付けられている、整数を示す。特徴量1カラム402は、例えば、表示されるコンテンツの画像についての特徴量であり、例えば、画像における対象の種類を示す。特徴量2カラム403は、例えば、表示されるコンテンツにおけるテキストを示す。特徴量3カラム404は、例えば、表示されるコンテンツにおける主題の時間を示す。
特徴量の値は、例えば、数値コード又は文字列で示すことができる。コンテンツが同一の値を有するか比較できれば、どのようなタイプの値でもよい。コンテンツを正確に記述できれば、特徴量の数や種類は限定されない。
図5は、実施例1に係るQ値データベース133の構成例を示す。Q値データベース133は、状態IDカラム501、行動IDカラム502、部分Q1カラム503、部分Q2カラム504、部分Q3カラム505、総計Qカラム506、を有する。
状態IDカラム501は、システム状態を示す。「コンテンツ表示の開始」(0)と、「コンテンツ表示の終了」(1)が定義されている。状態の数及び種類は、設計や表示するコンテンツに依存する。例えば、レストランの日替わりメニューが表示コンテンツである場合、状態は曜日を示すことができる。行動IDカラム502は、行動データベース131における行動ID301と関連付けられている整数を示す。
部分Q1カラム503は、行動特徴量データベース132における特徴量1と関連付けられている部分Q値を示す。部分Q2カラム504は、行動特徴量データベース132における特徴量2と関連付けられている部分Q値を示す。部分Q3カラム505は、行動特徴量データベース132における特徴量3と関連付けられている部分Q値を示す。総計Qカラム506は、関連付けられている状態及び行動の総計Q値を示す。システム動作開始時(学習開始時)、いずれの行動も選択されておらず、全ての総計Q値と全ての部分Q値は、0に初期化されている。
なお、Q値データベース133は、各レコード(状態IDと行動IDのペア)が選択済み(表示済み)か示す情報を保持してもよい。例えば、Q値データベース133は、各レコードが選択済みフラグを格納するカラムをさらに有してもよい。
図6は、実施例1に係る行動選択部1210のフローチャートを示す。状態の変化に応じて、行動選択処理が開始される。行動選択処理は、Q学習モデルに従い、サーバ100のプロセッサ110により実行される。まず、プロセッサ110は、0から1の範囲おいてランダム数を生成する(S601)。
プロセッサ110は、ランダム数をεと比較する(S602)。εは、システム設計者により、システムに応じて予め設定されたパラメータである。εは、システムが、最善行動を利用する(Exploit)よりも、いくつかの行動を探索する(Explore)割合を示す。例えば、εは0.5に設定され、50%の割合(確率)で探索がなされ、50%の割合(確率)で最善行動が利用される。
ステップS602の処理により、ランダム数がεより大きいと判定されると(S602:YES)、プロセッサ110は、Q値データベース133において、システムの状態と同一の状態において最も高い総計Q値を、検索する。最も高い総計Q値に関連付けられている行動IDが、選択される(S604)。複数の行動IDが最も高い総計Q値に関連付けられている場合は、例えば、その中からランダムに一つが選択される。
一方、ステップS602の処理により、ランダム数がεより大きくないと判定されると(S602:NO)、プロセッサ110は、ランダムに、行動IDを行動データベース131から選択する(S603)。
次に、ステップS603又はS604において行動IDを選択した後、プロセッサ110は、行動データベース131から、表示するコンテンツを、選択した行動IDに基づいて読み出す(S605)。最後に、プロセッサ110は、表示端末200に、表示するコンテンツのデータを送信して、その表示を要求する(S606)。以上により、行動選択処理が終了する。上記説明から理解されるように、「コンテンツ表示の終了」(1)の状態においては、ランダムにコンテンツが選択される。
図7は、実施例1に係る行動類似性計算部1230のフローチャートを示す。行動類似性計算処理は、サーバ100のプロセッサ110により実行される。まず、行動選択部1210により選択された行動ID(そのコンテンツは表示端末200により表示されている)は、基準行動として設定される(S701)。この後のステップにおける全ての比較は、この基準行動に対して行われる。
次に、プロセッサ110は、行動特徴量データベース132における各行動をチェックするループを形成する(S702)。ただし、基準行動は除かれる。行動を検査するため、プロセッサ110は、検査されている行動に属する特徴量それぞれをチェックするもう一つのループを形成する(S703)。
プロセッサ110は、検査されている行動の検査されている特徴量の値が、基準行動の特徴量の値と同一であるか判定する(S704)。例えば、基準行動が行動ID「1」を有し、検査されている行動が行動ID「2」を有するとする。行動ID「1」の特徴量1の値が、行動ID「2」の特徴量1の値と比較され、それらが同一であるか判定される。例えば、双方の特徴量1が同一の「タワー」(図4の例を参照)を有する場合、それらは同一の値を有していると判定される。
検査対象の行動と基準行動とが、特徴量の同一の値を有していると、ステップS704で判定されると(S704:YES)、プロセッサ110は、検査対象の行動が、基準行動に類似していると判定し(S705)、同一値の特徴量を類似行動のリストに記録する(メモリデバイス120に格納する)(S706)。
検査対象行動と基準行動の特徴量が同一値を有していないと、ステップS704で判定されると(S704:NO)、プロセッサ110は、何も記録せず、検査対象行動の、全ての特徴量を検査したか判定する(S707)。検査対象行動の全ての特徴量の検査が終了していないと、ステップS707で判定されると(S707:NO)、プロセッサ110は、次の特徴量のために、ステップS703に戻る。
検査対象行動の全ての特徴量の検査が終了していると、ステップS707で判定されると(S707:YES)、プロセッサ110は、全ての行動の検査を終了したか判定する(S708)ステップS708において、全ての行動の検査は終了していないと判定されると(S708:NO)、プロセッサ110は、次の行動のために、ステップS702に戻る。ステップS708において、全ての行動の検査が終了していると判定されると(S708:YES)、プロセッサ110は、行動類似性計算処理を終了する。
上記処理においては、表示されているコンテンツと少なくとも一つの特徴量の値が同一であるコンテンツが、類似コンテンツと判定される。2以上の特徴量が同一値であることが類似と判定される条件でもよく、特徴量に重みがつけられており、重みの総計に基づいて類似が判定されてもよい。
図8は、実施例1に係るQ値更新部1220のフローチャートを示す。Q値更新処理は、サーバ100のプロセッサ110により実行される。プロセッサ110は、まず、選択されている行動(コンテンツ)の総計Q値を、数式(1)に従って計算し、Q値データベース133を更新する(S801)。選択されている行動のコンテンツが表示端末200において表示され、観測端末300から応答が得られている。次に、プロセッサ110は、選択されている行動の部分Q値を、数式(2)に従って計算し、Q値データベース133を更新する(S802)。
次に、プロセッサ110は、行動類似性計算部1230により類似する行動が検出されているか判定する(S803)。ステップS803において、行動類似性計算部1230により類似する行動が検出されていないと判定されると(S803:NO)、プロセッサ110は、Q値更新処理を終了する。
ステップS803において、行動類似性計算部1230により少なくとも一つの類似する行動が検出されたと判定されると(S803:YES)、プロセッサ110は、類似行動のリストをチェックする。類似行動の内の一つの行動が、過去に選択されたことがある場合、つまり、行動選択部1210に選択され、関連するコンテンツが表示されたことがある場合、プロセッサ110は、その行動を類似行動リストから削除される(S804)。
プロセッサ110は、全ての残っている類似行動の部分Q値を、数式(3)に従って計算し、Q値データベース133を更新する(S805)。最後に、プロセッサ110は、全ての残っている類似行動の総計Q値を、数式(4)に従って計算し、Q値データベース133を更新する(S806)。以上により、Q値更新処理が終了する。
以上のように、本実施例は、表示されたコンテンツのQ値の更新に応じて、表示されたコンテンツの類似するコンテンツのQ値を更新する。これにより、実際に表示されていないコンテンツのQ値を更新することができ、適切なコンテンツを表示するための学習時間を短縮することができる。
図9から11を参照して、実施例2を説明する。以下において、実施例1との相違点を主に説明する。実施例1において、全ての視聴者は、同一の嗜好をもっているとして見なされている。しかし、異なる視聴者のグループは、異なる背景及び異なる嗜好を有している。情報レコメンドシステムが、視聴者の各グループに対して、より適切なコンテンツを提供するために、本実施例は、状態空間を視聴者の特徴量(年齢範囲、性別、民族等)により表わし、視聴者認識プログラムを観測端末300に実装する。
図9は、実施例2に係る、情報レコメンドシステムの構成例を示す。観測端末300における視聴者認識プログラム332を除き、他の全て構成要素は、実施例1に係るシステムと同様である。観測端末300は、例えば、年齢範囲、性別、民族等の観点から、視聴者の特徴量を認識する。視聴者の一意のグループは、これら特徴量の一意の組み合わせに関連付けられる。
Q値データベース133は、状態IDカラム501において、「コンテンツ表示の開始」と「コンテンツ表示の終了」それぞれに、他の情報を追加して格納する。視聴者認識プログラム332により認識される特徴量は、ベクトルで表わすことができる。例えば、年齢範囲が10から20、男性、ラテン系の視聴者のグループは、〔2、1、5〕と表わされる。一方、年齢範囲が20から30、女性、ベトナム人の視聴者のグループは、〔3、2、10〕と表わされる。
図10は、実施例2に係る情報レコメンドシステムの機能ブロック図を示す。視聴者認識部3220以外の構成要素は、実施例1と同様である。潜在的視聴者のグループが、表示端末200に近づいているとき、視聴者認識部3220が起動され、画像処理技術により視聴者の映像を解析する。
視聴者認識部3220は、視聴者認識プログラム322を実行するプロセッサ310により実現される。視聴者認識部3220は、視聴者の例えば、年齢範囲、性別、民族を認識し、ベクトルで表わす。システムの状態は、視聴者を認識済みであって、「コンテンツ表示の開始」の状態〔2、1、5、0〕に変化する。最後の数字が、「コンテンツ表示の開始」を示す。
図11は、実施例2に係るQ値データベース133の構成例を示す。状態IDカラム1101が実施例1の図5の状態IDカラム501と異なる点を除き、カラム1102からカラム1106は、図5のカラム502からカラム506と同様である。
実施例1の状態カラムID501は、「コンテンツ表示の開始」又は「コンテンツ表示の終了」の状態を、0又は1で示す。本例の状態IDカラム1101は、視聴者の特徴量について情報を、さらに追加して示す。例えば、状態〔2、1、5、0〕は、「年齢範囲が10から20、男性、ラテン系の視聴者に、コンテンツ表示開始」を示し、状態〔2、1、5、1〕は、「年齢範囲が10から20、男性、ラテン系の視聴者に、コンテンツ表示終了」を示す。
行動選択部1210が、最も高い総計Q値の行動を利用する場合、行動選択部1210は、認識されている視聴者の特徴量と同じベクトルを含む状態IDのみを検索する。上述のように、Q値更新部1220は、Q値データベース133において、状態IDの値が、選択された状態IDの値と同一であって、表示コンテンツと同一又は類似するコンテンツのレコードを更新する。
本例において、Q値更新部1220は、認識された視聴者の特徴量(状態)と関連付けられており、実際に表示されたコンテンツの総計Q値と部分Q値を更新する。Q値更新部1220は、さらに、認識された視聴者の特徴量(状態)と関連付けられており、表示されたコンテンツと類似するコンテンツ(行動)の総計Q値と部分Q値を更新する。
より具体的には、Q値更新部1220は、認識されている視聴者の特徴量を含み「コンテンツ表示の開始」である状態IDと、表示されたコンテンツ(実行された行動)と、のペアの、総計Q値及び部分Q値を更新する。Q値更新部1220は、さらに、当該状態IDと、表示されたコンテンツ(実行された行動)に類似するコンテンツ(行動)と、のペアの、総計Q値及び部分Q値を更新する。
以上のように、本実施例によれば、視聴者の特徴に応じてQ値を管理することで、視聴者に嗜好により合致したコンテンツを表示することができる。
図12から図15を参照して、実施例3を説明する。実施例1において、行動選択部1210が行動を探索する場合、行動データベース131においてランダムに行動が選択される。しかし、ランダムに選択される行動が、最も高いQ値の行動である(最善行動の利用と同じである)可能性がある。または、既に選択済みの行動(表示済みのコンテンツ)である可能性もある。
したがって、情報ゲインに基づいて行動を探索することが学習のために効率的である。なぜなら、これまで未選択の特徴量の値を有する、これまで未選択の行動を選択することで、類似特徴量を有する他の行動についても、より多くの知見を得ることができるからである。
図12は、実施例3に係る情報レコメンドシステムの構成例を示す。情報ゲイン計算プログラム125が追加されている点を除き、実施例1の情報レコメンドシステムの構成と同様である。情報ゲイン計算プログラム125は、どの行動が最も未知の情報を有しているか、計算する。
コンテンツが選択され、視聴者に表示される場合、そのコンテンツの全ての部分Q値が更新され、さらに、類似コンテンツ(類似行動)の多くの部分Q値も更新される。したがって、更新されていない最も多くの部分Q値を有するコンテンツ(行動)が、最も探索すべきコンテンツ(行動)である。そのようなコンテンツ(行動)を探索することで、Q値データベース133は、ランダムに行動を選択する場合より早く、集束する。
図13は、実施例3に係る情報レコメンドシステムの機能ブロック図を示す。情報ゲイン計算部1250が追加されている点を除き、実施例1の機能ブロック図と同様である。行動選択部1210は、情報ゲイン計算部1250の出力、又は、Q値データベース133における最も高いQ値に基づいて、行動データベース131からコンテンツ(行動)を選択する。
情報ゲイン計算部1250は、情報ゲイン計算プログラム125を実行するプロセッサにより実現される。コンテンツデータは、コンテンツ表示部2210に送信される。実施例3に係る行動選択部1210の処理フローは、後に、図14を参照して詳述される。
情報ゲイン計算部1250は、全てのこれまでに未選択の行動について情報ゲインを計算し、最も高い情報ゲインのコンテンツ(行動)を選択して、返す。情報ゲイン計算部1250の処理フローは、後に、図15を参照して詳述される。
図14は、実施例3に係る行動選択部1210のフローチャートを示す。行動選択処理は、サーバ100のプロセッサ110により実行される。まず、プロセッサ110は、0から1の範囲おいてランダム数を生成する(S1401)。ランダム数は、εと比較される(S1402)。εは、システム設計者により予め設定されたパラメータである。εは、システムが、最善行動を利用するよりも、いくつかの行動を探索する割合を示す。例えば、εは0.5に設定され、50%の割合(確率)で探索がなされ、50%の割合(確率)で最善行動が利用される。
ステップS1402の処理により、ランダム数がεより大きいと判定されると(S1402:YES)、プロセッサ110は、Q値データベース133において、システムの状態と同一の状態において最も高い総計Q値を、検索する。最も高い総計Q値に関連付けられている行動IDが、選択される(S1404)。
一方、ステップS1402の処理により、ランダム数がεより大きくないと判定されると(S1402:NO)、プロセッサ110は、情報ゲイン計算プログラム125を呼び出し、最も情報ゲインが高い行動の行動IDを受信する(S1403)。
次に、ステップS1403又はS1404において行動IDを選択した後、プロセッサ110は、行動データベース131から表示するコンテンツを、選択した行動IDに基づいて読み出す(S1405)。最後に、プロセッサ110は、表示端末200に、表示するコンテンツのデータを表示端末200に送信して、その表示を要求する(S1406)。以上により、行動選択処理が終了する。
図15は、実施例3に係る情報ゲイン計算部1250のフローチャートを示す。情報ゲイン計算処理は、サーバ100のプロセッサ110により実行される。まず、プロセッサ110は、これまでに未選択のコンテンツ(行動)のそれぞれおいて、いくつの部分Q値が0と等しいかカウントする(S1501)。0の部分Q値は、その部分Q値が更新されたことがないことを示す。
Q値データベース133は、例えば、各レコード(状態IDと行動IDのペア)が選択済み(表示済み)か示す、ば選択済みフラグをさらに保持する。情報ゲイン計算部1250は、選択済みフラグを参照して、未選択のコンテンツ(行動)を特定できる。フラグは、行動選択部1210により更新される。
カウントが終了すると、プロセッサ110は、最もカウント数が多い行動を決定する(S1502)。最もカウント数が多い行動は、複数の場合もある。次に、プロセッサは、最も高いカウント数の行動が、複数であるか判定する(S1503)。ステップS1503において、最も高いカウント数の行動が、複数であると判定されると(S1503:YES)、プロセッサ110は、最も高いカウント数の複数の行動から、ランダムに選択した行動IDを、行動選択部1210に返す(S1504)。
ステップS1503において、最も高いカウント数の行動が、一つのみであると判定されると(S1503:NO)、プロセッサ110は、最も高いカウント数の行動の行動IDを、行動選択部1210に返す(S1505)。以上により、情報ゲイン計算処理が終了する。以上のように、本実施例によれば、更新度合が最も小さい未選択のコンテンツを選択して表示することで、学習効率を向上することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
100 サーバ、110 プロセッサ、120 メモリデバイス、121 行動選択プログラム、122 Q値更新プログラム、123 行動類似性計算プログラム、124 報酬計算プログラム、130 補助記憶デバイス、131 行動データベース、132 行動特徴量データベース、133 Q値データベース、140 通信インタフェース、200 表示端末、210 プロセッサ、220 メモリデバイス、221 コンテンツ表示プログラム、230 表示デバイス、240 通信インタフェース、300 観測端末、310 プロセッサ、320 メモリデバイス、330 カメラ、340 通信インタフェース、1210 行動選択部、1220 Q値更新部、1230 行動類似性計算部、1240 報酬計算部、1250 情報ゲイン計算部、2210 コンテンツ表示部、3210 反応認識部

Claims (8)

  1. 評価値に基づいて推奨するコンテンツを決定するシステムであって、
    記憶装置と、
    前記記憶装置に格納されているプログラムに従って動作するプロセッサと、を含み、
    前記記憶装置は、複数コンテンツの各コンテンツの複数の特徴量を管理する特徴量管理情報と、前記複数コンテンツの各コンテンツの評価値及び前記複数の特徴量の評価値を管理する評価値管理情報と、を格納し、
    前記プロセッサは、
    前記評価値管理情報が管理する前記複数コンテンツの評価値に基づいて、前記複数コンテンツから、提示する第1コンテンツを選択し、
    提示された前記第1コンテンツに対する視聴者の反応の情報を取得し、
    前記反応の情報と予め定められた基準とに基づいて、前記第1コンテンツに対する報酬値を決定し、
    前記報酬値に基づいて、前記評価値管理情報が管理する前記第1コンテンツの評価値及び前記複数の特徴量の評価値を更新し、
    前記第1コンテンツと前記類似するコンテンツとの間において、前記特徴量管理情報に基づいて、同一の値の特徴量を特定し、
    前記評価値管理情報が管理する前記類似するコンテンツの前記同一の値の特徴量の評価値を、前記第1コンテンツの前記同一の値の特徴量の評価値に基づいて更新し、前記類似するコンテンツの複数の特徴量の評価値に基づき前記評価値管理情報が管理する前記類似するコンテンツの評価値を更新し、
    前記類似するコンテンツの前記同一の値の特徴量の評価値の更新は、次の式に従う、
    Figure 0006700146
    Q’ feature :前記類似するコンテンツの一つの特徴量の評価値
    s:現在の状態
    s`:次の状態
    feature :前記第1コンテンツの前記一つの特徴量の評価値
    a:前記第1コンテンツ
    similar :前記類似するコンテンツ
    a`:次の状態でのコンテンツ
    α、γ:予め定められた0より大きく1以下の数値
    max a` Q’ featur (s`、a`):次の状態s`における、前記一つの特徴量の値が同一であるコンテンツのうちの、前記一つの特徴量の最大評価値、
    システム。
  2. 評価値に基づいて推奨するコンテンツを決定するシステムであって、
    記憶装置と、
    前記記憶装置に格納されているプログラムに従って動作するプロセッサと、を含み、
    前記記憶装置は、複数コンテンツの評価値を管理する評価値管理情報を格納し、
    前記プロセッサは、
    前記評価値管理情報が管理する前記複数コンテンツの評価値に基づいて、前記複数コンテンツから提示する第1コンテンツを選択し、
    提示された前記第1コンテンツに対する視聴者の反応の情報を取得し、
    前記反応の情報と予め定められた基準とに基づいて、前記第1コンテンツに対する報酬値を決定し、
    前記報酬値に基づいて、前記評価値管理情報が管理する前記第1コンテンツの評価値を更新し、
    前記第1コンテンツの評価値に基づいて、前記評価値管理情報が管理する前記第1コンテンツに類似するコンテンツの評価値を更新し、
    予め定められた確率で、提示するコンテンツを、前記評価値に基づいて選択するか、前記評価値から独立して選択するか、決定し、
    前記評価値から独立して前記提示するコンテンツを選択する場合に、これまでに提示されたことがないコンテンツであって、前記評価値管理情報において評価値の更新度合が最も少ないコンテンツから、前記提示するコンテンツを選択する、システム。
  3. 請求項2に記載のシステムであって、
    前記記憶装置は、前記複数コンテンツの各コンテンツの、複数の特徴量を管理する、特徴量管理情報を格納し、
    前記プロセッサは、
    前記第1コンテンツと前記類似するコンテンツとの間において、前記特徴量管理情報に基づいて、同一の値の特徴量を特定し、
    前記第1コンテンツの前記同一の値の特徴量の評価値に基づいて、前記類似するコンテンツの評価値を更新する、システム。
  4. 請求項3に記載のシステムであって、
    前記評価値管理情報は、前記複数コンテンツの各コンテンツの、前記複数の特徴量それぞれの評価値、を管理し、
    前記プロセッサは、
    前記評価値管理情報が管理する、前記類似するコンテンツの、前記同一の値の特徴量の評価値を、前記第1コンテンツの前記同一の値の特徴量の評価値に基づいて更新し、前記類似するコンテンツの評価値を前記類似するコンテンツの前記複数の特徴量の評価値に基づき決定する、システム。
  5. 請求項4に記載のシステムであって、
    前記類似するコンテンツの、前記同一の値の特徴量の評価値の更新は、次の式に従う、
    Figure 0006700146
    Q’ feature :前記類似するコンテンツの一つの特徴量の評価値
    s:現在の状態
    s`:次の状態
    feature :前記第1コンテンツの前記一つの特徴量の評価値
    a:前記第1コンテンツ
    similar :前記類似するコンテンツ
    a`:次の状態でのコンテンツ
    α、γ:予め定められた0より大きく1以下の数値
    max a` Q’ featur (s`、a`):次の状態s`における、前記一つの特徴量の値が同一であるコンテンツのうちの、前記一つの特徴量の最大評価値、
    システム。
  6. 請求項1又は2に記載のシステムであって、
    前記評価値管理情報は、視聴者の特徴量の値と前記複数コンテンツそれぞれの評価値との関係を管理し、
    前記プロセッサは、
    前記提示されたコンテンツの、前記視聴者の特徴量の値に関連付けられている評価値を更新し、
    前記類似するコンテンツの、前記視聴者の特徴量の値に関連付けられている評価値を更新する、システム。
  7. 計算機システムが、評価値に基づいて推奨するコンテンツを決定する方法であって、
    前記計算機システムが、
    複数コンテンツの評価値を管理する評価値管理情報が示す前記評価値に基づいて、前記複数コンテンツから、提示する第1コンテンツを選択し、
    提示された前記第1コンテンツに対する視聴者の反応の情報を取得し、
    前記反応の情報と予め定められた基準とに基づいて、前記第1コンテンツに対する報酬値を決定し、
    前記報酬値に基づいて、前記評価値管理情報において、前記第1コンテンツの評価値を更新し、
    前記第1コンテンツの評価値に基づいて、前記評価値管理情報において、前記第1コンテンツに類似するコンテンツの評価値を更新し、
    前記第1コンテンツの評価値に基づいて、前記評価値管理情報において、前記第1コンテンツに類似するコンテンツの評価値を更新し、
    予め定められた確率で、提示するコンテンツを、前記評価値に基づいて選択するか、前記評価値から独立して選択するか、決定し、
    前記評価値から独立して前記提示するコンテンツを選択する場合に、これまでに提示されたことがないコンテンツであって、前記評価値管理情報において評価値の更新度合が最も少ないコンテンツから、前記提示するコンテンツを選択する、方法。
  8. 計算機システムが、評価値に基づいて推奨するコンテンツを決定する方法であって、
    前記計算機システムが、
    複数コンテンツの各コンテンツの評価値及び複数の特徴量の評価値を管理する評価値管理情報を参照して決定した前記複数コンテンツの評価値に基づいて、前記複数コンテンツから、提示する第1コンテンツを選択し、
    提示された前記第1コンテンツに対する視聴者の反応の情報を取得し、
    前記反応の情報と予め定められた基準とに基づいて、前記第1コンテンツに対する報酬値を決定し、
    前記報酬値に基づいて、前記評価値管理情報が管理する前記第1コンテンツの評価値及び前記複数の特徴量の評価値を更新し、
    前記複数コンテンツの各コンテンツの前記複数の特徴量を管理する特徴量管理情報を参照して、前記第1コンテンツと前記類似するコンテンツとの間において、同一の値の特徴量を特定し、
    前記評価値管理情報が管理する前記類似するコンテンツの前記同一の値の特徴量の評価値を、前記第1コンテンツの前記同一の値の特徴量の評価値に基づいて更新し、前記類似するコンテンツの複数の特徴量の評価値に基づき前記評価値管理情報が管理する前記類似するコンテンツの評価値を更新し、
    前記類似するコンテンツの前記同一の値の特徴量の評価値の更新は、次の式に従う、
    Figure 0006700146
    Q’ feature :前記類似するコンテンツの一つの特徴量の評価値
    s:現在の状態
    s`:次の状態
    feature :前記第1コンテンツの前記一つの特徴量の評価値
    a:前記第1コンテンツ
    similar :前記類似するコンテンツ
    a`:次の状態でのコンテンツ
    α、γ:予め定められた0より大きく1以下の数値
    max a` Q’ featur (s`、a`):次の状態s`における、前記一つの特徴量の値が同一であるコンテンツのうちの、前記一つの特徴量の最大評価値、
    方法。
JP2016180181A 2016-09-15 2016-09-15 評価値に基づいて推奨するコンテンツを決定するシステム Expired - Fee Related JP6700146B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016180181A JP6700146B2 (ja) 2016-09-15 2016-09-15 評価値に基づいて推奨するコンテンツを決定するシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016180181A JP6700146B2 (ja) 2016-09-15 2016-09-15 評価値に基づいて推奨するコンテンツを決定するシステム

Publications (3)

Publication Number Publication Date
JP2018045476A JP2018045476A (ja) 2018-03-22
JP2018045476A5 JP2018045476A5 (ja) 2019-01-17
JP6700146B2 true JP6700146B2 (ja) 2020-05-27

Family

ID=61694779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016180181A Expired - Fee Related JP6700146B2 (ja) 2016-09-15 2016-09-15 評価値に基づいて推奨するコンテンツを決定するシステム

Country Status (1)

Country Link
JP (1) JP6700146B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021525921A (ja) * 2018-06-01 2021-09-27 システムズ アンド ソフトウェア エンタープライゼス, エルエルシーSystems And Software Enterprises, Llc 黙示的なフィードバックに基づく推奨システムのためのシステムおよび方法
JP6498345B1 (ja) * 2018-08-22 2019-04-10 株式会社リクルート 情報処理装置、プログラム及び表示制御方法

Also Published As

Publication number Publication date
JP2018045476A (ja) 2018-03-22

Similar Documents

Publication Publication Date Title
JP6615362B2 (ja) ユーザー似顔絵を取得する方法及び装置
US20180342004A1 (en) Cumulative success-based recommendations for repeat users
CN112313697A (zh) 用于生成描述角度增强的可解释的基于描述的推荐的系统和方法
US20190012683A1 (en) Method for predicting purchase probability based on behavior sequence of user and apparatus for the same
KR102219344B1 (ko) 자동 광고 대행 서버, 자동으로 광고 매체를 위한 캠페인 정보를 생성하여 광고의 집행을 대행하는 방법 및 상기 방법을 실행하기 위한 컴퓨터 프로그램
CN108205581B (zh) 生成数字媒介环境中的紧凑视频特征表示
US20190278814A1 (en) URL Normalization
US11921777B2 (en) Machine learning for digital image selection across object variations
JP6261547B2 (ja) 判定装置、判定方法及び判定プログラム
EP3008612A2 (en) Incorporating user usage of consumable content into recommendations
WO2018070995A1 (en) Diversifying media search results on online social networks
US10162868B1 (en) Data mining system for assessing pairwise item similarity
US20100211568A1 (en) Personalized recommendations on dynamic content
US20190034994A1 (en) Marketplace Feed Ranking on Online Social Networks
KR102191486B1 (ko) 자동 광고 대행 서버, 자동으로 광고 매체를 위한 캠페인 정보를 생성하여 광고의 집행을 대행하는 방법 및 상기 방법을 실행하기 위한 컴퓨터 프로그램
TW201723896A (zh) 搜尋輔助系統與方法
JP7130991B2 (ja) 広告表示システム、表示装置、広告出力装置、プログラム及び広告表示方法
US20180197107A1 (en) Identity prediction for unknown users of an online system
US20210365818A1 (en) System and method for explainable embedding-based recommendation system
CN106447419A (zh) 基于特征选择的拜访者标识
JP2016522486A (ja) 検索クエリに応答するコンテンツアイテムの質を高めるソーシャルネットワーク
US8346799B1 (en) Recent content rank adjustment with inverted decay
KR20200011915A (ko) 모의 사용자를 통한 통신
CN110169021B (zh) 用于过滤多条消息的方法和设备
JP6522050B2 (ja) 判定装置、学習装置、判定方法及び判定プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181127

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200414

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200430

R150 Certificate of patent or registration of utility model

Ref document number: 6700146

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees