JP6700146B2

JP6700146B2 - 評価値に基づいて推奨するコンテンツを決定するシステム

Info

Publication number: JP6700146B2
Application number: JP2016180181A
Authority: JP
Inventors: フォングエン; 高行秋山
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2016-09-15
Filing date: 2016-09-15
Publication date: 2020-05-27
Anticipated expiration: 2036-09-15
Also published as: JP2018045476A

Description

本発明は評価値に基づいて推奨するコンテンツを決定するシステムに関する。

従来、バナー、サイネージ、又は何らかの情報の推奨コンテンツ（おすすめコンテンツ）は、静的な態様で示されており、視聴者の嗜好に対応するように変化することはない。従来のシステムは、誰が、又はどのようなタイプの人が、コンテンツを視聴しているかについて、情報を有していない。ユーザについての情報を、クッキ、ブラウジングの履歴、又は行動追跡によって集めることができるオンライン環境と異なり、オフライン環境は、そのような情報を有していない。異なる視聴者が異なる嗜好を有することを鑑みれば、静的にコンテンツを全てのタイプの視聴者に表示する従来の方法は、非効率である。

繰り返し複数のコンテンツを表示する方法がある。しかし、これらコンテンツは、視聴者の興味に必ずしも沿ったものではなく、また、人手により適宜更新しないと、シーズンの傾向から外れたものとなってしまう。

推奨コンテンツを視聴している視聴者のタイプを認識し、最も適切なコンテンツを選択して視聴者に表示し、さらに、以前に表示されたコンテンツに対する視聴者の反応に基づいて、より良い選択をするように調整できる、自動情報レコメントシステムが望まれる。自動情報レコメンドシステムは、Ｑ学習を使用して、この目的を達成できる。

Ｑ学習は、モデルフリーの強化学習技術であり、エージェントが、その状態及び行動空間を探索し、所与の状態において実行する最善の行動を見出す。何が最善の行動であるかを判定するために、エージェントは、一般に、一つの行動を試し、取った行動から報酬又はペナルティを経験する。

Ｑ値は、（状態、行動）ペアの評価値を示すものであって、多くの繰り返しによって、所与の状態における最善の行動を見つけるために、計算及び更新される。一般のＱ学習方法は、「次元の呪い」と呼ばれる問題を有している。これは、状態と行動の数が増加すると、指数的に必要な計算量が増加する問題である。

Ｑ学習を使用した情報リコメンドシステムの設定においては、行動空間は、視聴者に提供しようとしているコンテンツプールで表わすことができる。視聴者に提供するコンテンツの可能なオプションが増加するにつれて、より多くの状態と行動の組み合わせを探索することが必要となり、結果的に、長い学習時間が必要となる。

視聴者に表示するために入手可能なコンテンツの数は膨大である。視聴者に全ての可能なオプションを示すには、実行不能な量の学習時間がかかり得る。学習時、システムは、まだ適切な行動を行わない。従って、長い学習時間により、多くの利益を失い、学習のために多くのコストがかかる。

行動空間を階層的にクラスタリングする技術が知られている。各行動は、一意のコンテンツを選択し、同一クラスタ内の全ての行動を同様に扱って、行動空間における行動の数を低減する。このような技術は、例えば、特開２００７−１６４４０６号公報に開示されている。

特開２００７−１６４４０６号公報

しかし、上記アプローチは、同一クラスタ内の行動が異なり、異なるクラスタの行動が類似している場合に、正確ではない。このように、従来の技術は、上記のような孤立した大きな行動空間の課題を解決する具体的な方法を有していない。従って、短い学習時間において、視聴者に対してより適切なコンテンツを選択して提示できる、システムが望まれる。

本発明の一態様は、評価値に基づいて推奨するコンテンツを決定するシステムであって、記憶装置と、前記記憶装置に格納されているプログラムに従って動作するプロセッサと、を含み、前記記憶装置は、複数コンテンツの評価値を管理する評価値管理情報を格納し、前記プロセッサは、前記評価値管理情報が示す前記評価値に基づいて、前記複数コンテンツから、提示する第１コンテンツを選択し、提示された前記第１コンテンツに対する視聴者の反応の情報を取得し、前記反応の情報と予め定められた基準とに基づいて、前記第１コンテンツに対する報酬値を決定し、前記報酬値に基づいて、前記評価値管理情報において、前記第１コンテンツの評価値を更新し、前記第１コンテンツの評価値に基づいて、前記評価値管理情報において、前記第１コンテンツに類似するコンテンツの評価値を更新する。

本発明の一態様によれば、短い学習時間において、視聴者に対してより適切なコンテンツを選択して提示できる。

実施例１に係る情報レコメンドシステムの構成例を示す。実施例１に係る情報レコメントシステムの機能ブロック図を示す。実施例１に係る行動データベースの構成例を示す。実施例１に係る行動特徴量データベースの構成例を示す。実施例１に係るＱ値データベースの構成例を示す。実施例１に係る行動選択部のフローチャートを示す。実施例１に係る行動類似性計算部のフローチャートを示す。実施例１に係るＱ値更新部のフローチャートを示す。実施例２に係る、情報レコメンドシステムの構成例を示す。実施例２に係る情報レコメンドシステムの機能ブロック図を示す。実施例２に係るＱ値データベースの構成例を示す。実施例３に係る情報レコメンドシステムの構成例を示す。実施例３に係る情報レコメンドシステムの機能ブロック図を示す。実施例３に係る行動選択部のフローチャートを示す。実施例３に係る情報ゲイン計算部のフローチャートを示す。

以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。各図において共通の構成については同一の参照符号が付されている。

以下に開示される情報レコメンドシステムは、提示されたコンテンツに対する視聴者の反応に基づいて、視聴者により適切なコンテンツを提示する。以下に開示する情報レコメンドシステは、例えば、空港、ショッピングモール、駅のような、オフライン環境において動作する。提示されるコンテンツは、バナー、サイネージ、音楽、映像等である。情報レコメンドシステムは、提示するコンテンツそれぞれの評価値（各コンテンツを提示する場合の評価値）を管理し、評価値に基づいて提示するコンテンツを選択する。

情報レコメンドシステムは、提示されたコンテンツに対する視聴者の反応に基づいて、提示したコンテンツの評価値を更新すると共に、提示したコンテンツに類似するコンテンツの評価値を更新する（学習）。これにより、提示したコンテンツに加え、実際に提示をしていないコンテンツを提示した場合の効果を、効果的に学習することができ、短い学習時間で、より適切なコンテンツを提示することができる。

一例において、情報レコメンドシステムは、コンテンツの複数の特徴量を管理し、特徴量に基づいてコンテンツ間の類似性を判定する。たとえば、情報レコメンドシステムは、値が一致する特徴量が規定数以上のコンテンツを、互いに類似するコンテンツと判定する。

例えば、情報レコメンドシステムは、提示したコンテンツにおいて、類似するコンテンツと同一値の特徴量を特定し、当該特徴量に対する評価値に基づいて、類似するコンテンツの評価値を更新する。これにより、提示したコンテンツと類似するコンテンツとの間の類似度に応じて、類似するコンテンツの評価値を更新できる。

図１〜８を参照して、実施例１を説明する。情報レコメンドシステムは、サーバ１００、表示端末２００、そして観測端末３００を含む。表示端末２００は、推奨コンテンツ（お勧めコンテンツ）を視聴者に表示する。観測端末３００は、表示されたコンテンツに対する視聴者の反応を認識し、サーバ１００にその情報を送信する。

サーバ１００は、その情報を使用して報酬を計算し、Ｑ値データベース１３３を更新する。Ｑ値データベース１３３は、行動（表示コンテンツ）と状態のペアのＱ値管理する。Ｑ値は、評価値である。行動選択プログラム１２１は、Ｑ学習アルゴリズムに従って次に表示するコンテンツを決定し、そのコンテンツを表示端末２００に送信する。

図１は、実施例１に係る情報レコメンドシステムの構成例を示す。表示端末２００を、まず説明する。表示端末２００は、プロセッサ２１０、メモリデバイス２２０、表示デバイス２３０、通信インタフェース２４０を含む。各構成要素はバスによって互いに接続されている。デジタルサイネージシステムは、表示端末２００の一例である。しかし、表示端末２００は、デジタルサイネージシステムに限定されず、サーバ１００からの要求に応じて、特定のコンテンツを視聴者に対して提示できればよい。

プロセッサ２１０は、メモリデバイス２２０に格納されたプログラムに従って、様々な演算処理を実行する。メモリデバイス２２０は、コンテンツ表示プログラム２２１を格納する。コンテンツ表示プログラム２２１は、特定のコンテンツを表示デバイス２３０において表示させる。表示デバイス２３０は、表示パネルに加え、スピーカ及び／又はタッチパネルを含んでもよく、表示デバイス２３０に代えてスピーカが実装されてもよい。

通信インタフェース２４０は表示端末２００をネットワーク１５０に接続する。コンテンツ表示プログラム２２１は、メモリデバイス２２０に格納され、ネットワーク１５０及び通信インタフェース２４０を介して、サーバ１００から、選択されたコンテンツを受信する。

次に、観測端末３００を説明する。観測端末３００は、プロセッサ３１０、メモリデバイス３２０、カメラ３３０、通信インタフェース３４０を含む。各構成要素はバスによって互いに接続されている。観測端末３００の一例は、高機能カメラシステムであり、画像処理技術を記録された視聴者の映像に適用して、観測結果から情報を抽出する。

観測端末３００は、高機能カメラシステムに限定されず、表示されたコンテンツに対する視聴者の反応を捉えることができればよい。例えば、観測端末３００は、表示端末２００に対する視聴者の入力（例えばタッチパネルでの選択）、視聴者が保持するスマートフォンから得られた情報、等の情報を使用できる。

プロセッサ３１０は、メモリデバイス３２０に格納されたプログラムに従って、様々な演算処理を実行する。メモリデバイス３２０は記憶装置であって、反応認識プログラム３２１を格納する。反応認識プログラム３２１は、カメラ３３０により補足された画像データを介して、公知の画像処理技術により、視聴者の反応を抽出する。反応の情報は、サーバ１００に、通信インタフェース３４０を介して送信される。通信インタフェース３４０は、観測端末３００をネットワーク１５０に接続する。

次に、サーバ１００を説明する。サーバ１００は、プロセッサ１１０、メモリデバイス１２０、補助記憶デバイス１３０、通信インタフェース１４０を含む。構成要素はバスで接続されている。通信インタフェース１４０は、サーバ１００をネットワーク１５０に接続する。メモリデバイス１２０、補助記憶デバイス１３０又はこれらの組み合わせは、記憶装置である。

プロセッサ１１０は、メモリデバイス１２０が格納するプログラムに従って、様々な演算処理を実行する。メモリデバイス１２０は、行動選択プログラム１２１、Ｑ値更新プログラム１２２、行動類似性計算プログラム１２３、報酬計算プログラム１２４、を格納する。一意のコンテンツの選択は、一意の行動と考えられる。従って、コンテンツの選択は、行動の選択と言える。

行動選択プログラム１２１は、εパラメータを有する。行動選択プログラム１２１は、表示端末２００に送信して視聴者に表示するための行動（コンテンツ）を選択する二つのストラテジを有する。行動選択プログラム１２１は、εパラメータの値（０〜１）に基づいて、ストラテジを選択する。一方のストラテジは、Ｑ値と独立に、行動データベースから行動を選択する。本実施例はランダムに行動を選択する。もう一方のストラテジは、Ｑ値データベース１３３において最も高いＱ値の行動を選択する。

Ｑ値更新プログラム１２２は、Ｑ値データベース１３３の更新において、Ｑ値計算式と、行動類似性計算プログラム１２３の出力と、を使用する。行動類似性計算プログラム１２３は、選択された行動（コンテンツ）と他の残りの行動（コンテンツ）との間の類似性を、行動特徴量ＤＢ１３２に基づいて比較する。報酬計算プログラム１２４は、観測端末３００から受信した、表示されたコンテンツに対する視聴者の反応に関する情報に基づいて、報酬値を計算する。

補助記憶デバイス１３０は、例えば不揮発性記憶媒体を含み、行動データベース１３１、行動特徴量データベース１３２、Ｑ値データベース１３３を格納する。行動データベース１３１は、視聴者に推奨するために使用される（表示される）コンテンツを集めたものである。そのデータサイズは、通常大きなものであり、多くのコンテンツが含まれる。行動データベース１３１の構成例は、後に、図３を参照して詳述される。

行動特徴量データベース１３２は、各コンテンツの特徴量情報を格納しており、特徴量の組み合わせは、一意のコンテンツを示す。行動特徴量データベース１３２の構成例は、後に、図４を参照して詳述される。

Ｑ値データベース１３３は、状態及び行動のペアと関連付けられる、総計Ｑ値と部分Ｑ値とを格納する。定義される状態の例は、「コンテンツ表示の開始」（０）と「コンテンツ表示の終了」（１）、である。「コンテンツ表示の開始」（０）と「コンテンツ表示の終了」（１）は、「コンテンツ表示の開始」及び「コンテンツ表示の終了」の状態が、０及び１で表わされることを示す。

一つの行動は、行動データベース１３１からの一意のコンテンツの選択又は表示であり、一つの行動は一つのコンテンツに対応する。総計Ｑ値は、状態と行動のペアの評価値であり、つまり、ある状態で表示するコンテンツの評価値である。総計Ｑ値が高い程、そのコンテンツを視聴者に対して表示することがより適切であることを意味する。

部分Ｑ値は、コンテンツの特徴量に対して与えられる。部分Ｑ値と総計Ｑ値との関係は予め定義されている。なお、部分Ｑ値は使用しなくてもよく、部分Ｑ値の定義によっては、Ｑ値データベース１３３に格納されていなくてもよい。部分Ｑ値、部分Ｑ値と総計Ｑ値との関係の詳細は後述される。Ｑ値データベース１３３の構成例は、後に、図５を参照して詳述される。

図２は、実施例１に係る情報レコメントシステムの機能ブロック図を示す。例えば、観測端末３００の不図示のプログラムが、画像データから、表示端末２００に近づいている潜在的視聴者を検知すると、それを行動選択部１２１０に通知する。行動選択部１２１０は、状態が、「コンテンツ表示の終了」（１）から「コンテンツ表示の開始」（０）に変化したと判定する。

行動選択部１２１０は、ランダムに、又は、Ｑ値データベース１３３における最高Ｑ値に基づいて、行動データベース１３１からコンテンツを選択する。行動選択部１２１０は、行動選択プログラム１２１を実行するプロセッサ１１０により実現される。コンテンツデータは、コンテンツ表示部２２１０に送信される。行動選択部１２１０の処理フローは、後に、図６を参照して詳述される。

コンテンツ表示部２２１０は、行動選択部１２１０からコンテンツデータを受信し、画面において視聴者にコンテンツを可視化する。コンテンツ表示部２２１０は、コンテンツ表示プログラム２２１を実行するプロセッサ２１０により実現される。

コンテンツが視聴者に表示された後、視聴者が表示されたコンテンツに対して反応する。視聴者は、推奨されているコンテンツを気に入り、推奨されているコンテンツに従って行動を起こすことを決定するかもしれない。または、視聴者は、推奨されているコンテンツを気に入らず、推奨されているコンテンツに対して何も行動を起こさないかもしれない。

例えば、コメディのコンテンツが視聴者に表示された場合、視聴者が気に入れば、視聴者は微笑むであろうし、そうでばければ、微笑まないであろう。画面に表示されたポスタによって視聴者に行先が推奨される場合、視聴者が気に入れば、推奨された場所に行くであろうし、そうでないならば、推奨された場所に行かないであろう。

反応認識部３１１０は、そのような視聴者からの反応を認識することができる。例えば、反応認識部３１１０は、視聴者の画像データに対して公知の画像処理を行うことで、視聴者の動作を特定し、当該動作から視聴者のコンテンツへの興味の有無を判定する。または、反応認識部３１１０は、視聴者のスマートフォンから取得した情報から、視聴者が訪れた場所の情報を取得する。

反応認識部３１１０は、反応認識プログラム３２１を実行するプロセッサ３１０により実現される。反応認識部３１１０が取得する情報は、例えば、コンテンツを視聴している視聴者の数、そのコンテンツを気に入った視聴者の数、そのコンテンツが気に入らない視聴者の数、等である。なお、これらに限定はされない。反応認識部３１１０が取得する情報は、報酬計算部１２４０に送信される。

報酬計算部１２４０は、反応認識部３２１０から、表示されたコンテンツを見た視聴者の反応についての情報データを受信する。報酬計算部１２４０は、受信したデータを変換して、表示されたコンテンツがどれほど有効であるかを決定するための、報酬と呼ばれる一つのメトリックを生成する。

変換の一例は、視聴者の総数に対する、ポジティブな反応を示した者の比である。報酬ｒは、０から１の範囲の値を有する。なお、これは一例であって、報酬ｒの決定方法はこれに限定されるものではない。また、報酬計算部１２４０が、反応認識部３２１０からデータを受信することは、システムが視聴者から反応を得たことを示し、システムは、状態を「コンテンツ表示の開始」（０）から「コンテンツ表示の終了」（１）に変更する。

行動類似性計算部１２３０は、表示されたコンテンツと、行動特徴量データベース１３２における残りのコンテンツとを、比較する。行動類似性計算部１２３０は、プロセッサ１１０が行動類似性計算プログラム１２３を実行することで実現される。各コンテンツにおける特徴量の値を比較することによって、行動類似性計算部１２３０は、表示されたコンテンツに類似するコンテンツを見出すことができる。

例えば、行動類似性計算部１２３０は、規定数（例えば一つ）以上の特徴量の値が同一である場合に、二つのコンテンツが類似していると判定する。これにより、簡便かつ適切に類似コンテンツを見る蹴ることができる。行動類似性計算部１２３０は、行動特徴量データベース１３２を参照して、表示されたコンテンツに対して、各類似コンテンツのどの特徴量が同一であるか、特定することができる。行動類似性計算部１２３０の処理フローは、後に、図７を参照して詳述される。

Ｑ値更新部１２２０は、Ｑ値データベース１３３における総計Ｑ値及び部分Ｑ値を更新する。Ｑ値更新部１２２０は、Ｑ値更新プログラム１２２を実行するプロセッサ１１０により実現される。視聴者に対して表示されたコンテンツの総計Ｑ値は、次の式に従って更新できる。

ここで、Ｑ_total（ｓ、ａ）は、表示されたコンテンツの総計Ｑ値である。ｓは、現在の状態であり、視聴者にコンテンツが表示されている場合、その状態は、「コンテンツ表示の開始」（０）である。ａは現在の行動（コンテンツ）である。αは、学習レートである。０から１の値を取り、システムが、どの程度、最新の情報から学習すべきかを示す。この値は、システム設計者によって、システムに応じて予め設定される。一般に、最初の行動において１に設定され、その後、０．５が選択される。

ｒは表示されたコンテンツに対する視聴者の反応から計算される報酬である。γは、ディスクカウントファクタである。０から１の値を取り、より先の未来における報酬よりも、より近い未来における報酬対してより多くの重みを与える。この値は、システム設計者によって、システムに応じて予め設定される。一般に、１に設定される。

ｓ’は次の状態であり、ａ’は、次の状態における行動（次の行動）である。ｍａｘ_ａ’Ｑ_total（ｓ’，ａ’）は、次の状態ｓ’において最も高い総計Ｑ値のコンテンツ（行動）ａ’を選択した場合の総計Ｑ値である。「コンテンツ表示の開始」（０）と「コンテンツ表示の終了」（１）が定義されている例において、「コンテンツ表示の開始」（０）の次の状態は「コンテンツ表示の終了」（１）である。

以下に記載する例において、状態「コンテンツ表示の終了」（１）における全ての総計Ｑ値は０である。つまり、ｍａｘ_ａ’Ｑ_total（ｓ’，ａ’）は０である。例えば、状態「コンテンツ表示の終了」（１）に対して、数式（１）は適用されない、又は、γが０である。状態「コンテンツ表示の終了」（１）において視聴者が存在しないため、報酬ｒは０である。

上述のように、視聴者は、コンテンツ全体に対して反応を示し、その反応に対する報酬ｒに基づいて、総計Ｑ値が更新される。表示するコンテンツは、総計Ｑ値に基づいて選択される。コンテンツが初めて表示されるとき、表示されたコンテンツに類似するコンテンツとして、更新前の総計Ｑ値が初期値から更新されていることがある。この場合、更新前の総計Ｑ値が維持される、又は、初期値にリセットされてもよい。類似コンテンツとしてのＱ値を維持することで、これまでの学習を利用することができる。リセットすることで、当該コンテンツに対する実際の視聴者の反応に応じたＱ値を得ることができる。

次に、一つの特徴に対して与えれる部分Ｑ値は、次の式で決定される。

ここで、ｋは、各行動（コンテンツ）における特徴量の数である。視聴者は、コンテンツ全体に対して反応を示すため、総計Ｑ値が特徴量それぞれに等分に割り当てられる。異なる特徴量に対して異なる部分Ｑ値が割り当てられてもよい。表示されたコンテンツの総計Ｑ値から部分Ｑ値を決定することで、適切に部分Ｑ値を決定できる。

次に、表示されたコンテンツに類似するコンテンツの総計Ｑ値と部分Ｑ値の更新で使用される数式を説明する。類似コンテンツの部分Ｑ値は、次の式に従って更新される。更新される部分Ｑ値は、表示されたコンテンツと類似するコンテンツとの間において類似する特徴量の部分Ｑ値である。本例においては、表示コンテンツと類似コンテンツとにおいて、同一の値を有する特徴量の部分Ｑ値が更新される。

Ｑ’_{ｆｅａｔｕｒｅ}（ｓ，ａ_{ｓｉｍｉｌａｒ}）は、類似コンテンツの一つの特徴量に対する部分Ｑ値である。ａ_{ｓｉｍｉｌａｒ}は、表示されたコンテンツに類似するコンテンツ（行動）である。表示コンテンツの部分Ｑ値（Ｑ_{ｆｅａｔｕｒｅ}）の値は、視聴者の反応に応じた更新後の値である。

ｍａｘ_ａ’Ｑ’_{ｆｅａｔｕｒｅ}（ｓ’，ａ’）は、次の状態ｓ’において、当該特徴量の値が同一であるコンテンツ（類似するコンテンツ）（行動）の内、最も高い部分Ｑ値（最も高い部分Ｑ値のコンテンツ（行動）を選択した場合の部分Ｑ値）である。上述のように、以下に記載する例において、この値は０である。

類似コンテンツの総計Ｑ値は、次の数式に従って更新される。

Ｑ_{ｆｅａｔｕｒｅ＿ｉ}は、特徴量ｉの部分Ｑ値である。数式（４）において、各部分Ｑ値に重み係数が与えられてもよい。数式（３）が示すように、類似するコンテンツの特徴量の部分Ｑ値は、表示コンテンツの同一特徴量の部分Ｑ値に基づき更新される。数式（４）が示すように、類似するコンテンツの総計Ｑ値は、更新された部分Ｑ値に基づき更新される。特徴量単位で類似コンテンツのＱ値を更新することで、表示コンテンツと類似コンテンツとの間の類似度に応じて類似コンテンツの総計Ｑ値を更新することができる。

Ｑ値更新部１２２０は、他の方法によって、類似するコンテンツの総計Ｑ値を更新してもよい。例えば、Ｑ値更新部１２２０は、類似するコンテンツにおける、表示されたコンテンツと同一の特徴量の数（割合）と、表示されたコンテンツの更新された総計Ｑ値に基づき、類似するコンテンツの総計Ｑ値を更新してもよい。

Ｑ値を更新した後、状態が「コンテンツ表示の開始」（１）に切り替わると、行動選択部１２１０が呼び出される。Ｑ値更新部１２２０の処理フローは、後に、図８を参照して詳述する。

図３は、実施例１に係る行動データベース１３１の構成例を示す。行動データベース１３１は、行動ＩＤカラム３０１、コンテンツ名カラム３０２、表示コンテンツカラム３０３を有する。

行動ＩＤカラム３０１は、表示されるコンテンツを一意に同定する整数を示す。コンテンツ名カラム３０２は、表示されるコンテンツの名前を示す。例えば、東京タワーや、明示神宮と言った名称である。表示コンテンツカラム３０３は、例えば、視聴者に表示される実際の画像を格納する、又は、画像ファイルの格納位置（パス）を示す。これにより、コンテンツ表示プログラム２２１は、関連するコンテンツを認識し、表示できる。

図４は、実施例１に係る行動特徴量データベース１３２の構成例を示す。行動特徴量データベース１３２は、行動ＩＤカラム４０１、特徴量１カラム４０２、特徴量２カラム４０３、特徴量３カラム４０４を有する。

行動ＩＤカラム４０１は、行動データベース１３１の行動ＩＤカラム３０１の値と関連付けられている、整数を示す。特徴量１カラム４０２は、例えば、表示されるコンテンツの画像についての特徴量であり、例えば、画像における対象の種類を示す。特徴量２カラム４０３は、例えば、表示されるコンテンツにおけるテキストを示す。特徴量３カラム４０４は、例えば、表示されるコンテンツにおける主題の時間を示す。

特徴量の値は、例えば、数値コード又は文字列で示すことができる。コンテンツが同一の値を有するか比較できれば、どのようなタイプの値でもよい。コンテンツを正確に記述できれば、特徴量の数や種類は限定されない。

図５は、実施例１に係るＱ値データベース１３３の構成例を示す。Ｑ値データベース１３３は、状態ＩＤカラム５０１、行動ＩＤカラム５０２、部分Ｑ１カラム５０３、部分Ｑ２カラム５０４、部分Ｑ３カラム５０５、総計Ｑカラム５０６、を有する。

状態ＩＤカラム５０１は、システム状態を示す。「コンテンツ表示の開始」（０）と、「コンテンツ表示の終了」（１）が定義されている。状態の数及び種類は、設計や表示するコンテンツに依存する。例えば、レストランの日替わりメニューが表示コンテンツである場合、状態は曜日を示すことができる。行動ＩＤカラム５０２は、行動データベース１３１における行動ＩＤ３０１と関連付けられている整数を示す。

部分Ｑ１カラム５０３は、行動特徴量データベース１３２における特徴量１と関連付けられている部分Ｑ値を示す。部分Ｑ２カラム５０４は、行動特徴量データベース１３２における特徴量２と関連付けられている部分Ｑ値を示す。部分Ｑ３カラム５０５は、行動特徴量データベース１３２における特徴量３と関連付けられている部分Ｑ値を示す。総計Ｑカラム５０６は、関連付けられている状態及び行動の総計Ｑ値を示す。システム動作開始時（学習開始時）、いずれの行動も選択されておらず、全ての総計Ｑ値と全ての部分Ｑ値は、０に初期化されている。

なお、Ｑ値データベース１３３は、各レコード（状態ＩＤと行動ＩＤのペア）が選択済み（表示済み）か示す情報を保持してもよい。例えば、Ｑ値データベース１３３は、各レコードが選択済みフラグを格納するカラムをさらに有してもよい。

図６は、実施例１に係る行動選択部１２１０のフローチャートを示す。状態の変化に応じて、行動選択処理が開始される。行動選択処理は、Ｑ学習モデルに従い、サーバ１００のプロセッサ１１０により実行される。まず、プロセッサ１１０は、０から１の範囲おいてランダム数を生成する（Ｓ６０１）。

プロセッサ１１０は、ランダム数をεと比較する（Ｓ６０２）。εは、システム設計者により、システムに応じて予め設定されたパラメータである。εは、システムが、最善行動を利用する（Ｅｘｐｌｏｉｔ）よりも、いくつかの行動を探索する（Ｅｘｐｌｏｒｅ）割合を示す。例えば、εは０．５に設定され、５０％の割合（確率）で探索がなされ、５０％の割合（確率）で最善行動が利用される。

ステップＳ６０２の処理により、ランダム数がεより大きいと判定されると（Ｓ６０２：ＹＥＳ）、プロセッサ１１０は、Ｑ値データベース１３３において、システムの状態と同一の状態において最も高い総計Ｑ値を、検索する。最も高い総計Ｑ値に関連付けられている行動ＩＤが、選択される（Ｓ６０４）。複数の行動ＩＤが最も高い総計Ｑ値に関連付けられている場合は、例えば、その中からランダムに一つが選択される。

一方、ステップＳ６０２の処理により、ランダム数がεより大きくないと判定されると（Ｓ６０２：ＮＯ）、プロセッサ１１０は、ランダムに、行動ＩＤを行動データベース１３１から選択する（Ｓ６０３）。

次に、ステップＳ６０３又はＳ６０４において行動ＩＤを選択した後、プロセッサ１１０は、行動データベース１３１から、表示するコンテンツを、選択した行動ＩＤに基づいて読み出す（Ｓ６０５）。最後に、プロセッサ１１０は、表示端末２００に、表示するコンテンツのデータを送信して、その表示を要求する（Ｓ６０６）。以上により、行動選択処理が終了する。上記説明から理解されるように、「コンテンツ表示の終了」（１）の状態においては、ランダムにコンテンツが選択される。

図７は、実施例１に係る行動類似性計算部１２３０のフローチャートを示す。行動類似性計算処理は、サーバ１００のプロセッサ１１０により実行される。まず、行動選択部１２１０により選択された行動ＩＤ（そのコンテンツは表示端末２００により表示されている）は、基準行動として設定される（Ｓ７０１）。この後のステップにおける全ての比較は、この基準行動に対して行われる。

次に、プロセッサ１１０は、行動特徴量データベース１３２における各行動をチェックするループを形成する（Ｓ７０２）。ただし、基準行動は除かれる。行動を検査するため、プロセッサ１１０は、検査されている行動に属する特徴量それぞれをチェックするもう一つのループを形成する（Ｓ７０３）。

プロセッサ１１０は、検査されている行動の検査されている特徴量の値が、基準行動の特徴量の値と同一であるか判定する（Ｓ７０４）。例えば、基準行動が行動ＩＤ「１」を有し、検査されている行動が行動ＩＤ「２」を有するとする。行動ＩＤ「１」の特徴量１の値が、行動ＩＤ「２」の特徴量１の値と比較され、それらが同一であるか判定される。例えば、双方の特徴量１が同一の「タワー」（図４の例を参照）を有する場合、それらは同一の値を有していると判定される。

検査対象の行動と基準行動とが、特徴量の同一の値を有していると、ステップＳ７０４で判定されると（Ｓ７０４：ＹＥＳ）、プロセッサ１１０は、検査対象の行動が、基準行動に類似していると判定し（Ｓ７０５）、同一値の特徴量を類似行動のリストに記録する（メモリデバイス１２０に格納する）（Ｓ７０６）。

検査対象行動と基準行動の特徴量が同一値を有していないと、ステップＳ７０４で判定されると（Ｓ７０４：ＮＯ）、プロセッサ１１０は、何も記録せず、検査対象行動の、全ての特徴量を検査したか判定する（Ｓ７０７）。検査対象行動の全ての特徴量の検査が終了していないと、ステップＳ７０７で判定されると（Ｓ７０７：ＮＯ）、プロセッサ１１０は、次の特徴量のために、ステップＳ７０３に戻る。

検査対象行動の全ての特徴量の検査が終了していると、ステップＳ７０７で判定されると（Ｓ７０７：ＹＥＳ）、プロセッサ１１０は、全ての行動の検査を終了したか判定する（Ｓ７０８）ステップＳ７０８において、全ての行動の検査は終了していないと判定されると（Ｓ７０８：ＮＯ）、プロセッサ１１０は、次の行動のために、ステップＳ７０２に戻る。ステップＳ７０８において、全ての行動の検査が終了していると判定されると（Ｓ７０８：ＹＥＳ）、プロセッサ１１０は、行動類似性計算処理を終了する。

上記処理においては、表示されているコンテンツと少なくとも一つの特徴量の値が同一であるコンテンツが、類似コンテンツと判定される。２以上の特徴量が同一値であることが類似と判定される条件でもよく、特徴量に重みがつけられており、重みの総計に基づいて類似が判定されてもよい。

図８は、実施例１に係るＱ値更新部１２２０のフローチャートを示す。Ｑ値更新処理は、サーバ１００のプロセッサ１１０により実行される。プロセッサ１１０は、まず、選択されている行動（コンテンツ）の総計Ｑ値を、数式（１）に従って計算し、Ｑ値データベース１３３を更新する（Ｓ８０１）。選択されている行動のコンテンツが表示端末２００において表示され、観測端末３００から応答が得られている。次に、プロセッサ１１０は、選択されている行動の部分Ｑ値を、数式（２）に従って計算し、Ｑ値データベース１３３を更新する（Ｓ８０２）。

次に、プロセッサ１１０は、行動類似性計算部１２３０により類似する行動が検出されているか判定する（Ｓ８０３）。ステップＳ８０３において、行動類似性計算部１２３０により類似する行動が検出されていないと判定されると（Ｓ８０３：ＮＯ）、プロセッサ１１０は、Ｑ値更新処理を終了する。

ステップＳ８０３において、行動類似性計算部１２３０により少なくとも一つの類似する行動が検出されたと判定されると（Ｓ８０３：ＹＥＳ）、プロセッサ１１０は、類似行動のリストをチェックする。類似行動の内の一つの行動が、過去に選択されたことがある場合、つまり、行動選択部１２１０に選択され、関連するコンテンツが表示されたことがある場合、プロセッサ１１０は、その行動を類似行動リストから削除される（Ｓ８０４）。

プロセッサ１１０は、全ての残っている類似行動の部分Ｑ値を、数式（３）に従って計算し、Ｑ値データベース１３３を更新する（Ｓ８０５）。最後に、プロセッサ１１０は、全ての残っている類似行動の総計Ｑ値を、数式（４）に従って計算し、Ｑ値データベース１３３を更新する（Ｓ８０６）。以上により、Ｑ値更新処理が終了する。

以上のように、本実施例は、表示されたコンテンツのＱ値の更新に応じて、表示されたコンテンツの類似するコンテンツのＱ値を更新する。これにより、実際に表示されていないコンテンツのＱ値を更新することができ、適切なコンテンツを表示するための学習時間を短縮することができる。

図９から１１を参照して、実施例２を説明する。以下において、実施例１との相違点を主に説明する。実施例１において、全ての視聴者は、同一の嗜好をもっているとして見なされている。しかし、異なる視聴者のグループは、異なる背景及び異なる嗜好を有している。情報レコメンドシステムが、視聴者の各グループに対して、より適切なコンテンツを提供するために、本実施例は、状態空間を視聴者の特徴量（年齢範囲、性別、民族等）により表わし、視聴者認識プログラムを観測端末３００に実装する。

図９は、実施例２に係る、情報レコメンドシステムの構成例を示す。観測端末３００における視聴者認識プログラム３３２を除き、他の全て構成要素は、実施例１に係るシステムと同様である。観測端末３００は、例えば、年齢範囲、性別、民族等の観点から、視聴者の特徴量を認識する。視聴者の一意のグループは、これら特徴量の一意の組み合わせに関連付けられる。

Ｑ値データベース１３３は、状態ＩＤカラム５０１において、「コンテンツ表示の開始」と「コンテンツ表示の終了」それぞれに、他の情報を追加して格納する。視聴者認識プログラム３３２により認識される特徴量は、ベクトルで表わすことができる。例えば、年齢範囲が１０から２０、男性、ラテン系の視聴者のグループは、〔２、１、５〕と表わされる。一方、年齢範囲が２０から３０、女性、ベトナム人の視聴者のグループは、〔３、２、１０〕と表わされる。

図１０は、実施例２に係る情報レコメンドシステムの機能ブロック図を示す。視聴者認識部３２２０以外の構成要素は、実施例１と同様である。潜在的視聴者のグループが、表示端末２００に近づいているとき、視聴者認識部３２２０が起動され、画像処理技術により視聴者の映像を解析する。

視聴者認識部３２２０は、視聴者認識プログラム３２２を実行するプロセッサ３１０により実現される。視聴者認識部３２２０は、視聴者の例えば、年齢範囲、性別、民族を認識し、ベクトルで表わす。システムの状態は、視聴者を認識済みであって、「コンテンツ表示の開始」の状態〔２、１、５、０〕に変化する。最後の数字が、「コンテンツ表示の開始」を示す。

図１１は、実施例２に係るＱ値データベース１３３の構成例を示す。状態ＩＤカラム１１０１が実施例１の図５の状態ＩＤカラム５０１と異なる点を除き、カラム１１０２からカラム１１０６は、図５のカラム５０２からカラム５０６と同様である。

実施例１の状態カラムＩＤ５０１は、「コンテンツ表示の開始」又は「コンテンツ表示の終了」の状態を、０又は１で示す。本例の状態ＩＤカラム１１０１は、視聴者の特徴量について情報を、さらに追加して示す。例えば、状態〔２、１、５、０〕は、「年齢範囲が１０から２０、男性、ラテン系の視聴者に、コンテンツ表示開始」を示し、状態〔２、１、５、１〕は、「年齢範囲が１０から２０、男性、ラテン系の視聴者に、コンテンツ表示終了」を示す。

行動選択部１２１０が、最も高い総計Ｑ値の行動を利用する場合、行動選択部１２１０は、認識されている視聴者の特徴量と同じベクトルを含む状態ＩＤのみを検索する。上述のように、Ｑ値更新部１２２０は、Ｑ値データベース１３３において、状態ＩＤの値が、選択された状態ＩＤの値と同一であって、表示コンテンツと同一又は類似するコンテンツのレコードを更新する。

本例において、Ｑ値更新部１２２０は、認識された視聴者の特徴量（状態）と関連付けられており、実際に表示されたコンテンツの総計Ｑ値と部分Ｑ値を更新する。Ｑ値更新部１２２０は、さらに、認識された視聴者の特徴量（状態）と関連付けられており、表示されたコンテンツと類似するコンテンツ（行動）の総計Ｑ値と部分Ｑ値を更新する。

より具体的には、Ｑ値更新部１２２０は、認識されている視聴者の特徴量を含み「コンテンツ表示の開始」である状態ＩＤと、表示されたコンテンツ（実行された行動）と、のペアの、総計Ｑ値及び部分Ｑ値を更新する。Ｑ値更新部１２２０は、さらに、当該状態ＩＤと、表示されたコンテンツ（実行された行動）に類似するコンテンツ（行動）と、のペアの、総計Ｑ値及び部分Ｑ値を更新する。

以上のように、本実施例によれば、視聴者の特徴に応じてＱ値を管理することで、視聴者に嗜好により合致したコンテンツを表示することができる。

図１２から図１５を参照して、実施例３を説明する。実施例１において、行動選択部１２１０が行動を探索する場合、行動データベース１３１においてランダムに行動が選択される。しかし、ランダムに選択される行動が、最も高いＱ値の行動である（最善行動の利用と同じである）可能性がある。または、既に選択済みの行動（表示済みのコンテンツ）である可能性もある。

したがって、情報ゲインに基づいて行動を探索することが学習のために効率的である。なぜなら、これまで未選択の特徴量の値を有する、これまで未選択の行動を選択することで、類似特徴量を有する他の行動についても、より多くの知見を得ることができるからである。

図１２は、実施例３に係る情報レコメンドシステムの構成例を示す。情報ゲイン計算プログラム１２５が追加されている点を除き、実施例１の情報レコメンドシステムの構成と同様である。情報ゲイン計算プログラム１２５は、どの行動が最も未知の情報を有しているか、計算する。

コンテンツが選択され、視聴者に表示される場合、そのコンテンツの全ての部分Ｑ値が更新され、さらに、類似コンテンツ（類似行動）の多くの部分Ｑ値も更新される。したがって、更新されていない最も多くの部分Ｑ値を有するコンテンツ（行動）が、最も探索すべきコンテンツ（行動）である。そのようなコンテンツ（行動）を探索することで、Ｑ値データベース１３３は、ランダムに行動を選択する場合より早く、集束する。

図１３は、実施例３に係る情報レコメンドシステムの機能ブロック図を示す。情報ゲイン計算部１２５０が追加されている点を除き、実施例１の機能ブロック図と同様である。行動選択部１２１０は、情報ゲイン計算部１２５０の出力、又は、Ｑ値データベース１３３における最も高いＱ値に基づいて、行動データベース１３１からコンテンツ（行動）を選択する。

情報ゲイン計算部１２５０は、情報ゲイン計算プログラム１２５を実行するプロセッサにより実現される。コンテンツデータは、コンテンツ表示部２２１０に送信される。実施例３に係る行動選択部１２１０の処理フローは、後に、図１４を参照して詳述される。

情報ゲイン計算部１２５０は、全てのこれまでに未選択の行動について情報ゲインを計算し、最も高い情報ゲインのコンテンツ（行動）を選択して、返す。情報ゲイン計算部１２５０の処理フローは、後に、図１５を参照して詳述される。

図１４は、実施例３に係る行動選択部１２１０のフローチャートを示す。行動選択処理は、サーバ１００のプロセッサ１１０により実行される。まず、プロセッサ１１０は、０から１の範囲おいてランダム数を生成する（Ｓ１４０１）。ランダム数は、εと比較される（Ｓ１４０２）。εは、システム設計者により予め設定されたパラメータである。εは、システムが、最善行動を利用するよりも、いくつかの行動を探索する割合を示す。例えば、εは０．５に設定され、５０％の割合（確率）で探索がなされ、５０％の割合（確率）で最善行動が利用される。

ステップＳ１４０２の処理により、ランダム数がεより大きいと判定されると（Ｓ１４０２：ＹＥＳ）、プロセッサ１１０は、Ｑ値データベース１３３において、システムの状態と同一の状態において最も高い総計Ｑ値を、検索する。最も高い総計Ｑ値に関連付けられている行動ＩＤが、選択される（Ｓ１４０４）。

一方、ステップＳ１４０２の処理により、ランダム数がεより大きくないと判定されると（Ｓ１４０２：ＮＯ）、プロセッサ１１０は、情報ゲイン計算プログラム１２５を呼び出し、最も情報ゲインが高い行動の行動ＩＤを受信する（Ｓ１４０３）。

次に、ステップＳ１４０３又はＳ１４０４において行動ＩＤを選択した後、プロセッサ１１０は、行動データベース１３１から表示するコンテンツを、選択した行動ＩＤに基づいて読み出す（Ｓ１４０５）。最後に、プロセッサ１１０は、表示端末２００に、表示するコンテンツのデータを表示端末２００に送信して、その表示を要求する（Ｓ１４０６）。以上により、行動選択処理が終了する。

図１５は、実施例３に係る情報ゲイン計算部１２５０のフローチャートを示す。情報ゲイン計算処理は、サーバ１００のプロセッサ１１０により実行される。まず、プロセッサ１１０は、これまでに未選択のコンテンツ（行動）のそれぞれおいて、いくつの部分Ｑ値が０と等しいかカウントする（Ｓ１５０１）。０の部分Ｑ値は、その部分Ｑ値が更新されたことがないことを示す。

Ｑ値データベース１３３は、例えば、各レコード（状態ＩＤと行動ＩＤのペア）が選択済み（表示済み）か示す、ば選択済みフラグをさらに保持する。情報ゲイン計算部１２５０は、選択済みフラグを参照して、未選択のコンテンツ（行動）を特定できる。フラグは、行動選択部１２１０により更新される。

カウントが終了すると、プロセッサ１１０は、最もカウント数が多い行動を決定する（Ｓ１５０２）。最もカウント数が多い行動は、複数の場合もある。次に、プロセッサは、最も高いカウント数の行動が、複数であるか判定する（Ｓ１５０３）。ステップＳ１５０３において、最も高いカウント数の行動が、複数であると判定されると（Ｓ１５０３：ＹＥＳ）、プロセッサ１１０は、最も高いカウント数の複数の行動から、ランダムに選択した行動ＩＤを、行動選択部１２１０に返す（Ｓ１５０４）。

ステップＳ１５０３において、最も高いカウント数の行動が、一つのみであると判定されると（Ｓ１５０３：ＮＯ）、プロセッサ１１０は、最も高いカウント数の行動の行動ＩＤを、行動選択部１２１０に返す（Ｓ１５０５）。以上により、情報ゲイン計算処理が終了する。以上のように、本実施例によれば、更新度合が最も小さい未選択のコンテンツを選択して表示することで、学習効率を向上することができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

１００サーバ、１１０プロセッサ、１２０メモリデバイス、１２１行動選択プログラム、１２２Ｑ値更新プログラム、１２３行動類似性計算プログラム、１２４報酬計算プログラム、１３０補助記憶デバイス、１３１行動データベース、１３２行動特徴量データベース、１３３Ｑ値データベース、１４０通信インタフェース、２００表示端末、２１０プロセッサ、２２０メモリデバイス、２２１コンテンツ表示プログラム、２３０表示デバイス、２４０通信インタフェース、３００観測端末、３１０プロセッサ、３２０メモリデバイス、３３０カメラ、３４０通信インタフェース、１２１０行動選択部、１２２０Ｑ値更新部、１２３０行動類似性計算部、１２４０報酬計算部、１２５０情報ゲイン計算部、２２１０コンテンツ表示部、３２１０反応認識部

Claims

評価値に基づいて推奨するコンテンツを決定するシステムであって、
記憶装置と、
前記記憶装置に格納されているプログラムに従って動作するプロセッサと、を含み、
前記記憶装置は、複数コンテンツの各コンテンツの複数の特徴量を管理する特徴量管理情報と、前記複数コンテンツの各コンテンツの評価値及び前記複数の特徴量の評価値を管理する評価値管理情報と、を格納し、
前記プロセッサは、
前記評価値管理情報が管理する前記複数コンテンツの評価値に基づいて、前記複数コンテンツから、提示する第１コンテンツを選択し、
提示された前記第１コンテンツに対する視聴者の反応の情報を取得し、
前記反応の情報と予め定められた基準とに基づいて、前記第１コンテンツに対する報酬値を決定し、
前記報酬値に基づいて、前記評価値管理情報が管理する前記第１コンテンツの評価値及び前記複数の特徴量の評価値を更新し、
前記第１コンテンツと前記類似するコンテンツとの間において、前記特徴量管理情報に基づいて、同一の値の特徴量を特定し、
前記評価値管理情報が管理する前記類似するコンテンツの前記同一の値の特徴量の評価値を、前記第１コンテンツの前記同一の値の特徴量の評価値に基づいて更新し、前記類似するコンテンツの複数の特徴量の評価値に基づき前記評価値管理情報が管理する前記類似するコンテンツの評価値を更新し、
前記類似するコンテンツの前記同一の値の特徴量の評価値の更新は、次の式に従う、

Ｑ’ _{ｆｅａｔｕｒｅ} ：前記類似するコンテンツの一つの特徴量の評価値
ｓ：現在の状態
ｓ`：次の状態
Ｑ _{ｆｅａｔｕｒｅ} ：前記第１コンテンツの前記一つの特徴量の評価値
ａ：前記第１コンテンツ
ａ _{ｓｉｍｉｌａｒ} ：前記類似するコンテンツ
ａ`：次の状態でのコンテンツ
α、γ：予め定められた０より大きく１以下の数値
ｍａｘ _ａ` Ｑ’ _{ｆｅａｔｕｒ} （ｓ`、ａ`）：次の状態ｓ`における、前記一つの特徴量の値が同一であるコンテンツのうちの、前記一つの特徴量の最大評価値、
システム。
評価値に基づいて推奨するコンテンツを決定するシステムであって、
記憶装置と、
前記記憶装置に格納されているプログラムに従って動作するプロセッサと、を含み、
前記記憶装置は、複数コンテンツの評価値を管理する評価値管理情報を格納し、
前記プロセッサは、
前記評価値管理情報が管理する前記複数コンテンツの評価値に基づいて、前記複数コンテンツから提示する第１コンテンツを選択し、
提示された前記第１コンテンツに対する視聴者の反応の情報を取得し、
前記反応の情報と予め定められた基準とに基づいて、前記第１コンテンツに対する報酬値を決定し、
前記報酬値に基づいて、前記評価値管理情報が管理する前記第１コンテンツの評価値を更新し、
前記第１コンテンツの評価値に基づいて、前記評価値管理情報が管理する前記第１コンテンツに類似するコンテンツの評価値を更新し、
予め定められた確率で、提示するコンテンツを、前記評価値に基づいて選択するか、前記評価値から独立して選択するか、決定し、
前記評価値から独立して前記提示するコンテンツを選択する場合に、これまでに提示されたことがないコンテンツであって、前記評価値管理情報において評価値の更新度合が最も少ないコンテンツから、前記提示するコンテンツを選択する、システム。
請求項２に記載のシステムであって、
前記記憶装置は、前記複数コンテンツの各コンテンツの、複数の特徴量を管理する、特徴量管理情報を格納し、
前記プロセッサは、
前記第１コンテンツと前記類似するコンテンツとの間において、前記特徴量管理情報に基づいて、同一の値の特徴量を特定し、
前記第１コンテンツの前記同一の値の特徴量の評価値に基づいて、前記類似するコンテンツの評価値を更新する、システム。
請求項３に記載のシステムであって、
前記評価値管理情報は、前記複数コンテンツの各コンテンツの、前記複数の特徴量それぞれの評価値、を管理し、
前記プロセッサは、
前記評価値管理情報が管理する、前記類似するコンテンツの、前記同一の値の特徴量の評価値を、前記第１コンテンツの前記同一の値の特徴量の評価値に基づいて更新し、前記類似するコンテンツの評価値を前記類似するコンテンツの前記複数の特徴量の評価値に基づき決定する、システム。
請求項４に記載のシステムであって、
前記類似するコンテンツの、前記同一の値の特徴量の評価値の更新は、次の式に従う、

Ｑ’ _{ｆｅａｔｕｒｅ} ：前記類似するコンテンツの一つの特徴量の評価値
ｓ：現在の状態
ｓ`：次の状態
Ｑ _{ｆｅａｔｕｒｅ} ：前記第１コンテンツの前記一つの特徴量の評価値
ａ：前記第１コンテンツ
ａ _{ｓｉｍｉｌａｒ} ：前記類似するコンテンツ
ａ`：次の状態でのコンテンツ
α、γ：予め定められた０より大きく１以下の数値
ｍａｘ _ａ` Ｑ’ _{ｆｅａｔｕｒ} （ｓ`、ａ`）：次の状態ｓ`における、前記一つの特徴量の値が同一であるコンテンツのうちの、前記一つの特徴量の最大評価値、
システム。
請求項１又は２に記載のシステムであって、
前記評価値管理情報は、視聴者の特徴量の値と前記複数コンテンツそれぞれの評価値との関係を管理し、
前記プロセッサは、
前記提示されたコンテンツの、前記視聴者の特徴量の値に関連付けられている評価値を更新し、
前記類似するコンテンツの、前記視聴者の特徴量の値に関連付けられている評価値を更新する、システム。
計算機システムが、評価値に基づいて推奨するコンテンツを決定する方法であって、
前記計算機システムが、
複数コンテンツの評価値を管理する評価値管理情報が示す前記評価値に基づいて、前記複数コンテンツから、提示する第１コンテンツを選択し、
提示された前記第１コンテンツに対する視聴者の反応の情報を取得し、
前記反応の情報と予め定められた基準とに基づいて、前記第１コンテンツに対する報酬値を決定し、
前記報酬値に基づいて、前記評価値管理情報において、前記第１コンテンツの評価値を更新し、
前記第１コンテンツの評価値に基づいて、前記評価値管理情報において、前記第１コンテンツに類似するコンテンツの評価値を更新し、
前記第１コンテンツの評価値に基づいて、前記評価値管理情報において、前記第１コンテンツに類似するコンテンツの評価値を更新し、
予め定められた確率で、提示するコンテンツを、前記評価値に基づいて選択するか、前記評価値から独立して選択するか、決定し、
前記評価値から独立して前記提示するコンテンツを選択する場合に、これまでに提示されたことがないコンテンツであって、前記評価値管理情報において評価値の更新度合が最も少ないコンテンツから、前記提示するコンテンツを選択する、方法。
計算機システムが、評価値に基づいて推奨するコンテンツを決定する方法であって、
前記計算機システムが、
複数コンテンツの各コンテンツの評価値及び複数の特徴量の評価値を管理する評価値管理情報を参照して決定した前記複数コンテンツの評価値に基づいて、前記複数コンテンツから、提示する第１コンテンツを選択し、
提示された前記第１コンテンツに対する視聴者の反応の情報を取得し、
前記反応の情報と予め定められた基準とに基づいて、前記第１コンテンツに対する報酬値を決定し、
前記報酬値に基づいて、前記評価値管理情報が管理する前記第１コンテンツの評価値及び前記複数の特徴量の評価値を更新し、
前記複数コンテンツの各コンテンツの前記複数の特徴量を管理する特徴量管理情報を参照して、前記第１コンテンツと前記類似するコンテンツとの間において、同一の値の特徴量を特定し、
前記評価値管理情報が管理する前記類似するコンテンツの前記同一の値の特徴量の評価値を、前記第１コンテンツの前記同一の値の特徴量の評価値に基づいて更新し、前記類似するコンテンツの複数の特徴量の評価値に基づき前記評価値管理情報が管理する前記類似するコンテンツの評価値を更新し、
前記類似するコンテンツの前記同一の値の特徴量の評価値の更新は、次の式に従う、

Ｑ’ _{ｆｅａｔｕｒｅ} ：前記類似するコンテンツの一つの特徴量の評価値
ｓ：現在の状態
ｓ`：次の状態
Ｑ _{ｆｅａｔｕｒｅ} ：前記第１コンテンツの前記一つの特徴量の評価値
ａ：前記第１コンテンツ
ａ _{ｓｉｍｉｌａｒ} ：前記類似するコンテンツ
ａ`：次の状態でのコンテンツ
α、γ：予め定められた０より大きく１以下の数値
ｍａｘ _ａ` Ｑ’ _{ｆｅａｔｕｒ} （ｓ`、ａ`）：次の状態ｓ`における、前記一つの特徴量の値が同一であるコンテンツのうちの、前記一つの特徴量の最大評価値、
方法。