JP2010067175A - ハイブリッド型コンテンツ推薦サーバ、推薦システムおよび推薦方法 - Google Patents

ハイブリッド型コンテンツ推薦サーバ、推薦システムおよび推薦方法 Download PDF

Info

Publication number
JP2010067175A
JP2010067175A JP2008235118A JP2008235118A JP2010067175A JP 2010067175 A JP2010067175 A JP 2010067175A JP 2008235118 A JP2008235118 A JP 2008235118A JP 2008235118 A JP2008235118 A JP 2008235118A JP 2010067175 A JP2010067175 A JP 2010067175A
Authority
JP
Japan
Prior art keywords
content
user
user profile
index
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008235118A
Other languages
English (en)
Inventor
Koichiro Mori
紘一郎 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008235118A priority Critical patent/JP2010067175A/ja
Priority to US12/404,508 priority patent/US20100070507A1/en
Publication of JP2010067175A publication Critical patent/JP2010067175A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

【課題】コンテンツベース型および協調フィルタリング型の両方の長所を有し、かつ、ユーザ数およびコンテンツ数が増加してもコンテンツの推薦を高速に行う。
【解決手段】コンテンツサーバからコンテンツのメタデータを含むコンテンツ情報を収集してコンテンツDB22に格納する。同様に、ユーザ端末からユーザのコンテンツに対する嗜好情報をユーザプロファイルとして収集してユーザプロファイルDB24に格納する。次に、コンテンツ情報およびユーザプロファイルに係るインデックスをそれぞれ作成してインデックスDB26に格納する。そして、ユーザプロファイルDB24から取得される被推薦ユーザに係るユーザプロファイルに基づいてインデックスDB26を参照し、被推薦ユーザの嗜好に適合したコンテンツを推薦する。
【選択図】図2

Description

本発明は、ユーザの嗜好に適合したコンテンツを推薦するコンテンツ推薦サーバ、推薦システムおよび推薦方法に関する。
近年、デジタル化にともない多数のコンテンツへのアクセスが可能になってきている。例えば、書籍、WeBサイト、ニュース記事、ブログ、テレビ番組、写真、音楽、動画などインターネット上には膨大なデジタル化されたコンテンツデータが蓄積されている。これらの膨大なコンテンツの中から興味のあるコンテンツをユーザが手動で探し出すのは難しくなっている。このような状況を改善するためにユーザの好みをシステムが自動的に把握して、ユーザが好むと思われるコンテンツを提示するコンテンツ推薦システム(例えば、特許文献1を参照)の重要性が高まっている。コンテンツ推薦システムを用いることでユーザは膨大なコンテンツの中から好みのコンテンツを容易に見つけ出すことができる。
コンテンツ推薦システムは大きく分けるとコンテンツベース型と協調フィルタリング型に分類できる。コンテンツベース型推薦システムは、コンテンツの内容に基づく手法の総称である。コンテンツベース型推薦システムは、ユーザが好むコンテンツと内容が類似した別のコンテンツを推薦するというのが基本的な方針である。
コンテンツが類似しているかの判断にはコンテンツの内容情報が必要となる。例えば、WeBサイト、ニュース記事、ブログといったテキストで表現されたコンテンツの場合、その中に含まれる単語を用いてどれくらい共通の単語があるかをもとに類似度が求められる。書籍やテレビ番組も著者、ジャンル、出演者、概要などのテキストメタデータが付与されているため同様に単語を用いて類似度が求められる。写真、音楽、動画などのマルチメディアデータの場合は、テキストメタデータが付与されている場合は単語を用いることもできるが、それがない場合でも画像ではカラーヒストグラム、音楽では波形、スペクトルなどの特徴ベクトルを用いて類似度が求められる。
協調フィルタリング型推薦システムは、他人のユーザプロファイルを利用する手法の総称である。ここでいうユーザプロファイルとは好きなコンテンツIDの集合を指している。協調フィルタリング型推薦システムは、自分と好みの傾向が類似している別のユーザを探し、そのユーザが好んでいて自分が知らないコンテンツを推薦してもらうというのが基本的な方針である。協調フィルタリング型推薦システムの特徴は、好みの傾向が類似しているユーザを探すのにコンテンツの内容は必要なく、コンテンツを識別するコンテンツIDだけがあればよい点である。協調フィルタリング型推薦システムはコンテンツの内容を解析する必要がないという利点から現在商用システムで幅広く用いられている。
まとめるとコンテンツベース型推薦システムは類似しているコンテンツを探す、協調フィルタリング型推薦システムは類似しているユーザを探すというのが両者のアプローチの大きな違いである。コンテンツベース型推薦システム、協調フィルタリング型推薦システムともに類似したコンテンツやユーザを探すという処理が基本にある。
近年、類似したコンテンツを高速に探すための手法あるいはデータ構造としてLSH(Locality Sensitive Hashing)が注目を集めている(例えば、非特許文献1、2、3を参照)。LSHは、近傍探索のアルゴリズムであり、コンテンツを予めハッシュと呼ばれるデータ構造に格納する(インデキシング)ことでクエリとして与えたコンテンツと類似したコンテンツを大規模なコンテンツ集合から非常に高速に探すことができる。
特開2008−67370号公報 A. Z. Broder, On the Resemblance and Containment of Documents, Proceedings of the Compression and Complexity of Sequences,1997. M. S. Charikar, Similarity Estimation Techniques from Rounding Algorithms, Proceedings of the 34th Annual ACM Symposium onTheory of Computing, 2002. M. Datar, N. Immorlica, P. Indyk and V. S. Mirrokni, Locality-Sensitive Hashing Scheme Based on p-Stable Distributions, Proceedings of the 20th Annual Symposium on Computational Geometry, 2004.
発明が解決する1つめの課題は、コンテンツベース型推薦システムと協調フィルタリング型推薦システムのトレードオフである。コンテンツベース型推薦システムと協調フィルタリング型推薦システムはどのようなコンテンツが推薦されるかに違いがある。コンテンツベース型推薦システムは、ユーザの好みに過剰に適合したコンテンツばかり推薦されるため推薦の幅が狭いという欠点があるが、協調フィルタリング型推薦システムは他のユーザの好みが反映されるため推薦の幅が広いという利点がある。
また、協調フィルタリング型推薦システムはユーザのプロファイルを必要とするため好む人が少ないニッチなコンテンツや追加されたばかりの新しいコンテンツは推薦できないという欠点があるが、コンテンツベース型推薦システムはそのようなコンテンツでも推薦できるという利点がある。
このように、コンテンツベース型推薦システムと協調フィルタリング型推薦システムはトレードオフの関係にあり、どちらか単独での利用では不十分な推薦しかできないという課題があった。
発明が解決する2つめの課題は、推薦のスケーラビリティである。スケーラビリティのある(=スケーラブルな)推薦システムとは、推薦システムの規模(ユーザ数、コンテンツ数)が大きくなっても高速に動作するシステムを指す。
先ほど述べたようにコンテンツベース型推薦システムは似ているコンテンツを探す、協調フィルタリング型推薦システムは似ているユーザを探すのが基本的なアプローチである。そのため、従来のコンテンツベース型推薦システムでは、コンテンツ数が増えるにしたがって、協調フィルタリング型推薦システムでは、ユーザ数が増えるにしたがってスケーラビリティが低下するという課題があった。
そこで、本発明は、上記従来技術の問題に鑑み、コンテンツベース型および協調フィルタリング型の両方の長所を有し、かつ、ユーザ数およびコンテンツ数が増加してもコンテンツの推薦を高速に行えるハイブリッド型コンテンツ推薦サーバ、推薦システム、および推薦方法を提供することを目的とする。
本発明に係るハイブリッド型コンテンツ推薦サーバは、ネットワークを介して接続されたコンテンツサーバからコンテンツのメタデータを含むコンテンツ情報を収集するコンテンツ情報収集部と、前記収集されたコンテンツ情報を格納するコンテンツDBと、前記ネットワークを介して接続されたユーザ端末からユーザの前記コンテンツに対する嗜好情報をユーザプロファイルとして収集するユーザプロファイル収集部と、前記収集されたユーザプロファイルを格納するユーザプロファイルDBと、前記コンテンツDBからコンテンツのメタデータを取得し、このメタデータから前記コンテンツに係るインデックスを作成するコンテンツインデクサと、前記ユーザプロファイルDBからユーザプロファイルを取得し、このユーザプロファイルに含まれるコンテンツをキーとして前記ユーザに係るインデックスを作成するユーザインデクサと、前記作成された前記コンテンツおよび前記ユーザに係るインデックスを格納するインデックスDBと、前記ユーザプロファイルDBから取得される被推薦ユーザに係る前記ユーザプロファイルに基づいて前記インデックスDBを参照し、前記被推薦ユーザの嗜好に適合したコンテンツを推薦するコンテンツ推薦部と、を有することを特徴とする。
本発明に係るハイブリッド型コンテンツ推薦システムは、コンテンツのメタデータを提供するコンテンツサーバと、このコンテンツサーバにネットワークを介して接続され、前記コンテンツのメタデータおよびユーザプロファイルを管理し、前記コンテンツの推薦リストを出力するコンテンツ推薦サーバと、このコンテンツ推薦サーバに前記ネットワークを介して接続され、前記コンテンツ推薦サーバから前記推薦リストを取得するユーザ端末と、からなり、前記コンテンツ推薦サーバは、前記コンテンツサーバからコンテンツのメタデータを含むコンテンツ情報を収集するコンテンツ情報収集部と、前記収集されたコンテンツ情報を格納するコンテンツDBと、前記ユーザ端末からユーザの前記コンテンツに対する嗜好情報をユーザプロファイルとして収集するユーザプロファイル収集部と、前記収集されたユーザプロファイルを格納するユーザプロファイルDBと、前記コンテンツDBからコンテンツのメタデータを取得し、このメタデータから前記コンテンツに係るインデックスを作成するコンテンツインデクサと、前記ユーザプロファイルDBからユーザプロファイルを取得し、このユーザプロファイルに含まれるコンテンツをキーとして前記ユーザに係るインデックスを作成するユーザインデクサと、前記作成された前記コンテンツおよび前記ユーザに係るインデックスを格納するインデックスDBと、前記ユーザプロファイルDBから取得される被推薦ユーザに係る前記ユーザプロファイルに基づいて前記インデックスDBを参照し、前記被推薦ユーザの嗜好に適合したコンテンツを推薦するコンテンツ推薦部と、を有することを特徴とする。
本発明に係るハイブリッド型コンテンツ推薦方法は、ネットワークを介して接続されたコンテンツサーバからコンテンツのメタデータを含むコンテンツ情報を収集するコンテンツ情報収集ステップと、前記ネットワークを介して接続されたユーザ端末からユーザの前記コンテンツに対する嗜好情報をユーザプロファイルとして収集するユーザプロファイル収集ステップと、前記収集されたコンテンツのメタデータから前記コンテンツに係るインデックスを作成するコンテンツインデックス作成ステップと、前記収集されたユーザプロファイルに含まれるコンテンツをキーとして前記ユーザに係るインデックスを作成するユーザインデックス作成ステップと、被推薦ユーザに係る前記ユーザプロファイルに基づいて前記コンテンツおよび前記ユーザに係るインデックスを参照し、前記被推薦ユーザの嗜好に適合したコンテンツを推薦するコンテンツ推薦ステップと、を有することを特徴とする。
本発明によれば、コンテンツベース型および協調フィルタリング型の両方の長所を有し、かつ、ユーザ数およびコンテンツ数が増加してもコンテンツの推薦を高速に行えるハイブリッド型コンテンツ推薦サーバ、推薦システム、および推薦方法が提供される。
以下、本発明の実施形態について図面を用いて説明する。まず、コンテンツの種類を限定せずにシステムの全体構成、モジュール構成、処理手順を説明し、その後、コンテンツをテキストメタデータで表現されたテレビ番組に限定したテレビ番組推薦システムに基づいて具体的に説明する。
<システムの全体構成>
図1は、本発明の一実施形態に係るコンテンツ推薦システムの全体構成を示すブロック図である。
コンテンツ推薦サーバ11は、プログラムを実行するCPU111、インデキシングプログラム、コンテンツ推薦プログラムをロードするRAM112、コンテンツDB、ユーザプロファイルDB、およびインデックスDBを格納するハードディスクドライブ113、他のサーバと情報の送受信を行うネットワーク機器114、コンテンツ推薦サーバ11と入力デバイス13間で情報の入出力を行う入出力機器115から構成される。ディスプレイ12と入力デバイス13は、コンテンツ推薦サーバ11の管理者がコンテンツの入力、更新などの管理を行うために必要な表示機器および入力機器である。
コンテンツサーバ14は、コンテンツ情報を管理している別のサーバである。例えば、コンテンツがテレビ番組の場合、コンテンツサーバ14は各放送局に当たり、そこからコンテンツ情報が送信されてくる。また、書籍、画像、楽曲、動画などのデータの場合、他社のコンテンツサーバが提供しているWebAPIを用いて取得することができる。
Webサーバ15は、コンテンツ推薦サーバ11とユーザ間のインタフェースを提供するサーバである。例えば、コンテンツ推薦サーバ11がコンテンツを表示し、ユーザは表示されたコンテンツの選択・視聴・購入・レイティングを行う。上述したユーザ行動に関する履歴情報は、Webサーバ15を通してコンテンツ推薦サーバ11に送られ、ユーザプロファイルとしてハードディスクドライブ113に保存される。
ネットワーク16は、コンテンツ推薦サーバ11とユーザ端末17を繋ぐインターネットなどの広域ネットワークである。ユーザ端末17は、ユーザがWebサーバ15にアクセスするための機器であり、ネットワーク16に接続可能であるとする。ユーザ端末17としては、例えばパーソナルコンピュータ、PDA、携帯電話、TV、ハードディスクレコーダなどが考えられる。ユーザ端末17にはディスプレイ18と入力デバイス19が備えられているとする。ディスプレイ18を通してコンテンツの閲覧やコンテンツ推薦サーバ11から送信されるコンテンツ推薦リストを閲覧できる。ユーザは、入力デバイス19を通してコンテンツの選択・視聴・購入・レイティングなどコンテンツに対する操作ができる。
<コンテンツ推薦サーバ11のモジュール構成>
図2は、コンテンツ推薦サーバ11のモジュール関係図である。
コンテンツ情報収集部21は、コンテンツサーバ14からコンテンツ本体やコンテンツのメタデータなどのコンテンツ情報を収集するモジュールである。コンテンツDB22は、コンテンツ情報収集部21で収集されたコンテンツ情報を格納するデータベースである。尚、コンテンツDB22には、コンテンツ本体は格納せずに、コンテンツのメタデータのみを格納してもよい。ただし、コンテンツのメタデータのみを格納する場合は、ユーザ端末17へはコンテンツへのリンクを提供し、ユーザ端末17は、該当するコンテンツをコンテンツサーバ14から取得する必要がある。
ユーザプロファイル収集部23は、ユーザ端末17からユーザのコンテンツに対する操作履歴情報をユーザプロファイルとして収集するモジュールである。ユーザプロファイルDB24は、ユーザプロファイル収集部23で収集されたユーザプロファイルを格納するデータベースである。各ユーザがどのコンテンツを選択・視聴・購入・レイティングしたか否かをユーザプロファイル収集部23が収集し、ユーザプロファイルDB24に格納する。ここでは、ユーザがどのコンテンツに興味があるか否かを表した情報(嗜好情報)をユーザプロファイルと呼ぶ。本実施形態では、ある一定期間にわたってユーザプロファイルを収集し、ユーザプロファイルDB24に格納されている状態を想定している。
インデキシング部25は、コンテンツやユーザ情報を特徴ベクトルに変換し、LSH(Locality Sensitive Hash)と呼ばれるデータ構造に格納する処理を行うモジュールであり、コンテンツをインデキシングするコンテンツインデクサ251とユーザをインデキシングするユーザインデクサ252から構成される。ここでは、コンテンツやユーザなどの元データをあるデータ構造に変換して格納する処理をインデキシングと呼び、作成されたデータ構造をインデックスと呼ぶ。インデキシングによってデータが圧縮されて保存領域が小さくなる、検索が高速になる等の利点がある。
インデックスDB26は、インデキシング部25によって作成されたインデックスを格納するデータベースである。インデックスはLSHというデータ構造で表現される。また、コンテンツのインデックスとユーザのインデックスは同じインデックスDB26の同じLSHに格納されることが本発明のポイントである。
コンテンツ推薦部27は、コンテンツ推薦を希望するユーザ(以下、「被推薦ユーザ」という。)に対してコンテンツを推薦するモジュール群であり、ユーザプロファイル入力部271、類似ユーザ検索部272、推薦コンテンツ決定部273、類似コンテンツ検索部274、推薦コンテンツ結合部275、および推薦リスト出力部276から構成される。
ユーザプロファイル入力部271に被推薦ユーザのユーザプロファイルが入力されると類似ユーザ検索部272において被推薦ユーザと嗜好の似ているユーザがインデックスDB26から検索される。また、同時に類似コンテンツ検索部274において被推薦ユーザの好むコンテンツと似ているコンテンツがインデックスDB26から検索される。このように、インデックスDB26を用いることで類似ユーザの検索と類似コンテンツの検索は同時にしかも高速に実行できる。
推薦コンテンツ決定部273は、類似ユーザ検索部272によって検索された類似ユーザから協調フィルタリングという手法を用いてコンテンツを選択するモジュールである。この際、類似ユーザのユーザプロファイル情報を用いるためユーザプロファイルDB24にアクセスする必要がある。
推薦コンテンツ結合部275は、類似コンテンツ検索部274の推薦コンテンツと推薦コンテンツ決定部273の推薦コンテンツを結合するモジュールである。推薦リスト出力部276は、被推薦ユーザの推薦コンテンツを推薦リストとして出力するモジュールである。推薦リストは、Webサーバ15を通して、ユーザ端末17へ送信される。
<コンテンツ推薦サーバ11の処理手順>
図3は、インデキシング部25の処理の具体例を示すフローチャートである。工程S301では、コンテンツDB22中の全てのコンテンツをコンテンツインデクサ251によってインデキシングし、インデックスDB26に格納する。工程S302では、ユーザプロファイルDB24中の全てのユーザをユーザインデクサ252によってインデキシングし、インデックスDB26に格納する。
尚、工程S301と工程S302は、互いに処理が独立しているため並列に動作させることも可能である。工程S301と工程S302は、対象となるコンテンツによって処理内容が異なる。後ほどコンテンツがテキストメタデータであるテレビ番組を例にして詳しく説明する。
図4は、コンテンツ推薦部27の処理の具体例を示すフローチャートである。
工程S401では、被推薦ユーザのユーザプロファイルを入力する。工程S402では、被推薦ユーザのユーザプロファイル内の好きなコンテンツと類似するコンテンツを検索する。工程S403では、被推薦ユーザのユーザプロファイルと嗜好の類似するユーザを検索する。
工程S404では、工程S403で求めた嗜好の類似するユーザ集合から被推薦ユーザへの推薦コンテンツを協調フィルタリングと呼ばれる手法を用いて計算する。工程S405では、工程S402と工程S404で求めた推薦コンテンツを結合する。
工程S406では、推薦コンテンツのリストを出力する。ここで、工程S402は、コンテンツベースの推薦であり、工程S403とS404は、協調フィルタリングベースの推薦を行っている。工程S405において2つの推薦結果を結合することで両者の長所を取り入れたハイブリッド型推薦を実現している。
<処理手順の例>
図5は、図3のインデキシング処理の具体例を示す図である。インデックスDB26では、LSHというデータ構造が利用される。LSHは、ハッシュとよく似たデータ構造である。一般的なハッシュは同一のコンテンツが同一のビン(符号51で示されるLSHの各マスのこと。例では4つのビンから成る。)に格納されるのに対し、LSHは類似したコンテンツほど同一のビンに格納される確率が高くなるという特徴がある。
本発明では、コンテンツとユーザは予めインデキシングし、LSHに格納する。まず、コンテンツDB22内の全てのコンテンツをコンテンツインデクサ251によってLSHにインデキシングする(工程S301)。この例では、コンテンツはI1、I2、I3、I4、I5、I6の6種類あるとし、コンテンツIDで識別される。各コンテンツは特徴ベクトルと呼ばれるベクトル表現に変換される。特徴ベクトルで表現されたコンテンツは後ほど説明する手法に基づいてLSHに格納される。LSHへの格納方法はコンテンツの種類によって異なるため後ほど詳しく説明する。符号51で示されるLSHの上段はコンテンツをインデキシングした結果である。符号53や符号54で示されるデータのようにLSHの同じビンに入ったコンテンツは類似したコンテンツであると見なせる。例えば、コンテンツI2とI3は類似し、コンテンツI4とI5は類似している。
次に、ユーザプロファイルDB24内の全てのユーザをユーザインデクサ252によってLSHにインデキシングする(工程S302)。この例では、2人分のユーザプロファイルをインデキシングしている。各ユーザプロファイルの表現方法は、ユーザが好きなコンテンツの集合で表す方法と好きなコンテンツの集合をコンテンツと同じ特徴ベクトルで表現する方法があるが、本実施形態では前者を用いている。好きかどうかの判定は、そのコンテンツを選択・視聴・購入・高いレイティングをしたかで判断すればよい。ユーザのインデキシングは、ユーザプロファイル中の全てのコンテンツをコンテンツと同じ方法でLSHに格納することで行われる。この際、LSHへはコンテンツID(例ではI1、I2など)ではなく、ユーザID(例ではA、Bなど)を格納するのがポイントである。符号51で示されるLSHの下段はユーザをインデキシングした結果を示している。符号57で示される(A,B)のように、LSHにおいて同じビンに入ったユーザは、あるコンテンツに対する嗜好が一致したユーザである。例えば、ユーザAとユーザBはどちらもコンテンツI5を好んでいる。
上記の手順で作成したLSHはインデックスDB26に格納される。本発明のポイントは、コンテンツとユーザの両方を同じLSHに格納している点である。ユーザプロファイルは、コンテンツの集合で表すためコンテンツと同じLSHに格納可能である。
図6は、図4のコンテンツ推薦処理の具体例を示す図である。図5で作成したLSHを用いて、被推薦ユーザCに対してコンテンツを推薦することを考える。
まず、被推薦ユーザCのユーザプロファイルが入力される(工程S401)。ここでは、被推薦ユーザCのユーザプロファイル62は、(I2、I5)である。つまり、ユーザCはコンテンツI2とI5を好んでいる。
次に、ユーザプロファイル中の全てのコンテンツをハッシングし、ハッシュ先のコンテンツIDを取り出す(工程S402)。例では、I2のハッシュ先にある(I2、I3)、I5のハッシュ先にある(I4、I5)である。被推薦ユーザがすでに知っているI2とI5を除くと、(I3、I4)が得られる。先ほどLSHの性質を述べたようにLSHはコンテンツが類似しているほど同じビンに入りやすい。つまり、ユーザCの好きなコンテンツI2とI5に類似したコンテンツI3とI4が得られたことになる。これらのコンテンツはユーザCが好きである可能性が高いため推薦される。この処理は、コンテンツ間の類似度に基づいているためコンテンツベース型の推薦と見なせる。
同様に、ハッシュ先のユーザIDを取り出す(工程S403)。例では、I2のハッシュ先にあるA、I5のハッシュ先にある(A、B)である。重複を省くと(A、B)が得られる。このユーザAとユーザBは、被推薦ユーザCと好きなコンテンツが一部共通しているユーザである。つまり、被推薦ユーザCと嗜好が似ているユーザの候補だと考えられる。
次に、嗜好が似ているユーザの候補を用いて協調フィルタリングを実行する(工程S404)。協調フィルタリングは、嗜好が似ているユーザからコンテンツ推薦を受ける手法の総称であり、さまざまな方法が提案されている。この例では、もっとも簡単な方法であるが、嗜好が似ているユーザが好んでいるコンテンツの中で被推薦ユーザが知らないコンテンツを推薦することにする。ユーザプロファイルDB24からユーザAの好きなコンテンツは(I1、I2、I5)であり、ユーザBの好きなコンテンツは(I4、I5、I6)であることがわかる。ここからユーザCが好きなコンテンツI2とI5を除くと(I1、I4、I6)となり、これらのコンテンツが推薦される。これらのコンテンツは、被推薦ユーザCと嗜好が類似したユーザに基づいているため協調フィルタリング型の推薦と見なせる。
上記の説明で、ユーザプロファイル中の全てのコンテンツをハッシングし、ハッシュ先のコンテンツIDとユーザIDを同時に求められるのがポイントである。つまり、被推薦ユーザCの好きなコンテンツと似ているコンテンツ、被推薦ユーザCと嗜好が類似するユーザの両方を同時に求めることができ、コンテンツベース型と協調フィルタリング型の推薦が同時に実行できる。しかも、LSHを用いているため高速に類似コンテンツ、類似ユーザが発見でき、コンテンツ数、ユーザ数の増加に対してスケーラブルである。
最後に、コンテンツベース型推薦コンテンツ(I3、I4)と協調フィルタリング型推薦コンテンツ(I1、I4、I6)が結合される(工程S405)。結合にはいくつかの方法が考えられる。例えば、両方のOR条件を取って(I1、I3、I4、I6)、AND条件を取って(I4)などの結合方法が挙げられる。またコンテンツベース型と協調フィルタリング型のどちらに重点を置くかも調整可能である。例えば、推薦システムの稼動初期は他のユーザの履歴が少ないためコンテンツベース型を重視する、他のユーザの履歴がたまってきたら協調フィルタリング型を重視することもできる。結合によって得られた推薦コンテンツは、推薦リストとして出力され(工程S406)、Webサーバ15を通してユーザに提示される。
<番組推薦システム>
以下では、コンテンツがテレビ番組である場合を想定して具体的なシステムの手順を説明する。図7は、番組推薦システムの全体構成を示すブロック図である。図1のブロック図と大部分は同じであるが、テレビ番組の場合には、コンテンツ推薦サーバ11が番組推薦サーバ71、コンテンツサーバ14が放送局72になり、ユーザ端末17がテレビ番組を視聴できる機器、例えばテレビ74、ハードディスクレコーダ76、パーソナルコンピュータ77、携帯電話79等になる。
番組推薦サーバ71は、予め放送局72から番組メタデータである電子番組表(EPG:Electronic Programming Guide)を定期的にダウンロードしてハードディスクドライブ713の番組DBに格納しておく。デジタル放送の場合、EPGは番組コンテンツとともに電波を通して配信されている。
番組推薦サーバ71は、番組メタデータであるEPGだけ持てばよく、テレビ番組本体のデータ(映像など)は放送局72がユーザ端末17へ配信する。番組推薦サーバ71が推薦リストとして提供するのは番組メタデータである。
図8は、番組メタデータの具体例を示す図である。番組メタデータは、番組毎に放送日、放送開始時間、放送局、ジャンル、タイトル、出演者、番組内容などの情報が付与されたデータである。図8では、タイトル、ジャンル、番組内容が具体例として挙げられている(形態素は後で説明する)。各番組にはユニークな番組IDが付与されており、他の番組と区別できるものとする。これまではコンテンツの種類を限定せず、コンテンツとして抽象化した状態で各モジュールの処理を述べてきた。しかし、インデキシング処理は、対象となるコンテンツの性質によって処理の手順が異なる。
以下、図8に示したようにコンテンツがテキストメタデータで表される場合を例にインデキシングの詳細な手順を説明する。図9は、コンテンツが番組メタデータのようなテキストである場合のコンテンツインデキシング(工程S301)の詳細なフローチャートである。
工程S901では、番組内容を単語の集合に分解する形態素解析を行う。図8の例では、番組内容を形態素解析して単語に分解し、名詞のみを抽出して形態素の列に追加している。これらの形態素は、番組内容を表す特徴ベクトルの要素とし、番組間の類似性判定に用いる。例えば、二つの番組間で共通する単語を含むほど類似していると判断される。ここでは、番組内容のみを形態素解析した例を示したが、タイトル、ジャンル、出演者など番組メタデータの他の情報も形態素解析の対象としてもよい。
工程S902では、番組内容から抽出した形態素から索引語を選択する。索引語とは番組内容をよく特徴付ける単語のことで形態素の中から選ばれる。形態素から索引語を選ぶ処理はTF−IDF法などが一般的に知られている。尚、番組内容のように比較的短い文書の場合、TF−IDF法は適切に働かないことも多いので、本実施形態では全ての形態素を索引語として選択する。
工程S903では、索引語・文書行列を生成する。ここでは、番組が文書に当たる。図10は、索引語・文書行列、乱数列、シグネチャ行列の具体例を示す図である。同図における行列1001は、図8の番組メタデータから生成した索引語・文書行列の例である。索引語・文書行列は、各行に索引語、各列に番組を割り当てた行列で、行列の値は番組が索引語を含む場合は1、含まない場合は0を取る。例えば、行列1001のP1の列は、番組P1が世界・遺産・背景・歴史・紹介という索引語を含むことを意味している。この索引語・文書行列は、各番組の特徴ベクトルを表現している。例えば、番組P1の特徴ベクトルは、P1の列を縦に見た(1,1,1,1,1,0,0,…,0)という16次元ベクトルである。各番組の特徴ベクトルの次元(長さ)は、索引語の数と同じである。また今回は、索引語を含むか否かで0または1の値を用いたが、先ほど述べたTF−IDF法のスコアを用いる場合もある。
工程S904では、索引語・文書行列1001からシグネチャ1003を生成する。シグネチャとは、番組の特徴ベクトルの次元を縮約した要約表現である。シグネチャも特徴ベクトルと同じくベクトルで表現される。1003がシグネチャ行列の例である。元の索引語・文書行列1001では、各番組の特徴ベクトルは16次元ベクトルだったが、シグネチャ行列1003では、各番組のシグネチャは4次元ベクトルに圧縮されている。このような特徴ベクトルを次元縮約してシグネチャに変換する手法は、さまざまな方法が提案されているが、ここではMin-Hashingと呼ばれる手法を利用する(非特許文献1)。Min-Hashingは、索引語・文書行列のようなスパース(要素の大部分が0)な行列に適した次元縮約法である。Min-Hashingを使って次元縮約するためには、乱数列1002が複数必要になる。乱数列は、1から索引語数までの数がランダムに並んだ数列である。この例では、h1〜h4の4つの乱数列を用意している。
Min-Hashingは、各番組の特徴ベクトルに各乱数列を適用してシグネチャを求める。例えば、番組P1に乱数列h1を適用することを考える。まず、P1のベクトル中で値が1の場所に対応する乱数列をh1から抽出すると13、2、7、14、10が得られる。
そして、この中から最小の数を選び、シグネチャ行列1003のP1とh1の交わる場所に書き込む。この場合は2である。
別の例として、番組P2に乱数列h2を適用することを考える。まず、P2のベクトル中で値が1の場所に対応する乱数列をh2から抽出すると、14、3、6、11、8が得られる。そして、この中から最小の数を選び、シグネチャ行列1003のP2とh2の交わる場所に書き込む。この場合は3である。
上記の手順を番組と乱数列の全ての組合せについて求めるとシグネチャ行列1003が得られる。
今回の例では、特徴ベクトルの次元数(索引語数)は16、シグネチャの次元数は4と小さいが、実際は大量の番組を対象とすると特徴ベクトルの次元数は数万から数十万に及ぶ場合もある。この場合、シグネチャの次元数は100程度で十分なことが知られている。つまり、乱数列はh1〜h100の100個用意してMin-Hashingを適用すればよい。
また、実際には、特徴ベクトルの次元数が大きくなると非常に長い乱数列が必要になるが、その場合は、乱数列を使う代わりに最小完全ハッシュ関数を使うこともできる。また、特徴ベクトルの次元数が大きくなった場合でもシグネチャ行列をより高速に求めるアルゴリズムが知られている。
工程S905では、番組をLSHへインデキシングする。図11は、番組をLSHへインデキシングする処理の具体例を示す図である。まず、シグネチャを、いくつかのバンドに分割する。例では、バンド1101とバンド1102という2つのバンドに分割した。次に。各バンドにハッシュを用意し、分割されたシグネチャをキーとして各番組IDをハッシュに格納する。例では、バンド1101のハッシュは符号1103、バンド1102のハッシュは符号1104で示されている。バンド1101の番組P1とP2は同じシグネチャ(2,3)なのでハッシュ1103の同じビンに格納される。ハッシュは、キーが同じ場合、同じビンに格納される。バンド1102の番組P3とP4も同じシグネチャ(1,3)なのでハッシュ1104の同じビンに格納される。同じビンにハッシュされた番組同士は類似している確率が高い番組である。例えば、番組P1(世界遺産と歴史)、番組P2(世界遺産の旅)は、ともに世界遺産の番組で内容が似ている番組である。また、番組P3(温泉めぐり)と番組P4(世界の珍味)は、ともに旅グルメの番組で内容が似ている番組である。番組メタデータのようなテキストの場合は、番組内容に共通する索引語が多く含まれるほど似ていると判断される。P5やP6は、番組内容に共通するキーワードが含まれていないためどの番組とも似ていないと判断され、別のビンに格納されている。つまり、LSHにインデキシングすることで内容が似ている番組を同じビンに集めることができる。また、符号1105で示されるハッシュの集合がLSHと呼ばれる。図5では、簡単のためコンテンツをインデキシングするLSHはあたかも1つのハッシュであるように模式的に描いたが、実際は、図11のハッシュ集合1105がLSHである。
図12は、ユーザプロファイルの具体例を示す図である。ユーザプロファイルは、各ユーザがどの番組を視聴・録画したかを表している。例えば、ユーザAは番組P1、P2、P5を視聴、ユーザBは番組P3、P4、P6を視聴している。ユーザAは世界遺産などの歴史の番組が好きなユーザ、ユーザBはグルメや旅の番組が好きなユーザを想定している。このような視聴・録画履歴は、図7のユーザ端末、例えば、テレビ74、ハードディスクレコーダ76、パーソナルコンピュータ77、携帯電話79などの操作履歴から収集できる。ユーザ端末から収集した操作履歴はWebサーバ73を通って番組推薦サーバのハードディスクドライブ713に格納され、図12のようなユーザプロファイルが蓄積される。操作履歴は、ユーザの視聴・録画操作以外にもコンテンツへのレイティングなど別の方法を用いて収集してもよい。
図13は、コンテンツが番組メタデータのようなテキストである場合のユーザインデキシング(工程S302)の詳細なフローチャートである。
工程S1301では、インデキシングが未処理のユーザの有無を判定する。ここで、未処理のユーザが存在すると判定された場合には、工程S1302へ進む。これに対し、全てのユーザの処理が完了したと判定された場合は、処理を終了する。
工程S1302では、ユーザプロファイル中にインデキシングが未処理のコンテンツがあるか否かを判定する。ここで、未処理のコンテンツが有ると判定された場合には、工程S1303へ進む。これに対して、全てのコンテンツについて処理が完了したと判定された場合には、S1301へ戻る。全てのコンテンツに対する処理が完了するまで工程S1303と工程S1304は繰り返される。
工程S1303では、対象コンテンツのシグネチャを取得する。そして、工程S1304で取得したコンテンツを図11で表されるLSHに同じ方法で格納する。このとき、図11とは異なり、LSHにはユーザIDを格納するのがポイントである。
図14は、ユーザをLSHへインデキシングする処理例を示す図である。同図において、例えば、ユーザAをインデキシングする場合を考える。ユーザAのプロファイル中の番組は、P1、P2、P5であるため、この3つの番組を各バンドごとにLSH1403へハッシュする。このとき、P1、P2、P5のハッシュ先のビンへは、ユーザIDであるAを格納する。ここでは、ユーザCをインデキシングしていないが、これはあとで説明用に使うためであり、実際は全てのユーザをインデキシングしておく。
ユーザインデキシングには、上記のようにユーザが視聴した各コンテンツをハッシュするほかにも様々な方法が考えられる。例えば、嗜好ベクトルを用いてインデキシングを行う方法がある。図15は、ユーザの好きなコンテンツ集合を嗜好ベクトルで表し、嗜好ベクトルをLSHへ格納する処理の具体例を示すフローチャートである。
工程S1501では、インデキシングが未処理のユーザの有無を判定する。ここで、未処理のユーザが存在すると判定された場合には、工程S1502へ進む。これに対し、全てのユーザの処理が完了したと判定された場合は、処理を終了する。
工程S1502では、対象ユーザの好きなコンテンツの特徴ベクトルの集合からただ1つの嗜好ベクトルを作成する。工程S1503では、嗜好ベクトルをコンテンツインデキシングと同じ方法を用いてシグネチャへ変換する。工程S1504では、シグネチャをコンテンツインデキシングと同じ方法を用いてLSHへハッシングし、ユーザIDを格納する。工程S1501からS1504の処理は、上記の処理を全てのユーザについて終えるまで繰り返される。
嗜好ベクトルを用いる方法では、図14のように1人のユーザが複数のビンへ格納されることはなく、1人のユーザはただ1つのビンへ格納される。その結果、ユーザインデキシング処理が高速化され、ハッシュ表もハッシュ値の衝突が起こりにくくなるため高速化されるという利点がある。ただし、嗜好ベクトルの作成方法はコンテンツの種類に大きく依存し、コンテンツがマルチメディアデータの場合は作成が難しいことがある。
図16は、嗜好ベクトルを用いたユーザインデキシングの具体例を示す図である。ここでは、例としてユーザAの嗜好ベクトルを作成することを考える。ユーザAの嗜好ベクトルは、ユーザAが視聴した番組の特徴ベクトルの集合1601から作成される。ここでは、特徴ベクトルから嗜好ベクトルを求める方法の具体例が3例挙げられている。嗜好ベクトル1602は、ユーザAが視聴した番組に含まれる単語を1、含まれない単語を0にしたベクトルである。嗜好ベクトル1603は、ユーザAが視聴した番組に含まれる単語をカウントしたベクトルである。嗜好ベクトル1604は、1603のカウントに対し、頻度が2以上の単語を1、2未満の単語を0としたベクトルである。
嗜好ベクトルの作成方法は、嗜好モデリングと呼ばれ、上記以外にもさまざまな手法が提案されている。本実施形態では、2値ベクトルでなければシグネチャに変換できないため1602や1604のような嗜好ベクトルしか使えない。各ユーザの嗜好ベクトルが生成できたらコンテンツと同じ方法で嗜好ベクトルをシグネチャに変換してLSHへユーザIDを格納すればよい。
図17は、大規模なコンテンツ集合、ユーザ集合をインデキシングする場合の模式図である。先に説明したように大規模なシステムでは、シグネチャ行列1701は100次元のシグネチャを持つ。そのため、バンド幅を5次元とした場合、20個のバンドが作られ、対応するハッシュの数も20個と多くなる。バンド幅を調整することでコンテンツが類似と判断される確率を調整することができる。
以上、コンテンツが番組である場合のコンテンツとユーザのインデキシング処理について説明した。
以下、番組の推薦処理を上述した図4のフローチャートに従って説明する。こちらは、どのようなコンテンツでも手順は先に解説した方法と同じである。例えば、図12のユーザCに対して番組を推薦する場合を考える。この場合、ユーザCは、番組P1(世界遺産と歴史)、番組P3(温泉巡り)という2つの番組を好んでいることがユーザプロファイル入力部271を通して番組推薦サーバ71に入力される(工程S401)。
次に、コンテンツ推薦部27では、類似コンテンツの検索(工程S402)と類似ユーザの検索(工程S403)を行う。類似コンテンツと類似ユーザは、図14のLSHから求める。LSHを構成する全てのハッシュに対してP1とP3をハッシングし、ハッシュ先のビンに格納されている番組とユーザを抽出する。
ここでは、類似コンテンツとして、P1、P2、P3、P4が得られる。そして、ユーザCが既に知っているP1とP3が除外され、ユーザCの好きなコンテンツに内容が似ているコンテンツとしてP2とP4が推薦される。これは、コンテンツベース型の推薦である。
また、ユーザCと嗜好が似ているユーザとして、A、Bが得られる。ユーザAとユーザBのユーザプロファイルをユーザプロファイルDB24から検索して、P1、P2、P5、P3、P4、P6が得られる。そして、ユーザCが既に知っているP1とP3が除外され、P2、P5、P4、P6が推薦される(工程S404)。これは、ユーザCと嗜好が似ているユーザのプロファイルを用いているので協調フィルタリング型の推薦である。協調フィルタリング型の推薦では、P5(歴史アニメ)やP6(今日のお料理)のように内容による判断では類似していない番組でも他のユーザが興味を持った関係のある番組として推薦できるのがポイントである。
最後に、コンテンツベース型と協調フィルタリング型の推薦番組を結合する(工程S405)。結合方法にはいくつか方法が考えられる。例えば、両方の推薦番組のOR条件(論理和)を取って、P2、P4、P5、P6を推薦する。または、両方の推薦番組のAND条件(論理積)を取って、P2、P4を推薦する。図18は、ユーザへ提示される推薦リストの具体例を示す図である。同図に示されるように、“みんなからのおすすめ度合い”というスクロールバー1802を用意し、両者のコンテンツをどの程度リストに追加するかユーザ自ら選択できるようにしてもよい。一般に、協調フィルタリング型の番組の割合を多くすると被推薦ユーザにとって意外な番組が多く推薦される傾向にあることが知られている。また、先に説明したように推薦の開始時はコンテンツベース型を重視し、ユーザ数の増加にしたがって協調フィルタリング型を重視するという方法を用いてもよい。このようにして結合された推薦リストは、番組推薦サーバ71からテレビ74などのユーザ端末17へ送信され、図18のおすすめ番組リスト1801のような形でユーザに提示される。
尚、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
例えば、上記実施形態では、コンテンツがテレビ番組のようなテキストデータで表される場合の処理手順について説明したが、テレビ番組以外の書籍、Webサイト、ニュース記事、ブログなどテキストで表されるデータなら上記の処理手順で同様の推薦システムが構築できる。また特徴ベクトルで表現された音楽、画像、動画などのコンテンツの場合は、先に挙げた(非特許文献2)や(非特許文献3)の方法でコンテンツをLSHにインデキシングすることも可能である。本発明のユーザインデキシングと推薦手法を適用すれば同様の推薦システムが構築できる。
本発明の一実施形態に係るコンテンツ推薦システムの全体構成を示すブロック図。 コンテンツ推薦サーバのモジュール関係図。 インデキシング部の処理の具体例を示すフローチャート。 コンテンツ推薦部の処理の具体例を示すフローチャート。 インデキシングの処理例を示す図。 コンテンツ推薦の処理例を示す図。 番組推薦システムの全体構成を示すブロック図。 番組メタデータの具体例を示す図。 コンテンツがテキストの場合のコンテンツインデクサの処理の具体例を示すフローチャート。 索引語・文書行列、乱数列、シグネチャ行列の例を示す図。 番組をLSHへインデキシングする処理の具体例を示す図。 ユーザプロファイルの具体例を示す図。 ユーザインデクサの処理の具体例を示すフローチャート。 ユーザをLSHへインデキシングする処理例を示す図。 嗜好ベクトルを作成するユーザインデクサの処理の具体例を示すフローチャート。 嗜好ベクトルを用いたユーザインデキシングの具体例を示す図。 大規模なコンテンツ集合、ユーザ集合をインデキシングする場合の模式図。 ユーザへ提示される推薦リストの具体例を示す図。
符号の説明
11…コンテンツ推薦サーバ、
12…ディスプレイ、
13…入力デバイス、
14…コンテンツサーバ、
15…Webサーバ、
16…ネットワーク、
17…ユーザ端末、
18…ディスプレイ、
19…入力デバイス、
111…CPU、
112…RAM、
113…ハードディスクドライブ、
114…ネットワーク機器、
115…入出力機器、
21…コンテンツ情報収集部、
22…コンテンツDB、
23…ユーザプロファイル収集部、
24…ユーザプロファイルDB、
25…インデキシング部、
26…インデックスDB、
27…コンテンツ推薦部、
251…コンテンツインデクサ、
252…ユーザインデクサ、
271…ユーザプロファイル入力部、
272…類似ユーザ検索部、
273…推薦コンテンツ決定部、
274…類似コンテンツ検索部、
275…推薦コンテンツ結合部、
276…推薦リスト出力部。

Claims (10)

  1. ネットワークを介して接続されたコンテンツサーバからコンテンツのメタデータを含むコンテンツ情報を収集するコンテンツ情報収集部と、
    前記収集されたコンテンツ情報を格納するコンテンツDBと、
    前記ネットワークを介して接続されたユーザ端末からユーザの前記コンテンツに対する嗜好情報をユーザプロファイルとして収集するユーザプロファイル収集部と、
    前記収集されたユーザプロファイルを格納するユーザプロファイルDBと、
    前記コンテンツDBからコンテンツのメタデータを取得し、このメタデータから前記コンテンツに係るインデックスを作成するコンテンツインデクサと、
    前記ユーザプロファイルDBからユーザプロファイルを取得し、このユーザプロファイルに含まれるコンテンツをキーとして前記ユーザに係るインデックスを作成するユーザインデクサと、
    前記作成された前記コンテンツおよび前記ユーザに係るインデックスを格納するインデックスDBと、
    前記ユーザプロファイルDBから取得される被推薦ユーザに係る前記ユーザプロファイルに基づいて前記インデックスDBを参照し、前記被推薦ユーザの嗜好に適合したコンテンツを推薦するコンテンツ推薦部と、
    を有することを特徴とするハイブリッド型コンテンツ推薦サーバ。
  2. 前記コンテンツインデクサは、前記コンテンツDBからコンテンツのメタデータを取得し、このメタデータからLSHに基づいて前記コンテンツに係るインデックスを作成し、かつ、
    前記ユーザインデクサは、前記ユーザプロファイルDBからユーザプロファイルを取得し、このユーザプロファイルに含まれるコンテンツをキーとし、前記LSHに基づいて前記ユーザに係るインデックスを作成することを特徴とする請求項1記載のハイブリッド型コンテンツ推薦サーバ。
  3. 前記コンテンツ推薦部は、
    被推薦ユーザのユーザプロファイルを入力するユーザプロファイル入力部と、
    前記入力された被推薦ユーザのユーザプロファイルに基づいて前記インデックスDBに格納された前記ユーザに係るインデックスを参照し、前記被推薦ユーザと前記コンテンツの嗜好が類似する類似ユーザを検索する類似ユーザ検索部と、
    前記被推薦ユーザのユーザプロファイルに基づいて前記インデックスDBに格納された前記コンテンツに係るインデックスを参照し、前記被推薦ユーザの嗜好するコンテンツに類似する類似コンテンツを検索する類似コンテンツ検索部と、
    前記類似ユーザ検索部において検索された類似ユーザから協調フィルタリングによって推薦コンテンツを決定する推薦コンテンツ決定部と、
    前記類似コンテンツおよび前記類似コンテンツを所定の規則に基づいて結合して前記コンテンツの推薦リストを作成する推薦コンテンツ結合部と、
    を有することを特徴とする請求項1または請求項2記載のハイブリッド型コンテンツ推薦サーバ。
  4. 前記コンテンツインデクサは、前記コンテンツ情報の形態素解析によって求められた形態素の中から前記コンテンツの索引語を選択して特徴ベクトルを作成し、この特徴ベクトルの次元縮約によって求められるシグネチャを所定のバンド幅で分割し、この分割により求められたバンド毎に前記コンテンツに係るインデックスを作成することを特徴とする請求項1または請求項2記載のハイブリッド型コンテンツ推薦サーバ。
  5. 前記ユーザインデクサは、前記メタデータおよび前記ユーザプロファイルに基づいて前記ユーザが嗜好するコンテンツ集合を表す嗜好ベクトルを作成し、この嗜好ベクトルの次元縮約によって求められるシグネチャを所定のバンド幅で分割し、この分割により求められたバンド毎に前記ユーザに係るインデックスを作成することを特徴とする請求項1または請求項2記載のハイブリッド型コンテンツ推薦サーバ。
  6. 推薦コンテンツ結合部は、前記ユーザ端末において指定された割合に応じて前記類似コンテンツおよび前記推薦コンテンツに対する推薦優先度を変更して結合を行い、前記コンテンツの推薦リストを作成することを特徴とする請求項3記載のハイブリッド型コンテンツ推薦サーバ。
  7. コンテンツのメタデータを提供するコンテンツサーバと、
    このコンテンツサーバにネットワークを介して接続され、前記コンテンツのメタデータおよびユーザプロファイルを管理し、前記コンテンツの推薦リストを出力するコンテンツ推薦サーバと、
    このコンテンツ推薦サーバに前記ネットワークを介して接続され、前記コンテンツ推薦サーバから前記推薦リストを取得するユーザ端末と、
    からなり、
    前記コンテンツ推薦サーバは、
    前記コンテンツサーバからコンテンツのメタデータを含むコンテンツ情報を収集するコンテンツ情報収集部と、
    前記収集されたコンテンツ情報を格納するコンテンツDBと、
    前記ユーザ端末からユーザの前記コンテンツに対する嗜好情報をユーザプロファイルとして収集するユーザプロファイル収集部と、
    前記収集されたユーザプロファイルを格納するユーザプロファイルDBと、
    前記コンテンツDBからコンテンツのメタデータを取得し、このメタデータから前記コンテンツに係るインデックスを作成するコンテンツインデクサと、
    前記ユーザプロファイルDBからユーザプロファイルを取得し、このユーザプロファイルに含まれるコンテンツをキーとして前記ユーザに係るインデックスを作成するユーザインデクサと、
    前記作成された前記コンテンツおよび前記ユーザに係るインデックスを格納するインデックスDBと、
    前記ユーザプロファイルDBから取得される被推薦ユーザに係る前記ユーザプロファイルに基づいて前記インデックスDBを参照し、前記被推薦ユーザの嗜好に適合したコンテンツを推薦するコンテンツ推薦部と、
    を有することを特徴とするハイブリッド型コンテンツ推薦システム。
  8. 前記コンテンツインデクサは、前記コンテンツDBからコンテンツのメタデータを取得し、このメタデータからLSHに基づいて前記コンテンツに係るインデックスを作成し、かつ、
    前記ユーザインデクサは、前記ユーザプロファイルDBからユーザプロファイルを取得し、このユーザプロファイルに含まれるコンテンツをキーとし、前記LSHに基づいて前記ユーザに係るインデックスを作成することを特徴とする請求項7記載のハイブリッド型コンテンツ推薦システム。
  9. ネットワークを介して接続されたコンテンツサーバからコンテンツのメタデータを含むコンテンツ情報を収集するコンテンツ情報収集ステップと、
    前記ネットワークを介して接続されたユーザ端末からユーザの前記コンテンツに対する嗜好情報をユーザプロファイルとして収集するユーザプロファイル収集ステップと、
    前記収集されたコンテンツのメタデータから前記コンテンツに係るインデックスを作成するコンテンツインデックス作成ステップと、
    前記収集されたユーザプロファイルに含まれるコンテンツをキーとして前記ユーザに係るインデックスを作成するユーザインデックス作成ステップと、
    被推薦ユーザに係る前記ユーザプロファイルに基づいて前記コンテンツおよび前記ユーザに係るインデックスを参照し、前記被推薦ユーザの嗜好に適合したコンテンツを推薦するコンテンツ推薦ステップと、
    を有することを特徴とするハイブリッド型コンテンツ推薦方法。
  10. 前記コンテンツインデックス作成ステップにおいて、前記コンテンツのメタデータを取得し、このメタデータからLSHに基づいて前記コンテンツに係るインデックスを作成し、かつ、
    前記ユーザインデックス作成ステップにおいて、前記ユーザプロファイルを取得し、このユーザプロファイルに含まれるコンテンツをキーとし、前記LSHに基づいて前記ユーザに係るインデックスを作成することを特徴とする請求項9記載のハイブリッド型コンテンツ推薦方法。
JP2008235118A 2008-09-12 2008-09-12 ハイブリッド型コンテンツ推薦サーバ、推薦システムおよび推薦方法 Pending JP2010067175A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008235118A JP2010067175A (ja) 2008-09-12 2008-09-12 ハイブリッド型コンテンツ推薦サーバ、推薦システムおよび推薦方法
US12/404,508 US20100070507A1 (en) 2008-09-12 2009-03-16 Hybrid content recommending server, system, and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008235118A JP2010067175A (ja) 2008-09-12 2008-09-12 ハイブリッド型コンテンツ推薦サーバ、推薦システムおよび推薦方法

Publications (1)

Publication Number Publication Date
JP2010067175A true JP2010067175A (ja) 2010-03-25

Family

ID=42008131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008235118A Pending JP2010067175A (ja) 2008-09-12 2008-09-12 ハイブリッド型コンテンツ推薦サーバ、推薦システムおよび推薦方法

Country Status (2)

Country Link
US (1) US20100070507A1 (ja)
JP (1) JP2010067175A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013089145A (ja) * 2011-10-20 2013-05-13 Nippon Telegr & Teleph Corp <Ntt> 商品推薦装置及び方法及びプログラム
JP5209129B1 (ja) * 2012-04-26 2013-06-12 株式会社東芝 情報処理装置、放送受信装置及び情報処理方法
JP5235251B1 (ja) * 2012-09-28 2013-07-10 楽天株式会社 情報処理装置、情報処理方法及び情報処理プログラム
KR20130131411A (ko) * 2010-12-22 2013-12-03 톰슨 라이센싱 용법 데이터 피드백 루프
JP2014503865A (ja) * 2010-10-27 2014-02-13 アップル インコーポレイテッド プライベートメタデータの処理方法
JP2015508209A (ja) * 2012-02-22 2015-03-16 ノキア コーポレイション コンテキストを決定するシステムおよび方法
KR101519190B1 (ko) 2012-12-18 2015-05-12 한양대학교 산학협력단 사용자의 다양성 성향을 고려한 추천 방법 및 시스템
JP2015528175A (ja) * 2012-07-25 2015-09-24 騰訊科技(深▲せん▼)有限公司 情報をプッシュする方法および情報をプッシュするための装置
JP2015532737A (ja) * 2012-07-16 2015-11-12 アルカテル−ルーセント ユーザ関心プロファイルのプライバシ保護されたクラスタ化のシステムおよび方法
CN105718576A (zh) * 2016-01-22 2016-06-29 西安电子科技大学 与地理特征相关的个性化位置推荐系统
CN106507146A (zh) * 2016-11-23 2017-03-15 北京云知声信息技术有限公司 播放内容推荐方法及装置
JP2019140485A (ja) * 2018-02-08 2019-08-22 東芝映像ソリューション株式会社 システム、方法及びプログラム
JP2022126540A (ja) * 2021-02-18 2022-08-30 ヤフー株式会社 コンテンツ通知装置、コンテンツ通知方法、および、コンテンツ通知プログラム
WO2023048146A1 (ja) * 2021-09-21 2023-03-30 株式会社アイシン レコメンドシステム
JP7370340B2 (ja) 2018-05-04 2023-10-27 ハーマン インターナショナル インダストリーズ インコーポレイテッド ヘッドアップディスプレイ上での拡張現実エクスペリエンスの強化

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7490092B2 (en) 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US9442933B2 (en) * 2008-12-24 2016-09-13 Comcast Interactive Media, Llc Identification of segments within audio, video, and multimedia items
US8713016B2 (en) 2008-12-24 2014-04-29 Comcast Interactive Media, Llc Method and apparatus for organizing segments of media assets and determining relevance of segments to a query
US11531668B2 (en) 2008-12-29 2022-12-20 Comcast Interactive Media, Llc Merging of multiple data sets
WO2010075888A1 (en) * 2008-12-30 2010-07-08 Telecom Italia S.P.A. Method and system of content recommendation
US8176043B2 (en) 2009-03-12 2012-05-08 Comcast Interactive Media, Llc Ranking search results
US8533223B2 (en) 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
US9892730B2 (en) 2009-07-01 2018-02-13 Comcast Interactive Media, Llc Generating topic-specific language models
EP2545466A2 (en) 2010-03-12 2013-01-16 AOL Inc. Systems and methods for organizing and displaying electronic media content
JP2011253462A (ja) * 2010-06-03 2011-12-15 Sony Corp コンテンツ推薦システム、コンテンツ推薦装置、およびコンテンツ推薦方法
KR20130035064A (ko) * 2011-09-29 2013-04-08 삼성전자주식회사 개인 성향 기반의 개인화 서비스 제공 방법 및 시스템
JP2013105309A (ja) * 2011-11-14 2013-05-30 Sony Corp 情報処理装置、情報処理方法、及びプログラム
WO2013100888A2 (en) 2011-12-26 2013-07-04 Empire Technology Development Llc Content providing techniques
CN108040294B (zh) * 2012-02-21 2020-10-23 欧亚拉股份有限公司 用于推荐视频的方法、系统及计算机可读介质
WO2013124520A1 (en) * 2012-02-22 2013-08-29 Nokia Corporation Adaptive system
US8521735B1 (en) 2012-02-27 2013-08-27 Google Inc. Anonymous personalized recommendation method
KR20140094125A (ko) * 2013-01-21 2014-07-30 삼성전자주식회사 디스플레이 장치 및 이를 이용한 사용자 맞춤형 정보 제공방법
US20140244618A1 (en) * 2013-02-26 2014-08-28 Dropbox, Inc. Search interface for an online content management system
WO2014200472A1 (en) * 2013-06-12 2014-12-18 Thomson Licensing Privacy-preserving recommendation system
CN103544212B (zh) * 2013-09-09 2017-04-05 Tcl集团股份有限公司 一种内容推荐方法及系统
US10091292B1 (en) * 2013-09-25 2018-10-02 Open Text Corporation Method and system for cache data analysis for enterprise content management systems
US10025863B2 (en) * 2014-10-31 2018-07-17 Oath Inc. Recommending contents using a base profile
CN105320719B (zh) * 2015-01-16 2019-02-05 焦点科技股份有限公司 一种基于项目标签和图形关系的众筹网站项目推荐方法
CN105959735A (zh) * 2016-04-29 2016-09-21 乐视控股(北京)有限公司 一种在线节目推荐方法及服务器
GB2574581B (en) 2018-05-25 2021-02-03 Thinkanalytics Ltd Content recommendation system
US10867000B2 (en) * 2019-03-31 2020-12-15 Td Ameritrade Ip Company, Inc. Recommendation system for providing personalized and mixed content on a user interface based on content and user similarity
WO2021223161A1 (en) * 2020-05-07 2021-11-11 Citrix Systems, Inc. Page personalization
CN114003826A (zh) * 2021-12-31 2022-02-01 思创数码科技股份有限公司 资源目录推荐方法、装置、可读存储介质及电子设备
CN114595384A (zh) * 2022-02-25 2022-06-07 北京字节跳动网络技术有限公司 书籍推荐方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090070185A1 (en) * 2007-01-17 2009-03-12 Concert Technology Corporation System and method for recommending a digital media subscription service
JP2009064187A (ja) * 2007-09-05 2009-03-26 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US8344233B2 (en) * 2008-05-07 2013-01-01 Microsoft Corporation Scalable music recommendation by search

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014503865A (ja) * 2010-10-27 2014-02-13 アップル インコーポレイテッド プライベートメタデータの処理方法
KR101890448B1 (ko) * 2010-12-22 2018-08-21 톰슨 라이센싱 용법 데이터 피드백 루프
KR20130131411A (ko) * 2010-12-22 2013-12-03 톰슨 라이센싱 용법 데이터 피드백 루프
JP2013089145A (ja) * 2011-10-20 2013-05-13 Nippon Telegr & Teleph Corp <Ntt> 商品推薦装置及び方法及びプログラム
JP2015508209A (ja) * 2012-02-22 2015-03-16 ノキア コーポレイション コンテキストを決定するシステムおよび方法
US10108701B2 (en) 2012-02-22 2018-10-23 Nokia Technologies Oy System and method for determining context
JP5209129B1 (ja) * 2012-04-26 2013-06-12 株式会社東芝 情報処理装置、放送受信装置及び情報処理方法
JP2015532737A (ja) * 2012-07-16 2015-11-12 アルカテル−ルーセント ユーザ関心プロファイルのプライバシ保護されたクラスタ化のシステムおよび方法
US9430671B2 (en) 2012-07-16 2016-08-30 Alcatel Lucent Method and apparatus for privacy protected clustering of user interest profiles
JP2015528175A (ja) * 2012-07-25 2015-09-24 騰訊科技(深▲せん▼)有限公司 情報をプッシュする方法および情報をプッシュするための装置
WO2014049828A1 (ja) * 2012-09-28 2014-04-03 楽天株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP5235251B1 (ja) * 2012-09-28 2013-07-10 楽天株式会社 情報処理装置、情報処理方法及び情報処理プログラム
KR101519190B1 (ko) 2012-12-18 2015-05-12 한양대학교 산학협력단 사용자의 다양성 성향을 고려한 추천 방법 및 시스템
CN105718576A (zh) * 2016-01-22 2016-06-29 西安电子科技大学 与地理特征相关的个性化位置推荐系统
CN105718576B (zh) * 2016-01-22 2019-07-16 西安电子科技大学 与地理特征相关的个性化位置推荐系统
CN106507146A (zh) * 2016-11-23 2017-03-15 北京云知声信息技术有限公司 播放内容推荐方法及装置
JP2019140485A (ja) * 2018-02-08 2019-08-22 東芝映像ソリューション株式会社 システム、方法及びプログラム
JP7370340B2 (ja) 2018-05-04 2023-10-27 ハーマン インターナショナル インダストリーズ インコーポレイテッド ヘッドアップディスプレイ上での拡張現実エクスペリエンスの強化
JP2022126540A (ja) * 2021-02-18 2022-08-30 ヤフー株式会社 コンテンツ通知装置、コンテンツ通知方法、および、コンテンツ通知プログラム
JP7166374B2 (ja) 2021-02-18 2022-11-07 ヤフー株式会社 コンテンツ通知装置、コンテンツ通知方法、および、コンテンツ通知プログラム
WO2023048146A1 (ja) * 2021-09-21 2023-03-30 株式会社アイシン レコメンドシステム

Also Published As

Publication number Publication date
US20100070507A1 (en) 2010-03-18

Similar Documents

Publication Publication Date Title
JP2010067175A (ja) ハイブリッド型コンテンツ推薦サーバ、推薦システムおよび推薦方法
US11151145B2 (en) Tag selection and recommendation to a user of a content hosting service
KR101648204B1 (ko) 콘텐트 아이템들의 컬렉션과 연관하여 메타데이터 생성
EP3055790B1 (en) System, method, and computer program product for providing contextually-aware video recommendation
US11734289B2 (en) Methods, systems, and media for providing a media search engine
US11188591B2 (en) Video matching service to offline counterpart
US7797710B2 (en) Content recommendation device
CN101847158A (zh) 基于上下文的视频查找器
CN103279513A (zh) 产生内容标签的方法、提供多媒体内容信息的方法及装置
CN102184185A (zh) 一种用于多媒体资源搜索的方法与设备
JP5469046B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
CN111008321A (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
JP6219967B2 (ja) ラベル付非テキスト系アイテムを検索するためのシステム及び方法
CN112825089A (zh) 文章推荐方法、装置、设备及存储介质
CN109933691B (zh) 用于内容检索的方法、装置、设备和存储介质
US8935725B1 (en) Visually browsing videos
JP5545883B2 (ja) 推薦データ成形方法、推薦データ成形装置および推薦データ成形プログラム
Coelho et al. dpikt—Automatic illustration system for media content
Buranasaksee Optimization of textual attribute support in generic location-aware rank query
JP2000331010A (ja) 映像検索方法および装置と映像検索プログラムを記録した記録媒体
Cerquitelli et al. Community-contributed media collections: Knowledge at our fingertips