JP4471737B2

JP4471737B2 - グループ化条件決定装置と方法およびそれを用いたキーワード拡張装置と方法ならびにコンテンツ検索システムおよびコンテンツ情報提供システムと方法ならびにプログラム

Info

Publication number: JP4471737B2
Application number: JP2004166263A
Authority: JP
Inventors: 俊介土井; 由紀吉田; 豪東野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-10-06
Filing date: 2004-06-03
Publication date: 2010-06-02
Anticipated expiration: 2024-06-03
Also published as: JP2005310094A

Description

この発明は、コンテンツをキーワードの集合として記述し、そのキーワードを入力したユーザに適したコンテンツを推薦する際、そのキーワード数が不足していたため、適したユーザに推薦できない場合や、インターネット上の検索エンジンに入力する検索キーワードが足りないため目的の検索結果が得られない場合に、適切なキーワードを追加もしくは置換するキーワード拡張技術に係わり、特に、各ユーザの利用実態を反映してのキーワード拡張を行うのに好適なキーワード拡張技術に関するものである。また、そのキーワードを用いてユーザの嗜好にあったテレビやラジオ、音楽、ゲーム、出版物等のコンテンツの情報を効率よく提供するのに好適なコンテンツ情報の提供技術に関するものである。さらに、コンテンツとユーザのベクトル同士の類似度をキーワードグループを介して、算出し、類似度の大きさに応じてユーザにコンテンツを推薦する技術に係わり、キーワードグループを生成する際の最適なグループ化条件を決定する技術に関するものである。

コンピュータ処理により、例えば、写真や画像、音楽、動画、Ｗｅｂページ、ゲーム、映画等のコンテンツ（情報）の分類を行ったり、利用者へ推薦を判断する場合に、そのコンテンツをキーワードの集合で記述しておいて、それらキーワードを用いて分類や検索、推薦を行うことができる。

しかし、コンテンツを記述したキーワードの数が少なかったり、頻出しないキーワードの場合、適切な分類やリコメンド（推薦）ができない場合がある。また、例えば、インターネットでＷｅｂページを検索する際、入力キーワードの語句が含まれない文書は、内容が類似したページであっても、選出されない場合があった。

従来、このような問題点を解決するために、意味的あるいは内容的に同義であるキーワードや、読み方や漢字の形態が類似したキーワードを、コンピュータ処理により追加もしくは置換するキーワード拡張技術である。

例えば、特許文献１においては、概念ネットワークを用いて、予め概念ネットワークに登録されている入力キーワードと概念パラメータの距離が近いキーワードを追加することでキーワードを拡張する技術が記載されている。

また、特許文献２においては、シソーラス辞書からキーワードと共起関係であるというキーワードを得て、それらを用いてキーワードを拡張する技術が記載されている。

また、特許文献３においては、入力されたキーワードから、予め定義しているルールに則って類似キーワードを生成し、生成したキーワードを入力キーワードに加えることでキーワードを拡張する技術が記載されている。

しかしながら、これらの従来の技術では、ユーザの利用実態に基づき、時間的状況によって動的に適応されたキーワードによる拡張、および、ユーザの部分的な嗜好の特徴を反映したキーワード拡張はできない。

すなわち、特許文献１および特許文献２のそれぞれに記載の技術では、予め生成した概念ベース辞書、シソーラス辞書に基づいてキーワードの拡張を行っており、そのため、ユーザの利用実態に基づき、時間的状況によって動的に適応されたキーワードによる拡張は困難である。

また、特許文献３に記載の技術も、予め定義しておいたルールと辞書に則ってキーワードを拡張するものであり、そのため、ユーザの利用実態に基づき、時間的状況によって動的に適応されたキーワードによる拡張は困難である。

このようなキーワードを用いて、ユーザが視聴した番組を見逃さないようにする技術が例えば、特許文献４に記載されている。従来、ユーザが視聴した番組を見逃さないようにするためには、ビデオデッキ等を用いて、放送時間やチャンネル番組を指定して録画したり、録画したいキーワードを指定して、番組情報（ＥＰＧ：Electric Program Guide）をネットワークもしくは電波から受信し、登録したキーワードが含まれる番組を選択する技術があったが、それぞれ、対象番組を明確に指定する必要があるという問題点、登録したキーワードに一致しない場合は録画されず、そのため、多くのキーワードの登録が必要であるという問題点があるのに対し、特許文献４においては、ユーザの番組予約操作、視聴結果や番組選択操作から、番組情報を用いて好みを自動的に学習し、番組情報と学習結果とを用いて、番組選択を行う技術が記載されている。

しかし、この技術においては、同じような番組ばかりが選択されがちになるという問題点があり、このような問題点の解決して、柔軟な番組推薦を可能とすることを目的に、特許文献５に記載の技術が開示されている。この特許文献５においては、特許文献４の技術における学習の際にテーマといった上位概念を用い、番組の内容別にキーワード集合を定義した「テーマ」という分類を用いた番組の推薦を行うことで、柔軟性を持たせた番組選択を行う技術が記載されている。

しかしながら、この特許文献５に記載の技術においても、ユーザの嗜好は、予め定義されたテーマ分類（ジャンルをさらに細かく定義したもの）に則っているとは限らず、また、利用実態や他人の嗜好が反映されていない為、類似したテーマの番組ばかりが推薦され、結果的にユーザにとって意外な番組が推薦されにくい傾向となる問題点がある。

特開平０８−１３７８９８号公報特開平１１−０４５２７４号公報特開平０５−２３３７０４号公報特開平０７−１３５６２１号公報特開２００２−３２０１５９号公報

解決しようとする問題点は、従来の技術では、ユーザの利用実態に基づき、時間的状況によって動的に適応されたキーワードによる拡張、および、ユーザの部分的な嗜好の特徴を反映したキーワード拡張を行うことができない点、ならびに、従来のコンテンツ情報提供技術では、本人の嗜好のみならず他人の嗜好も反映したコンテンツ推薦を行うことができない点である。本発明の目的は、上記課題を解決して、各ユーザの利用実態を反映してのキーワード拡張を行うことを可能とし、また、その拡張キーワードを用いてユーザの嗜好にあったコンテンツ情報を効率よく提供することを可能とすることである。

上記目的を達成するため、本発明では、各ユーザによるコンテンツの利用履歴から動的に得られる、共起関係にある部分的な嗜好を反映したキーワード集合を抽出し、そのキーワードを用いてキーワード拡張を行うことで、ユーザの利用実態に基づき、時間的状況によって動的に適応されたキーワードによる拡張と、ユーザの部分的な嗜好の特徴を反映したキーワード拡張を行う。すなわち、各ユーザが利用したコンテンツに関連するキーワードを各ユーザに対応付けた利用履歴データを格納し、所定の時間に、この利用履歴データを参照して、キーワード同士が部分的に共起関係にあるキーワード集合を抽出して記憶装置に格納し、入力された入力キーワードが、格納したキーワード集合に含まれている場合、当該キーワード集合に含まれている他のキーワードを拡張キーワードとして出力する。尚、キーワード集合の抽出には、クラスタリング処理によるキーワードグループ化、もしくは、データマイニングにおける相関ルール抽出処理等によるキーワード関連ルール抽出等を用いる。

そして、このようなキーワード拡張技術を、ユーザの嗜好にあったコンテンツを提供する技術に適用する。例えば、ユーザに、好みの放送番組が放送していることを気づかせる為に、ユーザが登録したキーワードに基づいて推薦対象となる番組を自動的に選出して、ユーザに気づかせる技術に適用することにより、ユーザ本人が登録したキーワードが少なく、推薦の判別が困難な場合でも、拡張キーワード情報を取得し、それを用いて、登録したキーワードを拡張することで、推薦の判別を可能とする。また、ユーザの操作により登録キーワードを、キーワード拡張を行う側にフィードバックし、複数ユーザからフィードバックされたキーワードに基づき拡張キーワード情報を生成する。また、本発明では、キーワードのグループ化の算出に用いる条件として、最適なグループ化条件を求めるために、利用実績があるユーザＩＤとコンテンツＩＤ間の組み合わせにおいて、複数のグループ化条件を設定し、その条件から生成したキーワードグループを用いてそれぞれユーザ・コンテンツ間の類似度を算出し、その結果から最適なグループ化条件を取得する。

本発明によれば、コンテンツをキーワードの集合として記述し、そのキーワードを基に適したユーザにコンテンツを推薦する際、そのキーワード数が不足していたため、適したユーザに推薦できない場合や、インターネット上の検索エンジンに入力する検索キーワードが足りないため目的の検索結果が得られない場合においても、複数のユーザが利用したコンテンツに関連する各キーワードに基づき、所定の時間で、キーワード同士の関連性の抽出を行い、抽出したキーワードの関連性から拡張するキーワードを決定することで、ユーザの利用実態に応じた適切なキーワードを動的に追加もしくは置換することが可能となる。

また、本発明によれば、他のユーザの嗜好情報（登録したキーワード等）を反映したコンテンツ推薦を行うことができ、従来は自ユーザの嗜好情報からは推薦できなかった意外性を有しかつ有益なテレビ番組等のコンテンツを逃さないよう、当該ユーザに推薦することができる。また、本発明によれば、キーワードをグループ化するための最適な条件（グループ化条件）が容易に取得できる、このようにして取得した最適なグループ化条件を用いることで、コンテンツ推薦の精度を向上させることができる。

以下、図を用いて本発明を実施するための最良の形態例を説明する。尚、この実施例での説明に、本発明が限定されるものではない。

図１は、本発明に係わるキーワード拡張装置の構成例を示すブロック図であって、１は本発明に係わるキーワード拡張装置、２は関係抽出処理部、３は拡張処理部、４は入力処理部、５は出力処理部、６は利用履歴データ格納部、７はキーワード関係抽出結果格納部、８は実行契機処理部、９は設定ファイル、１０は利用履歴データ、１１は入力キーワードである。

本例のキーワード拡張装置１は、ＣＰＵ（Central Processing Unit）や主メモリ、表示装置、入力装置、外部記憶装置からなるコンピュータ処理を行うものであり、光ディスク駆動装置等を介してＣＤ−ＲＯＭ等の記憶媒体に記録されたプログラムやデータを外部記憶装置内にインストールした後、この外部記憶装置から主メモリに読み込みＣＰＵで処理することにより、入力されたキーワードに関連性のあるキーワードを選出し拡張キーワードとして出力するための各処理部の機能を実行する。

すなわち、キーワード拡張装置１は、利用履歴データ格納部６により、各ユーザが利用したコンテンツに関連するキーワードと当該ユーザの識別情報とが対応付けられた利用履歴データを記憶装置に格納し、関係抽出処理部２において、まず、利用履歴データ読み込み処理部２ａにより、利用履歴データ格納部６で格納した利用履歴データを読み出し、関係抽出演算部２ｂにより、設定ファイル９に基づき相互に関連性のあるキーワード同士を特定するための所定の演算処理を行い、相互に関連する各キーワードを抽出してグループ分けし、その結果を、抽出結果データとして、抽出結果の格納処理部２ｃにより、キーワード関係抽出結果格納部７を介して記憶装置に格納する。

尚、このような関係抽出処理部２による処理は実行契機処理部８からの指示に基づき実行される。この実行契機処理部８では、内蔵するタイマ機能に基づき例えば予め設定された時間の経過を監視し、所定の時間間隔で、関係抽出処理部２に対する実行指示を出力する。これにより、キーワード関係抽出結果格納部７を介して記憶装置に格納される抽出結果データは所定時間間隔で動的に更新される。

また、実行契機処理部８による関係抽出処理部２に対する実行指示契機としては、タイマ周期の他に、利用履歴データの更新契機、利用履歴データの更新回数、利用履歴データのデータサイズ、入力部への入力契機、入力への入力回数などの情報を用いることも可能である。

このように、動的に更新される抽出結果データを用いて、拡張処理部３において、入力処理部４を介して入力された入力キーワード１１に対する拡張キーワードを取得する。すなわち、入力処理部４を介して入力キーワード１１が入力されると、拡張処理部３は、キーワード関係抽出結果読み込み処理部３ａにより、キーワード関係抽出結果格納部７で格納したキーワード関係抽出結果を読み込み、拡張キーワード取得部３ｂにより、入力キーワードと同じグループに属するキーワードを拡張キーワードとして特定する。

そして、キーワード拡張装置１は、出力処理部５を介して、拡張処理部３において特定した拡張キーワード１２を出力する。この出力処理部５では、拡張キーワードのみを出力するだけでなく、それぞれの重み値を算出して合わせて出力することも可能である。また出力先を、ＣＲＴ等の表示装置の画面や他の装置の入力手段や一時記憶装置やデータベースなどとすることも可能である。

以下、図２から図５を用いて、関係抽出処理部２における関係抽出演算部２ｂとして、クラスタリング処理を行う機能を設けたキーワード拡張装置１について説明する。

図２は、クラスタリング処理機能を有する関係抽出処理部の構成例を示すブロック図であり、図３は、図２における関係抽出処理部が読み込む利用履歴データ例を示す説明図、図４は、図２における関係抽出処理部から出力されるキーワード関係抽出結果例を示す説明図、図５は、図４におけるキーワード関係抽出結果に基づく拡張処理部の動作例を示す説明図である。

図２に示すように、関係抽出処理部２２は、図１における関係抽出演算部２ｂとしてクラスタリングエンジン２２ｂを具備し、このクラスタリングエンジン２２ｂにおいて、実行契機処理部２８からの指示で起動された利用履歴データ読み込み処理部２２ａが読み出した、利用データ格納部２６で格納された利用履歴データに対して、設定ファイル２９に設定されている条件に従ってクラスタリング処理を行い、キーワード集合のクラスタを生成し、各キーワード集合を抽出結果データとして、クラスタリング結果格納処理部２２ｃによりキーワード関係抽出結果格納部２７を介して記憶装置に格納する。

この際、関係抽出処理部２２は、利用履歴データに対するクラスタリング処理を行う際に得られる、同じグループに含まれるキーワード間の関係を表すパラメータ値を、抽出結果データにおける当該グループに対応付けて付与する。

例えば、クラスタリング演算を実施した結果で得られるパラメータ値、あるいは算出可能なパラメータ値としては、「距離尺度（クラスタ核平均距離、クラスタ間の距離）」、「クラスタの特徴値（核との分散値、偏差値）」等があり、それらのパラメータ値を、重み付けの係数として用いることができる。

また、クラスタリングエンジン２２ｂにおけるクラスタリング処理としては、ｋ−ｍｅａｎｓ法（Ｋ平均法）や階層的クラスタリング手法あるいはＩＳＯＤＡＴＡ法等を用いることができる。

一般的なクラスタリング手法である階層的クラスタリング手法の場合、アイテムそれぞれにべクトル値が付与されており、複数のアイテムをクラスタに分ける場合、そのアイテムのベクトル同士の距離を算出し、最も距離が短いアイテム同士をクラスタにする。さらに、アイテムとクラスタ、クラスタ同士を結合する処理を行う。これら処理を予め設定した数のクラスタになるまで繰り返すことでクラスタを生成することができる。

尚、クラスタリング手法に応じて、クラスタリング演算を行う際に必要な情報は、予めハードコーディングしておくか、設定ファイル２９で記述することが可能である。例えば、設定ファイル２９にて、「生成するクラスタの数（生成クラスタ数＝ｎ個等の定義や、生成クラスタ数＝全キーワードのｎ％等の割合や、生成クラスタ数＝ｆ（全キーワード数）のような関数などがある）」、「正規化手法（重み値の正規化手法：ユーザ毎に正規化、キーワード毎に正規化など）」、「クラスタリング演算繰り返し回数」、「類似度のしきい値範囲」などの記述をする。

図３に、関係抽出処理部２２にクラスタリング処理を用いる場合の利用履歴データの例を示しており、この利用履歴データ３１において、キーワードＫ０１，Ｋ０２，Ｋ０３，…のそれぞれにユーザＡ，Ｂ，Ｃ,…による重み値が付与されたキーワードベクトルが対応付けられており、例えば、キーワードＫ０１に関しては、ユーザＡの重み値が「１０」、ユーザＢの重み値が「２」、ユーザＣの重み値が「４」、ユーザＤの重み値が「５」、ユーザＥの重み値が「６」…となっている。

尚、このような利用履歴データは、コンテンツに付与されたキーワードとユーザ毎のキーワード利用回数情報を基にして作成することが可能である。

このような利用履歴データ３１に基づき、関係抽出処理部２２においてクラスタリング処理することで取得されるキーワード関係抽出結果は、図４に示す内容となり、このキーワード関係抽出結果データ４１においては、クラスタリング処理の結果で得られたクラスタ（分類番号）と、そこに含まれるキーワード集合とが対応付けて示されている。すなわち、生成されたクラスタＣ１，Ｃ２，Ｃ３，Ｃ４，…ごとに、同一クラスタに分類された各キーワードが格納されている。

例えば、クラスタ（分類番号）Ｃ１として、キーワードＫ０１とキーワードＫ０３が分類されている。これは、図３における利用履歴データ３１において、キーワードＫ０１とキーワードＫ０３に関しての各ユーザＡ，Ｂ，Ｃ，Ｄ，Ｅ，…における重み値に関係があり、本クラスタリング処理を行った結果、同じグループに分類されたものである。

また、図４におけるキーワード関係抽出結果データ４１においては、クラスタ生成の際に得られるクラスタ毎の分散値が記録されている。

このようなキーワード関係抽出結果データ４１に基づく拡張処理部の動作を図５を用いて説明する。例えば、入力キーワード５１１として、入力処理部５４を介してＫ０１、Ｋ１５の２つの入力キーワードが入力された場合、拡張処理部５３は、キーワード関係抽出結果読み込み処理部５３ａにより、キーワード関係抽出結果格納部５７で格納された、キーワード関係抽出結果データ（４１）を読み込み、拡張キーワード取得部５３ｂにより、キーワードＫ０１と同じ分類（Ｃ１）に入っているキーワードＫ０３と、キーワードＫ１５と同じ分類（Ｃ２）に入っているＫ０２，Ｋ０８，Ｋ１２の各キーワードを取得する。

取得した各キーワード（Ｋ０３，Ｋ０２，Ｋ０８，Ｋ１２）を入力キーワード５１１（Ｋ０１，Ｋ１５）と共に、出力処理部５５を介して拡張キーワード５１２として出力する。このようにして、入力キーワード５１１（Ｋ０１，Ｋ１５）に対するキーワード数の増加（拡張）を実現できる。

また、これらの拡張キーワード５１２の生成に、例えば出力処理部５５において、入力キーワード５１１のそれぞれに対する重み値を反映させることも可能である。例えば、入力処理部５４を介して入力されたキーワードＫ０１，Ｋ１５に、それぞれ重み値「０．１１」、「０．１５」が付与されていた場合、キーワードＫ０１によって拡張されたキーワードＫ０３の重み値をＫ０１と同じ「０．１１」に、Ｋ１５によって拡張されたキーワードＫ０２，Ｋ０８，Ｋ１２の重み値をＫ１５と同じ「０．１５」にすることが考えられる。

また、キーワード関係抽出結果を用いて拡張キーワードに重み付けをすることも可能である。例えば、キーワード関係抽出結果格納部５７で格納された図４のキーワード関係抽出結果データ４１に示すように、クラスタの分散値がキーワード関係抽出結果に格納されている場合、その分散値を用いて重み付けすることができる。

具体的には、入力されたキーワードＫ０１，Ｋ１５にそれぞれ重み値「０．１１」、「０．１５」が付与されており、キーワードＫ０３がキーワードＫ０１によって拡張され、キーワードＫ０２，Ｋ０８，Ｋ１２がＫ１５によって拡張された場合、キーワードＫ０３の重み値は、「キーワードＫ０１の重み値×（１−キーワードＫ０１が属する分類番号Ｃ１の分散値）」＝「０．１１×（１−０．０５）」＝「０．１０４５」として算出され、また、キーワードＫ０２，Ｋ０８，Ｋ１２の並み値は「キーワードＫ１５の重み値×（１−キーワードＫ１５が属する分類番号Ｃ２の分散値）」＝「０．１５×（１−０．０９）」＝「０．１３６５」として算出される。

次に、図６から図９を用いて、図１の関係抽出処理部２における関係抽出演算部２ｂとして、データマイニング処理を行う機能を設けたキーワード拡張装置１について説明する。

図６は、データマイニング処理機能を有する関係抽出処理部の構成例を示すブロック図であり、図７は、図６における関係抽出処理部が読み込む利用履歴データ例を示す説明図、図８は、図６における関係抽出処理部から出力されるキーワード関係抽出結果例を示す説明図、図９は、図８におけるキーワード関係抽出結果に基づく拡張処理部の動作例を示す説明図である。

図６に示すように、関係抽出処理部６２は、図１における関係抽出演算部２ｂとしてデータマイニング処理を行う相関ルール分析エンジン６２ｂを具備し、この相関ルール分析エンジン６２ｂにおいて、実行契機処理部６８からの指示で起動された利用履歴データ読み込み処理部６２ａが読み出した、利用データ格納部６６で格納された利用履歴データに対して、設定ファイル６９に設定されている条件に従って相関ルール分析処理を行い、キーワード集合別のルールを生成し、各キーワード集合を抽出結果データとして、クラスタリング結果格納処理部６２ｃによりキーワード関係抽出結果格納部６７を介して記憶装置に格納する。

相関ルール分析エンジン６２ｂにおいてルール抽出演算を行う際に必要なパラメータは、ルール抽出手法に応じて、予めハードコーティングしておくか、設定ファイル６９で記述しておく。例えば、相関ルール抽出の場合、「利用履歴データとエンジン入力データとの対応付け」、「確信度の範囲」、「支持度の範囲」、「リフトの範囲」、「ＵｐＣｏｎｆの範囲」、「最大ルール長さの範囲」、「抽出ルール数の範囲」、「抽出ルールのソートキー（リフト、支持度、確信度）などの定義が必要である。

例えば、「喜連川優 "データマイニングにおける相関ルール抽出技法" 人工知能学会誌Ｖｏｌ．１２Ｎｏ．４，ｐｐ．５１３−５２０（１９９７）」においては、「相関ルール分析時の用語」として、「ヘッド・ボディ」、「指示回数」、「支持度（サポート）」、「確信度（コンフィデンス）」、「リフト」、「ＵｐＣｏｎｆ」などが記載されている。

具体的には、「ヘッド・ボディ」に関しては、「Ａならば同時にＢも満たす（確率が高い）」というルールの場合、Ａをルールのボディ（条件部）、Ｂをルールのヘッド（結果）と言う」と記載され、「指示回数」に関しては、「条件を満たすデータ数、アイテムの指示回数、ルールの指示回数など」と記載され、「支持度（サポート）」に関しては、「指示回数を全データ数で割ったもので、ある関連購買における支持率を表す。例えば砂糖について卵の関連購買で支持度が２０％の場合、砂糖と卵を一緒に購入する顧客（ユーザ）が顧客全体の２０％という意味である」と記載され、「確信度（コンフィデンス）」に関しては、「ルールの指示回数をルールのボディの指示回数で割ったもので、ある関連購買における信頼度を表す。例えば卵について砂糖の関連購買で確信度が６０％の場合、卵購入者のうち６０％が一緒に砂糖を購入する傾向があることを示す」と記載され、「リフト」に関しては、「ルールの確信度をルールのヘッドの支持度で割ったもの、つまり、ルールの支持度をルールのボディとヘッダの支持度で割ったものであり、アイテム間の関連の強さ（関連購買傾向の比率）を表す」と記載され、「ＵｐＣｏｎｆ」に関しては、「ボディが２つ以上あるルールにのみ定義でき、ボディが１つ少ないルールの確信度と比較したときのルールの確信度の上昇率を示す指標で、無駄に長いルールを抑制できる」と記載されている。

また、キーワード関連ルール抽出の手法として、時系列分析やデルタ分析手法を用いることも可能である。時系列分析やデルタ分析手法を用いる場合は利用履歴データに時刻に関する項目が必要となる。さらに、設定ファイル６９もしくはハードコーディングにおいて、前述の相関ルール分析の場合に加えて、「利用履歴データのうち時刻情報の対応付け」、「分析時の時間窓の範囲」の定義も必要となる。

尚、このような相関ルール分析のアルゴリズムに関しては、「R.Agrawal, T.Imielinski, and A.Swami：Mining Associations between Sets of Items in Massive Databases. In Proceedings of ACM SIGMOD(１99３)」に、また、時系列分析のアルゴリズムに関しては、「R.Agrawal and R.Srikant Mining Sequential Patterns. Proceedings of the Eleventh IEEE inter−national Conference on Data Engineering(１99５)」に、また、デルタ分析のアルゴリズムに関しては、「Mariko Yoshida，Tetsuya Iizuka，Hisako Shiohara，Masanori Ishiguro："Mining sequential patterns including time intervals，"SPIE２０００, Orland U.S.A., pp.２１３−２２０(２０００)」に記載されている。

図７に、関係抽出処理部６２に相関ルール分析処理を用いる場合の利用履歴データの例を示しており、この利用履歴データ７１においては、コンテンツの利用履歴として、コンテンツを利用したユーザＩＤ（ユーザＡ，Ｂ，Ｃ，Ｄ，…）と、そのコンテンツに付与されたキーワード（Ｋ０１，Ｋ０２,Ｋ０３,…）、および、その時刻に対応付けて逐次記録されている。尚、この時刻項目は、ルール抽出に相関ルール分析手法を用いる場合には不要であるが、時系列分析やデルタ分析手法を用いる場合は必要である。

このような利用履歴データ７１に基づき、関係抽出処理部６２においてデータマイニング処理（相関ルール分析、時系列分析、デルタ分析）を行う相関ルール分析エンジン６２ｂを用いたルール抽出処理の結果で取得されるキーワード関係抽出結果は、図８に示すキーワード関係抽出結果データ８１の内容となり、このキーワード関係抽出結果データ８１においては、ルール抽出処理の結果で抽出されたキーワード間の関連が、各ルール番号（１，２，…）別に、ボディとなるキーワード、ヘッドとなるキーワード、ならびに、「支持度」、「確信度」が対応付けて示されている。

このように、データマイニング手法（相関ルール分析、時系列分析、デルタ分析）を用いたルール抽出処理の結果、抽出されたキーワード間の関連として、図８に示すキーワード関係抽出結果データ８１においては、例えば、ルール（１）に関しては、「ボディとなるキーワードＫ０１」ならば「ヘッドとなるキーワードＫ０３」というルール（１）の「ルールの支持度は０．１％」、「ルールの確信度は０．２５％」というルールが得られた結果が示されている。尚、ルール（２），（３），（５），（６）において示すように、「ボディとなるキーワード」として複数のキーワードが選出される場合もある。これらのルールは、設定によって単数もしくは複数抽出される。

このようにして抽出されたルール（キーワード関係抽出結果データ８１）は、キーワード関係抽出結果として、分析結果格納処理部６２ｃによりキーワード関係抽出結果格納部６７を介して記憶装置に保存される。尚、「ルールのリフト」等の値も得ることができれば、図８のキーワード関係抽出結果データ８１において、「支持度」、「確信度」と同様に記録しておくこともできる。

このようなキーワード関係抽出結果データ８１に基づく拡張処理部の動作を図９を用いて説明する。図９における拡張処理部９３は、入力処理部９４を介して入力された入力キーワード９１１に対し、キーワード関係抽出結果格納部９７で格納された図８に示すキーワード関係抽出結果データ８１に基づき、キーワード拡張を行う。

この際、例えば、入力キーワードが、（ａ）「ボディ」か「ヘッド」、（ｂ）「ボディのみ」、（ｃ）「ヘッドのみ」に含まれるルールが単数もしくは複数見つかった場合、そのルールにおける（Ａ）「ボディ」か「ヘッド」、（Ｂ）「ボディのみ」、（Ｃ）「ヘッドのみ」に含まれるキーワードによって拡張する方法が考えられる。また、拡張されるキーワードに同一のキーワードが重複して含まれる場合は、１つだけ用いるなどの解決が可能である。尚、上述の（ａ）〜（ｃ）、（Ａ）〜（Ｃ）のどれを用いるかは、装置の設計にゆだねる。

以下、入力キーワードが「ボディ」か「ヘッド」に含まれるルールが見つかった場合、そのルールにおける「ボディ］か「ヘッド」に含まれるキーワードで拡張する場合の例を説明する。

入力処理部９４からＫ０１、Ｋ０９の２つの入力キーワードが入力された場合、拡張処理部９３は、キーワード関係抽出結果読み込み処理部９３ａにより、キーワード関係抽出結果格納部９７で格納された図８に示すキーワード関係抽出結果データ８１を読み込み、拡張キーワード取得部９３ｂにより、キーワード関係抽出結果データ（８１）を参照し、「ボディ」か「ヘッド」に入力キーワードＫ０１を含んでいるルール（ルール番号１）を見つけ、そのルール（１）に含まれているキーワードＫ０３を拡張キーワードとして取得する。

同様に、「ボディ」か「ヘッド」に入力キーワードＫ０９を含んでいるルール（ルール番号４）を見つけ、そのルール（４）に含まれているキーワードＫ２３を拡張キーワードとして取得する。このようにして取得した拡張キーワード９１２は出力処理部９５を介して外部に出力する。

また、入力処理部９４から入力される入力キーワード９１１が複数のルールに含まれている場合には、拡張処理部９３は、拡張キーワード取得部９３ｂにおいて、関係抽出結果読み込み処理部９３ａにより読み込んだキーワード関係抽出結果データ（８１）を参照し、「ボディ」か「ヘッド」に入力キーワードＫ０８を含んでいるルール（ルール番号２とルール番号６）を見つけ、そのルール番号２においてＫ０８と同じルールに含まれているキーワードＫ０２，Ｋ１２と、ルール番号６においてＫ０８と同じルールに含まれているキーワードＫ１５，Ｋ１２を拡張キーワードとして取得する。ただし、キーワードＫ１２は重複しているため１つだけ用いることとし、結果的に、拡張されるキーワードはＫ０５，Ｋ１２，Ｋ１５となる。

これらの拡張されるキーワードに対して、例えば出力処理部９５において重みをつけることも可能である。例えば、入力されたキーワードが、（ａ）「ボディ」か「ヘッド」、（ｂ）「ボディのみ」、（ｃ）「ヘッドのみ」に含まれるルールが単数もしくは複数見つかった場合、そのルールにおける（Ａ）「ボディ」か「ヘッド」、（Ｂ）「ボディのみ」、（Ｃ）「ヘッドのみ」に含まれるキーワードによって拡張し、その拡張するキーワードを、（１）「入力キーワードの重み値に関連した値で重み付けをする」、（２）「ルールの『支持度』や『確信度』や『リフト』等の、分析で得られた値を用いて重み付けをする等が考えられる。そして、上記（ａ）〜（ｃ）、（Ａ）〜（Ｃ）、（１）〜（２）、を組み合わせることで目的に応じて装置を設計、調整することができる。

上記（１）の重み値を付与する例では、入力処理部９４に入力されたキーワードＫ０１，Ｋ１５にそれぞれ重み値「０．１１」，「０．１５」が付与されていた場合、キーワードＫ０１によって拡張されたキーワードＫ０３の重み値をＫ０１と同じ「０．１１」に、また、キーワードＫ１５によって拡張されたキーワードＫ０８，Ｋ１２の重み値をキーワードＫ１５と同じ「０．１５」にすることも可能である。

また、上記（２）の重み値を付与する例として、拡張されたキーワードを「確信度」を用いて重み付けする場合、キーワードＫ０１によって拡張されたキーワードＫ０３の重み値は、「＝Ｋ０１が属するルール番号１の確信度＝０．２５」とし、キーワードＫ１５によって拡張されたキーワードＫ０８，Ｋ１２の重み値は、「＝キーワードＫ１５が属するルール番号６の確信度＝０．２７」とすることができる。

それ以外の例として、拡張キーワードの重み値を、入力キーワードの重み値で倍数処理することも考えられる。例えば、入力キーワードＫ０１の重み値が「０．１１」、キーワードＫ１５の重み値が「０．１５」の場合、キーワードＫ０１によって拡張されたキーワードＫ０３の重み値は、「＝Ｋ０１が属するルール番号（１）の確信度×キーワードＫ０１の重み値＝０．２５×０．１１＝０．０２７５」、キーワードＫ１５によって拡張されたキーワードＫ０８，Ｋ１２の重み値は、「＝キーワードＫ１５が属するルール番号（６）の確信度×キーワードＫ１５の重み値＝０．２７×０．１５＝０．０４０５」とすることができる。

このように実装条件やシステムの特性に応じて、それぞれの値に倍率をかけたり、数値の正規化や増減演算を行ったり、関数をかけるなど、重み付け方法を設定することは容易に類推できる。ただし、上記（２）の例で重み付けをする場合、拡張するキーワードが、複数のルールから取得された場合は一意に重み付けするルールの「支持度」や「確信度」や「リフト」が得られない場合がある。

その場合、（ｉ）「一番大きい「支持度」や「確信度」や「リフト」に関連した値で重み付けをする」方法や、（ｉｉ）「支持度」や「確信度」や「リフト」の平均値で重み付けをするなどを例とした方法で重み付けすることが考えられる。

例えば、Ｋ０８のキーワードが入力された場合、拡張処理部９３は、キーワード関係抽出結果格納部９７で格納されたキーワード関係抽出結果データを参照し、「ボディ」か「ヘッド」にキーワードＫ０８を含んでいるルール（ルール番号２とルール番号６）を見つける。そして、ルール番号２においてキーワードＫ０８と同じルールに含まれているキーワードＫ０２，Ｋ１２と、ルール番号６においてキーワードＫ０８と同じルールに含まれているキーワードＫ１２，Ｋ１５とによってキーワードを拡張する。

ここで、前記（ｉ）一番大きい「支持度」や「確信度」や「リフト」に関連した値で重み付けをすることによって、拡張されたキーワードをルールの確信度で重み付けした場合、ルール番号２の確信度は、「０．７５」で、キーワードＫ０２，Ｋ１２が含まれ、ルール番号６の確信度は、「０．２７」で、キーワードＫ１２，Ｋ１５が含まれるため、キーワードＫ０２の重み値はルール番号２の確信度「０．７５」、キーワードＫ１２の重み値はルール番号２、６のうち、確信度が大きいルール番号２の確信度「０．７５」、キーワードＫ１５の重み値はルール番号６の確信度「０．２７」とする。

このように、同一のキーワードが複数のルールに該当していた場合であっても、実装条件やシステムの特性に応じて容易に対応することができる。

次に、図１で示すキーワード拡張装置１をコンテンツ検索システムに導入した例について図１０と図１１を用いて説明する。

図１０は、本発明に係わるコンテンツ検索システムの構成例を示すブロック図であり、図１１は、図１０におけるコンテンツ検索システムの処理動作例を示す説明図である。

図１０に示したコンテンツ検索システムは、ユーザの嗜好に合うコンテンツを検索して推薦するものであり、図１から図９で説明したキーワード拡張装置１０１とコンテンツ推薦装置１０３０とを有し、ユーザが行うコンテンツの「視聴履歴」、「操作履歴」、「入力履歴」、「取得履歴」、「利用履歴」、あるいは「行動履歴」といったユーザの活動履歴データ１００１〜１００６から書式変換手段ａ１０１０，ｂ１０１１，ｃ１０２などによって利用履歴データ１０６を生成し、コンテンツ推薦装置１０３０が、コンテンツＤＢ（データベース）１０３１のコンテンツ情報（キーワード集合）と嗜好ＤＢ（データベース）１０３２を基に、ユーザ１０３３にコンテンツを推薦する際、必要に応じてキーワード拡張装置１０１によってコンテンツ情報（キーワード情報）を拡張し、拡張したキーワードに基づきコンテンツを検索して、当該ユーザに対して推薦するシステムである。

まず、利用履歴データ１０６の生成に必要な「履歴データ」の取得例について、それぞれ説明する。

視聴履歴に関しては、例えば、ユーザ情報と、そのユーザＡが視聴している番組やコンテンツを取得可能なリモコン装置や、セットトップボックス装置などによって、視聴者、視聴番組、視聴時間などを取得して、インターネットやデータ放送から、番組名や出演者やテレビ局名や製作者に関するデータを取得して、これらを履歴データ１００１として記録する。

尚、このような視聴履歴の生成技術に関しては、例えば文献「土井，塩原，石黒：放送コンテンツの視聴スタイルによる嗜好情報生成，電子情報通信学会全国大会，Ａ−１５−１８，２００２．３」において、視聴履歴から、番組のジャンル、出演者、タイトル名、テレビ局名などをキーワードとして、視聴時間や視聴スタイル毎に重み付け方式を変えた履歴データを作成し、主観評価値と履歴データとの相関について実験した結果が示されている。

換作履歴に関しては、例えば、ユーザＢがＰＣ（パーソナルコンピュータ）や携帯電話に保存されている映像や音楽などのコンテンツおよびそのショートカットアイコンや、「VisionMark」等のコンテンツの存在を示すオブジェクトに対する削除操作や保護操作と、その操作を行ったユーザを取得して、その操作対象となったコンテンツ名やコンテンツの説明文から得たキーワードを履歴データ１００２として記録することができる。

尚、「VisionMark」については、例えば文献「宮奥、重吉、阿久津、外村：VisionMark：情報伝達メディアとインターネットの協調に向けたメディア連携方式，電子情報通信学会論文誌，D−I, Vol.J8６−D−I, No.６, pp４２１−４３０, ２００３.６」に記されている。

入力履歴に関しては、例えば、ユーザＣがパソコンや携帯電話などで、インターネットの検索サイトにおいて、入力キーワードとその入力者であるユーザ情報とを履歴データ１００３として記録することができる。尚、ユーザ情報は予め登録サイトで登録した情報を「cookie」としてパソコンで記憶する技術などがある。

取得履歴に関しては、例えば、ユーザＤが電子透かしで情報が埋め込まれているポスターを撮影して取得した、透かしで埋め込まれていた情報や、ＲＦＩＤ（Radio Frequency ＩＤentification）タグを情報ポスターに近づけて取得したポスターに関する情報と、そのユーザ情報が取得できれば、それらを履歴データ１００４として記録することができる。

利用履歴に関しては、例えば、ユーザＡがパソコンを用いてインターネットに接続してＷｅｂを閲覧している際、その閲覧している文面とそのユーザ情報とが取得できれば、閲覧ページの文面を形態素解析してキーワードを生成し、これらを履歴データ１００５として記録することができる。ユーザ情報は予め登録サイトで登録した情報を「cookie」としてパソコンで記憶する技術などがある。

行動履歴に関しては、例えば、ＲＦＩＤチップが埋め込まれた服を着たユーザＣが本を持って、東京駅の自動改札機を出場した場合、その時刻や場所、ユーザ情報、所持品情報、行動についての情報を得ることが可能である。このように、自動改札機やゲートセンサに近づいたり、通過する際に、その場所とそのユーザ情報と所持品などを特定できる情報が取得することで、これらの情報を履歴データ１００６として記録する。

尚、各履歴データ１００１〜１００６は、ネットワーク上の記憶装置に保存する場合や、端末上に記憶する場合であっても構わない。

上記のように、異なる複数のメディアの履歴データ１００１〜１００６であっても、データの書式や、ユーザ情報が共通していれば、それぞれの履歴データを結合することが可能である。例えば、ユーザ情報が、ＲＦＩＤチップのＩＤであったり、ユーザが自主的に入力するユーザＩＤであったり、Ｗｅｂブラウザが覚えている「cookie」のＩＤであったりと、メディアによって異なる場合でも、対応表などでユーザが一意に得ることが可能であれば結合することが可能である。

また、ユーザ情報は、操作の度に得られなくとも、利用履歴データとして転送する時などに付与しても構わない。

次に、履歴データ１００１〜１００６からキーワード拡張装置１０１が用いる利用履歴データ１０６を生成する際について説明する。

それぞれのメディアによって、履歴データ１００１〜１００６の書式、意味付けや重み値の度合いが異なっている場合は、それぞれの履歴データ１００１〜１００６を書式変換手段１１０１２によって変換処理を行う。この変換処理を経て、書式や意味付けや重み値の度合いに違いが無い履歴データ同士は結合して利用履歴データ１０６とすることが可能である。

書式変換手段ｃ１０１２においては、次のような変換処理が考えられる。すなわち、「履歴データの書式の変更」、「キーワードの重み付けの調整、正規化」、「複数の履歴データの結合」、「履歴データの切り出し（ユーザ毎、期間毎など）」、「履歴データの間引き処理」、「コンテンツ利用開始・利用終了時刻が記録されている履歴データの場合、利用時間を取得して、その時間に応じた重み付け」、特願２００３−１８１２１８号に記載のように「ログの新旧によった重み付け」、「ユーザの住所、氏名、年齢、職業、嗜好情報等が記録されたユーザプロファイル１０２０と履歴データとの合成」、「年齢や性別、住所、ユーザプロファイルが、ある条件に合致したデータのみの抽出」、「利用回数や利用時間、利用頻度による重み付け」、「ＴＦ−ＩＤＦ法などによる重み値の変換」、「操作（削除操作、保存操作など）や視聴スタイル（最後まで視聴、途中で視聴中断など）に応じた重み付け」などが可能である。

書式変換手段ｃ１０１２には、目的に応じて機能の異なる専用的な書式変換手段を用いても良いし、汎用的な書式変換手段でも良い。さらに、書式変換手段ａ１０１０，ｂ１０１１のように多段で利用しても、複数回用いてもよい。

また、キーワード拡張装置１０１で用いる利用履歴データ１０６は、単数であっても、目的やユーザプロファイル１０２０別に複数用いても良い。複数用いる場合としては、「書式が異なった利用履歴データ」、「ユーザプロファイル１０２０別に生成した利用履歴データ」、「基となる履歴データに異なる重み付けを行って生成した利用履歴データ」などがあげられる。

次に、図１１に基づき、図１０におけるコンテンツ検索システムの処理動作説明する。図１１に示す処理は、ユーザａにコンテンツＸを推薦するか否かを判断する例である。まず、コンテンツ推薦装置１０３０では、コンテンツＤＢ１０３１からコンテンツＸのコンテンツ情報をキーワード集合として取得する（ステップＳ１１０１）。

次に、嗜好ＤＢ１０３２からユーザａさんの嗜好情報をキーワード集合として取得し、コンテンツＸのキーワード集合とユーザａのキーワード集合との類似度を計算する（ステップＳ１１０２）。この類似度の計算は、キーワード集合をそれぞれ大きさ「１」のキーワードベクトルとして考えてキーワードベクトル同士の内積演算や余弦演算によって求めることができる。

計算結果の類似度が予め設定しているしきい値を下回る場合は（ステップＳ１１０３）、コンテンツＸのキーワード集合の拡張を図る。コンテンツＸのキーワード集合を拡張する場合は、キーワード拡張装置１０１の入力処理部１０４にコンテンツＸのキーワードを送信し、出力処理部１０５からの拡張されたキーワード集合を得る。

このようにして、キーワード拡張装置１０１によって拡張されたコンテンツＸのキーワード集合と、嗜好ＤＢ１０３２におけるユーザａのキーワード集合との類似度を算出する（ステップＳ１１０４）。算出した結果、類似度がしきい値を越えた場合は（ステップＳ１１０５）、ユーザａにコンテンツＸをリコメンド（推薦）し（ステップＳ１１０６）、そうでない場合はリコメンドしない（ステップＳ１１０７）。

以上の手順によって、コンテンツ推薦装置１０３０はコンテンツのリコメンドが可能となる。尚、コンテンツＸのコンテンツ情報やユーザａの嗜好情報は、キーワード集合であっても、キーワードにそれぞれ重み値がついたキーワード集合（キーワードベクトル）であってもかまわない。

以上、図１〜図９を用いて説明した本例の技術では、入力されたキーワードに対してコンピュータ処理を行い、入力されたキーワードに関連性のあるキーワードを選出し拡張キーワードとして出力するキーワード拡張装置において、各ユーザが利用したコンテンツに関連するキーワードと当該ユーザの識別情報とが対応付けられた利用履歴データを記憶装置に格納すると共に、記憶装置から利用履歴データを読み出し、相互に関連性のあるキーワード同士を特定するための所定の演算処理を行い、相互に関連する各キーワードを抽出してグループ分けし抽出結果データとして記憶装置に格納し、入力されたキーワードと同じグループのキーワードを、抽出結果データを参照することで拡張キーワードとして特定する手順を実行することを特徴としている。

尚、このキーワード拡張手順において、予め設定された時間で、利用履歴データの読み出しと所定の演算処理に基づく抽出結果データの取得と格納を行い、抽出結果データを更新する。また、所定の演算処理として、クラスタリング処理、もしくは、データマイニング処理を行う。さらに、所定の演算処理を行う際に得られる、同じグループに含まれるキーワード間の関係を表すパラメータ値を、抽出結果データにおける当該グループに対応付けて付与すると共に、拡張キーワードに対して、同グループに付与されたパラメータ値を用いて重み付けを行うことを特徴とする。

このことにより、コンテンツをキーワードの集合として記述し、そのキーワードを基に適したユーザにコンテンツを推薦する際、そのキーワード数が不足していたため、適したユーザに推薦できない場合や、インターネット上の検索エンジンに入力する検索キーワードが足りないため目的の検索結果が得られない場合においても、複数の利用者が利用したコンテンツ等の利用履歴情報に基づいてキーワード同士の関連性の抽出を行い、抽出したキーワードの関連性から、拡張するキーワードを決定することができ、適切なキーワードを追加もしくは置換することが可能となる。

尚、本発明のキーワード拡張技術は、図１〜図１１を用いて説明した例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、図１０，１１においては、キーワード拡張装置をコンテンツを推薦する検索システムに導入した例を示したが、次のようなシステムへの適応が可能である。

入力キーワード補充システムにキーワード拡張装置を導入することで、例えば特許検索やインターネットのページ検索、書籍検索などに入力するキーワードを、本キーワード拡張装置を用いてキーワードを補填することで、従来の方式では検索結果として得られなかった結果を得ることが可能となる。

キーワード関連性レポートシステムにキーワード拡張装置を導入することで、キーワード関係抽出結果に格納されているキーワードの関連と、関係抽出処理時に得られた値（分散値や支持度、確信度、リフトなど）をレポートにするサービスへの応用が可能である。また入力されたキーワードと拡張されたキーワードとその重み値をレポートにする応用も可能である。

ユーザプロファイルの違いによるキーワード関連性レポートシステムにキーワード拡張装置を導入することで、前記キーワード関連性レポートにおいて、利用履歴データから年齢や性別、住所、さらにアンケート結果等から得られたユーザプロファイルごとに、キーワード関係抽出結果を生成し、ユーザプロファイルの違いによって生成されるキーワード関係抽出結果の違いや、拡張されるキーワードの違いをレポートにするとの応用も可能である。

次に、このようなキーワード拡張技術の応用例を図１２から図２４を用いて説明する。ここでは、上述のキーワード拡張技術を用いて、ユーザに、嗜好にあったテレビ番組等のコンテンツを気づかせることができるようにすると共に、いままでユーザが知らなかった意外なコンテンツ（例えばテレビ番組）も推薦して、ユーザに新しい視聴を行わせることも可能とするのに好適なコンテンツ情報提供技術に関して説明する。

本例では、ユーザにとって意外かつ有益なコンテンツ情報（ここではテレビ番組情報を例として説明する）を得るために、ユーザが登録したキーワードに対し、他のユーザが登録したキーワードを反映したキーワード拡張を実施し、その拡張後の登録キーワードを含む番組情報を提示してユーザに推薦する。

以下、図に示す実施例に基づいて詳しく説明する。尚、番組情報をユーザに提示するための端末装置としては、携帯電話やＰＤＡ（Personal Digital Assistance）、パソコン等があり、また、情報の伝達に用いるネットワークとしては、インターネットや公衆回線、ＬＡＮ（Local Area Network）、無線ＬＡＮ、携帯電話のバケット通信網、ケーブル接続等があり、番組としては、ラジオ放送番組、テレビ放送番組、インターネット放送番組等のスケジュールに則って放送されるコンテンツ等があり、その番組情報としては、番組のタイトル、出演者、製作者、解説文といった番組に関する情報であり、ＥＰＧ（Electric Program Guide）等、ネットワークや電波、記憶媒体によって取得可能である。また、キーワードとしては、出演者名や番組情報に含まれる単語をはじめとした文字列があり、拡張キーワード情報としては、ユーザが端末装置に登録したキーワードを拡張するためのキーワード集合であり、複数のキーワード集合（グループ）で構成することも可能である。

尚、上述したキーワード拡張技術における各部と本番組情報提供技術における各部との対応付けを、次のようにして説明を行う。すなわち、「拡張処理部」は「キーワード拡張手段」に、「関係抽出処理部」は「拡張キーワード生成手段」に、「キーワード関係抽出結果格納部」は「拡張キーワード情報記憶装置」に、「キーワード関係抽出結果」は「拡張キーワード情報」に、「利用履歴データ格納部」は「フィードバック情報記憶手段」に相当する。

図１２は、本発明に係わる番組情報提供システムの構成例を示すブロック図であり、図１３は、図１２における番組情報提供システムで用いる番組情報提供端末装置の第１の内部構成例を示すブロック図、図１４は、図１２における番組情報提供システムで用いる番組情報提供端末装置の第２の内部構成例を示すブロック図、図１５は、図１２における拡張機生成センタ装置の内部構成例を示すブロック図、図１６は、番組情報提供端末装置の操作表示部の構成例を示す説明図、図１７は、番組情報提供端末装置の表示部の第１の表示例を示す説明図、図１８は、番組情報提供端末装置の表示部の第２の表示例を示す説明図、図１９は、番組情報提供端末装置の表示部の第３の表示例を示す説明図、図２０は、番組情報提供端末装置の表示部の第３の表示例を示す説明図、図２１は、番組情報提供端末装置の表示部の第４の表示例を示す説明図、図２２は、図１２における番組情報記憶装置で記憶している番組情報の構成例を示す説明図、図２３は、図１２における拡張キーワード生成センタ装置で記憶しているフィードバック情報の構成例を示す説明図、図２４は、図１２における拡張キーワード情報記憶装置で記憶している拡張キーワード情報の構成例を示す説明図である。

図１２において、１２００ａ〜１２００ｃはユーザ、１２０１ａ〜１２０１ｃは番組情報提供端末装置（図中および以下「端末装置」と記載）、１２０２はネットワーク、１２０３は番組情報記憶装置、１２０４は拡張キーワード情報記憶装置、１２０５は拡張キーワード生成センタ装置であり、端末装置１２０１ａ〜１２０１ｃ、番組情報記憶装置１２０３、拡張キーワード情報記憶装置１２０４、拡張キーワード生成センタ装置１２０５のそれぞれはプログラムに基づき動作するコンピュータ処理機能を有している。

このような構成において、ユーザ１２００ａが、端末装置１２０１ａにキーワードを登録すると（ステップＳ１２０１）、端末装置１２０１ａは、ネットワーク１２０２を介して、番組情報記憶装置１２０３から、番組情報を取得する（ステップＳ１２０２）。

また、端末装置１２０１ａは、ネットワーク１２０２を介して、拡張キーワード情報記憶装置１２０４から、拡張キーワード情報を取得して、ユーザが登録したキーワードを、取得した拡張キーワード情報を用いて拡張する（ステップＳ１２０３）。そして、拡張後の登録キーワードと、番組情報とを用いて、ユーザ１２００ａに推薦する番組情報を、画面表示する（ステップＳ１２０４）。尚、キーワード拡張技術に関しては、図１３〜１５で説明する。

さらに、端末装置１２０１ａは、ユーザ１２００ａが登録したキーワードを、ネットワーク１２０２を介して、拡張キーワード生成センタ装置１２０５に送信する（ステップＳ１２０５）。

拡張キーワード生成センタ装置１２０５は、端末装置１２０１ａから送信されてきたキーワードを受信し、拡張キーワード情報を生成し、拡張キーワード情報記憶装置１２０４に格納する。尚、拡張キーワードを生成する技術については、図１３〜１５での説明で示す。

端末装置１２０１ａは複数あり（１２０１ｂ，１２０１ｃ）、それぞれ異なるユーザ（１２００ｂ，１２００ｃ）が用いることができる。この端末装置１２０１ａ，１２０１ｂ，１２０１ｃの詳細について、図１３を用いて説明する。

図１３に示す端末装置１３０１は、入力手段１３０１ａ、キーワード記憶手段１３０１ｂ、拡張キーワード情報取得手段１３０１ｃ、拡張キーワード情報記憶手段１３０１ｄ、キーワード拡張手段１３０１ｅ、番組情報取得手段１３０１ｆ、番組情報記憶手段１３０１ｇ、番組情報選択手段１３０１ｈ、類似度算出手段１３０１ｉ、表示内容生成手段１３０１ｊ、表示手段１３０１ｋを有する。

ユーザ１３００は端末装置１３０１の入力手段１３０１ａにおいて、キーワードを登録する。この端末装置１３０１における表示手段１３０１ｋでのキーワード追加登録画面例を図１９に示す。このように入力手段１３０１ａで登録されたキーワードは、キーワード記憶手段１３０１ｂにおいて記憶される。

拡張キーワード情報取得手段１３０１ｃは、ネットワーク（１２０２）を介して、拡張キーワード情報記憶装置１３０４から、図２４に例示する拡張キーワード情報を取得する。拡張キーワード情報取得手段１３０１ｃで拡張キーワード情報を取得する契機は、予め設定しておいた時刻でも、ユーザの操作による契機でも、周期的でも良い。また、拡張キーワード情報ヘアクセスするためのアドレスは予め端末装置１３０１で設定することが可能である。

拡張キーワード情報取得手段１３０１ｃで所得した拡張キーワード情報は、拡張キーワード情報記憶手段１３０１ｄで格納する。

キーワード拡張手段１３０１ｅは、キーワード記憶手段１３０１ｂに格納されている登録キーワードを、拡張キーワード情報記憶手段１３０１ｄに格納されている拡張キーワード情報を用いて拡張する。このキーワード拡張例の詳細は後述する。

番組情報取得手段１３０１ｆは、ネットワーク（１２０２）を介して、番組情報記憶装置１３０３から、複数もしくは単数の番組情報を取得する。この番組情報を、図２２に例示する。取得する番組情報は、放送日時などが予め設定しておいた条件に合致する番組情報であったり、取得可能な全ての番組情報であってもよい。

また、番組情報を取得する契機は、予め設定しておいた時刻でも、ユーザの操作による契機でも、周期的でも良い。また、番組情報ヘアクセスするためのアドレス（ＵＲＬ：Uniform Resource Locator等）は予め端末装置で設定することが可能である。

番組情報記憶手段１３０１ｇは、番組情報取得手段１０１ｆが取得した、複数もしくは単数の番組情報を記憶する。

番組情報選択手段１３０１ｈは、現在の時刻などを参照して、表示手段１３０１ｋに表示する番組情報として適したものを選択する。例えば、現在時刻からある時間以内に放送される番組情報のみ選択する場合や、ユーザの場所や年齢、契約している放送局によって、視聴可能な番組のみ選択する場合、ユーザが指定したジャンルの番組のみ選択する場合などがある。

番組情報選択手段１３０１ｈで選択された番組情報は、表示手段１３０１ｋで表示される番組の候補となる。番組情報選択手段１３０１ｈが選択する条件を、別途ユーザが登録しておくことも可能である。

類似度算出手段１３０１ｉは、番組情報選択手段１３０１ｈで選択された番組情報と、キーワード拡張手段１３０１ｅによって拡張された登録キーワードとの類似度を算出する。この類似度算出例は後述する。

表示内容生成手段１３０１ｊは、番組情報と登録キーワードとの類似度の大きさから表示手段１３０１ｋに表示する内容やその場所、アラートの有無を決定する。例えば、「類似度の大きいものだけを表示する」、「現在から１時間以内に放送され、かつ、類似度の大きい番組情報を画面上部に表示する」、「類似度の大きさに応じて所定の印を表示する」と言った表示内容の生成を実施する。

表示手段１３０１ｋは、表示内容生成手段１３０１ｊが生成した画面を例えば図１６に示す内容で表示する。

図１４に示す端末装置１４０１においては、キーワード記憶手段１４０１ｂおよび送信可能情報格納手段１４０１ｎに記憶された情報を、送信手段１４０１ｍにより、ネットワークを介して、拡張キーワード生成センタ装置１４０５に送信する。

送信手段１４０１ｍが、キーワード記憶手段１４０１ｂに記憶されている登録キーワードを拡張キーワード生成センタ装置１４０５に送信する契機は、予め設定しておいた時刻でも、ユーザの操作による契機でも、周期的でも良い。

この送信手段１４０１ｍから送信する情報をフィードバック情報と呼び、このフィードバック情報として、ユーザＩＤ、端末ＩＤなど、ユーザや端末を一意に識別するためのコードを拡張キーワード生成センタ装置へ送信しても良い。さらに、フィードバック情報として、ユーザ属性、設定地域、契約放送局名などを送信することも可能である。

送信可能なフィードバック情報は、しかるべき手段によって送信可能情報記憶手段に格納されている。

図１５においては、拡張キーワード生成センタ装置１５０５の詳細図を示しており、拡張キーワード生成センタ装置１５０５は、受信手段１５０５ａ、フィードバック情報記憶手段１５０５ｂ、拡張キーワード生成手段１５０５ｃを具備している。

受信手段１５０５ａでは、端末装置１５０１から送信されたフィードバック情報を受信する。フィードバック情報記憶手段１５０５ｂでは、受信手段１５０５ａで端末装置１５０１から受信したフィードバック情報を記憶する。

フィードバック情報として、登録キーワード以外にユーザＩＤ、端末ＩＤといったユーザや端末を一意に識別するためのコードを受信した場合、それらと受信した登録キーワードとを関連付けてフィードバック情報記憶手段１５０５ｂに格納する。格納技術の一例として、ユーザＩＤ毎に、受信した登録キーワードを記憶する技術がある。

また、フィードバック情報記憶手段１５０５ｂに格納されている該当ユーザＩＤの場所に、既に登録キーワードが格納されている場合、一旦格納されている登録キーワードを削除し、受信した登録キーワードで更新する技術がある。

他にも受信したフィードバック情報のうち、ユーザ属性、地域、契約放送局名などを格納することが可能である。図２３において、フィードバック情報記憶手段１５０５ｂに格納している情報の例を示す。

拡張キーワード生成手段１５０５ｃは、フィードバック情報記憶手段１５０５ｂに格納されているフィードバック情報から、拡張キーワード情報を生成する。この拡張キーワード情報は、フィードバック情報記憶手段１５０５ｂに格納されているフィードバック情報において、何らかの関連があるキーワード同士をグループ化したものである。

この拡張キーワード生成手段１５０５ｃの拡張キーワード情報の生成は、タイマや予め設定した時間周期、フィードバック情報記憶手段１５０５ｂに格納された契機、フィードバック情報記憶手段１５０５ｂに格納されたデータの量といった、しかるべき契機で実行される。

また、拡張キーワード情報は、ユーザ属性（年齢や性別、地域など）ごとに生成するように設計することも可能である。このような拡張キーワード情報生成の詳細例は後述する。

このようにして拡張キーワード生成手段１５０５ｃで生成された拡張キーワード情報は、拡張キーワード情報記憶装置１５０４に格納される。尚、ユーザ属性（年齢や性別、地域など）ごとに生成された拡張キーワード情報を、ユーザ属性毎に拡張キーワード情報記憶装置１５０４に格納するように設計することも可能である。また、ユーザ属性毎に生成された拡張キーワード情報が生成されている場合、ユーザは自分と同じ属性のユーザからのフィードバック情報から生成した拡張キーワード情報を取得することも可能である。

図１６から図２１においては、端末画面表示例を示している。図１６においては、端末装置１６０１の外形とその画面表示例を示しており、図１３における表示内容生成手段１３０１ｊが生成した、現在放送中もしくはまもなく放送され番組情報との類似度が大きい番組情報が３つ表示されている。尚、図中の星印の数によって類似度の大きさを表している。尚、現在放送中の番組情報を表示することも可能である。

図１７では、メニュー画面例を示しており、このメニュー画面１７０１では、キーワードの追加登録、キーワードの削除、キーワード拡張機能設定、フィードバック、地域選択、終了などが、ユーザの操作によって選択できる。

地域選択では、ユーザの地域を選択することによって、視聴可能なテレビ放送局を判別する。キーワード削除では、既にユーザが登録した登録キーワードを削除することができる。

図１８では、番組詳細情報表示例を示しており、ユーザが、この画面１８０１に表示された番組情報を選択することで、さらに詳細な情報が表示される。また「キーワード追加登録」をユーザが選択することで、表示されている番組情報のキーワードを一括して登録することが可能である。

尚、番組情報が文書などで、キーワードになっていない場合は、キーワードに分解する必要がある。文書をキーワードに分解する手法として、形態素解析を行い名詞のみ用いるといった処理がある。

図１９では、キーワード追加登録画面例を示しており、ユーザは、この画面１９０１に表示されているメニューからキーワード追加登録を選択することで、ユーザが登録したい任意のキーワードを追加登録できる。

図２０では、フィードバック画面例を示しており、ユーザは、この画面２００１に表示されているメニューからフィードバックを選択することで、ユーザが登録したキーワードを拡張キーワード生成センタ装置（１２０５）に送信することができる。

図２１では、キーワード拡張機能の選択画面例を示しており、ユーザは、この画面２１０１に表示されているメニューからキーワード拡張機能設定を選択すると、キーワード拡張機能の有効/無効を設定できる。キーワード拡張機能を無効にした場合、拡張キーワード情報を取得し、キーワード拡張手段１３０１ｅで登録キーワードを拡張する処理はスキップされる。

図２２においては、図１２における番組情報記憶装置１２０３で記憶されている番組情報の例を示しており、番組情報２２０１には、放送局名、放送日時、タイトル名、説明文などが記述されている。尚、この番組情報記憶装置１２０３に格納されている番組情報２２０１は、ファイルの形態であってもＷｅｂページの形態であっても、またデータベースの形態であっても良い。

図２２に示す例では、「２ｃｈ」という放送局が、「２００４年１月１６日１８時３０分から１９時００分」に「ニュース１８３０」というタイトルの番組を放送するという番組情報である。その次の行の文は、その番組の解説文となっている。

図２３においては、図１５におけるフィードバック情報記憶手段１５０５ｂに記憶されている情報例を示しており、この情報２３０１では、ユーザＩＤ毎にフィードバック情報として送信された登録キーワードを記憶している。

図２４においては、図１２における拡張キーワード情報記憶装置１２０４で記憶されている拡張キーワード情報の例を示しており、本例の拡張キーワード情報２４０１は、４つのグループのキーワード集合が格納されている。

以下、図１６から図２４に示された具体手的な例を用いて、各手段における処理動作例を説明する。

まず、図１３におけるキーワード拡張手段１３０１ｅによるキーワード拡張動作例を説明する。尚、このキーワード拡張方法には複数あり、ここでは、拡張方法の一例を示す。

キーワード記憶手段１３０１ｂに格納されているキーワードが「アニメ」であり、図２４における拡張キーワード情報２４０１に格納されているキーワードで「アニメ」を含むキーワードグループに含まれる他のキーワードが「名探偵」、「ボケモンキー」の場合、それらのキーワードを付与した、「アニメ」、「名探偵」、「ボケモンキー」を拡張後の登録キーワードとする。

また、キーワード拡張手段１３０１ｅによるキーワード拡張処理例としては、図１〜図１１で説明したキーワード拡張装置と方法およびコンテンツ検索システムによる処理を用いて、キーワードを拡張することが可能である。

以上に例示した手法によって、登録キーワードを拡張することが可能である。次に、図１３における類似度算出手段１３０１ｉによる類似度算出例を説明する。

「類似度Ｒ＝（番組情報に含まれる、登録キーワードの数）＊１００／（番組情報の文字列長＊登録キーワード数）」と定義した場合、図２２における番組情報２２０１が「ニュース１８３０ : 山本アナ・温泉特集・名探偵ご紹介・地震の備えは大丈夫？関東の天気」であり、上述のキーワード拡張手段１３０１ｅで拡張された登録キーワードが「アニメ」、「名探偵」、「ボケモンキー」であり、この場合、番組情報に含まれる、「登録キーワードの数＝１」、「番組情報の文字列長＝７８バイト」、「登録キーワード数＝３」のため、「類似度Ｒ＝（１＊１００）／（７８＊３）＝０．４２７」となる。

次に、図１５における拡張キーワード生成手段１５０５ｃによる拡張キーワード情報生成例を説明する。

拡張キーワード情報を生成する技術としては、キーワード拡張手段１３０１ｅによるキーワード拡張処理例でも述べたように、図１〜図１１で説明したキーワード拡張装置と方法およびコンテンツ検索システムによる処理、特に、関係抽出処理部の処理を用いることが可能である。

まず、第１の例を説明する。図１５におけるフィードバック情報記憶手段１５０５ｂに格納されている（図２３に例示される情報２３０１参照）ユーザＩＤ毎の登録キーワードを、それぞれのキーワードに「１」の重みが付与されたキーワードベクトルとする。

例えば、ユーザＩＤがＵＳＥＲ１の登録キーワードが、「ニュース」、「温泉」、「旅行」、「ぶらり」、「高級」、「レストラン」の場合、ユーザＩＤがＵＳＥＲ１のキーワードベクトルＶ（ＵＳＥＲ１）は、「Ｖ（ＵＳＥＲ１）＝（ニュース＝１，温泉＝１，旅行＝１，ぶらり＝１，高級＝１，レストラン＝１）となる。

同様にして、各ユーザＩＤごとのキーワードベクトルを求める。そして、クラスタリング手法を用いて、各キーワードをクラスタに分ける。例えば、Ｋ−Ｍｅａｎｓ法を用いてクラスタリングする場合、生成するクラスタの数を指定する。キーワードが複数グループのキーワード集合にクラスタリングされると、その結果を拡張キーワード情報として用いる。

次に、第２の例として、デークマイニングの相関ルール分析を用いて、キーワード同士の関係を抽出し、抽出されたキーワードをグループ化して、拡張キーワード情報とする技術を説明する。

この技術では、フィードバック情報記憶手段１５０５ｂに格納されている（図２３に例示される情報２３０１参照）ユーザＩＤ毎の登録キーワードの情報をデークマイニングの相関ルール分析の入力データとして用いる。この際、ユーザＩＤをトランザクションＩＤとして用いることが可能である。尚、相関ルール分析の条件として支持度・確信度・リフト・最大ルール長さなどを設定することが必要である。

相関ルール分析についての概要や関連文献については、「喜連川優，デークマイニングにおける相関ルール抽出技法，人工知能学会誌Ｖｏｌ．１２Ｎｏ．４（１９９７）」に記されている。また、相関ルール分析のアルゴリズムの一例として、「R.Agrawal，T.Imielinski，and A.Swami : Mining Associations between Sets of Items in Massive Databases. In Proceedings of ACM SIGMOD （１99３）」があげられる。

以上に例示した技術によって生成した拡張キーワード情報は、図２４に示すようにして図１５における拡張キーワード情報記憶装置１５０４に格納される。

以上、図１２から図２４を用いて説明したように、本例の番組情報提供技術では、端末装置にユーザが登録した登録キーワードを、拡張キーワード情報を用いてキーワード拡張手段によって拡張し、類似度算出手段によって、拡張後の登録キーワードと、複数もしくは単数の番組情報との類似度を算出し、表示内容生成手段によって、算出した類似度の値の大きさによって表示する番組情報の内容を生成し、表示手段によってユーザにお薦めの番組情報を表示する。

他の複数のユーザの登録キーワードを拡張キーワード情報の生成に反映するには、送信手段によって、登録されている登録キーワードやユーザ属性等の送信可能情報をフィードバック情報として拡張キーワード生成センタに送信し、受信手段で受信したフィードバック情報から拡張キーワード生成手段によって、関連性のあるキーワードの集合を抽出し、それをグループにして、拡張キーワード情報として格納する。

これにより、ユーザに、嗜好にあった番組を気づかせることができるようにすると共に、いままでユーザが知らなかった意外な番組も推薦して、ユーザに新しい視聴を行わせることが可能となる。

すなわち、拡張キーワード情報は、複数のユーザからのフィードバック情報から生成しているため、拡張後の登録キーワードに、他のユーザの好みに関する情報が含まれる。そのため、いままで知らなかった意外な番組も推薦される可能性があり、ユーザに新しい視聴を行わせることが可能となる。

さらに、拡張キーワード情報を用いて登録したキーワードを拡張することができるため、登録した好みの番組に関するキーワードに一致していない番組でも、拡張後の登録キーワードでは一致する可能性があり、キーワードが少ない為に番組が推薦されないという点を防ぐことができる。

また、ユーザ自身が、登録したキーワードをセンタに送信する「フィードバック」操作を行わずとも、他のユーザの誰かがフィードバックすれば、サービスを受けることが可能となる。

また、登録したキーワードに一致した番組を表示して、番組とユーザとの好みの類似度の大きさに応じて、端末装置にて音を鳴らす、画面表示を行うといったを気づかせの動作を行い、好みの番組の視聴を逃さないようにすることができる。

尚、図１２〜図２４で示した例では、テレビ番組情報すなわちテレビ番組コンテンツへの適応例を説明したが、本発明はこれに限定されるものではなく、映像や音楽、出版、ゲームをはじめとしたコンテンツに関しても同様にして適応可能である。

次に、図２５〜図２９を用いて、キーワードの集合の求め方（グループ分け、相関ルール抽出）に関しての説明を行う。すなわち、上述したキーワード拡張装置等においては、例えば、図３，７に示される利用履歴データ３１，７１を用いて、相互に関連する各キーワードを抽出して集合化（図４，図８のキーワード関係抽出結果データ４１，８１）を行っているが、この際、クラスタリング手法では、図１，２の設定ファイル９，２９において設定された「生成するクラスタの数」や「正規化手法」、「クラスタリング演算繰り返し回数」、「類似度のしきい値範囲」等の各条件に基づきグループ分けを行っており、また、データマイニング処理では、図６の設定ファイル６９において設定された「確信度の範囲」や「支持度の範囲」、「リフトの範囲」、「ＵｐＣｏｎｆの範囲」、「最大ルール長さの範囲」、「抽出ルール数の範囲」等の各条件に基づき、相関ルール抽出を行っている。

また、例えば、論文『土井俊介、吉田由紀、東野豪「ＲＵＩ−Ｆｉｌｔｅｒｉｎｇ：利用履歴のアイテムの類似度関係を反映した協調フィルタリング方式」、ＤＥＷＳ２００４（電子情報通信学会第１５回データ工学ワークショップ）Ｉ−７−０６』に記載のように、ユーザのキーワードベクトルとコンテンツのキーワードベクトル同士の類似度を、キーワードグループを介して求め、求めた類似度の大きさに応じて、ユーザに推薦するコンテンツを特定する技術においても、クラスタリングを用いる際に、生成するキーワードグループの数（クラスタ数）を条件として指定している。

このようなキーワードグループを生成する際の条件は、例えば、コンテンツを推薦するサービスの内容や、ユーザの数、コンテンツに付与されたメタデータ（キーワード）の量などによって、最適な条件が異なり、精度良くコンテンツの推薦を行うための最適な条件を設定することが必要である。

図２５〜図２９においては、このようなキーワードの集合化に用いる「最適な条件」を求める技術を説明する。ここでは、ユーザのキーワードベクトルとコンテンツのキーワードベクトル同士の類似度を、キーワードグループを介して算出し、算出した類似度に応じて、ユーザにコンテンツを推薦するシステムを例に、そのキーワードグループを生成する際の最適なグループ化条件を決定する技術を説明する。

図２５は、本発明に係わるキーワードグループ化条件決定装置を具備したコンテンツ推薦システムの構成例を示すブロック図であり、図２６は、本発明に係わるキーワードグループ化条件決定装置の構成例を示すブロック図、図２７は、図２６における蓄積記録手段に蓄積されたデータ例を示す説明図、図２８は、図２６におけるユーザのキーワードベクトルのデータ例を示す説明図、図２９は、図２６における類似度算出実行手段の処理動作例を示す説明図である。

図２５において、２５０１はグループ化条件決定装置、２５０２はキーワードグループを用いてコンテンツを推薦する装置、２５０３は利用履歴、２５０４はユーザのキーワードベクトル、２５０５はコンテンツのキーワードベクトル、２５０６は最適なグループ化条件である。

利用履歴２５０３は、コンテンツの識別情報（コンテンツＩＤ）と当該コンテンツを利用したユーザの識別情報（ユーザＩＤ）とを対応付けた情報であり、ユーザのキーワードベクトル２５０４は、利用履歴２５０３を基に生成され、ユーザの（当該ユーザが過去に評価を行ったコンテンツの内容を解析して得られる）プロファイル情報であり、コンテンツのキーワードベクトル２５０５は、コンテンツのメタ情報であり、それぞれ記憶装置に記憶されている。

ユーザのキーワードベクトル２５０４は、図３の利用履歴データ３１や図７の利用履歴データ７１に相当するものであり、また、図２８に例示されるものである。図２８においては、ユーザＩＤ（１，２，３，４）の各ユーザがコンテンツを利用した結果、そのコンテンツに含まれたメタ情報（キーワード）Ａ，Ｂ，Ｃ，Ｄの出現回数が登録されている。

キーワードグループを用いてコンテンツを推薦する装置２５０２は、複数ユーザのキーワードベクトル（２５０４）からキーワードをグループ化してキーワードグループを生成し、このキーワードグループを介して、コンテンツのキーワードベクトル２５０５とユーザのキーワードベクトル２５０４同士の類似度を算出し、類似度の大きさに応じてユーザにコンテンツを推薦する。

図２８に示す例でのキーワードのグループ化においては、例えば、前述のＫ−Ｍｅａｎｓ法、階層的クラスタリング法、ＩＳＯＤＡＴＡ法などを用いてキーワードを２つのグループ（キーワードグループ）にクラスタリングした場合、キーワードの出現回数から、「グループ１＝｛キーワードＡ，Ｃ｝」、「グループ２＝｛キーワードＢ，Ｄ｝」等とグループ化される。この場合、「２つのグループ」が「グループ化条件」となる。尚、キーワードのグループ化（集合化）にデータマイニング処理を用いることでも良い。

このようにして生成した各キーワードグループを介してユーザのキーワードベクトル２５０４とコンテンツのキーワードベクトル２５０５との類似度を算出する際、前述の論文に記載のように、内積や余弦・相関係数を用いて算出することができ、キーワードグループ（集合）同士の類似度は、大きさ１のキーワードベクトルとして算出可能である。

このような類似度の算出を、図２９を例に説明する。ここでは「キーワードグループ１〜３」の３つのキーワードグループを介してユーザＡとコンテンツＣとの類似度の算出を例示している。

まず、ユーザＡとキーワードグループ（１）との類似度ｐ（Ａ，１）を算出し、また、コンテンツＣとキーワードグループ（１）との類似度ｐ（１，Ｃ）を算出する。次に、ユーザＡとキーワードグループ（２）との類似度ｐ（Ａ，２）を算出し、また、コンテンツＣとキーワードグループ（２）との類似度ｐ（２，Ｃ）を算出する。

さらに、ユーザＡとキーワードグループ（３）との類似度ｐ（Ａ，３）を算出し、また、コンテンツＣとキーワードグループ（３）との類似度ｐ（３，Ｃ）を算出する。そして、「Ｐ（Ａ，Ｃ）＝｛ｐ（Ａ，１）＊ｐ（１，Ｃ）｝＋｛ｐ（Ａ，２）＊ｐ（２，Ｃ）｝＋｛ｐ（Ａ，３）＊ｐ（３，Ｃ）｝」の計算を行うことで、キーワードグループを介した、ユーザＡとコンテンツＣとの類似度Ｐ（Ａ，Ｃ）を求めることができる。

また、図１〜図１１で示したように、キーワードグループを用いてキーワード拡張した後に、キーワードベクトルの類似度演算（内積・余弦・相関係数）を行って類似度を算出することもできる。

この場合、まず、ユーザＡの嗜好を表すキーワードが複数記述されたキーワード集合を、キーワードグループを用いて拡張（キーワード拡張）する。次に、コンテンツＣの内容を表すキーワードが複数記述されたキーワード集合を、キーワードグループを用いて拡張する。そして、内積や余弦・相関係数を用いて、拡張後のキーワード集合同士の類似度Ｐ（Ａ，Ｃ）を算出する。ここで、キーワード集合同士の類似度は、大きさ１のキーワードベクトルとして算出可能である。

このように、図２５のキーワードグループを用いてコンテンツを推薦する装置２５０２においては、ユーザのキーワードベクトル２５０４と、コンテンツのキーワードベクトル２５０５を参照し、しかるべき演算（クラスタリング、データマイニング等）を行って、キーワードグループを算出し、キーワードグループを介した、ユーザＡとコンテンツＣとの類似度Ｐ（Ａ，Ｃ）を求めて、類似度に応じてコンテンツの推薦を行うが、制度の高いコンテンツ推薦を行うためには、キーワードグループの算出に用いるグループ化条件を最適なものとする必要があり、本例では、キーワードグループ化条件決定装置２５０１において、そのような最適なグループ化条件２５０６を算出する。

すなわち、キーワードグループを生成する際の最適なグループ化条件２５０６を決定するために、キーワードグループ化条件決定装置２５０１においては、まず、グループ化する条件を暫定的に設定し、その条件に従って、複数のユーザのキーワードベクトル（２５０４）から関係があるキーワードのグループを生成する。

次に、利用履歴２５０３において利用実績があるユーザＩＤとコンテンツＩＤとを、利用履歴２５０３から取得して設定し、設定したユーザＩＤのキーワードベクトルと、設定したコンテンツＩＤのキーワードベクトルと、先に生成したキーワードグループとを用いて、キーワードグループを用いてコンテンツを推薦する装置２５０２での処理と同様に、クラスタリング等のしかるべき演算を行って、設定したユーザＩＤのユーザのキーワードベクトルと、設定したコンテンツＩＤのコンテンツのキーワードベクトル同士の類似度を算出する。

さらに、設定したユーザＩＤと、設定したコンテンツＩＤと、設定したグループ化条件と、算出した類似度とを１つのレコードとして関連付けて、記憶装置に記憶する。

そして、グループ化する条件の暫定的な設定、キーワードのグループの生成、キーワードグループを介してのユーザのキーワードベクトルとコンテンツのキーワードベクトル同士の類似度の算出、設定したユーザＩＤと設定したコンテンツＩＤと設定したグループ化条件と算出した類似度とからなるレコードの記憶装置への記憶を、予め定められた条件に従って繰り返し実行した後、記憶装置に記録されたレコードを参照し、しかるべき演算によって最適なグループ化条件２５０６を決定する。

このしかるべき演算としては、例えば、記憶装置から、類似度の大きい順に、予め指定された数のレコードを、ユーザＩＤ、コンテンツＩＤの組ごとに抽出し、その抽出した各レコードに関連付けられている「グループ化条件」の値の平均値または頻出値またはそれらに関係する値を、最適なグループ化条件２５０６とする等がある。

以下、このような最適なグループ化条件２６０５を算出するためのキーワードグループ化条件決定装置２５０１の詳細な構成を、図２６に示す。

図２６に示す例では、キーワードグループ化条件決定装置２５０１には、グループ化条件設定手段２６０１と、キーワードグループ化手段２６０２、類似度算出対象設定手段２６０３、類似度算出手段２６０４、算出結果追加記録手段２６０５、類似度算出対象繰り返し手段２６０６、グループ化条件繰り返し手段２６０７、蓄積記録手段２６０８、グループ化条件決定手段２６０９が設けられている。

グループ化条件設定手段２６０１では、生成するキーワードグループ数等のグループ化条件を暫定的に設定する。例えば、「生成するキーワードグループ数＝１０個」、といった条件を設定する。尚、このグループ化条件は、図１，２，６における設定ファイル９，２９，６９などで記述することが可能である。

設定するグループ数は、繰り返しごとに異なる値を設定することができる。例えば、１回目の繰り返しでは「キーワードグループ数＝１０個」、「２回目の繰り返しではキーワードグループ数＝１５個」、「３回目の繰り返しではキーワードグループ数＝２０個」と言った具合に設定できる。

また、設定ファイルによる指定ではなく、繰り返しごとに自動的にキーワードグループ数をインクリメントして設定することも可能である。

キーワードグループ化手段２６０２は、グループ化条件設定手段２６０１で設定したグループ化条件に従って、複数ユーザのキーワードベクトル２５０４から、クラスタリング等のしかるべき演算を実施して、キーワードのグループ集合（キーワードグループ２６１０）を生成する。

類似度算出対象設定手段２６０３は、利用履歴２５０３から、利用実績があるユーザＩＤとコンテンツＩＤの組み合わせを設定する。このユーザＩＤとコンテンツＩＤの組み合わせの選出条件を定義することが可能である。例えば、類似度算出対象繰り返し手段２６０６によって類似度算出対象設定手段２６０３が複数回実行された場合、一度設定されたユーザＩＤとコンテンツＩＤの組み合わせはグループ化条件が変わるまで用いない、といった場合や、ランダムにユーザＩＤとコンテンツＩＤを選択する、といった場合がある。

類似度算出実行手段２６０４では、類似度算出対象設定手段２６０３で設定したユーザＩＤおよびコンテンツＩＤのそれぞれのキーワードベクトル情報と、キーワードグループ２６１０とを用いて、上述のしかるべき演算を実施して、ユーザとコンテンツ間の類似度を算出する。

算出結果追加記録手段２６０５は、類似度算出実行手段２６０４で算出した類似度を蓄積記録手段２６０８に格納する。格納の際は、ユーザＩＤ、コンテンツＩＤ、キーワードグループ数、類似度とを関連付けてレコードとして格納する。

類似度算出対象繰り返し手段２６０６は、類似度算出対象設定手段２６０３、類似度算出実行手段２６０４、算出結果追加記録手段２６０５による各処理を、予め定めた条件を満たすまで繰り返し実行させる。

さらに、グループ化条件繰り返し手段２６０７は、グループ化条件設定手段２６０１、キーワードグループ化手段２６０２、類似度算出対象設定手段２６０３、類似度算出実行手段２６０４、算出結果追加記録手段２６０５、類似度算出対象繰り返し手段２６０６による各処理を、予め定めた条件を満たすまで繰り返し実行させる。

このようにして、設定された各キーワードグループ化条件で、利用実績があるユーザＩＤ、コンテンツＩＤの組み合わせにおける、類似度を算出し、その結果が蓄積記録手段２６０８に格納される。

そして、グループ化条件決定手段２６０９は、蓄積記録手段２６０８に格納されているユーザＩＤとコンテンツＩＤとそのキーワードグループ数、類似度から、所定の演算によって、キーワードグループ数を決定する。

例えば、蓄積記録手段２６０８に格納された複数のユーザＩＤとコンテンツＩＤとそのキーワードグループ数、類似度のレコードから、ユーザＩＤとコンテンツＩＤの組み合わせ毎に類似度が一番大きいレコードを抽出し、その抽出レコードにおけるグループ数の平均値や、頻度の多いグループ数を、グループ化条件として決定する演算技術がある。

尚、本例の類似度算出実行手段２６０４での処理に関する計算方式として、前述の論文に記載のものを用いても良い。

図２７に示すように、蓄積記憶手段２６０８には、キーワードグループ生成条件、ユーザＩＤ、コンテンツＩＤ、類似度が各レコードとして、レコード番号（ＮＯ）で関連付けられて格納されている。

図２７においては、利用履歴において、「ユーザＩＤ＝Ｕ００１」が「コンテンツＩＤ＝Ｃ００１」、「ユーザＩＤ＝Ｕ００５」が「コンテンツＩＤ＝Ｃ００２」、「ユーザＩＤ＝Ｕ００７がコンテンツＩＤ＝Ｃ００１」を利用した実績がある場合の例を示しており、グループ化条件設定手段２６０１において、生成するキーワードグループの数を、繰り返し毎に１０,１５,２０個とした場合の例である。

ここで、グループ化条件決定手段２６０９において、図２７に例示する各レコードから、それぞれのユーザＩＤ、コンテンツＩＤとの組み合わせごとで類似度が一番大きい時点のレコードを抽出すると、「Ｕ００１とＣ００１」は、レコードＮＯ．０００７(キーワードグループ生成条件＝２０個)、「Ｕ００５とＣ００２」は、レコードＮＯ．０００５(キーワードグループ生成条件＝１５個)、「Ｕ００７とＣ００１」は、レコードＮＯ．０００６(キーワードグループ生成条件＝２０個)となる。

ここで、グループ化条件として、例えば、一番頻度の多いキーワードグループ生成条件を用いた場合、上記３つの抽出結果のうち、２つが該当する「キーワードグループ数＝２０個」がグループ化条件として出力される。

また、グループ化条件として、キーワードグループ数の平均を用いた場合、「（２０＋１５＋２０）／３≒１８．３３…」となり、一番近い整数である「キーワードグループ数＝１８個」がグループ化条件として出力される。

以上、図２５〜図２９を用いて示した本例では、利用実績があるユーザＩＤとコンテンツＩＤ間の組み合わせにおいて、複数のグループ化条件を設定し、その条件から生成したキーワードグループを用いてそれぞれユーザ・コンテンツ間類似度を算出し、その結果から最適なグループ化条件を取得する。これにより、キーワードをグループ化するための最適な条件を容易に取得できる。そして、取得した最適グループ化条件を用いることで、コンテンツ推薦の精度が高まる。

また、グループ化条件決定装置２５０１を、図１〜図１１で説明した各キーワード拡張装置や、図１２〜図２４で説明した各拡張キーワード生成センタ・装置・手段に設けることができ、例えば、図１０に示すキーワード拡張装置１０１にグループ化条件決定装置２５０１を設け、キーワード拡張装置１０１の設定ファイルに、グループ化条件決定装置２５０１で算出した最適なグループ化条件２５０６を設定することで、図１０におけるコンテンツ推薦装置１０３０でのコンテンツ推薦を高精度化することができる。

尚、本例では、各グループ化条件毎に、各処理を繰り返して図２７に示すレコードを求めているが、類似度算出対象設定手段２６０３により、利用履歴から一度に複数の利用実績のあるユーザＩＤとコンテンツＩＤの組を読み込み、類似度算出実行手段２６０４において、それらの類似度を順次に算出し、算出結果追加記録手段２６０５により、蓄積記録手段２６０８にまとめて記録することでも良い。

また、本例では、グループ化条件として「グループの数」を例示しているが、クラスタリングにおける「クラスタリング演算繰り返し回数」や「類似度のしきい値範囲」等、また、データマイニング処理における「確信度の範囲」や「支持度の範囲」、「リフトの範囲」、「ＵｐＣｏｎｆの範囲」、「最大ルール長さの範囲」、「抽出ルール数の範囲」等を用いることでも良い。

本発明に係わるキーワード拡張装置の構成例を示すブロック図である。クラスタリング処理機能を有する関係抽出処理部の構成例を示すブロック図である。図２における関係抽出処理部が読み込む利用履歴データ例を示す説明図である。図２における関係抽出処理部から出力されるキーワード関係抽出結果例を示す説明図である。図４におけるキーワード関係抽出結果に基づく拡張処理部の動作例を示す説明図である。データマイニング処理機能を有する関係抽出処理部の構成例を示すブロック図である。図６における関係抽出処理部が読み込む利用履歴データ例を示す説明図である。図６における関係抽出処理部から出力されるキーワード関係抽出結果例を示す説明図である。図８におけるキーワード関係抽出結果に基づく拡張処理部の動作例を示す説明図である。本発明に係わるコンテンツ検索システムの構成例を示すブロック図である。図１０におけるコンテンツ検索システムの処理動作例を示す説明図である。本発明に係わる番組情報提供システムの構成例を示すブロック図である。図１２における番組情報提供システムで用いる番組情報提供端末装置の第１の内部構成例を示すブロック図である。図１２における番組情報提供システムで用いる番組情報提供端末装置の第２の内部構成例を示すブロック図である。図１２における拡張機生成センタ装置の内部構成例を示すブロック図である。番組情報提供端末装置の操作表示部の構成例を示す説明図である。番組情報提供端末装置の表示部の第１の表示例を示す説明図である。番組情報提供端末装置の表示部の第２の表示例を示す説明図である。番組情報提供端末装置の表示部の第３の表示例を示す説明図である。番組情報提供端末装置の表示部の第３の表示例を示す説明図である。番組情報提供端末装置の表示部の第４の表示例を示す説明図である。図１２における番組情報記憶装置で記憶している番組情報の構成例を示す説明図である。図１２における拡張キーワード生成センタ装置で記憶しているフィードバック情報の構成例を示す説明図である。図１２における拡張キーワード情報記憶装置で記憶している拡張キーワード情報の構成例を示す説明図である。本発明に係わるキーワードグループ化条件決定装置を具備したコンテンツ推薦システムの構成例を示すブロック図である。本発明に係わるキーワードグループ化条件決定装置の構成例を示すブロック図である。図２６における蓄積記録手段に蓄積されたデータ例を示す説明図である。図２６におけるユーザのキーワードベクトルのデータ例を示す説明図である。図２６における類似度算出実行手段の処理動作例を示す説明図である。

符号の説明

１，１０１：キーワード拡張装置、２，２２，６２：関係抽出処理部、２ａ，２２ａ，６２ａ：利用履歴データ読み込み処理部、２ｂ：関係抽出演算部、２ｃ：抽出結果の格納処理部、３，５３，９３：拡張処理部、３ａ，５３ａ，９３ａ：キーワード関係抽出結果読み込み処理部、３ｂ，５３ｂ，９３ｂ：拡張キーワード取得部、４，５４，９４：入力処理部、５，５５，９５：出力処理部、６，２６，６６：利用履歴データ格納部、７，２７，５７，６７，９７：キーワード関係抽出結果格納部、８，２８，６８：実行契機処理部、９，２９，６９：設定ファイル、１０：利用履歴データ、１１，５１１，９１１：入力キーワード、１２，５１２，９１２：拡張キーワード、２２ｂ：クラスタリングエンジン、２２ｃ：クラスタリング結果格納処理部、３１，７１：利用履歴データ、４１，８１：キーワード関係抽出結果データ、６２ｂ：相関ルール分析エンジン、６２ｃ：分析結果格納処理部、１００１〜１００６：履歴データ、１０１０〜１０１２：書式変換手段（ａ〜ｃ）、１０２０：ユーザプロファイル、１０３０：コンテンツ推薦装置、１０３１：コンテンツＤＢ、１０３２：嗜好ＤＢ、１０３３：ユーザ、１２００ａ〜１２００ｃ：ユーザ、１２０１ａ〜１２０１ｃ：端末装置、１２０２：ネットワーク、１２０３，１３０３：番組情報記憶装置、１２０４，１３０４：拡張キーワード情報記憶装置（キーワード関係抽出結果格納部）、１２０５，１４０５：拡張キーワード生成センタ装置、１３００：端末装置、１３０１ａ：入力手段、１３０１ｂ：キーワード記憶手段、１３０１ｃ：拡張キーワード情報取得手段、１３０１ｄ：拡張キーワード情報記憶手段、１３０１ｅ：キーワード拡張手段（拡張処理部）、１３０１ｆ：番組情報取得手段、１３０１ｇ：番組情報記憶手段、１３０１ｈ：番組情報選択手段、１３０１ｉ：類似度算出手段、１３０１ｊ：表示内容生成手段、１３０１ｋ：表示手段、１４０１：端末装置、１４０１ｂ：キーワード記憶手段、１４０１ｍ：送信手段、１４０１ｎ：送信可能情報格納手段、１５０１：端末装置、１５０４：拡張キーワード情報記憶装置（キーワード関係抽出結果）、１５０５：拡張キーワード生成センタ装置、１５０５ａ：受信手段、１５０５ｂ：フィードバック情報記憶手段（利用履歴データ格納部）、１５０５ｃ：拡張キーワード生成手段（関係抽出処理部）、１６０１：端末装置、１７０１，１８０１，１９０１，２００１，２１０１：画面、２２０１：番組情報、２３０１：情報（フィードバック情報）、２４０１：拡張キーワード情報、２５０１：グループ化条件決定装置、２５０２：キーワードグループを用いてコンテンツを推薦する装置、２５０３：利用履歴、２５０４：ユーザのキーワードベクトル、２５０５：コンテンツのキーワードベクトル、２５０６：最適なグループ化条件、２５０７：推薦結果、２６０１：グループ化条件設定手段、２６０２：キーワードグループ化手段、２６０３：類似度算出対象設定手段、２６０４：類似度算出手段、２６０５：算出結果追加記録手段、２６０６：類似度算出対象繰り返し手段、２６０７：グループ化条件繰り返し手段、２６０８：蓄積記録手段、２６０９：グループ化条件決定手段、２６１０：キーワードグループ。

Claims

各ユーザが利用したコンテンツに予め付与されたメタ情報であるキーワードと各ユーザの識別情報とを対応付けてユーザキーワード情報として記憶する第１の手段と、
複数ユーザのユーザキーワード情報を読み出してクラスタリングを含む所定の演算のいずれかによりキーワードグループを生成する第２の手段とを有するシステムに設けられ、
上記第２の手段が上記キーワードグループの生成に用いるグループ化条件をコンピュータ処理により算出する装置であって、
複数の上記グループ化条件を順次に上記第２の手段に入力する第３の手段と、
該第３の手段が入力した各グループ化条件を用いて上記第２の手段が生成した複数のキーワードグループと各ユーザそれぞれのユーザキーワード情報との類似度をそれぞれに含まれる各キーワードに基づき算出する第４の手段と、
上記第３の手段が入力した各グループ化条件を用いて上記第２の手段が生成した複数のキーワードグループと各コンテンツとの類似度をそれぞれに含まれる各キーワードに基づき算出する第５の手段と、
上記第４の手段と上記第５の手段による各類似度の算出結果から、各グループ化条件毎に各ユーザそれぞれのユーザキーワード情報と各コンテンツの組み合わせ毎の類似度を算出する第６の手段と、
該第６の手段で算出した各類似度に基づく最適なグループ化条件の特定を行う第７の手段と
を有することを特徴とするグループ化条件決定装置。
請求項１に記載のグループ化条件決定装置であって、
上記第６の手段で算出した各ユーザそれぞれのユーザキーワード情報と各コンテンツの組み合わせ毎の類似度を、各グループ化条件に対応付けてレコードとして記録する第８の手段を有し、
上記第７の手段は、
各ユーザそれぞれのユーザキーワード情報と各コンテンツの組み合わせ毎に、類似度の高い順に、予め定められた数分のレコードを抽出し、
抽出した各レコード内の各グループ化条件を用いて上記最適なグループ化条件を求めることを特徴とするグループ化条件決定装置。
コンピュータを、請求項１もしくは請求項２のいずれかに記載のグループ化条件決定装置における各手段として機能させるためのプログラム。
各ユーザが利用したコンテンツに予め付与されたメタ情報であるキーワードと各ユーザの識別情報とを対応付けてユーザキーワード情報として記憶する第１の手段と、
複数ユーザのユーザキーワード情報を読み出してクラスタリングを含む所定の演算のいずれかによりキーワードグループを生成する第２の手段とを有するシステムにおいて、上記第２の手段が上記キーワードグループの生成に用いるグループ化条件をコンピュータ処理により算出する方法であって、
複数の上記グループ化条件を順次に上記第２の手段に入力する第１のステップと、
該第１のステップで入力した各グループ化条件を用いて上記第２の手段が生成した複数のキーワードグループと各ユーザそれぞれのユーザキーワード情報との類似度をそれぞれに含まれる各キーワードに基づき算出する第２のステップと、
上記第１のステップで入力した各グループ化条件を用いて上記第２の手段が生成した複数のキーワードグループと各コンテンツとの類似度をそれぞれに含まれる各キーワードに基づき算出する第３のステップと、
上記第２のステップと上記第３のステップでの各類似度の算出結果から、各グループ化条件毎に各ユーザそれぞれのユーザキーワード情報と各コンテンツの組み合わせ毎の類似度を算出する第４のステップと、
該第４のステップで算出した各類似度に基づく最適なグループ化条件の特定を行う第５のステップと
を有することを特徴とするグループ化条件決定方法。
請求項４に記載のグループ化条件決定方法であって、
上記第４のステップで算出した各ユーザそれぞれのユーザキーワード情報と各コンテンツの組み合わせ毎の類似度を、各グループ化条件に対応付けてレコードとして記録する第６のステップを有し、
上記第５のステップでは、
各ユーザそれぞれのユーザキーワード情報と各コンテンツの組み合わせ毎に、類似度の高い順に、予め定められた数分のレコードを抽出し、
抽出した各レコード内の各グループ化条件を用いて上記最適なグループ化条件を求めることを特徴とするグループ化条件決定方法。
入力されたキーワードに対してコンピュータ処理を行い、入力されたキーワードに関連性のあるキーワードを選出し拡張キーワードとして出力するキーワード拡張装置であって、
各ユーザが利用したコンテンツに関連するキーワードと当該ユーザの識別情報とが対応付けられた利用履歴データを記憶装置に格納する利用履歴データ格納手段と、
該利用履歴データ格納手段で格納した上記利用履歴データを読み出し、相互に関連性のあるキーワード同士を特定するための所定の演算処理を行い、相互に関連する各キーワードを抽出してグループ分けし抽出結果データとして記憶装置に格納する関係抽出・格納手段と、
入力されたキーワードと同じグループのキーワードを、上記関係抽出・格納手段で格納された抽出結果データを参照し上記拡張キーワードとして特定する拡張処理手段と、
請求項１もしくは請求項２のいずれかに記載のグループ化条件決定装置と
を有し、
該グループ化条件決定装置で算出した最適なグループ化条件を用いて、上記関係抽出・格納手段によるキーワードのグループ分けを行うことを特徴とするキーワード拡張装置。
請求項６に記載のキーワード拡張装置であって、
上記関係抽出・格納手段を、予め設定された時間に起動する手段を有し、上記抽出結果データを更新することを特徴とするキーワード拡張装置。
請求項６もしくは請求項７のいずれかに記載のキーワード拡張装置であって、
上記関係抽出・格納手段は、
上記利用履歴データに対して上記所定の演算処理を行う際に得られる、同じグループに含まれるキーワード間の関係を表すパラメータ値を、上記抽出結果データにおける当該グループに対応付けて付与することを特徴とするキーワード拡張装置。
請求項８に記載のキーワード拡張装置であって、
上記拡張処理手段は、上記拡張キーワードに対して、該拡張キーワードが含まれるグループに付与された上記パラメータ値を用いて重み付けを行うことを特徴とするキーワード拡張装置。
コンピュータを、請求項６から請求項９のいずれかに記載のキーワード拡張装置における各手段として機能させるためのプログラム。
コンテンツＸのコンテンツ情報からなるキーワード集合Ｘと、ユーザａの嗜好情報からなるキーワード集合ａとを入力してキーワード集合Ｘとキーワード集合ａとの類似度を算出し、該類似度が予め定められたしきい値を超えると上記コンテンツＸを上記ユーザａに提供するコンテンツ提供装置を具備したコンテンツ検索システムであって、
請求項６から請求項９のいずれかに記載のキーワード拡張装置を有し、
上記類似度が上記しきい値を超えない場合、上記キーワード集合Ｘを上記キーワード拡張装置に入力し、該キーワード拡張装置から出力される上記キーワード集合Ｘに対する拡張キーワード集合を上記コンテンツ提供装置に入力し、
該コンテンツ提供装置における上記拡張キーワード集合と上記キーワード集合ａとの類似度の算出結果が上記しきい値を超えると上記コンテンツＸを上記ユーザａに提供することを特徴とするコンテンツ検索システム。
ユーザが入力したキーワードＡに対応するコンテンツＸを検索するコンテンツ検索装置を具備したコンテンツ検索システムであって、
請求項６から請求項９のいずれかに記載のキーワード拡張装置を有し、
上記コンテンツ検索装置での検索で上記キーワードＡに対応するコンテンツが検索されない場合、上記キーワードＡを上記キーワード拡張装置に入力し、該キーワード拡張装置から出力される上記キーワードＡに対する拡張キーワード集合を上記コンテンツ検索装置に入力し、
該コンテンツ検索装置による上記拡張キーワード集合に含まれる各拡張キーワードに基づくコンテンツ検索結果を出力することを特徴とするコンテンツ検索システム。
入力されたキーワードに対してコンピュータ処理を行い、入力されたキーワードに関連性のあるキーワードを選出し拡張キーワードとして出力する装置のキーワード拡張方法であって、
各ユーザが利用したコンテンツに関連するキーワードと当該ユーザの識別情報とが対応付けられた利用履歴データを記憶装置に格納する第１のステップと、
上記記憶装置から上記利用履歴データを読み出し、相互に関連性のあるキーワード同士を特定するための所定の演算処理を行い、相互に関連する各キーワードを抽出してグループ分けし抽出結果データとして記憶装置に格納する第２のステップと、
入力されたキーワードと同じグループのキーワードを、上記第２のステップで格納した抽出結果データを参照し上記拡張キーワードとして特定する第３のステップとを有し、
かつ、請求項４もしくは請求項５のいずれかに記載のグループ化条件決定方法により算出した最適なグループ化条件を用いて、上記第２のステップによるキーワードのグループ分けを行う
ことを特徴とするキーワード拡張方法。
請求項１３に記載のキーワード拡張方法であって、
予め設定された時間に上記第２のステップでの処理を起動し、上記抽出結果データを更新するステップを有することを特徴とするキーワード拡張方法。
請求項１３もしくは請求項１４のいずれかに記載のキーワード拡張方法であって、
上記第２のステップで上記利用履歴データに対して上記所定の演算処理を行う際に得られる、同じグループに含まれるキーワード間の関係を表すパラメータ値を、上記抽出結果データにおける当該グループに対応付けて付与するステップを有することを特徴とするキーワード拡張方法。
請求項１５に記載のキーワード拡張方法であって、
上記第３のステップでは、上記拡張キーワードに対して、該拡張キーワードが含まれるグループに付与された上記パラメータ値を用いて重み付けを行うことを特徴とするキーワード拡張方法。
ユーザ操作に応じて記憶装置に登録したキーワードが含まれるコンテンツ情報を検索して上記ユーザに通知するコンテンツ情報提供システムであって、
請求項６から請求項９のいずれかに記載のキーワード拡張装置から、上記記憶装置に登録したキーワードの拡張キーワードを取得する拡張キーワード取得手段と、
上記記憶装置に登録したキーワードおよび上記キーワード拡張装置から取得した拡張キーワードのそれぞれに対応するコンテンツ情報を抽出するコンテンツ情報選択手段と、
抽出したコンテンツ情報を当該ユーザに通知する通知手段と
を有することを特徴とするコンテンツ情報提供システム。
ユーザ操作に応じて記憶装置に登録したキーワードが含まれるコンテンツ情報を検索して表示するコンテンツ情報提供システムであって、
上記ユーザ操作に応じて記憶装置に登録したキーワードを、ネットワークを介して、請求項６から請求項９のいずれかに記載のキーワード拡張装置に送出する送出手段と、
該キーワード拡張装置が出力する、上記送出手段から送出したキーワードの拡張キーワードをネットワークを介して受信し取得する拡張キーワード取得手段と、
上記記憶装置に登録したキーワードおよび上記キーワード拡張装置から取得した拡張キーワードのそれぞれに対応するコンテンツ情報を抽出するコンテンツ情報選択手段と、
抽出したコンテンツ情報を表示画面に表示する通知手段と
を有することを特徴とするコンテンツ情報提供システム。
請求項１７もしくは請求項１８のいずれかに記載のコンテンツ情報提供システムであって、
上記通知手段で通知してユーザが選択したコンテンツ情報からキーワードを抽出して上記キーワード拡張装置に送出する手段を有し、該キーワード拡張装置において新たな利用履歴データとして格納することを特徴とするコンテンツ情報提供システム。
請求項１７から請求項１９のいずれかに記載のコンテンツ情報提供システムであって、
携帯電話、パーソナルコンピュータ、ＰＤＡからなり、無線および有線ネットワークを介して上記キーワード拡張装置に接続されることを特徴とするコンテンツ情報提供システム。
ユーザ操作に応じて記憶装置に登録したキーワードが含まれるコンテンツ情報を検索して上記ユーザに通知するシステムのコンテンツ情報提供方法であって、
請求項６から請求項９のいずれかに記載のキーワード拡張装置から、上記記憶装置に登録したキーワードの拡張キーワードを取得する手順と、
上記記憶装置に登録したキーワードおよび上記キーワード拡張装置から取得した拡張キーワードのそれぞれに対応するコンテンツ情報を抽出する手順と、
抽出したコンテンツ情報を当該ユーザに通知する手順と
を有することを特徴とするコンテンツ情報提供方法。
ユーザ操作に応じて記憶装置に登録したキーワードが含まれるコンテンツ情報を検索して表示するシステムのコンテンツ情報提供方法であって、
上記ユーザ操作に応じて記憶装置に登録したキーワードを、ネットワークを介して、請求項６から請求項９のいずれかに記載のキーワード拡張装置に送出する手順と、
該キーワード拡張装置が出力する、上記手順で送出したキーワードの拡張キーワードをネットワークを介して受信し取得する手順と、
上記記憶装置に登録したキーワードおよび上記キーワード拡張装置から取得した拡張キーワードのそれぞれに対応するコンテンツ情報を抽出する手順と、
抽出したコンテンツ情報を表示画面に表示する手順と
を有することを特徴とするコンテンツ情報提供方法。
請求項２１もしくは請求項２２のいずれかに記載のコンテンツ情報提供方法であって、
上記抽出したコンテンツ情報の、当該コンテンツ情報の抽出に用いられた上記記憶装置に登録したキーワードおよび上記キーワード拡張装置から取得した拡張キーワードとの類似度を算出する手順を有し、
算出した類似度を示す情報を当該コンテンツ情報に付与して表示装置に表示することを特徴とするコンテンツ情報提供方法。
請求項２３に記載のコンテンツ情報提供方法であって、
上記算出した類似度が予め定められた条件に一致するか否かにより当該コンテンツ情報をフィルタリングする手順を有することを特徴とするコンテンツ情報提供方法。
請求項２１から請求項２４のいずれかに記載のコンテンツ情報提供方法であって、
通知してユーザが選択したコンテンツ情報からキーワードを抽出して上記キーワード拡張装置に送出する手順を有し、該キーワード拡張装置において新たな利用履歴データとして格納することを特徴とするコンテンツ情報提供方法。
コンピュータに、請求項２１から請求項２５のいずれかに記載のコンテンツ情報提供方法における各手順を実行させるためのプログラム。