JP2005115791A

JP2005115791A - 情報検索方法、情報取得装置及びプログラム

Info

Publication number: JP2005115791A
Application number: JP2003351356A
Authority: JP
Inventors: Hirotaka Kondo; 広隆近藤; Toshio Nakao; 利雄中尾; Naomasa Takahashi; 巨成高橋; Daisuke Yano; 大介矢野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-10-09
Filing date: 2003-10-09
Publication date: 2005-04-28

Abstract

【課題】クライアント機器での情報検索が簡単な演算処理で良好に行えるようにする。
【解決手段】過去の使用状況又は入力状況に基づいてユーザプロファイルの特徴ベクトルの生成処理を行って蓄積し、所定の処理で選択された特定のコンテンツから、単語の出現頻度に基づいて抽出したテキストデータの特徴ベクトルの生成処理を行い、蓄積された特徴ベクトルと、コンテンツから生成された特徴ベクトルとを比較し、その比較結果に基づいて特定のコンテンツの類似度を算出するようにして、選ばれた１つのコンテンツに対して、ユーザプロファイルの特徴ベクトルとの類似度が算出され、少ない演算処理で類似度の算出ができるようにした。
【選択図】図５

Description

本発明は、インターネットなどを経由して情報を検索する情報検索方法、及び検索された情報を取得する情報取得装置、並びに情報検索を実行するプログラムに関する。

インターネットなどを経由して情報検索を行う場合、従来は例えば、インターネット上の検索エンジンにアクセスし、その検索エンジンにキーワードを入力させて、そのキーワードに関連した情報が取得できるホームページの一覧を表示させる処理が一般的である。ところが、検索エンジン側では、情報検索を瞬時に行えるようにするために、予め大容量のデータベースを備えて、そのデータベースに用意された情報に基づいた検索であるため、検索エンジン側で大容量の記憶手段が必要である。このような大容量の記憶手段が必要であるため、ユーザ側が所持する機器に検索エンジンを内蔵させるのは困難である。

ところが、インターネットにアクセスする各ユーザは、それぞれ嗜好が異なるので、検索エンジンを使用して常時同じような検索処理を行ったのでは、ユーザが希望するデータが得られるホームページが検索できる可能性が、必ずしも高くない。

このため、近年、ユーザが所望するウェブページを検索する手法が各種提案されている。この種のインターネットを介した情報検索技術は、ＩＲ（Information Retrieval ）技術と称され、そのＩＲ技術として提案されている中で、最も一般的な手法の中に、ＴＦＩＤＦ法がある。これは、語の出現頻度から文書内の語の重要性を測る方法で、単語の出現頻度ＴＦ(Term Frequency)と文書頻度の逆数ＩＤＦ（Inverse Document Frequency）の積をとったもので、文書を特徴ベクトルで表現し、それを文書間で内積をとり関連性を調べることができる。関連性の度合いを類似度といい、この類似度を基に文書集合をカテゴリ別に分類したり、目的の文書を探すための情報検索等に利用されている。

例えば図１１に示すように、文書集合で構成されるデータベースに、キーワードを入力させて、その中からキーワードが多く含まれる関連文書リストを表示させるのが一般的な情報検索である。これに対して、例えば図１２に示すように、ユーザ毎の嗜好性などの情報から構成されるユーザプロファイルを、文書集合で構成されるデータベースに送り、そのユーザプロファイルに基づいて類似度順にリストを表示させるようにすることで、より精度の高い情報検索が可能になる。

このユーザプロファイルを使用した従来の処理について、より具体的に説明すると、例えば図１３に示すようなシステムで構成される。ユーザプロファイルａが記憶されたデータベースを用意すると共に、そのユーザプロファイルａにより検索される文章集合ｂを用意する。データベースに記憶されるユーザプロファイルは、例えば図１４に示すように、ユーザの好みの文書、ユーザが嫌いな文書、好きなキーワード、嫌いなキーワードなどのユーザの嗜好に関係したテキストのデータである。また、文章集合ｂは、検索エンジンでの検索対象となる文書に相当する。そして、データベース内のユーザプロファイルａを使用して、単語の重み付け処理ｃを行い、ユーザプロファイルの特徴ベクトルｄを生成させる。一方、文章集合ｂについても、各文章の単語の重み付け処理ｅを行い、文書別の特徴ベクトルｆを生成させる。生成されたユーザプロファイルの特徴ベクトルｄと、文書別の特徴ベクトルｆは、マッチング処理ｇを行い、そのマッチングの度合いが高いものから順に、ユーザプロファイルと文書との類似度リストｈを生成させる。

ユーザプロファイルの特徴ベクトルｄを生成させる処理として、例えばＴＦＩＤＦ法が適用可能である。特許文献１には、ＴＦＩＤＦ法を使用した情報検索処理についての開示がある。特許文献２には、ユーザ毎に設定された特徴ベクトルを使用して情報検索を行うことについての開示がある。
特開２００１−２６５８０８号公報特開２００３−１７８０７５号公報

ところで、この図１３に示した処理での情報検索は、文書集合全体を解析し、それぞれの文書に対して特徴ベクトルを算出するため、その計算量は膨大になる。そのため高性能なコンピュータ装置であっても、入力に応じてその結果をリアルタイム出力するのは困難である。また、文書集合に新たな文書が加わる等、文書集合に変更が起きた場合には特徴ベクトルを再計算しなければならないという問題もある。このような理由から、ウェブページ検索へ適応する場合、サーバで自動的にウェブページを集め、特徴ベクトルをあらかじめ計算している。計算結果はデータベースに保存され、データベースにアクセスして検索結果を返すというのが一般的となっている。しかしながら、ユーザプロファイルを使った検索をサーバで実現すると、ユーザプロファイルをクライアントからサーバに送る必要があり、セキュリティ上の問題も発生してしまう。

ユーザプロファイルを利用した情報検索を、ユーザが所持するクライアント機器であるパーソナルコンピュータ装置、ＰＤＡ（Personal Digital Assistants ）、テレビジョン受像機等で実現することは、セキュリティ上の問題を解決し、コンテンツ・リコメンド・システム等の様々なアプリケーションを機器に応じて展開することが可能になるが、メモリ容量や、演算処理を実行するプロセッサの処理能力等ハード的制約から困難な状況であった。

本発明はかかる点に鑑みてなされたものであり、クライアント機器での情報検索が簡単な演算処理で良好に行えるようにすることを目的とする。

本発明は、過去の使用状況又は入力状況に基づいてユーザプロファイルの特徴ベクトルの生成処理を行って蓄積し、所定の処理で選択された特定のコンテンツから、単語の出現頻度に基づいて抽出したテキストデータの特徴ベクトルの生成処理を行い、蓄積された特徴ベクトルと、コンテンツから生成された特徴ベクトルとを比較し、その比較結果に基づいて特定のコンテンツの類似度を算出するようにしたものである。

このようにしたことで、選ばれた１つのコンテンツに対して、ユーザプロファイルの特徴ベクトルとの類似度が算出され、少ない演算処理で類似度の算出ができる。

本発明によると、選ばれた１つのコンテンツに対して、ユーザプロファイルの特徴ベクトルとの類似度が算出され、少ない演算処理で類似度の算出が可能になるので、クライアント機器で、その機器を使用するユーザ毎に設定されたユーザプロファイルに対応した類似度を得て、そのユーザに適したウェブページなどを検索することが可能になる。

この場合、類似度を算出するためのコンテンツを選ぶ処理としては、例えばウェブ上に存在する既存の検索エンジンを利用することができ、新たに検索エンジンを構築する必要がなく、例えばＰＤＡ，テレビジョン受像機などのクライアント機器に容易に適用できるようになる。また、クライアント機器に本発明を適用することで、ユーザプロファイルをネットワーク上に流す必要もなく、セキュリティ的にも安全になる。

以下、本発明の一実施の形態を、図１〜図８を参照して説明する。
図１は、本例の情報検索処理を適用した装置の構成例を示した図である。本例の場合には、動画を表示可能な表示手段を備えたユーザが所持する機器としてあり、例えばＰＤＡなどの携帯情報端末や、テレビジョン受像機などの各種情報表示装置に適用可能である。図１では、ＰＤＡやテレビジョン受像機などの各機器に特有の機能を実行する処理部の詳細については省略してあり、各種情報に基づいた検索とその検索結果に基づいた表示を行う部分を中心にして説明する。

即ち、本例の装置の動作を制御する中央制御ユニット（ＣＰＵ）１１に、ＲＯＭ１２とＲＡＭ１３が内部バスラインを介して接続してあり、さらに外部のネットワークと接続するためのネットワークインターフェース１４を備える。ＣＰＵ１１は、後述する情報検索処理を実行する制御手段として機能し、接続されたメモリ１２，１３が後述するユーザプロファイルやその特徴ベクトルなどを記憶するデータベースの記憶手段としても機能する。また、情報検索処理を実行させるプログラムが、ＲＯＭ１２又はＲＡＭ１３に実装させてあり、そのプログラムに基づいてＣＰＵ１１が情報検索処理を実行する。ＲＡＭ１３などの記憶手段については、半導体メモリの他に、ハードディスクなどの記憶手段を使用しても良く、或いはメモリカードなどの着脱自在の記憶手段であっても良い。

ネットワークインターフェース１４としては、例えば、アナログ電話回線用のアナログモデム、ＩＳＤＮ回線用のモデム、ＡＤＳＬ（Asymmetric Digital Subscriber Line）用のルータ又はモデム、ＬＡＮ（Local Area Network：構内情報通信網）用のアダプタ、無線電話用のアダプタ、Bluetooth （商標）などの無線通信用のアダプタなどが適用可能である。これらの構成のインターフェース１４を経由して、インターネットに接続できる構成としてある。

また、キーボード，操作ボタンなどで構成される操作部１５と、その操作部１５の操作を受け付けるユーザインターフェースコントローラ１６を備え、ユーザインターフェースコントローラ１６が受け付けた操作データがＣＰＵ１１に供給される。なお、操作部１５としては、例えば装置と別体のリモートコントロール装置から送信された赤外線信号などを受信して、操作データをコントローラ１６に送る場合もある。

さらに、各種情報の表示を行うためのグラフィックコントローラ１７を備える。このグラフィックコントローラ１７に映像データを保持するＶＲＡＭ１８が接続してあり、グラフィックコントローラ１７の制御で描画された映像を、表示部１９で表示させる。表示部１９としては、液晶表示パネル，陰極線管などの表示手段が使用される。

次に、本例の装置を使用して情報検索を行う処理について説明する。まず本例においては、図２に示したプロセス手順で情報検索が実行される。最初に、本例の装置内でキーワードを生成させて（或いはキーワードを入力させて）、そのキーワードをＣＰＵ１１の演算機能を使用して構成されるリコメンド・エンジン１に入力させる。このリコメンド・エンジン１が、推奨するコンテンツを検索する処理部に相当する。また、リコメンド・エンジン１には、この装置のユーザの過去の使用状況や過去の検索履歴などに基づいて、ユーザプロファイルを入力するようにしてある。この入力されたユーザプロファイルに基づいて特徴ベクトルがリコメンド・エンジン１内で生成されるようにしてある。

そしてリコメンド・エンジン１では、キーワードを、インターネットを経由して接続された外部の検索エンジン２に送り、検索エンジン２でキーワードに基づいて検索されたウェブページのＵＲＬ（Uniform Resource Locator）リストのデータを受信する。受け取ったＵＲＬリストは、リコメンド・エンジン１内のＵＲＬパーサ４で解析し、リストに記載された全てのコンテンツのアドレス又はＮ個（Ｎは任意の数）のアドレスに、順にアクセスしていく。各ＵＲＬにアクセスして取得したウェブページ内のテキストデータについては、リコメンド・エンジン１内のマッチング・エンジン５で、ユーザプロファイルに基づいた特徴ベクトルと比較して、類似度を判定する。得られた類似度が予め設定された閾値を超えた場合には、ユーザプロファイルに適合したコンテンツであるとして出力させる。或いは、複数判定した中で、最も類似度の高いものを出力させる。

図３は、本例の装置がテレビジョン受像機である場合の表示例を示した図である。表示部１９が備える表示画面２０内に、テレビジョン放送を受信した動画表示２１を行うと共に、その動画に基づくキーワードの表示２２を画面２０の下側で行い、さらにキーワードに基づいて検索されたウェブページの表示２３を、画面の右半分で行うようにしてある。この場合、キーワードについては、例えば放送画面中の文字や、映像に付随した音声などをテキスト化して判定しても良いが、例えばＥＰＧ（Electric Program Guide）データなどから番組タイトルや番組内容が判る場合に、それらのデータから抽出するようにしても良い。また、抽出したキーワードをリスト化して、そのリスト化されたキーワードの中から、ユーザ操作でいずれかのキーワードを選択するようにしても良い。表示されるウェブページについては、ユーザプロファイルに基づいた特徴ベクトルと比較して、類似度が高いもの、即ちユーザの嗜好に適合していると判断されたものが表示される。類似度が高いウェブページが複数存在する場合には、例えば所定時間毎に別のウェブページの表示に切換えさせる。なお、放送番組から何らかのキーワードが抽出された時点で、ウェブページの検索が開始されて本例の表示処理が自動的に実行されるようにしても良い。

次に、ユーザプロファイルから特徴ベクトルを生成する処理の例について、図４を参照して説明する。ここでは、ユーザが閲覧もしくは視聴したコンテンツに含まれる、もしくは抽出できるテキストデータを集合としてテキストデータのデータベース３１を作成し、そのデータベース３１内のデータ内に含まれる単語についてＴＦＩＤＦ値を求める処理３２を行って、ユーザプロファイルデータベース３３に記憶されたユーザプロファイルに適合する単語を抽出する。ユーザプロファイルとしては、例えば従来例として図１４に示したように、ユーザの好みの文書、ユーザが嫌いな文書、好きなキーワード、嫌いなキーワードなどのユーザの嗜好に関係したテキストのデータである。そして、ユーザプロファイルに適合して抽出した単語をまとめ、特徴ベクトルを生成する。ここで、ある任意のコンテンツ（文書）をｃｃとし、そこに含まれる単語ｔに関する実際の計算式は、閲覧もしくは視聴したコンテンツの数をＮｐとすると、
で表現できる。この数１式が、ＴＦＩＤＦ値を算出する演算処理に相当する。なお、数１式中の、ｗ（ｔ，ｃｃ）は、コンテンツ（文書）ｃｃに含まれる単語ｔの重みを表し、ｔｆ（ｃｃ，ｔ）は、コンテンツｃｃに含まれる単語ｔの出現回数を表し、ｄｆ（ｔ）は、調査対象の文書に単語ｔが出現する文書数を表す。

そして、このようにして得られたユーザプロファイルの特徴ベクトルと、任意のテキストデータ（ここでの任意のテキストデータは例えば検索エンジンで検索された特定のコンテンツのウェブページに含まれるテキストデータ）とのマッチングから、類似度を算出する。即ち、図５に示すように、任意のテキストデータ３５を用意して、そのテキストデータ３５内の単語の出現頻度ＴＦを算出する処理３６を行い、その結果から任意テキストデータの特徴ベクトル３７を得て、ユーザプロファイルの特徴ベクトル３４とマッチング処理３８を行い、ユーザプロファイルと任意のテキストデータとの類似度を算出する。そして、例えばその結果算出された類似度が予め設定された閾値を超えた場合に、そのテキストデータを構成するコンテンツを表示させる等の処理を行う。この類似度の算出により検出されたコンテンツが、例えば図３に示すキーワードに関連したウェブページに相当する。

なお、例えば、ユーザプロファイルに嗜好情報が入っているとすれば、その情報をもとにユーザにお薦めコンテンツを提示することも可能である。また、このユーザプロファイルの特徴ベクトルの計算には時間を要するため、あらかじめ計算しておきデータベースを作成しておいても良い。また、コンテンツ内に含まれる全ての単語についてＴＦＩＤＦ値の計算をするのではなく、例えば、「名詞のみ」といった単語の品詞を限定することで、計算量を削減してもよい。また、ユーザプロファイルの特徴ベクトルの更新は、それを求めるのに使うテキストデータが一定量増えた段階で更新しても良いし、定期的に更新をしても良いし、ユーザプロファイルに変更があった場合に更新しても良い。

図６〜図８は、本例の処理の流れを示したフローチャートである。まず、図６のフローチャートを参照して、テレビジョン放送に連動して処理を行う場合の例について説明すると、本例の処理が開始されると、装置内のＣＰＵ１１は、キーワード抽出プロセスを起動させ（ステップＳ１１）、ウェブページのリコメンド処理プロセスについても起動させる（ステップＳ１２）。そして、テレビジョン放送の視聴又は何らかの動画の再生が実行される（ステップＳ１３）。その後、ＣＰＵ１１は、何らかのユーザ操作があるか否か判断し（ステップＳ１４）、ユーザ操作がある場合に、テレビジョンチャンネルの切り替えを指示する操作であるか否か判断し（ステップＳ１５）、チャンネルの切り替え指示である場合に、ステップＳ１３に戻って該当するチャンネルの視聴（再生）が行われる。また、チャンネルの切り替え指示でない場合に、視聴（再生）の終了指示であるか否か判断し（ステップＳ１６）、終了指示である場合に、ウェブページのリコメンド処理プロセスを停止させ（ステップＳ１７）、キーワード抽出プロセスについても停止させる（ステップＳ１８）。ステップＳ１６で終了指示でないと判断した場合には、ステップＳ１４の判断に戻る。

図７は、キーワード抽出処理を示したフローチャートである。キーワード抽出処理が起動されると、再生中のコンテンツ（ここでは放送番組など）の解析が行われ（ステップＳ３１）、キーワードの候補が抽出されたか否か判断する（ステップＳ３２）。ここでキーワードの候補が抽出されない場合には、ステップＳ３１の処理に戻る。そして、キーワードの候補が抽出された場合には、キーワードを更新させて（ステップＳ３３）、ステップＳ３１の処理に戻る。なお、複数のキーワードを抽出させてリスト化し、そのリストからユーザ操作などで所望のキーワードを選択するようにしても良い。

図８は、ウェブページのリコメンド処理を示したフローチャートである。リコメンド処理としては、キーワードが取得できたか否か判断し（ステップＳ２１）、キーワードが取得できるまで待機する。そして、キーワードが取得できた場合には、抽出したキーワードをインターネット上の検索エンジンに送り、ウェブ検索を行う（ステップＳ２２）。その後、キーワードが更新されたか否か判断し（ステップＳ２３）、更新された場合にはステップＳ２２のウェブ検索に戻る。そして、キーワードが更新されてない場合には、ステップＳ２２での検索結果から、任意の１つのウェブページを抽出する（ステップＳ２４）。そして、その抽出されたウェブページ内のテキストの単語で重みづけを行い、特徴ベクトルを生成させ（ステップＳ２５）、特徴ベクトルとユーザプロファイルに基づいた嗜好とのマッチング処理を行う（ステップＳ２６）。そして、マッチング処理の結果、ユーザの嗜好に適合するウェブページであるか否か判断し（ステップＳ２７）、ユーザの嗜好に適合しない場合にはステップＳ２３の判断に戻り、別のウェブページを抽出して処理する。

そして、ステップＳ２７でユーザの嗜好に適合するウェブページが検出された場合には、そのウェブページを表示させる（ステップＳ２８）。その後、予め設定されたウェブページの表示切り替え時間になったか否か判断し（ステップＳ２９）、切り替え時間になった場合には、ステップＳ２３の判断に戻る。

なお、ここまで説明した実施の形態では、図７に示すように、探し出されたウェブページ内の任意のテキストデータの単語の出現頻度ＴＦを算出して、そのテキストデータを重みづけするようにしたが、ユーザプロファイルの特徴ベクトル生成時に使用したテキストデータの集合に、調査用コンテンツのテキストデータを足して、ＴＦＩＤＦ値を求めて、テキストデータを重みづけするようにしても良い。即ち、例えば図９に示すように、ユーザプロファイルの特徴ベクトル生成時に使用したテキストデータを保持したデータベース４３に、任意のテキストデータである調査用コンテンツのテキストデータ４２を加算して、それらの集合体からＴＦＩＤＦ値を算出する処理４４を行い、任意テキストデータの特徴ベクトルを求める処理４５を行う。そして、ユーザプロファイルの特徴ベクトル４１とのマッチング処理４６を行い、ユーザプロファイルと任意のテキストデータとの類似度を求める。この図９の例の場合の計算式は、コンテンツｃに含まれる単語をｔとすると、ユーザプロファイルの特徴ベクトル生成時に計算したdf(t) とコンテンツ数Ｎｐに１を足して文書頻度の逆数ＩＤＦを計算し、単語の出現頻度ＴＦと積をとるのと等価になり、
と表現できる。

すなわち単語毎のdf(t) と、コンテンツ数Ｎｐをメモリ上に格納しておけば、調査コンテンツ以外の計算を行う必要はなく、計算量が軽減できる。この式は、ユーザプロファイルの特徴ベクトルを更新する場合にも利用できる。既に計算されている単語に関しては、追加されたテキストデータに含まれる単語のＩＤＦを再計算し（この場合、追加されたテキストデータの数に応じて、１の値は変化する）、単語の出現頻度ＴＦとの積をとるだけで良く、その他としては、追加されたテキストデータに対するＴＦＩＤＦ値の計算となる。

また、文書頻度の逆数ＩＤＦの計算は行わず、ユーザプロファイルの特徴ベクトル生成時に計算したＩＤＦ値を利用してＴＦＩＤＦ値を求め、類似度を出力するようにしても良い。即ち、図１２に示すように、任意のテキストデータ５２が得られると、そのテキストデータの単語の出現頻度ＴＦと、ユーザプロファイルの特徴ベクトル生成時に計算したＩＤＦ値を利用してＴＦＩＤＦ値を求める処理５３を行い、任意テキストデータの特徴ベクトル５４を得る。そして、ユーザプロファイルの特徴ベクトル５１と、任意テキストデータの特徴ベクトル５４を使用して、マッチング処理５５を行い、ユーザプロファイルと任意のテキストデータとの類似度を求める。この場合の計算式は、コンテンツciに含まれる単語をtnとすると、
となる。ただし、idt(t)＝０の場合には、idt(t)＝１とする。この計算法の場合、単語毎のidf(t)の値をメモリ上に格納しておくことで、より計算量を減らしながら、ＴＦＩＤＦ値の計算が行えることになる。

また、上述した実施の形態では、テレビジョン放送番組などを表示させる場合に連動して、キーワードを抽出して、そのキーワードに基づいてウェブ上のコンテンツを検索する処理について説明したが、キーワードについては、ユーザが入力させたもの等、その他の処理で得たものであっても良い。また、そのキーワードに基づいてコンテンツの検索を行う場合にも、インターネット上のウェブページではなく、何らかのデータベースから検索するようにしても良い。

また、上述した実施の形態では、テレビジョン受像機やＰＤＡなどの特定の装置に本例の処理を行う機能を実装させた場合について説明したが、例えば本例の処理を実行するプログラムを、パーソナルコンピュータ装置にインストールして、同様の機能を実現するようにしても良い。

本発明の一実施の形態による装置構成例を示すブロック図である。本発明の一実施の形態によるプロセス手順の例を示す説明図である。本発明の一実施の形態による表示例を示した説明図である。本発明の一実施の形態によるユーザプロファイルの特徴ベクトル作成例を示した説明図である。本発明の一実施の形態による任意テキストデータとユーザプロファイルのマッチング処理例を示した説明図である。本発明の一実施の形態による検索処理例を示したフローチャートである。本発明の一実施の形態によるキーワード抽出処理例を示したフローチャートである。本発明の一実施の形態によるウェブページリコメンド処理例を示したフローチャートである。本発明の他の実施の形態によるマッチング処理例を示した説明図である。本発明のさらに他の実施の形態によるマッチング処理例を示した説明図である。従来の一般的な情報検索例を示した説明図である。従来のユーザプロファイルを適用した一般的な情報検索例を示した説明図である。従来のユーザプロファイルを適用した一般的な情報検索の具体的例を示した説明図である。ユーザプロファイルの一例を示した説明図である。

符号の説明

１…リコメンド・エンジン、２…検索エンジン、３…インターネット、１１…中央制御ユニット（ＣＰＵ）、１２…ＲＯＭ、１３…ＲＡＭ、１４…ネットワークインターフェース、１５…操作部、１６…ユーザインターフェースコントローラ、１７…グラフィックコントローラ、１８…ＶＲＡＭ、１９…表示部

Claims

過去の使用状況又は入力状況に基づいてユーザプロファイルの特徴ベクトルの生成処理を行って蓄積し、
所定の処理で選択された特定のコンテンツから、単語の出現頻度に基づいて抽出したテキストデータの特徴ベクトルの生成処理を行い、
前記蓄積された特徴ベクトルと、コンテンツから生成された特徴ベクトルとを比較し、
前記比較結果に基づいて前記特定のコンテンツの類似度を算出する
情報検索方法。
請求項１記載の情報検索方法において、
前記テキストデータの特徴ベクトルの生成処理は、所定の処理で検索されたコンテンツに含まれるテキストデータと、過去に閲覧又は視聴したコンテンツから抽出したテキストデータとを使用して、両テキストデータの単語の出現頻度と文書頻度の逆数の積から特徴ベクトルを生成させる処理である
情報検索方法。
請求項１記載の情報検索方法において、
受信中の放送番組をキーワードとして選択されたコンテンツを前記特定のコンテンツとして選択し、
前記類似度が一定の閾値を超えた場合に、その特定のコンテンツを表示させる処理を行う
情報検索方法。
コンテンツの取得手段と、
前記取得手段で取得されたコンテンツの表示手段と、
前記取得手段又は表示手段での過去のコンテンツの取得状況又は表示状況に基づいてユーザプロファイルの特徴ベクトルを生成して蓄積し、所定の処理で選択された特定のコンテンツから、単語の出現頻度に基づいて抽出したテキストデータの特徴ベクトルを生成し、蓄積された特徴ベクトルとコンテンツから生成された特徴ベクトルとを比較して前記特定のコンテンツの類似度を算出する制御手段とを備えた
情報取得装置。
請求項４記載の情報取得装置において、
前記制御手段でのテキストデータの特徴ベクトルの生成は、所定の処理で検索されたコンテンツに含まれるテキストデータと、過去に取得又は表示させたコンテンツから抽出したテキストデータとを使用して、両テキストデータの単語の出現頻度と文書頻度の逆数の積から特徴ベクトルを生成させる処理である
情報取得装置。
請求項４記載の情報取得装置において、
前記コンテンツの表示手段は、放送番組を表示可能な表示手段であり、
前記制御手段は、前記表示手段で表示中の放送番組をキーワードとして選択されたコンテンツを前記特定のコンテンツとして選択し、前記類似度が一定の閾値を超えた場合に、その特定のコンテンツを前記表示手段に表示させる
情報取得装置。
コンテンツの取得手段と、
前記取得手段で取得されたコンテンツの表示手段と、
前記取得手段又は表示手段での過去のコンテンツの取得状況又は表示状況に基づいてユーザプロファイルの特徴ベクトルを生成して蓄積し、所定の処理で選択された特定のコンテンツから、単語の出現頻度に基づいて抽出したテキストデータの特徴ベクトルを生成し、蓄積された特徴ベクトルとコンテンツから生成された特徴ベクトルとを比較して前記特定のコンテンツの類似度を算出する制御手段としての機能を実行する
プログラム。