JP2005115791A - 情報検索方法、情報取得装置及びプログラム - Google Patents
情報検索方法、情報取得装置及びプログラム Download PDFInfo
- Publication number
- JP2005115791A JP2005115791A JP2003351356A JP2003351356A JP2005115791A JP 2005115791 A JP2005115791 A JP 2005115791A JP 2003351356 A JP2003351356 A JP 2003351356A JP 2003351356 A JP2003351356 A JP 2003351356A JP 2005115791 A JP2005115791 A JP 2005115791A
- Authority
- JP
- Japan
- Prior art keywords
- content
- feature vector
- text data
- information
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 クライアント機器での情報検索が簡単な演算処理で良好に行えるようにする。
【解決手段】 過去の使用状況又は入力状況に基づいてユーザプロファイルの特徴ベクトルの生成処理を行って蓄積し、所定の処理で選択された特定のコンテンツから、単語の出現頻度に基づいて抽出したテキストデータの特徴ベクトルの生成処理を行い、蓄積された特徴ベクトルと、コンテンツから生成された特徴ベクトルとを比較し、その比較結果に基づいて特定のコンテンツの類似度を算出するようにして、選ばれた1つのコンテンツに対して、ユーザプロファイルの特徴ベクトルとの類似度が算出され、少ない演算処理で類似度の算出ができるようにした。
【選択図】 図5
【解決手段】 過去の使用状況又は入力状況に基づいてユーザプロファイルの特徴ベクトルの生成処理を行って蓄積し、所定の処理で選択された特定のコンテンツから、単語の出現頻度に基づいて抽出したテキストデータの特徴ベクトルの生成処理を行い、蓄積された特徴ベクトルと、コンテンツから生成された特徴ベクトルとを比較し、その比較結果に基づいて特定のコンテンツの類似度を算出するようにして、選ばれた1つのコンテンツに対して、ユーザプロファイルの特徴ベクトルとの類似度が算出され、少ない演算処理で類似度の算出ができるようにした。
【選択図】 図5
Description
本発明は、インターネットなどを経由して情報を検索する情報検索方法、及び検索された情報を取得する情報取得装置、並びに情報検索を実行するプログラムに関する。
インターネットなどを経由して情報検索を行う場合、従来は例えば、インターネット上の検索エンジンにアクセスし、その検索エンジンにキーワードを入力させて、そのキーワードに関連した情報が取得できるホームページの一覧を表示させる処理が一般的である。ところが、検索エンジン側では、情報検索を瞬時に行えるようにするために、予め大容量のデータベースを備えて、そのデータベースに用意された情報に基づいた検索であるため、検索エンジン側で大容量の記憶手段が必要である。このような大容量の記憶手段が必要であるため、ユーザ側が所持する機器に検索エンジンを内蔵させるのは困難である。
ところが、インターネットにアクセスする各ユーザは、それぞれ嗜好が異なるので、検索エンジンを使用して常時同じような検索処理を行ったのでは、ユーザが希望するデータが得られるホームページが検索できる可能性が、必ずしも高くない。
このため、近年、ユーザが所望するウェブページを検索する手法が各種提案されている。この種のインターネットを介した情報検索技術は、IR(Information Retrieval )技術と称され、そのIR技術として提案されている中で、最も一般的な手法の中に、TFIDF法がある。これは、語の出現頻度から文書内の語の重要性を測る方法で、単語の出現頻度TF(Term Frequency)と文書頻度の逆数IDF(Inverse Document Frequency)の積をとったもので、文書を特徴ベクトルで表現し、それを文書間で内積をとり関連性を調べることができる。関連性の度合いを類似度といい、この類似度を基に文書集合をカテゴリ別に分類したり、目的の文書を探すための情報検索等に利用されている。
例えば図11に示すように、文書集合で構成されるデータベースに、キーワードを入力させて、その中からキーワードが多く含まれる関連文書リストを表示させるのが一般的な情報検索である。これに対して、例えば図12に示すように、ユーザ毎の嗜好性などの情報から構成されるユーザプロファイルを、文書集合で構成されるデータベースに送り、そのユーザプロファイルに基づいて類似度順にリストを表示させるようにすることで、より精度の高い情報検索が可能になる。
このユーザプロファイルを使用した従来の処理について、より具体的に説明すると、例えば図13に示すようなシステムで構成される。ユーザプロファイルaが記憶されたデータベースを用意すると共に、そのユーザプロファイルaにより検索される文章集合bを用意する。データベースに記憶されるユーザプロファイルは、例えば図14に示すように、ユーザの好みの文書、ユーザが嫌いな文書、好きなキーワード、嫌いなキーワードなどのユーザの嗜好に関係したテキストのデータである。また、文章集合bは、検索エンジンでの検索対象となる文書に相当する。そして、データベース内のユーザプロファイルaを使用して、単語の重み付け処理cを行い、ユーザプロファイルの特徴ベクトルdを生成させる。一方、文章集合bについても、各文章の単語の重み付け処理eを行い、文書別の特徴ベクトルfを生成させる。生成されたユーザプロファイルの特徴ベクトルdと、文書別の特徴ベクトルfは、マッチング処理gを行い、そのマッチングの度合いが高いものから順に、ユーザプロファイルと文書との類似度リストhを生成させる。
ユーザプロファイルの特徴ベクトルdを生成させる処理として、例えばTFIDF法が適用可能である。特許文献1には、TFIDF法を使用した情報検索処理についての開示がある。特許文献2には、ユーザ毎に設定された特徴ベクトルを使用して情報検索を行うことについての開示がある。
特開2001−265808号公報
特開2003−178075号公報
ところで、この図13に示した処理での情報検索は、文書集合全体を解析し、それぞれの文書に対して特徴ベクトルを算出するため、その計算量は膨大になる。そのため高性能なコンピュータ装置であっても、入力に応じてその結果をリアルタイム出力するのは困難である。また、文書集合に新たな文書が加わる等、文書集合に変更が起きた場合には特徴ベクトルを再計算しなければならないという問題もある。このような理由から、ウェブページ検索へ適応する場合、サーバで自動的にウェブページを集め、特徴ベクトルをあらかじめ計算している。計算結果はデータベースに保存され、データベースにアクセスして検索結果を返すというのが一般的となっている。しかしながら、ユーザプロファイルを使った検索をサーバで実現すると、ユーザプロファイルをクライアントからサーバに送る必要があり、セキュリティ上の問題も発生してしまう。
ユーザプロファイルを利用した情報検索を、ユーザが所持するクライアント機器であるパーソナルコンピュータ装置、PDA(Personal Digital Assistants )、テレビジョン受像機等で実現することは、セキュリティ上の問題を解決し、コンテンツ・リコメンド・システム等の様々なアプリケーションを機器に応じて展開することが可能になるが、メモリ容量や、演算処理を実行するプロセッサの処理能力等ハード的制約から困難な状況であった。
本発明はかかる点に鑑みてなされたものであり、クライアント機器での情報検索が簡単な演算処理で良好に行えるようにすることを目的とする。
本発明は、過去の使用状況又は入力状況に基づいてユーザプロファイルの特徴ベクトルの生成処理を行って蓄積し、所定の処理で選択された特定のコンテンツから、単語の出現頻度に基づいて抽出したテキストデータの特徴ベクトルの生成処理を行い、蓄積された特徴ベクトルと、コンテンツから生成された特徴ベクトルとを比較し、その比較結果に基づいて特定のコンテンツの類似度を算出するようにしたものである。
このようにしたことで、選ばれた1つのコンテンツに対して、ユーザプロファイルの特徴ベクトルとの類似度が算出され、少ない演算処理で類似度の算出ができる。
本発明によると、選ばれた1つのコンテンツに対して、ユーザプロファイルの特徴ベクトルとの類似度が算出され、少ない演算処理で類似度の算出が可能になるので、クライアント機器で、その機器を使用するユーザ毎に設定されたユーザプロファイルに対応した類似度を得て、そのユーザに適したウェブページなどを検索することが可能になる。
この場合、類似度を算出するためのコンテンツを選ぶ処理としては、例えばウェブ上に存在する既存の検索エンジンを利用することができ、新たに検索エンジンを構築する必要がなく、例えばPDA,テレビジョン受像機などのクライアント機器に容易に適用できるようになる。また、クライアント機器に本発明を適用することで、ユーザプロファイルをネットワーク上に流す必要もなく、セキュリティ的にも安全になる。
以下、本発明の一実施の形態を、図1〜図8を参照して説明する。
図1は、本例の情報検索処理を適用した装置の構成例を示した図である。本例の場合には、動画を表示可能な表示手段を備えたユーザが所持する機器としてあり、例えばPDAなどの携帯情報端末や、テレビジョン受像機などの各種情報表示装置に適用可能である。図1では、PDAやテレビジョン受像機などの各機器に特有の機能を実行する処理部の詳細については省略してあり、各種情報に基づいた検索とその検索結果に基づいた表示を行う部分を中心にして説明する。
図1は、本例の情報検索処理を適用した装置の構成例を示した図である。本例の場合には、動画を表示可能な表示手段を備えたユーザが所持する機器としてあり、例えばPDAなどの携帯情報端末や、テレビジョン受像機などの各種情報表示装置に適用可能である。図1では、PDAやテレビジョン受像機などの各機器に特有の機能を実行する処理部の詳細については省略してあり、各種情報に基づいた検索とその検索結果に基づいた表示を行う部分を中心にして説明する。
即ち、本例の装置の動作を制御する中央制御ユニット(CPU)11に、ROM12とRAM13が内部バスラインを介して接続してあり、さらに外部のネットワークと接続するためのネットワークインターフェース14を備える。CPU11は、後述する情報検索処理を実行する制御手段として機能し、接続されたメモリ12,13が後述するユーザプロファイルやその特徴ベクトルなどを記憶するデータベースの記憶手段としても機能する。また、情報検索処理を実行させるプログラムが、ROM12又はRAM13に実装させてあり、そのプログラムに基づいてCPU11が情報検索処理を実行する。RAM13などの記憶手段については、半導体メモリの他に、ハードディスクなどの記憶手段を使用しても良く、或いはメモリカードなどの着脱自在の記憶手段であっても良い。
ネットワークインターフェース14としては、例えば、アナログ電話回線用のアナログモデム、ISDN回線用のモデム、ADSL(Asymmetric Digital Subscriber Line)用のルータ又はモデム、LAN(Local Area Network:構内情報通信網)用のアダプタ、無線電話用のアダプタ、Bluetooth (商標)などの無線通信用のアダプタなどが適用可能である。これらの構成のインターフェース14を経由して、インターネットに接続できる構成としてある。
また、キーボード,操作ボタンなどで構成される操作部15と、その操作部15の操作を受け付けるユーザインターフェースコントローラ16を備え、ユーザインターフェースコントローラ16が受け付けた操作データがCPU11に供給される。なお、操作部15としては、例えば装置と別体のリモートコントロール装置から送信された赤外線信号などを受信して、操作データをコントローラ16に送る場合もある。
さらに、各種情報の表示を行うためのグラフィックコントローラ17を備える。このグラフィックコントローラ17に映像データを保持するVRAM18が接続してあり、グラフィックコントローラ17の制御で描画された映像を、表示部19で表示させる。表示部19としては、液晶表示パネル,陰極線管などの表示手段が使用される。
次に、本例の装置を使用して情報検索を行う処理について説明する。まず本例においては、図2に示したプロセス手順で情報検索が実行される。最初に、本例の装置内でキーワードを生成させて(或いはキーワードを入力させて)、そのキーワードをCPU11の演算機能を使用して構成されるリコメンド・エンジン1に入力させる。このリコメンド・エンジン1が、推奨するコンテンツを検索する処理部に相当する。また、リコメンド・エンジン1には、この装置のユーザの過去の使用状況や過去の検索履歴などに基づいて、ユーザプロファイルを入力するようにしてある。この入力されたユーザプロファイルに基づいて特徴ベクトルがリコメンド・エンジン1内で生成されるようにしてある。
そしてリコメンド・エンジン1では、キーワードを、インターネットを経由して接続された外部の検索エンジン2に送り、検索エンジン2でキーワードに基づいて検索されたウェブページのURL(Uniform Resource Locator)リストのデータを受信する。受け取ったURLリストは、リコメンド・エンジン1内のURLパーサ4で解析し、リストに記載された全てのコンテンツのアドレス又はN個(Nは任意の数)のアドレスに、順にアクセスしていく。各URLにアクセスして取得したウェブページ内のテキストデータについては、リコメンド・エンジン1内のマッチング・エンジン5で、ユーザプロファイルに基づいた特徴ベクトルと比較して、類似度を判定する。得られた類似度が予め設定された閾値を超えた場合には、ユーザプロファイルに適合したコンテンツであるとして出力させる。或いは、複数判定した中で、最も類似度の高いものを出力させる。
図3は、本例の装置がテレビジョン受像機である場合の表示例を示した図である。表示部19が備える表示画面20内に、テレビジョン放送を受信した動画表示21を行うと共に、その動画に基づくキーワードの表示22を画面20の下側で行い、さらにキーワードに基づいて検索されたウェブページの表示23を、画面の右半分で行うようにしてある。この場合、キーワードについては、例えば放送画面中の文字や、映像に付随した音声などをテキスト化して判定しても良いが、例えばEPG(Electric Program Guide)データなどから番組タイトルや番組内容が判る場合に、それらのデータから抽出するようにしても良い。また、抽出したキーワードをリスト化して、そのリスト化されたキーワードの中から、ユーザ操作でいずれかのキーワードを選択するようにしても良い。表示されるウェブページについては、ユーザプロファイルに基づいた特徴ベクトルと比較して、類似度が高いもの、即ちユーザの嗜好に適合していると判断されたものが表示される。類似度が高いウェブページが複数存在する場合には、例えば所定時間毎に別のウェブページの表示に切換えさせる。なお、放送番組から何らかのキーワードが抽出された時点で、ウェブページの検索が開始されて本例の表示処理が自動的に実行されるようにしても良い。
次に、ユーザプロファイルから特徴ベクトルを生成する処理の例について、図4を参照して説明する。ここでは、ユーザが閲覧もしくは視聴したコンテンツに含まれる、もしくは抽出できるテキストデータを集合としてテキストデータのデータベース31を作成し、そのデータベース31内のデータ内に含まれる単語についてTFIDF値を求める処理32を行って、ユーザプロファイルデータベース33に記憶されたユーザプロファイルに適合する単語を抽出する。ユーザプロファイルとしては、例えば従来例として図14に示したように、ユーザの好みの文書、ユーザが嫌いな文書、好きなキーワード、嫌いなキーワードなどのユーザの嗜好に関係したテキストのデータである。そして、ユーザプロファイルに適合して抽出した単語をまとめ、特徴ベクトルを生成する。ここで、ある任意のコンテンツ(文書)をccとし、そこに含まれる単語tに関する実際の計算式は、閲覧もしくは視聴したコンテンツの数をNpとすると、
で表現できる。この数1式が、TFIDF値を算出する演算処理に相当する。なお、数1式中の、w(t,cc)は、コンテンツ(文書)ccに含まれる単語tの重みを表し、tf(cc,t)は、コンテンツccに含まれる単語tの出現回数を表し、df(t)は、調査対象の文書に単語tが出現する文書数を表す。
そして、このようにして得られたユーザプロファイルの特徴ベクトルと、任意のテキストデータ(ここでの任意のテキストデータは例えば検索エンジンで検索された特定のコンテンツのウェブページに含まれるテキストデータ)とのマッチングから、類似度を算出する。即ち、図5に示すように、任意のテキストデータ35を用意して、そのテキストデータ35内の単語の出現頻度TFを算出する処理36を行い、その結果から任意テキストデータの特徴ベクトル37を得て、ユーザプロファイルの特徴ベクトル34とマッチング処理38を行い、ユーザプロファイルと任意のテキストデータとの類似度を算出する。そして、例えばその結果算出された類似度が予め設定された閾値を超えた場合に、そのテキストデータを構成するコンテンツを表示させる等の処理を行う。この類似度の算出により検出されたコンテンツが、例えば図3に示すキーワードに関連したウェブページに相当する。
なお、例えば、ユーザプロファイルに嗜好情報が入っているとすれば、その情報をもとにユーザにお薦めコンテンツを提示することも可能である。また、このユーザプロファイルの特徴ベクトルの計算には時間を要するため、あらかじめ計算しておきデータベースを作成しておいても良い。また、コンテンツ内に含まれる全ての単語についてTFIDF値の計算をするのではなく、例えば、「名詞のみ」といった単語の品詞を限定することで、計算量を削減してもよい。また、ユーザプロファイルの特徴ベクトルの更新は、それを求めるのに使うテキストデータが一定量増えた段階で更新しても良いし、定期的に更新をしても良いし、ユーザプロファイルに変更があった場合に更新しても良い。
図6〜図8は、本例の処理の流れを示したフローチャートである。まず、図6のフローチャートを参照して、テレビジョン放送に連動して処理を行う場合の例について説明すると、本例の処理が開始されると、装置内のCPU11は、キーワード抽出プロセスを起動させ(ステップS11)、ウェブページのリコメンド処理プロセスについても起動させる(ステップS12)。そして、テレビジョン放送の視聴又は何らかの動画の再生が実行される(ステップS13)。その後、CPU11は、何らかのユーザ操作があるか否か判断し(ステップS14)、ユーザ操作がある場合に、テレビジョンチャンネルの切り替えを指示する操作であるか否か判断し(ステップS15)、チャンネルの切り替え指示である場合に、ステップS13に戻って該当するチャンネルの視聴(再生)が行われる。また、チャンネルの切り替え指示でない場合に、視聴(再生)の終了指示であるか否か判断し(ステップS16)、終了指示である場合に、ウェブページのリコメンド処理プロセスを停止させ(ステップS17)、キーワード抽出プロセスについても停止させる(ステップS18)。ステップS16で終了指示でないと判断した場合には、ステップS14の判断に戻る。
図7は、キーワード抽出処理を示したフローチャートである。キーワード抽出処理が起動されると、再生中のコンテンツ(ここでは放送番組など)の解析が行われ(ステップS31)、キーワードの候補が抽出されたか否か判断する(ステップS32)。ここでキーワードの候補が抽出されない場合には、ステップS31の処理に戻る。そして、キーワードの候補が抽出された場合には、キーワードを更新させて(ステップS33)、ステップS31の処理に戻る。なお、複数のキーワードを抽出させてリスト化し、そのリストからユーザ操作などで所望のキーワードを選択するようにしても良い。
図8は、ウェブページのリコメンド処理を示したフローチャートである。リコメンド処理としては、キーワードが取得できたか否か判断し(ステップS21)、キーワードが取得できるまで待機する。そして、キーワードが取得できた場合には、抽出したキーワードをインターネット上の検索エンジンに送り、ウェブ検索を行う(ステップS22)。その後、キーワードが更新されたか否か判断し(ステップS23)、更新された場合にはステップS22のウェブ検索に戻る。そして、キーワードが更新されてない場合には、ステップS22での検索結果から、任意の1つのウェブページを抽出する(ステップS24)。そして、その抽出されたウェブページ内のテキストの単語で重みづけを行い、特徴ベクトルを生成させ(ステップS25)、特徴ベクトルとユーザプロファイルに基づいた嗜好とのマッチング処理を行う(ステップS26)。そして、マッチング処理の結果、ユーザの嗜好に適合するウェブページであるか否か判断し(ステップS27)、ユーザの嗜好に適合しない場合にはステップS23の判断に戻り、別のウェブページを抽出して処理する。
そして、ステップS27でユーザの嗜好に適合するウェブページが検出された場合には、そのウェブページを表示させる(ステップS28)。その後、予め設定されたウェブページの表示切り替え時間になったか否か判断し(ステップS29)、切り替え時間になった場合には、ステップS23の判断に戻る。
なお、ここまで説明した実施の形態では、図7に示すように、探し出されたウェブページ内の任意のテキストデータの単語の出現頻度TFを算出して、そのテキストデータを重みづけするようにしたが、ユーザプロファイルの特徴ベクトル生成時に使用したテキストデータの集合に、調査用コンテンツのテキストデータを足して、TFIDF値を求めて、テキストデータを重みづけするようにしても良い。即ち、例えば図9に示すように、ユーザプロファイルの特徴ベクトル生成時に使用したテキストデータを保持したデータベース43に、任意のテキストデータである調査用コンテンツのテキストデータ42を加算して、それらの集合体からTFIDF値を算出する処理44を行い、任意テキストデータの特徴ベクトルを求める処理45を行う。そして、ユーザプロファイルの特徴ベクトル41とのマッチング処理46を行い、ユーザプロファイルと任意のテキストデータとの類似度を求める。この図9の例の場合の計算式は、コンテンツcに含まれる単語をtとすると、ユーザプロファイルの特徴ベクトル生成時に計算したdf(t) とコンテンツ数Npに1を足して文書頻度の逆数IDFを計算し、単語の出現頻度TFと積をとるのと等価になり、
と表現できる。
すなわち単語毎のdf(t) と、コンテンツ数Npをメモリ上に格納しておけば、調査コンテンツ以外の計算を行う必要はなく、計算量が軽減できる。この式は、ユーザプロファイルの特徴ベクトルを更新する場合にも利用できる。既に計算されている単語に関しては、追加されたテキストデータに含まれる単語のIDFを再計算し(この場合、追加されたテキストデータの数に応じて、1の値は変化する)、単語の出現頻度TFとの積をとるだけで良く、その他としては、追加されたテキストデータに対するTFIDF値の計算となる。
また、文書頻度の逆数IDFの計算は行わず、ユーザプロファイルの特徴ベクトル生成時に計算したIDF値を利用してTFIDF値を求め、類似度を出力するようにしても良い。即ち、図12に示すように、任意のテキストデータ52が得られると、そのテキストデータの単語の出現頻度TFと、ユーザプロファイルの特徴ベクトル生成時に計算したIDF値を利用してTFIDF値を求める処理53を行い、任意テキストデータの特徴ベクトル54を得る。そして、ユーザプロファイルの特徴ベクトル51と、任意テキストデータの特徴ベクトル54を使用して、マッチング処理55を行い、ユーザプロファイルと任意のテキストデータとの類似度を求める。この場合の計算式は、コンテンツciに含まれる単語をtnとすると、
となる。ただし、idt(t)=0の場合には、idt(t)=1とする。この計算法の場合、単語毎のidf(t)の値をメモリ上に格納しておくことで、より計算量を減らしながら、TFIDF値の計算が行えることになる。
また、上述した実施の形態では、テレビジョン放送番組などを表示させる場合に連動して、キーワードを抽出して、そのキーワードに基づいてウェブ上のコンテンツを検索する処理について説明したが、キーワードについては、ユーザが入力させたもの等、その他の処理で得たものであっても良い。また、そのキーワードに基づいてコンテンツの検索を行う場合にも、インターネット上のウェブページではなく、何らかのデータベースから検索するようにしても良い。
また、上述した実施の形態では、テレビジョン受像機やPDAなどの特定の装置に本例の処理を行う機能を実装させた場合について説明したが、例えば本例の処理を実行するプログラムを、パーソナルコンピュータ装置にインストールして、同様の機能を実現するようにしても良い。
1…リコメンド・エンジン、2…検索エンジン、3…インターネット、11…中央制御ユニット(CPU)、12…ROM、13…RAM、14…ネットワークインターフェース、15…操作部、16…ユーザインターフェースコントローラ、17…グラフィックコントローラ、18…VRAM、19…表示部
Claims (7)
- 過去の使用状況又は入力状況に基づいてユーザプロファイルの特徴ベクトルの生成処理を行って蓄積し、
所定の処理で選択された特定のコンテンツから、単語の出現頻度に基づいて抽出したテキストデータの特徴ベクトルの生成処理を行い、
前記蓄積された特徴ベクトルと、コンテンツから生成された特徴ベクトルとを比較し、
前記比較結果に基づいて前記特定のコンテンツの類似度を算出する
情報検索方法。 - 請求項1記載の情報検索方法において、
前記テキストデータの特徴ベクトルの生成処理は、所定の処理で検索されたコンテンツに含まれるテキストデータと、過去に閲覧又は視聴したコンテンツから抽出したテキストデータとを使用して、両テキストデータの単語の出現頻度と文書頻度の逆数の積から特徴ベクトルを生成させる処理である
情報検索方法。 - 請求項1記載の情報検索方法において、
受信中の放送番組をキーワードとして選択されたコンテンツを前記特定のコンテンツとして選択し、
前記類似度が一定の閾値を超えた場合に、その特定のコンテンツを表示させる処理を行う
情報検索方法。 - コンテンツの取得手段と、
前記取得手段で取得されたコンテンツの表示手段と、
前記取得手段又は表示手段での過去のコンテンツの取得状況又は表示状況に基づいてユーザプロファイルの特徴ベクトルを生成して蓄積し、所定の処理で選択された特定のコンテンツから、単語の出現頻度に基づいて抽出したテキストデータの特徴ベクトルを生成し、蓄積された特徴ベクトルとコンテンツから生成された特徴ベクトルとを比較して前記特定のコンテンツの類似度を算出する制御手段とを備えた
情報取得装置。 - 請求項4記載の情報取得装置において、
前記制御手段でのテキストデータの特徴ベクトルの生成は、所定の処理で検索されたコンテンツに含まれるテキストデータと、過去に取得又は表示させたコンテンツから抽出したテキストデータとを使用して、両テキストデータの単語の出現頻度と文書頻度の逆数の積から特徴ベクトルを生成させる処理である
情報取得装置。 - 請求項4記載の情報取得装置において、
前記コンテンツの表示手段は、放送番組を表示可能な表示手段であり、
前記制御手段は、前記表示手段で表示中の放送番組をキーワードとして選択されたコンテンツを前記特定のコンテンツとして選択し、前記類似度が一定の閾値を超えた場合に、その特定のコンテンツを前記表示手段に表示させる
情報取得装置。 - コンテンツの取得手段と、
前記取得手段で取得されたコンテンツの表示手段と、
前記取得手段又は表示手段での過去のコンテンツの取得状況又は表示状況に基づいてユーザプロファイルの特徴ベクトルを生成して蓄積し、所定の処理で選択された特定のコンテンツから、単語の出現頻度に基づいて抽出したテキストデータの特徴ベクトルを生成し、蓄積された特徴ベクトルとコンテンツから生成された特徴ベクトルとを比較して前記特定のコンテンツの類似度を算出する制御手段としての機能を実行する
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003351356A JP2005115791A (ja) | 2003-10-09 | 2003-10-09 | 情報検索方法、情報取得装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003351356A JP2005115791A (ja) | 2003-10-09 | 2003-10-09 | 情報検索方法、情報取得装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005115791A true JP2005115791A (ja) | 2005-04-28 |
Family
ID=34542614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003351356A Pending JP2005115791A (ja) | 2003-10-09 | 2003-10-09 | 情報検索方法、情報取得装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005115791A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116451A (ja) * | 2007-11-02 | 2009-05-28 | Ntt Docomo Inc | 情報提供システム及び情報提供方法 |
JP2009223537A (ja) * | 2008-03-14 | 2009-10-01 | Ntt Docomo Inc | 情報提供システム及び情報提供方法 |
KR101466403B1 (ko) * | 2008-08-07 | 2014-11-27 | 주식회사 엘지유플러스 | 플레이리스트 정보를 이용한 키워드 생성장치 및 그 방법 |
JP2017102737A (ja) * | 2015-12-02 | 2017-06-08 | 日本電信電話株式会社 | 閲覧管理システムおよび閲覧管理方法 |
US9996611B2 (en) | 2013-03-12 | 2018-06-12 | International Business Machines Corporation | Method, computer program, and computer for classifying users of social media |
-
2003
- 2003-10-09 JP JP2003351356A patent/JP2005115791A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116451A (ja) * | 2007-11-02 | 2009-05-28 | Ntt Docomo Inc | 情報提供システム及び情報提供方法 |
JP2009223537A (ja) * | 2008-03-14 | 2009-10-01 | Ntt Docomo Inc | 情報提供システム及び情報提供方法 |
KR101466403B1 (ko) * | 2008-08-07 | 2014-11-27 | 주식회사 엘지유플러스 | 플레이리스트 정보를 이용한 키워드 생성장치 및 그 방법 |
US9996611B2 (en) | 2013-03-12 | 2018-06-12 | International Business Machines Corporation | Method, computer program, and computer for classifying users of social media |
JP2017102737A (ja) * | 2015-12-02 | 2017-06-08 | 日本電信電話株式会社 | 閲覧管理システムおよび閲覧管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101721338B1 (ko) | 검색 엔진 및 그의 구현 방법 | |
JP3917648B2 (ja) | 連想辞書作成装置 | |
US8666963B2 (en) | Method and apparatus for processing spoken search queries | |
US8990182B2 (en) | Methods and apparatus for searching the Internet | |
US7962477B2 (en) | Blending mobile search results | |
EP2708031B1 (en) | System and method for enhancing user search results by determining a television program currently being displayed in proximity to an electronic device | |
EP2612261B1 (en) | Internet search related methods and apparatus | |
JP2009043156A (ja) | 番組検索装置および番組検索方法 | |
JP5469046B2 (ja) | 情報検索装置、情報検索方法及び情報検索プログラム | |
JP5300068B2 (ja) | 動画推薦装置 | |
JP2007188352A (ja) | ページリランキング装置、ページリランキングプログラム | |
JP4900915B2 (ja) | コンテンツ配信方法および装置 | |
JP5185891B2 (ja) | コンテンツ提供装置、コンテンツ提供方法およびコンテンツ提供プログラム | |
KR20140091375A (ko) | 사용자 질의 확장 기법을 이용한 시맨틱 콘텐츠 검색 시스템 및 방법 | |
JP2005115791A (ja) | 情報検索方法、情報取得装置及びプログラム | |
JP6639040B2 (ja) | 情報検索装置及びプログラム | |
JP2004362121A (ja) | 情報検索装置、携帯情報端末装置、情報検索方法、情報検索プログラム及び記録媒体 | |
JP6640519B2 (ja) | 情報分析装置及び情報分析方法 | |
JP5777663B2 (ja) | 検索支援装置及び検索支援プログラム | |
CN109271580B (zh) | 搜索方法、装置、客户端和搜索引擎 | |
KR101308821B1 (ko) | 검색엔진용 키워드 추출 시스템 및 추출 방법 | |
JP2005157690A (ja) | 電子機器装置及び情報提供方法 | |
JP5439050B2 (ja) | 関連コンテンツ表示装置及びコンピュータプログラム | |
JP2001229167A (ja) | 関連発見型情報閲覧システム、関連発見型情報閲覧方法および記録媒体 | |
JP2006277288A (ja) | 表示時間測定システム、表示時間測定方法、検索システムおよび検索方法 |