JP2004362121A - 情報検索装置、携帯情報端末装置、情報検索方法、情報検索プログラム及び記録媒体 - Google Patents
情報検索装置、携帯情報端末装置、情報検索方法、情報検索プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2004362121A JP2004362121A JP2003157880A JP2003157880A JP2004362121A JP 2004362121 A JP2004362121 A JP 2004362121A JP 2003157880 A JP2003157880 A JP 2003157880A JP 2003157880 A JP2003157880 A JP 2003157880A JP 2004362121 A JP2004362121 A JP 2004362121A
- Authority
- JP
- Japan
- Prior art keywords
- information
- keyword
- search
- word
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ユーザが所望する情報を簡便に取得できる情報検索装置を提供する。
【解決手段】情報検索装置42は、キーワードに基づいて番組情報データベースを検索する第1のデータ送受信部62と、同じキーワードに基づいてインターネット48上を検索する第2のデータ受信部64と、インターネット48から検索されたテキスト情報に含まれる単語中の出現頻度の高いもの、または入力キーワードと関連性の高いものを新たなキーワードとして抽出するフィルタ部66と、この新たなキーワードに基づいて更に番組情報データベースを検索するように第1のデータ送受信部62を制御する制御部60とを含む。
【選択図】 図1
【解決手段】情報検索装置42は、キーワードに基づいて番組情報データベースを検索する第1のデータ送受信部62と、同じキーワードに基づいてインターネット48上を検索する第2のデータ受信部64と、インターネット48から検索されたテキスト情報に含まれる単語中の出現頻度の高いもの、または入力キーワードと関連性の高いものを新たなキーワードとして抽出するフィルタ部66と、この新たなキーワードに基づいて更に番組情報データベースを検索するように第1のデータ送受信部62を制御する制御部60とを含む。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
この発明は、情報を検索するための装置に関し、特に、キーワードに基づいて、適切な情報をできるだけ多く検索する事ができる情報検索装置に関する。
【0002】
【従来の技術】
従来の地上波放送テレビジョンに加えて、最近ではケーブルテレビジョン、衛星放送テレビジョン等が普及している。そのため、多数のチャネルで非常に多くの番組が提供される状況になっている。
【0003】
かつては、視聴者は、新聞に掲載されたテレビジョン放送の番組表、又は商業的に提供される雑誌に掲載される番組表を見て、その中から自分の見る番組を選択する事が通常であった。しかし、番組を提供するチャネル数が多数になると、その中から自分に適した番組を短時間で探し出す事は困難になる。
【0004】
最近の視聴者は、一つの番組の中でもごく一部のみを見る、という行動をとる事も多い。たとえば歌番組の中でも、特定の歌手が出演している時間帯のみを見る、という様な行動である。そのために番組表の中には、番組内部をさらに細分化してどの時間帯にどの様な内容が放送されるかという情報を提供しているものもある。この様に、特定の歌手又は俳優などが出演する時間帯のみを短時間で選択しようとすると、それは極めて困難である。
【0005】
こうした困難を解決するために、電子的番組表の様な電子的データを準備し、この電子的番組表の中で所望の番組を検索する手法が開発されている。特にテレビジョンとは別個の装置で番組を検索する事を可能にする装置が、特許文献1に開示されている。
【0006】
この特許文献1に開示されている装置は、テレビジョンとは別体で、テレビジョン受信装置を通じて間接的に、又は直接的に取得した電子的番組表の様な情報データベースを入力されたキーワードで検索し、キーワードに合致した番組の情報を抽出する事で簡便に所望の情報を獲得できる様にしたものである。
【0007】
テレビ番組を対象としたこの様な技術においては、視聴者に好適な番組情報操作を可能にするため、キーワードがマッチした番組をサーチし、該当する番組情報を抽出できる。これにより、視聴者が見たい番組情報を知ったり、簡単に録画の設定をしたりする事が可能になる。
【0008】
【特許文献1】
特開2001−119638号公報
【発明が解決しようとする課題】
一般的に、テレビジョンの番組表は、新聞に掲載されていたときの慣習に従って、少ないスペースに入る情報で各番組を表現するものが多い。そのため、各番組ごとの情報量は限定されている。この様に限られた情報量のデータベースの中から所望の情報を得る場合、キーワードが合致する情報を検索するだけでは、望む検索結果が得られないケースが多いという問題がある。
【0009】
電子的な番組表の各番組ごとの情報量は限定されており、ユーザが指定したキーワードと必ずしも合致するとは限らない。例えば「ミステリ映画」を指定した場合、電子的番組表の中に「ミステリ映画」という表記がない限り、番組を抽出する事はできない。
【0010】
また、電子的番組表にはジャンルの記載もある。しかしそれらは、「スポーツ」「映画」といった大きな概念を示したものであり、さらに詳細なレベル、例えば映画の種類が何であるかという様な詳細な情報は記載されていない。よって、ユーザは「ミステリ映画」を見たい場合であっても単に「映画」とキーワードを指定して見たい番組を探す事になる。しかし、こうすれば検索結果にミステリ以外の映画も広く含まれてしまう。所望の番組がそれほど容易には見つけ出せない。その結果、所望の番組を探し出すまでに時間がかかったり見落としが生じたりするという問題がある。
【0011】
今後デジタル放送等の普及に伴って多チャネル化が進むと、番組数が膨大になり、いかに簡便に所望の番組情報を取得できるかがさらに重要になってくる。またこうした問題は、テレビジョン放送などには典型的に現れるが、他の分野でも同様に生じ得る。
【0012】
この発明はこの様な点に鑑みてなされたものであり、ユーザが所望する情報を簡便に取得できる情報検索装置を提供する事を第1の目的とする。
【0013】
この発明の他の目的は、ユーザが所望する情報を漏れなく簡便に取得できる情報検索装置を提供する事である。
【0014】
この発明のさらに他の目的は、ユーザが指定したキーワードに関連する情報を漏れなく簡便に取得できる情報検索装置を提供する事である。
【0015】
この発明の他の目的は、ユーザが指定したキーワードに関連する番組情報を電子的番組情報データベースから漏れなく簡便に取得できる情報検索装置を提供する事である。
【0016】
【課題を解決するための手段】
本発明の第1の局面に係る情報検索装置は、キーワードに基づいて第1の情報データベースを検索するための第1の情報検索手段と、キーワードに基づいて第2の情報データベースを検索するための第2の情報検索手段と、第2の情報検索手段によりキーワードに基づいて第2の情報データベースから検索された情報から所定の基準で新たなキーワードを抽出するためのキーワード抽出手段と、キーワード抽出手段により抽出された新たなキーワードに基づいて更に第1の情報データベースを検索する様に第1の情報検索手段を制御するための手段とを含む。
【0017】
好ましくは、第2の情報検索手段は、第1の情報検索手段による情報の検索が失敗した事に応答して、キーワードに基づいて第2の情報データベースを検索するための手段を含む。
【0018】
さらに好ましくは、キーワード抽出手段は、単語の持つ意味概念の間の階層構造に従って単語を分類し記憶する概念辞書と、第2の情報検索手段により第2の情報データベースから検索された文字列を解析して単語列を抽出するための解析手段と、解析手段により抽出された単語列中の各単語及びキーワードの、概念辞書中での関係を用いて新たなキーワードを単語列中から抽出するための手段とを含む。
【0019】
抽出するための手段は、解析手段により抽出された単語列中の各単語とキーワードとの概念間距離を、概念辞書を用いて算出するための手段と、算出された概念間距離と、各単語の単語列中での出現頻度とを用いて各単語のスコアを算出するための手段と、単語列中の単語から、算出されたスコアが所定の条件を充足するものを新たなキーワードとして抽出するための手段とを含んでもよい。
【0020】
キーワード抽出手段は、第2の情報検索手段によりキーワードに基づいて第2の情報データベースから検索された情報を解析し、単語列を抽出するための解析手段と、解析手段により抽出された単語列中で、最も出現頻度の高い所定個数の単語を新たなキーワードとして抽出するための手段とを含んでもよい。
【0021】
好ましくは、第2の情報データベースは、情報をカテゴリに分類してアクセス可能とした検索ディレクトリであり、第2の情報検索手段は、与えられるキーワードを解析して、当該与えられるキーワードを構成する単語からなる単語列を抽出するための手段と、抽出された単語列と一致するカテゴリを、検索ディレクトリ中から検索するための手段と、検索ディレクトリ中から検索されたカテゴリに属する情報中から、所定の条件を満足する単語を取り出す事により新たなキーワードを抽出するための手段とを含む。
【0022】
さらに好ましくは、検索ディレクトリは、カテゴリをツリー状構造で配置したものであり、かつツリー構造の葉の部分にはそれぞれ各カテゴリに対応するキーワードが付されており、新たなキーワードを抽出するための手段は、検索ディレクトリ中から検索されたカテゴリの配下の葉の部分に付されたキーワードを新たなキーワードとして抽出するための手段を含む。
【0023】
好ましくは、第1の情報データベースは放送に関する電子的番組情報のデータベースを含み、第1の情報検索手段は、電子的番組情報のデータベースからキーワードに合致する番組情報を検索するための手段を含む。
【0024】
本発明の他の局面に係る情報検索プログラムは、コンピュータにより実行されると、当該コンピュータを上記した何れかの情報検索装置として動作させる、コンピュータで実行可能な情報検索プログラムである。
【0025】
本発明の他の局面に係る携帯情報端末装置は、上記した何れかの情報検索装置を搭載したものである。
【0026】
本発明のさらに他の局面に係る携帯情報端末装置は、サーバと通信を行なう事が可能な携帯情報端末装置であって、サーバと通信するための第1の通信手段と、キーワードに基づいて第1の情報データベースを検索するための第1の情報検索手段と、キーワードを第1の通信手段を介してサーバに送信するための手段とを含み、サーバは、第1の通信手段と通信するための第2の通信手段と、第2の通信手段を介して携帯情報端末装置からキーワードを受信した事に応答して、受信したキーワードを拡張した拡張キーワードを第2の通信手段を介して携帯情報端末装置に送信するための手段とを含み、携帯情報端末装置はさらに、サーバから送信された拡張キーワードを第1の通信手段で受信し、当該拡張キーワードを用いて更に第1の情報データベースを検索するための手段を含む。
【0027】
本発明のさらに他の局面に係る情報検索方法は、キーワードに基づいて第1の情報データベースを検索するステップと、キーワードに基づいて第2の情報データベースを検索するステップと、キーワードに基づいて第2の情報データベースから検索された情報から所定の基準で新たなキーワードを抽出するステップと、新たなキーワードを抽出するステップにおいて抽出された新たなキーワードに基づいて更に第1の情報データベースを検索するステップとを含む。
【0028】
本発明の他の局面に係る情報検索プログラムは、コンピュータにより実行されると、上記した情報検索方法を実行する様にコンピュータを制御する情報検索プログラムである。
【0029】
本発明のさらに他の局面に係るコンピュータ読取可能な記録媒体は、上記した情報検索プログラムを記録したものである。
【0030】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。以下の説明では、同じ部品には同じ参照符号を付す。それらの名称及び機能も同一である。従ってそれらについての詳細な説明は繰返さない。
【0031】
‐第1の実施の形態‐
図1は、本発明の第1の実施の形態に係る情報検索装置の構成を示す構成図である。この実施の形態に係る情報検索装置は、テレビジョンの電子的番組表から所望の番組を見つけ出すためのテレビ番組の情報検索装置である。図1を参照して、この情報検索装置30はテレビジョン受信機46を通じて、入力されたキーワードと合致する番組情報を電子的番組表内で検索する。仮に入力されたキーワードと合致する番組情報が見つからない場合には、さらにいわゆるインターネット48上の情報を用いて、入力されたキーワードを拡張し、拡張されたキーワードで再度電子的番組表を検索して見つかった番組情報を表示する。
【0032】
この実施の形態に係る情報検索装置30は、探したい番組に関するキーワードを入力する際にユーザが使用する入力部40と、上記した様に入力されたキーワード、又はインターネット48上の情報により拡張されたキーワードに従ってテレビジョン受信機46を介して電子的番組表を検索し、キーワードに合致した番組情報を取り出すための情報検索部42と、情報検索部42により取出された番組情報を表示するための出力部44とを含む。
【0033】
本実施の形態の情報検索装置30では、入力部40はキーボード及びボタンからなる。また出力部44は、本実施の形態では液晶表示装置からなる。
【0034】
図2に、本実施の形態で使用される電子的番組表70の一例を示す。この例では、電子的番組表70は野球中継と映画「○○○」とに関する番組情報とを含む。他にも電子的番組表70は種々の番組情報を含むが、ここではそれらについての説明は省略する。
【0035】
各々の番組情報は、放送日時に関する情報と、放送されるチャネルに関する情報と、番組の概要に関する情報とを含む。キーワード検索では、番組名と概要とが検索対象となる。
【0036】
情報検索部42は、入力部40及び出力部44に接続され、情報の入出力及び情報検索部42の各部の制御を行なうための制御部60と、制御部60及びテレビジョン受信機46に接続され、制御部60から受取ったキーワードに合致する番組情報をテレビジョン受信機46を介して電子的番組表(第1の情報データベース)を参照して検索するための第1のデータ送受信部62と、制御部60及びインターネット48に接続され、制御部60から受取ったキーワードを、インターネット48上のデータベース(第2のデータベース)により拡張して拡張されたキーワード群を生成するための第2のデータ受信部64と、第2のデータ受信部64及び制御部60に接続され、第2のデータ受信部64から与えられた拡張されたキーワード群の中から所定の条件を含むもののみを選択し、再度電子的番組表を検索するためのキーワードとして制御部60に与えるためフィルタ部66とを含む。
【0037】
本実施の形態の情報検索装置30の第2のデータ受信部64は、図3に示す様に、キーワード90を用いてインターネット上のホームページを検索して検索結果92を得て、得られた検索結果92に含まれるURL(Uniform Resource Locator)94,96,98等をアクセスする事によりそれらホームページのテキスト100、102、104を得て、それを検索結果としてフィルタ部66に与える。実際には、検索にはインターネット上の既存のいわゆる検索エンジンを用い、ユーザにより入力されたキーワードを検索エンジンに与えて検索を行なわせる事により検索結果92を得る。
【0038】
図4に、フィルタ部66の詳細な機能的ブロック図を示す。図4を参照して、フィルタ部66は、第2のデータ受信部64により検索されたホームページのテキスト(日本語であるものとする。)に対し形態素解析を行ない、形態素列を出力するための形態素解析部120と、得られた形態素列から機能語を削除するための機能語削除部122と、機能語削除部122の出力する、機能語を含まない形態素(単語)列の中で各単語の出現する頻度を算出するための頻度算出部124と、機能語削除部122から出力された単語列の中で、頻度算出部124が算出した頻度の上位の所定数の単語を、拡張されたキーワードとして選択するためのキーワード選択部126とを含む。キーワード選択部126の出力する拡張されたキーワードは、図1に示す制御部60に与えられた、再度第1のデータ送受信部62による電子的番組表の検索に用いられる。
【0039】
図5に、頻度算出部124が算出する各単語の出現頻度の例を、出現頻度表130として示す。図5に示す例では頻度は具体的には記載していないが、この表は後のプログラムの説明において再度利用する。
【0040】
図6に、本実施の形態に係る情報検索装置30のハードウェアブロック図を示す。図1に示す情報検索装置30の各機能部は、後述する様に実質的にはコンピュータハードウェアとその上で実行されるプログラムとにより実現されている。図6に示すのはコンピュータハードウェアのブロック図である。なお、第1のデータ送受信部62及び第2のデータ受信部64はコンピュータとは別の独立した機能部分であるため、図6においてもそれぞれ独立した機能部分として描いてある。
【0041】
図6を参照して、情報検索部42は、第1のデータ送受信部62及び第2のデータ受信部64に加え、コンピュータの中心的機能部分であり、入力部40、出力部44、第1のデータ送受信部62及び第2のデータ受信部64との間のデータの入出力、及び後述するプログラムの実行などを制御するためのCPU(Central Processing Unit)からなる制御部142と、制御部142に接続され、入力部40により入力されたキーワード、及び第1の情報データベース及び第2の情報データベースを検索して得られた検索結果などを一時的に記憶するための記憶部140と、制御部142に接続され、制御部142が実行するプログラムを記憶するためのプログラム記憶部144とを含む。記憶部140は揮発性のRAM(Random Access Memory)からなり、プログラム記憶部144は不揮発性のROM(Read Only Memory)からなる。
【0042】
図7は、プログラム記憶部144に記憶されているプログラムの主ルーチンの制御構造を示すフローチャートである。図7を参照して、このプログラムは、ユーザによるキーワードの入力を受けるステップ150と、入力されたキーワードを用いて第1のデータ送受信部62を用いて第1のデータベース(電子的番組表)を検索し、キーワードに合致する番組情報を取出すステップ152と、ステップ152の処理でキーワードに合致する番組情報が見出されたか否かを判定するステップ154とを含む。
【0043】
ステップ154の判定結果がYESである場合には、制御はステップ166に進む。ステップ166では、キーワードに合致する番組候補を出力部44を用いてユーザに提示して処理を終了する。
【0044】
一方、ステップ154の判定結果がNOである場合には、制御はステップ156に進む。ステップ156では、ユーザがステップ150で入力したキーワードを用いて、第2のデータ受信部64を介してインターネット48上でこのキーワードに合致するホームページを検索する。続くステップ158では、ステップ156で見出されたホームページのテキスト中の文字列に対する形態素解析を行ない、結果を形態素列として出力する。なお、文字列の形態素解析をするためのプログラムとしては容易に入手可能ないわゆるパブリックドメインのものが存在しており、このステップではそのプログラムを使用する。
【0045】
続くステップ160では、ステップ158で得られた形態素(単語)列の中で機能語を除去するフィルタリング処理を行なう。機能語とは、分割した構成単語に含まれる、助詞・助動詞の様な付属語や、文法構造上の関係を表すために働く語の事をいう。機能語は、キーワードとして必要ないため、ここで削除する。
【0046】
ステップ161で、機能語を削除した後の書く単語について出現頻度を計算する。さらにステップ162で、出現頻度に基づいて単語のランク付けを行ない、ステップ163で所定の条件を満足するもののみを選択する。ここで選択されたものが拡張されたキーワードである。本実施の形態では、出現頻度の上位の所定個を拡張されたキーワードとして選択する。
【0047】
ステップ164で、拡張されたキーワードの各々を用い、再度第1のデータ送受信部62を介して電子的番組表内でキーワードに合致する番組情報の検索を行なう。この処理で見出された番組候補の情報をステップ166でユーザに提示して処理を終了する。
【0048】
本実施の形態に係る情報検索装置30は以下の様に動作する。図1に示される入力部14よりユーザは検索したい番組に対する検索語を入力する。本実施の形態の装置では、キーワードはキーボードで直接文字を打ち込む事により入力する。このキーワードは制御部60に与えられる。
【0049】
制御部60は、第1のデータ送受信部62及びテレビジョン受信機46を通して電子的番組情報を受信し、入力されたキーワードに合致する番組情報を検索する。もし、合致する番組が見つかれば、制御部60はその番組情報を出力部44に表示し、この検索処理を終了する。合致する番組が見つからない場合には、制御部60は第2のデータ受信部64に対してこのキーワードを与える。
【0050】
第2のデータ受信部64は、制御部60から与えられたキーワードに基づいて、インターネット48上で検索を行なう。具体的には、第2のデータ受信部64は、予め選択された検索エンジンにこのキーワードを与えて検索させ、その検索結果を得る。第2のデータ受信部64はさらに、検索結果のURLを用いて各ホームページをアクセスし、それらのホームページのテキストを収集する。第2のデータ受信部64は、この様にして収集したテキストをフィルタ部66に与える。
【0051】
フィルタ部66は、第2のデータ受信部64から与えられたテキストの文字列に対する形態素解析を行ない、テキストの文字列を構成単語に分割する。さらにフィルタ部66は、この単語列から機能語を削除する。前述した通り機能語はキーワードとしては不適であるからである。さらにフィルタ部66は、この様にフィルタリングした後の単語列内の各単語に優先度をつける。本実施の形態では、フィルタ部66は各単語ごとに単語列内での出現頻度を求める。そして出現頻度の高い上位の所定個の単語を拡張されたキーワードとして抽出する。フィルタ部66は、この様にして抽出した複数の拡張されたキーワードを制御部60に与える。
【0052】
制御部60は、フィルタ部66から与えられた拡張されたキーワードの各々について、第1のデータ送受信部62を用いて再度電子的番組表を検索する。その結果得られた番組候補を出力部44上に表示して処理を終了する。以上の処理により、ユーザが指定したキーワードから、そのキーワードに関連する番組情報を漏れなく得る事ができる。
【0053】
次に、以上述べた動作を、より具体的に図2に示す電子的番組表70を例にあげて説明する。図5に示す様に、電子的番組表70には「野球中継」と「映画」とが記録されている。また電子的番組表70には「ミステリ映画」という語は記録されていないものとする。
【0054】
ユーザが「ミステリ映画」というキーワードを指定したものとする。電子的番組表70中の「映画『○○○』」の「概要」の欄には、この映画が推理作品の映画である事が記載されている。従って、本来であれば「ミステリ映画」をキーワードとする検索を行なう事でこの映画がユーザに提示される筈である。
【0055】
しかし、この「ミステリ映画」をキーワードに第1のデータ送受信部62を用いて電子的番組表の検索を行なっても、映画「○○○」の説明の中には「ミステリ映画」という語はないので、この映画は検索結果として抽出されない。他にも「ミステリ映画」に合致するものはない。そのため、制御部142は、この「ミステリ映画」というキーワードで、第2のデータ受信部64を利用してインターネットを検索する。その結果、複数のホームページのURLが得られる。それらのURLの各々をアクセスする事により、ホームページの文字情報を取得できる。
【0056】
「ミステリ映画」の検索結果として、例えば図3に示す様に、あるホームページには、例えば「…本格的な推理映画…」という記載100があり、別のホームページには「…ミステリ映画ベスト10…」という記載102があり、さらに別のホームページには「…推理…」という記載104があったものとする。ホームページはそれぞれ別々の者により維持されているので、この様に様々なホームページに様々な記載がある。これらの文字列を形態素解析して、機能語以外の語の中で特に出現頻度の高い単語を得る事で、「ミステリ映画」に関連性の高い語彙を抽出する事ができる。
【0057】
仮に「推理」という単語が、「ミステリ映画」の検索で得られた多くのホーム−ページで用いられていれば、上記した処理でこの単語の優先度は高くなる。従って「推理」という語が拡張されたキーワードとして選択される事になる。この様にして得られた「推理」を含む複数の拡張されたキーワードでテレビ番組表を検索すると、概要に記されている「推理」というキーワードとの合致により、今度は図6中の映画「○○○」が検索される。その結果、この映画に関する番組情報をユーザに提示する事ができる。
【0058】
‐第2の実施の形態‐
本発明の第2の実施の形態として、概念辞書を用いて単語の優先度を求め、この優先度に従って拡張されたキーワードを選択する方法について述べる。概念辞書とは、単語の持つ意味概念の間の階層構造に従って単語を分類し記憶した、コンピュータ読取可能な辞書の事をいう。概念辞書により、単語間の間の概念的な距離を知る事ができる。ただし、概念辞書そのものが階層構造を持つ必要はない。後の説明から明らかな様に、概念辞書は単語間の概念の階層構造を反映できる形のものであればどの様なものであってもよい。
【0059】
概念辞書を用いた第2の実施の形態に係る情報検索装置220の機能的構成を図8に示す。なお、この第2の実施の形態の装置のハードウェア構成も第1の実施の形態のもの(図6)と同様であるので、ここではその詳細な説明は繰返さない。
【0060】
図8を参照して、この情報検索装置220は、第1の実施の形態と同様の入力部40及び情報検索部42と、テレビジョン受信機46及びインターネット48に接続され、第1の実施の形態の情報検索部42の機能と同様であるが、上述した通り概念辞書を求めて単語の優先度を求めて優先度に従ってキーワードを選択する機能を持つ情報検索部230とを含む。
【0061】
情報検索部230は、第1の実施の形態で用いられたものと同様の第1のデータ送受信部62及び第2のデータ受信部64に加えて、単語をそれらの概念に従って系統的に分類した、電子的に読取り可能な概念辞書244と、第2のデータ受信部64により検索されたホームページのテキストデータを形態素解析し、得られた単語列の各単語に概念辞書244を用いて優先度を付ける処理を行ない、その優先度を用いてキーワードを拡張されたキーワードとして選択するためのフィルタ部242と、入力部40、出力部44、第1のデータ送受信部62、第2のデータ受信部64、及びフィルタ部242に接続され、入力部40から与えられたキーワード及びフィルタ部242から与えられた拡張されたキーワードを用いて電子的番組表内を検索し、キーワードに合致する番組情報を取り出して出力部44に出力するための制御部240とを含む。
【0062】
制御部240は、最初に入力部40から与えられたキーワードにより電子的番組表を検索し、合致するものがあれば出力部44にその番組情報を出力する。制御部240は、この検索の結果キーワードに合致する番組情報がない場合には、第2のデータ受信部64及びフィルタ部242を用いて拡張されたキーワードを取得し、この拡張されたキーワードを用いて再度電子的番組表を検索し得られた番組情報を出力部44に出力する。
【0063】
第1の実施の形態では、検索結果の文字列を解析して得られた単語の頻度を用いてキーワードを選択した。しかし、頻度情報だけでは必ずしも適切なキーワードが上位にくるとは限らない。この第2の実施の形態では、概念辞書の構成上における出現単語の位置を考慮し、出現単語が集中している位置に属する単語の優先度を高める事により、より高い精度でキーワードを抽出する様にしている。
【0064】
図9に、概念辞書244の構成を模式的に示す。図9に示す様に、概念辞書244は単語をその概念に基づいてツリー構造で階層的に表される系統に分類している。例えば、図9の例では、「娯楽」という単語の下に「サスペンス」他の単語が位置している。「サスペンス」という語の下には「ミステリ」「スリラー」という単語が位置し、さらに「ミステリ」という語の下に「推理」という語が位置している。また、ツリー上で「娯楽」という単語と別系統の部分に「情報」という、広く用いられる単語が位置している。
【0065】
この様な構成の下では、「サスペンス」「推理」といった単語は「ミステリ」という語から近距離に位置するが、「情報」といった広く用いられる単語は「ミステリ」からは離れて位置する。
【0066】
この場合、「ミステリ」という単語をキーワードに第2のデータ受信部64での検索で得られた単語列の中で「情報」という単語の出現頻度がたとえ高くても、この単語の優先度を高くする事は妥当でない。すなわち、概念辞書内での位置でみれば、検索のキーワードとなった単語と概念上で類似した単語が集中する領域から離れて存在する単語は、たとえその出現頻度が高くても、優先度は低くするべきである。
【0067】
概念辞書における類似単語の集中領域の模式図を図10に示す。図10において、「ミステリ」をキーワードとして検索した単語群の概念辞書中での位置を「+」記号で示す。ここでは出現頻度は無視して、1回でも単語が出現すればその単語の位置を図示している。この図に示される様に、「ミステリ」に類似する単語はある領域(これを「集中領域」と呼ぶ。)の中に集中する。この集中領域260の中には、「スリラー」「サンスペンス」「推理」といった「ミステリ」の概念に近い単語は含まれるが、「情報」の様な異なる概念の単語は含まれない。そこで、この集中領域260の中に含まれる単語の優先度を高め、集中領域260の外の単語については優先度が低くなる様に優先度を決定する必要がある。
【0068】
本実施の形態において、フィルタ部242はそうした優先度の計算を行ないキーワードを抽出している。そのための構成を図11に示す。図11を参照して、フィルタ部242は、第2のデータ受信部64から受取った、検索後されたホームページのテキスト文字列を形態素解析するための形態素解析部120と、形態素解析の結果得られた単語列から機能語を削除するための機能語削除部122と、機能語削除部122の出力する単語列に含まれる各単語について、概念辞書244を参照して単語ごとのスコア(優先度に相当する。)を算出するためのスコア算出部250と、スコア算出部250により算出されたスコアに基づき、スコアの高い所定個数の単語を、第1のデータ送受信部62(図8参照)による再度の検索のためのキーワードとして選択し制御部240(図8参照)に与えるためのキーワード選択部252とを含む。
【0069】
スコア算出部250によるスコア算出は以下の様にして行なわれる。まず、概念辞書244中における単語Wiと単語Wjとの間の概念に基づいて、単語Wiと単語Wjとの間の概念間距離(以下単に「距離」と呼ぶ。)d(Wi,Wj)を定義する。本実施の形態では、この距離は、概念辞書244中において、単語Wiの位置と単語Wjの位置とを結ぶパスの長さを尺度にして計算する。2つの単語の概念が近いほど距離は小さくなる。図9に示される概念辞書244おいては、「サスペンス」と「ミステリ」、「娯楽」と「ミステリ」の距離はそれぞれ以下の様になる。
d(サスペンス,ミステリ)=1
d(娯楽,ミステリ)=2
第2のデータ受信部64の検索結果に含まれる単語Wiの頻度をf(Wi)、単語Wiの優先度を表すスコアをS(Wi)とし、スコアS(Wi)を以下の式で定義する。
【0070】
【数1】
ただしNは単語の数である。α、βは定数を表す。
【0071】
この式では、Σの計算部分で、第2のデータ受信部64の検索結果に含まれる全ての単語Wjに対して、その出現頻度と単語Wiとの間の距離とを求め、距離の逆数と頻度との和を計算し、それらを合計している。これにより、ある単語Wiとの間の距離が小さい単語が検索結果中に多ければ単語Wiのスコアの値が大きくなる。また、単語Wi自身の出現頻度が高い場合にもそのスコアは高くなる。
【0072】
この様にして、全ての単語に対してスコアを計算する事ができる。得られたスコアS(Wi)の値の大きいものを上位から所定個だけ、第1の情報データベースを再度検索するためのキーワードとする。
【0073】
図12に、この第2の実施の形態の装置で実行されるプログラムの主ルーチンの制御構造をフローチャート形式で示す。図12に示される各ステップのうち、ステップ150〜161まで、及びステップ163〜166については図7に示した第1の実施の形態のプログラムのものと同様である。従ってそれらについての詳細な説明はここでは繰返さない。
【0074】
図12において、ステップ161の後には制御はステップ270に進む。なお、ステップ161で得られるのは図5に示す出現頻度表130と同様のものである。この出現頻度表130は、一時的に図6に示す記憶部140に蓄えられる。以下の説明では、処理対象となる単語の数をMとする。
【0075】
ステップ270では、機能語を削除した後の単語列に含まれる各単語につき、ステップ161で算出された出現頻度を用い、上記した式に従ってスコアを計算する。続くステップ272で、計算されたスコアに従って単語をランク付けする。この後、ステップ163で上位の所定個数の単語を拡張されたキーワードとして選択する。
【0076】
図13に、図12のステップ270で行なわれる単語のランク付け処理の詳細を示す。まずステップ182で、処理対象となる単語の順番を示す変数iに0を代入する。ステップ184で、全ての単語について処理を繰返すための繰返し変数jに0を代入する。ステップ186で、スコアを表す変数Xに0を代入する。以上が準備的な作業である。
【0077】
ステップ188で、X+β×d(Wi、Wj)+f(Wj)を計算し、その結果を変数Xに代入する。続いてステップ192でjがM未満か否かを判定する。判定の結果がYESであれば制御はステップ190に進み、それ以外の場合には制御はステップ194に進む。ステップ190では、jに1を加算し、制御はステップ188に戻る。ステップ192の判定結果がYESになり制御がステップ194に進むのは、すべてのjについてステップ188の処理を完了したときである。
【0078】
ステップ194では、f(Wi)+α×Xを算出し、その値をWiに対するスコアS(Wi)に代入する。さらにステップ198でiがM未満か否かを判定する。iがM未満であれば制御はステップ196に進み、それ以外の場合にはこの処理を終了する。全ての単語についてスコアを算出した時点でステップ198の判定結果がNOとなる。
【0079】
以上の様に第2の実施の形態の装置によれば、第1の実施の形態と同様に、最初にユーザにより入力されたキーワードと合致する番組情報が見つからなかった場合には、そのキーワードでインターネットをサーチしてホームページのテキスト情報を収集する。そして、第1の実施の形態とは異なり、最初に入力されたキーワードと概念上で近い単語を、それらの中から概念辞書244を用いて選択し、拡張されたキーワードとする。そしてこの拡張されたキーワードで再度番組情報をサーチする。
【0080】
この様に、単なる出現頻度ではなく、入力されたキーワードと概念間距離の小さい単語を拡張されたキーワードとして再度検索するため、入力されたキーワードとは異なるが、意味の近い単語を含む番組情報が検索結果として得られる。その結果、ユーザの探している条件に合致した適切な番組情報が得られる可能性が第1の実施の形態と比較してより高くなる。
【0081】
‐第3の実施の形態‐
第2の実施の形態では、概念辞書244を用いて、最初に入力されたキーワードと概念間距離の小さな単語を定め、それらを拡張されたキーワードとして番組情報を検索し直している。同様の考え方に従い、概念辞書244に替えてインターネット上のいわゆる検索ディレクトリを用いる事によって、拡張されたキーワードを抽出する事も可能である。この第3の実施の形態に係る装置はその様にして拡張されたキーワードを定めている。なお第3の実施の形態の装置も、電子的番組表の中からユーザが望む番組情報を取得するための情報検索装置である。
【0082】
ここで、「検索ディレクトリ」とは、インターネット上のホームページなどを分野別に分類し、検索しやすくしたものである。インターネット上にはディレクトリサービスとして様々なホームページが存在する。
【0083】
検索ディレクトリにおいては、第2の実施の形態で使用した概念辞書244と同様に、種々のホームページが、ホームページの内容のカテゴリに従って系統的に分類されたディレクトリ内に配置されている。例えば、「映画」というディレクトリの中では、「SF(Science Fiction)」「アクション」「コメディ」「ミステリ」といったジャンル別の分類がなされており、それぞれのジャンルの中に、そのジャンルに属する映画作品が記載されている。
【0084】
図14に検索ディレクトリの一例を示す。図14を参照して、例えば「映画」というディレクトリが「ミステリ」及び「アクション」に分類されており、「ミステリ」というディレクトリ中に作品A及び作品Bが属しているとする。また、「アクション」というディレクトリ中に作品C及びDが属しているとする。
【0085】
仮にユーザが「ミステリ映画」というキーワードを指定し、それに合致する番組情報が見つからなかった場合を考える。そうした場合には、この検索ディレクトリの「映画」→「ミステリ」というディレクトリをたどる。そして、「ミステリ」というカテゴリに含まれる作品、具体的には作品A又は作品Bという名称を拡張されたキーワードにして、第1の情報データベースを再度検索する事が考えられる。そうした検索を行なう事により、ミステリ映画というキーワードでの検索では見つからなかった映画を、拡張されたキーワードを用いた検索では見つけ出す事ができる。
【0086】
例えば、第1の情報データベース中に作品Aが記載されていたとしても、その番組情報中に「ミステリ映画」という語がなければ、「ミステリ映画」というキーワードを用いた検索では作品Aは見つからない。しかし、上記した様に検索ディレクトリを用いてキーワードを拡張する事により、作品Aを見つけ出す事ができる。
【0087】
図15に、この第3の実施の形態に係る情報検索装置の機能的ブロック図を示す。ハードウェア構成は図6に示すものと同様である。図15を参照して、この情報検索装置280は、図1に示す情報検索部42に替えて、上記した様に検索ディレクトリを用いて拡張したキーワードを使用して検索する機能を持つ情報検索部290を含む点を除き、図1に示す情報検索装置30と同じ構成を有する。
【0088】
情報検索部290は、図1に示すものと同様の第1のデータ送受信部62及び第2のデータ受信部64に加えて、入力部40に接続され、入力されたキーワードに従って第1のデータ送受信部62を介して電子的番組表を検索する機能を持つ制御部300と、第1のデータ送受信部62を介して検索でキーワードに合致する番組情報が見出せなかった場合に制御部300が出力するキーワードを形態素解析して単語列を出力するための形態素解析部302と、形態素解析部302から与えられる単語ごとに第2のデータ受信部64を介してインターネット48上の検索ディレクトリをアクセスし、当該単語と一致するカテゴリを検索してカテゴリリストとして出力する処理を行なうためのカテゴリ検索部304と、カテゴリ検索部304の出力に接続され、カテゴリ検索部304が出力するカテゴリリスト内のカテゴリのうち、当該カテゴリリスト内に含まれるカテゴリを配下に持たないカテゴリを選択し、その配下のキーワードを第2のデータ受信部64を介して上記した検索ディレクトリから取出し、拡張されたキーワードとして制御部300に与えるためのキーワード選択部306とを含む。
【0089】
図16に、この第3の実施の形態の情報検索装置280の情報検索部290で実行される処理の内、形態素解析部302、カテゴリ検索部304、及びキーワード選択部306の機能に該当する処理を実現するプログラムの制御構造のフローチャートを示す。図16を参照して、まずステップ320で制御部300から与えられたキーワードを形態素解析する。ステップ322で、第2のデータ受信部64を介してインターネット48上の検索ディレクトリサイトをアクセスし、形態素解析の結果得られた単語Wjと一致するカテゴリを全てリストアップする。以後、j番目の単語をWj、単語Wjと一致するカテゴリをCjと表す。
【0090】
ステップ324では、形態素解析後の単語列のうち、処理対象となる単語を表す変数iに0を代入する。ステップ326で、カテゴリCiの下位に、ステップ322でリストアップされたカテゴリが存在するか否かを判定する。もしもその様なカテゴリが存在すれば制御はステップ330に進む。さもなければ制御はステップ328に進む。
【0091】
ステップ328では、このカテゴリCiに属する全てのキーワードを選択する。すなわちカテゴリCiの配下に存在する全てのキーワードが拡張されたキーワードとして選択される。この後制御はステップ330に進む。
【0092】
ステップ330では、iに1を加算する。ステップ332で、iがステップ322で得られたカテゴリ数未満か否かを判定する。判定結果がYESであれば制御はステップ326に戻り、次のカテゴリについて上記したステップ326からステップ330の処理を繰返す。判定結果がNOであれば、ステップ322でリストアップされた全てのカテゴリについて処理を終了したという事であり、この処理を終了する。以上が、情報検索部290のうち制御部300、形態素解析部302及びキーワード選択部306を実現するためのプログラムの制御構造である。
【0093】
情報検索装置280は以下の様に動作する。ユーザが入力部40を用いてキーワードを入力すると、そのキーワードは制御部300に与えられる。
【0094】
制御部300は、入力部40から与えられたキーワードを用いて電子的番組表をアクセスし、該当する番組情報があれば出力部44上にその番組情報を表示する。該当する番組情報が見つからなければ、制御部300は形態素解析部302にこのキーワードを出力し、キーワード選択部306から拡張されたキーワードが与えられるのを待つ。
【0095】
制御部300からキーワードが与えられると、形態素解析部302はそのキーワードを形態素解析し、得られた単語列をカテゴリ検索部304及びキーワード選択部306に与える。
【0096】
カテゴリ検索部304は、形態素解析部302から与えられた単語列の単語ごとに第2のデータ受信部64を介して検索ディレクトリをアクセスする。その結果、その単語に一致するカテゴリがあれば、そのカテゴリ(単語)をリストアップする。一致するカテゴリがない場合にはその単語はリストアップしない。カテゴリ検索部304は、この処理を全ての単語に対して行ない、最終的に得られたカテゴリのリスト(これをカテゴリリストと呼ぶ事にする。)をキーワード選択部306に与える。
【0097】
キーワード選択部306は、カテゴリ検索部304から与えられるカテゴリリスト内のカテゴリの各々について、第2のデータ受信部64を介して検索ディレクトリにアクセスし、その配下のカテゴリのリスト及びキーワードのリストを収集する。さらにキーワード選択部306は、検索ディレクトリから得られたカテゴリのリスト内に、カテゴリ検索部304から与えられたカテゴリリスト内のカテゴリと一致するものがあるか否かを判定する。もし一致するものがあればそのカテゴリについては何もしない。もしなければ、そのカテゴリの配下のキーワードを拡張されたキーワードに選択して制御部300に与える。この処理をカテゴリ検索部304からのカテゴリリスト内のカテゴリの全てに対して行なう。
【0098】
キーワード選択部306から拡張されたキーワードが与えられると、制御部300はその拡張されたキーワードを用いて再度電子的番組表をアクセスし、得られた番組情報を出力部44上に出力する。
【0099】
この情報検索部290によって検索ディレクトリを第2の情報データベースとしてアクセスする事により、入力されたキーワードと類似したキーワードを効果的に抽出する事ができる。
【0100】
この装置の動作について、より具体的に図17を参照して説明する。図17は、検索ディレクトリのディレクトリ構造を示す。図17において、C1〜C7はカテゴリを表し、T1〜T6はキーワードを表すものとする。この例では、カテゴリC1を除く全てのカテゴリ及びキーワードがカテゴリC1の配下にある。また、例えばカテゴリC5の配下にはカテゴリC7とキーワードT1、T2、及びT3とがある。他も同様である。
【0101】
以下、典型的な3つのケースについて、どの様にしてキーワードが選択されるか(又はされないか)を説明する。
【0102】
<ケース1>
カテゴリ検索部304によりリストアップされたカテゴリがC6だけの場合には次の様になる。このカテゴリC6の配下には、リストアップされたカテゴリがない。そのため、上記した方法に従いカテゴリC6の配下の全てのキーワードT1、T2、及びT3が拡張されたキーワードとして選択される。
【0103】
<ケース2>
カテゴリ検索部304によりリストアップされたカテゴリがC5及びC7の場合には次の様になる。カテゴリC5の配下には、同じくリストアップされたカテゴリC7が存在する。従ってカテゴリC5についてはキーワードは登録されない。一方、カテゴリC7の配下には、リストアップされたカテゴリは存在しない。従って、カテゴリC7の配下のキーワードT2及びT3が拡張されたキーワードとして選択される。
【0104】
<ケース3>
カテゴリ検索部304によりリストアップされたカテゴリがC5及びC6である場合には次の様になる。カテゴリC5の配下には、リストアップされたカテゴリがない。従って、カテゴリC5の配下のキーワードT1、T2、及びT3が拡張されたキーワードとして選択される。また、カテゴリC6の配下にも、リストアップされたカテゴリは存在しない。従って、カテゴリC6の配下のキーワードT4、T5、及びT6が拡張されたき−ワードとして選択される。
【0105】
以上の様に、本実施の形態の装置を用いた場合にも、入力されたキーワードを拡張して、それと関係の深い拡張されたキーワードで電子的番組表を検索する事ができる。従って、ユーザが知りたい番組情報を得る事のできる可能性が高いという効果がある。
【0106】
ところで、上記第1〜第3の実施の形態における制御部60、フィルタ部66、制御部240、フィルタ部242、制御部300、形態素解析部302、カテゴリ検索部304、及びキーワード選択部306の各機能は、図6に示すプログラム記憶部144に記録された情報検索プログラムを、汎用的なコンピュータで実行する事により実現される。従ってこの情報検索プログラムを、コンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として流通させる事もできる。
【0107】
この場合の記録媒体は、CD‐ROM(Compact Disc Read−Only Memory)、DVD(Digial Versatile Disc:デジタル多用途ディスク)、DVD−ROM等の、コンピュータの読取装置に着脱可能に装着できる媒体であってもよい。読取装置は、コンピュータに接続される外部補助記憶装置でもよい。なお、何れの場合においても、上記プログラムを実行する場合には、記録媒体に直接アクセスしてプログラムを読出してもよいし、記録媒体から読出してRAMに設けられたプログラム記憶エリアにロードし、そこから順次命令を読出す様にしてもよい。また、着脱可能な記録媒体からコンピュータ内のハードディスクに転記しておき、実行時にこのハードディスクからメモリにロードして実行する様にしてもよい。
【0108】
なお、記録媒体からRAMのプログラム記憶エリアにロードするためのロードプログラムは、予めコンピュータの本体装置に格納されているものとする。
【0109】
上記した記録媒体は、コンピュータ本体と分離可能に構成され、磁気テープ及びカセットテープ等のテープ系、フレキシブルディスク及びハードディスク等の磁気ディスク、CD−ROM、MO(Magneto−Optical Disk:光磁気)ディスク、DVD等の光ディスクのディスク系、IC(集積回路)カード及び光カード等のカード系、マスクROM、紫外線消去型読出専用メモリ、電気的消去型読出専用メモリ、フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する事が可能な記録媒体を含む。
【0110】
また、上記実施の形態における情報検索装置は、モデム、LAN(LocalArea Network)カード等を備えてインターネットを含む通信ネットワークと接続可能な構成を有している場合は、上記記録媒体は、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。なお、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【0111】
なお、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録する事ができる。
【0112】
上記した実施の形態では、第2のデータ受信部64はインターネット48を用いてキーワードの拡張を行なっている。しかし本発明はその様な実施の形態には限定されない。たとえば情報検索部42、230、及び290は、CD−ROM、DVD、又はハードディスクなどの外部記憶媒体に格納されたデータベースを参照するものでもよい。又は第2のデータ受信部64は、インターネットとは異なる、閉じたネットワークに接続されたものであってもよい。
【0113】
上記した各実施の形態の装置では、第2のデータ送受信部64としてLANカードを用いている。しかし第2のデータ受信部64としては、利用可能な通信媒体にあわせてモデム、無線LANカードなど適切なものであればどの様なものでも利用できる。
【0114】
また上記した各実施の形態の装置では、入力部40としてはキーボード及びボタンを用いている。しかし入力部40としてはこの他にもマウス、静電式タッチパッド、又はタブレットなどを用いる事ができる。また、マイク又は音声通信回線及び音声認識装置を用いた音声入力装置を用いる事もできる。
【0115】
また、出力部44としては、本実施の形態で用いた液晶表示装置以外にも、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)表示装置、又はCRT(Cathode Ray Tube)などを用いる事ができる。
【0116】
さらに、上記した各実施の形態では、形態素解析のプログラムとして、公知の容易に入手できるパブリックドメインのソフトウェアを使用するが、もちろん独自に開発したものを用いてもよいし、商業的に販売されているものを用いてもよい。
【0117】
また、上記した各実施の形態では、キーワードは直接キーボードから入力している。しかしこれ以外の方法でキーワードを入力する様にしてもよい。例えばキーワード列をメニューとして表示し、表示されたメニューの中から選択して入力する方法でもよい。
【0118】
また、上記した実施の形態では、何れも電子的番組表をキーワードで検索した結果、該当する番組情報が何も見出せない場合にのみ拡張されたキーワードを求め、この拡張されたキーワードで再度電子的番組表をアクセスしている。しかし本発明はその様な実施の形態に限定されるわけではない。電子的番組表をアクセスして該当する番組情報が発見されたときにも、拡張されたキーワードを用いてさらに電子的番組表を検索する様にしてもよい。また、これら二つの検索方法を切替えて使用できる様にしてもよい。又は、入力されたキーワードにより検索した結果、見出された番組情報の数が所定個数以下の場合に、拡張されたキーワードでさらに検索をする様にしてもよい。
【0119】
さらに、上記した実施の形態の情報検索装置においては、データベースそのものは装置とは別であるが、情報検索装置の各機能部分は一つの情報検索装置の中に含まれている。しかし本発明はその様な実施の形態に限定されるわけではない。例えば、図1に示す第2のデータ受信部64及びフィルタ部66、図8に示すフィルタ部242及び概念辞書244、並びに図15に示す形態素解析部302、カテゴリ検索部304、及びキーワード選択部306をサーバに配置し、入力部40、出力部44、第1のデータ送受信部62、並びに制御部40、240又は300を携帯電話又はPDA(Personal Digital Assistant)等の携帯情報端末装置に配置する様にし、サーバと携帯情報端末装置とにそれぞれ通信装置を設けて、互いの間はこれら通信装置を用いた無線通信などで結ぶ様にしてもよい。
【0120】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれる事が意図される。
【0121】
【発明の効果】
以上より明らかな様に、この発明によれば、ユーザが指定したキーワードと、情報データベースに記載されている語彙が一致しなくても、ユーザが見つけ出そうとしている情報を探し出す事ができる。
【0122】
特に、テレビ番組表など、情報量が限定されている情報データベースの検索において、ユーザが指定したキーワードと情報データベース内で使用されている語彙とが一致しなくても、ユーザが見つけ出そうとしている情報を探し出す事ができる。
【図面の簡単な説明】
【図1】図1はこの発明の第1の実施の形態に係る情報検索装置の機能的構成を示すブロック図である。
【図2】図2はテレビ番組表の模式図である。
【図3】図3は、第1の実施の形態の情報検索装置の動作原理を模式的に示す図である。
【図4】図4は、上記情報検索装置のフィルタ部の機能的ブロック図である。
【図5】図5は、単語の出現頻度表の構成を模式的に示す図である。
【図6】図6はこの発明の第1の実施の形態に係る情報検索装置のハードウェア構成を示すブロック図である。
【図7】図7は上記情報検索装置の機能を実現するプログラムの主ルーチンの制御構造を示すフローチャートである。
【図8】図8はこの発明の第2の実施の形態に係る情報検索装置の機能的構成を示すブロック図である。
【図9】図9は第2の実施の形態に係る情報検索装置で使用される概念辞書の構成を模式的に示す図である。
【図10】図10は、概念辞書中における単語の集中領域を模式的に示す図である。
【図11】図11は、図8に示す情報検索装置のフィルタ部の機能的ブロック図である。
【図12】図12は、第2の実施の形態の装置で実行されるプログラムの主ルーチンの制御構造を示すフローチャートである。
【図13】図13は、図12のステップ270で行なわれる単語のランク付け処理の詳細を示すフローチャートである。
【図14】図14は、本発明の第3の実施の形態の装置で使用される検索ディレクトリの構造を模式的に示す図である。
【図15】図15は、本発明の第3の実施の形態に係る情報検索装置の機能的ブロック図である。
【図16】図16は、第3の実施の形態に係る情報検索装置で行なわれる拡張キーワードを選択する処理を実現するプログラムのフローチャートである。
【図17】図17は、第3の実施の形態に係る情報検索装置で使用される検索ディレクトリの構成を示す模式図である。
【符号の説明】
30、220、280 情報検索装置、40 入力部、42、230、290情報検索部、44 出力部、46 テレビジョン受信機、48 インターネット、60、142、240、300 制御部、62 第1のデータ送受信部、64 第2のデータ受信部、66、242 フィルタ部、70 電子的番組表、120、302 形態素解析部、122 機能語削除部、124 頻度算出部、126、252、306 キーワード選択部、130 出現頻度表、140 記憶部、144 プログラム記憶部、244 概念辞書、250 スコア算出部、260 集中領域、304 カテゴリ検索部
【発明の属する技術分野】
この発明は、情報を検索するための装置に関し、特に、キーワードに基づいて、適切な情報をできるだけ多く検索する事ができる情報検索装置に関する。
【0002】
【従来の技術】
従来の地上波放送テレビジョンに加えて、最近ではケーブルテレビジョン、衛星放送テレビジョン等が普及している。そのため、多数のチャネルで非常に多くの番組が提供される状況になっている。
【0003】
かつては、視聴者は、新聞に掲載されたテレビジョン放送の番組表、又は商業的に提供される雑誌に掲載される番組表を見て、その中から自分の見る番組を選択する事が通常であった。しかし、番組を提供するチャネル数が多数になると、その中から自分に適した番組を短時間で探し出す事は困難になる。
【0004】
最近の視聴者は、一つの番組の中でもごく一部のみを見る、という行動をとる事も多い。たとえば歌番組の中でも、特定の歌手が出演している時間帯のみを見る、という様な行動である。そのために番組表の中には、番組内部をさらに細分化してどの時間帯にどの様な内容が放送されるかという情報を提供しているものもある。この様に、特定の歌手又は俳優などが出演する時間帯のみを短時間で選択しようとすると、それは極めて困難である。
【0005】
こうした困難を解決するために、電子的番組表の様な電子的データを準備し、この電子的番組表の中で所望の番組を検索する手法が開発されている。特にテレビジョンとは別個の装置で番組を検索する事を可能にする装置が、特許文献1に開示されている。
【0006】
この特許文献1に開示されている装置は、テレビジョンとは別体で、テレビジョン受信装置を通じて間接的に、又は直接的に取得した電子的番組表の様な情報データベースを入力されたキーワードで検索し、キーワードに合致した番組の情報を抽出する事で簡便に所望の情報を獲得できる様にしたものである。
【0007】
テレビ番組を対象としたこの様な技術においては、視聴者に好適な番組情報操作を可能にするため、キーワードがマッチした番組をサーチし、該当する番組情報を抽出できる。これにより、視聴者が見たい番組情報を知ったり、簡単に録画の設定をしたりする事が可能になる。
【0008】
【特許文献1】
特開2001−119638号公報
【発明が解決しようとする課題】
一般的に、テレビジョンの番組表は、新聞に掲載されていたときの慣習に従って、少ないスペースに入る情報で各番組を表現するものが多い。そのため、各番組ごとの情報量は限定されている。この様に限られた情報量のデータベースの中から所望の情報を得る場合、キーワードが合致する情報を検索するだけでは、望む検索結果が得られないケースが多いという問題がある。
【0009】
電子的な番組表の各番組ごとの情報量は限定されており、ユーザが指定したキーワードと必ずしも合致するとは限らない。例えば「ミステリ映画」を指定した場合、電子的番組表の中に「ミステリ映画」という表記がない限り、番組を抽出する事はできない。
【0010】
また、電子的番組表にはジャンルの記載もある。しかしそれらは、「スポーツ」「映画」といった大きな概念を示したものであり、さらに詳細なレベル、例えば映画の種類が何であるかという様な詳細な情報は記載されていない。よって、ユーザは「ミステリ映画」を見たい場合であっても単に「映画」とキーワードを指定して見たい番組を探す事になる。しかし、こうすれば検索結果にミステリ以外の映画も広く含まれてしまう。所望の番組がそれほど容易には見つけ出せない。その結果、所望の番組を探し出すまでに時間がかかったり見落としが生じたりするという問題がある。
【0011】
今後デジタル放送等の普及に伴って多チャネル化が進むと、番組数が膨大になり、いかに簡便に所望の番組情報を取得できるかがさらに重要になってくる。またこうした問題は、テレビジョン放送などには典型的に現れるが、他の分野でも同様に生じ得る。
【0012】
この発明はこの様な点に鑑みてなされたものであり、ユーザが所望する情報を簡便に取得できる情報検索装置を提供する事を第1の目的とする。
【0013】
この発明の他の目的は、ユーザが所望する情報を漏れなく簡便に取得できる情報検索装置を提供する事である。
【0014】
この発明のさらに他の目的は、ユーザが指定したキーワードに関連する情報を漏れなく簡便に取得できる情報検索装置を提供する事である。
【0015】
この発明の他の目的は、ユーザが指定したキーワードに関連する番組情報を電子的番組情報データベースから漏れなく簡便に取得できる情報検索装置を提供する事である。
【0016】
【課題を解決するための手段】
本発明の第1の局面に係る情報検索装置は、キーワードに基づいて第1の情報データベースを検索するための第1の情報検索手段と、キーワードに基づいて第2の情報データベースを検索するための第2の情報検索手段と、第2の情報検索手段によりキーワードに基づいて第2の情報データベースから検索された情報から所定の基準で新たなキーワードを抽出するためのキーワード抽出手段と、キーワード抽出手段により抽出された新たなキーワードに基づいて更に第1の情報データベースを検索する様に第1の情報検索手段を制御するための手段とを含む。
【0017】
好ましくは、第2の情報検索手段は、第1の情報検索手段による情報の検索が失敗した事に応答して、キーワードに基づいて第2の情報データベースを検索するための手段を含む。
【0018】
さらに好ましくは、キーワード抽出手段は、単語の持つ意味概念の間の階層構造に従って単語を分類し記憶する概念辞書と、第2の情報検索手段により第2の情報データベースから検索された文字列を解析して単語列を抽出するための解析手段と、解析手段により抽出された単語列中の各単語及びキーワードの、概念辞書中での関係を用いて新たなキーワードを単語列中から抽出するための手段とを含む。
【0019】
抽出するための手段は、解析手段により抽出された単語列中の各単語とキーワードとの概念間距離を、概念辞書を用いて算出するための手段と、算出された概念間距離と、各単語の単語列中での出現頻度とを用いて各単語のスコアを算出するための手段と、単語列中の単語から、算出されたスコアが所定の条件を充足するものを新たなキーワードとして抽出するための手段とを含んでもよい。
【0020】
キーワード抽出手段は、第2の情報検索手段によりキーワードに基づいて第2の情報データベースから検索された情報を解析し、単語列を抽出するための解析手段と、解析手段により抽出された単語列中で、最も出現頻度の高い所定個数の単語を新たなキーワードとして抽出するための手段とを含んでもよい。
【0021】
好ましくは、第2の情報データベースは、情報をカテゴリに分類してアクセス可能とした検索ディレクトリであり、第2の情報検索手段は、与えられるキーワードを解析して、当該与えられるキーワードを構成する単語からなる単語列を抽出するための手段と、抽出された単語列と一致するカテゴリを、検索ディレクトリ中から検索するための手段と、検索ディレクトリ中から検索されたカテゴリに属する情報中から、所定の条件を満足する単語を取り出す事により新たなキーワードを抽出するための手段とを含む。
【0022】
さらに好ましくは、検索ディレクトリは、カテゴリをツリー状構造で配置したものであり、かつツリー構造の葉の部分にはそれぞれ各カテゴリに対応するキーワードが付されており、新たなキーワードを抽出するための手段は、検索ディレクトリ中から検索されたカテゴリの配下の葉の部分に付されたキーワードを新たなキーワードとして抽出するための手段を含む。
【0023】
好ましくは、第1の情報データベースは放送に関する電子的番組情報のデータベースを含み、第1の情報検索手段は、電子的番組情報のデータベースからキーワードに合致する番組情報を検索するための手段を含む。
【0024】
本発明の他の局面に係る情報検索プログラムは、コンピュータにより実行されると、当該コンピュータを上記した何れかの情報検索装置として動作させる、コンピュータで実行可能な情報検索プログラムである。
【0025】
本発明の他の局面に係る携帯情報端末装置は、上記した何れかの情報検索装置を搭載したものである。
【0026】
本発明のさらに他の局面に係る携帯情報端末装置は、サーバと通信を行なう事が可能な携帯情報端末装置であって、サーバと通信するための第1の通信手段と、キーワードに基づいて第1の情報データベースを検索するための第1の情報検索手段と、キーワードを第1の通信手段を介してサーバに送信するための手段とを含み、サーバは、第1の通信手段と通信するための第2の通信手段と、第2の通信手段を介して携帯情報端末装置からキーワードを受信した事に応答して、受信したキーワードを拡張した拡張キーワードを第2の通信手段を介して携帯情報端末装置に送信するための手段とを含み、携帯情報端末装置はさらに、サーバから送信された拡張キーワードを第1の通信手段で受信し、当該拡張キーワードを用いて更に第1の情報データベースを検索するための手段を含む。
【0027】
本発明のさらに他の局面に係る情報検索方法は、キーワードに基づいて第1の情報データベースを検索するステップと、キーワードに基づいて第2の情報データベースを検索するステップと、キーワードに基づいて第2の情報データベースから検索された情報から所定の基準で新たなキーワードを抽出するステップと、新たなキーワードを抽出するステップにおいて抽出された新たなキーワードに基づいて更に第1の情報データベースを検索するステップとを含む。
【0028】
本発明の他の局面に係る情報検索プログラムは、コンピュータにより実行されると、上記した情報検索方法を実行する様にコンピュータを制御する情報検索プログラムである。
【0029】
本発明のさらに他の局面に係るコンピュータ読取可能な記録媒体は、上記した情報検索プログラムを記録したものである。
【0030】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。以下の説明では、同じ部品には同じ参照符号を付す。それらの名称及び機能も同一である。従ってそれらについての詳細な説明は繰返さない。
【0031】
‐第1の実施の形態‐
図1は、本発明の第1の実施の形態に係る情報検索装置の構成を示す構成図である。この実施の形態に係る情報検索装置は、テレビジョンの電子的番組表から所望の番組を見つけ出すためのテレビ番組の情報検索装置である。図1を参照して、この情報検索装置30はテレビジョン受信機46を通じて、入力されたキーワードと合致する番組情報を電子的番組表内で検索する。仮に入力されたキーワードと合致する番組情報が見つからない場合には、さらにいわゆるインターネット48上の情報を用いて、入力されたキーワードを拡張し、拡張されたキーワードで再度電子的番組表を検索して見つかった番組情報を表示する。
【0032】
この実施の形態に係る情報検索装置30は、探したい番組に関するキーワードを入力する際にユーザが使用する入力部40と、上記した様に入力されたキーワード、又はインターネット48上の情報により拡張されたキーワードに従ってテレビジョン受信機46を介して電子的番組表を検索し、キーワードに合致した番組情報を取り出すための情報検索部42と、情報検索部42により取出された番組情報を表示するための出力部44とを含む。
【0033】
本実施の形態の情報検索装置30では、入力部40はキーボード及びボタンからなる。また出力部44は、本実施の形態では液晶表示装置からなる。
【0034】
図2に、本実施の形態で使用される電子的番組表70の一例を示す。この例では、電子的番組表70は野球中継と映画「○○○」とに関する番組情報とを含む。他にも電子的番組表70は種々の番組情報を含むが、ここではそれらについての説明は省略する。
【0035】
各々の番組情報は、放送日時に関する情報と、放送されるチャネルに関する情報と、番組の概要に関する情報とを含む。キーワード検索では、番組名と概要とが検索対象となる。
【0036】
情報検索部42は、入力部40及び出力部44に接続され、情報の入出力及び情報検索部42の各部の制御を行なうための制御部60と、制御部60及びテレビジョン受信機46に接続され、制御部60から受取ったキーワードに合致する番組情報をテレビジョン受信機46を介して電子的番組表(第1の情報データベース)を参照して検索するための第1のデータ送受信部62と、制御部60及びインターネット48に接続され、制御部60から受取ったキーワードを、インターネット48上のデータベース(第2のデータベース)により拡張して拡張されたキーワード群を生成するための第2のデータ受信部64と、第2のデータ受信部64及び制御部60に接続され、第2のデータ受信部64から与えられた拡張されたキーワード群の中から所定の条件を含むもののみを選択し、再度電子的番組表を検索するためのキーワードとして制御部60に与えるためフィルタ部66とを含む。
【0037】
本実施の形態の情報検索装置30の第2のデータ受信部64は、図3に示す様に、キーワード90を用いてインターネット上のホームページを検索して検索結果92を得て、得られた検索結果92に含まれるURL(Uniform Resource Locator)94,96,98等をアクセスする事によりそれらホームページのテキスト100、102、104を得て、それを検索結果としてフィルタ部66に与える。実際には、検索にはインターネット上の既存のいわゆる検索エンジンを用い、ユーザにより入力されたキーワードを検索エンジンに与えて検索を行なわせる事により検索結果92を得る。
【0038】
図4に、フィルタ部66の詳細な機能的ブロック図を示す。図4を参照して、フィルタ部66は、第2のデータ受信部64により検索されたホームページのテキスト(日本語であるものとする。)に対し形態素解析を行ない、形態素列を出力するための形態素解析部120と、得られた形態素列から機能語を削除するための機能語削除部122と、機能語削除部122の出力する、機能語を含まない形態素(単語)列の中で各単語の出現する頻度を算出するための頻度算出部124と、機能語削除部122から出力された単語列の中で、頻度算出部124が算出した頻度の上位の所定数の単語を、拡張されたキーワードとして選択するためのキーワード選択部126とを含む。キーワード選択部126の出力する拡張されたキーワードは、図1に示す制御部60に与えられた、再度第1のデータ送受信部62による電子的番組表の検索に用いられる。
【0039】
図5に、頻度算出部124が算出する各単語の出現頻度の例を、出現頻度表130として示す。図5に示す例では頻度は具体的には記載していないが、この表は後のプログラムの説明において再度利用する。
【0040】
図6に、本実施の形態に係る情報検索装置30のハードウェアブロック図を示す。図1に示す情報検索装置30の各機能部は、後述する様に実質的にはコンピュータハードウェアとその上で実行されるプログラムとにより実現されている。図6に示すのはコンピュータハードウェアのブロック図である。なお、第1のデータ送受信部62及び第2のデータ受信部64はコンピュータとは別の独立した機能部分であるため、図6においてもそれぞれ独立した機能部分として描いてある。
【0041】
図6を参照して、情報検索部42は、第1のデータ送受信部62及び第2のデータ受信部64に加え、コンピュータの中心的機能部分であり、入力部40、出力部44、第1のデータ送受信部62及び第2のデータ受信部64との間のデータの入出力、及び後述するプログラムの実行などを制御するためのCPU(Central Processing Unit)からなる制御部142と、制御部142に接続され、入力部40により入力されたキーワード、及び第1の情報データベース及び第2の情報データベースを検索して得られた検索結果などを一時的に記憶するための記憶部140と、制御部142に接続され、制御部142が実行するプログラムを記憶するためのプログラム記憶部144とを含む。記憶部140は揮発性のRAM(Random Access Memory)からなり、プログラム記憶部144は不揮発性のROM(Read Only Memory)からなる。
【0042】
図7は、プログラム記憶部144に記憶されているプログラムの主ルーチンの制御構造を示すフローチャートである。図7を参照して、このプログラムは、ユーザによるキーワードの入力を受けるステップ150と、入力されたキーワードを用いて第1のデータ送受信部62を用いて第1のデータベース(電子的番組表)を検索し、キーワードに合致する番組情報を取出すステップ152と、ステップ152の処理でキーワードに合致する番組情報が見出されたか否かを判定するステップ154とを含む。
【0043】
ステップ154の判定結果がYESである場合には、制御はステップ166に進む。ステップ166では、キーワードに合致する番組候補を出力部44を用いてユーザに提示して処理を終了する。
【0044】
一方、ステップ154の判定結果がNOである場合には、制御はステップ156に進む。ステップ156では、ユーザがステップ150で入力したキーワードを用いて、第2のデータ受信部64を介してインターネット48上でこのキーワードに合致するホームページを検索する。続くステップ158では、ステップ156で見出されたホームページのテキスト中の文字列に対する形態素解析を行ない、結果を形態素列として出力する。なお、文字列の形態素解析をするためのプログラムとしては容易に入手可能ないわゆるパブリックドメインのものが存在しており、このステップではそのプログラムを使用する。
【0045】
続くステップ160では、ステップ158で得られた形態素(単語)列の中で機能語を除去するフィルタリング処理を行なう。機能語とは、分割した構成単語に含まれる、助詞・助動詞の様な付属語や、文法構造上の関係を表すために働く語の事をいう。機能語は、キーワードとして必要ないため、ここで削除する。
【0046】
ステップ161で、機能語を削除した後の書く単語について出現頻度を計算する。さらにステップ162で、出現頻度に基づいて単語のランク付けを行ない、ステップ163で所定の条件を満足するもののみを選択する。ここで選択されたものが拡張されたキーワードである。本実施の形態では、出現頻度の上位の所定個を拡張されたキーワードとして選択する。
【0047】
ステップ164で、拡張されたキーワードの各々を用い、再度第1のデータ送受信部62を介して電子的番組表内でキーワードに合致する番組情報の検索を行なう。この処理で見出された番組候補の情報をステップ166でユーザに提示して処理を終了する。
【0048】
本実施の形態に係る情報検索装置30は以下の様に動作する。図1に示される入力部14よりユーザは検索したい番組に対する検索語を入力する。本実施の形態の装置では、キーワードはキーボードで直接文字を打ち込む事により入力する。このキーワードは制御部60に与えられる。
【0049】
制御部60は、第1のデータ送受信部62及びテレビジョン受信機46を通して電子的番組情報を受信し、入力されたキーワードに合致する番組情報を検索する。もし、合致する番組が見つかれば、制御部60はその番組情報を出力部44に表示し、この検索処理を終了する。合致する番組が見つからない場合には、制御部60は第2のデータ受信部64に対してこのキーワードを与える。
【0050】
第2のデータ受信部64は、制御部60から与えられたキーワードに基づいて、インターネット48上で検索を行なう。具体的には、第2のデータ受信部64は、予め選択された検索エンジンにこのキーワードを与えて検索させ、その検索結果を得る。第2のデータ受信部64はさらに、検索結果のURLを用いて各ホームページをアクセスし、それらのホームページのテキストを収集する。第2のデータ受信部64は、この様にして収集したテキストをフィルタ部66に与える。
【0051】
フィルタ部66は、第2のデータ受信部64から与えられたテキストの文字列に対する形態素解析を行ない、テキストの文字列を構成単語に分割する。さらにフィルタ部66は、この単語列から機能語を削除する。前述した通り機能語はキーワードとしては不適であるからである。さらにフィルタ部66は、この様にフィルタリングした後の単語列内の各単語に優先度をつける。本実施の形態では、フィルタ部66は各単語ごとに単語列内での出現頻度を求める。そして出現頻度の高い上位の所定個の単語を拡張されたキーワードとして抽出する。フィルタ部66は、この様にして抽出した複数の拡張されたキーワードを制御部60に与える。
【0052】
制御部60は、フィルタ部66から与えられた拡張されたキーワードの各々について、第1のデータ送受信部62を用いて再度電子的番組表を検索する。その結果得られた番組候補を出力部44上に表示して処理を終了する。以上の処理により、ユーザが指定したキーワードから、そのキーワードに関連する番組情報を漏れなく得る事ができる。
【0053】
次に、以上述べた動作を、より具体的に図2に示す電子的番組表70を例にあげて説明する。図5に示す様に、電子的番組表70には「野球中継」と「映画」とが記録されている。また電子的番組表70には「ミステリ映画」という語は記録されていないものとする。
【0054】
ユーザが「ミステリ映画」というキーワードを指定したものとする。電子的番組表70中の「映画『○○○』」の「概要」の欄には、この映画が推理作品の映画である事が記載されている。従って、本来であれば「ミステリ映画」をキーワードとする検索を行なう事でこの映画がユーザに提示される筈である。
【0055】
しかし、この「ミステリ映画」をキーワードに第1のデータ送受信部62を用いて電子的番組表の検索を行なっても、映画「○○○」の説明の中には「ミステリ映画」という語はないので、この映画は検索結果として抽出されない。他にも「ミステリ映画」に合致するものはない。そのため、制御部142は、この「ミステリ映画」というキーワードで、第2のデータ受信部64を利用してインターネットを検索する。その結果、複数のホームページのURLが得られる。それらのURLの各々をアクセスする事により、ホームページの文字情報を取得できる。
【0056】
「ミステリ映画」の検索結果として、例えば図3に示す様に、あるホームページには、例えば「…本格的な推理映画…」という記載100があり、別のホームページには「…ミステリ映画ベスト10…」という記載102があり、さらに別のホームページには「…推理…」という記載104があったものとする。ホームページはそれぞれ別々の者により維持されているので、この様に様々なホームページに様々な記載がある。これらの文字列を形態素解析して、機能語以外の語の中で特に出現頻度の高い単語を得る事で、「ミステリ映画」に関連性の高い語彙を抽出する事ができる。
【0057】
仮に「推理」という単語が、「ミステリ映画」の検索で得られた多くのホーム−ページで用いられていれば、上記した処理でこの単語の優先度は高くなる。従って「推理」という語が拡張されたキーワードとして選択される事になる。この様にして得られた「推理」を含む複数の拡張されたキーワードでテレビ番組表を検索すると、概要に記されている「推理」というキーワードとの合致により、今度は図6中の映画「○○○」が検索される。その結果、この映画に関する番組情報をユーザに提示する事ができる。
【0058】
‐第2の実施の形態‐
本発明の第2の実施の形態として、概念辞書を用いて単語の優先度を求め、この優先度に従って拡張されたキーワードを選択する方法について述べる。概念辞書とは、単語の持つ意味概念の間の階層構造に従って単語を分類し記憶した、コンピュータ読取可能な辞書の事をいう。概念辞書により、単語間の間の概念的な距離を知る事ができる。ただし、概念辞書そのものが階層構造を持つ必要はない。後の説明から明らかな様に、概念辞書は単語間の概念の階層構造を反映できる形のものであればどの様なものであってもよい。
【0059】
概念辞書を用いた第2の実施の形態に係る情報検索装置220の機能的構成を図8に示す。なお、この第2の実施の形態の装置のハードウェア構成も第1の実施の形態のもの(図6)と同様であるので、ここではその詳細な説明は繰返さない。
【0060】
図8を参照して、この情報検索装置220は、第1の実施の形態と同様の入力部40及び情報検索部42と、テレビジョン受信機46及びインターネット48に接続され、第1の実施の形態の情報検索部42の機能と同様であるが、上述した通り概念辞書を求めて単語の優先度を求めて優先度に従ってキーワードを選択する機能を持つ情報検索部230とを含む。
【0061】
情報検索部230は、第1の実施の形態で用いられたものと同様の第1のデータ送受信部62及び第2のデータ受信部64に加えて、単語をそれらの概念に従って系統的に分類した、電子的に読取り可能な概念辞書244と、第2のデータ受信部64により検索されたホームページのテキストデータを形態素解析し、得られた単語列の各単語に概念辞書244を用いて優先度を付ける処理を行ない、その優先度を用いてキーワードを拡張されたキーワードとして選択するためのフィルタ部242と、入力部40、出力部44、第1のデータ送受信部62、第2のデータ受信部64、及びフィルタ部242に接続され、入力部40から与えられたキーワード及びフィルタ部242から与えられた拡張されたキーワードを用いて電子的番組表内を検索し、キーワードに合致する番組情報を取り出して出力部44に出力するための制御部240とを含む。
【0062】
制御部240は、最初に入力部40から与えられたキーワードにより電子的番組表を検索し、合致するものがあれば出力部44にその番組情報を出力する。制御部240は、この検索の結果キーワードに合致する番組情報がない場合には、第2のデータ受信部64及びフィルタ部242を用いて拡張されたキーワードを取得し、この拡張されたキーワードを用いて再度電子的番組表を検索し得られた番組情報を出力部44に出力する。
【0063】
第1の実施の形態では、検索結果の文字列を解析して得られた単語の頻度を用いてキーワードを選択した。しかし、頻度情報だけでは必ずしも適切なキーワードが上位にくるとは限らない。この第2の実施の形態では、概念辞書の構成上における出現単語の位置を考慮し、出現単語が集中している位置に属する単語の優先度を高める事により、より高い精度でキーワードを抽出する様にしている。
【0064】
図9に、概念辞書244の構成を模式的に示す。図9に示す様に、概念辞書244は単語をその概念に基づいてツリー構造で階層的に表される系統に分類している。例えば、図9の例では、「娯楽」という単語の下に「サスペンス」他の単語が位置している。「サスペンス」という語の下には「ミステリ」「スリラー」という単語が位置し、さらに「ミステリ」という語の下に「推理」という語が位置している。また、ツリー上で「娯楽」という単語と別系統の部分に「情報」という、広く用いられる単語が位置している。
【0065】
この様な構成の下では、「サスペンス」「推理」といった単語は「ミステリ」という語から近距離に位置するが、「情報」といった広く用いられる単語は「ミステリ」からは離れて位置する。
【0066】
この場合、「ミステリ」という単語をキーワードに第2のデータ受信部64での検索で得られた単語列の中で「情報」という単語の出現頻度がたとえ高くても、この単語の優先度を高くする事は妥当でない。すなわち、概念辞書内での位置でみれば、検索のキーワードとなった単語と概念上で類似した単語が集中する領域から離れて存在する単語は、たとえその出現頻度が高くても、優先度は低くするべきである。
【0067】
概念辞書における類似単語の集中領域の模式図を図10に示す。図10において、「ミステリ」をキーワードとして検索した単語群の概念辞書中での位置を「+」記号で示す。ここでは出現頻度は無視して、1回でも単語が出現すればその単語の位置を図示している。この図に示される様に、「ミステリ」に類似する単語はある領域(これを「集中領域」と呼ぶ。)の中に集中する。この集中領域260の中には、「スリラー」「サンスペンス」「推理」といった「ミステリ」の概念に近い単語は含まれるが、「情報」の様な異なる概念の単語は含まれない。そこで、この集中領域260の中に含まれる単語の優先度を高め、集中領域260の外の単語については優先度が低くなる様に優先度を決定する必要がある。
【0068】
本実施の形態において、フィルタ部242はそうした優先度の計算を行ないキーワードを抽出している。そのための構成を図11に示す。図11を参照して、フィルタ部242は、第2のデータ受信部64から受取った、検索後されたホームページのテキスト文字列を形態素解析するための形態素解析部120と、形態素解析の結果得られた単語列から機能語を削除するための機能語削除部122と、機能語削除部122の出力する単語列に含まれる各単語について、概念辞書244を参照して単語ごとのスコア(優先度に相当する。)を算出するためのスコア算出部250と、スコア算出部250により算出されたスコアに基づき、スコアの高い所定個数の単語を、第1のデータ送受信部62(図8参照)による再度の検索のためのキーワードとして選択し制御部240(図8参照)に与えるためのキーワード選択部252とを含む。
【0069】
スコア算出部250によるスコア算出は以下の様にして行なわれる。まず、概念辞書244中における単語Wiと単語Wjとの間の概念に基づいて、単語Wiと単語Wjとの間の概念間距離(以下単に「距離」と呼ぶ。)d(Wi,Wj)を定義する。本実施の形態では、この距離は、概念辞書244中において、単語Wiの位置と単語Wjの位置とを結ぶパスの長さを尺度にして計算する。2つの単語の概念が近いほど距離は小さくなる。図9に示される概念辞書244おいては、「サスペンス」と「ミステリ」、「娯楽」と「ミステリ」の距離はそれぞれ以下の様になる。
d(サスペンス,ミステリ)=1
d(娯楽,ミステリ)=2
第2のデータ受信部64の検索結果に含まれる単語Wiの頻度をf(Wi)、単語Wiの優先度を表すスコアをS(Wi)とし、スコアS(Wi)を以下の式で定義する。
【0070】
【数1】
ただしNは単語の数である。α、βは定数を表す。
【0071】
この式では、Σの計算部分で、第2のデータ受信部64の検索結果に含まれる全ての単語Wjに対して、その出現頻度と単語Wiとの間の距離とを求め、距離の逆数と頻度との和を計算し、それらを合計している。これにより、ある単語Wiとの間の距離が小さい単語が検索結果中に多ければ単語Wiのスコアの値が大きくなる。また、単語Wi自身の出現頻度が高い場合にもそのスコアは高くなる。
【0072】
この様にして、全ての単語に対してスコアを計算する事ができる。得られたスコアS(Wi)の値の大きいものを上位から所定個だけ、第1の情報データベースを再度検索するためのキーワードとする。
【0073】
図12に、この第2の実施の形態の装置で実行されるプログラムの主ルーチンの制御構造をフローチャート形式で示す。図12に示される各ステップのうち、ステップ150〜161まで、及びステップ163〜166については図7に示した第1の実施の形態のプログラムのものと同様である。従ってそれらについての詳細な説明はここでは繰返さない。
【0074】
図12において、ステップ161の後には制御はステップ270に進む。なお、ステップ161で得られるのは図5に示す出現頻度表130と同様のものである。この出現頻度表130は、一時的に図6に示す記憶部140に蓄えられる。以下の説明では、処理対象となる単語の数をMとする。
【0075】
ステップ270では、機能語を削除した後の単語列に含まれる各単語につき、ステップ161で算出された出現頻度を用い、上記した式に従ってスコアを計算する。続くステップ272で、計算されたスコアに従って単語をランク付けする。この後、ステップ163で上位の所定個数の単語を拡張されたキーワードとして選択する。
【0076】
図13に、図12のステップ270で行なわれる単語のランク付け処理の詳細を示す。まずステップ182で、処理対象となる単語の順番を示す変数iに0を代入する。ステップ184で、全ての単語について処理を繰返すための繰返し変数jに0を代入する。ステップ186で、スコアを表す変数Xに0を代入する。以上が準備的な作業である。
【0077】
ステップ188で、X+β×d(Wi、Wj)+f(Wj)を計算し、その結果を変数Xに代入する。続いてステップ192でjがM未満か否かを判定する。判定の結果がYESであれば制御はステップ190に進み、それ以外の場合には制御はステップ194に進む。ステップ190では、jに1を加算し、制御はステップ188に戻る。ステップ192の判定結果がYESになり制御がステップ194に進むのは、すべてのjについてステップ188の処理を完了したときである。
【0078】
ステップ194では、f(Wi)+α×Xを算出し、その値をWiに対するスコアS(Wi)に代入する。さらにステップ198でiがM未満か否かを判定する。iがM未満であれば制御はステップ196に進み、それ以外の場合にはこの処理を終了する。全ての単語についてスコアを算出した時点でステップ198の判定結果がNOとなる。
【0079】
以上の様に第2の実施の形態の装置によれば、第1の実施の形態と同様に、最初にユーザにより入力されたキーワードと合致する番組情報が見つからなかった場合には、そのキーワードでインターネットをサーチしてホームページのテキスト情報を収集する。そして、第1の実施の形態とは異なり、最初に入力されたキーワードと概念上で近い単語を、それらの中から概念辞書244を用いて選択し、拡張されたキーワードとする。そしてこの拡張されたキーワードで再度番組情報をサーチする。
【0080】
この様に、単なる出現頻度ではなく、入力されたキーワードと概念間距離の小さい単語を拡張されたキーワードとして再度検索するため、入力されたキーワードとは異なるが、意味の近い単語を含む番組情報が検索結果として得られる。その結果、ユーザの探している条件に合致した適切な番組情報が得られる可能性が第1の実施の形態と比較してより高くなる。
【0081】
‐第3の実施の形態‐
第2の実施の形態では、概念辞書244を用いて、最初に入力されたキーワードと概念間距離の小さな単語を定め、それらを拡張されたキーワードとして番組情報を検索し直している。同様の考え方に従い、概念辞書244に替えてインターネット上のいわゆる検索ディレクトリを用いる事によって、拡張されたキーワードを抽出する事も可能である。この第3の実施の形態に係る装置はその様にして拡張されたキーワードを定めている。なお第3の実施の形態の装置も、電子的番組表の中からユーザが望む番組情報を取得するための情報検索装置である。
【0082】
ここで、「検索ディレクトリ」とは、インターネット上のホームページなどを分野別に分類し、検索しやすくしたものである。インターネット上にはディレクトリサービスとして様々なホームページが存在する。
【0083】
検索ディレクトリにおいては、第2の実施の形態で使用した概念辞書244と同様に、種々のホームページが、ホームページの内容のカテゴリに従って系統的に分類されたディレクトリ内に配置されている。例えば、「映画」というディレクトリの中では、「SF(Science Fiction)」「アクション」「コメディ」「ミステリ」といったジャンル別の分類がなされており、それぞれのジャンルの中に、そのジャンルに属する映画作品が記載されている。
【0084】
図14に検索ディレクトリの一例を示す。図14を参照して、例えば「映画」というディレクトリが「ミステリ」及び「アクション」に分類されており、「ミステリ」というディレクトリ中に作品A及び作品Bが属しているとする。また、「アクション」というディレクトリ中に作品C及びDが属しているとする。
【0085】
仮にユーザが「ミステリ映画」というキーワードを指定し、それに合致する番組情報が見つからなかった場合を考える。そうした場合には、この検索ディレクトリの「映画」→「ミステリ」というディレクトリをたどる。そして、「ミステリ」というカテゴリに含まれる作品、具体的には作品A又は作品Bという名称を拡張されたキーワードにして、第1の情報データベースを再度検索する事が考えられる。そうした検索を行なう事により、ミステリ映画というキーワードでの検索では見つからなかった映画を、拡張されたキーワードを用いた検索では見つけ出す事ができる。
【0086】
例えば、第1の情報データベース中に作品Aが記載されていたとしても、その番組情報中に「ミステリ映画」という語がなければ、「ミステリ映画」というキーワードを用いた検索では作品Aは見つからない。しかし、上記した様に検索ディレクトリを用いてキーワードを拡張する事により、作品Aを見つけ出す事ができる。
【0087】
図15に、この第3の実施の形態に係る情報検索装置の機能的ブロック図を示す。ハードウェア構成は図6に示すものと同様である。図15を参照して、この情報検索装置280は、図1に示す情報検索部42に替えて、上記した様に検索ディレクトリを用いて拡張したキーワードを使用して検索する機能を持つ情報検索部290を含む点を除き、図1に示す情報検索装置30と同じ構成を有する。
【0088】
情報検索部290は、図1に示すものと同様の第1のデータ送受信部62及び第2のデータ受信部64に加えて、入力部40に接続され、入力されたキーワードに従って第1のデータ送受信部62を介して電子的番組表を検索する機能を持つ制御部300と、第1のデータ送受信部62を介して検索でキーワードに合致する番組情報が見出せなかった場合に制御部300が出力するキーワードを形態素解析して単語列を出力するための形態素解析部302と、形態素解析部302から与えられる単語ごとに第2のデータ受信部64を介してインターネット48上の検索ディレクトリをアクセスし、当該単語と一致するカテゴリを検索してカテゴリリストとして出力する処理を行なうためのカテゴリ検索部304と、カテゴリ検索部304の出力に接続され、カテゴリ検索部304が出力するカテゴリリスト内のカテゴリのうち、当該カテゴリリスト内に含まれるカテゴリを配下に持たないカテゴリを選択し、その配下のキーワードを第2のデータ受信部64を介して上記した検索ディレクトリから取出し、拡張されたキーワードとして制御部300に与えるためのキーワード選択部306とを含む。
【0089】
図16に、この第3の実施の形態の情報検索装置280の情報検索部290で実行される処理の内、形態素解析部302、カテゴリ検索部304、及びキーワード選択部306の機能に該当する処理を実現するプログラムの制御構造のフローチャートを示す。図16を参照して、まずステップ320で制御部300から与えられたキーワードを形態素解析する。ステップ322で、第2のデータ受信部64を介してインターネット48上の検索ディレクトリサイトをアクセスし、形態素解析の結果得られた単語Wjと一致するカテゴリを全てリストアップする。以後、j番目の単語をWj、単語Wjと一致するカテゴリをCjと表す。
【0090】
ステップ324では、形態素解析後の単語列のうち、処理対象となる単語を表す変数iに0を代入する。ステップ326で、カテゴリCiの下位に、ステップ322でリストアップされたカテゴリが存在するか否かを判定する。もしもその様なカテゴリが存在すれば制御はステップ330に進む。さもなければ制御はステップ328に進む。
【0091】
ステップ328では、このカテゴリCiに属する全てのキーワードを選択する。すなわちカテゴリCiの配下に存在する全てのキーワードが拡張されたキーワードとして選択される。この後制御はステップ330に進む。
【0092】
ステップ330では、iに1を加算する。ステップ332で、iがステップ322で得られたカテゴリ数未満か否かを判定する。判定結果がYESであれば制御はステップ326に戻り、次のカテゴリについて上記したステップ326からステップ330の処理を繰返す。判定結果がNOであれば、ステップ322でリストアップされた全てのカテゴリについて処理を終了したという事であり、この処理を終了する。以上が、情報検索部290のうち制御部300、形態素解析部302及びキーワード選択部306を実現するためのプログラムの制御構造である。
【0093】
情報検索装置280は以下の様に動作する。ユーザが入力部40を用いてキーワードを入力すると、そのキーワードは制御部300に与えられる。
【0094】
制御部300は、入力部40から与えられたキーワードを用いて電子的番組表をアクセスし、該当する番組情報があれば出力部44上にその番組情報を表示する。該当する番組情報が見つからなければ、制御部300は形態素解析部302にこのキーワードを出力し、キーワード選択部306から拡張されたキーワードが与えられるのを待つ。
【0095】
制御部300からキーワードが与えられると、形態素解析部302はそのキーワードを形態素解析し、得られた単語列をカテゴリ検索部304及びキーワード選択部306に与える。
【0096】
カテゴリ検索部304は、形態素解析部302から与えられた単語列の単語ごとに第2のデータ受信部64を介して検索ディレクトリをアクセスする。その結果、その単語に一致するカテゴリがあれば、そのカテゴリ(単語)をリストアップする。一致するカテゴリがない場合にはその単語はリストアップしない。カテゴリ検索部304は、この処理を全ての単語に対して行ない、最終的に得られたカテゴリのリスト(これをカテゴリリストと呼ぶ事にする。)をキーワード選択部306に与える。
【0097】
キーワード選択部306は、カテゴリ検索部304から与えられるカテゴリリスト内のカテゴリの各々について、第2のデータ受信部64を介して検索ディレクトリにアクセスし、その配下のカテゴリのリスト及びキーワードのリストを収集する。さらにキーワード選択部306は、検索ディレクトリから得られたカテゴリのリスト内に、カテゴリ検索部304から与えられたカテゴリリスト内のカテゴリと一致するものがあるか否かを判定する。もし一致するものがあればそのカテゴリについては何もしない。もしなければ、そのカテゴリの配下のキーワードを拡張されたキーワードに選択して制御部300に与える。この処理をカテゴリ検索部304からのカテゴリリスト内のカテゴリの全てに対して行なう。
【0098】
キーワード選択部306から拡張されたキーワードが与えられると、制御部300はその拡張されたキーワードを用いて再度電子的番組表をアクセスし、得られた番組情報を出力部44上に出力する。
【0099】
この情報検索部290によって検索ディレクトリを第2の情報データベースとしてアクセスする事により、入力されたキーワードと類似したキーワードを効果的に抽出する事ができる。
【0100】
この装置の動作について、より具体的に図17を参照して説明する。図17は、検索ディレクトリのディレクトリ構造を示す。図17において、C1〜C7はカテゴリを表し、T1〜T6はキーワードを表すものとする。この例では、カテゴリC1を除く全てのカテゴリ及びキーワードがカテゴリC1の配下にある。また、例えばカテゴリC5の配下にはカテゴリC7とキーワードT1、T2、及びT3とがある。他も同様である。
【0101】
以下、典型的な3つのケースについて、どの様にしてキーワードが選択されるか(又はされないか)を説明する。
【0102】
<ケース1>
カテゴリ検索部304によりリストアップされたカテゴリがC6だけの場合には次の様になる。このカテゴリC6の配下には、リストアップされたカテゴリがない。そのため、上記した方法に従いカテゴリC6の配下の全てのキーワードT1、T2、及びT3が拡張されたキーワードとして選択される。
【0103】
<ケース2>
カテゴリ検索部304によりリストアップされたカテゴリがC5及びC7の場合には次の様になる。カテゴリC5の配下には、同じくリストアップされたカテゴリC7が存在する。従ってカテゴリC5についてはキーワードは登録されない。一方、カテゴリC7の配下には、リストアップされたカテゴリは存在しない。従って、カテゴリC7の配下のキーワードT2及びT3が拡張されたキーワードとして選択される。
【0104】
<ケース3>
カテゴリ検索部304によりリストアップされたカテゴリがC5及びC6である場合には次の様になる。カテゴリC5の配下には、リストアップされたカテゴリがない。従って、カテゴリC5の配下のキーワードT1、T2、及びT3が拡張されたキーワードとして選択される。また、カテゴリC6の配下にも、リストアップされたカテゴリは存在しない。従って、カテゴリC6の配下のキーワードT4、T5、及びT6が拡張されたき−ワードとして選択される。
【0105】
以上の様に、本実施の形態の装置を用いた場合にも、入力されたキーワードを拡張して、それと関係の深い拡張されたキーワードで電子的番組表を検索する事ができる。従って、ユーザが知りたい番組情報を得る事のできる可能性が高いという効果がある。
【0106】
ところで、上記第1〜第3の実施の形態における制御部60、フィルタ部66、制御部240、フィルタ部242、制御部300、形態素解析部302、カテゴリ検索部304、及びキーワード選択部306の各機能は、図6に示すプログラム記憶部144に記録された情報検索プログラムを、汎用的なコンピュータで実行する事により実現される。従ってこの情報検索プログラムを、コンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として流通させる事もできる。
【0107】
この場合の記録媒体は、CD‐ROM(Compact Disc Read−Only Memory)、DVD(Digial Versatile Disc:デジタル多用途ディスク)、DVD−ROM等の、コンピュータの読取装置に着脱可能に装着できる媒体であってもよい。読取装置は、コンピュータに接続される外部補助記憶装置でもよい。なお、何れの場合においても、上記プログラムを実行する場合には、記録媒体に直接アクセスしてプログラムを読出してもよいし、記録媒体から読出してRAMに設けられたプログラム記憶エリアにロードし、そこから順次命令を読出す様にしてもよい。また、着脱可能な記録媒体からコンピュータ内のハードディスクに転記しておき、実行時にこのハードディスクからメモリにロードして実行する様にしてもよい。
【0108】
なお、記録媒体からRAMのプログラム記憶エリアにロードするためのロードプログラムは、予めコンピュータの本体装置に格納されているものとする。
【0109】
上記した記録媒体は、コンピュータ本体と分離可能に構成され、磁気テープ及びカセットテープ等のテープ系、フレキシブルディスク及びハードディスク等の磁気ディスク、CD−ROM、MO(Magneto−Optical Disk:光磁気)ディスク、DVD等の光ディスクのディスク系、IC(集積回路)カード及び光カード等のカード系、マスクROM、紫外線消去型読出専用メモリ、電気的消去型読出専用メモリ、フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する事が可能な記録媒体を含む。
【0110】
また、上記実施の形態における情報検索装置は、モデム、LAN(LocalArea Network)カード等を備えてインターネットを含む通信ネットワークと接続可能な構成を有している場合は、上記記録媒体は、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。なお、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【0111】
なお、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録する事ができる。
【0112】
上記した実施の形態では、第2のデータ受信部64はインターネット48を用いてキーワードの拡張を行なっている。しかし本発明はその様な実施の形態には限定されない。たとえば情報検索部42、230、及び290は、CD−ROM、DVD、又はハードディスクなどの外部記憶媒体に格納されたデータベースを参照するものでもよい。又は第2のデータ受信部64は、インターネットとは異なる、閉じたネットワークに接続されたものであってもよい。
【0113】
上記した各実施の形態の装置では、第2のデータ送受信部64としてLANカードを用いている。しかし第2のデータ受信部64としては、利用可能な通信媒体にあわせてモデム、無線LANカードなど適切なものであればどの様なものでも利用できる。
【0114】
また上記した各実施の形態の装置では、入力部40としてはキーボード及びボタンを用いている。しかし入力部40としてはこの他にもマウス、静電式タッチパッド、又はタブレットなどを用いる事ができる。また、マイク又は音声通信回線及び音声認識装置を用いた音声入力装置を用いる事もできる。
【0115】
また、出力部44としては、本実施の形態で用いた液晶表示装置以外にも、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)表示装置、又はCRT(Cathode Ray Tube)などを用いる事ができる。
【0116】
さらに、上記した各実施の形態では、形態素解析のプログラムとして、公知の容易に入手できるパブリックドメインのソフトウェアを使用するが、もちろん独自に開発したものを用いてもよいし、商業的に販売されているものを用いてもよい。
【0117】
また、上記した各実施の形態では、キーワードは直接キーボードから入力している。しかしこれ以外の方法でキーワードを入力する様にしてもよい。例えばキーワード列をメニューとして表示し、表示されたメニューの中から選択して入力する方法でもよい。
【0118】
また、上記した実施の形態では、何れも電子的番組表をキーワードで検索した結果、該当する番組情報が何も見出せない場合にのみ拡張されたキーワードを求め、この拡張されたキーワードで再度電子的番組表をアクセスしている。しかし本発明はその様な実施の形態に限定されるわけではない。電子的番組表をアクセスして該当する番組情報が発見されたときにも、拡張されたキーワードを用いてさらに電子的番組表を検索する様にしてもよい。また、これら二つの検索方法を切替えて使用できる様にしてもよい。又は、入力されたキーワードにより検索した結果、見出された番組情報の数が所定個数以下の場合に、拡張されたキーワードでさらに検索をする様にしてもよい。
【0119】
さらに、上記した実施の形態の情報検索装置においては、データベースそのものは装置とは別であるが、情報検索装置の各機能部分は一つの情報検索装置の中に含まれている。しかし本発明はその様な実施の形態に限定されるわけではない。例えば、図1に示す第2のデータ受信部64及びフィルタ部66、図8に示すフィルタ部242及び概念辞書244、並びに図15に示す形態素解析部302、カテゴリ検索部304、及びキーワード選択部306をサーバに配置し、入力部40、出力部44、第1のデータ送受信部62、並びに制御部40、240又は300を携帯電話又はPDA(Personal Digital Assistant)等の携帯情報端末装置に配置する様にし、サーバと携帯情報端末装置とにそれぞれ通信装置を設けて、互いの間はこれら通信装置を用いた無線通信などで結ぶ様にしてもよい。
【0120】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれる事が意図される。
【0121】
【発明の効果】
以上より明らかな様に、この発明によれば、ユーザが指定したキーワードと、情報データベースに記載されている語彙が一致しなくても、ユーザが見つけ出そうとしている情報を探し出す事ができる。
【0122】
特に、テレビ番組表など、情報量が限定されている情報データベースの検索において、ユーザが指定したキーワードと情報データベース内で使用されている語彙とが一致しなくても、ユーザが見つけ出そうとしている情報を探し出す事ができる。
【図面の簡単な説明】
【図1】図1はこの発明の第1の実施の形態に係る情報検索装置の機能的構成を示すブロック図である。
【図2】図2はテレビ番組表の模式図である。
【図3】図3は、第1の実施の形態の情報検索装置の動作原理を模式的に示す図である。
【図4】図4は、上記情報検索装置のフィルタ部の機能的ブロック図である。
【図5】図5は、単語の出現頻度表の構成を模式的に示す図である。
【図6】図6はこの発明の第1の実施の形態に係る情報検索装置のハードウェア構成を示すブロック図である。
【図7】図7は上記情報検索装置の機能を実現するプログラムの主ルーチンの制御構造を示すフローチャートである。
【図8】図8はこの発明の第2の実施の形態に係る情報検索装置の機能的構成を示すブロック図である。
【図9】図9は第2の実施の形態に係る情報検索装置で使用される概念辞書の構成を模式的に示す図である。
【図10】図10は、概念辞書中における単語の集中領域を模式的に示す図である。
【図11】図11は、図8に示す情報検索装置のフィルタ部の機能的ブロック図である。
【図12】図12は、第2の実施の形態の装置で実行されるプログラムの主ルーチンの制御構造を示すフローチャートである。
【図13】図13は、図12のステップ270で行なわれる単語のランク付け処理の詳細を示すフローチャートである。
【図14】図14は、本発明の第3の実施の形態の装置で使用される検索ディレクトリの構造を模式的に示す図である。
【図15】図15は、本発明の第3の実施の形態に係る情報検索装置の機能的ブロック図である。
【図16】図16は、第3の実施の形態に係る情報検索装置で行なわれる拡張キーワードを選択する処理を実現するプログラムのフローチャートである。
【図17】図17は、第3の実施の形態に係る情報検索装置で使用される検索ディレクトリの構成を示す模式図である。
【符号の説明】
30、220、280 情報検索装置、40 入力部、42、230、290情報検索部、44 出力部、46 テレビジョン受信機、48 インターネット、60、142、240、300 制御部、62 第1のデータ送受信部、64 第2のデータ受信部、66、242 フィルタ部、70 電子的番組表、120、302 形態素解析部、122 機能語削除部、124 頻度算出部、126、252、306 キーワード選択部、130 出現頻度表、140 記憶部、144 プログラム記憶部、244 概念辞書、250 スコア算出部、260 集中領域、304 カテゴリ検索部
Claims (14)
- キーワードに基づいて第1の情報データベースを検索するための第1の情報検索手段と、
前記キーワードに基づいて第2の情報データベースを検索するための第2の情報検索手段と、
前記第2の情報検索手段により前記キーワードに基づいて前記第2の情報データベースから検索された情報から所定の基準で新たなキーワードを抽出するためのキーワード抽出手段と、
前記キーワード抽出手段により抽出された新たなキーワードに基づいて更に前記第1の情報データベースを検索する様に前記第1の情報検索手段を制御するための手段とを含む、情報検索装置。 - 前記第2の情報検索手段は、前記第1の情報検索手段による情報の検索が失敗した事に応答して、前記キーワードに基づいて前記第2の情報データベースを検索するための手段を含む、請求項1に記載の情報検索装置。
- 前記キーワード抽出手段は、
単語の持つ意味概念の間の階層構造に従って単語を分類し記憶する概念辞書と、
前記第2の情報検索手段により前記第2の情報データベースから検索された文字列を解析して単語列を抽出するための解析手段と、
前記解析手段により抽出された単語列中の各単語及び前記キーワードの、前記概念辞書中での関係を用いて前記新たなキーワードを前記単語列中から抽出するための手段とを含む、請求項1に記載の情報検索装置。 - 前記抽出するための手段は、
前記解析手段により抽出された単語列中の各単語と前記キーワードとの概念間距離を、前記概念辞書を用いて算出するための手段と、
算出された概念間距離と、前記各単語の前記単語列中での出現頻度とを用いて前記各単語のスコアを算出するための手段と、
前記単語列中の単語から、算出されたスコアが所定の条件を充足するものを前記新たなキーワードとして抽出するための手段とを含む、請求項3に記載の情報検索装置。 - 前記キーワード抽出手段は、
前記第2の情報検索手段により前記キーワードに基づいて前記第2の情報データベースから検索された情報を解析し、単語列を抽出するための解析手段と、
前記解析手段により抽出された単語列中で、最も出現頻度の高い所定個数の単語を前記新たなキーワードとして抽出するための手段とを含む、請求項1に記載の情報検索装置。 - 前記第2の情報データベースは、情報をカテゴリに分類してアクセス可能とした検索ディレクトリであり、
前記第2の情報検索手段は、
与えられるキーワードを解析して、当該与えられるキーワードを構成する単語からなる単語列を抽出するための手段と、
前記抽出された単語列と一致するカテゴリを、前記検索ディレクトリ中から検索するための手段と、
前記検索ディレクトリ中から検索されたカテゴリに属する情報中から、所定の条件を満足する単語を取り出す事により前記新たなキーワードを抽出するための手段とを含む、請求項1に記載の情報検索装置。 - 前記検索ディレクトリは、カテゴリをツリー状構造で配置したものであり、かつ前記ツリー構造の葉の部分にはそれぞれ各カテゴリに対応するキーワードが付されており、
前記新たなキーワードを抽出するための手段は、前記検索ディレクトリ中から検索されたカテゴリの配下の葉の部分に付されたキーワードを前記新たなキーワードとして抽出するための手段を含む、請求項6に記載の情報検索装置。 - 前記第1の情報データベースは放送に関する電子的番組情報のデータベースを含み、
前記第1の情報検索手段は、前記電子的番組情報のデータベースから前記キーワードに合致する番組情報を検索するための手段を含む、請求項1に記載の情報検索装置。 - コンピュータにより実行されると、当該コンピュータを請求項1〜請求項8の何れかに記載の情報検索装置として動作させる、コンピュータで実行可能な情報検索プログラム。
- 請求項1〜請求項8の何れかに記載の情報検索装置を搭載した、携帯情報端末装置。
- サーバと通信を行なう事が可能な携帯情報端末装置であって、
前記サーバと通信するための第1の通信手段と、
キーワードに基づいて第1の情報データベースを検索するための第1の情報検索手段と、
前記キーワードを前記第1の通信手段を介して前記サーバに送信するための手段とを含み、
前記サーバは、
前記第1の通信手段と通信するための第2の通信手段と、
前記第2の通信手段を介して前記携帯情報端末装置から前記キーワードを受信した事に応答して、前記受信したキーワードを拡張した拡張キーワードを前記第2の通信手段を介して前記携帯情報端末装置に送信するための手段とを含み、
前記携帯情報端末装置はさらに、前記サーバから送信された前記拡張キーワードを前記第1の通信手段で受信し、当該拡張キーワードを用いて更に前記第1の情報データベースを検索するための手段を含む、携帯情報端末装置。 - キーワードに基づいて第1の情報データベースを検索するステップと、
前記キーワードに基づいて第2の情報データベースを検索するステップと、
前記キーワードに基づいて前記第2の情報データベースから検索された情報から所定の基準で新たなキーワードを抽出するステップと、
前記新たなキーワードを抽出するステップにおいて抽出された新たなキーワードに基づいて更に前記第1の情報データベースを検索するステップとを含む、情報検索方法。 - コンピュータにより実行されると、請求項12に記載の情報検索方法を実行する様にコンピュータを制御する、情報検索プログラム。
- 請求項11又は請求項13に記載の情報検索プログラムを記録した、コンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003157880A JP2004362121A (ja) | 2003-06-03 | 2003-06-03 | 情報検索装置、携帯情報端末装置、情報検索方法、情報検索プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003157880A JP2004362121A (ja) | 2003-06-03 | 2003-06-03 | 情報検索装置、携帯情報端末装置、情報検索方法、情報検索プログラム及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004362121A true JP2004362121A (ja) | 2004-12-24 |
Family
ID=34051465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003157880A Pending JP2004362121A (ja) | 2003-06-03 | 2003-06-03 | 情報検索装置、携帯情報端末装置、情報検索方法、情報検索プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004362121A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006270734A (ja) * | 2005-03-25 | 2006-10-05 | Maspro Denkoh Corp | 受信端末装置 |
JP2009212961A (ja) * | 2008-03-05 | 2009-09-17 | Ntt Docomo Inc | 情報提供システム、情報通信端末、情報提供装置、及び情報提供方法 |
JP2010050801A (ja) * | 2008-08-22 | 2010-03-04 | Sharp Corp | 電子機器、表示制御方法、およびプログラム |
US8108407B2 (en) | 2006-11-06 | 2012-01-31 | Panasonic Corporation | Informationn retrieval apparatus |
JP4976572B1 (ja) * | 2011-04-28 | 2012-07-18 | テンソル・コンサルティング株式会社 | 商品キーワード管理システム |
US8934738B2 (en) | 2011-12-28 | 2015-01-13 | Canon Kabushiki Kaisha | Image processing apparatus and method for controlling the same |
JP2015207159A (ja) * | 2014-04-21 | 2015-11-19 | アルパイン株式会社 | コンテンツ検索装置、方法およびプログラム |
US10950235B2 (en) | 2016-09-29 | 2021-03-16 | Nec Corporation | Information processing device, information processing method and program recording medium |
-
2003
- 2003-06-03 JP JP2003157880A patent/JP2004362121A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006270734A (ja) * | 2005-03-25 | 2006-10-05 | Maspro Denkoh Corp | 受信端末装置 |
JP4612446B2 (ja) * | 2005-03-25 | 2011-01-12 | マスプロ電工株式会社 | 受信端末装置 |
US8108407B2 (en) | 2006-11-06 | 2012-01-31 | Panasonic Corporation | Informationn retrieval apparatus |
JP2009212961A (ja) * | 2008-03-05 | 2009-09-17 | Ntt Docomo Inc | 情報提供システム、情報通信端末、情報提供装置、及び情報提供方法 |
JP2010050801A (ja) * | 2008-08-22 | 2010-03-04 | Sharp Corp | 電子機器、表示制御方法、およびプログラム |
JP4976572B1 (ja) * | 2011-04-28 | 2012-07-18 | テンソル・コンサルティング株式会社 | 商品キーワード管理システム |
US8934738B2 (en) | 2011-12-28 | 2015-01-13 | Canon Kabushiki Kaisha | Image processing apparatus and method for controlling the same |
JP2015207159A (ja) * | 2014-04-21 | 2015-11-19 | アルパイン株式会社 | コンテンツ検索装置、方法およびプログラム |
US10950235B2 (en) | 2016-09-29 | 2021-03-16 | Nec Corporation | Information processing device, information processing method and program recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5161658B2 (ja) | キーワード入力支援装置、キーワード入力支援方法及びプログラム | |
JP4623985B2 (ja) | 電子番組ガイド(epg)データのフリーテキスト検索および属性検索 | |
JP4923604B2 (ja) | 情報処理装置および方法、並びにプログラム | |
JP3917648B2 (ja) | 連想辞書作成装置 | |
KR101465769B1 (ko) | 사전 단어 및 어구 판정 | |
JP2011529600A (ja) | 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置 | |
US20120278300A1 (en) | System, method, and user interface for a search engine based on multi-document summarization | |
JP2005115790A (ja) | 情報検索方法、情報表示装置及びプログラム | |
JP2009043156A (ja) | 番組検索装置および番組検索方法 | |
JP6429382B2 (ja) | コンテンツ推薦装置、及びプログラム | |
KR20110114055A (ko) | 의미기반 검색 장치 및 그 방법과, 의미기반 메타데이터 제공 서버 및 그 동작 방법 | |
JPH1069496A (ja) | インターネット検索装置 | |
TW200834355A (en) | Information processing apparatus and method, and program | |
KR20160062667A (ko) | 미디어 리소스를 제공하는 방법 및 장치 | |
CN106933380B (zh) | 一种词库的更新方法和装置 | |
KR100455439B1 (ko) | 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법 | |
JP4734048B2 (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
JP2004362121A (ja) | 情報検索装置、携帯情報端末装置、情報検索方法、情報検索プログラム及び記録媒体 | |
JP2008262506A (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
JP4796527B2 (ja) | ドキュメント絞り込み検索装置、方法及びプログラム | |
JP2005122665A (ja) | 電子機器装置、関連語データベースの更新方法、プログラム | |
JP2009069874A (ja) | コンテンツ検索装置、コンテンツ検索方法、プログラム、および記録媒体 | |
JP4496797B2 (ja) | 文書管理装置および方法 | |
JP2005157690A (ja) | 電子機器装置及び情報提供方法 | |
JP2005115791A (ja) | 情報検索方法、情報取得装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081118 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090113 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090310 |