JP4436894B2 - コンテンツ検索装置 - Google Patents

コンテンツ検索装置 Download PDF

Info

Publication number
JP4436894B2
JP4436894B2 JP2009526334A JP2009526334A JP4436894B2 JP 4436894 B2 JP4436894 B2 JP 4436894B2 JP 2009526334 A JP2009526334 A JP 2009526334A JP 2009526334 A JP2009526334 A JP 2009526334A JP 4436894 B2 JP4436894 B2 JP 4436894B2
Authority
JP
Japan
Prior art keywords
keyword
content
search
document space
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009526334A
Other languages
English (en)
Other versions
JPWO2009019860A1 (ja
Inventor
和豊 高田
貴史 續木
聰 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP4436894B2 publication Critical patent/JP4436894B2/ja
Publication of JPWO2009019860A1 publication Critical patent/JPWO2009019860A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Description

本発明は、複数のコンテンツの中からユーザが視聴したいコンテンツを検索するためのコンテンツ検索装置に関する。
従来、サーバーなどに大量に格納されたコンテンツの中からユーザが視聴したいコンテンツを検索する際の検索方法としては、ユーザが入力した検索キーワードに合致するコンテンツの一覧を生成して提示する方法が多く報告されている。このような方法は、検索対象となるコンテンツを明確に想定し、且つ検索対象を表すキーワードを思い浮かべることができるユーザに対しては有効な方法である。
しかし、検索対象を表すキーワードを思い浮かべることができないユーザは、検索キーワードを入力することができないため、この方法を利用してコンテンツを検索することができない。このような状況は、例えばテレビ番組や音楽、映画などの娯楽コンテンツを検索する際によく見られる現象である。
このような問題に対し、別の種類のコンテンツ検索技術として、システム側から複数のキーワードが提示され、ユーザは提示されたキーワードの中から興味のあるキーワードを選択する操作を繰り返すことでコンテンツの絞込みを行い、対話的に所望のコンテンツを得る方法が報告されている(例えば、特許文献1参照)。
上記特許文献1のコンテンツ検索装置(文書処理装置)は、検索開始時に検索キーワードと同時に検索条件を取得し、検索分野を限定してその検索キーワードに関連する関連キーワードを提示する。この装置では、検索開始時に検索分野を絞り込むことにより、コンテンツを絞り込みやすい関連キーワードを提示することが可能になる。したがって、ユーザはこのコンテンツ検索装置が提示した関連キーワードの選択を繰り返すだけで、所望のコンテンツを得ることができる。これは、検索対象を表すキーワードが不明確なユーザにとって有効な方法である。
特開平10−134075号公報
しかしながら、上記特許文献1のコンテンツ検索装置では、ユーザの検索対象が検索開始時に明確に定まっておらず、検索中に見たいコンテンツが流動的に変化する場合、所望のコンテンツを検索するための関連キーワードを提示することができないという問題がある。
即ち、上記特許文献1のコンテンツ検索装置では、一連の検索に対して、ある観点に従った絞込み検索しか行えないため、ユーザの検索対象とするコンテンツが流動的に変化して様々な種類のコンテンツをユーザが見ようとしたときには、その都度、他の観点からの検索を再度行うために、検索開始画面に戻る必要が生じてしまい、ユーザの検索負荷が増大してしまう。
たとえば、上記特許文献1のコンテンツ検索装置では、検索対象が不明確で流動的に見たいコンテンツが変化するユーザに対して、対話を通じて観点の異なる様々な種類のコンテンツを検索する検索モード(拡張検索モード)と、検索結果として表示されたコンテンツをさらに絞り込む検索モード(絞込み検索モード)とを選択することができない。
そこで、本発明は、かかる問題に鑑みてなされたものであって、ユーザの検索対象となるコンテンツが流動的に変化するような場合にも、そのユーザに対して所望のコンテンツを検索するための関連キーワードを提示することができるコンテンツ検索装置を提供することを目的とする。
上記目的を達成するために、本発明に係るコンテンツ検索装置は、複数のコンテンツがそれぞれ複数のキーワードと共に格納されたコンテンツデータベースに基づき、コンテンツの検索に用いられる検索キーワードに関連する関連キーワードを表示するコンテンツ検索装置であって、検索キーワードを取得するキーワード取得手段と、前記検索キーワードに応じたコンテンツを前記コンテンツデータベースから検索するコンテンツ検索手段と、前記コンテンツデータベースの各コンテンツの中で前記コンテンツデータベースに含まれる各キーワードが出現するコンテンツ数を示すキーワード出現頻度に応じて分類された各キーワードと、前記各コンテンツと、の間の関連度を有する、文書空間情報を格納している文書空間格納手段と、前記検索キーワードと前記検索キーワードに応じたコンテンツとの関連度を示す第1の文書空間情報に関連するキーワード出現頻度を基準に、前記文書空間格納手段に格納されている文書空間情報に関連するキーワード出現頻度が小さいときに、前記文書空間格納手段に格納されている文書空間情報を、検索対象となるコンテンツ数を絞り込むのに用いるキーワードを有する第2の文書空間情報として選択し前記文書空間格納手段に格納されている文書空間情報に関連する前記キーワード出現頻度が大きいときに、前記文書空間格納手段に格納されている文書空間情報を、検索対象となるコンテンツ数を拡張するのに用いるキーワードを有する第3の文書空間情報として、選択する文書空間選択手段と、前記文書空間選択手段で選択される第2および第3の文書空間情報の中で所定の基準を満たすキーワードを、それぞれ関連キーワードとして表示する表示手段とを備える。
また、上記目的を達成するために、本発明に係るコンテンツ検索装置は、複数のコンテンツがそれぞれ複数のキーワードと共に格納されたコンテンツデータベースに基づき、コンテンツの検索に用いられる検索キーワードに関連する関連キーワードを表示するコンテンツ検索装置であって、検索キーワードを取得するキーワード取得手段と、前記検索キーワードに応じたコンテンツを前記コンテンツデータベースから検索するコンテンツ検索手段と、前記コンテンツデータベースに含まれる各キーワードが、前記コンテンツデータベースの各コンテンツに対して出現する出現頻度に応じて分類された区分ごとに、各コンテンツと各キーワードとの間の関連度を示す文書空間情報を格納している文書空間格納手段と、前記文書空間格納手段から、前記検索キーワードと前記検索キーワードに応じたコンテンツとの関連度を示す第1の文書空間情報の出現頻度に応じて、第2の文書空間情報を選択する文書空間選択手段と、前記文書空間選択手段で選択される第2の文書空間情報の中で所定の基準を満たすキーワードを、関連キーワードとして表示する表示手段とを備える。
これにより、ユーザの検索対象となるコンテンツが流動的に変化するような場合にも、そのユーザに対して所望のコンテンツを検索するための関連キーワードを提示することができる。
例えば、前記文書空間選択手段は、前記文書空間格納手段から、前記第1の文書空間情報の出現頻度よりも少ない出現頻度に対応する第2の文書空間情報を、絞込み文書空間情報として選択する第1の文書空間選択手段を有し、前記表示手段は、前記絞込み空間情報の中で所定の基準を満たすキーワードを、前記関連キーワードとして表示する。また、前記文書空間選択情報は、前記文書空間格納手段から、前記第1の文書空間情報の出現頻度以上の出現頻度に対応する第2の文書空間情報を、拡張文書空間情報として選択する第2の文書空間選択手段を有し、前記表示手段は、前記絞込み空間情報の中で所定の基準を満たすキーワードである絞込みキーワードと、前記拡張空間情報の中で所定の基準を満たすキーワードである拡張キーワードとを、前記関連キーワードとして表示する。また前記コンテンツ検索装置は、さらに、前記コンテンツ検索手段により検索されたコンテンツに対して大きな関連度が示されているキーワードほど選択されるように、前記コンテンツデータベースから前記絞込み文書空間情報および拡張文書空間情報のそれぞれに応じた絞込みキーワードおよび拡張キーワードを選択する関連キーワード選択手段を備え、前記表示手段は、前記関連キーワード選択手段により選択された絞込みキーワードおよび拡張キーワードを前記関連キーワードとして表示するとともに、前記コンテンツ検索手段により検索されたコンテンツの属性を表示する。
具体的には、出現頻度が多いキーワードが属する文書空間情報と、出現頻度が中程度のキーワードが属する文書空間情報と、出現頻度が少ないキーワードが属する文書空間情報とが文書空間格納手段に格納されている。
これにより、検索キーワードに対応する文書空間情報の出現頻度よりも小さい出現頻度に対応する文書空間情報が、絞込み文書空間情報として選択される。例えば、検索キーワードの出現頻度が中程度であれば、出現頻度の少ないキーワードが属する文書空間情報が絞込み文書空間情報として選択される。そして、コンテンツ検索手段により検索されたコンテンツに対して、その絞込み文書空間情報により大きな関連度が示されるキーワードが絞込みキーワードとして表示される。
その結果、検索キーワードの出現頻度よりも少ない出現頻度のキーワードが絞込みキーワードとして表示されるため、ユーザがその絞込みキーワードを次の新たな検索キーワードとして選択すれば、コンテンツ検索手段によって、先に検索されて表示された複数のコンテンツの中から、ユーザの所望するコンテンツを適切に絞り込むことができる。
また、検索キーワードに対応する文書空間情報の出現頻度以上の出現頻度に対応する文書空間情報が拡張文書空間情報として選択される。例えば、検索キーワードの出現頻度が中程度であれば、出現頻度が中程度のキーワードが属する文書空間情報と、出現頻度が多いキーワードが属する文書空間情報とが拡張文書空間情報として選択される。そして、コンテンツ検索手段により検索されたコンテンツに対して、その拡張文書空間情報により大きな関連度が示されるキーワードが絞込みキーワードとして表示される。
その結果、検索キーワードの出現頻度以上の出現頻度のキーワードが拡張キーワードとして表示されるため、ユーザがその拡張キーワードを次の新たな検索キーワードとして選択すれば、コンテンツ検索手段によって、先に検索されて表示されたコンテンツの数以上の、検索キーワードに関連するコンテンツを適切に検索することができる。
したがって、このような絞込みキーワードおよび拡張キーワードが関連キーワードとして同時に表示されるため、ユーザの検索対象となるコンテンツが流動的に変化するような場合にも、従来例のように検索開始画面に戻ることなく、絞込みキーワードおよび拡張キーワードの何れかを選択することで、ユーザは所望のコンテンツを検索することができる。
すなわち、従来では、先に検索された複数のコンテンツを絞り込むために相応しい関連キーワード(絞込みキーワード)と、検索キーワードと異なる観点で再検索を行うために相応しい関連キーワード(拡張キーワード)とが区別されることなく、検索キーワードに関連する関連キーワードが、関連度の大きいものから順に単純に表示される。その結果、絞込みキーワードが表示されない場合や、拡張キーワードが表示されない場合がある。したがって、絞込みキーワードでないにも関わらず、そのキーワードで複数のコンテンツを絞り込むような検索を行ってしまう。
そこで、本発明では、上述のように、絞込みキーワードおよび拡張キーワードを出現頻度に応じて適切に区別してそれらを同時に表示するため、ユーザは所望のコンテンツを容易且つ適切に検索することができる。
また、前記コンテンツ検索装置は、さらに、前記表示手段により表示された絞込みキーワードがユーザにより選択されることによって前記キーワード取得手段が前記絞込みキーワードを前記検索キーワードとして取得したときには、前記コンテンツ検索手段により絞込み検索が行われると判定し、前記表示手段により表示された拡張キーワードがユーザにより選択されることによって前記キーワード取得手段が前記拡張キーワードを前記検索キーワードとして取得したときには、前記コンテンツ検索手段により拡張検索が行われると判定する検索条件判定手段と、前記検索条件判定手段により判定された結果に応じて、前記表示手段に表示される前記絞込みキーワードの数と拡張キーワードの数との比率を決定する比率決定手段とを備え、前記関連キーワード選択手段は、前記比率決定手段により決定された比率に応じた数の絞込みキーワードおよび拡張キーワードを選択することを特徴としてもよい。例えば、前記比率決定手段は、前記検索条件判定手段により絞込み検索が行われると判定されたときには、前記絞込みキーワードの数が前記拡張キーワードの数よりも多くなるような比率を決定する。また、前記比率決定手段は、前記検索条件判定手段により拡張検索が行われると判定されたときには、前記拡張キーワードの数が前記絞込みキーワードの数よりも多くなるような比率を決定する。
これにより、ユーザが表示手段に表示された絞込みキーワードを、次の新たな検索キーワードとして選択すると、その新たな検索キーワードに応じたコンテンツとともに、その新たな検索キーワードに関連する新たな絞込みキーワードが拡張キーワードよりも多く表示される。したがって、絞込み検索を実行しようとしているユーザに対して多くの絞込みキーワードが表示されるため、ユーザに対する使い勝手を向上することができる。これと同様に、ユーザが表示手段に表示された拡張キーワードを、次の新たな検索キーワードとして選択すると、その新たな検索キーワードに応じたコンテンツとともに、その新たな検索キーワードに関連する新たな拡張キーワードが絞込みキーワードよりも多く表示される。したがって、拡張検索を実行しようとしているユーザに対して多くの拡張キーワードが表示されるため、ユーザに対する使い勝手を向上することができる。
なお、本発明は、このようなコンテンツ検索装置として実現することができるだけでなく、その装置によりコンテンツを検索する方法や、その装置にコンテンツを検索させるためのプログラム、そのプログラムを格納するコンピュータ読み取り可能な記憶媒体、集積回路としても実現することができる。
本発明のコンテンツ検索装置は、ユーザの検索対象となるコンテンツが流動的に変化するような場合にも、そのユーザに対して所望のコンテンツを検索するための関連キーワードを提示することができるという作用効果を奏する。
以下、本発明の実施の形態におけるコンテンツ検索装置について図面を参照しながら説明する。なお、本実施の形態では、過去から現在までのテレビ番組である複数のコンテンツが蓄積されたサーバーなどから、ユーザが視聴しようとするコンテンツを検索するコンテンツ検索装置について説明する。
図1は、本実施の形態におけるコンテンツ検索装置の構成を示すブロック図である。
本実施の形態におけるコンテンツ検索装置100は、ユーザの検索対象となるコンテンツが流動的に変化するような場合にも、そのユーザに対して所望のコンテンツを検索するための関連キーワードを提示することができる装置であって、入力判別部101と、キーワード記憶部102と、文書空間データベース103と、文書空間選択部104と、検索条件判定部105と、関連キーワード生成比率決定部106と、コンテンツ推定部107と、関連キーワード推定部108と、コンテンツデータベース109と、出力生成部110と、出力部111とを備えている。
入力判別部101は、出力部111に表示された複数の選択肢から、ユーザの操作によって選択された選択肢(以下、入力選択肢という)を受け付けて、その入力選択肢がキーワードを示すか、コンテンツを示すかを判別する。入力判別部101は、キーワードを示すと判別すると、その入力選択肢をキーワード記憶部102に出力し、コンテンツを示すと判別すると、その入力選択肢を出力生成部110に出力する。ここで、入力判別部101に最近受け付けられた入力選択肢がキーワードを示す場合、以下、そのキーワードを検索キーワードという。
キーワード記憶部102は、入力判別部101から出力された入力選択肢の示すキーワードを記憶するための領域を有する。
検索条件判定部105は、キーワード記憶部102に格納された検索キーワードによる検索のモード(検索モード)が絞込みモードであるか拡張モードであるかを判定する。ここで、絞込みモードとは、検索キーワードと、検索開始時から現在までに入力された過去のキーワードとを組み合わせてコンテンツを絞り込む検索(絞込み検索)を行うモードである。一方、拡張モードとは、過去のキーワードに関わらず検索キーワードのみに適合したコンテンツの検索(拡張検索)を行うモードである。
関連キーワード生成比率決定部106は、検索条件判定部105で判定された結果に応じて、表示すべき絞込みキーワードの数と拡張キーワードの数との比率(表示比率)を決定する。絞込みキーワードとは、絞込み検索を実行させるための次の検索キーワードとなり得るキーワードであって、過去に入力されたキーワードで検索されたコンテンツ内をさらに細分化して絞り込むためのキーワードである。一方、拡張キーワードとは、拡張検索を実行させるための次の検索キーワードとなり得るキーワードであって、過去に入力されたキーワードと関連度の近い新たなキーワードでコンテンツを再検索するためのキーワードである。また、このような絞込みキーワードおよび拡張キーワードを総称して関連キーワードという。
コンテンツデータベース109は、放送されているテレビ番組などの複数のコンテンツを逐次格納している。ここで、コンテンツは、テレビ番組の動画や音声を示すコンテンツデータと、例えばテレビ番組のEPG情報のようにそのテレビ番組の属性を示すコンテンツ属性情報とを含んでいる。
文書空間データベース103は、コンテンツデータベース109に示される各コンテンツと各キーワードとの関係を示す複数の文書空間を格納している。なお、文書空間データベース103に格納されている複数の文書空間は、それぞれ空間IDにより識別される。
文書空間選択部104は、検索キーワードを用いて、文書空間データベース103の中から、絞込みキーワードを推定するために使用すべき文書空間(以下、絞込み文書空間という)と、拡張キーワードを推定するために使用すべき文書空間(以下、拡張文書空間という)とを選択する。そして、文書空間選択部104は、選択した絞込み文書空間の空間IDと、選択した拡張文書空間の空間IDとを関連キーワード推定部108に出力する。
コンテンツ推定部107は、キーワード記憶部102に記憶されているキーワードと、文書空間データベース103に格納されている複数の文書空間とを用いて、検索キーワードに関連するコンテンツを推定する。そして、コンテンツ推定部107は、その推定したコンテンツを識別するためのコンテンツIDを関連キーワード推定部108および出力生成部110に出力する。
関連キーワード推定部108は、コンテンツ推定部107から出力されたコンテンツIDと、関連キーワード生成比率決定部106で決定された比率と、文書空間選択部104から出力された空間IDとを取得し、それらと文書空間データベース103とを用いて絞込みキーワードおよび拡張キーワードを関連キーワードとして推定する。関連キーワード推定部108は、その推定した関連キーワードを識別するためのキーワードIDを出力生成部110に出力する。
出力生成部110は、入力判別部101からコンテンツを示す入力選択肢を取得すると、その入力選択肢に応じたコンテンツデータをコンテンツデータベース109から抽出して出力部111に出力する。
また、出力生成部110は、コンテンツ推定部107からコンテンツIDを取得するとともに、関連キーワード推定部108からキーワードIDを取得すると、そのコンテンツIDに対応するコンテンツ属性情報と、そのキーワードIDに対応する関連キーワードとをコンテンツデータベース109から抽出する。そして、出力生成部110は、そのコンテンツ属性情報と関連キーワードとを含む検索結果情報を出力部111に出力する。
出力部111は、例えば液晶ディスプレイなどを備え、出力生成部110からコンテンツデータを取得すると、そのコンテンツデータを再生する。一方、出力部111は、出力生成部110から検索結果情報を取得すると、その検索結果情報の示す内容を表示する。
なお、本実施の形態では、入力判別部101が、検索キーワードを取得するキーワード取得手段として構成され、コンテンツ推定部107が、検索キーワードに応じたコンテンツをコンテンツデータベース109から検索するコンテンツ検索手段として構成され、出力部111が、関連キーワード推定部108により推定された絞込みキーワードおよび拡張キーワードを関連キーワードとして表示するとともに、コンテンツ推定部107により推定されたコンテンツの属性を表示する表示手段として構成されている。
ここで、このようなコンテンツ検索装置100の全体的な動作について、そのコンテンツ検索装置100に表示される画面を用いて説明する。
図2は、コンテンツ検索装置100が検索開始時に表示する画面の一例を示す図である。
例えば、コンテンツ検索装置100は、検索開始時には、初期検索画面を出力部111に表示する。この初期検索画面には、選択肢である初期検索キーワードとして「松下花子」や、「日本」、「バスケットボール」などが表示される。この場合、出力生成部110は、例えば、予め定められた「松下花子」や「日本」などの単語を初期検索キーワードとして出力部111に表示させる。なお、出力生成部110は、「スポーツ」や「ドキュメンタリー」などの一般的なジャンルを示す単語を初期検索キーワードとして出力部111に表示させてもよい。また、出力生成部110は、出力部111に出力したコンテンツデータの履歴、つまりユーザの視聴履歴を用い、ユーザの視聴頻度の多いコンテンツのコンテンツ属性情報に含まれる単語を初期検索キーワードとして出力部111に表示させてもよい。
ここで、ユーザは、出力部111の初期検索画面に表示された選択肢である初期検索キーワードから、例えば、初期検索キーワード「松下花子」を選択する。その結果、コンテンツ検索装置100は、初期検索キーワード「松下花子」に関連するコンテンツ属性情報と、初期検索キーワード「松下花子」に関連するキーワード(関連キーワード)とを含む検索結果情報の内容を表示する。
図3は、コンテンツ検索装置100が初期検索画面の後に表示する画面の一例を示す図である。
コンテンツ検索装置100は、上述のように、初期検索画面の中の何れかの初期検索キーワードが入力選択肢として選択されると、その初期検索キーワードに関連するコンテンツや関連キーワードを検索して、その初期検索キーワードに対する検索結果画面を出力部111に表示する。この検索結果画面には、その選択された初期検索キーワードに関連するコンテンツ属性情報(コンテンツの名称や概要)の一覧を示すコンテンツリストL1と、その選択された初期検索キーワードに関連する絞込みキーワードの一覧を示す絞込みリストL2と、その選択された初期検索キーワードに関連する拡張キーワードの一覧を示す拡張リストL3とが表示される。なお、これらのコンテンツ属性情報、絞込みキーワードおよび拡張キーワードは、それぞれ新たな選択肢として表示される。
例えば、上述のように初期検索画面で初期検索キーワード「松下花子」が選択されると、コンテンツリストL1には、「松下花子」に関連する複数のコンテンツの名称およびその概要が表示され、絞込みリストL2には、「松下花子」に関連する複数の絞込みキーワードが表示され、拡張リストL3には、「松下花子」に関連する複数の拡張キーワードが表示される。
ここで、ユーザは、出力部111の検索結果画面のコンテンツリストL1に、視聴しようとするコンテンツの名称などがあれば、そのコンテンツの名称などを選択する。その結果、コンテンツ検索装置100は、その選択されたコンテンツの名称(コンテンツを示す入力選択肢)に対応するコンテンツデータをコンテンツデータベース109から抽出して再生し、出力部111に表示させる。これにより、コンテンツの検索は終了する。
一方、ユーザは、検索結果画面のコンテンツリストL1に、視聴しようとするコンテンツの名称などがなければ、視聴しようとするコンテンツに関連していると思われる関連キーワードを絞込みリストL2または拡張リストL3から選択する。その結果、コンテンツ検索装置100は、その選択された関連キーワードを次の検索キーワード(入力選択肢)とし、その検索キーワードに関連するコンテンツや関連キーワードを検索して、その検索キーワードに対する検索結果画面を出力部111に表示する。
図4は、コンテンツ検索装置100が検索結果画面の後に表示する他の検索結果画面の一例を示す図である。
例えば、図3に示す検索結果画面の絞込みリストL2から絞込みキーワード「京都」が選択されると、コンテンツリストL1には、「京都」に関連する複数のコンテンツの名称およびその概要が表示され、絞込みリストL2には、「京都」に関連する複数の絞込みキーワードが表示され、拡張リストL3には、「京都」に関連する複数の拡張キーワードが表示される。
このように、コンテンツ検索装置100は、ユーザによって関連キーワード(絞込みキーワードまたは拡張キーワード)が選択されるごとに、その関連キーワードを新たな検索キーワードとして、その検索キーワードに関連する新たなコンテンツおよび関連キーワードを検索して表示することを繰り返す。
ここで、コンテンツ検索装置100の各構成要素について詳細に説明する。
図5は、コンテンツデータベース109に蓄積される複数のコンテンツ属性情報の一例を示す図である。
コンテンツ属性情報CAは、例えば、コンテンツを識別するためのコンテンツID、コンテンツの名称であるコンテンツ名、コンテンツの視聴開始時刻、コンテンツに対するキーワード、およびコンテンツの概要を含んでいる。
なお、コンテンツ属性情報CAに含まれるキーワードは、EPGのようにコンテンツデータの属性として記載されている説明文やタイトルなどから形態素解析など行って抽出される。また、コンテンツ属性情報CAに含まれる各キーワードには、それらのキーワードを識別するためのキーワードIDが付されている。
図6は、文書空間データベース103に格納されている複数の文書空間を示す図である。
文書空間データベース103は、例えば、空間ID「1,2,3」により示される3つの文書空間を格納している。
各文書空間は、上述のコンテンツ属性情報CAに含まれる複数のキーワード(キーワードID)のそれぞれと、コンテンツデータベース109に示される全てのコンテンツ(コンテンツID)のそれぞれとの間における関連度を行列により示す。例えば、関連度にはTF・IDF値などが用いられる。
TF・IDF値とは、文書(コンテンツ)に対するキーワードの網羅性や、特定性を組み合わせたキーワードの重み付けの指標であり、具体的な算出方法については、例えば「情報検索と言語処理」(pp.32−33,東京大学出版会,1999)(非特許文献1)に記載されている。
なお、TF・IDF値などの値を、潜在的意味インデキシング(Latent Semantic Indexing;以下LSIという)で抽象化してもよい。LSIを用いた場合には、高次元の空間では別々に扱われていたキーワードが、低次元の空間では相互に関連付く可能性があるため、キーワードの持つ意味や概念に基づく検索を行うことができる。例えば、野球とベースボールというキーワードは別物であり、一方のキーワードによる質問ではもう片方のキーワードを含んだ文書を検索することができない。しかし、低次元の空間では、これらの意味的に関連したキーワードはひとつの次元に縮退することが期待できるため、野球というキーワード入力によってベースボールを含む番組も検索することが可能になる。LSIを用いた文書検索方法については「情報検索アルゴリズム」(pp.65−77,共立出版,2002)(非特許文献2)に記載されている。
なお、図6に示す例では、コンテンツ(コンテンツ属性情報CA)に出現するキーワードに対しては関連度「1」が示され、コンテンツに出現しないキーワードに対しては関連度「0」が示されている。例えば、空間ID「1」の文書空間は、キーワードID「KW1a」のキーワードのコンテンツID「C1,C2,…Ck」に対する関連度を「1,1,…0」として示す。
また、3つの文書空間は、キーワードの頻度情報により分けられている。キーワードの頻度情報とは、コンテンツデータベース109の各コンテンツにそのキーワードが出現する出現頻度である。例えば、頻度情報には、キーワードに対するコンテンツ数が関係付けられた指標であるDF値(Document Frequency:キーワードが出現する文書数)などが用いられる。したがって、多くのコンテンツ(コンテンツ属性情報CA)に出現するキーワードの頻度情報は大きな値を示し、少ないコンテンツ(コンテンツ属性情報CA)に出現するキーワードの頻度情報は小さい値を示す。
例えば、空間ID「1」の文書空間は、頻度情報の示す値が大きい各キーワードと各コンテンツとの関連度を示し、空間ID「2」の文書空間は、頻度情報の示す値が中程度の各キーワードと各コンテンツとの関連度を示し、空間ID「3」の文書空間は、頻度情報の示す値が小さい各キーワードと各コンテンツとの関連度を示す。
つまり、キーワードID「KW1a,KW2a,…KWna」の各キーワードは、多くのコンテンツ(コンテンツ属性情報CA)に出現しているため、空間ID「1」の文書空間に分類され、キーワードID「KW1b,KW2b,…KWmb」の各キーワードは、中程度の数のコンテンツ(コンテンツ属性情報CA)に出現しているため、空間ID「2」の文書空間に分類され、キーワードID「KW1c,KW2c,…KWlc」の各キーワードは、少ないコンテンツ(コンテンツ属性情報CA)に出現しているため、空間ID「3」の文書空間に分類されている。
なお、文書空間の更新はコンテンツデータベースの更新に応じて行われる。そのため、空間IDとキーワード(キーワードID)との対応付けは、コンテンツデータベースの更新によって変化する。例えば、「スキー」というキーワードは冬に多く出現するため、冬では、そのキーワード(キーワードID)は上位の空間ID、つまり頻度情報の示す値が大きい文書空間の空間IDに対応付けられる。逆に、夏には、「スキー」というキーワードの出現頻度は少なくなるため、そのキーワード(キーワードID)は下位の空間ID、つまり頻度情報の示す値が小さい文書空間の空間IDに対応付けられる。
これにより、キーワードとユーザが想起する番組数との対応付けを、時期の変化に応じて正しく行うことができ、違和感の無い絞込みキーワードおよび拡張キーワードを提示することができる。
本実施の形態では、このようにコンテンツデータベース109に含まれる各コンテンツと各キーワードとの関係を示す文書空間を、キーワードの出現頻度に応じて複数に分割していることに特徴がある。
入力判別部101は、図3に示すような検索結果画面のコンテンツリストL1に表示されている入力選択肢を受け付けると、その入力選択肢がコンテンツを示すと判別し、その入力選択肢であるコンテンツIDを出力生成部110に出力する。
一方、入力判別部101は、図3に示すような検索結果画面の絞込みリストL2または拡張リストL3に表示されている入力選択肢を受け付けると、その入力選択肢がキーワードを示すと判別し、その入力選択肢であるキーワードIDと、そのキーワードIDの示すキーワードとを、キーワード記憶部102に格納する。このとき、入力判別部101は、図3に示すような絞込みリストL2および拡張リストL3の何れから入力選択肢が選択されたかを示す検索モードフラグと、その選択が検索開始時から何回目の選択であるかを示す検索ステップとを、キーワードIDおよびキーワードとともにキーワード記憶部102に格納する。
図7は、キーワード記憶部102に格納されている情報を示す図である。
入力判別部101は、例えば、図2に示すような初期検索画面にある複数の選択肢から選択された初期検索キーワード「松下花子」を示す入力選択肢を受け付けると、そのキーワード「松下花子」およびそのキーワードID「10」と、1回目の選択であることを示す検索ステップ「1」とを関連付けてキーワード記憶部102に格納する。なお、このときの入力選択肢は、絞込みリストL2および拡張リストL3の何れにも含まれていないため、入力判別部101は検索モードフラグ「初期」を上記キーワードに関連付けて格納する。
次に、入力判別部101は、例えば、図3に示すような検索結果画面にある複数の選択肢から選択されたキーワード「京都」を示す入力選択肢を受け付けると、そのキーワード「京都」およびそのキーワードID「23」と、2回目の選択であることを示す検索ステップ「2」と、絞込みリストL2から選択されたことを示す検索モードフラグ「絞込み」とを関連付けてキーワード記憶部102に格納する。
なお、入力判別部101は、入力選択肢の示すキーワードが属する文書空間の空間IDを、そのキーワードに関連付けてキーワード記憶部102に格納してもよい。
このようにキーワード記憶部102に関連付けて格納される検索ステップ、キーワード、キーワードIDおよび検索モードフラグからなる情報を、以下、キーワード情報という。
コンテンツ推定部107は、図7に示すような、キーワード記憶部102に記憶されているキーワード情報と、図6に示すような、文書空間データベース103に格納されている複数の文書空間とを用いて、検索キーワードに関連するコンテンツを推定する。
ここで、コンテンツ推定部107は、検索キーワードの検索モードフラグに応じて絞込みモードによるコンテンツの推定と、拡張モードによるコンテンツの推定とを行う。
図8は、コンテンツ推定部107の動作を示すフローチャートである。
まず、コンテンツ推定部107は、キーワード記憶部102に検索キーワードのキーワード情報が格納されると、そのキーワード情報をキーワード記憶部102から取得する(ステップS201)。
例えば、3回目に選択されたキーワード「グルメ」などが検索キーワードとしてキーワード記憶部102に格納されると、コンテンツ推定部107は、キーワード「グルメ」とキーワードID「54」と検索モードフラグ「拡張」とを示すキーワード情報をキーワード記憶部102から取得する。
次に、コンテンツ推定部107は、ステップS201で取得されたキーワード情報に含まれる検索モードフラグに基づいて、そのキーワード情報に含まれる検索キーワードが絞込みキーワードであるか否かを判別する(ステップS202)。つまり、コンテンツ推定部107は、検索モードフラグが「絞込み」を示すときには、検索キーワードが絞込みキーワードであると判別し、検索モードフラグが「拡張」を示すときには、検索キーワードが拡張キーワードであると判別する。
ここで、コンテンツ推定部107は、検索キーワードが絞込みキーワードであると判別すると(ステップS202のY)、さらに、検索モードフラグが「拡張」または「初期」を示す最近のキーワードが格納されるまでにキーワード記憶部102に格納された過去のキーワードをそのキーワード記憶部102から抽出する(ステップS203)。つまり、コンテンツ推定部107は、ステップS201およびステップS203で、最近の1つまたは複数の連続する絞込みキーワードと、1つの初期検索キーワードまたは最近の1つの拡張キーワードとを取得する。
コンテンツ推定部107は、検索キーワードが拡張キーワードであると判別したときや(ステップS202のN)、ステップS203の後には、検索キーワードや上述の過去のキーワードの関連度を示す文書空間を文書空間データベース103から選択する(ステップS205)。
例えば、コンテンツ推定部107は、ステップS201で、キーワードID「KW2c」のキーワードを検索キーワードとして取得すると、そのキーワードID「KW2c」のキーワードに対応する空間ID「3」の文書空間を選択する。また、コンテンツ推定部107は、ステップS203で、キーワードID「KW2b」の過去のキーワードを取得すると、そのキーワードID「KW2b」のキーワードに対応する空間ID「2」の文書空間を選択する。
次に、コンテンツ推定部107は、検索キーワードが絞込みキーワードであるときには、絞込みキーワードに応じた入力キーワードベクトルを生成し、検索キーワードが拡張キーワードであるときには、その拡張キーワードに応じた入力キーワードベクトルを生成する(ステップS206)。
つまり、検索キーワードが絞込みキーワードであるときには、コンテンツ推定部107は、ステップS205で選択した各文書空間に分類される各キーワードが、ステップS201およびステップS203で取得されているか否かに応じて入力キーワードベクトルを生成する。
例えば、ステップS201で取得された検索キーワード(絞込みキーワード)のキーワードIDが「KW2c」であって、ステップS203で取得された過去のキーワードのキーワードIDが「KW2b」である場合、ステップS205では、検索キーワードに対応する空間ID「3」の文書空間と、過去のキーワードに対応する空間ID「2」の文書空間とが選択されている。
この場合、空間ID「2,3」の文書空間に分類されるキーワード(キーワードID=KW1b,KW2b,…,KWmb,KW1c,KW2c,…,KWlc)のうち、キーワードID「KW2c,KW2b」のキーワードが取得されている。したがって、コンテンツ推定部107は、取得されているキーワードに対して「1」を示し、取得されていないキーワードに対しては「0」を示すように、入力キーワードベクトル(KW1b,KW2b,…,KWmb,KW1c,KW2c,…,KWlc)=(0,1,…,0,0,1,…,0)を生成する。
一方、検索キーワードが拡張キーワードであるときには、コンテンツ推定部107は、ステップS205で選択した各文書空間に分類される各キーワードが、ステップS201で取得されているか否かに応じて入力キーワードベクトルを生成する。
例えば、ステップS201で取得された検索キーワード(拡張キーワード)のキーワードIDが「KW2b」である場合、ステップS205では、検索キーワードに対応する空間ID「2」の文書空間が選択されている。
この場合、空間ID「2」の文書空間に分類されるキーワード(キーワードID=KW1b,KW2b,…,KWmb)のうち、キーワードID「KW2b」のキーワードが取得されている。したがって、コンテンツ推定部107は、取得されているキーワードに対して「1」を示し、取得されていないキーワードに対しては「0」を示すように、入力キーワードベクトル(KW1b,KW2b,…,KWmb)=(0,1,…,0)を生成する。
次に、コンテンツ推定部107は、ステップS206で生成した入力キーワードベクトルと、ステップS205で選択された文書空間により示される各コンテンツの列ベクトルとのコサイン距離を算出することにより、検索キーワードに対する各コンテンツの関連度を算出する(ステップS207)。
そして、コンテンツ推定部107は、例えば、閾値以上の関連度が算出されたコンテンツを、ユーザが視聴しようとするコンテンツとして推定し、そのコンテンツのコンテンツIDを出力する(ステップS208)。
なお、ステップS206では、他の方法により入力キーワードベクトルを生成してもよい。例えば、コンテンツ推定部107は、検索キーワードに関連するコンテンツと、キーワード記憶部102に記憶されているキーワードのうち検索キーワードを除く過去のキーワードに関連するコンテンツとを検索する。次に、コンテンツ推定部107は、このように検索されたコンテンツのうち、重複しているコンテンツの数の比率が閾値以上の場合には、検索キーワードと過去のキーワードとを含めた全てのキーワードを用いて入力キーワードベクトルを作成する。一方、重複しているコンテンツの数の比率が閾値未満の場合には、コンテンツ推定部107は、その過去のキーワードを用いず、検索キーワードだけを用いて入力キーワードベクトルを生成してもよい。これにより、キーワード記憶部102に記憶されている過去のキーワードの中から、探したいコンテンツに適合した入力キーワードベクトルを作成することができ、ユーザの探したいコンテンツを適切に推定することが可能になる。
文書空間選択部104は、キーワード記憶部102に格納されている検索キーワードを含むキーワード情報を読み出し、その検索キーワードに対応する文書空間、つまり検索キーワードの関連度を示す文書空間を文書空間データベース103から見つけ出す。
ここで、文書空間選択部104は、検索キーワードの検索モードフラグが「絞込み」を示す場合、つまり検索キーワードが絞込みキーワードとして表示されていた場合には、その検索キーワードに対応する文書空間の空間IDよりも大きい空間IDにより示される文書空間を、上述の絞込み文書空間として選択する。
例えば、絞込みキーワードとして表示されていた検索キーワードのキーワードIDが「KW2b」である場合、文書空間選択部104は、図6に示す文書空間データベース103から、キーワードID「KW2b」の検索キーワードに対応する空間ID「2」の文書空間を見つけ出す。そして、文書空間選択部104は、その空間ID「2」よりも大きい空間ID「3」の文書空間を絞込み文書空間として選択する。
すなわち、文書空間選択部104は、文書空間データベース103から、検索キーワードの関連度を示す文書空間の出現頻度よりも少ない出現頻度に対応する文書空間を、絞込み文書空間情報として選択する。
一方、文書空間選択部104は、検索キーワードの検索モードフラグが「拡張」を示す場合、つまり検索キーワードが拡張キーワードとして表示されていた場合には、その検索キーワードに対応する文書空間の空間ID以下の空間IDにより示される文書空間を、上述の拡張文書空間として選択する。
例えば、拡張キーワードとして表示されていた検索キーワードのキーワードIDが「KW2b」である場合、文書空間選択部104は、図6に示す文書空間データベース103から、キーワードID「KW2b」の検索キーワードに対応する空間ID「2」の文書空間を見つけ出す。そして、文書空間選択部104は、その空間ID「2」以下の空間ID「1,2」の文書空間を拡張文書空間として選択する。
すなわち、文書空間選択部104は、文書空間データベース103から、検索キーワードの関連度を示す文書空間情報の出現頻度以上の出現頻度に対応する文書空間情報を、拡張文書空間情報として選択する。
このように、本実施の形態における文書空間選択部104は、文書空間データベース103から、検索キーワードの関連度を示す文書空間の出現頻度よりも少ない出現頻度に対応する文書空間を、絞込み文書空間として選択する第1の文書空間選択手段と、文書空間データベース103から、検索キーワードの関連度を示す文書空間の出現頻度以上の出現頻度に対応する文書空間を、拡張文書空間情報として選択する第2の文書空間選択手段とを備えている。
検索条件判定部105は、キーワード記憶部102に格納されている検索キーワードを含むキーワード情報を読み出し、その検索キーワードの検索モードフラグを特定する。その結果、検索モードフラグが「絞込み」を示すときには、検索条件判定部105は、その検索キーワードに対する検索モードが絞込みモードであると判定する。一方、検索モードフラグが「拡張」を示すときには、検索条件判定部105は、その検索キーワードに対する検索モードが拡張モードであると判定する。
つまり、本実施の形態における検索条件判定部105は、出力部111により表示された絞込みキーワードがユーザにより選択されることによって入力判別部101が絞込みキーワードを検索キーワードとして取得したときには、コンテンツ推定部107により絞込み検索が行われると判定し、一方、出力部111により表示された拡張キーワードがユーザにより選択されることによって入力判別部101が拡張キーワードを検索キーワードとして取得したときには、コンテンツ推定部107により拡張検索が行われると判定する。
関連キーワード生成比率決定部106は、検索条件判定部105で判定された検索モードが絞込みモードである場合には、表示すべき絞込みキーワードの数が拡張キーワードの数よりも多くなるような表示比率を決定し、検索条件判定部105で判定された検索モードが拡張モードである場合には、表示すべき拡張キーワードの数が絞込みキーワードの数よりも多くなるような表示比率を決定する。
例えば、関連キーワード生成比率決定部106は、70%を閾値として保持しており、検索モードが絞込みモードのときには、絞込みキーワード数:拡張キーワード数=7:3を表示比率として決定し、検索モードが拡張モードのときには、絞込みキーワード数:拡張キーワード数=3:7を表示比率として決定する。
その結果、検索結果画面では、この表示比率に応じた数の絞込みキーワードと拡張キーワードとが表示される。例えば、検索結果画面において表示される関連キーワードの数が最大10個であれば、絞込みキーワード数:拡張キーワード数=7:3のときには、絞込みリストL2に7個の絞込みキーワードが表示され、拡張リストL3に3個の拡張キーワードが表示される。一方、絞込みキーワード数:拡張キーワード数=3:7のときには、絞込みリストL2に3個の絞込みキーワードが表示され、拡張リストL3に7個の拡張キーワードが表示される。
関連キーワード推定部108は、文書空間選択部104で選択された絞込み文書空間および拡張文書空間の空間IDを取得し、コンテンツ推定部107で推定されたコンテンツのコンテンツIDを取得する。その結果、関連キーワード推定部108は、その取得した空間IDによって示される文書空間データベース103の絞込み文書空間において、取得したコンテンツIDのコンテンツに閾値以上の関連度で関連付けられているキーワードを絞込みキーワードの候補として特定する。さらに、関連キーワード推定部108は、その取得した空間IDによって示される文書空間データベース103の拡張文書空間において、取得したコンテンツIDのコンテンツに閾値以上の関連度で関連付けられているキーワードを拡張キーワードの候補として特定する。なお、関連キーワード推定部108は、検索キーワードと同一のキーワード以外のキーワードを、絞込みキーワードまたは拡張キーワードの候補として特定する。
さらに、関連キーワード推定部108は、関連キーワード生成比率決定部106から表示比率を取得し、その表示比率に基づいて、表示すべき絞込みキーワードおよび拡張キーワードのそれぞれの数(絞込み表示数および拡張表示数)を決定する。その結果、関連キーワード推定部108は、上述のように特定された絞込みキーワードの候補の中から、絞込み表示数だけの候補を、表示すべき絞込みキーワードとして、関連度の大きいものから順に選択する。さらに、関連キーワード推定部108は、上述のように特定された拡張キーワードの候補の中から、拡張表示数だけの候補を、表示すべき拡張キーワードとして、関連度の大きいものから順に選択する。
図9は、関連キーワード推定部108が関連キーワードの候補を特定する動作を説明するための説明図である。
関連キーワード推定部108は、例えば、絞込み文書空間の空間ID「2」を文書空間選択部104から取得するとともに、コンテンツID「C4」をコンテンツ推定部107から取得する。この場合、関連キーワード推定部108は、その取得した空間ID「2」によって示される文書空間データベース103の絞込み文書空間において、取得したコンテンツID「C4」のコンテンツに閾値「0.5」以上の関連度で関連付けられているキーワードを絞込みキーワードの候補として特定する。
つまり、関連キーワード推定部108は、空間ID「2」の絞込み文書空間である行列の中から、コンテンツID「C4」に対応する列ベクトル(0.8, 0.2, 0.1, 0.4, 0.7)を参照する。そして、関連キーワード推定部108は、その列ベクトルの中で閾値「0.5」以上の関連度「0.8, 0.7」に対応するキーワードID「KW1b,KW5b」のキーワードを絞込みキーワードの候補として特定する。
図10は、関連キーワード推定部108が関連キーワードを推定する動作を具体的に説明するための説明図である。
文書空間データベース103は、例えば、コンテンツ1、コンテンツ2およびコンテンツ3と、各キーワードとの関係を示す3つの文書空間(空間ID=1,2,3)が格納されている。
空間ID「1」の文書空間は、頻度情報であるDF値が100以上のキーワード「スポーツ,報道,ドラマ」と、コンテンツ1,2,3との関係を示し、空間ID「2」の文書空間は、DF値が20より大きく99以下のキーワード「サッカー,友情,日本」と、コンテンツ1,2,3との関係を示し、空間ID「3」の文書空間は、頻度情報であるDF値が1以上20未満のキーワード「天気,ブラジル,学校」と、コンテンツ1,2,3との関係を示している。また、キーワードとコンテンツとの関係は、それらの間の関連度であるTF・IDF値で示されている。
このような場合、関連キーワード推定部108は、スポーツドラマに関する番組であるコンテンツ3を示すコンテンツIDをコンテンツ推定部107から取得し、絞込み文書空間を示す空間ID「2」を文書空間選択部104から取得すると、上述のような文書空間データベース103の中の、コンテンツ3および絞込み文書空間(空間ID=2)に対応する列ベクトル(0.7, 0.9, 0.1)を参照する。そして、関連キーワード推定部108は、その列ベクトルの中で閾値「0.5」以上のTF・IDF値「0.7, 0.9」を有するキーワード「サッカー,友情」を絞込みキーワードの候補として特定する。
さらに、関連キーワード推定部108は、関連キーワード生成比率決定部106から表示比率を取得し、例えば検索結果画面に表示可能な関連キーワードの最大数とその表示比率とを用いて、絞込み表示数を決定する。関連キーワード推定部108は、例えば、その絞込み表示数が1のときには、上述のように特定された絞込みキーワードの候補「サッカー,友情」のうち、TF・IDF値が最も大きい絞込みキーワード「友情」のみを、検索結果画面に表示すべき絞込みキーワードとして選択する。
関連キーワード推定部108は、このような選択により絞込みキーワードを推定し、その絞込みキーワードのキーワードIDを出力生成部110に出力する。
一方、関連キーワード推定部108は、コンテンツ3を示すコンテンツIDをコンテンツ推定部107から取得し、拡張文書空間を示す空間ID「1」を文書空間選択部104から取得すると、上述のような文書空間データベース103の中の、コンテンツ3および拡張文書空間(空間ID=1)に対応する列ベクトル(0.8, 0, 0.7)を参照する。そして、関連キーワード推定部108は、その列ベクトルの中で閾値「0.5」以上のTF・IDF値「0.7」を有するキーワード「ドラマ」を拡張キーワードの候補として特定する。
なお、関連キーワード推定部108は、検索キーワードが「スポーツ」であるため、拡張文書空間にキーワード「スポーツ」があれば、そのキーワード「スポーツ」を除く他のキーワードの中から、閾値以上のTF・IDF値を有する拡張キーワードの候補を特定している。したがって、上述の例では、列ベクトルの中で閾値「0.5」以上のTF・IDF値には「0.8」と「0.7」とがあるが、TF・IDF値「0.7」を有するキーワード「ドラマ」のみが拡張キーワードの候補として特定されている。
さらに、関連キーワード推定部108は、上述と同様、関連キーワード生成比率決定部106から表示比率を取得し、例えば検索結果画面に表示可能な関連キーワードの最大数とその表示比率とを用いて拡張表示数を決定する。例えば、上述のように特定された拡張キーワードの候補が複数あるときには、関連キーワード推定部108は、その特定された複数の拡張キーワードの候補の中から、その拡張表示数だけの候補を、検索結果画面に表示すべき拡張キーワードとして、TF・IDF値が大きいものから順に選択する。
関連キーワード推定部108は、このような選択により拡張キーワードを推定し、その拡張キーワードのキーワードIDを出力生成部110に出力する。
図11は、関連キーワード推定部108の動作を示すフローチャートである。
まず、関連キーワード推定部108は、コンテンツ推定部107で推定されたコンテンツのコンテンツIDを取得するとともに(ステップS301)、文書空間選択部104で選択された絞込み文書空間の空間IDを取得する(ステップS302)。
次に、関連キーワード推定部108は、ステップS302で取得した空間IDの示す絞込み文書空間の中の、ステップS301で取得したコンテンツIDに対応する列ベクトルを参照し、閾値以上の関連度を有するキーワードを絞込みキーワードの候補として特定する(ステップS303)。さらに、関連キーワード推定部108は、関連キーワード生成比率決定部106から出力された表示比率に基づいて絞込み表示数を決定し、ステップS303で特定された絞込みキーワードの候補のうち、その絞込み表示数だけの候補を、検索結果画面に表示すべき絞込みキーワードとして、関連度が大きいものから順に選択する(ステップS304)。
また、関連キーワード推定部108は、文書空間選択部104で選択された拡張文書空間の空間IDを取得する(ステップS305)。
そして、関連キーワード推定部108は、ステップS305で取得した空間IDの示す拡張文書空間の中の、ステップS301で取得したコンテンツIDに対応する列ベクトルを参照し、閾値以上の関連度を有するキーワードを拡張キーワードの候補として特定する(ステップS306)。なお、関連キーワード推定部108は、その拡張文書空間に検索キーワードと同一のキーワードがあれば、そのキーワード以外のキーワードの中から、閾値以上の関連度を有する拡張キーワードの候補を特定する。
さらに、関連キーワード推定部108は、関連キーワード生成比率決定部106から出力された表示比率に基づいて拡張表示数を決定し、ステップS306で特定された拡張キーワードの候補のうち、その拡張表示数だけの候補を、検索結果画面に表示すべき拡張キーワードとして、関連度が大きいものから順に選択する(ステップS307)。
関連キーワード推定部108は、このようなステップS301〜S307の処理を実行することにより、絞込みキーワードおよび拡張キーワードを関連キーワードとして推定する。
なお、本実施の形態における関連キーワード推定部108は、コンテンツ推定部107により検索されたコンテンツに対して大きな関連度が示されているキーワードほど選択されるように、コンテンツデータベース109から絞込み文書空間および拡張文書空間のそれぞれに応じたキーワードを絞込みキーワードおよび拡張キーワードとして選択する関連キーワード選択手段として構成されている。
出力生成部110は、例えば、コンテンツ3を示すコンテンツIDをコンテンツ推定部107から取得すると、そのコンテンツ3に対応するコンテンツ属性情報をコンテンツデータベース109から抽出して出力部111に出力する。さらに、出力生成部110は、絞込みキーワードおよび拡張キーワードのそれぞれのキーワードIDを関連キーワード推定部108から取得すると、それらのキーワードIDの示す絞込みキーワードおよび拡張キーワードをコンテンツデータベース109から抽出して出力部111に出力する。
図12は、出力部111により表示される検索結果画面の一例を示す図である。
出力部111は、検索キーワード「スポーツ」に対して出力生成部110から上述のように出力された、コンテンツ3に対応するコンテンツ属性情報と、絞込みキーワードおよび拡張キーワードとを取得すると、それらを検索結果画面の所定の場所に配置して表示する。
その結果、コンテンツリストL1には、コンテンツ3に対するコンテンツ属性情報として、そのコンテンツの名称「コンテンツ3」および概要が表示される。また、絞込みリストL2には、コンテンツリストL1に挙げられたコンテンツを絞り込むための絞込みキーワード「友情,サッカー」が表示され、拡張リストL3には、検索キーワード「スポーツ」と異なる観点で再検索を行うための拡張キーワード「ドラマ」が表示される。
図13は、コンテンツ検索装置100の全体的な動作を示すフローチャートである。
まず、コンテンツ検索装置100の入力判別部101は、ユーザの操作によって選択された入力選択肢を受け付けて(ステップS101)、その入力選択肢がキーワードを示すか、コンテンツを示すかを判別する(ステップS102)。
ここで、入力判別部101によってコンテンツを示すと判別されると(ステップS102のN)、出力生成部110は、そのコンテンツのコンテンツデータをコンテンツデータベース109から抽出することにより、出力部111に出力する情報を生成する(ステップS109)。そして、出力部111は、そのコンテンツデータを出力生成部110から取得すると、そのコンテンツデータを再生して表示する(ステップS110)。
一方、入力判別部101は、入力選択肢がキーワードを示すと判別すると(ステップS102のY)、そのキーワード(検索キーワード)およびキーワードIDなどを含むキーワード情報をキーワード記憶部102に格納する(ステップS103)。
コンテンツ推定部107は、ステップS103で、検索キーワードを含むキーワード情報がキーワード記憶部102に格納されると、図8に示すように、キーワード記憶部102および文書空間データベース103を用いて、検索キーワードに関連するコンテンツを検索して推定する(ステップS104)。
さらに、文書空間選択部104は、文書空間データベース103の中から、検索キーワードを用いて絞込み文書空間と拡張文書空間とを選択する(ステップS105)。
また、検索条件判定部105は、キーワード記憶部102に格納された検索キーワードに応じて、検索モードが絞込みモードであるか拡張モードであるかを判定する(ステップS106)。そして、関連キーワード生成比率決定部106は、ステップS106で判定された結果に応じて、表示すべき絞込みキーワードの数と拡張キーワードの数との表示比率を決定する(ステップS107)。
ステップS107で表示比率が決定されると、関連キーワード推定部108は、その表示比率と、ステップS104で推定されたコンテンツと、ステップS105で選択された絞込み文書空間および拡張文書空間とを用いて、絞込みキーワードおよび拡張キーワードを推定する(ステップS108)。
このように絞込みキーワードおよび拡張キーワードが推定されると、出力生成部110は、それらの絞込みキーワードおよび拡張キーワードをコンテンツデータベース109から抽出することにより、出力部111に出力する検索結果情報を生成する(ステップS109)。そして、出力部111は、その検索結果情報を出力生成部110から取得すると、その検索結果情報に含まれる関連キーワードを表示する(ステップS110)。
また、出力部111に表示された関連キーワードの何れかがユーザによって選択されると、コンテンツ検索装置100は、その選択された関連キーワードを次の新たな検索キーワードとして受け付ける。つまり、コンテンツ検索装置100は、ステップS101からの処理を繰り返し実行する。その結果、ユーザは、コンテンツデータベース109から所望のコンテンツを見つけ出すことができる。
このように本実施の形態では、キーワードの頻度情報に応じて分類された複数の文書空間を用い、検索キーワードに対応する文書空間の頻度情報よりも小さい頻度情報の文書空間を絞込み文書空間として選択し、その絞込み文書空間によって大きな関連度が示されるキーワードを絞込みキーワードとして表示するとともに、検索キーワードに対応する文書空間の頻度情報以上の頻度情報の文書空間を拡張文書空間として選択し、その拡張文書空間によって大きな関連度が示されるキーワードを拡張キーワードとして表示する。
文書空間を頻度情報で分類している理由は以下のとおりである。キーワードの頻度情報の値と、キーワードと結びつくコンテンツ数とは正の相関を持つ。したがって、コンテンツを絞り込むためのキーワード(絞込みキーワード)をユーザに提示するためには、検索キーワードの頻度情報の値よりも小さい頻度情報を有するキーワードを絞込みキーワードとして提示する必要がある。一方、ユーザに対して提示されているコンテンツとは異なる他のコンテンツを検索するためのキーワード(拡張キーワード)をユーザに提示するためには、現在提示されているコンテンツ数以上の頻度情報の値をもつキーワードを、拡張キーワードとして提示する必要がある。
そこで、上述のように、コンテンツ数との結びつきが同じレベルのキーワードを纏めてそれらの間で関係付けが行われるように、文書空間を頻度情報で分類しておき、絞込みキーワードまたは拡張キーワードを選択するための文書空間を使い分けることで、適切な絞込みキーワードおよび拡張キーワードを同時に提示することができる。
つまり、ユーザの検索対象となるコンテンツが流動的に変化するような場合にも、そのユーザに対して所望のコンテンツを検索するための関連キーワードを提示することができ、ユーザは大量のコンテンツの中から所望のコンテンツを容易に見つけることができる。
なお、本実施の形態では、図10に示すように、文書空間を3つに分類し、その分類するための閾値(DF値)を100や20としたが、その文書空間の数や閾値を、例えば、予め複数人のユーザで実験を行った上で決定してもよい。具体的には、まず初めに全体の文書空間に含まれるキーワードのDF値を算出し、DF値が異なる複数のキーワードをユーザに提示する。そして、提示されたキーワードで検索した場合に同程度の検索結果数が得られると思うグループに各キーワードを分類してもらう。これにより、文書空間の数と閾値を設定することができる。
以上、本発明に係るコンテンツ検索装置について、上記実施の形態を用いて説明したが、本発明は、これらに限定されるものではない。
例えば、関連キーワード推定部108は、複数の絞込みキーワードの候補の中から、幾つかの絞込みキーワードを選択するときには、関連度の大きいものから順に選択したが、連想辞書を用いて選択してもよい。
一般的に、ユーザが絞込みキーワードや拡張キーワードなどの関連キーワードを選択する場合には、検索キーワードと関連性が強い関連キーワードを選択する。ところが、文書空間データベース103の各文書空間が前述のLSIを用いて作成されている場合には、関連キーワード推定部108で特定される絞込みキーワードの候補の中には、検索キーワードとの関連性が弱い候補が含まれていることがある。したがって、検索キーワードと関連性の弱い絞込みキーワードが提示されても、その絞込みキーワードが選択される可能性は低い。
そこで、このような関連性の弱い絞込みキーワードが提示されるのを避けるため、関連キーワード推定部108は、文書空間を構成するキーワード間の関連性を示す連想辞書を作成しておき、これを用いて絞込みキーワードの候補の中から、表示されるべき絞込みキーワードを選択する。
連想辞書は例えば「自然言語処理」(pp,387−392,岩波書店,1996)(非特許文献3)に示されている方法で自動的に作成される。また、予め設計者が作成した連想辞書を用いてもよい。
図14は、連想辞書の一例を示す図である。
連想辞書は、図14に示すように、行列として構成され、キーワード間の関連の強さを連想値で示す。
関連キーワード推定部108は、このような連想辞書を用いて、特定された複数の絞込みキーワードの候補の中から、表示されるべき幾つかの絞込みキーワードを選択する。
例えば、キーワードID「KW2」のキーワードが検索キーワードとして入力判別部101に受け付けられ、キーワードID「KW3,KW4,KW5」のキーワードがそれぞれ絞込みキーワードの候補として特定される。また、関連キーワード推定部108は、関連キーワード生成比率決定部106から出力された表示比率に基づいて絞込み表示数「2」を決定する。
このような場合、関連キーワード推定部108は、図14に示す連想辞書のうち、検索キーワード(キーワードID=KW2)に対する、絞込みキーワードの候補(キーワードID=KW3,KW4,KW5)の連想値(0.4, 0.7, 0.8)を参照する。そして、関連キーワード推定部108は、その3つの絞込みキーワードの候補の中から、連想値が大きいものから順に2つの候補を、表示すべき絞込みキーワードとして選択する。つまり、キーワードID「KW4,KW5」のキーワードが絞込みキーワードとして選択される。
これにより、絞込みキーワードの候補の中から、検索キーワードと関連性が弱い候補が絞込みキーワードとして表示されるのを防ぐことができる。その結果、ユーザが所望の絞込みキーワードを見つけることができずに再度検索を行うことで増加する検索ステップ数を削減することができる。
また、関連キーワード推定部108は、拡張キーワードの候補の中から表示すべき拡張キーワードを選択するときにも、上述と同様、連想辞書を用いて選択してもよい。これにより、ユーザが所望の拡張キーワードを見つけることができずに再度検索を行うことで増加する検索ステップ数をさらに削減することができる。
また、本実施の形態では、関連キーワード推定部108は選択した複数の関連キーワードのキーワードIDを出力生成部110に出力したが、それらのキーワードIDを出力する代わりに、選択した複数の関連キーワードから新たな結合関連キーワードを生成して、その結合関連キーワードを出力生成部110を介して出力部111に表示させてもよい。
例えば、関連キーワード推定部108は、2つの絞込みキーワードを選択したときには、2つの絞込みキーワードのそれぞれに応じたコンテンツ群において重複するコンテンツの数が閾値以上あるか否かを判別する。その結果、閾値以上あると判別すると、関連キーワード推定部108は、それらの2つの絞込みキーワードを結合することで結合関連キーワードを生成し、その結合関連キーワードを絞込みリストL2に表示させる。また、上述と同様に、関連キーワード推定部108は、2つの拡張キーワードを選択したときには、2つの拡張キーワードのそれぞれに応じたコンテンツ群において重複するコンテンツの数が閾値以上あるか否かを判別する。その結果、閾値以上あると判別すると、関連キーワード推定部108は、それらの2つの拡張キーワードを結合することで結合関連キーワードを生成し、その結合関連キーワードを拡張リストL3に表示させる。
これにより、何れも同じような検索結果が予想される2つの関連キーワードが結合されて1つの関連キーワードとして表示されるため、ユーザは、何れの関連キーワードを選択すべきかを迷うことがなく、所望の関連キーワードを容易に選択することができる。
本発明のコンテンツ検索装置は、サーバーなどに大量に格納されたコンテンツの中からユーザが視聴したいコンテンツを検索する検索装置として適応することができる。例えば、図15に示すようなハードディスクを内蔵したDVD(Digital Versatile Disk)レコーダやプレーヤなどの番組を再生する機器に適用することができる。コンテンツは、例えば、テレビ番組や映画、音楽などの視聴コンテンツや、本や論文などのテキストコンテンツなどであって、コンテンツの属性として文字情報を有するデータであれば種類を問わずどのようなデータであってもよい。
図1は、本発明の実施の形態におけるコンテンツ検索装置の構成を示すブロック図である。 図2は、同上のコンテンツ検索装置が検索開始時に表示する画面の一例を示す図である。 図3は、同上のコンテンツ検索装置が初期検索画面の後に表示する画面の一例を示す図である。 図4は、同上のコンテンツ検索装置が検索結果画面の後に表示する他の検索結果画面の一例を示す図である。 図5は、同上のコンテンツデータベースに蓄積される複数のコンテンツ属性情報の一例を示す図である。 図6は、同上の文書空間データベースに格納されている複数の文書空間を示す図である。 図7は、同上のキーワード記憶部に格納されている情報を示す図である。 図8は、同上のコンテンツ推定部の動作を示すフローチャートである。 図9は、同上の関連キーワード推定部が関連キーワードの候補を特定する動作を説明するための説明図である。 図10は、同上の関連キーワード推定部が関連キーワードを推定する動作を具体的に説明するための説明図である。 図11は、同上の関連キーワード推定部の動作を示すフローチャートである。 図12は、同上の出力部により表示される検索結果画面の一例を示す図である。 図13は、同上のコンテンツ検索装置の全体的な動作を示すフローチャートである。 図14は、同上の連想辞書の一例を示す図である。 図15は、同上のコンテンツ検索装置の概観の一例を示す図である。
100 コンテンツ検索装置
101 入力判別部
102 キーワード記憶部
103 文書空間データベース
104 文書空間選択部
105 検索条件判定部
106 関連キーワード生成比率決定部
107 コンテンツ推定部
108 関連キーワード推定部
109 コンテンツデータベース
110 出力生成部
111 出力部

Claims (18)

  1. 複数のコンテンツがそれぞれ複数のキーワードと共に格納されたコンテンツデータベースに基づき、コンテンツの検索に用いられる検索キーワードに関連する関連キーワードを表示するコンテンツ検索装置であって、
    検索キーワードを取得するキーワード取得手段と、
    前記検索キーワードに応じたコンテンツを前記コンテンツデータベースから検索するコンテンツ検索手段と、
    前記コンテンツデータベースの各コンテンツの中で前記コンテンツデータベースに含まれる各キーワードが出現するコンテンツ数を示すキーワード出現頻度に応じて分類された各キーワードと、前記各コンテンツと、の間の関連度を有する、文書空間情報を格納している文書空間格納手段と、
    前記検索キーワードと前記検索キーワードに応じたコンテンツとの関連度を示す第1の文書空間情報に関連するキーワード出現頻度を基準に、
    前記文書空間格納手段に格納されている文書空間情報に関連するキーワード出現頻度が小さいときに前記文書空間格納手段に格納されている文書空間情報を、検索対象となるコンテンツ数を絞り込むのに用いるキーワードを有する第2の文書空間情報として選択し
    前記文書空間格納手段に格納されている文書空間情報に関連する前記キーワード出現頻度が大きいときに、前記文書空間格納手段に格納されている文書空間情報を、検索対象となるコンテンツ数を拡張するのに用いるキーワードを有する第3の文書空間情報として、選択する文書空間選択手段と、
    前記文書空間選択手段で選択される第2および第3の文書空間情報の中で所定の基準を満たすキーワードを、それぞれ関連キーワードとして表示する表示手段と
    を備えるコンテンツ検索装置。
  2. 前記第2または第3の文書空間情報に関連するキーワード出現頻度は、少なくとも前記第1の文書空間情報に関連するキーワード出現頻度以上、又は、前記第1の文書空間情報に関連するキーワード出現頻度より少ない、
    請求項1記載のコンテンツ検索装置。
  3. 前記文書空間選択手段は、
    前記文書空間格納手段から、前記第1の文書空間情報に関連するキーワード出現頻度よりも少ないキーワード出現頻度に対応する前記第2の文書空間情報を、絞込み文書空間情報として選択する第1の文書空間選択手段を有し、
    前記表示手段は、前記絞込み空間情報の中で所定の基準を満たすキーワードを、前記関連キーワードとして表示する、
    請求項1記載のコンテンツ検索装置。
  4. 前記文書空間選択情報は、
    前記文書空間格納手段から、前記第1の文書空間情報に関連するキーワード出現頻度以上のキーワード出現頻度に対応する前記第3の文書空間情報を、拡張文書空間情報として選択する第2の文書空間選択手段を有し、
    前記表示手段は、前記絞込み空間情報の中で所定の基準を満たすキーワードである絞込みキーワードと、前記拡張空間情報の中で所定の基準を満たすキーワードである拡張キーワードとを、前記関連キーワードとして表示する、
    請求項3記載のコンテンツ検索装置。
  5. 前記コンテンツ検索装置は、さらに、
    前記コンテンツ検索手段により検索されたコンテンツに対して大きな関連度が示されているキーワードほど選択されるように、前記コンテンツデータベースから前記絞込み文書空間情報および拡張文書空間情報のそれぞれに応じた絞込みキーワードおよび拡張キーワードを選択する関連キーワード選択手段を備え、
    前記表示手段は、前記関連キーワード選択手段により選択された絞込みキーワードおよび拡張キーワードを前記関連キーワードとして表示するとともに、前記コンテンツ検索手段により検索されたコンテンツの属性を表示する
    請求項4記載のコンテンツ検索装置。
  6. 前記文書空間格納手段は、DF(Document Frequency)値を前記キーワード出現頻度として用いて分類された各キーワードの区分ごとに、前記文書空間情報を格納している
    請求項5記載のコンテンツ検索装置。
  7. 前記コンテンツ検索手段は、
    前記表示手段により表示された絞込みキーワードがユーザにより選択されることによって前記キーワード取得手段が前記絞込みキーワードを前記検索キーワードとして取得したときには、絞込み検索を行うべきと判断し、前記検索キーワード以前に前記キーワード取得手段で取得された他のキーワードと、前記検索キーワードとに応じたコンテンツを検索する
    請求項5記載のコンテンツ検索装置。
  8. 前記コンテンツ検索手段は、
    前記表示手段により表示された拡張キーワードがユーザにより選択されることによって前記キーワード取得手段が前記拡張キーワードを前記検索キーワードとして取得したときには、拡張検索を行うべきと判断し、前記検索キーワードのみに応じたコンテンツを検索する
    請求項7記載のコンテンツ検索装置。
  9. 前記コンテンツ検索装置は、さらに、
    前記表示手段により表示された絞込みキーワードがユーザにより選択されることによって前記キーワード取得手段が前記絞込みキーワードを前記検索キーワードとして取得したときには、前記コンテンツ検索手段により絞込み検索が行われると判定し、前記表示手段により表示された拡張キーワードがユーザにより選択されることによって前記キーワード取得手段が前記拡張キーワードを前記検索キーワードとして取得したときには、前記コンテンツ検索手段により拡張検索が行われると判定する検索条件判定手段と、
    前記検索条件判定手段により判定された結果に応じて、前記表示手段に表示される前記絞込みキーワードの数と拡張キーワードの数との比率を決定する比率決定手段とを備え、
    前記関連キーワード選択手段は、前記比率決定手段により決定された比率に応じた数の絞込みキーワードおよび拡張キーワードを選択する
    請求項8記載のコンテンツ検索装置。
  10. 前記比率決定手段は、前記検索条件判定手段により絞込み検索が行われると判定されたときには、前記絞込みキーワードの数が前記拡張キーワードの数よりも多くなるような比率を決定する
    請求項9記載のコンテンツ検索装置。
  11. 前記比率決定手段は、前記検索条件判定手段により拡張検索が行われると判定されたときには、前記拡張キーワードの数が前記絞込みキーワードの数よりも多くなるような比率を決定する
    請求項9記載のコンテンツ検索装置。
  12. コンテンツ検索手段は、
    前記検索キーワードに応じたコンテンツ群と、前記検索キーワード以前に前記キーワード取得手段に取得された他のキーワードに応じたコンテンツ群とで重複するコンテンツの数が閾値以上であるか否かを判別し、
    閾値以上であると判別したときには、前記検索キーワードおよび前記他のキーワードに応じたコンテンツを検索し、
    閾値未満であると判別したときには、前記検索キーワードのみに応じたコンテンツを検索する
    請求項5記載のコンテンツ検索装置。
  13. 前記関連キーワード選択手段は、閾値以上の関連度が示されているキーワードを前記絞込みキーワードまたは拡張キーワードとして選択する
    請求項5記載のコンテンツ検索装置。
  14. 前記関連キーワード選択手段は、複数の絞込みキーワードまたは拡張キーワードを選択したときには、前記複数の絞込みキーワードまたは拡張キーワードのそれぞれに応じたコンテンツ群において重複するコンテンツの数が閾値以上のときには、前記複数の絞込みキーワードまたは拡張キーワードを結合することで結合関連キーワードを生成し、
    前記表示手段は、前記複数の絞込みキーワードまたは拡張キーワードの代わりに、前記結合関連キーワードを表示する
    請求項5記載のコンテンツ検索装置。
  15. 前記関連キーワード選択手段は、
    前記コンテンツ検索手段により検索されたコンテンツに対して大きな関連度が示され且つ、各キーワード間の関連性を示す連想辞書において、前記検索キーワードとの間で強い関連性が示されているキーワードほど選択されるように、前記コンテンツデータベースから前記絞込みキーワードおよび拡張キーワードを選択する
    請求項5記載のコンテンツ検索装置。
  16. 複数のコンテンツがそれぞれ複数のキーワードと共に格納されたコンテンツデータベースに基づき、コンテンツの検索に用いられる検索キーワードに関連する関連キーワードを表示するコンテンツ検索装置を用いるコンテンツ検索方法であって、
    前記コンテンツ検索装置が、
    検索キーワードを取得するキーワード取得ステップと、
    前記検索キーワードに応じたコンテンツを前記コンテンツデータベースから検索するコンテンツ検索ステップと、
    前記コンテンツデータベースの各コンテンツの中で前記コンテンツデータベースに含まれる各キーワードが出現するコンテンツ数を示すキーワード出現頻度に応じて分類された各キーワードと、前記各コンテンツと、の間の関連度を有する、文書空間情報を格納している文書空間格納手段を用い、
    前記検索キーワードと前記検索キーワードに応じたコンテンツとの関連度を示す第1の文書空間情報に関連するキーワード出現頻度を基準に、
    前記文書空間格納手段に格納されている文書空間情報に関連するキーワード出現頻度が小さいときに前記文書空間格納手段に格納されている文書空間情報を、検索対象となるコンテンツ数を絞り込むのに用いるキーワードを有する第2の文書空間情報として選択し
    前記文書空間格納手段に格納されている文書空間情報に関連する前記キーワード出現頻度が大きいときに、前記文書空間格納手段に格納されている文書空間情報を、検索対象となるコンテンツ数を拡張するのに用いるキーワードを有する第3の文書空間情報として、選択する文書空間選択ステップと、
    前記文書空間選択ステップで選択される第2および第3の文書空間情報の中で所定の基準を満たすキーワードを、それぞれ関連キーワードとして表示する表示ステップと
    を含む処理を実行する、コンテンツ検索方法。
  17. 複数のコンテンツがそれぞれ複数のキーワードと共に格納されたコンテンツデータベースに基づき、コンテンツの検索に用いられる検索キーワードに関連する関連キーワードを表示するためのプログラムであって、
    検索キーワードを取得するキーワード取得ステップと、
    前記検索キーワードに応じたコンテンツを前記コンテンツデータベースから検索するコンテンツ検索ステップと、
    前記コンテンツデータベースの各コンテンツの中で前記コンテンツデータベースに含まれる各キーワードが出現するコンテンツ数を示すキーワード出現頻度に応じて分類された各キーワードと、前記各コンテンツと、の間の関連度を有する、文書空間情報を格納している文書空間格納手段を用い、
    前記検索キーワードと前記検索キーワードに応じたコンテンツとの関連度を示す第1の文書空間情報に関連するキーワード出現頻度を基準に、
    前記文書空間格納手段に格納されている文書空間情報に関連するキーワード出現頻度が小さいときに前記文書空間格納手段に格納されている文書空間情報を、検索対象となるコンテンツ数を絞り込むのに用いるキーワードを有する第2の文書空間情報として選択し
    前記文書空間格納手段に格納されている文書空間情報に関連する前記キーワード出現頻度が大きいときに、前記文書空間格納手段に格納されている文書空間情報を、検索対象となるコンテンツ数を拡張するのに用いるキーワードを有する第3の文書空間情報として、選択する文書空間選択ステップと、
    前記文書空間選択ステップで選択される第2および第3の文書空間情報の中で所定の基準を満たすキーワードを、それぞれ関連キーワードとして表示する表示ステップと
    をコンピュータに実行させるプログラム。
  18. 複数のコンテンツがそれぞれ複数のキーワードと共に格納されたコンテンツデータベースに基づき、コンテンツの検索に用いられる検索キーワードに関連する関連キーワードを表示するコンテンツ検索装置であって、
    検索キーワードを取得するキーワード取得手段と、
    前記検索キーワードに応じたコンテンツを前記コンテンツデータベースから検索するコンテンツ検索手段と、
    前記コンテンツデータベースの各コンテンツの中で前記コンテンツデータベースに含まれる各キーワードが出現するコンテンツ数を示すキーワード出現頻度に応じて分類された各キーワードと、前記各コンテンツと、の間の関連度を有する、文書空間情報を格納している文書空間格納手段と、
    前記検索キーワードと前記検索キーワードに応じたコンテンツとの関連度を示す第1の文書空間情報に関連するキーワード出現頻度を基準に、
    前記文書空間格納手段に格納されている文書空間情報に関連するキーワード出現頻度が小さいときに前記文書空間格納手段に格納されている文書空間情報を、検索対象となるコンテンツ数を絞り込むのに用いるキーワードを有する第2の文書空間情報として選択し
    前記文書空間格納手段に格納されている文書空間情報に関連する前記キーワード出現頻度が大きいときに、前記文書空間格納手段に格納されている文書空間情報を、検索対象となるコンテンツ数を拡張するのに用いるキーワードを有する第3の文書空間情報として、選択する文書空間選択手段と、
    を備えるコンテンツ検索装置。
JP2009526334A 2007-08-09 2008-08-05 コンテンツ検索装置 Expired - Fee Related JP4436894B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007208274 2007-08-09
JP2007208274 2007-08-09
PCT/JP2008/002111 WO2009019860A1 (ja) 2007-08-09 2008-08-05 コンテンツ検索装置

Publications (2)

Publication Number Publication Date
JP4436894B2 true JP4436894B2 (ja) 2010-03-24
JPWO2009019860A1 JPWO2009019860A1 (ja) 2010-10-28

Family

ID=40341101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009526334A Expired - Fee Related JP4436894B2 (ja) 2007-08-09 2008-08-05 コンテンツ検索装置

Country Status (4)

Country Link
US (1) US7831610B2 (ja)
JP (1) JP4436894B2 (ja)
CN (1) CN101606155B (ja)
WO (1) WO2009019860A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4854491B2 (ja) * 2006-12-13 2012-01-18 キヤノン株式会社 画像処理装置及びその制御方法
JP5110201B2 (ja) * 2009-03-17 2012-12-26 富士通株式会社 検索処理方法及び装置
US8694505B2 (en) * 2009-09-04 2014-04-08 Microsoft Corporation Table of contents for search query refinement
JP5379627B2 (ja) * 2009-09-29 2013-12-25 エヌ・ティ・ティ・コミュニケーションズ株式会社 検索制御装置、検索制御方法、及びプログラム
JP5284990B2 (ja) 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US20120078979A1 (en) * 2010-07-26 2012-03-29 Shankar Raj Ghimire Method for advanced patent search and analysis
CN102750280A (zh) * 2011-04-19 2012-10-24 国际商业机器公司 用于搜索的计算机处理方法及系统
US8959425B2 (en) * 2011-12-09 2015-02-17 Microsoft Corporation Inference-based extension activation
US9679163B2 (en) 2012-01-17 2017-06-13 Microsoft Technology Licensing, Llc Installation and management of client extensions
US9256445B2 (en) 2012-01-30 2016-02-09 Microsoft Technology Licensing, Llc Dynamic extension view with multiple levels of expansion
US9449112B2 (en) 2012-01-30 2016-09-20 Microsoft Technology Licensing, Llc Extension activation for related documents
TWI508561B (zh) * 2013-11-27 2015-11-11 Wistron Corp 電子節目表單之產生裝置及電子節目表單之產生方法
TW201544980A (zh) * 2014-05-30 2015-12-01 shu-zhen Lin 文章自動篩選系統
US20160048781A1 (en) * 2014-08-13 2016-02-18 Bank Of America Corporation Cross Dataset Keyword Rating System
RU2626663C2 (ru) 2015-06-30 2017-07-31 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для создания предложений по завершению поисковых запросов
JP5919450B1 (ja) * 2015-07-22 2016-05-18 楽天株式会社 検索装置、検索方法、記録媒体、および、プログラム
CN105808685B (zh) * 2016-03-02 2021-09-28 腾讯科技(深圳)有限公司 推广信息的推送方法及装置
US20170365022A1 (en) * 2016-06-17 2017-12-21 Accenture Global Solutions Limited Liquid workforce platform
CN109891499B (zh) * 2016-10-19 2022-12-09 三菱电机株式会社 语音识别装置及语音识别方法
CN109213921A (zh) * 2017-06-29 2019-01-15 广州涌智信息科技有限公司 一种商品信息的搜索方法及装置
CN113204691B (zh) * 2021-05-31 2023-08-04 抖音视界有限公司 一种信息展示方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134075A (ja) * 1996-10-31 1998-05-22 Fuji Xerox Co Ltd 文書処理装置、単語抽出装置、単語抽出方法、及び単語抽出プログラムを記録した記録媒体
JP2002324077A (ja) * 2001-04-24 2002-11-08 Mitsubishi Electric Corp 文書検索装置および文書検索方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3916007B2 (ja) * 1996-08-01 2007-05-16 高嗣 北川 意味情報処理方法及びその装置
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US20030171914A1 (en) * 2000-04-18 2003-09-11 Il-Hyung Jung Method and system for retrieving information based on meaningful core word
JP3812719B2 (ja) * 2001-04-16 2006-08-23 三菱電機株式会社 文書検索装置
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
TW200512599A (en) * 2003-09-26 2005-04-01 Avectec Com Inc Method for keyword correlation analysis
US20050154713A1 (en) * 2004-01-14 2005-07-14 Nec Laboratories America, Inc. Systems and methods for determining document relationship and automatic query expansion
JP2006011851A (ja) * 2004-06-25 2006-01-12 Oki Electric Ind Co Ltd 文書合致度演算システム、文書合致度演算方法及び文書合致度演算プログラム
US20060248060A1 (en) * 2005-04-13 2006-11-02 Silverberg Marc E Search results web page with provisions for e-mailing individual search results
US7552398B2 (en) * 2005-05-24 2009-06-23 Palo Alto Research Center Incorporated Systems and methods for semantically zooming information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134075A (ja) * 1996-10-31 1998-05-22 Fuji Xerox Co Ltd 文書処理装置、単語抽出装置、単語抽出方法、及び単語抽出プログラムを記録した記録媒体
JP2002324077A (ja) * 2001-04-24 2002-11-08 Mitsubishi Electric Corp 文書検索装置および文書検索方法

Also Published As

Publication number Publication date
CN101606155A (zh) 2009-12-16
JPWO2009019860A1 (ja) 2010-10-28
US7831610B2 (en) 2010-11-09
US20090300011A1 (en) 2009-12-03
WO2009019860A1 (ja) 2009-02-12
CN101606155B (zh) 2013-03-13

Similar Documents

Publication Publication Date Title
JP4436894B2 (ja) コンテンツ検索装置
JP4203967B1 (ja) 情報探索支援方法および情報探索支援装置
JP4464463B2 (ja) 関連語提示装置
KR101659097B1 (ko) 복수의 저장된 디지털 이미지들을 탐색하기 위한 방법 및 장치
JP4008954B2 (ja) 情報検索装置
US8321456B2 (en) Generating metadata for association with a collection of content items
US7801887B2 (en) Method for re-ranking documents retrieved from a document database
US8332391B1 (en) Method and apparatus for automatically identifying compounds
JP4910582B2 (ja) 情報処理装置および方法、並びに、プログラム
US20080140655A1 (en) Systems and Methods for Storing, Maintaining and Providing Access to Information
WO2010113619A1 (ja) コンテンツ推薦装置、方法、及びプログラム
JP2010067175A (ja) ハイブリッド型コンテンツ推薦サーバ、推薦システムおよび推薦方法
JP2011175362A (ja) 情報処理装置、重要度算出方法及びプログラム
JP2011138197A (ja) 情報処理装置、関連度評価方法及びプログラム
US9165058B2 (en) Apparatus and method for searching for personalized content based on user's comment
WO2010008488A1 (en) Method and system for dynamically generating a search result
JP2010220065A (ja) コンテンツ推薦装置及びコンテンツ推薦方法
JP6219967B2 (ja) ラベル付非テキスト系アイテムを検索するためのシステム及び方法
JP5294294B2 (ja) コンテンツ選択支援装置、コンテンツ選択支援方法及びそのプログラム
JP2014103544A (ja) 番組推薦装置及び番組推薦装置用プログラム
Takahashi et al. Automatic video summarization of sports videos using metadata
JP6134225B2 (ja) 推薦理由提示装置及び推薦理由提示プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091228

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130108

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130108

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees