JP2005092295A

JP2005092295A - メタ情報生成方法、メタ情報生成装置、検索方法および検索装置

Info

Publication number: JP2005092295A
Application number: JP2003320940A
Authority: JP
Inventors: Shozo Isobe; 庄三磯部; Masayuki Ashikawa; 将之芦川; Kohei Momozaki; 浩平桃崎; Yasuyuki Masai; 康之正井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-09-12
Filing date: 2003-09-12
Publication date: 2005-04-07
Anticipated expiration: 2023-09-12
Also published as: JP4064902B2

Abstract

【課題】映像データと音声データからなるコンテンツデータに音声認識の信頼度が低い区間が混じっている場合においても、検索漏れや誤検索を回避できる検索装置を提供する。
【解決手段】コンテンツデータの各区間について、当該区間の識別子と、当該区間の音声の音声認識結果である音声テキストと、音声テキストの信頼度として高いか低いかのいずれか一方と、音声テキストから抽出されたキーワードと当該キーワードの属するカテゴリとを記述した要素データとを含むメタ情報を記憶し、第１の文字列と第２の文字列が検索条件であるとき、信頼度が高いメタ情報のなかから、第１の文字列と同音のカテゴリと第２の文字列と同音のキーワードとを記述した要素データを含むメタ情報を検索し、第２の文字列のみが検索条件であるとき、第２の文字列と同音かあるいは類似する音をもつ複数の第３の文字列のうちのいずれかを音声テキストに含むメタ情報を検索する。
【選択図】図１

Description

本発明は、映像データと音声データを含むコンテンツデータの特徴を記述したメタ情報を生成し、当該コンテンツデータから当該メタ情報を用いて所望のシーンを検索する検索装置に関する。

ＣＳやＢＳ等のディジタル放送の普及、ＤＶＤやＨＤＤ等をメディアとする大容量レコーダの普及に伴い、ディジタル放送番組を大量に受信・蓄積し、その中から自分の好みの場面を見たいときに検索して視聴する、といった映像視聴形態が可能になってきている。

従来から、映像コンテンツ中のシーンに関する検索条件を指定して、所望の映像シーンを検索、再生したい、といった要望には大なるものがあり、これに応えるための標準規格として、例えばＭＰＥＧ７（ＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔｓＧｒｏｕｐｐａｒｔ７）が既に提案されている。ＭＰＥＧ７は、映像コンテンツに関する特徴をメタ情報として記述するための規格であり、例えば映像コンテンツとそのメタ情報をデータベースに登録することで、メタ情報の内容がある条件を満たすような映像コンテンツを、ローカルシステム内、あるいはネットワークを経由して検索する技術であり、２００１年にＷ３Ｃで標準化がなされた。なお、映像コンテンツを検索する場合に用いるメタ情報とは、映像コンテンツの特徴を記述した情報（情報に関する情報）である。

ＭＰＥＧ７はＸＭＬ（Extensible Markup Language）の一規格でもある。ＸＭＬは柔軟な拡張性と連携性を備えた標準のメタ情報記述言語であり、（Ａ１）コンテンツデータの構造と表示スタイルを分けて定義することができるため、データ構造の変更やコンテンツデータの再利用がしやすい。（Ａ２）タグを用いてコンテンツデータの構造を厳密に定義できるため、タグを利用した精度のよい条件検索に適している。といった特徴がある。その他、スキーマ（データ構造定義）がコンテンツデータに対して必ずしも定義されている必要がない、といった特徴もある。

ここで、映像コンテンツに付与するキーワードを作成する方法として、人手でキーワードを作成するやり方が一般的であるが、近年では、音声認識や画像認識の技術向上により、映像コンテンツに対するこれらの認識結果を利用して、自動的にキーワードを抽出する方法も用いられるケースが出始めている。自動キーワード抽出には、キーワードやタグ作成の手間が省けるという多大なメリットがある。

音声認識や画像認識を利用して映像コンテンツから自動的にキーワードを抽出し、映像コンテンツを検索する手法も開示されている（例えば、特許文献１参照）。これは、音声情報を音声認識した結果得られたキーワードと、各コンテンツデータに対応づけて予めデータベースなどに登録されているキーワードとを比較し、両者が一致した場合に上記コンテンツデータを検索結果として返却するものである。この方法は、予め各コンテンツにキーワードを付与してデータベースに格納しておき、ユーザが音声あるいは画像の形でキーワードを指定し、上記データベースのコンテンツから指定したキーワードに合致したものを検索結果として返却する。したがって、検索キーに関しては自動的にキーワードを抽出しているが、データベースに格納されているコンテンツに付随するキーワードは自動抽出を想定しているものではない。

一方、上記のキーワード自動抽出機能を拡張することで、映像データの各シーンに対してキーワード自動抽出を適用して、キーワード付与することも可能である。これは例えば、以下のステップで実現できる。

（Ｓｔｅｐ１）映像コンテンツを構成する各ストリーム区間に対してそれぞれ代表となる映像シーンを１つ選び対応させる。（Ｓｔｅｐ２）Ｓｔｅｐ１で選んだ各映像シーンに対して、その映像シーンに対応するストリーム区間を構成する音声ストリーム、あるいは画像ストリームに対して、音声認識、画像認識を行いキーワードを抽出する。（Ｓｔｅｐ３）このようにして得られたキーワードを上記映像シーンに対してメタ情報として付与する。

しかしながら、上記方法の適用にはいくつかの問題がある。まず、音声認識結果が一定水準以上の認識精度を保っている、すなわち音声認識の信頼度が高いという前提条件が欠かせない。ニュースのナレーション等雑音の少ないものであれば支障はないものの、ＢＧＭのように音声認識（発話認識）にとって雑音となるような音要素がストリーム区間に多く含まれている場合、この区間においては一般に音声認識結果の信頼度が低下してしまう。

ここで、音声認識の信頼度が低い条件で抽出したキーワード情報を各シーンに付随するメタ情報として登録し、ユーザがキーワード指定によりシーン検索を行う場合、以下の問題が発生する可能性がある。（Ｂ１）検索漏れ：認識誤りの結果、異なるキーワードが抽出登録され、指定したキーワードで本来検索できるはずの映像シーンがヒットしない。（Ｂ２）誤検索：認識誤りの結果、異なるキーワードが抽出登録され、指定したキーワードで本来検索できてはいけないものが検索できてしまう。この２つの問題のうち、検索漏れは、ＸＭＬなどタグの条件を指定して精度の高い検索を行うタグ検索で発生しやすく、誤検索は、全文テキストの中から指定されたキーワードを含むものを検索するといった、タグ検索に比べて条件の緩いキーワード検索で発生しやすい。このため、状況に応じてタグ検索あるいはキーワード検索を使い分けるなどで上記検索漏れおよび誤検索の問題を低減させる方法が望まれている。

さらに、音声認識の信頼度が低い区間においては、キーワード検索においても、検索漏れが発生しやすいため、より条件を緩和した検索方式への切換えを行うような方法も望まれている。

以上に説明したように、ＭＰＥＧ７に代表されるＸＭＬ形式を用いて映像検索用のメタ情報を記述し、コンテンツデータとともにデータベースに蓄積しておき、ローカルシステム内あるいはネットワーク経由で条件に合致した映像データ内シーンを検索することで、所望の映像シーンを検索表示、さらにそれを選択することで再生するニーズには大なるものがある。

一方、音声認識結果を基にキーワード指定によるタグ検索或いはキーワード検索を行う場合、ＢＧＭのように音声認識（発話認識）にとって雑音となるような音要素がストリーム区間に多く含まれている場合、この区間においては一般に音声認識結果の信頼度が低下する。すなわち、音声認識の結果得られたキーワードを、映像シーンを検索（タグ検索、キーワード検索）するためのメタ情報としていて用いると、検索漏れや誤検索が発生しやすい。特に音声認識の信頼度が低い区間においては、キーワード検索においても検索漏れの問題が発生しやすい。
特開２００１−２２９１８０公報

このように、従来は、映像コンテンツに対応する音声から認識されたキーワードを当該映像コンテンツのメタ情報として用いる場合、特に、ＢＧＭなどの雑音が含まれているような音声認識結果に対する信頼度の低い区間における音声を音声認識した結果得られたキーワードをメタ情報として用いた場合には、検索漏れや誤検索が発生しやすいという問題点があった。

そこで、本発明は上記問題点に鑑み、映像データと音声データからなるコンテンツデータに音声認識の信頼度が低い区間が混じっている場合においても、検索漏れや誤検索を極力回避できるコンテンツデータのメタ情報を生成するメタ情報生成方法および装置と、当該メタ情報を用いて所望のシーンを含むコンテンツデータを検索する検索方法および検索装置を提供することを目的とする。

（１）本発明は、映像データと音声データを含むコンテンツデータの特徴を記述した複数の要素データからなるメタ情報を生成するものであって、（ａ）複数の区間に区切られた前記コンテンツデータの当該複数の区間のそれぞれについて、当該区間の音声データの音声認識結果である音声テキストと当該区間の映像データに含まれるテロップの文字認識結果であるテロップテキストを求め、（ｂ）前記音声テキストから当該音声テキストに含まれるキーワードと当該キーワードの属するカテゴリを求め、（ｃ）前記複数の各区間のそれぞれについて、当該区間から求めた前記音声テキストと前記テロップテキストの両方に同音語が含まれるとき当該区間の前記音声テキストに対する信頼度は高いと判定し、同音語が含まれていないとき当該区間の前記音声テキストに対する信頼度は低いと判定し、（ｄ）前記複数の各区間のそれぞれについて、少なくとも当該区間の識別子を記述した第１の要素データと、前記音声テキストを記述した第２の要素データと、当該音声テキストに対する信頼度を記述した第３の要素データと、当該音声テキストに前記キーワードが含まれているときには当該キーワードと当該キーワードの属する前記カテゴリとを互いに関連付けて記述した第４の要素データとを含む前記メタ情報を生成する。

（２）本発明は、（ａ）映像データと音声データを含むコンテンツデータを第１の記憶手段に記憶し、（ｂ）複数の区間に区切られた前記コンテンツデータの当該複数の区間のそれぞれに対応するとともに、それぞれが、当該複数の区間のうちの１つの区間内のコンテンツデータの特徴を記述した複数の要素データからなるメタ情報であって、当該複数の要素データには、当該区間の識別子を記述した第１の要素データと、当該区間の音声データの音声認識結果である音声テキストを記述した第２の要素データと、当該音声テキストに対する信頼度として高いか低いかのいずれか一方を記述した第３の要素データと、当該音声テキストから抽出されたキーワードと当該キーワードの属するカテゴリとを互いに関連付けて記述した第４の要素データとを含む前記複数の区間のそれぞれに対応する複数のメタ情報データを第２の記憶手段に記憶し、（ｃ）第１の文字列と第２の文字列を検索条件として指定されたとき、前記第２の記憶手段に記憶されている複数のメタ情報データのうち前記信頼度が高いメタ情報データを検索対象として、当該検索対象から、前記第１の文字列と同音のカテゴリと前記第２の文字列と同音のキーワードとが互いに関連付けて記述されている前記第４の要素データを含むメタ情報データを検索する。（ｄ）前記第１の文字列と前記第２の文字列のうち前記第２の文字列のみが前記検索条件として指定されたとき、それぞれが前記第２の文字列と同音あるいは類似する音をもつ複数の第３の文字列を求めて、前記第２の記憶手段に記憶されているメタ情報データを検索対象として、当該検索対象から、前記音声テキストに前記複数の第３の文字列のうちのいずれかを含むメタ情報データを検索する。（ｅ）前記第１の記憶手段に記憶されたコンテンツデータから、上記（ｃ）および（ｄ）で検索されたメタ情報データに含まれる前記識別子に対応する区間のコンテンツデータを検索する。

本発明によれば、映像データと音声データからなるコンテンツデータから所望のシーンを検索する際に、検索漏れや誤検索を回避することができる。

本発明の実施形態について説明する前に、ＸＭＬについて簡単に説明する。ここでは、説明の簡単のため、コンテンツデータを検索する際に用いるメタ情報（映像メタ情報）を例にとり説明する。なお、コンテンツデータの構造も同様にＸＭＬで表現することができる。この場合、少なくとも映像の始まりからの時間を指定できるタグが含まれている。

コンテンツデータは、画像（映像）ストリーム（映像データ）と連続する音声データである音声ストリーム（音声データ）が含まれている。

図６は、ＸＭＬで記述された映像メタ情報の一例を示したものである。ＸＭＬでは、構造の表現にタグが用いられる。タグには、開始タグと終了タグがあり、構造情報の構成要素を開始タグと終了タグで囲むことにより、文字列（テキスト）区切りと、そのテキストが構造上どの構成要素に属するのかを明確に記述することができる。

ここで開始タグとは要素名称を記号「＜」、「＞」で閉じたものであり、終了タグとは要素名称を記号「＜／」と「＞」で閉じたものである。タグに続く構成要素の内容が、テキスト（文字列）または子供の構成要素の繰り返しである。また開始タグには「＜要素名称属性＝“属性値”＞」などのように属性情報を設定することができる。「＜メタ情報＞＜／メタ情報＞」のようにテキストを含まない構成要素は、簡易記法として「＜メタ情報／＞」のように表わすこともできる。

図６に示した映像メタ情報は、「区間情報」タグから始まる要素をルート(根)とし、その子要素として「区間」タグから始まる要素集合が存在する。それぞれの「区間」タグの子要素として、「開始時間」、「終了時間」、「音声テキスト」「テロップ」、「選手名」などのタグから始まる要素集合が存在する。また「区間」タグの属性として、「ＩＤ」、「信頼度」属性が存在する。また例えば、「選手名」タグから始まる要素には「さとう」のように、１つのテキスト（文字列）をテキスト値として持つことができる。各要素は複数階層構造で表現することもできる。

以下、図面を参照しながら発明の実施形態を説明する。図１は、本実施形態に係る検索装置１１を含むシステム全体の概略構成例を示したもので、検索装置１１と再生装置７とが所定のネットワーク１０を介して接続されて構成されている。

検索装置１１は、映像メタ情報生成部１と、コンテンツデータ記憶部２と、映像メタ情報記憶部３と、コンテンツデータ検索部４と、映像メタ情報検索部５と、単語辞書６とから構成されている。

コンテンツデータ記憶部２には、複数のコンテンツデータが記憶されている。コンテンツデータは１つ又は複数のストリーム区間により構成されている各ストリーム区間には、それぞれを識別するための区間ＩＤや、各ストリーム区間の開始時刻や終了時刻などの情報がＸＭＬ等の記述形式を用いて記述されていて、コンテンツデータに対応付けて記憶されている。

映像メタ情報生成部１は、コンテンツデータ記憶部２に記憶されているコンテンツデータから、当該コンテンツデータを検索する際に用いる映像メタ情報を生成する。映像メタ情報生成部１で生成された映像メタ情報は映像メタ情報記憶部３に記憶される。

コンテンツデータ検索部４は、再生装置７から送信された検索条件を満たすコンテンツデータ（映像）を得るための映像メタ情報を検索するためのクエリを単語辞書６に登録されている単語を用いて生成し、映像メタ情報検索部５へ出力する。また、映像メタ情報検索部５で求めた区間ＩＤや開始／終了時刻を用いて、コンテンツデータ記憶部２から、当該区間ＩＤや開始／終了時刻に対応するコンテンツデータを検索する。ここで得られたコンテンツデータはネットワーク１０を介して再生装置７へ送信される。

再生装置７は、検索要求指定部８と再生部９とから構成されている。検索要求指定部８は、所望のコンテンツデータの検索条件を入力するためのものである。検索条件はネットワーク１０を介して検索装置１１のコンテンツデータ検索部４へ送信される。再生部９は、コンテンツデータ検索部４から検索結果として送信されたコンテンツデータを再生する。

図２は、映像メタ情報生成部１の構成例を示したものである。映像メタ情報生成部１は、デマルチプレクサ部１０１、音声認識部１０２、テロップ認識部１０３、キーワード一致度判定部１０４、シーン情報抽出部１０５、データ生成部１０６、認識辞書１０７から構成される。なお、図２に示すような映像メタ情報生成部１の各構成部は、ソフトウェアで実現可能である。

映像メタ情報生成部１にはコンテンツデータ記憶部２に記憶されたコンテンツデータが入力される。入力されたコンテンツデータは、デマルチプレクサ部１０１で音声ストリームと画像ストリームに分離される。音声ストリームは音声認識部１０２に入力し、画像ストリームはテロップ認識部１０３に入力する。さらに、映像メタ情報生成部１に入力されたコンテンツデータは、シーン情報抽出部１０５に入力する。シーン情報抽出部１０５では、コンテンツデータから、当該コンテンツデータに含まれる各ストリーム区間の区間ＩＤや開始時刻、終了時刻を抽出し、これらをデータ生成部１０６へ出力する。

音声認識部１０２は認識辞書１０７に登録されている単語を用いて、音声ストリームの音声認識を行い、音声認識結果である音声テキストと、当該音声テキストに含まれている単語（キーワード）と、このキーワードのカテゴリとを出力する。ここで抽出されるキーワードは、予め定められたカテゴリに予め登録されている単語に一致するキーワードである。音声認識部１０２は、カテゴリ別に予め複数の単語が登録されている単語辞書や、キーワードか否かを判定するためのルールを予め記憶している。この単語辞書やルールを参照して、音声テキストからキーワードとこのキーワードが属するカテゴリを得る。

テロップ認識部１０３は、画像ストリーム中のテロップ（ｔｅｌｏｐ）を文字認識して、テロップ認識結果であるテロップテキストと、当該テロップテキストに含まれている単語（キーワード）とそのカテゴリとを出力する。ここで抽出されるキーワードは、予め定められたカテゴリに予め登録されている単語に一致するキーワードである。テロップ認識部１０３は、カテゴリ別に予め複数の単語が登録されている単語辞書や、そのようなキーワードを判定するためのルールを予め記憶している。この単語辞書やルールを参照して、テロップテキストからキーワードとそれが属するカテゴリを得る。

キーワード一致度判定部１０４は、コンテンツデータを構成するストリーム区間ごとに音声認識部１０２から出力された音声テキストとテロップ認識部１０３から出力されたテロップテキストとを比較し、音声認識部１０２での音声認識結果（音声テキスト）に対する音声認識信頼度を求める。例えば、音声テキストとテロップテキストの両者に互いに一致する（同音の（読みが一致する））文字列（以下、共通語と記す）が含まれているときには信頼度が高いと考えられるので、音声認識信頼度は「高」と判定し、音声テキストとテロップテキストの両者に互いに一致する共通語が含まれていないときには、音声認識信頼度は「低」と判定する。このとき、テロップテキストは辞書により一旦ひらがなに変換された後、ひらがなの音声テキストと比較がされる。

キーワード一致度判定部１０４からは、各ストリーム区間の音声認識信頼度と共通語が出力される。出力される共通語は、ひらがなで表記したが、辞書を基に漢字表記に統一しても良い。

データ生成部１０６は、音声認識部１０２から出力された音声テキストと，キーワードと，このキーワードのカテゴリ、テロップ認識部１０３から出力されたテロップテキストと，キーワードと，このキーワードのカテゴリ、キーワード一致度判定部１０４から出力された音声認識信頼度と共通語、シーン情報抽出部１０５から出力された区間ＩＤや開始／終了時刻などを基に、図６に示したような映像メタ情報のデータを生成する。

図６に示すように、映像メタ情報は、各ストリーム区間について、当該ストリーム区間から抽出された区間ＩＤと音声認識信頼度（信頼度）、開始時刻、終了時刻、音声テキスト、テロップテキスト、共通語、キーワードなどが記述されている。１つのストリーム区間に対応する映像メタ情報は、「区間」タグから始まる構成要素として記述されている。

区間ＩＤと音声認識信頼度（信頼度）は「区間」タグの属性として記述されている。開始時刻と終了時刻はそれぞれに対応するタグ名から始まる構成要素として記述されている。音声テキストは「音声テキスト」というタグ名（要素名称）の要素の値として記述されている。テロップテキストは「テロップ」というタグ名（要素名称）の要素の値として記述されている。共通語は、「共通タグ値」というタグ名（要素名称）の要素の値として記述されている。音声テキストやテロップテキスト中のキーワード（ここでは、予め定められたカテゴリに予め登録されている単語に一致するキーワード）は、当該キーワードの属するカテゴリをタグ名とする要素の値として記述されている。

各ストリーム区間に対応したメタ情報は、例えばＭＰＥＧ７に代表されるＸＭＬ形式として表現する。ＭＰＥＧ７は映像データのメタ情報規格としてポピュラーになりつつある、ＸＭＬに準拠する規格である。ここでは、上記のメタ情報を図６のようなＸＭＬ形式で表現する。これはＭＰＥＧ７準拠ではないが、以降の説明では支障はない。

次に、図３に示すフローチャートを参照して、映像メタ情報生成部１の処理動作について説明する。なお、ここで入力されるコンテンツデータは、ＭＰＥＧ規格（ＭＰＥＧ２あるいはＭＰＥＧ４）で規定されているような、音声ストリームと画像ストリームが多重化（マルチプレックス化）されている映像ストリームを仮定しているが、これに限るものではない。

まず、入力されたコンテンツデータをデマルチプレクサ部１０１は、音声ストリームと画像ストリームに多重化分離する（ステップＳ１）。簡単のため、ここで得られた画像ストリームは、後述するように、例えば映像認識処理により２つの映像シーン切替えポイントを判定して得られた３つの区間からなり、それぞれ図４（ａ）から図４（ｃ）に示す３つの区間（ストリーム区間）および音声（ここでは便宜上テキストで示す）を含むものとする。３つの各ストリーム区間の区間ＩＤをそれぞれ「１」、「２」、「３」とする。なお、この区間の区切り方については音声の無音部で区間を分けても良いし、ユーザによる任意の位置で区間を分けても良い。

次に、音声認識部１０２は得られた音声ストリームに対して音声認識を施し、ストリーム内の音声データに対応するテキスト（音声テキスト）を求める（ステップＳ２）。通常は、音声認識用の辞書（認識辞書１０７）を用いて、音声データにおける音素の組み合わせ候補にもっともマッチする単語を求めることにより、音声認識率を高める施策が行われる。このような音声認識技術については、従来からある技術を用いればよく、また、本発明の要旨ではないので、説明は省略する。このようにして得られた、各ストリーム区間（図４（ａ）から図４（ｃ））に対応する音声テキストを図５（ａ）〜図５（ｃ）に示す。また、音声認識部１０２は、この音声テキストから上記キーワードがあれば、これを抽出する。

また、上記音声認識処理と平行して、テロップ認識部１０３は得られた画像ストリームの各画像フレームのテロップが表示され得る予め定められた領域（例えば、画面の下１／４の領域等）を文字認識してテロップテキストを求める（ステップＳ３）。

テロップ認識部１０３は、画像ストリームに対して映像認識処理を行い、映像シーン切替ポイントを判定し、この映像シーンの切替ポイントを画像ストリームにおける区間の区切りとする。この映像シーン切替ポイントの判定は、例えば、画像フレーム間の画素値や輝度や色などのが予め定められた閾値以上に変化する時点を映像シーンの切替ポイントと判定する。あるいは、音声ストリームの区切りやテロップ認識の区切りを基に適当な方法で決定するので構わない。ここでは、映像シーンの切替ポイントが２個と判定され、ストリーム区間が３つあると判定されたものとする。このようにして得られた、各ストリーム区間に対応する映像認識結果のストリーム区間内の音声およびテロップをテキスト化して表示した画像が図４（ａ）から図４（ｃ）である。さらに、得られた各ストリーム区間に対して、それぞれテロップ認識を施してテキスト（テロップテキスト）を抽出する。このテロップを認識してテキストデータを抽出する技術は、既存のものを用いればよい（例えば、特開２００１−２８５７１６公報参照）。このようにして得られた、各ストリーム区間（図４（ａ）から図４（ｃ））に対応するテロップテキストを図５（ａ）〜図５（ｃ）に示す。また、テロップ認識部１０３は、このテロップテキストから上記キーワードがあれば、これを抽出する。

次に、キーワード一致度判定部１０４は、音声テキストとテロップテキストとを比較し、音声テキストとテロップテキストの両者に互いに一致する（同音語である）共通語が含まれているときには、音声認識信頼度は「高」と判定し、音声テキストとテロップテキストの両者に互いに一致する（同音語である）共通語が含まれていないときには、音声認識信頼度は「低」と判定する。キーワード一致度判定部１０４からは、各ストリーム区間の音声認識信頼度と共通語が出力される（ステップＳ４）。

例えば、区間ＩＤが「１」のストリーム区間の音声ストリームからは、図５（ａ）に示すように「のざき・せんしゅ」、「に・あんだ」があり、これと同じストリーム区間の画像ストリームから得られたテロップテキストには、図５（ｂ）に示すように「野崎選手」、「２安打」があるので、両者はそれぞれ一致する。従って、当該ストリーム区間における音声認識の精度は高いと考えられる。すなわち、この区間での音声認識信頼度は「高」であり、共通語は「のざき・せんしゅ」「に・あんだ」である。

以上のようにして、音声認識部１０２から出力された音声テキストとキーワードとこのキーワードのカテゴリ、テロップ認識部１０３から出力されたテロップテキストとキーワードとこのキーワードのカテゴリ、キーワード一致度判定部１０４から出力された音声認識信頼度と共通語、シーン情報抽出部１０５から出力された区間ＩＤや開始／終了時刻などを基に、データ生成部１０６は図６に示したような映像メタ情報のデータを生成する（ステップＳ５）。

図６に示した、区間ＩＤが「１」のストリーム区間に対応する映像メタ情報では、「共通タグ値」というタグ名の構成要素で、共通語である「のざき・せんしゅ」と「に・あんだ」が記述されている。

区間ＩＤが「１」のストリーム区間から抽出された音声テキスト中には、「のざき・せんしゅ」とあるが、これは、「“ＡＡＡせんしゅ（選手）が”あるいは“ＡＡＡせんしゅ（選手）は”あるいは“ＡＡＡせんしゅ（選手）の”と続いているときに、“ＡＡＡ”を選手名と判定する」というルールを満足する。さらに、単語辞書の「選手名」というカテゴリに「のざき」が登録されているとすると、音声認識部１０２は、「のざき」を当該音声テキスト中のキーワードとして抽出する。このキーワードのカテゴリは「選手名」である。このようにして音声認識部１０２で得られたキーワード「のざき」は、図６に示す映像メタ情報では、「選手名」というタグ名の構成要素の値として記述されている。

一方、区間ＩＤが「２」のストリーム区間や区間ＩＤが「３」のストリーム区間から抽出された音声テキストとテロップテキストには共通語が含まれていないでの、音声認識信頼度はそれぞれ「低」と判定される。

なお、区間ＩＤが「３」のストリーム区間から抽出された音声テキスト中には、「さとう・せんしゅ」とあるが、これは、「“ＡＡＡせんしゅ（選手）が”あるいは“ＡＡＡせんしゅ（選手）は”あるいは“ＡＡＡせんしゅ（選手）の”と続いているときに、“ＡＡＡ”を選手名と判定する」というルールを満足する。さらに、単語辞書の「選手名」というカテゴリに「さとう」が登録されているとすると、音声認識部１０２は、「さとう」を当該音声テキスト中のキーワードとして抽出する。このキーワードのカテゴリは「選手名」である。このようにして音声認識部１０２で得られたキーワード「さとう」は、図６に示す映像メタ情報では、「選手名」というタグ名の構成要素の値として記述されている。

なお、図６ではカテゴリ「選手名」に属するキーワード「のざき」をタグ名とその要素値として対応付けている（即ち、＜選手名＞のざき＜／選手名＞）が、対応付けの方法はこれに限るものではない。属性名として対応付けても良い（即ち、＜カテゴリ選手名＝“のざき”／＞）。或いは、カテゴリを階層的に表現しても良い（即ち、＜選手名前＝“のざき”／＞）。この場合、カテゴリ「選手」とそのサブカテゴリ「名前」を併せてカテゴリ「選手名」と同等の表現になる。

なお、キーワードからカテゴリを抽出するルールおよびカテゴリ出力部は音声認識部１０２やテロップ認識部１０３に持たせる構成でも構わない。

映像メタ情報生成部１で生成された図６に示すような映像メタ情報は映像メタ情報記憶部３に記憶される。

次に、例えば図６に示したような映像メタ情報を用いて、所望のコンテンツデータを検索し、これを再生するまでの処理動作について、図７に示すフローチャートを参照して説明する。

所望のコンテンツデータを検索するための検索条件は、再生装置７から入力される。再生装置７の検索要求指定部８は、図８に示すような画面を表示する。この画面では、「項目名」は（映像メタ情報に含まれる）タグ名を指定するための領域であり、「項目値」とは所望の文字列を指定するための領域である。図８に示す画面からは、（映像メタ情報中の）タグ名と当該タグ名の構成要素の値として含まれる文字列を検索条件として指定することもできるし、いずれかの構成要素の値として含まれる文字列のみを検索条件として指定することもできる。なお、図８に示す画面には、検索結果のコンテンツデータを再生表示するための領域Ｒ１が設けられている。

まず、ユーザがタグ名と文字列を検索条件として指定する場合を例にとり説明する。例えば、「項目名」の欄に入力する場合に、ユーザが図８に示した画面上の検索ボタンＢ１を選択すると、映像メタ情報に含まれる検索条件として選択可能なタグ名の一覧がプルダウンメニュー等により表示される。ユーザは、この一覧のなかから所望のタグ名を選択すれば、「項目名」欄に所望のタグ名を入力することができる。なお、この一覧には「指定なし」も含まれており、この一覧のなかから「指定なし」を選択した場合には、タグ名を検索条件として指定しないことを意味するものとする。

図８に示すように、ユーザが、「項目名」欄に「選手名」を入力し、「項目値」欄に「のざき」と入力したとする（ステップＳ１１）。この後、ユーザがボタンＢ２を選択すると、タグ名「選手名」と文字列「のざき」という検索条件を含む検索要求は、検索装置１１へ送信され、コンテンツデータ検索部４が当該検索要求に含まれる検索条件を受信する。

コンテンツデータ検索部４は、当該検索条件にタグ名が含まれているので（ステップＳ１２）、信頼度（音声認識信頼度）の高いストリーム区間に対する（データベース検索用の）クエリを生成する（ステップＳ１３）。クエリはＸＱｕｅｒｙで記述された例を示しているが、ＳＱＬ等他のクエリ言語を用いて記述しても構わない。

このとき生成されるクエリを図９に示す。このクエリは、「各区間データ（各区間の映像メタ情報）うちの信頼度が「高」の映像メタ情報のなかから、「選手名」タグの要素値が「のざき」である映像メタ情報を全て求めよ」という意味をもつものである。図９に示すクエリでは、検索対象の映像メタ情報は、信頼度が「高」である映像メタ情報に限定されている。

図９に示したクエリは、映像メタ情報検索部５へ出力される。映像メタ情報検索部５は、映像メタ情報記憶部３に記憶されている音声認識信頼度の高いストリーム区間のうち、検索条件として指定されたタグ名で、しかも検索条件として指定された文字列を値として含む構成要素をもつストリーム区間の映像メタ情報（区間情報とも呼ぶ）を、タグ検索により検索する。すなわち、図９に示したクエリの場合、信頼度が「高」で、「選手名」という構成要素の値に「のざき」という文字列が含まれている、区間ＩＤが「１」の区間情報が得られる。映像メタ情報検索部５は、当該区間情報の区間ＩＤあるいは開始／終了時刻を取出し、これをコンテンツデータ検索部４へ渡す（ステップＳ１４）。

コンテンツデータ検索部４は、得られた区間ＩＤあるいは開始／終了時刻に対応するコンテンツデータをコンテンツデータ記憶部２から検索する（ステップＳ１５）。ここでは、区間ＩＤが「１」である、図４（ａ）に示したようなストリーム区間のコンテンツデータが検索され、この検索されたコンテンツデータがネットワーク１０を介して再生装置７へ送信される。

再生装置７の再生部９は、区間ＩＤが「１」である、図４（ａ）に示したストリーム区間のコンテンツデータを受け取ると、このコンテンツデータを図１０に示したように検索結果の表示領域Ｒ１に再生表示する（ステップＳ１６）。

次に、ユーザがタグ名を指定せずに、文字列のみを検索条件として指定する場合を例にとり説明する。図１１に示すように、ユーザが、「項目名」欄に「指定なし」を入力し、「項目値」欄に「のざき」と入力したとする（ステップＳ１１）。この後、ユーザが検索ボタンＢ２を選択すると、文字列「のざき」という検索条件を含む検索要求は、検索装置１１へ送信され、コンテンツデータ検索部４が当該検索要求に含まれる検索条件を受信する。

コンテンツデータ検索部４は、当該検索条件にタグ名が含まれていないので（ステップＳ１２）、信頼度（音声認識信頼度）の低い、高いを区別せずに全てのストリーム区間の音声テキストに対する（データベース検索用の）クエリを生成する。この際、まず、ステップＳ１７において、コンテンツデータ検索部４は、単語辞書６を参照して、検索条件として指定された文字列と読みが同じ（同音）かあるいは類似する読み（音）をもつ文字列（類似文字列）を求める（ステップＳ１７）。

単語辞書６には、複数の単語と、当該複数の単語のそれぞれについて、当該単語とよみが同じ（同音）かあるいは類似する読み（音）をもつ単語（の読み）が登録されている。例えば、指定された文字列が「のざき」であるとき、単語辞書６には「のざき」と同じ読みの「のざき」と、「のざき」と類似する読み（音）の「おざき」が登録されているとする。

コンテンツデータ検索部４は、得られた類似文字列「のざき」、「おざき」を用いて、図１２に示すようなクエリを生成する（ステップＳ１８）。図１２（ａ）に示すクエリは、「信頼度の低いストリーム区間と信頼度の高いストリーム区間（全ストリーム区間）の映像メタ情報のなかから、「音声テキスト」要素に「のざき」という文字列を値として含む映像メタ情報を全て求めよ」という意味のクエリである。図１２（ｂ）に示すクエリは、「信頼度の低いストリーム区間と信頼度の高いストリーム区間（全ストリーム区間）の映像メタ情報のなかから、「音声テキスト」要素に「おざき」という文字列を値として含む映像メタ情報を全て求めよ」という意味のクエリである。

図１２に示したクエリは、映像メタ情報検索部５へ出力される。映像メタ情報検索部５は、映像メタ情報記憶部３に記憶されている全ての区間情報のなかから、音声テキストに類似文字列を含む映像メタ情報（区間情報）を検索する。すなわち、図１２に示したクエリによる検索結果を併せることで、区間ＩＤが「１」、「２」の２つの区間情報が得られる。映像メタ情報検索部５は、当該区間情報の区間ＩＤあるいは開始／終了時刻を取出し、これをコンテンツデータ検索部４へ渡す（ステップＳ１９）。

コンテンツデータ検索部４は、得られた区間ＩＤあるいは開始／終了時刻に対応するコンテンツデータをコンテンツデータ記憶部２から検索する（ステップＳ１５）。ここでは、区間ＩＤが「１」、「２」である、図４（ａ）、図４（ｂ）に示したようなストリーム区間のコンテンツデータが検索され、この検索されたコンテンツデータがネットワーク１０を介して再生装置７へ送信される。再生装置７の再生部９は、図１３に示したように、検索結果の表示領域Ｒ１に、当該２つの区間を再生表示する（ステップＳ１６）。なお、この例では検索された２つの区間を同時に再生表示したが、１つずつ再生するようにしても良いし、先に２つの区間を代表するサムネイルを表示させておき、この中から実際に再生する区間をユーザに選択させるようにしても良い。

以上説明したように、図７のステップＳ１１において、ユーザが検索条件としてタグ名を指定した場合、ステップＳ１３〜ステップＳ１４では信頼度の高いストリーム区間に対するタグ検索を行い、ユーザが検索条件としてタグ名を指定せずに文字列（検索キーとしてのキーワード）のみを指定した場合、全ストリーム区間の音声テキストに対するキーワード検索を行うようになっている。

タグ検索を用いるメリットは、検索キーに用いられるキーワードの意味の曖昧性を少なくすることで、精度の高い検索を可能にする点にある。例えば、検索キーとして指定されたキーワードが「川崎」であり、「川崎」というキーワードを含むテキストを検索する場合、それが「川崎」市のように場所の名前なのか、あるいは「川崎」氏のように人名なのかが不明瞭となり、本来検索結果としたくないノイズまでも検索されてしまうという問題が生ずる。タグ検索では、例えば、データ内で＜場所＞川崎＜／場所＞のように「場所」タグの値が「川崎」であると明示してあり、「場所＝“川崎”」のように指定することで、上記のような検索ノイズを排除することができる。

しかし、このようにデータ内で＜場所＞川崎＜／場所＞のようにタグ付けされるためには、元のデータにおけるテキスト処理の精度も高くなくてはならない。本実施形態のように音声認識結果として得られた音声テキストを用いてテキスト処理する場合は、雑音の混入等により、認識精度が低下した場合に、本来タグが抽出できる区間においても、このようなタグの生成に失敗するケースも考えられる。例えば、図４（ｂ）に示すような、区間ＩＤが「２」の区間においては、図５（ｂ）に示すように、音声認識により「のざき選手」が「のざき・さんしゃ」と誤認識している。

「のざき・さんしゃ」では、上記ルール「“ＡＡＡせんしゅ（選手）が”あるいは“ＡＡＡせんしゅ（選手）は”あるいは“ＡＡＡせんしゅ（選手）の”と続いているときに、“ＡＡＡ”を選手名と判定する」に合致せず、「選手名＝“のざき”」と抽出されない。したがって、「選手名＝“のざき”」という条件で検索をしても、区間ＩＤが「２」の区間に対応するストリーム区間は検索にヒットしない。従って、音声認識精度（音声認識信頼度）が低いと推定できる区間においては、タグ検索の代わりにキーワード検索を用いた方が得策と考えられる。

このようにして、音声認識精度の高低に応じて、検索方式（タグ検索とキーワード検索）を変えることにより、精度の高い絞込み検索と漏れの少ない検索との使い分けができるため、柔軟なシーン検索が行える。

図７のステップＳ１７において、コンテンツ検索部４は、検索キーとして指定された文字列と読みが同じかあるいは類似する読みをもつ文字列（類似文字列）を求める。これは音声認識結果の曖昧性を考慮しているからである。

音声テキストには、音声認識上の曖昧性を含む文字列（キーワード）が多く含まれている。これらは元の音声データとは異なる文字列として認識されている可能性が高いため、このような文字列を検索対象として検索した場合、検索漏れが発生してしまう危険性が高い。このようなことを考慮して、本実施形態の音声認識部１０２では、かな文字から漢字へと変換を行っていない。

なお、図７のステップＳ１７〜１９において、音声認識信頼度の異なる区間（高い区間と低い区間）に対するクエリとして、共通のクエリを生成したが、本発明はこれに限らない。すなわち、信頼度の高い区間に対するクエリと信頼度の低い区間に対するクエリとをそれぞれ別個に生成してもよい。この場合には、図１２（ａ）に示すクエリの代わりに図１２（ｃ）に示すクエリと、図１２（ｄ）に示すクエリが生成される。また、図１２（ｂ）に示すクエリの代わりに図１２（ｅ）に示すクエリが生成される。

これにより、信頼度の高い区間については指定された文字列を含むものを、信頼度の低い区間については指定された文字列と類似の文字列を含むものを検索することができる。

以上説明したように、上記実施形態によれば、映像メタ情報生成部１は、音声・映像からなるコンテンツデータの各ストリーム区間から、音声テキストとテロップテキストを抽出するとともに、これらから音声認識結果に対する信頼度（音声認識信頼度）を求める。

例えば、音声テキストとテロップテキストの両方に読みが一致する語（共通語）があるときには、当該音声テキストの音声認識信頼度は高いと判定して、共通語が得られないときには、当該音声テキストの音声認識信頼度は低いと判定する。さらに、音声テキストからは予め記憶されたルールや単語辞書を用いて、キーワードとそのカテゴリを求める。

このようにして得られたデータを用いて各ストリーム区間に対し、当該ストリーム区間を検索する際の用いられる（当該ストリーム区間の特徴が記述されている）映像メタ情報を生成する。映像メタ情報には、音声テキストと、この音声テキストから求めたキーワードと、このキーワードのカテゴリ、テロップテキスト、音声認識信頼度と共通語、ＩＤや開始／終了時刻などが含まれている。音声テキストから抽出されたキーワードは、このキーワードのカテゴリをタグ名とする要素の値として記述されている。

一方、コンテンツデータから所望のシーンを検索する際には、ユーザは、検索キーとしてタグ名とキーワードを指定する、或いはキーワードのみを指定する。前者の場合には、音声認識結果の信頼度が高いストリーム区間に対するタグ検索を行い、後者の場合には、音声認識結果の信頼度の高い低いにかかわらず全ストリーム区間の音声テキストに対するテキスト検索を行う。

音声認識結果の信頼度が高いストリーム区間については精度の高いタグ検索、音声認識結果の信頼度が低いストリーム区間についてはキーワード検索と曖昧検索、といったように、音声認識結果の信頼度に応じて検索方式を切り替えることにより、検索漏れや誤検索を極力回避できる。

また、検索方式の切替方式はこれに限るものではない。例えば、検索の精度を指定するボタンを設けておき、高精度モードの場合は信頼度の高いストリーム区間について信頼度の高いタグ検索，通常モードの場合は全区間についてキーワード検索，曖昧モードを指定した場合は全区間について曖昧検索というように検索用画面を構成しても良い。

本発明の実施の形態に記載した本発明の手法（図３，図７参照）は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、半導体メモリなどの記録媒体に格納して頒布することもできる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明は、例えば、ホームサーバに関する。

本発明の実施形態に係るシステム全体の構成例を示した図。映像メタ情報生成部の構成例を示した図。映像メタ情報生成部の処理動作を説明するためのフローチャート。コンテンツデータ含まれる３つのストリーム区間に対応する映像認識結果のストリーム区間内の音声およびテロップをテキスト化して表示した画像の例を示した図。図４の３つのストリーム区間のそれぞれから得られた音声テキストとテロップテキストを示した図。メタ情報の一例を示した図。所望のシーンの含まれているコンテンツデータを検索する際の処理動作を説明するためのフローチャート。検索条件と検索結果を表示する検索画面の一例と、検索条件の一例を示した図。コンテンツデータ検索部４で生成されるタグ検索用のクエリの一例を示した図。検索結果の表示例を示した図。検索画面に入力された検索条件の他の例を示した図。コンテンツデータ検索部４で生成される音声テキスト検索用のクエリの他の例を示した図。検索結果の他の表示例を示した図。

符号の説明

１…映像メタ情報生成部、２…コンテンツデータ記憶部、３…映像メタ情報記憶部、４…コンテンツデータ検索部、５…映像メタ情報検索部、６…単語辞書、７…再生装置、８…検索要求指定部、９…再生部、１０…ネットワーク、１１…検索装置。

Claims

映像データと音声データを含むコンテンツデータの特徴を記述した複数の要素データからなるメタ情報を生成するメタ情報生成方法であって、
複数の区間に区切られた前記コンテンツデータの当該複数の区間のそれぞれについて、当該区間の音声データの音声認識結果である音声テキストと当該区間の映像データに含まれるテロップの文字認識結果であるテロップテキストを求める第１のステップと、
前記音声テキストから当該音声テキストに含まれるキーワードと当該キーワードの属するカテゴリを求める第２のステップと、
前記複数の各区間のそれぞれについて、当該区間から求めた前記音声テキストと前記テロップテキストの両方に同音語が含まれるとき当該区間の前記音声テキストに対する信頼度は高いと判定し、同音語が含まれていないとき当該区間の前記音声テキストに対する信頼度は低いと判定する第３のステップと、
前記複数の各区間のそれぞれについて、少なくとも当該区間の識別子を記述した第１の要素データと、前記音声テキストを記述した第２の要素データと、当該音声テキストに対する信頼度を記述した第３の要素データと、当該音声テキストに前記キーワードが含まれているときには当該キーワードと当該キーワードの属する前記カテゴリとを記述した第４の要素データとを含む前記メタ情報を生成する第４のステップと、
を有することを特徴とするメタ情報生成方法。
映像データと音声データを含むコンテンツデータの特徴を記述した複数の要素データからなるメタ情報を生成するメタ情報生成装置であって、
複数の区間に区切られた前記コンテンツデータの当該複数の区間のそれぞれについて、当該区間の音声データの音声認識結果である音声テキストと当該区間の映像データに含まれるテロップの文字認識結果であるテロップテキストを求める手段と、
前記音声テキストから当該音声テキストに含まれるキーワードと当該キーワードの属するカテゴリを求める手段と、
前記複数の各区間のそれぞれについて、当該区間から求めた前記音声テキストと前記テロップテキストの両方に同音語が含まれるとき当該区間の前記音声テキストに対する信頼度は高いと判定し、同音語が含まれていないとき当該区間の前記音声テキストに対する信頼度は低いと判定する手段と、
前記複数の各区間のそれぞれについて、少なくとも当該区間の識別子を記述した第１の要素データと、前記音声テキストを記述した第２の要素データと、当該音声テキストに対する信頼度を記述した第３の要素データと、当該音声テキストに前記キーワードが含まれているときには当該キーワードと当該キーワードの属する前記カテゴリとを記述した第４の要素データとを含む前記メタ情報を生成する手段と、
を具備したことを特徴とするメタ情報生成装置。
前記複数の区間のそれぞれに対応する前記メタ情報には、当該区間から求めたテロップテキストを記述した第５の要素データが含まれていることを特徴とする請求項２記載のメタ情報生成装置。
映像データと音声データを含むコンテンツデータを第１の記憶手段に記憶する第１のステップと、
複数の区間に区切られた前記コンテンツデータの当該複数の区間のそれぞれに対応するとともに、それぞれが、当該複数の区間のうちの１つの区間内のコンテンツデータの特徴を記述した複数の要素データからなる複数のメタ情報データであって、当該複数の要素データには、当該区間の識別子を記述した第１の要素データと、当該区間の音声データの音声認識結果である音声テキストを記述した第２の要素データと、当該音声テキストに対する信頼度として高いか低いかのいずれか一方を記述した第３の要素データと、当該音声テキストから抽出されたキーワードと当該キーワードの属するカテゴリとを記述した第４の要素データとを含む当該複数のメタ情報データを第２の記憶手段に記憶する第２のステップと、
第１の文字列と第２の文字列を検索条件として指定されたとき、前記第２の記憶手段に記憶されている複数のメタ情報データのうち前記信頼度が高いメタ情報データを検索対象として、当該検索対象から、前記第１の文字列と同音のカテゴリと前記第２の文字列と同音のキーワードとが記述されている前記第４の要素データを含むメタ情報を検索する第３のステップと、
前記第１の文字列と前記第２の文字列のうち前記第２の文字列のみが前記検索条件として指定されたとき、それぞれが前記第２の文字列と同音あるいは類似する音をもつ複数の第３の文字列を求める第４のステップと、
前記第２の記憶手段に記憶されているメタ情報データを検索対象として、当該検索対象から、前記音声テキストに前記複数の第３の文字列のうちのいずれかを含むメタ情報を検索する第５のステップと、
前記第１の記憶手段に記憶されたコンテンツデータから、前記第３および第５のステップで検索されたメタ情報に含まれる前記識別子に対応する区間のコンテンツデータを検索する第６のステップと、
を有することを特徴とする検索方法。
映像データと音声データを含むコンテンツデータを記憶する第１の記憶手段と、
複数の区間に区切られた前記コンテンツデータの当該複数の区間のそれぞれに対応し、それぞれが、当該複数の区間のうちの１つの区間内のコンテンツデータの特徴を記述した複数の要素データからなるメタ情報データであって、当該複数の要素データには、当該区間の識別子を記述した第１の要素データと、当該区間の音声データの音声認識結果である音声テキストを記述した第２の要素データと、当該音声テキストに対する信頼度として高いか低いかのいずれか一方を記述した第３の要素データと、当該音声テキストから抽出されたキーワードと当該キーワードの属するカテゴリとを記述した第４の要素データとを含む当該複数のメタ情報データを記憶する第２の記憶手段と、
第１の文字列と第２の文字列を検索条件として指定されたとき、前記第２の記憶手段に記憶されている複数のメタ情報データのうち前記信頼度が高いメタ情報データを検索対象として、当該検索対象から、前記第１の文字列と同音のカテゴリと前記第２の文字列と同音のキーワードとが記述されている前記第４の要素データを含むメタ情報データを検索する第１の検索手段と、
前記第１の文字列と前記第２の文字列のうち前記第２の文字列のみが前記検索条件として指定されたとき、それぞれが前記第２の文字列と同音或いは類似する音をもつ複数の第３の文字列を求める手段と、
前記第２の記憶手段に記憶されているメタ情報データを検索対象として、当該検索対象から、前記音声テキストに前記複数の第３の文字列のうちのいずれかを含むメタ情報データを検索する第２の検索手段と、
前記第１の記憶手段に記憶されたコンテンツデータから、前記第１および第２の検索手段で検索されたメタ情報データに含まれる前記識別子に対応する区間のコンテンツデータを検索する第３の検索手段と、
を具備したことを特徴とする検索装置。
前記コンテンツデータの前記複数の区間のそれぞれについて、当該区間の音声データの音声認識結果である音声テキストと当該区間の映像データに含まれるテロップの文字認識結果であるテロップテキストを求める手段と、
前記音声テキストから当該音声テキストに含まれるキーワードと当該キーワードの属するカテゴリを求める手段と、
前記複数の各区間のそれぞれについて、当該区間から求めた前記音声テキストと前記テロップテキストの両方に同音語が含まれるとき当該区間の前記音声テキストに対する信頼度は高いと判定し、同音語が含まれていないとき当該区間の前記音声テキストに対する信頼度は低いと判定する手段と、
前記複数の各区間のそれぞれについて、少なくとも当該区間の識別子を記述した第１の要素データと、前記音声テキストを記述した第２の要素データと、当該音声テキストに対する信頼度を記述した第３の要素データと、当該音声テキストに前記キーワードが含まれているときには当該キーワードと当該キーワードの属する前記カテゴリとを記述した第４の要素データとを含む前記メタ情報データを生成する生成手段と、
をさらに具備し、
前記第２の記憶手段は、前記生成手段で生成されたメタ情報データを記憶することを特徴とする請求項５記載の検索装置。