JP2005092295A - メタ情報生成方法、メタ情報生成装置、検索方法および検索装置 - Google Patents

メタ情報生成方法、メタ情報生成装置、検索方法および検索装置 Download PDF

Info

Publication number
JP2005092295A
JP2005092295A JP2003320940A JP2003320940A JP2005092295A JP 2005092295 A JP2005092295 A JP 2005092295A JP 2003320940 A JP2003320940 A JP 2003320940A JP 2003320940 A JP2003320940 A JP 2003320940A JP 2005092295 A JP2005092295 A JP 2005092295A
Authority
JP
Japan
Prior art keywords
data
section
meta information
search
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003320940A
Other languages
English (en)
Other versions
JP4064902B2 (ja
Inventor
Shozo Isobe
庄三 磯部
Masayuki Ashikawa
将之 芦川
Kohei Momozaki
浩平 桃崎
Yasuyuki Masai
康之 正井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003320940A priority Critical patent/JP4064902B2/ja
Publication of JP2005092295A publication Critical patent/JP2005092295A/ja
Application granted granted Critical
Publication of JP4064902B2 publication Critical patent/JP4064902B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】映像データと音声データからなるコンテンツデータに音声認識の信頼度が低い区間が混じっている場合においても、検索漏れや誤検索を回避できる検索装置を提供する。
【解決手段】コンテンツデータの各区間について、当該区間の識別子と、当該区間の音声の音声認識結果である音声テキストと、音声テキストの信頼度として高いか低いかのいずれか一方と、音声テキストから抽出されたキーワードと当該キーワードの属するカテゴリとを記述した要素データとを含むメタ情報を記憶し、第1の文字列と第2の文字列が検索条件であるとき、信頼度が高いメタ情報のなかから、第1の文字列と同音のカテゴリと第2の文字列と同音のキーワードとを記述した要素データを含むメタ情報を検索し、第2の文字列のみが検索条件であるとき、第2の文字列と同音かあるいは類似する音をもつ複数の第3の文字列のうちのいずれかを音声テキストに含むメタ情報を検索する。
【選択図】 図1

Description

本発明は、映像データと音声データを含むコンテンツデータの特徴を記述したメタ情報を生成し、当該コンテンツデータから当該メタ情報を用いて所望のシーンを検索する検索装置に関する。
CSやBS等のディジタル放送の普及、DVDやHDD等をメディアとする大容量レコーダの普及に伴い、ディジタル放送番組を大量に受信・蓄積し、その中から自分の好みの場面を見たいときに検索して視聴する、といった映像視聴形態が可能になってきている。
従来から、映像コンテンツ中のシーンに関する検索条件を指定して、所望の映像シーンを検索、再生したい、といった要望には大なるものがあり、これに応えるための標準規格として、例えばMPEG7(Moving Pictures Experts Group part7)が既に提案されている。MPEG7は、映像コンテンツに関する特徴をメタ情報として記述するための規格であり、例えば映像コンテンツとそのメタ情報をデータベースに登録することで、メタ情報の内容がある条件を満たすような映像コンテンツを、ローカルシステム内、あるいはネットワークを経由して検索する技術であり、2001年にW3Cで標準化がなされた。なお、映像コンテンツを検索する場合に用いるメタ情報とは、映像コンテンツの特徴を記述した情報(情報に関する情報)である。
MPEG7はXML(Extensible Markup Language)の一規格でもある。XMLは柔軟な拡張性と連携性を備えた標準のメタ情報記述言語であり、(A1)コンテンツデータの構造と表示スタイルを分けて定義することができるため、データ構造の変更やコンテンツデータの再利用がしやすい。(A2)タグを用いてコンテンツデータの構造を厳密に定義できるため、タグを利用した精度のよい条件検索に適している。といった特徴がある。その他、スキーマ(データ構造定義)がコンテンツデータに対して必ずしも定義されている必要がない、といった特徴もある。
ここで、映像コンテンツに付与するキーワードを作成する方法として、人手でキーワードを作成するやり方が一般的であるが、近年では、音声認識や画像認識の技術向上により、映像コンテンツに対するこれらの認識結果を利用して、自動的にキーワードを抽出する方法も用いられるケースが出始めている。自動キーワード抽出には、キーワードやタグ作成の手間が省けるという多大なメリットがある。
音声認識や画像認識を利用して映像コンテンツから自動的にキーワードを抽出し、映像コンテンツを検索する手法も開示されている(例えば、特許文献1参照)。これは、音声情報を音声認識した結果得られたキーワードと、各コンテンツデータに対応づけて予めデータベースなどに登録されているキーワードとを比較し、両者が一致した場合に上記コンテンツデータを検索結果として返却するものである。この方法は、予め各コンテンツにキーワードを付与してデータベースに格納しておき、ユーザが音声あるいは画像の形でキーワードを指定し、上記データベースのコンテンツから指定したキーワードに合致したものを検索結果として返却する。したがって、検索キーに関しては自動的にキーワードを抽出しているが、データベースに格納されているコンテンツに付随するキーワードは自動抽出を想定しているものではない。
一方、上記のキーワード自動抽出機能を拡張することで、映像データの各シーンに対してキーワード自動抽出を適用して、キーワード付与することも可能である。これは例えば、以下のステップで実現できる。
(Step1)映像コンテンツを構成する各ストリーム区間に対してそれぞれ代表となる映像シーンを1つ選び対応させる。(Step2)Step1で選んだ各映像シーンに対して、その映像シーンに対応するストリーム区間を構成する音声ストリーム、あるいは画像ストリームに対して、音声認識、画像認識を行いキーワードを抽出する。(Step3)このようにして得られたキーワードを上記映像シーンに対してメタ情報として付与する。
しかしながら、上記方法の適用にはいくつかの問題がある。まず、音声認識結果が一定水準以上の認識精度を保っている、すなわち音声認識の信頼度が高いという前提条件が欠かせない。ニュースのナレーション等雑音の少ないものであれば支障はないものの、BGMのように音声認識(発話認識)にとって雑音となるような音要素がストリーム区間に多く含まれている場合、この区間においては一般に音声認識結果の信頼度が低下してしまう。
ここで、音声認識の信頼度が低い条件で抽出したキーワード情報を各シーンに付随するメタ情報として登録し、ユーザがキーワード指定によりシーン検索を行う場合、以下の問題が発生する可能性がある。(B1)検索漏れ:認識誤りの結果、異なるキーワードが抽出登録され、指定したキーワードで本来検索できるはずの映像シーンがヒットしない。(B2)誤検索:認識誤りの結果、異なるキーワードが抽出登録され、指定したキーワードで本来検索できてはいけないものが検索できてしまう。この2つの問題のうち、検索漏れは、XMLなどタグの条件を指定して精度の高い検索を行うタグ検索で発生しやすく、誤検索は、全文テキストの中から指定されたキーワードを含むものを検索するといった、タグ検索に比べて条件の緩いキーワード検索で発生しやすい。このため、状況に応じてタグ検索あるいはキーワード検索を使い分けるなどで上記検索漏れおよび誤検索の問題を低減させる方法が望まれている。
さらに、音声認識の信頼度が低い区間においては、キーワード検索においても、検索漏れが発生しやすいため、より条件を緩和した検索方式への切換えを行うような方法も望まれている。
以上に説明したように、MPEG7に代表されるXML形式を用いて映像検索用のメタ情報を記述し、コンテンツデータとともにデータベースに蓄積しておき、ローカルシステム内あるいはネットワーク経由で条件に合致した映像データ内シーンを検索することで、所望の映像シーンを検索表示、さらにそれを選択することで再生するニーズには大なるものがある。
一方、音声認識結果を基にキーワード指定によるタグ検索或いはキーワード検索を行う場合、BGMのように音声認識(発話認識)にとって雑音となるような音要素がストリーム区間に多く含まれている場合、この区間においては一般に音声認識結果の信頼度が低下する。すなわち、音声認識の結果得られたキーワードを、映像シーンを検索(タグ検索、キーワード検索)するためのメタ情報としていて用いると、検索漏れや誤検索が発生しやすい。特に音声認識の信頼度が低い区間においては、キーワード検索においても検索漏れの問題が発生しやすい。
特開2001−229180公報
このように、従来は、映像コンテンツに対応する音声から認識されたキーワードを当該映像コンテンツのメタ情報として用いる場合、特に、BGMなどの雑音が含まれているような音声認識結果に対する信頼度の低い区間における音声を音声認識した結果得られたキーワードをメタ情報として用いた場合には、検索漏れや誤検索が発生しやすいという問題点があった。
そこで、本発明は上記問題点に鑑み、映像データと音声データからなるコンテンツデータに音声認識の信頼度が低い区間が混じっている場合においても、検索漏れや誤検索を極力回避できるコンテンツデータのメタ情報を生成するメタ情報生成方法および装置と、当該メタ情報を用いて所望のシーンを含むコンテンツデータを検索する検索方法および検索装置を提供することを目的とする。
(1)本発明は、映像データと音声データを含むコンテンツデータの特徴を記述した複数の要素データからなるメタ情報を生成するものであって、(a)複数の区間に区切られた前記コンテンツデータの当該複数の区間のそれぞれについて、当該区間の音声データの音声認識結果である音声テキストと当該区間の映像データに含まれるテロップの文字認識結果であるテロップテキストを求め、(b)前記音声テキストから当該音声テキストに含まれるキーワードと当該キーワードの属するカテゴリを求め、(c)前記複数の各区間のそれぞれについて、当該区間から求めた前記音声テキストと前記テロップテキストの両方に同音語が含まれるとき当該区間の前記音声テキストに対する信頼度は高いと判定し、同音語が含まれていないとき当該区間の前記音声テキストに対する信頼度は低いと判定し、(d)前記複数の各区間のそれぞれについて、少なくとも当該区間の識別子を記述した第1の要素データと、前記音声テキストを記述した第2の要素データと、当該音声テキストに対する信頼度を記述した第3の要素データと、当該音声テキストに前記キーワードが含まれているときには当該キーワードと当該キーワードの属する前記カテゴリとを互いに関連付けて記述した第4の要素データとを含む前記メタ情報を生成する。
(2)本発明は、(a)映像データと音声データを含むコンテンツデータを第1の記憶手段に記憶し、(b)複数の区間に区切られた前記コンテンツデータの当該複数の区間のそれぞれに対応するとともに、それぞれが、当該複数の区間のうちの1つの区間内のコンテンツデータの特徴を記述した複数の要素データからなるメタ情報であって、当該複数の要素データには、当該区間の識別子を記述した第1の要素データと、当該区間の音声データの音声認識結果である音声テキストを記述した第2の要素データと、当該音声テキストに対する信頼度として高いか低いかのいずれか一方を記述した第3の要素データと、当該音声テキストから抽出されたキーワードと当該キーワードの属するカテゴリとを互いに関連付けて記述した第4の要素データとを含む前記複数の区間のそれぞれに対応する複数のメタ情報データを第2の記憶手段に記憶し、(c)第1の文字列と第2の文字列を検索条件として指定されたとき、前記第2の記憶手段に記憶されている複数のメタ情報データのうち前記信頼度が高いメタ情報データを検索対象として、当該検索対象から、前記第1の文字列と同音のカテゴリと前記第2の文字列と同音のキーワードとが互いに関連付けて記述されている前記第4の要素データを含むメタ情報データを検索する。(d)前記第1の文字列と前記第2の文字列のうち前記第2の文字列のみが前記検索条件として指定されたとき、それぞれが前記第2の文字列と同音あるいは類似する音をもつ複数の第3の文字列を求めて、前記第2の記憶手段に記憶されているメタ情報データを検索対象として、当該検索対象から、前記音声テキストに前記複数の第3の文字列のうちのいずれかを含むメタ情報データを検索する。(e)前記第1の記憶手段に記憶されたコンテンツデータから、上記(c)および(d)で検索されたメタ情報データに含まれる前記識別子に対応する区間のコンテンツデータを検索する。
本発明によれば、映像データと音声データからなるコンテンツデータから所望のシーンを検索する際に、検索漏れや誤検索を回避することができる。
本発明の実施形態について説明する前に、XMLについて簡単に説明する。ここでは、説明の簡単のため、コンテンツデータを検索する際に用いるメタ情報(映像メタ情報)を例にとり説明する。なお、コンテンツデータの構造も同様にXMLで表現することができる。この場合、少なくとも映像の始まりからの時間を指定できるタグが含まれている。
コンテンツデータは、画像(映像)ストリーム(映像データ)と連続する音声データである音声ストリーム(音声データ)が含まれている。
図6は、XMLで記述された映像メタ情報の一例を示したものである。XMLでは、構造の表現にタグが用いられる。タグには、開始タグと終了タグがあり、構造情報の構成要素を開始タグと終了タグで囲むことにより、文字列(テキスト)区切りと、そのテキストが構造上どの構成要素に属するのかを明確に記述することができる。
ここで開始タグとは要素名称を記号「<」、「>」で閉じたものであり、終了タグとは要素名称を記号「</」と「>」で閉じたものである。タグに続く構成要素の内容が、テキスト(文字列)または子供の構成要素の繰り返しである。また開始タグには「<要素名称 属性=“属性値”>」などのように属性情報を設定することができる。「<メタ情報></メタ情報>」のようにテキストを含まない構成要素は、簡易記法として「<メタ情報/>」のように表わすこともできる。
図6に示した映像メタ情報は、「区間情報」タグから始まる要素をルート(根)とし、その子要素として「区間」タグから始まる要素集合が存在する。それぞれの「区間」タグの子要素として、「開始時間」、「終了時間」、「音声テキスト」「テロップ」、「選手名」などのタグから始まる要素集合が存在する。また「区間」タグの属性として、「ID」、「信頼度」属性が存在する。また例えば、「選手名」タグから始まる要素には「さとう」のように、1つのテキスト(文字列)をテキスト値として持つことができる。各要素は複数階層構造で表現することもできる。
以下、図面を参照しながら発明の実施形態を説明する。図1は、本実施形態に係る検索装置11を含むシステム全体の概略構成例を示したもので、検索装置11と再生装置7とが所定のネットワーク10を介して接続されて構成されている。
検索装置11は、映像メタ情報生成部1と、コンテンツデータ記憶部2と、映像メタ情報記憶部3と、コンテンツデータ検索部4と、映像メタ情報検索部5と、単語辞書6とから構成されている。
コンテンツデータ記憶部2には、複数のコンテンツデータが記憶されている。コンテンツデータは1つ又は複数のストリーム区間により構成されている各ストリーム区間には、それぞれを識別するための区間IDや、各ストリーム区間の開始時刻や終了時刻などの情報がXML等の記述形式を用いて記述されていて、コンテンツデータに対応付けて記憶されている。
映像メタ情報生成部1は、コンテンツデータ記憶部2に記憶されているコンテンツデータから、当該コンテンツデータを検索する際に用いる映像メタ情報を生成する。映像メタ情報生成部1で生成された映像メタ情報は映像メタ情報記憶部3に記憶される。
コンテンツデータ検索部4は、再生装置7から送信された検索条件を満たすコンテンツデータ(映像)を得るための映像メタ情報を検索するためのクエリを単語辞書6に登録されている単語を用いて生成し、映像メタ情報検索部5へ出力する。また、映像メタ情報検索部5で求めた区間IDや開始/終了時刻を用いて、コンテンツデータ記憶部2から、当該区間IDや開始/終了時刻に対応するコンテンツデータを検索する。ここで得られたコンテンツデータはネットワーク10を介して再生装置7へ送信される。
再生装置7は、検索要求指定部8と再生部9とから構成されている。検索要求指定部8は、所望のコンテンツデータの検索条件を入力するためのものである。検索条件はネットワーク10を介して検索装置11のコンテンツデータ検索部4へ送信される。再生部9は、コンテンツデータ検索部4から検索結果として送信されたコンテンツデータを再生する。
図2は、映像メタ情報生成部1の構成例を示したものである。映像メタ情報生成部1は、デマルチプレクサ部101、音声認識部102、テロップ認識部103、キーワード一致度判定部104、シーン情報抽出部105、データ生成部106、認識辞書107から構成される。なお、図2に示すような映像メタ情報生成部1の各構成部は、ソフトウェアで実現可能である。
映像メタ情報生成部1にはコンテンツデータ記憶部2に記憶されたコンテンツデータが入力される。入力されたコンテンツデータは、デマルチプレクサ部101で音声ストリームと画像ストリームに分離される。音声ストリームは音声認識部102に入力し、画像ストリームはテロップ認識部103に入力する。さらに、映像メタ情報生成部1に入力されたコンテンツデータは、シーン情報抽出部105に入力する。シーン情報抽出部105では、コンテンツデータから、当該コンテンツデータに含まれる各ストリーム区間の区間IDや開始時刻、終了時刻を抽出し、これらをデータ生成部106へ出力する。
音声認識部102は認識辞書107に登録されている単語を用いて、音声ストリームの音声認識を行い、音声認識結果である音声テキストと、当該音声テキストに含まれている単語(キーワード)と、このキーワードのカテゴリとを出力する。ここで抽出されるキーワードは、予め定められたカテゴリに予め登録されている単語に一致するキーワードである。音声認識部102は、カテゴリ別に予め複数の単語が登録されている単語辞書や、キーワードか否かを判定するためのルールを予め記憶している。この単語辞書やルールを参照して、音声テキストからキーワードとこのキーワードが属するカテゴリを得る。
テロップ認識部103は、画像ストリーム中のテロップ(telop)を文字認識して、テロップ認識結果であるテロップテキストと、当該テロップテキストに含まれている単語(キーワード)とそのカテゴリとを出力する。ここで抽出されるキーワードは、予め定められたカテゴリに予め登録されている単語に一致するキーワードである。テロップ認識部103は、カテゴリ別に予め複数の単語が登録されている単語辞書や、そのようなキーワードを判定するためのルールを予め記憶している。この単語辞書やルールを参照して、テロップテキストからキーワードとそれが属するカテゴリを得る。
キーワード一致度判定部104は、コンテンツデータを構成するストリーム区間ごとに音声認識部102から出力された音声テキストとテロップ認識部103から出力されたテロップテキストとを比較し、音声認識部102での音声認識結果(音声テキスト)に対する音声認識信頼度を求める。例えば、音声テキストとテロップテキストの両者に互いに一致する(同音の(読みが一致する))文字列(以下、共通語と記す)が含まれているときには信頼度が高いと考えられるので、音声認識信頼度は「高」と判定し、音声テキストとテロップテキストの両者に互いに一致する共通語が含まれていないときには、音声認識信頼度は「低」と判定する。このとき、テロップテキストは辞書により一旦ひらがなに変換された後、ひらがなの音声テキストと比較がされる。
キーワード一致度判定部104からは、各ストリーム区間の音声認識信頼度と共通語が出力される。出力される共通語は、ひらがなで表記したが、辞書を基に漢字表記に統一しても良い。
データ生成部106は、音声認識部102から出力された音声テキストと,キーワードと,このキーワードのカテゴリ、テロップ認識部103から出力されたテロップテキストと,キーワードと,このキーワードのカテゴリ、キーワード一致度判定部104から出力された音声認識信頼度と共通語、シーン情報抽出部105から出力された区間IDや開始/終了時刻などを基に、図6に示したような映像メタ情報のデータを生成する。
図6に示すように、映像メタ情報は、各ストリーム区間について、当該ストリーム区間から抽出された区間IDと音声認識信頼度(信頼度)、開始時刻、終了時刻、音声テキスト、テロップテキスト、共通語、キーワードなどが記述されている。1つのストリーム区間に対応する映像メタ情報は、「区間」タグから始まる構成要素として記述されている。
区間IDと音声認識信頼度(信頼度)は「区間」タグの属性として記述されている。開始時刻と終了時刻はそれぞれに対応するタグ名から始まる構成要素として記述されている。音声テキストは「音声テキスト」というタグ名(要素名称)の要素の値として記述されている。テロップテキストは「テロップ」というタグ名(要素名称)の要素の値として記述されている。共通語は、「共通タグ値」というタグ名(要素名称)の要素の値として記述されている。音声テキストやテロップテキスト中のキーワード(ここでは、予め定められたカテゴリに予め登録されている単語に一致するキーワード)は、当該キーワードの属するカテゴリをタグ名とする要素の値として記述されている。
各ストリーム区間に対応したメタ情報は、例えばMPEG7に代表されるXML形式として表現する。MPEG7は映像データのメタ情報規格としてポピュラーになりつつある、XMLに準拠する規格である。ここでは、上記のメタ情報を図6のようなXML形式で表現する。これはMPEG7準拠ではないが、以降の説明では支障はない。
次に、図3に示すフローチャートを参照して、映像メタ情報生成部1の処理動作について説明する。なお、ここで入力されるコンテンツデータは、MPEG規格(MPEG2あるいはMPEG4)で規定されているような、音声ストリームと画像ストリームが多重化(マルチプレックス化)されている映像ストリームを仮定しているが、これに限るものではない。
まず、入力されたコンテンツデータをデマルチプレクサ部101は、音声ストリームと画像ストリームに多重化分離する(ステップS1)。簡単のため、ここで得られた画像ストリームは、後述するように、例えば映像認識処理により2つの映像シーン切替えポイントを判定して得られた3つの区間からなり、それぞれ図4(a)から図4(c)に示す3つの区間(ストリーム区間)および音声(ここでは便宜上テキストで示す)を含むものとする。3つの各ストリーム区間の区間IDをそれぞれ「1」、「2」、「3」とする。なお、この区間の区切り方については音声の無音部で区間を分けても良いし、ユーザによる任意の位置で区間を分けても良い。
次に、音声認識部102は得られた音声ストリームに対して音声認識を施し、ストリーム内の音声データに対応するテキスト(音声テキスト)を求める(ステップS2)。通常は、音声認識用の辞書(認識辞書107)を用いて、音声データにおける音素の組み合わせ候補にもっともマッチする単語を求めることにより、音声認識率を高める施策が行われる。このような音声認識技術については、従来からある技術を用いればよく、また、本発明の要旨ではないので、説明は省略する。このようにして得られた、各ストリーム区間(図4(a)から図4(c))に対応する音声テキストを図5(a)〜図5(c)に示す。また、音声認識部102は、この音声テキストから上記キーワードがあれば、これを抽出する。
また、上記音声認識処理と平行して、テロップ認識部103は得られた画像ストリームの各画像フレームのテロップが表示され得る予め定められた領域(例えば、画面の下1/4の領域等)を文字認識してテロップテキストを求める(ステップS3)。
テロップ認識部103は、画像ストリームに対して映像認識処理を行い、映像シーン切替ポイントを判定し、この映像シーンの切替ポイントを画像ストリームにおける区間の区切りとする。この映像シーン切替ポイントの判定は、例えば、画像フレーム間の画素値や輝度や色などのが予め定められた閾値以上に変化する時点を映像シーンの切替ポイントと判定する。あるいは、音声ストリームの区切りやテロップ認識の区切りを基に適当な方法で決定するので構わない。ここでは、映像シーンの切替ポイントが2個と判定され、ストリーム区間が3つあると判定されたものとする。このようにして得られた、各ストリーム区間に対応する映像認識結果のストリーム区間内の音声およびテロップをテキスト化して表示した画像が図4(a)から図4(c)である。さらに、得られた各ストリーム区間に対して、それぞれテロップ認識を施してテキスト(テロップテキスト)を抽出する。このテロップを認識してテキストデータを抽出する技術は、既存のものを用いればよい(例えば、特開2001−285716公報参照)。このようにして得られた、各ストリーム区間(図4(a)から図4(c))に対応するテロップテキストを図5(a)〜図5(c)に示す。また、テロップ認識部103は、このテロップテキストから上記キーワードがあれば、これを抽出する。
次に、キーワード一致度判定部104は、音声テキストとテロップテキストとを比較し、音声テキストとテロップテキストの両者に互いに一致する(同音語である)共通語が含まれているときには、音声認識信頼度は「高」と判定し、音声テキストとテロップテキストの両者に互いに一致する(同音語である)共通語が含まれていないときには、音声認識信頼度は「低」と判定する。キーワード一致度判定部104からは、各ストリーム区間の音声認識信頼度と共通語が出力される(ステップS4)。
例えば、区間IDが「1」のストリーム区間の音声ストリームからは、図5(a)に示すように「のざき・せんしゅ」、「に・あんだ」があり、これと同じストリーム区間の画像ストリームから得られたテロップテキストには、図5(b)に示すように「野崎選手」、「2安打」があるので、両者はそれぞれ一致する。従って、当該ストリーム区間における音声認識の精度は高いと考えられる。すなわち、この区間での音声認識信頼度は「高」であり、共通語は「のざき・せんしゅ」「に・あんだ」である。
以上のようにして、音声認識部102から出力された音声テキストとキーワードとこのキーワードのカテゴリ、テロップ認識部103から出力されたテロップテキストとキーワードとこのキーワードのカテゴリ、キーワード一致度判定部104から出力された音声認識信頼度と共通語、シーン情報抽出部105から出力された区間IDや開始/終了時刻などを基に、データ生成部106は図6に示したような映像メタ情報のデータを生成する(ステップS5)。
図6に示した、区間IDが「1」のストリーム区間に対応する映像メタ情報では、「共通タグ値」というタグ名の構成要素で、共通語である「のざき・せんしゅ」と「に・あんだ」が記述されている。
区間IDが「1」のストリーム区間から抽出された音声テキスト中には、「のざき・せんしゅ」とあるが、これは、「“AAAせんしゅ(選手)が”あるいは“AAAせんしゅ(選手)は”あるいは“AAAせんしゅ(選手)の”と続いているときに、“AAA”を選手名と判定する」というルールを満足する。さらに、単語辞書の「選手名」というカテゴリに「のざき」が登録されているとすると、音声認識部102は、「のざき」を当該音声テキスト中のキーワードとして抽出する。このキーワードのカテゴリは「選手名」である。このようにして音声認識部102で得られたキーワード「のざき」は、図6に示す映像メタ情報では、「選手名」というタグ名の構成要素の値として記述されている。
一方、区間IDが「2」のストリーム区間や区間IDが「3」のストリーム区間から抽出された音声テキストとテロップテキストには共通語が含まれていないでの、音声認識信頼度はそれぞれ「低」と判定される。
なお、区間IDが「3」のストリーム区間から抽出された音声テキスト中には、「さとう・せんしゅ」とあるが、これは、「“AAAせんしゅ(選手)が”あるいは“AAAせんしゅ(選手)は”あるいは“AAAせんしゅ(選手)の”と続いているときに、“AAA”を選手名と判定する」というルールを満足する。さらに、単語辞書の「選手名」というカテゴリに「さとう」が登録されているとすると、音声認識部102は、「さとう」を当該音声テキスト中のキーワードとして抽出する。このキーワードのカテゴリは「選手名」である。このようにして音声認識部102で得られたキーワード「さとう」は、図6に示す映像メタ情報では、「選手名」というタグ名の構成要素の値として記述されている。
なお、図6ではカテゴリ「選手名」に属するキーワード「のざき」をタグ名とその要素値として対応付けている(即ち、<選手名>のざき</選手名>)が、対応付けの方法はこれに限るものではない。属性名として対応付けても良い(即ち、<カテゴリ 選手名=“のざき”/>)。或いは、カテゴリを階層的に表現しても良い(即ち、<選手 名前=“のざき”/>)。この場合、カテゴリ「選手」とそのサブカテゴリ「名前」を併せてカテゴリ「選手名」と同等の表現になる。
なお、キーワードからカテゴリを抽出するルールおよびカテゴリ出力部は音声認識部102やテロップ認識部103に持たせる構成でも構わない。
映像メタ情報生成部1で生成された図6に示すような映像メタ情報は映像メタ情報記憶部3に記憶される。
次に、例えば図6に示したような映像メタ情報を用いて、所望のコンテンツデータを検索し、これを再生するまでの処理動作について、図7に示すフローチャートを参照して説明する。
所望のコンテンツデータを検索するための検索条件は、再生装置7から入力される。再生装置7の検索要求指定部8は、図8に示すような画面を表示する。この画面では、「項目名」は(映像メタ情報に含まれる)タグ名を指定するための領域であり、「項目値」とは所望の文字列を指定するための領域である。図8に示す画面からは、(映像メタ情報中の)タグ名と当該タグ名の構成要素の値として含まれる文字列を検索条件として指定することもできるし、いずれかの構成要素の値として含まれる文字列のみを検索条件として指定することもできる。なお、図8に示す画面には、検索結果のコンテンツデータを再生表示するための領域R1が設けられている。
まず、ユーザがタグ名と文字列を検索条件として指定する場合を例にとり説明する。例えば、「項目名」の欄に入力する場合に、ユーザが図8に示した画面上の検索ボタンB1を選択すると、映像メタ情報に含まれる検索条件として選択可能なタグ名の一覧がプルダウンメニュー等により表示される。ユーザは、この一覧のなかから所望のタグ名を選択すれば、「項目名」欄に所望のタグ名を入力することができる。なお、この一覧には「指定なし」も含まれており、この一覧のなかから「指定なし」を選択した場合には、タグ名を検索条件として指定しないことを意味するものとする。
図8に示すように、ユーザが、「項目名」欄に「選手名」を入力し、「項目値」欄に「のざき」と入力したとする(ステップS11)。この後、ユーザがボタンB2を選択すると、タグ名「選手名」と文字列「のざき」という検索条件を含む検索要求は、検索装置11へ送信され、コンテンツデータ検索部4が当該検索要求に含まれる検索条件を受信する。
コンテンツデータ検索部4は、当該検索条件にタグ名が含まれているので(ステップS12)、信頼度(音声認識信頼度)の高いストリーム区間に対する(データベース検索用の)クエリを生成する(ステップS13)。クエリはXQueryで記述された例を示しているが、SQL等他のクエリ言語を用いて記述しても構わない。
このとき生成されるクエリを図9に示す。このクエリは、「各区間データ(各区間の映像メタ情報)うちの信頼度が「高」の映像メタ情報のなかから、「選手名」タグの要素値が「のざき」である映像メタ情報を全て求めよ」という意味をもつものである。図9に示すクエリでは、検索対象の映像メタ情報は、信頼度が「高」である映像メタ情報に限定されている。
図9に示したクエリは、映像メタ情報検索部5へ出力される。映像メタ情報検索部5は、映像メタ情報記憶部3に記憶されている音声認識信頼度の高いストリーム区間のうち、検索条件として指定されたタグ名で、しかも検索条件として指定された文字列を値として含む構成要素をもつストリーム区間の映像メタ情報(区間情報とも呼ぶ)を、タグ検索により検索する。すなわち、図9に示したクエリの場合、信頼度が「高」で、「選手名」という構成要素の値に「のざき」という文字列が含まれている、区間IDが「1」の区間情報が得られる。映像メタ情報検索部5は、当該区間情報の区間IDあるいは開始/終了時刻を取出し、これをコンテンツデータ検索部4へ渡す(ステップS14)。
コンテンツデータ検索部4は、得られた区間IDあるいは開始/終了時刻に対応するコンテンツデータをコンテンツデータ記憶部2から検索する(ステップS15)。ここでは、区間IDが「1」である、図4(a)に示したようなストリーム区間のコンテンツデータが検索され、この検索されたコンテンツデータがネットワーク10を介して再生装置7へ送信される。
再生装置7の再生部9は、区間IDが「1」である、図4(a)に示したストリーム区間のコンテンツデータを受け取ると、このコンテンツデータを図10に示したように検索結果の表示領域R1に再生表示する(ステップS16)。
次に、ユーザがタグ名を指定せずに、文字列のみを検索条件として指定する場合を例にとり説明する。図11に示すように、ユーザが、「項目名」欄に「指定なし」を入力し、「項目値」欄に「のざき」と入力したとする(ステップS11)。この後、ユーザが検索ボタンB2を選択すると、文字列「のざき」という検索条件を含む検索要求は、検索装置11へ送信され、コンテンツデータ検索部4が当該検索要求に含まれる検索条件を受信する。
コンテンツデータ検索部4は、当該検索条件にタグ名が含まれていないので(ステップS12)、信頼度(音声認識信頼度)の低い、高いを区別せずに全てのストリーム区間の音声テキストに対する(データベース検索用の)クエリを生成する。この際、まず、ステップS17において、コンテンツデータ検索部4は、単語辞書6を参照して、検索条件として指定された文字列と読みが同じ(同音)かあるいは類似する読み(音)をもつ文字列(類似文字列)を求める(ステップS17)。
単語辞書6には、複数の単語と、当該複数の単語のそれぞれについて、当該単語とよみが同じ(同音)かあるいは類似する読み(音)をもつ単語(の読み)が登録されている。例えば、指定された文字列が「のざき」であるとき、単語辞書6には「のざき」と同じ読みの「のざき」と、「のざき」と類似する読み(音)の「おざき」が登録されているとする。
コンテンツデータ検索部4は、得られた類似文字列「のざき」、「おざき」を用いて、図12に示すようなクエリを生成する(ステップS18)。図12(a)に示すクエリは、「信頼度の低いストリーム区間と信頼度の高いストリーム区間(全ストリーム区間)の映像メタ情報のなかから、「音声テキスト」要素に「のざき」という文字列を値として含む映像メタ情報を全て求めよ」という意味のクエリである。図12(b)に示すクエリは、「信頼度の低いストリーム区間と信頼度の高いストリーム区間(全ストリーム区間)の映像メタ情報のなかから、「音声テキスト」要素に「おざき」という文字列を値として含む映像メタ情報を全て求めよ」という意味のクエリである。
図12に示したクエリは、映像メタ情報検索部5へ出力される。映像メタ情報検索部5は、映像メタ情報記憶部3に記憶されている全ての区間情報のなかから、音声テキストに類似文字列を含む映像メタ情報(区間情報)を検索する。すなわち、図12に示したクエリによる検索結果を併せることで、区間IDが「1」、「2」の2つの区間情報が得られる。映像メタ情報検索部5は、当該区間情報の区間IDあるいは開始/終了時刻を取出し、これをコンテンツデータ検索部4へ渡す(ステップS19)。
コンテンツデータ検索部4は、得られた区間IDあるいは開始/終了時刻に対応するコンテンツデータをコンテンツデータ記憶部2から検索する(ステップS15)。ここでは、区間IDが「1」、「2」である、図4(a)、図4(b)に示したようなストリーム区間のコンテンツデータが検索され、この検索されたコンテンツデータがネットワーク10を介して再生装置7へ送信される。再生装置7の再生部9は、図13に示したように、検索結果の表示領域R1に、当該2つの区間を再生表示する(ステップS16)。なお、この例では検索された2つの区間を同時に再生表示したが、1つずつ再生するようにしても良いし、先に2つの区間を代表するサムネイルを表示させておき、この中から実際に再生する区間をユーザに選択させるようにしても良い。
以上説明したように、図7のステップS11において、ユーザが検索条件としてタグ名を指定した場合、ステップS13〜ステップS14では信頼度の高いストリーム区間に対するタグ検索を行い、ユーザが検索条件としてタグ名を指定せずに文字列(検索キーとしてのキーワード)のみを指定した場合、全ストリーム区間の音声テキストに対するキーワード検索を行うようになっている。
タグ検索を用いるメリットは、検索キーに用いられるキーワードの意味の曖昧性を少なくすることで、精度の高い検索を可能にする点にある。例えば、検索キーとして指定されたキーワードが「川崎」であり、「川崎」というキーワードを含むテキストを検索する場合、それが「川崎」市のように場所の名前なのか、あるいは「川崎」氏のように人名なのかが不明瞭となり、本来検索結果としたくないノイズまでも検索されてしまうという問題が生ずる。タグ検索では、例えば、データ内で<場所>川崎</場所>のように「場所」タグの値が「川崎」であると明示してあり、「場所=“川崎”」のように指定することで、上記のような検索ノイズを排除することができる。
しかし、このようにデータ内で<場所>川崎</場所>のようにタグ付けされるためには、元のデータにおけるテキスト処理の精度も高くなくてはならない。本実施形態のように音声認識結果として得られた音声テキストを用いてテキスト処理する場合は、雑音の混入等により、認識精度が低下した場合に、本来タグが抽出できる区間においても、このようなタグの生成に失敗するケースも考えられる。例えば、図4(b)に示すような、区間IDが「2」の区間においては、図5(b)に示すように、音声認識により「のざき選手」が「のざき・さんしゃ」と誤認識している。
「のざき・さんしゃ」では、上記ルール「“AAAせんしゅ(選手)が”あるいは“AAAせんしゅ(選手)は”あるいは“AAAせんしゅ(選手)の”と続いているときに、“AAA”を選手名と判定する」に合致せず、「選手名=“のざき”」と抽出されない。したがって、「選手名=“のざき”」という条件で検索をしても、区間IDが「2」の区間に対応するストリーム区間は検索にヒットしない。従って、音声認識精度(音声認識信頼度)が低いと推定できる区間においては、タグ検索の代わりにキーワード検索を用いた方が得策と考えられる。
このようにして、音声認識精度の高低に応じて、検索方式(タグ検索とキーワード検索)を変えることにより、精度の高い絞込み検索と漏れの少ない検索との使い分けができるため、柔軟なシーン検索が行える。
図7のステップS17において、コンテンツ検索部4は、検索キーとして指定された文字列と読みが同じかあるいは類似する読みをもつ文字列(類似文字列)を求める。これは音声認識結果の曖昧性を考慮しているからである。
音声テキストには、音声認識上の曖昧性を含む文字列(キーワード)が多く含まれている。これらは元の音声データとは異なる文字列として認識されている可能性が高いため、このような文字列を検索対象として検索した場合、検索漏れが発生してしまう危険性が高い。このようなことを考慮して、本実施形態の音声認識部102では、かな文字から漢字へと変換を行っていない。
なお、図7のステップS17〜19において、音声認識信頼度の異なる区間(高い区間と低い区間)に対するクエリとして、共通のクエリを生成したが、本発明はこれに限らない。すなわち、信頼度の高い区間に対するクエリと信頼度の低い区間に対するクエリとをそれぞれ別個に生成してもよい。この場合には、図12(a)に示すクエリの代わりに図12(c)に示すクエリと、図12(d)に示すクエリが生成される。また、図12(b)に示すクエリの代わりに図12(e)に示すクエリが生成される。
これにより、信頼度の高い区間については指定された文字列を含むものを、信頼度の低い区間については指定された文字列と類似の文字列を含むものを検索することができる。
以上説明したように、上記実施形態によれば、映像メタ情報生成部1は、音声・映像からなるコンテンツデータの各ストリーム区間から、音声テキストとテロップテキストを抽出するとともに、これらから音声認識結果に対する信頼度(音声認識信頼度)を求める。
例えば、音声テキストとテロップテキストの両方に読みが一致する語(共通語)があるときには、当該音声テキストの音声認識信頼度は高いと判定して、共通語が得られないときには、当該音声テキストの音声認識信頼度は低いと判定する。さらに、音声テキストからは予め記憶されたルールや単語辞書を用いて、キーワードとそのカテゴリを求める。
このようにして得られたデータを用いて各ストリーム区間に対し、当該ストリーム区間を検索する際の用いられる(当該ストリーム区間の特徴が記述されている)映像メタ情報を生成する。映像メタ情報には、音声テキストと、この音声テキストから求めたキーワードと、このキーワードのカテゴリ、テロップテキスト、音声認識信頼度と共通語、IDや開始/終了時刻などが含まれている。音声テキストから抽出されたキーワードは、このキーワードのカテゴリをタグ名とする要素の値として記述されている。
一方、コンテンツデータから所望のシーンを検索する際には、ユーザは、検索キーとしてタグ名とキーワードを指定する、或いはキーワードのみを指定する。前者の場合には、音声認識結果の信頼度が高いストリーム区間に対するタグ検索を行い、後者の場合には、音声認識結果の信頼度の高い低いにかかわらず全ストリーム区間の音声テキストに対するテキスト検索を行う。
音声認識結果の信頼度が高いストリーム区間については精度の高いタグ検索、音声認識結果の信頼度が低いストリーム区間についてはキーワード検索と曖昧検索、といったように、音声認識結果の信頼度に応じて検索方式を切り替えることにより、検索漏れや誤検索を極力回避できる。
また、検索方式の切替方式はこれに限るものではない。例えば、検索の精度を指定するボタンを設けておき、高精度モードの場合は信頼度の高いストリーム区間について信頼度の高いタグ検索,通常モードの場合は全区間についてキーワード検索,曖昧モードを指定した場合は全区間について曖昧検索というように検索用画面を構成しても良い。
本発明の実施の形態に記載した本発明の手法(図3,図7参照)は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明は、例えば、ホームサーバに関する。
本発明の実施形態に係るシステム全体の構成例を示した図。 映像メタ情報生成部の構成例を示した図。 映像メタ情報生成部の処理動作を説明するためのフローチャート。 コンテンツデータ含まれる3つのストリーム区間に対応する映像認識結果のストリーム区間内の音声およびテロップをテキスト化して表示した画像の例を示した図。 図4の3つのストリーム区間のそれぞれから得られた音声テキストとテロップテキストを示した図。 メタ情報の一例を示した図。 所望のシーンの含まれているコンテンツデータを検索する際の処理動作を説明するためのフローチャート。 検索条件と検索結果を表示する検索画面の一例と、検索条件の一例を示した図。 コンテンツデータ検索部4で生成されるタグ検索用のクエリの一例を示した図。 検索結果の表示例を示した図。 検索画面に入力された検索条件の他の例を示した図。 コンテンツデータ検索部4で生成される音声テキスト検索用のクエリの他の例を示した図。 検索結果の他の表示例を示した図。
符号の説明
1…映像メタ情報生成部、2…コンテンツデータ記憶部、3…映像メタ情報記憶部、4…コンテンツデータ検索部、5…映像メタ情報検索部、6…単語辞書、7…再生装置、8…検索要求指定部、9…再生部、10…ネットワーク、11…検索装置。

Claims (6)

  1. 映像データと音声データを含むコンテンツデータの特徴を記述した複数の要素データからなるメタ情報を生成するメタ情報生成方法であって、
    複数の区間に区切られた前記コンテンツデータの当該複数の区間のそれぞれについて、当該区間の音声データの音声認識結果である音声テキストと当該区間の映像データに含まれるテロップの文字認識結果であるテロップテキストを求める第1のステップと、
    前記音声テキストから当該音声テキストに含まれるキーワードと当該キーワードの属するカテゴリを求める第2のステップと、
    前記複数の各区間のそれぞれについて、当該区間から求めた前記音声テキストと前記テロップテキストの両方に同音語が含まれるとき当該区間の前記音声テキストに対する信頼度は高いと判定し、同音語が含まれていないとき当該区間の前記音声テキストに対する信頼度は低いと判定する第3のステップと、
    前記複数の各区間のそれぞれについて、少なくとも当該区間の識別子を記述した第1の要素データと、前記音声テキストを記述した第2の要素データと、当該音声テキストに対する信頼度を記述した第3の要素データと、当該音声テキストに前記キーワードが含まれているときには当該キーワードと当該キーワードの属する前記カテゴリとを記述した第4の要素データとを含む前記メタ情報を生成する第4のステップと、
    を有することを特徴とするメタ情報生成方法。
  2. 映像データと音声データを含むコンテンツデータの特徴を記述した複数の要素データからなるメタ情報を生成するメタ情報生成装置であって、
    複数の区間に区切られた前記コンテンツデータの当該複数の区間のそれぞれについて、当該区間の音声データの音声認識結果である音声テキストと当該区間の映像データに含まれるテロップの文字認識結果であるテロップテキストを求める手段と、
    前記音声テキストから当該音声テキストに含まれるキーワードと当該キーワードの属するカテゴリを求める手段と、
    前記複数の各区間のそれぞれについて、当該区間から求めた前記音声テキストと前記テロップテキストの両方に同音語が含まれるとき当該区間の前記音声テキストに対する信頼度は高いと判定し、同音語が含まれていないとき当該区間の前記音声テキストに対する信頼度は低いと判定する手段と、
    前記複数の各区間のそれぞれについて、少なくとも当該区間の識別子を記述した第1の要素データと、前記音声テキストを記述した第2の要素データと、当該音声テキストに対する信頼度を記述した第3の要素データと、当該音声テキストに前記キーワードが含まれているときには当該キーワードと当該キーワードの属する前記カテゴリとを記述した第4の要素データとを含む前記メタ情報を生成する手段と、
    を具備したことを特徴とするメタ情報生成装置。
  3. 前記複数の区間のそれぞれに対応する前記メタ情報には、当該区間から求めたテロップテキストを記述した第5の要素データが含まれていることを特徴とする請求項2記載のメタ情報生成装置。
  4. 映像データと音声データを含むコンテンツデータを第1の記憶手段に記憶する第1のステップと、
    複数の区間に区切られた前記コンテンツデータの当該複数の区間のそれぞれに対応するとともに、それぞれが、当該複数の区間のうちの1つの区間内のコンテンツデータの特徴を記述した複数の要素データからなる複数のメタ情報データであって、当該複数の要素データには、当該区間の識別子を記述した第1の要素データと、当該区間の音声データの音声認識結果である音声テキストを記述した第2の要素データと、当該音声テキストに対する信頼度として高いか低いかのいずれか一方を記述した第3の要素データと、当該音声テキストから抽出されたキーワードと当該キーワードの属するカテゴリとを記述した第4の要素データとを含む当該複数のメタ情報データを第2の記憶手段に記憶する第2のステップと、
    第1の文字列と第2の文字列を検索条件として指定されたとき、前記第2の記憶手段に記憶されている複数のメタ情報データのうち前記信頼度が高いメタ情報データを検索対象として、当該検索対象から、前記第1の文字列と同音のカテゴリと前記第2の文字列と同音のキーワードとが記述されている前記第4の要素データを含むメタ情報を検索する第3のステップと、
    前記第1の文字列と前記第2の文字列のうち前記第2の文字列のみが前記検索条件として指定されたとき、それぞれが前記第2の文字列と同音あるいは類似する音をもつ複数の第3の文字列を求める第4のステップと、
    前記第2の記憶手段に記憶されているメタ情報データを検索対象として、当該検索対象から、前記音声テキストに前記複数の第3の文字列のうちのいずれかを含むメタ情報を検索する第5のステップと、
    前記第1の記憶手段に記憶されたコンテンツデータから、前記第3および第5のステップで検索されたメタ情報に含まれる前記識別子に対応する区間のコンテンツデータを検索する第6のステップと、
    を有することを特徴とする検索方法。
  5. 映像データと音声データを含むコンテンツデータを記憶する第1の記憶手段と、
    複数の区間に区切られた前記コンテンツデータの当該複数の区間のそれぞれに対応し、それぞれが、当該複数の区間のうちの1つの区間内のコンテンツデータの特徴を記述した複数の要素データからなるメタ情報データであって、当該複数の要素データには、当該区間の識別子を記述した第1の要素データと、当該区間の音声データの音声認識結果である音声テキストを記述した第2の要素データと、当該音声テキストに対する信頼度として高いか低いかのいずれか一方を記述した第3の要素データと、当該音声テキストから抽出されたキーワードと当該キーワードの属するカテゴリとを記述した第4の要素データとを含む当該複数のメタ情報データを記憶する第2の記憶手段と、
    第1の文字列と第2の文字列を検索条件として指定されたとき、前記第2の記憶手段に記憶されている複数のメタ情報データのうち前記信頼度が高いメタ情報データを検索対象として、当該検索対象から、前記第1の文字列と同音のカテゴリと前記第2の文字列と同音のキーワードとが記述されている前記第4の要素データを含むメタ情報データを検索する第1の検索手段と、
    前記第1の文字列と前記第2の文字列のうち前記第2の文字列のみが前記検索条件として指定されたとき、それぞれが前記第2の文字列と同音或いは類似する音をもつ複数の第3の文字列を求める手段と、
    前記第2の記憶手段に記憶されているメタ情報データを検索対象として、当該検索対象から、前記音声テキストに前記複数の第3の文字列のうちのいずれかを含むメタ情報データを検索する第2の検索手段と、
    前記第1の記憶手段に記憶されたコンテンツデータから、前記第1および第2の検索手段で検索されたメタ情報データに含まれる前記識別子に対応する区間のコンテンツデータを検索する第3の検索手段と、
    を具備したことを特徴とする検索装置。
  6. 前記コンテンツデータの前記複数の区間のそれぞれについて、当該区間の音声データの音声認識結果である音声テキストと当該区間の映像データに含まれるテロップの文字認識結果であるテロップテキストを求める手段と、
    前記音声テキストから当該音声テキストに含まれるキーワードと当該キーワードの属するカテゴリを求める手段と、
    前記複数の各区間のそれぞれについて、当該区間から求めた前記音声テキストと前記テロップテキストの両方に同音語が含まれるとき当該区間の前記音声テキストに対する信頼度は高いと判定し、同音語が含まれていないとき当該区間の前記音声テキストに対する信頼度は低いと判定する手段と、
    前記複数の各区間のそれぞれについて、少なくとも当該区間の識別子を記述した第1の要素データと、前記音声テキストを記述した第2の要素データと、当該音声テキストに対する信頼度を記述した第3の要素データと、当該音声テキストに前記キーワードが含まれているときには当該キーワードと当該キーワードの属する前記カテゴリとを記述した第4の要素データとを含む前記メタ情報データを生成する生成手段と、
    をさらに具備し、
    前記第2の記憶手段は、前記生成手段で生成されたメタ情報データを記憶することを特徴とする請求項5記載の検索装置。
JP2003320940A 2003-09-12 2003-09-12 メタ情報生成方法、メタ情報生成装置、検索方法および検索装置 Expired - Fee Related JP4064902B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003320940A JP4064902B2 (ja) 2003-09-12 2003-09-12 メタ情報生成方法、メタ情報生成装置、検索方法および検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003320940A JP4064902B2 (ja) 2003-09-12 2003-09-12 メタ情報生成方法、メタ情報生成装置、検索方法および検索装置

Publications (2)

Publication Number Publication Date
JP2005092295A true JP2005092295A (ja) 2005-04-07
JP4064902B2 JP4064902B2 (ja) 2008-03-19

Family

ID=34452766

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003320940A Expired - Fee Related JP4064902B2 (ja) 2003-09-12 2003-09-12 メタ情報生成方法、メタ情報生成装置、検索方法および検索装置

Country Status (1)

Country Link
JP (1) JP4064902B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006303745A (ja) * 2005-04-19 2006-11-02 Hitachi Ltd 記録再生装置、記録再生方法
JP2007018068A (ja) * 2005-07-05 2007-01-25 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム
JP2008176748A (ja) * 2007-01-22 2008-07-31 Fujitsu Ltd 情報付与プログラム、情報付与装置、および情報付与方法
JP2008283486A (ja) * 2007-05-10 2008-11-20 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2010020660A (ja) * 2008-07-14 2010-01-28 Onkyo Corp コンテンツ情報表示装置、サーバ、表示装置及びそれらのプログラム
JP2010061426A (ja) * 2008-09-04 2010-03-18 Nikon Corp 撮像装置およびキーワード作成プログラム
KR101033448B1 (ko) 2006-03-09 2011-05-09 인터내셔널 비지네스 머신즈 코포레이션 디지털 오디오 플레이어에서 rss 콘텐츠를 렌더링하기위한 rss 콘텐츠 관리 방법, 시스템 및 컴퓨터판독가능한 기록 매체
WO2013001571A1 (ja) * 2011-06-29 2013-01-03 株式会社日立製作所 非構造データ解析システム
JP2014022837A (ja) * 2012-07-13 2014-02-03 Nippon Hoso Kyokai <Nhk> 学習装置、及びプログラム
JP2017503273A (ja) * 2013-12-31 2017-01-26 グーグル インコーポレイテッド 文脈情報に基づいて検索結果を生成するための方法、システム、および媒体
JP2019008607A (ja) * 2017-06-26 2019-01-17 Jcc株式会社 映像管理サーバー及び映像管理システム
US10204104B2 (en) 2015-04-14 2019-02-12 Google Llc Methods, systems, and media for processing queries relating to presented media content
US10333767B2 (en) 2013-03-15 2019-06-25 Google Llc Methods, systems, and media for media transmission and management
US10448110B2 (en) 2013-12-31 2019-10-15 Google Llc Methods, systems, and media for presenting supplemental information corresponding to on-demand media content

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4561453B2 (ja) * 2005-04-19 2010-10-13 株式会社日立製作所 記録再生装置、記録再生方法
JP2006303745A (ja) * 2005-04-19 2006-11-02 Hitachi Ltd 記録再生装置、記録再生方法
JP2007018068A (ja) * 2005-07-05 2007-01-25 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム
KR101033448B1 (ko) 2006-03-09 2011-05-09 인터내셔널 비지네스 머신즈 코포레이션 디지털 오디오 플레이어에서 rss 콘텐츠를 렌더링하기위한 rss 콘텐츠 관리 방법, 시스템 및 컴퓨터판독가능한 기록 매체
JP2008176748A (ja) * 2007-01-22 2008-07-31 Fujitsu Ltd 情報付与プログラム、情報付与装置、および情報付与方法
JP2008283486A (ja) * 2007-05-10 2008-11-20 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2010020660A (ja) * 2008-07-14 2010-01-28 Onkyo Corp コンテンツ情報表示装置、サーバ、表示装置及びそれらのプログラム
JP2010061426A (ja) * 2008-09-04 2010-03-18 Nikon Corp 撮像装置およびキーワード作成プログラム
WO2013001571A1 (ja) * 2011-06-29 2013-01-03 株式会社日立製作所 非構造データ解析システム
JP2014022837A (ja) * 2012-07-13 2014-02-03 Nippon Hoso Kyokai <Nhk> 学習装置、及びプログラム
US10333767B2 (en) 2013-03-15 2019-06-25 Google Llc Methods, systems, and media for media transmission and management
JP2017503273A (ja) * 2013-12-31 2017-01-26 グーグル インコーポレイテッド 文脈情報に基づいて検索結果を生成するための方法、システム、および媒体
US10448110B2 (en) 2013-12-31 2019-10-15 Google Llc Methods, systems, and media for presenting supplemental information corresponding to on-demand media content
US10992993B2 (en) 2013-12-31 2021-04-27 Google Llc Methods, systems, and media for presenting supplemental information corresponding to on-demand media content
US10997235B2 (en) 2013-12-31 2021-05-04 Google Llc Methods, systems, and media for generating search results based on contextual information
US11941046B2 (en) 2013-12-31 2024-03-26 Google Llc Methods, systems, and media for generating search results based on contextual information
US12063419B2 (en) 2013-12-31 2024-08-13 Google Llc Methods, systems, and media for presenting supplemental information corresponding to on-demand media content
US10204104B2 (en) 2015-04-14 2019-02-12 Google Llc Methods, systems, and media for processing queries relating to presented media content
US10984038B2 (en) 2015-04-14 2021-04-20 Google Llc Methods, systems, and media for processing queries relating to presented media content
JP2019008607A (ja) * 2017-06-26 2019-01-17 Jcc株式会社 映像管理サーバー及び映像管理システム

Also Published As

Publication number Publication date
JP4064902B2 (ja) 2008-03-19

Similar Documents

Publication Publication Date Title
US8374845B2 (en) Retrieving apparatus, retrieving method, and computer program product
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
US9465870B2 (en) System and method for digital video retrieval involving speech recognition
JP4064902B2 (ja) メタ情報生成方法、メタ情報生成装置、検索方法および検索装置
US20070101266A1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
US7212972B2 (en) Audio features description method and audio video features description collection construction method
KR20090024969A (ko) 컨텐트에서의 등장 인물간의 관계에 대한 정보 생성 방법및 그 장치
JP2007525900A (ja) 番組内のコンテンツを位置特定する方法及び装置
KR20070086794A (ko) 기억 장치 및 기록 매체
JP2004528640A (ja) 自動ビデオ検索の方法、システム、アーキテクチャ及びコンピュータプログラムプロダクト
JP2010220065A (ja) コンテンツ推薦装置及びコンテンツ推薦方法
KR20040035318A (ko) 객체기반 엠팩-4 컨텐츠 편집/저작과 검색 장치 및 방법
US20080005100A1 (en) Multimedia system and multimedia search engine relating thereto
US20090083227A1 (en) Retrieving apparatus, retrieving method, and computer program product
JP2010258615A (ja) 再生装置及びプログラム
JP2010245853A (ja) 動画インデクシング方法及び動画再生装置
KR100451004B1 (ko) 폐쇄자막 기반의 뉴스 비디오 데이터베이스 생성 장치 및방법과 그에 따른 내용기반 검색/탐색 방법
JP2007511858A (ja) 拡張検索機能を提供するメタ情報及びサブタイトル情報が記録された記録媒体及びその再生装置
JP2004289530A (ja) 記録再生装置
US20080016068A1 (en) Media-personality information search system, media-personality information acquiring apparatus, media-personality information search apparatus, and method and program therefor
JP5499566B2 (ja) 動画再生装置、動画再生方法及びプログラム
JP2008097232A (ja) 音声情報検索プログラムとその記録媒体、音声情報検索システム、並びに音声情報検索方法
Lindsay et al. Representation and linking mechanisms for audio in MPEG-7
JP2005236546A (ja) 部分コンテンツ作成方法及び装置及びプログラム
JP2006338550A (ja) メタデータ作成装置及びメタデータ作成方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071227

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120111

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130111

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130111

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140111

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees