JP2009163643A

JP2009163643A - 映像検索装置、編集装置、映像検索方法およびプログラム

Info

Publication number: JP2009163643A
Application number: JP2008002658A
Authority: JP
Inventors: Junzo Tokunaka; 潤三徳中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-01-09
Filing date: 2008-01-09
Publication date: 2009-07-23
Also published as: US20100003006A1; CN101482880A; EP2079234A3; EP2079234A2

Abstract

【課題】ユーザが所望の映像シーンを容易に検索可能とする。
【解決手段】ユーザがキーワードを入力して、検索釦を操作すると（ST2,ST3）。ＣＰＵは、キーワードをテキストコードに変換し、キーワードのテキストコードと、音声テキストのテキストコードとを、キーワード位置を１文字ずつ順次移動して比較していく（ST5〜ST7）。キーワードと音声テキストが一致する毎に、一致したテキストコードのin，outのタイムコードを読み、該当タイムコード、つまり、キーワード位置を、モニタの映像タイムライン上にインテンド表示する（ST8,ST9）。ユーザにより映像タイムライン上の所定のキーワード位置が選択されるとき、ＣＰＵはモニタに選択されたキーワード位置に対応した代表画像を表示し、また、ユーザによりさらに再生指示が行われるとき、ＣＰＵはモニタに所定のキーワード位置に対応した映像を表示する。
【選択図】図５

Description

この発明は、映像検索装置、編集装置、映像検索方法およびプログラムに関する。詳しくは、この発明は、音声テキストデータが関連付けされた映像データを取り扱うものにあって、入力されたキーワードが音声テキストデータから検索され、タイムライン上に検索されたキーワード位置が表示されることにより、ユーザが所望の映像シーンを容易に検索できるようにした映像検索装置等に係るものである。

人は本の何処にどのようなことを書いてあるかを探す際、本を斜めに読み、あるいは、ページをパラパラとめくることで、文字の検索が可能である。しかしながら、映像と音声を主な記録情報としてきた従来の動画映像の世界では１つの素材から、所望のシーンを検索する場合に、困難が伴う。

例えば、従来ＶＴＲ(Video Tape Recorder)では、高速サーチで映像シーンを探す場合、概ねの動画像を認識することはできる、しかし、細かなフレーム単位の内容までは確認できない。また、このように高速サーチで映像シーンを探す場合、音声はミュートされるため聞くこともできないし、仮に聞いても早すぎて内容を理解できない。

音声について補足すると、例えば比較的低速な３〜４倍速での再生速度は、人の聴覚では音声を聞いてどのようなことを話しているのか、映像の内容を理解できる境目となっている。そのため、音声内容を高速に確認する手段はいままでなかった。

ノンリニア（Non-Linear）編集機（例えば、特許文献１参照）では、検索のための表示方法として、サムネール画像を複数表示し選択する手法が採られている。通常、ノンリニア編集機では連続した映像のサムネールを表示することはなく、飛び飛びのサムネールを表示するため、これから所望のシーンを探し出すのは困難を伴う。

また、サムネール画像の情報量は圧倒的に音声よりも多く、仮にモニタに全てのフレーム(29.94frame/sec)のサムネール画像を表示したとしても、人がサムネール画像を斜めに見ることにより所望の映像シーンを探すことは困難である。

また、仮に、所望の映像シーンの近傍にあるシーンを見つけても、最終的な編集点を決めるには更に困難を伴う。すなわち、ノンリニア編集機のモニタでは、通常、音声エンベロープ波形（縦：振幅、横：時間軸）をタイムラインに表示し、編集点の決定のために役立てている。

しかし、人が音声エンベロープ波形を見て、音の始まりや音声の強弱を認識できても、音声の意味/内容は理解できなかった。このため、編集オペレータは編集点付近で素材をリアルタイムでプレビュー（pre-view）し、音声の意味/内容を確認しながら、編集点を決めていた。

例えば、特許文献２には、動画を構成する各ブロックについてのタイトルもしくはその他のテキスト情報を時間順に一覧表示をすることが記載されている。このように各ブロックについてのテキスト情報を一覧表示するものにあっては、当該テキスト情報から所望の映像シーンの近傍にあるシーンを見つけても、最終的な編集点を決めるには、編集オペレータは編集点付近で素材をリアルタイムでプレビューすること等が必要となる。
ＷＯ９６／３２７２２号公報特開２００５−９４７０９号公報

上述したように、従来のノンリニア編集機等では、映像と音声を主な記録情報とした動画映像素材の内容を確認し、編集点、を決め、制作意図に沿った編集を行う行為には多くの工数を必要としていた。

この発明の目的は、例えば編集点とすべき所望の映像シーンの検索を容易とすることにある。

この発明の概念は、
音声テキストデータが関連付けされている映像データを取り扱う映像検索装置であって、
ユーザがキーワードを入力するキーワード入力部と、
上記音声テキストデータから上記キーワード入力部に入力されたキーワードを検索するキーワード検索部と、
モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索部で検索されたキーワード位置を表示する情報表示制御部と
を備えることを特徴とする映像検索装置にある。

この発明においては、音声テキストデータが関連付けされた映像データを取り扱う。ここで、音声テキストデータとは、映像信号に対応した音声信号による音声の内容を示すテキストデータである。映像データおよび音声テキストデータは、例えば、ＨＤＤ等のデータ保持部に保持されている。

キーワード入力部にキーワードが入力されることで、キーワード検索部により、音声テキストデータから当該キーワードが検索される。例えば、キーワード入力部は、モニタに表示されるグラフィカルユーザインタフェース画面を用いて、キーワードを入力する、構成とされている。このようにグラフィカルユーザインタフェース画面を用いてキーワードを入力する構成とすることで、ユーザは、キーワードの入力を、容易、かつ誤りなく行うことができる。

上述したようにキーワード検索が行われた後、情報表示制御部により、タイムライン上、例えば映像タイムライン上に、検索されたキーワード位置が表示される。このように、映像タイムライン上にユーザが入力したキーワード位置が表示されることで、ユーザは、所望の映像シーンの検索を容易に行うことができる。

この発明において、例えば、ユーザがモニタの映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、データ保持部に保持されている映像データに基づいて、位置選択部で選択されたキーワード位置に対応した代表画像をモニタに表示する画像表示制御部とをさらに備える、ようにされてもよい。この場合、ユーザにより選択されたキーワード位置に対応した代表画像がモニタに表示されることで、ユーザは、各キーワード位置に対応した映像シーンを容易に確認できる。

また、この発明において、例えば、ユーザがモニタに表示された映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、ユーザが再生を指示するための再生指示部と、位置選択部で所定のキーワード位置が選択された状態で、再生指示部で再生が指示されたとき、映像データに基づいて、所定のキーワード位置に対応した映像をモニタに表示する画像表示制御部とをさらに備える、ようにされてもよい。この場合、ユーザにより選択されたキーワード位置に対応した映像がモニタに表示されることで、ユーザは、各キーワード位置に対応した映像シーンを容易に確認できる。

この発明によれば、音声テキストデータが関連付けされた映像データを取り扱うものにあって、入力されたキーワードが音声テキストデータから検索され、タイムライン上に検索されたキーワード位置が表示されるものであり、ユーザは、所望の映像シーンを容易に探すことができる。

以下、図面を参照しながら、この発明の実施の形態について説明する。

「編集装置の構成」

図１は、実施の形態としてのノンリニア編集機１００の構成例を示している。このノンリニア編集機１００は、ＣＰＵ（Central Processing Unit）１１１と、ＲＯＭ（Read OnlyMemory）１１２と、ＲＡＭ（Random Access Memory）１１３と、表示コントローラ１１４と、モニタ１１５と、ＨＤＤインタフェース１１６と、ＨＤＤ１１７と、ドライブコントローラ１１８と、メディアドライブ１１９と、入力インタフェース１２０と、入力部１２１と、音声出力インタフェース１２２と、スピーカ１２３と、システムバス１２４とを有している。

ＣＰＵ１１１、ＲＯＭ１１２、ＲＡＭ１１３は、システムバス１２４により相互に接続されている。システムバス１２４には、さらに、表示コントローラ１１４、ＨＤＤインタフェース１１６、ドライブコントローラ１１８、入力インタフェース１２０および音声出力インタフェース１２２が接続されている。

ＣＰＵ１１１は、ノンリニア編集機１００の各部の動作を制御する。このＣＰＵ１１１は、ＲＯＭ１１２、あるいはＨＤＤ１１７に記憶されているプログラムを、ＲＡＭ１１３にロードして実行することで、各部の動作を制御する。

モニタ１１５は、表示コントローラ１１４を介して、バス１２４に接続されている。モニタ１１５は、例えば、ＬＣＤ(Liquid Crystal Display)、ＰＤＰ(Plasma DisplayPanel)等で構成されている。表示コントローラ１１４は、ＣＰＵ１１１の制御のもと、モニタ１１５に表示される画像、およびＧＵＩ用の表示を制御する。

ＨＤＤ１１７は、ＨＤＤインタフェース１１６を介して、システムバス１２４に接続されている。ＨＤＤ１１７は、ＣＰＵ１１１の制御のためのプログラム、編集素材としての映像データおよび音声データ等を格納する。

なお、この実施の形態においては、音声テキストデータが関連付けされた映像データが取り扱われる。音声テキストデータは、映像データに対応した音声データによる音声の内容を示すテキストデータである。従って、ＨＤＤ１１７に保持される各動画映像コンテンツの映像データには、それに対応する音声データの他に、さらに音声テキストデータが付加されている。この場合、映像データと、音声データおよび音声テキストデータとの関連付けは、タイムコードを介して行われている。

メディアドライブ１１９は、ドライブコントローラ１１８を介して、システムバス１２４に接続されている。このメディアドライブ１１９は、各種記録メディアに対応するドライブ機能部であり、当該記録メディアに対する記録再生動作を行う。記録メディアとしては、例えば、ＣＤ、ＭＤ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ、ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、Blu-ray Disc等の光ディスク、あるいはメモリカードがある。このメディアドライブ１１９は、例えば、編集素材としての映像データ等を入力し、また、編集後の映像データ等を出力するために使用される。

入力部１２１は、入力インタフェース１２０を介して、システムバス１２４に接続されている。この入力部１２１は、ユーザが、各種の操作入力のため、さらにはデータ入力のために、使用する。この入力部１２１は、キーボード、マウス、リモートコマンダ、その他の入力デバイスで構成されている。

スピーカ１２３は、音声出力インタフェース１２２を介して、システムバス１２４に接続されている。

「映像および音声テキストのインデックスファイル、データファイル」

次に、図１に示すノンリニア編集機１００のＨＤＤ１１７に保持されている映像データ、音声テキストデータについて説明する。

図２（ａ）、（ｂ）は、映像のインデックスファイル、データファイルの構造の一例を示している。インデックスファイルは、データファイルとは独立したファイルとして作成される場合と、データファイルに含まれる場合とがある。この例は、インデックスファイルがデータファイルとは独立して作成された場合の例である。

映像インデックスファイルは、ＨＤＤ１１７のどのアドレスに何フレーム目のデータを記録してあるかを示す管理データである。この映像インデックスファイルには、インデックス総数、インデックス領域のサイズ、データファイルに含まれる全ての映像フレームデータのサイズと映像データファイル内のアドレスが含まれている。

映像データファイルには、全ての映像フレームデータがそのサイズと共に含まれている。また、この映像データファイルには、映像ファイルヘッダが含まれている。さらに、映像データは圧縮されている場合が多く、この映像データファイルには、圧縮された映像データの圧縮を解くための情報も含まれている。

なお、図示および説明は省略するが、音声データも同様に、タイムコード（ＴＣ）と同期して記録されている。この実施の形態において、タイムコードは全て連続に記録されたもので、映像フレーム（frame）番号と等価な情報である。

本来、タイムコードは、時、分、秒、フレームの情報であるが、カムコーダ等により記録メディアに記録された素材には複数のクリップ（clip）がある。ここで、クリップとは、記録スタート（REC START）から記録ポーズ（REC PAUSE）までの記録部分を意味する。このクリップとクリップとのタイムコードが不連続であったり、あるいは別の記録メディアの間ではタイムコードが重複したりする場合もある。

図１に示すノンリニア編集機１００で、これらの素材をメディアドライブ１１９から入力してＨＤＤ１１７に記録する際、元のタイムコードとは別に、連続したフレーム番号を割り当てて記録する。この場合、０，１，２・・・とフレーム番号で管理してもよいし、連続したタイムコードを新たに割り当てて記録してもよい。

図２のインデックスファイルで「オフセット」と書いてあるのは、例えば、基準点のアドレスを０としたときの、そこからの距離を意味しており、いわゆるオフセットアドレスである。「オフセット」の値から各映像フレームの先頭アドレスが解り、「オフセット」と「映像サイズ（圧縮記録のため、フレーム毎にデータ量は異なる）」から各映像フレームの終わりのアドレスが解る。

図３（ａ），（ｂ）は、音声テキストのインデックスファイル、音声テキストデータファイルの構造の一例を示している。インデックスファイルは、データファイルとは独立したファイルとして作成される場合と、データファイルに含まれる場合がある。この例は、インデックスファイルがデータファイルとは独立して作成される場合の例である。インデックスファイルには、インデックス総数、インデックス領域のサイズ、文単位またはフレーズ（区）単位の、in点およびout点のタイムコード、音声テキストデータのサイズが含まれている。

音声テキストデータファイルには、各文または各フレーズに含まれる文字のテキストデータが、当該ワードのin点およびout点のタイムコードと共に含まれている。また、この音声テキストデータファイルには、文またはフレーズ毎に、データヘッダおよびデータサイズが含まれている。また、この音声テキストデータファイルには、音声テキストファイルヘッダが含まれている。

検索システムとしてのＣＰＵ１１１は、音声テキストインデックスファイルからタイムコードに対応する音声テキストデータファイルのアドレスを知り、このアドレスにアクセスすることにより、音声テキストのデータファイルを読むことができる。また、検索システムとしてのＣＰＵ１１１は、読み込んだ音声テキストのデータをキーワードと比較することにより、音声テキストのキーワードとその位置（タイムコード）を検索することができる。

図４（ａ）は、映像記録装置におけるタイムコードに音声テキストデータを織りいれた構成概念を示している。ここで、タイムコードは連続した時間、フレーム番号となっている。ここでは、不連続なタイムコード、同じタイムコードを含まないと仮定してある。この図４（ａ）において、タイムコードは一例として６２５／５０フォーマットにて記載してあり、２５フレーム／secである。

「Plane Text」とは、コンピュータ上で文章を扱うための一般的なファイルフォーマット、または文字列の形式である。ここでは、説明の便宜上「文字」そのものを書いてある。実際には、テキストコード（漢字は２バイトデータ）で表されるが、ここでは、タイムコードとテキストデータの構成を説明するのが目的であるため、詳細なテキストコード、制御情報は省略している。

図４（ａ）では、「新聞を取って」という日本語の例を示している。図の上から下へ縦方向に時間軸が定義されており、人の音声は無音（灰色）、有音（文字情報）にて表されている。人の発声はある時間幅をもっているため、ある時間区間（00:00:00:0１〜00:00:00:17）は新（しん）を発声している区間を表している。図中の「text制御情報」は文字として表示されないテキストの制御情報を表す。例えば、タブ、垂直タブ、改行、改ページ、ファイル終端マーク、Byte Order Mark等があるが、ここでは、詳細は省略する。

「文字in/out」は、文字のin点、out点を示し、タイムコード（time code）で結び付けられている。「フレーズ」は文字により構成されるフレーズまたは文を表し、「フレーズin/out」は、フレーズのin点、out点を示す。このように、文字単位、または、文単位のin/out点をタイムコードで定義することにより、さまざまな動画、音声の制御が可能となる。すなわち、あるテキスト文字に対応する映像サムネール画を表示したり、対応する音声を再生したり、該当テキスト文字を含む文章の先頭（フレーズin点）にキューアップ（cue up）して再生し、out点で再生を停止する、等が可能となる。また、あるテキスト文（例「新聞」）を検索し、素材の中から一致する複数の該当箇所を表示することが可能となる。さらに、複数の文章を塊として検索し、似た文章がある候補の場所を検索することも可能である。

図４（ｂ）は、図４（ａ）から、エッセンス、つまり文字のin点、out点を抜き出したもので、この状態で音声テキストのデータファイルを構成する（図３（ｂ）参照）。

「音声テキストを用いたキーワードによる動画検索」

次に、図１に示すノンリニア編集機１００における動画検索について説明する。ノンリニア編集機１００においては、取り込んだ動画素材を編集する際、編集点を決めるため、所望の映像シーンを、音声テキストを用いて検索できる。

＜キーワード検索＞

ユーザ（編集オペレータ）がキーワードとなる文字を入力して、素材の中から所望映像シーンを効率よく選択し、確認することにより、編集作業の前工程を行う。図５のフローチャートを用いて、ＣＰＵ１１１のキーワード検索処理を説明する。

ＣＰＵ１１１は、ステップＳＴ１において、キーワード検索処理を開始し、その後に、ステップＳＴ２の処理に移る。このステップＳＴ２において、ユーザの入力部１２１の操作によってキーワードが入力されると、ＣＰＵ１１１は、ステップＳＴ３の処理に移る。

図６は、モニタ１１５に表示されているユーザインタフェース画面を示している。このユーザインタフェース画面には、上部側に画像を表示するための２つの画像表示位置（１），（２）が設けられている。また、このユーザインタフェース画面には、下部側にタイムライン（３）、映像タイムライン（４）、音声タイムライン（５），（７）、および音声テキストタイムライン（６），（８）が設けられている。映像タイムライン（４）におけるａ，ｂ，ｃ，ｄはクリップを示している。音声タイムライン（５），（７）には、映像タイムライン（４）に表示された各クリップに対応した音声信号の波形が表示される。また、音声テキストタイムライン（６），（８）には、映像タイムライン（４）に表示された各クリップに対応した音声の内容が表示される。

また、このユーザインタフェース画面には、下部側に、キーワード検索時にキーワードを入力するためのキーワード枠（９）と共に、さらに、検索開始を指示する検索釦（１０）、Previous釦（１１）、再生釦（１２）、Next釦（１３）、および再生停止釦（１４）が設けられている。

ユーザは、図６に示すようなユーザインタフェース画面におけるキーワード枠（９）へキーワード（この例では、「春一番」）を、入力部１２１のマウス、キーボードを使って入力する。このＧＵＩプログラムでは、日本語が用意されており、キーワードが入力されると、図７に示すように、キーワード枠（９）にキーワードが表示される。

ステップＳＴ３において、ユーザの入力部１２１の操作によってユーザインタフェース画面上の検索釦（１０）が押されると、ＣＰＵ１１１は、ステップＳＴ４の処理に移る。このステップＳＴ４において、ＣＰＵ１１１は、キーワードを、テキストコードに変換する。

次に、ＣＰＵ１１１は、ステップＳＴ５において、キーワードのテキストコードと、図３の音声テキストデータファイルのテキストコードを、ＲＡＭ１１３に取り込み、比較する。ＣＰＵ１１１は、ステップＳＴ６において、一致したか否かを判断する。一致していないとき、ＣＰＵ１１１は、ステップＳＴ７において順次比較のためキーワードを１文字移動し、その後に、ステップＳＴ５に戻って、上述したと同様の動作を繰り返す。

図３は、＃１、＃２、・・・＃Ｎまでのフレーズまたは文のテキストデータである。キーワード検索をする場合、目的とする「テキストコード」と、「図３の＃１の丸１，丸２，丸３，丸４，丸５，・・・，＃Ｎの最後のテキストコード」と一致するデータを順次比較して検出する。この処理を、上述のステップＳＴ５〜ＳＴ７により行っている。図８は、キーワードを音声テキストと比較する様子を、横軸を時間軸として、模式的に示している。

ステップＳＴ６で一致したと判断したとき、ＣＰＵ１１１は、ステップＳＴ８において、一致したテキストコードのin，outのタイムコードを読む。そして、ＣＰＵ１１１は、ステップＳＴ９において、該当タイムコードをインテンド表示する。例えば、ＣＰＵ１１１は、映像タイムライン上に、検索されたキーワード位置を、色、明暗で区別した線（棒線、丸、楕円等）によりインテンド表示する（図７の映像タイムライン（４）参照）。

ここで、１本の線の太さは、ユーザ（編集オペレータ）に目視可能な太さに自動的に設定される。すなわち、１本の線の太さは、タイムライン表示幅、時間刻み幅をパラメータとして自動設定される。この結果、タイムラインの縮尺に応じて一致した場所を表示する線の太さを変えることができる。例えば、映像タイムラインが１フレーム時間幅を目視可能な十分な拡大表示を行った場合は１フレームの時間幅と一致させるが、これは稀なケースである。

なお、この実施の形態においては、図７に示すように、映像タイムライン（４）上に検索されたキーワード位置が表示されているが、検索されたキーワード位置を例えばタイムライン（３）上にインテンド表示されるようにしてもよい。また、インテンド表示は、図７に示すように、複数の棒で頻度を表してもよいし、ヒストグラム（頻度を表す棒グラフ）で表してもよい。

次に、ＣＰＵ１１１は、ステップＳＴ１０において、最終テキストコードか否かを判断する。最終テキストコードでないとき、ＣＰＵ１１１は、ステップＳＴ７において、順次比較のため、キーワードを１文字移動し、その後に、ステップＳＴ５の処理に戻る。一方、ステップＳＴ１０で最終テキストコードであるとき、ＣＰＵ１１１は、ステップＳＴ１１において、キーワード検索を終了する。

キーワードとの一致の頻度が高いタイムライン部分（図７のクリップｄ参照）では一致したキーワードの各点のインテンド表示は繋がり、帯状の表示になる。また、キーワードの頻度が低いタイムラインの部分（図７のクリップａ，ｂ参照）では棒線で表示され、ユーザは一目しただけで所望のキーワードポイントの統計分布と近傍クリップとの関係を理解できる。

なお、キーワードが複数ある場合、ＣＰＵ１１１は、それぞれ異なる色、輝度で識別可能なインテンド方法を自動的に選択し、表示を行う。また、図５のフローチャートは一例であって、これに限定されるものではない。例えば、予め同じ熟語（文字）がある場所（タイムコード）を検索して表にしておき、検索実行コマンドにより表から場所を読み出す方法もある。

＜所望シーンの確認＞

ユーザ（編集オペレータ）は、上述したように検索された各キーワード位置から、所望の映像シーンを検索し、編集点を決定できる。図９のフローチャートを用いて、ＣＰＵ１１１の映像シーンの検索処理を説明する。

ＣＰＵ１１１は、ステップＳＴ２１において、映像シーンの検索処理を開始し、その後に、ステップＳＴ２２の処理に移る。このステップＳＴ２２において、ＣＰＵ１１１は、カーソル位置の文またはフレーズのｉｎ点にキューアップ（cue up）し、対応するサムネールを表示する。

例えば、図７のユーザインタフェース画面において、カーソルＣＡは図示のように、映像タイムライン（４）等に直交した状態で表示される。このカーソルＣＡの位置は固定とされ、最初、検索されたキーワード位置のうち１番目のキーワード位置がカーソルＣＡと一致した状態で表示される。この場合、最初のキーワード位置が、図３（ｂ）に示す音声テキストデータファイルの＃１の文またはフレーズに対応する場合、ｉｎ点（ｔ１）にキューアップし、このｉｎ点（ｔ１）のタイムコードに対応するサムネールを、例えばＨＤＤ１１７から読み出し、図７のユーザインタフェース画面の画像表示位置（１）に表示する。

次に、ＣＰＵ１１１は、ステップＳＴ２３において、ユーザの入力部１２１の操作によってユーザインタフェース画面上のNext釦（１３）、または、Previous釦（１１）が押されたか、さらには、再生釦（１２）が押されたか、判断する。Next釦（１３）、または、Previous釦（１１）が押されたとき、ＣＰＵ１１１は、ステップＳＴ２２に戻る。

この場合、Next釦（１３）が押されるときは、ＣＰＵ１１１は、カーソルＣＡに次のキーワード位置が一致した状態となるようにユーザインタフェース画面を変更し、カーソル位置の文またはフレーズのｉｎ点にキューアップ（cue up）し、対応するサムネールを表示する。なお、カーソルＣＡが最後のキーワード位置にあるときには、Next釦（１３）が押されても、同じ状態を維持する。

一方、Previous釦（１１）が押されるときは、ＣＰＵ１１１は、カーソルＣＡに前のキーワード位置が一致した状態となるようにユーザインタフェース画面を変更し、カーソル位置の文またはフレーズのｉｎ点にキューアップ（cue up）し、対応するサムネールを表示する。なお、カーソルＣＡが最初のキーワード位置にあるときには、Previous釦（１１）が押されても、同じ状態を維持する。

また、ステップＳＴ２３で再生釦（１２）が押されるときは、ＣＰＵ１１１は、ステップＳＴ２４において、ＨＤＤ１１７を制御し、ｉｎ点からｏｕｔ点まで、映像、音声、音声テキストを再生する。この場合、再生映像は、図７のユーザインタフェース画面の画像表示位置（２）に表示される。また、再生映像に同期した音声出力が音声タイムライン（６）に拡大表示され、再生映像に同期した音声テキストがテキストタイムライン（８）に拡大表示される。これにより、ユーザ（編集オペレータ）は、カーソルＣＡが位置するキーワード位置に対応した映像、音声、音声テキストを確認できる。なお、音声タイムライン（６）には、音声波形が表示される。

例えば、キーワード位置が、図３（ｂ）に示す音声テキストデータファイルの＃１の文またはフレーズに対応する場合、当該＃１の文またはフレーズのｉｎ点（ｔ１）からｏｕｔ点（ｔ２）までに対応した映像、音声、音声テキストをユーザは確認できる。なお、再生終了後は、図７のユーザインタフェース画面の画像表示位置（２）に、ｏｕｔ点の静止画像が表示された状態におかれる。

次に、ＣＰＵ１１１は、ステップＳＴ２５において、ユーザの入力部１２１の操作によってユーザインタフェース画面上のNext釦（１３）、または、Previous釦（１１）が押されたか判断する。これらの釦が押されたとき、ＣＰＵ１１１は、ステップＳＴ２２の処理に戻り、上述したと同様の処理を繰り返す。一方、ステップＳＴ２５でNext釦（１３）、または、Previous釦（１１）の操作がないとき、ＣＰＵ１１１は、ステップＳＴ２６において、映像シーンの検索処理を終了する。

ユーザ（編集オペレータ）は、上述の図９のフローチャートに基づく、映像シーンの検索を行うことで、編集点とすべき所望の映像シーンを検索できる。なお、ユーザ（編集オペレータ）は、図７の映像タイムライン（４）における、キーワード位置の頻度の高い帯状部分をマウスを用いてドラッグして所定区間をインテンド表示し、当該区間を連続的に再生して映像、音声内容を確認することもできる。

図１０は、編集アプリケーションプログラムから見たキーワード検索の処理の流れを概念的に示したものである。なお、［ｎ］は、図５のフローチャートのステップ番号に対応している。編集アプリケーションプログラムに含まれる「ＧＵＩ」は入力操作を含め、ＧＵＩ表示を行う。「検索機能」はＧＵＩ入力されたキーワードのテキスト文字をテキストコードに変換し、データファイルとテキストコードを比較し、一致したタイムコードを読み、ＧＵＩ表示させる。「コマンド発行」はインデックスファイルを読み出し、データファイルの読むべきアドレスを知った上で、キューアップ（Cue up）再生、停止などのコマンドをストレージに対し発行する。

同様に、図１１、図１２は、編集アプリケーションプログラムから見た映像シーン検索の処理の流れを概念的に示したものである。なお、［ｎ］は、図９のフローチャートのステップ番号に対応している。

以上説明したように、図１に示すノンリニア編集機１００においては、音声テキストデータが関連付けされた映像データを取り扱うものであって、ユーザ（編集オペレータ）により入力されたキーワードが音声テキストデータから検索され、映像タイムライン上に検索されたキーワード位置が表示される（図７参照）。したがって、ユーザは、例えば編集点とすべき所望の映像シーンを容易に探すことができる。

また、図１に示すノンリニア編集機１００においては、ユーザ（編集オペレータ）は、モニタ１１５に表示されるグラフィカルユーザインタフェース画面（図６、図７参照）を用いて、キーワードを入力するものであり、キーワードの入力を、容易、かつ誤りなく行うことができる。

また、図１に示すノンリニア編集機１００においては、ユーザ（編集オペレータ）が、モニタ１１５の映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択したとき、選択された代表画像（サムネール）がモニタ１１５の画像表示位置（１）にされるものであり、ユーザ（編集オペレータ）は、各キーワード位置に対応した映像シーンを容易に確認できる。

また、図１に示すノンリニア編集機１００においては、ユーザ（編集オペレータ）が、モニタ１１５の映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択し、再生を指示したとき、映像データに基づいて、所定のキーワード位置に対応した映像がモニタ１１５の画像表示位置（２）に表示されるものであり、ユーザ（編集オペレータ）は各キーワード位置に対応した映像シーンを容易に確認できる。

なお、上述実施の形態においては、１つの単語、例えば「春一番」を用いて行う単純なキーワード検索を示したが、キーワード検索は単数、複数の単語による条件式で可能である。例えば、「日米野球」or「イチロー」を条件式とする場合、音声テキストから「日米野球」と「イチロー」を検索し、別々の色、または同色でインテンド表示する。また、例えば、「天気」and 「女性」を条件式とする場合、女性の声で「天気」を検索し、インテンド表示する。この場合、音声は高速フーリエ変換により男女別に判定する。また、例えば、「春一番が吹き」を条件式として、フレーズで検索する。また、例えば、「weather forecast」を条件式として、英語で検索する。

また、上述したように検索された結果、すなわち「キーワード」、キーワード部分のタイムコード等を保存し、２次利用するようにしてもよい。

また、キーワード検索は、完全一致のテキスト部分を検索するだけでなく、一致率の高いテキスト部分を検索し、例えば一致率の高い順に色分けして表示するようにしてもよい。

また、上述実施の形態においては、この発明をノンリニア編集機に適用したものであるが、この発明は、音声テキストデータが関連づけされて記録されている映像データを取り扱う、その他の映像機器にも同様に適用できる。

この発明は、所望の映像シーンを容易に検索できるものであり、例えば、ノンリニア編集機等に適用できる。

この発明の実施の形態としてのノンリニア編集機の構成例を示すブロック図である。映像のインデックスファイルおよびデータファイルの構造の一例を示す図である。音声テキストのインデックスファイルおよびデータファイルの構造の一例を示す図である。映像記録装置におけるタイムコードに音声テキストデータを織りいれた構成概念を示す図である。ＣＰＵのキーワード検索処理の一例を示すフローチャートである。モニタに表示されているユーザインタフェース画面の一例を示す図である。モニタに表示されているユーザインタフェース画面の一例を示す図である。キーワードを音声テキストと比較する様子を、横軸を時間軸として、模式的に示した図である。ＣＰＵの映像シーンの検索処理の一例を示すフローチャートである。編集アプリケーションプログラムから見たキーワード検索の処理の流れを概念的に示した図である。編集アプリケーションプログラムから見た映像シーン検索の処理の流れを概念的に示した図である。編集アプリケーションプログラムから見た映像シーン検索の処理の流れを概念的に示した図である。

符号の説明

１００・・・ノンリニア編集機、１１１・・・ＣＰＵ、１１２・・・ＲＯＭ、１１３・・・ＲＡＭ、１１４・・・表示コントローラ、１１５・・・モニタ、１１６・・・ＨＤＤインタフェース、１１７・・・ＨＤＤ、１１８・・・ドライブコントローラ、１１９・・・メディアドライブ、１２０・・・入力インタフェース、１２１・・・入力部、１２２・・・音声入力インタフェース、１２３・・・スピーカ

Claims

音声テキストデータが関連付けされた映像データを取り扱う映像検索装置であって、
ユーザがキーワードを入力するためのキーワード入力部と、
上記音声テキストデータから上記キーワード入力部により入力されたキーワードを検索するキーワード検索部と、
モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索部で検索されたキーワード位置をインテンド表示する情報表示制御部と
を備えることを特徴とする映像検索装置。
上記キーワード入力部は、
上記モニタに表示されるグラフィカルユーザインタフェース画面を用いて、上記キーワードを入力する
ことを特徴とする請求項１に記載の映像検索装置。
ユーザが上記モニタに表示された上記タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、
上記映像データに基づいて、上記位置選択部で選択されたキーワード位置が存在する音声テキスト部分に対応した代表画像を上記モニタに表示する画像表示制御部とをさらに備える
ことを特徴とする請求項１に記載の映像検索装置。
ユーザが上記モニタに表示された上記タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、
ユーザが再生を指示するための再生指示部と、
上記位置選択部で所定のキーワード位置が選択された状態で、上記再生指示部で再生が指示されたとき、上記映像データに基づいて、上記所定のキーワード位置に対応した映像を上記モニタに表示する画像表示制御部とをさらに備える
ことを特徴とする請求項１に記載の映像検索装置。
音声テキストデータが関連付けされた映像データを取り扱う映像検索部を有する編集装置であって、
上記映像検索部は、
ユーザがキーワードを入力するキーワード入力部と、
上記音声テキストデータから上記キーワード入力部に入力されたキーワードを検索するキーワード検索部と、
モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索部で検索されたキーワード位置を表示する情報表示制御部とを備える
ことを特徴とする編集装置。
音声テキストデータが関連付けされた映像データを取り扱う映像検索方法であって、
ユーザがキーワードを入力するキーワード入力ステップと、
上記音声テキストデータから上記キーワード入力ステップで入力されたキーワードを検索するキーワード検索ステップと、
モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索ステップで検索されたキーワード位置をインテンド表示する情報表示制御ステップと
を備えることを特徴とする映像検索方法。
コンピュータを、
映像データに関連付けされて記憶されている音声テキストデータから入力されたキーワードを検索するキーワード検索手段と、
モニタに、上記映像データに対応したタイムラインを表示し、該タイムライン上に上記キーワード検索手段で検索されたキーワード位置を表示する情報表示制御手段と
して機能させるためのプログラム。