JP2014119975A

JP2014119975A - 映像用メタデータ付与装置及びプログラム

Info

Publication number: JP2014119975A
Application number: JP2012274740A
Authority: JP
Inventors: Hidehiko Okubo; 英彦大久保
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-12-17
Filing date: 2012-12-17
Publication date: 2014-06-30

Abstract

【課題】大量の映像素材に対する効率的な管理を可能にするための的確なメタデータを、映像に効率よく付与する映像用メタデータ付与装置及びプログラムを提供すること。
【解決手段】映像用メタデータ付与装置１０は、映像を入力し、入力した映像及び各種データを映像モニタ装置４２に表示させ、入力した映像を、当該映像を構成する時空間に分布する領域に分割し、ポインタ・トリガ入力装置５１から信号を受信し、受信した信号に基づいて、映像モニタ装置４２によって表示された映像のうち、メタデータを付与する部分を指定し、メタデータ入力装置５２からメタデータを入力し、指定された映像に対応する領域に、メタデータ入力装置５２から入力したメタデータを対応付けて、記録させる。
【選択図】図１

Description

本発明は、映像用メタデータ付与装置及びプログラムに関する。

従来から、静止画像においては撮影位置情報や撮影時刻などの情報を撮影時に付加してこれをメタデータ（付加情報）とすることで、大量に蓄えられた画像から特定の画像が検索されている。

動画などの映像にメタデータを付与する技術は、特許文献１から５に開示されている。
特許文献１は、被写体の動作に基づいた映像検索を実現するために、被写体に装着されたセンサからの情報に基づいたメタデータを、映像に付与する技術を開示している。
特許文献２は、ビデオカメラで撮影した移動体が占有する画像領域を検出し，その移動体の方向へ指向性アンテナから電波を輻射し、移動体に装着されているＲＦタグの情報を読み取り、ＲＦタグの情報と移動体の画像領域とを結び付け、画像領域へＲＦタグから得た情報に対応するメタデータを自動的に付与する技術を開示している。
特許文献３は、撮像装置の撮影条件に関するセンサ情報を取得し、取得したセンサ情報に基づいて、各撮像装置が撮影した位置関係により各画像のグループ分けを行い、グループ分けした結果をマルチアングル情報として画像に関連付けて記録する技術を開示している。
特許文献４は、映像の内容に関わるメタデータを容易に付与するために、映像の特徴量を求め、求めた特徴量に基づいたメタデータを生成する技術を開示している。
特許文献５は、操作により指示されたタイミングにおけるマーク時刻情報を、記録された時系列データと対応付けて記録媒体に記録し、記録者とは別の第三者によりマーク付与が可能な技術を開示している。
また、非特許文献１は、高品位な領域分割結果を可能とする平均値シフト法に基づく時空間領域分割を、高速でかつオンザフライ（すべての映像がそろってから処理を行うのではなく、入力映像に対して逐次的に処理を行うこと）による処理で可能とする手法に関する技術論文である。

特開２０１２−８６８３号公報特開２００８−７２５４３号公報特開２００７−１３９３９号公報特開２０１１−２０３９４３号公報特開２００９−２９６５２６号公報

シルバンパリ（ＳｙｌｖａｉｎＰａｒｉｓ），"Ｅｄｇｅ−ｐｒｅｓｅｒｖｉｎｇＳｍｏｏｔｈｉｎｇａｎｄＭｅａｎ−ｓｈｉｆｔＳｅｇｍｅｎｔａｔｉｏｎｏｆＶｉｄｅｏＳｔｒｅａｍｓ"，ＰｒｏｃｅｓｓｉｎｇｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ’０８）

しかしながら、上述の特許文献が開示する技術や従来の静止画像でのメタデータでは、大量の映像素材を管理するには不十分である。
例えば、動画は、時間方向に依存する多くの情報を含んでいるために、静止画像を対象とした撮影位置情報や撮影時刻に基づいて連続する映像の中から特定の画像を検索することはできない。また、特許文献１から３では、被写体に装着された装置や撮影条件に関するセンサ情報に基づいてメタデータを付与し、特許文献４及び５では特定の装置を必要としないが、ユーザーにとって意味のあるメタデータを付与できるものではない。
また、さまざまな画像解析技術を応用することで映像素材の情報を抽出することが試みられているが、撮影した映像素材すべてについて、後処理による情報抽出を行うことは、計算コスト・時間コスト面で非現実的である。
それだけでなく、個体を特定する固有の名前、意味や概念などの高レベルの情報を自動付加することは、機械学習の仕組みを応用したとしてもきわめて困難である。
現状では、固有名、意味や概念などの高レベルの情報は、その情報を映像に付加するためには人力・手動による入力作業が必要となっている。具体的には、被写体に関する高度な情報（例えば、誰が映っている、それは画面で言うところのどの箇所である、など）は、きわめて有効な情報であるが、それを自動で抽出することは困難で、現状では人が見て認識したものを手動テキスト化する処理を経て、その高度な情報をメタデータとして記録している。

本発明は、大量の映像素材に対する効率的な管理を可能にするための的確なメタデータを、映像に効率よく付与する映像用メタデータ付与装置及びプログラムを提供することを目的とする。

本発明に係る映像用メタデータ付与装置は、映像にメタデータを付与する映像用メタデータ付与装置であって、前記映像を入力する本線入力部と、前記本線入力部によって入力された前記映像と、前記メタデータとを同期させて、映像表示装置に表示させる表示同期処理部と、前記本線入力部によって入力された前記映像を、当該映像を構成する時空間に分布する領域に、分割する領域分割部と、ポインタ入力装置から信号を受信し、受信した信号に基づいて、前記表示同期処理部によって表示された前記映像のうち、前記メタデータを付与する部分を指定する映像指定部と、メタデータ入力装置から前記メタデータを入力するメタデータ入力部と、前記映像指定部によって指定された前記映像の部分に対応する前記領域に、前記メタデータ入力部によって入力された前記メタデータを対応付けるメタデータ付与部と、を備える映像用メタデータ付与装置。

かかる構成によれば、本発明に係る映像用メタデータ付与装置は、映像を、その映像を構成する時空間に分布する領域に分割し、映像指定部によって指定された映像の部分、例えばフレームごとのピクセル位置、に対応する領域に、メタデータ入力部によって入力されたメタデータを対応付ける。そして、メタデータ付与装置は、映像と、ユーザー操作によるカーソル位置データと、キーワード文字データなどのメタデータとを同期させて、映像表示装置に表示させる。
すなわち、本発明に係る映像用メタデータ付与装置は、映像検索などに有効な情報となる被写体の固有の名前、意味や概念などの高レベルのメタデータ（付加情報）を入力し、入力したメタデータを映像のモニタリングの際に特定の時空間領域に対して付与し、映像・音声と共に同期して記録を行うことができる。
したがって、本発明に係る映像用メタデータ付与装置は、大量の映像素材に対する効率的な管理を可能にするための的確なメタデータを、効率よく付与することができる。

また、映像用メタデータ付与装置において、前記領域分割部は、前記映像のフレームごとに入力し、それ以前の過去フレームから構成する一定フレーム数の「時空間ボリューム（後述）」に対して、色情報が一様である部分領域に分割する分割手段と、前記分割手段によって分割された前記部分領域に、領域ＩＤを対応付けて識別する識別手段と、を備え、前記識別手段は、前記映像のフレーム入力前までに前記分割手段によって生成された時空間ボリューム分割領域結果と、前記映像のフレームが入力されて生成された時空間ボリューム分割領域結果とを比較し、更新フレームに対して延長されるとみなされる部分領域には、それまでの部分領域に対応付けた既存の領域ＩＤと同じ領域ＩＤを対応付け、新たに発生する領域には新規の領域ＩＤを割りつける。

すなわち、本発明に係る映像用メタデータ付与装置は、オンザフライでの領域分割アルゴリズムを用いて映像を取得しながら即座に時空間の領域に分割し、分割した領域に領域ＩＤを対応付け、領域に対応付けた領域ＩＤにメタデータを対応付けることによって、領域にメタデータを付与することができる。
したがって、本発明に係る映像用メタデータ付与装置は、大量の映像素材に対するさらに効率的な管理を可能にするための的確なメタデータを、映像に効率よく付与することができる。

また、本発明に係る映像用メタデータ付与装置において、前記メタデータ入力部は、前記ポインタ入力装置からの信号に基づいて前記メタデータの入力を開始し、前記ポインタ入力装置からの信号に基づいて前記メタデータの入力を終了する。

すなわち、本発明に係る映像用メタデータ付与装置は、メタデータを開始及び終了の操作に応じて入力することができる。本発明では、この操作でメタデータが指定の時空間領域に付与されるため、その操作時の過去フレーム及び未来フレームにわたる時空間領域に対してもメタデータが適用されることが可能になる。すなわち、メタデータ付与操作に厳格な時間的条件（入力タイミング）が必要とされなくなる。
したがって、本発明に係る映像用メタデータ付与装置は、大量の映像素材に対する効率的な管理を可能にするためのさらに的確なメタデータを、映像に効率よく付与することができる。

また、本発明に係る映像用メタデータ付与装置において、前記メタデータ入力部は、音声を文字データに変換する文字変換手段をさらに備える。

すなわち、本発明に係る映像用メタデータ付与装置は、音声によりメタデータを付与することができる。
したがって、本発明に係る映像用メタデータ付与装置は、大量の映像素材に対する効率的な管理を可能にするための的確なメタデータを、映像にさらに効率よく付与することができる。

また、本発明に係るプログラムは、コンピュータを、映像用メタデータ付与装置として機能させる。

したがって、本発明に係るプログラムは、大量の映像素材に対する効率的な管理を可能にするための的確なメタデータを映像に効率よく付与するように、コンピュータを機能させることができる。

本発明によれば、大量の映像素材に対する効率的な管理を可能にするための的確なメタデータを、映像に効率よく付与することができる。すなわち、本発明は、映像検索などに有効な、映像の内容に同期したメタデータ（付加情報）を簡便に付与することができる。
さらに、本発明によれば、蓄えられた大量の映像素材の中から、所望の映像、その映像の中の時間的区間、あるいはその映像の中の時空間領域を検索し、抽出することを可能にするために、大量の映像素材を管理する効率を飛躍的に向上させられる。

本発明の一実施形態に係る映像用メタデータ付与装置の構成と、処理概要とを示すシステム全体図である。映像用メタデータ付与装置の詳細な構成と、データフローとを示す図である。図２の音声文字変換手段のキーワード文字データバッファを示す図である。本発明の一実施形態に係る映像用メタデータ付与装置に用いられるポインタ・トリガ入力装置の例を示す図である。図４と同じポインタ・トリガ入力装置を別角度から示す図である。本発明の一実施形態に係る映像用メタデータ付与装置に入力される映像の例を示す図である。図６の入力映像に、メタデータの各種情報が重畳されて表示されている例を示す図である。本発明の一実施形態に係る映像用メタデータ付与装置により領域分割されたあるフレームを、領域ＩＤごとに色付けし、領域の分布を可視化した例を示す図である。本発明の一実施形態に係る映像用メタデータ付与装置の処理内容を示すフローチャートである。本発明の一実施形態に係る映像用メタデータ付与装置により生成されたメタデータ付与後の記録用データの例を示す図である。

以下、本発明の実施の形態について図面を参照して説明する。
図１は、本発明の一実施形態に係る映像用メタデータ付与装置１０の構成と、処理概要とを示すシステム全体図である。
映像用メタデータ付与装置１０は、本線入力部１１と、表示同期処理部１２と、領域分割部１３と、映像指定部１４と、メタデータ入力部１５と、メタデータ付与部１６と、を備え、映像検索などに有効なメタデータとなる、固有名や意味・概念などの高レベルの情報を映像素材の時空間領域に対して付与し、付与した情報を記録させる。

本線入力部１１は、メタデータを付与する対象の本線映像を入力する。表示同期処理部１２は、本線入力部１１によって入力された映像を音声や各種メタデータと同期させ、映像重畳装置４１を介して映像モニタ装置４２に表示させる。

本線入力部１１は、映像信号に加えて、処理対象の本線映像・音声信号に対して現在時刻などの一意な時刻を割り当てるためのタイムスタンプ発生装置５３からのタイムスタンプ情報を入力する。タイムスタンプ情報は、本線映像のフレームに同期した信号が望まれ、例えば、映像信号に同期したタイムコードなどが有効なタイムスタンプ情報の具体例となる。

領域分割部１３は、本線入力部１１によって入力された映像を、当該映像を時空間に分布する領域に分割する。具体的には、領域分割部１３は、映像のフレームごとに入力し、それ以前の過去フレームから構成する一定フレーム数の時空間ボリュームに対して、色情報が一様である部分領域に分割し、現在の映像フレーム入力前までに生成された時空間ボリューム分割領域結果と、現在の映像フレームが入力されて生成された時空間ボリューム分割領域結果とを比較し、更新フレームに対して延長されるとみなされる部分領域には、それまでの部分領域に対応付けた既存の領域ＩＤと同じ領域ＩＤを対応付け、新たに発生する領域には新規の領域ＩＤを割りつける。このようにして、領域分割部１３は、映像を時空間に分布する領域に分割し、分割した領域に領域ＩＤを対応付けて識別できるようにする。

さらに具体的には、この時空間領域分割の手法として、高速でオンザフライによる領域分割が可能な手法を利用する。すなわち、処理対象となる映像が最初から最後まですべて準備できた後に領域分割処理を行うのではなく、入力フレーム以前までの一定の過去フレームから構成される時空間ボリュームに対して、時空間領域分割を行い、領域ＩＤを更新していく。ここで、本発明における「時空間ボリューム」又は「映像ボリューム」とは、１つの映像を時空間領域に分布するものと見なして、フレームの時間及びピクセル平面の２次元空間からなる、３次元空間に分布するピクセルとして映像を捉えた概念である。
この手法の概要を述べると、平均値シフト法に基づいた時空間領域分割を行うものであるが、ピクセル空間と時間、そして色空間からなる特徴空間における疎な離散サンプルから、平均値シフトの評価関数を推定することで高速な領域分割を行うものである。これを、ある一定の時間単位に時空間ボリュームを区切って領域分割し、得られた結果をオーバーラップさせた次の時空間ボリュームの区切りでの処理に伝搬させていくことで、オンザフライな手法ながら、精度よく全体の時空間ボリュームを通した領域ＩＤの割り当てを可能にするものである。
領域分割部１３は、例えば以上のような手法で領域分割した時空間領域に、領域ＩＤ（識別番号）を割り振る。そして、その領域ＩＤ分布結果を表示同期処理部１２に出力する。

映像指定部１４は、ポインタ入力装置としてのポインタ・トリガ入力装置５１から信号を受信し、受信した信号に基づいて、表示同期処理部１２によって表示された映像のうち、メタデータを付与する領域の一部のピクセルを指定する。

ここで、ポインタ・トリガ入力装置５１について、図４及び図５を用いて説明する。図４は、本発明の一実施形態に係る映像用メタデータ付与装置１０に用いられるポインタ・トリガ入力装置５１の例を示す図である。図５は、図４と同じポインタ・トリガ入力装置を別角度から示す図である。

ポインタ・トリガ入力装置５１は、ポインタ機能とトリガ入力機能を持つ。ポインタ機能は、撮影している映像中の座標を指し示すためのものである。トリガ入力機能は、カーソル位置記録トリガと、メタデータ入力トリガと、メタデータクリアトリガと、ポインタカーソル調整トリガとの４つのトリガ入力を有する。

ポインタ・トリガ入力装置５１は、加速度・角加速度センサなどを内蔵することにより空間内でポインティングデバイスとして利用できる、空間マウスの原理を利用したポインティングデバイスが適している。なお、通常の接地型のマウスや、視線を捉えるアイトラッカーなどであってもよい。ポインタ・トリガ入力装置５１は、このようなポインタ機能により画面上の位置を指し示すためのポイント信号を送信する。

トリガ入力機能のうちカーソル位置記録トリガは、ポインタの指示する画面上のカーソル位置と、入力されているメタデータとを記録するためのトリガ入力に利用される。すなわち、カーソル位置記録トリガボタン５１４を押しながらポインタを操作することで、押している間の画面上の２次元カーソル位置が映像と同期されて記録される。それと共に、その押している間のメタデータが記録される。なお、ポインタが画面外を指している場合はカーソル位置は画面外である、ということを示す情報（例えば負の座標など）をカーソル位置データとして記録させるものとする。また、入力されているメタデータが存在しない場合には、空の文字情報がメタデータになるものとする。

メタデータ入力トリガは、後述するメタデータ音声入力装置をアクティブにするトリガを入力するものである。メタデータ入力トリガボタン５１３を押している間のみメタデータ音声入力装置がアクティブになることで、メタデータとなる音声を必要なときにのみ入力可能にさせる。この入力された音声は、後述する音声文字変換手段１２０によって発話内容が文字データ化される。

メタデータクリアトリガは、現在入力されているメタデータを消去するものである。すなわち、メタデータクリアトリガボタン５１２が押されると、入力されてメタデータとなっている文字情報データが図３で後述するキーワード文字データバッファ１９９から消去される。

ポインタカーソル調整トリガは、ポインタである空間マウスの方向とそれが指し示す画面上のカーソルとの位置関係を初期化するトリガを与えるものである。例えば、ポインタカーソル調整トリガボタン５１１が押されると、現在のポインタの状態が画面の中心になるように初期化されるなどの調整が行われる。

このようなポインタ・トリガ入力装置５１から受信したポイント信号に基づいて、映像指定部１４は、ポイント信号を、映像を構成するフレーム内の位置に換算し、換算した位置を示すマーク（例えば、十字カーソル）を、表示同期処理部１２を介して表示させる。次に、映像指定部１４は、位置の記録を指示する信号（例えば、カーソル位置記録トリガボタン５１４を押したことを示す信号）を受信すると、その画面上の位置座標を記録すべきメタデータとして出力する。

メタデータ入力部１５は、映像、あるいは映像の特定の時空間領域に付加するためのキーワードとなるメタデータを入力する。具体的には、メタデータ入力部１５は、メタデータ入力装置５２（例えば、音声入力装置、文字入力装置など）からキーワードとなるメタデータを入力する。メタデータ入力装置５２は、映像素材に高レベルな情報をあたえる情報源としてヘッドセットのマイク入力などを介して音声を入力する装置であってもよい。具体的には、メタデータ入力部１５は、ポインタ・トリガ入力装置５１からメタデータの入力を要求されると（例えば、メタデータ入力トリガボタン５１３が押されたことを検出したときから、メタデータ入力トリガボタン５１３が離されたことを検出する迄の間）、メタデータ入力装置５２からメタデータを受信し、これを後述する音声文字変換手段１２０を介して文字情報に変換させた後、後述するキーワード文字データバッファ１９９に一時的にバッファリングさせる。

メタデータ付与部１６は、本線入力部１１から出力された本線信号（映像・音声）と、タイムスタンプと、領域分割部１３によって算出された領域ＩＤ分布と、さらに映像指定部１４によって指定された位置と、メタデータ入力部１５によって入力されたメタデータとを表示同期処理部１２にて同期処理後にそれぞれを対応付けて、記録装置としての記録用データ蓄積装置３０に記録する。具体的には、メタデータ付与部１６は、映像指定部１４によって指定された画面上のカーソル位置座標と、領域分割部１３の出力、さらにそこから得られる指定カーソル位置に対応する領域ＩＤと、メタデータ入力部１５によって入力され、バッファリングされたキーワード文字データ、そしてキーワード入力の発話音声を含めたそれらメタデータとを対応付けて、表示同期処理部１２における同期処理後、記録用データ蓄積装置３０に本線信号とあわせて記憶させる。

記録用データ蓄積装置３０は、映像用メタデータ付与装置１０を経ることで、本線データとメタデータとが重畳されたデータを記録し、あとで検索などの用途で利用できるようにした装置である。
映像モニタ装置４２及び音声モニタ装置４３は、入力された本線の映像及び音声を出力するためのモニタ装置である。映像については、映像重畳装置を介することにより、本線映像に加えカーソルの位置や移動軌跡、各トリガの状態にあわせて変化するカーソルを重畳させて表示される。また、入力されたメタデータとなっている文字情報を文字として画面に提示させることも可能とする（後述する図６、図７参照）。

図１に示す、映像用メタデータ付与装置１０全体の処理のながれについて以下に記述する。映像用メタデータ付与装置１０は、映像信号を対象にしている。音声信号は必須ではないが、放送などの目的で利用される場合は、多くの場合映像信号と同期した音声信号が伴う。よって信号入力としてはこの映像信号・音声信号の２つとしている。映像用メタデータ付与装置１０は、入力した音声を映像やメタデータと共に蓄積装置に記録するだけでなく、モニタリング用に音声モニタ装置４３に出力する。

図２は、映像用メタデータ付与装置１０の詳細な構成と、データフローとを示す図である。図３は、図２の音声文字変換手段のキーワード文字データバッファを示す図である。図２及び図３に示す、映像用メタデータ付与装置１０におけるデータの流れについて以下に記述する。なお、映像用メタデータ付与装置１０は、メタデータ入力装置５２として音声入力装置（図示せず）からメタデータを音声データで入力するものとする。

映像用メタデータ付与装置１０は、本線となる映像・音声、カーソル位置、メタデータとしての音声、タイムスタンプデータと各種トリガを入力する。

タイムスタンプデータ処理手段１１１は、入力した各データにタイムスタンプデータを結びつける。記録される対象となる各データは、後述する同期処理手段１２１において同期処理を行うためにリファレンスとなるタイムスタンプデータと結びつけられる。

映像データ処理手段１１２は、映像を入力し、同期処理手段１２１及び映像領域分割処理手段１１４に出力する。映像領域分割処理手段１１４は、映像データを、色分布の情報から大まかな被写体領域に分割する。上述の時空間領域分割の手法を利用することで、高速な領域分割が可能となる。この分割領域は被写体領域として時空間に分布するので、特定の短時間に実行した少数のピクセル指定で、特定の指定対象に関係する時空間に広がった大きな領域を指定することが可能になる。

この映像領域分割処理手段１１４の出力は、映像ボリューム全体の分割領域ＩＤ分布をフレームごとに出力したデータとなる。（そのＩＤに対して、色づけを行って可視化したものが後述する図８となる。）対象となる映像において分割されたそれぞれの時空間領域に対して、固有のＩＤが割り振られる。なお、この処理は実時間で処理できたとしても、結果を出力するまでに遅延が生じる。そのため、処理対象の映像の時刻を示すタイムスタンプデータを保持させることで、後の同期処理において他のデータに対して同期をとることを可能にさせる。音声データ処理手段１１３は、映像に伴う音声を入力し、記録とモニタリングのために同期処理手段１２１に出力する。

カーソル位置データ処理手段１１５は、ポインタ・トリガ入力装置５１によるカーソルの位置を同期処理手段１２１に出力する。
カーソル位置記録トリガ処理手段１１６は、ポインタ・トリガ入力装置５１からのカーソル位置記録トリガボタン５１４の信号を受信し、音声文字変換手段１２０と同期処理手段１２１とに出力する。
メタデータ入力トリガ処理手段１１７は、ポインタ・トリガ入力装置５１からのメタデータ入力トリガボタン５１３の信号を受信し、メタデータ音声入力処理手段１１９と音声文字変換手段１２０とに出力する。
メタデータクリアトリガ処理手段１１８は、ポインタ・トリガ入力装置５１からのメタデータクリアトリガボタン５１２の信号を受信し、音声文字変換手段１２０と同期処理手段１２１とに出力する。メタデータクリアトリガ処理手段１１８は、例えば、ポインタ・トリガ入力装置５１のメタデータクリアトリガボタン５１２が押された場合に、キーワード文字データバッファ１９９に現在保持されているメタデータのキーワード文字データを消去し、空の文字情報とする。

メタデータ音声入力処理手段１１９は、メタデータとして発話により入力された音声データを入力し、音声文字変換手段１２０と同期処理手段１２１とに出力する。

音声文字変換手段１２０は、メタデータ音声入力処理手段１１９から入力した音声データを文字データに変換する。音声文字変換手段１２０は、音声認識装置と変換処理用データベースとを保持している。なお、音声文字変換手段１２０は、ネットワークサービスを利用した音声認識・文字変換処理を利用してもよい。音声文字変換手段１２０は、処理によって得られた文字データを、メタデータとしてキーワード文字データバッファ１９９に保持する。そして、このメタデータとしての文字データは、メタデータとして出力される（キーワード、文字データ出力）。

音声文字変換手段１２０の中のキーワード文字データバッファ１９９によって既に保持されたメタデータが存在する場合に、新たにメタデータが文字変換された場合は、既に保持されているメタデータに追加されるものとする。なお、使用用途によっては、追加ではなく更新されるとしてもよい。

メタデータ入力トリガ処理手段１１７は、例えば、ポインタ・トリガ入力装置５１のメタデータ入力トリガボタン５１３が押されている間、メタデータ音声入力処理手段１１９の処理をアクティブにする。

音声文字変換手段１２０への音声入力は、上述のようにメタデータ入力トリガボタン５１３が押されている間アクティブになったメタデータ音声入力処理手段１１９を経て音声データとして入力される。なお、入力されたメタデータ音声入力は、メタデータ音声入力処理手段１１９にてタイムスタンプデータと結びつけられてその記録のために音声信号として同期処理手段１２１へ送られる。これはオンザフライで音声文字変換がうまくいかなかった場合などに後の処理でメタデータを修正したり補強したりするための発話音声の元データとして利用される。

音声文字変換手段１２０は、カーソル位置記録トリガが与えられている際（例えば、ポインタ・トリガ入力装置５１のカーソル位置記録トリガボタン５１４が押されている間）キーワード文字データバッファ１９９に保持しているメタデータを同期処理手段１２１に出力する。

同期処理手段１２１は、記録対象となるすべてのデータについてバッファリングを行い、一番出力が遅れる入力情報のタイムスタンプのために設定した一定の遅延量に合わせて同期させた各データを重畳処理手段１２２に出力する。重畳処理手段１２２は、入力された各データを重畳処理し、記録用データ蓄積装置３０に出力する（記録用データ出力）。また、同期処理手段１２１及び重畳処理手段１２２は、映像モニタ装置４２及び音声モニタ装置４３で現在の各種情報をモニタリングできるように、映像・音声・カーソル位置、そして各種トリガ状態を出力する（映像出力、音声出力、カーソル位置出力、トリガ情報出力）。この各モニタ出力は、用途に応じて同期処理のバッファリング前、バッファリング後（同期処理後）を選択できるものとする。

重畳処理手段１２２は、同期して入力された各データを特定の記録データフォーマットにパックし、記録用データ蓄積装置３０に送る。

図６は、本発明の一実施形態に係る映像用メタデータ付与装置１０に入力される映像の例を示す図である。
図６は、例えば、ビデオカメラを用いて撮影された映像を入力映像とした場合である。

図７は、図６の入力映像に、メタデータの各種情報が重畳されて表示されている例を示す図である。本発明の一実施形態に係る映像用メタデータ付与装置１０により表示されている映像の例を示す図である。これは、映像モニタ装置４２に表示される映像例である。
図７は、ポインタ・トリガ入力装置５１から受信したポイント信号に基づいて、ユーザーが指定しようとしている位置を、カーソル２０１のマークで表示していることを示している。そして、ユーザーが映像の動きに沿って、ポインタ・トリガ入力装置５１を動かした結果、映像用メタデータ付与装置１０が、カーソル２０１の位置に関する一定時間分の軌跡２０２を映像に重畳させて表示させていることを示している。さらに、図７は、映像２１３に対応する領域３１３（後述する図８を参照）に、入力されたメタデータとして表示「男性１」２０３が対応付けて記憶されたことを示している。なお、映像フレームが進行し、異なる時間の異なる領域ＩＤに対して同じメタデータを対応付ける操作を行うことで、より広い時空間領域にメタデータ「男性１」を付与することが可能になる。これにより、後から、メタデータ「男性１」が付与されたすべての領域ＩＤを蓄積されたデータから探し出し、総合すれば「男性１」の領域を映像ボリュームから取り出すことが可能になる。

図８は、本発明の一実施形態に係る映像用メタデータ付与装置１０により領域分割されたあるフレームを、領域ＩＤごとに色付けし、領域の分布を可視化した例を示す図である。図８は、図７に示された映像が、領域に分割されていることを示している。具体的には、図８の領域３１３が図７の映像２１３に対応付けられた領域であり、図８の領域３１２が図７の映像２１２に、図８の領域３１１が図７の映像２１１に対応付けられた領域である。

図９は、本発明の一実施形態に係る映像用メタデータ付与装置１０の処理内容を示すフローチャートである。映像用メタデータ付与装置１０は、コンピュータ及びその周辺装置が備えるハードウェア並びに該ハードウェアを制御するソフトウェアによって構成され、以下の処理は、映像用メタデータ付与装置１０の制御部（例えば、ＣＰＵ）が所定のソフトウェアに従い実行する処理である。

ステップＳ１０１において、映像用メタデータ付与装置１０は、映像を入力する。より具体的には、映像用メタデータ付与装置１０は、メタデータを付与する対象の映像をフレーム単位で入力する。その後、映像用メタデータ付与装置１０は、処理をステップＳ１０２に移す。

ステップＳ１０２において、映像用メタデータ付与装置１０は、入力された映像を時空間に分布する領域に分割する。より具体的には、映像用メタデータ付与装置１０は、入力した映像フレームを一定のフレーム数の過去フレームから現フレームまでの映像ボリュームと領域分割結果に基づいて領域分割し、領域分割した領域に領域ＩＤを割り振る。その後、映像用メタデータ付与装置１０は、処理をステップＳ１０３に移す。

ステップＳ１０３において、映像用メタデータ付与装置１０は、ポインタカーソル調整トリガボタン５１１が押されたか否かを判断する。より具体的には、映像用メタデータ付与装置１０は、ポインタ・トリガ入力装置５１のポインタカーソル調整トリガボタン５１１が押されたことを示す信号がＯＮになったか否かを判断する。この判断がＹＥＳの場合、映像用メタデータ付与装置１０は、処理をステップＳ１０４に移し、ＮＯの場合、映像用メタデータ付与装置１０は、処理をステップＳ１０５に移す。

ステップＳ１０４において、映像用メタデータ付与装置１０は、カーソル位置を初期化する。より具体的には、映像用メタデータ付与装置１０は、カーソルの位置を映像を構成するフレームの中央の位置にする。その後、映像用メタデータ付与装置１０は、処理をステップＳ１０５に移す。

ステップＳ１０５において、映像用メタデータ付与装置１０は、メタデータクリアトリガボタン５１２が押されたか否かを判断する。より具体的には、映像用メタデータ付与装置１０は、ポインタ・トリガ入力装置５１のメタデータクリアトリガボタン５１２が押されたことを示す信号がＯＮになったか否かを判断する。この判断がＹＥＳの場合、映像用メタデータ付与装置１０は、処理をステップＳ１０６に移し、ＮＯの場合、映像用メタデータ付与装置１０は、処理をステップＳ１０７に移す。

ステップＳ１０６において、映像用メタデータ付与装置１０は、メタデータをクリアする。より具体的には、映像用メタデータ付与装置１０は、領域に対応付けるために記憶しているメタデータを消去する。その後、映像用メタデータ付与装置１０は、処理をステップＳ１０７に移す。

ステップＳ１０７において、映像用メタデータ付与装置１０は、メタデータ入力トリガボタン５１３が押されているか否かを判断する。より具体的には、映像用メタデータ付与装置１０は、ポインタ・トリガ入力装置５１のメタデータ入力トリガボタン５１３が押されていることを示す信号がＯＮになったか否かを判断する。この判断がＹＥＳの場合、映像用メタデータ付与装置１０は、処理をステップＳ１０８に移し、ＮＯの場合、映像用メタデータ付与装置１０は、処理をステップＳ１０９に移す。

ステップＳ１０８において、映像用メタデータ付与装置１０は、メタデータの入力を開始する。より具体的には、映像用メタデータ付与装置１０は、メタデータの入力を開始し、メタデータ入力トリガボタン５１３が押されている間、メタデータを入力し、バッファリングする。その後、映像用メタデータ付与装置１０は、処理をステップＳ１０９に移す。

ステップＳ１０９において、映像用メタデータ付与装置１０は、カーソル位置記録トリガボタン５１４が押されているか否かを判断する。より具体的には、映像用メタデータ付与装置１０は、ポインタ・トリガ入力装置５１のカーソル位置記録トリガボタン５１４が押されていることを示す信号がＯＮか否かを判断する。この判断がＹＥＳの場合、映像用メタデータ付与装置１０は、処理をステップＳ１１０に移し、ＮＯの場合、映像用メタデータ付与装置１０は、処理をステップＳ１１１に移す。

ステップＳ１１０において、映像用メタデータ付与装置１０は、カーソル位置の記録を開始する。より具体的には、映像用メタデータ付与装置１０は、ポインタ・トリガ入力装置５１から定期的に受信したポイント信号に基づいてカーソル位置に換算し、換算したカーソル位置を記録する。その後、映像用メタデータ付与装置１０は、処理をステップＳ１１１に移す。

ステップＳ１１１において、映像用メタデータ付与装置１０は、入力された映像を表示する。より具体的には、映像用メタデータ付与装置１０は、入力された映像を映像重畳装置４１を介して、映像モニタ装置４２に表示させる。さらに、ポインタ・トリガ入力装置５１から受信するポイント信号に基づいて、カーソルを映像に重畳させて表示させる。そして、映像用メタデータ付与装置１０は、カーソル位置に対応する領域に対応付けられた領域ＩＤに、バッファリングされたキーワード文字データを対応付けて、記録用データ蓄積装置３０に記憶させる。その後、映像用メタデータ付与装置１０は、処理をステップＳ１１２に移す。

ステップＳ１１２において、映像用メタデータ付与装置１０は、映像が続くか否かを判断する。より具体的には、映像用メタデータ付与装置１０は、処理対象の映像フレームが存在するか否かを判断し、映像フレームが存在すると判断した場合（ＹＥＳの場合）、時刻フレームを更新してステップＳ１０１に移り、存在しないと判断した場合（ＮＯの場合）、処理を終了する。

図１０は、本発明の一実施形態に係る映像用メタデータ付与装置１０により生成されたメタデータ付与後の記録用データの例を示す図である。
メタデータ付与後の記録用データは、本線映像データ及び本線音声データと、領域分割データ（領域ＩＤデータ）と、メタデータとから構成されていて、フレーム単位で記録される。本線映像データ及び本線音声データは、映像用メタデータ付与装置１０に入力されたデータである。領域分割データは、映像用メタデータ付与装置１０が入力した映像を領域分割したデータであって、分割された領域に、領域ＩＤを対応付けたデータである。メタデータは、映像用メタデータ付与装置１０が領域にキーワード文字を対応付けたデータであって、カーソル位置座標に対応する領域に対応付けられた領域ＩＤ（カーソル位置領域ＩＤ）に、キーワード発生音声を変換したキーワード文字を対応付けたデータである。

本実施形態によれば、映像用メタデータ付与装置１０は、映像を入力し、入力した映像と、ユーザー操作によるカーソル位置データ及びキーワード文字データなどとを映像モニタ装置４２に表示させる装置を備えたシステムにおいて、入力した映像を、当該映像を構成する時空間に分布する領域に分割し、ポインタ・トリガ入力装置５１から信号を受信し、受信した信号に基づいて、映像モニタ装置４２によって表示された映像のうち、メタデータを付与する部分を指定し、メタデータ入力装置５２からメタデータとなるキーワードを入力し、指定された映像の部分に対応する領域に、メタデータ入力装置５２から入力したキーワード文字を対応付けて、本線信号と共に記録用データ蓄積装置３０に記録させる。
すなわち、映像用メタデータ付与装置１０は、映像を映像モニタにて必ず確認する際に、簡単な操作で即座にメタデータとなる高レベルの情報を付与し、本線となる映像・音声に同期させて、記録用データ蓄積装置３０に記録させる。
したがって、映像用メタデータ付与装置１０は、大量の映像素材に対する効率的な管理を可能にするための的確なメタデータを、効率よく付与することができる。

さらに、映像用メタデータ付与装置１０は、主に、放送番組の撮影や映像素材をモニタする必要のある場所、例えば撮影現場や放送局の素材伝送部署、あるいは撮影済素材のラッシュ（確認）などを行うモニタリングルームなどで、用いられて機能を発揮する。

さらに、映像を記録媒体に記録する際に必ず行う映像モニタリングプロセスにおいて、その際に使用する映像モニタを表示デバイスとして利用しながら、付与したい情報の映像領域を大まかに指示すると同時に、それにあわせて高レベルな情報を音声によって与えることにより、映像用メタデータ付与装置１０は、収録される本線の映像・音声情報にリンクした高レベルのメタデータを記録させることができる。
また、映像用メタデータ付与装置１０により付与・記録される高レベルのメタデータは、対象物に関する単純なキーワード文字に始まり、映像素材全体に対する収録意図などの情報や、素材映像中の重要な被写体の登場時間、さらにより詳細な時空間の小領域部分に対して付与された固有名称などまでをも含む。これらのメタデータは、蓄えられた大量の映像素材の中から、所望の映像ボリューム、その映像ボリュームの中の時間的区間、あるいはその映像ボリュームの中の時空間領域を検索し、抽出することを可能にするための主たる情報となる。したがって、映像用メタデータ付与装置１０によって付与された情報を利用することで、大量の映像素材を管理する効率が飛躍的に向上する。

本発明は、産業上の利用可能性として、個人、あるいは放送局など大量の映像を蓄積し利用する必要のある場所において、映像の蓄積・管理装置として利用できる。
さらに、本発明を、機械学習の枠組みを用いた、映像分類における教師情報取得手段としても利用できる。機械学習では正解である教師情報を準備する際に、通常は手動による教師映像選定が必須になるため、本発明でテキスト情報が付与された映像があればそのまま教師情報として直接利用できる。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。

１０映像用メタデータ付与装置
１１本線入力部
１２表示同期処理部
１３領域分割部
１４映像指定部
１５メタデータ入力部
１６メタデータ付与部
３０記録用データ蓄積装置
４１映像重畳装置
４２映像モニタ装置
４３音声モニタ装置
５１ポインタ・トリガ入力装置
５１１ポインタカーソル調整トリガボタン
５１２メタデータクリアトリガボタン
５１３メタデータ入力トリガボタン
５１４カーソル位置記録トリガボタン
５２メタデータ入力装置
５３タイムスタンプ発生装置

Claims

映像にメタデータを付与する映像用メタデータ付与装置であって、
前記映像を入力する本線入力部と、
前記本線入力部によって入力された前記映像と、前記メタデータとを同期させて、映像表示装置に表示させる表示同期処理部と、
前記本線入力部によって入力された前記映像を、当該映像を構成する時空間に分布する領域に、分割する領域分割部と、
ポインタ入力装置から信号を受信し、受信した信号に基づいて、前記表示同期処理部によって表示された前記映像のうち、前記メタデータを付与する部分を指定する映像指定部と、
メタデータ入力装置から前記メタデータを入力するメタデータ入力部と、
前記映像指定部によって指定された前記映像の部分に対応する前記領域に、前記メタデータ入力部によって入力された前記メタデータを対応付けるメタデータ付与部と、
を備える映像用メタデータ付与装置。
前記領域分割部は、
前記映像のフレームごとに入力し、それ以前の過去フレームから構成する一定フレーム数の時空間ボリュームに対して、色情報が一様である部分領域に分割する分割手段と、
前記分割手段によって分割された前記部分領域に、領域ＩＤを対応付けて識別する識別手段と、を備え、
前記識別手段は、前記映像のフレーム入力前までに前記分割手段によって生成された時空間ボリューム分割領域結果と、前記映像のフレームが入力されて生成された時空間ボリューム分割領域結果とを比較し、更新フレームに対して延長されるとみなされる部分領域には、それまでの部分領域に対応付けた既存の領域ＩＤと同じ領域ＩＤを対応付け、新たに発生する領域には新規の領域ＩＤを割りつける、
請求項１に記載の映像用メタデータ付与装置。
前記メタデータ入力部は、前記ポインタ入力装置からの信号に基づいて前記メタデータの入力を開始し、前記ポインタ入力装置からの信号に基づいて前記メタデータの入力を終了する請求項１又は２に記載の映像用メタデータ付与装置。
前記メタデータ入力部は、音声を文字データに変換する文字変換手段をさらに備える請求項１から３のいずれかに記載の映像用メタデータ付与装置。
コンピュータを、請求項１から４のいずれかに記載の映像用メタデータ付与装置として機能させるためのプログラム。