JP2014119975A - 映像用メタデータ付与装置及びプログラム - Google Patents

映像用メタデータ付与装置及びプログラム Download PDF

Info

Publication number
JP2014119975A
JP2014119975A JP2012274740A JP2012274740A JP2014119975A JP 2014119975 A JP2014119975 A JP 2014119975A JP 2012274740 A JP2012274740 A JP 2012274740A JP 2012274740 A JP2012274740 A JP 2012274740A JP 2014119975 A JP2014119975 A JP 2014119975A
Authority
JP
Japan
Prior art keywords
video
metadata
input
unit
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012274740A
Other languages
English (en)
Inventor
Hidehiko Okubo
英彦 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2012274740A priority Critical patent/JP2014119975A/ja
Publication of JP2014119975A publication Critical patent/JP2014119975A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】大量の映像素材に対する効率的な管理を可能にするための的確なメタデータを、映像に効率よく付与する映像用メタデータ付与装置及びプログラムを提供すること。
【解決手段】映像用メタデータ付与装置10は、映像を入力し、入力した映像及び各種データを映像モニタ装置42に表示させ、入力した映像を、当該映像を構成する時空間に分布する領域に分割し、ポインタ・トリガ入力装置51から信号を受信し、受信した信号に基づいて、映像モニタ装置42によって表示された映像のうち、メタデータを付与する部分を指定し、メタデータ入力装置52からメタデータを入力し、指定された映像に対応する領域に、メタデータ入力装置52から入力したメタデータを対応付けて、記録させる。
【選択図】図1

Description

本発明は、映像用メタデータ付与装置及びプログラムに関する。
従来から、静止画像においては撮影位置情報や撮影時刻などの情報を撮影時に付加してこれをメタデータ(付加情報)とすることで、大量に蓄えられた画像から特定の画像が検索されている。
動画などの映像にメタデータを付与する技術は、特許文献1から5に開示されている。
特許文献1は、被写体の動作に基づいた映像検索を実現するために、被写体に装着されたセンサからの情報に基づいたメタデータを、映像に付与する技術を開示している。
特許文献2は、ビデオカメラで撮影した移動体が占有する画像領域を検出し,その移動体の方向へ指向性アンテナから電波を輻射し、移動体に装着されているRFタグの情報を読み取り、RFタグの情報と移動体の画像領域とを結び付け、画像領域へRFタグから得た情報に対応するメタデータを自動的に付与する技術を開示している。
特許文献3は、撮像装置の撮影条件に関するセンサ情報を取得し、取得したセンサ情報に基づいて、各撮像装置が撮影した位置関係により各画像のグループ分けを行い、グループ分けした結果をマルチアングル情報として画像に関連付けて記録する技術を開示している。
特許文献4は、映像の内容に関わるメタデータを容易に付与するために、映像の特徴量を求め、求めた特徴量に基づいたメタデータを生成する技術を開示している。
特許文献5は、操作により指示されたタイミングにおけるマーク時刻情報を、記録された時系列データと対応付けて記録媒体に記録し、記録者とは別の第三者によりマーク付与が可能な技術を開示している。
また、非特許文献1は、高品位な領域分割結果を可能とする平均値シフト法に基づく時空間領域分割を、高速でかつオンザフライ(すべての映像がそろってから処理を行うのではなく、入力映像に対して逐次的に処理を行うこと)による処理で可能とする手法に関する技術論文である。
特開2012−8683号公報 特開2008−72543号公報 特開2007−13939号公報 特開2011−203943号公報 特開2009−296526号公報
シルバン パリ(Sylvain Paris),"Edge−preserving Smoothing and Mean−shift Segmentation of Video Streams",Processing of the European Conference on Computer Vision (ECCV’08)
しかしながら、上述の特許文献が開示する技術や従来の静止画像でのメタデータでは、大量の映像素材を管理するには不十分である。
例えば、動画は、時間方向に依存する多くの情報を含んでいるために、静止画像を対象とした撮影位置情報や撮影時刻に基づいて連続する映像の中から特定の画像を検索することはできない。また、特許文献1から3では、被写体に装着された装置や撮影条件に関するセンサ情報に基づいてメタデータを付与し、特許文献4及び5では特定の装置を必要としないが、ユーザーにとって意味のあるメタデータを付与できるものではない。
また、さまざまな画像解析技術を応用することで映像素材の情報を抽出することが試みられているが、撮影した映像素材すべてについて、後処理による情報抽出を行うことは、計算コスト・時間コスト面で非現実的である。
それだけでなく、個体を特定する固有の名前、意味や概念などの高レベルの情報を自動付加することは、機械学習の仕組みを応用したとしてもきわめて困難である。
現状では、固有名、意味や概念などの高レベルの情報は、その情報を映像に付加するためには人力・手動による入力作業が必要となっている。具体的には、被写体に関する高度な情報(例えば、誰が映っている、それは画面で言うところのどの箇所である、など)は、きわめて有効な情報であるが、それを自動で抽出することは困難で、現状では人が見て認識したものを手動テキスト化する処理を経て、その高度な情報をメタデータとして記録している。
本発明は、大量の映像素材に対する効率的な管理を可能にするための的確なメタデータを、映像に効率よく付与する映像用メタデータ付与装置及びプログラムを提供することを目的とする。
本発明に係る映像用メタデータ付与装置は、映像にメタデータを付与する映像用メタデータ付与装置であって、前記映像を入力する本線入力部と、前記本線入力部によって入力された前記映像と、前記メタデータとを同期させて、映像表示装置に表示させる表示同期処理部と、前記本線入力部によって入力された前記映像を、当該映像を構成する時空間に分布する領域に、分割する領域分割部と、ポインタ入力装置から信号を受信し、受信した信号に基づいて、前記表示同期処理部によって表示された前記映像のうち、前記メタデータを付与する部分を指定する映像指定部と、メタデータ入力装置から前記メタデータを入力するメタデータ入力部と、前記映像指定部によって指定された前記映像の部分に対応する前記領域に、前記メタデータ入力部によって入力された前記メタデータを対応付けるメタデータ付与部と、を備える映像用メタデータ付与装置。
かかる構成によれば、本発明に係る映像用メタデータ付与装置は、映像を、その映像を構成する時空間に分布する領域に分割し、映像指定部によって指定された映像の部分、例えばフレームごとのピクセル位置、に対応する領域に、メタデータ入力部によって入力されたメタデータを対応付ける。そして、メタデータ付与装置は、映像と、ユーザー操作によるカーソル位置データと、キーワード文字データなどのメタデータとを同期させて、映像表示装置に表示させる。
すなわち、本発明に係る映像用メタデータ付与装置は、映像検索などに有効な情報となる被写体の固有の名前、意味や概念などの高レベルのメタデータ(付加情報)を入力し、入力したメタデータを映像のモニタリングの際に特定の時空間領域に対して付与し、映像・音声と共に同期して記録を行うことができる。
したがって、本発明に係る映像用メタデータ付与装置は、大量の映像素材に対する効率的な管理を可能にするための的確なメタデータを、効率よく付与することができる。
また、映像用メタデータ付与装置において、前記領域分割部は、前記映像のフレームごとに入力し、それ以前の過去フレームから構成する一定フレーム数の「時空間ボリューム(後述)」に対して、色情報が一様である部分領域に分割する分割手段と、前記分割手段によって分割された前記部分領域に、領域IDを対応付けて識別する識別手段と、を備え、前記識別手段は、前記映像のフレーム入力前までに前記分割手段によって生成された時空間ボリューム分割領域結果と、前記映像のフレームが入力されて生成された時空間ボリューム分割領域結果とを比較し、更新フレームに対して延長されるとみなされる部分領域には、それまでの部分領域に対応付けた既存の領域IDと同じ領域IDを対応付け、新たに発生する領域には新規の領域IDを割りつける。
すなわち、本発明に係る映像用メタデータ付与装置は、オンザフライでの領域分割アルゴリズムを用いて映像を取得しながら即座に時空間の領域に分割し、分割した領域に領域IDを対応付け、領域に対応付けた領域IDにメタデータを対応付けることによって、領域にメタデータを付与することができる。
したがって、本発明に係る映像用メタデータ付与装置は、大量の映像素材に対するさらに効率的な管理を可能にするための的確なメタデータを、映像に効率よく付与することができる。
また、本発明に係る映像用メタデータ付与装置において、前記メタデータ入力部は、前記ポインタ入力装置からの信号に基づいて前記メタデータの入力を開始し、前記ポインタ入力装置からの信号に基づいて前記メタデータの入力を終了する。
すなわち、本発明に係る映像用メタデータ付与装置は、メタデータを開始及び終了の操作に応じて入力することができる。本発明では、この操作でメタデータが指定の時空間領域に付与されるため、その操作時の過去フレーム及び未来フレームにわたる時空間領域に対してもメタデータが適用されることが可能になる。すなわち、メタデータ付与操作に厳格な時間的条件(入力タイミング)が必要とされなくなる。
したがって、本発明に係る映像用メタデータ付与装置は、大量の映像素材に対する効率的な管理を可能にするためのさらに的確なメタデータを、映像に効率よく付与することができる。
また、本発明に係る映像用メタデータ付与装置において、前記メタデータ入力部は、音声を文字データに変換する文字変換手段をさらに備える。
すなわち、本発明に係る映像用メタデータ付与装置は、音声によりメタデータを付与することができる。
したがって、本発明に係る映像用メタデータ付与装置は、大量の映像素材に対する効率的な管理を可能にするための的確なメタデータを、映像にさらに効率よく付与することができる。
また、本発明に係るプログラムは、コンピュータを、映像用メタデータ付与装置として機能させる。
したがって、本発明に係るプログラムは、大量の映像素材に対する効率的な管理を可能にするための的確なメタデータを映像に効率よく付与するように、コンピュータを機能させることができる。
本発明によれば、大量の映像素材に対する効率的な管理を可能にするための的確なメタデータを、映像に効率よく付与することができる。すなわち、本発明は、映像検索などに有効な、映像の内容に同期したメタデータ(付加情報)を簡便に付与することができる。
さらに、本発明によれば、蓄えられた大量の映像素材の中から、所望の映像、その映像の中の時間的区間、あるいはその映像の中の時空間領域を検索し、抽出することを可能にするために、大量の映像素材を管理する効率を飛躍的に向上させられる。
本発明の一実施形態に係る映像用メタデータ付与装置の構成と、処理概要とを示すシステム全体図である。 映像用メタデータ付与装置の詳細な構成と、データフローとを示す図である。 図2の音声文字変換手段のキーワード文字データバッファを示す図である。 本発明の一実施形態に係る映像用メタデータ付与装置に用いられるポインタ・トリガ入力装置の例を示す図である。 図4と同じポインタ・トリガ入力装置を別角度から示す図である。 本発明の一実施形態に係る映像用メタデータ付与装置に入力される映像の例を示す図である。 図6の入力映像に、メタデータの各種情報が重畳されて表示されている例を示す図である。 本発明の一実施形態に係る映像用メタデータ付与装置により領域分割されたあるフレームを、領域IDごとに色付けし、領域の分布を可視化した例を示す図である。 本発明の一実施形態に係る映像用メタデータ付与装置の処理内容を示すフローチャートである。 本発明の一実施形態に係る映像用メタデータ付与装置により生成されたメタデータ付与後の記録用データの例を示す図である。
以下、本発明の実施の形態について図面を参照して説明する。
図1は、本発明の一実施形態に係る映像用メタデータ付与装置10の構成と、処理概要とを示すシステム全体図である。
映像用メタデータ付与装置10は、本線入力部11と、表示同期処理部12と、領域分割部13と、映像指定部14と、メタデータ入力部15と、メタデータ付与部16と、を備え、映像検索などに有効なメタデータとなる、固有名や意味・概念などの高レベルの情報を映像素材の時空間領域に対して付与し、付与した情報を記録させる。
本線入力部11は、メタデータを付与する対象の本線映像を入力する。表示同期処理部12は、本線入力部11によって入力された映像を音声や各種メタデータと同期させ、映像重畳装置41を介して映像モニタ装置42に表示させる。
本線入力部11は、映像信号に加えて、処理対象の本線映像・音声信号に対して現在時刻などの一意な時刻を割り当てるためのタイムスタンプ発生装置53からのタイムスタンプ情報を入力する。タイムスタンプ情報は、本線映像のフレームに同期した信号が望まれ、例えば、映像信号に同期したタイムコードなどが有効なタイムスタンプ情報の具体例となる。
領域分割部13は、本線入力部11によって入力された映像を、当該映像を時空間に分布する領域に分割する。具体的には、領域分割部13は、映像のフレームごとに入力し、それ以前の過去フレームから構成する一定フレーム数の時空間ボリュームに対して、色情報が一様である部分領域に分割し、現在の映像フレーム入力前までに生成された時空間ボリューム分割領域結果と、現在の映像フレームが入力されて生成された時空間ボリューム分割領域結果とを比較し、更新フレームに対して延長されるとみなされる部分領域には、それまでの部分領域に対応付けた既存の領域IDと同じ領域IDを対応付け、新たに発生する領域には新規の領域IDを割りつける。このようにして、領域分割部13は、映像を時空間に分布する領域に分割し、分割した領域に領域IDを対応付けて識別できるようにする。
さらに具体的には、この時空間領域分割の手法として、高速でオンザフライによる領域分割が可能な手法を利用する。すなわち、処理対象となる映像が最初から最後まですべて準備できた後に領域分割処理を行うのではなく、入力フレーム以前までの一定の過去フレームから構成される時空間ボリュームに対して、時空間領域分割を行い、領域IDを更新していく。ここで、本発明における「時空間ボリューム」又は「映像ボリューム」とは、1つの映像を時空間領域に分布するものと見なして、フレームの時間及びピクセル平面の2次元空間からなる、3次元空間に分布するピクセルとして映像を捉えた概念である。
この手法の概要を述べると、平均値シフト法に基づいた時空間領域分割を行うものであるが、ピクセル空間と時間、そして色空間からなる特徴空間における疎な離散サンプルから、平均値シフトの評価関数を推定することで高速な領域分割を行うものである。これを、ある一定の時間単位に時空間ボリュームを区切って領域分割し、得られた結果をオーバーラップさせた次の時空間ボリュームの区切りでの処理に伝搬させていくことで、オンザフライな手法ながら、精度よく全体の時空間ボリュームを通した領域IDの割り当てを可能にするものである。
領域分割部13は、例えば以上のような手法で領域分割した時空間領域に、領域ID(識別番号)を割り振る。そして、その領域ID分布結果を表示同期処理部12に出力する。
映像指定部14は、ポインタ入力装置としてのポインタ・トリガ入力装置51から信号を受信し、受信した信号に基づいて、表示同期処理部12によって表示された映像のうち、メタデータを付与する領域の一部のピクセルを指定する。
ここで、ポインタ・トリガ入力装置51について、図4及び図5を用いて説明する。図4は、本発明の一実施形態に係る映像用メタデータ付与装置10に用いられるポインタ・トリガ入力装置51の例を示す図である。図5は、図4と同じポインタ・トリガ入力装置を別角度から示す図である。
ポインタ・トリガ入力装置51は、ポインタ機能とトリガ入力機能を持つ。ポインタ機能は、撮影している映像中の座標を指し示すためのものである。トリガ入力機能は、カーソル位置記録トリガと、メタデータ入力トリガと、メタデータクリアトリガと、ポインタカーソル調整トリガとの4つのトリガ入力を有する。
ポインタ・トリガ入力装置51は、加速度・角加速度センサなどを内蔵することにより空間内でポインティングデバイスとして利用できる、空間マウスの原理を利用したポインティングデバイスが適している。なお、通常の接地型のマウスや、視線を捉えるアイトラッカーなどであってもよい。ポインタ・トリガ入力装置51は、このようなポインタ機能により画面上の位置を指し示すためのポイント信号を送信する。
トリガ入力機能のうちカーソル位置記録トリガは、ポインタの指示する画面上のカーソル位置と、入力されているメタデータとを記録するためのトリガ入力に利用される。すなわち、カーソル位置記録トリガボタン514を押しながらポインタを操作することで、押している間の画面上の2次元カーソル位置が映像と同期されて記録される。それと共に、その押している間のメタデータが記録される。なお、ポインタが画面外を指している場合はカーソル位置は画面外である、ということを示す情報(例えば負の座標など)をカーソル位置データとして記録させるものとする。また、入力されているメタデータが存在しない場合には、空の文字情報がメタデータになるものとする。
メタデータ入力トリガは、後述するメタデータ音声入力装置をアクティブにするトリガを入力するものである。メタデータ入力トリガボタン513を押している間のみメタデータ音声入力装置がアクティブになることで、メタデータとなる音声を必要なときにのみ入力可能にさせる。この入力された音声は、後述する音声文字変換手段120によって発話内容が文字データ化される。
メタデータクリアトリガは、現在入力されているメタデータを消去するものである。すなわち、メタデータクリアトリガボタン512が押されると、入力されてメタデータとなっている文字情報データが図3で後述するキーワード文字データバッファ199から消去される。
ポインタカーソル調整トリガは、ポインタである空間マウスの方向とそれが指し示す画面上のカーソルとの位置関係を初期化するトリガを与えるものである。例えば、ポインタカーソル調整トリガボタン511が押されると、現在のポインタの状態が画面の中心になるように初期化されるなどの調整が行われる。
このようなポインタ・トリガ入力装置51から受信したポイント信号に基づいて、映像指定部14は、ポイント信号を、映像を構成するフレーム内の位置に換算し、換算した位置を示すマーク(例えば、十字カーソル)を、表示同期処理部12を介して表示させる。次に、映像指定部14は、位置の記録を指示する信号(例えば、カーソル位置記録トリガボタン514を押したことを示す信号)を受信すると、その画面上の位置座標を記録すべきメタデータとして出力する。
メタデータ入力部15は、映像、あるいは映像の特定の時空間領域に付加するためのキーワードとなるメタデータを入力する。具体的には、メタデータ入力部15は、メタデータ入力装置52(例えば、音声入力装置、文字入力装置など)からキーワードとなるメタデータを入力する。メタデータ入力装置52は、映像素材に高レベルな情報をあたえる情報源としてヘッドセットのマイク入力などを介して音声を入力する装置であってもよい。具体的には、メタデータ入力部15は、ポインタ・トリガ入力装置51からメタデータの入力を要求されると(例えば、メタデータ入力トリガボタン513が押されたことを検出したときから、メタデータ入力トリガボタン513が離されたことを検出する迄の間)、メタデータ入力装置52からメタデータを受信し、これを後述する音声文字変換手段120を介して文字情報に変換させた後、後述するキーワード文字データバッファ199に一時的にバッファリングさせる。
メタデータ付与部16は、本線入力部11から出力された本線信号(映像・音声)と、タイムスタンプと、領域分割部13によって算出された領域ID分布と、さらに映像指定部14によって指定された位置と、メタデータ入力部15によって入力されたメタデータとを表示同期処理部12にて同期処理後にそれぞれを対応付けて、記録装置としての記録用データ蓄積装置30に記録する。具体的には、メタデータ付与部16は、映像指定部14によって指定された画面上のカーソル位置座標と、領域分割部13の出力、さらにそこから得られる指定カーソル位置に対応する領域IDと、メタデータ入力部15によって入力され、バッファリングされたキーワード文字データ、そしてキーワード入力の発話音声を含めたそれらメタデータとを対応付けて、表示同期処理部12における同期処理後、記録用データ蓄積装置30に本線信号とあわせて記憶させる。
記録用データ蓄積装置30は、映像用メタデータ付与装置10を経ることで、本線データとメタデータとが重畳されたデータを記録し、あとで検索などの用途で利用できるようにした装置である。
映像モニタ装置42及び音声モニタ装置43は、入力された本線の映像及び音声を出力するためのモニタ装置である。映像については、映像重畳装置を介することにより、本線映像に加えカーソルの位置や移動軌跡、各トリガの状態にあわせて変化するカーソルを重畳させて表示される。また、入力されたメタデータとなっている文字情報を文字として画面に提示させることも可能とする(後述する図6、図7参照)。
図1に示す、映像用メタデータ付与装置10全体の処理のながれについて以下に記述する。映像用メタデータ付与装置10は、映像信号を対象にしている。音声信号は必須ではないが、放送などの目的で利用される場合は、多くの場合映像信号と同期した音声信号が伴う。よって信号入力としてはこの映像信号・音声信号の2つとしている。映像用メタデータ付与装置10は、入力した音声を映像やメタデータと共に蓄積装置に記録するだけでなく、モニタリング用に音声モニタ装置43に出力する。
図2は、映像用メタデータ付与装置10の詳細な構成と、データフローとを示す図である。図3は、図2の音声文字変換手段のキーワード文字データバッファを示す図である。図2及び図3に示す、映像用メタデータ付与装置10におけるデータの流れについて以下に記述する。なお、映像用メタデータ付与装置10は、メタデータ入力装置52として音声入力装置(図示せず)からメタデータを音声データで入力するものとする。
映像用メタデータ付与装置10は、本線となる映像・音声、カーソル位置、メタデータとしての音声、タイムスタンプデータと各種トリガを入力する。
タイムスタンプデータ処理手段111は、入力した各データにタイムスタンプデータを結びつける。記録される対象となる各データは、後述する同期処理手段121において同期処理を行うためにリファレンスとなるタイムスタンプデータと結びつけられる。
映像データ処理手段112は、映像を入力し、同期処理手段121及び映像領域分割処理手段114に出力する。映像領域分割処理手段114は、映像データを、色分布の情報から大まかな被写体領域に分割する。上述の時空間領域分割の手法を利用することで、高速な領域分割が可能となる。この分割領域は被写体領域として時空間に分布するので、特定の短時間に実行した少数のピクセル指定で、特定の指定対象に関係する時空間に広がった大きな領域を指定することが可能になる。
この映像領域分割処理手段114の出力は、映像ボリューム全体の分割領域ID分布をフレームごとに出力したデータとなる。(そのIDに対して、色づけを行って可視化したものが後述する図8となる。)対象となる映像において分割されたそれぞれの時空間領域に対して、固有のIDが割り振られる。なお、この処理は実時間で処理できたとしても、結果を出力するまでに遅延が生じる。そのため、処理対象の映像の時刻を示すタイムスタンプデータを保持させることで、後の同期処理において他のデータに対して同期をとることを可能にさせる。音声データ処理手段113は、映像に伴う音声を入力し、記録とモニタリングのために同期処理手段121に出力する。
カーソル位置データ処理手段115は、ポインタ・トリガ入力装置51によるカーソルの位置を同期処理手段121に出力する。
カーソル位置記録トリガ処理手段116は、ポインタ・トリガ入力装置51からのカーソル位置記録トリガボタン514の信号を受信し、音声文字変換手段120と同期処理手段121とに出力する。
メタデータ入力トリガ処理手段117は、ポインタ・トリガ入力装置51からのメタデータ入力トリガボタン513の信号を受信し、メタデータ音声入力処理手段119と音声文字変換手段120とに出力する。
メタデータクリアトリガ処理手段118は、ポインタ・トリガ入力装置51からのメタデータクリアトリガボタン512の信号を受信し、音声文字変換手段120と同期処理手段121とに出力する。メタデータクリアトリガ処理手段118は、例えば、ポインタ・トリガ入力装置51のメタデータクリアトリガボタン512が押された場合に、キーワード文字データバッファ199に現在保持されているメタデータのキーワード文字データを消去し、空の文字情報とする。
メタデータ音声入力処理手段119は、メタデータとして発話により入力された音声データを入力し、音声文字変換手段120と同期処理手段121とに出力する。
音声文字変換手段120は、メタデータ音声入力処理手段119から入力した音声データを文字データに変換する。音声文字変換手段120は、音声認識装置と変換処理用データベースとを保持している。なお、音声文字変換手段120は、ネットワークサービスを利用した音声認識・文字変換処理を利用してもよい。音声文字変換手段120は、処理によって得られた文字データを、メタデータとしてキーワード文字データバッファ199に保持する。そして、このメタデータとしての文字データは、メタデータとして出力される(キーワード、文字データ出力)。
音声文字変換手段120の中のキーワード文字データバッファ199によって既に保持されたメタデータが存在する場合に、新たにメタデータが文字変換された場合は、既に保持されているメタデータに追加されるものとする。なお、使用用途によっては、追加ではなく更新されるとしてもよい。
メタデータ入力トリガ処理手段117は、例えば、ポインタ・トリガ入力装置51のメタデータ入力トリガボタン513が押されている間、メタデータ音声入力処理手段119の処理をアクティブにする。
音声文字変換手段120への音声入力は、上述のようにメタデータ入力トリガボタン513が押されている間アクティブになったメタデータ音声入力処理手段119を経て音声データとして入力される。なお、入力されたメタデータ音声入力は、メタデータ音声入力処理手段119にてタイムスタンプデータと結びつけられてその記録のために音声信号として同期処理手段121へ送られる。これはオンザフライで音声文字変換がうまくいかなかった場合などに後の処理でメタデータを修正したり補強したりするための発話音声の元データとして利用される。
音声文字変換手段120は、カーソル位置記録トリガが与えられている際(例えば、ポインタ・トリガ入力装置51のカーソル位置記録トリガボタン514が押されている間)キーワード文字データバッファ199に保持しているメタデータを同期処理手段121に出力する。
同期処理手段121は、記録対象となるすべてのデータについてバッファリングを行い、一番出力が遅れる入力情報のタイムスタンプのために設定した一定の遅延量に合わせて同期させた各データを重畳処理手段122に出力する。重畳処理手段122は、入力された各データを重畳処理し、記録用データ蓄積装置30に出力する(記録用データ出力)。また、同期処理手段121及び重畳処理手段122は、映像モニタ装置42及び音声モニタ装置43で現在の各種情報をモニタリングできるように、映像・音声・カーソル位置、そして各種トリガ状態を出力する(映像出力、音声出力、カーソル位置出力、トリガ情報出力)。この各モニタ出力は、用途に応じて同期処理のバッファリング前、バッファリング後(同期処理後)を選択できるものとする。
重畳処理手段122は、同期して入力された各データを特定の記録データフォーマットにパックし、記録用データ蓄積装置30に送る。
図6は、本発明の一実施形態に係る映像用メタデータ付与装置10に入力される映像の例を示す図である。
図6は、例えば、ビデオカメラを用いて撮影された映像を入力映像とした場合である。
図7は、図6の入力映像に、メタデータの各種情報が重畳されて表示されている例を示す図である。本発明の一実施形態に係る映像用メタデータ付与装置10により表示されている映像の例を示す図である。これは、映像モニタ装置42に表示される映像例である。
図7は、ポインタ・トリガ入力装置51から受信したポイント信号に基づいて、ユーザーが指定しようとしている位置を、カーソル201のマークで表示していることを示している。そして、ユーザーが映像の動きに沿って、ポインタ・トリガ入力装置51を動かした結果、映像用メタデータ付与装置10が、カーソル201の位置に関する一定時間分の軌跡202を映像に重畳させて表示させていることを示している。さらに、図7は、映像213に対応する領域313(後述する図8を参照)に、入力されたメタデータとして表示「男性1」203が対応付けて記憶されたことを示している。なお、映像フレームが進行し、異なる時間の異なる領域IDに対して同じメタデータを対応付ける操作を行うことで、より広い時空間領域にメタデータ「男性1」を付与することが可能になる。これにより、後から、メタデータ「男性1」が付与されたすべての領域IDを蓄積されたデータから探し出し、総合すれば「男性1」の領域を映像ボリュームから取り出すことが可能になる。
図8は、本発明の一実施形態に係る映像用メタデータ付与装置10により領域分割されたあるフレームを、領域IDごとに色付けし、領域の分布を可視化した例を示す図である。図8は、図7に示された映像が、領域に分割されていることを示している。具体的には、図8の領域313が図7の映像213に対応付けられた領域であり、図8の領域312が図7の映像212に、図8の領域311が図7の映像211に対応付けられた領域である。
図9は、本発明の一実施形態に係る映像用メタデータ付与装置10の処理内容を示すフローチャートである。映像用メタデータ付与装置10は、コンピュータ及びその周辺装置が備えるハードウェア並びに該ハードウェアを制御するソフトウェアによって構成され、以下の処理は、映像用メタデータ付与装置10の制御部(例えば、CPU)が所定のソフトウェアに従い実行する処理である。
ステップS101において、映像用メタデータ付与装置10は、映像を入力する。より具体的には、映像用メタデータ付与装置10は、メタデータを付与する対象の映像をフレーム単位で入力する。その後、映像用メタデータ付与装置10は、処理をステップS102に移す。
ステップS102において、映像用メタデータ付与装置10は、入力された映像を時空間に分布する領域に分割する。より具体的には、映像用メタデータ付与装置10は、入力した映像フレームを一定のフレーム数の過去フレームから現フレームまでの映像ボリュームと領域分割結果に基づいて領域分割し、領域分割した領域に領域IDを割り振る。その後、映像用メタデータ付与装置10は、処理をステップS103に移す。
ステップS103において、映像用メタデータ付与装置10は、ポインタカーソル調整トリガボタン511が押されたか否かを判断する。より具体的には、映像用メタデータ付与装置10は、ポインタ・トリガ入力装置51のポインタカーソル調整トリガボタン511が押されたことを示す信号がONになったか否かを判断する。この判断がYESの場合、映像用メタデータ付与装置10は、処理をステップS104に移し、NOの場合、映像用メタデータ付与装置10は、処理をステップS105に移す。
ステップS104において、映像用メタデータ付与装置10は、カーソル位置を初期化する。より具体的には、映像用メタデータ付与装置10は、カーソルの位置を映像を構成するフレームの中央の位置にする。その後、映像用メタデータ付与装置10は、処理をステップS105に移す。
ステップS105において、映像用メタデータ付与装置10は、メタデータクリアトリガボタン512が押されたか否かを判断する。より具体的には、映像用メタデータ付与装置10は、ポインタ・トリガ入力装置51のメタデータクリアトリガボタン512が押されたことを示す信号がONになったか否かを判断する。この判断がYESの場合、映像用メタデータ付与装置10は、処理をステップS106に移し、NOの場合、映像用メタデータ付与装置10は、処理をステップS107に移す。
ステップS106において、映像用メタデータ付与装置10は、メタデータをクリアする。より具体的には、映像用メタデータ付与装置10は、領域に対応付けるために記憶しているメタデータを消去する。その後、映像用メタデータ付与装置10は、処理をステップS107に移す。
ステップS107において、映像用メタデータ付与装置10は、メタデータ入力トリガボタン513が押されているか否かを判断する。より具体的には、映像用メタデータ付与装置10は、ポインタ・トリガ入力装置51のメタデータ入力トリガボタン513が押されていることを示す信号がONになったか否かを判断する。この判断がYESの場合、映像用メタデータ付与装置10は、処理をステップS108に移し、NOの場合、映像用メタデータ付与装置10は、処理をステップS109に移す。
ステップS108において、映像用メタデータ付与装置10は、メタデータの入力を開始する。より具体的には、映像用メタデータ付与装置10は、メタデータの入力を開始し、メタデータ入力トリガボタン513が押されている間、メタデータを入力し、バッファリングする。その後、映像用メタデータ付与装置10は、処理をステップS109に移す。
ステップS109において、映像用メタデータ付与装置10は、カーソル位置記録トリガボタン514が押されているか否かを判断する。より具体的には、映像用メタデータ付与装置10は、ポインタ・トリガ入力装置51のカーソル位置記録トリガボタン514が押されていることを示す信号がONか否かを判断する。この判断がYESの場合、映像用メタデータ付与装置10は、処理をステップS110に移し、NOの場合、映像用メタデータ付与装置10は、処理をステップS111に移す。
ステップS110において、映像用メタデータ付与装置10は、カーソル位置の記録を開始する。より具体的には、映像用メタデータ付与装置10は、ポインタ・トリガ入力装置51から定期的に受信したポイント信号に基づいてカーソル位置に換算し、換算したカーソル位置を記録する。その後、映像用メタデータ付与装置10は、処理をステップS111に移す。
ステップS111において、映像用メタデータ付与装置10は、入力された映像を表示する。より具体的には、映像用メタデータ付与装置10は、入力された映像を映像重畳装置41を介して、映像モニタ装置42に表示させる。さらに、ポインタ・トリガ入力装置51から受信するポイント信号に基づいて、カーソルを映像に重畳させて表示させる。そして、映像用メタデータ付与装置10は、カーソル位置に対応する領域に対応付けられた領域IDに、バッファリングされたキーワード文字データを対応付けて、記録用データ蓄積装置30に記憶させる。その後、映像用メタデータ付与装置10は、処理をステップS112に移す。
ステップS112において、映像用メタデータ付与装置10は、映像が続くか否かを判断する。より具体的には、映像用メタデータ付与装置10は、処理対象の映像フレームが存在するか否かを判断し、映像フレームが存在すると判断した場合(YESの場合)、時刻フレームを更新してステップS101に移り、存在しないと判断した場合(NOの場合)、処理を終了する。
図10は、本発明の一実施形態に係る映像用メタデータ付与装置10により生成されたメタデータ付与後の記録用データの例を示す図である。
メタデータ付与後の記録用データは、本線映像データ及び本線音声データと、領域分割データ(領域IDデータ)と、メタデータとから構成されていて、フレーム単位で記録される。本線映像データ及び本線音声データは、映像用メタデータ付与装置10に入力されたデータである。領域分割データは、映像用メタデータ付与装置10が入力した映像を領域分割したデータであって、分割された領域に、領域IDを対応付けたデータである。メタデータは、映像用メタデータ付与装置10が領域にキーワード文字を対応付けたデータであって、カーソル位置座標に対応する領域に対応付けられた領域ID(カーソル位置領域ID)に、キーワード発生音声を変換したキーワード文字を対応付けたデータである。
本実施形態によれば、映像用メタデータ付与装置10は、映像を入力し、入力した映像と、ユーザー操作によるカーソル位置データ及びキーワード文字データなどとを映像モニタ装置42に表示させる装置を備えたシステムにおいて、入力した映像を、当該映像を構成する時空間に分布する領域に分割し、ポインタ・トリガ入力装置51から信号を受信し、受信した信号に基づいて、映像モニタ装置42によって表示された映像のうち、メタデータを付与する部分を指定し、メタデータ入力装置52からメタデータとなるキーワードを入力し、指定された映像の部分に対応する領域に、メタデータ入力装置52から入力したキーワード文字を対応付けて、本線信号と共に記録用データ蓄積装置30に記録させる。
すなわち、映像用メタデータ付与装置10は、映像を映像モニタにて必ず確認する際に、簡単な操作で即座にメタデータとなる高レベルの情報を付与し、本線となる映像・音声に同期させて、記録用データ蓄積装置30に記録させる。
したがって、映像用メタデータ付与装置10は、大量の映像素材に対する効率的な管理を可能にするための的確なメタデータを、効率よく付与することができる。
さらに、映像用メタデータ付与装置10は、主に、放送番組の撮影や映像素材をモニタする必要のある場所、例えば撮影現場や放送局の素材伝送部署、あるいは撮影済素材のラッシュ(確認)などを行うモニタリングルームなどで、用いられて機能を発揮する。
さらに、映像を記録媒体に記録する際に必ず行う映像モニタリングプロセスにおいて、その際に使用する映像モニタを表示デバイスとして利用しながら、付与したい情報の映像領域を大まかに指示すると同時に、それにあわせて高レベルな情報を音声によって与えることにより、映像用メタデータ付与装置10は、収録される本線の映像・音声情報にリンクした高レベルのメタデータを記録させることができる。
また、映像用メタデータ付与装置10により付与・記録される高レベルのメタデータは、対象物に関する単純なキーワード文字に始まり、映像素材全体に対する収録意図などの情報や、素材映像中の重要な被写体の登場時間、さらにより詳細な時空間の小領域部分に対して付与された固有名称などまでをも含む。これらのメタデータは、蓄えられた大量の映像素材の中から、所望の映像ボリューム、その映像ボリュームの中の時間的区間、あるいはその映像ボリュームの中の時空間領域を検索し、抽出することを可能にするための主たる情報となる。したがって、映像用メタデータ付与装置10によって付与された情報を利用することで、大量の映像素材を管理する効率が飛躍的に向上する。
本発明は、産業上の利用可能性として、個人、あるいは放送局など大量の映像を蓄積し利用する必要のある場所において、映像の蓄積・管理装置として利用できる。
さらに、本発明を、機械学習の枠組みを用いた、映像分類における教師情報取得手段としても利用できる。機械学習では正解である教師情報を準備する際に、通常は手動による教師映像選定が必須になるため、本発明でテキスト情報が付与された映像があればそのまま教師情報として直接利用できる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
10 映像用メタデータ付与装置
11 本線入力部
12 表示同期処理部
13 領域分割部
14 映像指定部
15 メタデータ入力部
16 メタデータ付与部
30 記録用データ蓄積装置
41 映像重畳装置
42 映像モニタ装置
43 音声モニタ装置
51 ポインタ・トリガ入力装置
511 ポインタカーソル調整トリガボタン
512 メタデータクリアトリガボタン
513 メタデータ入力トリガボタン
514 カーソル位置記録トリガボタン
52 メタデータ入力装置
53 タイムスタンプ発生装置

Claims (5)

  1. 映像にメタデータを付与する映像用メタデータ付与装置であって、
    前記映像を入力する本線入力部と、
    前記本線入力部によって入力された前記映像と、前記メタデータとを同期させて、映像表示装置に表示させる表示同期処理部と、
    前記本線入力部によって入力された前記映像を、当該映像を構成する時空間に分布する領域に、分割する領域分割部と、
    ポインタ入力装置から信号を受信し、受信した信号に基づいて、前記表示同期処理部によって表示された前記映像のうち、前記メタデータを付与する部分を指定する映像指定部と、
    メタデータ入力装置から前記メタデータを入力するメタデータ入力部と、
    前記映像指定部によって指定された前記映像の部分に対応する前記領域に、前記メタデータ入力部によって入力された前記メタデータを対応付けるメタデータ付与部と、
    を備える映像用メタデータ付与装置。
  2. 前記領域分割部は、
    前記映像のフレームごとに入力し、それ以前の過去フレームから構成する一定フレーム数の時空間ボリュームに対して、色情報が一様である部分領域に分割する分割手段と、
    前記分割手段によって分割された前記部分領域に、領域IDを対応付けて識別する識別手段と、を備え、
    前記識別手段は、前記映像のフレーム入力前までに前記分割手段によって生成された時空間ボリューム分割領域結果と、前記映像のフレームが入力されて生成された時空間ボリューム分割領域結果とを比較し、更新フレームに対して延長されるとみなされる部分領域には、それまでの部分領域に対応付けた既存の領域IDと同じ領域IDを対応付け、新たに発生する領域には新規の領域IDを割りつける、
    請求項1に記載の映像用メタデータ付与装置。
  3. 前記メタデータ入力部は、前記ポインタ入力装置からの信号に基づいて前記メタデータの入力を開始し、前記ポインタ入力装置からの信号に基づいて前記メタデータの入力を終了する請求項1又は2に記載の映像用メタデータ付与装置。
  4. 前記メタデータ入力部は、音声を文字データに変換する文字変換手段をさらに備える請求項1から3のいずれかに記載の映像用メタデータ付与装置。
  5. コンピュータを、請求項1から4のいずれかに記載の映像用メタデータ付与装置として機能させるためのプログラム。
JP2012274740A 2012-12-17 2012-12-17 映像用メタデータ付与装置及びプログラム Pending JP2014119975A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012274740A JP2014119975A (ja) 2012-12-17 2012-12-17 映像用メタデータ付与装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012274740A JP2014119975A (ja) 2012-12-17 2012-12-17 映像用メタデータ付与装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2014119975A true JP2014119975A (ja) 2014-06-30

Family

ID=51174759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012274740A Pending JP2014119975A (ja) 2012-12-17 2012-12-17 映像用メタデータ付与装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2014119975A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016046730A (ja) * 2014-08-25 2016-04-04 学校法人早稲田大学 視聴者注目情報提供システム、時空間マーカ設定装置及びそのプログラム、並びに、情報提供装置及びそのプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007280043A (ja) * 2006-04-06 2007-10-25 Mitsubishi Electric Corp 映像監視検索システム
JP2009232250A (ja) * 2008-03-24 2009-10-08 Panasonic Corp 番組情報表示装置および番組情報表示方法
JP2012221322A (ja) * 2011-04-11 2012-11-12 Toshiba Corp オーサリング支援装置、オーサリング支援方法およびプログラム
JP2012248070A (ja) * 2011-05-30 2012-12-13 Sony Corp 情報処理装置、メタデータ設定方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007280043A (ja) * 2006-04-06 2007-10-25 Mitsubishi Electric Corp 映像監視検索システム
JP2009232250A (ja) * 2008-03-24 2009-10-08 Panasonic Corp 番組情報表示装置および番組情報表示方法
JP2012221322A (ja) * 2011-04-11 2012-11-12 Toshiba Corp オーサリング支援装置、オーサリング支援方法およびプログラム
JP2012248070A (ja) * 2011-05-30 2012-12-13 Sony Corp 情報処理装置、メタデータ設定方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016046730A (ja) * 2014-08-25 2016-04-04 学校法人早稲田大学 視聴者注目情報提供システム、時空間マーカ設定装置及びそのプログラム、並びに、情報提供装置及びそのプログラム

Similar Documents

Publication Publication Date Title
CN106303658B (zh) 应用于视频直播的交互方法和装置
CN104284233B (zh) 视频和遥测数据的数据搜索、解析和同步
US8879788B2 (en) Video processing apparatus, method and system
WO2015072631A1 (ko) 영상 처리 장치 및 방법
US20140139680A1 (en) Method And System For Metadata Extraction From Master-Slave Cameras Tracking System
US11315340B2 (en) Methods and systems for detecting and analyzing a region of interest from multiple points of view
CN105830093A (zh) 用于产生与非均匀大小的空间区相关的元数据的系统、方法及设备
EP2816564B1 (en) Method and apparatus for smart video rendering
US9087255B2 (en) Image processor, image processing method and program, and recording medium
CN112633208A (zh) 一种唇语识别方法、服务设备及存储介质
WO2019062631A1 (zh) 一种局部动态影像生成方法及装置
US20210004136A1 (en) Information processing apparatus, information processing method, and program
JP2014523019A (ja) 動的ジェスチャー認識方法および認証システム
KR20210104979A (ko) 영상 검색 장치 및 이를 포함하는 네트워크 감시 카메라 시스템
US20120242860A1 (en) Arrangement and method relating to audio recognition
CN110418148B (zh) 视频生成方法、视频生成设备及可读存储介质
JP5346797B2 (ja) 手話映像合成装置、手話映像合成方法、手話表示位置設定装置、手話表示位置設定方法、及びプログラム
JP4110323B2 (ja) 情報出力方法及び装置及びプログラム及び情報出力プログラムを格納したコンピュータ読み取り可能な記憶媒体
CN105989000B (zh) 音视频拷贝检测方法及装置
JP2014119975A (ja) 映像用メタデータ付与装置及びプログラム
CN111629267A (zh) 音频标注方法、装置、设备及计算机可读存储介质
JP6532234B2 (ja) 情報処理システム、情報処理方法及びプログラム
JP2006237879A (ja) Cm検索方法、cm検索結果受給方法、cm検索装置、cm検索結果受給装置及びcm録画予約システム
KR102008672B1 (ko) 카메라와 연계해서 증강현실 프리미티브와 이벤트를 연동시키는 시스템 및 그 시스템의 구동방법
JP2012208558A (ja) 表示制御装置、端末装置、通信システムおよびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160817

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170606