JP2009267773A

JP2009267773A - 映像編集装置、撮影装置および映像編集方法

Info

Publication number: JP2009267773A
Application number: JP2008115096A
Authority: JP
Inventors: Yasuhide Mori; 靖英森; Masahiro Kato; 雅弘加藤; Junichi Kimura; 淳一木村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-04-25
Filing date: 2008-04-25
Publication date: 2009-11-12

Abstract

【課題】個々の編集者の編集意図にきめ細かく対応し、編集者の労力を軽減して効率良く編集できる映像編集技術を提供すること。
【解決手段】軌跡解析部２１４は、撮影装置１の位置と方位、及び映像中の被写体３の位置と方位を求めて、撮影装置と被写体の移動軌跡を作成する。作成した移動軌跡はデータ蓄積部２１５に蓄積し、表示部２１６に表示する。編集者が編集対象となる被写体を指定すると、検索部２１８は指定された被写体を含む映像をデータ蓄積部から検索して編集する。軌跡解析部２１４は、撮影装置を基準に被写体までの距離と方向を解析し、それを撮影装置の位置と方位に加算して被写体の位置と方位を推定する。
【選択図】図４

Description

本発明は、撮影された映像を各種記録メディアやインターネット等を介して共有し、閲覧や編集に供する技術に関する。

近年、個人で撮影された映像は、単なる鑑賞にとどまらず、様々な共有形態や編集によって利用することが可能となってきている。例えば、カムコーダ等で撮影した映像をＤＶＤ等のメディアに記録して知人の間で共有して閲覧することは広く行われている行為である。その際、撮影したままの映像ではなくて、内容に応じて良いシーンを選択する等の編集を行ってから閲覧に供することが可能となってきている。その際の技術では、撮影したデータをパーソナルコンピュータ上に取込み、ソフトウェアを用いて編集するか、もしくは、カムコーダ等の撮影装置の編集機能を用いる方法がある。また、インターネットの普及に伴い、撮影された映像をインターネットを介して共有し、閲覧や編集に供することか可能となってきている。

通常の映像編集作業では、映像をそのシーンの内容に基づいて編集することが多い。そのため編集者は、映像の内容を精査し、さらに、複数の映像を合成する場合には、全ての映像を見てそれらの映像の切り繋ぎを行う必要があった。その際、映像の品質を維持しながら、容易に映像編集を行えることが望ましい。

特許文献１には、動画像に人物や物の位置、視線、動きの方向等の情報を付加し、画面の連続性が維持されるような画面接続の規則を用いて動画像を繋ぎ合わせる動画像編集方法が開示される。特許文献２には、カメラの位置と被写体の位置をそれぞれＧＰＳモジュールにて検出し、被写体までの距離と方位を算出するデジタルカメラが開示される。

特開平９−１４９３１８号公報特開２００４−２９７４７８号公報

撮影された映像の各部分の重要度は、撮影者や編集者の意図によって異なってくる。例えば、特定の人物に注目してその人物がよく映っているベストショットシーン等を集めたい場合など、どの人物に注目するかによって望ましい編集条件が異なってくる。また、通常の撮影では、カメラも被写体もその場所や方向が時々刻々変化するため、それらの移動による映像の変化を考慮して編集する必要がある。

前記特許文献１では、これらの変動状況の取り扱いに関しては特に記述がないため、カメラや被写体の移動や方向の変化を含む映像を編集する際には困難を生ずる。また前記特許文献２では、カメラから見た被写体の距離と方位を知ることはできるが、そのために被写体に位置センサ（ＧＰＳ）を取り付ける必要があり、複雑な構成になる。

さらに、複数の撮影者によって様々な観点で撮影されたイベント映像等を撮影者間で共有し、各自所望の映像に編集したい場合には、各映像の撮影意図を考慮しながら全ての映像を閲覧して編集を行うことになる。特にカメラの数が多くなるほど、閲覧を中心とする労力が増大し編集作業の効率が低下する。

本発明の目的は、個々の編集者の編集意図にきめ細かく対応し、編集者の労力を軽減して効率良く編集できる映像編集技術を提供することである。

本発明の映像編集装置は、撮影装置にて撮影された映像から被写体と背景を分離する認識処理部と、撮影装置の位置と方位、及び上記分離した被写体の位置と方位を求めて、撮影装置と被写体の移動軌跡を作成する軌跡解析部と、映像と作成した移動軌跡を蓄積するデータ蓄積部と、データ蓄積部に蓄積されている移動軌跡を表示する表示部と、編集者により編集対象となる被写体を指定する指示入力部と、指定された被写体を含む映像をデータ蓄積部から検索して編集する検索部とを備える。

ここに軌跡解析部は、撮影装置を基準に被写体までの距離と方向を解析し、解析した被写体までの距離と方向を撮影装置の位置と方位に加算して、被写体の位置と方位を推定する。

また認識処理部は映像から背景の特徴量を抽出し、軌跡解析部は、抽出した特徴量を、予め撮影装置の位置と方位を変えて測定しておいた特徴量のデータと比較して、それらの特徴量が最も類似する位置と方位を、当該映像に対する撮影装置の位置と方位であると推定する。

本発明の撮影装置は、当該撮影装置の位置と方位を検出する位置・方位検出部と、撮影した映像から特徴量を抽出する映像処理部を備え、撮影した映像のデータに、撮影時の位置と方位のデータと映像の特徴量を付加して映像編集装置に送信する。

本発明の映像編集システムは、複数の撮影装置と編集サーバと閲覧端末とをネットワークで接続して映像を編集するものであって、編集サーバは、撮影装置にて撮影された映像から被写体と背景を分離する認識処理部と、撮影装置の位置と方位、及び分離した被写体の位置と方位を求めて、撮影装置と被写体の移動軌跡を作成する軌跡解析部と、映像と作成した移動軌跡を蓄積するデータ蓄積部と、閲覧端末から指定された被写体を含む映像をデータ蓄積部から検索して編集する検索部とを有し、閲覧端末は、編集サーバから送られた上記移動軌跡を表示する表示部と、編集者により編集対象となる被写体を指定する指示入力部とを有する。そして、撮影装置にて撮影された映像をネットワーク経由で編集サーバに蓄積し、編集者は閲覧端末から編集サーバにアクセスして、蓄積されている所望の映像に同一イベントの他の映像を追加して映像の閲覧と編集を行い、編集した映像をネットワーク経由で他の編集者に公開する。

本発明の映像編集方法は、撮影装置から、撮影時の該撮影装置の位置と方位のデータが付加された映像データを受け取り、映像から被写体と背景を分離し、撮影装置の位置と方位、及び分離した被写体の位置と方位を求めて、撮影装置と被写体の移動軌跡を作成し、作成した移動軌跡をデータ蓄積部に蓄積するとともに表示部に表示し、編集者により編集対象の被写体が指定されると、被写体を含む映像をデータ蓄積部から検索して編集する。

本発明の映像編集技術によれば、撮影装置と被写体の移動軌跡と方位を表示するので、個々の編集者の編集意図にきめ細かく対応し、編集者の労力を軽減して効率良く編集できる効果がある。

以下、本発明の実施の形態について、図面を参照しながら説明する。

図１は、本発明に係る映像編集システムの一実施例を示す全体構成図である。撮影装置（カメラ）１は被写体３を撮影し、ユーザ（編集者）８は映像編集装置（編集装置）２にてカメラ１で撮影された映像を編集する。カメラ１は１台でもよいが、ここでは複数台用いるものとする。本実施例のカメラ１は映像録画機能を有し、一般に「カムコーダ」と呼ばれるカテゴリーも含む。撮影においては、映像データだけでなく、付加情報として撮影パラメータ（カメラの画角、位置や方位、撮影時刻など）も同時に取得し記録する。付加情報は映像編集のために必要となるものであり、以下「メタデータ」とも呼ぶ。以後、撮影データ７とは、映像データと付加情報（メタデータ）を合わせたものを指す。それぞれのカメラ１で撮影されたデータは、ＤＶＤ等の記録メディア４に記録されて編集装置２に送付される。あるいは、有線通信５や無線通信６によって編集装置２に伝送される。編集装置２は例えばコンピュータ装置であり、編集用プログラムに従い付加情報（メタデータ）を用いて所定の映像処理を行う。本実施例では、カメラ１や被写体の３の移動軌跡を画面表示し、ユーザ８は軌跡画面上で所望の条件を指定することで、編集装置２は該当する映像を自動的に抽出し編集を行う。

図２は、本実施例の撮影装置（カメラ）１のハードウェア構成図である。各モジュールは、内部バスライン１００によって接続され、撮影データや制御信号が伝送される。

カメラ１に入ってきた被写体３からの撮影光パターンは、レンズ・光学部１０１によって集光され、撮像部１０２が持つ撮像素子によって電子的信号に変換される。映像処理部１０３は画質改善の前処理や所定の映像コーディングを施し、映像データを得る。

本実施例では、カメラ１の位置および方位データを逐次検出する位置・方位検出部１０４を搭載する。位置センサ１０５としては例えばＧＰＳを、方位センサ１０６としては例えば磁気方位センサを用いる。その他のセンサとして、図示しない重力方向を記録する重力センサや傾きセンサを用いてもよい。これらの位置および方位データは、撮影した映像に付随する付加情報（メタデータ）となる。

記録部１０７は、記録メディア１０８（４）に映像データと付加データを記録する。記録メディア１０８としては、記録可能なＤＶＤ、メモリカード、ハードディスク（リムーバブル）等を用いる。制御部１０９は、光学レンズの絞りや焦点制御と、記録部１０７の記録制御等を行う。操作部１１０はユーザからのボタン操作などを受け付け、制御部１０９に実行指令を出す。通信部１１１は、撮影データを有線５または無線６で編集装置２に送信する。このように、撮影データは記録メディア１０８に格納して編集装置２に送付されるか、有線５または無線６を介して送信される。その際、撮影した映像に付随する付加情報（メタデータ）として、カメラの位置および方位データを同時に送ることに特徴がある。

図３は、本実施例の映像編集装置２のハードウェア構成図である。編集装置２は、映像処理部と映像表示部とを備え、コンピュータ装置などで構成する。ただし、表示部は別体（外付け）で構成してもよい。各モジュールは、内部バスライン２００によって接続される。

ＣＰＵ（中央演算ユニット）２０１は全体の動作を制御し、ＲＡＭ等のメモリ２０２とＨＤＤ等の記憶部２０３が接続される。記憶部２０３にはカメラ１から送られた撮影データ（映像、メタデータ）を格納する。映像の編集を行うためには、記憶部２０３から撮影データと実行プログラムをメモリ２０２にロードして、ＣＰＵ２０１にて解析処理を行い、解析結果を再び記憶部２０３に書き込む処理を行う。映像解析結果は、グラフィックコントローラを介して表示部２０４にＧＵＩ（グラフィック・ユーザ・インタフェース）表示する。

インタフェース（ＩＦ）を介して入力デバイス２０５は、ユーザの各種操作を受け付ける。メディアドライブ２０６は、カメラ１から送付された記録メディア２０７を装着して記録されている撮影データを読み出す。通信部２０８は、有線５または無線６でカメラ１から送信された撮影データを受信する。また、実施例３にて後述するインターネットを介しての映像共有のための通信に用いる。その構成は、例えば、アナログ電話回線用のアナログモデム、ＩＳＤＮ回線用のモデム、ＡＤＳＬ用のルータ又はモデム、ＬＡＮ用のアダプタ、無線電話用のアダプタ、無線通信用のアダプタなどが適用可能である。インターネット用とカメラ接続用で別々のアダプタであってもよい。

図４は、本実施例における映像編集装置２の機能構成図である。
画像処理部２１１では、入力された映像データをデコードして認識処理ができる形態にする。前処理部２１２では、映像に付加されているメタデータを処理し、またカメラ側で予め算出された特徴量（映像の平均色などで、後述する）がある場合はそれを取り出す。認識処理部２１３では、デコードされた映像から認識処理を行う。認識処理の内容は、被写体・背景の抽出と、特徴量の抽出などである。軌跡解析部２１４では、メタデータや抽出された特徴量を用いて、カメラ撮影軌跡の算出または推定処理、被写体軌跡の推定処理などを行い、データ蓄積部２１５に軌跡情報として格納する。表示部２１６では、解析されたカメラと被写体の軌跡結果をＧＵＩ表示する。指示入力部２１７は、ユーザからの編集の指示や修正を入力する。検索部２１８では上記軌跡情報を照合し、上記ユーザの編集指示に対応した部分映像（ショット）を検索し抽出する。抽出された映像は繋ぎ合わせてデータ蓄積部２１５に蓄積するとともに、表示部２１６に表示する。

以上、編集装置２の構成を説明したが、前述のカメラ１の処理能力に余裕がある場合には、カメラ１と編集装置２を一体とした構成も可能である。その場合、映像の転送の手間が省略されるという利便性が生じる。

このように本実施例の映像編集システムでは、カメラと被写体の移動軌跡情報を取得してＧＵＩ表示するので、ユーザはＧＵＩ上で所望の被写体を指定し、効率良く簡単に編集することができる。そのときＧＵＩ上には、カメラの位置と方位、被写体の位置と方位が表示されるので、きめ細かな編集が可能になり、ユーザの利便性が向上する。また、被写体の位置と方位は撮影した映像を解析することで推定するので、被写体に新たに位置センサを取り付ける必要がない。

次に、本実施例の映像編集方法について、工程に分けて詳細に説明する。
図５は、カメラ１にて撮影する工程の処理手順を示したフローチャート図である。
撮影を開始すると、まず、撮像部１０２から映像信号を入力し（Ｓ５０１）、記録のため、映像処理部１０３にて所定の映像コーディングを行う（Ｓ５０２）。

次に、映像処理部１０３は、映像の大まかな特徴量を抽出するための簡易特徴量抽出処理を行う（Ｓ５０３）。これは、後での編集処理の際に背景が同じシーンの候補を高速に検索するための前処理である。その内容は、例えば、映像を大きく２×２の４エリアに分割し、それぞれのエリアでの平均色を算出する。処理量削減のために、厳密に全画素の平均ではなく、１０ピクセル間隔での色平均を用いてもよい。なお、信号処理能力に余裕がない場合には、簡易特徴量抽出処理を編集装置２側で行うようにしてもよい。また、本フロー図では、撮影中に逐次処理をする形態を示したが、撮影が終了した後に記録映像を読み出して一括処理してもよい。

これと並行して位置・方位検出部１０４は、カメラに搭載した位置、方位センサ１０５，１０６を用いてセンシングを行う（Ｓ５０４）。センシングデータと上記簡易特徴量データとを、編集段階で参照できるメタデータの形式に変換し（Ｓ５０５）、映像データとともに記録メディア１０８に記録する（Ｓ５０６）。撮影動作中は以上の処理を繰返し行う（Ｓ５０７）。

図６は、編集装置２にて映像を解析する工程の処理手順を示したフローチャート図である。
カメラ１から送られた映像およびメタデータを記憶部２０３から読み出し（Ｓ６０１）、認識処理部２１３は被写体と背景とに分離する（Ｓ６０２）。その際、動画から被写体の領域を分割する必要があるが、領域分割の手法は、色、テクスチャ、オプティカルフロー等があり、例えば参考文献１の技術を利用できる。なお、被写体が多数存在する複雑な映像の場合には、注目する被写体が映像中に登場した時点でユーザが手動で注目被写体の領域を指示し、以後自動で追跡する等のセミ・オート処理方法を併用できる。
［参考文献１］高木幹雄、下田陽久監修「新編画像解析ハンドブック」東京大学出版会（２００４年）。

次に、メタデータとして位置、方位計測データがある場合（Ｓ６０３でＹｅｓ）、位置算出部２１４はそれらのデータから撮影軌跡（カメラの移動軌跡）を算出する（Ｓ６０４）。基本的には、センサデータを加工することなくそのまま用いればよい。あるいは、外れ値等の除去処理等をしてもよい。一方、位置、方位計測データがない場合（Ｓ６０３でＮｏ）、代用として映像パターンを解析して位置及び方位を推定する（Ｓ６０５）。撮影軌跡推定の手順は実施例２で説明する。

以上で得られた被写体の領域情報とカメラの撮影軌跡を用いて、被写体の移動軌跡を推定する（Ｓ６０６）。被写体軌跡推定の手順は図７を用いて述べる。カメラと被写体の両方の移動軌跡の推定結果を、データ蓄積部２１５に軌跡情報として映像データと一緒に格納する（Ｓ６０７）。

図７は、図６における被写体軌跡を推定する工程（Ｓ６０６）の詳細を示したフローチャート図である。
映像データを読み出し、対象となる被写体の映像パターンを取得する（Ｓ７０１）。映像パターンのサイズと、メタデータに含まれる撮影パラメータ（カメラ画角、被写体の実サイズ）を用いて、カメラから見た被写体までの距離と方向を算出する（Ｓ７０２）。例えば、人物であれば平均身長を用いておおまかな距離を算出する。一方方向は、カメラが水平であると仮定できる場合には、画像中の２次元的な位置から算出する。もしカメラが傾いて撮影された場合には、水平方向を画像パターンから推定し方向の修正を行う。あるいは撮影の際に重力センサや傾きセンサが利用できる場合には、そのデータを利用してもよい。その他の物体が被写体である場合にも同様に行う。

算出した距離を前記Ｓ６０４またはＳ６０５で求めたカメラの移動軌跡情報と付き合わせて、被写体の位置を推定する（Ｓ７０３）。これは、カメラの位置にＳ７０２で算出した被写体までの距離と方向を加算することで求める。

さらに、被写体の方位（絶対方角）を推定する（Ｓ７０４）。その手法は、まず、被写体の特徴的な面が画像面に対してどちらを向いているかを判定する。たとえば人物の場合は、顔がどちらを向いているかを判定する。顔画像抽出とその向きの判定に関しては、例えば、参考文献２の技術を利用できる。そして、画像面に対する被写体の向きを、前記したカメラの方位に加算することで、被写体の方位を推定する。
［参考文献２］岩井儀雄、勞世、山口修、平山高嗣、「画像処理による顔検出と顔認識」、情報処理学会研究報告コンピュータビジョンとイメージメディア、Ｖｏｌ．２００５、Ｎｏ．３８、２００５−ＣＶＩＭ−１４９（２００５年）。

ここで、複数のカメラから撮影されたデータがある場合には（Ｓ７０５でＹｅｓ）、それらの複数映像からの位置・方位の統合処理を行う（Ｓ７０６）。上述したそれぞれの単眼カメラを基準に求めた被写体の位置と方位の複数の推定値について、カメラ間で差が小さくなるように統合する処理を行い、推定の信頼度を上げる。具体的には、（１）単眼カメラで推定する際に用いた被写体の大きさ等の仮定を変動させて、推定値の差を最小化させる、（２）単眼での推定データを用いず、改めて被写体の特徴点同士のステレオマッチングを行う、等の手法を用いて最も差の少ない結果を採用する。計算量に制約がある場合には、まず（１）で処理し、一定量以上の矛盾が解消されない場合に（２）に切り替えるのがよい。以上の手順を行った後で、もしも複数の異なった解がある場合には、後段の処理のため複数の候補として保持しておいてもよい。さらに、それらの候補に何らかの信頼度が付与できる場合には、それらを付加したデータとするのがよい。

被写体の位置・方位の推定を終えると、１つ前の時間の同様の処理結果と付き合わせて、現在解析中の時刻における被写体の軌跡の断片を算出する（Ｓ７０７）。この段階でも、上述のように位置・方位の候補を複数挙げたり、信頼度を算出して重み付きのデータとして後段の処理に供しておいてもよい。

以上の解析処理を映像が終了するまで繰返し行い（Ｓ７０８）、各時刻にて整合処理を行う（Ｓ７０９）。整合処理では、上記において推定された被写体の軌跡（位置・方位）の断片を繋いで、１つの移動軌跡（位置・方位）として滑らかに連続するように結合する。これにより、被写体の移動軌跡の推定処理を完了する。

次に、カメラと被写体の移動軌跡情報を使って映像編集を行う手順を説明する。
図８は、編集装置２にて映像を閲覧・編集する工程の処理手順を示すフローチャート図である。
データ蓄積部２１５に格納してある映像から所望の映像の選択を行い、表示部２０４，２１６に編集作業用のＧＵＩを表示させる（Ｓ８０１）。この際、後述の図９で示すように、選択した映像がカメラＣ１のものであった場合でも、時刻と場所を同じくする他のカメラＣ２の映像についての情報も同時に表示される。次にユーザ（編集者）は、ＧＵＩ表示の中から注目する被写体を選択する（Ｓ８０２）。選択の方法は、指示入力部２１７により、ＧＵＩ中の所望の被写体を例えばマウス等のポインティングデバイスで指示し、クリックして選択する。

被写体を選択すると、検索部２１８は軌跡情報２１５を照合し、該当する複数の映像を切り繋いでベストショットの候補を自動生成する（Ｓ８０３）。自動生成のルール（抽出パラメータ）は、格納の際に算出しておいた各被写体と各カメラの位置や方位などのデータ（軌跡情報）を基に、指定された被写体が最も大きく映っていて、かつカメラに正面向きに近い映像を優先的に抽出するようにする。なお、自動生成のルールはこれに限らず複数通り用意し、ユーザがどのルールを優先させるかの重み付けができるようにしてもよい。また、抽出する各映像の時間間隔の伸縮をどれだけ許すか等のパラメータも決めておく。時間軸の許容度が大きい程、撮影時刻の差が大きい過去もしくは未来方向の映像を取り込むことができる。

ユーザは自動生成された映像をチェックし修正を行う（Ｓ８０４）。修正作業は、ＧＵＩを用いて選択された映像の区間や長さを調整したり、不要な映像を削除することである。さらに、編集された映像がユーザの所望するものでなければ（Ｓ８０５でＮｏ）、前記の抽出パラメータを変更して再度ベストショットの候補を生成する（Ｓ８０６）。

以下、ＧＵＩを用いた映像編集方法について、具体例を用いて説明する。
図９は、映像解析の結果を表示するＧＵＩの画面例である。イベントの例として、建物の前の運動場で行われた運動会のようなものを想定する。画面９００では、地図中にカメラと被写体の軌跡が表示される形式になっている。地図表示のため、絶対方角表示９０１の下、背景として、建物９０２，９０３やランドマークとなる静止物体９０４，９０５などが予め表示されている。これらの情報は電子地図情報を入手するか、予め測定もしくは手入力して表示する。

また画面９００には、映像解析の結果である２台のカメラＣ１，Ｃ２の軌跡９１０，９２０（点線で示す）と、２人の人物Ｍ１，Ｍ２の軌跡９３０，９４０（実線で示す）を表示する。各軌跡に張り付いた複数の小さい矢印は、軌跡の各位置におけるカメラの方位９１１，９２１と人物の方位９３１，９４１を示したものである。

図１０は、ユーザが所望の映像を編集するＧＵＩの画面例である。図９で述べた地図画面９００の下方に、編集状況を示す編集画面１０００が追加して表示される。編集画面１０００は、左側にカメラや被写体を区別するアイコンと、右側に各アイコンに対応する映像を連続サムネールにて表示する。この例では３段からなり、１段目１０１０にはカメラＣ１によって撮影された映像を、２段目１０２０にはカメラＣ２によって撮影された映像を示す。３段目１０３０には編集により抽出された映像を示す。ここでは、ユーザは被写体の中から人物Ｍ１を選択し、人物Ｍ１に関連するショットを抽出して編集した結果を示す。各矢印１０４０は、編集のためにカメラＣ１，Ｃ２の映像１０１０，１０２０からどの部分のショットを抽出したかを表わす。なお、抽出関係が分かれば、矢印以外の表示方法でもよい。

また地図画面９００では、編集の結果選択された映像部分は太く強調して表示される。ここでは、カメラＣ１，Ｃ２の軌跡９１０，９２０では、符号１０１１，１０１２，１０１３，１０２１，１０２２の部分が選択され、人物Ｍ１，Ｍ２の軌跡９３０，９４０では、注目被写体として選択された人物Ｍ１の軌跡１０３１が選択されたことを示す。ユーザはこの地図画面９００で、選択された映像部分１０１１，１０１２，１０１３，１０２１，１０２２に対し、マウス等のポインティングデバイスを操作して、それらの位置をずらし、長さを変更し、あるいは一部を削除するなどの修正を行うことができる。そして、修正結果を３段目１０３０に映像表示して直ちに確認することで、動的な編集を可能とする。

このように本実施例の映像編集方法では、ユーザはＧＵＩ表示されたカメラと被写体の移動軌跡を見ながら、所望の被写体を指定するだけで自動的に該当する映像を抽出して編集するので、ユーザの労力を軽減して効率良く編集できる。また編集パラメータとして、カメラと被写体の両方の位置と方位のデータを参照することで、例えば特定の人物が正面向きに大きく映っている映像を抽出するなど、きめ細かな編集が可能になる。

本実施例は、前記図６の映像解析工程で、メタデータとしてカメラの位置や方位の計測データがない場合に、映像パターンの処理でカメラの位置や方位を推定する場合である。
図１１は、映像から撮影軌跡を推定する工程（Ｓ６０５）の詳細を示したフローチャート図である。

ある時刻の映像が入力された時（Ｓ１１０１）、背景の特徴量を算出する（Ｓ１１０２）。例えば、映像を大きく２×２の４エリアに分割し、それぞれのエリアでの平均色などを特徴量として用いる。ここに特徴量とは複数の数値から構成される量であり、複数の数値から構成されることを明記する際には特徴量ベクトルで表現する。この背景の特徴量（ベクトル）は、前記図５の撮影工程における簡易特徴量抽出処理（Ｓ５０３）で得られるものと同様であり、既に算出されている場合にはそれを用いても良い。

さらに、前のコマから全体の画面がどのように移動したかを示す背景変化状況を算出する（Ｓ１１０３）。算出内容は、前のコマとの画像差分を用いるなどして、カメラがどれだけ移動したか、相対的な移動量を求める。その方法は、通常の動画像処理を行う際のオプティカルフローを求める手段等を用いることで実現できる。

次に、算出した特徴量を背景データと照合してカメラの位置及び方位を推定する（Ｓ１１０４）。ここに背景データとは、特定の場所においてカメラの位置と方位をパラメータとして撮影し、背景がどのように見えるかを予め測定しておいたデータである。データの内容は、Ｓ１１０２で算出しておいた背景特徴量（ベクトル）と同じ方法で取得しておく。それらの特徴量（ベクトル）を比較し、最も類似した特徴量となるときの撮影パラメータ（カメラの位置・方位）を求め、当該映像を撮影したときのカメラの位置・方位を推定する。特徴量ベクトルの照合では、例えば、特徴量ベクトル間の異なりの程度を示す一般的な距離であるユークリッド距離を算出し、それが最も小さいものを最も類似した画像とすればよい。但し、後段の処理のため、位置・方位の候補を複数挙げたり、一致度とともに算出して重み付きのデータとしておいて、後段の処理に供することが望ましい。

ここで複数のカメラから撮影されたデータがある場合には（Ｓ１１０５でＹｅｓ）、それらの位置・方位の統合処理を行う（Ｓ１１０６）。これは、別のカメラ中に現在位置・方位を解析しているカメラの映像が映っている場合に、それらの相対位置から、上記カメラの位置としてありうる候補を選択するために行うものである。

カメラの位置・方位の推定を終えると、１つ前の時刻の同様の処理結果と付き合わせて、現在解析中の時刻での撮影軌跡の断片として算出する（Ｓ１１０７）。具体的には、１つ前のコマで得られた推定候補に上記Ｓ１１０３で求めたカメラの移動量を考慮して、最も整合性が高い現在位置を決定する。例えば、１つ前のコマでの推定候補が「建物Ａ正面」であり現在の移動状況が「左」であるとき、現在の位置候補が「建物Ａから右１０度」であれば整合している。もしも、現在の位置候補が「建物Ａから左３０度」であれば整合していない。なお、この段階でも、上述のように、位置・方位の候補を複数挙げたり、一致度とともに算出して重み付きのデータとして後段の処理に供しておくことが望ましい。

以上の処理を、映像が終了するまで繰返し行い（Ｓ１１０８）、各時刻にて整合処理を行う（Ｓ１１０９）。整合処理は、上記において推定された撮影軌跡（位置・方位）の断片を繋いで、１つのカメラの移動軌跡（位置・方位）として滑らかに連続するよう結合する。これにより、カメラの撮影軌跡の推定処理を完了する。

このように、メタデータとしてカメラの位置と方位の計測データがない場合においても、背景特徴量を照合することでカメラの位置と方位を推定することができる。よって、位置センサと方位センサを搭載していない撮影装置（カメラ）であっても、実施例１で述べた映像編集システムを構成することができるので、より一層システムの簡素化が図られる。

本実施例は、複数のユーザがネットワークを経由し共有する映像の閲覧・編集を行う場合である。
図１２は、本実施例による共有映像の編集システムの構成を示す図である。撮影装置（カメラ）側の構成は実施例１（図１）と同様であるが、撮影データはインターネットを介して編集サーバに蓄積され、複数のユーザ（編集者）はインターネットを介して編集サーバにアクセスして蓄積されている撮影データを閲覧・編集する構成である。

カメラ１で撮影された被写体３の映像データと付加情報（位置や方位などのメタデータ）は、記録メディア４、有線通信５、無線通信６などを介して取込み・送信装置９に格納される。取込み・送信装置９には編集機能はなくてよい。取込み・送信装置９はインターネット１０に接続されており、カメラから送られた撮影データを、インターネット１０経由で編集サーバ２０に送信（アップロード）する。あるいは他の形態として、カメラ１がインターネットとの通信機能を持っている場合には、取込み・送信装置９を介さずにカメラ１から直接編集サーバ２０に送信してもよい（経路１１）。編集サーバ２０の蓄積部２１には、アップロードされた撮影データが蓄積される。このようにして編集サーバ２０には、インターネット１０に接続されている複数の撮影者（カメラ１や取込み・送信装置９）からの撮影データが蓄積される。ユーザ（編集者）８は、インターネット１０に接続されている手元の閲覧端末２２から編集サーバ２０にアクセスし、蓄積されている撮影データに対して閲覧・編集を行う。編集サーバ２０と閲覧端末２２の構成と動作は、前記実施例１、２で説明した編集装置２と同様である。このようにして、複数のユーザ（編集者）がネットワークを介して共有する映像を閲覧し編集することができる。

上記の例では、撮影データを全て編集サーバに送信するものとしたが、送信する映像データの容量が大きい場合には、取込み・送信装置９においてある程度の前処理を行うことで、アップロード時の通信量を削減することができる。例えば、実施例１で述べた領域抽出などを済ませてから、その処理結果とサイズを小さくしたサムネール用の映像だけを送信することも可能である。

図１３は、本実施例における共有する映像の編集手順を示したフローチャート図である。
本実施例では、１つの編集サーバ２０を複数のユーザが利用することを想定する。撮影データを編集サーバ２０にアップロードする（Ｓ１３０１）。編集サーバ２０は、受信した撮影データ（映像、メタデータ）を解析して（Ｓ１３０２）、撮影軌跡の算出と被写体軌跡の推定を行う。映像の解析工程は、前記実施例１（図６、図７）と実施例２（図１１）に説明した通りである。

ユーザは編集サーバ２０にアクセスし、閲覧端末２２にて編集対象の映像（イベント）を検索する。そのとき、他人がアップロードした同一イベントの映像がないかを検索する（Ｓ１３０３）。検索の結果、同一イベントの映像があれば（Ｓ１３０４でＹｅｓ）、それを編集対象に追加する（Ｓ１３０５）。その後、選択した映像の閲覧・編集工程（Ｓ１３０６）に進む。ユーザが注目する被写体を選択すると、編集サーバ２０はベストショットを自動生成し、ユーザはこれをチェック修正する。映像の編集工程は前記実施例１（図８）と同様である。

編集終了後、その映像をインターネット上に公開することができる（Ｓ１３０７）。編集された映像が他のユーザによって閲覧され、再編集を加えられたりして、複数のユーザ間で再利用することが可能になる。

なお、編集サーバ２０にアップロードされた映像の閲覧と編集を行えるユーザを制限することもできる。例えば、コミュニティーに登録したユーザや、ＳＮＳのように友人として登録したユーザだけに公開することができる。その運用形態は、ウェブサイト管理技術を用いれば適宜設定することができる。

以上述べた本実施例による映像編集システムは、映像を記録して視聴するための機器、システム、およびサービスに広く適用可能である。例えば、カムコーダ、テレビ受像機、レコーダ、パーソナルコンピュータ、携帯電話などの機器、及び、それらの機器上で用いるソフトウェア、ネットワークサービス等に広く適用可能である。

本発明に係る映像編集システムの一実施例を示す全体構成図。本実施例の撮影装置（カメラ）１のハードウェア構成図。本実施例の映像編集装置２のハードウェア構成図。本実施例における映像編集装置２の機能構成図。カメラ１にて撮影する工程のフローチャート図。映像を解析する工程のフローチャート図。図６にて被写体軌跡を推定する工程（Ｓ６０６）のフローチャート図。映像を閲覧・編集する工程のフローチャート図。映像解析の結果を表示するＧＵＩの画面例。ユーザが所望の映像を編集するＧＵＩの画面例。図６にて撮影軌跡を推定する工程（Ｓ６０５）のフローチャート図。本実施例による共有映像の編集システムの構成を示す図。共有する映像の編集手順を示したフローチャート図。

符号の説明

１…撮影装置（カメラ）、
２…映像編集装置（編集装置）、
３…被写体、
８…ユーザ（編集者）、
９…取込み・送信装置、
１０…インターネット、
２０…編集サーバ、
２２…閲覧端末、
１０３…映像処理部、
１０４…位置・方位検出部、
１０５…位置センサ、
１０６…方位センサ、
２０１…ＣＰＵ（中央演算ユニット）、
２０４…表示部、
２１３…認識処理部、
２１４…軌跡解析部、
２１５…データ蓄積部、
２１６…表示部、
２１７…指示入力部、
２１８…検索部。

Claims

撮影装置にて撮影された映像の編集を行う映像編集装置において、
上記撮影装置にて撮影された映像から被写体と背景を分離する認識処理部と、
上記撮影装置の位置と方位、及び上記分離した被写体の位置と方位を求めて、該撮影装置と該被写体の移動軌跡を作成する軌跡解析部と、
上記映像と上記作成した移動軌跡を蓄積するデータ蓄積部と、
上記データ蓄積部に蓄積されている上記移動軌跡を表示する表示部と、
編集者により編集対象となる被写体を指定する指示入力部と、
指定された被写体を含む映像を上記データ蓄積部から検索して編集する検索部と、
を備えることを特徴とする映像編集装置。
請求項１に記載の映像編集装置において、
前記軌跡解析部は、前記撮影装置を基準に前記分離した被写体までの距離と方向を解析し、解析した被写体までの距離と方向を前記撮影装置の位置と方位に加算して、該被写体の位置と方位を推定することを特徴とする映像編集装置。
請求項２記載の映像編集装置において、
前記軌跡解析部は、前記被写体が複数の撮影装置により撮影され、各撮影装置を基準に求めた被写体の位置と方位の複数の推定値が存在するとき、各推定値の差が小さくなるように統合することを特徴とする映像編集装置。
請求項１または２に記載の映像編集装置において、
前記認識処理部は前記映像から背景の特徴量を抽出し、
前記軌跡解析部は、上記抽出した特徴量を、予め撮影装置の位置と方位を変えて測定しておいた特徴量のデータと比較して、それらの特徴量が最も類似する位置と方位を、当該映像に対する前記撮影装置の位置と方位であると推定することを特徴とする映像編集装置。
請求項１に記載の映像編集装置において、
前記表示部は前記検索部にて編集された映像を表示し、
前記指示入力部は、編集された映像について編集者からの修正指示を受け付けることを特徴とする映像編集装置。
被写体を撮影して撮影した映像を映像編集装置に送信する撮影装置において、
当該撮影装置の位置と方位を検出する位置・方位検出部と、
撮影した映像から特徴量を抽出する映像処理部を備え、
撮影した映像のデータに、撮影時の位置と方位のデータと映像の特徴量を付加して上記映像編集装置に送信することを特徴とする撮影装置。
複数の撮影装置と編集サーバと閲覧端末とをネットワークで接続して映像を編集する映像編集システムにおいて、
上記編集サーバは、
上記撮影装置にて撮影された映像から被写体と背景を分離する認識処理部と、
上記撮影装置の位置と方位、及び上記分離した被写体の位置と方位を求めて、該撮影装置と該被写体の移動軌跡を作成する軌跡解析部と、
上記映像と上記作成した移動軌跡を蓄積するデータ蓄積部と、
上記閲覧端末から指定された被写体を含む映像を上記データ蓄積部から検索して編集する検索部とを有し、
上記閲覧端末は、
上記編集サーバから送られた上記移動軌跡を表示する表示部と、
編集者により編集対象となる被写体を指定する指示入力部とを有し、
上記撮影装置にて撮影された映像をネットワーク経由で上記編集サーバに蓄積し、
編集者は上記閲覧端末から上記編集サーバにアクセスして、蓄積されている所望の映像に同一イベントの他の映像を追加して映像の閲覧と編集を行い、編集した映像をネットワーク経由で他の編集者に公開することを特徴とする映像編集システム。
撮影装置にて撮影された映像の編集を行う映像編集方法において、
上記撮影装置から、撮影時の該撮影装置の位置と方位のデータが付加された映像データを受け取り、
上記映像から被写体と背景を分離し、上記撮影装置の位置と方位、及び上記分離した被写体の位置と方位を求めて、該撮影装置と該被写体の移動軌跡を作成し、
上記作成した移動軌跡をデータ蓄積部に蓄積するとともに表示部に表示し、
編集者により編集対象の被写体が指定されると、該被写体を含む映像を上記データ蓄積部から検索して編集することを特徴とする映像編集方法。
請求項８に記載の映像編集方法において、
前記被写体の移動軌跡を作成するために、前記撮影装置を基準に前記分離した被写体までの距離と方向を解析し、解析した被写体までの距離と方向を前記撮影装置の位置と方位に加算して、該被写体の位置と方位を推定することを特徴とする映像編集方法。
請求項８または９に記載の映像編集方法において、
前記撮影装置の移動軌跡を作成するために、前記映像から背景の特徴量を抽出し、該抽出した特徴量を、予め撮影装置の位置と方位を変えて測定しておいた特徴量のデータと比較して、それらの特徴量が最も類似する位置と方位を、当該映像に対する前記撮影装置の位置と方位であると推定することを特徴とする映像編集方法。