JP2014085845A

JP2014085845A - 動画処理装置、動画処理方法、プログラム、および集積回路

Info

Publication number: JP2014085845A
Application number: JP2012234389A
Authority: JP
Inventors: Kazuhiko Maeda; 和彦前田
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2012-10-24
Filing date: 2012-10-24
Publication date: 2014-05-12

Abstract

【課題】動画の閲覧者が注目すると推定される領域をより適切に特定することが可能な動画処理装置を提供すること。
【解決手段】本発明に係る動画処理装置は、動画を取得する動画取得手段と、動画に含まれるフレームからオブジェクトを検出するオブジェクト検出手段と、動画の各フレームに対してオブジェクトの位置を検出することにより当該オブジェクトを追跡するオブジェクト追跡手段と、検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づきオブジェクトを識別するオブジェクト識別手段と、動画において、オブジェクトに関連する動作を検出するオブジェクト動作検出手段と、検出されたオブジェクトの位置と、オブジェクトに関連する動作の検出結果に基づき、動画の各フレームにおける注目領域を決定する領域決定手段とを備える。
【選択図】図１

Description

本発明は、動画におけるオブジェクトの検出位置情報をもとに各フレームの注目領域を決定する動画処理装置に関するものである。

デジタルカメラなどの動画撮影機器の普及しており、また撮影された画像を記録するためのハードディスク等の記録媒体が安価に提供されている。一般に、デジタル画像撮影機器等のユーザは、撮影した動画を大容量のハードディスク等の記録媒体に蓄積している。

また、カメラで撮影した動画において、映像から不要な領域をトリミングして拡大表示するといった編集もできるようになってきた。これにより、注目する領域だけをわかりやすく見せることが可能になる。

動画からトリミングして注目する領域だけを切り出す方法としては、例えば特許文献１のように顔の動き方向を検出し、動き方向と同じ向きの領域を多く含むようなトリミングを実施する方法がある。特許文献１では、その人物の移動していく先が注目領域であるとし、その注目領域を包含するようなトリミングを実施することで、人物だけでなく撮影したシーンの状況がわかる。

特開２００７−３１６９５７号公報

特許文献１は被写体となる人物がフレームに対していずれかの方向に動いている場合は有効であるが、人物が一定の位置に静止している場合は、顔の動き方向は検出されない。つまり、顔の位置情報のみによるトリミングを実施することしかできず、注目領域を特定する上で十分とはいえないという課題があった。

本発明は係る問題に鑑みてなされたものであり、動画においてトリミング等を行うために注目領域をより適切に特定することを目的としている。

上記課題を解決するために、本発明に係る動画処理装置は、動画を取得する動画取得手段と、動画に含まれるフレームからオブジェクトを検出するオブジェクト検出手段と、前記動画の各フレームに対して前記オブジェクトの位置を検出することにより当該オブジェクトを追跡するオブジェクト追跡手段と、前記検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づきオブジェクトを識別するオブジェクト識別手段と、前記動画において、前記オブジェクトに関連する動作を検出するオブジェクト動作検出手段と、前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出結果に基づき、前記動画の各フレームにおける注目領域を決定する領域決定手段と、を備える。

本構成によれば、動画において注目領域を決定するに当たって、特定のオブジェクトとそのオブジェクトに関連する動き領域を含むような領域を切り出すことができる。その結果、例えば注目領域をトリミングしたり拡大表示することで、動画閲覧者が注目領域を容易に閲覧することができる。

実施の形態１における動画処理装置１００の機能ブロックの一例を示す図実施の形態１における撮影装置１２０から入力された動画の注目領域を決定する処理の一例を示すフローチャート動画の各フレームと、そのフレームから検出されたオブジェクトの一例を示す図ある検出区間ＩＤにおいて検出されたオブジェクトの顔検出情報の一例を示す図各検出区間ＩＤと、検出区間において検出されたオブジェクトの識別ＩＤおよび検出区間の始点/終点フレーム情報の一例を示す図実施の形態１におけるＳ２０５の処理の一例を示すフローチャート動画のフレームにおけるオブジェクトとオブジェクトに関連する動作領域の一例を示す図２つのオブジェクトの顔の大きさが同じ場合のオブジェクトに関連する動作領域の一例を示す図２つのオブジェクトの顔の大きさが異なる場合のオブジェクトに関連する動作領域の一例を示す図オブジェクトに関連する動作領域内のオプティカルフローの一例を示す図実施の形態１におけるＳ２０６の処理の一例を示すフローチャート動画のフレームにおけるオブジェクトと動作領域の中心、および注目領域の一例を示す図動画のフレームにおけるオプティカルフローの一例を示す図

（本発明に係る一形態を得るに至った経緯）
本発明者は、動画における注目領域の特定方法について詳細に検討した。その結果、動画における注目領域は、必ずしも注目するオブジェクト（例えば人物）の移動していく先だけにあるとは限らないことを見出した。

例えば、被写体となる人物がテニスのサーブを打つシーンについて説明する。この場合、サーブを打つシーンにおいては、人物の顔だけではなく、ラケットおよび打った後のボールの軌跡も注目されうるものである。つまり、ラケットやボールの動きに関する領域も注目領域に含まれるべきものである。これらの領域を含むことで迫力のあるシーンを切り出すことができる。

しかしながら、前述した従来技術では、前述のように、人物は一定の位置に静止しているため、顔の位置情報のみにより注目領域が特定される。その結果、特定のオブジェクトに関連する動きに関する領域を注目領域として特定することはできないという課題があった。

以上の通り、本発明者は、動画において、特定のオブジェクトとそのオブジェクトに関連する動き領域を含むような領域を注目領域として特定することにより、より適切に注目領域を特定することか可能となることを見出し、本発明に至った。

（実施の形態１）
以下、実施の形態１にかかる動画処理装置および動画処理装置の制御方法について、図面を参照しながら説明する。

図１は、実施の形態１における動画処理装置の機能ブロックの一例を示す図である。図１では、動画処理装置に関連する装置との接続もあわせて示している。

動画処理装置１００は、撮影装置１２０及び表示装置１３０と接続されている。撮影装置１２０は、動画を撮影することができ、また撮影した動画を蓄積する装置である。撮影装置１２０は、例えば、デジタルムービから構成される。

なお、動画処理装置１００と撮影装置１２０とは、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ケーブルを介して接続されている。なお、動画処理装置１００と撮影装置１２０との間の接続は、動画の送受信ができれば、通信回線その他どのような手段で接続されていてもよい。

表示装置１３０は、例えばデジタルテレビから構成され、動画処理装置１００から出力される画像などの映像を表示する。表示装置１３０は、例えばＨＤＭＩ（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ケーブルを介して動画処理装置１００と接続されている。なお、動画処理装置１００と表示装置１３０との間の接続は、表示装置１３０に動画を出力することができれば、通信回線その他どのような手段で接続されていてもよい。

次に、動画処理装置１００の内部構成について説明する。

図１に示すように、動画処理装置１００は、動画取得部１０１、オブジェクト検出部１０２、オブジェクト追跡部１０３、オブジェクト識別部１０４、オブジェクト関連動作検出部１０５、領域決定部１０６から構成される。

動画取得部１０１は、撮影装置１２０が蓄積している動画を取得する。動画取得部１０１は、例えば、ＵＳＢケーブルを挿入するためのＵＳＢポートおよびＵＳＢドライバなどのインターフェイスを制御するソフトウェアから構成される。

オブジェクト検出部１０２は、動画取得部１０１で取得した動画から、オブジェクトを検出する。オブジェクトとは、例えば人物の顔が挙げられる。以降では、オブジェクトは人物の顔として説明する。

オブジェクト追跡部１０３は、オブジェクト検出部１０２で検出した各フレームにおけるオブジェクトが次のフレームにおいてどの領域に存在するかを追跡する。

オブジェクト識別部１０４は、オブジェクト追跡部１０３が追跡したオブジェクトがどの人物であるかを識別する。これにより、例えば動画のある区間で追跡されたオブジェクトと、別の区間で追跡されたオブジェクトが同じ人物であることを判断できる。

オブジェクト関連動作検出部１０５は、オブジェクト識別部１０４で識別されたオブジェクトごとに検出されたフレームにおいて関連する動作を検出する。

領域決定部１０６は、オブジェクト識別部１０４で識別されたオブジェクトのうち１つのオブジェクトについて、そのオブジェクトの位置情報とオブジェクト関連動作検出部１０５で検出された動作により注目領域を決定する。注目領域とは、動画の閲覧者が注目すると推定される領域をいう。

図２のフローチャートを用いて、動画処理装置１００が行う動作の概要を説明する。図２は、撮影装置１２０から入力された動画の注目領域を決定する処理の一例を示すフローチャートである。図２では、撮影装置１２０から入力した動画から、特定のオブジェクトとそのオブジェクトに関連する動作を包含する注目領域を決定するまでの動作を示している。

動画取得部１０１は、撮影装置１２０から動画を取得する（Ｓ２０１）。

オブジェクト検出部１０２は、取得した動画から人物の顔をオブジェクトとして検出する（Ｓ２０２）。図３を用いてオブジェクトの検出に説明する。取得した動画３０１から、先頭からｔ番目のフレーム３０２やｔ＋１番目のフレーム３０３など、複数のフレームを取得する。そして、各フレームにおいてオブジェクトを検出する。オブジェクトの検出方法としては、例えば動画の各フレームを切り出し、切り出したフレームにおいて、あらかじめ用意された顔学習辞書に登録されたオブジェクトと同一または類似するオブジェクトが含まれる領域を特定する方法がある。これにより、ｔ番目のフレーム３０２からはオブジェクト３０４の領域、ｔ＋１番目のフレーム３０３からはオブジェクト３０５の領域が検出される。

図２の説明に戻り、オブジェクト追跡部１０３は、動画におけるオブジェクトを追跡する（Ｓ２０３）。

オブジェクトの追跡方法としては、例えば、オブジェクト検出部１０２で検出したフレームにおけるオブジェクトの次のフレームにおける領域は、次のフレームにおいて検出されたオブジェクトのうち、領域の位置が最も近いオブジェクトを同一のオブジェクトとする方法がある。このようなオブジェクトの追跡方法について、図３を用いて説明する。図３は、動画の各フレームと、そのフレームから検出されたオブジェクトの一例を示す図である。図３において、例えば、連続するフレームであるｔ番目のフレーム３０２とｔ＋１番目のフレーム３０３について、検出されたオブジェクト３０４とオブジェクト３０５の領域はほぼ同じであるので、オブジェクト３０４とオブジェクト３０５は同じオブジェクトであるとする。このようにして、オブジェクト追跡部１０３は、複数のフレームに含まれるオブジェクトを同定することでオブジェクトを追跡する。また、オブジェクト追跡部１０３は、オブジェクトを追跡した区間それぞれを一意に付与する検出区間ＩＤを付与する。

オブジェクトの追跡結果について、図４を用いて説明する。図４は、ある検出区間ＩＤにおいて検出されたオブジェクトの顔検出情報の一例を示す図である。図４において、例えば、フレームＩＤ４において初めてオブジェクトが検出された場合、そのオブジェクトに対して検出区間ＩＤ１を付与する。そして、そのオブジェクトを追跡可能なフレーム５５までを検出区間ＩＤ１のオブジェクトとして管理する。また、検出区間内の各フレームにおける顔の検出情報（例えば、Ｘ座標、Ｙ座標、縦横幅、顔の向き）も管理する。なお、１つのフレームに対して複数のオブジェクトが検出された場合は、図４において、検出されたオブジェクト毎に検出情報を管理すればよい。なお、オブジェクトの追跡結果は、オブジェクトが検出されたフレーム、そのフレームに含まれるオブジェクトの位置、大きさ、向き等を対応付けて管理することができれば、任意のデータ構成、任意のファイル形式で管理してもよい。

図２の説明に戻り、オブジェクト識別部１０４は、オブジェクト追跡部１０３で追跡した検出区間におけるオブジェクトがどの人物であるかを識別する（Ｓ２０４）。オブジェクトの識別方法としては、例えば、オブジェクト追跡部１０３で追跡したオブジェクトのうち、任意のフレームにおけるオブジェクトの検出領域から画像特徴量を抽出する。

画像特徴量とは、画像中の複数の画素に係る画素値の分布に係る特徴を示したものである。例えば画像特徴量は画像の特徴を示す複数の数値を成分とするベクトルである。画像の特徴には、Ｇａｂｏｒフィルタを用いて得られる画像データの画素値の分布の周期性や方向性などがあり、人物の顔に係る画像特徴量の場合、画素値の分布の周期性や方向性などから目と認識された点２つの間の距離や、鼻と認識された点と口と認識された点との距離などの量を成分とすることができる。

この画像特徴量をもとに別の検出区間から抽出されたオブジェクトの画像特徴量を比較し、画像特徴量が類似する場合、同じ人物であるとして識別する。なお、同じ人物であるとして識別する方法は、事前に特定の人物のものとして画像特徴量を登録しておき、登録した画像特徴量との比較により、検出された人物が誰であるかを識別する方法でもよい。

以上で説明したＳ２０２からＳ２０４の処理によって得られる、オブジェクトが検出された区間とその区間で検出されたオブジェクトとの関係は、オブジェクト検出情報として管理される。オブジェクト検出情報の一例を図５に示す。図５の例では、オブジェクトが検出された区間ごとに一意に付与する検出区間ＩＤと、その検出区間の始点フレーム情報および終点フレーム情報を示している。また、始点フレーム情報および終点フレーム情報では、動画におけるどのフレームであるかを示すフレームＩＤと、オブジェクトの座標情報および検出されたオブジェクトの向きも管理されている。

例えば、検出区間ＩＤ１で検出されたオブジェクトから算出した画像特徴量と、検出区間ＩＤ３で検出されたオブジェクトから算出した画像特徴量が類似する場合、これらは同じ人物であるとして、同一の識別ＩＤ（ここでは、識別ＩＤ１）を付与する。このようにおこなうことで、動画における別の区間で検出されたオブジェクトが同一の人物であるかどうかを判別することができる。

図２の説明に戻り、オブジェクト関連動作検出部１０５は、識別されたオブジェクトの検出情報をもとに、そのオブジェクトに関連する動作を検出する（Ｓ２０５）。

Ｓ２０５の処理を、図６のフローチャートを用いて説明する。

まず、動画における先頭フレームを選択する（Ｓ６０１）。そして、そのフレーム内でオブジェクトが検出されたかを判別する（Ｓ６０２）。フレーム内にオブジェクトが検出されていない場合（Ｓ６０２がｎ）、Ｓ６０７へ進む。

フレーム内にオブジェクトが検出された場合（Ｓ６０２がｙ）、検出されたオブジェクトのうちいずれか１つを選択する（Ｓ６０３）。そして、選択したオブジェクトの位置を元にオブジェクトに関連する動作領域を決定する（Ｓ６０４）。オブジェクトに関連する動作領域の決定方法は、例えば、オブジェクトである顔の位置をもとに決定する。

動画のフレームにおけるオブジェクトとそのオブジェクトに関連する動作領域の一例について、図７を用いて説明する。あるフレームにおいて、オブジェクトの顔検出領域７０１が検出されているとする。このとき、オブジェクトに関連する動作領域７０２は、オブジェクトの顔検出領域７０１から所定の範囲の領域として決定することができる。例えば、オブジェクトに関連する動作領域７０２は、オブジェクトの顔検出領域７０１の中心から左方向に対しての距離Ｄ_ｌｅｆｔ７０３、右方向に対しての距離Ｄ_{ｒｉｇｈｔ}７０４、上方向に対しての距離Ｄ_ｕｐ７０５、下方向に対しての距離Ｄ_ｄｏｗｎ７０６をもとに決定される。ここで、各方向に対しての距離Ｄ_ｘは、オブジェクトの検出された顔の大きさに比例する。Ｄ_ｌｅｆｔおよびＤ_{ｒｉｇｈｔ}は、同じ値にし、Ｄ_ｄｏｗｎはＤ_ｕｐと比較して大きくするとしてもよい。

ここで、１つのフレームにおいて複数のオブジェクトが検出されており、さらに上記方法によって決定されるオブジェクトに関連する動作領域がそれぞれのオブジェクトについて重なっている場合について説明する。

まずは、検出された２つのオブジェクトの顔の大きさが同じ場合について、図８を用いて説明する。ここで、１つ目のオブジェクトの顔８０１と２つ目のオブジェクトの顔８０２の大きさが同じである。また、図８のようにこれら２つのオブジェクトに関連する動作領域は重なっている。この場合は、重なっている領域について均等に分割するようにする。これは、顔の大きさが同じ場合、それらのオブジェクトはカメラから見てほぼ同じ距離であるため、いずれかのオブジェクトの動作により他方のオブジェクトの動作が隠れることはないと考えるためである。例えば、１つ目のオブジェクトの顔８０１に関連する動作領域は８０３のように決定できる。

次に、検出された２つのオブジェクトの顔の大きさのうちいずれかが大きい場合について、図９を用いて説明する。ここで、１つ目のオブジェクトの顔９０１よりも２つ目のオブジェクトの顔９０２の大きさが大きい。また、図９のようにこれら２つのオブジェクトに関連する動作領域は重なっている。この場合は、重なっている領域については、顔の大きさが大きいオブジェクトの領域とする。これは、顔の大きさが異なっている場合、それらのオブジェクトはカメラから見て顔の大きさが大きい方が近いことがわかる。したがって、小さい（カメラから見て遠い位置の）オブジェクトの動作は、大きい（カメラから見て近い位置の）オブジェクトの動作によって隠れてしまうと考えるためである。例えば、１つ目のオブジェクトの顔９０１に関連する動作領域は９０３のように決定できる。

図６の説明に戻り、Ｓ６０４においてオブジェクトに関連する動作領域が決定されると、そのオブジェクトに関連する動作領域内のオプティカルフローを算出する（Ｓ６０５）。オプティカルフローの算出方法としては、例えば勾配法が挙げられる。これは、「物体上の点の明るさは移動後も変化しない」という仮定をもとに、時刻ｔにおけるフレームｔのある画素が、時刻ｔ＋１におけるフレームｔ＋１においてどこに移動しているかを推定し、その移動をもとにしてベクトルを求めるものである。上記方法により算出したオブジェクトに関連する領域のオプティカルフローの一例を図１０に示す。このように、領域内の各画素が、次フレームにおいてどこに移動しているかという情報を元に、各画素のオプティカルフローを求めたものである。これにより、領域の各部位がどの方向にどれだけの大きさで動いているのかを判断することができる。

続いて、オブジェクトに関連する動作の検出を該当のフレームの全てのオブジェクトにおいて実施したかを確認する（Ｓ６０６）。まだ他のオブジェクトが残っている場合（Ｓ６０６がｎ）、つまり、該当のフレームにおいて処理すべきオブジェクトが残っている場合、Ｓ６０３へ進む。

全てのオブジェクトに対して実施した場合（Ｓ６０６がｙ）、つまり、該当のフレームにおいて処理すべきオブジェクトが残っていない場合、動画の全フレームを選択したかを確認する（Ｓ６０７）。全フレームを選択していない場合（Ｓ６０７がｎ）、つまり、処理すべきフレームが残っている場合、次のフレームを選択する（Ｓ６０８）。そして、選択したフレームに対して、Ｓ６０２からＳ６０７の処理を行う。また、全てのフレームについて選択した場合（Ｓ６０７がｙ）、つまり、処理すべきフレームが残っていない場合、Ｓ２０５の処理を終了し、Ｓ２０６へ進む。

図２の説明に戻り、領域決定部１０６は、オブジェクト識別部１０４で識別されたオブジェクトのうち１つのオブジェクトについて、そのオブジェクトの位置情報とオブジェクト関連動作検出部１０５で検出された動作により注目領域を決定する（Ｓ２０６）。

Ｓ２０６の処理を、図１１のフローチャートを用いて説明する。

まず、注目領域を決定する際の基準となる対象オブジェクトを１つ決定する（Ｓ１１０１）。１つの動画に対して基準となる対象オブジェクトを１つに決定することで、例えば特定の人物を継続して注目することができる。基準となるオブジェクトの決定方法としては、例えば以下の２つの方法が考えられる。

１つは、ユーザにより基準となるオブジェクト（例えば人物）を指定させる方法である。これは、ある動画から検出されたオブジェクトの一覧を表示させ、その中からユーザが１つのオブジェクトを選択するというものである。これにより、ユーザが注目して見たい人物に焦点を当てて注目領域を決定することができる。そして、決定された注目領域を含むような動画トリミングやズームインを実現することができる。

また、もう１つは、重要と思われるオブジェクトを自動的に選択する方法である。これは、例えばその動画において最も長い区間において写っているオブジェクトや、その動画において最も大きく写っているオブジェクト、もしくは複数の動画において出現しているオブジェクトを選択する方法がある。この方法は、ユーザの選択操作を必要とせずに重要と思われる人物に焦点を当てて注目領域を決定することができる。そして、決定された注目領域を含むような動画トリミングやズームインを実現することができる。

次に、決定したオブジェクトが出現するフレームにおいて、そのオブジェクトに関連する動作の中心を算出する（Ｓ１１０２）。ここでは、オブジェクトに関連する動作の中心とは、各ピクセルにおけるオプティカルフローの大きさのみの重心を元にして算出する。このようにして算出されたオブジェクトに関連する動作の中心の一例を、図１２を用いて説明する。図１２の例では、図１０のように算出されたオプティカルフローに基づき、オブジェクト１２０１に関連する動作により算出された動作の中心は１２０２になる。動作の中心、ここでは重心を求めることで、大きな動きが密集している箇所を決定することができる。図１２のような人物がテニスのサーブをする場面では、動きが大きいラケットやボールの位置をもとに決定される。

なお、オブジェクトに関連する動作の中心を算出する際に、オプティカルフローの大きさの重心を算出する方法以外にも、オプティカルフローの大きさが最大となる座標を中心とする方法も考えられる。

そして、オブジェクトの顔の位置と動作の中心を元に注目領域の中心を決定する（Ｓ１１０３）。図１２の例では、オブジェクト１２０１の顔の位置の中心１２０３と、オブジェクト１２０１に関連する動作の重心１２０２の中点が注目領域の中心１２０４になる。なお、注目領域の中心１２０４は、この例に限らず、例えば、オブジェクト１２０１の顔の位置の中心１２０３と、オブジェクト１２０１に関連する動作の重心１２０２を結ぶ線分を所定の比率で内分する内分点としてもよい。

そして、その結果を元に注目領域を決定する（Ｓ１１０４）。注目領域の決定方法は、Ｓ１１０３で決定した注目領域の中心を元に決定するが、注目領域の大きさとして、例えば予め決定された固定サイズや、対象となるオブジェクトの顔の大きさに比例したサイズが考えられる。また、顔の中心座標と動き領域の重心の距離に比例したサイズであってもよい。

実施の形態１に係る動画処理装置は、取得した動画に写るオブジェクトとそのオブジェクトに関連する動作を含む領域を注目領域として特定する。これにより、特定のオブジェクトを含むだけでなくそのシーンの内容が分かりやすい領域や、より迫力のある領域を特定するといったように、より適切に注目領域を特定することが可能となる。また、このように特定された注目領域に対して、トリミングを行う、ズームアップを行う、フレーム内に注目領域を示す枠を重畳する、注目領域を含むと判定されたシーンを抽出したダイジェスト動画を生成する等、動画閲覧者が注目領域を容易に閲覧することができるよう種々の加工を行うことが可能である。

以上、本発明の一態様に係る動画処理装置について、実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したもの、あるいは異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。

例えば、実施の形態１では、オブジェクトの顔の位置を元にオブジェクトに関連する動作を検出する際、オブジェクトの顔の位置から一定の距離内にある領域を対象領域とし、その領域内におけるオプティカルフローを算出する方法について説明した。しかし、オブジェクトに関連する動作を検出する際に、オブジェクトの顔の位置からの距離に応じて、全領域から算出されたオプティカルフローに重み付けする方法も考えられる。

全領域から算出されたオプティカルフローに重み付けする方法について説明する。まず、図１３のように全領域のオプティカルフローを算出する。そして、座標（ｘ，ｙ）において算出されたオプティカルフローをＯｐｔ（ｘ，ｙ）とすると、距離に応じて重み付けした値Ｏｐｔ＿ｎｅｗ（ｘ，ｙ）は（数１）ように顔の中心座標（ａ，ｂ）からの距離に反比例するようにする。

なお、トリミングを実施する人物を決定する際、１つの動画に対して対象オブジェクトを１つに決定する方法以外にも、フレームごとに対象オブジェクトを決定する方法も考えられる。例えば、１つの動画において、あるフレームにおける対象オブジェクトはオブジェクトａとし、別のフレームにおける対象オブジェクトはオブジェクトｂとするといったように２つ以上選ぶことも可能である。このようにすることで、動画におけるある区間の主役となる被写体ごとにトリミングを実施することが可能である。

また、実施の形態１における動画処理装置が備える構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。

システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｍｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などを含んで構成されるコンピュータシステムである。前記ＲＯＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

なお、ここでは、システムＬＳＩとしたが、集積度の違いにより、ＩＣ、ＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、あるいはＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

また、本発明は、このような特徴的な処理部を備える、動画処理装置として実現することができるだけでなく、動画処理装置に含まれる特徴的な処理部をステップとする動画処理方法などとして実現することもできる。また、そのような方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムとして実現することもできる。そして、そのようなコンピュータプログラムを、ＣＤ−ＲＯＭ等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。

（補足）
以下、本発明の実施形態に係る動画処理装置の構成及びその変形例と各効果について説明する。

本発明に係る動画処理装置は、動画を取得する動画取得手段と、動画に含まれるフレームからオブジェクトを検出するオブジェクト検出手段と、前記動画の各フレームに対して前記オブジェクトの位置を検出することにより当該オブジェクトを追跡するオブジェクト追跡手段と、前記検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づきオブジェクトを識別するオブジェクト識別手段と、前記動画において、前記オブジェクトに関連する動作を検出するオブジェクト動作検出手段と、前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出結果に基づき、前記動画の各フレームにおける注目領域を決定する領域決定手段と、を備える。

本構成によれば、動画において注目領域を決定するに当たって、特定の人物とその人物に関連する動き領域を含むような領域を切り出すことができる。その結果、例えば注目領域をトリミングしたり拡大表示することで、動画閲覧者が注目領域を容易に閲覧することができる。

また、前記域決定手段は、前記検出されたオブジェクトの中心座標と、前記オブジェクトに関連する動作の検出領域の中心を包含するように前記注目領域を決定すること、としてもよい。

本構成によれば、特定の人物とその人物に関連する動き領域を含むような領域を効率的に切り出すことができる。

また、前記領域決定手段は、予め決定された固定的な大きさで前記注目領域を決定すること、としてもよい。

また、前記領域決定手段は、前記検出されたオブジェクトの大きさに応じて前記注目領域を決定すること、としてもよい。

また、前記領域決定手段は、前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出領域との距離に応じて前記注目領域を決定すること、としてもよい。

本構成によれば、トリミング領域を決定する場合に、状況に応じて、もしくは動画におけるオブジェクトの大きさや位置、オブジェクトに関連する動作領域に応じたトリミングができる。したがって、例えば、オブジェクトの顔が認識しやすいような大きさで切り出すことや、オブジェクトの動作を効率的に切り出すことが可能となる。

また、前記オブジェクト検出手段は、前記オブジェクトに関連するオプティカルフローの大きさの重心を前記オブジェクトの動作領域の中心として算出すること、としてもよい。

本構成によれば、オブジェクトに関連する動作領域の中心を算出することができる。これにより、動作領域を効率的に切り出すための情報を得ることができる。

また、前記オブジェクト検出手段は、前記オブジェクトの検出された位置を元にした一定領域内のオプティカルフローを前記オブジェクトに関連するオプティカルフローとすること、としてもよい。

また、前記オブジェクト検出手段は、前記オブジェクトに関連するオプティカルフローを、前記オブジェクトの検出された位置を元にした一定領域内のオプティカルフローのうち、その大きさが一定以上のものに限定すること、としてもよい。

また、前記オブジェクト動作検出手段は、前記オブジェクトに関連するオプティカルフローを、フレームの全領域におけるオプティカルフローに、前記オブジェクトの検出された位置からの距離をもとに重み付けをしたものであるとすること、としてもよい。

本構成によれば、オブジェクトに関連するオプティカルフローを、オブジェクトの検出された位置やオプティカルフローの大きさ、およびオブジェクトの検出された位置と各オプティカルフローとの距離をもとに決定することができる。これにより、オブジェクトの動作領域の中心を決定することができる。

また、前記領域決定手段は、前記注目領域を特定する対象となるオブジェクトの指定を受け付けること、としてもよい。

また、前記領域決定手段は、前記動画に対して１つの重要なオブジェクトを決定し、当該重要なオブジェクトを、前記注目領域を特定する対象となるオブジェクトとすること、としてもよい。

また、前記領域決定手段は、前記動画におけるオブジェクトの検出した位置の平均がフレームの中央に最も近いオブジェクトを、前記重要なオブジェクトとして決定すること、としてもよい。

また、前記領域決定手段は、前記動画における出現時間が最も長いオブジェクトを、前記重要なオブジェクトとして決定すること、としてもよい。

また、前記領域決定手段は、前記動画処理装置で管理されている複数の動画において、最も出現する動画数が多いオブジェクトを、前記重要なオブジェクトとして決定すること、としてもよい。

また、前記領域決定手段は、フレームごとに重要なオブジェクトを決定し、当該重要なオブジェクトを、前記注目領域を特定する対象となるオブジェクトとすること、としてもよい。

本構成によれば、トリミングを実施する対象となるオブジェクトを決定することができる。これにより、ユーザの意図に応じたトリミングを実施できたり、システムが重要と思われる人物を自動的にトリミングしたりすることが可能になる。

本発明に係る動画処理装置は、動画を蓄積する装置、デジタルカメラ、カメラ付き携帯電話やムービーカメラなどの撮影装置および、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などに適用することができる。

１００動画処理装置
１０１動画取得部
１０２オブジェクト検出部
１０３オブジェクト追跡部
１０４オブジェクト識別部
１０５オブジェクト関連動作検出部
１０６領域決定部
１２０撮影装置
１３０表示装置
３０１取得した動画
３０２ｔ番目のフレーム
３０３ｔ＋１番目のフレーム
３０４，３０５，１２０１オブジェクト
７０１オブジェクトの顔検出領域
７０２オブジェクトに関連する動作領域
７０３オブジェクトの顔検出領域７０１の中心から左方向に対しての距離Ｄ_ｌｅｆｔ
７０４オブジェクトの顔検出領域７０１の中心から右方向に対しての距離Ｄ_{ｒｉｇｈｔ}
７０５オブジェクトの顔検出領域７０１の中心から上方向に対しての距離Ｄ_ｕｐ
７０６オブジェクトの顔検出領域７０１の中心から下方向に対しての距離Ｄ_ｄｏｗｎ
８０１，９０１１つ目のオブジェクトの顔
８０２，９０２２つ目のオブジェクトの顔
８０３，９０３１つ目のオブジェクトの顔に関連する動作領域
１２０２オブジェクト１２０１に関連する動作の重心
１２０３オブジェクト１２０１の顔の位置の中心
１２０４注目領域の中心
１２０５注目領域

Claims

動画を取得する動画取得手段と、
動画に含まれるフレームからオブジェクトを検出するオブジェクト検出手段と、
前記動画の各フレームに対して前記オブジェクトの位置を検出することにより当該オブジェクトを追跡するオブジェクト追跡手段と、
前記検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づきオブジェクトを識別するオブジェクト識別手段と、
前記動画において、前記オブジェクトに関連する動作を検出するオブジェクト動作検出手段と、
前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出結果に基づき、前記動画の各フレームにおける注目領域を決定する領域決定手段と、
を備える動画処理装置。
前記域決定手段は、前記検出されたオブジェクトの中心座標と、前記オブジェクトに関連する動作の検出領域の中心を包含するように前記注目領域を決定する請求項１記載の動画処理装置。
前記領域決定手段は、予め決定された固定的な大きさで前記注目領域を決定する請求項１記載の動画処理装置。
前記領域決定手段は、前記検出されたオブジェクトの大きさに応じて前記注目領域を決定する請求項１記載の動画処理装置。
前記領域決定手段は、前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出領域との距離に応じて前記注目領域を決定する請求項１記載の動画処理装置。
前記オブジェクト検出手段は、前記オブジェクトに関連するオプティカルフローの大きさの重心を前記オブジェクトの動作領域の中心として算出する請求項１記載の動画処理装置。
前記オブジェクト検出手段は、前記オブジェクトの検出された位置を元にした一定領域内のオプティカルフローを前記オブジェクトに関連するオプティカルフローとする請求項６記載の動画処理装置。
前記オブジェクト検出手段は、前記オブジェクトに関連するオプティカルフローを、前記オブジェクトの検出された位置を元にした一定領域内のオプティカルフローのうち、その大きさが一定以上のものに限定する請求項７記載の動画処理装置。
前記オブジェクト動作検出手段は、前記オブジェクトに関連するオプティカルフローを、フレームの全領域におけるオプティカルフローに、前記オブジェクトの検出された位置からの距離をもとに重み付けをしたものであるとする請求項６記載の動画処理装置。
前記領域決定手段は、前記注目領域を特定する対象となるオブジェクトの指定を受け付ける請求項１記載の動画処理装置。
前記領域決定手段は、前記動画に対して１つの重要なオブジェクトを決定し、当該重要なオブジェクトを、前記注目領域を特定する対象となるオブジェクトとすることを特徴とする請求項１記載の動画処理装置。
前記領域決定手段は、前記動画におけるオブジェクトの検出した位置の平均がフレームの中央に最も近いオブジェクトを、前記重要なオブジェクトとして決定することを特徴とする請求項１１記載の動画処理装置。
前記領域決定手段は、前記動画における出現時間が最も長いオブジェクトを、前記重要なオブジェクトとして決定することを特徴とする請求項１１記載の動画処理装置。
前記領域決定手段は、前記動画処理装置で管理されている複数の動画において、最も出現する動画数が多いオブジェクトを、前記重要なオブジェクトとして決定することを特徴とする請求項１１記載の動画処理装置。
前記領域決定手段は、フレームごとに重要なオブジェクトを決定し、当該重要なオブジェクトを、前記注目領域を特定する対象となるオブジェクトとすることを特徴とする請求項１１記載の動画処理装置。
動画処理装置が行う動画処理方法であって、
動画を取得する動画取得ステップと、
動画に含まれるフレームからオブジェクトを検出するオブジェクト検出ステップと、
前記動画の各フレーム対して前記オブジェクトの位置を検出するオブジェクト追跡ステップと、
前記検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づきオブジェクトを識別するオブジェクト識別ステップと、
前記動画において、前記オブジェクトに関連する動作を検出するオブジェクト動作検出ステップと、
前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出結果に基づき、前記動画の各フレームにおける注目領域を決定する領域決定ステップと
を特徴とする動画処理方法。
コンピュータを、
動画を取得する動画取得手段と、
動画に含まれるフレームからオブジェクトを検出するオブジェクト検出手段と、
前記動画の各フレームに対して前記オブジェクトの位置を検出することにより当該オブジェクトを追跡するオブジェクト追跡手段と、
前記検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づきオブジェクトを識別するオブジェクト識別手段と、
前記動画において、前記オブジェクトに関連する動作を検出するオブジェクト動作検出手段と、
前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出結果に基づき、前記動画の各フレームにおける注目領域を決定する領域決定手段と、
を備える動画処理装置として機能させるためのプログラム。
動画を取得する動画取得手段と、
動画に含まれるフレームからオブジェクトを検出するオブジェクト検出手段と、
前記動画の各フレームに対して前記オブジェクトの位置を検出することにより当該オブジェクトを追跡するオブジェクト追跡手段と、
前記検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づきオブジェクトを識別するオブジェクト識別手段と、
前記動画において、前記オブジェクトに関連する動作を検出するオブジェクト動作検出手段と、
前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出結果に基づき、前記動画の各フレームにおける注目領域を決定する領域決定手段と、
を備える集積回路。