JP2014085845A - 動画処理装置、動画処理方法、プログラム、および集積回路 - Google Patents

動画処理装置、動画処理方法、プログラム、および集積回路 Download PDF

Info

Publication number
JP2014085845A
JP2014085845A JP2012234389A JP2012234389A JP2014085845A JP 2014085845 A JP2014085845 A JP 2014085845A JP 2012234389 A JP2012234389 A JP 2012234389A JP 2012234389 A JP2012234389 A JP 2012234389A JP 2014085845 A JP2014085845 A JP 2014085845A
Authority
JP
Japan
Prior art keywords
moving image
video
region
frame
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012234389A
Other languages
English (en)
Inventor
Kazuhiko Maeda
和彦 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2012234389A priority Critical patent/JP2014085845A/ja
Publication of JP2014085845A publication Critical patent/JP2014085845A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】動画の閲覧者が注目すると推定される領域をより適切に特定することが可能な動画処理装置を提供すること。
【解決手段】本発明に係る動画処理装置は、動画を取得する動画取得手段と、動画に含まれるフレームからオブジェクトを検出するオブジェクト検出手段と、動画の各フレームに対してオブジェクトの位置を検出することにより当該オブジェクトを追跡するオブジェクト追跡手段と、検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づきオブジェクトを識別するオブジェクト識別手段と、動画において、オブジェクトに関連する動作を検出するオブジェクト動作検出手段と、検出されたオブジェクトの位置と、オブジェクトに関連する動作の検出結果に基づき、動画の各フレームにおける注目領域を決定する領域決定手段とを備える。
【選択図】図1

Description

本発明は、動画におけるオブジェクトの検出位置情報をもとに各フレームの注目領域を決定する動画処理装置に関するものである。
デジタルカメラなどの動画撮影機器の普及しており、また撮影された画像を記録するためのハードディスク等の記録媒体が安価に提供されている。一般に、デジタル画像撮影機器等のユーザは、撮影した動画を大容量のハードディスク等の記録媒体に蓄積している。
また、カメラで撮影した動画において、映像から不要な領域をトリミングして拡大表示するといった編集もできるようになってきた。これにより、注目する領域だけをわかりやすく見せることが可能になる。
動画からトリミングして注目する領域だけを切り出す方法としては、例えば特許文献1のように顔の動き方向を検出し、動き方向と同じ向きの領域を多く含むようなトリミングを実施する方法がある。特許文献1では、その人物の移動していく先が注目領域であるとし、その注目領域を包含するようなトリミングを実施することで、人物だけでなく撮影したシーンの状況がわかる。
特開2007−316957号公報
特許文献1は被写体となる人物がフレームに対していずれかの方向に動いている場合は有効であるが、人物が一定の位置に静止している場合は、顔の動き方向は検出されない。つまり、顔の位置情報のみによるトリミングを実施することしかできず、注目領域を特定する上で十分とはいえないという課題があった。
本発明は係る問題に鑑みてなされたものであり、動画においてトリミング等を行うために注目領域をより適切に特定することを目的としている。
上記課題を解決するために、本発明に係る動画処理装置は、動画を取得する動画取得手段と、動画に含まれるフレームからオブジェクトを検出するオブジェクト検出手段と、前記動画の各フレームに対して前記オブジェクトの位置を検出することにより当該オブジェクトを追跡するオブジェクト追跡手段と、前記検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づきオブジェクトを識別するオブジェクト識別手段と、前記動画において、前記オブジェクトに関連する動作を検出するオブジェクト動作検出手段と、前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出結果に基づき、前記動画の各フレームにおける注目領域を決定する領域決定手段と、を備える。
本構成によれば、動画において注目領域を決定するに当たって、特定のオブジェクトとそのオブジェクトに関連する動き領域を含むような領域を切り出すことができる。その結果、例えば注目領域をトリミングしたり拡大表示することで、動画閲覧者が注目領域を容易に閲覧することができる。
実施の形態1における動画処理装置100の機能ブロックの一例を示す図 実施の形態1における撮影装置120から入力された動画の注目領域を決定する処理の一例を示すフローチャート 動画の各フレームと、そのフレームから検出されたオブジェクトの一例を示す図 ある検出区間IDにおいて検出されたオブジェクトの顔検出情報の一例を示す図 各検出区間IDと、検出区間において検出されたオブジェクトの識別IDおよび検出区間の始点/終点フレーム情報の一例を示す図 実施の形態1におけるS205の処理の一例を示すフローチャート 動画のフレームにおけるオブジェクトとオブジェクトに関連する動作領域の一例を示す図 2つのオブジェクトの顔の大きさが同じ場合のオブジェクトに関連する動作領域の一例を示す図 2つのオブジェクトの顔の大きさが異なる場合のオブジェクトに関連する動作領域の一例を示す図 オブジェクトに関連する動作領域内のオプティカルフローの一例を示す図 実施の形態1におけるS206の処理の一例を示すフローチャート 動画のフレームにおけるオブジェクトと動作領域の中心、および注目領域の一例を示す図 動画のフレームにおけるオプティカルフローの一例を示す図
(本発明に係る一形態を得るに至った経緯)
本発明者は、動画における注目領域の特定方法について詳細に検討した。その結果、動画における注目領域は、必ずしも注目するオブジェクト(例えば人物)の移動していく先だけにあるとは限らないことを見出した。
例えば、被写体となる人物がテニスのサーブを打つシーンについて説明する。この場合、サーブを打つシーンにおいては、人物の顔だけではなく、ラケットおよび打った後のボールの軌跡も注目されうるものである。つまり、ラケットやボールの動きに関する領域も注目領域に含まれるべきものである。これらの領域を含むことで迫力のあるシーンを切り出すことができる。
しかしながら、前述した従来技術では、前述のように、人物は一定の位置に静止しているため、顔の位置情報のみにより注目領域が特定される。その結果、特定のオブジェクトに関連する動きに関する領域を注目領域として特定することはできないという課題があった。
以上の通り、本発明者は、動画において、特定のオブジェクトとそのオブジェクトに関連する動き領域を含むような領域を注目領域として特定することにより、より適切に注目領域を特定することか可能となることを見出し、本発明に至った。
(実施の形態1)
以下、実施の形態1にかかる動画処理装置および動画処理装置の制御方法について、図面を参照しながら説明する。
図1は、実施の形態1における動画処理装置の機能ブロックの一例を示す図である。図1では、動画処理装置に関連する装置との接続もあわせて示している。
動画処理装置100は、撮影装置120及び表示装置130と接続されている。撮影装置120は、動画を撮影することができ、また撮影した動画を蓄積する装置である。撮影装置120は、例えば、デジタルムービから構成される。
なお、動画処理装置100と撮影装置120とは、例えばUSB(Universal Serial Bus)ケーブルを介して接続されている。なお、動画処理装置100と撮影装置120との間の接続は、動画の送受信ができれば、通信回線その他どのような手段で接続されていてもよい。
表示装置130は、例えばデジタルテレビから構成され、動画処理装置100から出力される画像などの映像を表示する。表示装置130は、例えばHDMI(High−Definition Multimedia Interface)ケーブルを介して動画処理装置100と接続されている。なお、動画処理装置100と表示装置130との間の接続は、表示装置130に動画を出力することができれば、通信回線その他どのような手段で接続されていてもよい。
次に、動画処理装置100の内部構成について説明する。
図1に示すように、動画処理装置100は、動画取得部101、オブジェクト検出部102、オブジェクト追跡部103、オブジェクト識別部104、オブジェクト関連動作検出部105、領域決定部106から構成される。
動画取得部101は、撮影装置120が蓄積している動画を取得する。動画取得部101は、例えば、USBケーブルを挿入するためのUSBポートおよびUSBドライバなどのインターフェイスを制御するソフトウェアから構成される。
オブジェクト検出部102は、動画取得部101で取得した動画から、オブジェクトを検出する。オブジェクトとは、例えば人物の顔が挙げられる。以降では、オブジェクトは人物の顔として説明する。
オブジェクト追跡部103は、オブジェクト検出部102で検出した各フレームにおけるオブジェクトが次のフレームにおいてどの領域に存在するかを追跡する。
オブジェクト識別部104は、オブジェクト追跡部103が追跡したオブジェクトがどの人物であるかを識別する。これにより、例えば動画のある区間で追跡されたオブジェクトと、別の区間で追跡されたオブジェクトが同じ人物であることを判断できる。
オブジェクト関連動作検出部105は、オブジェクト識別部104で識別されたオブジェクトごとに検出されたフレームにおいて関連する動作を検出する。
領域決定部106は、オブジェクト識別部104で識別されたオブジェクトのうち1つのオブジェクトについて、そのオブジェクトの位置情報とオブジェクト関連動作検出部105で検出された動作により注目領域を決定する。注目領域とは、動画の閲覧者が注目すると推定される領域をいう。
図2のフローチャートを用いて、動画処理装置100が行う動作の概要を説明する。図2は、撮影装置120から入力された動画の注目領域を決定する処理の一例を示すフローチャートである。図2では、撮影装置120から入力した動画から、特定のオブジェクトとそのオブジェクトに関連する動作を包含する注目領域を決定するまでの動作を示している。
動画取得部101は、撮影装置120から動画を取得する(S201)。
オブジェクト検出部102は、取得した動画から人物の顔をオブジェクトとして検出する(S202)。図3を用いてオブジェクトの検出に説明する。取得した動画301から、先頭からt番目のフレーム302やt+1番目のフレーム303など、複数のフレームを取得する。そして、各フレームにおいてオブジェクトを検出する。オブジェクトの検出方法としては、例えば動画の各フレームを切り出し、切り出したフレームにおいて、あらかじめ用意された顔学習辞書に登録されたオブジェクトと同一または類似するオブジェクトが含まれる領域を特定する方法がある。これにより、t番目のフレーム302からはオブジェクト304の領域、t+1番目のフレーム303からはオブジェクト305の領域が検出される。
図2の説明に戻り、オブジェクト追跡部103は、動画におけるオブジェクトを追跡する(S203)。
オブジェクトの追跡方法としては、例えば、オブジェクト検出部102で検出したフレームにおけるオブジェクトの次のフレームにおける領域は、次のフレームにおいて検出されたオブジェクトのうち、領域の位置が最も近いオブジェクトを同一のオブジェクトとする方法がある。このようなオブジェクトの追跡方法について、図3を用いて説明する。図3は、動画の各フレームと、そのフレームから検出されたオブジェクトの一例を示す図である。図3において、例えば、連続するフレームであるt番目のフレーム302とt+1番目のフレーム303について、検出されたオブジェクト304とオブジェクト305の領域はほぼ同じであるので、オブジェクト304とオブジェクト305は同じオブジェクトであるとする。このようにして、オブジェクト追跡部103は、複数のフレームに含まれるオブジェクトを同定することでオブジェクトを追跡する。また、オブジェクト追跡部103は、オブジェクトを追跡した区間それぞれを一意に付与する検出区間IDを付与する。
オブジェクトの追跡結果について、図4を用いて説明する。図4は、ある検出区間IDにおいて検出されたオブジェクトの顔検出情報の一例を示す図である。図4において、例えば、フレームID4において初めてオブジェクトが検出された場合、そのオブジェクトに対して検出区間ID1を付与する。そして、そのオブジェクトを追跡可能なフレーム55までを検出区間ID1のオブジェクトとして管理する。また、検出区間内の各フレームにおける顔の検出情報(例えば、X座標、Y座標、縦横幅、顔の向き)も管理する。なお、1つのフレームに対して複数のオブジェクトが検出された場合は、図4において、検出されたオブジェクト毎に検出情報を管理すればよい。なお、オブジェクトの追跡結果は、オブジェクトが検出されたフレーム、そのフレームに含まれるオブジェクトの位置、大きさ、向き等を対応付けて管理することができれば、任意のデータ構成、任意のファイル形式で管理してもよい。
図2の説明に戻り、オブジェクト識別部104は、オブジェクト追跡部103で追跡した検出区間におけるオブジェクトがどの人物であるかを識別する(S204)。オブジェクトの識別方法としては、例えば、オブジェクト追跡部103で追跡したオブジェクトのうち、任意のフレームにおけるオブジェクトの検出領域から画像特徴量を抽出する。
画像特徴量とは、画像中の複数の画素に係る画素値の分布に係る特徴を示したものである。例えば画像特徴量は画像の特徴を示す複数の数値を成分とするベクトルである。画像の特徴には、Gaborフィルタを用いて得られる画像データの画素値の分布の周期性や方向性などがあり、人物の顔に係る画像特徴量の場合、画素値の分布の周期性や方向性などから目と認識された点2つの間の距離や、鼻と認識された点と口と認識された点との距離などの量を成分とすることができる。
この画像特徴量をもとに別の検出区間から抽出されたオブジェクトの画像特徴量を比較し、画像特徴量が類似する場合、同じ人物であるとして識別する。なお、同じ人物であるとして識別する方法は、事前に特定の人物のものとして画像特徴量を登録しておき、登録した画像特徴量との比較により、検出された人物が誰であるかを識別する方法でもよい。
以上で説明したS202からS204の処理によって得られる、オブジェクトが検出された区間とその区間で検出されたオブジェクトとの関係は、オブジェクト検出情報として管理される。オブジェクト検出情報の一例を図5に示す。図5の例では、オブジェクトが検出された区間ごとに一意に付与する検出区間IDと、その検出区間の始点フレーム情報および終点フレーム情報を示している。また、始点フレーム情報および終点フレーム情報では、動画におけるどのフレームであるかを示すフレームIDと、オブジェクトの座標情報および検出されたオブジェクトの向きも管理されている。
例えば、検出区間ID1で検出されたオブジェクトから算出した画像特徴量と、検出区間ID3で検出されたオブジェクトから算出した画像特徴量が類似する場合、これらは同じ人物であるとして、同一の識別ID(ここでは、識別ID1)を付与する。このようにおこなうことで、動画における別の区間で検出されたオブジェクトが同一の人物であるかどうかを判別することができる。
図2の説明に戻り、オブジェクト関連動作検出部105は、識別されたオブジェクトの検出情報をもとに、そのオブジェクトに関連する動作を検出する(S205)。
S205の処理を、図6のフローチャートを用いて説明する。
まず、動画における先頭フレームを選択する(S601)。そして、そのフレーム内でオブジェクトが検出されたかを判別する(S602)。フレーム内にオブジェクトが検出されていない場合(S602がn)、S607へ進む。
フレーム内にオブジェクトが検出された場合(S602がy)、検出されたオブジェクトのうちいずれか1つを選択する(S603)。そして、選択したオブジェクトの位置を元にオブジェクトに関連する動作領域を決定する(S604)。オブジェクトに関連する動作領域の決定方法は、例えば、オブジェクトである顔の位置をもとに決定する。
動画のフレームにおけるオブジェクトとそのオブジェクトに関連する動作領域の一例について、図7を用いて説明する。あるフレームにおいて、オブジェクトの顔検出領域701が検出されているとする。このとき、オブジェクトに関連する動作領域702は、オブジェクトの顔検出領域701から所定の範囲の領域として決定することができる。例えば、オブジェクトに関連する動作領域702は、オブジェクトの顔検出領域701の中心から左方向に対しての距離Dleft703、右方向に対しての距離Dright704、上方向に対しての距離Dup705、下方向に対しての距離Ddown706をもとに決定される。ここで、各方向に対しての距離Dは、オブジェクトの検出された顔の大きさに比例する。DleftおよびDrightは、同じ値にし、DdownはDupと比較して大きくするとしてもよい。
ここで、1つのフレームにおいて複数のオブジェクトが検出されており、さらに上記方法によって決定されるオブジェクトに関連する動作領域がそれぞれのオブジェクトについて重なっている場合について説明する。
まずは、検出された2つのオブジェクトの顔の大きさが同じ場合について、図8を用いて説明する。ここで、1つ目のオブジェクトの顔801と2つ目のオブジェクトの顔802の大きさが同じである。また、図8のようにこれら2つのオブジェクトに関連する動作領域は重なっている。この場合は、重なっている領域について均等に分割するようにする。これは、顔の大きさが同じ場合、それらのオブジェクトはカメラから見てほぼ同じ距離であるため、いずれかのオブジェクトの動作により他方のオブジェクトの動作が隠れることはないと考えるためである。例えば、1つ目のオブジェクトの顔801に関連する動作領域は803のように決定できる。
次に、検出された2つのオブジェクトの顔の大きさのうちいずれかが大きい場合について、図9を用いて説明する。ここで、1つ目のオブジェクトの顔901よりも2つ目のオブジェクトの顔902の大きさが大きい。また、図9のようにこれら2つのオブジェクトに関連する動作領域は重なっている。この場合は、重なっている領域については、顔の大きさが大きいオブジェクトの領域とする。これは、顔の大きさが異なっている場合、それらのオブジェクトはカメラから見て顔の大きさが大きい方が近いことがわかる。したがって、小さい(カメラから見て遠い位置の)オブジェクトの動作は、大きい(カメラから見て近い位置の)オブジェクトの動作によって隠れてしまうと考えるためである。例えば、1つ目のオブジェクトの顔901に関連する動作領域は903のように決定できる。
図6の説明に戻り、S604においてオブジェクトに関連する動作領域が決定されると、そのオブジェクトに関連する動作領域内のオプティカルフローを算出する(S605)。オプティカルフローの算出方法としては、例えば勾配法が挙げられる。これは、「物体上の点の明るさは移動後も変化しない」という仮定をもとに、時刻tにおけるフレームtのある画素が、時刻t+1におけるフレームt+1においてどこに移動しているかを推定し、その移動をもとにしてベクトルを求めるものである。上記方法により算出したオブジェクトに関連する領域のオプティカルフローの一例を図10に示す。このように、領域内の各画素が、次フレームにおいてどこに移動しているかという情報を元に、各画素のオプティカルフローを求めたものである。これにより、領域の各部位がどの方向にどれだけの大きさで動いているのかを判断することができる。
続いて、オブジェクトに関連する動作の検出を該当のフレームの全てのオブジェクトにおいて実施したかを確認する(S606)。まだ他のオブジェクトが残っている場合(S606がn)、つまり、該当のフレームにおいて処理すべきオブジェクトが残っている場合、S603へ進む。
全てのオブジェクトに対して実施した場合(S606がy)、つまり、該当のフレームにおいて処理すべきオブジェクトが残っていない場合、動画の全フレームを選択したかを確認する(S607)。全フレームを選択していない場合(S607がn)、つまり、処理すべきフレームが残っている場合、次のフレームを選択する(S608)。そして、選択したフレームに対して、S602からS607の処理を行う。また、全てのフレームについて選択した場合(S607がy)、つまり、処理すべきフレームが残っていない場合、S205の処理を終了し、S206へ進む。
図2の説明に戻り、領域決定部106は、オブジェクト識別部104で識別されたオブジェクトのうち1つのオブジェクトについて、そのオブジェクトの位置情報とオブジェクト関連動作検出部105で検出された動作により注目領域を決定する(S206)。
S206の処理を、図11のフローチャートを用いて説明する。
まず、注目領域を決定する際の基準となる対象オブジェクトを1つ決定する(S1101)。1つの動画に対して基準となる対象オブジェクトを1つに決定することで、例えば特定の人物を継続して注目することができる。基準となるオブジェクトの決定方法としては、例えば以下の2つの方法が考えられる。
1つは、ユーザにより基準となるオブジェクト(例えば人物)を指定させる方法である。これは、ある動画から検出されたオブジェクトの一覧を表示させ、その中からユーザが1つのオブジェクトを選択するというものである。これにより、ユーザが注目して見たい人物に焦点を当てて注目領域を決定することができる。そして、決定された注目領域を含むような動画トリミングやズームインを実現することができる。
また、もう1つは、重要と思われるオブジェクトを自動的に選択する方法である。これは、例えばその動画において最も長い区間において写っているオブジェクトや、その動画において最も大きく写っているオブジェクト、もしくは複数の動画において出現しているオブジェクトを選択する方法がある。この方法は、ユーザの選択操作を必要とせずに重要と思われる人物に焦点を当てて注目領域を決定することができる。そして、決定された注目領域を含むような動画トリミングやズームインを実現することができる。
次に、決定したオブジェクトが出現するフレームにおいて、そのオブジェクトに関連する動作の中心を算出する(S1102)。ここでは、オブジェクトに関連する動作の中心とは、各ピクセルにおけるオプティカルフローの大きさのみの重心を元にして算出する。このようにして算出されたオブジェクトに関連する動作の中心の一例を、図12を用いて説明する。図12の例では、図10のように算出されたオプティカルフローに基づき、オブジェクト1201に関連する動作により算出された動作の中心は1202になる。動作の中心、ここでは重心を求めることで、大きな動きが密集している箇所を決定することができる。図12のような人物がテニスのサーブをする場面では、動きが大きいラケットやボールの位置をもとに決定される。
なお、オブジェクトに関連する動作の中心を算出する際に、オプティカルフローの大きさの重心を算出する方法以外にも、オプティカルフローの大きさが最大となる座標を中心とする方法も考えられる。
そして、オブジェクトの顔の位置と動作の中心を元に注目領域の中心を決定する(S1103)。図12の例では、オブジェクト1201の顔の位置の中心1203と、オブジェクト1201に関連する動作の重心1202の中点が注目領域の中心1204になる。なお、注目領域の中心1204は、この例に限らず、例えば、オブジェクト1201の顔の位置の中心1203と、オブジェクト1201に関連する動作の重心1202を結ぶ線分を所定の比率で内分する内分点としてもよい。
そして、その結果を元に注目領域を決定する(S1104)。注目領域の決定方法は、S1103で決定した注目領域の中心を元に決定するが、注目領域の大きさとして、例えば予め決定された固定サイズや、対象となるオブジェクトの顔の大きさに比例したサイズが考えられる。また、顔の中心座標と動き領域の重心の距離に比例したサイズであってもよい。
実施の形態1に係る動画処理装置は、取得した動画に写るオブジェクトとそのオブジェクトに関連する動作を含む領域を注目領域として特定する。これにより、特定のオブジェクトを含むだけでなくそのシーンの内容が分かりやすい領域や、より迫力のある領域を特定するといったように、より適切に注目領域を特定することが可能となる。また、このように特定された注目領域に対して、トリミングを行う、ズームアップを行う、フレーム内に注目領域を示す枠を重畳する、注目領域を含むと判定されたシーンを抽出したダイジェスト動画を生成する等、動画閲覧者が注目領域を容易に閲覧することができるよう種々の加工を行うことが可能である。
以上、本発明の一態様に係る動画処理装置について、実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したもの、あるいは異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
例えば、実施の形態1では、オブジェクトの顔の位置を元にオブジェクトに関連する動作を検出する際、オブジェクトの顔の位置から一定の距離内にある領域を対象領域とし、その領域内におけるオプティカルフローを算出する方法について説明した。しかし、オブジェクトに関連する動作を検出する際に、オブジェクトの顔の位置からの距離に応じて、全領域から算出されたオプティカルフローに重み付けする方法も考えられる。
全領域から算出されたオプティカルフローに重み付けする方法について説明する。まず、図13のように全領域のオプティカルフローを算出する。そして、座標(x,y)において算出されたオプティカルフローをOpt(x,y)とすると、距離に応じて重み付けした値Opt_new(x,y)は(数1)ように顔の中心座標(a,b)からの距離に反比例するようにする。
Figure 2014085845
なお、トリミングを実施する人物を決定する際、1つの動画に対して対象オブジェクトを1つに決定する方法以外にも、フレームごとに対象オブジェクトを決定する方法も考えられる。例えば、1つの動画において、あるフレームにおける対象オブジェクトはオブジェクトaとし、別のフレームにおける対象オブジェクトはオブジェクトbとするといったように2つ以上選ぶことも可能である。このようにすることで、動画におけるある区間の主役となる被写体ごとにトリミングを実施することが可能である。
また、実施の形態1における動画処理装置が備える構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。
システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Ramdom Access Memory)などを含んで構成されるコンピュータシステムである。前記ROMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
なお、ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
また、本発明は、このような特徴的な処理部を備える、動画処理装置として実現することができるだけでなく、動画処理装置に含まれる特徴的な処理部をステップとする動画処理方法などとして実現することもできる。また、そのような方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムとして実現することもできる。そして、そのようなコンピュータプログラムを、CD−ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
(補足)
以下、本発明の実施形態に係る動画処理装置の構成及びその変形例と各効果について説明する。
本発明に係る動画処理装置は、動画を取得する動画取得手段と、動画に含まれるフレームからオブジェクトを検出するオブジェクト検出手段と、前記動画の各フレームに対して前記オブジェクトの位置を検出することにより当該オブジェクトを追跡するオブジェクト追跡手段と、前記検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づきオブジェクトを識別するオブジェクト識別手段と、前記動画において、前記オブジェクトに関連する動作を検出するオブジェクト動作検出手段と、前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出結果に基づき、前記動画の各フレームにおける注目領域を決定する領域決定手段と、を備える。
本構成によれば、動画において注目領域を決定するに当たって、特定の人物とその人物に関連する動き領域を含むような領域を切り出すことができる。その結果、例えば注目領域をトリミングしたり拡大表示することで、動画閲覧者が注目領域を容易に閲覧することができる。
また、前記域決定手段は、前記検出されたオブジェクトの中心座標と、前記オブジェクトに関連する動作の検出領域の中心を包含するように前記注目領域を決定すること、としてもよい。
本構成によれば、特定の人物とその人物に関連する動き領域を含むような領域を効率的に切り出すことができる。
また、前記領域決定手段は、予め決定された固定的な大きさで前記注目領域を決定すること、としてもよい。
また、前記領域決定手段は、前記検出されたオブジェクトの大きさに応じて前記注目領域を決定すること、としてもよい。
また、前記領域決定手段は、前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出領域との距離に応じて前記注目領域を決定すること、としてもよい。
本構成によれば、トリミング領域を決定する場合に、状況に応じて、もしくは動画におけるオブジェクトの大きさや位置、オブジェクトに関連する動作領域に応じたトリミングができる。したがって、例えば、オブジェクトの顔が認識しやすいような大きさで切り出すことや、オブジェクトの動作を効率的に切り出すことが可能となる。
また、前記オブジェクト検出手段は、前記オブジェクトに関連するオプティカルフローの大きさの重心を前記オブジェクトの動作領域の中心として算出すること、としてもよい。
本構成によれば、オブジェクトに関連する動作領域の中心を算出することができる。これにより、動作領域を効率的に切り出すための情報を得ることができる。
また、前記オブジェクト検出手段は、前記オブジェクトの検出された位置を元にした一定領域内のオプティカルフローを前記オブジェクトに関連するオプティカルフローとすること、としてもよい。
また、前記オブジェクト検出手段は、前記オブジェクトに関連するオプティカルフローを、前記オブジェクトの検出された位置を元にした一定領域内のオプティカルフローのうち、その大きさが一定以上のものに限定すること、としてもよい。
また、前記オブジェクト動作検出手段は、前記オブジェクトに関連するオプティカルフローを、フレームの全領域におけるオプティカルフローに、前記オブジェクトの検出された位置からの距離をもとに重み付けをしたものであるとすること、としてもよい。
本構成によれば、オブジェクトに関連するオプティカルフローを、オブジェクトの検出された位置やオプティカルフローの大きさ、およびオブジェクトの検出された位置と各オプティカルフローとの距離をもとに決定することができる。これにより、オブジェクトの動作領域の中心を決定することができる。
また、前記領域決定手段は、前記注目領域を特定する対象となるオブジェクトの指定を受け付けること、としてもよい。
また、前記領域決定手段は、前記動画に対して1つの重要なオブジェクトを決定し、当該重要なオブジェクトを、前記注目領域を特定する対象となるオブジェクトとすること、としてもよい。
また、前記領域決定手段は、前記動画におけるオブジェクトの検出した位置の平均がフレームの中央に最も近いオブジェクトを、前記重要なオブジェクトとして決定すること、としてもよい。
また、前記領域決定手段は、前記動画における出現時間が最も長いオブジェクトを、前記重要なオブジェクトとして決定すること、としてもよい。
また、前記領域決定手段は、前記動画処理装置で管理されている複数の動画において、最も出現する動画数が多いオブジェクトを、前記重要なオブジェクトとして決定すること、としてもよい。
また、前記領域決定手段は、フレームごとに重要なオブジェクトを決定し、当該重要なオブジェクトを、前記注目領域を特定する対象となるオブジェクトとすること、としてもよい。
本構成によれば、トリミングを実施する対象となるオブジェクトを決定することができる。これにより、ユーザの意図に応じたトリミングを実施できたり、システムが重要と思われる人物を自動的にトリミングしたりすることが可能になる。
本発明に係る動画処理装置は、動画を蓄積する装置、デジタルカメラ、カメラ付き携帯電話やムービーカメラなどの撮影装置および、PC(Personal Computer)などに適用することができる。
100 動画処理装置
101 動画取得部
102 オブジェクト検出部
103 オブジェクト追跡部
104 オブジェクト識別部
105 オブジェクト関連動作検出部
106 領域決定部
120 撮影装置
130 表示装置
301 取得した動画
302 t番目のフレーム
303 t+1番目のフレーム
304,305,1201 オブジェクト
701 オブジェクトの顔検出領域
702 オブジェクトに関連する動作領域
703 オブジェクトの顔検出領域701の中心から左方向に対しての距離Dleft
704 オブジェクトの顔検出領域701の中心から右方向に対しての距離Dright
705 オブジェクトの顔検出領域701の中心から上方向に対しての距離Dup
706 オブジェクトの顔検出領域701の中心から下方向に対しての距離Ddown
801,901 1つ目のオブジェクトの顔
802,902 2つ目のオブジェクトの顔
803,903 1つ目のオブジェクトの顔に関連する動作領域
1202 オブジェクト1201に関連する動作の重心
1203 オブジェクト1201の顔の位置の中心
1204 注目領域の中心
1205 注目領域

Claims (18)

  1. 動画を取得する動画取得手段と、
    動画に含まれるフレームからオブジェクトを検出するオブジェクト検出手段と、
    前記動画の各フレームに対して前記オブジェクトの位置を検出することにより当該オブジェクトを追跡するオブジェクト追跡手段と、
    前記検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づきオブジェクトを識別するオブジェクト識別手段と、
    前記動画において、前記オブジェクトに関連する動作を検出するオブジェクト動作検出手段と、
    前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出結果に基づき、前記動画の各フレームにおける注目領域を決定する領域決定手段と、
    を備える動画処理装置。
  2. 前記域決定手段は、前記検出されたオブジェクトの中心座標と、前記オブジェクトに関連する動作の検出領域の中心を包含するように前記注目領域を決定する請求項1記載の動画処理装置。
  3. 前記領域決定手段は、予め決定された固定的な大きさで前記注目領域を決定する請求項1記載の動画処理装置。
  4. 前記領域決定手段は、前記検出されたオブジェクトの大きさに応じて前記注目領域を決定する請求項1記載の動画処理装置。
  5. 前記領域決定手段は、前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出領域との距離に応じて前記注目領域を決定する請求項1記載の動画処理装置。
  6. 前記オブジェクト検出手段は、前記オブジェクトに関連するオプティカルフローの大きさの重心を前記オブジェクトの動作領域の中心として算出する請求項1記載の動画処理装置。
  7. 前記オブジェクト検出手段は、前記オブジェクトの検出された位置を元にした一定領域内のオプティカルフローを前記オブジェクトに関連するオプティカルフローとする請求項6記載の動画処理装置。
  8. 前記オブジェクト検出手段は、前記オブジェクトに関連するオプティカルフローを、前記オブジェクトの検出された位置を元にした一定領域内のオプティカルフローのうち、その大きさが一定以上のものに限定する請求項7記載の動画処理装置。
  9. 前記オブジェクト動作検出手段は、前記オブジェクトに関連するオプティカルフローを、フレームの全領域におけるオプティカルフローに、前記オブジェクトの検出された位置からの距離をもとに重み付けをしたものであるとする請求項6記載の動画処理装置。
  10. 前記領域決定手段は、前記注目領域を特定する対象となるオブジェクトの指定を受け付ける請求項1記載の動画処理装置。
  11. 前記領域決定手段は、前記動画に対して1つの重要なオブジェクトを決定し、当該重要なオブジェクトを、前記注目領域を特定する対象となるオブジェクトとすることを特徴とする請求項1記載の動画処理装置。
  12. 前記領域決定手段は、前記動画におけるオブジェクトの検出した位置の平均がフレームの中央に最も近いオブジェクトを、前記重要なオブジェクトとして決定することを特徴とする請求項11記載の動画処理装置。
  13. 前記領域決定手段は、前記動画における出現時間が最も長いオブジェクトを、前記重要なオブジェクトとして決定することを特徴とする請求項11記載の動画処理装置。
  14. 前記領域決定手段は、前記動画処理装置で管理されている複数の動画において、最も出現する動画数が多いオブジェクトを、前記重要なオブジェクトとして決定することを特徴とする請求項11記載の動画処理装置。
  15. 前記領域決定手段は、フレームごとに重要なオブジェクトを決定し、当該重要なオブジェクトを、前記注目領域を特定する対象となるオブジェクトとすることを特徴とする請求項11記載の動画処理装置。
  16. 動画処理装置が行う動画処理方法であって、
    動画を取得する動画取得ステップと、
    動画に含まれるフレームからオブジェクトを検出するオブジェクト検出ステップと、
    前記動画の各フレーム対して前記オブジェクトの位置を検出するオブジェクト追跡ステップと、
    前記検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づきオブジェクトを識別するオブジェクト識別ステップと、
    前記動画において、前記オブジェクトに関連する動作を検出するオブジェクト動作検出ステップと、
    前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出結果に基づき、前記動画の各フレームにおける注目領域を決定する領域決定ステップと
    を特徴とする動画処理方法。
  17. コンピュータを、
    動画を取得する動画取得手段と、
    動画に含まれるフレームからオブジェクトを検出するオブジェクト検出手段と、
    前記動画の各フレームに対して前記オブジェクトの位置を検出することにより当該オブジェクトを追跡するオブジェクト追跡手段と、
    前記検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づきオブジェクトを識別するオブジェクト識別手段と、
    前記動画において、前記オブジェクトに関連する動作を検出するオブジェクト動作検出手段と、
    前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出結果に基づき、前記動画の各フレームにおける注目領域を決定する領域決定手段と、
    を備える動画処理装置として機能させるためのプログラム。
  18. 動画を取得する動画取得手段と、
    動画に含まれるフレームからオブジェクトを検出するオブジェクト検出手段と、
    前記動画の各フレームに対して前記オブジェクトの位置を検出することにより当該オブジェクトを追跡するオブジェクト追跡手段と、
    前記検出されたオブジェクトを含む所定の領域から得られる画像特徴量に基づきオブジェクトを識別するオブジェクト識別手段と、
    前記動画において、前記オブジェクトに関連する動作を検出するオブジェクト動作検出手段と、
    前記検出されたオブジェクトの位置と、前記オブジェクトに関連する動作の検出結果に基づき、前記動画の各フレームにおける注目領域を決定する領域決定手段と、
    を備える集積回路。
JP2012234389A 2012-10-24 2012-10-24 動画処理装置、動画処理方法、プログラム、および集積回路 Pending JP2014085845A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012234389A JP2014085845A (ja) 2012-10-24 2012-10-24 動画処理装置、動画処理方法、プログラム、および集積回路

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012234389A JP2014085845A (ja) 2012-10-24 2012-10-24 動画処理装置、動画処理方法、プログラム、および集積回路

Publications (1)

Publication Number Publication Date
JP2014085845A true JP2014085845A (ja) 2014-05-12

Family

ID=50788849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012234389A Pending JP2014085845A (ja) 2012-10-24 2012-10-24 動画処理装置、動画処理方法、プログラム、および集積回路

Country Status (1)

Country Link
JP (1) JP2014085845A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016120189A (ja) * 2014-12-25 2016-07-07 アイホン株式会社 離床検出装置
JP2016120190A (ja) * 2014-12-25 2016-07-07 アイホン株式会社 離床検出装置
KR102095814B1 (ko) * 2018-10-22 2020-04-01 덕성여자대학교 산학협력단 샷 사이즈 변화패턴을 이용한 영상 데이터 분석 시스템 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016120189A (ja) * 2014-12-25 2016-07-07 アイホン株式会社 離床検出装置
JP2016120190A (ja) * 2014-12-25 2016-07-07 アイホン株式会社 離床検出装置
KR102095814B1 (ko) * 2018-10-22 2020-04-01 덕성여자대학교 산학협력단 샷 사이즈 변화패턴을 이용한 영상 데이터 분석 시스템 및 방법

Similar Documents

Publication Publication Date Title
US10609284B2 (en) Controlling generation of hyperlapse from wide-angled, panoramic videos
KR101739245B1 (ko) 비디오 프레임들의 디스플레이 파티셔닝 및 클러스터링을 위한 오브젝트들의 선택 및 추적
TW202201944A (zh) 保持用於幀中的目標物件的固定尺寸
US9179071B2 (en) Electronic device and image selection method thereof
US9300947B2 (en) Producing 3D images from captured 2D video
WO2020073860A1 (zh) 一种视频裁剪方法及装置
CN110189378A (zh) 一种视频处理方法、装置及电子设备
JP6141829B2 (ja) 動画解析装置、動画解析方法、プログラム、及び集積回路
WO2016187888A1 (zh) 基于字符识别的关键词通知方法及设备、计算机程序产品
US10674066B2 (en) Method for processing image and electronic apparatus therefor
US20170168709A1 (en) Object selection based on region of interest fusion
WO2018137264A1 (zh) 终端的拍照方法、拍照装置和终端
WO2016144800A1 (en) Method and device for capturing images using image templates
KR20150011742A (ko) 사용자 단말 장치 및 그 제어 방법
CN112017137A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN110717452B (zh) 图像识别方法、装置、终端及计算机可读存储介质
CN109981989B (zh) 渲染图像的方法、装置、电子设备和计算机可读存储介质
WO2014014135A1 (ko) 촬영된 이미지의 리포커싱 방법, 장치, 및 컴퓨터 판독 가능한 기록 매체
CN113610865B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
JP2014085845A (ja) 動画処理装置、動画処理方法、プログラム、および集積回路
US10990802B2 (en) Imaging apparatus providing out focusing and method for controlling the same
AU2015258346A1 (en) Method and system of transitioning between images
JP2008211534A (ja) 顔検知装置
Lee Novel video stabilization for real-time optical character recognition applications
KR20180069312A (ko) 라이트 필드 동영상을 이용한 물체 추적 방법 및 장치

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140606