<本発明に係る一形態を得るに至った経緯>
上述したように、オブジェクトの検出技術及び追跡技術には限界があり、動画において、オブジェクトが実際には写っているが、そのオブジェクトを検出できない区間は、そのオブジェクトが撮影された区間としては抽出することができない。
また、撮影者は、特定のオブジェクト(例えば人物)を被写体とした動画を撮影する際、必ずしもそのオブジェクトが動画に写り続けるように撮影できるとは限らない。例えば、被写体である人物の動きが大きく、撮影者がその人物をカメラで追いきれずに、その人物がフレームアウトしてしまう場合がある。また、撮影者が移動しながら被写体である人物を撮影する際、撮影者の動きが大きく、その人物がフレームアウトしてしまう場合もある。さらに、撮影者が意図的に、被写体である人物を撮影している合間に、一時的にその人物とは別のオブジェクトや、風景を撮影することで、その人物がフレームアウトする場合もある。このような、被写体である人物がフレームアウトしている区間も、当然、当該人物は検出されず、当該人物が撮影された区間としては抽出することができない。
そのため、オブジェクトの検出情報を基に、動画からある特定の人物が撮影された区間を抽出し、例えば動画ダイジェストを作成した場合、上述したような当該人物が検出されない区間は抽出することができないため、作成された動画ダイジェストは断続的になってしまう場合がある。ユーザは、特定のオブジェクトが被写体として撮影された一連の区間を、オブジェクトの検出に拘らず見続けたいと思われる。
以上を鑑み、発明者は、動画において一のオブジェクトが検出されない非検出区間であっても、当該一のオブジェクトが検出された検出区間と連続する一連の区間であると推定される区間は、当該一のオブジェクトに関する区間として取り扱うことができればよいという知見を得た。
本発明に係る実施の形態では、上記の知見に基づき、動画において、一のオブジェクトが検出されない非検出区間について、当該一のオブジェクトに関連する区間であるか否かを特定する処理を行う動画解析装置の提供を目的とする。
<実施の形態1>
以下、実施の形態1に係る動画解析装置について、図面を参照しながら説明する。
図1は、実施の形態1に係る動画解析装置100の機能ブロック図である。
動画解析装置100は、撮影装置120及び表示装置130に接続されている。
撮影装置120は、動画を撮影する機能、及び撮影した動画を蓄積する機能を有する装置である。撮影装置120は、例えば、デジタルムービから構成されている。また、動画解析装置100と撮影装置120とは、例えばUSB(Universal Serial Bus)ケーブルを介して接続されている。
表示装置130は、動画解析装置100から出力される動画などを表示する機能を有する。表示装置130は、例えば、デジタルテレビから構成されている。また、動画解析装置100と表示装置130とは、例えばHDMI(登録商標/High−Definition Multimedia Interface)ケーブルを介して接続されている。
次に、動画解析装置100の内部構成について説明する。
図1に示すように、動画解析装置100は、動画取得部101、オブジェクト検出部102、オブジェクト追跡部103、オブジェクト識別部104、シーン検出部105、及びオブジェクト関連区間特定部106を備える。
動画取得部101は、撮影装置120が蓄積している動画を取得する。動画取得部101は、例えば、USBケーブルを挿入するためのUSBポート及びUSBドライバなどのインターフェイスを制御するソフトウェアから構成されている。
オブジェクト検出部102は、動画取得部101において取得された動画の各フレームから、各フレームに映っているオブジェクトを検出する。検出されるオブジェクトとして、人物の顔、犬や猫などの動物、車、建物等が挙げられる。
オブジェクト追跡部103は、オブジェクト検出部102において検出された各オブジェクトについて追跡処理を行う。具体的には、オブジェクト追跡部103は、一のフレームにおいて検出された一のオブジェクトが、当該一のフレームの次のフレームにおいてどの領域に存在するかを確認することで、各オブジェクトの追跡処理を行う。
オブジェクト識別部104は、オブジェクト追跡部103によって追跡された各オブジェクトについて識別処理を行う。具体的には、オブジェクト識別部104は、動画において一の区間で追跡されたオブジェクトと、当該一の区間とは別の区間で追跡されたオブジェクトとが、同じオブジェクトであるか否かを識別する。
シーン検出部105は、動画取得部101において取得された動画からシーンの切れ目を検出する。
「シーン」とは動画において、映像の内容にまとまりのある区間や、時間的にまとまりのある区間等を意味する。シーン検出部105は、例えば、運動会の様子が撮影された動画において、開会式と徒競争競技が夫々撮影された区間は別のシーンとして検出する。
オブジェクト関連区間特定部106は、動画において、オブジェクト識別部104において識別される各オブジェクトに関するオブジェクト関連区間を特定する。なお、オブジェクト関連区間特定部106は、当該オブジェクトが検出される検出区間だけでなく、当該オブジェクトに関連する区間であろうと推定される区間も、当該オブジェクトに関するオブジェクト関連区間として特定する。オブジェクト関連区間特定部106の詳細な処理内容については後述する。
なお、これらオブジェクト検出部102、オブジェクト追跡部103、オブジェクト識別部104、シーン検出部105、及びオブジェクト関連区間特定部106は、例えば、それぞれの処理用のプログラム等を格納するROMなどのメモリと、プログラムを実行するCPUと、プログラムのデータを展開するためのRAMなどのメモリとから構成されている。
図2のフローチャートを用いて、動画解析装置100の全体動作を説明する。
先ず、動画取得部101は撮影装置120に蓄積されている動画を取得する(S201)。
次に、オブジェクト検出部102は、取得された動画の各フレームからオブジェクトを検出する(S202)。
図3を用いて、ステップS202の処理を詳しく説明する。図3では、オブジェクトとして人物の顔が検出される例を挙げる。
図3において、301は取得された動画であり、302は動画301のt番目のフレームであり、303は、動画301の(t+1)番目のフレームである。オブジェクト検出部102は、例えば、動画301から302や303等の複数のフレームを取得し、取得した各フレームからオブジェクトとして人物の顔を検出する。
オブジェクトの検出方法として、例えば、動画の各フレームについて、フレームに対してあらかじめ用意された顔学習辞書を用いてオブジェクトが含まれる領域を切り出す方法がある。この方法が用いられる場合、例えば図3では、フレーム302からはオブジェクト304の領域、フレーム303からはオブジェクト305の領域が切り出され、人物の顔としてオブジェクト304及び305が検出される。
次に、オブジェクト追跡部103は、動画において各フレームから検出された各オブジェクトに対して追跡処理を行う(S203)。
オブジェクトの追跡方法として、例えば、一のフレームから検出された一のオブジェクトと、一のフレームの次のフレームから検出されたオブジェクトの内、その検出領域が、一のフレームから検出された一のオブジェクトの検出領域と一致又は十分近い位置に存在するオブジェクトとを、同一のオブジェクトであると判断することで、一のオブジェクトを追跡する方法がある。この方法が用いられる場合、例えば図3では、フレーム302からは検出されたオブジェクト304の検出領域と、フレーム303から検出されたオブジェクト305の領域とが、ほぼ同じ位置にあるため、オブジェクト追跡部103は、オブジェクト304とオブジェクト305とは同じオブジェクトと判断し、フレーム302からフレーム303で、オブジェクト304(305)を追跡する。
オブジェクト識別部104は、オブジェクト追跡部103によって追跡された各オブジェクトについて識別処理を行う(S204)。具体的には、オブジェクト識別部104は、動画において一の区間で追跡されたオブジェクトと、当該一の区間とは別の区間で追跡されたオブジェクトとが、同じオブジェクトであるか否かを識別する。
オブジェクトを識別する方法として、例えば、先ず、オブジェクト追跡部103によって、各オブジェクトが追跡された区間である、各オブジェクトの検出区間の任意のフレームから、当該追跡対象であるオブジェクトの画像特徴量を夫々抽出する。そして、抽出された画像特徴量が類似する追跡対象のオブジェクト同士を、同一のオブジェクトであると識別する方法がある。
また、オブジェクトを識別する方法はこの方法に限定されず、例えば、事前に特定のオブジェクトの画像特徴量を登録しておき、抽出された各追跡区間の追跡対象であるオブジェクトの画像特徴量と、登録してある特定のオブジェクトの画像特徴量とを比較することで、その特定のオブジェクトを識別する方法がある。
なお、「画像特徴量」とは、画像における各画素に係る画素値の分布の特徴を示したものである。画像特徴量は、例えば、画像の特徴を示す複数の数値を成分とするベクトルで表される。画像の特徴には、Gaborフィルタを用いて得られる画像データの画素値の分布の周期性や方向性などがある。人物の顔に係る画像特徴量の場合、画素値の分布の周期性や方向性などから目と認識された点2つの間の距離や、鼻と認識された点と口と認識された点との距離などの量を、ベクトルの成分とすることができる。
図4は、以上のステップS202〜S204の処理によって生成される、オブジェクトの検出・追跡・識別に関する情報の一例を示す図である。なお、このオブジェクトの検出・追跡・識別に関する情報は、動画解析装置100に更に備えられる記憶部において格納されてもよいし、動画解析装置100からアクセス可能な外部の記憶部において格納されてもよい。
図4において、オブジェクトの検出・追跡・識別に関する情報は、動画における各オブジェクトの検出区間情報と、各検出区間において検出対象であるオブジェクトの識別ID情報と、各検出区間の始点及び終点フレーム情報とを含む。また、各検出区間の始点及び終点フレーム情報は、フレームID情報と、当該識別IDのオブジェクトの検出領域情報及び向き情報とを含む。また、この一例において、オブジェクトの検出領域情報は、フレームにおけるオブジェクトが検出された矩形領域の左上の座標点と、その矩形領域の縦横幅とで表されている。
図2に戻って説明を続ける。
シーン検出部105は、動画取得部101で取得された動画において、シーンの切れ目を検出する(S205)。
シーンの切れ目を検出する方法として、例えば、連続するフレーム間における映像情報の変化を基に、シーンの切れ目を検出する方法がある。
映像情報とは、色相や輝度などの情報である。例えば、シーン検出部105は、一のフレームから、当該一のフレームの次のフレームにおける、フレーム全体の映像情報の変化が所定の度合い以上である場合、一のフレームと、当該一のフレームの次のフレームとの境界をシーンの切れ目として検出してもよい。また、シーンの切れ目を検出する方法は、この方法に限定されず、例えば、音響情報の変化を基に、シーンの切れ目を検出する方法が用いられてもよい。
図5は、シーンの切れ目情報の一例を示す図である。なお、このシーンの切れ目情報も、上記のオブジェクトの検出・追跡・識別に関する情報と同様、動画解析装置100に更に備えられる記憶部において格納されてもよいし、動画解析装置100からアクセス可能な外部の記憶部において格納されてもよい。
図5において、シーンの切れ目情報は、動画における各シーンのID情報と、各シーンの始点及び終点フレーム情報とを含む。
次に、オブジェクト関連区間特定部106は、ステップS202〜S204の処理によって生成されるオブジェクトの検出・追跡・識別に関する情報と、ステップS205の処理によって生成されるシーンの切れ目情報とに基づいて、動画におけるオブジェクト関連区間を特定する(S206)。
図6のフローチャートを用いて、このステップS206の処理を説明する。
先ず、オブジェクト関連区間特定部106は、同一シーンに含まれる検出区間であって、且つ、オブジェクト識別部104によって同一であると識別されたオブジェクト(以下、このオブジェクトを「処理対象オブジェクト」と言う。)が検出された検出区間を抽出する(S601)。なお、このステップS601において、抽出される検出区間は、少なくとも一部が当該同一シーンに含まれていればよい。
図4と図5を用いて、このステップS601の処理を具体的に説明する。
図5において、シーン1はフレーム0からフレーム182までの区間である。よって、図4において、シーン1に含まれる検出区間は、検出区間1〜5である。なお、このとき、検出区間5は、フレーム113からフレーム224までの区間であり、検出区間5の一部がシーン1に含まれるため、同一シーンに含まれる検出区間と見なされる。
そして、この検出区間1〜5の内、同一であると識別されたオブジェクト(処理対象オブジェクト)が検出される検出区間は、オブジェクト1が検出される検出区間1、3及び5である。従って、ステップS601では、検出区間1、3及び5が抽出される。
続いて、オブジェクト関連区間特定部106は、ステップS601において抽出された検出区間の内、間に別のステップS601において抽出された検出区間を挟まない2つの検出区間を選択する(S602)。
図4を用いて、このステップS602の処理を具体的に説明する。
図4において、ステップS601で検出区間1、3、及び5が検出されたとする。このとき、検出区間1、3及び5の内、間に別のステップS601において抽出された検出区間を挟まない2つの検出区間の組み合わせは、検出区間1と3、又は検出区間3と5の組み合わせである。よって、ステップ602では、検出区間1と3、又は検出区間3と5が選択される。なお検出区間1と5の組み合わせは、検出区間1と5の間に検出区間3が存在するため選択されない。
続いて、オブジェクト関連区間特定部106は、ステップS602において選択された2つの検出区間の内、時間的に前に存在する検出区間の終点フレームにおける当該処理対象オブジェクトの検出結果が、限界値であるか否かを確認する(S603)。
「限界値」とは、オブジェクト検出部102において定められる、オブジェクトの検出の限界を値で表したものである。以下、限界値の例について説明する。
例えば、オブジェクトが人物の顔である場合、一般的に検出できる顔について、向き・大きさ・フレームの座標等の制限がある。
先ず、図7を用いて、人物の顔の「向き」に関する限界値を説明する。動画に映る顔は、正面を向いた顔だけでなく、上下左右に様々な方向を向いた顔が存在するが、オブジェクト検出部102で検出可能な顔の向きが、例えば図7に示しように、正面から各回転軸に対して30度以内に制限されていたとする。この場合、オブジェクト検出部102は、それ以上傾いた顔を検出することはできないため、人物の顔の「向き」に関する限界値は「各回転軸に対して30度」となる。
なお、オブジェクト検出部102で検出可能な顔の向きに関する制限は、図7の例に限定されず、例えば、人物の顔の大きさに応じて、検出可能な顔の向きが異なる場合もある。このような場合は、人物の顔の大きさと向きを対応付けた限界値を設定すればよい。
次に、人物の顔の「大きさ」に関する限界値について説明する。例えば、オブジェクト検出部102で検出可能な顔の最小サイズは35ピクセルであり、最大サイズは200ピクセルであるとする。この場合、35ピクセル未満や200ピクセルより大きな顔は検出することができないため、人物の顔の「大きさ」に関する限界値は、「35ピクセル」及び「200ピクセル」となる。
次に、図8を用いて、「フレームの座標点」に関する限界値について説明する。例えば、フレームサイズを640×480とし、オブジェクト検出部102によって検出される顔の矩形領域について、(左上のX座標,左上のY座標,縦横幅)を(x1,y1,wh1)とする。そして、顔が写る領域がフレーム枠と接する領域にある場合が、顔が検出できる限界であり、顔全体がフレーム枠に収まっていない場合、言い換えると、顔の一部しかフレームに写っていない場合は、顔を検出することができないとする。この場合、「フレームの座標点」に関する限界値は、x1の最小値0、(x1+wh1)の最大値640、y1の最小値0、及び(y1+wh1)の最大値480となる。例えば図8では、(x1,y1,wh1)=(0、400、50)の矩形領域で人物の顔が検出されている。この矩形領域は、フレーム枠と接しており、x1=0であるため、この検出された人物の顔の検出結果は限界値であることを意味する。
なお、本実施の形態1のステップS603及び後述するS604において、オブジェクト関連区間特定部106は、当該処理対象オブジェクトの検出結果が限界値であるか否かを確認するが、これに限定されず、当該処理対象オブジェクトの検出結果が限界値から所定の範囲内、言い換えると当該処理対象オブジェクトの検出の限界を基に定められた値の範囲内にあるか否かを確認するとしてもよい。
例えば「フレームの座標点」に関して、オブジェクト関連区間特定部106は、当該処理対象オブジェクトの検出領域が、フレーム枠から所定の範囲内側の領域、言い換えると、フレーム枠の近傍の領域にあるか否かを確認するとしてもよい。
なお、このフレーム枠の近傍の領域は、フレームサイズに応じて設定されてもよい。例えば、フレームサイズ640×480の場合において、フレーム枠の上辺及び下辺から夫々、フレーム幅640ピクセルの5パーセント=32ピクセル内側の領域と、フレーム枠の右辺及び左辺から夫々、フレーム高さ480ピクセルの5パーセント=24ピクセル内側の領域とを、所定の範囲の領域としてもよい。この場合、オブジェクト関連区間特定部106は、当該処理対象オブジェクトの検出領域が、0<x1<32、(640−wh1−32)<x1<(640−wh1−32)、0<y1<24、及び(480−wh1−24)<y1<(480−wh1)の内1以上を満たすか否かを確認すればよい。
また、「顔の向き」に関して、オブジェクト関連区間特定部106は、当該処理対象オブジェクトの向きが、限界値から所定の範囲の向きにあるか否かを確認するとしてもよい。また、所定の範囲の向きは、オブジェクト検出部102の検出精度に応じて設定してもよい。例えば、図7の各回転軸に対して30度が限界値である場合、限界値からの所定の範囲を、28度(限界値30度−(30度の5パーセント≒2度))から30度の範囲としてもよい。
ステップS603の処理において、オブジェクト関連区間特定部106は、選択された2つの検出区間の内、時間的に前に存在する検出区間の終点フレームにおける当該処理対象オブジェクトの検出結果が限界値である場合(S603:YES)、ステップS604の処理に進み、検出結果が限界値でない場合(S603:NO)、S606の処理へ進む。
ステップS604において、オブジェクト関連区間特定部106は、ステップS602において選択された2つの検出区間の内、時間的に後に存在する検出区間の始点フレームにおける当該処理対象オブジェクトの検出結果が限界値であるか否かを確認する。そして、当該処理対象オブジェクトの検出結果が限界値である場合は(S604:YES)、2つの検出区間と、2つの検出区間の間の非検出区間とを、当該処理対象のオブジェクトに関するオブジェクト関連区間であると特定する(S605)。言い換えると、2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する検出区間の終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。当該処理対象オブジェクトの検出結果が限界値でない場合は(S604:NO)、オブジェクト関連区間特定部106は、ステップS606の処理へ進む。
図4及び図9を用いて、ステップS603及びS604の処理について具体的に説明する。例えば、ステップS602において、2つの検出区間として検出区間1及び3が選択されたとする。この2つの検出区間の内、時間的に前に存在する検出区間とは検出区間1であり、時間的に後に存在する検出区間とは検出区間3である。また、図9において、フレーム55は検出区間1の終点フレームであり、フレーム78は検出区間3の始点フレームである。また、フレーム55及びフレーム78に映るオブジェクトは、図4において識別ID1が付与されているオブジェクト1であり、ステップS603及びS604の処理における当該処理対象オブジェクトである。また、オブジェクト関連区間特定部106において、上記で説明した「フレームの座標点」に関する限界値が設定されているとする。
このとき、オブジェクト関連区間特定部106は、検出区間1の終点フレーム(フレーム55)における、オブジェクト1の検出領域の左上のX座標は0、即ち限界値であるため(S603:YES)、ステップS604の処理に進む。
続いて、オブジェクト関連区間特定部106は、検出区間3の始点フレーム(フレーム78)における、オブジェクト1の検出領域の左上のX座標は0、即ち限界値であるため(S604:YES)、検出区間1の始点フレーム(フレーム4)から、検出区間3の終点フレーム(フレーム98)までの区間を、オブジェクト1に関するオブジェクト関連区間であると特定する。
このように、選択された2つの検出区間の内、時間的に前に存在する検出区間の終点フレーム、及び時間的に後に存在する検出区間の始点フレーム夫々における当該処理対象オブジェクトの検出結果が限界値であれば、選択された2つの検出区間の間の区間において当該処理対象オブジェクトが検出されなかった原因は、オブジェクト検出部102で検出できるオブジェクトの限界を超えたからであると推定できる。
なお、上記の具体例では、オブジェクト関連区間特定部106において、「フレームの座標点」に関する限界値が設定されている場合について説明したが、「フレームの座標点」に関する限界値だけでなく、例えば、上記で説明した人物の顔の「向き」や「大きさ」に関する限界値が設定されていてもよい。また、オブジェクト関連区間特定部106において、上記で説明した「フレームの座標点」、人物の顔の「向き」及び「大きさ」等に関する限界値の内、複数又は全ての限界値が設定されていてもよい。この場合、ステップS603及びS604において、オブジェクト関連区間特定部106は、当該フレームにおける当該処理対象オブジェクトの検出結果が、設定されている限界値の内、少なくとも一つの限界値であるか否かを確認するとしてもよい。
図6に戻って説明を続ける。
ステップS606において、オブジェクト関連区間特定部106は、ステップS602において、選択可能な2つの検出区間の全ての組み合わせが選択されている場合は(S606:YES)、ステップS607の処理へ進み、全ての組み合わせが選択されていない場合は(S606:NO)、S602の処理へ戻る。
ステップS607において、オブジェクト関連区間特定部106は、ステップS601において、全シーンかつ全オブジェクトについて検出区間が抽出されている場合は(S607:YES)、ステップS608の処理に進み、抽出されていない場合は(S607:NO)、S601の処理に戻る。
ステップS608において、オブジェクト関連区間特定部106は、ステップS605の特定結果を基に、ステップS204で識別された各オブジェクトに関するオブジェクト関連区間を決定する。
図10は、ステップS608において決定される、動画における各オブジェクトに関するオブジェクト関連区間情報の一例である。なお、オブジェクト関連区間情報も、動画解析装置100に更に備えられる記憶部において格納されてもよいし、動画解析装置100及び表示装置130からアクセス可能な外部の記憶部において格納されてもよい。
図10において、オブジェクト関連区間情報は、各オブジェクト関連区間のID情報と、各オブジェクト関連区間における処理対象オブジェクトの識別ID情報と、各オブジェクト関連区間の始点及び終点フレーム情報とを含む。
図4及び図10を用いて、ステップS608の処理について、具体的に説明する。なお、ステップS605において、検出区間1の始点フレーム(フレーム4)から検出区間3の終点フレーム(フレーム98)までの区間と、検出区間3の始点フレーム(フレーム78)から検出区間5の終点フレーム(フレーム224)までの区間夫々が、オブジェクト1に関するオブジェクト関連区間であると特定されたとする。また、本具体例において、オブジェクト1が検出された検出区間は、検出区間1、3及び5のみであったとする。
このとき、このステップS605の特定結果を基に、オブジェクト関連区間特定部106は、ステップS608において、図10に示すように、検出区間1の始点フレーム(フレーム4)から検出区間5の終点フレーム(フレーム224)までの区間を、オブジェクト1に関するオブジェクト関連区間であると決定する。このように、ステップS608において、オブジェクト関連区間特定部106は、ステップS605の特定結果を整理する処理を行うことで、各オブジェクトに関するオブジェクト関連区間を決定する。
表示装置130は、例えば、ユーザから一のオブジェクトに関連する動画の再生が指示された場合、この動画解析装置100によって生成された、動画における各オブジェクトに関するオブジェクト関連区間情報を参照し、当該一のオブジェクトに関するオブジェクト関連区間を抽出し、再生することができる。
<まとめ>
実施の形態1に係る動画解析装置100において、オブジェクト関連区間特定部106は、動画において一のオブジェクトが検出されない非検出区間を、下記(1)及び(2)を満たす場合に、当該一のオブジェクトに関するオブジェクト関連区間と特定する。
(1)当該非検出区間と、当該非検出区間と時間的に連続する前方及び後方の、当該一のオブジェクトが検出される各検出区間とが同一のシーンに含まれる。
(2)当該前方の検出区間の終点フレーム及び当該後方の検出区間の始点フレームにおいて夫々検出される当該一のオブジェクト夫々が、当該一のオブジェクトの検出の限界として定められた1以上の限界条件の内少なくとも1つを満たす。限界条件は、当該一のオブジェクトの検出の限界として定められた条件であり、例えば、当該一のオブジェクトが当該終点フレーム又は始点フレームの所定領域において検出される、当該一のオブジェクトの向きが所定の範囲内である、又は当該一のオブジェクトの大きさが所定の大きさの範囲内である等が挙げられる。
上記(1)及び(2)の条件を満たす場合、当該一のオブジェクトが検出されない当該非検出区間は、例えば、(i)実際には当該一のオブジェクトが映っているが、オブジェクト検出技術によって、当該一のオブジェクトが検出されなかったのであろう、(ii)当該一のオブジェクトの動きや、撮影者の動きが大きく、当該一のオブジェクトがフレームアウトしまった区間であろうと推定される。本実施の形態1に係る動画解析装置100によれば、特定のオブジェクトが検出される区間だけでなく、上記(i)及び(ii)のように、当該オブジェクトに関連する区間であろうと推定される区間も、当該オブジェクトに関するオブジェクト関連区間として管理することができる。よって、ユーザは手軽に、動画から特定のオブジェクトに関連する区間を抽出することができ、また抽出されたその動画はユーザにとって見易い動画となる。
<実施の形態2>
実施の形態1に係る動画解析装置100では、オブジェクト関連区間特定部106において、オブジェクトの検出・追跡・識別に関する情報と、シーンの切れ目情報とに基づいて、動画におけるオブジェクト関連区間を特定すると説明した。特に、実施の形態1に係る動画解析装置100では、一のオブジェクトが検出されない非検出区間の両端フレームと夫々隣接する各フレームにおいて、当該一のオブジェクトが限界値であるか否かを判定することで、当該一のオブジェクトが検出されない当該非検出区間が、当該一のオブジェクトに関するオブジェクト関連区間であるか否かを特定した。
これに対して、本実施の形態2に係る動画解析装置では、特に、一のオブジェクトが検出されない非検出区間における映像のブレ(又は、撮影機器の加速度)について判定処理を行うことで、当該一のオブジェクトが検出されない当該非検出区間が、当該一のオブジェクトに関するオブジェクト関連区間であるか否かを特定する。
以下、実施の形態2に係る動画解析装置について説明する。なお、上記実施の形態と重複する構成及び処理ステップには同じ符号を付し、その説明を省略する。
実施の形態2に係る動画解析装置は、上記実施の形態1に係る動画解析装置100と同様、撮影装置及び表示装置と接続される(図1)。撮影装置120及び表示装置130の機能等は、上記実施の形態1と同様であるため説明を省略する。
実施の形態2に係る動画解析装置の内部構成は、上記実施の形態1に係る動画解析装置100(図1)と同様であるため、説明を省略する。ただし、実施の形態2に係る動画解析装置のオブジェクト関連区間特定部106が行う具体的な処理内容は、上記実施の形態1に係る動画解析装置100のそれとは異なる。詳細については、後述する。
次に、実施の形態2に係る動画解析措置の動作について説明する。
実施の形態2に係る動画解析装置は、先ず、上記実施の形態1に係る動画解析装置100と同様、動画の取得(図2:S201)、オブジェクトの検出・追跡・識別(S202〜S204)、及び動画におけるシーンの切れ目を検出(S205)する処理を行う。これらの処理は、実施の形態1のそれと同様であるため、説明を省略する。
続いて、実施の形態2に係る動画解析装置は、オブジェクト関連区間特定部106において、オブジェクトの検出・追跡・識別に関する情報と、シーンの切れ目情報とに基づいて、動画におけるオブジェクト関連区間を特定する(S206A)。このステップS206Aの具体的な処理内容が、上記実施の形態1のステップS206とは異なる。
図11のフローチャートを用いて、このステップS206Aの処理を説明する。
ステップS601及びS602の処理は、実施の形態1と同様である。
ステップS601において、オブジェクト関連区間特定部106は、同一シーンに含まれる検出区間であって、且つ、オブジェクト識別部によって同一であると識別されたオブジェクトが検出された検出区間を抽出する。
ステップS602において、オブジェクト関連区間特定部106は、ステップS601において抽出された検出区間の内、間に別のステップS601において抽出された検出区間を挟まない2つの検出区間を選択する。
続いて、オブジェクト関連区間特定部106は、ステップS602で選択された2つの検出区間の間の非検出区間のおける映像のブレが、所定の条件を満たすか否かを判定する(S1001)。そして、当該映像のブレが所定の条件を満たす場合(S1001:YES)、選択された2つの検出区間と、2つの検出区間の間の非検出区間とを、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。言い換えると、選択された2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する検出区間の終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。当該映像のブレが所定の条件を満たさない場合(S1001:NO)、ステップS606の処理に進む。
ステップS1001の判定基準となる所定の条件を、例えば、2つの検出区間の間の区間において、全フレームの映像のブレの大きさが一定の大きさ以上であるとしてもよい。
映像のブレの大きさを取得する方法として、例えば、連続するフレーム間における各画素の変位を表すオプティカルフローを算出し、算出した各オプティカルフローの平均を計算する。そして、計算した各オプティカルフローの平均を、連続するフレーム間の画像全体の変位とみなし、その各オプティカルフローの平均の大きさを映像のブレの大きさとする方法を用いてもよい。
なお、連続するフレーム間における各画素のオプティカルフローは、各画素の平面方向の変位として表される。これは、連続するフレーム間では、フレーム間の回転量は0に近似できるからである。即ち、連続するフレーム間における各画素のオプティカルフローは、各画素のX軸方向の変位uiと、Y軸方向の変位viを要素とするベクトル(ui,vi)で表すことができる。
図12に、各フレームにおいて算出される映像のブレに関する情報の一例を示す。図12は、フレームID、及び各フレームにおける映像の変位の項目を含む。図12において、各フレームの映像の変位とは、各フレームと、各フレームの一つ前のフレームとの間の画像全体の変位であり、ベクトル(ui,vi)で表されている。例えば、フレーム55の映像の変位は、フレーム55と、フレーム55の一つ前のフレーム54との間の画像全体の変位であり、ベクトル55で表されている。
ここで、図4、図12及び図13を用いて、ステップS1001の処理を具体的に説明する。
なお、本具体例では、ステップS1001の判定基準となる所定の条件として、オブジェクト関連区間特定部106は、2つの検出区間の間の非検出区間において、全フレームの映像のブレの大きさが一定の大きさ以上であるか否かを判定するとする。また、ステップS602において、2つの検出区間として、検出区間1及び3が選択されたとする。検出区間1と3の間の区間は、フレーム56からフレーム77までの区間である。
このとき、ステップS1001において、オブジェクト関連区間特定部106は、検出区間1と3の間の区間である、フレーム56からフレーム77までの区間における、全フレームの映像のブレの大きさが、一定の大きさ以上であるか否かを確認する。図11において、フレーム56からフレーム77までの映像のブレは、ベクトル56からベクトル77で表されている。このベクトル56からベクトル77全ての大きさが、設定されている一定の大きさ以上である場合(S1001:YES)、検出区間1の始点フレーム(フレーム4)から検出区間3の終点フレーム(フレーム98)を、オブジェクト1に関するオブジェクト関連区間であると特定する(S605)。
なお、ステップS1001の判定基準となる所定の条件は、上記の条件に限定されない。例えば、[所定の条件1]2つの検出区間の間の非検出区間における映像のブレの最大値が、設定された閾値以上であるとしてもよい。また、[所定の条件2]2つの区間の間の非検出区間における映像のブレの平均が、設定された閾値以上であるとしてもよい。また、[所定の条件3]2つの区間の間の非検出区間において、映像のブレが閾値以上であるフレームの数が一定数以上であるとしてもよい。また、[所定の条件4]2つの検出区間の間の非検出区間において、各フレームの映像のブレの変化量が一定の変化量以上であるとしてもよい。
また、上記では、ステップS1001において、オブジェクト関連区間特定部106は、ステップS602で選択された2つの検出区間の間の非検出区間における映像のブレが所定の条件を満たすか否かを判定することで、オブジェクト関連区間を特定すると説明したが、オブジェクト関連区間を特定するための処理は、このステップS1001に限定されない。
例えば、オブジェクト関連区間特定部106は、撮影装置にジャイロセンサ等の手振れ感知センサが内蔵されている場合は、この手振れ感知センサによって計測された撮影装置の加速度情報を用いて、オブジェクト関連区間を特定してもよい。具体的には、ステップS602の処理後、ステップS1001の代わりに、オブジェクト関連区間特定部106は、ステップS602で選択された2つの検出区間の間の非検出区間が撮影された際の、撮影装置の加速度が所定の条件を満たすか否かを確認する(S1001A)としてもよい。そして、当該加速度が所定の条件を満たす場合は(S1001A:YES)、2つの検出区間と、2つの検出区間の間の非検出区間とを、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定し(S605)、当該加速度が所定の条件を満たさない場合は(S1001A:NO)、ステップS606の処理に進むとしてもよい。
なお、このステップS1001Aの判定基準となる所定の条件を、2つの検出区間の間の非検出区間が撮影された際の、撮影装置の加速度の大きさの最大値が一定の大きさ以上であるとしてもよい。
このように、選択された2つの検出区間の間の非検出区間における、映像のブレが所定の大きさ以上であるという条件や、撮影機器の加速度の大きさが所定の大きさ以上であるといった条件を満たせば、当該非検出区間で当該処理対象オブジェクトが検出されなかった原因は、映像のブレ又は撮影機器のブレのためであると推定できる。
続く、ステップS606及びS607の処理は実施の形態1と同様であるため、説明を省略する。
<まとめ>
実施の形態2に係る動画解析装置において、オブジェクト関連区間特定部106は、動画において一のオブジェクトが検出されない非検出区間を、下記(1A)及び(2A)を満たす場合に、当該一のオブジェクトに関するオブジェクト関連区間と特定する。
(1A)当該非検出区間と、当該非検出区間と時間的に連続する前方及び後方の、当該一のオブジェクトが検出される各検出区間とが同一のシーンに含まれる。
(2A)当該非検出区間における映像のブレ(又は撮影機器の加速度の変位)が所定の度合い以上である。
上記(1A)及び(2A)の条件を満たす場合、当該一のオブジェクトが検出されない当該非検出区間は、例えば、(iii)実際には当該一のオブジェクトが映っているが、映像のブレによって、当該一のオブジェクトが検出されなかったのであろう、(iv)撮影者の動きが大きく、当該一のオブジェクトがフレームアウトしまった区間であろうと推定される。本実施の形態2に係る動画解析装置によれば、特定のオブジェクトが検出される区間だけでなく、上記(iii)や(iv)のように、当該オブジェクトに関連する区間であろうと推定される区間も、オブジェクト関連区間として管理することができる。よって、ユーザは手軽に、動画から特定のオブジェクトに関する区間を抽出することができ、また抽出された動画はユーザにとって見易い動画となる。
<実施の形態3−1>
本実施の形態3−1に係る動画解析装置では、特に、一のオブジェクトが検出されない非検出区間において検出される、当該一のオブジェクトとは別のオブジェクトについて判定処理を行うことで、当該一のオブジェクトが検出されない当該非検出区間が、当該一のオブジェクトに関するオブジェクト関連区間であるか否かを特定する。
以下、実施の形態3−1に係る動画解析装置について説明する。なお、上記各実施の形態と重複する構成及び処理ステップには同じ符号を付し、その説明を省略する。
実施の形態3−1に係る動画解析装置は、上記実施の形態1に係る動画解析装置100と同様、撮影装置及び表示装置と接続される(図1)。撮影装置120及び表示装置130の機能等は、上記実施の形態1と同様であるため説明を省略する。
実施の形態3−1に係る動画解析装置の内部構成は、上記実施の形態1に係る動画解析装置100(図1)と同様であるため、説明を省略する。ただし、実施の形態3−1に係る動画解析装置のオブジェクト関連区間特定部106が行う具体的な処理内容は、上記実施の形態1に係る動画解析装置100のそれとは異なる。詳細については、後述する。
次に、実施の形態3−1に係る動画解析装置の動作について説明する。
実施の形態3−1に係る動画解析装置は、先ず、上記実施の形態1に係る動画解析装置100と同様、動画の取得(図2:S201)、オブジェクトの検出・追跡・識別(S202〜S204)、及び動画におけるシーンの切れ目を検出(S205)する処理を行う。これらの処理は、実施の形態1のそれと同様であるため、説明を省略する。
続いて、実施の形態3−1に係る動画解析装置は、オブジェクト関連区間特定部106において、オブジェクトの検出・追跡・識別に関する情報と、シーンの切れ目情報とに基づいて、動画におけるオブジェクト関連区間を特定する(S206B)。このステップS206Bの具体的な処理内容が、上記実施の形態1のステップS206とは異なる。
図14のフローチャートを用いて、このステップS206Bの処理を説明する。
ステップS601及びステップS602の処理は実施の形態1と同様である。
ステップS601において、オブジェクト関連区間特定部106は、同一シーンに含まれる検出区間であって、且つ、オブジェクト識別部104によって同一であると識別されたオブジェクトが検出された検出区間を抽出する。
ステップS602において、オブジェクト関連区間特定部106は、ステップS601において抽出された検出区間の内、間に別のステップS601において抽出された検出区間を挟まない2つの検出区間を選択する。
続いて、オブジェクト関連区間特定部106は、ステップS602で選択された2つの検出区間の間の非検出区間において、当該処理対象オブジェクトとは別のオブジェクトが検出される区間長が所定の条件を満たすか否かを判定する(S1201)。そして、別のオブジェクトが検出される区間長が所定の条件を満たす場合(S1201:YES)、選択された2つの検出区間と、2つの検出区間の間の非検出区間とを、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。言い換えると、選択された2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する検出区間の終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間のであると特定する(S605)。そして、別のオブジェクトが検出される区間長が所定の条件を満たさない場合(S1201:NO)、ステップS605の処理に進む。
ステップS1201の判定基準となる所定の条件を、オブジェクト関連区間特定部106は、例えば、当該別のオブジェクトが検出される区間長が一定時間以上であるとしてもよい。
なお、この一定時間として、例えば、ステップS602で選択された2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する検出区間の終点フレームまでの区間に対して十分短い区間長である、2つの検出区間の間の区間長に対して、当該処理対象オブジェクトとは別のオブジェクトが検出された区間の区間長の割合が一定の割合以上の時間を設定してもよい。
続く、ステップ606〜S608の処理は、上記実施の形態1と同様であるため、説明を省略する。
ここで、図4及び図15を用いて、ステップS1201の処理を具体的に説明する。
なお、本具体例では、ステップS1201の判定基準となる所定の条件を、当該非検出区間の区間長に対する、当該別のオブジェクトが検出される区間長の割合が5割以上であるとする。また、ステップS602において、2つの検出区間として、検出区間1及び3が選択されたとする。検出区間1と3の間の非検出区間は、フレーム56からフレーム77までの区間であり、フレーム数は22である。よって、検出区間1と3の間の非検出区間の区間長の5割以上とは、フレーム数22×0.5=11以上を意味する。また、このフレーム56からフレーム77の区間の内、フレーム60からフレーム74の区間は、オブジェクト2が検出される検出区間2である。よって、ステップS1201における、当該別のオブジェクトはオブジェクト2である。また、当該非検出区間におけるオブジェクト2が検出される区間とは検出区間2であり、そのフレーム数は15である。
このとき、ステップS1201において、オブジェクト関連区間特定部106は、オブジェクト2が検出される区間長は、フレーム数15であり、検出区間1と3の間の区間長の5割、フレーム数11以上であるため(S1201:YES)、2つの検出区間の内、時間的に前に存在する検出区間の始点フレーム(フレーム4)から、時間的に後に存在する検出区間の終点フレーム(フレーム98)までの区間を、オブジェクト1に関するオブジェクト関連区間であると特定する。
このように、選択された2つの検出区間の間の非検出区間の区間長に対して、当該処理対象オブジェクトとは別のオブジェクトが検出される区間長が所定時間以上であるといった条件を満たせば、選択された2つの検出区間の間の非検出区間で当該一のオブジェクトが検出されなかった原因は、撮影者が、ある一定の時間だけ当該一のオブジェクトとは別のオブジェクトに視点を向けて、動画を撮影したためであろうと推定できる。
<まとめ>
実施の形態3−1に係る動画解析装置において、オブジェクト関連区間特定部106は、動画において一のオブジェクトが検出されない非検出区間を、下記(1B)及び(2B)を満たす場合に、当該一のオブジェクトに関するオブジェクト関連区間と特定する。
(1B)当該非検出区間と、当該非検出区間と時間的に連続する前方及び後方の、当該一のオブジェクトが検出される各検出区間とが同一のシーンに含まれる。
(2B)当該非検出区間において検出される当該一のオブジェクトとは別のオブジェクトが検出される区間長が、所定の時間以上である。
上記(1B)及び(2B)の条件を満たす場合、当該一のオブジェクトが検出されない当該非検出区間は、例えば、(v)撮影者が一定時間だけ、例えば気まぐれで、当該一のオブジェクトの代わりに、当該一のオブジェクトとは別のオブジェクトを撮影した区間であろうと推定される。本実施の形態3に係る動画解析装置によれば、特定のオブジェクトが検出される区間だけでなく、上記(v)のように、当該オブジェクトに関連する区間であろうと推定される区間も、オブジェクト関連区間として管理することができる。よって、ユーザは手軽に、動画から特定のオブジェクトに関する区間を抽出することができ、また抽出された動画はユーザにとって見易い動画となる。
<実施の形態3−2>
本実施の形態3−2に係る動画解析装置では、特に、一のオブジェクトが検出されない非検出区間において、当該一のオブジェクトが映っているであろうと推定される領域の少なくとも一部に、当該一のオブジェクトとは別のオブジェクトが存在する場合は、当該一のオブジェクトが検出されない当該非検出区間を、当該一のオブジェクトに関するオブジェクト関連区間であると特定する。
以下、実施の形態3−2に係る動画解析装置について説明する。なお、上記各実施の形態と重複する構成及び処理ステップには同じ符号を付し、その説明を省略する。
実施の形態3−2に係る動画解析装置は、上記実施の形態1係る動画解析装置100と同様、撮影装置及び表示装置と接続される(図1)。撮影装置120及び表示装置130の機能等は、上記実施の形態1と同様であるため説明を省略する。
実施の形態3−2に係る動画解析装置の内部構成は、上記実施の形態1に係る動画解析装置100(図1)と同様であるため、説明を省略する。ただし、実施の形態3−2に係る動画解析装置のオブジェクト関連区間特定部106が行う具体的な処理内容は、上記実施の形態1に係る動画解析装置100のそれとは異なる。詳細については、後述する。
次に、実施の形態3−2に係る動画解析措置の動作について説明する。
実施の形態3−2に係る動画解析装置は、先ず、上記実施の形態1に係る動画解析装置100と同様、動画の取得(図2:S201)、オブジェクトの検出・追跡・識別(S202〜S204)、及び動画におけるシーンの切れ目を検出(S205)する処理を行う。これらの処理は、実施の形態1のそれと同様であるため、説明を省略する。
続いて、実施の形態3−2に係る動画解析装置は、オブジェクト関連区間特定部106において、オブジェクトの検出・追跡・識別に関する情報と、シーンの切れ目情報とに基づいて、動画におけるオブジェクト関連区間を特定する(S206C)。このステップS206Cの具体的な処理内容が、上記実施の形態1のステップS206とは異なる。
図16のフローチャートを用いて、このステップS206Cの処理を説明する。
ステップS601及びステップS602の処理は実施の形態1と同様である。
ステップS601において、オブジェクト関連区間特定部106は、同一シーンに含まれる検出区間であって、且つ、オブジェクト識別部104によって同一であると識別されたオブジェクトが検出された検出区間を抽出する。
ステップS602において、オブジェクト関連区間特定部106は、ステップS601において抽出された検出区間の内、間に別のステップS601において抽出された検出区間を挟まない2つの検出区間を選択する。
続いて、オブジェクト関連区間特定部106は、2つの検出区間の間の非検出区間の全フレームにおいて、当該処理対象オブジェクトとは異なる別のオブジェクトが検出される場合(S2201:YES)、ステップS2202の処理に進み、当該処理対象オブジェクトとは異なる別オブジェクトが検出されない場合(S2201:NO)、ステップS606の処理へ進む。
ステップS2202において、オブジェクト関連区間特定部106は、ステップS602で選択された2つの検出区間の間の非検出区間の全フレームにおける、当該別のオブジェクトが検出された検出領域夫々と、2つの検出区間の内、時間的に前に存在する検出区間の終点フレームにおける、当該処理対象オブジェクトの検出領域に、その検出領域の周辺所定領域を加えた領域とが、一部でも重なるか否かを判定する。そして、一部でも重なる場合は(S2202:YES)、ステップS2203の処理に進み、全く重ならない場合は(S:2202:NO)、ステップS606の処理に進む。
ステップS2203において、オブジェクト関連区間特定部106は、2つの検出区間の内、時間的に後に存在する検出区間の始点フレームにおける、当該処理対象オブジェクトの検出領域と、2つの検出区間の内、時間的に前に存在する検出区間の終点フレームにおける、当該処理対象オブジェクトの検出領域に、その検出領域の周辺所定領域を加えた領域とが、一部でも重なるか否かを判定する。そして、一部でも重なる場合は(S2203:YES)、2つの検出区間と、2つの検出区間の間の非検出区間とを、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。言い換えると、2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する検出区間の終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。そして、全く重ならない場合は(S2203:NO)、ステップS606の処理に進む。
続く、ステップ606〜S608の処理は、上記実施の形態1と同様であるため、説明を省略する。
ここで、図4及び図17を用いて、ステップS2201〜S2203の処理を具体的に説明する。
なお、本具体例では、ステップS602において、2つの検出区間として、検出区間3及び検出区間5が選択されたとする。検出区間3及び5で検出される同一のオブジェクトである処理対象オブジェクトとは、オブジェクト1であり、図17においてこのオブジェクト1を人物Aとする。
また、検出区間3と検出区間5の間の区間は、フレーム99からフレーム112であり、この間の区間は、検出区間4(フレーム92からフレーム133)の区間に含まれる。検出区間4は、オブジェクト3が検出される区間である。このオブジェクト3が、検出区間3と検出区間5の間の非検出区間の全フレームにおいて検出される、当該処理対象オブジェクトとは異なる別のオブジェクトであり、図17においてこのオブジェクト3を人物Bとする。
このとき、検出区間3と検出区間5の間の非検出区間、即ちフレーム99からフレーム112の区間の全フレームにおいて、オブジェクト1(人物A)とは別のオブジェクト3(人物B)が検出されるため(S2201:YES)、オブジェクト関連区間特定部106は、ステップS2202の処理に進む。
また、検出区間3と検出区間5の間の非検出区間、即ちフレーム99からフレーム112の区間において、当該別のオブジェクトである人物Bが検出された検出領域とは、例えば、図17に示すように、フレーム104では104b、フレーム105では105bの領域である。また、検出区間3と検出区間5の内、時間的に前に存在する検出区間は、検出区間3であり、その終点フレームはフレーム98である。そして、フレーム98における、当該処理対象オブジェクトである人物Aが検出される検出領域は、98aの領域である。また、この98aの領域の周辺所定領域を、図17において斜線が付されている98cの領域とする。
図17のフレーム104に着目すると、フレーム104の人物Bの検出領域である104bの領域と、フレーム98における人物Aの検出領域である98aの領域に、98aの領域の周辺所定領域である98cの領域を加えた領域とが、一部重なっている。また、フレーム105についても同様に、105bの領域と、98aの領域に98cの領域を加えた領域とが一部重なっている。このフレーム105及びフレーム106と同様に、検出区間3と検出区間5の間の非検出区間である、フレーム99からフレーム112の全フレームにおいて、人物Bが検出された検出領域と、98aの領域に98cの領域を加えた領域とが一部でも重なっている場合(S2202:YES)、オブジェクト関連区間特定部106は、ステップS2203の処理へ進む。
一方、検出区間3と検出区間5の内、時間的に後に存在する検出区間は、検出区間5であり、その始点フレームはフレーム113である。そして、フレーム113における、当該処理対象オブジェクトである人物Aが検出される検出領域は、113aの領域である。
図17のフレーム113に着目すると、フレーム113における人物Aの検出領域である113aの領域と、フレーム98における人物Aの検出領域である98aの領域に、98aの領域の周辺所定領域である98cの領域を加えた領域とが、一部重なっている(S2203:YES)。この場合、オブジェクト関連区間特定部106は、検出区間3の始点フレーム(フレーム78)から、検出区間5の終点フレーム(フレーム224)までの区間を、人物A(オブジェクト1)に関するオブジェクト関連区間であると特定する(S605)。
このようにステップS2201〜S2203の処理が行われることで、2つの検出区間の間の区間で人物Aが検出されない原因は、この間の区間が撮影された際に、撮影者から見て、人物Bが人物Aの前に重なる位置に存在していたためであろうと推定できる。
このように、選択された2つの検出区間の間の非検出区間の全フレームにおける、当該処理対象オブジェクトとは別のオブジェクトの各検出領域と、2つの検出区間の内、時間的に後に存在する検出領域の始点フレームにおける当該処理対象オブジェクトの検出領域の夫々と、2つの検出区間の内、時間的に前に存在する検出領域の終点フレームにおける当該処理対象オブジェクトの検出領域に、その周辺所定領域を加えた領域とが、少なくとも一部重なる場合、選択された2つの検出区間の間の非検出区間で当該処理対象オブジェクトが検出されなかった原因は、撮影者から見て、当該処理対象オブジェクトの前に、当該処理対象オブジェクトとは別のオブジェクトが存在し、当該処理対象オブジェクトがその別のオブジェクトの後ろに隠れてしまっていたためであろうと推定される。
また、ステップS2202及びS2203において、当該処理対象オブジェクトの検出領域に、その周辺所定領域を加えて、当該処理対象オブジェクトと当該別のオブジェクトの重なりについて判定処理を行うと説明したが、周辺所定領域を加えるのは、オブジェクトが検出されない区間における当該処理対象オブジェクトの移動を考慮するためである。
例えば、図17に示すように、検出区間3の始点フレームから検出区間5の終点フレームまでは、人物Aと人物Bがサッカーボールを追って競り合っている区間である。この区間において、人物Aと人物Bは静止し続けてはおらず、競り合って動いている。そのため、図17に示すように、検出区間3の終点フレーム(フレーム98)で検出される人物Aの検出領域と、検出区間5の始点フレーム(フレーム113)で検出される人物Aの検出領域とは必ずしも一致しないと考えられる。また同様に、人物Aが検出されない検出区間3と検出区間5の間の区間においても、人物Aが写っているであろうと思われる領域、即ち、人物Aが撮影者から見て人物Bの後方に重なって写っているであろうと思われる領域は、変化すると考えられる。このような、当該処理対象オブジェクトの検出領域の変位を考慮し、ステップS2202及びS2203において、オブジェクト関連区間特定部106は、当該処理対象オブジェクトの検出領域に、その周辺所定領域を加えて、当該処理対象オブジェクトと当該処理対象オブジェクトとは別のオブジェクトとの重なりについて判定処理を行うことが好ましい。
ここで、図18及び図19を用いて、当該処理対象オブジェクトの検出領域に対する、その周辺所定領域の設定例について説明する。
図18は、当該検出領域に対する周辺所定領域を、当該検出領域の大きさに応じて設定する一例を説明する図である。図18では、検出区間3のフレーム98における、オブジェクト1の検出領域98aに対する周辺所定領域を、斜線を付した領域98dとしている。領域98dは、検出領域98aの四辺から、検出領域98aの縦横幅100に対して10パーセント=10ピクセル外側の領域である。このように、当該検出領域に対する周辺所定領域を、例えば、当該検出領域の四辺から、当該検出領域の縦横幅に対して所定の割合外側の領域としてもよい。
なお、図18の例では、当該検出領域の縦横幅に対して一律10パーセント外側の領域を周辺所定領域としたが、縦幅に対して10パーセント、横幅に対して15パーセントといったように、縦横でその割合を変えてもよい。
図19は、当該検出領域に対する周辺所定領域を、複数のフレームにおける、当該処理対象オブジェクトの検出領域の変位に応じて設定する一例を説明する図である。図19では、フレーム83からフレーム98までの区間において、当該処理対象オブジェクト(オブジェクト1)の検出領域が、一定移動量ずつ、X軸方向に50ピクセル移動しているとする(83a→98a)。この移動から、フレーム98からフレーム113までの区間においても、当該処理対象オブジェクトは、フレーム83からフレーム98までの区間と同様に移動する可能性が高いと推定される。そこで、フレーム83からフレーム98までの区間における当該処理対象オブジェクトの移動を考慮し、図19(下図)に示すように、検出領域98aに対しする周辺所定領域を、斜線が付された領域98eとしてもよい。領域98eは、図19(下図)に示すように、検出領域98aの右辺に関しては、右辺から50ピクセル外側の領域を周辺所定領域と設定している。このように、当該検出領域に対する周辺所定領域を、例えば、当該処理対象オブジェクトの検出領域の変位を考慮して設定してもよい。
なお、図19の例では、2つの検出区間の内、時間的に前に存在する検出区間の終点フレーム(フレーム98)から、時間的に後に存在する検出区間の始点フレーム(フレーム113)までの間が、15フレームであったため、フレーム98から時間的に15フレーム前に存在するフレーム83から、フレーム98までの当該処理対象オブジェクトの変位を考慮し、周辺所定領域を設定した。周辺所定領域を設定する方法はこれに限定されず、時間的に前に存在する検出区間の終点フレーム(フレーム98)から一定数前に存在するフレームから、フレーム98までの当該処理対象オブジェクトの変位を考慮し、周辺所定領域を設定してもよい。
また、図19の例では、X軸プラス方向に当該処理対象オブジェクトの検出領域が移動した場合を例に挙げたが、この他の方向に当該処理対象オブジェクトの検出領域が移動する場合は、その移動した方向の変位に応じて、周辺所定領域を設定すればよい。
また、図19の例では、フレーム83からフレーム98までの区間において、当該処理対象オブジェクトは、一定移動量ずつ変位する例を挙げたが、当該処理対象オブジェクトの変位は一定移動量ずつとは限らない。そのため、フレーム83とフレーム98の2つのフレーム間での変位を考慮するだけでなく、オブジェクト追跡部103によって生成される当該処理対象オブジェクトの追跡情報に基づいて、連続する2つのフレーム間における当該処理対象オブジェクトの変位を算出し、その変位の平均を計算することで、フレーム83からフレーム98までの平均変位を算出し、その平均変位に応じて周辺所定領域を設定してもよい。
また、オブジェクトの変位は、オブジェクトの検出領域の移動に限定されず、オブジェクトの検出領域の大きさが変化する場合も考えられる。オブジェクトの検出領域の大きさが変化する場合は、そのオブジェクトの検出領域の大きさの変化に応じて、周辺所定領域を設定してもよい。
<まとめ>
実施の形態3−2に係る動画解析装置において、オブジェクト関連区間特定部106は、動画において一のオブジェクトが検出されない非検出区間を、下記(1C)〜(3C)を満たす場合に、当該一のオブジェクトに関するオブジェクト関連区間と特定する。
(1C)当該非検出区間と、当該非検出区間と時間的に連続する前方及び後方の、当該一のオブジェクトが検出される各検出区間とが同一のシーンに含まれる。
(2C)当該非検出区間は、当該一のオブジェクトとは別のオブジェクトが検出される区間である。
(3C)当該非検出区間の各フレームにおいて検出される、当該一のオブジェクトとは別のオブジェクトの検出領域、及び当該検出領域と時間的に連続する後方の(当該一のオブジェクトが検出される)検出区間の始点フレームにおいて検出される、当該一のオブジェクトの検出領域の夫々と、当該検出領域と時間的に連続する前方の(当該一のオブジェクトが検出される)検出区間の終点フレームにおける、当該一のオブジェクトの検出領域に、その周辺所定領域を加えた領域とが、少なくとも一部重なる。
上記(1C)〜(3C)の条件を満たす場合、当該一のオブジェクトが検出されない当該非検出区間は、(vi)撮影者から見て当該一のオブジェクトの前に、当該一のオブジェクトとは別のオブジェクトが存在し、当該一のオブジェクトがその別のオブジェクトの後ろに隠れてしまっているのであろうと推定される。本実施の形態3−2に係る動画解析装置によれば、オブジェクトが検出される区間だけでなく、上記(vi)のように推定される区間も、オブジェクト関連区間として管理することができる。よってユーザは手軽に、動画から特定のオブジェクトに関する区間を抽出することができ、また抽出された動画はユーザにとって見易い動画となる。
<実施の形態4>
本実施の形態4に係る動画解析装置では、特に、一のオブジェクトが検出されない非検出区間の区間長について判定処理を行うことで、当該一のオブジェクトが検出されない当該非検出区間が、当該一のオブジェクトに関するオブジェクト関連区間であるか否かを特定する。
以下、実施の形態4に係る動画解析装置について説明する。なお、上記各実施の形態と重複する構成及び処理ステップには同じ符号を付し、その説明を省略する。
実施の形態4に係る動画解析装置は、上記実施の形態1に係る動画解析装置100と同様、撮影装置及び表示装置と接続される(図1)。撮影装置120及び表示装置130の機能等は、上記実施の形態1と同様であるため説明を省略する。
実施の形態4に係る動画解析装置の内部構成は、上記実施の形態1に係る動画解析装置100(図1)と同様であるため、説明を省略する。ただし、実施の形態4に係る動画解析装置のオブジェクト関連区間特定部106が行う具体的な処理内容は、上記実施の形態1に係る動画解析装置100のそれとは異なる。詳細については、後述する。
次に、実施の形態4に係る動画解析措置の動作について説明する。
実施の形態4に係る動画解析装置は、先ず、上記実施の形態1に係る動画解析装置100と同様、動画の取得(図2:S201)、オブジェクトの検出・追跡・識別(S202〜S204)、及び動画におけるシーンの切れ目を検出(S205)する処理を行う。これらの処理は、実施の形態1のそれと同様であるため、説明を省略する。
続いて、実施の形態4に係る動画解析装置は、オブジェクト関連区間特定部106において、オブジェクトの検出・追跡・識別に関する情報と、シーンの切れ目情報とに基づいて、動画におけるオブジェクト関連区間を特定する(S206D)。このステップS206Dの具体的な処理内容が、上記実施の形態1のステップS206とは異なる。
図20のフローチャートを用いて、このステップS206Dの処理を説明する。
ステップS601及びS602の処理は実施の形態1と同様である。
ステップS601において、オブジェクト関連区間特定部106は、同一シーンに含まれる検出区間であって、且つ、オブジェクト識別部によって同一であると識別されたオブジェクトが検出された検出区間を抽出する。
ステップS602において、オブジェクト関連区間特定部106は、ステップS601において抽出された検出区間の内、間に別のステップS601において抽出された検出区間を挟まない2つの検出区間を選択する。
続いて、オブジェクト関連区間特定部106は、ステップS602において選択された2つの検出区間の間の非検出区間の区間長が、所定の条件を満たすか否かを判定する(S1301)。そして、2つの検出区間の間の非検出区間の区間長が、所定の条件を満たす場合は(S1301:YES)、2つの検出区間と、2つの検出区間の間の非検出区間とを、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。言い換えると、2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する検出区間の終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。そして、2つの検出区間の間の区間長が、所定の条件を満たさない場合は(S1301:NO)、ステップS606の処理に進む。
ステップS1301の判定基準とする所定の条件を、例えば、一定時間以下であるとしてもよい。また、2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する検出区間の終点フレームまでの区間の区間長に対して、十分短いとしてもよい。
ここで、図4及び図21を用いて、ステップS1301の処理を具体的に説明する。
なお、本具体例では、ステップS1301の判定基準となる所定の条件を、2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する区間の終点フレームまでの区間長に対する、2つの検出区間の間の区間長の割合が3割以下であるとする。また、ステップS602において、2つの検出区間として、検出区間1及び3が選択されたとする。検出区間1の始点フレームから検出区間3の終点フレームまで区間は、フレーム4からフレーム98までの区間であり、フレーム数は95である。よって、フレーム数95の3割以下とは、フレーム数28以下を意味する。また、検出区間1と検出区間3の間の非検出区間は、フレーム56からフレーム77の区間であり、フレーム数は22である。
このとき、ステップS1301において、オブジェクト関連区間特定部106は、検出区間1と検出区間3の間の非検出区間の区間長は、フレーム数22であり、検出区間1の始点フレームから検出区間3の終点フレームまでの区間長の3割、即ちフレーム数28以下であるため(1301:YES)、2つの検出区間の内、時間的に前に存在する検出区間の始点フレーム(フレーム4)から、時間的に後に存在する検出区間の終点フレーム(フレーム98)までの区間を、オブジェクト1に関するオブジェクト関連区間であると特定する。
このように、選択された2つの検出区間の間の非検出区間の区間長が所定時間以内であるといった条件を満たせば、選択された2つの検出区間の間の非検出区間で当該処理対象オブジェクトが検出されなかった原因は、撮影者が、ある一定の時間だけ当該処理対象オブジェクトを映さなかったためであろうと推定できる。
ステップS606及びS607の処理は実施の形態1と同様である。
<まとめ>
実施の形態4に係る動画解析装置において、オブジェクト関連区間特定部106は、動画において一のオブジェクトが検出されない非検出区間を、下記(1D)及び(2D)を満たす場合に、当該一のオブジェクトに関するオブジェクト関連区間と特定する。
(1D)当該非検出区間と、当該非検出区間と時間的に連続する前方及び後方の、当該一のオブジェクトが検出される各検出区間とが同一のシーンに含まれる。
(2D)当該非検出区間の区間長は、所定の時間以内である。
上記(1D)及び(2D)の条件を満たす場合、当該一のオブジェクトが検出されない当該非検出区間は、例えば、(vii)撮影者が、例えば気まぐれで、ある一定の時間だけ当該一のオブジェクトを映さなかった区間であろう、(viii)区間長が一定時間以内と当該一のオブジェクトが検出される区間に対して相対的に短いので、当該一のオブジェクトに関する区間として管理されても問題ないだろうと推定される。本実施の形態4に係る動画解析装置によれば、特定のオブジェクトが検出される区間だけでなく、上記(vii)や(viii)のように、当該オブジェクトに関連する区間であろうと推定される区間も、オブジェクト関連区間として管理することができる。よって、ユーザは手軽に、動画から特定のオブジェクトに関する区間を抽出することができ、また抽出された動画はユーザにとって見易い動画となる。
<実施の形態5>
本実施の形態5においても、上記実施の形態1〜4に係る動画解析装置と同様、一のオブジェクトが検出される検出区間だけでなく、当該一のオブジェクトが検出されない非検出区間が、当該一のオブジェクトに関するオブジェクト関連区間であるか否か特定する。
また、本実施の形態5では、更に、動画における盛り上がりのある区間であるハイライト区間に着目する。
例えば、ハイライト区間として、サッカーのゴールシーンを例に挙げる。例えば、ある動画において、被写体である子供がゴールに向かってボールを蹴った映像から、ボールがゴールネットを揺らす映像に切り替わり、その後、観客の歓声の様子を撮影した映像に切り替わり、その後、子供がゴールを喜ぶ映像に切り替わるといった一連の区間が存在するとする。この動画において、その被写体である子供についてダイジェスト動画を作る際、従来技術では、この子供が検出されない区間(ボールがゴールネットを揺らす区間、観客の歓声の区間)は、そのダイジェスト動画として抽出することができない。そのため、そのダイジェスト動画は断続的なものとなってしまい、ユーザにとって見易いダイジェスト動画とはならない。ユーザは、この子供が写る区間だけでなく、動画におけるハイライト区間を含めた一連の区間を、この子供に関する区間として閲覧したいと考えられる。
なお、動画から抽出される各ハイライト区間において、全てのフレームから一のオブジェクトが検出される場合や、一部のフレームから一のオブジェクトが検出される場合や、全てのフレームから一のオブジェクトが検出されない場合がある。
以上を鑑み、実施の形態5に係る動画解析装置は、動画における一のオブジェクトに関するオブジェクト関連区間を特定する。
図22は、実施の形態5に係る動画解析装置1000の機能ブロック図である。
動画解析装置1000は、上記実施の形態1に係る動画解析装置100(図1)と同様、撮影装置120及び表示装置130に接続されている。撮影装置120及び表示装置130の機能は、上記実施の形態1と同様であるため説明を省略する。
次に、動画解析装置1000の内部構成について説明する。
動画解析装置1000は、上記実施の形態1に係る動画解析装置100の構成(図1)に加えて、ハイライト検出部1401を備える。また、動画解析装置1000は、動画解析装置100の構成からオブジェクト関連区間特定部106を除き、その代わりにオブジェクト関連区間特定部1106を備える。
ハイライト検出部1401は、動画取得部101において取得された動画から、ハイライト区間を検出する。ハイライト検出部1401の詳細な処理内容については後述する。
オブジェクト関連区間特定部1106は、動画において、各オブジェクトに関するオブジェクト関連区間を特定する。このオブジェクト関連区間特定部1106の処理の詳細は後述する。
次に、動画解析措置1000の動作について説明する。
図15は、実施の形態5に係る動画解析装置1000の全体動作を示すフローチャートである。
動画解析装置1000は、先ず、上記実施の形態1に係る動画解析装置100と同様、動画の取得(図2:S201)、オブジェクトの検出・追跡・識別(S202〜S204)、及び動画におけるシーンの切れ目を検出(S205)する処理を行う。これらの処理は、実施の形態1のそれと同様であるため、説明を省略する。
次に、動画解析装置1000は、ハイライト検出部1401において、動画におけるハイライト区間を検出する(S1501)。
「ハイライト区間」とは、動画において盛り上がりのある区間を示す。ハイライト区間を検出する方法としては、例えば音響のパワーが一定以上になる区間を抽出し、ハイライト区間とする方法がある。この方法を用いることで、ハイライト検出部1401は、歓声などにより周りにいる人物が盛り上がっている区間や、花火大会における打ち上げ花火が上がる区間などを、ハイライト区間として検出することができる。なお、ハイライト区間を検出する方法は、これに限定されない。例えば、動画において、シーンを識別するための情報や、ズームイン・ズームアウト等の撮影時の操作に関する情報が付加されている場合は、これらの情報をハイライト区間の検出に用いてもよい。例えば、ズームイン操作が行われた区間が所定の時間以上の場合、そのズームイン操作が行われた始点フレームから、当該ズームイン操作が行われた区間が含まれるシーンの終点フレームまでを、ハイライト区間とするとしてもよい。
なお、このハイライト区間情報は、動画における各ハイライトのID情報と、各ハイライト区間の始点及び終点フレーム情報とを含むとし、例えば、動画解析装置100に更に備えられる記憶部において格納されてもよいし、動画解析装置100からアクセス可能な外部の記憶部において格納されてもよい。
次に、オブジェクト関連区間特定部1106は、ステップS202〜S204の処理によって生成されるオブジェクトの検出・追跡・識別に関する情報と、ステップS205の処理によって生成されるシーンの切れ目情報と、ステップS1501の処理によって生成されるハイライト区間情報とに基づいて、動画におけるオブジェクト関連区間を特定する(S206E)。
図24のフローチャートを用いて、ステップS206Eの処理について説明する。
上記実施の形態1では、オブジェクト関連区間特定部106は、先ず、同一シーンに含まれる検出区間であって、且つ、オブジェクト識別部104によって同一であると識別されたオブジェクトが検出された検出区間を抽出する(図6:S601)と説明した。
これに対して、オブジェクト関連区間特定部1106は、同一シーンに含まれる区間であって、且つ、同一の識別IDが付与されたオブジェクトが検出される検出区間に加え、更に、同一シーンに含まれる区間であって、且つ、ステップS1501で検出されたハイライト区間を抽出する(S1601)。
次に、オブジェクト関連区間特定部1106は、ステップS1601において抽出された検出区間及びハイライト区間の内、間に別のステップS1601において抽出された区間を挟まない2つの区間を選択する(S1602)。
図4を用いて、このステップS1602の処理を具体的に説明する。
先ず、ステップS1601において抽出された区間が、検出区間1、3及び5と、ハイライト区間Aであるとする。また、ハイライト区間の始点フレームはフレーム106であり、終点フレームはフレーム123であるとする。
このとき、ステップS1602において、間に別のステップS1601において抽出された区間を挟まない2つの区間として、検出区間1と3、又は検出区間3とハイライト区間A、又はハイライト区間Aと検出区間5の組み合わせが選択される。その他の区間の組み合わせは、間に別のステップS1601において抽出された区間を挟むため選択されない。
続く、ステップS1301及びS605の処理は、実施の形態4と同様である。ステップS1301において、オブジェクト関連区間特定部1106は、ステップS1602において選択された2つの区間の間の非検出区間の区間長が所定の条件を満たす場合(1301:YES)、2つの検出区間の内、時間的に前に存在する検出区間の始点フレームから、時間的に後に存在する区間の終点フレームまでを、当該処理対象オブジェクトに関するオブジェクト関連区間であると特定する(S605)。
続く、ステップS606〜S608の処理は、実施の形態1と同様であるため説明を省略する。
なお、ステップS1602で選択される2つの区間が、検出区間とハイライト区間である場合は、図21(a)〜(c)に示すような場合が想定される。なお、図21(a)〜(c)において、ステップS1602で選択された2つの区間は、検出区間3(図4)と、各ハイライト区間A〜Cであるとする。
図21(a)において、ハイライト区間Aの始点フレームはフレーム106であり、終点フレームはフレーム123であるとする。このとき、検出区間3とハイライト区間Aとの間の区間は、フレーム99からフレーム105である。よって、検出区間3とハイライト区間Aとの間の区間は、6フレームと区間長が十分短いため、検出区間3の始点フレームからハイライト区間Aの終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間と特定するとしてもよい。
図21(b)において、ハイライト区間Bの始点フレームはフレーム99であり、終点フレームはフレーム23であるとする。このとき、検出区間3の終点フレームとハイライト区間Bの始点フレームは連続するフレームである。このように、検出区間3とハイライト区間Bとの間の区間は0フレームである場合も、検出区間3の始点フレームからハイライト区間Bの終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間と特定するとしてもよい。
図21(c)において、ハイライト区間Cの始点フレームはフレーム96であり、終点フレームはフレーム123であるとする。このとき、検出区間3とハイライト区間Cとは一部区間が重複しているが、このような場合も、検出区間3の始点フレームからハイライト区間Cの終点フレームまでの区間を、当該処理対象オブジェクトに関するオブジェクト関連区間と特定するとしてもよい。
このように、ステップS1601において、当該処理対象オブジェクトが検出される検出区間に加え、ハイライト区間も抽出することで、ハイライト区間も当該処理対象オブジェクトに関するオブジェクト関連区間として特定し、管理することができる。
<まとめ>
実施の形態5に係る動画解析装置において、オブジェクト関連区間特定部1106は、動画において一のオブジェクトが検出されない非検出区間と、当該非検出区間と連続する前方の検出区間と後方の検出区間の内の一方の検出区間と、当該一方の検出区間とは異なる他方の検出区間、又は当該一方の検出区間とは異なる他方において当該非検出区間と連続する、若しくは当該非検出区間と少なくとも一部区間が重複する区間であるハイライト区間とを、下記(1E)及び(2E)を満たす場合に、当該一のオブジェクトに関するオブジェクト関連区間と特定する。
(1E)当該非検出区間と、当該非検出区間と連続する前方の検出区間と後方の検出区間の内の一方の検出区間と、当該ハイライト区間とが同一のシーンに含まれる。
(2E)当該非検出区間の区間長は、所定の時間以内である。
本実施の形態5に係る動画解析装置によれば、上記の(1E)及び(2E)の条件を満たす、当該非検出区間及び当該ハイライト区間を当該一のオブジェクトに関するオブジェクト関連区間として管理することができる。
例えば、子供がサッカーをしている様子が撮影された動画において、子供がシュートし、その後ボールがゴールネットを揺らした様子を撮影した区間がある場合、そのボールがゴールネットを揺らした区間がハイライト区間として検出されれば、ボールがゴールネットを揺らした区間において全く子供が検出されなくとも、この子供がシュートし、その後ボールがゴールネットを揺らした一連の区間を、その子供に関するオブジェクト関連区間として管理することができる。また、花火大会の様子が撮影された動画において、ある人物を撮影し、そのすぐ後に打ち上げられた花火にカメラを向けたような場合、その花火が映る区間において全くその人物が検出されなくとも、ある人物を撮影し、そのすぐ後に打ち上げられた花火が撮影された一連の区間を、その人物に関するオブジェクト関連区間として管理することができる。
このように、特定のオブジェクトに関する区間を管理することができるため、ユーザは、動画から特定のオブジェクトに関する区間を抽出する際、そのオブジェクトが検出される検出区間だけでなく、その検出区間と連続するそのオブジェクトが検出されない非検出区間や、そのオブジェクトと関連すると推定されるハイライト区間を抽出することができ、抽出された動画はユーザにとって見易い動画となる。
<変形例>
以上、本発明の一態様に係る動画解析装置について説明したが、本発明は、上記実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したもの、あるいは異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
上記実施の各形態に係る動画解析装置において、オブジェクト関連区間特定部は、一のオブジェクトが検出されない非検出区間と、当該非検出区間と時間的に連続する一のオブジェクトが検出される前方及び後方の検出区間に着目し、当該前方及び後方の検出区間だけでなく、当該非検出区間を当該一のオブジェクトに関するオブジェクト関連区間と特定すると説明したが、上記実施の各形態に係る動画解析装置は、これに限定されない。例えば、一のオブジェクトが検出されない非検出区間と、当該非検出区間と時間的に隣接する一のオブジェクトが検出される前方又は後方何れか一方の検出区間に着目し、当該非検出区間を当該一のオブジェクトに関するオブジェクト関連区間と特定してもよい。以下にその一例を説明する。
例えば、ステップS201で取得された動画において、当該シーンの始点フレームから1フレーム以上一のオブジェクトが検出されない非検出区間が存在する場合、下記(1F)〜(3F)を満たす場合に、当該非検出区間を、当該一のオブジェクトに関するオブジェクト関連区間と特定するとしてもよい。
(1F)当該非検出区間と、当該非検出区間と時間的に連続する後方の当該一のオブジェクトが検出される検出区間とが同一のシーンに含まれる。
(2F)当該後方の検出区間の始点フレームにおいて検出される当該一のオブジェクトが、当該一のオブジェクトの検出の限界として定められた1以上の限界条件の内少なくとも1つを満たす。限界条件は、当該一のオブジェクトの検出の限界として定められた条件であり、例えば、当該一のオブジェクトが当該終点フレーム又は始点フレームの所定領域において検出される、当該一のオブジェクトの向きが所定の範囲内である、又は当該一のオブジェクトの大きさが一定の大きさの範囲内である。
(3F)当該非検出区間の区間長が、所定の時間以内である。
図4及び図5を用いて具体的に説明する。なお、オブジェクト1に関するオブジェクト関連区間を特定する場合を例に挙げる。また、本具体例において、上記の所定時間は10フレームと設定されているとする。また、オブジェクトの限界条件として、人物の顔の「向き」に関する限界値が設定されており、その限界値は「図7の各回転軸に対して30度」であるとする。
図5において、シーン1に着目すると、シーン1の始点フレームはフレーム0であり、図4を参照すると、このフレーム0からフレーム3までの区間は、オブジェクト1が検出されない非検出区間である。このとき、オブジェクト関連区間特定部106は、フレーム0からフレーム3までの非検出区間を、上記の(1F)〜(3F)を満たす場合、オブジェクト1に関するオブジェクト関連区間と特定する。
先ず、(1F)フレーム0からフレーム3までの非検出区間と時間的に連続する後方のオブジェクト1が検出される検出区間1は、フレーム4からフレーム55であり、シーン1(フレーム0からフレーム182の区間)に含まれる。また、(2F)当該後方の検出区間である検出区間1の始点フレーム(フレーム4)におけるオブジェクト1の向きは、限界値「(左30度)」である。また、(3F)フレーム0からフレーム3までの区間長は、フレーム数4でフレーム数10以内である。従って、フレーム0からフレーム3までの非検出区間は、オブジェクト1に関するオブジェクト関連区間であると特定され、例えば、オブジェクト関連区間特定部106は、フレーム0から検出区間1の終点フレーム(フレーム55)までの区間を、オブジェクト1に関するオブジェクト関連区間と特定する。
なお、ステップS201において取得された動画において、当該シーンの終点フレームから時間的に前に1フレーム以上一のオブジェクトが検出されない非検出区間が存在する場合も同様に、下記(1G)〜(3G)を満たす場合に、当該非検出区間を、当該一のオブジェクトに関するオブジェクト関連区間と特定するとしてもよい。
(1G)当該非検出区間と、当該非検出区間と時間的に連続する前方の当該一のオブジェクトが検出される検出区間とが同一のシーンに含まれる。
(2G)当該前方の検出区間の始点フレームにおいて検出される当該一のオブジェクトが、当該一のオブジェクトの検出の限界として定められた1以上の限界条件の内少なくとも1つを満たす。限界条件は、当該一のオブジェクトの検出の限界として定められた条件であり、例えば、当該一のオブジェクトが当該終点フレーム又は始点フレームの所定領域において検出される、当該一のオブジェクトの向きが所定の範囲内である、又は当該一のオブジェクトの大きさが一定の大きさの範囲内であるである。
(3G)当該非検出区間の区間長が、所定の時間以内である。
上記実施の形態1〜4において、動画解析装置は、オブジェクトの検出(S202)、オブジェクトの追跡(S203)、及びオブジェクトの識別(S204)の処理の後に、動画におけるシーンの切れ目を検出(S205)する処理を行うと説明したが、動画におけるシーンの切れ目を検出(S205)する処理は、オブジェクト関連区間を特定(S206、S206A〜E)する処理の前に行われればよく、オブジェクトの検出・追跡・識別(S202〜S204)のいずれかのステップの間、又はこれらのステップより前に行われていてもよい。
また、上記実施の形態5において、動画解析装置1000は、オブジェクトの検出(S202)、オブジェクトの追跡(S203)、及びオブジェクトの識別(S204)の処理の後に、動画におけるシーンの切れ目を検出(S205)する処理を行い、その後動画におけるハイライト区間検出(S1501)の処理を行うと説明したが、動画におけるハイライト区間検出(S1501)の処理は、動画におけるシーンの切れ目を検出(S205)する処理と同様、オブジェクト関連区間を特定(S206、S206A〜E)する処理の前に行われればよく、オブジェクトの検出・追跡・識別(S202〜S204)、又はシーンの切れ目を検出(S205)する処理の何れかのステップの間、またはこれらのステップより前に行われていてもよい。
上記実施の各形態に係る動画解析装置は、ステップS601(又はステップS1601)において、動画におけるシーン情報にも基づいて各区間を抽出すると説明したが、これに限定されない。例えば、ステップS601(又はステップS1601)において、同一の識別IDが付与されたオブジェクトが検出された検出区間(とハイライト区間)を抽出するとし、ステップS608において、動画におけるシーン情報に基づいて、最終的に動画における各オブジェクトに関するオブジェクト関連区間を決定するとしてもよい。
上記実施の各形態において、動画解析装置はオブジェクト追跡部を備えると説明したが、その構成からオブジェクト追跡部を除いてもよい。オブジェクト追跡部が除かれる場合、オブジェクト識別部において、オブジェクト検出部によって各フレームから検出されたオブジェクトについて識別処理を行えばよい。また、この場合、オブジェクト関連区間特定部106は、オブジェクトの検出・識別に関する情報と、シーンの切れ目情報と、(実施の形態5のオブジェクト関連区間特定部においては、動画におけるハイライト区間情報と)に基づいて、動画における各オブジェクトに関するオブジェクト関連区間を特定する処理を行えばよい。
上記実施の各形態に係る動画解析装置において、オブジェクト関連区間を特定する処理は、上記実施の各形態で説明したステップS206、及びS206A〜S206Eに限定されず、これらの各処理が組み合わせられた処理を行うことで、オブジェクト関連区間を特定してもよい。
上記実施の形態1〜4において、動画解析装置は、オブジェクト検出部102、オブジェクト追跡部103、オブジェクト識別部104、及びシーン検出部105を備え、オブジェクト関連区間特定部106は、オブジェクトの検出(S202)、オブジェクトの追跡(S203)、及びオブジェクトの識別(S204)の処理により得られた、オブジェクトの検出・追跡・識別に関する情報と、動画におけるシーンの切れ目を検出(S205)する処理により得られた、動画におけるシーンの切れ目情報とに基づいて、動画における各オブジェクトに関するオブジェクト関連区間を特定する(S206、S206A〜D)と説明したが、上記各実施の形態に係る動画解析装置はこれに限定されない。例えば、オブジェクト関連区間特定部106は、ステップS206及びS206A〜Dにおいて、外部の装置により動画に付加された、オブジェクトの検出・追跡・識別に関する情報や動画におけるシーンの切れ目情報を用いてもよい
上記実施の形態5において、動画解析装置1000は、ハイライト検出部1401を備え、オブジェクト関連区間特定部1106は、オブジェクトの検出・追跡・識別に関する情報と、動画におけるシーンの切れ目情報と、更に、ハイライト区間の検出(S1501)の処理により得られた、動画におけるハイライト区間情報とに基づいて、動画における各オブジェクトに関するオブジェクト関連区間を特定する(S206E)と説明したが、上記実施の形態5に係る動画解析装置1000はこれに限定されない。例えば、オブジェクト関連区間特定部1106は、ステップS206Eにおいて、外部の装置により動画に付加された、動画におけるハイライト区間情報を用いてもよい。
上記実施の形態1〜5に係る動画解析装置が備える構成要素の一部または全ては、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。
システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Ramdom Access Memory)などを含んで構成されるコンピュータシステムである。前記ROMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
なお、ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
また、本発明は、このような特徴的な処理部を備える、動画解析装置として実現することができるだけでなく、動画解析装置に含まれる特徴的な処理部をステップとする動画解析方法などとして実現することもできる。また、そのような方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムとして実現することもできる。そして、そのようなコンピュータプログラムを、CD−ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
<補足>
以下、本発明の実施形態に係る動画解析装置の構成及びその変形例と各効果について説明する。
第1の動画解析装置は、動画において、一のオブジェクトに関するオブジェクト関連区間を特定する動画解析装置であって、前記一のオブジェクトが検出される検出区間と時間的に連続する区間であって、且つ前記一のオブジェクトが検出されない区間である非検出区間を、所定の条件が満たされると判定する場合に、前記オブジェクト関連区間として特定し、前記所定の条件が満たされないと判定する場合に、前記オブジェクト関連区間として特定しないオブジェクト関連区間特定部、を備える動画解析装置。
この構成により、第1の動画解析装置は、動画において、一のオブジェクトに関連する区間を適切に特定することができる。
第2の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、且つ、前記前方の検出区間の終点フレームにおける前記一のオブジェクト及び前記後方の検出区間の始点フレームにおける前記一のオブジェクトの夫々が、前記一のオブジェクトの検出の限界に基づいて定められた1以上の限界条件の少なくとも1つを満たすである、としても構わない。
この構成により、第2の動画解析装置は、前記所定の条件が満たされる場合に、前記非検出区間は、例えば、実際には当該一のオブジェクトが映っているが、オブジェクト検出技術によって、当該一のオブジェクトが検出されなかったのであろう、当該一のオブジェクトの動きや、撮影者の動きが大きく、当該一のオブジェクトがフレームアウトしまった区間であろうと推定されるため、前記非検出区間は、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
第3の動画解析装置は、第2の動画解析装置において、前記限界条件は、前記一のオブジェクトが前記終点フレーム又は前記始点フレームの所定領域において検出される、前記一のオブジェクトの向きが所定の範囲内である、前記一のオブジェクトの大きさが閾値A以上である、及び、前記一のオブジェクトの大きさが前記閾値Aより小さい閾値B以下である、としても構わない。
この構成により、第3の動画解析装置は、特に、前記一のオブジェクトの検出可能な、フレーム領域、前記一のオブジェクトの向き、及び前記一のオブジェクトの大きさに関する限界条件の内の少なくとも1つの限界条件を、前記非検出区間の両端のフレームと夫々連続する各フレームにおいて検出される前記一のオブジェクトが満たす場合に、前記非検出区間を、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
第4の動画解析装置は、第3の動画解析装置において、前記所定領域は、前記終点フレーム又は前記始点フレームの枠の近傍の領域である、としても構わない。
この構成により、第4の動画解析装置は、前記一のオブジェクトが検出可能なフレーム領域に関する限界条件については、当該一のオブジェクトが、前記終点フレーム又は前記始点フレームの枠の近傍の領域に存在する場合に、当該限界条件を満たすとすることができる。
第5の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、且つ、前記非検出区間における映像のブレが所定の度合い以上である、としても構わない。
この構成により、第5の動画解析装置は、前記所定の条件が満たされる場合に、前記非検出区間は、例えば、実際には当該一のオブジェクトが映っているが、映像のブレによって、当該一のオブジェクトが検出されなかったのであろう、撮影者の動きが大きく、当該一のオブジェクトがフレームアウトしまった区間であろうと推定されるため、前記非検出区間は、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
第6の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、前記非検出区間において、前記一のオブジェクトとは別のオブジェクトが検出され、且つ、前記非検出区間において、前記別のオブジェクトが検出される区間長が所定の時間以上である、又は、前記非検出区間における、前記別のオブジェクトが検出される区間の比率が所定割合以上である、としても構わない。
この構成により、第6の動画解析装置は、前記所定の条件が満たされる場合に、前記非検出区間は、例えば、撮影者が一定時間だけ、例えば気まぐれで、当該一のオブジェクトの代わりに、当該一のオブジェクトとは別のオブジェクトを撮影した区間であろうと推定されるため、前記非検出区間は、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
第7の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、前記非検出区間の区間長が所定の時間以内であり、前記非検出区間において、前記一のオブジェクトとは別のオブジェクトが検出され、且つ、前記非検出区間において、前記別のオブジェクトが検出される時間が所定の時間以上である、又は、前記非検出区における、前記別のオブジェクトが検出される区間の比率が所定割合以上である、としても構わない。
この構成により、第7の動画解析装置は、前記所定の条件が満たされる場合に、前記非検出区間は、例えば、撮影者が一定時間だけ、例えば気まぐれで、当該一のオブジェクトの代わりに、当該一のオブジェクトとは別のオブジェクトを撮影した区間であろうと推定されるため、前記非検出区間は、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
第8の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、前記非検出区間において、前記一のオブジェクトとは別のオブジェクトが検出され、且つ、前記非検出区間の各フレームにおいて検出される前記別のオブジェクトの検出領域、及び、前記後方の検出区間の始点フレームにおいて検出される前記一のオブジェクトの検出領域の夫々と、前記前方の検出区間の終点フレームにおいて検出される前記一のオブジェクトの検出領域に、その周辺領域を加えた領域とが、少なくとも一部重なることである、としても構わない。
この構成により、第8の動画解析装置は、前記所定の条件が満たされる場合に、前記非検出区間では、前記所定の条件撮影者から見て当該一のオブジェクトの前に、当該一のオブジェクトとは別のオブジェクトが存在し、当該一のオブジェクトがその別のオブジェクトの後ろに隠れてしまっているのであろうと推定されるため、前記非検出区間を、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
第9の動画解析装置は、第8の動画解析装置において、前記周辺領域は、前記前方の検出区間の終点フレームにおいて検出される前記一のオブジェクトの大きさ、及び前記前方の検出区間の少なくとも一部における、前記一のオブジェクトの変位に関する情報の内少なくとも一方に基づいて設定される、としても構わない。
この構成により、第9の動画解析装置は、前記周辺所定領域を、前記前方の検出区間の終点フレームにおいて検出される前記一のオブジェクトの大きさや、前記前方の検出区間の少なくとも一部における、前記一のオブジェクトの変位(例えば、前記一のオブジェクトが検出される検出領域の移動量や大きさの変位)、に応じて設定することができる。
第10の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間及び後方の検出区間とが同一のシーンに含まれ、且つ、前記非検出区間の区間長が所定の時間以内である、としても構わない。
この構成により、第10の動画解析装置は、前記所定の条件が満たされる場合に、前記非検出区間は、例えば、撮影者が、例えば気まぐれで、ある一定の時間だけ当該一のオブジェクトを映さなかった区間であろう、区間長が一定時間以内と当該一のオブジェクトが検出される区間に対して相対的に短いので、当該一のオブジェクトに関する区間として管理されても問題ないだろうと推定されるため、前記非検出区間は、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
第11の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間と後方の検出区間の内の一方の検出区間とが同一のシーンに含まれ、前記一方の検出区間において、前記非検出区間と時間的に連続する側の端点となるフレームで検出される前記一のオブジェクトが、前記一のオブジェクトの検出の限界に基づいて定められた1以上の限界条件の少なくとも1つを満たし、且つ、前記非検出区間の区間長が所定の時間以内である、としても構わない。
この構成により、第11の動画解析装置は、前記所定条件が満たされる場合に、前記非検出区間は、例えば、実際には当該一のオブジェクトが映っているが、オブジェクト検出技術によって、当該一のオブジェクトが検出されなかったのであろう、当該一のオブジェクトの動きや、撮影者の動きが大きく、当該一のオブジェクトがフレームアウトしまった区間であろうと推定されるため、前記非検出区間は、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
第12の動画解析装置は、第1の動画解析装置において、前記所定の条件は、前記非検出区間と、前記非検出区間と時間的に連続する前方の検出区間と後方の検出区間の内の一方の検出区間と、前記一方の検出区間とは異なる他方において、前記非検出区間と連続する又は前記非検出区間と一部若しくは全てが重なる区間であって、前記動画における盛り上がりのある区間であるハイライト区間とが同一のシーンに含まれ、且つ、前記非検出区間の区間長が所定の時間以内である、としても構わない。
この構成により、第12の動画解析装置は、前記非検出区間や、前記ハイライト区間を、当該一のオブジェクトが検出される検出区間と連続する一連の区間であると特定することができる。
第1の動画解析方法は、動画において、一のオブジェクトに関するオブジェクト関連区間を特定する動画解析装置が実行する、動画解析方法であって、前記一のオブジェクトが検出される検出区間と時間的に連続する区間であって、且つ前記一のオブジェクトが検出されない区間である非検出区間を、所定の条件が満たされると判定する場合に、前記オブジェクト関連区間として特定し、前記所定の条件が満たされないと判定する場合に、前記オブジェクト関連区間として特定しないオブジェクト関連区間特定ステップ、を有する。
この構成により、動画において、一のオブジェクトに関連する区間を適切に特定することができる。
第1のプログラムは、動画において、一のオブジェクトに関するオブジェクト関連区間を特定する動画解析装置が実行する、動画解析処理をコンピュータに実行させるプログラムであって、前記一のオブジェクトが検出される検出区間と時間的に連続する区間であって、且つ前記一のオブジェクトが検出されない区間である非検出区間を、所定の条件が満たされると判定する場合に、前記オブジェクト関連区間として特定し、前記所定の条件が満たされないと判定する場合に、前記オブジェクト関連区間として特定しないオブジェクト関連区間特定ステップを前記動画解析処理は有する。
この構成により、動画において、一のオブジェクトに関連する区間を適切に特定することができる。
第1の集積回路は、動画において、一のオブジェクトに関するオブジェクト関連区間を特定する集積回路であって、前記一のオブジェクトが検出される検出区間と時間的に連続する区間であって、且つ前記一のオブジェクトが検出されない区間である非検出区間を、所定の条件が満たされると判定する場合に、前記オブジェクト関連区間として特定し、前記所定の条件が満たされないと判定する場合に、前記オブジェクト関連区間として特定しないオブジェクト関連区間特定部、を備える。
この構成により、第1の集積回路は、動画において、一のオブジェクトに関連する区間を適切に特定することができる。