JP2011028689A

JP2011028689A - 動画抽出装置、プログラム、および動画抽出方法

Info

Publication number: JP2011028689A
Application number: JP2009176575A
Authority: JP
Inventors: Masayuki Ejima; 公志江島
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-07-29
Filing date: 2009-07-29
Publication date: 2011-02-10
Also published as: US8731302B2; US20110026766A1

Abstract

【課題】動画抽出装置、プログラム、および動画抽出方法を提供すること。
【解決手段】撮像装置により撮像された動画に基づき、動画撮像時の前記撮像装置の動きを検出する動き検出部と、前記動画から被写体を検出する被写体検出部と、前記動き検出部により前記撮像装置の動きが検出された区間において、前記被写体検出部により所定長さ以上の区間にわたって検出された被写体を注目被写体として選択する被写体選択部と、前記動画から、前記被写体選択部により選択された前記注目被写体を含む区間を抽出する抽出部と、を動画抽出装置に設ける。
【選択図】図５

Description

本発明は、動画抽出装置、プログラム、および動画抽出方法に関する。

近日、入射光を電気信号に変換することにより動画を得ることが可能な撮像装置が広く普及している。ユーザは、この撮像装置を用い、子供の運動会の様子、旅行での風景、およびペットの仕草などを動画として保存することができる。

また、撮像装置により得られた動画の一区間を抽出してショートムービーを作成する自動編集用ソフトウェアも提案されている。この自動編集用ソフトウェアによれば、動画の抽出区間は例えばランダムに決定される。なお、動画の自動編集用ソフトウェアの一例が特許文献１に記載されている。

特開２００４−１５９３３１号公報

しかし、上記の自動編集用ソフトウェアでは、動画の抽出区間が例えばランダムに決定されるため、ユーザにとって魅力的な区間を抽出することが困難であった。例えば、運動会の動画においては、子供の走っている区間がユーザにとって魅力的であると考えられるが、上記の自動編集用ソフトウェアでは、子供が競技前に列に並んで待っている区間が抽出されてしまう場合が想定された。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、動画からの区間抽出を動画の内容に基づいて行うことが可能な、新規かつ改良された動画抽出装置、プログラム、および動画抽出方法を提供することにある。

上記課題を解決するために、本発明のある観点によれば、撮像装置により撮像された動画に基づき、動画撮像時の前記撮像装置の動きを検出する動き検出部と、前記動画から被写体を検出する被写体検出部と、前記動き検出部により前記撮像装置の動きが検出された区間において、前記被写体検出部により所定長さ以上の区間にわたって検出された被写体を注目被写体として選択する注目被写体選択部と、前記動画から、前記注目被写体選択部により選択された前記注目被写体を含む区間を抽出する抽出部と、備える動画抽出装置が提供される。

前記動き検出部は、前記動画を構成するフレーム中の、連続する２のフレームの差分に基づいて前記撮像装置の動きを検出してもよい。

前記被写体検出部は、前記連続する２のフレームうちの一方の第１のフレームを前記動き検出部により検出された前記撮像装置の動きを利用して変換し、前記連続する２のフレームうちの他方の第２のフレームと、変換後の前記第１のフレームとの相違部分から前記被写体を検出してもよい。

前記動画抽出装置は、前記被写体検出部により新たに検出された被写体と、過去フレームにおいて消失した被写体とを比較し、双方の被写体が同一の被写体であるか否かを判断する同一被写体判断部をさらに備え、前記同一被写体判断部により同一であると判断された被写体は、消失していた間も検出されていたものとして扱われてもよい。

前記同一被写体判断部は、前記過去フレームにおいて消失した被写体に対応する特徴成分を選択する特徴成分選択部と、前記新たに検出された被写体と、前記過去フレームにおいて消失した被写体とを、前記特徴成分選択部により選択された特徴成分において比較する比較部と、を含んでもよい。

前記特徴成分選択部は、前記被写体の消失前の複数フレームにおいて前記被写体と他の被写体とを区別可能な特徴成分を、複数種類の特徴成分のうちから選択してもよい。

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、撮像装置により撮像された動画に基づき、動画撮像時の前記撮像装置の動きを検出する動き検出部と、前記動画から被写体を検出する被写体検出部と、前記動き検出部により前記撮像装置の動きが検出された区間において、前記被写体検出部により所定長さ以上の区間にわたって検出された被写体を注目被写体として選択する注目被写体選択部と、前記動画から、前記注目被写体選択部により選択された前記注目被写体を含む区間を抽出する抽出部と、として機能させるためのプログラムが提供される。

また、上記課題を解決するために、本発明の別の観点によれば、撮像装置により撮像された動画に基づき、動画撮像時の前記撮像装置の動きを検出するステップと、前記動画から被写体を検出するステップと、前記撮像装置の動きが検出された区間において、所定長さ以上の区間にわたって検出された被写体を注目被写体として選択するステップと、前記動画から、前記注目被写体を含む区間を抽出するステップと、を含む動画抽出方法が提供される。

以上説明したように本発明にかかる動画抽出装置、プログラム、および動画抽出方法によれば、動画からの区間抽出を動画の内容に基づいて行うことができる

本発明の一実施形態による画像抽出システムの構成例を示した説明図である。本発明の一実施形態による画像抽出装置による動画の抽出区間を示した説明図である。本発明の一実施形態による画像抽出装置の動作の概略を示したフローチャートである。画像抽出装置のハードウェア構成を示したブロック図である。本発明の一実施形態による画像抽出装置の構成を示した機能ブロック図である。注視度マップ生成部が注視度マップを生成する過程を示した説明図である。連続する２のフレームを示した説明図である。撮像装置が動きていたと判断される区間の具体例を示した説明図である。フレームからの被写体の検出例を示した説明図である。動領域検出部がフレームから動領域を検出する様子を示した説明図である。情報管理部により管理される被写体情報の内容を模式的に示した説明図である。オクルージョン発生の様子を示した説明図である。特徴成分選択部による特徴成分の選択基準を示した説明図である。注目被写体選択部により選択される注目被写体の具体例を示した説明図である。動き検出部による撮像装置の動き検出の流れを示したフローチャートである。動領域検出部によるフレーム中の動領域検出の流れを示したフローチャートである。被写体追跡部による被写体追跡の流れを示したフローチャートである。管理部によるオクルージョンに対応するための処理の流れを示したフローチャートである。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
１．画像抽出装置の概要
２．画像抽出装置の構成
３．画像抽出装置の動作
３−１．撮像装置の動き検出
３−２．動領域検出
３−３．被写体の追跡
３−４．オクルージョン対応処理
４．まとめ

＜１．画像抽出装置の概要＞
まず、図１〜図３を参照し、本発明の一実施形態による画像抽出装置２０について概略的に説明する。

図１は、本発明の一実施形態による画像抽出システム１の構成例を示した説明図である。図１に示したように、画像抽出システム１は、撮像装置１０、通信網１２、動画共有サーバ１４、および画像抽出装置２０を含む。

撮像装置１０は、入射光を電気信号に変換することにより、複数フレームからなる動画を取得する。また、撮像装置１０は、取得した動画を、撮像装置１０に一体的に搭載されている記憶媒体、または撮像装置１０と着脱可能に装着されている記憶媒体に記録する。なお、撮像装置１０は、ユーザによる録画開始操作に基づいて動画の取得を開始し、ユーザによる録画停止操作に基づいて動画の取得を終了してもよい。

画像抽出装置２０は、撮像装置１０における撮像により得られた動画を取得する。例えば、画像抽出装置２０は、動画が記録された記憶媒体が装着され、記憶媒体から動画を取得してもよい。または、撮像装置１０が有線または無線で動画を送信し、画像抽出装置２０は、撮像装置１０から送信された動画を受信してもよい。

なお、図１においては画像抽出装置２０がＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）である例を示したが、画像抽出装置２０はＰＣに限定されない。例えば、画像抽出装置２０は、家庭用映像処理装置（ＤＶＤレコーダ、ビデオデッキなど）、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）、家庭用ゲーム機器、家電機器などの情報処理装置であってもよい。また画像抽出装置２０は、携帯電話、ＰＨＳ（ＰｅｒｓｏｎａｌＨａｎｄｙｐｈｏｎｅＳｙｓｔｅｍ）、携帯用音楽再生装置、携帯用映像処理装置、携帯用ゲーム機器などの情報処理装置であってもよい。また、撮像装置１０に画像抽出装置２０の機能を実装することも可能である。

また、画像抽出装置２０は、取得した動画中の一区間を抽出する。例えば、画像抽出装置２０は、動画中で、撮像装置１０により追跡して撮像された注目被写体を含む区間を抽出する。以下、図２および図３を参照し、画像抽出装置２０による動画の抽出区間、および画像抽出装置２０の動作の概略を説明する。

図２は、本発明の一実施形態による画像抽出装置２０による動画の抽出区間を示した説明図である。図２に示したように、フレームｖはサーキットコースの画像を含み、フレームｗ〜ｚは、背景画像としてのサーキットコース、およびサーキットコースを走行するカートの画像を含む。ここで、フレームｗ〜ｚに含まれるカートの画像は、撮像装置１０により所定時間以上にわたって追跡して撮像された（追っかけ撮りされた）被写体である。本実施形態にかかる画像抽出装置２０は、図３に示すように、このように所定長さ以上に渡って追跡して撮像された被写体を注目被写体として選択し、注目被写体が含まれる区間を動画から抽出する。

図３は、本発明の一実施形態による画像抽出装置２０の動作の概略を示したフローチャートである。図３に示したように、画像抽出装置２０は、動画を構成する各フレームから、撮像装置１０が動いていた区間を検出する（Ｓ３０）。ここで、撮像装置１０が動いていた区間としては、撮像装置１０の位置が移動した区間や、撮像装置１０の撮像方向が変化した区間などがあげられる。この検出により、撮像装置１０が動いていたことが検出された区間のフレーム番号が得られる。

また、画像抽出装置２０は、撮像された動画を構成する各フレームから、被写体の検出および追跡を行う（Ｓ４０）。この検出および追跡により、被写体ＩＤ、出現フレーム番号、および消失フレーム番号からなる被写体情報が、被写体の数だけ得られる。

そして、画像抽出装置２０は、Ｓ３０で検出された撮像装置１０が動いていた区間、およびＳ４０で得られた被写体情報に基づき、被写体から注目被写体を選択する（Ｓ５０）。具体的には、画像抽出装置２０は、撮像装置１０の動きが検出された区間において、所定長さ以上の区間にわたって検出された被写体を注目被写体として選択する。さらに、画像抽出装置２０は、動画から、注目被写体を含む動画区間を抽出する（Ｓ６０）。

画像抽出装置２０は、このようにして抽出した動画を、内蔵する記憶媒体に記録してもよいし、リムーバブル記憶媒体２４に記録してもよいし、通信網１２を介して動画共有サーバ１４に送信してもよい。なお、動画共有サーバ１４に送信された動画は、通信網１２に接続される複数の情報処理装置において視聴可能となる。

また、通信網１２は、通信網１２に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網１２は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、通信網１２は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

＜２．画像抽出装置の構成＞
以上、図１〜図３を参照し、本実施形態による画像抽出装置２０について概略的に説明した。続いて、図４〜図１４を参照し、本実施形態による画像抽出装置２０の構成を詳細に説明する。

（画像抽出装置２０のハードウェア構成）
図４は、画像抽出装置２０のハードウェア構成を示したブロック図である。画像抽出装置２０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３と、ホストバス２０４と、を備える。また、画像抽出装置２０は、ブリッジ２０５と、外部バス２０６と、インタフェース２０７と、入力装置２０８と、出力装置２１０と、ストレージ装置（ＨＤＤ）２１１と、ドライブ２１２と、通信装置２１５とを備える。

ＣＰＵ２０１は、演算処理装置および制御装置として機能し、各種プログラムに従って画像抽出装置２０内の動作全般を制御する。また、ＣＰＵ２０１は、マイクロプロセッサであってもよい。ＲＯＭ２０２は、ＣＰＵ２０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ２０３は、ＣＰＵ２０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバスなどから構成されるホストバス２０４により相互に接続されている。

ホストバス２０４は、ブリッジ２０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス２０６に接続されている。なお、必ずしもホストバス２０４、ブリッジ２０５および外部バス２０６を分離構成する必要はなく、一のバスにこれらの機能を実装してもよい。

入力装置２０８は、マウス、キーボード、タッチパネル、ボタン、マイク、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ２０１に出力する入力制御回路などから構成されている。画像抽出装置２０のユーザは、該入力装置２０８を操作することにより、画像抽出装置２０に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置２１０は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置およびランプなどの表示装置を含む。さらに、出力装置２１０は、スピーカおよびヘッドホンなどの音声出力装置を含む。出力装置２１０は、例えば、再生されたコンテンツを出力する。具体的には、表示装置は再生された映像データ等の各種情報をテキストまたはイメージで表示する。一方、音声出力装置は、再生された音声データ等を音声に変換して出力する。

ストレージ装置２１１は、本実施形態にかかる画像抽出装置２０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置２１１は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置２１１は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）で構成される。このストレージ装置２１１は、ハードディスクを駆動し、ＣＰＵ２０１が実行するプログラムや各種データを格納する。

ドライブ２１２は、記憶媒体用リーダライタであり、画像抽出装置２０に内蔵、あるいは外付けされる。ドライブ２１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体２４に記録されている情報を読み出して、ＲＡＭ２０３に出力する。また、ドライブ２１２は、リムーバブル記憶媒体２４に情報を書き込むこともできる。

通信装置２１５は、例えば、通信網１２に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置２１５は、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）対応通信装置であっても、ワイヤレスＵＳＢ対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。

（画像抽出装置２０の機能構成）
図５は、本発明の一実施形態による画像抽出装置２０の構成を示した機能ブロック図である。図５に示したように、画像抽出装置２０は、動画記憶部２１６と、注視度マップ生成部２２０と、動き検出部２２４と、動領域検出部２２８と、被写体検出部２３２と、管理部２３６と、情報記憶部２４０と、被写体追跡部２４４と、注目被写体選択部２４８と、抽出部２５２と、を備える。

（動画記憶部２１６）
動画記憶部２１６は、撮像装置１０において撮像された動画を記憶する記憶媒体である。この動画記憶部２１６は、不揮発性メモリ、磁気ディスク、光ディスク、およびＭＯ（ＭａｇｎｅｔｏＯｐｔｉｃａｌ）ディスクなどの記憶媒体であってもよい。不揮発性メモリとしては、例えば、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）があげられる。また、磁気ディスクとしては、ハードディスクおよび円盤型磁性体ディスクなどがあげられる。また、光ディスクとしては、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ、ＤＶＤ−Ｒ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃＲｅｃｏｒｄａｂｌｅ）およびＢＤ（Ｂｌｕ−ＲａｙＤｉｓｃ（登録商標））などがあげられる。

（注視度マップ生成部２２０）
注視度マップ生成部２２０は、動画記憶部２１６から供給される動画を構成する各フレームの注視度マップ（ＳａｌｉｅｎｃｙＭａｐ）を生成する。より詳細には、注視度マップ生成部２２０は、各フレームから複数種類の特徴量マップを生成し、複数種類の特徴量マップを統合することにより注視度マップを生成する。なお、各特徴量マップは、各フレームにおける各特徴量の分布を示す。以下、図６を参照し、特徴量マップおよび注視度マップについて具体的に説明する。

図６は、注視度マップ生成部２２０が注視度マップを生成する過程を示した説明図である。注視度マップ生成部２２０は、図６に示したように、入力フレームから複数種類の特徴量マップを生成する。

例えば、注視度マップ生成部２２０は、入力フレームから、入力フレームの輝度成分を表現する輝度特徴量マップを生成する。より具体的には、入力フレームのブロックごとに、Ｒ成分値、Ｇ成分値およびＢ成分値の平均値を各ブロックの輝度成分として算出してもよい。

同様に、注視度マップ生成部２２０は、入力フレームから、入力フレームの色成分を表現する色特徴量マップを生成する。また、注視度マップ生成部２２０は、入力フレームから、入力フレームの方向成分を表現する方向特徴量マップを生成する。

なお、図６においては、特徴量マップの一例として、輝度特徴量マップ、色特徴量マップ、および方向特徴量マップを示したが、特徴量マップは輝度特徴量マップ、色特徴量マップ、および方向特徴量マップに限定されない。例えば、注視度マップ生成部２２０は、入力フレームの点滅成分を表現する点滅特徴量マップ、および入力フレームの運動成分を表現する運動特徴量マップなどの多様な特徴量マップを生成してもよい。

注視度マップ生成部２２０は、このようにして生成した複数種類の特徴量マップを統合することにより注視度マップを生成する。例えば、注視度マップ生成部２２０は、複数種類の特徴量マップの各々に重み付けを行い、重み付けされた特徴量マップの各々を加算することにより注視度マップを生成してもよい。

（動き検出部２２４）
動き検出部２２４は、動画記憶部２１６から供給される動画を構成する各フレームに基づき、各フレーム撮像時の撮像装置１０の動きを検出する。より詳細には、動き検出部２２４は、連続する２のフレームの差分に基づいて撮像装置１０の動きを検出する。以下、図７および図８を参照し、動き検出について具体的に説明する。

図７は、連続する２のフレームを示した説明図である。図７において、フレームＬが新しい方のフレーム（時間的に後に得られたフレーム）であり、フレームＬ−１が古い方のフレーム（時間的に前に得られたフレーム）である。

動き検出部２２４は、フレームＬ−１を構成するブロックごとに、フレームＬに対する動き予測を行い、ブロックごとの動きベクトルを得る。そして、動き検出部２２４は、全ブロックの動きベクトルから、支配的な方向に対して大きく異なる動きベクトルを除き、他の動きベクトルから撮像装置１０の動きベクトルを特定する。

図７に示した例では、フレームＬ−１とフレームＬでカート画像の位置は変わっていないが、フレームＬ−１の背景画像であるサーキットコースは、フレームＬにおいて全体的に右下方向へ移動している。この場合、動き検出部２２４は、カート画像を除くサーキットコースを構成するブロックの動きベクトルを例えば平均することにより、撮像装置１０の動きベクトルを特定する。

さらに、動き検出部２２４は、撮像装置１０の動きベクトルのスカラー量（以下、動き量と称する。）に基づき、撮像装置１０が動いていた区間を判断する。

図８は、撮像装置１０が動きていたと判断される区間の具体例を示した説明図である。図８に示したように、動き検出部２２４は、撮像装置１０の動き量が閾値ｔｈ１を上回っている区間を撮像装置１０が動いていた区間として判断する。具体的には、図８に示した例では時間ｔ３〜ｔ４および時間ｔ５〜ｔ６において撮像装置１０動き量が閾値ｔｈ１を上回っているため、動き検出部２２４は、時間ｔ３〜ｔ４および時間ｔ５〜ｔ６を撮像装置１０が動いていた区間として判断する。

（動領域検出部２２８）
動領域検出部２２８は、動画記憶部２１６から供給される動画を構成する各フレームから、動きを有する被写体が写っている動領域を検出する。そして、被写体検出部２３２は、動領域検出部２２８により検出された動領域の範囲内で、注視度マップ生成部２２０により生成された注視度マップから被写体を検出する。以下、詳細な説明に先立ち、動領域検出部２２８を設けた意図を説明する。

図９は、フレームからの被写体の検出例を示した説明図である。より詳細には、図９は、被写体検出部２３２が仮に注視度マップの全体から被写体を検出する場合に検出される被写体を示している。具体的には、図９に示したように、カートを含む被写体矩形Ａに加え、サーキットコース上の物体が被写体矩形Ｂ〜Ｅとして検出されている。

このように、被写体検出部２３２が仮に注視度マップの全体から被写体を検出する場合、動きを有するカートを含む被写体矩形Ａに加え、静止している物体を含む被写体矩形Ｂ〜Ｅも検出される。しかし、本実施形態では、撮像装置１０により追跡して撮像された注目被写体を含む区間の抽出が望まれる。すなわち、注目被写体としては動きを有する被写体を想定しているため、静止している物体を含む被写体矩形Ｂ〜Ｅは注目被写体として適切でない。

そこで、静止している物体を含む被写体矩形が注目被写体の候補として検出されてしまう場合を抑制するために、動領域検出部２２８を画像抽出装置２０に設けた。以下、図１０を参照し、動領域検出部２２８の機能について説明する。

図１０は、動領域検出部２２８がフレームから動領域を検出する様子を示した説明図である。図１０に示したように、動領域検出部２２８は、フレームＬ−１を、動き検出部２２４により検出された撮像装置１０の動きベクトルをキャンセルするようにフレームＬ−１を変換する。例えば、動き検出部２２４により検出された撮像装置１０の動きベクトルの方向がＱ、大きさがＲであった場合、フレームＬ−１内の画像を、−Ｑ方向に大きさＲだけ移動させる。そして、動領域検出部２２８は、フレームＬと、変換後のフレームＬ−１との差分画像を生成する。

ここで、静止している物体であっても、撮像装置１０の動きにより、フレームＬとフレームＬ−１における存在位置は異なる。しかし、上記のように、変換後のフレームＬ−１においては撮像装置１０の動きがキャンセルされているため、静止している物体のフレームＬおよび変換後のフレームＬ−１における存在位置はほぼ一致すると考えられる。このため、図１０に示したように、フレームＬと変換後のフレームＬ−１との差分画像においては、主に動きを有する被写体であるカートがフレーム間の差分として現れる。

さらに、動領域検出部２２８は、図１０に示したように、差分画像の輝度値をブロック単位で閾値処理することにより、動きを有する被写体が存在する動領域を示す動領域画像を得る。なお、図１０に示した動領域画像においては、輝度を有する領域が動領域に該当する。

（被写体検出部２３２）
被写体検出部２３２は、動領域検出部２２８により検出された動領域から、注視度マップ生成部２２０により生成された注視度マップに基づいて被写体矩形を検出する。仮に、被写体検出部２３２が注視度マップのみに基づいて被写体検出を行うと、図９を参照して説明したように、静止している物体も被写体矩形として検出されてしまう。

これに対し、本実施形態による被写体検出部２３２は、動領域検出部２２８により検出された動領域から被写体検出を行うため、主に動きを有する物体を被写体矩形として検出することが可能である。

例えば、本実施形態による被写体検出部２３２によれば、図９に示した被写体矩形Ａ〜Ｅのうちで、動きを有するカートの被写体矩形Ａのみが検出されることが期待される。このように、注視度マップ生成部２２０、動領域検出部２２８、および被写体検出部２３２は、新規の被写体を検出するための新規被写体検出部として機能する。

（管理部２３６、情報記憶部２４０）
管理部２３６は、情報管理部２５４、特徴成分選択部２５６、および比較部２５８を有する。この管理部２３６は、被写体検出部２３２により検出された被写体矩形の被写体情報を情報記憶部２４０において管理する。ここで、被写体情報としては、被写体ＩＤ、出現フレーム番号、および消失フレーム番号などがあげられる。

例えば、情報管理部２５４は、被写体検出部２３２により検出された被写体矩形のうちで、被写体追跡部２４４が追跡中でない新規の被写体矩形に被写体ＩＤを割当て、この被写体矩形が検出されたフレームの番号を出現フレーム番号として情報記憶部２４０に記録する。さらに、この被写体矩形があるフレームにおいて被写体追跡部２４４により追跡されなくなると、このフレームの番号を消失フレーム番号として情報記憶部２４０に記録する。

このようにして情報管理部２５４により管理される被写体情報の内容を、図１１に模式的に示した。図１１に示したように、出現フレーム番号および消失フレーム番号により、各被写体が追跡された区間を特定することが可能である。

なお、情報記憶部２４０は、動画記憶部２１６と同様に、不揮発性メモリ、磁気ディスク、光ディスク、およびＭＯディスクなどの記憶媒体であってもよい。また、図５においては、動画記憶部２１６および情報記憶部２４０を異なるブロックとして記載したが、本実施形態はかかる例に限定されない。例えば、動画記憶部２１６および情報記憶部２４０は物理的に同一の記憶媒体であってもよい。

また、特徴成分選択部２５６および比較部２５８は、ある被写体に関してオクルージョンが発生した場合、オクルージョン発生前の被写体と、オクルージョン発生後の被写体の同一性を判断するための同一被写体判断部として機能する。ここで、図１２を参照し、オクルージョン、およびオクルージョンによる弊害を説明する。

図１２は、オクルージョン発生の様子を示した説明図である。オクルージョンとは、手前の被写体に遮られた奥の被写体が見えなくなる状態である。図１２に示した例では、フレームｙにおいて、被写体であるカートが手前のポールに遮られて見えなくなっており、オクルージョンが発生している。

このようなオクルージョンが発生すると、一時的に被写体を追跡できなくなるため、同一の被写体が異なる被写体として扱われてしまう場合があった。例えば、図１２に示したフレームｘに含まれるカートの被写体矩形に被写体ＩＤ：２が割り振られており、フレームｙにおいてオクルージョンが発生すると、カートを追跡できなくなるため、被写体ＩＤ：２であるカートの被写体矩形は消失したものとして管理される場合があった。

さらに、オクルージョン後のフレームｚにおいてカートの被写体が再び現れると、カートの被写体が新規被写体として扱われるため、オクルージョン発生前と異なる被写体ＩＤ（図１２に示した例では、被写体ＩＤ：２４）が割り振られてしまう場合があった。

これに対し、特徴成分選択部２５６および比較部２５８によれば、オクルージョンが発生しても、オクルージョン発生前の被写体矩形とオクルージョン発生後の被写体矩形を同一の被写体として扱うことが可能である。以下、このような特徴成分選択部２５６および比較部２５８について説明する。

特徴成分選択部２５６は、オクルージョン発生前の被写体矩形とオクルージョン発生後の被写体矩形を比較するための特徴成分を選択する。より詳細には、被写体矩形によって他の被写体矩形と区別しやすい特徴成分が異なるので、特徴成分選択部２５６は、オクルージョンの発生した被写体矩形と他の被写体矩形を区別しやすい特徴成分を選択する。

例えば、図６に示した特徴量マップにおいて、カートは色特徴量マップでの特徴が強いので他の被写体と区別しやすいが、輝度特徴量マップや方向特徴量マップでの特徴は弱いので他の被写体と区別しにくい。この場合、特徴成分選択部２５６は、比較のための特徴成分として、オクルージョンの発生した被写体矩形と他の被写体矩形を区別しやすい色特徴量を選択する。以下、図１３を参照し、特徴成分選択部２５６が選択する特徴成分についてより具体的に説明する。

図１３は、特徴成分選択部２５６による特徴成分の選択基準を示した説明図である。図１３においては、複数フレームに含まれるある被写体矩形（以下、被写体矩形Ｘ）の、ある特徴成分についての複数フレーム間での誤差を本人内誤差と称する。また、被写体矩形Ｘと他の被写体矩形との各フレームにおける特徴量間距離を本人―他人間距離と称する。

図１３に示したように、被写体矩形Ｘに関し、特徴量Ａにおいては本人内誤差と、本人―他人間距離とが重なっていない。したがって、被写体矩形Ｘとの特徴量Ａにおける特徴量間距離が上記本人内誤差の範囲内である新たな被写体矩形が検出された場合、この新たな被写体矩形が被写体矩形Ｘと同一であると判断することが可能である。すなわち、特徴量Ａに基づき、フレームから被写体矩形Ｘを他の被写体矩形と区別して検出することが可能である。このため、特徴成分選択部２５６は、特徴量Ａを比較のための特徴成分として選択する。

一方、図１３に示したように、被写体矩形Ｘに関しては、特徴量Ｂにおいては本人内誤差と、本人―他人間距離とが重なっている。したがって、新たな被写体矩形と被写体矩形Ｘとの特徴量Ｂにおける特徴量間距離が上記本人内誤差の範囲内であったとしても、新たな被写体矩形は被写体矩形Ｘと異なる可能性がある。すなわち、特徴量Ｂに基づき、フレームから被写体矩形Ｘを他の被写体矩形と区別して検出することは困難である。このため、特徴成分選択部２５６は、比較のための特徴成分として特徴量Ｂを選択しない。

比較部２５８は、新たに検出された被写体矩形と過去フレームにおいて消失した被写体矩形Ｘとの、特徴成分選択部２５６により選択された特徴成分における特徴量間距離を測定する。

そして、情報管理部２５４は、比較部２５８による測定結果に応じて、被写体情報を管理する。例えば、情報管理部２５４は、新たな被写体矩形と被写体矩形Ｘとの特徴量間距離が十分な数（例えば、２つ）の特徴成分において閾値より小さい場合、新たな被写体矩形を被写体矩形Ｘとして処理してもよい。具体的には、情報管理部２５４は、情報記憶部２４０における被写体矩形Ｘの消失フレーム番号を削除し、被写体矩形Ｘと同じ被写体ＩＤを新たな被写体矩形に割り振ってもよい。

一方、情報管理部２５４は、新たな被写体矩形と被写体矩形Ｘとの特徴量間距離が小さい特徴成分の数が十分でない場合、新たな被写体矩形を通常通り処理してもよい。具体的には、情報管理部２５４は、この新たな被写体矩形に新たな被写体ＩＤを割り振ってもよい。

（被写体追跡部２４４）
被写体追跡部２４４は、あるフレームにおいて検出された被写体矩形を、次のフレームにおいて検出および追跡する。すなわち、被写体追跡部２４４は、被写体矩形を継続的に検出する被写体検出部としての機能を有する。なお、検出および追跡法として、例えば特徴点を使用するＫＬＴ（Ｋａｎａｄｅ−Ｌｕｃａｓ−Ｔｏｍａｓｉ）法を適用することができる。この被写体追跡部２４４の詳細な処理については、図１７を参照して後述する。

（注目被写体選択部２４８）
注目被写体選択部２４８は、撮像装置１０により追跡して撮像された被写体（追っかけ撮りされた被写体）を注目被写体として選択する。具体的には、撮像装置１０が動いていたと動き検出部により判断された区間において、被写体追跡部２４４により所定長さ（閾値ｔｈ２）以上の区間にわたって検出（追跡）された被写体矩形を注目被写体として選択する。以下、図１４を参照し、注目被写体選択部２４８により選択される注目被写体の具体例を説明する。

図１４は、注目被写体選択部２４８により選択される注目被写体の具体例を示した説明図である。図１４に示したように、注目被写体選択部２４８は、各被写体矩形が、撮像装置１０が動いていたと判断された時間ｔ３〜ｔ４および時間ｔ５〜ｔ６において追跡された区間長さを得る。

そして、注目被写体選択部２４８は、撮像装置１０が動いていたと判断された時間において追跡された区間長さが閾値ｔｈ２以上である被写体矩形を注目被写体として選択する。したがって、図１４に示した例においては、被写体ＩＤ：２である被写体矩形が注目被写体として選択される。

（抽出部２５２）
抽出部２５２は、動画から、注目被写体選択部２４８により選択された注目被写体を含む区間を抽出する。具体的には、抽出部２５２は、注目被写体の被写体情報から注目被写体が追跡されていた区間を得て、この区間の少なくとも一部を含む区間を動画から抽出する。

例えば、抽出部２５２は、図１４に示した例において、注目被写体（被写体ＩＤ：２）が追跡された時間ｔ４−１〜ｔ６までの区間を抽出してもよい。また、抽出部２５２は、注目被写体が現れる前を含む区間（例えば、時間ｔ４〜ｔ６）を抽出してもよいし、注目被写体が追跡された時間の一部区間（例えば、時間ｔ５〜ｔ６）を抽出してもよい。

ここで、注目被写体は、撮像装置１０により追跡して撮像された被写体である。したがって、上記の抽出部２５２の処理により、動画から、撮像装置１０により追跡して撮像された被写体が写っている区間を抽出することが可能である。

＜３．画像抽出装置の動作＞
以上、図４〜図１４を参照して画像抽出装置２０の構成を説明した。続いて、図１５〜図１８を参照し、画像抽出装置２０の詳細な動作を説明する。具体的には、図１５を参照して動き検出部２２４の動作を説明し、図１６を参照して動領域検出部２２８の動作を説明し、図１７を参照して被写体追跡部２４４の動作を説明し、図１８を参照して管理部２３６の動作を説明する。

（３−１．撮像装置の動き検出）
図１５は、動き検出部２２４による撮像装置１０の動き検出の流れを示したフローチャートである。動き検出部２２４は、動画記憶部２１６から供給される動画を構成する各フレームに基づき、各フレーム撮像時に撮像装置１０が動いていたか否かを判断する。

具体的には、動き検出部２２４は、フレームＬ、およびフレームＬの直前フレームであるフレームＬ−１が供給され、フレームＬ−１を構成するブロックごとに、フレームＬに対する動き予測を行い、ブロックごとの動きベクトルを得る（Ｓ３０４）。なお、フレームＬを構成するブロックごとに、フレームＬ−１に対する動き予測を行い、ブロックごとの動きベクトルを得てもよい。

そして、動き検出部２２４は、ブロックごとの動きベクトルから、動きベクトルの支配的な方向と、支配的な方向に対する各ブロックの動きベクトルの分散を計算する（Ｓ３０８）。その後、動き検出部２２４は、支配的な方向に対して最も異なる動きベクトルを有するブロックを処理対象から除外する（Ｓ３１２）。

動き検出部２２４は、上記のＳ３０８およびＳ３１２の処理を、支配的な方向に対する各ブロックの動きベクトルの分散が閾値以下になるまで繰り返して行う。これにより、撮像装置１０のフレームＬにおける動きベクトルを得ることができる。

さらに、動き検出部２２４は、撮像装置１０の動きベクトルのスカラー量が閾値ｔｈ１を上回っているか否かを判断する。そして、動き検出部２２４は、撮像装置１０の動きベクトルのスカラー量が閾値ｔｈ１を上回っている場合には、撮像装置１０が動いていたと判断する（Ｓ３２０）。一方、動き検出部２２４は、撮像装置１０の動きベクトルのスカラー量が閾値ｔｈ１を上回っていない場合には、撮像装置１０が動いていなかったと判断する（Ｓ３２４）。

動き検出部２２４は、上記のＳ３０４〜Ｓ３２０またはＳ３０４〜Ｓ３２４の処理を次フレーム以降のフレームに対しても行うことにより（Ｓ３２８）、各フレームの撮像時に撮像装置１０が動いていたか否かを判断することができる。

（３−２．動領域検出）
次に、図１６を参照し、フレーム中の動領域を検出する動領域検出部２２８の動作を説明する。

図１６は、動領域検出部２２８によるフレーム中の動領域検出の流れを示したフローチャートである。動領域検出部２２８は、動画記憶部２１６から供給される動画を構成する各フレームから、動きを有する被写体が写っている動領域を検出する。

具体的には、動領域検出部２２８は、動き検出部２２４からフレームＬの撮像時の撮像装置１０の動きベクトルが供給され、動画記憶部２１６からフレームＬ−１が供給される。動領域検出部２２８は、動画記憶部２１６から供給されたフレームＬ−１を、撮像装置１０の動きベクトルをキャンセルするように並進・回転させて変換する（Ｓ４０４）。

続いて、動領域検出部２２８は、動画記憶部２１６から供給されたフレームＬと、変換後のフレームＬ−１との差分を演算して差分画像を得る（Ｓ４０８）。この差分画像は、主に動きを有する被写体の存在部分に輝度を有する。

そして、動領域検出部２２８は、差分画像の輝度値をブロック単位で閾値処理することにより、動きを有する被写体が存在する動領域を示す動領域画像を得る（Ｓ４１２）。なお、被写体検出部２３２は、動領域検出部２２８により検出された動領域から被写体検出を行うため、動領域検出部２２８における動領域の検出により、主に動きを有する物体を被写体矩形として検出することが可能である。

さらに、動領域検出部２２８は、Ｓ４０４〜Ｓ４１２の処理を次フレーム以降のフレームに対しても行うことにより（Ｓ４１６）、動きを有する被写体が存在する動領域を示す動領域画像を各フレームにおいて得ることができる。

（３−３．被写体の追跡）
続いて、図１７を参照し、前フレームで検出された被写体を追跡する被写体追跡部２４４の動作を説明する。

図１７は、被写体追跡部２４４による被写体追跡の流れを示したフローチャートである。図１７に示したように、被写体追跡部２４４は、フレームＬ−１が動画記憶部２１６から供給される。また、フレームＬ−１における新規被写体の被写体矩形は被写体検出部２３２から供給され、追跡中の被写体矩形は被写体追跡部２４４による以前の処理により得られる。

被写体追跡部２４４は、フレームＬ−１およびフレームＬ−１の被写体矩形から、被写体矩形内の特徴点を検出することにより、被写体矩形内の特徴点の座標を得る（Ｓ４２０）。そして、被写体追跡部２４４は、動画記憶部２１６から供給されたフレームＬにおいて、Ｓ４２０で検出した特徴点を追跡し、フレームＬにおける特徴点の座標を得る（Ｓ４２４）。

その後、被写体追跡部２４４は、フレームＬの注視度マップに基づき、Ｓ４２４で得た特徴点近傍で被写体矩形の検出を試みる（Ｓ４３２）。そして、被写体矩形が検出された場合、この被写体矩形がフレームＬの被写体矩形として扱われる（Ｓ４３２）。

一方、被写体矩形が検出されなかった場合、被写体追跡部２４４は、被写体矩形が消失したと判断する（Ｓ４３６）。なお、情報管理部２５４は、被写体追跡部２４４により被写体矩形が消失したと判断されると、この被写体矩形の消失フレーム番号としてフレームＬを記録する。

さらに、被写体追跡部２４４は、Ｓ４２０〜Ｓ４３２、またはＳ４２０〜Ｓ４３６の処理を次フレーム以降のフレームに対しても行うことにより（Ｓ４４０）、複数フレームにわたって被写体矩形を追跡することが可能である。

（３−４．オクルージョン対応処理）
続いて、図１８を参照し、オクルージョンによる弊害を是正するための管理部２３６による処理の流れを説明する。

図１８は、管理部２３６によるオクルージョンに対応するための処理の流れを示したフローチャートである。図１８に示したように、被写体追跡部２４４により被写体矩形の追跡処理が行われ（Ｓ４４４）、フレームＬにおいて被写体矩形が検出されなかった場合（Ｓ４４８）、被写体矩形がオクルージョンにより一時的に消失した可能性がある。このため、特徴成分選択部２５６および比較部２５８は、オクルージョン後に現れた被写体矩形と消失した被写体矩形との同一性を判断するために、判断に用いる特徴成分の選択、および比較判断を行う。

具体的には、特徴成分選択部２５６は、フレームＬ−１以前のｎフレーム分の過去フレームの各特徴量マップから、消失した被写体矩形の各特徴成分における本人内誤差、および本人―他人間距離を計算する（Ｓ４５２）。これにより、特徴成分ごとの本人内誤差、および本人―他人間距離が得られる。

なお、上述したように、消失した被写体矩形のある特徴成分についての複数フレーム間での誤差が本人内誤差であり、消失した被写体矩形と他の被写体矩形との各フレームにおける特徴量間距離が本人―他人間距離である。

その後、特徴成分選択部２５６は、複数種類の特徴成分から、本人内誤差と本人―他人間距離が重ならない特徴成分を選択する（Ｓ４５６）。そして、十分な数（例えば、３）以上の特徴成分が選択された場合（Ｓ４６０）、比較部２５８によりフローチャート右段に示した処理が行われる。

比較部２５８は、フレームＬ＋１およびフレームＬ＋１の注視度マップに基づいてフレームＬ＋１の被写体矩形が検出された後、フレームＬから追跡された被写体矩形を除外する（Ｓ４６４）。これにより、フレームＬ＋１で新規（オクルージョン後を含む）に検出された被写体矩形が得られる。

その後、比較部２５８は、フレームＬ＋１で新規に検出された被写体矩形について、特徴成分選択部２５６により選択された特徴成分ごとに、消失した被写体矩形との特徴量間距離を測定する（Ｓ４６８）。そして、フレームＬ＋１で新規に検出された被写体矩形と消失した被写体矩形との特徴量間距離が閾値以下である特徴成分が所定数以上であった場合、情報管理部２５４は、フレームＬ＋１で新規に検出された被写体矩形に、消失した被写体矩形と同じ被写体ＩＤを割り振る（Ｓ４７６）。

一方、フレームＬ＋１で新規に検出された被写体矩形と消失した被写体矩形との特徴量間距離が閾値以下である特徴成分が所定数を下回る場合、情報管理部２５４は、フレームＬ＋１で新規に検出された被写体矩形に新たな被写体ＩＤを割り振り、新規被写体として処理する。

そして、次フレーム以降でもＳ４６４〜Ｓ４８０の処理を繰り返すことにより（Ｓ４８４）、複数フレームにわたってオクルージョンが発生していた被写体矩形も適切に処理することが可能となる。なお、オクルージョンは一時的に発生する状態であるため、消失した被写体矩形と新規に検出された被写体との比較を行うフレーム数には上限を設けてもよい。

＜４．まとめ＞
以上説明したように、本発明の一実施形態による画像抽出装置２０は、撮像装置１０の動きが検出された区間において、所定長さ以上の区間にわたって検出された被写体矩形を注目被写体として選択する。さらに、画像抽出装置２０は、動画から、注目被写体を含む動画区間を抽出する。したがって、ユーザは、画像抽出装置２０を利用することにより、撮像装置１０により追っかけ撮りされた注目被写体を含む、ユーザにとって魅力的な動画区間を得ることが可能である。

また、本発明の一実施形態による画像抽出装置２０は、フレームで動きを有する被写体が存在する動領域を検出する動領域検出部２２８、および動領域検出部２２８により検出された動領域から注目被写体の候補として被写体矩形を検出する被写体検出部２３２を備える。かかる構成によれば、静止している物体を含む被写体矩形が注目被写体の候補として検出されてしまう場合を抑制することが可能である。

また、本発明の一実施形態による画像抽出装置２０は、オクルージョンの発生にも適切に対処することが可能である。具体的には、画像抽出装置２０の特徴成分選択部２５６が、追跡中の被写体矩形が消失した場合に消失した被写体矩形と他の被写体矩形を区別しやすい特徴成分を選択する。そして、比較部２５８が、特徴成分選択部２５６により選択された特徴成分で新規に検出された被写体矩形と消失した被写体矩形とを比較する。さらに、情報管理部２５４が、特徴量間距離が閾値以下であれば、新規に検出された被写体矩形に消失した被写体矩形と同一の被写体ＩＤを割り振る。これにより、オクルージョンの発生した被写体矩形を、フレームから消失していた間も検出・追跡されたいたものとして扱うことが可能となる。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、上記実施形態では、特徴成分選択部２５６が本人内誤差と本人―他人間距離とが重ならない特徴成分を選択する例を説明したが、本発明はかかる例に限定されない。例えば、全ての特徴成分で本人内誤差と本人―他人間距離が重なっている場合、特徴成分選択部２５６は、本人内誤差と本人―他人間距離との重なりが少ない特徴成分を優先的に選択してもよい。

また、上記実施形態では、動き検出部２２４が撮像装置１０の動き量が閾値ｔｈ１を上回っている場合に撮像装置１０が動いていたと判断する例を説明したが、本発明はかかる例に限定されない。例えば、動き検出部２２４は、撮像装置１０の動き量が閾値ｔｈ１以下である時間が所定長さ以下であった場合、この時間を含めて撮像装置１０が動いていたと判断してもよい。具体的には、動き検出部２２４は、図８に示した例において、時間ｔ４および時間ｔ５間が所定長さ以下である場合、時間ｔ３〜ｔ６まで撮像装置１０が動いていたと判断してもよい。

また、上記実施形態では、動画を構成する各フレームを処理する例を説明した。しかし、注目被写体選択部２４８は、撮像装置１０が動いていたと動き検出部により判断された区間において、被写体追跡部２４４により所定長さ以上の区間にわたって追跡された被写体矩形を注目被写体として選択する。このため、被写体追跡部２４４は、撮像装置１０が動いていたと動き検出部により判断された区間において追跡を行い、他の区間では追跡を行わなくてもよい。同様に、注視度マップ生成部２２０、動領域検出部２２８、および被写体検出部２３２なども、撮像装置１０が動いていたと動き検出部により判断された区間において処理を行い、他の区間では処理を行わなくてもよい。かかる構成によれば、動画抽出装置２０の本来の目的を達成しつつ、動画抽出装置２０における動画抽出のための処理負荷を軽減することができる。

また、上記実施形態では、情報管理部２５４が、新たな被写体矩形と被写体矩形Ｘとの特徴量間距離が十分な数の特徴成分において閾値より小さい場合、新たな被写体矩形をオクルージョンにより消失した被写体矩形Ｘとして処理する例を説明したが、本発明はかかる例に限定されない。例えば、情報管理部２５４は、新たな被写体矩形と被写体矩形Ｘとの特徴量間距離が少なくとも１の特徴成分において閾値より小さい場合に、新たな被写体矩形をオクルージョンにより消失した被写体矩形Ｘとして処理してもよい。

例えば、本明細書の画像抽出装置２０の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、画像抽出装置２０の処理における各ステップは、並列的に実行される処理を含んでもよいし、個別に実行される処理を含んでもよい。

また、画像抽出装置２０に内蔵されるＣＰＵ２０１、ＲＯＭ２０２およびＲＡＭ２０３などのハードウェアを、上述した画像抽出装置２０の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。また、図５の機能ブロック図で示したそれぞれの機能ブロックをハードウェアで構成することで、一連の処理をハードウェアで実現することもできる。

１０撮像装置
１２通信網
１４動画共有サーバ
２０画像抽出装置
２４リムーバブル記憶媒体
２１６動画記憶部
２２０注視度マップ生成部
２２４動き検出部
２２８動領域検出部
２３２被写体検出部
２３６管理部
２４０情報記憶部
２４４被写体追跡部
２４８注目被写体選択部
２５２抽出部
２５４情報管理部
２５６特徴成分選択部
２５８比較部

Claims

撮像装置により撮像された動画に基づき、動画撮像時の前記撮像装置の動きを検出する動き検出部と；
前記動画から被写体を検出する被写体検出部と；
前記動き検出部により前記撮像装置の動きが検出された区間において、前記被写体検出部により所定長さ以上の区間にわたって検出された被写体を注目被写体として選択する注目被写体選択部と；
前記動画から、前記注目被写体選択部により選択された前記注目被写体を含む区間を抽出する抽出部と；
を備える、動画抽出装置。
前記動き検出部は、前記動画を構成するフレーム中の、連続する２のフレームの差分に基づいて前記撮像装置の動きを検出する、請求項１に記載の動画抽出装置。
前記被写体検出部は、
前記連続する２のフレームうちの一方の第１のフレームを前記動き検出部により検出された前記撮像装置の動きを利用して変換し、
前記連続する２のフレームうちの他方の第２のフレームと、変換後の前記第１のフレームとの相違部分から前記被写体を検出する、請求項２に記載の動画抽出装置。
前記動画抽出装置は、前記被写体検出部により新たに検出された被写体と、過去フレームにおいて消失した被写体とを比較し、双方の被写体が同一の被写体であるか否かを判断する同一被写体判断部をさらに備え、
前記同一被写体判断部により同一であると判断された被写体は、消失していた間も検出されていたものとして扱われる、請求項３に記載の動画抽出装置。
前記同一被写体判断部は、
前記過去フレームにおいて消失した被写体に対応する特徴成分を選択する特徴成分選択部と；
前記新たに検出された被写体と、前記過去フレームにおいて消失した被写体とを、前記特徴成分選択部により選択された特徴成分において比較する比較部と；
を含む、請求項４に記載の動画抽出装置。
前記特徴成分選択部は、前記被写体の消失前の複数フレームにおいて前記被写体と他の被写体とを区別可能な特徴成分を、複数種類の特徴成分のうちから選択する、請求項５に記載の動画抽出装置。
コンピュータを、
撮像装置により撮像された動画に基づき、動画撮像時の前記撮像装置の動きを検出する動き検出部と；
前記動画から被写体を検出する被写体検出部と；
前記動き検出部により前記撮像装置の動きが検出された区間において、前記被写体検出部により所定長さ以上の区間にわたって検出された被写体を注目被写体として選択する注目被写体選択部と；
前記動画から、前記注目被写体選択部により選択された前記注目被写体を含む区間を抽出する抽出部と；
として機能させるための、プログラム。
撮像装置により撮像された動画に基づき、動画撮像時の前記撮像装置の動きを検出するステップと；
前記動画から被写体を検出するステップと；
前記撮像装置の動きが検出された区間において、所定長さ以上の区間にわたって検出された被写体を注目被写体として選択するステップと；
前記動画から、前記注目被写体を含む区間を抽出するステップと；
を含む、動画抽出方法。