JP2020072349A

JP2020072349A - 画像処理装置、画像処理方法

Info

Publication number: JP2020072349A
Application number: JP2018204345A
Authority: JP
Inventors: 信一三ツ元; Shinichi Mitsumoto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2020-05-07
Anticipated expiration: 2038-10-30
Also published as: JP7198043B2; US20200134840A1

Abstract

【課題】動画像から意図を持って撮像されたフレーム区間を特定するための技術を提供すること。【解決手段】動画像において、該動画像の撮影者の動作と関連するフレーム区間を動き区間として特定する。動き区間内で被写体が検出されたフレームの割合を取得する。動画像から特定したそれぞれの動き区間のうち使用する動き区間を、該それぞれの動き区間について取得した割合に基づいて決定する。【選択図】図２

Description

本発明は、動画像から使用するフレーム区間を特定するための技術に関するものである。

近年、デジタルカメラやスマートフォンの普及に伴い、動画の撮影が手軽になったことから、自分で撮影した未編集の動画を保有しているユーザは多い。ユーザが動画を視聴するとき、動画の再生に時間がかかり過ぎたり、途中で退屈になったりすることを防ぐために、動画のハイライトだけを抜き出して短縮した動画を視聴するという方法が広く知られている。

しかしながら、動画から手動でハイライトを抜き出した動画を作成することは非常に手間となる。そこで、自動でハイライトを抜き出した動画を作成する方法として、特許文献１のように動画から抽出したフレームを評価して得られる評価値が閾値以上となるフレームが連続する区間をハイライト区間として選択する方法が提案されている。

しかし、このような方法において、撮影者が特に意図を持って撮影した区間でなく、不要な区間を選択する恐れがある。この問題を解決するため、特許文献１では、被写体検出した情報、ズームやパンといったカメラを操作した情報などフレームを評価して得られる複数の評価値を合計し、閾値以上となる区間を選択する方法を提案している。

国際公開第２００５／０８６４７８号

しかしながら、歩く被写体を撮影者が追って撮影している場合、特許文献１の方法では、歩いている区間の評価値と被写体を検出した区間の評価値を合計するため、閾値以上の区間を選択すると歯抜けになることがある。追いかけて撮影している場合、意図を持って撮影したと推定できるが、被写体が撮影者に対し背を向けていると被写体の顔が検出できずに、被写体が撮影者側に向いている区間のみ選択されることになる。被写体が撮影者側に向いていない区間を選択するために閾値を下げると、被写体の検出の有無に関わらず、歩いている区間全体が選択されるようになり、意図を持たずに撮影したと思われる区間までも選ばれるようになる。本発明では、動画像から意図を持って撮像されたフレーム区間を特定するための技術を提供する。

本発明の一様態は、動画像において、該動画像の撮影者の動作と関連するフレーム区間を動き区間として特定する特定手段と、前記動き区間内で被写体が検出されたフレームの割合を取得する取得手段と、前記特定手段が前記動画像から特定したそれぞれの動き区間のうち使用する動き区間を、該それぞれの動き区間について前記取得手段が取得した割合に基づいて決定する決定手段とを備えることを特徴とする。

本発明の構成によれば、動画像から意図を持って撮像されたフレーム区間を特定することができる。

画像処理装置のハードウェア構成例を示すブロック図。画像処理装置の機能構成例を示すブロック図。フレームテーブルの構成例を示す図。動き区間テーブルの構成例を示す図。ハイライト区間テーブルの構成例を示す図。画像処理装置の動作を示すフローチャート。第２の実施形態を説明する図。画像処理装置の機能構成例を示すブロック図。集中区間テーブルの構成例を示す図。ハイライト区間テーブルの構成例を示す図。画像処理装置の動作を示すフローチャート。画像処理装置の機能構成例を示すブロック図。フレームテーブルの構成例を示す図。ハイライト区間テーブルの構成例を示す図。画像処理装置の動作を示すフローチャート。動き区間テーブルの構成例を示す図。画像処理装置の動作を示すフローチャート。ハイライト区間テーブルの構成例を示す図。

以下、添付図面を参照し、本発明の実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施形態の１つである。

［第１の実施形態］
本実施形態に係る画像処理装置は、動画像において、該動画像の撮影者の動作と関連するフレーム区間を動き区間として特定し、該特定した動き区間のうちハイライトとして使用する動き区間（ハイライト区間）を決定する。そして画像処理装置は、該ハイライト区間を繋げた動画像を生成して出力する。先ず、本実施形態に係る画像処理装置のハードウェア構成例について、図１のブロック図を用いて説明する。

ＣＰＵ１０１は、ＲＡＭ１０２やＲＯＭ１０３に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ１０１は、画像処理装置全体の動作制御を行うと共に、画像処理装置が行うものとして後述する各処理を実行若しくは制御する。

ＲＡＭ１０２は、ＲＯＭ１０３やＨＤＤ（ハードディスクドライブ）１０９からロードされたコンピュータプログラムやデータ、ネットワークＩＦ（インターフェース）１０４や入力ＩＦ１１０を介して外部から受信したデータを格納するためのエリアを有する。さらにＲＡＭ１０２は、ＣＰＵ１０１が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ１０２は、各種のエリアを適宜提供することができる。

ＲＯＭ１０３は、画像処理装置の起動プログラムなどのコンピュータプログラムが格納されているプログラムＲＯＭと、画像処理装置の設定データなどのデータが格納されているデータＲＯＭと、を有する。

ネットワークＩＦ１０４は、ＬＡＮやインターネットなどの有線および／または無線のネットワークを介して外部の機器との間のデータ通信を行うための通信用インターフェースである。

ＶＲＡＭ１０５は、表示装置１０６に表示する画像や文字を書き込むためのメモリであり、この書き込みはＣＰＵ１０１によって行われる。表示装置１０６は、液晶画面やタッチパネル画面により構成されており、ＶＲＡＭ１０５に書き込まれたデータに基づいて画像や文字を表示する。なお、表示装置１０６は、ＶＲＡＭ１０５に書き込まれた画像や文字を投影するプロジェクタなどの投影装置であっても良い。

入力コントローラ１０７は、入力装置１０８からの指示入力をＣＰＵ１０１に通知する。入力装置１０８は、キーボード、マウス、タッチパネル、リモコンなどのユーザインターフェースであり、ユーザが操作することで各種の指示を入力コントローラ１０７を介してＣＰＵ１０１に入力することができる。

ＨＤＤ１０９には、ＯＳ（オペレーティングシステム）、画像処理装置が行うものとして後述する各処理をＣＰＵ１０１に実行もしくは制御させるためのコンピュータプログラムやデータが保存されている。ＨＤＤ１０９に保存されているデータには、以下の説明において既知の情報として説明するものが含まれている。ＨＤＤ１０９に保存されているコンピュータプログラムやデータは、ＣＰＵ１０１による制御に従って適宜ＲＡＭ１０２にロードされ、ＣＰＵ１０１による処理対象となる。なお、ＲＯＭ１０３の代わりにＨＤＤ１０９を用いてもよい。

入力ＩＦ１１０は、ＣＤ（ＤＶＤ）−ＲＯＭドライブ、メモリカードドライブ等の、記録媒体に対する情報の読み書きを行うドライブ装置を接続するためのインターフェース、動画像を撮像画像な撮像装置を接続するためのインターフェース、を含む。

画像処理装置が処理対象とする動画像は、ＨＤＤ１０９に保存しておいた動画像であっても良いし、ネットワークＩＦ１０４を介して外部の機器から受信した動画像であっても良い。また、画像処理装置が処理対象とする動画像は、入力ＩＦ１１０を介して撮像装置やドライブ装置から入力した動画像であっても良い。

ＣＰＵ１０１、ＲＡＭ１０２、ＲＯＭ１０３、ネットワークＩＦ１０４、ＶＲＡＭ１０５、入力コントローラ１０７、ＨＤＤ１０９、入力ＩＦ１１０のそれぞれは、入出力バス１１１に接続されている。入出力バス１１１は、各ユニット（ＣＰＵ１０１、ＲＡＭ１０２、ＲＯＭ１０３、ネットワークＩＦ１０４、ＶＲＡＭ１０５、入力コントローラ１０７、ＨＤＤ１０９、入力ＩＦ１１０）間を接続する入出力バス（アドレスバス、データバス、制御バス）である。

本実施形態に係る画像処理装置は、ＰＣ（パーソナルコンピュータ）、タブレット型端末装置、スマートフォンなどのコンピュータ装置であっても良いし、動画像を撮像する撮像装置に組み込まれる装置であっても良い。

次に、本実施形態に係る画像処理装置の機能構成例について、図２のブロック図を用いて説明する。以下では、図２の各機能部を処理の主体として説明するが、実際には、各機能部の機能をＣＰＵ１０１に実現させるためのコンピュータプログラムをＣＰＵ１０１が実行することで、各機能部の機能を実現させる。なお、図２に示した各機能部はハードウェアで実装しても構わない。

入力部２０１は、ＨＤＤ１０９、ネットワークＩＦ１０４、入力ＩＦ１１０等から動画像を取得する。そして該動画像を構成する各フレームの画像に付与されているフレーム情報（メタデータ）を収集し、該収集したフレーム情報を登録したテーブル（フレームテーブル）を作成する。

動画像を撮像した撮像装置は、撮像した各フレームの画像から顔（被写体）の領域（顔領域）の検出を行い、該画像から顔領域を検出した場合には、該画像における顔領域の画像座標（Ｘ，Ｙ，Ｗ，Ｈ）を該画像に付与する。ここで、Ｘ，Ｙはそれぞれ顔領域の中心のＸ座標、Ｙ座標（原点は画像の左上隅）を表し、Ｗは顔領域の幅を表し、Ｈは顔領域の高さを表している。本実施形態では、Ｘ，Ｙ，Ｗ，Ｈはそれぞれ、画像の高さおよび幅を１としたときの、顔領域の中心のＸ座標、Ｙ座標、顔領域の幅、顔領域の高さ、を表している。

また、撮像装置は、撮像した各フレームの画像に、該画像の撮像時にジャイロセンサ（撮像装置に搭載されている）が測定したピッチ方向の角速度を付与する。ピッチ方向の角速度の値について、正負は上下方向を表し、値が大きい程、ジャイロセンサで検出した姿勢変化が大きいことを表す。

つまり、動画像を構成する各フレームの画像において、顔領域が検出された画像のフレーム情報には、顔領域の画像座標とピッチ方向の角速度とが含まれている。また、動画像を構成する各フレームの画像において、顔領域が検出されなかった画像のフレーム情報には、顔領域の画像座標は含まれておらず、ピッチ方向の角速度が含まれている。

入力部２０１は、各フレームの画像に付与されているフレーム情報を、該フレームの番号と対応付けてフレームテーブルに登録する。本実施形態に係るフレームテーブルの構成例を図３に示す。

図３のフレームテーブル３０１において「フレーム番号」は、動画像における各フレームの番号である。動画像における先頭フレームの「フレーム番号」は「１」であり、動画像において先頭からｆ（ｆは自然数）番目のフレームの「フレーム番号」は「ｆ」である。「顔座標」は、画像内における顔領域の画像座標であり、「Ｐｉｔｃｈ」は、画像の撮像時におけるピッチ方向の角速度である。

図３の例では、動画像の先頭から２番目のフレーム（フレーム番号が「２」のフレーム）の画像には、顔領域の画像座標（０．４５，０．３３，０．０５，０．０９）」と、ピッチ方向の角速度「２６４」と、を含むフレーム情報が付与されている。よって入力部２０１は、フレーム番号「２」と、顔領域の画像座標（０．４５，０．３３，０．０５，０．０９）」と、ピッチ方向の角速度「２６４」と、を対応付けて同じ行に登録する。

一方、図３の例では、動画像の先頭から３１番目のフレーム（フレーム番号が「３１」のフレーム）の画像には、顔領域の画像座標は含まず、ピッチ方向の角速度「−４５３０」を含むフレーム情報が付与されている。よって入力部２０１は、フレーム番号「３１」と、顔領域の画像座標が存在しないことを示す情報（図３では「−」）と、ピッチ方向の角速度「−４５３０」と、を対応付けて同じ行に登録する。

このようにして入力部２０１は、各フレームの番号を、該フレームの画像に付与されているフレーム情報と対応付けてテーブルに登録する。よって、このような対応関係を登録可能なテーブルであれば、テーブルの構成は図３に示した構成に限らない。

また、このようなフレーム情報を管理するフレームテーブルは、動画像ごとに生成される。また、１フレームの画像から複数の顔領域が検出された場合には、該画像のフレーム情報には該複数の顔領域の画像座標を含めても良く、その場合、フレームテーブルには、該フレームのフレーム番号と関連づけて、該複数の顔領域の画像座標を登録する。

特定部２０２は、動画像において、該動画像の撮影者の動作と関連するフレーム区間を動き区間として特定する。本実施形態では、「動画像の撮影者の動作と関連するフレーム区間」として、撮影者が歩きながら撮影しているフレーム区間（動きのある区間）を動き区間として特定する。

動き区間の特定方法には様々な方法があり、特定の方法に限らない。例えば特定部２０２は、図３のフレームテーブル３０１を参照し、ピッチ方向の角速度の絶対値が閾値以上となるフレーム区間を動き区間とする。なお、動画像において動き区間を特定するための方法は既知であるため、これ以上の説明は省略する。

そして特定部２０２は、動画像から特定した動き区間ごとに、該動き区間の識別情報（ＩＤ）と、該動き区間の開始フレーム（先頭フレーム）の番号と、該動き区間の長さ（フレーム数）と、を対応付けて動き区間テーブルに登録する。動き区間テーブルの構成例を図４に示す。

動き区間テーブル４０１において「ＩＤ」はそれぞれの動き区間に固有の識別情報であり、「開始フレーム番号」は、動き区間の開始フレームのフレーム番号であり、「長さフレーム数」は動き区間の長さ（フレーム数）である。図４の例では、動画像の先頭から２番目の動き区間については、該動き区間のＩＤ「２」と対応付けて、該動き区間の開始フレームのフレーム番号「３１」と、該動き区間の長さ（フレーム数）「１８０」と、が登録されている。図４の動き区間テーブル４０１の「被写体検出フレーム数」、「割合（％）」については後述する。

割合取得部２０３は、フレームテーブル３０１と動き区間テーブル４０１とを参照し、動き区間ごとに、該動き区間内で顔を検出したフレーム数（被写体検出フレーム数）を計数し、該動き区間のフレーム数に対する被写体検出フレーム数の割合を取得する。

例えば、ＩＤ＝１の動き区間について被写体検出フレーム数の割合を求める場合、先ず割合取得部２０３は、動き区間テーブル４０１から、ＩＤ＝１に対応する開始フレーム番号「３１」と長さフレーム数「１８０」とを取得する。そして割合取得部２０３は、図３のフレームテーブル３０１において、フレーム番号「３１」〜「２１１（＝３１＋１８０）」のうち、顔領域の画像座標が登録されているフレーム番号の個数を、ＩＤ＝１の動き区間内の被写体検出フレーム数として計数する。つまり割合取得部２０３は、フレームテーブル３０１において、３１フレーム目を先頭とする１８０フレーム分の区間内のフレームのうち、顔領域の画像座標が登録されているフレームの数を、ＩＤ＝１の動き区間内の被写体検出フレーム数として計数する。そして割合取得部２０３は、ＩＤ＝１の動き区間について計数した被写体検出フレーム数を、ＩＤ＝１と対応付けて動き区間テーブル４０１に登録する。図４の例では、ＩＤ＝１の動き区間に対応する「被写体検出フレーム数」として「１１３」が登録されている。

次に、割合取得部２０３は、動き区間テーブル４０１から、ＩＤ＝１に対応する被写体検出フレーム数「１１３」を取得する。そして割合取得部２０３は、ＩＤ＝１に対応する長さフレーム数「１８０」に対する、ＩＤ＝１に対応する被写体検出フレーム数「１１３」の割合「６２％」を取得する。そして割合取得部２０３は、取得した割合「６２％」をＩＤ＝１に対応する「割合（％）」として動き区間テーブル４０１に登録する。

このようにして、割合取得部２０３は、動き区間テーブル４０１に登録されているそれぞれのＩＤについて被写体検出フレーム数を計数し、該計数した被写体検出フレーム数を、該ＩＤと対応付けて動き区間テーブル４０１に登録する。そして割合取得部２０３は、動き区間テーブル４０１に登録されているそれぞれのＩＤについて、該ＩＤに対応する長さフレーム数に対する被写体検出フレーム数の割合を取得し、取得した割合を該ＩＤと対応付けて動き区間テーブル４０１に登録する。このような動き区間テーブル４０１は動画像ごとに生成される。本実施形態において、割合取得部２０３によって取得される割合は、「撮影者が移動しながら撮影しているフレーム区間中の、被写体が撮影者（撮影装置）側に顔を向けたタイミングのフレーム」の割合を意味する。これは具体例を挙げると、親（撮影者）が子供（被写体）を追いかけながら動画を撮影しており、時折子供が振り返るといったシチュエーションにおいて、子供が振り返る頻度に相当する。

区間決定部２０４は、図４の動き区間テーブル４０１において閾値以上の割合に対応するＩＤを特定し、該特定したＩＤと、該特定したＩＤに対応する開始フレーム番号および長さフレーム数と、を対応付けてハイライト区間テーブルに登録する。ハイライト区間テーブルの構成例を図５に示す。ここで用いられる閾値は、ハイライト区間として「撮影者が移動しながら撮影しているフレーム区間」が抽出される場合に、その中で被写体の顔が映る頻度の高さを指定するものである。閾値が低ければ、被写体が振り返る頻度が低くても対象区間はハイライト区間として抽出されやすくなる。一方で、閾値が高ければ、被写体が高頻度で振り返っていない限り対象区間はハイライト区間として抽出されなくなる。例えば、親である撮影者が移動している間に、同様に移動する子供が振り返らない場合は、子供が度々振り返る場合と比較すると、動画の撮影よりむしろ何等かの目的物に向かって移動することの方が優先されている可能性が高い。一方で、子供が度々振り返る場合には、被写体である子供は、動画に撮影されていること、あるいは親が追っていることを意識している可能性が高く、その表情や発言が、撮影者である親にとって意味を持つ可能性が高い。従って、本実施形態では、適切な閾値を設定することによって、「撮影者が移動しながら撮影しているフレーム区間」の中でも、撮影者にとって特に意味を持つ可能性が高い区間を抽出する。

図５では、閾値＝６０％としている。図４の動き区間テーブル４０１において閾値「６０％」以上の割合「６２％」に対応するＩＤは「１」である。そのため、ＩＤ＝１に対応する開始フレーム番号「３１」と長さフレーム数「１８０」とが、ＩＤ＝１と対応付けてハイライト区間テーブル５０１に登録されている。このようなハイライト区間テーブル５０１は動画像ごとに生成される。つまり区間決定部２０４は、特定部２０２によって特定されたそれぞれの動き区間のうち、上記の割合が閾値以上となる動き区間をハイライト区間として決定している。なお閾値の値は、画像処理装置の設計段階で設計者によって、あるいは出荷後にユーザによって適切な値に調整されればよい。

出力部２０５は、ハイライト区間テーブルに登録されているそれぞれのＩＤについて、該ＩＤに対応する開始フレーム番号のフレームから、該ＩＤに対応する長さフレーム数のフレーム区間（ハイライト区間）内のフレーム群を動画像から取得する。そして出力部２０５は、各ハイライト区間のフレーム群を連結した動画像（ハイライト動画像）を生成して出力する。各ハイライト区間のフレーム群の連結順については特定の順序に限らないが、例えば、ＩＤが小さい順にハイライト区間が並ぶようにフレーム群を連結する。

また、出力部２０５による出力先は特定の出力先に限らない。例えば、出力部２０５は、ハイライト動画像をサーバにアップロードするようにしてもよく、その場合、このアップロードされたハイライト動画像は、サーバにアクセス可能な機器で閲覧することができる。

以上説明した画像処理装置の動作について、図６のフローチャートに従って説明する。ステップＳ６０１では、入力部２０１は、動画像を取得し、該動画像を構成する各フレームの画像に付与されているフレーム情報を収集し、該フレームについて収集したフレーム情報を、該フレームの番号と対応付けてフレームテーブルに登録する。

ステップＳ６０２では、特定部２０２は、動画像から動き区間を特定する。上記の通り、動画像から動き区間となる「歩いている区間」を特定する方法は既知の方法（例えば、特開２０１１−１６４２２７号公報に記載の方法）を採用しても良い。そして特定部２０２は、動画像から特定した動き区間ごとに、該動き区間のＩＤと、該動き区間の開始フレームの番号と、該動き区間の長さと、を対応付けて動き区間テーブルに登録する。

ステップＳ６０３では、割合取得部２０３は、以下の処理で用いる変数ｉを０に初期化すると共に、変数ｉ＿ｍａｘにステップＳ６０２で特定した動き区間の数（区間数）を設定する。

ステップＳ６０４では、割合取得部２０３はｉ＜ｉ＿ｍａｘであるか否かを判断する。この判断の結果、ｉ＜ｉ＿ｍａｘであれば、処理はステップＳ６０５に進み、ｉ≧ｉ＿ｍａｘであれば、処理はステップＳ６０９に進む。

ステップＳ６０５では、割合取得部２０３は、変数ｉの値を１つインクリメントする。そしてステップＳ６０６では、割合取得部２０３は、動き区間テーブルにおいてＩＤ＝ｉに対応する動き区間（動き区間ｉ）の「動き区間ｉのフレーム数に対する被写体検出フレーム数の割合」を取得する。

ステップＳ６０７では、区間決定部２０４は、ステップＳ６０６で取得した割合（動き区間ｉについて求めた割合）が閾値「６０％」以上であるか否かを判断する。この判断の結果、ステップＳ６０６で取得した割合が閾値「６０％」以上であれば、処理はステップＳ６０８に進み、ステップＳ６０６で取得した割合が閾値「６０％」未満であれば、処理はステップＳ６０４に進む。

ステップＳ６０８では、区間決定部２０４は、ＩＤ「ｉ」と、ＩＤ＝ｉに対応する開始フレーム番号および長さフレーム数と、を対応付けてハイライト区間テーブルに登録する。

ステップＳ６０９では、出力部２０５は、ハイライト区間テーブルに登録されているそれぞれのＩＤについて、該ＩＤに対応する開始フレーム番号のフレームから、該ＩＤに対応する長さフレーム数のハイライト区間内のフレーム群を動画像から取得する。そして出力部２０５は、各ハイライト区間のフレーム群を連結した動画像（ハイライト動画像）を生成して出力する。

なお本実施形態において、割合取得部２０３で取得される割合（ステップＳ６０６）は、被写体が撮像装置側を連続して見続けている区間の割合ではない。つまり、被写体により振り返っては前を向くという動作が繰り返された場合は、その繰り返しを含む全移動区間の中で、飛び飛びに生じている顔が検出されたフレームが合計された区間の割合が求められている。従って、その割合が所定の閾値を越えていれば、顔が映っているフレームと顔が映っていないフレームが不定期な間隔で繰り返し生じても、「撮影者が移動している区間」の全てがハイライト区間として抽出される。このように、本実施形態によれば、被写体が撮影面を向いていないシーンであってもハイライト区間として選択できるようになり、撮影者が歩きながら被写体を追いかけて撮影している区間を歯抜けせずにハイライト区間として選ぶことができる。

また、歩いて撮影している区間は静止して撮影している場合に比べ、ジャイロセンサの測定値に変動があり、画質的に揺れが生じる可能性があるため、一般的にはハイライト区間からは除外の候補となるが、積極的に選択することができる。

＜変形例＞
第１の実施形態では、各ハイライト区間のフレーム群を連結したハイライト動画像を生成したが、各ハイライト区間のフレーム群をどのように使用しても構わない。例えば、各ハイライト区間における任意のフレームの画像を使用してフォトブックなど他のコンテンツを作成しても良い。

また、第１の実施形態では、閾値を６０％としたが、この値に限らない。また、ハイライト区間として選択するための割合の値が経験的もしくは統計的に求められていれば、その値を閾値として用いても構わない。

また、動画像から動き区間が特定できなかった場合や、動き区間テーブルに登録されている全ての割合が閾値未満であった場合には、ハイライト区間テーブルには何も登録されず、結果としてハイライト動画像が出力されなくなってしまう。そのような場合には、出力部２０５は、ハイライト動画像を出力することができない旨のメッセージを送信するようにしても良いし、手動を含めた他の処理方法で再処理を促したりしても良い。

なお、撮影者が歩きながら撮影しているフレーム区間を特定する方法は、ジャイロセンサのピッチ方向の角速度を用いる方法に限らない。例えば、撮影者が歩きながら撮影しているフレーム区間を特定する方法は、ヨー方向の角速度を用いる方法であっても、ピッチ方向の角速度とヨー方向の角速度とを組み合わせた値を用いる方法であっても良い。また、ジャイロセンサが測定した角速度を用いる方法だけでなくても良く、ジャイロセンサが測定した角加速度を用いる方法であっても良く、その他のセンサ、例えば、加速度センサを用いて特定しても良い。

また、撮影者が歩きながら撮影しているフレーム区間は画像処理によって特定しても良く、例えば、フレーム間のブロックマッチングで生じる動きベクトルの方向から、撮影者が歩きながら撮影しているフレーム区間を特定しても良い。被写体を追いかけている場合は、画像中央から放射線状の方向に動きベクトルが出現し、被写体と平行に歩いている場合は被写体以外の背景領域全体が水平方向に動きベクトルが出現する。そのため、これらの方向性から、撮影者が歩きながら撮影しているフレーム区間を判断する。

また第１の実施形態では、撮影者が歩きながら撮影しているフレーム区間を動き区間としていた。しかし、遠方の被写体を拡大させるために撮像装置の焦点距離を変えるズームの区間（ズーム区間）や、被写体を追い続けるために撮像装置の方向を変えるフォローパンの区間（フォローパン区間）も動き区間として良い。

ズーム区間の検出には、撮像装置にズーム動作を行わせるためにユーザがボタンやレバーを操作したフレーム区間をズーム区間として検出する方法や、焦点距離の時間的変化を検出しているフレーム区間をズーム区間とする方法を採用しても良い。また、画像中の動きベクトルを用いた画像解析による方法でもってズーム区間を検出するようにしても良い。

また、フォローパン区間の検出方法は、例えば特許３１８６２１９号公報に開示されている技術のようにジャイロセンサによる測定値を用いる方法でも良く、動きベクトルを用いた画像解析による方法でも良い。

また、第１の実施形態では、顔検出処理により被写体としての顔を検出していたが、これに限らず、他の方法でもって顔を検出するようにしても良いし、被写体も顔に限らない。例えば、人物の形状を検出する人体検出処理でもって人物を被写体として検出するようにしても良い。その際、検出する方法により検出率が変わるため、区間内に検出した被写体の割合の閾値を変更しても良く、検出率が高い場合は閾値を高くし、検出率が低い場合は閾値を低くする。

また、第１の実施形態では、動き区間内で顔を検出したフレーム数を被写体検出フレーム数として計数する際、画像内における顔領域の位置やサイズに関係なく、該画像から顔領域が検出されていれば計数の対象となっていた。つまり、顔領域の画像座標が登録されているフレーム番号の個数を被写体検出フレーム数として計数していた。しかし、「規定の条件を満たす顔領域の画像座標」が登録されているフレーム番号の個数を被写体検出フレーム数として計数するようにしても良い。

例えば、ＸおよびＹが０．１〜０．９の間（規定範囲の画像座標）に含まれている顔領域の画像座標（Ｘ，Ｙ，Ｗ，Ｈ）が登録されているフレーム番号の個数を被写体検出フレーム数として計数するようにしても良い。また例えば、ＷおよびＨが０．０１以上（規定範囲のサイズ）の顔領域の画像座標（Ｘ，Ｙ，Ｗ，Ｈ）が登録されているフレーム番号の個数を被写体検出フレーム数として計数するようにしても良い。このように、周辺部に顔領域が位置するような画像や、顔領域が占める割合が比較的小さい画像を、被写体検出フレーム数の計数対象から除外することができる。その際、第１の実施形態と比べて被写体検出フレーム数が相対的に少なくなるため、これに合わせて、被写体検出フレーム数と比較する閾値も第１の実施形態よりも小さくするようにしても良い。

また、第１の実施形態では、被写体検出処理を用いていたが、人物を識別できる人物認識処理方法を用いても良く、登録された人物（特定の種別の被写体）、例えば自分の子供のみを検出した画像を被写体検出フレーム数の計数対象としても良い。これにより、撮影時に意図せず写りこんだ他の被写体を割合取得時の対象とすることなく、ハイライトの誤選択が少なくなる。その際、第１の実施形態と比べて被写体検出フレーム数が相対的に少なくなるため、これに合わせて、被写体検出フレーム数と比較する閾値も第１の実施形態よりも小さくするようにしても良い。

［第２の実施形態］
本実施形態を含む以下の各実施形態や各変形例では、第１の実施形態との差分について説明し、以下で特に触れない限りは、第１の実施形態と同様であるものとする。第１の実施形態では、動き区間の一例として撮影者の歩行区間を検出し、検出した動き区間に対して被写体を検出したフレームの割合を取得していた。

図７（ａ）に例示する動き区間（黒部分は被写体を検出したフレーム、白部分は被写体を検出していないフレームを表す）では、動き区間に比して被写体を検出したフレームの割合が比較的高いので、このような動き区間はハイライト区間として選択されやすい。

しかし、歩いている区間が長い場合等は、図７（ｂ）に示す如く、被写体を検出したフレーム（黒部分）が集中している区間（集中区間）と、集中していない区間（疎な区間）と、が発生する可能性がある。このような動き区間は、動き区間に比して被写体を検出したフレームの割合は比較的低くなるため、ハイライト区間として選択されない可能性がある。

本実施形態では、動き区間に比して被写体を検出したフレームの割合が閾値未満であったとしても、該動き区間内に集中区間が存在する場合には、該集中区間をハイライト区間として選択する。

本実施形態に係る画像処理装置の機能構成例について、図８のブロック図を用いて説明する。図８に示した構成は、図２の構成に検出部８０１を加えたものである。検出部８０１は、図４の動き区間テーブル４０１において閾値未満の割合に対応する開始フレーム番号および長さフレーム数を特定し、該開始フレーム番号のフレームから該長さフレーム数のフレーム区間内に集中区間が存在するか否かを判断する。

本実施形態に係る画像処理装置の動作について、図１１のフローチャートに従って説明する。図１１において図６に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。

ステップＳ１１０１では、区間決定部２０４は、ステップＳ６０６で取得した割合（動き区間ｉについて求めた割合）が閾値「６０％」以上であるか否かを判断する。この判断の結果、ステップＳ６０６で取得した割合が閾値「６０％」以上であれば、処理はステップＳ６０８に進み、ステップＳ６０６で取得した割合が閾値「６０％」未満であれば、処理はステップＳ１１０３に進む。

ステップＳ１１０２では、区間決定部２０４は、ＩＤ「ｉ」と、動き区間ｉに対する区間スコア「１．０」と、を対応付けてハイライト区間テーブルに登録する。本実施形態に係るハイライト区間テーブルの構成例を図１０に示す。

図１０のハイライト区間テーブル１００１では、ＩＤ＝１に対応する開始フレーム番号、長さフレーム数、区間スコアは何れも、ＩＤ＝１の動き区間についてのものである。ハイライト区間テーブル１００１では、ＩＤ＝１に対応する開始フレーム番号として「３１」、ＩＤ＝１に対応する長さフレーム数として「１８０」、ＩＤ＝１に対応する区間スコアとして「１．０」が登録されている。

ステップＳ１１０３で検出部８０１は動き区間テーブルからＩＤ＝ｉに対応する開始フレーム番号および長さフレーム数を特定し、該開始フレーム番号のフレームから該長さフレーム数のフレーム区間（動き区間ｉ）内に集中区間が存在するか否かを判断する。

動き区間ｉ内に集中区間が存在するか否かを判断するための方法には様々な方法があり、特定の方法に限らない。例えば、窓関数を用いて、動き区間ｉ内で規定値以上の値を持つ区間を集中区間として検出するようにしても良い。なお、動き区間ｉから検出する集中区間の数は複数であっても良い。そして検出部８０１は、ＩＤ＝ｉと、集中区間の開始フレーム番号と、集中区間のフレーム数（長さフレーム数）と、を登録した集中区間テーブルを作成する。集中区間テーブルの構成例を図９に示す。図９の集中区間テーブル９０１には、ＩＤ＝１と対応付けて、開始フレーム番号「２７６」と長さフレーム数「４５」とが登録されている。

ステップＳ１１０４では、検出部８０１は、動き区間ｉから集中区間を検出したか否かを判断する。この判断の結果、動き区間ｉから集中区間を検出した場合には、処理はステップＳ１１０５に進み、動き区間ｉから集中区間が検出されなかった場合には、処理はステップＳ６０４に進む。

ステップＳ１１０５では、検出部８０１は、ＩＤ＝ｉと、集中区間の開始フレーム番号と、集中区間のフレーム数（長さフレーム数）と、を対応付けてハイライト区間テーブル１００１に登録する。

ステップＳ１１０６では、検出部８０１は、ＩＤ＝ｉと、集中区間の区間スコア「０．７５」と、対応付けてハイライト区間テーブル１００１に登録する。図１０のハイライト区間テーブル１００１では、ＩＤ＝２に対応する開始フレーム番号、長さフレーム数、区間スコアは何れも、集中区間についてのものである。ハイライト区間テーブル１００１では、ＩＤ＝２に対応する開始フレーム番号として「２７６」、ＩＤ＝２に対応する長さフレーム数として「４５」、ＩＤ＝２に対応する区間スコアとして「０．７５」が登録されている。ここで、区間スコアの値は０．０〜１．０に正規化されており、区間スコアの値がより高い区間は、ハイライト区間により適した区間である。

ステップＳ１１０７では、出力部２０５は、ハイライト区間テーブル１００１に登録されているそれぞれのＩＤのうち、対応する区間スコアが閾値「０．７」以上となるＩＤを対象ＩＤとして特定する。そして出力部２０５は、対象ＩＤに対応する開始フレーム番号のフレームから、該対象ＩＤに対応する長さフレーム数のハイライト区間内のフレーム群を動画像から取得する。そして出力部２０５は、各ハイライト区間のフレーム群を連結した動画像（ハイライト動画像）を生成して出力する。

このように、本実施形態によれば、動き区間において被写体を検出したフレームの割合が低い場合であっても、被写体を検出したフレームが集中している区間をハイライト区間として選択することができる。従って、第２の実施形態においても、「撮影者が移動しながら撮影しているフレーム区間」の中で、撮影者にとって特に意味を持つ可能性が高い区間をハイライト区間として抽出することができる。

＜変形例＞
ステップＳ１１０７にて使用した閾値は０．７に限らず、この閾値を調整してハイライト区間として選択する動き区間の数を調整するようにしても良い。この閾値を調整することで、ハイライト区間の量（長さ、時間）が限られている場合に、区間スコアの高い動き区間、すなわち、撮影者が意図して撮影した区間から優先的にハイライト区間として出力することができる。

経験的に撮影者が意図を持って撮影している区間は、集中区間を検出した区間より、動き区間全体を選択する場合の方が高いことが分かっている。このため、本実施形態では動き区間全体を選択する場合の区間スコアを１．０とし、集中区間の区間スコアを０．７５とすることで優先度を付けているが、この値に限定せず、他の値でも良い。

また、第２の実施形態では、集中区間の検出処理は、割合が閾値未満となる動き区間を対象としていたが、割合が閾値以上となる動き区間を対象とするようにしても良い。例えば、割合が高くても、動き区間が長い場合には被写体を検出したフレームの分布が疎な区間が長くなる場合があり、集中区間の検出により、疎な区間を取り除くことができる。

また、第２の実施形態で検出した集中区間の先頭フレーム位置から規定フレーム数分動画像の先頭側に移動したフレーム位置から、該集中区間の後端フレーム位置から規定フレーム数分動画像の後端側に移動したフレーム位置までの区間を集中区間としても良い。これにより、ユーザが被写体の現れる前の状況を把握することができると共に、被写体が消えた後の余韻を感じることができ、ハイライト区間の映像として価値を高めることができる。

［第３の実施形態］
第２の実施形態では、ハイライト区間の候補となる区間に対して区間スコアを付与し、区間スコアの値の大小に応じてハイライト区間を決定していた。しかし、区間スコアが高い区間であっても画質的には良くない区間がハイライト区間として選択される可能性がある。

本実施形態では、ハイライト区間の候補となる区間に対して、区間スコアに加えて該区間の画質に応じた画質スコアを付与し、該区間の区間スコアと画質スコアとを加味した総合スコアの値の大小に応じてハイライト区間を決定する。

本実施形態に係る画像処理装置の機能構成例について、図１２のブロック図を用いて説明する。図１２に示した構成は、図８に示した構成に評価部１２０１を加えたものである。

評価部１２０１は、入力部２０１が入力した動画像における各フレームの画像の画質に応じた画質スコアを取得する。画質スコアは、０．０〜０．８に正規化したものであり、値が高いほど高い画質であることを示す。画質スコアは、画像の画質を定量化した値であればどのような値であっても良く、例えば特開２０１４−７５７７８号公報に記載の方法のように、画像内における顔の向きや大きさ、明るさ、色彩の鮮やかさ、ボケやブレの程度などを用いて取得する。

そして評価部１２０１は、各フレームの画像の画質スコアを、該フレームのフレーム番号と対応付けてフレームテーブルに登録する。本実施形態に係るフレームテーブルの構成例を図１３に示す。図１３に示したフレームテーブル１３０１は、図３のフレームテーブル３０１に画質スコアの項目を追加したものである。つまり、フレームテーブル１３０１は、フレームごとに、フレーム番号、顔座標、Ｐｉｔｃｈ、画質スコアを管理するテーブルである。

区間決定部２０４は、動き区間テーブルにおいて閾値以上の割合に対応するＩＤ、該ＩＤに対応する開始フレーム番号および長さフレーム数、該ＩＤに対応する区間スコア、該ＩＤに対応する動き区間内の平均画質スコア、該ＩＤに対応する総合スコア、を対応付けてハイライト区間テーブルに登録する。本実施形態に係るハイライト区間テーブルの構成例を図１４に示す。図１４のハイライト区間テーブル１４０１は、図１０のハイライト区間テーブル１００１に平均画質スコアおよび総合スコアの項目を加えたものである。

本実施形態の区間スコアは、０．０〜０．２に正規化される。平均画質スコアは、動き区間に含まれているそれぞれのフレームの画像の画質スコアの平均値であり、上記の如く０．０〜０．８に正規化される。例えば、ＩＤ＝１の動き区間の平均画質スコアは、動画像において３１フレーム目の画像を先頭フレームとする長さ１８０フレームのフレーム区間に含まれる各フレームの画像の画質スコアの平均値であり、図１４では「０．４９３」である。総合スコアは、区間スコアと平均画質スコアとの合計値であり、例えば、ＩＤ＝１に対応する総合スコアは、ＩＤ＝１に対応する区間スコア「０．２０」とＩＤ＝１に対応する平均画質スコア「０．４９３」との合計値「０．６９３」である。画質スコアは、０．０〜０．８に正規化したものであり、区間スコアは、０．０〜０．２に正規化したものであるから、本実施形態に係る総合スコアは、０．０〜１．０に正規化したものである。

検出部８０１は開始フレーム番号、長さフレーム数、区間スコアに加えて、集中区間内のそれぞれのフレームの画像の画質スコアの平均値（平均画質スコア）と、該区間スコアと該平均画質スコアとの合計値（総合スコア）をハイライト区間テーブルに登録する。

本実施形態に係る画像処理装置の動作について、図１５のフローチャートに従って説明する。図１５において図６，１１に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。

ステップＳ１５０１では、入力部２０１は、動画像を取得し、該動画像を構成する各フレームの画像に付与されているフレーム情報を収集し、該フレームについて収集したフレーム情報を、該フレームの番号と対応付けてフレームテーブルに登録する。評価部１２０１は、入力部２０１が入力した動画像における各フレームの画質スコアを取得し、各フレームの画像の画質スコアを、該フレームのフレーム番号と対応付けてフレームテーブルに登録する。

ステップＳ１５０２では、区間決定部２０４は、ＩＤ「ｉ」と、動き区間ｉに対する区間スコア「０．２」と、を対応付けてハイライト区間テーブルに登録する。ステップＳ１５０３では、区間決定部２０４は、動き区間ｉ内の平均画質スコアを取得し、該取得した平均画質スコアを、ＩＤ「ｉ」と対応付けてハイライト区間テーブルに登録する。

ステップＳ１５０４では、検出部８０１は、ＩＤ「ｉ」と、動き区間ｉにおける集中区間に対する区間スコア「０．１５」と、を対応付けてハイライト区間テーブルに登録する。

ステップＳ１５０５では、検出部８０１は、動き区間ｉ内における集中区間の平均画質スコアを取得し、該取得した平均画質スコアを、ＩＤ「ｉ」と対応付けてハイライト区間テーブルに登録する。

処理がステップＳ１５０３からステップＳ１５０６に進んだ場合、区間決定部２０４は、ＩＤ＝ｉに対応する区間スコアとＩＤ＝ｉに対応する平均画質スコアとの合計値を総合スコアとして取得する。そして区間決定部２０４は、該取得した総合スコアをＩＤ＝ｉと対応付けてハイライト区間テーブルに登録する。

一方、処理がステップＳ１５０５からステップＳ１５０６に進んだ場合、検出部８０１は、ＩＤ＝ｉに対応する区間スコアとＩＤ＝ｉに対応する平均画質スコアとの合計値を総合スコアとして取得する。そして検出部８０１は、該取得した総合スコアをＩＤ＝ｉと対応付けてハイライト区間テーブルに登録する。

ステップＳ１５０７では、出力部２０５は、ハイライト区間テーブルに登録されているそれぞれのＩＤのうち、対応する総合スコアが閾値「０．７」以上となるＩＤを対象ＩＤとして特定する。そして出力部２０５は、対象ＩＤに対応する開始フレーム番号のフレームから、該対象ＩＤに対応する長さフレーム数のハイライト区間内のフレーム群を動画像から取得する。そして出力部２０５は、各ハイライト区間のフレーム群を連結した動画像（ハイライト動画像）を生成して出力する。

このように、本実施形態によれば、フレームを評価した画質スコアを用いることにより、意図を持って撮影した区間の中でも画質の良い区間をハイライト区間として選択することができる。これにより、例えば、第２の実施形態ではハイライト区間テーブルのＩＤが１の区間が優先的に選択されていたが、本実施形態では、ＩＤが２の区間の画質スコアの方が高いため、優先的に選択する。

なお、本実施形態ではハイライト区間を画質に基づいて優先的に選択できるようにするため、区間スコアの最大値（０．２）と平均画質スコアの最大値（０．８）との配分を１：４に設定しているが、これらの値に限定せず、違う値でも良い。例えば、画質を優先しない場合は区間スコアの最大値を０．８に、画質スコアの最大値を０．２のように画質スコアの配分を低くしても良く、経験的もしくは統計的に求められた配分値でも良い。

［第４の実施形態］
第１の実施形態では、動き区間の一例として撮像装置の向きを変えながら被写体を追い続けるフォローパンの例を挙げた。しかしながら、撮像装置の向きを変えるパンであっても、撮像装置の向きを変える速度が速く、被写体を変更するスナップパンの場合、パン中の映像が確認し難い可能性がある。この場合は、パンを行っている区間の映像よりも、その前後の区間（被写体を撮影している区間）の方が意図を持って撮影している区間である可能性が高い。よって本実施形態では、スナップパンであると検出された区間の前後区間から、被写体の検出フレーム数の割合に基づいてハイライト区間を特定する。

本実施形態に係る画像処理装置は、図８に示す構成を有する。本実施形態では、図１６に例示する動き区間テーブル１６０１が生成される。図１６の動き区間テーブル１６０１は、図４の動き区間テーブル４０１に、動き区間の種類の項目を加えたものである。動き区間の種類は、特定部２０２によって特定されるものであり、「歩き」、「フォローパン」、「スナップパン」等である。

本実施形態に係る画像処理装置の動作について、図１７のフローチャートに従って説明する。なお、図１７において、図６，１１と同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。

ステップＳ１７０１では、特定部２０２は、動画像における動き区間を特定し、該特定した動き区間の種類を特定する。動き区間の種類は、ジャイロセンサの測定値から判断しても良いし、画像から判断しても良い。また、動き区間の種類は、フレーム情報に含められていても良い。そして特定部２０２は、該特定した動き区間ごとに、該動き区間のＩＤと、該動き区間の開始フレームの番号と、該動き区間の長さと、該動き区間の種類と、を対応付けて動き区間テーブル１６０１に登録する。

なお特定部２０２は、動き区間の種類がスナップパンであると特定された動き区間（スナップパン動き区間）の前後に６０フレームの区間を設定する。そして特定部２０２は、該設定した区間について、該区間のＩＤと、該区間の開始フレームの番号と、該区間の長さと、該区間の種類と、を対応付けて動き区間テーブルに登録する。

スナップパン動き区間の前に設定した６０フレームの区間（前区間）の開始フレームの番号は、スナップパン動き区間の開始フレームの番号から６０を引いた番号であり、前区間の長さは６０であり、前区間の種類はスナップパン前となる。スナップパン動き区間の後に設定した６０フレームの区間（後区間）の開始フレームの番号は、スナップパン動き区間の開始フレームの番号にスナップパン動き区間の長さを加えた番号であり、後区間の長さは６０であり、後区間の種類はスナップパン後である。

図１６の例では、ＩＤ＝５に対応する動き区間はスナップパン動き区間であり、対応する種類として「スナップパン」が登録されている。スナップパン動き区間の前に設定された６０フレーム分の前区間にはＩＤ＝４が割り当てられており、対応する種類として「スナップパン前」が登録されている。一方、スナップパン動き区間の後に設定された６０フレーム分の後区間にはＩＤ＝６が割り当てられており、対応する種類として「スナップパン後」が登録されている。

次に、ステップＳ１７０２では、割合取得部２０３は、ＩＤ＝ｉに対応する動き区間の種類がスナップパンであるか否かを判断する。この判断の結果、ＩＤ＝ｉに対応する動き区間の種類がスナップパンである場合には、処理はステップＳ１７０３に進み、ＩＤ＝ｉに対応する動き区間の種類がスナップパンではない場合には、処理はステップＳ６０６に進む。ステップＳ１７０３では、割合取得部２０３は、ＩＤ＝ｉに対応する割合として０を動き区間テーブル１６０１ルに登録する。

このように、本実施形態によれば、映像の内容を確認し辛いスナップパンの区間をハイライト区間の候補対象外とし、スナップパンの前後において被写体が検出された割合が高い区間を撮影者が意図を持って撮影したハイライト区間として選択することができる。従って、「撮影者が動きながら撮影しているフレーム区間」の中で、撮影者にとって特に意味を持つ可能性が高い区間をハイライト区間として抽出することができる。

なお、スナップパンの前の区間に検出された被写体よりも、スナップパン後に検出された被写体の方が経験的に重要とされる。このため、図１８に示すハイライト区間テーブル１８０１のようにＩＤ＝３の区間（スナップパン前）よりＩＤ＝４の区間（スナップパン後）の区間スコアを高く設定することにより、スナップパン後の区間を優先的に選択できるようにしても良い。具体的にはステップＳ１１０２およびステップＳ１１０６において区間スコアを設定する際に、種類がスナップパン前の場合は減点を行ったり、スナップパン後の場合は加点を行ったりしても良い。

以上説明した各実施形態において使用した数値はあくまで実施形態を分かりやすく説明するために挙げた一例であって、上記の説明において挙げた各数値に限定されることを意図したものではない。

また、上記の実施形態において、画像のフレーム情報に含まれる情報、画像処理装置側で画像やフレーム情報から求める情報、の取得形態は上記の形態に限らない。例えば、画像のフレーム情報に含まれる情報として説明した情報の一部を画像処理装置側で求めても良いし、画像処理装置側で画像やフレーム情報から求める情報の一部をフレーム情報に含めても良い。

また、以上説明した各実施形態や各変形例の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態や各変形例の一部若しくは全部を選択的に使用しても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

２０１：入力部２０２：特定部２０３：割合取得部２０４：区間決定部２０５：出力部

Claims

動画像において、該動画像の撮影者の動作と関連するフレーム区間を動き区間として特定する特定手段と、
前記動き区間内で被写体が検出されたフレームの割合を取得する取得手段と、
前記特定手段が前記動画像から特定したそれぞれの動き区間のうち使用する動き区間を、該それぞれの動き区間について前記取得手段が取得した割合に基づいて決定する決定手段と
を備えることを特徴とする画像処理装置。
前記決定手段は、前記特定手段が前記動画像から特定したそれぞれの動き区間のうち、前記取得手段が取得した割合が閾値以上となる動き区間を、使用する動き区間として決定することを特徴とする請求項１に記載の画像処理装置。
前記特定手段は、前記動画像における各フレームの画像の撮像時におけるピッチ方向の角速度に基づいて前記動き区間を特定することを特徴とする請求項１または２に記載の画像処理装置。
前記特定手段は、前記動画像におけるフレーム間の動きベクトルに基づいて前記動き区間を特定することを特徴とする請求項１または２に記載の画像処理装置。
前記取得手段は、前記動き区間内で特定の種別の被写体が検出されたフレームの割合を取得することを特徴とする請求項１乃至４の何れか１項に記載の画像処理装置。
前記取得手段は、前記動き区間内で規定範囲の画像座標に位置している被写体が検出されたフレームの割合を取得することを特徴とする請求項１乃至５の何れか１項に記載の画像処理装置。
前記取得手段は、前記動き区間内で規定範囲のサイズの被写体が検出されたフレームの割合を取得することを特徴とする請求項１乃至６の何れか１項に記載の画像処理装置。
前記決定手段は、
前記特定手段が前記動画像から特定したそれぞれの動き区間のうち、前記取得手段が取得した割合が閾値以上となる動き区間に第１のスコアを設定し、
前記特定手段が前記動画像から特定したそれぞれの動き区間において、被写体が検出されたフレームが集中している区間と判断された集中区間に第２のスコアを設定し、
前記取得手段が取得した割合が閾値以上となる動き区間、前記集中区間のうち使用する動き区間を、前記第１のスコアおよび前記第１のスコアに基づいて決定することを特徴とする請求項１に記載の画像処理装置。
前記第１のスコアは前記第２のスコアよりも大きいことを特徴とする請求項８に記載の画像処理装置。
前記第１のスコアは、前記取得手段が取得した割合が閾値以上となる動き区間の画質に応じたスコアを含み、前記第２のスコアは、前記集中区間の画質に応じたスコアを含むことを特徴とする請求項８または９に記載の画像処理装置。
前記動き区間は、前記動画像においてスナップパンの区間の前後の区間を含むことを特徴とする請求項１乃至１０の何れか１項に記載の画像処理装置。
更に、
使用する動き区間として前記決定手段が決定したそれぞれの動き区間内のフレーム群を連結した動画像を生成して出力する手段を備えることを特徴とする請求項１乃至１１の何れか１項に記載の画像処理装置。
更に、
使用する動き区間として前記決定手段が決定したそれぞれの動き区間内におけるフレームを使用してフォトブックを生成して出力する手段を備えることを特徴とする請求項１乃至１１の何れか１項に記載の画像処理装置。
画像処理装置が行う画像処理方法であって、
前記画像処理装置の特定手段が、動画像において、該動画像の撮影者の動作と関連するフレーム区間を動き区間として特定する特定工程と、
前記画像処理装置の取得手段が、前記動き区間内で被写体が検出されたフレームの割合を取得する取得工程と、
前記画像処理装置の決定手段が、前記特定工程で前記動画像から特定したそれぞれの動き区間のうち使用する動き区間を、該それぞれの動き区間について前記取得工程で取得した割合に基づいて決定する決定工程と
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１乃至１３の何れか１項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。