JP2011035636A

JP2011035636A - 画像処理装置及び方法

Info

Publication number: JP2011035636A
Application number: JP2009179552A
Authority: JP
Inventors: Kazunori Kita; 一記喜多
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2009-07-31
Filing date: 2009-07-31
Publication date: 2011-02-17

Abstract

【課題】動く主要被写体を精度良く抽出できる画像処理装置を提供すること。
【解決手段】画像処理装置は、処理対象画像６１に対して、特徴量マップＦｃ，Ｆｈ，Ｆｓを統合した顕著性マップＳを求めて、複数段階の注目点領域６２−１乃至６２−Ｎを推定する（ステップＳａ，Ｓｂ）。画像処理装置は、複数段階の注目点領域６２−１乃至６２−Ｎを用いて注目点領域のコア領域６３−１，６３−２を抽出し、それらに基づいて、主要被写体の領域の種６４−１，６４−２、及び、背景領域の種６５−１，６５−２を設定する（ステップＳｃ，Ｓｄ）。画像処理装置は、主要被写体の事前確率Ｐｒ（Ｏ）の初期値と、背景領域の事前確率Ｐｒ（Ｂ）の初期値とを求める（ステップＳｅ）。画像処理装置は、ＧｒａｐｈＣｕｔｓ法による領域分割処理を実行する（ステップＳｆ）。
【選択図】図３

Description

本発明は、画像処理装置及び方法に関し、特に、動く主要被写体を精度良く抽出する技術に関する。

従来より、デジタルカメラの分野において、動きを伴った切抜き合成技術が研究開発されている（特許文献１，２参照）。これらの技術によれば、例えば、連写撮影された複数のフレーム画像毎に、動く主要被写体がそれぞれ抽出される。複数のフレーム画像毎に抽出された動く主要被写体の組は、任意の他の静止画像に貼付け合成又は混合合成される。これにより、新しい合成動画像が生成され、その再生が可能になる。

近年、家庭用ムービーなどを用いて、実際の多様な情景を背景にして撮影された一般的な動画像などに対しても、動きを伴った切抜き合成技術を利用したいという要望が挙げられている。

特開平１１−３３１６９３号公報特開２００５−６１９１号公報

しかしながら、特許文献１，２を含め従来の技術では、このような一般的な動画像から、動く主要被写体を精度良く抽出することは困難である。例えば特許文献２では、動きベクトルで判断しているため、カメラが主要被写体を追ってしまうとうまく抽出することは困難になる。すなわち、かかる要望に十分に応えることが可能な技術が、見受けられない状況である。

そこで、本発明は、動く主要被写体を精度良く抽出することを目的とする。

本発明の第１の観点によると、主要被写体を含む入力画像に対して、前記入力画像から抽出された複数の特徴量に基づく顕著性マップを用いて、注目点領域を推定する推定部と、前記推定部により推定された前記注目点領域を用いて、前記入力画像を前記主要被写体の領域と背景領域とに分割する分割部と、前記入力画像から、前記分割部により分割された前記主要被写体の領域を抽出する抽出部と、を備える画像処理装置を提供する。

本発明の第２の観点によると、前記分割部は、前記注目点領域を含む所定領域から定義したエネルギー関数を用いる所定のアルゴリズムにしたがって、前記入力画像を前記主要被写体の領域と前記背景領域とに分割する画像処理装置を提供する。

本発明の第３の観点によると、前記所定のアルゴリズムは、ＧｒａｐｈＣｕｔｓ法である画像処理装置を提供する。

本発明の第４の観点によると、前記入力画像から輪郭線若しくはエッジ形状を抽出する輪郭線抽出部をさらに備え、前記分割部は、前記輪郭線抽出部により抽出された前記輪郭線又は前記エッジ形状により特定される輪郭線のうち、前記注目点領域と重なる輪郭線の内側領域を前記主要被写体の領域とし、当該輪郭線の外側領域を前記背景領域とすることで、前記入力画像を前記主要被写体の領域と前記背景領域とに分割する画像処理装置を提供する。

本発明の第５の観点によると、主要被写体を含む入力画像に対して、前記入力画像から抽出された複数の特徴量に基づく顕著性マップを用いて、注目点領域を推定する推定ステップと、前記推定ステップの処理により推定された前記注目点領域を用いて、前記入力画像を前記主要被写体の領域と背景領域とに分割する分割ステップと、前記入力画像から、前記分割ステップの処理により分割された前記主要被写体の領域を抽出する抽出ステップと、を含む画像処理方法を提供する。

本発明によれば、動く主要被写体を精度良く抽出することができる。

本発明の第１実施形態に係る画像処理装置のハードウェアの構成図である。本発明の第１実施形態における動くキャラクタ抽出処理の結果の具体例を示す図である。本発明の第１実施形態における動くキャラクタ抽出処理の概略を説明する図である。本発明の第１実施形態における撮影モード処理の流れの一例を示すフローチャートである。本発明の第１実施形態における撮影モード処理のうちの動くキャラクタ抽出処理の流れの詳細例を示すフローチャートである。本発明の第１実施形態における動くキャラクタ抽出処理のうちの顕著性マップ抽出処理の流れの詳細の一例を示すフローチャートである。本発明の第１実施形態における撮影モード処理のうちの特徴量マップ作成処理の流れの一例を示すフローチャートである。本発明の第１実施形態における撮影モード処理のうちの特徴量マップ作成処理の流れの別の例を示すフローチャートである。

〔第１実施形態〕
以下、本発明の第１実施形態を図面に基づいて説明する。
図１は、本発明の第１実施形態に係る画像処理装置１００のハードウェアの構成を示す図である。画像処理装置１００は、例えばデジタルカメラにより構成することができる。

画像処理装置１００は、光学レンズ装置１と、シャッタ装置２と、アクチュエータ３と、ＣＭＯＳセンサ４と、ＡＦＥ５と、ＴＧ６と、ＤＲＡＭ７と、ＤＳＰ８と、ＣＰＵ９と、ＲＡＭ１０と、ＲＯＭ１１と、液晶表示コントローラ１２と、液晶ディスプレイ１３と、操作部１４と、メモリカード１５と、測距センサ１６と、測光センサ１７と、を備える。

光学レンズ装置１は、例えばフォーカスレンズやズームレンズなどで構成される。フォーカスレンズは、ＣＭＯＳセンサ４の受光面に被写体像を結像させるためレンズである。

シャッタ装置２は、例えばシャッタ羽根などから構成される。シャッタ装置２は、ＣＭＯＳセンサ４へ入射する光束を遮断する機械式のシャッタとして機能する。シャッタ装置２はまた、ＣＭＯＳセンサ４へ入射する光束の光量を調節する絞りとしても機能する。アクチュエータ３は、ＣＰＵ９による制御にしたがって、シャッタ装置２のシャッタ羽根を開閉させる。

ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサ４は、例えばＣＭＯＳ型のイメージセンサなどから構成される。ＣＭＯＳセンサ４には、光学レンズ装置１からシャッタ装置２を介して被写体像が入射される。そこで、ＣＭＯＳセンサ４は、ＴＧ６から供給されるクロックパルスにしたがって、一定時間毎に被写体像を光電変換（撮影）して画像信号を蓄積し、蓄積した画像信号をアナログ信号として順次出力する。

ＡＦＥ（ＡｎａｌｏｇＦｒｏｎｔＥｎｄ）５には、ＣＭＯＳセンサ４からアナログの画像信号が供給される。そこで、ＡＦＥ５は、ＴＧ６から供給されるクロックパルスにしたがって、アナログの画像信号に対し、Ａ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換処理などの各種信号処理を施す。各種信号処理の結果、ディジタル信号が生成され、ＡＦＥ５から出力される。

ＴＧ（ＴｉｍｉｎｇＧｅｎｅｒａｔｏｒ）６は、ＣＰＵ９による制御にしたがって、一定時間毎にクロックパルスをＣＭＯＳセンサ４とＡＦＥ５とにそれぞれ供給する。

ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７は、ＡＦＥ５により生成されるディジタル信号や、ＤＳＰ８により生成される画像データを一時的に記憶する。

ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）８は、ＣＰＵ９による制御にしたがって、ＤＲＡＭ７に記憶されたディジタル信号に対して、ホワイトバランス補正処理、γ補正処理、ＹＣ変換処理などの各種画像処理を施す。各種画像処理の結果、輝度信号と色差信号とでなる画像データが生成される。なお、以下、かかる画像データをフレーム画像データと称し、このフレーム画像データにより表現される画像をフレーム画像と称する。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９は、画像処理装置１００全体の動作を制御する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０は、ＣＰＵ９が各処理を実行する際にワーキングエリアとして機能する。ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１１は、画像処理装置１００が各処理を実行するのに必要なプログラムやデータを記憶する。ＣＰＵ９は、ＲＡＭ１０をワーキングエリアとして、ＲＯＭ１１に記憶されているプログラムとの協働により各種処理を実行する。

液晶表示コントローラ１２は、ＣＰＵ９による制御にしたがって、ＤＲＡＭ７やメモリカード１５に記憶されているフレーム画像データをアナログ信号に変換して、液晶ディスプレイ１３に供給する。液晶ディスプレイ１３は、液晶表示コントローラ１２から供給されてくるアナログ信号に対応する画像として、フレーム画像を表示する。

また、液晶表示コントローラ１２は、ＣＰＵ９による制御にしたがって、ＲＯＭ１１などに予め記憶されている各種画像データをアナログ信号に変換して、液晶ディスプレイ１３に供給する。液晶ディスプレイ１３は、液晶表示コントローラ１２から供給されてくるアナログ信号に対応する画像を表示する。例えば本実施の形態では、各種シーンを特定可能な情報（以下、シーン情報と称する）の画像データがＲＯＭ１１に記憶されている。このため、図４を参照して後述するように、各種シーン情報が液晶ディスプレイ１３に適宜表示される。

操作部１４は、ユーザから各種ボタンの操作を受け付ける。操作部１４は、電源釦、十字釦、決定釦、メニュー釦、レリーズ釦などを備える。操作部１４は、ユーザから受け付けた各種ボタンの操作に対応する信号を、ＣＰＵ９に供給する。ＣＰＵ９は、操作部１４からの信号に基づいてユーザの操作内容を解析し、その操作内容に応じた処理を実行する。

メモリカード１５は、ＤＳＰ８により生成されたフレーム画像データを記録する。測距センサ１６は、ＣＰＵ９による制御にしたがって、被写体までの距離を検出する。測光センサ１７は、ＣＰＵ９による制御にしたがって、被写体の輝度（明るさ）を検出する。

このような構成を有する画像処理装置１００の動作モードとしては、撮影モードや再生モードを含む各種モードが存在する。ただし、以下、説明の簡略上、主に、撮影モード時における処理（以下、撮影モード処理と称する）について説明する。なお、以下、撮影モード処理の主体は主にＣＰＵ９であるとする。

次に、図１の画像処理装置１００の撮影モード処理のうち、顕著性マップに基づく注目点領域を用いて、動く主要被写体の領域（以下、動くキャラクタ部分と称する）を抽出する処理の概略について説明する。なお、以下、かかる処理を、動くキャラクタ抽出処理と称する。
図２は、動くキャラクタ抽出処理の結果の具体例を示す図である。

例えばレリーズ釦が全押しされている間、図１の画像処理装置１００のＣＰＵ９は、ＣＭＯＳセンサ４による撮影を継続させ、その間にＤＳＰ８により逐次生成されるフレーム画像データを、ＤＲＡＭ７に一時的に記憶させる。
このようにして、レリーズ釦が全押しされている間にＤＲＡＭ７に連続して記録された複数のフレーム画像データは、連写画像データ又は動画像データ（以下、まとめて動画像データなどと称する）を構成する。例えば、図２の例の動画像データなどは、複数のフレーム画像５１−１乃至５１−６のそれぞれに対応する各フレーム画像データにより構成される。

ＣＰＵ９は、動画像データなどから所定のフレーム画像データを選択して、処理対象画像データとして設定する。そして、ＣＰＵ９は、処理対象画像データ毎に次のような一連の処理を繰り返し実行することで、動くキャラクタ抽出処理を実行する。
すなわち、ＣＰＵ９は、処理対象画像データに対応するフレーム画像を、主要被写体の領域と背景領域とにセグメンテーション（画像の領域分割）する。そして、ＣＰＵ９は、主要被写体の領域に対応する画像データを、「動くキャラクタ部分」の画像データとして抽出する。
このような動くキャラクタ抽出処理が処理対象画像データ毎に繰り返し実行されると、連続した複数の「動くキャラクタ部分」の画像データが得られる。連続した複数の「動くキャラクタ部分」の画像データは、動画像データなどを構成する。なお、以下、かかる動画像データを、「動くキャラクタ部分」の動画像データなどと称する。
例えば図２の例では、複数のフレーム画像５１−１乃至５１−６から、投球動作をしている人物（主要被写体）の領域５２−１乃至５２−６の各画像データが、「動くキャラクタ部分」の画像データとしてそれぞれ抽出される。したがって、主要被写体の領域５２−１乃至５２−６の各画像データにより、「動くキャラクタ部分」の動画像データなどが構成される。
「動くキャラクタ部分」の動画像データなどは、メモリカード１５などに記録可能である。

画像処理装置１００には、このような「動くキャラクタ部分」の動画像データなどを再生させる再生モードが存在する。なお、以下、かかる再生モードを、「動くキャラクタと背景画像の合成再生モード」と称する。
「動くキャラクタと背景画像の合成再生モード」が選択されると、ＣＰＵ９は、「動くキャラクタ部分」の動画像データなどから、所定のフレーム画像データを選択してメモリカード１５などから読み出す。同様に、ＣＰＵ９は、予めメモリカード１５やＲＯＭ１１などに記録されている背景画像データの中から、任意の１つを選択して読み出す。次に、ＣＰＵ９は、読み出したフレーム画像データと背景画像データとを合成する。これにより、動くキャラクタ部分が背景画像に合成された合成画像に対応する合成画像データ（フレーム画像データ）が生成される。
ＣＰＵ９は、このような一連の処理を、「動くキャラクタ部分」の動画像データなどを構成する各フレーム画像データ毎に繰り返し実行する。その結果、連続した複数の合成画像データが生成される。連続した複数の合成画像データは、新たな動画像データを構成する。なお、以下、かかる新たな動画像データを、合成動画像データと称する。
そこで、ＣＰＵ９は、液晶表示コントローラ１２などを用いて、この合成動画像データの再生を制御する。その結果、合成動画像が液晶ディスプレイ１３に表示される。このようにして、「動く写真」が容易に実現可能となる。
また、ＣＰＵ９は、合成動画像データを、例えばモーションＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）やＨ．２６４の規格にしたがって、メモリカード１５などに記録させることもできる。

図３は、動くキャラクタ抽出処理の概略を説明する図である。

第１実施形態における動くキャラクタ抽出処理では、ＧｒａｐｈＣｕｔｓ法（グラフカット法）が適用されている。ＧｒａｐｈＣｕｔｓ法とは、セグメンテーション（画像の領域分割）問題をエネルギー最小化問題として解く手法のひとつである。ＧｒａｐｈＣｕｔｓ法は、各領域から定義したエネルギー関数の大域解を求めることが可能であり、その結果、領域と境界の両方の特性を用いたセグメンテーションが実現できるという利点がある。

なお、ＧｒａｐｈＣｕｔｓ法のさらなる詳細については、「Ｙ．Ｂｏｙｋｏｖ , Ｍ−Ｐ．Ｊｏｌｌｙ， “ＩｎｔｅｒａｃｔｉｖｅＧｒａｐｈＣｕｔｓｆｏｒＯｐｔｉｍａｌＢｏｕｎｄａｒｙ＆ＲｅｇｉｏｎＳｅｇｍｅｎｔａｔｉｏｎｏｆＯｂｊｅｃｔｓｉｎＮ−ＤＩｍａｇｅｓ” ，ＩＣＣＶ，ｖｏｌ．Ｉ，ｐｐ．１０５−１１２，２００１」を参照すると良い。又は、「Ｙ．Ｂｏｙｋｏｖ，Ｖ．Ｋｏｌｍｏｇｏｒｏｖ， “ＡｎＥｘｐｅｒｉｍｅｎｔａｌＣｏｍｐａｒｉｓｏｎｏｆＭｉｎ−Ｃｕｔ／Ｍａｘ−ＦｌｏｗＡｌｇｏｒｉｔｈｍｓｆｏｒＥｎｅｒｇｙＭｉｎｉｍｉｚａｔｉｏｎｉｎＶｉｓｉｏｎ” ，ＰＡＭＩ，ｖｏｌ．２６，ｎｏ．９，ｐｐ．１１２４−１１３７，Ｓｅｐｔ．２００４．」を参照すると良い。

図３の例では、処理対象画像６１について、次のような動くキャラクタ抽出処理が実行される。

ステップＳａにおいて、ＣＰＵ９は、顕著性マップ抽出処理として、例えば次のような処理を実行する。
すなわち、ＣＰＵ９は、処理対象画像６１に対応するフレーム画像データについて、例えば色、方位、輝度などの複数種類の特徴量のコントラストから、複数種類の特徴量マップを作成する。なお、以下、このような複数種類のうち所定の１種類の特徴量マップを作成するまでの一連の処理を、特徴量マップ作成処理と称する。各特徴量マップ作成処理の詳細例については、図７や図８を参照して後述する。
例えば図３の例では、後述する図８Ａのマルチスケールのコントラストの特徴量マップ作成処理の結果、特徴量マップＦｃが作成されている。また、後述する図８ＢのＣｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄの色ヒストグラムの特徴量マップ作成処理の結果、特徴量マップＦｈが作成されている。また、図８Ｃの色空間分布の特徴量マップ作成処理の結果、特徴量マップＦｓが作成されている。
次に、ＣＰＵ９は、複数種類の特徴量マップを統合することで、顕著性マップを求める。例えば図２の例では、特徴量マップＦｃ，Ｆｈ，Ｆｓが統合されて、顕著性マップＳが求められている。
ステップＳａの処理は、後述する図５のステップＳ２２の処理に対応する。

ステップＳｂにおいて、ＣＰＵ９は、顕著性マップを用いて、処理対象画像の中から、人間の視覚的注意を引く可能性の高い画像領域（以下、注目点領域と称する）を推定する。例えば図２の例では、顕著性マップＳを用いて処理対象画像６１から、複数段階の注目点領域６２−１乃至６２−Ｎ（Ｎは１以上の整数値であって、図３の例では少なくとも４以上の整数値）が推定されている。
注目点領域６２−ｒ（ｒは、１乃至Ｎのうちのいずれかの整数値）は、顕著性マップＳを所定の閾値Ｓｔｈ-ｒを用いて２値化した場合における、閾値Ｓｔｈ−ｒよりも高い値を有する領域である。具体的には例えば図２の例では、注目点領域６２−１の推定に用いられた閾値Ｓｔｈ−１は７０とされている。注目点領域６２−２の推定に用いられた閾値Ｓｔｈ−２は９０とされている。注目点領域６２−（Ｎ−１）の推定に用いられた閾値Ｓｔｈ−（Ｎ−１）は１５０とされている。注目点領域６２−Ｎの推定に用いられた閾値Ｓｔｈ−Ｎは１７０とされている。
ステップＳｂの処理は、後述する図５のステップＳ２４の処理に対応する。

ステップＳｆのＧｒａｐｈＣｕｔｓ法による領域分割処理においては、処理対象画像６１は、主要被写体の領域と背景領域とにセグメンテーション（分割）される。かかる領域分割処理を実現するためには、主要被写体の領域と背景領域との見本となるラベルや種（ｓｅｅｄ）が必要になる。このため、次のようなステップＳｃ，Ｓｄの処理が実行される。

ステップＳｃにおいて、ＣＰＵ９は、コア領域抽出処理として、例えば次のような処理を実行する。
すなわち、ＣＰＵ９は、複数段階の注目点領域６２−１乃至６２−Ｎを用いて、注目点領域のコア領域を抽出する。例えは、複数段階の注目点領域６２−１乃至６２−Ｎの変化が少ない領域や、複数段階の注目点領域６２−１乃至６２−Ｎの重複領域などに基づいて、注目点領域のコア領域が抽出される。具体的には例えば図３の例では、注目点領域のコア領域６３−１，６３−２が抽出されている。
ステップＳｃの処理は、後述する図５のステップＳ２５の処理に対応する。

ステップＳｄにおいて、ＣＰＵ９は、種（ｓｅｅｄ）設定処理として、例えば次のような処理を実行する。
すなわち、ＣＰＵ９は、例えば注目点領域のコア領域に基づいて、主要被写体の領域の種と、背景領域の種とをそれぞれ設定する。
なお、設定手法自体は特に限定されない。例えば、注目点領域のコア領域をそのまま、主要被写体の領域の種に設定するという手法を採用することができる。また例えば、注目点領域のコア領域に内接若しくは外接する矩形領域、又は、注目点領域の重心若しくは骨格線などを、主要被写体の領域の種に設定するという手法を採用することができる。また例えば、顕著性が低いコア領域、注目点領域以外の矩形領域、又は、注目点領域以外の領域の重心や骨格線を、背景領域の種に設定するという手法を採用することができる。
例えば図３の例では、主要被写体の領域の種６４−１，６４−２、及び、背景領域の種６５−１，６５−２が設定されている。
ステップＳｄの処理は、後述する図５のステップＳ２６の処理に対応する。

また、ステップＳｆのＧｒａｐｈＣｕｔｓ法による領域分割処理を実現するためには、主要被写体の事前確率Ｐｒ（Ｏ）と、背景領域の事前確率Ｐｒ（Ｂ）とが必要になる。
そこで、ステップＳｅにおいて、ＣＰＵ９は、事前確率演算処理として、例えば次のような処理を実行する。
すなわち、ＣＰＵ９は、顕著性マップＳの値（ただし、顕著性マップ値を０乃至１の範囲内に正規化した値）を、主要被写体領域の事前確率Ｐｒ（Ｏ）として演算する。また、ＣＰＵ９は、顕著性マップＳを反転した値（１−顕著性マップＳの値）、すなわち１−Ｐｒ（Ｏ）を、背景領域の事前確率Ｐｒ（Ｏ）として演算する。例えば図３の例では、同図に示される顕著性マップＳから、同図に示される主要被写体の事前確率Ｐｒ（Ｏ）と背景領域の事前確率Ｐｒ（Ｂ）とが得られている。
ステップＳｅの処理は、後述する図５のステップＳ２３の処理に対応する。

次に、ステップＳｆにおいて、ＣＰＵ９は、ＧｒａｐｈＣｕｔｓ法による領域分割処理を実行する。
ここで、従来のＧｒａｐｈＣｕｔｓ法では物体と背景の学習のために、物体領域（主要被写体領域）と背景領域の見本となるラベルや種は手動で与えられていた。これに対して、本実施形態では、ステップＳｄの処理で自動的に設定された主要被写体の種及び背景領域の種を利用することができる。その結果、従来のようにユーザが手動で種を入力する必要が無くなり、また、学習の必要も無くなる。
また、ステップＳｅの処理で演算された主要被写体の事前確率Ｐｒ（Ｏ）及び背景領域の事前確率Ｐｒ（Ｂ）は、顕著性マップＳに基づくものであり、ＧｒａｐｈＣｕｔｓ法のｔ−ｌｉｎｋの事前確率として採用することが可能である。その結果、主要被写体領域の適切な空間情報が得られることになる。
ステップＳｆのＧｒａｐｈＣｕｔｓ法による領域分割処理の結果、上述したように、処理対象画像６１は、主要被写体の領域と背景領域に分割される。
ステップＳｆの処理は、後述する図５のステップＳ２７の処理に対応する。

その後、主要被写体の領域のデータが「動くキャラクタ部分」の画像データとして抽出される（後述する図５ステップＳ２８参照）。なお、この抽出手法は、特に限定されず、いわゆる切り抜き抽出であっても良いし、いわゆるアルファチャネル抽出であっても良い。

このようなステップＳａ乃至Ｓｆの処理が、複数のフレーム画像データ毎に繰り返し実行されることで、「動くキャラクタ部分」の動画像データなどが抽出される。

以上、図２や図３を参照して、画像処理装置１００が実行する動くキャラクタ抽出処理の概略について説明した。次に、図４乃至図８を参照して、動くキャラクタ抽出処理を含む撮影モード処理全体について説明する。

図４は、撮影モード処理の流れの一例を示すフローチャートである。

撮影モード処理は、ユーザが撮影モードを選択する所定の操作を操作部１４に対して行った場合、その操作を契機として開始される。すなわち、次のような処理が実行される。

ステップＳ１において、ＣＰＵ９は、撮影前処理を実行することで、例えば、シーンや撮影条件などを設定する。

ステップＳ２において、ＣＰＵ９は、レリーズ釦が半押しの状態であるか否かを判定する。
ユーザがレリーズ釦を半押ししていない場合、ステップＳ２においてＮＯであると判定され、処理はステップＳ１に戻され、それ以降の処理が繰り返される。すなわち、ユーザがレリーズ釦を半押しするまでの間、ステップＳ１，Ｓ２のループ処理が繰り返し実行される。

その後、ユーザがレリーズ釦を半押しすると、ステップＳ２においてＹＥＳであると判定されて、処理はステップＳ３に進む。

ステップＳ３において、ＣＰＵ９は、ＡＦ（ＡｕｔｏｍａｔｉｃＦｏｃｕｓ）処理（オートフォーカス処理）を実行する。

ステップＳ４において、ＣＰＵ９は、レリーズ釦が全押しの状態であるか否かを判定する。

ユーザがレリーズ釦を全押ししていない場合、ステップＳ４においてＮＯであると判定され、処理はステップＳ１２に進む。ステップＳ１２において、ＣＰＵ９は、レリーズ釦が解除されたか否かを判定する。ユーザの指などがレリーズ釦から離された場合、ステップＳ１２においてＹＥＳであると判定されて、撮影モード処理は終了となる。これに対して、ユーザの指などがレリーズ釦から離されていない場合、ステップＳ１２においてＮＯであると判定されて、処理はステップＳ４に戻され、それ以降の処理が繰り返される。すなわち、レリーズ釦の半押し状態が継続している限り、ステップＳ４ＮＯ，Ｓ１２ＮＯのループ処理が繰り返し実行される。

その後、ユーザがレリーズ釦を全押しすると、ステップＳ４においてＹＥＳであると判定されて、処理はステップＳ５に進む。ステップＳ５において、ＣＰＵ９は、ＡＷＢ（ＡｕｔｏｍａｔｉｃＷｈｉｔｅＢａｌａｎｃｅ）処理（オートホワイトバランス処理）と、ＡＥ（ＡｕｔｏｍａｔｉｃＥｘｐｏｓｕｒｅ）処理（自動露出処理）を実行する。すなわち、測光センサ１７による測光情報や撮影条件などに基づいて、絞り、露出時間、ストロボ条件などが設定される。

ステップＳ６において、ＣＰＵ９は、ＴＧ６やＤＳＰ８などを制御して、撮影条件などに基づいて露出及び撮影処理を実行する。この露出及び撮影処理により、撮影条件などにしたがってＣＭＯＳセンサ４により撮影された被写体像は、フレーム画像データとしてＤＲＡＭ７に記憶される。なお、以下、かかるフレーム画像データを撮影画像データと称し、また、撮影画像データにより表現される画像を撮影画像と称する。ステップＳ７おいて、ＣＰＵ９は、撮影画像データをＤＲＡＭ７などに一時保持する。

ステップＳ８において、ＣＰＵ９は、レリーズ釦が解除されたか否かを判定する。ユーザの指などがレリーズ釦から離されていない場合、ステップＳ８においてＮＯであると判定されて、処理はステップＳ５に戻され、それ以降の処理が繰り返される。すなわち、レリーズ釦の全押し状態が継続している限り、ステップＳ５乃至Ｓ８のループ処理が繰り返し実行され、その結果、複数の撮影画像データが一枚ずつＤＲＡＭ７などに順次保持されていく。その後、ユーザの指などがレリーズ釦から離された場合、ステップＳ８においてＹＥＳであると判定されて、処理はステップＳ９に進む。

ステップＳ９の処理開始段階では、レリーズ釦の全押しの状態が継続している間にＤＲＡＭ７に連続して記録された複数の撮影画像データにより、動画像データなどが構成されている。そこで、ステップＳ９において、ＣＰＵ９は、この動画像データなどに対して、動くキャラクタ抽出処理を実行する。その結果、「動くキャラクタ」の動画像データなどが得られる。動くキャラクタ抽出処理については、その概略は図２を参照して上述した通りであり、その詳細は図５を参照して後述する。

ステップＳ１０において、ＣＰＵ９は、ＤＳＰ８などを制御して、「動くキャラクタ」の動画像データなどの圧縮符号化処理を実行する。その結果、符号化画像データが得られることになる。そこで、ステップＳ１１において、ＣＰＵ９は、符号化画像データの保存記録処理を実行する。これにより、符号化画像データがメモリカード１５などに記録され、撮影モード処理が終了となる。

次に、撮影モード処理のうち、ステップＳ９の動くキャラクタ抽出処理の詳細例について説明する。

図５は、動くキャラクタ抽出処理の流れの詳細例を示すフローチャートである。

ステップＳ２１において、ＣＰＵ９は、図４のステップＳ５乃至Ｓ８のループ処理の結果得られた動画像データなどの中から、所定の撮影画像データ（フレーム画像データ）を処理対象画像データとして設定する。

ステップＳ２２において、ＣＰＵ９は、顕著性マップ抽出処理を実行することで、顕著性マップを求める。顕著性マップ抽出処理については、その概略は図３のステップＳａの処理として上述した通りであり、その詳細は図６を参照して後述する。

ステップＳ２３において、ＣＰＵ９は、事前確率演算処理を実行する。これにより、図３のステップＳｅの処理として上述した通り、主要被写体の事前確率Ｐｒ（Ｏ）と背景領域の事前確率Ｐｒ（Ｂ）とが得られる。

ステップＳ２４において、ＣＰＵ９は、顕著性マップを用いて、注目点領域を推定する。これにより、図３のステップＳｂの処理として上述した通り、複数段階の注目点領域が推定される。

ステップＳ２５において、ＣＰＵ９は、複数段階の注目点領域を用いて、コア領域抽出処理を実行する。これにより、図３のステップＳｃの処理として上述した通り、注目点領域のコア領域が抽出される。

ステップＳ２６において、ＣＰＵ９は、注目点領域のコア領域を用いて、種（ｓｅｅｄ）設定処理を実行する。これにより、図３のステップＳｄの処理として上述した通り、主要被写体の領域の種と、背景領域の種とがそれぞれ設定される。

ステップＳ２７において、ＣＰＵ９は、主要被写体の事前確率Ｐｒ（Ｏ）及び背景領域の事前確率Ｐｒ（Ｂ）、並びに、主要被写体の領域の種及び背景領域の種を用いて、ＧｒａｐｈＣｕｔｓ法による領域分割処理を実行する。これにより、図３のステップＳｆの処理として上述した通り、処理対象画像データに対応するフレーム画像は、主要被写体の領域と背景領域とにセグメンテーション（分割）される。そこで、ステップＳ２８において、ＣＰＵ９は、分割後の主要被写体の領域に対応するデータを、「動くキャラクタ」の画像データとしてＤＲＡＭ７などに一時的に保持する。

ステップＳ２９において、ＣＰＵ９は、処理対象画像データが最後の撮影画像データ（フレーム画像データ）か否かを判定する。処理対象画像データが最後の撮影画像データでない場合、ステップＳ２９においてＮＯであると判定されて処理はステップＳ２１に戻される。すなわち、動画像データなどを構成する複数の撮影画像データ毎に、ステップＳ２１乃至Ｓ２９のループ処理が繰り返し実行されることで、「動くキャラクタ」の画像データが順次抽出されていく。

その後、最後の撮影画像データが処理対象画像データに設定されて、ステップＳ２２乃至Ｓ２８の処理が実行されると、次のステップＳ２９においてＹＥＳであると判定されて、動くキャラクタ抽出処理は終了となる。その結果、複数の撮影画像データのそれぞれから抽出された複数の「動くキャラクタ」の画像データにより、「動くキャラクタ」の動画像データなどが構成される。このため、動くキャラクタ抽出処理が終了すると、すなわち、図４のステップＳ９の処理が終了すると、上述したように、ステップＳ１０，Ｓ１１の処理で、「動くキャラクタ」の動画像データなどが圧縮符号化され、その結果得られる符号化画像データがメモリカード１５などに記録される。

次に、動くキャラクタ抽出処理のうち、ステップＳ２２（図３のステップＳａ）の注目点領域処理の詳細例について説明する。

上述したように、注目点領域推定処理では、注目点領域の推定のために、顕著性マップが作成される。したがって、注目点領域推定処理に対して、例えば、Ｔｒｅｉｓｍａｎの特徴統合理論や、Ｉｔｔｉ及びＫｏｃｈらによる顕著性マップを適用することができる。
なお、Ｔｒｅｉｓｍａｎの特徴統合理論については、「Ａ．Ｍ．ＴｒｅｉｓｍａｎａｎｄＧ．Ｇｅｌａｄｅ，“Ａｆｅａｔｕｒｅ―ｉｎｔｅｇｒａｔｉｏｎｔｈｅｏｒｙｏｆａｔｔｅｎｔｉｏｎ”，ＣｏｇｎｉｔｉｖｅＰｓｙｃｈｏｌｏｇｙ，Ｖｏｌ．１２，Ｎｏ．１，ｐｐ．９７−１３６，１９８０．」を参照すると良い。
また、Ｉｔｔｉ及びＫｏｃｈらによる顕著性マップについては、「Ｌ．Ｉｔｔｉ，Ｃ．Ｋｏｃｈ，ａｎｄＥ．Ｎｉｅｂｕｒ，“ＡＭｏｄｅｌｏｆＳａｌｉｅｎｃｙ−ＢａｓｅｄＶｉｓｕａｌＡｔｔｅｎｔｉｏｎｆｏｒＲａｐｉｄＳｃｅｎｅＡｎａｌｙｓｉｓ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＶＯｌ．２０，Ｎｏ１１，Ｎｏｖｅｍｂｅｒ１９９８．」を参照すると良い。

図６は、Ｔｒｅｉｓｍａｎの特徴統合理論やＮｉｔｔｉ及びＫｏｃｈらによる顕著性マップを適用した場合における、注目点領域推定処理の流れの詳細例を示すフローチャートである。

ステップＳ４１において、ＣＰＵ９は、スルー撮像により得られたフレーム画像データを、処理対象画像データとして取得する。

ステップＳ４２において、ＣＰＵ９は、ガウシアン解像度ピラミット（ＧａｕｓｓｉａｎＲｅｓｏｌｕｔｉｏｎＰｙｒａｍｉｄ）を作成する。具体的には例えば、ＣＰＵ９は、処理対象画像データ｛（ｘ，ｙ）の位置の画素データ｝をＩ（０）＝Ｉ（ｘ，ｙ）として、ガウシアンフィルタ処理とダウンサンプリング処理とを順次繰り返し実行する。その結果として、階層型のスケール画像データＩ（Ｌ）（例えばＬ∈｛０・・・８｝）の組が生成される。この階層型のスケール画像データＩ（Ｌ）の組が、ガウシアン解像度ピラミッドと称されている。ここで、スケールＬ＝ｋ（ここではｋは１乃至８のうちのいずれかの整数値）の場合、スケール画像データＩ（ｋ）は、１／２^ｋの縮小画像（ｋ＝０の場合は原画像）を示す。

ステップＳ４３において、ＣＰＵ９は、各特徴量マップ作成処理を開始する。各特徴量マップ作成処理の詳細例については、図７や図８を参照して後述する。

ステップＳ４４において、ＣＰＵ９は、全ての特徴量マップ作成処理が終了したか否かを判定する。各特徴量マップ作成処理のうち１つでも処理が終了していない場合、ステップＳ４４において、ＮＯであると判定されて、処理はステップＳ４４に再び戻される。すなわち、各特徴量マップ作成処理の全処理が終了するまでの間、ステップＳ４４の判定処理が繰り返し実行される。そして、各特徴量マップ作成処理の全処理が終了して、全ての特徴量マップが作成されると、ステップＳ４４においてＹＥＳであると判定されて、処理はステップＳ４５に進む。

ステップＳ４５において、ＣＰＵ９は、各特徴量マップを線形和で結合して、顕著性マップＳ（ＳａｌｉｅｎｃｙＭａｐ）を求める。このようにして、顕著性マップＳが求められると、顕著性マップ抽出処理は終了する。すなわち、図５のステップＳ２２の処理は終了し、処理はステップＳ２３に進む。図３の例でいえば、ステップＳａの処理は終了し、処理はステップＳｂに進む。

次に、各特徴量マップ作成処理の具体例について説明する。

図７は、輝度、色、及び、方向性の特徴量マップ作成処理の流れの一例を示すフローチャートである。

図７Ａは、輝度の特徴量マップ作成処理の一例を示している。

ステップＳ６１において、ＣＰＵ９は、処理対象画像データに対応する各スケール画像から、各注目画素を設定する。例えば各注目画素ｃ∈｛２，３，４｝が設定されたとして、以下の説明を行う。各注目画素ｃ∈｛２，３，４｝とは、スケールｃ∈｛２，３，４｝のスケール画像データＩ（ｃ）上の演算対象として設定された画素をいう。

ステップＳ６２において、ＣＰＵ９は、各注目画素ｃ∈｛２，３，４｝の各スケール画像の輝度成分を求める。

ステップＳ６３において、ＣＰＵ９は、各注目画素の周辺画素ｓ＝ｃ＋δの各スケール画像の輝度成分を求める。各注目画素の周辺画素ｓ＝ｃ＋δとは、例えばδ∈｛３，４｝とすると、スケールｓ＝ｃ＋δのスケール画像Ｉ（ｓ）上の、注目画素（対応点）の周辺に存在する画素をいう。

ステップＳ６４において、ＣＰＵ９は、各スケール画像について、各注目画素ｃ∈｛２，３，４｝における輝度コントラストを求める。例えば、ＣＰＵ９は、各注目画素ｃ∈｛２，３，４｝と、各注目画素の周辺画素ｓ＝ｃ＋δ（例えばδ∈｛３，４｝）のスケール間差分を求める。ここで、注目画素ｃをＣｅｎｔｅｒと呼称し、注目画素の周辺画素ｓをＳｕｒｒｏｕｎｄと呼称すると、求められたスケール間差分は、輝度のＣｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄスケール間差分と呼称することができる。この輝度のＣｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄスケール間差分は、注目画素ｃが白で周辺画素ｓが黒の場合又はその逆の場合には大きな値をとるという性質がある。したがって、輝度のＣｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄスケール間差分は、輝度コントラストを表わすことになる。なお、以下、かかる輝度コントラストをＩ（ｃ，ｓ）と記述する。

ステップＳ６５において、ＣＰＵ９は、処理対象画像データに対応する各スケール画像において、注目画素に設定されていない画素が存在するか否かを判定する。そのような画素が存在する場合、ステップＳ６５においてＹＥＳであると判定されて、処理はステップＳ６１に戻され、それ以降の処理が繰り返される。

すなわち、処理対象画像データに対応する各スケール画像の各画素に対して、ステップＳ６１乃至Ｓ６５の処理がそれぞれ施されて、各画素の輝度コントラストＩ（ｃ，ｓ）が求められる。ここで、各注目画素ｃ∈｛２，３，４｝、及び、周辺画素ｓ＝ｃ＋δ（例えばδ∈｛３，４｝）が設定される場合、ステップＳ６１乃至Ｓ６５の１回の処理で、（注目画素ｃの３通り）×（周辺画素ｓの２通り）＝６通りの輝度コントラストＩ（ｃ，ｓ）が求められる。ここで、所定のｃと所定のｓについて求められた輝度コントラストＩ（ｃ，ｓ）の画像全体の集合体を、以下、輝度コントラストＩの特徴量マップと称する。輝度コントラストＩの特徴量マップは、ステップＳ６１乃至Ｓ６５のループ処理の繰り返しの結果、６通り求められることになる。このようにして、６通りの輝度コントラストＩの特徴量マップが求められると、ステップＳ６５においてＮＯであると判定されて、処理はステップＳ６６に進む。

ステップＳ６６において、ＣＰＵ９は、輝度コントラストＩの各特徴量マップを正規化した上で結合することで、輝度の特徴量マップを作成する。これにより、輝度の特徴量マップ作成処理は終了する。なお、以下、輝度の特徴量マップを、他の特徴量マップと区別すべく、ＦＩと記述する。

図７Ｂは、色の特徴量マップ作成処理の一例を示している。

図７Ｂの色の特徴量マップ作成処理は、図７Ａの輝度の特徴量マップ作成処理と比較すると、処理の流れは基本的に同様であり、処理対象が異なるだけである。すなわち、図７ＢのステップＳ８１乃至Ｓ８６のそれぞれの処理は、図７ＡのステップＳ６１乃至Ｓ６６のそれぞれに対応する処理であり、各ステップの処理対象が図７Ａとは異なるだけである。したがって、図７Ｂの色の特徴量マップ作成処理については、処理の流れの説明は省略し、以下、処理対象についてのみ簡単に説明する。

すなわち、図７ＡのステップＳ６２とＳ６３の処理対象は、輝度成分であったのに対して、図７ＢのステップＳ８２とＳ８３の処理対象は、色成分である。
また、図７ＡのステップＳ６４の処理では、輝度のＣｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄスケール間差分が、輝度コントラストＩ（ｃ，ｓ）として求められた。これに対して、図７ＢのステップＳ８４の処理では、色相（Ｒ／Ｇ，Ｂ／Ｙ）のＣｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄスケール間差分が、色相コントラストとして求められる。なお、色成分のうち、赤の成分がＲで示され、緑の成分がＧで示され、青の成分がＢで示され、黄の成分がＹで示されている。また、以下、色相Ｒ／Ｇについての色相コントラストを、ＲＧ（ｃ，ｓ）と記述し、色相Ｂ／Ｙについての色相コントラストを、ＢＹ（ｃ，ｓ）と記述する。
ここで、上述の例にあわせて、注目画素ｃが３通り存在して、周辺画素ｓが２通り存在するとする。この場合、図７ＡのステップＳ６１乃至Ｓ６５のループ処理の結果、６通りの輝度コントラストＩの特徴量マップが求められた。これに対して、図７ＢのステップＳ８１乃至Ｓ８５のループ処理の結果、６通りの色相コントラストＲＧの特徴量マップと、６通りの色相コントラストＢＹの特徴量マップとが求められる。
最終的に、図７ＡのステップＳ６６の処理で、輝度の特徴量マップＦＩが求められた。これに対して、図７ＢのステップＳ８６の処理で、色の特徴量マップが求められる。なお、以下、色の特徴量マップを、他の特徴量マップと区別すべく、ＦＣと記述する。

図７Ｃは、方向性の特徴量マップ作成処理の一例を示している。

図７Ｃの方向性の特徴量マップ作成処理は、図７Ａの輝度の特徴量マップ作成処理と比較すると、処理の流れは基本的に同様であり、処理対象が異なるだけである。すなわち、図７ＣのステップＳ１０１乃至Ｓ１０６のそれぞれの処理は、図７ＡのステップＳ６１乃至Ｓ６６のそれぞれに対応する処理であり、各ステップの処理対象が図７Ａとは異なるだけである。したがって、図７Ｃの方向性の特徴量マップ作成処理については、処理の流れの説明は省略し、以下、処理対象についてのみ簡単に説明する。

すなわち、ステップＳ１０２とＳ１０２３の処理対象は、方向成分である。ここで、方向成分とは、輝度成分に対してガウスフィルタφを畳み込んだ結果得られる各方向の振幅成分をいう。ここでいう方向とは、ガウスフィルタφのパラメターとして存在する回転角θにより示される方向をいう。例えば回転角θとしては、０°，４５°，９０°，１３５°の４方向を採用することができる。
また、ステップＳ１０４の処理では、方向性のＣｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄスケール間差分が、方向性コントラストとして求められる。なお、以下、方向性コントラストを、Ｏ（ｃ，ｓ，θ）と記述する。
ここで、上述の例にあわせて、注目画素ｃが３通り存在して、周辺画素ｓが２通り存在するとする。この場合、ステップＳ１０１乃至Ｓ１０５のループ処理の結果、回転角θ毎に、６通りの方向性コントラストＯの特徴量マップが求められる。例えば回転角θとして、０°，４５°，９０°，１３５°の４方向が採用されている場合には、２４通り（＝６×４通り）の方向性コントラストＯの特徴量マップが求められる。
最終的に、ステップＳ１０６の処理で、方向性の特徴量マップが求められる。なお、以下、方向性の特徴量マップを、他の特徴量マップと区別すべく、ＦＯと記述する。

以上説明した図７の特徴量マップ作成処理のより詳細な処理内容については、例えば、「Ｌ．Ｉｔｔｉ，Ｃ．Ｋｏｃｈ，ａｎｄＥ．Ｎｉｅｂｕｒ，“ＡＭｏｄｅｌｏｆＳａｌｉｅｎｃｙ−ＢａｓｅｄＶｉｓｕａｌＡｔｔｅｎｔｉｏｎｆｏｒＲａｐｉｄＳｃｅｎｅＡｎａｌｙｓｉｓ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＶＯｌ．２０，Ｎｏ１１，Ｎｏｖｅｍｂｅｒ１９９８．」を参照すると良い。

なお、特徴量マップ作成処理は、図７の例に特に限定されない。例えば、特徴量マップ作成処理として、明度、彩度、色相、及びモーションの各特徴量を用いて、それぞれの特徴量マップを作成する処理を採用することもできる。

また例えば、特徴量マップ作成処理として、マルチスケールのコントラスト、Ｃｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄの色ヒストグラム、及び、色空間分布の各特徴量を用いて、それぞれの特徴量マップを作成する処理を採用することもできる。

図８は、マルチスケールのコントラスト、Ｃｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄの色ヒストグラム、及び、色空間分布の特徴量マップ作成処理の一例を示すフローチャートである。

図８Ａは、マルチスケールのコントラストの特徴量マップ作成処理の一例を示している。
ステップＳ１２１において、ＣＰＵ９は、マルチスケールのコントラストの特徴量マップを求める。これにより、マルチスケールのコントラストの特徴量マップ作成処理は終了となる。
なお、以下、マルチスケールのコントラストの特徴量マップを、他の特徴量マップと区別すべく、Ｆｃと記述する。

図８Ｂは、Ｃｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄの色ヒストグラムの特徴量マップ作成処理の一例を示している。

ステップＳ１４１において、ＣＰＵ９は、異なるアスペクト比毎に、矩形領域の色ヒストグラムと、周辺輪郭の色ヒストグラムとを求める。アスペクト比自体は、特に限定されず、例えば｛０．５，０．７５，１．０，１．５，２．０｝などを採用することができる。

ステップＳ１４２において、ＣＰＵ９は、異なるアスペクト比毎に、矩形領域の色ヒストグラムと、周辺輪郭の色ヒストグラムとのカイ２乗距離を求める。ステップＳ１４３において、ＣＰＵ９は、カイ２乗距離が最大となる矩形領域の色ヒストグラムを求める。

ステップＳ１４４において、ＣＰＵ９は、カイ２乗距離が最大となる矩形領域の色ヒストグラムを用いて、Ｃｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄの色ヒストグラムの特徴量マップを作成する。これにより、Ｃｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄの色ヒストグラムの特徴量マップ作成処理は終了となる。
なお、以下、Ｃｅｎｔｅｒ−Ｓｕｒｒｏｕｎｄの色ヒストグラムの特徴量マップを、他の特徴量マップと区別すべく、Ｆｈと記述する。

図８Ｃは、色空間分布の特徴量マップ作成処理の一例を示している。

ステップＳ１６１において、ＣＰＵ９は、色空間分布について、水平方向の分散を計算する。また、ステップＳ１６２において、ＣＰＵ９は、色空間分布について、垂直方向の分散を計算する。そして、ステップＳ１６３において、ＣＰＵ９は、水平方向の分散と垂直方向の分散とを用いて、色の空間的な分散を求める。

ステップＳ１６４において、ＣＰＵ９は、色の空間的な分散を用いて、色空間分布の特徴量マップを作成する。これにより、色空間分布の特徴量マップ作成処理は終了となる。
なお、以下、色空間分布の特徴量マップを、他の特徴量マップと区別すべく、Ｆｓと記述する。

以上説明した図８の特徴量マップ作成処理のより詳細な処理内容については、例えば、「Ｔ．Ｌｉｕ，Ｊ．Ｓｕｎ，Ｎ．Ｚｈｅｎｇ，Ｘ．Ｔａｎｇ，Ｈ．Ｓｕｍ，“ＬｅａｒｎｉｎｇｔｏＤｅｔｅｃｔＡＳａｌｉｅｎｔＯｂｊｅｃｔ”，ＣＶＰＲ０７，ｐｐ．１−８，２００７．」を参照すると良い。

以上説明したように、第１実施形態に係る画像処理装置１００のＣＰＵ９は、主要被写体を含む入力画像に対して、入力画像から抽出された複数の特徴量に基づく顕著性マップを用いて、注目点領域を推定する機能を有している。
ＣＰＵ９は、推定された注目点領域と、所定のアルゴリズムとを用いて、入力画像を主要被写体の領域と背景領域とに分割する機能を有している。ここで、所定のアルゴリズムとしては、上述した例では、ＧｒａｐｈＣｕｔｓ法が採用されていた。ただし、所定のアルゴリズムは、上述した例に限定されない。例えば、注目点領域及びその近傍の各画像領域から定義したエネルギー関数を用いて、入力画像を被写体の領域と背景領域とに分割できるアルゴリズムを採用することが可能である。具体的には例えばＳｎａｋｅ法などを、所定のアルゴリズムとして採用することが可能である。
また、ＣＰＵ９は、入力画像から分割された主要被写体の領域を抽出する機能を有している。

このように、第１実施形態では、注目点領域が用いられているので、人間の視覚的注意を引く可能性の高い主要被写体の領域を自動的に識別することが可能になる。また、ＧｒａｐｈＣｕｔｓ法などの所定のアルゴリズムが用いられているので、主要被写体の領域のセグメンテーション（分割）を精密に行うことが可能になる。その結果、家庭用ムービーなどを用いて、実際の多様な情景を背景にして撮影された一般的な動画像などからも、動くキャラクタ部分（動く主要被写体の領域）を精度良く抽出することが可能になる。

また、例えば、ユーザにとっては、従来のように主要被写体や切り抜き領域などを逐一手動で指定しなくても、所望の動くキャラクタ部分を含む動画像などを指定するような簡単な操作をするだけで、所望の動くキャラクタ部分が自動的かつ精度良く抽出される。したがって、ユーザにとっては、その後、合成対象の背景画像を指定するような簡単な操作をするだけで、所望の動くキャラクタ部分が所望の背景画像に対して自動的に貼付け合成又は混合合成される。これにより、新しい合成動画像が生成され、その再生が可能になる。すなわち、ユーザにとっては、従来に比較して簡単な操作をするだけで、切抜き合成や動く写真などの技術を容易に利用できるようになる。

また、例えば、従来の「背景差分法」などを採用した場合には、動くキャラクタ部分を抽出するために、主要被写体を含む画像（連写画像）と、主要被写体を含まない背景だけの画像とを、２回に分けて撮影する必要があった。これに対して、第１実施形態では、そのような必要は無く、主要被写体を含む画像（連写画像）を１回撮影するだけで足りる。その結果、従来と比較して、動くキャラクタ部分を抽出するための手間や面倒が大幅に減少し、ひいては使い勝手が向上する。

〔第２実施形態〕
次に、本発明の第２実施形態を説明する。
なお、本発明の第２実施形態に係る画像処理装置のハードウェアの構成は、第１実施形態に係る画像処理装置１００の図１のハードウェアの構成と基本的に同様である。

第２実施形態に係る画像処理装置１００のＣＰＵ９は、主要被写体を含む入力画像に対して、入力画像から抽出された複数の特徴量に基づく顕著性マップを用いて、注目点領域を推定する機能を有している。ＣＰＵ９は、入力画像から輪郭線若しくはエッジ形状を抽出する機能を有している。ＣＰＵ９は、抽出された輪郭線若しくはエッジ形状により特定される輪郭線のうち、推定された注目点領域と重なる輪郭線の内側領域を主要被写体の領域とし、その輪郭線の外側領域を背景領域とすることで、入力画像を主要被写体の領域と背景領域とに分割する機能を有している。また、ＣＰＵ９は、入力画像から分割された主要被写体の領域を抽出する機能を有している。

これにより、第２実施形態に係る画像処理装置１００もまた、第１実施形態と同様の効果を奏することが可能になる。

なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良などは本発明に含まれるものである。
例えば、上述した実施形態では、本発明が適用される画像処理装置は、デジタルカメラとして構成される例として説明した。しかしながら、本発明は、デジタルカメラに特に限定されず、電子機器一般に適用することができる。具体的には例えば、本発明は、ビデオカメラ、携帯型ナビゲーション装置、ポータブルゲーム機などに適用可能である。

また、第１実施形態と第２実施形態とを組み合わせても良い。

上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータなどにネットワークや記録媒体からインストールされる。コンピュータは、専用のハードウェアに組み込まれているコンピュータであっても良い。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであっても良い。
このようなプログラムを含む記録媒体は、図示はしないが、ユーザにプログラムを提供するために装置本体とは別に配布されるリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体などで構成される。リムーバブルメディアは、例えば、磁気ディスク（フロッピディスクを含む）、光ディスク、又は光磁気ディスクなどにより構成される。光ディスクは、例えば、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）などにより構成される。光磁気ディスクは、ＭＤ（Ｍｉｎｉ−Ｄｉｓｋ）などにより構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図１のＲＯＭ１１や、図示せぬハードディスクなどで構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。

１００・・・画像処理装置、１・・・光学レンズ装置、２・・・シャッタ装置、３・・・アクチュエータ、４・・・ＣＭＯＳセンサ、５・・・ＡＦＥ、６・・・ＴＧ、７・・・ＤＲＡＭ、８・・・ＤＳＰ、９・・・ＣＰＵ、１０・・・ＲＡＭ、１１・・・ＲＯＭ、１２・・・液晶表示コントローラ、１３・・・液晶ディスプレイ、１４・・・操作部、１５・・・メモリカード、１６・・・測距センサ、１７・・・測光センサ

Claims

主要被写体を含む入力画像に対して、前記入力画像から抽出された複数の特徴量に基づく顕著性マップを用いて、注目点領域を推定する推定部と、
前記推定部により推定された前記注目点領域を用いて、前記入力画像を前記主要被写体の領域と背景領域とに分割する分割部と、
前記入力画像から、前記分割部により分割された前記主要被写体の領域を抽出する抽出部と、
を備える画像処理装置。
前記分割部は、前記注目点領域を含む所定領域から定義したエネルギー関数を用いる所定のアルゴリズムにしたがって、前記入力画像を前記主要被写体の領域と前記背景領域とに分割する
請求項１に記載の画像処理装置。
前記所定のアルゴリズムは、ＧｒａｐｈＣｕｔｓ法である
請求項２に記載の画像処理装置。
前記入力画像から輪郭線若しくはエッジ形状を抽出する輪郭線抽出部をさらに備え、
前記分割部は、前記輪郭線抽出部により抽出された前記輪郭線又は前記エッジ形状により特定される輪郭線のうち、前記注目点領域と重なる輪郭線の内側領域を前記主要被写体の領域とし、当該輪郭線の外側領域を前記背景領域とすることで、前記入力画像を前記主要被写体の領域と前記背景領域とに分割する
請求項１に記載の画像処理装置。
主要被写体を含む入力画像に対して、前記入力画像から抽出された複数の特徴量に基づく顕著性マップを用いて、注目点領域を推定する推定ステップと、
前記推定ステップの処理により推定された前記注目点領域を用いて、前記入力画像を前記主要被写体の領域と背景領域とに分割する分割ステップと、
前記入力画像から、前記分割ステップの処理により分割された前記主要被写体の領域を抽出する抽出ステップと、
を含む画像処理方法。