JP2011018199A

JP2011018199A - 画像処理装置および方法、並びにプログラム

Info

Publication number: JP2011018199A
Application number: JP2009162416A
Authority: JP
Inventors: Kazuki Aisaka; 一樹相坂; Atsushi Murayama; 淳村山; Takefumi Nagumo; 武文名雲; Ken Tamayama; 研玉山; Masatoshi Yokokawa; 昌俊横川; Tatsuo Fujiwara; 達雄藤原; Aoki Eyama; 碧輝江山
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-07-09
Filing date: 2009-07-09
Publication date: 2011-01-27

Abstract

【課題】画像における人物の容姿をスリムにする。
【解決手段】人物領域検出部２８１は、入力画像において、入力画像上の被写体としての人物を含む領域である人物領域を検出し、圧縮／拡張処理部２８２は、入力画像における人物領域の面積を、入力画像上の被写体としての人物の体軸に対する法線方向に圧縮するとともに、入力画像における人物領域以外の領域である背景領域の面積を、法線方向に拡張する。本発明は、撮影機能を有する電子機器に適用することができる。
【選択図】図８

Description

本発明は、画像処理装置および方法、並びにプログラムに関し、特に、画像における人物の容姿をスリムにすることができるようにする画像処理装置および方法、並びにプログラムに関する。

従来、デジタルカメラ等の撮影装置によって人物が撮影された画像に対して、撮影後に、被写体としての人物がよりよく写るように（表示されるように）補正する様々な技術が提案されている。

例えば、入力画像と背景画像とを合成する際に、背景画像に対して、入力画像に含まれる人物の顔、上半身、および全身のバランスを調整する技術がある（特許文献１参照）。

特開２００１−２８６８２号公報

しかしながら、上述した構成では、画像における人物の容姿をスリムにすることはできない。

本発明は、このような状況に鑑みてなされたものであり、特に、画像における人物の容姿をスリムにするようにするものである。

本発明の一側面の画像処理装置は、入力画像において、前記入力画像上の被写体としての人物を含む領域である人物領域を検出する人物領域検出手段と、前記入力画像における前記人物領域の面積を、前記入力画像上の前記被写体としての前記人物の体軸に対する法線方向に圧縮するとともに、前記入力画像における前記人物領域以外の領域である背景領域の面積を、前記法線方向に拡張する圧縮拡張手段とを備える。

前記圧縮拡張手段には、前記入力画像における前記人物領域の画素を、前記法線方向の所定の間隔で間引くとともに、前記背景領域の画素を前記法線方向の所定の間隔でコピーして付加することで、前記人物領域の面積を前記法線方向に圧縮するとともに、前記背景領域の面積を前記法線方向に拡張させることができる。

前記圧縮拡張手段には、前記入力画像上の前記人物領域および前記背景領域それぞれについて、前記入力画像におけるエッジの強度を表すエネルギーマップを生成するエネルギーマップ生成手段と、前記人物領域および前記背景領域それぞれについての前記エネルギーマップにおいて、前記体軸方向に、より低いエネルギーコストのパスを検出するパス検出手段とを含ませ、前記人物領域についての前記エネルギーマップにおける前記パスに対応する前記入力画像上の画素を削除するとともに、前記背景領域についての前記エネルギーマップにおける前記パスに、対応する前記入力画像上の画素をコピーして付加することで、前記人物領域の面積を前記法線方向に圧縮するとともに、前記背景領域の面積を前記法線方向に拡張させることができる。

前記画像処理装置には、前記入力画像に基づいて、前記入力画像上の前記被写体としての前記人物の領域を特定するための人物特定情報を生成する人物特定情報生成手段をさらに設け、前記人物領域検出手段には、前記人物特定情報に基づいて、前記人物領域を検出させることができる。

前記画像処理装置には、前記入力画像に基づいて、前記入力画像上の前記被写体の領域である被写体領域を特定するための被写体特定情報を生成する被写体特定情報生成手段と、前記入力画像に基づいて、前記入力画像上の前記被写体としての前記人物の顔の領域である顔領域を特定するための顔特定情報を生成する顔特定情報生成手段とをさらに設け、前記人物特定情報生成手段には、前記被写体特定情報および前記顔特定情報に基づいて、前記人物特定情報を生成させることができる。

前記人物特定情報生成手段には、前記被写体特定情報で特定される前記被写体領域のうち、前記顔特定情報で特定される前記顔領域を含む前記被写体領域を、前記入力画像上の前記人物の領域とする前記人物特定情報を生成させることができる。

本発明の一側面の画像処理方法は、入力画像において、前記入力画像上の被写体としての人物を含む領域である人物領域を検出する人物領域検出ステップと、前記入力画像における前記人物領域の面積を、前記入力画像上の前記被写体としての前記人物の体軸に対する法線方向に圧縮するとともに、前記入力画像における前記人物領域以外の領域である背景領域の面積を、前記法線方向に拡張する圧縮拡張ステップとを含む。

本発明の一側面のプログラムは、入力画像において、前記入力画像上の被写体としての人物を含む領域である人物領域を検出する人物領域検出ステップと、前記入力画像における前記人物領域の面積を、前記入力画像上の前記被写体としての前記人物の体軸に対する法線方向に圧縮するとともに、前記入力画像における前記人物領域以外の領域である背景領域の面積を、前記法線方向に拡張する圧縮拡張ステップとを含む処理をコンピュータに実行させる。

本発明の一側面においては、入力画像において、入力画像上の被写体としての人物を含む領域である人物領域が検出され、入力画像における人物領域の面積が、入力画像上の被写体としての人物の体軸に対する法線方向に圧縮されるとともに、入力画像における人物領域以外の領域である背景領域の面積が、法線方向に拡張される。

本発明の一側面によれば、画像における人物の容姿をスリムにすることが可能となる。

本発明を適用した画像処理装置の一実施の形態の構成例を示す図である。輝度情報抽出部の構成例を示す図である。色情報抽出部の構成例を示す図である。エッジ情報抽出部の構成例を示す図である。顔情報抽出部の構成例を示す図である。動き情報抽出部の構成例を示す図である。人物抽出部の構成例を示す図である。スリム化部の構成例を示す図である。画像処理を説明するフローチャートである。輝度情報抽出処理を説明するフローチャートである。色情報抽出処理を説明するフローチャートである。エッジ情報抽出処理を説明するフローチャートである。顔情報抽出処理を説明するフローチャートである。動き情報抽出処理を説明するフローチャートである。ニューラルネットワークによる学習の概要を説明する図である。ニューラルネットワークによる学習の概要を説明する図である。人物抽出処理を説明するフローチャートである。合成マップの生成について説明する図である。人物マップの生成について説明する図である。スリム化処理を説明するフローチャートである。人物領域および背景領域について説明する図である。人物領域および背景領域について説明する図である。スリム化処理について説明する図である。画像処理装置の他の構成例を示す図である。スリム化処理を説明するフローチャートである。人物領域のスリム化処理について説明する図である。パスの検出について説明する図である。パスの検出について説明する図である。背景領域のスリム化処理について説明する図である。コンピュータの構成例を示す図である。

以下、本発明の実施の形態について図を参照して説明する。

［画像処理装置の構成］
図１は、本発明を適用した画像処理装置の一実施の形態の構成例を示すブロック図である。

画像処理装置１１は、例えば、カメラ等の撮像装置に搭載され、撮像された入力画像における被写体としての人物を抽出し、その入力画像における人物に対して所定の画像処理を施し、撮像装置に搭載されている表示装置や記録媒体に出力する。

画像処理装置１１は、被写体抽出部２１、人物抽出部２２、およびスリム化部２３から構成され、撮像により得られた入力画像は、被写体抽出部２１およびスリム化部２３に供給される。

被写体抽出部２１は、供給された入力画像から被写体を検出し、入力画像における被写体の含まれる領域を特定するための情報である被写体マップを生成して人物抽出部２２に供給する。ここで、被写体の検出は、ユーザが入力画像を一瞥した場合に、ユーザが注目すると推定される入力画像上の物体、つまりユーザが目を向けると推定される物体が被写体であるとして行われる。したがって、被写体は必ずしも人物に限られる訳ではない。

被写体抽出部２１は、輝度情報抽出部４１、色情報抽出部４２、エッジ情報抽出部４３、顔情報抽出部４４、動き情報抽出部４５、および被写体マップ生成部４６から構成される。

輝度情報抽出部４１は、供給された入力画像に基づいて、入力画像の各領域における、輝度に関する情報を示す輝度情報マップを生成し、被写体マップ生成部４６に供給する。色情報抽出部４２は、供給された入力画像に基づいて、入力画像の各領域における、色に関する情報を示す色情報マップを生成し、被写体マップ生成部４６に供給する。

エッジ情報抽出部４３は、供給された入力画像に基づいて、入力画像の各領域における、エッジに関する情報を示すエッジ情報マップを生成し、被写体マップ生成部４６に供給する。顔情報抽出部４４は、供給された入力画像に基づいて、入力画像の各領域における、被写体としての人の顔に関する情報を示す顔情報マップを生成し、人物抽出部２２および被写体マップ生成部４６に供給する。動き情報抽出部４５は、供給された入力画像に基づいて、入力画像の各領域における、動きに関する情報を示す動き情報マップを生成し、被写体マップ生成部４６に供給する。

なお、以下、輝度情報抽出部４１乃至動き情報抽出部４５から出力される、輝度情報マップ乃至動き情報マップのそれぞれを個々に区別する必要のない場合、単に情報マップとも称する。これらの情報マップに含まれる情報は、被写体の含まれる領域により多く含まれる特徴の特徴量を示す情報とされ、その情報が入力画像の各領域に対応させて並べられたものが情報マップとされる。つまり、情報マップは、入力画像の各領域における特徴量を示す情報であるといえる。

したがって、各情報マップにおける、より情報量の多い領域、つまり特徴量の多い領域に対応する入力画像上の領域は、より被写体が含まれる可能性の高い領域となり、各情報マップにより入力画像における被写体の含まれる領域を特定することができる。

被写体マップ生成部４６は、輝度情報抽出部４１乃至動き情報抽出部４５から供給された輝度情報マップ、色情報マップ、エッジ情報マップ、顔情報マップ、および動き情報マップを線形結合し、被写体マップを生成する。すなわち、輝度情報マップ乃至動き情報マップの各領域の情報（特徴量）が、同じ位置にある領域ごとに重み付き加算されて被写体マップが生成される。被写体マップ生成部４６は、生成した被写体マップを人物抽出部２２に供給する。

人物抽出部２２は、顔情報抽出部４４から供給された顔情報マップと、被写体マップ生成部４６から供給された被写体マップとに基づいて、入力画像の各領域における、被写体としての人物に関する情報を示す人物マップを生成し、スリム化部２３に供給する。

上述の情報マップと同様に、人物マップに含まれる情報は、人物の含まれる領域により多く含まれる特徴の特徴量を示す情報とされ、その情報が入力画像の各領域に対応させて並べられたものが人物マップとされる。

したがって、人物マップにおける、より情報量の多い領域、つまり特徴量の多い領域に対応する入力画像上の領域は、より人物が含まれる可能性の高い領域となり、人物マップにより入力画像における人物の含まれる領域を特定することができる。

スリム化部２３は、入力画像と、人物抽出部２２から供給された人物マップとに基づいて、入力画像における被写体としての人物に対して、その人物の横幅を圧縮するように所定の画像処理を施し、出力する。

次に、図２乃至図６を参照して、図１の輝度情報抽出部４１乃至動き情報抽出部４５のより詳細な構成について説明する。

図２は、輝度情報抽出部４１の構成例を示すブロック図である。

輝度情報抽出部４１は、輝度画像生成部８１、ピラミッド画像生成部８２、差分算出部８３、および輝度情報マップ生成部８４から構成される。

輝度画像生成部８１は、供給された入力画像を用いて、入力画像の画素の輝度値を、画素の画素値とする輝度画像を生成し、ピラミッド画像生成部８２に供給する。ここで、輝度画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素の輝度値を示している。

ピラミッド画像生成部８２は、輝度画像生成部８１から供給された輝度画像を用いて、互いに解像度の異なる複数の輝度画像を生成し、それらの輝度画像を輝度のピラミッド画像として差分算出部８３に供給する。

例えば、レベルＬ１乃至レベルＬ８までの８つの解像度の階層のピラミッド画像が生成され、レベルＬ１のピラミッド画像が最も解像度が高く、レベルＬ１からレベルＬ８まで順番にピラミッド画像の解像度が低くなるものとする。

この場合、輝度画像生成部８１により生成された輝度画像が、レベルＬ１のピラミッド画像とされる。また、レベルＬｉ（但し、１≦ｉ≦７）のピラミッド画像における、互いに隣接する４つの画素の画素値の平均値が、それらの画素と対応するレベルＬ（ｉ＋１）のピラミッド画像の１つの画素の画素値とされる。したがって、レベルＬ（ｉ＋１）のピラミッド画像は、レベルＬｉのピラミッド画像に対して縦横半分（割り切れない場合は切り捨て）の画像となる。

差分算出部８３は、ピラミッド画像生成部８２から供給された複数のピラミッド画像のうち、互いに階層の異なる２つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めて輝度の差分画像を生成する。なお、各階層のピラミッド画像は、それぞれ大きさ（画素数）が異なるので、差分画像の生成時には、より小さい方のピラミッド画像が、より大きいピラミッド画像に合わせてアップコンバートされる。

差分算出部８３は、予め定められた数だけ輝度の差分画像を生成すると、生成したそれらの差分画像を正規化し、輝度情報マップ生成部８４に供給する。輝度情報マップ生成部８４は、差分算出部８３から供給された差分画像に基づいて輝度情報マップを生成し、被写体マップ生成部４６に供給する。

図３は、図１の色情報抽出部４２の構成例を示すブロック図である。

色情報抽出部４２は、ＲＧ差分画像生成部１１１、ＢＹ差分画像生成部１１２、ピラミッド画像生成部１１３、ピラミッド画像生成部１１４、差分算出部１１５、差分算出部１１６、色情報マップ生成部１１７、および色情報マップ生成部１１８から構成される。

ＲＧ差分画像生成部１１１は、供給された入力画像を用いて、入力画像の画素のＲ（赤）成分とＧ（緑）成分との差分を、画素の画素値とするＲＧ差分画像を生成し、ピラミッド画像生成部１１３に供給する。ＲＧ差分画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素のＲの成分と、Ｇの成分との差分の値を示している。

ＢＹ差分画像生成部１１２は、供給された入力画像を用いて、入力画像の画素のＢ（青）成分とＹ（黄）成分との差分を、画素の画素値とするＢＹ差分画像を生成し、ピラミッド画像生成部１１４に供給する。ＢＹ差分画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素のＢ（青）成分と、Ｙ（黄）成分との差分の値を示している。

ピラミッド画像生成部１１３およびピラミッド画像生成部１１４は、ＲＧ差分画像生成部１１１およびＢＹ差分画像生成部１１２から供給されたＲＧ差分画像およびＢＹ差分画像を用いて、互いに解像度の異なる複数のＲＧ差分画像およびＢＹ差分画像を生成する。そして、ピラミッド画像生成部１１３およびピラミッド画像生成部１１４は、生成したそれらのＲＧ差分画像およびＢＹ差分画像を、ＲＧの差分のピラミッド画像、およびＢＹの差分のピラミッド画像として差分算出部１１５および差分算出部１１６に供給する。

例えば、ＲＧの差分のピラミッド画像、およびＢＹの差分のピラミッド画像として、輝度のピラミッド画像の場合と同様に、それぞれレベルＬ１乃至レベルＬ８までの８つの解像度の階層のピラミッド画像が生成される。

差分算出部１１５および差分算出部１１６は、ピラミッド画像生成部１１３およびピラミッド画像生成部１１４から供給された複数のピラミッド画像のうち、互いに階層の異なる２つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めてＲＧの差分の差分画像、およびＢＹの差分の差分画像を生成する。なお、各階層のピラミッド画像は、それぞれ大きさが異なるので、差分画像の生成時には、より小さい方のピラミッド画像がアップコンバートされて、より大きい方のピラミッド画像と同じ大きさとされる。

差分算出部１１５および差分算出部１１６は、予め定められた数だけＲＧの差分の差分画像、およびＢＹの差分の差分画像を生成すると、生成したそれらの差分画像を正規化し、色情報マップ生成部１１７および色情報マップ生成部１１８に供給する。色情報マップ生成部１１７および色情報マップ生成部１１８は、差分算出部１１５および差分算出部１１６から供給された差分画像に基づいて色情報マップを生成し、被写体マップ生成部４６に供給する。色情報マップ生成部１１７ではＲＧの差分の色情報マップが生成され、色情報マップ生成部１１８ではＢＹの差分の色情報マップが生成される。

図４は、図１のエッジ情報抽出部４３の構成例を示すブロック図である。

エッジ情報抽出部４３は、エッジ画像生成部１４１乃至エッジ画像生成部１４４、ピラミッド画像生成部１４５乃至ピラミッド画像生成部１４８、差分算出部１４９乃至差分算出部１５２、およびエッジ情報マップ生成部１５３乃至エッジ情報マップ生成部１５６から構成される。

エッジ画像生成部１４１乃至エッジ画像生成部１４４は、供給された入力画像に対して、ガボアフィルタを用いたフィルタ処理を施し、例えば０度、４５度、９０度、および１３５度の方向のエッジ強度を画素の画素値とするエッジ画像を生成し、ピラミッド画像生成部１４５乃至ピラミッド画像生成部１４８に供給する。

例えば、エッジ画像生成部１４１により生成されるエッジ画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素における０度の方向のエッジ強度を示している。なお、各エッジの方向とは、ガボアフィルタを構成するガボア関数における角度成分により示される方向をいう。

ピラミッド画像生成部１４５乃至ピラミッド画像生成部１４８は、エッジ画像生成部１４１乃至エッジ画像生成部１４４から供給された各方向のエッジ画像を用いて、互いに解像度の異なる複数のエッジ画像を生成する。そして、ピラミッド画像生成部１４５乃至ピラミッド画像生成部１４８は、生成したそれらの各方向のエッジ画像を、エッジの各方向のピラミッド画像として差分算出部１４９乃至差分算出部１５２に供給する。

例えば、エッジの各方向のピラミッド画像として、輝度のピラミッド画像の場合と同様に、それぞれレベルＬ１乃至レベルＬ８までの８つの階層のピラミッド画像が生成される。

差分算出部１４９乃至差分算出部１５２は、ピラミッド画像生成部１４５乃至ピラミッド画像生成部１４８から供給された、複数のピラミッド画像のうち、互いに階層の異なる２つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めてエッジの各方向の差分画像を生成する。なお、各階層のピラミッド画像は、それぞれ大きさが異なるので、差分画像の生成時には、より小さい方のピラミッド画像がアップコンバートされる。

差分算出部１４９乃至差分算出部１５２は、予め定められた数だけエッジの各方向の差分画像を生成すると、生成したそれらの差分画像を正規化し、エッジ情報マップ生成部１５３乃至エッジ情報マップ生成部１５６に供給する。エッジ情報マップ生成部１５３乃至エッジ情報マップ生成部１５６は、差分算出部１４９乃至差分算出部１５２から供給された差分画像に基づいて、各方向のエッジ情報マップを生成し、被写体マップ生成部４６に供給する。

図５は、図１の顔情報抽出部４４の構成例を示すブロック図である。

顔情報抽出部４４は、顔検出部１８１および顔情報マップ生成部１８２から構成される。

顔検出部１８１は、供給された入力画像から被写体としての人の顔の領域を検出し、その検出結果を顔情報マップ生成部１８２に供給する。顔情報マップ生成部１８２は、顔検出部１８１からの検出結果に基づいて顔情報マップを生成し、人物抽出部２２および被写体マップ生成部４６に供給する。

図６は、図１の動き情報抽出部４５の構成例を示すブロック図である。

動き情報抽出部４５は、ローカルモーションベクタ抽出部２１１、グローバルモーションベクタ抽出部２１２、差分算出部２１３、および動き情報マップ生成部２１４から構成される。

ローカルモーションベクタ抽出部２１１は、供給された入力画像と、その入力画像とは撮像時刻の異なる他の入力画像とを用いて、入力画像の各画素の動きベクトルをローカルモーションベクタとして検出し、差分算出部２１３に供給する。グローバルモーションベクタ抽出部２１２は、供給された入力画像と、その入力画像とは撮像時刻の異なる他の入力画像とを用いて、入力画像の各画素の動きベクトルを求め、さらに例えば、それらの各画素の動きベクトルの平均値をグローバルモーションベクタとし、差分算出部２１３に供給する。このグローバルモーションベクタは、入力画像全体の動きの方向を示している。

差分算出部２１３は、ローカルモーションベクタ抽出部２１１からのローカルモーションベクタと、グローバルモーションベクタ抽出部２１２からのグローバルモーションベクタとの差分の絶対値を求めて動きの差分画像を生成し、動き情報マップ生成部２１４に供給する。ここで、動きの差分画像における任意の画素の画素値は、その画素と同じ位置にある入力画像の画素のローカルモーションベクタと、入力画像全体のグローバルモーションベクタとの差分の絶対値を示している。したがって、動きの差分画像の画素の画素値は、入力画像の画素に表示される物体（または背景）の入力画像全体に対する、つまり背景に対する相対的な動き量を示している。

動き情報マップ生成部２１４は、差分算出部２１３からの動きの差分画像に基づいて動き情報マップを生成し、被写体マップ生成部４６に供給する。なお、より詳細には、動き情報マップの生成は、入力画像として、時間的に連続して撮像されたものが供給された場合、例えば、入力画像が連写されたものや、動画像である場合に行われる。

次に、図７および図８を参照して、図１の人物抽出部２２およびスリム化部２３のより詳細な構成について説明する。

図７は、図１の人物抽出部２２の構成例を示すブロック図である。

人物抽出部２２は、２値化部２４１、合成部２４２、および人物マップ生成部２４３から構成される。

２値化部２４１は、顔情報抽出部４４から供給された顔情報マップ、および、被写体マップ生成部４６から供給された被写体マップのそれぞれに含まれる情報を、所定の閾値に基づいて０または１のいずれかの値に２値化し、合成部２４２に供給する。

合成部２４２は、２値化部２４１から供給された、２値化された顔情報マップと被写体マップとを合成し、その結果得られる合成マップを、人物マップ生成部２４３に供給する。

人物マップ生成部２４３は、合成部２４２から供給された合成マップに基づいて、入力画像における被写体としての人物の領域を特定するための情報である人物マップを生成し、スリム化部２３に供給する。

図８は、図１のスリム化部２３の構成例を示すブロック図である。

スリム化部２３は、人物領域検出部２８１および圧縮／拡張処理部２８２から構成される。

人物領域検出部２８１は、人物抽出部２２から供給された人物マップに基づいて、入力画像上の被写体としての人物を含む領域である人物領域を検出するとともに、人物領域以外の領域を背景領域として検出する。人物領域検出部２８１は、検出した人物領域および背景領域を表す情報を、圧縮／拡張処理部２８２に供給する。

圧縮／拡張処理部２８２は、人物領域検出部２８１から供給された、人物領域および背景領域を表す情報に基づいて、入力画像における人物領域の面積を所定の方向に圧縮するとともに、入力画像における背景領域の面積を所定の方向に拡張し、出力画像として出力する。

［画像処理装置の動作］
ところで、画像処理装置１１に入力画像が供給されると、画像処理装置１１は、入力画像における被写体としての人物を抽出し、その人物の画像に対する画像処理を開始する。以下、図９のフローチャートを参照して、画像処理装置１１の画像処理について説明する。

ステップＳ１１において、輝度情報抽出部４１は、輝度情報抽出処理を行って、供給された入力画像に基づいて輝度情報マップを生成し、被写体マップ生成部４６に供給する。そして、ステップＳ１２において、色情報抽出部４２は、色情報抽出処理を行って、供給された入力画像に基づいて色情報マップを生成し、被写体マップ生成部４６に供給する。

ステップＳ１３において、エッジ情報抽出部４３は、エッジ情報抽出処理を行って、供給された入力画像に基づいてエッジ情報マップを生成し、被写体マップ生成部４６に供給する。また、ステップＳ１４において、顔情報抽出部４４は、顔情報抽出処理を行って、供給された入力画像に基づいて顔情報マップを生成し、人物抽出部２２および被写体マップ生成部４６に供給する。さらに、ステップＳ１５において、動き情報抽出部４５は、動き情報抽出処理を行って、供給された入力画像に基づいて動き情報マップを生成し、被写体マップ生成部４６に供給する。

なお、これらの輝度情報抽出処理、色情報抽出処理、エッジ情報抽出処理、顔情報抽出処理、および動き情報抽出処理の詳細は後述する。また、より詳細には、動き情報抽出処理は、時間的に連続して撮像された入力画像が、被写体抽出部２１に供給されなかった場合には行われない。

ステップＳ１６において、被写体マップ生成部４６は、輝度情報抽出部４１乃至動き情報抽出部４５から供給された輝度情報マップ乃至動き情報マップを用いて、被写体マップを生成し、人物抽出部２２に供給する。

例えば、被写体マップ生成部４６は、情報マップごとに予め求められている重みである、情報重みＷｂを用いて各情報マップを線形結合し、さらに、その結果得られたマップの画素値に、予め求められた重みである、被写体重みＷｃを乗算して正規化し、被写体マップとする。

つまり、これから求めようとする被写体マップ上の注目する位置（画素）を注目位置とすると、各情報マップの注目位置と同じ位置（画素）の画素値に、情報マップごとの情報重みＷｂが乗算され、情報重みＷｂの乗算された画素値の総和が、注目位置の画素値とされる。さらに、このようにして求められた被写体マップの各位置の画素値に、被写体マップに対して予め求められた被写体重みＷｃが乗算されて正規化され、最終的な被写体マップとされる。

なお、より詳細には、色情報マップとして、ＲＧの差分の色情報マップと、ＢＹの差分の色情報マップとが用いられ、エッジ情報マップとして、０度、４５度、９０度、１３５度のそれぞれの方向のエッジ情報マップが用いられて、被写体マップが生成される。また、被写体重みＷｃは予め学習により求められており、正規化は、被写体マップの各画素の画素値が、０から１までの間の値となるようになされる。

ステップＳ１７において、人物抽出部２２は、人物抽出処理を行って、顔情報抽出部４４から供給された顔情報マップと、被写体マップ生成部４６から供給された被写体マップとに基づいて、人物マップを生成し、スリム化部２３に供給する。

ステップＳ１８において、スリム化部２３は、スリム化処理を行って、人物抽出部２２から供給された人物マップに基づいて、入力画像における被写体としての人物に対して、その人物の横幅を圧縮するように所定の画像処理を施し、表示装置や記録媒体等に出力する。

なお、これらの人物抽出処理およびスリム化処理の詳細は後述する。

以上のようにして、画像処理装置１１は、入力画像から被写体マップを生成し、被写体としての人物を抽出して、その入力画像における人物の容姿をスリムにすることができる。

次に、図１０乃至図１４のフローチャートを参照して、図９のステップＳ１１乃至ステップＳ１５の処理のそれぞれに対応する処理について説明する。

［輝度情報抽出処理］
まず、図１０のフローチャートを参照して、図９のステップＳ１１の処理に対応する輝度情報抽出処理について説明する。

ステップＳ５１において、輝度画像生成部８１は、供給された入力画像を用いて輝度画像を生成し、ピラミッド画像生成部８２に供給する。例えば、輝度画像生成部８１は、入力画像の画素のＲ、Ｇ、およびＢの各成分の値に、成分ごとに予め定められた係数を乗算し、係数の乗算された各成分の値の和を、入力画像の画素と同じ位置にある輝度画像の画素の画素値とする。つまり、輝度成分（Ｙ）および色差成分（Ｃｂ，Ｃｒ）からなるコンポーネント信号の輝度成分が求められる。なお、画素のＲ、Ｇ、およびＢの各成分の値の平均値が、輝度画像の画素の画素値とされてもよい。

ステップＳ５２において、ピラミッド画像生成部８２は、輝度画像生成部８１から供給された輝度画像に基づいて、レベルＬ１乃至レベルＬ８の各階層のピラミッド画像を生成し、差分算出部８３に供給する。

ステップＳ５３において、差分算出部８３は、ピラミッド画像生成部８２から供給されたピラミッド画像を用いて差分画像を生成して正規化し、輝度情報マップ生成部８４に供給する。正規化は、差分画像の画素の画素値が、例えば０乃至２５５の間の値となるように行われる。

具体的には、差分算出部８３は、各階層の輝度のピラミッド画像のうち、レベルＬ６およびレベルＬ３、レベルＬ７およびレベルＬ３、レベルＬ７およびレベルＬ４、レベルＬ８およびレベルＬ４、並びにレベルＬ８およびレベルＬ５の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計５つの輝度の差分画像が得られる。

例えば、レベルＬ６およびレベルＬ３の組み合わせの差分画像が生成される場合、レベルＬ６のピラミッド画像が、レベルＬ３のピラミッド画像の大きさに合わせてアップコンバートされる。つまり、アップコンバート前のレベルＬ６のピラミッド画像の１つの画素の画素値が、その画素に対応する、アップコンバート後のレベルＬ６のピラミッド画像の互いに隣接するいくつかの画素の画素値とされる。そして、レベルＬ６のピラミッド画像の画素の画素値と、その画素と同じ位置にあるレベルＬ３のピラミッド画像の画素の画素値との差分が求められ、その差分が差分画像の画素の画素値とされる。

これらの差分画像を生成する処理は、輝度画像にバンドパスフィルタを用いたフィルタ処理を施して、輝度画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像の輝度値の差、つまり入力画像における所定の画素における輝度と、その画素の周囲の平均的な輝度との差分を示している。

一般的に、画像において周囲との輝度の差分の大きい領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。

ステップＳ５４において、輝度情報マップ生成部８４は、差分算出部８３から供給された差分画像に基づいて輝度情報マップを生成し、被写体マップ生成部４６に供給する。輝度情報マップが輝度情報マップ生成部８４から被写体マップ生成部４６に供給されると、輝度情報抽出処理は終了し、処理は図９のステップＳ１２に進む。

例えば、輝度情報マップ生成部８４は、供給された５つの差分画像を、予め求められた差分画像ごとの重みである差分重みＷａにより重み付き加算し、１つの画像を求める。すなわち、各差分画像の同じ位置にある画素の画素値のそれぞれに差分重みＷａが乗算されて、差分重みＷａが乗算された画素値の総和が求められる。

なお、輝度情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。

このようにして、輝度情報抽出部４１は、入力画像から輝度画像を求め、その輝度画像から輝度情報マップを生成する。このようにして得られた輝度情報マップによれば、入力画像において、輝度の差の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。

［色情報抽出処理］
次に、図１１のフローチャートを参照して、図９のステップＳ１２の処理に対応する色情報抽出処理について説明する。

ステップＳ８１において、ＲＧ差分画像生成部１１１は、供給された入力画像を用いて、ＲＧ差分画像を生成し、ピラミッド画像生成部１１３に供給する。

ステップＳ８２において、ＢＹ差分画像生成部１１２は、供給された入力画像を用いてＢＹ差分画像を生成し、ピラミッド画像生成部１１４に供給する。

ステップＳ８３において、ピラミッド画像生成部１１３およびピラミッド画像生成部１１４は、ＲＧ差分画像生成部１１１からのＲＧ差分画像、およびＢＹ差分画像生成部１１２からのＢＹ差分画像を用いて、ピラミッド画像を生成する。

例えば、ピラミッド画像生成部１１３は、解像度の異なる複数のＲＧ差分画像を生成することにより、レベルＬ１乃至レベルＬ８の各階層のピラミッド画像を生成し、差分算出部１１５に供給する。同様に、ピラミッド画像生成部１１４は、解像度の異なる複数のＢＹ差分画像を生成することにより、レベルＬ１乃至レベルＬ８の各階層のピラミッド画像を生成し、差分算出部１１６に供給する。

ステップＳ８４において、差分算出部１１５および差分算出部１１６は、ピラミッド画像生成部１１３およびピラミッド画像生成部１１４から供給されたピラミッド画像に基づいて差分画像を生成して正規化し、色情報マップ生成部１１７および色情報マップ生成部１１８に供給する。差分画像の正規化では、例えば、画素の画素値が０乃至２５５の間の値となるようにされる。

例えば、差分算出部１１５は、各階層のＲＧの差分のピラミッド画像のうち、レベルＬ６およびレベルＬ３、レベルＬ７およびレベルＬ３、レベルＬ７およびレベルＬ４、レベルＬ８およびレベルＬ４、並びにレベルＬ８およびレベルＬ５の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計５つのＲＧの差分の差分画像が得られる。

同様に、差分算出部１１６は、各階層のＢＹの差分のピラミッド画像のうち、レベルＬ６およびレベルＬ３、レベルＬ７およびレベルＬ３、レベルＬ７およびレベルＬ４、レベルＬ８およびレベルＬ４、並びにレベルＬ８およびレベルＬ５の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計５つのＢＹの差分の差分画像が得られる。

これらの差分画像を生成する処理は、ＲＧ差分画像またはＢＹ差分画像にバンドパスフィルタを用いたフィルタ処理を施して、ＲＧ差分画像またはＢＹ差分画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像の特定の色成分の差、つまり入力画像の画素における特定の色の成分と、その画素の周囲の平均的な特定の色の成分との差分を示している。

一般的に、画像において周囲と比べて目立つ色の領域、つまり特定の色成分の周囲との差分の大きい領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。

ステップＳ８５において、色情報マップ生成部１１７および色情報マップ生成部１１８は、差分算出部１１５からの差分画像、および差分算出部１１６からの差分画像を用いて色情報マップを生成し、被写体マップ生成部４６に供給する。

例えば、色情報マップ生成部１１７は、差分算出部１１５から供給されたＲＧの差分の差分画像を、予め求められた差画像ごとの差分重みＷａにより重み付き加算して、１つのＲＧの差分の色情報マップとする。

同様に、色情報マップ生成部１１８は、差分算出部１１６から供給されたＢＹの差分の差分画像を、予め求められた差分重みＷａにより重み付き加算して、１つのＢＹの差分の色情報マップとする。なお、色情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。

色情報マップ生成部１１７および色情報マップ生成部１１８が、このようにして得られたＲＧの差分の色情報マップ、およびＢＹの差分の色情報マップを被写体マップ生成部４６に供給すると、色情報抽出処理は終了し、処理は図９のステップＳ１３に進む。

このようにして、色情報抽出部４２は、入力画像から特定の色の成分の差分の画像を求め、その画像から色情報マップを生成する。このようにして得られた色情報マップによれば、入力画像において、特定の色成分の差の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。

なお、色情報抽出部４２では、入力画像から抽出される色の情報として、Ｒ（赤）の成分と、Ｇ（緑）の成分の差分、およびＢ（青）の成分と、Ｙ（黄）の成分との差分が抽出されると説明したが、色差成分Ｃｒと色差成分Ｃｂなどが抽出されるようにしてもよい。ここで、色差成分Ｃｒは、Ｒ成分と輝度成分との差分であり、色差成分Ｃｂは、Ｂ成分と輝度成分との差分である。

［エッジ情報抽出処理］
図１２は、図９のステップＳ１３の処理に対応するエッジ情報抽出処理を説明するフローチャートである。以下、このエッジ情報抽出処理について説明する。

ステップＳ１１１において、エッジ画像生成部１４１乃至エッジ画像生成部１４４は、供給された入力画像に対して、ガボアフィルタを用いたフィルタ処理を施し、０度、４５度、９０度、および１３５度の方向のエッジ強度を画素の画素値とするエッジ画像を生成する。そして、エッジ画像生成部１４１乃至エッジ画像生成部１４４は、生成されたエッジ画像をピラミッド画像生成部１４５乃至ピラミッド画像生成部１４８に供給する。

ステップＳ１１２において、ピラミッド画像生成部１４５乃至ピラミッド画像生成部１４８は、エッジ画像生成部１４１乃至エッジ画像生成部１４４からのエッジ画像を用いて、ピラミッド画像を生成し、差分算出部１４９乃至差分算出部１５２に供給する。

例えば、ピラミッド画像生成部１４５は、解像度の異なる複数の０度方向のエッジ画像を生成することにより、レベルＬ１乃至レベルＬ８の各階層のピラミッド画像を生成し、差分算出部１４９に供給する。同様に、ピラミッド画像生成部１４６乃至ピラミッド画像生成部１４８は、レベルＬ１乃至レベルＬ８の各階層のピラミッド画像を生成して差分算出部１５０乃至差分算出部１５２に供給する。

ステップＳ１１３において、差分算出部１４９乃至差分算出部１５２は、ピラミッド画像生成部１４５乃至ピラミッド画像生成部１４８からのピラミッド画像を用いて差分画像を生成して正規化し、エッジ情報マップ生成部１５３乃至エッジ情報マップ生成部１５６に供給する。差分画像の正規化では、例えば、画素の画素値が０乃至２５５の間の値となるようにされる。

例えば、差分算出部１４９は、ピラミッド画像生成部１４５から供給された、各階層の０度方向のエッジのピラミッド画像のうち、レベルＬ６およびレベルＬ３、レベルＬ７およびレベルＬ３、レベルＬ７およびレベルＬ４、レベルＬ８およびレベルＬ４、並びにレベルＬ８およびレベルＬ５の組み合わせのピラミッド画像の差分を求める。これにより、合計５つのエッジの差分画像が得られる。

同様に、差分算出部１５０乃至差分算出部１５２は、各階層のピラミッド画像のうち、レベルＬ６およびレベルＬ３、レベルＬ７およびレベルＬ３、レベルＬ７およびレベルＬ４、レベルＬ８およびレベルＬ４、並びにレベルＬ８およびレベルＬ５の各階層の組み合わせのピラミッド画像の差分を求める。これにより、各方向のエッジについて、それぞれ合計５つの差分画像が得られる。

これらの差分画像を生成する処理は、エッジ画像にバンドパスフィルタを用いたフィルタ処理を施して、エッジ画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像のエッジ強度の差、つまり入力画像の所定の位置のエッジ強度と、その位置の周囲の平均的なエッジ強度との差を示している。

一般的に、画像において周囲と比べてエッジ強度の強い領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。

ステップＳ１１４において、エッジ情報マップ生成部１５３乃至エッジ情報マップ生成部１５６は、差分算出部１４９乃至差分算出部１５２からの差分画像を用いて各方向のエッジ情報マップを生成し、被写体マップ生成部４６に供給する。

例えば、エッジ情報マップ生成部１５３は、差分算出部１４９から供給された差分画像を、予め求められた差分重みＷａにより重み付き加算して０度方向のエッジ情報マップとする。

同様に、エッジ情報マップ生成部１５４は差分算出部１５０からの差分画像を差分重みＷａにより重み付き加算し、エッジ情報マップ生成部１５５は差分算出部１５１からの差分画像を差分重みＷａにより重み付き加算し、エッジ情報マップ生成部１５６は差分算出部１５２からの差分画像を差分重みＷａにより重み付き加算する。これにより、４５度、９０度、および１３５度の各方向のエッジ情報マップが得られる。なお、エッジ情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。

エッジ情報マップ生成部１５３乃至エッジ情報マップ生成部１５６が、このようにして得られた各方向の合計４つのエッジ情報マップを被写体マップ生成部４６に供給すると、エッジ情報抽出処理は終了し、処理は図９のステップＳ１４に進む。

このようにして、エッジ情報抽出部４３は、入力画像から特定の方向のエッジの差分画像を求め、その差分画像からエッジ情報マップを生成する。このようにして得られた方向ごとのエッジ情報マップによれば、入力画像において、周囲の領域と比べて、特定の方向へのエッジ強度の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。

なお、エッジ情報抽出処理では、エッジの抽出にガボアフィルタが用いられると説明したが、その他、Sobelフィルタや、Robertsフィルタなどのエッジ抽出フィルタが用いられるようにしてもよい。

また、図１０乃至図１２を参照して説明した、画像から輝度、色、エッジなどの情報を抽出する方法は、例えば「Laurent Itti, Christof Koch, and Ernst Niebur, "A Model of Saliency-Based Visual Attention for Rapid Scene Analysis"」に詳細に記載されている。

［顔情報抽出処理］
次に、図１３のフローチャートを参照して、図９のステップＳ１４の処理に対応する顔情報抽出処理について説明する。

ステップＳ１４１において、顔検出部１８１は、供給された入力画像から、人の顔の領域を検出し、その検出結果を顔情報マップ生成部１８２に供給する。例えば、顔検出部１８１は、入力画像に対してガボアフィルタを用いたフィルタ処理を施し、入力画像から人の目、口、鼻などの特徴的な領域を抽出することにより、入力画像における顔の領域を検出する。

ステップＳ１４２において、顔情報マップ生成部１８２は、顔検出部１８１からの検出結果を用いて顔情報マップを生成し、人物抽出部２２および被写体マップ生成部４６に供給する。

例えば、入力画像からの顔の検出結果として、顔が含まれると推定される入力画像上の矩形の領域（以下、候補領域と称する）が複数検出されたとする。ここで、入力画像上の所定の位置近傍に複数の候補領域が検出され、それらの候補領域の一部が互いに重なることもあることとする。すなわち、例えば、入力画像上の１つの顔の領域に対して、その顔を含む複数の領域が候補領域として得られた場合には、それらの候補領域の一部が互いに重なることになる。

顔情報マップ生成部１８２は、顔の検出により得られた候補領域に対して、候補領域ごとに、入力画像と同じ大きさの検出画像を生成する。この検出画像は、検出画像上における処理対象の候補領域と同じ領域内の画素の画素値が、候補領域とは異なる領域内の画素の画素値よりも大きい値とされる。

また、検出画像上の画素の画素値は、より人の顔が含まれる可能性が高いと推定された候補領域の画素と同じ位置の画素ほど、画素値が大きくなる。顔情報マップ生成部１８２は、このようにして得られた検出画像を足し合わせて、１つの画像を生成して正規化し、顔情報マップとする。したがって、顔情報マップ上において、入力画像上の複数の候補領域の一部が重なる領域と同じの領域の画素の画素値は大きくなり、より顔が含まれる可能性が高いことになる。なお、正規化は、顔情報マップの画素の画素値が、例えば０乃至２５５の間の値となるようにされる。

顔情報マップが生成されると、顔情報抽出処理は終了し、処理は図９のステップＳ１５に進む。

このようにして、顔情報抽出部４４は、入力画像から顔を検出し、その検出結果から顔情報マップを生成する。このようにして得られた顔情報マップによれば、入力画像において、被写体としての人物の顔の領域を簡単に検出することができる。

［動き情報抽出処理］
さらに、図１４のフローチャートを参照して、図９のステップＳ１５の処理に対応する動き情報抽出処理について説明する。

ステップＳ１７１において、ローカルモーションベクタ抽出部２１１は、供給された入力画像を用いて、勾配法などにより入力画像の各画素のローカルモーションベクタを検出し、差分算出部２１３に供給する。

ステップＳ１７２において、グローバルモーションベクタ抽出部２１２は、供給された入力画像を用いてグローバルモーションベクタを検出し、差分算出部２１３に供給する。

ステップＳ１７３において、差分算出部２１３は、ローカルモーションベクタ抽出部２１１からのローカルモーションベクタと、グローバルモーションベクタ抽出部２１２からのグローバルモーションベクタとの差分の絶対値を求めて動きの差分画像を生成する。そして、差分算出部２１３は、生成した動きの差分画像を動き情報マップ生成部２１４に供給する。

ステップＳ１７４において、動き情報マップ生成部２１４は、差分算出部２１３から供給された差分画像を正規化して動き情報マップとし、被写体マップ生成部４６に供給する。ここで、差分画像の正規化は、各画素の画素値が、例えば０乃至２５５の間の値となるようにされる。動き情報マップが生成されると、動き情報抽出処理は終了し、処理は図９のステップＳ１６に進む。

このようにして、動き情報抽出部４５は、入力画像から動きを検出し、その検出結果から動き情報マップを生成する。このようにして得られた動き情報マップによれば、入力画像において、動きのある物体の領域を簡単に検出することができる。入力画像において、動きのある物体の領域は、入力画像を一瞥した観察者の目に付きやすい領域であり、被写体である可能性が高い。

以上において説明した輝度情報抽出処理乃至動き情報抽出処理により、各情報マップが得られ、これらの情報マップから被写体マップが生成される。

［重みの学習の概要］
ところで、上述したように、被写体マップは、入力画像から、輝度、色、エッジ、顔、動きなどの情報が抽出されて生成される。すなわち、それらの抽出された情報のピラミッド画像から得られた差分画像が、予め求められた差分画像ごとの重みである差分重みＷａにより重み付き加算されて情報マップとされ、それらの情報マップが、情報重みＷｂにより重み付き加算される。そして、さらに、その結果得られた画像（マップ）に被写体重みＷｃが乗算されて被写体マップとされる。

被写体マップの生成時に用いられるこれらの差分重みＷａ、情報重みＷｂ、および被写体重みＷｃは、例えばニューラルネットワークによる学習により求められる。これらの重みの学習時に用いられる学習画像として、人物に限らず、一般的な被写体が含まれる画像を用いれば、学習により得られた重みを用いて生成される被写体マップにより、入力画像から、一般的な被写体をより確実に検出することができるようになる。

ここで、図１５および図１６を参照して、ニューラルネットワークによる学習の概要について説明する。

学習時には、図１５に示すように、初期値が与えられた差分重みＷａ、情報重みＷｂ、および被写体重みＷｃと、被写体が含まれた学習画像とが用いられて、被写体マップが生成される。

具体的には、学習画像から、被写体マップ生成時に抽出される情報ごとの差分画像Ａｎ（ｍ）（但し、１≦ｎ≦Ｎ，１≦ｍ≦６）が生成される。ここで、差分画像Ａｎ（１）乃至差分画像Ａｎ（６）は、学習画像から抽出された、１つの情報についての差分画像である。

例えば、差分画像Ａ１（１）乃至差分画像Ａ１（６）は、学習画像から得られた輝度のピラミッド画像が用いられて生成された、輝度の差分画像とされる。また、例えば、差分画像ＡＮ（１）乃至差分画像ＡＮ（６）は、学習画像から得られた０度方向のエッジのピラミッド画像が用いられて生成された、０度方向の差分画像とされる。

なお、図１５では、学習画像から抽出される情報ごとに、６つの差分画像が得られる例について示されているが、差分画像の数はいくつであってもよい。

学習画像から情報ごとの差分画像Ａｎ（ｍ）が得られると、それらの差分画像と、差分画像ごとの差分重みＷａとから情報マップが生成される。なお、以下、差分画像Ａｎ（ｍ）に乗算される差分重みＷａを、差分重みＷａｎ（ｍ）とも称する。

例えば、差分画像Ａ１（１）乃至差分画像Ａ１（６）のそれぞれが、差分画像ごとの差分重みＷａ１（１）乃至差分重みＷａ１（６）により重み付き加算されて、情報マップＢ１_inとされる。さらに、この情報マップＢ１_inに対して、予め定められた関数ｆ（ｘ）による演算が行われ、その結果として情報マップＢ１_outが得られる。

例えば、関数ｆ（ｘ）は、次式（１）に示される双曲線余弦関数（ハイパボリックタンジェント関数）とされる。

ｆ（ｘ）＝ａ×ｔａｎｈ（ｘ×ｂ）・・・（１）

なお、式（１）において、ａおよびｂは、予め定められた定数を示しており、ｘは、画像上の画素の画素値を示している。したがって情報マップＢ１_outを求める場合には、ｘは情報マップＢ１_inの画素の画素値とされる。

すなわち、情報マップＢ１_inの画素の画素値ｘが、式（１）に代入されて得られた値ｆ（ｘ）が、その画素と同じ位置にある情報マップＢ１_outの画素の画素値とされる。このようにして得られた情報マップＢ１_outは、画像処理装置１１において生成される情報マップ、例えば輝度情報マップに相当する。

なお、関数ｆ（ｘ）は、双曲線余弦関数に限らず、どのような関数であってもよい。例えば、関数ｆ（ｘ）は、理想的なモデルでは、ｘ≧０である場合に値「１」を出力し、ｘ＜０である場合に値「−１」を出力するSigmoid関数とされる。

以上のようにして、Ｎ個の情報マップＢ１_out乃至情報マップＢＮ_outが得られると、それらの情報マップＢｎ_out（但し、１≦ｎ≦Ｎ）が、情報マップごとの情報重みＷｂにより重み付き加算されて、被写体マップＣ_inとされる。そして、この被写体マップＣ_inに対して、予め定められた関数ｆ（ｘ）による演算が行われ、その結果として被写体マップＣ_outが得られる。さらに、この被写体マップＣ_outに被写体重みＷｃが乗算されて正規化され、最終的な被写体マップとされる。

なお、より詳細には、被写体マップＣ_inの生成時には、差分画像を生成することなく得られる情報マップ、例えば、顔情報マップなどの情報マップも用いられて重み付き加算が行われる。また、以下では、情報マップＢｎ_outに乗算される情報重みＷｂを、情報重みＷｂｎとも称する。

このようにして、学習時に被写体マップを生成する処理は、Forward Propagationと呼ばれる。被写体マップが生成されると、続いて図１６に示すように、Back Propagationと呼ばれる処理が行われて、差分重みＷａ、情報重みＷｂ、および被写体重みＷｃが更新される。Back Propagationと呼ばれる処理では、生成された被写体マップと、学習画像に対して予め用意された、学習画像上における被写体の領域を示す情報である画像ラベルとが用いられて、各重みを増減させるべき値である重みの差分が求められる。

ここで、画像ラベルは、学習画像と同じ大きさの画像であり、学習画像上の被写体の領域の画素と同じ位置にある画素の画素値が１とされ、学習画像上の被写体のない領域の画素と同じ位置にある画素の画素値が０とされる画像である。

Back Propagationでは、まず、被写体マップと画像ラベルとの差分が求められ、その結果得られた画像が評価マップとされる。そして、評価マップと、被写体マップＣ_inとから、次式（２）により、被写体重みＷｃを変化させるべき量である被写体重み差分△Ｗｃが求められる。

△Ｗｃ＝η×Ｃ_in×△Ｃ・・・（２）

式（２）において、ηは、予め定められた定数である学習速度を示しており、Ｃ_inは、被写体マップＣ_inを示している。なお、より詳細には、式（２）におけるＣ_inは、被写体マップＣ_inの１つの画素の画素値とされ、被写体重み差分△Ｗｃは画素ごとに求められる。また、△Ｃは、被写体マップの差分であり、次式（３）により求められる。

△Ｃ＝ＥＶ×ｆ'（Ｃ_in）・・・（３）

式（３）において、ＥＶは評価マップを示しており、ｆ'（Ｃ_in）は、関数ｆ（ｘ）を微分して得られる関数に、被写体マップＣ_inを代入して得られる値である。関数ｆ（ｘ）を微分して得られる関数ｆ'（ｘ）は、具体的には「ａ×ｂ×ｓｅｃｈ（ｘ×ｂ）²」である。

このようにして被写体重み差分△Ｗｃが得られると、被写体重み差分△Ｗｃが、これまでの被写体重みＷｃに加算されて更新され、新たな被写体重みＷｃが求められる。

続いて、更新された被写体重みＷｃと、被写体マップ生成時に生成された情報マップＢｎ_inとが用いられて次式（４）により、情報重みＷｂｎを変化させるべき量である情報重み差分△Ｗｂｎが求められる。

△Ｗｂｎ＝η×Ｂｎ_in×△Ｂｎ・・・（４）

式（４）において、ηは、予め定められた定数である学習速度を示しており、Ｂｎ_inは、情報マップＢｎ_inを示している。なお、より詳細には、式（４）におけるＢｎ_inは、情報マップＢｎ_inの１つの画素の画素値とされ、情報重み差分△Ｗｂｎは画素ごとに求められる。また、△Ｂｎは情報マップの差分であり、次式（５）により求められる。

△Ｂｎ＝△Ｃ×ｆ'（Ｂｎ_in）×Ｗｃ・・・（５）

式（５）において、△Ｃは上述した式（３）を計算して得られる値を示しており、ｆ'（Ｂｎ_in）は、関数ｆ（ｘ）を微分して得られる関数に、情報マップＢｎ_inを代入して得られる値である。また、Ｗｃは更新された被写体重みＷｃである。

このようにして、情報マップＢｎ_inに対する情報重み差分△Ｗｂｎが得られると、情報重み差分△Ｗｂｎが、情報マップＢｎ_inの情報重みＷｂｎに加算されて更新され、新たな情報重みＷｂｎが求められる。

さらに、更新された情報重みＷｂｎと、被写体マップ生成時に生成された差分画像Ａｎ（ｍ）とが用いられて次式（６）により、差分重みＷａを変化させるべき量である差分重みの差分△Ｗａｎ（ｍ）が求められる。

△Ｗａｎ（ｍ）＝η×Ａｎ（ｍ）×△Ａｎ（ｍ）・・・（６）

式（６）において、ηは、予め定められた定数である学習速度を示しており、Ａｎ（ｍ）は差分画像Ａｎ（ｍ）を示している。なお、より詳細には、式（６）におけるＡｎ（ｍ）は、差分画像Ａｎ（ｍ）の１つの画素の画素値とされ、差分△Ｗａｎ（ｍ）は画素ごとに求められる。また、△Ａｎ（ｍ）は差分画像の差分であり、次式（７）により求められる。

△Ａｎ（ｍ）＝△Ｂｎ×ｆ'（Ａｎ（ｍ））×Ｗｂｎ・・・（７）

式（７）において、△Ｂｎは上述した式（５）を計算して得られる値を示しており、ｆ'（Ａｎ（ｍ））は、関数ｆ（ｘ）を微分して得られる関数に、差分画像Ａｎ（ｍ）を代入して得られる値である。また、Ｗｂｎは更新された情報重みＷｂｎである。

このようにして、差分画像Ａｎ（ｍ）に対する差分重みの差分△Ｗａｎ（ｍ）が得られると、差分重みの差分△Ｗａｎ（ｍ）が、差分画像Ａｎ（ｍ）の差分重みＷａｎ（ｍ）に加算されて更新され、新たな差分重みＷａｎ（ｍ）が求められる。

そして、以上のようにして更新された差分重みＷａ、情報重みＷｂ、および被写体重みＷｃと、学習画像とが用いられて上述した処理が繰り返され、最終的な差分重みＷａ、情報重みＷｂ、および被写体重みＷｃが得られる。

このようにして、ニューラルネットワークによる学習では、予め与えられた重みが用いられて生成された被写体マップと、画像ラベルとから評価マップが生成され、さらに評価マップから逆算により、各重みを変化させるべき変化量である重みの差分が求められる。

ここで、画像ラベルは、学習画像上の被写体の領域を示す情報であるので、いわば被写体マップの正解を示す情報ということができる。したがって、被写体マップと、画像ラベルとの差分である評価マップは、理想的な被写体マップと、与えられた重みを用いて生成された被写体マップとの誤差を示しており、評価マップを用いて逆算すれば、与えられた重みと、理想的な重みとの誤差が求まる。

そして、求められた誤差は、与えられた重みを変化させるべき変化量であり、この変化量を重みに加算すれば、現時点における理想的な重みが求まることになる。このようにして新たに求められた重みを用いて被写体マップを生成すれば、その被写体マップにより、画像からより確実に被写体を検出することができるようになる。ニューラルネットワークによる学習では、重みの変化量として、差分△Ｗａｎ（ｍ）、情報重み差分△Ｗｂｎ、および被写体重み差分△Ｗｃが求められ、各重みが更新される。

［人物抽出処理］
次に、図１７のフローチャートを参照して、図９のステップＳ１７の処理に対応する人物抽出処理について説明する。

ステップＳ２１１において、２値化部２４１は、被写体生成マップ４６から供給された被写体マップに含まれる情報を、所定の閾値に基づいて０または１のいずれかの値に２値化し、合成部２４２に供給する。より具体的には、２値化部２４１は、０から１までの間の値である被写体マップの各画素の画素値に対して、例えば、閾値０．５より小さい値の画素値を０とし、０．５より大きい値の画素値を１とする。ここで、閾値は０．５であるものとしたが、他の値であってもよい。

ステップＳ２１２において、２値化部２４１は、顔情報抽出部４４から供給された顔情報マップに含まれる情報を、所定の値に基づいて０または１のいずれかの値に２値化し、合成部２４２に供給する。より具体的には、２値化部２４１は、０から２５５までの間の値である顔情報マップの各画素の画素値に対して、例えば、閾値１２８より小さい値の画素値を０とし、１２８より大きい値の画素値を１とする。ここで、閾値は１２８であるものとしたが、他の値であってもよい。

ステップＳ２１３において、合成部２４２は、２値化部２４１から供給された、２値化された被写体マップと顔情報マップとを合成し、その結果得られる合成マップを、人物マップ生成部２４３に供給する。

ここで、図１８を参照して、合成部２４２による被写体マップと顔情報マップとの合成について説明する。

図１８の左側には、２値化された被写体マップ４０１および顔情報マップ４０２が示されており、図１８の右側には、被写体マップ４０１と顔情報マップ４０２とが合成された合成マップ４０３が示されている。なお、図１８において、被写体マップ４０１、顔情報マップ４０２、および合成マップ４０３に含まれる情報は、対応する入力画像における複数の画素が集まった領域ごとに示されるものとする。すなわち、例えば、図１８の被写体マップ４０１における１つの四角形は、対応する入力画像における複数の画素が集まった領域（以下、ブロックと称する）を表している。なお、図１８においては、被写体マップ４０１、顔情報マップ４０２、および合成マップ４０３は、６×６個のブロックから構成されており、各ブロックにおいて、０である情報はその表示が省略されている。

合成部２４２は、図１８に示されるように、被写体マップ４０１におけるブロックごとの値と、顔情報マップ４０２におけるブロックごとの値とを足し合わせて、合成マップ４０３を得る。被写体マップ４０１および顔情報マップ４０２は、０または１の値である情報からなるので、合成マップ４０３は、図１８に示されるように、０，１，２のいずれかの値である情報から構成される。合成マップ４０３において、１または２の値である情報で示されるブロックが隣接している領域（図中、網掛け部分）（以下、連結領域と称する）は、入力画像において被写体の存在する可能性が高い。特に、２の値である情報で示されるブロックを含む連結領域は、人の顔に関する情報を含むので、人物の存在する可能性が高い。

図１７のフローチャートに戻り、ステップＳ２１４において、人物マップ生成部２４３は、合成部２４２から供給された合成マップに基づいて、入力画像における被写体としての人物の領域を特定するための情報である人物マップを生成し、スリム化部２３に供給する。

より具体的には、例えば、人物マップ生成部２４３は、図１９に示されるように、合成マップ４０３において２の値である情報で示されるブロックを含む連結領域（図中、網掛け部分）を人物の領域とした、人物マップ４１１を生成する。図１９においては、１の値である情報で示されるブロックのみからなる連結領域は人物の領域とされない。また、２の値である情報で示されるブロックを含む連結領域であっても、所定の面積に満たない場合は、人物の領域とされないようにしてもよい。

このようにして、人物抽出部２２は、被写体マップと顔情報マップとに基づいて、入力画像において人物の領域を示す人物マップを生成する。人物マップが生成されると、人物抽出処理は終了し、処理は図９のステップＳ１８に進む。

以上の処理によれば、被写体マップと顔情報マップとに基づいて、入力画像において被写体として特定された領域のうちの、人物の顔として特定された領域を含む被写体の領域を、人物の領域として特定することができる。

以上においては、被写体マップと顔情報マップとに基づいて、入力画像における人物の領域を特定するようにしたが、例えば、「N. Dalal, B. Triggs, “Histograms of Oriented Gradients for Human Detection”」に記載された手法により、予め行った学習に基づいて、入力画像における人物を検出するようにしてもよい。

より具体的には、被写体が人物である画像と、被写体が人物以外のものである画像のそれぞれに対して、HoG（Histogram of Gradient）と呼ばれるエッジ検出処理を施し、検出されたエッジの集合を用いて、人物と人物以外のものを判別するための機械学習を行う。これにより、人物特有の輪郭を有する被写体を人物であると判別し、検出することが可能となる。

なお、入力画像における人物抽出処理は、上述した手法に限らず、さらに他の手法を用いるようにしてもよい。

［スリム化処理］
次に、図２０のフローチャートを参照して、図９のステップＳ１８の処理に対応するスリム化処理について説明する。

ステップＳ２４１において、人物領域検出部２８１は、人物抽出部２２から供給された人物マップに基づいて、入力画像における人物領域と背景領域とを検出し、検出した人物領域および背景領域を表す情報を、圧縮／拡張処理部２８２に供給する。より具体的には、例えば、図１９に示される人物マップ４１１が供給された場合、人物領域検出部２８１は、人物マップ４１１に基づいて、図２１に示されるような、人物を含む領域である人物領域４３１と、人物を含まない領域である背景領域４３２とを検出する。

人物マップにおいては、２の値である情報で示されるブロックを含む連結領域が人物であり、顔に相当する、２の値である情報で示されるブロックの位置から、入力画像において人物がどのような方向で撮影されているか（縦方向であるか横方向であるか）が判別される。

図１９の人物マップによれば、被写体である人物は、入力画像上、縦方向（上側が顔で下側が胴体）で撮影されており、人物領域検出部２８１は、図２１に示されるように、入力画像を縦に区分するように、人物領域４３１と背景領域４３２とを検出する。

なお、例えば、人物マップが、図２２の左側に示される人物マップ４５１であった場合、被写体である人物は、入力画像上、横方向（左側が顔で右側が胴体）で撮影されており、人物領域検出部２８１は、図２２の右側に示されるように、入力画像を横に区分するように、人物領域４７１と背景領域４７２とを検出する。

図２０のフローチャートに戻り、ステップＳ２４２において、圧縮／拡張処理部２８２は、人物領域検出部２８１からの、人物領域および背景領域を表す情報に基づいて、入力画像における人物領域の面積を所定の方向に圧縮するとともに、入力画像における背景領域の面積を所定の方向に拡張し、出力画像として出力する。

ここで、図２３の左側に示されるような、入力画像に対して人物領域５３１および背景領域５３２が検出された場合について説明する。まず、圧縮／拡張処理部２８２は、入力画像において、被写体としての人物５４１の体軸５４２を設定する。ここで、体軸とは、被写体としての人物の顔（頭）乃至胴体（背骨）を貫く仮想的な線を示しており、いわば、人物の姿勢を表すものである。そして、圧縮／拡張処理部２８２は、図２３の右側に示されるように、入力画像における人物領域５３１の面積を体軸５４２の法線方向（図中、左右方向）に圧縮するとともに、入力画像における背景領域５３２の面積を体軸５４２の法線方向に拡張する。より具体的には、圧縮／拡張処理部２８２は、図２３の左側に示される入力画像における人物領域５３１の各ブロックにおける画素を、体軸５４２の法線方向の所定の間隔で間引くとともに、背景領域５３２の各ブロックにおける画素を、体軸５４２の法線方向の所定の間隔でコピーして付加する。ここで、人物領域５３１で間引かれる画素数と、背景領域５３２でコピーされて付加される画素数は同一となるようになされる。

以上の処理によれば、入力画像において、被写体としての人物を含む人物領域の面積を、その人物の体軸に対する法線方向に圧縮するとともに、人物を含まない背景領域の面積を、人物の体軸に対する法線方向に拡張することができるので、画像における人物の容姿をスリムにすることが可能となる。

以上においては、入力画像における人物の体軸に対する法線方向に、画素を間引いたり、コピーして付加したが、例えば、入力画像上、変化の大きい領域（例えばエッジ強度の大きい領域）に対して上述の処理を行った場合、人物の輪郭が欠落したり、背景において細かく変化する部分が間延びした出力画像が得られてしまう恐れがある。そこで、入力画像上、変化の少ない領域に対して、画素を間引いたり、コピーして付加することで、上述した影響の少ない出力画像を得るようにもできる。

［画像処理装置の他の構成例］
図２４は、画素を間引いたりコピーして付加することによる出力画像への影響をより少なくするようにした画像処理装置１１の構成例を示すブロック図である。

なお、図２４の画像処理装置１１においては、図１の画像処理装置１１に設けられたものと同様の機能を備える構成については、同一名称および符号を付するものとし、その説明は、適宜省略するものとする。

すなわち、図２４の画像処理装置１１において、図１の画像処理装置１１と異なるのは、図８のスリム化部２３が備える圧縮／拡張処理部２８２に代えて、圧縮／拡張処理部５８１を設けた点である。また、図２４の画像処理装置１１においては、被写体抽出部２１は、生成した被写体マップや抽出したエッジ情報を、人物抽出部２２に加え、スリム化部２３の圧縮／拡張処理部５８１に供給するようになされている。

圧縮／拡張処理部５８１は、人物領域検出部２８１から供給された、人物領域を表す情報に基づいて、入力画像の人物領域における例えばエッジ強度の小さい領域を間引くことによって、人物領域の面積を所定の方向に圧縮する。また、圧縮／拡張処理部５８１は、人物領域検出部２８１から供給された、背景領域を表す情報に基づいて、入力画像の背景領域におけるエッジ強度の小さい領域をコピーし付加することによって、背景領域の面積を所定方向に拡張する。圧縮／拡張処理部５８１は、人物領域の面積が圧縮され、背景領域の面積が拡張された出力画像を出力する。

圧縮／拡張処理部５８１は、エネルギーマップ生成部５９１およびパス検出部５９２を備えている。

エネルギーマップ生成部５９１は、被写体抽出部２１から供給された被写体マップから、入力画像上の人物領域および背景領域それぞれにおける、例えば被写体部分のエッジ部分を抽出し、そのエッジの大きさ（エッジ強度）を示すエネルギーマップを生成する。また、エネルギーマップ生成部５９１は、被写体らしさのエッジ部分をエネルギーマップとすることもできる。ここで、被写体らしさのエッジ部分とは、被写体マップの被写体らしさを示す値、つまり被写体マップ上の画素の画素値が、急峻に変化する領域をいう。この場合、エネルギーマップの各画素の画素値は、被写体マップにおける画素値（被写体らしさを示す値）の変化の度合いを示している。

パス検出部５９２は、エネルギーマップ生成部５９１によって生成された、人物領域および背景領域それぞれについてのエネルギーマップにおいて、入力画像における人物の体軸と同一の方向に、より低いエネルギーコストのパス、すなわち、よりエッジ強度の小さい画素の経路を検出する。

［画像処理装置の動作］
ここで、図２４の画像処理装置１１の動作について説明するが、図２４の画像処理装置１１によって実行される画像処理は、図９のフローチャートで説明した画像処理と、ステップＳ１８のスリム化処理を除いて同一であるので、スリム化処理以外の処理の説明は省略する。

次に、図２５のフローチャートを参照して、図２４の画像処理装置１１のスリム化部２３によるスリム化処理について説明する。なお、図２５のフローチャートにおけるステップＳ３４１の処理は、図２０のフローチャートで説明したステップＳ２４１の処理と同様であるので、その説明は省略する。

ステップＳ３４２において、エネルギーマップ生成部５９１は、被写体抽出部２１から供給された被写体マップを用いて、入力画像の人物領域についてのエネルギーマップを生成する。もしくは、エネルギーマップ生成部５９１は、被写体抽出部２１から供給されるエッジ情報を、エッジの大きさ（エッジ強度）を示すエネルギーマップとする。

より具体的には、被写体マップ上の互いに直交する方向をｘ方向およびｙ方向とすると、エネルギーマップ生成部５９１は、入力画像の人物領域に対応する被写体マップのｘ方向の画素値の変化を示すｘ方向勾配マップと、入力画像の人物領域に対応する被写体マップのｙ方向の画素値の変化を示すｙ方向勾配マップとを生成する。そして、エネルギーマップ生成部５９１は、生成したｘ方向勾配マップおよびｙ方向勾配マップの和をエネルギーマップとする。エネルギーマップの生成手法は、例えば、「S. Avidan, A. Shamir, “Seam Carving for Content-Aware Image Resizing”」に詳細に記載されている。

例えば、図２６の一番左側に示されるように、入力画像に対して人物領域５３１および背景領域５３２が検出された場合、エネルギーマップ生成部５９１は、被写体抽出部２１からの被写体マップにおいて、人物５４１を含む人物領域５３１の入力画像（図２６の左から２番目）に対応する被写体マップを抽出する。そして、エネルギーマップ生成部５９１は、抽出した被写体マップを用いて、上述した手法により、図２６の左から３番目に示されるようなエネルギーマップ５５１を生成する。図２６のエネルギーマップ５５１においては、人物５４１の輪郭に対応する画素の画素値が特に急峻に変化しており、エッジライン５６１として示されている。

図２５のフローチャートに戻り、ステップＳ３４３において、パス検出部５９２は、エネルギーマップ生成部５９１によって生成された、人物領域のエネルギーマップにおいて、人物の体軸と同一の方向に、よりエネルギーコストの低いパス（経路）を検出する。

ここで、図２７および図２８を参照して、パス検出部５９２によるパス検出について説明する。

図２７は、エネルギーマップの例を示している。図２７のエネルギーマップにおいて、１つの四角形が１つの画素を表しており、その中に記されている数字は画素値（エッジ強度）を表している。このようなエネルギーマップに対して、例えば、上段中央の画素（画素値が２）から、図中下方向にパスを検索することを考える。図２７のエネルギーマップにおいては、画素値が２である上段中央の画素に対して、図中下方向に隣接する画素は、中段左側の画素、中央の画素、および右側の画素の３画素である。

このような場合、パス検出部５９２は、図２８に示されるように、上段中央の画素の画素値と、隣接する画素の画素値との和を、エネルギーコストとして算出する。まず、図２８の左側に示されるように、上段中央の画素の画素値２と、隣接する中段左側の画素の画素値６との和は８となる。同様にして、上段中央の画素の画素値２と、隣接する中段中央の画素の画素値５との和は７となり、上段中央の画素の画素値２と、隣接する中段右側の画素の画素値４との和は６となる。この場合、パス検出部５９２は、エネルギーコストが最小となる上段中央の画素および中段右側の画素の経路をパスとする。

次に、パス検出部５９２は、上段中央の画素の画素値、中段右側の画素の画素値、および、中段右側の画素の画素値に隣接する画素の画素値との和を、エネルギーコストとして算出する。図２７のエネルギーマップにおいては、画素値が４である中段右側の画素に、図中下方向に隣接する画素は、下段中央の画素および右側の画素の２画素である。すなわち、図２８の右側に示されるように、上段中央の画素の画素値２、中段右側の画素の画素値４、および、下段中央の画素の画素値３との和は９となり、上段中央の画素の画素値２、中段右側の画素の画素値４、および、下段右側の画素の画素値１との和は７となる。この場合、パス検出部５９２は、エネルギーコストが最小となる上段中央の画素、中段右側の画素、および下段右側の画素の経路をパスとする。

このようにして、パス検出部５９２は、上述の処理を、他の上段の画素についても行い、図２６の一番右側に示されるように、エネルギーマップ５５１においてエネルギーコストが最小となるパス５７１を決定する。

図２５のフローチャートに戻り、ステップＳ３４４において、圧縮／拡張処理部５８１は、エネルギーマップにおいて、パス検出部５９２により検出された、エネルギーコストが最小となるパスに対応する入力画像の人物領域についての画素を削除する。

ステップＳ３４５において、エネルギーマップ生成部５９１は、被写体抽出部２１から供給された被写体マップを用いて、入力画像の背景領域についてのエネルギーマップを生成する。

例えば、図２９の一番左側に示されるように、入力画像に対して人物領域５３１および背景領域５３２が検出された場合、エネルギーマップ生成部５９１は、被写体抽出部２１からの被写体マップにおいて、背景領域５３２の入力画像（図２９の左から２番目）に対応する被写体マップを抽出する。そして、エネルギーマップ生成部５９１は、抽出した被写体マップを用いて、上述した手法により、図２９の左から３番目に示されるようなエネルギーマップ６５１を生成する。図２９のエネルギーマップ６５１においては、図示されない背景に対応する画素の画素値が特に急峻に変化しており、エッジライン６６１として示されている。

図２５のフローチャートに戻り、ステップＳ３４６において、パス検出部５９２は、エネルギーマップ生成部５９１によって生成された、背景領域のエネルギーマップにおいて、人物の体軸と同一の方向に、よりエネルギーコストの低いパスを検出する。これにより、パス検出部５９２は、図２９の一番右側に示されるように、エネルギーマップ６５１においてエネルギーコストが最小となるパス６７１を決定する。

ステップＳ３４７において、圧縮／拡張処理部５８１は、エネルギーマップにおいて、パス検出部５９２により検出された最小エネルギーコストとなるパスに対応する入力画像の背景領域についての画素をコピーして付加する。これにより、圧縮／拡張処理部５８１は、入力画像における人物領域の面積が圧縮され、入力画像における背景領域の面積が拡張された出力画像を出力する。

なお、上述した処理においては、エネルギーマップ５５１におけるパス５７１、および、エネルギーマップ６５１におけるパス６７１は、幅１画素分の画素の列であるが、例えば、エネルギーコストが最小となるパスに隣接する画素により形成されるパスや、エネルギーコストの低い上位Ｎ個のパス等、削除またはコピーされ付加されるパスの幅を、適宜広げるようにしてもよい。

以上の処理によれば、出力画像において影響の少ない、エネルギーコストの低い画素、すなわち、被写体らしさを示す値の低い画素を削除したり、コピーして付加することで、入力画像において、被写体としての人物を含む人物領域の面積を、その人物の体軸に対する法線方向に圧縮するとともに、人物を含まない背景領域の面積を、人物の体軸に対する法線方向に拡張することができるので、画像における人物の容姿をスリムにすることが可能となる。

また、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図３０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）９０１，ROM（Read Only Memory）９０２，RAM（Random Access Memory）９０３は、バス９０４により相互に接続されている。

バス９０４には、さらに、入出力インターフェース９０５が接続されている。入出力インターフェース９０５には、キーボード、マウス、マイクロホンなどよりなる入力部９０６、ディスプレイ、スピーカなどよりなる出力部９０７、ハードディスクや不揮発性のメモリなどよりなる記憶部９０８、ネットワークインターフェースなどよりなる通信部９０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア９１１を駆動するドライブ９１０が接続されている。

以上のように構成されるコンピュータでは、CPU９０１が、例えば、記憶部９０８に記録されているプログラムを、入出力インターフェース９０５およびバス９０４を介して、RAM９０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU９０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア９１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア９１１をドライブ９１０に装着することにより、入出力インターフェース９０５を介して、記憶部９０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部９０９で受信し、記憶部９０８にインストールすることができる。その他、プログラムは、ROM９０２や記憶部９０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１１画像処理装置，２１被写体抽出部，２２人物抽出部，２３スリム化部，４１輝度情報抽出部，４２色情報抽出部，４３エッジ情報抽出部，４４顔情報抽出部，４５動き情報抽出部，４６被写体マップ生成部，５１ぼけ判定部，５４スコア算出部，８４輝度情報マップ生成部，１１７色情報マップ生成部，１１８色情報マップ生成部，１５３乃至１５６エッジ情報マップ生成部，１８２顔情報マップ生成部，２１４動き情報マップ生成部，２４１２値化部，２４２合成部，２４３人物マップ生成部，２８１人物領域検出部，２８２圧縮／拡張処理部，５８１圧縮／拡張処理部，５９１エネルギーマップ生成部，５９２パス検出部

Claims

入力画像において、前記入力画像上の被写体としての人物を含む領域である人物領域を検出する人物領域検出手段と、
前記入力画像における前記人物領域の面積を、前記入力画像上の前記被写体としての前記人物の体軸に対する法線方向に圧縮するとともに、前記入力画像における前記人物領域以外の領域である背景領域の面積を、前記法線方向に拡張する圧縮拡張手段と
を備える画像処理装置。
前記圧縮拡張手段は、前記入力画像における前記人物領域の画素を、前記法線方向の所定の間隔で間引くとともに、前記背景領域の画素を前記法線方向の所定の間隔でコピーして付加することで、前記人物領域の面積を前記法線方向に圧縮するとともに、前記背景領域の面積を前記法線方向に拡張する
請求項１に記載の画像処理装置。
前記圧縮拡張手段は、
前記入力画像上の前記人物領域および前記背景領域それぞれについて、前記入力画像におけるエッジの強度を表すエネルギーマップを生成するエネルギーマップ生成手段と、
前記人物領域および前記背景領域それぞれについての前記エネルギーマップにおいて、前記体軸方向に、より低いエネルギーコストのパスを検出するパス検出手段とを含み、
前記人物領域についての前記エネルギーマップにおける前記パスに対応する前記入力画像上の画素を削除するとともに、前記背景領域についての前記エネルギーマップにおける前記パスに、対応する前記入力画像上の画素をコピーして付加することで、前記人物領域の面積を前記法線方向に圧縮するとともに、前記背景領域の面積を前記法線方向に拡張する
請求項１に記載の画像処理装置。
前記入力画像に基づいて、前記入力画像上の前記被写体としての前記人物の領域を特定するための人物特定情報を生成する人物特定情報生成手段をさらに備え、
前記人物領域検出手段は、前記人物特定情報に基づいて、前記人物領域を検出する
請求項１に記載の画像処理装置。
前記入力画像に基づいて、前記入力画像上の前記被写体の領域である被写体領域を特定するための被写体特定情報を生成する被写体特定情報生成手段と、
前記入力画像に基づいて、前記入力画像上の前記被写体としての前記人物の顔の領域である顔領域を特定するための顔特定情報を生成する顔特定情報生成手段とをさらに備え、
前記人物特定情報生成手段は、前記被写体特定情報および前記顔特定情報に基づいて、前記人物特定情報を生成する
請求項４に記載の画像処理装置。
前記人物特定情報生成手段は、前記被写体特定情報で特定される前記被写体領域のうち、前記顔特定情報で特定される前記顔領域を含む前記被写体領域を、前記入力画像上の前記人物の領域とする前記人物特定情報を生成する
請求項５に記載の画像処理装置。
入力画像において、前記入力画像上の被写体としての人物を含む領域である人物領域を検出する人物領域検出ステップと、
前記入力画像における前記人物領域の面積を、前記入力画像上の前記被写体としての前記人物の体軸に対する法線方向に圧縮するとともに、前記入力画像における前記人物領域以外の領域である背景領域の面積を、前記法線方向に拡張する圧縮拡張ステップと
を含む画像処理方法。
入力画像において、前記入力画像上の被写体としての人物を含む領域である人物領域を検出する人物領域検出ステップと、
前記入力画像における前記人物領域の面積を、前記入力画像上の前記被写体としての前記人物の体軸に対する法線方向に圧縮するとともに、前記入力画像における前記人物領域以外の領域である背景領域の面積を、前記法線方向に拡張する圧縮拡張ステップと
を含む処理をコンピュータに実行させるプログラム。