JP2011018199A - 画像処理装置および方法、並びにプログラム - Google Patents

画像処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2011018199A
JP2011018199A JP2009162416A JP2009162416A JP2011018199A JP 2011018199 A JP2011018199 A JP 2011018199A JP 2009162416 A JP2009162416 A JP 2009162416A JP 2009162416 A JP2009162416 A JP 2009162416A JP 2011018199 A JP2011018199 A JP 2011018199A
Authority
JP
Japan
Prior art keywords
person
area
image
input image
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009162416A
Other languages
English (en)
Inventor
Kazuki Aisaka
一樹 相坂
Atsushi Murayama
淳 村山
Takefumi Nagumo
武文 名雲
Ken Tamayama
研 玉山
Masatoshi Yokokawa
昌俊 横川
Tatsuo Fujiwara
達雄 藤原
Aoki Eyama
碧輝 江山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009162416A priority Critical patent/JP2011018199A/ja
Publication of JP2011018199A publication Critical patent/JP2011018199A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】画像における人物の容姿をスリムにする。
【解決手段】人物領域検出部281は、入力画像において、入力画像上の被写体としての人物を含む領域である人物領域を検出し、圧縮/拡張処理部282は、入力画像における人物領域の面積を、入力画像上の被写体としての人物の体軸に対する法線方向に圧縮するとともに、入力画像における人物領域以外の領域である背景領域の面積を、法線方向に拡張する。本発明は、撮影機能を有する電子機器に適用することができる。
【選択図】図8

Description

本発明は、画像処理装置および方法、並びにプログラムに関し、特に、画像における人物の容姿をスリムにすることができるようにする画像処理装置および方法、並びにプログラムに関する。
従来、デジタルカメラ等の撮影装置によって人物が撮影された画像に対して、撮影後に、被写体としての人物がよりよく写るように(表示されるように)補正する様々な技術が提案されている。
例えば、入力画像と背景画像とを合成する際に、背景画像に対して、入力画像に含まれる人物の顔、上半身、および全身のバランスを調整する技術がある(特許文献1参照)。
特開2001−28682号公報
しかしながら、上述した構成では、画像における人物の容姿をスリムにすることはできない。
本発明は、このような状況に鑑みてなされたものであり、特に、画像における人物の容姿をスリムにするようにするものである。
本発明の一側面の画像処理装置は、入力画像において、前記入力画像上の被写体としての人物を含む領域である人物領域を検出する人物領域検出手段と、前記入力画像における前記人物領域の面積を、前記入力画像上の前記被写体としての前記人物の体軸に対する法線方向に圧縮するとともに、前記入力画像における前記人物領域以外の領域である背景領域の面積を、前記法線方向に拡張する圧縮拡張手段とを備える。
前記圧縮拡張手段には、前記入力画像における前記人物領域の画素を、前記法線方向の所定の間隔で間引くとともに、前記背景領域の画素を前記法線方向の所定の間隔でコピーして付加することで、前記人物領域の面積を前記法線方向に圧縮するとともに、前記背景領域の面積を前記法線方向に拡張させることができる。
前記圧縮拡張手段には、前記入力画像上の前記人物領域および前記背景領域それぞれについて、前記入力画像におけるエッジの強度を表すエネルギーマップを生成するエネルギーマップ生成手段と、前記人物領域および前記背景領域それぞれについての前記エネルギーマップにおいて、前記体軸方向に、より低いエネルギーコストのパスを検出するパス検出手段とを含ませ、前記人物領域についての前記エネルギーマップにおける前記パスに対応する前記入力画像上の画素を削除するとともに、前記背景領域についての前記エネルギーマップにおける前記パスに、対応する前記入力画像上の画素をコピーして付加することで、前記人物領域の面積を前記法線方向に圧縮するとともに、前記背景領域の面積を前記法線方向に拡張させることができる。
前記画像処理装置には、前記入力画像に基づいて、前記入力画像上の前記被写体としての前記人物の領域を特定するための人物特定情報を生成する人物特定情報生成手段をさらに設け、前記人物領域検出手段には、前記人物特定情報に基づいて、前記人物領域を検出させることができる。
前記画像処理装置には、前記入力画像に基づいて、前記入力画像上の前記被写体の領域である被写体領域を特定するための被写体特定情報を生成する被写体特定情報生成手段と、前記入力画像に基づいて、前記入力画像上の前記被写体としての前記人物の顔の領域である顔領域を特定するための顔特定情報を生成する顔特定情報生成手段とをさらに設け、前記人物特定情報生成手段には、前記被写体特定情報および前記顔特定情報に基づいて、前記人物特定情報を生成させることができる。
前記人物特定情報生成手段には、前記被写体特定情報で特定される前記被写体領域のうち、前記顔特定情報で特定される前記顔領域を含む前記被写体領域を、前記入力画像上の前記人物の領域とする前記人物特定情報を生成させることができる。
本発明の一側面の画像処理方法は、入力画像において、前記入力画像上の被写体としての人物を含む領域である人物領域を検出する人物領域検出ステップと、前記入力画像における前記人物領域の面積を、前記入力画像上の前記被写体としての前記人物の体軸に対する法線方向に圧縮するとともに、前記入力画像における前記人物領域以外の領域である背景領域の面積を、前記法線方向に拡張する圧縮拡張ステップとを含む。
本発明の一側面のプログラムは、入力画像において、前記入力画像上の被写体としての人物を含む領域である人物領域を検出する人物領域検出ステップと、前記入力画像における前記人物領域の面積を、前記入力画像上の前記被写体としての前記人物の体軸に対する法線方向に圧縮するとともに、前記入力画像における前記人物領域以外の領域である背景領域の面積を、前記法線方向に拡張する圧縮拡張ステップとを含む処理をコンピュータに実行させる。
本発明の一側面においては、入力画像において、入力画像上の被写体としての人物を含む領域である人物領域が検出され、入力画像における人物領域の面積が、入力画像上の被写体としての人物の体軸に対する法線方向に圧縮されるとともに、入力画像における人物領域以外の領域である背景領域の面積が、法線方向に拡張される。
本発明の一側面によれば、画像における人物の容姿をスリムにすることが可能となる。
本発明を適用した画像処理装置の一実施の形態の構成例を示す図である。 輝度情報抽出部の構成例を示す図である。 色情報抽出部の構成例を示す図である。 エッジ情報抽出部の構成例を示す図である。 顔情報抽出部の構成例を示す図である。 動き情報抽出部の構成例を示す図である。 人物抽出部の構成例を示す図である。 スリム化部の構成例を示す図である。 画像処理を説明するフローチャートである。 輝度情報抽出処理を説明するフローチャートである。 色情報抽出処理を説明するフローチャートである。 エッジ情報抽出処理を説明するフローチャートである。 顔情報抽出処理を説明するフローチャートである。 動き情報抽出処理を説明するフローチャートである。 ニューラルネットワークによる学習の概要を説明する図である。 ニューラルネットワークによる学習の概要を説明する図である。 人物抽出処理を説明するフローチャートである。 合成マップの生成について説明する図である。 人物マップの生成について説明する図である。 スリム化処理を説明するフローチャートである。 人物領域および背景領域について説明する図である。 人物領域および背景領域について説明する図である。 スリム化処理について説明する図である。 画像処理装置の他の構成例を示す図である。 スリム化処理を説明するフローチャートである。 人物領域のスリム化処理について説明する図である。 パスの検出について説明する図である。 パスの検出について説明する図である。 背景領域のスリム化処理について説明する図である。 コンピュータの構成例を示す図である。
以下、本発明の実施の形態について図を参照して説明する。
[画像処理装置の構成]
図1は、本発明を適用した画像処理装置の一実施の形態の構成例を示すブロック図である。
画像処理装置11は、例えば、カメラ等の撮像装置に搭載され、撮像された入力画像における被写体としての人物を抽出し、その入力画像における人物に対して所定の画像処理を施し、撮像装置に搭載されている表示装置や記録媒体に出力する。
画像処理装置11は、被写体抽出部21、人物抽出部22、およびスリム化部23から構成され、撮像により得られた入力画像は、被写体抽出部21およびスリム化部23に供給される。
被写体抽出部21は、供給された入力画像から被写体を検出し、入力画像における被写体の含まれる領域を特定するための情報である被写体マップを生成して人物抽出部22に供給する。ここで、被写体の検出は、ユーザが入力画像を一瞥した場合に、ユーザが注目すると推定される入力画像上の物体、つまりユーザが目を向けると推定される物体が被写体であるとして行われる。したがって、被写体は必ずしも人物に限られる訳ではない。
被写体抽出部21は、輝度情報抽出部41、色情報抽出部42、エッジ情報抽出部43、顔情報抽出部44、動き情報抽出部45、および被写体マップ生成部46から構成される。
輝度情報抽出部41は、供給された入力画像に基づいて、入力画像の各領域における、輝度に関する情報を示す輝度情報マップを生成し、被写体マップ生成部46に供給する。色情報抽出部42は、供給された入力画像に基づいて、入力画像の各領域における、色に関する情報を示す色情報マップを生成し、被写体マップ生成部46に供給する。
エッジ情報抽出部43は、供給された入力画像に基づいて、入力画像の各領域における、エッジに関する情報を示すエッジ情報マップを生成し、被写体マップ生成部46に供給する。顔情報抽出部44は、供給された入力画像に基づいて、入力画像の各領域における、被写体としての人の顔に関する情報を示す顔情報マップを生成し、人物抽出部22および被写体マップ生成部46に供給する。動き情報抽出部45は、供給された入力画像に基づいて、入力画像の各領域における、動きに関する情報を示す動き情報マップを生成し、被写体マップ生成部46に供給する。
なお、以下、輝度情報抽出部41乃至動き情報抽出部45から出力される、輝度情報マップ乃至動き情報マップのそれぞれを個々に区別する必要のない場合、単に情報マップとも称する。これらの情報マップに含まれる情報は、被写体の含まれる領域により多く含まれる特徴の特徴量を示す情報とされ、その情報が入力画像の各領域に対応させて並べられたものが情報マップとされる。つまり、情報マップは、入力画像の各領域における特徴量を示す情報であるといえる。
したがって、各情報マップにおける、より情報量の多い領域、つまり特徴量の多い領域に対応する入力画像上の領域は、より被写体が含まれる可能性の高い領域となり、各情報マップにより入力画像における被写体の含まれる領域を特定することができる。
被写体マップ生成部46は、輝度情報抽出部41乃至動き情報抽出部45から供給された輝度情報マップ、色情報マップ、エッジ情報マップ、顔情報マップ、および動き情報マップを線形結合し、被写体マップを生成する。すなわち、輝度情報マップ乃至動き情報マップの各領域の情報(特徴量)が、同じ位置にある領域ごとに重み付き加算されて被写体マップが生成される。被写体マップ生成部46は、生成した被写体マップを人物抽出部22に供給する。
人物抽出部22は、顔情報抽出部44から供給された顔情報マップと、被写体マップ生成部46から供給された被写体マップとに基づいて、入力画像の各領域における、被写体としての人物に関する情報を示す人物マップを生成し、スリム化部23に供給する。
上述の情報マップと同様に、人物マップに含まれる情報は、人物の含まれる領域により多く含まれる特徴の特徴量を示す情報とされ、その情報が入力画像の各領域に対応させて並べられたものが人物マップとされる。
したがって、人物マップにおける、より情報量の多い領域、つまり特徴量の多い領域に対応する入力画像上の領域は、より人物が含まれる可能性の高い領域となり、人物マップにより入力画像における人物の含まれる領域を特定することができる。
スリム化部23は、入力画像と、人物抽出部22から供給された人物マップとに基づいて、入力画像における被写体としての人物に対して、その人物の横幅を圧縮するように所定の画像処理を施し、出力する。
次に、図2乃至図6を参照して、図1の輝度情報抽出部41乃至動き情報抽出部45のより詳細な構成について説明する。
図2は、輝度情報抽出部41の構成例を示すブロック図である。
輝度情報抽出部41は、輝度画像生成部81、ピラミッド画像生成部82、差分算出部83、および輝度情報マップ生成部84から構成される。
輝度画像生成部81は、供給された入力画像を用いて、入力画像の画素の輝度値を、画素の画素値とする輝度画像を生成し、ピラミッド画像生成部82に供給する。ここで、輝度画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素の輝度値を示している。
ピラミッド画像生成部82は、輝度画像生成部81から供給された輝度画像を用いて、互いに解像度の異なる複数の輝度画像を生成し、それらの輝度画像を輝度のピラミッド画像として差分算出部83に供給する。
例えば、レベルL1乃至レベルL8までの8つの解像度の階層のピラミッド画像が生成され、レベルL1のピラミッド画像が最も解像度が高く、レベルL1からレベルL8まで順番にピラミッド画像の解像度が低くなるものとする。
この場合、輝度画像生成部81により生成された輝度画像が、レベルL1のピラミッド画像とされる。また、レベルLi(但し、1≦i≦7)のピラミッド画像における、互いに隣接する4つの画素の画素値の平均値が、それらの画素と対応するレベルL(i+1)のピラミッド画像の1つの画素の画素値とされる。したがって、レベルL(i+1)のピラミッド画像は、レベルLiのピラミッド画像に対して縦横半分(割り切れない場合は切り捨て)の画像となる。
差分算出部83は、ピラミッド画像生成部82から供給された複数のピラミッド画像のうち、互いに階層の異なる2つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めて輝度の差分画像を生成する。なお、各階層のピラミッド画像は、それぞれ大きさ(画素数)が異なるので、差分画像の生成時には、より小さい方のピラミッド画像が、より大きいピラミッド画像に合わせてアップコンバートされる。
差分算出部83は、予め定められた数だけ輝度の差分画像を生成すると、生成したそれらの差分画像を正規化し、輝度情報マップ生成部84に供給する。輝度情報マップ生成部84は、差分算出部83から供給された差分画像に基づいて輝度情報マップを生成し、被写体マップ生成部46に供給する。
図3は、図1の色情報抽出部42の構成例を示すブロック図である。
色情報抽出部42は、RG差分画像生成部111、BY差分画像生成部112、ピラミッド画像生成部113、ピラミッド画像生成部114、差分算出部115、差分算出部116、色情報マップ生成部117、および色情報マップ生成部118から構成される。
RG差分画像生成部111は、供給された入力画像を用いて、入力画像の画素のR(赤)成分とG(緑)成分との差分を、画素の画素値とするRG差分画像を生成し、ピラミッド画像生成部113に供給する。RG差分画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素のRの成分と、Gの成分との差分の値を示している。
BY差分画像生成部112は、供給された入力画像を用いて、入力画像の画素のB(青)成分とY(黄)成分との差分を、画素の画素値とするBY差分画像を生成し、ピラミッド画像生成部114に供給する。BY差分画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素のB(青)成分と、Y(黄)成分との差分の値を示している。
ピラミッド画像生成部113およびピラミッド画像生成部114は、RG差分画像生成部111およびBY差分画像生成部112から供給されたRG差分画像およびBY差分画像を用いて、互いに解像度の異なる複数のRG差分画像およびBY差分画像を生成する。そして、ピラミッド画像生成部113およびピラミッド画像生成部114は、生成したそれらのRG差分画像およびBY差分画像を、RGの差分のピラミッド画像、およびBYの差分のピラミッド画像として差分算出部115および差分算出部116に供給する。
例えば、RGの差分のピラミッド画像、およびBYの差分のピラミッド画像として、輝度のピラミッド画像の場合と同様に、それぞれレベルL1乃至レベルL8までの8つの解像度の階層のピラミッド画像が生成される。
差分算出部115および差分算出部116は、ピラミッド画像生成部113およびピラミッド画像生成部114から供給された複数のピラミッド画像のうち、互いに階層の異なる2つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めてRGの差分の差分画像、およびBYの差分の差分画像を生成する。なお、各階層のピラミッド画像は、それぞれ大きさが異なるので、差分画像の生成時には、より小さい方のピラミッド画像がアップコンバートされて、より大きい方のピラミッド画像と同じ大きさとされる。
差分算出部115および差分算出部116は、予め定められた数だけRGの差分の差分画像、およびBYの差分の差分画像を生成すると、生成したそれらの差分画像を正規化し、色情報マップ生成部117および色情報マップ生成部118に供給する。色情報マップ生成部117および色情報マップ生成部118は、差分算出部115および差分算出部116から供給された差分画像に基づいて色情報マップを生成し、被写体マップ生成部46に供給する。色情報マップ生成部117ではRGの差分の色情報マップが生成され、色情報マップ生成部118ではBYの差分の色情報マップが生成される。
図4は、図1のエッジ情報抽出部43の構成例を示すブロック図である。
エッジ情報抽出部43は、エッジ画像生成部141乃至エッジ画像生成部144、ピラミッド画像生成部145乃至ピラミッド画像生成部148、差分算出部149乃至差分算出部152、およびエッジ情報マップ生成部153乃至エッジ情報マップ生成部156から構成される。
エッジ画像生成部141乃至エッジ画像生成部144は、供給された入力画像に対して、ガボアフィルタを用いたフィルタ処理を施し、例えば0度、45度、90度、および135度の方向のエッジ強度を画素の画素値とするエッジ画像を生成し、ピラミッド画像生成部145乃至ピラミッド画像生成部148に供給する。
例えば、エッジ画像生成部141により生成されるエッジ画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素における0度の方向のエッジ強度を示している。なお、各エッジの方向とは、ガボアフィルタを構成するガボア関数における角度成分により示される方向をいう。
ピラミッド画像生成部145乃至ピラミッド画像生成部148は、エッジ画像生成部141乃至エッジ画像生成部144から供給された各方向のエッジ画像を用いて、互いに解像度の異なる複数のエッジ画像を生成する。そして、ピラミッド画像生成部145乃至ピラミッド画像生成部148は、生成したそれらの各方向のエッジ画像を、エッジの各方向のピラミッド画像として差分算出部149乃至差分算出部152に供給する。
例えば、エッジの各方向のピラミッド画像として、輝度のピラミッド画像の場合と同様に、それぞれレベルL1乃至レベルL8までの8つの階層のピラミッド画像が生成される。
差分算出部149乃至差分算出部152は、ピラミッド画像生成部145乃至ピラミッド画像生成部148から供給された、複数のピラミッド画像のうち、互いに階層の異なる2つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めてエッジの各方向の差分画像を生成する。なお、各階層のピラミッド画像は、それぞれ大きさが異なるので、差分画像の生成時には、より小さい方のピラミッド画像がアップコンバートされる。
差分算出部149乃至差分算出部152は、予め定められた数だけエッジの各方向の差分画像を生成すると、生成したそれらの差分画像を正規化し、エッジ情報マップ生成部153乃至エッジ情報マップ生成部156に供給する。エッジ情報マップ生成部153乃至エッジ情報マップ生成部156は、差分算出部149乃至差分算出部152から供給された差分画像に基づいて、各方向のエッジ情報マップを生成し、被写体マップ生成部46に供給する。
図5は、図1の顔情報抽出部44の構成例を示すブロック図である。
顔情報抽出部44は、顔検出部181および顔情報マップ生成部182から構成される。
顔検出部181は、供給された入力画像から被写体としての人の顔の領域を検出し、その検出結果を顔情報マップ生成部182に供給する。顔情報マップ生成部182は、顔検出部181からの検出結果に基づいて顔情報マップを生成し、人物抽出部22および被写体マップ生成部46に供給する。
図6は、図1の動き情報抽出部45の構成例を示すブロック図である。
動き情報抽出部45は、ローカルモーションベクタ抽出部211、グローバルモーションベクタ抽出部212、差分算出部213、および動き情報マップ生成部214から構成される。
ローカルモーションベクタ抽出部211は、供給された入力画像と、その入力画像とは撮像時刻の異なる他の入力画像とを用いて、入力画像の各画素の動きベクトルをローカルモーションベクタとして検出し、差分算出部213に供給する。グローバルモーションベクタ抽出部212は、供給された入力画像と、その入力画像とは撮像時刻の異なる他の入力画像とを用いて、入力画像の各画素の動きベクトルを求め、さらに例えば、それらの各画素の動きベクトルの平均値をグローバルモーションベクタとし、差分算出部213に供給する。このグローバルモーションベクタは、入力画像全体の動きの方向を示している。
差分算出部213は、ローカルモーションベクタ抽出部211からのローカルモーションベクタと、グローバルモーションベクタ抽出部212からのグローバルモーションベクタとの差分の絶対値を求めて動きの差分画像を生成し、動き情報マップ生成部214に供給する。ここで、動きの差分画像における任意の画素の画素値は、その画素と同じ位置にある入力画像の画素のローカルモーションベクタと、入力画像全体のグローバルモーションベクタとの差分の絶対値を示している。したがって、動きの差分画像の画素の画素値は、入力画像の画素に表示される物体(または背景)の入力画像全体に対する、つまり背景に対する相対的な動き量を示している。
動き情報マップ生成部214は、差分算出部213からの動きの差分画像に基づいて動き情報マップを生成し、被写体マップ生成部46に供給する。なお、より詳細には、動き情報マップの生成は、入力画像として、時間的に連続して撮像されたものが供給された場合、例えば、入力画像が連写されたものや、動画像である場合に行われる。
次に、図7および図8を参照して、図1の人物抽出部22およびスリム化部23のより詳細な構成について説明する。
図7は、図1の人物抽出部22の構成例を示すブロック図である。
人物抽出部22は、2値化部241、合成部242、および人物マップ生成部243から構成される。
2値化部241は、顔情報抽出部44から供給された顔情報マップ、および、被写体マップ生成部46から供給された被写体マップのそれぞれに含まれる情報を、所定の閾値に基づいて0または1のいずれかの値に2値化し、合成部242に供給する。
合成部242は、2値化部241から供給された、2値化された顔情報マップと被写体マップとを合成し、その結果得られる合成マップを、人物マップ生成部243に供給する。
人物マップ生成部243は、合成部242から供給された合成マップに基づいて、入力画像における被写体としての人物の領域を特定するための情報である人物マップを生成し、スリム化部23に供給する。
図8は、図1のスリム化部23の構成例を示すブロック図である。
スリム化部23は、人物領域検出部281および圧縮/拡張処理部282から構成される。
人物領域検出部281は、人物抽出部22から供給された人物マップに基づいて、入力画像上の被写体としての人物を含む領域である人物領域を検出するとともに、人物領域以外の領域を背景領域として検出する。人物領域検出部281は、検出した人物領域および背景領域を表す情報を、圧縮/拡張処理部282に供給する。
圧縮/拡張処理部282は、人物領域検出部281から供給された、人物領域および背景領域を表す情報に基づいて、入力画像における人物領域の面積を所定の方向に圧縮するとともに、入力画像における背景領域の面積を所定の方向に拡張し、出力画像として出力する。
[画像処理装置の動作]
ところで、画像処理装置11に入力画像が供給されると、画像処理装置11は、入力画像における被写体としての人物を抽出し、その人物の画像に対する画像処理を開始する。以下、図9のフローチャートを参照して、画像処理装置11の画像処理について説明する。
ステップS11において、輝度情報抽出部41は、輝度情報抽出処理を行って、供給された入力画像に基づいて輝度情報マップを生成し、被写体マップ生成部46に供給する。そして、ステップS12において、色情報抽出部42は、色情報抽出処理を行って、供給された入力画像に基づいて色情報マップを生成し、被写体マップ生成部46に供給する。
ステップS13において、エッジ情報抽出部43は、エッジ情報抽出処理を行って、供給された入力画像に基づいてエッジ情報マップを生成し、被写体マップ生成部46に供給する。また、ステップS14において、顔情報抽出部44は、顔情報抽出処理を行って、供給された入力画像に基づいて顔情報マップを生成し、人物抽出部22および被写体マップ生成部46に供給する。さらに、ステップS15において、動き情報抽出部45は、動き情報抽出処理を行って、供給された入力画像に基づいて動き情報マップを生成し、被写体マップ生成部46に供給する。
なお、これらの輝度情報抽出処理、色情報抽出処理、エッジ情報抽出処理、顔情報抽出処理、および動き情報抽出処理の詳細は後述する。また、より詳細には、動き情報抽出処理は、時間的に連続して撮像された入力画像が、被写体抽出部21に供給されなかった場合には行われない。
ステップS16において、被写体マップ生成部46は、輝度情報抽出部41乃至動き情報抽出部45から供給された輝度情報マップ乃至動き情報マップを用いて、被写体マップを生成し、人物抽出部22に供給する。
例えば、被写体マップ生成部46は、情報マップごとに予め求められている重みである、情報重みWbを用いて各情報マップを線形結合し、さらに、その結果得られたマップの画素値に、予め求められた重みである、被写体重みWcを乗算して正規化し、被写体マップとする。
つまり、これから求めようとする被写体マップ上の注目する位置(画素)を注目位置とすると、各情報マップの注目位置と同じ位置(画素)の画素値に、情報マップごとの情報重みWbが乗算され、情報重みWbの乗算された画素値の総和が、注目位置の画素値とされる。さらに、このようにして求められた被写体マップの各位置の画素値に、被写体マップに対して予め求められた被写体重みWcが乗算されて正規化され、最終的な被写体マップとされる。
なお、より詳細には、色情報マップとして、RGの差分の色情報マップと、BYの差分の色情報マップとが用いられ、エッジ情報マップとして、0度、45度、90度、135度のそれぞれの方向のエッジ情報マップが用いられて、被写体マップが生成される。また、被写体重みWcは予め学習により求められており、正規化は、被写体マップの各画素の画素値が、0から1までの間の値となるようになされる。
ステップS17において、人物抽出部22は、人物抽出処理を行って、顔情報抽出部44から供給された顔情報マップと、被写体マップ生成部46から供給された被写体マップとに基づいて、人物マップを生成し、スリム化部23に供給する。
ステップS18において、スリム化部23は、スリム化処理を行って、人物抽出部22から供給された人物マップに基づいて、入力画像における被写体としての人物に対して、その人物の横幅を圧縮するように所定の画像処理を施し、表示装置や記録媒体等に出力する。
なお、これらの人物抽出処理およびスリム化処理の詳細は後述する。
以上のようにして、画像処理装置11は、入力画像から被写体マップを生成し、被写体としての人物を抽出して、その入力画像における人物の容姿をスリムにすることができる。
次に、図10乃至図14のフローチャートを参照して、図9のステップS11乃至ステップS15の処理のそれぞれに対応する処理について説明する。
[輝度情報抽出処理]
まず、図10のフローチャートを参照して、図9のステップS11の処理に対応する輝度情報抽出処理について説明する。
ステップS51において、輝度画像生成部81は、供給された入力画像を用いて輝度画像を生成し、ピラミッド画像生成部82に供給する。例えば、輝度画像生成部81は、入力画像の画素のR、G、およびBの各成分の値に、成分ごとに予め定められた係数を乗算し、係数の乗算された各成分の値の和を、入力画像の画素と同じ位置にある輝度画像の画素の画素値とする。つまり、輝度成分(Y)および色差成分(Cb,Cr)からなるコンポーネント信号の輝度成分が求められる。なお、画素のR、G、およびBの各成分の値の平均値が、輝度画像の画素の画素値とされてもよい。
ステップS52において、ピラミッド画像生成部82は、輝度画像生成部81から供給された輝度画像に基づいて、レベルL1乃至レベルL8の各階層のピラミッド画像を生成し、差分算出部83に供給する。
ステップS53において、差分算出部83は、ピラミッド画像生成部82から供給されたピラミッド画像を用いて差分画像を生成して正規化し、輝度情報マップ生成部84に供給する。正規化は、差分画像の画素の画素値が、例えば0乃至255の間の値となるように行われる。
具体的には、差分算出部83は、各階層の輝度のピラミッド画像のうち、レベルL6およびレベルL3、レベルL7およびレベルL3、レベルL7およびレベルL4、レベルL8およびレベルL4、並びにレベルL8およびレベルL5の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計5つの輝度の差分画像が得られる。
例えば、レベルL6およびレベルL3の組み合わせの差分画像が生成される場合、レベルL6のピラミッド画像が、レベルL3のピラミッド画像の大きさに合わせてアップコンバートされる。つまり、アップコンバート前のレベルL6のピラミッド画像の1つの画素の画素値が、その画素に対応する、アップコンバート後のレベルL6のピラミッド画像の互いに隣接するいくつかの画素の画素値とされる。そして、レベルL6のピラミッド画像の画素の画素値と、その画素と同じ位置にあるレベルL3のピラミッド画像の画素の画素値との差分が求められ、その差分が差分画像の画素の画素値とされる。
これらの差分画像を生成する処理は、輝度画像にバンドパスフィルタを用いたフィルタ処理を施して、輝度画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像の輝度値の差、つまり入力画像における所定の画素における輝度と、その画素の周囲の平均的な輝度との差分を示している。
一般的に、画像において周囲との輝度の差分の大きい領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。
ステップS54において、輝度情報マップ生成部84は、差分算出部83から供給された差分画像に基づいて輝度情報マップを生成し、被写体マップ生成部46に供給する。輝度情報マップが輝度情報マップ生成部84から被写体マップ生成部46に供給されると、輝度情報抽出処理は終了し、処理は図9のステップS12に進む。
例えば、輝度情報マップ生成部84は、供給された5つの差分画像を、予め求められた差分画像ごとの重みである差分重みWaにより重み付き加算し、1つの画像を求める。すなわち、各差分画像の同じ位置にある画素の画素値のそれぞれに差分重みWaが乗算されて、差分重みWaが乗算された画素値の総和が求められる。
なお、輝度情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。
このようにして、輝度情報抽出部41は、入力画像から輝度画像を求め、その輝度画像から輝度情報マップを生成する。このようにして得られた輝度情報マップによれば、入力画像において、輝度の差の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。
[色情報抽出処理]
次に、図11のフローチャートを参照して、図9のステップS12の処理に対応する色情報抽出処理について説明する。
ステップS81において、RG差分画像生成部111は、供給された入力画像を用いて、RG差分画像を生成し、ピラミッド画像生成部113に供給する。
ステップS82において、BY差分画像生成部112は、供給された入力画像を用いてBY差分画像を生成し、ピラミッド画像生成部114に供給する。
ステップS83において、ピラミッド画像生成部113およびピラミッド画像生成部114は、RG差分画像生成部111からのRG差分画像、およびBY差分画像生成部112からのBY差分画像を用いて、ピラミッド画像を生成する。
例えば、ピラミッド画像生成部113は、解像度の異なる複数のRG差分画像を生成することにより、レベルL1乃至レベルL8の各階層のピラミッド画像を生成し、差分算出部115に供給する。同様に、ピラミッド画像生成部114は、解像度の異なる複数のBY差分画像を生成することにより、レベルL1乃至レベルL8の各階層のピラミッド画像を生成し、差分算出部116に供給する。
ステップS84において、差分算出部115および差分算出部116は、ピラミッド画像生成部113およびピラミッド画像生成部114から供給されたピラミッド画像に基づいて差分画像を生成して正規化し、色情報マップ生成部117および色情報マップ生成部118に供給する。差分画像の正規化では、例えば、画素の画素値が0乃至255の間の値となるようにされる。
例えば、差分算出部115は、各階層のRGの差分のピラミッド画像のうち、レベルL6およびレベルL3、レベルL7およびレベルL3、レベルL7およびレベルL4、レベルL8およびレベルL4、並びにレベルL8およびレベルL5の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計5つのRGの差分の差分画像が得られる。
同様に、差分算出部116は、各階層のBYの差分のピラミッド画像のうち、レベルL6およびレベルL3、レベルL7およびレベルL3、レベルL7およびレベルL4、レベルL8およびレベルL4、並びにレベルL8およびレベルL5の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計5つのBYの差分の差分画像が得られる。
これらの差分画像を生成する処理は、RG差分画像またはBY差分画像にバンドパスフィルタを用いたフィルタ処理を施して、RG差分画像またはBY差分画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像の特定の色成分の差、つまり入力画像の画素における特定の色の成分と、その画素の周囲の平均的な特定の色の成分との差分を示している。
一般的に、画像において周囲と比べて目立つ色の領域、つまり特定の色成分の周囲との差分の大きい領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。
ステップS85において、色情報マップ生成部117および色情報マップ生成部118は、差分算出部115からの差分画像、および差分算出部116からの差分画像を用いて色情報マップを生成し、被写体マップ生成部46に供給する。
例えば、色情報マップ生成部117は、差分算出部115から供給されたRGの差分の差分画像を、予め求められた差画像ごとの差分重みWaにより重み付き加算して、1つのRGの差分の色情報マップとする。
同様に、色情報マップ生成部118は、差分算出部116から供給されたBYの差分の差分画像を、予め求められた差分重みWaにより重み付き加算して、1つのBYの差分の色情報マップとする。なお、色情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。
色情報マップ生成部117および色情報マップ生成部118が、このようにして得られたRGの差分の色情報マップ、およびBYの差分の色情報マップを被写体マップ生成部46に供給すると、色情報抽出処理は終了し、処理は図9のステップS13に進む。
このようにして、色情報抽出部42は、入力画像から特定の色の成分の差分の画像を求め、その画像から色情報マップを生成する。このようにして得られた色情報マップによれば、入力画像において、特定の色成分の差の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。
なお、色情報抽出部42では、入力画像から抽出される色の情報として、R(赤)の成分と、G(緑)の成分の差分、およびB(青)の成分と、Y(黄)の成分との差分が抽出されると説明したが、色差成分Crと色差成分Cbなどが抽出されるようにしてもよい。ここで、色差成分Crは、R成分と輝度成分との差分であり、色差成分Cbは、B成分と輝度成分との差分である。
[エッジ情報抽出処理]
図12は、図9のステップS13の処理に対応するエッジ情報抽出処理を説明するフローチャートである。以下、このエッジ情報抽出処理について説明する。
ステップS111において、エッジ画像生成部141乃至エッジ画像生成部144は、供給された入力画像に対して、ガボアフィルタを用いたフィルタ処理を施し、0度、45度、90度、および135度の方向のエッジ強度を画素の画素値とするエッジ画像を生成する。そして、エッジ画像生成部141乃至エッジ画像生成部144は、生成されたエッジ画像をピラミッド画像生成部145乃至ピラミッド画像生成部148に供給する。
ステップS112において、ピラミッド画像生成部145乃至ピラミッド画像生成部148は、エッジ画像生成部141乃至エッジ画像生成部144からのエッジ画像を用いて、ピラミッド画像を生成し、差分算出部149乃至差分算出部152に供給する。
例えば、ピラミッド画像生成部145は、解像度の異なる複数の0度方向のエッジ画像を生成することにより、レベルL1乃至レベルL8の各階層のピラミッド画像を生成し、差分算出部149に供給する。同様に、ピラミッド画像生成部146乃至ピラミッド画像生成部148は、レベルL1乃至レベルL8の各階層のピラミッド画像を生成して差分算出部150乃至差分算出部152に供給する。
ステップS113において、差分算出部149乃至差分算出部152は、ピラミッド画像生成部145乃至ピラミッド画像生成部148からのピラミッド画像を用いて差分画像を生成して正規化し、エッジ情報マップ生成部153乃至エッジ情報マップ生成部156に供給する。差分画像の正規化では、例えば、画素の画素値が0乃至255の間の値となるようにされる。
例えば、差分算出部149は、ピラミッド画像生成部145から供給された、各階層の0度方向のエッジのピラミッド画像のうち、レベルL6およびレベルL3、レベルL7およびレベルL3、レベルL7およびレベルL4、レベルL8およびレベルL4、並びにレベルL8およびレベルL5の組み合わせのピラミッド画像の差分を求める。これにより、合計5つのエッジの差分画像が得られる。
同様に、差分算出部150乃至差分算出部152は、各階層のピラミッド画像のうち、レベルL6およびレベルL3、レベルL7およびレベルL3、レベルL7およびレベルL4、レベルL8およびレベルL4、並びにレベルL8およびレベルL5の各階層の組み合わせのピラミッド画像の差分を求める。これにより、各方向のエッジについて、それぞれ合計5つの差分画像が得られる。
これらの差分画像を生成する処理は、エッジ画像にバンドパスフィルタを用いたフィルタ処理を施して、エッジ画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像のエッジ強度の差、つまり入力画像の所定の位置のエッジ強度と、その位置の周囲の平均的なエッジ強度との差を示している。
一般的に、画像において周囲と比べてエッジ強度の強い領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。
ステップS114において、エッジ情報マップ生成部153乃至エッジ情報マップ生成部156は、差分算出部149乃至差分算出部152からの差分画像を用いて各方向のエッジ情報マップを生成し、被写体マップ生成部46に供給する。
例えば、エッジ情報マップ生成部153は、差分算出部149から供給された差分画像を、予め求められた差分重みWaにより重み付き加算して0度方向のエッジ情報マップとする。
同様に、エッジ情報マップ生成部154は差分算出部150からの差分画像を差分重みWaにより重み付き加算し、エッジ情報マップ生成部155は差分算出部151からの差分画像を差分重みWaにより重み付き加算し、エッジ情報マップ生成部156は差分算出部152からの差分画像を差分重みWaにより重み付き加算する。これにより、45度、90度、および135度の各方向のエッジ情報マップが得られる。なお、エッジ情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。
エッジ情報マップ生成部153乃至エッジ情報マップ生成部156が、このようにして得られた各方向の合計4つのエッジ情報マップを被写体マップ生成部46に供給すると、エッジ情報抽出処理は終了し、処理は図9のステップS14に進む。
このようにして、エッジ情報抽出部43は、入力画像から特定の方向のエッジの差分画像を求め、その差分画像からエッジ情報マップを生成する。このようにして得られた方向ごとのエッジ情報マップによれば、入力画像において、周囲の領域と比べて、特定の方向へのエッジ強度の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。
なお、エッジ情報抽出処理では、エッジの抽出にガボアフィルタが用いられると説明したが、その他、Sobelフィルタや、Robertsフィルタなどのエッジ抽出フィルタが用いられるようにしてもよい。
また、図10乃至図12を参照して説明した、画像から輝度、色、エッジなどの情報を抽出する方法は、例えば「Laurent Itti, Christof Koch, and Ernst Niebur, "A Model of Saliency-Based Visual Attention for Rapid Scene Analysis"」に詳細に記載されている。
[顔情報抽出処理]
次に、図13のフローチャートを参照して、図9のステップS14の処理に対応する顔情報抽出処理について説明する。
ステップS141において、顔検出部181は、供給された入力画像から、人の顔の領域を検出し、その検出結果を顔情報マップ生成部182に供給する。例えば、顔検出部181は、入力画像に対してガボアフィルタを用いたフィルタ処理を施し、入力画像から人の目、口、鼻などの特徴的な領域を抽出することにより、入力画像における顔の領域を検出する。
ステップS142において、顔情報マップ生成部182は、顔検出部181からの検出結果を用いて顔情報マップを生成し、人物抽出部22および被写体マップ生成部46に供給する。
例えば、入力画像からの顔の検出結果として、顔が含まれると推定される入力画像上の矩形の領域(以下、候補領域と称する)が複数検出されたとする。ここで、入力画像上の所定の位置近傍に複数の候補領域が検出され、それらの候補領域の一部が互いに重なることもあることとする。すなわち、例えば、入力画像上の1つの顔の領域に対して、その顔を含む複数の領域が候補領域として得られた場合には、それらの候補領域の一部が互いに重なることになる。
顔情報マップ生成部182は、顔の検出により得られた候補領域に対して、候補領域ごとに、入力画像と同じ大きさの検出画像を生成する。この検出画像は、検出画像上における処理対象の候補領域と同じ領域内の画素の画素値が、候補領域とは異なる領域内の画素の画素値よりも大きい値とされる。
また、検出画像上の画素の画素値は、より人の顔が含まれる可能性が高いと推定された候補領域の画素と同じ位置の画素ほど、画素値が大きくなる。顔情報マップ生成部182は、このようにして得られた検出画像を足し合わせて、1つの画像を生成して正規化し、顔情報マップとする。したがって、顔情報マップ上において、入力画像上の複数の候補領域の一部が重なる領域と同じの領域の画素の画素値は大きくなり、より顔が含まれる可能性が高いことになる。なお、正規化は、顔情報マップの画素の画素値が、例えば0乃至255の間の値となるようにされる。
顔情報マップが生成されると、顔情報抽出処理は終了し、処理は図9のステップS15に進む。
このようにして、顔情報抽出部44は、入力画像から顔を検出し、その検出結果から顔情報マップを生成する。このようにして得られた顔情報マップによれば、入力画像において、被写体としての人物の顔の領域を簡単に検出することができる。
[動き情報抽出処理]
さらに、図14のフローチャートを参照して、図9のステップS15の処理に対応する動き情報抽出処理について説明する。
ステップS171において、ローカルモーションベクタ抽出部211は、供給された入力画像を用いて、勾配法などにより入力画像の各画素のローカルモーションベクタを検出し、差分算出部213に供給する。
ステップS172において、グローバルモーションベクタ抽出部212は、供給された入力画像を用いてグローバルモーションベクタを検出し、差分算出部213に供給する。
ステップS173において、差分算出部213は、ローカルモーションベクタ抽出部211からのローカルモーションベクタと、グローバルモーションベクタ抽出部212からのグローバルモーションベクタとの差分の絶対値を求めて動きの差分画像を生成する。そして、差分算出部213は、生成した動きの差分画像を動き情報マップ生成部214に供給する。
ステップS174において、動き情報マップ生成部214は、差分算出部213から供給された差分画像を正規化して動き情報マップとし、被写体マップ生成部46に供給する。ここで、差分画像の正規化は、各画素の画素値が、例えば0乃至255の間の値となるようにされる。動き情報マップが生成されると、動き情報抽出処理は終了し、処理は図9のステップS16に進む。
このようにして、動き情報抽出部45は、入力画像から動きを検出し、その検出結果から動き情報マップを生成する。このようにして得られた動き情報マップによれば、入力画像において、動きのある物体の領域を簡単に検出することができる。入力画像において、動きのある物体の領域は、入力画像を一瞥した観察者の目に付きやすい領域であり、被写体である可能性が高い。
以上において説明した輝度情報抽出処理乃至動き情報抽出処理により、各情報マップが得られ、これらの情報マップから被写体マップが生成される。
[重みの学習の概要]
ところで、上述したように、被写体マップは、入力画像から、輝度、色、エッジ、顔、動きなどの情報が抽出されて生成される。すなわち、それらの抽出された情報のピラミッド画像から得られた差分画像が、予め求められた差分画像ごとの重みである差分重みWaにより重み付き加算されて情報マップとされ、それらの情報マップが、情報重みWbにより重み付き加算される。そして、さらに、その結果得られた画像(マップ)に被写体重みWcが乗算されて被写体マップとされる。
被写体マップの生成時に用いられるこれらの差分重みWa、情報重みWb、および被写体重みWcは、例えばニューラルネットワークによる学習により求められる。これらの重みの学習時に用いられる学習画像として、人物に限らず、一般的な被写体が含まれる画像を用いれば、学習により得られた重みを用いて生成される被写体マップにより、入力画像から、一般的な被写体をより確実に検出することができるようになる。
ここで、図15および図16を参照して、ニューラルネットワークによる学習の概要について説明する。
学習時には、図15に示すように、初期値が与えられた差分重みWa、情報重みWb、および被写体重みWcと、被写体が含まれた学習画像とが用いられて、被写体マップが生成される。
具体的には、学習画像から、被写体マップ生成時に抽出される情報ごとの差分画像An(m)(但し、1≦n≦N,1≦m≦6)が生成される。ここで、差分画像An(1)乃至差分画像An(6)は、学習画像から抽出された、1つの情報についての差分画像である。
例えば、差分画像A1(1)乃至差分画像A1(6)は、学習画像から得られた輝度のピラミッド画像が用いられて生成された、輝度の差分画像とされる。また、例えば、差分画像AN(1)乃至差分画像AN(6)は、学習画像から得られた0度方向のエッジのピラミッド画像が用いられて生成された、0度方向の差分画像とされる。
なお、図15では、学習画像から抽出される情報ごとに、6つの差分画像が得られる例について示されているが、差分画像の数はいくつであってもよい。
学習画像から情報ごとの差分画像An(m)が得られると、それらの差分画像と、差分画像ごとの差分重みWaとから情報マップが生成される。なお、以下、差分画像An(m)に乗算される差分重みWaを、差分重みWan(m)とも称する。
例えば、差分画像A1(1)乃至差分画像A1(6)のそれぞれが、差分画像ごとの差分重みWa1(1)乃至差分重みWa1(6)により重み付き加算されて、情報マップB1inとされる。さらに、この情報マップB1inに対して、予め定められた関数f(x)による演算が行われ、その結果として情報マップB1outが得られる。
例えば、関数f(x)は、次式(1)に示される双曲線余弦関数(ハイパボリックタンジェント関数)とされる。
f(x)=a×tanh(x×b) ・・・(1)
なお、式(1)において、aおよびbは、予め定められた定数を示しており、xは、画像上の画素の画素値を示している。したがって情報マップB1outを求める場合には、xは情報マップB1inの画素の画素値とされる。
すなわち、情報マップB1inの画素の画素値xが、式(1)に代入されて得られた値f(x)が、その画素と同じ位置にある情報マップB1outの画素の画素値とされる。このようにして得られた情報マップB1outは、画像処理装置11において生成される情報マップ、例えば輝度情報マップに相当する。
なお、関数f(x)は、双曲線余弦関数に限らず、どのような関数であってもよい。例えば、関数f(x)は、理想的なモデルでは、x≧0である場合に値「1」を出力し、x<0である場合に値「−1」を出力するSigmoid関数とされる。
以上のようにして、N個の情報マップB1out乃至情報マップBNoutが得られると、それらの情報マップBnout(但し、1≦n≦N)が、情報マップごとの情報重みWbにより重み付き加算されて、被写体マップCinとされる。そして、この被写体マップCinに対して、予め定められた関数f(x)による演算が行われ、その結果として被写体マップCoutが得られる。さらに、この被写体マップCoutに被写体重みWcが乗算されて正規化され、最終的な被写体マップとされる。
なお、より詳細には、被写体マップCinの生成時には、差分画像を生成することなく得られる情報マップ、例えば、顔情報マップなどの情報マップも用いられて重み付き加算が行われる。また、以下では、情報マップBnoutに乗算される情報重みWbを、情報重みWbnとも称する。
このようにして、学習時に被写体マップを生成する処理は、Forward Propagationと呼ばれる。被写体マップが生成されると、続いて図16に示すように、Back Propagationと呼ばれる処理が行われて、差分重みWa、情報重みWb、および被写体重みWcが更新される。Back Propagationと呼ばれる処理では、生成された被写体マップと、学習画像に対して予め用意された、学習画像上における被写体の領域を示す情報である画像ラベルとが用いられて、各重みを増減させるべき値である重みの差分が求められる。
ここで、画像ラベルは、学習画像と同じ大きさの画像であり、学習画像上の被写体の領域の画素と同じ位置にある画素の画素値が1とされ、学習画像上の被写体のない領域の画素と同じ位置にある画素の画素値が0とされる画像である。
Back Propagationでは、まず、被写体マップと画像ラベルとの差分が求められ、その結果得られた画像が評価マップとされる。そして、評価マップと、被写体マップCinとから、次式(2)により、被写体重みWcを変化させるべき量である被写体重み差分△Wcが求められる。
△Wc=η×Cin×△C ・・・(2)
式(2)において、ηは、予め定められた定数である学習速度を示しており、Cinは、被写体マップCinを示している。なお、より詳細には、式(2)におけるCinは、被写体マップCinの1つの画素の画素値とされ、被写体重み差分△Wcは画素ごとに求められる。また、△Cは、被写体マップの差分であり、次式(3)により求められる。
△C=EV×f'(Cin) ・・・(3)
式(3)において、EVは評価マップを示しており、f'(Cin)は、関数f(x)を微分して得られる関数に、被写体マップCinを代入して得られる値である。関数f(x)を微分して得られる関数f'(x)は、具体的には「a×b×sech(x×b)2」である。
このようにして被写体重み差分△Wcが得られると、被写体重み差分△Wcが、これまでの被写体重みWcに加算されて更新され、新たな被写体重みWcが求められる。
続いて、更新された被写体重みWcと、被写体マップ生成時に生成された情報マップBninとが用いられて次式(4)により、情報重みWbnを変化させるべき量である情報重み差分△Wbnが求められる。
△Wbn=η×Bnin×△Bn ・・・(4)
式(4)において、ηは、予め定められた定数である学習速度を示しており、Bninは、情報マップBninを示している。なお、より詳細には、式(4)におけるBninは、情報マップBninの1つの画素の画素値とされ、情報重み差分△Wbnは画素ごとに求められる。また、△Bnは情報マップの差分であり、次式(5)により求められる。
△Bn=△C×f'(Bnin)×Wc ・・・(5)
式(5)において、△Cは上述した式(3)を計算して得られる値を示しており、f'(Bnin)は、関数f(x)を微分して得られる関数に、情報マップBninを代入して得られる値である。また、Wcは更新された被写体重みWcである。
このようにして、情報マップBninに対する情報重み差分△Wbnが得られると、情報重み差分△Wbnが、情報マップBninの情報重みWbnに加算されて更新され、新たな情報重みWbnが求められる。
さらに、更新された情報重みWbnと、被写体マップ生成時に生成された差分画像An(m)とが用いられて次式(6)により、差分重みWaを変化させるべき量である差分重みの差分△Wan(m)が求められる。
△Wan(m)=η×An(m)×△An(m) ・・・(6)
式(6)において、ηは、予め定められた定数である学習速度を示しており、An(m)は差分画像An(m)を示している。なお、より詳細には、式(6)におけるAn(m)は、差分画像An(m)の1つの画素の画素値とされ、差分△Wan(m)は画素ごとに求められる。また、△An(m)は差分画像の差分であり、次式(7)により求められる。
△An(m)=△Bn×f'(An(m))×Wbn ・・・(7)
式(7)において、△Bnは上述した式(5)を計算して得られる値を示しており、f'(An(m))は、関数f(x)を微分して得られる関数に、差分画像An(m)を代入して得られる値である。また、Wbnは更新された情報重みWbnである。
このようにして、差分画像An(m)に対する差分重みの差分△Wan(m)が得られると、差分重みの差分△Wan(m)が、差分画像An(m)の差分重みWan(m)に加算されて更新され、新たな差分重みWan(m)が求められる。
そして、以上のようにして更新された差分重みWa、情報重みWb、および被写体重みWcと、学習画像とが用いられて上述した処理が繰り返され、最終的な差分重みWa、情報重みWb、および被写体重みWcが得られる。
このようにして、ニューラルネットワークによる学習では、予め与えられた重みが用いられて生成された被写体マップと、画像ラベルとから評価マップが生成され、さらに評価マップから逆算により、各重みを変化させるべき変化量である重みの差分が求められる。
ここで、画像ラベルは、学習画像上の被写体の領域を示す情報であるので、いわば被写体マップの正解を示す情報ということができる。したがって、被写体マップと、画像ラベルとの差分である評価マップは、理想的な被写体マップと、与えられた重みを用いて生成された被写体マップとの誤差を示しており、評価マップを用いて逆算すれば、与えられた重みと、理想的な重みとの誤差が求まる。
そして、求められた誤差は、与えられた重みを変化させるべき変化量であり、この変化量を重みに加算すれば、現時点における理想的な重みが求まることになる。このようにして新たに求められた重みを用いて被写体マップを生成すれば、その被写体マップにより、画像からより確実に被写体を検出することができるようになる。ニューラルネットワークによる学習では、重みの変化量として、差分△Wan(m)、情報重み差分△Wbn、および被写体重み差分△Wcが求められ、各重みが更新される。
[人物抽出処理]
次に、図17のフローチャートを参照して、図9のステップS17の処理に対応する人物抽出処理について説明する。
ステップS211において、2値化部241は、被写体生成マップ46から供給された被写体マップに含まれる情報を、所定の閾値に基づいて0または1のいずれかの値に2値化し、合成部242に供給する。より具体的には、2値化部241は、0から1までの間の値である被写体マップの各画素の画素値に対して、例えば、閾値0.5より小さい値の画素値を0とし、0.5より大きい値の画素値を1とする。ここで、閾値は0.5であるものとしたが、他の値であってもよい。
ステップS212において、2値化部241は、顔情報抽出部44から供給された顔情報マップに含まれる情報を、所定の値に基づいて0または1のいずれかの値に2値化し、合成部242に供給する。より具体的には、2値化部241は、0から255までの間の値である顔情報マップの各画素の画素値に対して、例えば、閾値128より小さい値の画素値を0とし、128より大きい値の画素値を1とする。ここで、閾値は128であるものとしたが、他の値であってもよい。
ステップS213において、合成部242は、2値化部241から供給された、2値化された被写体マップと顔情報マップとを合成し、その結果得られる合成マップを、人物マップ生成部243に供給する。
ここで、図18を参照して、合成部242による被写体マップと顔情報マップとの合成について説明する。
図18の左側には、2値化された被写体マップ401および顔情報マップ402が示されており、図18の右側には、被写体マップ401と顔情報マップ402とが合成された合成マップ403が示されている。なお、図18において、被写体マップ401、顔情報マップ402、および合成マップ403に含まれる情報は、対応する入力画像における複数の画素が集まった領域ごとに示されるものとする。すなわち、例えば、図18の被写体マップ401における1つの四角形は、対応する入力画像における複数の画素が集まった領域(以下、ブロックと称する)を表している。なお、図18においては、被写体マップ401、顔情報マップ402、および合成マップ403は、6×6個のブロックから構成されており、各ブロックにおいて、0である情報はその表示が省略されている。
合成部242は、図18に示されるように、被写体マップ401におけるブロックごとの値と、顔情報マップ402におけるブロックごとの値とを足し合わせて、合成マップ403を得る。被写体マップ401および顔情報マップ402は、0または1の値である情報からなるので、合成マップ403は、図18に示されるように、0,1,2のいずれかの値である情報から構成される。合成マップ403において、1または2の値である情報で示されるブロックが隣接している領域(図中、網掛け部分)(以下、連結領域と称する)は、入力画像において被写体の存在する可能性が高い。特に、2の値である情報で示されるブロックを含む連結領域は、人の顔に関する情報を含むので、人物の存在する可能性が高い。
図17のフローチャートに戻り、ステップS214において、人物マップ生成部243は、合成部242から供給された合成マップに基づいて、入力画像における被写体としての人物の領域を特定するための情報である人物マップを生成し、スリム化部23に供給する。
より具体的には、例えば、人物マップ生成部243は、図19に示されるように、合成マップ403において2の値である情報で示されるブロックを含む連結領域(図中、網掛け部分)を人物の領域とした、人物マップ411を生成する。図19においては、1の値である情報で示されるブロックのみからなる連結領域は人物の領域とされない。また、2の値である情報で示されるブロックを含む連結領域であっても、所定の面積に満たない場合は、人物の領域とされないようにしてもよい。
このようにして、人物抽出部22は、被写体マップと顔情報マップとに基づいて、入力画像において人物の領域を示す人物マップを生成する。人物マップが生成されると、人物抽出処理は終了し、処理は図9のステップS18に進む。
以上の処理によれば、被写体マップと顔情報マップとに基づいて、入力画像において被写体として特定された領域のうちの、人物の顔として特定された領域を含む被写体の領域を、人物の領域として特定することができる。
以上においては、被写体マップと顔情報マップとに基づいて、入力画像における人物の領域を特定するようにしたが、例えば、「N. Dalal, B. Triggs, “Histograms of Oriented Gradients for Human Detection”」に記載された手法により、予め行った学習に基づいて、入力画像における人物を検出するようにしてもよい。
より具体的には、被写体が人物である画像と、被写体が人物以外のものである画像のそれぞれに対して、HoG(Histogram of Gradient)と呼ばれるエッジ検出処理を施し、検出されたエッジの集合を用いて、人物と人物以外のものを判別するための機械学習を行う。これにより、人物特有の輪郭を有する被写体を人物であると判別し、検出することが可能となる。
なお、入力画像における人物抽出処理は、上述した手法に限らず、さらに他の手法を用いるようにしてもよい。
[スリム化処理]
次に、図20のフローチャートを参照して、図9のステップS18の処理に対応するスリム化処理について説明する。
ステップS241において、人物領域検出部281は、人物抽出部22から供給された人物マップに基づいて、入力画像における人物領域と背景領域とを検出し、検出した人物領域および背景領域を表す情報を、圧縮/拡張処理部282に供給する。より具体的には、例えば、図19に示される人物マップ411が供給された場合、人物領域検出部281は、人物マップ411に基づいて、図21に示されるような、人物を含む領域である人物領域431と、人物を含まない領域である背景領域432とを検出する。
人物マップにおいては、2の値である情報で示されるブロックを含む連結領域が人物であり、顔に相当する、2の値である情報で示されるブロックの位置から、入力画像において人物がどのような方向で撮影されているか(縦方向であるか横方向であるか)が判別される。
図19の人物マップによれば、被写体である人物は、入力画像上、縦方向(上側が顔で下側が胴体)で撮影されており、人物領域検出部281は、図21に示されるように、入力画像を縦に区分するように、人物領域431と背景領域432とを検出する。
なお、例えば、人物マップが、図22の左側に示される人物マップ451であった場合、被写体である人物は、入力画像上、横方向(左側が顔で右側が胴体)で撮影されており、人物領域検出部281は、図22の右側に示されるように、入力画像を横に区分するように、人物領域471と背景領域472とを検出する。
図20のフローチャートに戻り、ステップS242において、圧縮/拡張処理部282は、人物領域検出部281からの、人物領域および背景領域を表す情報に基づいて、入力画像における人物領域の面積を所定の方向に圧縮するとともに、入力画像における背景領域の面積を所定の方向に拡張し、出力画像として出力する。
ここで、図23の左側に示されるような、入力画像に対して人物領域531および背景領域532が検出された場合について説明する。まず、圧縮/拡張処理部282は、入力画像において、被写体としての人物541の体軸542を設定する。ここで、体軸とは、被写体としての人物の顔(頭)乃至胴体(背骨)を貫く仮想的な線を示しており、いわば、人物の姿勢を表すものである。そして、圧縮/拡張処理部282は、図23の右側に示されるように、入力画像における人物領域531の面積を体軸542の法線方向(図中、左右方向)に圧縮するとともに、入力画像における背景領域532の面積を体軸542の法線方向に拡張する。より具体的には、圧縮/拡張処理部282は、図23の左側に示される入力画像における人物領域531の各ブロックにおける画素を、体軸542の法線方向の所定の間隔で間引くとともに、背景領域532の各ブロックにおける画素を、体軸542の法線方向の所定の間隔でコピーして付加する。ここで、人物領域531で間引かれる画素数と、背景領域532でコピーされて付加される画素数は同一となるようになされる。
以上の処理によれば、入力画像において、被写体としての人物を含む人物領域の面積を、その人物の体軸に対する法線方向に圧縮するとともに、人物を含まない背景領域の面積を、人物の体軸に対する法線方向に拡張することができるので、画像における人物の容姿をスリムにすることが可能となる。
以上においては、入力画像における人物の体軸に対する法線方向に、画素を間引いたり、コピーして付加したが、例えば、入力画像上、変化の大きい領域(例えばエッジ強度の大きい領域)に対して上述の処理を行った場合、人物の輪郭が欠落したり、背景において細かく変化する部分が間延びした出力画像が得られてしまう恐れがある。そこで、入力画像上、変化の少ない領域に対して、画素を間引いたり、コピーして付加することで、上述した影響の少ない出力画像を得るようにもできる。
[画像処理装置の他の構成例]
図24は、画素を間引いたりコピーして付加することによる出力画像への影響をより少なくするようにした画像処理装置11の構成例を示すブロック図である。
なお、図24の画像処理装置11においては、図1の画像処理装置11に設けられたものと同様の機能を備える構成については、同一名称および符号を付するものとし、その説明は、適宜省略するものとする。
すなわち、図24の画像処理装置11において、図1の画像処理装置11と異なるのは、図8のスリム化部23が備える圧縮/拡張処理部282に代えて、圧縮/拡張処理部581を設けた点である。また、図24の画像処理装置11においては、被写体抽出部21は、生成した被写体マップや抽出したエッジ情報を、人物抽出部22に加え、スリム化部23の圧縮/拡張処理部581に供給するようになされている。
圧縮/拡張処理部581は、人物領域検出部281から供給された、人物領域を表す情報に基づいて、入力画像の人物領域における例えばエッジ強度の小さい領域を間引くことによって、人物領域の面積を所定の方向に圧縮する。また、圧縮/拡張処理部581は、人物領域検出部281から供給された、背景領域を表す情報に基づいて、入力画像の背景領域におけるエッジ強度の小さい領域をコピーし付加することによって、背景領域の面積を所定方向に拡張する。圧縮/拡張処理部581は、人物領域の面積が圧縮され、背景領域の面積が拡張された出力画像を出力する。
圧縮/拡張処理部581は、エネルギーマップ生成部591およびパス検出部592を備えている。
エネルギーマップ生成部591は、被写体抽出部21から供給された被写体マップから、入力画像上の人物領域および背景領域それぞれにおける、例えば被写体部分のエッジ部分を抽出し、そのエッジの大きさ(エッジ強度)を示すエネルギーマップを生成する。また、エネルギーマップ生成部591は、被写体らしさのエッジ部分をエネルギーマップとすることもできる。ここで、被写体らしさのエッジ部分とは、被写体マップの被写体らしさを示す値、つまり被写体マップ上の画素の画素値が、急峻に変化する領域をいう。この場合、エネルギーマップの各画素の画素値は、被写体マップにおける画素値(被写体らしさを示す値)の変化の度合いを示している。
パス検出部592は、エネルギーマップ生成部591によって生成された、人物領域および背景領域それぞれについてのエネルギーマップにおいて、入力画像における人物の体軸と同一の方向に、より低いエネルギーコストのパス、すなわち、よりエッジ強度の小さい画素の経路を検出する。
[画像処理装置の動作]
ここで、図24の画像処理装置11の動作について説明するが、図24の画像処理装置11によって実行される画像処理は、図9のフローチャートで説明した画像処理と、ステップS18のスリム化処理を除いて同一であるので、スリム化処理以外の処理の説明は省略する。
次に、図25のフローチャートを参照して、図24の画像処理装置11のスリム化部23によるスリム化処理について説明する。なお、図25のフローチャートにおけるステップS341の処理は、図20のフローチャートで説明したステップS241の処理と同様であるので、その説明は省略する。
ステップS342において、エネルギーマップ生成部591は、被写体抽出部21から供給された被写体マップを用いて、入力画像の人物領域についてのエネルギーマップを生成する。もしくは、エネルギーマップ生成部591は、被写体抽出部21から供給されるエッジ情報を、エッジの大きさ(エッジ強度)を示すエネルギーマップとする。
より具体的には、被写体マップ上の互いに直交する方向をx方向およびy方向とすると、エネルギーマップ生成部591は、入力画像の人物領域に対応する被写体マップのx方向の画素値の変化を示すx方向勾配マップと、入力画像の人物領域に対応する被写体マップのy方向の画素値の変化を示すy方向勾配マップとを生成する。そして、エネルギーマップ生成部591は、生成したx方向勾配マップおよびy方向勾配マップの和をエネルギーマップとする。エネルギーマップの生成手法は、例えば、「S. Avidan, A. Shamir, “Seam Carving for Content-Aware Image Resizing”」に詳細に記載されている。
例えば、図26の一番左側に示されるように、入力画像に対して人物領域531および背景領域532が検出された場合、エネルギーマップ生成部591は、被写体抽出部21からの被写体マップにおいて、人物541を含む人物領域531の入力画像(図26の左から2番目)に対応する被写体マップを抽出する。そして、エネルギーマップ生成部591は、抽出した被写体マップを用いて、上述した手法により、図26の左から3番目に示されるようなエネルギーマップ551を生成する。図26のエネルギーマップ551においては、人物541の輪郭に対応する画素の画素値が特に急峻に変化しており、エッジライン561として示されている。
図25のフローチャートに戻り、ステップS343において、パス検出部592は、エネルギーマップ生成部591によって生成された、人物領域のエネルギーマップにおいて、人物の体軸と同一の方向に、よりエネルギーコストの低いパス(経路)を検出する。
ここで、図27および図28を参照して、パス検出部592によるパス検出について説明する。
図27は、エネルギーマップの例を示している。図27のエネルギーマップにおいて、1つの四角形が1つの画素を表しており、その中に記されている数字は画素値(エッジ強度)を表している。このようなエネルギーマップに対して、例えば、上段中央の画素(画素値が2)から、図中下方向にパスを検索することを考える。図27のエネルギーマップにおいては、画素値が2である上段中央の画素に対して、図中下方向に隣接する画素は、中段左側の画素、中央の画素、および右側の画素の3画素である。
このような場合、パス検出部592は、図28に示されるように、上段中央の画素の画素値と、隣接する画素の画素値との和を、エネルギーコストとして算出する。まず、図28の左側に示されるように、上段中央の画素の画素値2と、隣接する中段左側の画素の画素値6との和は8となる。同様にして、上段中央の画素の画素値2と、隣接する中段中央の画素の画素値5との和は7となり、上段中央の画素の画素値2と、隣接する中段右側の画素の画素値4との和は6となる。この場合、パス検出部592は、エネルギーコストが最小となる上段中央の画素および中段右側の画素の経路をパスとする。
次に、パス検出部592は、上段中央の画素の画素値、中段右側の画素の画素値、および、中段右側の画素の画素値に隣接する画素の画素値との和を、エネルギーコストとして算出する。図27のエネルギーマップにおいては、画素値が4である中段右側の画素に、図中下方向に隣接する画素は、下段中央の画素および右側の画素の2画素である。すなわち、図28の右側に示されるように、上段中央の画素の画素値2、中段右側の画素の画素値4、および、下段中央の画素の画素値3との和は9となり、上段中央の画素の画素値2、中段右側の画素の画素値4、および、下段右側の画素の画素値1との和は7となる。この場合、パス検出部592は、エネルギーコストが最小となる上段中央の画素、中段右側の画素、および下段右側の画素の経路をパスとする。
このようにして、パス検出部592は、上述の処理を、他の上段の画素についても行い、図26の一番右側に示されるように、エネルギーマップ551においてエネルギーコストが最小となるパス571を決定する。
図25のフローチャートに戻り、ステップS344において、圧縮/拡張処理部581は、エネルギーマップにおいて、パス検出部592により検出された、エネルギーコストが最小となるパスに対応する入力画像の人物領域についての画素を削除する。
ステップS345において、エネルギーマップ生成部591は、被写体抽出部21から供給された被写体マップを用いて、入力画像の背景領域についてのエネルギーマップを生成する。
例えば、図29の一番左側に示されるように、入力画像に対して人物領域531および背景領域532が検出された場合、エネルギーマップ生成部591は、被写体抽出部21からの被写体マップにおいて、背景領域532の入力画像(図29の左から2番目)に対応する被写体マップを抽出する。そして、エネルギーマップ生成部591は、抽出した被写体マップを用いて、上述した手法により、図29の左から3番目に示されるようなエネルギーマップ651を生成する。図29のエネルギーマップ651においては、図示されない背景に対応する画素の画素値が特に急峻に変化しており、エッジライン661として示されている。
図25のフローチャートに戻り、ステップS346において、パス検出部592は、エネルギーマップ生成部591によって生成された、背景領域のエネルギーマップにおいて、人物の体軸と同一の方向に、よりエネルギーコストの低いパスを検出する。これにより、パス検出部592は、図29の一番右側に示されるように、エネルギーマップ651においてエネルギーコストが最小となるパス671を決定する。
ステップS347において、圧縮/拡張処理部581は、エネルギーマップにおいて、パス検出部592により検出された最小エネルギーコストとなるパスに対応する入力画像の背景領域についての画素をコピーして付加する。これにより、圧縮/拡張処理部581は、入力画像における人物領域の面積が圧縮され、入力画像における背景領域の面積が拡張された出力画像を出力する。
なお、上述した処理においては、エネルギーマップ551におけるパス571、および、エネルギーマップ651におけるパス671は、幅1画素分の画素の列であるが、例えば、エネルギーコストが最小となるパスに隣接する画素により形成されるパスや、エネルギーコストの低い上位N個のパス等、削除またはコピーされ付加されるパスの幅を、適宜広げるようにしてもよい。
以上の処理によれば、出力画像において影響の少ない、エネルギーコストの低い画素、すなわち、被写体らしさを示す値の低い画素を削除したり、コピーして付加することで、入力画像において、被写体としての人物を含む人物領域の面積を、その人物の体軸に対する法線方向に圧縮するとともに、人物を含まない背景領域の面積を、人物の体軸に対する法線方向に拡張することができるので、画像における人物の容姿をスリムにすることが可能となる。
また、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図30は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)901,ROM(Read Only Memory)902,RAM(Random Access Memory)903は、バス904により相互に接続されている。
バス904には、さらに、入出力インターフェース905が接続されている。入出力インターフェース905には、キーボード、マウス、マイクロホンなどよりなる入力部906、ディスプレイ、スピーカなどよりなる出力部907、ハードディスクや不揮発性のメモリなどよりなる記憶部908、ネットワークインターフェースなどよりなる通信部909、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア911を駆動するドライブ910が接続されている。
以上のように構成されるコンピュータでは、CPU901が、例えば、記憶部908に記録されているプログラムを、入出力インターフェース905およびバス904を介して、RAM903にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU901)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア911に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
そして、プログラムは、リムーバブルメディア911をドライブ910に装着することにより、入出力インターフェース905を介して、記憶部908にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部909で受信し、記憶部908にインストールすることができる。その他、プログラムは、ROM902や記憶部908に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
11 画像処理装置, 21 被写体抽出部, 22 人物抽出部, 23 スリム化部, 41 輝度情報抽出部, 42 色情報抽出部, 43 エッジ情報抽出部, 44 顔情報抽出部, 45 動き情報抽出部, 46 被写体マップ生成部, 51 ぼけ判定部, 54 スコア算出部, 84 輝度情報マップ生成部, 117 色情報マップ生成部, 118 色情報マップ生成部, 153乃至156 エッジ情報マップ生成部, 182 顔情報マップ生成部, 214 動き情報マップ生成部, 241 2値化部, 242 合成部, 243 人物マップ生成部, 281 人物領域検出部, 282 圧縮/拡張処理部, 581 圧縮/拡張処理部, 591 エネルギーマップ生成部, 592 パス検出部

Claims (8)

  1. 入力画像において、前記入力画像上の被写体としての人物を含む領域である人物領域を検出する人物領域検出手段と、
    前記入力画像における前記人物領域の面積を、前記入力画像上の前記被写体としての前記人物の体軸に対する法線方向に圧縮するとともに、前記入力画像における前記人物領域以外の領域である背景領域の面積を、前記法線方向に拡張する圧縮拡張手段と
    を備える画像処理装置。
  2. 前記圧縮拡張手段は、前記入力画像における前記人物領域の画素を、前記法線方向の所定の間隔で間引くとともに、前記背景領域の画素を前記法線方向の所定の間隔でコピーして付加することで、前記人物領域の面積を前記法線方向に圧縮するとともに、前記背景領域の面積を前記法線方向に拡張する
    請求項1に記載の画像処理装置。
  3. 前記圧縮拡張手段は、
    前記入力画像上の前記人物領域および前記背景領域それぞれについて、前記入力画像におけるエッジの強度を表すエネルギーマップを生成するエネルギーマップ生成手段と、
    前記人物領域および前記背景領域それぞれについての前記エネルギーマップにおいて、前記体軸方向に、より低いエネルギーコストのパスを検出するパス検出手段とを含み、
    前記人物領域についての前記エネルギーマップにおける前記パスに対応する前記入力画像上の画素を削除するとともに、前記背景領域についての前記エネルギーマップにおける前記パスに、対応する前記入力画像上の画素をコピーして付加することで、前記人物領域の面積を前記法線方向に圧縮するとともに、前記背景領域の面積を前記法線方向に拡張する
    請求項1に記載の画像処理装置。
  4. 前記入力画像に基づいて、前記入力画像上の前記被写体としての前記人物の領域を特定するための人物特定情報を生成する人物特定情報生成手段をさらに備え、
    前記人物領域検出手段は、前記人物特定情報に基づいて、前記人物領域を検出する
    請求項1に記載の画像処理装置。
  5. 前記入力画像に基づいて、前記入力画像上の前記被写体の領域である被写体領域を特定するための被写体特定情報を生成する被写体特定情報生成手段と、
    前記入力画像に基づいて、前記入力画像上の前記被写体としての前記人物の顔の領域である顔領域を特定するための顔特定情報を生成する顔特定情報生成手段とをさらに備え、
    前記人物特定情報生成手段は、前記被写体特定情報および前記顔特定情報に基づいて、前記人物特定情報を生成する
    請求項4に記載の画像処理装置。
  6. 前記人物特定情報生成手段は、前記被写体特定情報で特定される前記被写体領域のうち、前記顔特定情報で特定される前記顔領域を含む前記被写体領域を、前記入力画像上の前記人物の領域とする前記人物特定情報を生成する
    請求項5に記載の画像処理装置。
  7. 入力画像において、前記入力画像上の被写体としての人物を含む領域である人物領域を検出する人物領域検出ステップと、
    前記入力画像における前記人物領域の面積を、前記入力画像上の前記被写体としての前記人物の体軸に対する法線方向に圧縮するとともに、前記入力画像における前記人物領域以外の領域である背景領域の面積を、前記法線方向に拡張する圧縮拡張ステップと
    を含む画像処理方法。
  8. 入力画像において、前記入力画像上の被写体としての人物を含む領域である人物領域を検出する人物領域検出ステップと、
    前記入力画像における前記人物領域の面積を、前記入力画像上の前記被写体としての前記人物の体軸に対する法線方向に圧縮するとともに、前記入力画像における前記人物領域以外の領域である背景領域の面積を、前記法線方向に拡張する圧縮拡張ステップと
    を含む処理をコンピュータに実行させるプログラム。
JP2009162416A 2009-07-09 2009-07-09 画像処理装置および方法、並びにプログラム Withdrawn JP2011018199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009162416A JP2011018199A (ja) 2009-07-09 2009-07-09 画像処理装置および方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009162416A JP2011018199A (ja) 2009-07-09 2009-07-09 画像処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2011018199A true JP2011018199A (ja) 2011-01-27

Family

ID=43595937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009162416A Withdrawn JP2011018199A (ja) 2009-07-09 2009-07-09 画像処理装置および方法、並びにプログラム

Country Status (1)

Country Link
JP (1) JP2011018199A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017187954A (ja) * 2016-04-06 2017-10-12 Kddi株式会社 画像合成装置、プログラム及びデータ構造
CN114071106A (zh) * 2020-08-10 2022-02-18 合肥君正科技有限公司 一种低功耗设备冷启动快速白平衡方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017187954A (ja) * 2016-04-06 2017-10-12 Kddi株式会社 画像合成装置、プログラム及びデータ構造
CN114071106A (zh) * 2020-08-10 2022-02-18 合肥君正科技有限公司 一种低功耗设备冷启动快速白平衡方法
CN114071106B (zh) * 2020-08-10 2023-07-04 合肥君正科技有限公司 一种低功耗设备冷启动快速白平衡方法

Similar Documents

Publication Publication Date Title
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
US8494256B2 (en) Image processing apparatus and method, learning apparatus and method, and program
EP2151801B1 (en) Image processing device, method, and storage medium
JP5229575B2 (ja) 画像処理装置および方法、並びにプログラム
US8548247B2 (en) Image processing apparatus and method, and program
CN110555434A (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
JP4597391B2 (ja) 顔領域検出装置およびその方法並びにコンピュータ読み取り可能な記録媒体
JP2008152789A (ja) 顔映像の類似度の算出方法及び装置とこれを利用した顔映像の検索方法及び装置、並びに顔合成方法
JP5671928B2 (ja) 学習装置、学習方法、識別装置、識別方法、およびプログラム
WO2019071976A1 (zh) 基于区域增长和眼动模型的全景图像显著性检测方法
JP2007047975A (ja) デジタル画像の複数対象物検出方法および装置並びにプログラム
Kang et al. Detection enhancement for various deepfake types based on residual noise and manipulation traces
Nasrollahi et al. Summarization of surveillance video sequences using face quality assessment
JP2010146395A (ja) 画像処理装置、画像処理方法、画像処理プログラム、及び、電子機器
JP2011018199A (ja) 画像処理装置および方法、並びにプログラム
CN111340760A (zh) 基于多任务两级卷积神经网络的膝关节定位方法
JP2011150594A (ja) 画像処理装置および方法、並びにプログラム
CN113011277A (zh) 基于人脸识别的数据处理方法、装置、设备及介质
Fan et al. Forensic detection of inverse tone mapping in HDR images
Guraya et al. Predictive visual saliency model for surveillance video
CN109948456B (zh) 应用于数字法庭的人脸识别方法及装置
Mazumdar et al. Face-aware Saliency Estimation Model for 360° Images
JP2005078233A (ja) 領域抽出法および領域抽出装置
Alsmirat et al. Building an image database for studying image retargeting
Waqas et al. Transfer-Learning and YOLO V7 Hybridised for Human Cropping for Deepfake Detection Algorithms

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20121002