JP2005208732A

JP2005208732A - 画像処理装置及び方法

Info

Publication number: JP2005208732A
Application number: JP2004011893A
Authority: JP
Inventors: Takashi Tani; 宇谷; Hitoshi Yamakado; 均山門; Toru Miyamoto; 徹宮本
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2004-01-20
Filing date: 2004-01-20
Publication date: 2005-08-04

Abstract

【課題】用意するテンプレートの数を増加させずに複数の人物を写した写真画像から人物領域を自動的に抽出することができる画像処理装置を提供する。
【解決手段】写真画像から複数の顔領域を検出する顔領域検出手段２と、検出されたすべての顔領域を網羅する領域（領域Ａ）を決定する手段３と、検出されたすべての顔領域の中から、領域Ａに対する増分処理の際に基準として用いる顔領域である基準顔を選択する手段４と、領域Ａを上下左右の４方向にそれぞれ、基準顔の長さに予め決められた倍率を乗じた大きさ分、増分する手段５と、増分して得られた人物領域を出力する手段６とを具備している。
【選択図】図１

Description

本発明は、写真画像から人物領域を推定する際に用いて好適な画像処理装置及び方法に関する。

写真画像から人物領域を推定して抽出する技術の従来例としては、特許文献１に提案されたような方法がある。この方法では、画像に対して、エッジ抽出と減色の処理を行い、エッジ画像と減色された画像をそれぞれ作成する。そして、エッジ画像を参照しながら、減色された画像にて領域結合をしてできた画像を、予め用意された各種姿勢の人物領域のテンプレート画像と照合することで、人物領域の抽出を行う。

上記の方法では、照合対象となるテンプレート画像を予め用意しておく必要がある。また、テンプレートは、ユーザーが選択するようになっている。そのため、例えば複数の人物を含む写真画像から全人物の領域を含む人物領域を抽出する場合には、任意数の被写体に対応し、さらにそれぞれの被写体の任意の姿勢に対応できるようなテンプレートを用意する必要がある。そのため、テンプレートの数が膨大になるという問題点がある。また、テンプレートの数が増えた場合、テンプレートの選択が煩雑になりやすいという課題もある。

なお、本願発明に係る背景技術の一つが非特許文献１に記載されている。
特開２００２−２４５４４１号公報 Kaori. H、"「男性の体のサイズ」と「女性の体のサイズ」の身長別の平均値がわかるサイト"、［online］、［平成１５年１２月１９日検索］、インターネット＜URL：http://homepage3.nifty.com/orangejuice/index.html＞

上記の従来例の問題点を鑑み、本発明は、用意するテンプレートの数を増加させずに、またテンプレートをユーザーが選択しなくても、任意数の人物を写した写真画像から人物の領域を自動的に抽出することができる画像処理装置及び方法を提供することを目的とする。

上記課題を解決するため、本発明は、写真画像から１又は複数の顔領域を検出する顔領域検出手段と、検出されたすべての顔領域を網羅する第１の領域を決定する第１領域決定手段と、検出されたすべての顔領域の中から、第１の領域に対する増分処理の際に基準として用いる顔領域である基準顔領域を選択する基準顔領域選択手段と、第１の領域を上下左右の４方向にそれぞれ、基準顔領域の大きさに予め決められた倍率を掛けた大きさ分、増分することで、人物領域を決定する人物領域決定手段とを具備することを特徴とする。

上記構成によれば、人物領域の推定を、顔領域の抽出と、抽出した顔領域に基づく人物領域の推定という処理によって実現することができる。顔領域の抽出処理の際にはテンプレートを用いる場合も考えられるが、顔（または頭部）限定のテンプレートで十分であり、従来必要であった躰全体あるいは半身の任意の姿勢に対応したテンプレートを用意する必要はない。また顔領域を抽出した後は、簡易な演算で、全人物に対応する人物領域を決定することができるので、容易に処理を自動化することができる。

本発明は、また、前記基準顔領域選択手段が、最大面積を持つ顔領域を基準顔領域として選択することを特徴とする。この構成によれば、最大面積を持つ顔領域を基準とするので、増分の大きさが余裕を持って設定され、実際の人物の領域が、人物領域決定手段によって決定された人物領域に含まれる可能性を高めることができる。

本発明は、また、前記基準顔領域選択手段が、第１の領域の上下左右の端にそれぞれ最も近い顔領域の中から最大面積を持つ顔領域を基準顔領域として選択することを特徴とする。この構成によれば、第１の領域の端に位置した最大面積を持つ顔領域を基準とするので、演算対象の顔領域の数が限定され、処理を高速化することができる。

また、本発明の他の態様は、写真画像から１又は複数の顔領域を検出する顔領域検出過程と、検出されたすべての顔領域を網羅する第１の領域を決定する第１領域決定過程と、検出されたすべての顔領域の中から、第１の領域に対する増分処理の際に基準として用いる顔領域である基準顔領域を選択する基準顔領域選択過程と、第１の領域を上下左右の４方向にそれぞれ、基準顔領域の大きさに予め決められた倍率を掛けた大きさ分、増分することで、人物領域を決定する人物領域決定過程とを含むことを特徴とする。本発明のさらに他の態様は、写真画像から１又は複数の顔領域を検出する顔領域検出過程と、検出されたすべての顔領域を網羅する第１の領域を決定する第１領域決定過程と、検出されたすべての顔領域の中から、第１の領域に対する増分処理の際に基準として用いる顔領域である基準顔領域を選択する基準顔領域選択過程と、第１の領域を上下左右の４方向にそれぞれ、基準顔領域の大きさに予め決められた倍率を掛けた大きさ分、増分することで、人物領域を決定する人物領域決定過程とをコンピュータを用いて実行するための記述を含むことを特徴とする。

以下の図面を参照して発明を実施するための最良の形態について説明する。本実施の形態の画像処理装置は、コンピュータとそのコンピュータで実行されるプログラムとから構成される。本実施の形態は、画像中の一部の領域を抽出する装置であって、１または複数の人物が占める領域（人物全身や半身が占める領域であって以下、人物領域とする。）と非人物領域とを分別し、人物領域を示す座標点等の情報を外部の装置あるいは他のプログラム（もしくはサブプログラム）に出力する機能を実現する。その構成は、例えば、パーソナルコンピュータと、パーソナルコンピュータのハードウェア資源を利用して実行されるソフトウェア・プログラムとして実現されたり、携帯電話機、デジタルカメラ等の携帯型情報装置のＣＰＵ（中央処理装置）等とそれを利用して実行されるソフトウェア・プログラムとして実現されたりすることができる。またそのソフトウェア・プログラムは、コンピュータ読み取り可能な記録媒体や、通信回線を介して配布することが可能である。

図１は、本実施形態の構成例を示すブロック図である。各ブロックはそれぞれ、ハードウェアとプログラムとから構成されている。ここで、これらの構成では共通のハードウェアまたはプログラムが使用されることがある。図１に示す例では、本実施形態の画像処理装置が、画像入力手段１、顔領域検出手段２、すべての顔領域を網羅する領域を求める手段３、基準顔を求める手段４、すべての顔領域を網羅する領域を増分する手段５、および人物領域を出力する手段６から構成されている。

画像入力手段１は、処理対象の写真画像を入力するための構成であり、所定の記憶媒体、通信回線を介して接続されている他の記憶装置、デジタルカメラ、カメラ機能付きの携帯電話、イメージスキャナ、フィルムスキャナ等を用いて、ユーザーが指定した画像を入力する。顔領域検出手段２は、画像入力手段１で入力された写真画像から１または複数の顔領域を検出する。顔領域とは、人物領域のうち顔（または頭）が占める領域である。

すべての顔領域を網羅する領域を求める手段３は、顔領域検出手段２で検出されたすべての顔領域を網羅する領域（特許請求の範囲の「第１の領域」；以下、領域Ａとする。）を決定する。基準顔を求める手段４は、顔領域検出手段２で検出されたすべての顔領域の中から、領域Ａに対する増分処理の際に基準として用いる顔領域である基準顔領域（以下、基準顔とする。）を選択する。

すべての顔領域を網羅する領域を増分する手段５は、領域Ａを、上下左右の４方向にそれぞれ、基準顔の長さ、幅、面積等で表される大きさに対応して予め決められた倍率を掛けた大きさ分、増分することで、人物領域を決定する。そして、人物領域を出力する手段６は、すべての顔領域を網羅する領域を増分する手段５で決定された人物領域を示す情報を、所定形式で所定の出力先に対して出力する。

次に図２を参照して、図１に示す構成における処理の流れについて説明する。画像入力手段１で処理対象の写真画像が入力されると、顔領域検出手段２は、その画像に含まれるすべての顔領域の検出を行う（ステップＳ１０１〜Ｓ１０３）。

顔領域検出手段２は、画像中に含まれる１または複数人分のすべての顔領域の検出を、単一の顔領域の検出を繰り返すことで実現する（ステップＳ１０２〜Ｓ１０３）。単一の顔領域の検出は、単一の顔肌色領域の検出と、この顔肌色領域と顔パターンテンプレートとの照合の二つのステップからなる。顔領域の候補領域となる肌色領域の検出方法としては、よく用いられるＨＳＶ色空間での検出方法がある。これは、肌色画素のＨ成分(色相)とＳ成分(彩度)がＨＳＶ色空間のＨ−Ｓ平面上において一定範囲内に収束している特徴を利用する検出方法である。ここでＶは明度である。

具体的には、ＲＧＢ（Red Green Blue）形式等で表された入力画像をＨＳＶ表色系に変換して、ＨＳＶ色空間にて肌色画素を検出する。そして、隣接する肌色画素同士を連結することで、肌色領域を形成して行く。

次に、検出された肌色領域が顔領域かどうかを判定するには、図３に示されたような事前に用意された向き別の顔パターンと照合する。図３は、正面（ａ）と、３通りの右向きの顔パターン（ｂ）〜（ｄ）を示している。なお左向きの顔パターンは、右向きの顔パターンをパターン画像中央の垂直線における左右対称の位置にある画素を置換することで取得することができる。

具体的には、まず、肌色画素同士を連結することで検出された顔の候補領域の輝度画像を求める。得た輝度画像の寸法を、顔パターンの寸法にあわせるように拡大／縮小したうえ、図３に示すような顔パターンと同様にモザイク化処理を行って、顔の候補領域と顔パターンの相関度を求める。そして、顔パターンのうちのいずれかの相関度が予め決められた閾値以上の相関度を持つ顔の候補領域を顔領域と判定する。

次に、すべての顔領域を網羅する領域を求める手段３は、ステップＳ１０１〜Ｓ１０３で求められたすべての顔領域を網羅する領域（領域Ａ）を決定する（ステップＳ１０４）。顔領域検出手段２が検出した各顔領域は、入力写真画像の左上隅を原点とする座標系における、top、left、bottom、rightの座標値を持っており、これらの座標値のうち、topとleftの最小値およびbottomとrightの最大値を求める。各最小値をTOPおよびLEFT、各最大値を、BOTTOMおよびRIGHTと記す。この四つの座標値で囲まれる矩形が領域Ａとなる。

例えば図６に示すように、画像１０に、５つの顔領域２１〜２５が検出された場合、顔領域２２〜２５はすべて、顔領域２１と同様にtop、left、bottom、rightの座標値を持っている。そして、各座標値top、left、bottom、rightの最上値、最左値、最下値、最右値を求めることで、領域Ａ（すべての顔領域を網羅する領域）１１を特定する座標値（TOP、LEFT、BOTTOM、RIGHT）が求められる。TOPおよびBOTTOMは、画像１０の縦方向の座標値、LEFTおよびRIGHTは画像１０の横方向の座標値を有している。

図４は、すべての顔領域を網羅する領域を求める手段３が、領域Ａを求める処理のフローチャートである。まず、変数TOP、LEFT、BOTTOM、RIGHTを初期化して、領域Ａの初期値を設定する（ステップＳ２０１）。次に、未算入の顔領域があるかどうかを判定する（ステップＳ２０２）。ある場合（ステップＳ２０２で「はい」）、顔領域（図６の各顔領域２１〜２５）毎に、各座標値top、left、bottom、rightと、変数TOP、LEFT、BOTTOM、RIGHTを比較し、より上、左、下、右の座標値が現れたとき、最上値TOP、最左値LEFT、最下値BOTTOM、最右値RIGHTをそれぞれ更新する（ステップＳ２０３〜Ｓ２１１）。そして、未算入の顔領域が無くなった場合（ステップＳ２０２で「いいえ」）、領域Ａを出力する（ステップＳ２１２）。

次に、基準顔を求める手段４が、基準顔を求める処理を行う（図２のステップＳ１０５）。
図５に処理内容の一例を示す。図５に示す処理では、基準顔を求める手段４が、顔領域検出手段２が検出した顔領域のうち、最大面積を持つ顔領域を基準顔としている。

まず、基準顔の領域面積と寸法の初期値を設定する（図５のステップＳ３０１）。ここでSは基準顔の面積、WIDTHは幅、HEIGHTは高さを保持する変数である。次に、未算入の顔領域があるか否かを判定する（ステップＳ３０２）。未算入の顔領域がある場合（ステップＳ３０２で「はい」）、未算入の１つの顔領域の座標を入力し（ステップＳ３０３）、顔の寸法と面積ｓを求める（ステップＳ３０４）。そして、それまでの面積Ｓと、対象としている顔領域の面積ｓを比較して（ステップＳ３０５）、面積ｓの方が大きいときに面積Ｓ、幅WIDTH、高さHEIGHTを更新する（ステップＳ３０６）。ここで、ｗは対象としている顔領域の幅、ｈは高さを格納する変数である。

例えば、図６に示す例では、顔領域２１〜２５に対して面積ｓ、幅ｗ、高さｈがそれぞれ求められる（ステップＳ３０３〜Ｓ３０４）。そして、最も面積が大きい顔領域（顔領域２１とする）の幅ｗおよび高さｈの値が、変数WIDTHおよびHEIGHTに格納されて、それぞれ出力される（ステップＳ３０７）。

次に、すべての顔領域を網羅する領域を増分する手段５が、人物領域を求め、人物領域を出力する手段６によって出力される（図２のステップＳ１０６）。例えば、図６に示す例では、上記のようにして算出した領域Ａ（１１）に上下左右の方向で、それぞれ、基準顔（顔領域２１）の高さの３個分（上方向）および６個分（下方向）ならびに幅の４個分（左方向）および４個分（右方向）を領域Ａの外側に増分して得た領域を人物領域１２とする。なお、図６では、写真画像１０内の顔領域２１〜２５はハッチングで示された顔領域であり、それらを囲む矩形が領域Ａ（１１）である。また破線の領域が増分された領域Ａであり、人物領域１２である。ここで、増分率（増分の係数）の値は、人間の顔部（あるいは頭部）の寸法（幅や高さ、あるいは面積）と人体寸法との間に一定の比例関係があるという統計的な特性を利用して設定することが望ましい。

以上のようにして図６に示すように決定された人物領域１２は、その領域内にすべての人物（顔と顔以外の躰の部分の全身）が含まれる可能性が高い領域として推定することができる。つまり、人物領域１２の外側の領域は、人物以外の被写体が写されている可能性が高いことになる。したがって、例えば、その領域（領域１２の外側の領域）を、複数の人物を撮影した団体写真等で、団体名、撮影場所、撮影日時等のコメントを印刷する領域として使用した場合、人物にそれらのコメントが重なる可能性を低くすることができる。

なお、基準顔を選択する際には、最大面積を持つ顔領域を基準顔として選択することに代えて、例えば、領域Ａの上下左右の端にそれぞれ最も近い顔領域の中から最大面積を持つ顔領域を基準顔として選択するようにしてもよい。例えば、図６に示す例で領域２１〜２５以外に、領域Ａ（１１）の内部に複数の顔領域があったとしても、領域Ａ（１１）の上下左右に最も近い顔領域（領域２１〜２５）のみを検出対象として、最大の面積を持つ顔領域を検出することができる。これによれば、基準顔の選択処理に要する時間を短縮することができる。

以上のように、本実施形態では、写真画像から人物領域を検出するにあたって、人体全身の領域の代わり、顔領域を検出して、人間の頭部の寸法（あるいは顔部の寸法）と人体寸法との間に一定の比例関係があるという特性を利用し、検出された顔領域を上下左右の方向別に予め決められた倍率で増分（拡大）することで、人物領域を検出する。これによれば、従来例と比べ、任意数の被写体人物がある写真に対応できること、被写体人物の姿勢によらず人物領域を検出できること等のメリットがある。

なお、本発明の実施の形態は上記のものに限定されず、例えば、各処理の実行順序を変更したり、増分の率を複数のものから選択可能としたり、あるいはユーザーによって任意に設定可能にしたり、さらに入力や出力を行う装置と、画像処理を行う装置とを通信回線を介して分散したりする変更が可能である。

本発明による画像処理装置の実施の形態を示すブロック図。図１の構成における処理の流れを説明するためのフローチャート。図２の顔領域を検出する処理で用いられる顔パターンテンプレートの一例を示す図。図２のステップＳ１０４内の処理の一例を示すフローチャート。図２のステップＳ１０５内の処理の一例を示すフローチャート。図２の各処理を説明するための入力画像１０の一例を示す図。

符号の説明

１画像入力手段、２顔領域検出手段、３すべての顔領域を網羅する領域を求める手段、４基準顔を求める手段、５すべての顔領域を網羅する領域を増分する手段、６人物領域を出力する手段、１０入力写真画像、１１領域Ａ（第１の領域）、１２人物領域、２１〜２５顔領域

Claims

写真画像から１又は複数の顔領域を検出する顔領域検出手段と、
検出されたすべての顔領域を網羅する第１の領域を決定する第１領域決定手段と、
検出されたすべての顔領域の中から、第１の領域に対する増分処理の際に基準として用いる顔領域である基準顔領域を選択する基準顔領域選択手段と、
第１の領域を上下左右の４方向にそれぞれ、基準顔領域の大きさに予め決められた倍率を掛けた大きさ分、増分することで、人物領域を決定する人物領域決定手段と
を具備することを特徴とする画像処理装置。
前記基準顔領域選択手段が、最大面積を持つ顔領域を基準顔領域として選択することを特徴とする請求項１記載の画像処理装置。
前記基準顔領域選択手段が、第１の領域の上下左右の端にそれぞれ最も近い顔領域の中から最大面積を持つ顔領域を基準顔領域として選択することを特徴とする請求項１記載の画像処理装置。
写真画像から１又は複数の顔領域を検出する顔領域検出過程と、
検出されたすべての顔領域を網羅する第１の領域を決定する第１領域決定過程と、
検出されたすべての顔領域の中から、第１の領域に対する増分処理の際に基準として用いる顔領域である基準顔領域を選択する基準顔領域選択過程と、
第１の領域を上下左右の４方向にそれぞれ、基準顔領域の大きさに予め決められた倍率を掛けた大きさ分、増分することで、人物領域を決定する人物領域決定過程と
を含むことを特徴とする画像処理方法。
写真画像から１又は複数の顔領域を検出する顔領域検出過程と、
検出されたすべての顔領域を網羅する第１の領域を決定する第１領域決定過程と、
検出されたすべての顔領域の中から、第１の領域に対する増分処理の際に基準として用いる顔領域である基準顔領域を選択する基準顔領域選択過程と、
第１の領域を上下左右の４方向にそれぞれ、基準顔領域の大きさに予め決められた倍率を掛けた大きさ分、増分することで、人物領域を決定する人物領域決定過程と
をコンピュータを用いて実行するための記述を含むことを特徴とする画像処理プログラム。