JP2006285468A

JP2006285468A - 画像対象領域抽出装置及び画像対象領域抽出方法

Info

Publication number: JP2006285468A
Application number: JP2005102563A
Authority: JP
Inventors: Kazuto Sato; 和人佐藤; Sakura Kadowaki; さくら門脇
Original assignee: Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency
Priority date: 2005-03-31
Filing date: 2005-03-31
Publication date: 2006-10-19

Abstract

【課題】外部的な基準を必要とせず、撮影環境が変化した場合であっても画像上の対象領域を安定して抽出可能な画像対象領域抽出装置等を提供すること。
【解決手段】ＲＧＢ表色系のカラー画像に基づいて、肌色強調のためのＲＧＲ表色系のカラー画像及びＲＲＢ表色系のカラー画像を生成し、これらをＬ^＊ａ^＊ｂ^＊表色系に変換し、自己組織化マップ（ＳＯＭ）を用いて自己写像することにより肌色候補領域を抽出する。抽出された当該肌色候補領域をガボール変換した顔候補画像から顔部品（目・鼻・口等）の有無を検出することにより顔領域を特定する。
【選択図】図２

Description

本発明は、例えば一般的なシーン下で得られる画像から自己組織化マップ（Self-Organizing Map：以下、「ＳＯＭ」とも称する。）を用いて顔パターンを抽出する方法であり、ＲＧＢ表色系のカラー画像中のＲ成分を強調することにより、様々な負荷（体調や感情等）や環境等により変化する肌色に柔軟に対応可能な手法に関する。

近年、画像中の人物の情報を自動的に認識することにより、手話（ジェスチャ）の解析、表情解析、顔画像による個人認証等を行う研究が様々な分野で行われている。人物の認識は、その要求レベルと具現化の技術によって概ね３段階に分類できる。第１段階は人物の抽出であり、画像中に人物が含まれるかどうかを判定し、その動作を追跡するような機能レベルである。この機能は、監視カメラによるセキュリティ等に活用されている。第２段階は人物の分別であり、画像中に人物が含まれるかどうかを判定し、さらに、個々の人物を分別して判定する機能レベルである。この機能は、顔画像を用いた個人認証による入退室管理等のセキュリティに活用されている。第３段階は表情の理解であり、画像中の人物を認識し、個人の特定を行い、さらに、個人の状態の認識を行う機能レベルである。この機能は、視線入力やより複雑な表情の理解等がある。

第1段階、第２段階、第３段階のすべてに関する技術として、人の肌領域（特に、顔領域）の抽出がある。人の肌領域の抽出は、手話（ジェスチャ）の認識、表情解析、顔画像による個人認証等の様々な分野で活用されている。さらに、人は顔色を見ることでその人の体調をある程度予測することができ、皮膚科などの医療現場では医師による目視診断が重要である。

一般に、肌の色は、肌の中に含まれるメラニンの濃度，毛細血管中のヘモグロビンの濃度，そして全ヘモグロビンの割合である酸素飽和度によってほぼ決定されると言われている。しかし、人間の肌色はその人の体調や感情などに強く依存し、短時間でもその状態が大きく変化する。また、取得した画像の環境による変化（屋内外、照明光源や背景領域の相違等）や時節による変化（日照時間による明るさの相違等）によっても肌の色は大きく変化する。

したがって、一般的なシーン下から安定して肌色領域（顔領域）を抽出することは困難である。従来においては、例えば、肌の色が分布する色範囲の閾値を予め設定しておき比較する手法（例えば、特許文献１参照）、人物が不在である画像データ等に基づいて予め背景領域を設定しておき、それと比較することにより人物（肌色領域）を見出す手法（例えば、特許文献２参照）、赤外線カメラを用いて人物が発する熱を検出する手法（例えば、特許文献３参照）、ニューラルネットワーク、遺伝的アルゴリズム（ＧＡ）を用いて人物（肌色領域）を見出す手法等が提案されている。

しかしながら、従来の肌色領域抽出手法は、撮影環境が変化すると対応できないか、外部的な基準による判断が必要とされる。従って、その精度、適用範囲には限界があり、未だ実用性に乏しいものと言える。

なお、本願に関連する公知文献としては、例えば次のようなものがある。
特開平１２−１８７７２１号公報特開２００１−２１１４３６号公報特開２００３−６６４２号公報

本発明は、上記事情を鑑みてなされたもので、外部的な基準を必要とせず、撮影環境が変化した場合であっても画像上の対象領域を安定して抽出可能な画像対象領域抽出装置、及び画像対象領域抽出方法を提供することを目的としている。

本発明は、上記目的を達成するため、次のような手段を講じている。

本発明の第１の視点は、所定の色領域を少なくとも一つ含み複数の画素から構成される第１の画像データを用いた自己写像により対象領域を抽出する画像対象領域抽出装置であって、前記第１の画像データを記憶する記憶手段と、前記第１の画像データの色成分を置換することで、前記所定の色領域を強調する少なくとも一つの第２の画像データを生成する画像データ生成手段と、前記第１の画像データを用いて前記自己写像の入力とする第３の画像データを生成し、前記第２の画像データを用いて前記自己写像の入力とする第４の画像データを生成する入力データ生成手段と、前記第３の画像データを構成する各画素の値及び前記少なくとも一つの第４の画像データを構成する各画素の値を入力とし、所定の重み係数によって色情報を各画像データの特性として自己写像し複数のマップ層ユニットに出力することで、入力した前記各画素を、色情報を基準として分類する自己写像手段と、前記所定の重み係数に基づいて、前記複数の出力ユニットの中から勝者ユニットを選択する選択手段と、選択された前記勝者ユニットに分類された画素に基づいて、前記第１の画像データにおける少なくとも一つの前記所定の色領域を前記対象領域として抽出する抽出手段と、を具備することを特徴とする画像対象領域抽出装置である。

本発明の第２の視点は、顔領域を含む肌色領域を少なくとも一つ含み複数の画素から構成されるＲＧＢ表色系の第１の画像データを用いた自己写像により、対象領域としての前記顔領域を抽出する画像対象領域抽出装置であって、前記第１の画像データを記憶する記憶手段と、前記第１の画像データの色成分を置換することで、前記肌色領域を強調する少なくとも一つの第２の画像データを生成する画像データ生成手段と、前記第１の画像データ及び前記第２の画像データをＬ^＊ａ^＊ｂ^＊表色系に変換することで、第３の画像データ及び第４の画像データを生成する入力データ生成手段と、前記第３の画像データを構成する各画素の値及び前記少なくとも一つの第４の画像データを構成する各画素の値を入力とし、所定の重み係数によって色情報を各画像データの特性として自己写像し複数のマップ層ユニットに出力することで、入力した前記各画素を、色情報を基準として分類する自己写像手段と、前記所定の重み係数に基づいて、前記複数の出力ユニットの中から勝者ユニットを選択する選択手段と、選択された前記勝者ユニットに分類された画素に基づいて、前記第１の画像データにおける前記顔領域を含む前記肌色領域を前記対象領域として抽出する抽出手段と、を具備することを特徴とする画像対象領域抽出装置である。

本発明の第３の視点は、所定の色領域を少なくとも一つ含み複数の画素から構成される第１の画像データを用いた自己写像により対象領域を抽出する画像対象領域抽出方法であって、前記第１の画像データの色成分を置換することで、前記所定の色領域を強調する少なくとも一つの第２の画像データを生成する第１のステップと、前記第１の画像データを用いて前記自己写像の入力とする第３の画像データを生成し、前記第２の画像データを用いて前記自己写像の入力とする第４の画像データを生成する第２のステップと、前記第３の画像データを構成する各画素の値及び前記少なくとも一つの第４の画像データを構成する各画素の値を入力とし、所定の重み係数によって色情報を各画像データの特性として自己写像し複数のマップ層ユニットに出力することで、入力した前記各画素を、色情報を基準として分類する第３のステップと、前記所定の重み係数に基づいて、前記複数の出力ユニットの中から勝者ユニットを選択する第４のステップと、選択された前記勝者ユニットに分類された画素に基づいて、前記第１の画像データにおける少なくとも一つの前記所定の色領域を前記対象領域として抽出する第５のステップと、を具備することを特徴とする画像対象領域抽出方法である。

本発明の第４の視点は、顔領域を含む肌色領域を少なくとも一つ含み複数の画素から構成されるＲＧＢ表色系の第１の画像データを用いた自己写像により、対象領域としての前記顔領域を抽出する画像対象領域抽出方法であって、前記第１の画像データの色成分を置換することで、前記肌色領域を強調する少なくとも一つの第２の画像データを生成する第１のステップと、前記第１の画像データ及び前記第２の画像データをＬ^＊ａ^＊ｂ^＊表色系に変換することで、第３の画像データ及び第４の画像データを生成する第２のステップと、前記第３の画像データを構成する各画素の値及び前記少なくとも一つの第４の画像データを構成する各画素の値を入力とし、所定の重み係数によって色情報を各画像データの特性として自己写像し複数のマップ層ユニットに出力することで、入力した前記各画素を、色情報を基準として分類する第３のステップと、前記所定の重み係数に基づいて、前記複数の出力ユニットの中から勝者ユニットを選択する第４のステップと、選択された前記勝者ユニットに分類された画素に基づいて、前記第１の画像データにおける前記顔領域を含む前記肌色領域を前記対象領域として抽出する第５のステップと、を具備することを特徴とする画像対象領域抽出方法である。

以上本発明によれば、外部的な基準を必要とせず、撮影環境が変化した場合であっても画像上の対象領域を安定して抽出可能な画像対象領域抽出装置、及び画像対象領域抽出方法を実現することができる。

以下、本発明の実施形態を図面に従って説明する。なお、以下の説明において、略同一の機能及び構成を有する構成要素については、同一符号を付し、重複説明は必要な場合にのみ行う。また、本発明の技術的思想は、ＲＧＢ表色系の色成分（すなわち、Ｒ成分、Ｇ成分、Ｂ成分）から構成される通常のカラー画像から、特定の色領域、及び当該色領域中の特定構造（例えば、形状、相対的な位置関係等の位相構造）を持つ領域を色相関等の色情報を基準として抽出するものであれば、どのような用途でも適用可能である。本実施形態においては、説明を具体的にするため、ＲＧＢ表色系のカラー画像中における肌色領域の抽出、及び当該肌色領域中の顔領域を抽出する場合を例とする。

図１は、本実施形態に係る画像対象領域抽出装置１のブロック構成図を示している。同図に示すように、画像対象領域抽出装置１は、操作部２、表示部３、送受信部４、制御部５、画像データ記憶部６、肌色候補領域抽出部７、顔領域特定部８、インタフェース部９を具備している。

操作部２は、操作者からの各種指示、条件、等を当該装置１にとりこむためのトラックボール、各種スイッチ、マウス、キーボード等を有している。

表示部３は、画像、所定の操作を行うための入力画面等を所定の形態にて表示する。

送受信部４は、ネットワークを介して他の装置と画像データを含む情報の送受信を行う。

制御部５は、当該画像対象領域抽出装置１を構成する各ユニットを動的又は静的に制御する。特に、制御部５は、後述する肌色候補領域抽出処理、顔領域特定処理において、画像データ記憶部６、肌色候補領域抽出７、顔領域特定部８、操作部２、表示部３等を統括的に制御する。

画像データ記憶部６は、この画像データは、送受信部４によってネットワークを介して取得された画像データ、ＣＣＤによって撮影されインタフェース部９を介して送り込まれた画像データを記憶する。これらの画像データは、ＲＧＢ成分から構成されるものであり、原画像データとも呼ばれる。

肌色候補領域抽出部７は、画像データに記憶されたＲＧＢ成分を有する画像データから、肌色候補領域を抽出する。この肌色候補領域抽出処理については、後で詳しく説明する。

顔領域特定部８は、肌色候補領域抽出処理によって抽出された肌色候補領域の中から、顔領域を特定する。この顔領域特定処理についても、後で詳しく説明する。

インタフェース部９は、ＣＣＤカメラによって取得された画像データを画像データ記憶部６に送り出す。

図２は、肌色候補領域抽出部７、顔領域特定部８の構成を説明するためのブロック図である。同図に示すように、肌色候補領域抽出部７は、肌色強調部１０、色空間変換部１１、ＳＯＭ自己写像部１２、ＳＯＭ重み・構造記憶部１３、重み変換部１４、勝者ユニット選択部１５、肌色候補領域抽出部１６、候補領域整形部１７を有している。また、顔領域特定部８は、顔候補特定部１８、ガボール変換部１９、顔部品検出部２０、顔領域決定部２１を有している。

肌色強調部１０は、ＲＧＢ表色系のカラー画像を用いて、黄みがかった肌色が強調される画像データ、及び青みがかった肌色が強調される画像データを生成する。

色空間変換部１１は、各画像データについて、ＲＧＢ表色系等からＬ^＊ａ^＊ｂ^＊表色系への変換を行う。

ＳＯＭ自己写像部１２は、肌色が強調された画素毎の画像データ等を入力して、所定の重み係数Ｗｉｊによって肌色情報を各画像データの特性として、自己組織化マップを用いて自己写像する。これにより、入力した各画素は、肌色情報を基準として分類される。ここで、肌色情報とは、例えばマンセルシステムの色相環における肌色と他の色との相関関係（色相関）を意味する。

ＳＯＭ重み・構造記憶部１３は、ＳＯＭによって得られる重み係数を記憶する。

重み変換部１４は、ＳＯＭ自己写像部１２による自己学習の結果である重み係数を後述する標準色空間、肌強調空間のａ^＊成分、ｂ^＊成分に変換する。

勝者ユニット選択部１５は、後述する肌強調空間においてａ^＊成分、ｂ^＊成分の差が最も大きくなる出力ユニットを勝者ユニットとして選択する。

肌色候補領域抽出部１６は、勝者ユニット選択部１５によって選択された勝者ユニットに分類されるＲＧＢ表色系カラー画像の画素を（全）肌色候補領域として抽出する。

候補領域整形部１７は、抽出された肌色候補領域に対して、二値化処理、塗りつぶし処理を行うことにより、肌色候補領域を整形する。

顔候補特定部１８は、整形された肌色候補領域に対してテンプレートマッチング等の処理を施し、顔候補領域を特定（抽出）する。

ガボール変換部１９は、抽出した顔候補領域に対応するグレースケール画像を生成し、これをガボール変換して原画像における顔候補領域を抽出する。

顔部品検出部２０は、抽出された原画像における顔候補領域から顔部品（目、口等）検出できるか否かにより、各顔候補領域が顔であるか否かを判定する。

顔領域決定部２１は、顔部品検出部２０の判定結果に基づいて、顔領域を決定する。

なお、図１、図２においては、画像データ記憶部６、ＳＯＭの重み・構造記憶部１３をそれぞれ別の構成としたが、これに拘泥されることなく、単一のハードウェアによって実現する構成であってもよい。また、図１、図２において、各処理に対応するユニットを有する構成としたが、これに拘泥されることなく、複合的なユニットを設け、これが複数の処理を行うとする構成としてもよい。

（ＳＯＭを用いた肌色候補領域抽出機能）
次に、ＳＯＭを用いた肌色候補領域抽出機能について説明する。当該機能は、標準色空間内の画像データ及び肌強調空間内での画像データから生成される情報を入力として一次元ＳＯＭで自己写像し、その出力及び重み係数を用いて肌候補領域を抽出するものである。ここで、標準色空間とは、ＲＧＢ表色系の色成分から構成される通常のカラー画像が存在する仮想的な空間である。また、肌強調空間とは、ＲＧＢ表色系の色成分のうちＧ成分又はＢ成分をＲ成分に変換した色成分（すなわち、Ｒ成分及びＧ成分のみ、又はＲ成分又はＢ成分のみ）から構成されるカラー画像が存在する仮想的な空間である。なお、ＲＧＢ表色系のＧ成分をＲ成分に変換した表色系を「ＲＲＢ表色系」と、ＲＧＢ表色系のＢ成分をＲ成分に変換した表色系を「ＲＧＲ表色系」と、それぞれ呼ぶこととする。

まず、一般的なＳＯＭについて説明する。ＳＯＭは、入力データの位相を保存し、トポロジカルなマッピングを行うものであり、その学習課程では、明示的な教師を必要としない。

一般のＳＯＭは、入力ユニットを含む入力層と、出力ユニットを含むマッピング層との二層からなる。典型的なＳＯＭの学習アルゴリズムは、次の様である。

（１）ｗ_ｉｊ（１≦ｉ≦ｎ）を時刻ｔにおける入力ユニットｉから出力ユニットｊへの重み係数とする。ユニットの重み係数を乱数で初期化し、ノードｊの近傍の初期範囲を大きく設定する。

（２）ｘ_ｉ（１≦ｉ≦ｎ）を時刻ｔにおけるノードｉへの入力とする。

（３）入力データと出力ノードｊとのユークリッド距離ｄ_ｊを次の式（１）にて計算する。

（４）ユークリッド距離ｄ_ｊが最小となる出力ユニットを検索する。

（５）Ｎ_ｃ（ｔ）で定義される近傍に含まれるユニットへの重み係数を、次の式（２）にて更新する。
ｗ_ｉｊ（ｔ＋１）＝ｗ_ｉｊ（ｔ）＋α（ｔ）（ｘ_ｉ（ｔ）−ｗ_ｉｊ（ｔ））（２）
ここで、α（ｔ）は学習率係数（０＜α＜１）、Ｎ_ｃ（ｔ）は近傍領域のサイズであり、時間とともに減少させる。

（６）上記（２）〜（５）の処理を繰り返す。

ＳＯＭを用いた肌色候補領域抽出は、次の様にして実行される。

図３は、ＳＯＭを用いた肌色候補領域抽出における処理の流れを示したフローチャートである。同図に示すように、まず、肌色強調部１０は、標準色空間におけるＲＧＢ表色系のカラー画像を画像データ記憶部６から取得し（ステップＳ１）、肌強調空間におけるＲＧＲ表色系の肌強調画像及びＲＲＢ表色系の肌強調画像を生成する（ステップＳ２）。

図４、図５、図６は、ＲＧＲ表色系及びＲＲＢ表色系の肌強調画像の概念を説明するための図である。図４（ａ）に示す標準色空間におけるＲＧＢ表色系のカラー画像が、図４（ｂ）に示すようなＲＧＢ成分の分布（太線がＲ成分、実線がＢ成分、点線がＧ成分）を有するものであった場合、当該画像のＧ成分をＲ成分に置換することで図５（ａ）に示すＲＲＢ画像が、Ｂ成分をＲ成分に置換することで図５（ｂ）に示すＲＧＲ画像が、それぞれ生成される。この色成分の置換をマンセルシステムの色相環で表すと、図６、図７の様である。

上記置換によるＲＲＢ画像及びＲＧＲ画像の生成の意味は、次のようなものである。すなわち、人間の全ての肌の色は、青みがかった肌色と黄みがかった肌色との度合いによって分類することができる。Ｇ成分をＲ成分とする置換によるＲＲＢ画像の生成は、赤み成分の情報量を増加させることにより、青みがかった肌色の度合いを強調した画像を生成することに対応している。また、Ｂ成分をＲ成分とする置換によるＲＲＢ画像の生成は、より肌色に近い情報量を増加させることにより、黄みがかった肌色の度合いを強調した画像を生成することに対応している。

次に、色空間変換部１１は、標準色空間及び肌色強調空間をＬ^＊ａ^＊ｂ^＊表色系に変換する（ステップＳ３）。この変換により、標準色（ＲＧＢ）空間おけるＬ^＊ａ^＊ｂ^＊−Ｌ成分、Ｌ^＊ａ^＊ｂ^＊−ａ^＊成分、Ｌ^＊ａ^＊ｂ^＊−ｂ^＊成分、肌色強調（ＲＧＲ）空間におけるＬ^＊ａ^＊ｂ^＊−Ｌ成分、Ｌ^＊ａ^＊ｂ^＊−ａ^＊成分、Ｌ^＊ａ^＊ｂ^＊−ｂ^＊成分、肌色強調（ＲＲＢ）空間におけるＬ^＊ａ^＊ｂ^＊−Ｌ成分、Ｌ^＊ａ^＊ｂ^＊−ａ^＊成分、Ｌ^＊ａ^＊ｂ^＊−ｂ^＊成分の計９成分が生成されることになる
次に、ＳＯＭ自己写像部１２は、各色空間のａ^＊成分及びｂ^＊成分（すなわち、図８に示す６成分）の各画素における値を入力として、一次元ＳＯＭを実行して自己学習を行う（ステップＳ４）。当該ＳＯＭによる自己学習結果である各出力ユニットに対応する重み係数は、ＳＯＭの重み・構造記憶部１３に自動的に記憶される。

本実施形態におけるＳＯＭでは、図９に示す様に写像結果として得られる出力ユニット数を５とした。これは、本実施形態に係る画像対象領域抽出装置１が最大第２近傍までを考慮する一次元ＳＯＭを採用したからである（例えば、図９において、出力ユニット１及び５は、出力ユニット３から見て第２近傍となる）。しかしながら、これに拘泥されることなく、最大第ｎ近傍までを考慮する一次元ＳＯＭ（ただし、ｎは２以外の自然数）を採用する構成としてもよい。

なお、上記ステップＳ４でのＳＯＭにおいて、標準色（ＲＧＢ）空間おけるＬ^＊ａ^＊ｂ^＊−ａ^＊成分、Ｌ^＊ａ^＊ｂ^＊−ｂ^＊成分をも入力とするのは、肌色強調（ＲＧＲ、ＲＲＢ）空間では不明な情報を、標準色（ＲＧＢ）空間から取得するためである。また、各色空間におけるＬ^＊成分を入力から除外するのは、照明等を原因とする輝度に関する成分からの影響を取り除くためである。

次に、重み変換部１４は、ＳＯＭの重み・構造記憶部１３に記憶された各出力ユニットに対応する重み係数を、各肌色強調（ＲＧＲ、ＲＲＢ）空間のａ^＊成分及びｂ^＊成分に変換し（ステップＳ５）する。勝者ユニット選択部１５は、各肌色強調（ＲＧＲ、ＲＲＢ）空間におけるａ^＊成分とｂ^＊成分との差（の絶対値）が最大となる出力ユニットを、肌領域を学習した勝者ユニットとして選択する（ステップＳ６）。この様に各肌色強調空間におけるａ^＊成分とｂ^＊成分との差の値を勝者ユニット選択の基準とするのは、当該差が大きいほど、各肌色強調空間において肌が強調された領域であると考えられるからである。

次に、肌色候補領域抽出部１６は、勝者ユニット選択部１５によって選択された勝者ユニットに分類される標準色空間のカラー画像を構成する画素を、全肌色候補領域として抽出する（ステップＳ７）。こうして抽出される全肌色候補領域は、人間の肌色やこれに近似する肌色に対応する領域である。従って、顔領域のみに限定されず、他のもの（例えば、首、腕、足、人間以外の肌色を有するもの）等を含む場合がある。

次に、候補領域整形部１７は、抽出された全肌色候補領域を二値化し、オブジェクト内の欠損部分の塗りつぶしや雑音領域を除去（例えば、一定面積以下の除去）することにより、顔候補領域を特定する（ステップＳ８）。

図１０（ａ）、図１０（ｂ）は、顔候補特定部１８によって特定された顔候補領域の一例を示した図である。抽出された肌色候補領域を二値化すると図１０（ａ）に示すようになり、これに対して眼球等の欠損部分（穴状部分）の塗りつぶし、一定面積以下の除去を行うことで、図１０（ｂ）に示す処理後全肌色候補領域が特定される。

以上述べた一連の処理により、整形された全肌色候補領域を取得することができる。この整形された全肌色候補領域は、肌色が強調された画像データを用いて肌色候補領域を抽出している。この画像データは、特定の外部基準を導入せずに、肌色が強調された画像データ等の画像特性のみを用いて生成されるものである。従って、本処理によれば、画像が有する画像特性を自己写像するＳＯＭを用いているため、極めて客観的な基準に従ったものと言える。

（顔領域特定機能）
次に、整形された全肌色候補領域を用いた顔領域特定機能について説明する。上記処理で取得された全肌色候補領域は、単に皮膚の領域を抽出したものであり、それが顔領域であるか否かは不明である。当該機能は、全肌色候補領域から顔候補領域を抽出し、この中から顔領域を特定するものである。

図１１は、顔領域特定機能を用いた処理の流れを示したフローチャートである。同図に示すように、まず、顔候補特定部１８は、図１２（ａ）に示す各全肌色候補領域を図１２（ｂ）、図１２（ｃ）に示すようにズームし（ステップＳ１０）、例えば図１３（ａ）に示す顔型テンプレート（例えば、楕円形）を処理後全肌色候補領域にマッチングすることにより、図１３（ｂ）に示す顔候補領域を抽出する（ステップＳ１１）。

次に、ガボール変換部１９は、抽出した顔候補領域に対応するグレースケール画像を生成し、これをガボール変換し、ステップＳ１１において抽出された顔候補領域に対応する領域を、図１４に示すように当該カラー画像から抽出する（ステップＳ１２）。顔部品検出部２０は、顔部品（目、鼻、口等の位相構造等）が抽出された領域から検出されるか否かを判定する（ステップＳ１３、Ｓ１４）。顔領域決定部２１は、検出されたと判定した場合には、ステップＳ１１において抽出された顔候補領域を顔領域と決定し、当該決定した顔領域を画像データ記憶部６に保存すると共に、表示部３に出力する。一方、検出されなかったと判定した場合には、ステップＳ１１において抽出された顔候補領域を非顔領域と決定する（ステップＳ１５、Ｓ１６）。

なお、以上述べたステップＳ９〜ステップＳ１６までの処理は、肌色候補領域が複数存在する場合には、それぞれを対象として繰り返し実行される（ステップＳ１７）。

以上述べた構成によれば、以下の効果を得ることができる。

本画像対象領域抽出装置によれば、標準色空間内の画像データ及び肌強調空間内での画像データから生成される情報を入力として一次元ＳＯＭを実行し、その出力及び重み係数を用いて肌色候補領域を抽出し、これより顔領域を特定している。従って、外部基準を必要とせず、色情報等の個々の画像特性のみを利用して顔領域を特定することができる。その結果、顔領域抽出の対象がどのような画像であっても、極めて客観的に且つ高い安定性をもって画像中の顔領域を特性することができる。

また、本画像対象領域抽出装置では、ＲＧＢ表色系の画像データからＲＲＢ表色系及びＲＧＲ表色系の画像データを生成することで、顔領域が特定される画像中の人物の肌色を、青みがかった肌色と黄みがかった肌色との度合いによって分類し、これらを入力とする一次元ＳＯＭを実行し、その出力及び重み係数を用いて肌候補領域を抽出し、これより顔領域を特定している。一般に、全ての肌の色は、青みがかった肌色と黄みがかった肌色との度合いによって分類することができる。従って、本装置によれば、画像中の人物がどのような人種であっても（すなわち、白色人種、黄色人種、黒色人種のいずれであっても）、客観的に且つ高い安定性にて画像中の顔領域を特定することが可能となる。

また、本画像対象領域抽出装置によれば、個々の画像特性のみを利用して顔領域を特定しているため、特定対象領域（顔領域）の背景、カメラの撮影方向、拡大率、特定対象領域の向き及び大きさ等による影響を受けない。その結果、撮影環境等に左右されず、特定対象領域を安定して特定することができる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。具体的な変形例としては、例えば、次のようなものがある。

すなわち、本実施形態に係る各機能は、当該処理を実行するプログラムをワークステーション等のコンピュータにインストールし、これらをメモリ上で展開することによっても実現することができる。このとき、コンピュータに当該手法を実行させることのできるプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、半導体メモリなどの記録媒体に格納して頒布することも可能である。

また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

図１は、本実施形態に係る画像対象領域抽出装置１のブロック構成図を示している。図２は、肌色候補領域抽出部７、顔領域特定部８の構成を説明するためのブロック図である。図３は、ＳＯＭを用いた肌色候補領域抽出における処理の流れを示したフローチャートである。図４（ａ）、（ｂ）は、ＲＧＲ表色系及びＲＲＢ表色系の肌強調画像の概念を説明するための図である。図５（ａ）、（ｂ）は、ＲＧＲ表色系及びＲＲＢ表色系の肌強調画像の概念を説明するための図である。図６は、ＲＧＢ表色系においてＧ成分をＲ成分とする置換を、マンセルシステムの色相環で表した図である。図７は、ＲＧＢ表色系においてＢ成分をＲ成分とする置換を、マンセルシステムの色相環で表した図である。図８は、本実施形態において実行されるＳＯＭの入力を説明するための図である。図９は、本実施形態において実行されるＳＯＭを説明するための図である。図１０（ａ）、（ｂ）は、顔候補特定部１８によって特定された顔候補領域の一例を示した図である。図１１は、顔領域特定機能を用いた処理の流れを示したフローチャートを示した図である。図１２（ａ）、（ｂ）、（ｃ）は、顔候補特定部１８の処理を説明するための図である。図１３（ａ）、（ｂ）は、顔候補特定部１８の処理を説明するための図である。図１４は、ガボール変換部１９の処理を説明するための図である。

符号の説明

１…画像対象領域抽出装置、２…操作部、３…表示部、４…送受信部、５…制御部、６…画像データ記憶部、７…肌色候補領域抽出部、８…顔領域特定部、９…インタフェース部、１０…肌色強調部、１１…色空間変換部、１２…ＳＯＭ自己写像部、１３…ＳＯＭ重み・構造記憶部、１４…重み変換部、１５…勝者ユニット選択部、１６…肌色候補領域抽出部、１７…候補領域整形部、１８…顔候補特定部、１９…ガボール変換部、２０…顔部品検出部、２１…顔領域決定部

Claims

所定の色領域を少なくとも一つ含み複数の画素から構成される第１の画像データを用いた自己写像により対象領域を抽出する画像対象領域抽出装置であって、
前記第１の画像データを記憶する記憶手段と、
前記第１の画像データの色成分を置換することで、前記所定の色領域を強調する少なくとも一つの第２の画像データを生成する画像データ生成手段と、
前記第１の画像データを用いて前記自己写像の入力とする第３の画像データを生成し、前記第２の画像データを用いて前記自己写像の入力とする第４の画像データを生成する入力データ生成手段と、
前記第３の画像データを構成する各画素の値及び前記少なくとも一つの第４の画像データを構成する各画素の値を入力とし、所定の重み係数によって色情報を各画像データの特性として自己写像し複数のマップ層ユニットに出力することで、入力した前記各画素を、色情報を基準として分類する自己写像手段と、
前記所定の重み係数に基づいて、前記複数の出力ユニットの中から勝者ユニットを選択する選択手段と、
選択された前記勝者ユニットに分類された画素に基づいて、前記第１の画像データにおける少なくとも一つの前記所定の色領域を前記対象領域として抽出する抽出手段と、
を具備することを特徴とする画像対象領域抽出装置。
前記抽出された前記所定の色領域の位相構造に基づいて、当該所定の色領域が前記対象領域であるか否かを判定する判定手段をさらに具備することを特徴とする請求項１記載の画像対象領域抽出装置。
前記判定手段は、前記所定の色領域のグレースケール画像データをガボール変換して得られる候補領域において、所定の位相構造の有無を検出することにより、前記判定を行うことを特徴とする請求項２記載の画像対象領域抽出装置。
前記第１の画像データは、ＲＧＢ表色系のカラー画像データであり、
前記画像データ生成手段は、前記第１の画像データのＧ成分をＲ成分で置換したＲＲＢ表色系のカラー画像である前記第２の画像データと、前記第１の画像データのＢ成分をＲ成分で置換したＲＧＲ表色系のカラー画像である前記第２の画像データと、を生成し、
前記入力データ生成手段は、前記ＲＧＢ表色系のカラー画像データをＬ^＊ａ^＊ｂ^＊表色系に変換することで、前記第３の画像データを生成し、前記ＲＲＢ表色系のカラー画像データ及び前記ＲＧＲ表色系のカラー画像データをＬ^＊ａ^＊ｂ^＊表色系に変換することで、前記第４の画像データを生成すること、
を特徴とする請求項１乃至３のうちいずれか一項記載の画像対象領域抽出装置。
顔領域を含む肌色領域を少なくとも一つ含み複数の画素から構成されるＲＧＢ表色系の第１の画像データを用いた自己写像により、対象領域としての前記顔領域を抽出する画像対象領域抽出装置であって、
前記第１の画像データを記憶する記憶手段と、
前記第１の画像データの色成分を置換することで、前記肌色領域を強調する少なくとも一つの第２の画像データを生成する画像データ生成手段と、
前記第１の画像データ及び前記第２の画像データをＬ^＊ａ^＊ｂ^＊表色系に変換することで、第３の画像データ及び第４の画像データを生成する入力データ生成手段と、
前記第３の画像データを構成する各画素の値及び前記少なくとも一つの第４の画像データを構成する各画素の値を入力とし、所定の重み係数によって色情報を各画像データの特性として自己写像し複数のマップ層ユニットに出力することで、入力した前記各画素を、色情報を基準として分類する自己写像手段と、
前記所定の重み係数に基づいて、前記複数の出力ユニットの中から勝者ユニットを選択する選択手段と、
選択された前記勝者ユニットに分類された画素に基づいて、前記第１の画像データにおける前記顔領域を含む前記肌色領域を前記対象領域として抽出する抽出手段と、
を具備することを特徴とする画像対象領域抽出装置。
前記抽出された前記肌色領域の位相構造に基づいて、当該所定の色領域が前記顔領域であるか否かを判定する判定手段をさらに具備することを特徴とする請求項５記載の画像対象領域抽出装置。
前記判定手段は、前記所定の色領域のグレースケール画像データをガボール変換して得られる候補領域において、所定の位相構造の有無を検出することにより、前記判定を行うことを特徴とする請求項６記載の画像対象領域抽出装置。
前記画像データ生成手段は、前記第１の画像データのＧ成分をＲ成分で置換したＲＲＢ表色系のカラー画像である前記第２の画像データと、前記第１の画像データのＢ成分をＲ成分で置換したＲＧＲ表色系のカラー画像である前記第２の画像データと、を生成し、
前記入力データ生成手段は、前記ＲＧＢ表色系のカラー画像データをＬ^＊ａ^＊ｂ^＊表色系に変換することで、前記第３の画像データを生成し、前記ＲＲＢ表色系のカラー画像データ及び前記ＲＧＲ表色系のカラー画像データをＬ^＊ａ^＊ｂ^＊表色系に変換することで、前記第４の画像データを生成すること、
を特徴とする請求項５乃至７のうちいずれか一項記載の画像対象領域抽出装置。
所定の色領域を少なくとも一つ含み複数の画素から構成される第１の画像データを用いた自己写像により対象領域を抽出する画像対象領域抽出方法であって、
前記第１の画像データの色成分を置換することで、前記所定の色領域を強調する少なくとも一つの第２の画像データを生成する第１のステップと、
前記第１の画像データを用いて前記自己写像の入力とする第３の画像データを生成し、前記第２の画像データを用いて前記自己写像の入力とする第４の画像データを生成する第２のステップと、
前記第３の画像データを構成する各画素の値及び前記少なくとも一つの第４の画像データを構成する各画素の値を入力とし、所定の重み係数によって色情報を各画像データの特性として自己写像し複数のマップ層ユニットに出力することで、入力した前記各画素を、色情報を基準として分類する第３のステップと、
前記所定の重み係数に基づいて、前記複数の出力ユニットの中から勝者ユニットを選択する第４のステップと、
選択された前記勝者ユニットに分類された画素に基づいて、前記第１の画像データにおける少なくとも一つの前記所定の色領域を前記対象領域として抽出する第５のステップと、
を具備することを特徴とする画像対象領域抽出方法。
前記第５のステップにおいて前記抽出された前記所定の色領域の位相構造に基づいて、当該所定の色領域が前記対象領域であるか否かを判定する第６のステップをさらに具備することを特徴とする請求項９記載の画像対象領域抽出方法。
前記第６のステップにおいては、前記所定の色領域のグレースケール画像データをガボール変換して得られる候補領域において、所定の位相構造の有無を検出することにより、前記判定を行うことを特徴とする請求項９記載の画像対象領域抽出方法。
前記第１の画像データは、ＲＧＢ表色系のカラー画像データであり、
前記第１のステップにおいては、前記第１の画像データのＧ成分をＲ成分で置換したＲＲＢ表色系のカラー画像である前記第２の画像データと、前記第１の画像データのＢ成分をＲ成分で置換したＲＧＲ表色系のカラー画像である前記第２の画像データと、を生成し、
前記第２のステップにおいては、前記ＲＧＢ表色系のカラー画像データをＬ^＊ａ^＊ｂ^＊表色系に変換することで、前記第３の画像データを生成し、前記ＲＲＢ表色系のカラー画像データ及び前記ＲＧＲ表色系のカラー画像データをＬ^＊ａ^＊ｂ^＊表色系に変換することで、前記第４の画像データを生成すること、
を特徴とする請求項９乃至１１のうちいずれか一項記載の画像対象領域抽出方法。
顔領域を含む肌色領域を少なくとも一つ含み複数の画素から構成されるＲＧＢ表色系の第１の画像データを用いた自己写像により、対象領域としての前記顔領域を抽出する画像対象領域抽出方法であって、
前記第１の画像データの色成分を置換することで、前記肌色領域を強調する少なくとも一つの第２の画像データを生成する第１のステップと、
前記第１の画像データ及び前記第２の画像データをＬ^＊ａ^＊ｂ^＊表色系に変換することで、第３の画像データ及び第４の画像データを生成する第２のステップと、
前記第３の画像データを構成する各画素の値及び前記少なくとも一つの第４の画像データを構成する各画素の値を入力とし、所定の重み係数によって色情報を各画像データの特性として自己写像し複数のマップ層ユニットに出力することで、入力した前記各画素を、色情報を基準として分類する第３のステップと、
前記所定の重み係数に基づいて、前記複数の出力ユニットの中から勝者ユニットを選択する第４のステップと、
選択された前記勝者ユニットに分類された画素に基づいて、前記第１の画像データにおける前記顔領域を含む前記肌色領域を前記対象領域として抽出する第５のステップと、
を具備することを特徴とする画像対象領域抽出方法。
前記第５のステップにおいて前記抽出された前記肌色領域の位相構造に基づいて、当該肌色領域が前記対象領域であるか否かを判定する第６のステップをさらに具備することを特徴とする請求項１３記載の画像対象領域抽出方法。
前記第６のステップにおいては、前記所定の色領域のグレースケール画像データをガボール変換して得られる候補領域において、所定の位相構造の有無を検出することにより、前記判定を行うことを特徴とする請求項１４記載の画像対象領域抽出方法。
前記第１のステップにおいては、前記第１の画像データのＧ成分をＲ成分で置換したＲＲＢ表色系のカラー画像である前記第２の画像データと、前記第１の画像データのＢ成分をＲ成分で置換したＲＧＲ表色系のカラー画像である前記第２の画像データと、を生成し、
前記第２のステップにおいては、前記ＲＧＢ表色系のカラー画像データをＬ^＊ａ^＊ｂ^＊表色系に変換することで、前記第３の画像データを生成し、前記ＲＲＢ表色系のカラー画像データ及び前記ＲＧＲ表色系のカラー画像データをＬ^＊ａ^＊ｂ^＊表色系に変換することで、前記第４の画像データを生成すること、
を特徴とする請求項１３乃至１５のうちいずれか一項記載の画像対象領域抽出方法。