JP2007213182A

JP2007213182A - 対象物状態認識方法および装置並びにプログラム

Info

Publication number: JP2007213182A
Application number: JP2006030579A
Authority: JP
Inventors: Yoshitaka Yamaguchi; 義隆山口
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2006-02-08
Filing date: 2006-02-08
Publication date: 2007-08-23
Also published as: US20080031525A1; US8331631B2

Abstract

【課題】時系列画像におけるオブジェクトの状態を高効率あるいは高信頼度で認識する。
【解決手段】あるオブジェクト（例えば顔）の状態（例えば向き）別に用意された複数種類の状態判別器を用いて、時系列画像におけるそのオブジェクトの状態を認識する際に、いずれの画像に対しても複数種類の状態判別器を所定の同じ順序で繰り返し適用してゆくのではなく、その時系列画像における過去の認識結果を用いて、そのオブジェクトのこれまでの段階的な変化を求め、その段階的な変化に基づいて、認識処理の対象となっている画像におけるそのオブジェクトの状態を予測し、予測した状態に対応する状態判別器を他の状態判別器に比して優先し、あるいは重みを置いて適用する。
【選択図】図１７

Description

本発明は、所定の対象物を含むデジタルの時系列画像、例えば、動画用の複数のフレーム画像における当該対象物の状態を、複数種類の状態判別器を用いて状態判別することにより認識する対象物状態認識方法および装置並びにそのためのプログラムに関するものである。

従来、デジタル画像（以下、単に画像という）に含まれる所定の対象物（オブジェクト）の状態を認識する方法が種々提案されている。

例えば、特許文献１においては、所定の対象物を人物の顔、その対象物の状態を顔の向きとして、顔の向き毎に顔のテンプレートを用意し、これら複数のテンプレートのマッチングにより、画像に含まれる顔の向きを認識する方法が提案されている。

また例えば、非特許文献１においては、特許文献１と同様、所定の対象物を人物の顔、その対象物の状態を顔の向きとして、学習サンプルを用いた学習によって生成された、判別対象画像が所定の方向を向いた顔を含む画像である否かを判別する判別器を顔の向き毎に用意し、これら複数の判別器による判別結果から、画像に含まれる顔の向きを認識する方法が提案されている。
特開２００４−２５９２１５号公報「高速全方向顔検出」，Shihong LAO他，画像の認識・理解シンポジウム（MIRU2004），２００４年７月，P.II-271−II-276

ところで、前記の画像認識方法は、いずれも、主に静止画像における所定の対象物の状態を認識することを想定したものである。したがって、動画撮影等により取得された複数のフレーム画像に代表される時系列画像の各々において、時系列的に連続して所定の対象物の状態の認識を行う場合には、各画像に対し毎回同じ処理を実行することとなる。

しかしながら、実際には、時系列的に近接する各画像間で所定の対象物の状態の相関関係が存在しており、その相関関係を無視した前記の方法では、効率が悪く認識に時間がかかり、特にリアルタイム処理に対しては大きな時間的制約が生じ好ましくない。

本発明は、上記事情に鑑みてなされたものであり、時系列画像に含まれる所定の対象物の状態を効率よく認識することが可能な対象物状態認識方法および装置並びにそのためのプログラムを提供することを目的とするものである。

本発明の対象物状態認識方法は、判別対象画像が、所定の状態にある所定の対象物を含む画像であるか否かを、前記状態別にそれぞれ判別する複数種類の状態判別器を用意し、前記所定の対象物の時系列画像のうち１つを取得し、該取得した画像に対して前記複数種類の状態判別器のうち少なくともいずれかを適用して、前記取得した画像がいずれかの前記状態判別器により前記所定の対象物を含む画像であると判別されたとき、前記取得した画像における前記所定の対象物が、該判別されたときの前記状態判別器に対応する状態と同じ状態にあると認識する対象物状態認識方法において、前記時系列画像のうち前記取得した画像より時系列的に前の複数の画像において既に認識された前記所定の対象物の状態に基づいて、該状態の段階的な変化を求め、該段階的な変化から前記取得した画像における前記所定の対象物の状態を少なくとも１つ予測し、前記取得した画像に前記状態判別器を適用する際に、前記複数種類の状態判別器のうち前記予測された少なくとも１つの状態に対応する状態判別器を他の状態判別器より優先して適用することを特徴とするものである（第１の対象物状態認識方法）。

また、本発明の対象物状態認識方法は、判別対象画像が、所定の状態にある所定の対象物を含む画像であるか否かを、前記状態別にそれぞれ判別する複数種類の状態判別器を用意し、前記所定の対象物の時系列画像のうち１つを取得し、該取得した画像に対して前記複数種類の状態判別器のうち少なくともいずれかを適用して、前記取得した画像がいずれかの前記状態判別器により前記所定の対象物を含む画像であると判別されたとき、前記取得した画像における前記所定の対象物が、該判別されたときの前記状態判別器に対応する状態と同じ状態にあると認識する対象物状態認識方法において、前記状態判別器が、前記判別対象画像が前記所定の状態にある前記所定の対象物を含む画像である蓋然性を示す指標値を算出し、該指標値の閾値判定により判別するものであり、前記時系列画像のうち前記取得した画像より時系列的に前の複数の画像において既に認識された前記所定の対象物の状態に基づいて、該状態の段階的な変化を求め、該段階的な変化から前記取得した画像における前記所定の対象物の状態を少なくとも１つ予測し、前記取得した画像に前記状態判別器を適用する際に、前記複数種類の状態判別器のうち前記予測された少なくとも１つの状態に対応する状態判別器の指標値に重み付けすることを特徴とするものである（第２の対象物状態認識方法）。

本発明の対象物状態認識装置は、判別対象画像が、所定の状態にある所定の対象物を含む画像であるか否かを、前記状態別にそれぞれ判別する複数種類の状態判別器と、前記所定の対象物の時系列画像のうち１つを取得する画像取得手段と、該取得した画像に対して前記複数種類の状態判別器のうち少なくともいずれかを適用する状態判別器適用手段と、前記取得した画像が前記適用された状態判別器により前記所定の対象物を含む画像であると判別されたとき、前記取得した画像における前記所定の対象物が、該判別されたときの前記状態判別器に対応する状態と同じ状態にあると認識する状態認識手段とを備えた対象物状態認識装置において、前記時系列画像における過去の認識結果を記憶する記憶手段と、該記憶手段に記憶されている認識結果が示す、前記時系列画像のうち前記取得した画像より時系列的に前の複数の画像において既に認識された前記所定の対象物の状態に基づいて、該状態の段階的な変化を求め、該段階的な変化から前記取得した画像における前記所定の対象物の状態を少なくとも１つ予測する状態予測手段と、前記取得した画像に前記状態判別器を適用する際に、前記複数種類の状態判別器のうち前記予測された少なくとも１つの状態に対応する状態判別器を他の状態判別器より優先して適用するよう、前記状態判別器の適用順序を設定する状態判別器適用順序設定手段とを備えたことを特徴とするものである（第１の対象物状態認識装置）。

また、本発明の対象物状態認識装置は、判別対象画像が、所定の状態にある所定の対象物を含む画像であるか否かを、前記状態別にそれぞれ判別する複数種類の状態判別器と、前記所定の対象物の時系列画像のうち１つを取得する画像取得手段と、該取得した画像に対して前記複数種類の状態判別器のうち少なくともいずれかを適用する状態判別器適用手段と、前記取得した画像が前記適用された状態判別器により前記所定の対象物を含む画像であると判別されたとき、前記取得した画像における前記所定の対象物が、該判別されたときの前記状態判別器に対応する状態と同じ状態にあると認識する状態認識手段とを備えた対象物状態認識装置において、前記状態判別器が、前記判別対象画像が前記所定の状態にある前記所定の対象物を含む画像である蓋然性を示す指標値を算出し、該指標値の閾値判定により判別するものであり、前記時系列画像における過去の認識結果を記憶する記憶手段と、該記憶手段に記憶されている認識結果が示す、前記時系列画像のうち前記取得した画像より時系列的に前の複数の画像において既に認識された前記所定の対象物の状態に基づいて、該状態の段階的な変化を求め、該段階的な変化から前記取得した画像における前記所定の対象物の状態を少なくとも１つ予測する状態予測手段と、前記取得した画像に前記状態判別器を適用する際に、前記複数種類の状態判別器のうち前記予測された少なくとも１つの状態に対応する状態判別器の指標値に重み付けする指標値重み付け手段とを備えたことを特徴とするものである（第２の対象物状態認識装置）。

本発明のプログラムは、コンピュータを、判別対象画像が、所定の状態にある所定の対象物を含む画像であるか否かを、前記状態別にそれぞれ判別する複数種類の状態判別器と、前記所定の対象物の時系列画像のうち１つを取得する画像取得手段と、該取得した画像に対して前記複数種類の状態判別器のうち少なくともいずれかを適用する状態判別器適用手段と、前記取得した画像が前記適用された状態判別器により前記所定の対象物を含む画像であると判別されたとき、前記取得した画像における前記所定の対象物が、該判別されたときの前記状態判別器に対応する状態と同じ状態にあると認識する状態認識手段として機能させることにより、該コンピュータを対象物状態認識装置として機能させるためのプログラムにおいて、該コンピュータを、前記時系列画像における過去の認識結果を記憶する記憶手段と、該記憶手段に記憶されている認識結果が示す、前記時系列画像のうち前記取得した画像より時系列的に前の複数の画像において既に認識された前記所定の対象物の状態に基づいて、該状態の段階的な変化を求め、該段階的な変化から前記取得した画像における前記所定の対象物の状態を少なくとも１つ予測する状態予測手段と、前記取得した画像に前記状態判別器を適用する際に、前記複数種類の状態判別器のうち前記予測された少なくとも１つの状態に対応する状態判別器を他の状態判別器より優先して適用するよう、前記状態判別器の適用順序を設定する状態判別器適用順序設定手段として機能させるものであることを特徴とするものである（第１のプログラム）。

また、本発明のプログラムは、コンピュータを、判別対象画像が、所定の状態にある所定の対象物を含む画像であるか否かを、前記状態別にそれぞれ判別する複数種類の状態判別器と、前記所定の対象物の時系列画像のうち１つを取得する画像取得手段と、該取得した画像に対して前記複数種類の状態判別器のうち少なくともいずれかを適用する状態判別器適用手段と、前記取得した画像が前記適用された状態判別器により前記所定の対象物を含む画像であると判別されたとき、前記取得した画像における前記所定の対象物が、該判別されたときの前記状態判別器に対応する状態と同じ状態にあると認識する状態認識手段として機能させることにより、該コンピュータを対象物状態認識装置として機能させるためのプログラムにおいて、前記状態判別器が、前記判別対象画像が前記所定の状態にある前記所定の対象物を含む画像である蓋然性を示す指標値を算出し、該指標値の閾値判定により判別するものであり、該コンピュータを、前記時系列画像における過去の認識結果を記憶する記憶手段と、該記憶手段に記憶されている認識結果が示す、前記時系列画像のうち前記取得した画像より時系列的に前の複数の画像において既に認識された前記所定の対象物の状態に基づいて、該状態の段階的な変化を求め、該段階的な変化から前記取得した画像における前記所定の対象物の状態を少なくとも１つ予測する状態予測手段と、前記取得した画像に前記状態判別器を適用する際に、前記複数種類の状態判別器のうち前記予測された少なくとも１つの状態に対応する状態判別器の指標値に重み付けする指標値重み付け手段として機能させることを特徴とするものである（第２のプログラム）。

本発明において、前記所定の対象物は顔であり、前記状態は、目の瞬きの過程におけるフェーズ、人物が笑う過程におけるフェーズ、および顔の向きのいずれかであってもよい。また、前記所定の対象物は人物であり、前記状態は、手を上げる過程におけるフェーズ、歩く過程におけるフェーズのいずれかであってもよい。また、前記所定の対象物をドアとし、前記状態を開閉過程におけるフェーズであってもよい。

ここで、対象物とは、画像処理の分野におけるいわゆるオブジェクトと同義である。

また、時系列画像とは、動画撮影や連写撮影によって取得された、時間軸方向に並んだ複数の画像のことを意味するものである。

また、予測された少なくとも１つの状態に対応する状態判別器の指標値に重み付けするとは、他の状態判別器が算出する指標値に比して、前記対応する状態判別器が算出する指標値を相対的に増加させたり、あるいは、他の状態判別器における閾値判定の基準である閾値に比して、前記対応する状態判別器における閾値判定の基準である閾値を相対的に下げたりすることを意味する。

また、顔の向きとは、アウトプレーン（out-plane；画像面外）方向での顔の向きを意味し、別の言い方をすれば、左右首振り方向における顔の向きを意味するものである。

状態判別器は、所定の対象物を含む複数の異なるサンプル画像を用いたマシンラーニングの手法によって学習、生成されたものを考えることができる。なお、マシンラーニングの手法としては、例えば、ニューラルネットワーク、ブースティング等の手法が考えられるが、本発明においては、ブースティングが好ましい。

本発明の対象物状態認識方法および装置並びにそのためのプログラムによれば、所定の対象物の状態別に用意された複数種類の状態判別器を用いて、時系列画像における所定の対象物の状態を認識する際に、いずれの画像に対しても複数種類の状態判別器を所定の同じ順序で繰り返し適用してゆくのではなく、その時系列画像における過去の認識結果を用いて、その所定の対象物のこれまでの段階的な変化を求め、その段階的な変化に基づいて、認識処理の対象となっている画像におけるその対象物の状態を予測し、予測した状態に対応する状態判別器を他の状態判別器に優先して適用するので、認識処理の対象となっている画像におけるその対象物の状態をより早い段階で認識することができ、時系列画像に含まれる所定の対象物の状態を効率よく認識することが可能となる。

また、本発明の対象物状態認識方法および装置並びにそのためのプログラムによれば、判別対象画像が所定の状態にある所定の対象物を含む画像であるか否かを指標値の閾値判定により判別する、状態別に用意された複数種類の状態判別器を用いて、時系列画像における所定の対象物の状態を認識する際に、いずれの判別器においても算出された指標値をそのまま用いて閾値判定するのではなく、その時系列画像における過去の認識結果を用いてその所定の対象物のこれまでの段階的な変化を求め、その段階的な変化に基づいて、認識処理の対象となっている画像におけるその対象物の状態を予測し、予測した状態に対応する状態判別器の指標値に重み付けをするので、認識処理の対象となっている画像におけるその対象物の状態を、認識される確率の高さを考慮した閾値判定により判別して認識することができ、時系列画像に含まれる所定の対象物の状態を高い信頼性を持って認識することが可能となる。

以下、本発明の実施形態について図を参照しながら説明する。

図１は本発明の実施形態である顔向き認識システム１の構成を示す概略ブロック図である。この顔向き認識システム１は、図１に示すように、判別対象画像が、所定の向きの顔を含む画像であるか否かを、顔の向き別にそれぞれ判別する複数種類の判別器（状態判別器）１０ａ〜１０ｍと、顔の時系列画像である複数のフレームのうち１つを取得するフレーム画像取得部（画像取得手段）２０と、取得したフレームを正規化する画像正規化部３０と、取得したフレームに対して前記複数種類の判別器のうち少なくとも１つを適用する判別器適用部（状態判別器適用手段）４０と、適用した判別器の判別結果に基づいて取得したフレームにおける顔の向きを認識する顔向き認識部（状態認識手段）５０と、前記時系列画像における過去の認識結果を記憶するメモリ（記憶手段）６０と、過去の認識結果から取得したフレームにおける顔の向きを予測する顔向き予測部（状態予測手段）７０と、判別器を適用する際に、予測された顔の向きに対応する判別器を他の判別器より優先して適用するように判別器の適用順序を設定する判別器適用順序設定部（状態判別器適用順序設定手段）８０と、判別器を適用する際に、予測された顔の向きに対応する判別器を重視するように、判別器が判別に用いる指標値の重み付け係数を設定する重み付け係数設定部（指標値重み付け手段）９０とを備えている。すなわち、本顔向き認識システムは、図１７に示すように、時系列画像における所定の対象物（オブジェクト）である顔の向きが段階的に変化する場合において、複数種類の判別器を用いてその顔の向きを時系列画像毎に順次認識するものであって、過去の認識結果である顔の向きの段階的な変化から、現在の認識対象である画像における顔の向きを予測し、その予測結果を利用して、判別器による判別器の効率を高め、また、判別器による判別の信頼度を高めるものである。

判別器１０ａ〜１０ｍは、判別対象画像が所定の向きの顔を含む画像であるか否かを、顔の向き別にそれぞれ判別する複数種類の判別器であり、具体的には、正面の向きを角度の基準（０°）として−９０°（左横）から＋９０°（右横）までを１５°刻みで区切った計１３通りの顔の向きについて、それぞれ判別する１３個の判別器である。これらの判別器は、それぞれ、図２に示すように、各判別器に応じた所定の向きの顔を含む複数のサンプル画像を用いたマシンラーニングの手法、例えばブースティングにより、その所定の向きの顔の特徴を学習してなるものであり、判別対象画像の画像パターンに基づいて各判別器に固有の特徴量を算出し、その特徴量からその判別対象画像が各判別器に応じた所定の向きの顔を含む画像である蓋然性を示すスコアｓｃ（指標値）を算出し、そのスコアｓｃが所定の閾値Ｔｈ１以上であるときに、その判別対象画像をその所定の向きの顔を含む画像であると判別するものである。

ここで、各判別器の構成、判別器における処理の流れおよび判別器の学習方法について説明する。

判別器は、後述の学習により多数の弱判別器ＷＣの中から選定された判別に有効な複数の弱判別器ＷＣを有している。弱判別器ＷＣは、それぞれ、判別対象画像Ｗから弱判別器ＷＣ毎に固有の所定のアルゴリズムにしたがって特徴量を算出し、その特徴量と所定のスコアテーブルとしての後述の自己のヒストグラムとに基づいて、判別対象画像Ｗが所定の向きの顔を含む画像である蓋然性を示すスコアｓｃｗを求めるものである。判別器は、これら複数の弱判別器ＷＣから得られた個々のスコアｓｃｗを合算してスコアｓｃを求め、このスコアｓｃが閾値Ｔｈ１以上であるときに、判別対象画像Ｗをその所定の向きの顔を含む画像として判別する。

図３は１つの判別器における処理の流れを示すフローチャートである。判別対象画像Ｗが判別器に入力されると、複数の弱判別器ＷＣにおいてそれぞれ種類の異なる特徴量ｘが算出される（ステップＳＴ１１）。例えば、図４に示すように、所定のサイズ、例えば、３２×３２画素サイズの判別対象画像Ｗに対して、４近傍画素平均（画像を２×２画素サイズ毎に複数のブロックに区分し、各ブロックの４画素における画素値の平均値をそのブロックに対応する１つの画素の画素値とする処理）を段階的に行うことにより、１６×１６画素サイズに縮小した画像Ｗ′と、８×８画素サイズに縮小した画像Ｗ″を得、もとの画像Ｗを含めたこれら３つの画像の平面内に設定される所定の２点を１ペアとして、複数種類のペアからなる１つのペア群を構成する各ペアにおける２点間の画素値（輝度）の差分値をそれぞれ計算し、これらの差分値の組合せを特徴量とする。各ペアの所定の２点は、例えば、画像上の顔の濃淡の特徴が反映されるよう決められた縦方向に並んだ所定の２点や、横方向に並んだ所定の２点とする。そして、特徴量である差分値の組合せに対応する値をｘとして算出する。次に、その値ｘに応じて所定のスコアテーブル（自己のヒストグラム）から判別対象画像Ｗが判別すべき顔（例えば、判別器１０ｄの場合には「顔の向きが−４５°の向きである顔」）を含む画像である蓋然性を示すスコアｓｃｗが弱判別器毎に算出される（ステップＳＴ１２）。そして、弱判別器毎に算出された個々のスコアｓｃｗを合算してスコアｓｃが得られ（ステップＳＴ１３）、このスコアｓｃが閾値Ｔｈ1以上であるか否かを判定し（ステップＳＴ１４）、肯定される場合に、その判別対象画像Ｗを、この判別器が判別すべき所定の向きの顔を含む画像として判別する（ステップＳＴ１５）。

次に、判別器の学習（生成）方法について説明する。

図５は判別器の学習方法を示すフローチャートである。判別器の学習には、所定のサイズ、例えば３２×３２画素サイズで規格化され、さらに、後述の画像正規化部３０による正規化処理と同様の処理が施された複数のサンプル画像を用いる。サンプル画像としては、判別器が判別すべき所定の向きの顔が含まれる複数の異なる顔サンプル画像（顔サンプル画像群）と、顔が含まれていない複数の異なる非顔サンプル画像（非顔サンプル画像群）とを用意する。

顔サンプル画像群は、１つの顔サンプル画像につき、縦および／または横を０．７倍から１．２倍の範囲にて０．１倍単位で段階的に拡縮して得られる各サンプル画像に対し、平面上±１５°の範囲にて３°単位で段階的に回転させて得られる複数の変形バリエーションを用いる。これにより、顔の傾きや顔の形状の変化に許容度を有する判別器を生成することができる。すなわち、判別器が判別可能な顔の傾きや形状にある程度の幅をもたせることができる。

なおこのとき、顔サンプル画像は、目の位置が所定の位置に来るように顔のサイズと位置を規格化し、前記の平面上の回転、拡縮は目の位置を基準として行うようにする。例えば、ｄ×ｄサイズのサンプル画像の場合においては、図６に示すように、両目の位置が、サンプル画像の最左上の頂点と最右上の頂点から、それぞれ、内側に１／４ｄ、下側に１／４ｄ移動した各位置とに来るように顔のサイズと位置を規格化し、また、前記の平面上の回転、拡縮は、両目の中間点を中心に行うようにする。

これら各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく１に設定される（ステップＳＴ２１）。

次に、サンプル画像およびその縮小画像の平面内に設定される所定の２点を１ペアとして複数のペアからなるペア群を複数種類設定したときの、この複数種類のペア群のそれぞれについて弱判別器が作成される（ステップＳＴ２２）。ここで、それぞれの弱判別器とは、サブウィンドウで切り出された判別対象画像Ｗとその縮小画像の平面内に設定される所定の２点を１ペアとして複数のペアからなる１つのペア群を設定したときの、この１つのペア群を構成する各ペアにおける２点間の画素値（輝度）の差分値の組合せを用いて、顔の画像と顔でない画像とを判別する基準を提供するものである。本実施形態においては、１つのペア群を構成する各ペアにおける２点間の画素値の差分値の組合せについてのヒストグラムを弱判別器のスコアテーブルの基礎として使用する。

図７はサンプル画像からヒストグラムが生成される様子を示した図である。図７の左側のサンプル画像に示すように、この判別器を作成するためのペア群を構成する各ペアの２点は、顔であることが分かっている複数のサンプル画像において、サンプル画像上の右目の中心にある点をＰ１、右側の頬の部分にある点をＰ２、眉間の部分にある点をＰ３、サンプル画像を４近傍画素平均で縮小した１６×１６画素サイズの縮小画像上の右目の中心にある点をＰ４、右側の頬の部分にある点をＰ５、さらに４近傍画素平均で縮小した８×８画素サイズの縮小画像上の額の部分にある点をＰ６、口の部分にある点をＰ７として、Ｐ１−Ｐ２、Ｐ１−Ｐ３、Ｐ４−Ｐ５、Ｐ４−Ｐ６、Ｐ６−Ｐ７の５ペアである。なお、ある判別器を作成するための１つのペア群を構成する各ペアの２点の座標位置はすべてのサンプル画像において同一である。そして顔であることが分かっているすべてのサンプル画像について前記５ペアを構成する各ペアの２点間の画素値の差分値の組合せが求められ、そのヒストグラムが作成される。ここで、画素値の差分値の組合せとしてとり得る値は、画像の輝度階調数に依存するが、仮に１６ビット階調である場合には、１つの画素値の差分値につき６５５３６通りあり、全体では階調数の（ペア数）乗、すなわち６５５３６の５乗通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、画素値の差分値を適当な数値幅で区切って量子化し、ｎ値化する（例えばｎ＝１００）。これにより、画素値の差分値の組合せの数はｎの５乗通りとなるため、画素値の差分値の組合せを表すデータ数を低減できる。

同様に、非顔サンプル画像群についても、ヒストグラムが作成される。なお、非顔サンプル画像については、顔サンプル画像上における前記各ペアの所定の２点の位置に対応する位置（同様に参照符号Ｐ１からＰ７を用いる）が用いられる。これらの２つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図７の一番右側に示す、弱判別器のスコアテーブルの基礎として用いられるヒストグラムである。この弱判別器のヒストグラムが示す各縦軸の値を、以下、判別ポイントと称する。この弱判別器によれば、正の判別ポイントに対応する、画素値の差分値の組合せの分布を示す画像は顔である可能性が高く、判別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の判別ポイントに対応する画素値の差分値の組合せの分布を示す画像は顔でない可能性が高く、やはり判別ポイントの絶対値が大きいほどその可能性は高まる。ステップＳＴ２２では、判別に使用され得る複数種類のペア群を構成する各ペアの所定の２点間の画素値の差分値の組合せについて、前記のヒストグラム形式の複数の弱判別器が作成される。

続いて、ステップＳＴ２２で作成した複数の弱判別器のうち、画像が顔画像であるか否かを判別するのに最も有効な弱判別器が選択される。最も有効な弱判別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各弱判別器の重み付き正答率が比較され、最も高い重み付き正答率を示す弱判別器が選択される（ステップＳＴ２３）。すなわち、最初のステップＳＴ２３では、各サンプル画像の重みは等しく１であるので、単純にその弱判別器によって画像が顔画像であるか否かが正しく判別されるサンプル画像の数が最も多いものが、最も有効な弱判別器として選択される。一方、後述するステップＳＴ２５において各サンプル画像の重みが更新された後の２回目のステップＳＴ２３では、重みが１のサンプル画像、重みが１よりも大きいサンプル画像、および重みが１よりも小さいサンプル画像が混在しており、重みが１よりも大きいサンプル画像は、正答率の評価において、重みが１のサンプル画像よりも重みが大きい分多くカウントされる。これにより、２回目以降のステップＳＴ２３では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく判別されることに、より重点が置かれる。

次に、それまでに選択した弱判別器の組合せの正答率、すなわち、それまでに選択した弱判別器を組み合わせて使用して（学習段階では、弱判別器は必ずしも線形に結合させる必要はない）各サンプル画像が顔画像であるか否かを判別した結果が、実際に顔画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる（ステップＳＴ２４）。ここで、弱判別器の組合せの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した弱判別器を用いれば画像が顔であるか否かを十分に高い確率で判別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した弱判別器と組み合わせて用いるための追加の弱判別器を選択するために、ステップＳＴ２６へと進む。

ステップＳＴ２６では、直近のステップＳＴ２３で選択された弱判別器が再び選択されないようにするため、その弱判別器が除外される。

次に、直近のステップＳＴ２３で選択された弱判別器では顔であるか否かを正しく判別できなかったサンプル画像の重みが大きくされ、画像が顔画像であるか否かを正しく判別できたサンプル画像の重みが小さくされる（ステップＳＴ２５）。このように重みを大小させる理由は、次の弱判別器の選択において、既に選択された弱判別器では正しく判別できなかった画像を重要視し、それらの画像が顔画像であるか否かを正しく判別できる弱判別器が選択されるようにして、弱判別器の組合せの効果を高めるためである。

続いて、ステップＳＴ２３へと戻り、前記したように重み付き正答率を基準にして次に有効な弱判別器が選択される。

以上のステップＳＴ２３からＳ２６を繰り返して、顔画像であるか否かを判別するのに適した弱判別器として、特定のペア群を構成する各ペアの所定の２点間の画素値の差分値の組合せに対応する弱判別器が選択されたところで、ステップＳＴ２４で確認される正答率が閾値を超えたとすると、顔画像であるか否かの判別に用いる弱判別器の種類と判別条件とが確定され（ステップＳＴ２７）、これにより学習を終了する。なお、選択された弱判別器は、その重み付き正答率が高い順に線形結合され、１つの判別器が構成される。また、各弱判別器については、それぞれ得られたヒストグラムを基に、画素値の差分値の組合せに応じてスコアを算出するためのスコアテーブルが生成される。なお、ヒストグラム自身をスコアテーブルとして用いることもでき、この場合、ヒストグラムの判別ポイントがそのままスコアとなる。

このようにして、顔サンプル画像群と非顔サンプル画像群とを用いた学習により、判別器が生成されるわけであるが、前述のように、判別したい顔の向き毎に異なる複数の判別器を生成するには、図２に示すように、顔の各向きに対応した複数種類の顔サンプル画像群を用意し、その顔サンプル画像群と非顔サンプル画像群とを用いた学習を顔サンプル画像群の種類毎に行うこととなる。すなわち、本実施例では、判別したい顔の向きを、それぞれ、−９０°，−７５°，−６０°，−４５°，−３０°，−１５°，０°，＋１５°，＋３０°，＋４５°，＋６０°，＋７５°，＋９０°として、各向きに対応した１３種類の顔サンプル画像群を用意し、顔サンプル画像群の種類毎に、その顔サンプル画像群と非顔サンプル画像群とを用いて前記の学習を行い、各判別器を生成する。

なお、前記の学習手法を採用する場合において、弱判別器は、特定のペア群を構成する各ペアの所定の２点間の画素値の差分値の組合せを用いて顔の画像と顔でない画像とを判別する基準を提供するものであれば、前記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば２値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図７の中央に示した２つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。

また、学習の方法としては前記のブースティングの手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。

フレーム画像取得部２０は、ＤＳＣやデジタルムービー等の動画撮影によって取得された時系列画像である複数のフレーム画像（以下、単にフレームという）を順次取得するものである。なお、本実施例では、動画撮影は毎秒３０フレームで行うものとし、また、人物の顔が常に所定の位置および大きさでフレームに含まれるように撮影するものとする。

画像正規化部３０は、フレーム画像取得部２０により取得されたフレーム（以下、取得フレームという）Ｓ０の輝度のコントラストが判別器による判別処理に適した状態となるように、取得フレームＳ０に対して解像度変換処理（サイズ変更処理）や全体正規化処理を施し、正規化済の取得フレームＳ０′を得るものである。

ここで、全体正規化処理について説明する。全体正規化処理は、判別器の判別対象画像すなわち取得フレームＳ０の輝度のコントラストを、判別器の性能を引き出すのに適した所定のレベルに近づけるべく、取得フレームＳ０全体の画素値をこの画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する処理である。

図８は全体正規化処理に用いる変換曲線の一例を示した図である。全体正規化処理としては、例えば、図８に示すような、画素値をｓＲＧＢ空間におけるいわゆる逆ガンマ変換（＝２．２乗する）した後にさらに対数をとるような変換曲線（ルックアップテーブル）にしたがって、画像全体における画素値を変換する処理を考えることができる。これは、次のような理由による。

画像として観測される光強度Ｉは、通常、被写体の反射率Ｒと光源の強度Ｌの積として表現される（Ｉ＝Ｒ×Ｌ）。したがって、光源の強度Ｌが変化すると、画像として観測される光強度Ｉも変化することになるが、被写体の反射率Ｒのみを評価することができれば、光源の強度Ｌに依存しない、すなわち、画像の明るさの影響を受けない精度の高い顔判別を行うことができる。

ここで、光源の強度がＬの場合において、被写体上で反射率がＲ１の部分から観測される光強度をＩ１、被写体上で反射率がＲ２の部分から観測される光強度をＩ２としたとき、それぞれの対数をとった空間では、下記の式が成り立つ。

すなわち、画像における画素値を対数変換することは、反射率の比が差として表現された空間へ変換することとなり、このような空間では、光源の強度Ｌに依存しない被写体の反射率のみを評価することが可能となる。言い換えると、画像中の明るさによって異なるコントラスト（ここでは画素値の差分そのもの）を揃えることができる。

一方、一般的なデジタルカメラ等の機器で取得された画像の色空間はｓＲＧＢである。ｓＲＧＢとは、機器間の色再現の違いを統一するために、色彩、彩度等を規定・統一した国際標準の色空間のことであり、この色空間においては、ガンマ値（γout）が２．２の画像出力機器において適正な色再現を可能にするため、画像の画素値は、入力輝度を１／γout（＝０．４５）乗して得られる値となっている。

そこで、画像全体における画素値を、いわゆる逆ガンマ変換、すなわち、２．２乗した後にさらに対数をとるような変換曲線にしたがって変換することにより、光源の強度に依存しない被写体の反射率のみによる評価を適正に行うことができるようになる。

なお、このような全体正規化処理は、別の言い方をすれば、画像全体における画素値を、特定の色空間を別の特性を有する色空間に変換する変換曲線にしたがって変換する処理ということができる。

このような処理を判別対象画像に施すことにより、画像中の明るさによって異なるコントラストを揃えることができ、判別処理の精度が向上することとなる。

判別器適用部４０は、取得フレームＳ０′に対して判別器１０ａ〜１０ｍのうち少なくともいずれかを所定の順序で１つずつ適用して、その都度、取得フレームＳ０′が所定の向きの顔を含む画像であるか否かを判別するものである。なお、判別器の適用順序は、後述の判別器適用順序設定部８０により設定される。

顔向き認識部５０は、取得フレームＳ０′に適用された判別器による判別結果ＣＲに基づいてその取得フレームＳ０′における顔の向きを認識するものであり、取得フレームＳ０′が、適用された判別器により所定の向きの顔を含む画像でないと判別されたとき、判別器適用部４０に対して次の判別器を適用するよう指示し、所定の向きの顔を含む画像であると判別されたとき、取得フレームＳ０′における顔が、そのときの判別器に対応する顔の向きと同じ向きにあると認識するものである。顔の向きが認識されると、その認識結果ＩＲを外部に出力するとともにメモリ６０に記憶させる。

メモリ６０は、本システムにおける処理を実行するのに必要な各種データを記憶するものであるが、少なくとも、前記時系列画像における過去の認識結果ＰＩＲを記憶するものである。

顔向き予測部７０は、メモリ６０に記憶されている認識結果ＰＩＲが示す、前記時系列画像のうち取得フレームＳ０より時系列的に前の複数のフレームにおいて既に認識された顔の向きに基づいて、その顔の向きの段階的な変化を求め、その段階的な変化から取得フレームＳ０′における顔の向きを少なくとも１つ予測し、その予測結果ＰＲを出力するものである。顔の向きの変化は、直近の過去数秒間分の認識結果があれば十分に捉えることができると考えられるので、具体的には、図９（ａ）に示すように、取得フレームＳ０′より時系列的に前の直近の最大３秒間分のフレーム、すなわち毎秒３０フレームの動画の場合では９０フレームの各々における顔の認識結果から、顔の向きが時間の経過とともにどのように段階的に変化したかを調べ、その段階的な変化のパターンにしたがって、取得フレームＳ０′における顔の向きを予測する。すなわち、図９（ｂ）に示すように、直近の過去９０フレームの認識結果の中で顔の向きが変化した時点でフレームを区切り、顔の向きの状態遷移を考える。そして、顔の向きの状態遷移における直近の過去３段階の変化から、図１０に示すような予測パターンにしたがって予測する。以下その予測パターンについて説明する。

本実施例においては、１フレーム分の時間変化では、顔の向きは一度に３０°までは変化しないという仮定のもと、取得フレームＳ０′より１つ前のフレームにおいて認識された顔の向きをｄ°とすると、取得フレームＳ０′において認識され得る顔の向きは、ｄ°，ｄ±１５°の３通りと考える。また、直近の過去９０フレーム内での段階的な変化のパターンとしては、次のようなパターンが考えられる。

(1) ｄ°（変化なし）
(2) ｄ°→ｄ−１５°→ｄ°，ｄ°→ｄ＋１５°→ｄ°
(2)′ ｄ−１５°→ｄ°，ｄ＋１５°→ｄ°
(3) ｄ＋３０°→ｄ＋１５°→ｄ°，ｄ−３０°→ｄ−１５°→ｄ°
これら変化のパターンの各々について、次のような考えに基づき、取得フレームＳ０′における顔の向きを予測する。

(1)顔の向きが変化しない場合：
図１１に示すように、顔の向きが変化しない場合には、顔の向きが次にどの状態に変化するのかが分からないため、取得フレームＳ０′における顔の向きを、ｄ°，ｄ−１５°，ｄ＋１５°と予測する。

(2),(2)′顔の向きが同じ方向に１段階変化した場合：
図１２に示すように、顔の向きが１段階変化した場合には、同じ方向への変化が続くと考えられることから、１フレーム前の顔の向きと次の段階の向きのいずれかの状態になる可能性が高いと考えられる。そこで、顔の向きがｄ°→ｄ−１５°→ｄ°と変化した場合には、取得フレームＳ０′における顔の向きをｄ°，ｄ＋１５°と予測する。同様に、ｄ°→ｄ＋１５°→ｄ°と変化した場合には、取得フレームＳ０′における顔の向きを、ｄ°，ｄ−１５°と予測し、ｄ−１５°→ｄ°と変化した場合には、ｄ°，ｄ＋１５°と予測し、ｄ＋１５°→ｄ°と変化した場合には、ｄ°，ｄ−１５°と予測する。

(3)顔の向きが同じ方向に連続して２段階変化した場合：
１段階目に変化したときのフレームをｎ１、２段階目に変化したときのフレームをｎ２として、その間のフレーム数＋１をＦとする。顔の向きの動きはほぼ等速であると仮定すると、次の段階に変化すると予測されるフレームは、フレームｎ２からＦ枚目のフレームであるから、取得フレームＳ０′がフレームｎ２から何枚目のフレームであるかによって次の段階に変化するか否かを予測する。すなわち、ｄ−３０°→ｄ−１５°→ｄ°と変化した場合には、ｄ−３０°→ｄ−１５°と変化したときのフレームをｎ１、ｄ−１５°→ｄ°と変化したときのフレームをｎ２として、その間のフレーム数＋１をＦとし、取得フレームＳ０′がｎ２からＦ−ｆ枚目以内のフレームであるか否かによって予測を行う。ここでｆは、ｆ＝Ｆ／４を満たすパラメータである。顔の向きの動きが完全な等速運動であれば、次の段階に変化するフレームは、フレームｎ２からＦ枚目のフレームとなるが、実際には完全な等速運動になるとは限らないので、次の段階に変化すると考えられるフレームの位置に若干の幅を持たせるようにしている。

(3-1)取得画像Ｓ０′がｎ２からＦ−ｆ枚目以内のフレームである場合：
図１３に示すように、取得フレームＳ０′がｎ２からＦ−ｆ枚目以内のフレームである場合には、取得フレームＳ０′における顔の向きは次の段階にはまだ変化しないと考え、これまでにｄ−３０°→ｄ−１５°→ｄ°と変化している場合では、取得フレームＳ０′における顔の向きをｄ°と予測し、同様に、ｄ＋３０°→ｄ＋１５°→ｄ°と変化している場合にも、ｄ°と予測する。

(3-2)取得画像Ｓ０′がｎ２からＦ−ｆ枚目を超えるフレームである場合：
図１４に示すように、取得フレームＳ０′がｎ２からＦ−ｆ枚目を超えるフレームである場合には、取得フレームＳ０′における顔の向きは次の段階に変化すると考え、これまでにｄ−３０°→ｄ−１５°→ｄ°と変化している場合では、取得画像Ｓ０′における顔の向きをｄ＋１５°と予測し、同様に、ｄ＋３０°→ｄ＋１５°→ｄ°と変化している場合には、ｄ−１５°と予測する。

判別器適用順序設定部８０は、取得画像Ｓ０′に判別器を適用する際に、前記複数種類の判別器のうち、顔向き予測部７０により予測された少なくとも１つの顔の向きに対応する判別器を他の判別器より優先して適用するよう、判別器の適用順序Ｊを設定するものである。ただし、ここでは、１フレーム分の時間経過によって顔の向きが±１５°より大きく変化することは考えにくいので、取得フレームＳ０′より１つ前のフレームにおける顔の向きをｄ°として、取得フレームＳ０′に適用する判別器は、ｄ°，ｄ±１５°に対応する３つの判別器のみとする。具体的な設定ルールとは、例えば、これら適用する３つの判別器を顔向き予測部７０により予測された顔の向きに対応する判別器のグループ（第１のグループ）とそれ以外の判別器のグループ（第２のグループ）とに分け、第１のグループに属する判別器を第２のグループに属する判別器より優先し、かつ、各グループ毎に判別器が予め決められた所定の優先順位、例えばｄ°→ｄ−１５°→ｄ＋１５°にしたがうように判別器の適用順序Ｊを設定する。

このように予測された顔の向きに対応する判別器を優先的に適用することで、早い段階で取得フレームＳ０′における顔の向きが認識される可能性が高くなるので、認識処理にかかる時間が短縮でき、認識処理の効率化を図ることができる。

重み付け係数設定部９０は、取得フレームＳ０′に判別器を適用する際に、前記複数種類の判別器のうち顔向き予測部７０により予測された少なくとも１つの顔の向きに対応する判別器のスコア（指標値）ｓｃを重視するよう、適用する判別器のスコアｓｃに対する重み付け係数を設定するものである。例えば、図１５に示すように、取得フレームＳ０′より１つ前のフレームにおける顔の向きがｄ°である場合には、取得フレームＳ０′に適用する判別器は、ｄ°，ｄ±１５°の判別器となり、そのうち予測された顔の向きがｄ＋１５°であるときには、例えば、重み付け係数をｗd＝ｗd-15＝１．０，ｗd+15＝１．２、と設定する。ｄ°，ｄ±１５°の各判別器は、取得フレームＳ０′に適用されると、スコアｓｃd，ｓｃd-15，ｓｃd+15にそれぞれ前記重み付け係数ｗd，ｗd-15，ｗd+15を掛け合わせ、重み付けされたスコアｗd・ｓｃd，ｗd-15・ｓｃd-15，ｗd+15・ｓｃd+15を得る。各判別器はそれぞれこの重み付けされたスコアに基づく閾値判定により判別を行う。

このように、予測された顔の向きに対応する判別器のスコアｓｃを他の判別器に比して重視するよう重み付けすることにより、認識処理の対象となっている画像、すなわち取得フレームＳ０′における顔の向きを、顔の向き毎の認識される確率の高さを考慮した閾値判定により判別して認識することができ、時系列画像に含まれる顔の向きを高い信頼性を持って認識することができる。

次に、顔向き認識システム１における処理の流れについて説明する。

図１６は、顔向き認識システム１における処理の流れを示したフローチャートである。これらの図に示すように、まず、フレーム画像取得部２０が時系列画像を構成する１枚のフレームＳ０を取得する（ステップＳＴ３１）。すると、画像正規化部３０が取得フレームＳ０に対して前述の解像度変換処理と全体正規化処理とを施し、正規化済みの取得フレームＳ０′を得る（ステップＳＴ３２）。

顔向き予測部４０は、メモリ６０に記憶されている過去の認識結果に基づいて、直近の最大９０フレームにおける顔の向きの段階的な変化を求め（ステップＳＴ３３）、この段階的な変化のパターンから図１０に示す対応表にしたがって取得フレームＳ０′における顔の向きを少なくとも１つ予測する（ステップＳＴ３４）。

判別器適用順序設定部８０は、取得フレームＳ０より１つ前のフレームにおいて認識された顔の向きをｄ°として、取得フレームＳ０′に適用する判別器をｄ°，ｄ±１５°にそれぞれ対応する３つの判別器とし、そのうちステップＳＴ３４にて予測された顔の向きに対応する判別器を優先して適用するよう、前述のルールにしたがって判別器の適用順序を設定する（ステップＳＴ３５）。

また、重み付け係数設定部９０は、取得フレームＳ０′に適用する、ｄ°，ｄ−１５°，ｄ＋１５°の３つの判別器のうちステップＳＴ３４にて予測された顔の向きに対応する判別器のスコアｓｃを重視するよう、これら３つの判別器に対して重み付け係数ｗd，ｗd-15，ｗd+15を設定する（ステップＳＴ３６）。例えば、予測された顔の向きに対応する判別器に対しては、重み付け係数を１．２、それ以外の判別器に対しては重み付け係数を１．０にする。

判別器適用部４０は、判別器適用順序設定部８０により設定された適用順序にしたがって判別器を１つ選択し、選択された判別器に取得フレームＳ０′を入力する（ステップＳＴ３７）。適用された判別器は、重み付け係数設定部９０により設定された重み付け係数を用いて、算出したスコアｓｃに重み付けを行い（ステップＳＴ３８）、重み付けされたスコアに基づく閾値判定により、取得フレームＳ０′が適用された判別器に応じた所定の向きの顔を含む画像であるか否かを判別する（ステップＳＴ３９）。

顔向き認識部５０は、その適用された判別器がその所定の向きの顔を含む画像であると判別したとき、取得フレームＳ０における顔の向きをその所定の顔の向きと認識し（ステップＳＴ４０）、その認識結果をメモリ６０に出力する。一方、その適用された判別器がその所定の向きの顔を含む画像でないと判別器したときは、ステップＳＴ３７に戻り、次の優先順位の判別器を選択して、先と同様に、選択された判別器に取得フレームＳ′を入力する。

前記の処理は、１つの取得フレームＳ０についての顔の向きの認識処理であるが、このような認識処理を順次取得したフレームについて繰り返し行うことにより、順次取得したフレームにおける顔の向きを連続的に認識することができる。

このように、本実施形態による顔向き認識システムによれば、顔の向き別に用意された複数種類の判別器を用いて、時系列画像における顔の向きを認識する際に、いずれの画像に対しても複数種類の判別器を所定の同じ順序で繰り返し適用してゆくのではなく、その時系列画像における過去の認識結果を用いて、その顔の向きのこれまでの段階的な変化を求め、その段階的な変化に基づいて、認識処理の対象となっている画像における顔の向きを予測し、予測した顔の向きに対応する判別器を他の判別器に優先して適用するので、認識処理の対象となっている画像におけるその顔の向きをより早い段階で認識することができ、時系列画像に含まれる顔の向きを効率よく認識することが可能となる。

また、本実施形態による顔向き認識システムによれば、判別対象画像が所定の向きにある顔を含む画像であるか否かを指標値の閾値判定により判別する、顔の向き別に用意された複数種類の判別器を用いて、時系列画像における顔の向きを認識する際に、いずれの判別器においても算出された指標値をそのまま用いて閾値判定するのではなく、その時系列画像における過去の認識結果を用いてその顔の向きのこれまでの段階的な変化を求め、その段階的な変化に基づいて、認識処理の対象となっている画像におけるその顔の向きを予測し、予測した顔の向きに対応する判別器の指標値に重み付けをするので、認識処理の対象となっている画像におけるその顔の向きを、認識される確率の高さを考慮した閾値判定により判別して認識することができ、時系列画像に含まれる顔の向きを高い信頼性を持って認識することが可能となる。

なお、本実施例では、人物の顔が所定の大きさでフレームに含まれるように動画撮影したときの時系列画像におけるその顔の向きを認識する場合について説明したが、人物の顔の大きさや位置がフレーム内で変化するような動画撮影により取得した時系列画像について同様に顔の向きを認識する場合には、例えば、時系列画像の各々について、所定の大きさの部分画像をその位置を変えながら順次切り出し、その切り出された部分画像毎に前記認識処理を行い、時系列画像における顔の検出および顔の向きの認識を同時に行うようにすればよい。

また、本実施形態による顔向き認識システム１は、判別器適用順序設定部７０と重み付け係数設定部８０の両方を備えているが、どちらか一方のみを備えるようにしてもよい。

また、本実施例では、認識できる顔の大きさがほぼ固定されているが、顔の大きさに依らず種々の大きさの顔を認識しようとする場合には、例えば、取得フレームＳ０を多重解像度化して解像度の異なる複数の画像を生成し、生成された複数の画像の各々に対して本実施例と同様の認識処理を施すようにすればよい。

以上、本発明の実施形態に係る顔向き認識システムについて説明したが、このシステムにおける処理をコンピュータに実行させるためのプログラムも、本発明の実施形態の１つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の１つである。

顔向き認識システム１の構成を示すブロック図判別可能な顔の向きが異なる複数の判別器を生成する場合の概念図判別器における処理フローを示す図弱判別器における特徴量の算出を説明するための図判別器の学習方法を示すフローチャート目の位置が所定の位置にくるように規格化された顔のサンプル画像を示す図弱判別器のヒストグラムを導出する方法を示す図全体正規化処理に用いる変換曲線の一例を示す図取得フレームより時系列的に前のフレームにおける過去の認識結果を示す図過去の顔向きの段階的変化パターンと予測される現在の顔向きとの対応関係を示す図顔の向きが変化しない場合の過去の認識結果を示す図顔の向きが同じ方向に１段階変化した場合の過去の認識結果を示す図顔の向きが同じ方向に２段階変改した場合の過去の認識結果を示す図（その１）顔の向きが同じ方向に２段階変改した場合の過去の認識結果を示す図（その２）判別器と判別器に設定される重み付け係数との関係を示す図顔向き認識システム１における処理を示すフローチャート本発明の概念を示す図

符号の説明

１顔向き認識システム
１０ａ〜１０ｍ判別器（状態判別器）
２０フレーム画像取得部（画像取得手段）
３０画像正規化部
４０判別器適用部（状態判別器適用手段）
５０顔向き予測部（状態予測手段）
６０メモリ（記憶手段）
７０顔向き認識部（状態認識手段）
８０判別器適用順序設定部（状態判別器適用順序設定手段）
９０重み付け係数設定部（指標値重み付け手段）

Claims

判別対象画像が、所定の状態にある所定の対象物を含む画像であるか否かを、前記状態別にそれぞれ判別する複数種類の状態判別器を用意し、
前記所定の対象物の時系列画像のうち１つを取得し、
該取得した画像に対して前記複数種類の状態判別器のうち少なくともいずれかを適用して、前記取得した画像がいずれかの前記状態判別器により前記所定の対象物を含む画像であると判別されたとき、前記取得した画像における前記所定の対象物が、該判別されたときの前記状態判別器に対応する状態と同じ状態にあると認識する対象物状態認識方法において、
前記時系列画像のうち前記取得した画像より時系列的に前の複数の画像において既に認識された前記所定の対象物の状態に基づいて、該状態の段階的な変化を求め、該段階的な変化から前記取得した画像における前記所定の対象物の状態を少なくとも１つ予測し、
前記取得した画像に前記状態判別器を適用する際に、前記複数種類の状態判別器のうち前記予測された少なくとも１つの状態に対応する状態判別器を他の状態判別器より優先して適用することを特徴とする対象物状態認識方法。
判別対象画像が、所定の状態にある所定の対象物を含む画像であるか否かを、前記状態別にそれぞれ判別する複数種類の状態判別器を用意し、
前記所定の対象物の時系列画像のうち１つを取得し、
該取得した画像に対して前記複数種類の状態判別器のうち少なくともいずれかを適用して、前記取得した画像がいずれかの前記状態判別器により前記所定の対象物を含む画像であると判別されたとき、前記取得した画像における前記所定の対象物が、該判別されたときの前記状態判別器に対応する状態と同じ状態にあると認識する対象物状態認識方法において、
前記状態判別器が、前記判別対象画像が前記所定の状態にある前記所定の対象物を含む画像である蓋然性を示す指標値を算出し、該指標値の閾値判定により判別するものであり、
前記時系列画像のうち前記取得した画像より時系列的に前の複数の画像において既に認識された前記所定の対象物の状態に基づいて、該状態の段階的な変化を求め、該段階的な変化から前記取得した画像における前記所定の対象物の状態を少なくとも１つ予測し、
前記取得した画像に前記状態判別器を適用する際に、前記複数種類の状態判別器のうち前記予測された少なくとも１つの状態に対応する状態判別器の指標値に重み付けすることを特徴とする対象物状態認識方法。
前記所定の対象物が顔であり、前記状態が顔の向きであることを特徴とする請求項１または２記載の対象物状態認識方法。
判別対象画像が、所定の状態にある所定の対象物を含む画像であるか否かを、前記状態別にそれぞれ判別する複数種類の状態判別器と、
前記所定の対象物の時系列画像のうち１つを取得する画像取得手段と、
該取得した画像に対して前記複数種類の状態判別器のうち少なくともいずれかを適用する状態判別器適用手段と、
前記取得した画像が前記適用された状態判別器により前記所定の対象物を含む画像であると判別されたとき、前記取得した画像における前記所定の対象物が、該判別されたときの前記状態判別器に対応する状態と同じ状態にあると認識する状態認識手段とを備えた対象物状態認識装置において、
前記時系列画像における過去の認識結果を記憶する記憶手段と、
該記憶手段に記憶されている認識結果が示す、前記時系列画像のうち前記取得した画像より時系列的に前の複数の画像において既に認識された前記所定の対象物の状態に基づいて、該状態の段階的な変化を求め、該段階的な変化から前記取得した画像における前記所定の対象物の状態を少なくとも１つ予測する状態予測手段と、
前記取得した画像に前記状態判別器を適用する際に、前記複数種類の状態判別器のうち前記予測された少なくとも１つの状態に対応する状態判別器を他の状態判別器より優先して適用するよう、前記状態判別器の適用順序を設定する状態判別器適用順序設定手段とを備えたことを特徴とする対象物状態認識装置。
判別対象画像が、所定の状態にある所定の対象物を含む画像であるか否かを、前記状態別にそれぞれ判別する複数種類の状態判別器と、
前記所定の対象物の時系列画像のうち１つを取得する画像取得手段と、
該取得した画像に対して前記複数種類の状態判別器のうち少なくともいずれかを適用する状態判別器適用手段と、
前記取得した画像が前記適用された状態判別器により前記所定の対象物を含む画像であると判別されたとき、前記取得した画像における前記所定の対象物が、該判別されたときの前記状態判別器に対応する状態と同じ状態にあると認識する状態認識手段とを備えた対象物状態認識装置において、
前記状態判別器が、前記判別対象画像が前記所定の状態にある前記所定の対象物を含む画像である蓋然性を示す指標値を算出し、該指標値の閾値判定により判別するものであり、
前記時系列画像における過去の認識結果を記憶する記憶手段と、
該記憶手段に記憶されている認識結果が示す、前記時系列画像のうち前記取得した画像より時系列的に前の複数の画像において既に認識された前記所定の対象物の状態に基づいて、該状態の段階的な変化を求め、該段階的な変化から前記取得した画像における前記所定の対象物の状態を少なくとも１つ予測する状態予測手段と、
前記取得した画像に前記状態判別器を適用する際に、前記複数種類の状態判別器のうち前記予測された少なくとも１つの状態に対応する状態判別器の指標値に重み付けする指標値重み付け手段とを備えたことを特徴とする対象物状態認識装置。
前記所定の対象物が顔であり、前記状態が顔の向きであることを特徴とする請求項３または４記載の対象物状態認識装置。
コンピュータを、
判別対象画像が、所定の状態にある所定の対象物を含む画像であるか否かを、前記状態別にそれぞれ判別する複数種類の状態判別器と、
前記所定の対象物の時系列画像のうち１つを取得する画像取得手段と、
該取得した画像に対して前記複数種類の状態判別器のうち少なくともいずれかを適用する状態判別器適用手段と、
前記取得した画像が前記適用された状態判別器により前記所定の対象物を含む画像であると判別されたとき、前記取得した画像における前記所定の対象物が、該判別されたときの前記状態判別器に対応する状態と同じ状態にあると認識する状態認識手段として機能させることにより、該コンピュータを対象物状態認識装置として機能させるためのプログラムにおいて、
該コンピュータを、
前記時系列画像における過去の認識結果を記憶する記憶手段と、
該記憶手段に記憶されている認識結果が示す、前記時系列画像のうち前記取得した画像より時系列的に前の複数の画像において既に認識された前記所定の対象物の状態に基づいて、該状態の段階的な変化を求め、該段階的な変化から前記取得した画像における前記所定の対象物の状態を少なくとも１つ予測する状態予測手段と、
前記取得した画像に前記状態判別器を適用する際に、前記複数種類の状態判別器のうち前記予測された少なくとも１つの状態に対応する状態判別器を他の状態判別器より優先して適用するよう、前記状態判別器の適用順序を設定する状態判別器適用順序設定手段として機能させるものであることを特徴とするプログラム。
コンピュータを、
判別対象画像が、所定の状態にある所定の対象物を含む画像であるか否かを、前記状態別にそれぞれ判別する複数種類の状態判別器と、
前記所定の対象物の時系列画像のうち１つを取得する画像取得手段と、
該取得した画像に対して前記複数種類の状態判別器のうち少なくともいずれかを適用する状態判別器適用手段と、
前記取得した画像が前記適用された状態判別器により前記所定の対象物を含む画像であると判別されたとき、前記取得した画像における前記所定の対象物が、該判別されたときの前記状態判別器に対応する状態と同じ状態にあると認識する状態認識手段として機能させることにより、該コンピュータを対象物状態認識装置として機能させるためのプログラムにおいて、
前記状態判別器が、前記判別対象画像が前記所定の状態にある前記所定の対象物を含む画像である蓋然性を示す指標値を算出し、該指標値の閾値判定により判別するものであり、
該コンピュータを、
前記時系列画像における過去の認識結果を記憶する記憶手段と、
該記憶手段に記憶されている認識結果が示す、前記時系列画像のうち前記取得した画像より時系列的に前の複数の画像において既に認識された前記所定の対象物の状態に基づいて、該状態の段階的な変化を求め、該段階的な変化から前記取得した画像における前記所定の対象物の状態を少なくとも１つ予測する状態予測手段と、
前記取得した画像に前記状態判別器を適用する際に、前記複数種類の状態判別器のうち前記予測された少なくとも１つの状態に対応する状態判別器の指標値に重み付けする指標値重み付け手段として機能させることを特徴とするプログラム。
前記所定の対象物が顔であり、前記状態が顔の向きであることを特徴とする請求項７または８記載のプログラム。