JP2008198078A

JP2008198078A - 画像検出装置

Info

Publication number: JP2008198078A
Application number: JP2007034872A
Authority: JP
Inventors: Takashi Naito; 貴志内藤; Shinichi Kojima; 真一小島; Takehiko Tanaka; 勇彦田中; Takeshi Sasuga; 岳史流石; Futoshi Tsuda; 太司津田; Fumio Sugaya; 文男菅谷
Original assignee: Toyota Motor Corp; Toyota Central R&D Labs Inc
Current assignee: Toyota Motor Corp; Toyota Central R&D Labs Inc
Priority date: 2007-02-15
Filing date: 2007-02-15
Publication date: 2008-08-28
Anticipated expiration: 2027-02-15
Also published as: JP4978227B2

Abstract

【解決課題】検出対象物に関する情報を検出する処理において、処理の高速化を図ることができるようにする。
【解決手段】複数の入力ユニットを備えた入力層と複数の出力ユニットを備えた出力層とを含むニューラルネットワークであって、かつ、入力画像の複数の画素の画像特徴量の各々を複数の入力ユニットの各々に入力すると、入力画像に対応する目の有無を示す出力値及び目の開閉度を示す出力値が２つの出力ユニットから出力されるように学習されたニューラルネットワークを用いて、カメラによって撮像された画像の複数の画素の画像特徴量から、目の有無及び目の開閉度を検出する。
【選択図】図２

Description

本発明は、画像検出装置に係り、特に、撮像された画像から、検出対象物に関する情報を検出する画像検出装置に関する。

従来より、画像からの検出対象物とその状態量との検出が求められる具体的事例の一つとして、画像から目の開閉度を検出する事例が挙げられる。例えば、画像濃淡値の微分情報を用いて、目領域は横に長く、かつ凸型の弓形形状であるとの仮定の基に、目領域候補を選定し、その目領域に対して２値化画像処理を施して、その目領域の縦方向の高さから目の開閉度を算出する開閉眼判定装置が知られている（特許文献１）。この開閉眼判定装置では、まず目の位置を検出して目の領域を特定し、次に目領域における画像情報から目の開閉度を検出している。
特開平１０−４４８２４号公報

しかしながら、上記特許文献１に記載の技術では、目の位置を検出した後に、目の開閉度を検出するため、処理に時間がかかってしまう、という問題がある。

本発明は、上記の問題点を解決するためになされたもので、検出対象物に関する情報を検出する処理において、処理の高速化を図ることができる画像検出装置を提供することを目的とする。

上記の目的を達成するために第１の発明に係る画像検出装置は、検出対象物を撮像するための撮像手段と、複数の入力ユニットを備えた入力層と複数の出力ユニットを備えた出力層とを含むニューラルネットワークであって、かつ、複数の画像の各々の複数の画素の画像特徴量の各々を前記複数の入力ユニットの各々に入力すると、前記複数の画像の各々に対応する前記検出対象物に関する複数種類の物理量が前記複数の出力ユニットから出力されるように学習されたニューラルネットワークを用いて、前記撮像手段によって撮像された画像の複数の画素の画像特徴量から、前記画像に対する前記複数種類の物理量を検出する検出手段とを含んで構成されている。

第１の発明に係る画像検出装置によれば、まず、複数の画像の各々の複数の画素の画像特徴量の各々を複数の入力ユニットの各々に入力すると、複数の画像の各々に対応する検出対象物に関する複数種類の物理量が複数の出力ユニットから出力されるようにニューラルネットワークを学習しておく。

そして、撮像手段によって、検出対象物を撮像し、検出手段によって、ニューラルネットワークを用いて、撮像手段によって撮像された画像の複数の画素の画像特徴量から、画像に対する複数種類の物理量を検出する。

このように、画像に対応する検出対象物に関する複数種類の物理量を出力するように学習されたニューラルネットワークを用いて、撮像された画像について、検出対象物に関する複数種類の物理量を検出することにより、複数種類の物理量を同時に検出することができるため、検出対象物に関する物理量を検出する処理において、処理の高速化を図ることができる。

第１の発明に係る画像検出装置は、撮像手段によって撮像された画像において、検出対象物を検出可能な所定領域を特定する領域特定手段を更に含み、検出手段は、ニューラルネットワークを用いて、領域特定手段によって特定された所定領域の画像の複数の画素の画像特徴量から、所定領域の画像に対する複数種類の物理量を検出することができる。これにより、検出対象物を検出可能な所定領域を特定して、ニューラルネットワークを用いて、検出対象物に関する物理量を検出するため、更に処理の高速化を図ることができる。

また、第２の発明に係る画像検出装置は、検出対象物を撮像するための撮像手段と、複数の入力ユニットを備えた入力層と複数の出力ユニットを備えた出力層とを含むニューラルネットワークであって、かつ、複数の画像の各々の複数の画素の画像特徴量の各々を前記複数の入力ユニットの各々に入力すると、前記複数の画像の各々に対応する前記検出対象物の有無を示す第１の物理量、前記検出対象物の位置を示す第２の物理量、及び前記検出対象物の存在及び位置以外を示す第３の物理量のうち少なくとも２つが前記複数の出力ユニットから出力されるように学習されたニューラルネットワークを用いて、前記撮像手段によって撮像された画像の複数の画素の画像特徴量から、前記画像に対する前記第１の物理量、前記第２の物理量、及び前記第３の物理量のうち少なくとも２つを検出する検出手段とを含んで構成されている。

第２の発明に係る画像検出装置によれば、まず、複数の画像の各々の複数の画素の画像特徴量の各々を複数の入力ユニットの各々に入力すると、複数の画像の各々に対応する検出対象物の有無を示す第１の物理量、検出対象物の位置を示す第２の物理量、及び検出対象物の存在及び位置以外を示す第３の物理量のうち少なくとも２つが複数の出力ユニットから出力されるようにニューラルネットワークを学習しておく。

そして、撮像手段によって、検出対象物を撮像し、検出手段によって、ニューラルネットワークを用いて、撮像手段によって撮像された画像の複数の画素の画像特徴量から、画像に対する第１の物理量、前記第２の物理量、及び前記第３の物理量のうち少なくとも２つを検出する。

このように、画像に対応する検出対象物の有無を示す物理量、位置を示す物理量、及び存在及び位置以外を示す物理量のうち少なくとも２つを出力するように学習されたニューラルネットワークを用いて、撮像された画像について、検出対象物の有無を示す物理量、位置を示す物理量、及び存在及び位置以外を示す物理量のうち少なくとも２つを検出することにより、複数種類の物理量を同時に検出することができるため、検出対象物に関する物理量を検出する処理において、処理の高速化を図ることができる。

第２の発明に係る画像検出装置は、撮像手段によって撮像された画像において、検出対象物を検出可能な所定領域を特定する領域特定手段を更に含み、検出手段は、ニューラルネットワークを用いて、領域特定手段によって特定された所定領域の画像の複数の画素の画像特徴量から、所定領域の画像に対する第１の物理量、第２の物理量、及び第３の物理量のうち少なくとも２つを検出することができる。検出対象物を検出可能な所定領域を特定して、ニューラルネットワークを用いて、検出対象物に関する物理量を検出するため、更に処理の高速化を図ることができる。

以上説明したように、本発明の画像検出装置によれば、画像に対応する複数種類の物理量を出力するように学習されたニューラルネットワークを用いて、撮像された画像について、検出対象物に関する複数種類の物理量を検出することにより、複数種類の物理量を同時に検出することができるため、検出対象物に関する物理量を検出する処理において、処理の高速化を図ることができる、という効果が得られる。

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、画像から検出対象物としての目の位置を検出すると共に、検出対象物に関する有無及び位置以外を示す物理量としての目の開閉度を検出する目開閉度検出装置に本発明を適用した場合を例に説明する。

図１に示すように、本実施の形態に係る目開閉度検出装置１０は、検出対象物としての目を有する検出対象者１２を撮像するためのカメラ１４と、カメラ１４によって撮像された画像を撮り込む画像撮り込み装置１６と、画像撮り込み装置１６で得られた画像に対して所定の画像処理を行う画像処理装置１８とを備えている。

カメラ１４は、画像信号を生成するＣＣＤイメージセンサと、ＣＣＤイメージセンサで生成された画像信号をＡ／Ｄ変換するＡ／Ｄ変換部とを備えている。また、画像取り込み装置１６は、カメラ１４でＡ／Ｄ変換された画像信号を一時的に格納するためのメモリを備えている。

画像処理装置１８は、画像処理を行うＣＰＵと、ワークエリアであるＲＡＭと、ＣＰＵの制御プログラムが記憶されているＲＯＭと、後述する学習用の画像を複数記憶したハードディスクとを備えている。また、ハードディスクには、後述する学習処理ルーチンや目検出処理ルーチンを実行するためのプログラムや、その他のプログラムが記憶されている。

画像処理装置１８では、パターン識別機としてニューラルネットワークを用いており、このニューラルネットワークは、入力された画像について、特に目の有無および目の開閉度を同時に検出するネットワーク構造となっている。

ここで、画像処理装置１８で用いられるニューラルネットワークについて説明する。図２に示すように、入力層、中間層、及び出力層からなる３層構成のニューラルネットワークであり、入力層にはｎ個の入力ユニット（ｎは２以上の自然数）、中間層にはｍ個の中間ユニット、出力層には２つの出力ユニットを各々備えている。ここで、ｎは画像から得られる画像特徴量の次元数に依存し、例えば、入力される画像の画素数と等しい値である。また、ｍはｎに応じて経験的に定めておく値である。

次に、図３を用いて、目の有無および目の開閉度を検出するためにニューラルネットワークの入力ユニットに入力される画像特徴量について説明する。まず、図３（Ａ）に示すような右目の探索領域画像から、目位置及び目開閉度を検出するための検出領域（図３（Ａ）の破線矩形参照）を切り出して、図３（Ｂ）に示すような検出領域の濃淡画像を生成し、次に、この濃淡画像に対してソーベルオペレータによる微分処理を施して、図３（Ｃ）に示すようなエッジ画像を取得する。

そして、エッジ画像の複数の画素の強度値を、複数の画像特徴量として、ニューラルネットワークの各入力ユニットへの入力データとする。なお、図３（Ｃ）のエッジ画像の横がｗ画素、縦がｈ画素である場合には、ニューラルネットワークの入力層の入力ユニット数ｎはｗ＊ｈとなる。

なお、上記では、画像特徴量として、ソーベルオペレータによる微分処理の強度値を例に示したが、プレビットオペレータによるエッジ情報や、４つのプレビットオペレータを用いた４方向面特徴などを、入力ユニットへの画像特徴量として用いてもよい。更には、切り出した濃淡画像やエッジ画像に対して、リサイズ処理などを施した後のデータを、目位置及び目開閉度の検出領域の画像特徴量として、ニューラルネットワークへの入力データとしてもよい。

また、図３（Ｃ）の各画素の画像特徴量が、ニューラルネットワークの入力層の複数の入力ユニットに入力されると、その結果として出力層の２つの出力ユニットから出力値Ｏ１、Ｏ２が出力され、出力値Ｏ１から、検出領域内に目があるか否かを示す値を得て、また、出力値Ｏ２から、検出領域内に存在する目の開閉度を得る。

出力値Ｏ１は、入力される検出領域内に目があれば１．０に近い値となり、目が存在しないのであれば０．０に近い値となる。また、出力値Ｏ２は、目が存在し、かつ目が大きく開いている場合には１．０に近い値となり、目が閉じている場合には０．０に近い値となる。

次に、ニューラルネットワークの学習について説明する。まず、ニューラルネットワークを学習させるための学習画像として、図４に模式的に示すように、学習被験者の目の画像（以下、目画像と呼ぶ。）を複数用意しておく。なお、開眼から閉眼までの状態を表す画像を複数用意しておくことが好ましい。

ここで、これらの学習画像を用いたニューラルネットワークの興奮学習について説明する。まず、図４（Ａ）に示すように、検出領域の中心位置が被験者の目の中心位置と一致するように検出領域を設定し、検出領域の画像の各画素に関する上述した画像特徴量を、ニューラルネットワークの入力層の各入力ユニットに入力する。ここで、図４（Ａ）の検出領域の画像は、目を含んでおり、かつ目の開度がほぼ全開であるため、教師信号として、Ｏ１、Ｏ２各々に１．０を与えて、誤差伝播法によりニューラルネットワークの学習を行う。また、図４（Ｂ）に示すような検出領域の画像の各画素の画像特徴量を、ニューラルネットワークの入力層の各入力ユニットに入力すると共に、この検出領域の画像は目を含んでいるため、教師信号Ｏ１＝１．０を与え、図４（Ａ）の画像に比べて若干目を閉じているため、教師信号Ｏ２＝０．７５を与えて学習を行う。また、図４（Ｃ）に示すような検出領域の画像の各画素の画像特徴量を各入力ユニットに入力する場合には、この検出領域の画像に含まれる目が更に目を閉じているため、教師信号Ｏ１＝１．０、教師信号Ｏ２＝０．２５を与えて学習を行う。

また、図４（Ｄ）に示すような検出領域の画像の各画素の画像特徴量を各入力ユニットに入力する場合には、検出領域の画像は目を含んでいるが、目をほとんど閉じているため、教師信号Ｏ１＝１．０、教師信号Ｏ２＝０．０を与えて学習を行う。なお、教師信号Ｏ２の設定方法については後述する。

さらには、正しく目の位置を検出できるように、逆に言えば検出領域内に目が存在していても、目の中心が検出領域の中心からずれている場合は、教師Ｏ１の値が大きくならないように、目に対する抑制学習を行う。具体的には、図４（Ｅ）〜（Ｈ）に示すように、検出領域内に目がある程度含まれている状態で、かつ検出領域の中心位置が目の中心位置からずれるように検出領域を設定して、上記と同様に誤差伝播法による学習を行う。なおこの抑制学習を行う場合、教師信号Ｏ１、Ｏ２の値はすべて０．０として学習を行う。

また、目を表していない画像（以下、非目画像と呼ぶ。例えば風景画像などである。）を複数用意しておいて、図４（Ｅ）〜（Ｈ）と同様の抑制学習を行って、目のみに反応するようにニューラルネットワークの学習を行う。この抑制学習においても、教師信号Ｏ１、Ｏ２の値はすべて０．０として学習を行う。

なお、図４では、ある一人の被験者を用いた学習例を示しているが、一般的なニューラルネットワークの学習方法と同様に、多数の被験者の画像および非目画像を用いて学習することが好ましい。これにより、ニューラルネットワークの汎化性能を高めることができる。

ここで、前述のニューラルネットワークの目に対する興奮学習で用いる目の開閉度を表す教師信号Ｏ２の値の算出方法について説明する。図５（Ａ）〜（Ｄ）は、上述した図４（Ａ）〜（Ｄ）と同様であり、目を模式的に現した画像である。

目の開閉度Ｏ２の算出方法の一例としては、図５の被験者において、図５（Ａ）の状態のように、一般的にもっともまぶたを開いた状態であれば、この状態の画像に対する目の開閉度Ｏ２を１．０とする。また、このときの上まぶたと下まぶたとでもっとも離れた位置での間隔がｈ１であり、図５（Ｂ）〜（Ｄ）の状態のように、上まぶたと下まぶたとでもっとも離れた位置での間隔が、それぞれｈ２、ｈ３、ｈ４であれば、ｈ２／ｈ１、ｈ３／ｈ１、ｈ４／ｈ１の各々を目の開閉度Ｏ２の値とする。

なお、上記の算出方法に限定されるものではなく、例えば、図５（Ａ）における目の幅をｗ１とすれば、この画像に対する目の開閉度Ｏ２をｈ１／ｗ１としてもよい。また、図５（Ｂ）〜（Ｄ）についても同様に、目の幅ｗ２、ｗ３、ｗ４とまぶた間隔ｈ２、ｈ３、ｈ４の比（ｈ２／ｗ２、ｈ３／ｗ３、ｈ４／ｗ４）から目の開閉度Ｏ２を決定し、ニューラルネットワークの学習に用いてもよい。

次に、画像処理装置１８で実行されるニューラルネットワークを学習させるための学習処理ルーチンについて図６を用いて説明する。まず、学習画像として上述した図４に示すようなＮ枚の目画像を用意しておく。なお、Ｎ枚の目画像は様々な人の目や様々な開閉度の目を含んでいることが好ましい。また、Ｎ枚の目画像各々について、目の中心位置（ｘｃ、ｙｃ）とその目の開閉度ｅ（０．０≦ｅ≦１．０）を求めておく。また、Ｍ枚の非目画像（例えば風景画像など）も用意しておく。

学習処理ルーチンのステップ１００において、ニューラルネットワークの繰り返し学習の回数を示す変数ｌに初期値０を設定し、ステップ１０２において、学習画像を識別するための変数ｉに初期値０を設定する。

そして、ステップ１０４において、ｉ番目の学習用の目画像ｎｉを用いて、上記図４（Ａ）〜（Ｄ）に示したように、目の中心位置が中心位置となる検出領域の画像を設定し、この検出領域の画像を用いて目の興奮学習を行う。次のステップ１０６では、ｉ番目の学習用の目画像ｎｉを用いて、上記図４（Ｅ）〜（Ｈ）に示したように、目の中心位置が中心位置からずれた位置となる検出領域の画像を設定し、この検出領域の画像を用いて目の抑制学習を行う。なお、抑制学習における目の検出領域の位置について、学習用の目画像ｎｉの目の中心位置（ｘ、ｙ）に対して、検出領域の中心位置が、一定距離の範囲で離れた位置になるようにランダムに設定して学習する。ここで一定距離の範囲とは例えば５画素以上２０画素以下の範囲とする。

そして、ステップ１０８では、変数ｉをインクリメントし、ステップ１１０で、変数ｉが学習用の目画像数Ｎ以下であるか否かを判定し、Ｎ枚の学習用の目画像のうち、上記ステップ１０４、１０６を行っていない学習用の目画像がある場合には、ステップ１０４へ戻るが、全ての学習用の目画像について上記ステップ１０４、１０６を行った場合には、学習用の目画像について１回の学習が終わったと判断し、ステップ１１２へ移行する。

ステップ１１２では、学習用の非目画像を識別するための変数ｊに初期値０を設定し、ステップ１１４において、ｊ番目の学習用の非目画像ｍｊを用いて、抑制学習を行う。そして、ステップ１１６では、変数ｊをインクリメントし、ステップ１１８で、変数ｊが学習用の非目画像数Ｍ以下であるか否かを判定し、Ｍ枚の学習用の非目画像のうち、上記ステップ１１４を行っていない学習用の非目画像がある場合には、ステップ１１４へ戻るが、全ての学習用の非目画像について上記ステップ１１４を行った場合には、学習用の非目画像について１回の学習が終わったと判断し、ステップ１２０へ移行する。

ステップ１２０では、学習回数を示す変数ｌをインクリメントし、ステップ１２２で、変数ｌが規定の学習回数Ｌ以下であるか否かを判定し、上記の学習をＬ回行っていない場合には、ステップ１０２へ戻るが、Ｌ回の学習を終了した場合には、ニューラルネットワークの学習を終了したと判断し、学習処理ルーチンを終了する。

上記の学習処理ルーチンを実行することにより、ニューラルネットワークは、入力される画像の各画素の画像特徴量に対して、出力値Ｏ１が、入力される画像が目を含んでいるか否かを示す値となり、出力値Ｏ２が、入力される画像が含む目の開閉度を示す値となるように学習される。

次に、画像処理装置１８で実行される撮像した画像から、目の位置及び目の開閉度を検出する検出処理ルーチンについて図７を用いて説明する。

まず、ステップ１３０において、検出対象者１２の顔を観察するカメラ１４から、撮像した画像を取り込み、ステップ１３２において、目およびその開閉度を検出するための探索領域を設定する。上記ステップ１３２では、撮像した画像から顔を検出し、検出された顔の位置情報から目の探索領域を設定することとする。顔の検出には、例えばニューラルネットワークを用いた方法として、Ｈ. Ｒｏｗｌｅｙらの方法（“ＮｅｕｒａｌＮｅｔｗｏｒｋ−ｂａｓｅｄＦａｃｅＤｅｔｅｃｔｉｏｎ”、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、Ｖｏｌ.２０、Ｎｏ.１、１９９８、ｐｐ.２３−３８）を用いればよい。

その他にも、Ｈａｒｒ特徴量とブースティング技法とを組み合わせた検出方法として、Ｐ. Ｖｉｏｌａらの方法（“ＲｏｂｕｓｔＲｅａｌ−ｔｉｍｅＦａｃｅＤｅｔｅｃｔｉｏｎ”、ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、Ｎｏ２. ２００４、ｐｐ. １３７−１５４）などを用いることで、画像中から顔を検出してもよい。

例えば、図８（Ａ）に示すような撮像画像が与えられると、図８(Ｂ)に示すように、画像内のある位置において矩形破線で示される顔検出領域を設定する。そして、矩形の顔検出領域Ｐａの画像特徴量から、ニューラルネットワークなどのパターン識別機によって、顔検出領域Ｐａ内に顔があるか否かを判定する。また、図８（Ｂ）に示すように、顔検出領域を画像全体に走査して、同様に判定を行うことで、撮像画像中での顔の位置を検出する。図８（Ｂ）の例では、顔検出領域Ｐｂの位置で顔が検出される。

そして、顔が検出された位置を基準に、目の探索領域を左右各々について設定する。具体的には、図９（Ａ）に示すように、顔位置(ｘｃ、ｙｃ)が検出されると、次の（１）式、（２）式を用いて、右目の探索領域の中心位置（ｘｒ、ｙｒ）を設定する。
ｘｒ＝ｘｃ−ｘ_{ｏｆｆｓｅｔ} ・・・（１）
ｙｒ＝ｙｃ−ｙ_{ｏｆｆｓｅｔ} ・・・（２）

ここで、ｘ_{ｏｆｆｓｅｔ}及びｙ_{ｏｆｆｓｅｔ}は、顔の大きさに依存した定数（＞０）であり、あらかじめ定義しておくパラメータである。

そして、図９（Ａ）に示すように、(ｘｒ、ｙｒ)を中心として幅Ｗｅ、高さＨｅの矩形領域を右目探索領域として設定する。なお、矩形領域の大きさＷｅ、Ｈｅは、顔の大きさに依存した定数（＞０）であり、あらかじめ定義しておくパラメータである。

また同様に、左目についても、図９（Ｂ）に示すように、左目の探索領域の中心位置（ｘｌ、ｙｌ）を次の（３）式、（４）式より求め、その位置を中心として幅Ｗｅ、高さＨｅの矩形領域を左目探索領域として設定する。
ｘｌ＝ｘｃ＋ｘ_{ｏｆｆｓｅｔ} ・・・（３）
ｙｌ＝ｙｃ−ｙ_{ｏｆｆｓｅｔ} ・・・（４）

そして、ステップ１３４では、左右各々の目探索領域に対して、目の有無と目の開閉度とを検出可能な上記のニューラルネットワークを適用して、ニューラルネットワークの出力値に基づいて、探索領域から目の位置及びその開閉度を検出するための画像特徴位置強度画像及び画像特徴状態画像を生成する。

以下では、図１０に示すような右目の探索領域に対して、目の有無と目の開閉度とを検出するニューラルネットワークを適用する場合を例に説明する。図１０は図９（Ａ）の右目の探索領域を示しており、図１０の破線矩形は、目位置および目開閉度を検出するための検出領域を示している。例えば、図１０の検出領域Ｑａにおいて、その破線矩形内の各画素の画像特徴量を上記のニューラルネットワークの各入力ユニットに入力し、出力値Ｏ１、Ｏ２から、その検出領域内に目があるか否か、及び目の開閉度を検出する。そして、上記ステップ１３２における顔検出の場合と同様に、検出領域を右目探索領域全体に走査して、各位置での検出領域の各画素の画像特徴量を入力したときのニューラルネットワークの出力値Ｏ１、Ｏ２に基づいて、後述する画像特徴位置強度画像及び画像特徴状態画像を生成し、生成された画像特徴位置強度画像及び画像特徴状態画像から、探索領域内の目位置強度及び目の開閉度を算出する。

以下に、上記ステップ１３４における画像特徴位置強度画像及び画像特徴状態画像を生成する画像生成処理ルーチンについて、図１１を用いて説明する。

まず、ステップ１５０において、検出領域Ｑの左上Ｙ座標ｙを０に設定し、ステップ１５２において、左上Ｘ座標ｘを０に設定する。これにより、初期設定として、図１２（Ａ）における検出領域Ｑａの位置に検出領域Ｑが設定される。

そして、ステップ１５４では、上述したニューラルネットワークを用いて、検出領域Ｑの各画素の画像特徴量を入力として、出力値Ｏ１、Ｏ２を算出し、ステップ１５６において、上記ステップ１５４で算出された出力値Ｏ１、Ｏ２を用いて、画像特徴位置強度画像及び画像特徴状態画像を更新する。図１２（Ｂ）、（Ｃ）に示すように、画像特徴位置強度画像及び画像特徴状態画像における座標（ｘ、ｙ）の画素の輝度値として、算出された出力値Ｏ１、Ｏ２を各々代入する。例えば、図１２（Ａ）の検出領域Ｑａのように、検出領域内に目が存在しない場合には、画像特徴位置強度画像の座標（ｘ、ｙ）の画素の輝度値に、０に近い値が代入され、同様に、画像特徴状態画像の座標（ｘ、ｙ）の画素の輝度値についても、同様に０に近い値が代入される。

そして、ステップ１５８では、左上Ｘ座標ｘをインクリメントし、ステップ１６０において、探索領域の横幅をＷｅ、検出領域Ｑの横幅をｗｓとすると、検出領域Ｑの左上Ｘ座標ｘが（Ｗｅ−ｗｓ）より小さいか否かを判定し、ｘが（Ｗｅ−ｗｓ）より小さい場合には、検出領域Ｑが探索領域内に収まっていると判断し、上記ステップ１５４へ戻り、画像特徴位置強度画像及び画像特徴状態画像を更新する。一方、ｘ＝Ｗｅ−ｗｓとなった場合には、検出領域Ｑが探索領域内に収まっていないと判断し、ステップ１６２において、探索領域の縦高さをＨｅ、検出領域Ｑの縦高さをｈｓとすると、検出領域Ｑの左上Ｙ座標ｙが（Ｈｅ−ｈｓ）より小さいか否かを判定し、ｙが（Ｈｅ−ｈｓ）より小さい場合には、検出領域Ｑが探索領域内に収まっていると判断し、上記ステップ１５２へ戻り、検出領域Ｑの左上Ｘ座標ｘに初期値０を代入して、再び画像特徴位置強度画像及び画像特徴状態画像を更新する。一方、ｙ＝Ｈｅ−ｈｓとなった場合には、図１２（Ｃ）に示す検出領域Ｑｃまで走査され、検出領域Ｑが探索領域内全体を走査され、画像特徴位置強度画像及び画像特徴状態画像が生成されたと判断し、画像生成処理ルーチンを終了する。

上記の画像生成処理ルーチンでは、例えば、図１２（Ａ）の検出領域Ｑｂのように、右目を含んでいる場合には、その際のニューラルネットワークの出力値Ｏ１は１に近い値になるため、図１２（Ｂ）に示すように、その座標の画素の輝度値は１に近い値になる。また、図１２（Ａ）のように、右目が開眼している場合には、検出領域Ｑｂのように右目を含んでいる検出領域に対するニューラルネットワークの出力値Ｏ２が１に近い値になるため、図１２（Ｃ）に示すように、この検出領域に対する座標の画素の輝度値は１に近い値になる。

そして、検出処理ルーチンのステップ１３６において、上記ステップ１３４で生成された画像特徴位置強度画像及び画像特徴状態画像から、探索領域内に目が存在しているか否かを検出すると共に、存在しているならば存在している目の位置及び開眼度を検出して、検出処理ルーチンを終了する。例えば、図１２に示すような画像特徴位置強度画像から、最大輝度値Ｉｍａｘとその座標値（ｘｍ、ｙｍ）を求め、次の（５）式を満たす場合、位置（ｘｍ、ｙｍ）に目が存在すると判断する。
Ｉ_ｍａｘ＞Ｏ_{ｔｈｒｅｓｈ} ・・・（５）

ここで、Ｏ_{ｔｈｒｅｓｈ}は、目が存在するか否かを判断するためのしきい値であり、例えば、０．５を予め設定しておく。また、画像特徴状態画像の座標（ｘｍ、ｙｍ）における輝度値を目の開閉度として取得する。

一方、上記（５）式を満たさない場合には、探索領域内には目が存在しないと判断する。また、上記と同様に、左目探索領域にも処理を行うことで、左右の目の位置及び目の開閉度を同時に検出することができる。

以上説明したように、第１の実施の形態に係る目開閉度検出装置によれば、入力された画像に対応する目の有無を示す出力値及び目の開閉度を出力するように学習されたニューラルネットワークを用いて、撮像された画像の検出領域の画像の各画素の画像特徴量を入力して、目の有無を示す値及び目の開閉度を検出することにより、目の有無及び開閉度を同時に検出することができるため、目に関する物理量を検出する処理において、処理の高速化を図ることができる。

また、目の位置及び開閉度を検出する際に、目を検出可能な探索領域を特定して、探索領域内を走査した各検出領域の画像について、ニューラルネットワークを用いて、目の有無及び開閉度を検出し、各検出領域で検出された目の有無及び開閉度に基づいて、撮像された画像に含まれる目の位置及び開閉度を検出するため、更に処理の高速化を図ることができる。

また、目の位置とその開閉度を同時に計測することができる。例えば、撮像された画像の中から目を検出し、さらにその開閉度を測定したい場合、本実施の形態によれば、目の検出および目の開閉度の検出を同時に行っているため、処理の高速化を図ることができる。

また、目を閉じている状態の画像を学習用の目画像として用いているため、画像が表す目が閉じている状態であっても、目の有無及び目の開閉度の検出が可能であり、閉じた目に対する誤検出などを低減することができる。

また、目が開いた状態の学習画像と、目を閉じた状態の学習画像と、およびその間の過渡的状態の学習画像とを用いて、ニューラルネットワークを学習させることで、目の有無と共に、目の開眼度も同時に検出することができる。

次に、第２の実施の形態について説明する。なお、第１の実施の形態と同様の構成となっている部分については、同一符号を付して説明を省略する。

第２の実施の形態では、ニューラルネットワークを適用した場合の出力値が、目の位置と目の開閉度とを示す値となるように、ニューラルネットワークが構成されている点が第１の実施の形態と異なっている。

第２の実施の形態では、図１３に示すように、ニューラルネットワークの出力層において、検出領域内に目が存在するか否かを出力する出力ユニットＯ１を、画像と同様に２次元に分布する複数のユニットで構成し、目の中心位置に相当するユニットは１．０を、それ以外のユニットは０．０を出力するように学習して、出力ユニットの複数のユニットにより、目の中心位置を検出する。そして、目の検出時には、出力ユニットＯ１の２次元配列のユニットの各出力値を、画像特徴位置強度画像の対応する領域に足し合わせて更新し、上記（５）式と同様に、画像特徴位置強度画像の最大輝度値Ｉ_ｍａｘとその座標値（ｘｍ、ｙｍ）とから、目の位置及び目の開閉度を算出する。

なお、出力ユニットＯ１のユニット数は、例えば、上記図３（Ｃ）のエッジ画像と同様に、ｗ＊ｈとする。あるいは、（０．５＊ｗ）＊（０．５＊ｈ）のように、検出領域に対して縮小したサイズで構成して、出力値を画像特徴位置強度画像に足し合わせて更新する際に、出力ユニットＯ１の大きさをｗ＊ｈサイズに変換して、画像特徴位置強度画像に足し合わせてもよい。

また、学習の際には、図１４に示すように、検出領域内で目の中心位置に相当する出力ユニットＯ１の何れかのユニットには、教師信号１．０を与え、それ以外のユニットには教師信号０．０を与えて、誤差伝播法で目の興奮学習を行う。たとえば、図１４（Ａ）においては、目の中心位置が、検出領域の中心位置と一致しているため、出力ユニットＯ１の中心のユニットに対して１．０を教師信号として与え、それ以外のユニットには０．０を教師信号として与えて学習を行う。また、図１４（Ｂ）、（Ｃ）の場合は、目の中心位置がそれぞれ検出領域の右下、左上であるため、その位置に対応した出力ユニットＯ１のユニットに１．０を教師信号として与えて学習を行う。一方、図１４（Ｄ）の場合は、目の領域が検出領域からはみ出しているため、検出領域内に目の中心位置が存在しても、出力ユニットＯ１の全てのユニットに０．０を教師信号として与えて学習を行う。このように学習することで、目全体の特徴を含み、かつその中心位置を正確に検出するように、ニューラルネットワークを学習させることができる。

上記のようにニューラルネットワークを学習させることにより、ニューラルネットワークは、入力される画像の各画素の画像特徴量に対して、出力ユニットＯ１の複数のユニットの出力値が、入力される画像が含んでいる目の位置を示し、出力値Ｏ２が、入力される画像が含んでいる目の開閉度を示す値となるように学習される。

なお、目開閉度検出装置の構成や目検出処理ルーチンの処理は、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、第２の実施の形態に係る目開閉度検出装置によれば、入力された画像に対応する目の位置を示す複数の出力値及び目の開閉度を示す出力値を出力するように学習されたニューラルネットワークを用いて、撮像された画像の検出領域の各画素の画像特徴量を入力して、目の位置を示す複数の出力値及び目の開閉度を示す出力値を検出することにより、目に関する複数種類の物理量を同時に検出することができるため、目に関する物理量を検出する処理において、処理の高速化を図ることができる。

なお、上記の実施の形態では、ニューラルネットワークを用いて、目の位置および目の開閉度を同時に検出する場合を例に説明したが、これに限定されるものではなく、例えば、口の位置および口の開閉度を同時に検出するようにニューラルネットワークを構成してもよい。この場合には、口を表す画像の各画像の画像特徴量をニューラルネットワークの各入力ユニットに入力し、入力画像に対する口の位置及び口の開閉度の各々を示す教師信号を与えて、ニューラルネットワークを学習させればよい。また、目及び口の両者について、両者の位置及び両者の開閉度を画像から検出するように、ニューラルネットワークを学習させて、ニューラルネットワークを用いて、目及び口の位置と、目及び口の開閉度とを同時に検出するようにしてもよい。

また、ニューラルネットワークを用いて、目の位置とその開閉度とを検出する場合を例に説明したが、目の位置ではなく、目に関する異なる二種類の状態量を同時に検出するようにニューラルネットワークを構成してもよい。例えば、画像中における目の位置は、他の手法により既に求められているとして、その目領域に対してニューラルネットワークを適用することにより、２つの状態量である目の開閉度及び目領域における黒目の位置を検出するように構成してもよい。この場合、目領域における黒目の位置について、例えば、目領域の左側に黒目がある場合は０を出力し、右端にある場合は１を出力するように、ニューラルネットワークを学習させて、目の開閉度及び目領域における黒目の位置を同時に検出するように構成すればよい。

また、目、口などの画像特徴に限らず、本ニューラルネットワークの構成、学習および検出方法により、学習画像に応じて、様々な画像特徴とその状態量とを同時に検出するように構成してもよい。

本発明の第１の実施の形態に係る目開閉度検出装置の構成を示す概略図である。本発明の第１の実施の形態に係る目開閉度検出装置で用いられるニューラルネットワークを示すイメージ図である。ニューラルネットワークに入力する画像特徴量を得る方法を説明するためのイメージ図である。学習用の目画像を示すイメージ図である。目の開閉度の算出方法を説明するためのイメージ図である。本発明の第１の実施の形態に係る目開閉度検出装置における画像処理装置で実行される学習処理ルーチンの内容を示すフローチャートである。本発明の第１の実施の形態に係る目開閉度検出装置における画像処理装置で実行される目検出処理ルーチンの内容を示すフローチャートである。（Ａ）入力された撮像画像を示すイメージ図、及び（Ｂ）画像の顔検出領域を示すためのイメージ図である。（Ａ）右目の探索領域を説明するためのイメージ図、及び（Ｂ）左目の探索領域を説明するためのイメージ図である。探索領域内に設定される検出領域を説明するためのイメージ図である。本発明の第１の実施の形態に係る目開閉度検出装置における画像処理装置で実行される画像生成処理ルーチンの内容を示すフローチャートである。（Ａ）探索領域内に設定される検出領域を説明するためのイメージ図、（Ｂ）画像特徴位置強度画像のイメージ図、及び（Ｃ）画像特徴状態画像のイメージ図である。本発明の第２の実施の形態に係る目開閉度検出装置で用いられるニューラルネットワークを示すイメージ図である。学習用の目画像及び教師信号の内容を示すイメージ図である。

符号の説明

１０目開閉度検出装置
１２検出対象者
１４カメラ
１６画像取り込み装置
１８画像処理装置

Claims

検出対象物を撮像するための撮像手段と、
複数の入力ユニットを備えた入力層と複数の出力ユニットを備えた出力層とを含むニューラルネットワークであって、かつ、複数の画像の各々の複数の画素の画像特徴量の各々を前記複数の入力ユニットの各々に入力すると、前記複数の画像の各々に対応する前記検出対象物に関する複数種類の物理量が前記複数の出力ユニットから出力されるように学習されたニューラルネットワークを用いて、前記撮像手段によって撮像された画像の複数の画素の画像特徴量から、前記画像に対する前記複数種類の物理量を検出する検出手段と、
を含む画像検出装置。
検出対象物を撮像するための撮像手段と、
複数の入力ユニットを備えた入力層と複数の出力ユニットを備えた出力層とを含むニューラルネットワークであって、かつ、複数の画像の各々の複数の画素の画像特徴量の各々を前記複数の入力ユニットの各々に入力すると、前記複数の画像の各々に対応する前記検出対象物の有無を示す第１の物理量、前記検出対象物の位置を示す第２の物理量、及び前記検出対象物の存在及び位置以外を示す第３の物理量のうち少なくとも２つが前記複数の出力ユニットから出力されるように学習されたニューラルネットワークを用いて、前記撮像手段によって撮像された画像の複数の画素の画像特徴量から、前記画像に対する前記第１の物理量、前記第２の物理量、及び前記第３の物理量のうち少なくとも２つを検出する検出手段と、
を含む画像検出装置。
前記撮像手段によって撮像された画像において、前記検出対象物を検出可能な所定領域を特定する領域特定手段を更に含み、
前記検出手段は、前記ニューラルネットワークを用いて、前記領域特定手段によって特定された所定領域の画像の複数の画素の画像特徴量から、前記所定領域の画像に対する前記複数種類の物理量を検出する請求項１記載の画像検出装置。
前記撮像手段によって撮像された画像において、前記検出対象物を検出可能な所定領域を特定する領域特定手段を更に含み、
前記検出手段は、前記ニューラルネットワークを用いて、前記領域特定手段によって特定された所定領域の画像の複数の画素の画像特徴量から、前記所定領域の画像に対する前記第１の物理量、前記第２の物理量、及び前記第３の物理量のうち少なくとも２つを検出する請求項２記載の画像検出装置。